このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210823となっている論文です。

PDF登録状況(公開日: 20210823)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) CE-Dedup:画像重複に基づくコスト効果畳み込みニューラルネットワークトレーニング [全文訳有]

CE-Dedup: Cost-Effective Convolutional Neural Nets Training based on Image Deduplication ( http://arxiv.org/abs/2109.00899v1 )

ライセンス: CC BY 4.0
Xuan Li, Liqiong Chang, Xue Liu(参考訳) 拡大を続ける大規模な画像データセットに貢献するConvolutional Neural Networks(CNN)は、ビジョンベースのタスクで人気を博している。 一般的に、ネットワークトレーニングの精度を高めるために、より大きなデータセットを持つことが好ましい。 しかし、データセットの品質の影響は関与しない。 重複に近い画像がデータセットに存在すると仮定するのは合理的である。 例えば、Street View House Numbers (SVHN)データセットは、0から9までのトリミングされたハウスプレート桁を持ち、同じ/類似のハウスプレートから繰り返し数字を持つ可能性が高い。 冗長な画像は、意識せずにデータセットの特定の部分を取り込みます。 cnnsトレーニングの精度向上にはほとんど貢献していないが、これらの重複画像は余分なリソースと計算消費をもたらす。 そこで本稿では,CE-Dedup と呼ばれる CNN トレーニング性能に対する近距離画像の影響を評価する枠組みを提案する。 具体的には、CE-Dedupはハッシュベースの画像重複と下流CNNに基づく画像分類タスクを関連付ける。 CE-Dedupは、デデューズ閾値を調整することにより、大きなデデューズ比と安定した精度とのトレードオフをバランスさせる。 CE-Dedupの有効性は、よく知られたCNNベンチマークの広範な実験を通じて検証される。 一方、CE-Dedupは同じ検証精度を維持しながら、データセットのサイズを23%削減できる。 一方、小さな検証精度(5%)の低下を許容すると、ce-dedupはデータセットのサイズを75%削減できる。

Attributed to the ever-increasing large image datasets, Convolutional Neural Networks (CNNs) have become popular for vision-based tasks. It is generally admirable to have larger-sized datasets for higher network training accuracies. However, the impact of dataset quality has not to be involved. It is reasonable to assume the near-duplicate images exist in the datasets. For instance, the Street View House Numbers (SVHN) dataset having cropped house plate digits from 0 to 9 are likely to have repetitive digits from the same/similar house plates. Redundant images may take up a certain portion of the dataset without consciousness. While contributing little to no accuracy improvement for the CNNs training, these duplicated images unnecessarily pose extra resource and computation consumption. To this end, this paper proposes a framework to assess the impact of the near-duplicate images on CNN training performance, called CE-Dedup. Specifically, CE-Dedup associates a hashing-based image deduplication approach with downstream CNNs-based image classification tasks. CE-Dedup balances the tradeoff between a large deduplication ratio and a stable accuracy by adjusting the deduplication threshold. The effectiveness of CE-Dedup is validated through extensive experiments on well-known CNN benchmarks. On one hand, while maintaining the same validation accuracy, CE-Dedup can reduce the dataset size by 23%. On the other hand, when allowing a small validation accuracy drop (by 5%), CE-Dedup can trim the dataset size by 75%.
翻訳日:2021-09-05 10:07:40 公開日:2021-08-23
# (参考訳) ウェハ製造における高精度欠陥検出

Fast Accurate Defect Detection in Wafer Fabrication ( http://arxiv.org/abs/2108.11757v1 )

ライセンス: CC BY 4.0
Thomas Olschewski(参考訳) オブジェクト分類のためのジェネリック高速手法を提案する。 さらに,次元還元法を提案する。 提案手法は,数製品数万チップの欠陥状態を,測定値や測定値の一部だけに基づいて予測する作業において,チップ製造から得られる実世界データに適用されている。 最適化のために多くの重みを持つ典型的なニューラルネットワークとは異なり、提案アルゴリズムは、グローバルな最適化を見つける機会を増やすために、非常に少数の変数だけを最適化しようとする。 私たちのアプローチは、高速で、現実世界のウエハデータで非常に優れたパフォーマンスを実現し、短い実装を可能にし、説明しやすい明確な意味を持つ値を計算できるという点で興味深いです。

A generic fast method for object classification is proposed. In addition, a method for dimensional reduction is presented. The presented algorithms have been applied to real-world data from chip fabrication successfully to the task of predicting defect states of tens of thousands of chips of several products based on measurements or even just part of measurements. Unlike typical neural networks with a large number of weights to optimize over, the presented algorithm tries optimizing only over a very small number of variables in order to increase chances to find a global optimum. Our approach is interesting in that it is fast, led to good to very good performance with real-world wafer data, allows for short implementations and computes values which have a clear meaning easy to explain.
翻訳日:2021-08-28 03:22:20 公開日:2021-08-23
# (参考訳) ペア無線音センサによる衝撃的騒音発生の判定 [全文訳有]

Determining the origin of impulsive noise events using paired wireless sound sensors ( http://arxiv.org/abs/2108.11758v1 )

ライセンス: CC BY 4.0
Fabian Nemazi and Jon Nordby(参考訳) 本研究は, 一対の無線ノイズセンサを用いて, 衝撃的ノイズ発生源の同定方法について検討する。 1つのセンサを既知のノイズ源に、もう1つのセンサをノイズ受信機に配置する。 機械学習モデルは2つのセンサーからデータを受け取り、与えられたノイズイベントが既知のノイズ源または他のソースに由来するかどうかを推定する。 プライバシーの問題を避けるために、このアプローチでは、音をプライバシー互換のスペクトログラムに変換する、最先端のプリプロセッシングを使用している。 このシステムは、騒音放射試験中に収集されたデータを用いて、射撃場と爆薬訓練施設で評価された。 畳み込みニューラルネットワークと相互相関の組み合わせは最良の結果を得た。 異なるスペクトログラム表現を用いて複数の代替モデルを構築した。 最善のモデルでは,インパルス雑音の70.8\%が検出され,リコールと精度の最適トレードオフにおいて,ノイズの90.3\%が正しく予測された。

This work investigates how to identify the source of impulsive noise events using a pair of wireless noise sensors. One sensor is placed at a known noise source, and another sensor is placed at the noise receiver. Machine learning models receive data from the two sensors and estimate whether a given noise event originates from the known noise source or another source. To avoid privacy issues, the approach uses on-edge preprocessing that converts the sound into privacy compatible spectrograms. The system was evaluated at a shooting range and explosives training facility, using data collected during noise emission testing. The combination of convolutional neural networks with cross-correlation achieved the best results. We created multiple alternative models using different spectrogram representations. The best model detected 70.8\% of the impulsive noise events and correctly predicted 90.3\% of the noise events in the optimal trade-off between recall and precision.
翻訳日:2021-08-28 03:21:10 公開日:2021-08-23
# (参考訳) センサトランスデューサ変換ルーチンのための機械学習 [全文訳有]

Machine Learning for Sensor Transducer Conversion Routines ( http://arxiv.org/abs/2108.11374v1 )

ライセンス: CC BY 4.0
Thomas Newton, James T. Meech and Phillip Stanley-Marbell(参考訳) デジタル出力を持つセンサは、ユニットレスadcサンプルを正しい単位で物理量に変換するソフトウェア変換ルーチンを必要とする。 これらの変換ルーチンは、低消費電力組み込みシステムの限られた計算資源から計算的に複雑である。 本稿では,BME680環境センサの精度を犠牲にすることなく,新しい複雑な変換ルーチンを学習するための機械学習手法を提案する。 本研究では, モデルにおける精度と計算オーバーヘッドのトレードオフをパレート解析し, 既存の産業標準変換ルーチンの計算オーバーヘッドを, 温度, 圧力, 湿度それぞれ62 %, 71 %, 18 %削減するモデルを提案する。 対応する RMS 誤差は 0.0114 $^\circ$C, 0.0280 KPa, 0.0337 % である。 これらの結果から,変換ルーチンを学習する機械学習手法は,高い精度を維持しつつ,計算オーバーヘッドを低減した変換ルーチンを生成できることが示唆された。

Sensors with digital outputs require software conversion routines to transform the unitless ADC samples to physical quantities with the correct units. These conversion routines are computationally complex given the limited computational resources of low-power embedded systems. This article presents a set of machine learning methods to learn new, less-complex conversion routines that do not sacrifice accuracy for the BME680 environmental sensor. We present a Pareto analysis of the tradeoff between accuracy and computational overhead for the models and present models that reduce the computational overhead of the existing industry-standard conversion routines for temperature, pressure, and humidity by 62 %, 71 %, and 18 % respectively. The corresponding RMS errors for these methods are 0.0114 $^\circ$C, 0.0280 KPa, and 0.0337 %. These results show that machine learning methods for learning conversion routines can produce conversion routines with reduced computational overhead while maintaining good accuracy.
翻訳日:2021-08-28 03:14:45 公開日:2021-08-23
# 長期・短期・突然の事象:グラフ型マルチビューモデルによる取引量移動予測

Long-term, Short-term and Sudden Event: Trading Volume Movement Prediction with Graph-based Multi-view Modeling ( http://arxiv.org/abs/2108.11318v1 )

ライセンス: Link先を確認
Liang Zhao, Wei Li, Ruihan Bao, Keiko Harimoto, YunfangWu and Xu Sun(参考訳) 取引量移動予測は、様々な金融アプリケーションにおいて鍵となる。 その重要性にもかかわらず、異なる情報源からの情報を包括的に理解する必要性があるため、この話題に関する研究はほとんどない。 例えば、複数の株式、最近の取引データ、突然のイベントの関係は、すべて取引市場を理解する上で不可欠である。 しかし,従来の手法のほとんどは過去数週間の変動情報を考慮に入れているだけであり,性能は低い。 この問題に対処するため,多視点情報,すなわち長期の株価トレンド,短期変動,突然の出来事情報を同時に時間的不均一グラフに組み込むグラフベースの手法を提案する。 また,より優れた予測のために,変動の異なる視点間の相関を強調するために,深い正準解析を行う。 実験結果から,本手法は強いベースラインを大きなマージンで上回ることがわかった。

Trading volume movement prediction is the key in a variety of financial applications. Despite its importance, there is few research on this topic because of its requirement for comprehensive understanding of information from different sources. For instance, the relation between multiple stocks, recent transaction data and suddenly released events are all essential for understanding trading market. However, most of the previous methods only take the fluctuation information of the past few weeks into consideration, thus yielding poor performance. To handle this issue, we propose a graphbased approach that can incorporate multi-view information, i.e., long-term stock trend, short-term fluctuation and sudden events information jointly into a temporal heterogeneous graph. Besides, our method is equipped with deep canonical analysis to highlight the correlations between different perspectives of fluctuation for better prediction. Experiment results show that our method outperforms strong baselines by a large margin.
翻訳日:2021-08-26 13:05:48 公開日:2021-08-23
# (参考訳) チャネルワイズトランスを用いた3次元物体検出の改善

Improving 3D Object Detection with Channel-wise Transformer ( http://arxiv.org/abs/2108.10723v1 )

ライセンス: CC BY 4.0
Hualian Sheng and Sijia Cai and Yuan Liu and Bing Deng and Jianqiang Huang and Xian-Sheng Hua and Min-Jian Zhao(参考訳) ポイントクラウドからの3dオブジェクト検出は近年急速に進歩しているが、フレキシブルで高性能な提案の精度向上の欠如は、既存の2段階検出器にとって大きなハードルとなっている。 従来の3dプロポーザルの改良作業は、キーポイントサンプリング、セット抽象化、マルチスケール機能融合などの人間設計のコンポーネントに依存しており、強力な3dオブジェクト表現を生成する。 しかし、そのような方法は、ポイント間のリッチなコンテキスト依存をキャプチャする能力に制限がある。 本稿では,高品質な領域提案ネットワークとチャネルワイズトランスフォーマティブアーキテクチャを用いて,手作りの最小限の設計で2段階の3dオブジェクト検出フレームワーク(ct3d)を構成する。 提案するct3dは,各提案のポイント特徴に対して,提案認識埋め込みとチャネル毎コンテキストアグリゲーションを同時に行う。 具体的には、CT3Dは空間的コンテキストモデリングに提案のキーポイントを使用し、符号化モジュール内の注意伝播を学習し、提案をポイント埋め込みにマッピングする。 次に、チャネルワイズデコーディングモジュールは、チャネルワイズ再重み付けによるクエリキーインタラクションを強化し、より正確なオブジェクト予測に寄与するマルチレベルコンテキストを効果的にマージする。 広範な実験により,ct3d法の性能とスケーラビリティが向上した。 驚くべきことに、ct3dはkitti test 3d detection benchmarkにおいて中等車カテゴリーの81.77%のapを達成し、最先端の3d検出器よりも優れている。

Though 3D object detection from point clouds has achieved rapid progress in recent years, the lack of flexible and high-performance proposal refinement remains a great hurdle for existing state-of-the-art two-stage detectors. Previous works on refining 3D proposals have relied on human-designed components such as keypoints sampling, set abstraction and multi-scale feature fusion to produce powerful 3D object representations. Such methods, however, have limited ability to capture rich contextual dependencies among points. In this paper, we leverage the high-quality region proposal network and a Channel-wise Transformer architecture to constitute our two-stage 3D object detection framework (CT3D) with minimal hand-crafted design. The proposed CT3D simultaneously performs proposal-aware embedding and channel-wise context aggregation for the point features within each proposal. Specifically, CT3D uses proposal's keypoints for spatial contextual modelling and learns attention propagation in the encoding module, mapping the proposal to point embeddings. Next, a new channel-wise decoding module enriches the query-key interaction via channel-wise re-weighting to effectively merge multi-level contexts, which contributes to more accurate object predictions. Extensive experiments demonstrate that our CT3D method has superior performance and excellent scalability. Remarkably, CT3D achieves the AP of 81.77% in the moderate car category on the KITTI test 3D detection benchmark, outperforms state-of-the-art 3D detectors.
翻訳日:2021-08-26 01:14:33 公開日:2021-08-23
# (参考訳) 深い確率層を有する変圧器の正則化

Regularizing Transformers With Deep Probabilistic Layers ( http://arxiv.org/abs/2108.10764v1 )

ライセンス: CC BY 4.0
Aurora Cobo Aguilera, Pablo Mart\'inez Olmos, Antonio Art\'es-Rodr\'iguez, Fernando P\'erez-Cruz(参考訳) 言語モデル(lm)は過去10年間でノンストップで成長し、シーケンシャル・ツー・シーケンス・アーキテクチャから最先端の注意に基づくトランスフォーマーまで成長してきた。 本研究では,BERT に深層生成モデルを組み込むことによって,より汎用的なモデルが実現し,よりリッチなテキストで欠落した/騒々しい単語を暗示したり,BLEU スコアを向上したりすることができることを示す。 より正確には、正規化層としてGaussian Mixture Variational Autoencoder (GMVAE)を使用し、トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダであるLM, seq2seqでも、注意なくその効果を証明している。

Language models (LM) have grown with non-stop in the last decade, from sequence-to-sequence architectures to the state-of-the-art and utter attention-based Transformers. In this work, we demonstrate how the inclusion of deep generative models within BERT can bring more versatile models, able to impute missing/noisy words with richer text or even improve BLEU score. More precisely, we use a Gaussian Mixture Variational Autoencoder (GMVAE) as a regularizer layer and prove its effectiveness not only in Transformers but also in the most relevant encoder-decoder based LM, seq2seq with and without attention.
翻訳日:2021-08-26 01:13:34 公開日:2021-08-23
# (参考訳) 直感的マッチングフィルタによるグラフ畳み込みニューラルネットワークの基礎理解 [全文訳有]

Understanding the Basis of Graph Convolutional Neural Networks via an Intuitive Matched Filtering Approach ( http://arxiv.org/abs/2108.10751v1 )

ライセンス: CC BY 4.0
Ljubisa Stankovic and Danilo Mandic(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は、不規則領域のデータ処理において好まれるモデルとなっているが、NNのブラックボックスの性質から、その解析と動作原理はめったに検討されていない。 この目的のために、GCNNの動作を再検討し、その畳み込み層が、選択したパターン(機能)と入力データのマッチングフィルタリングを効果的に実行することを示す。 これにより、整合フィルタの観点からGCNNの統一的な説明を提供することができ、非線型ReLU層と最大プール層も整合フィルタフレームワーク内で議論される。 次に、GCNNにおける情報伝達と学習に関するステップバイステップガイドが続く。 また、標準cnnと完全連結nnをgcnnの特別な場合として得ることも示されている。 慎重に選択された数値例は、GCNN操作の様々なステップをガイドし、視覚的にも数値的にも学習する。

Graph Convolutional Neural Networks (GCNN) are becoming a preferred model for data processing on irregular domains, yet their analysis and principles of operation are rarely examined due to the black box nature of NNs. To this end, we revisit the operation of GCNNs and show that their convolution layers effectively perform matched filtering of input data with the chosen patterns (features). This allows us to provide a unifying account of GCNNs through a matched filter perspective, whereby the nonlinear ReLU and max-pooling layers are also discussed within the matched filtering framework. This is followed by a step-by-step guide on information propagation and learning in GCNNs. It is also shown that standard CNNs and fully connected NNs can be obtained as a special case of GCNNs. A carefully chosen numerical example guides the reader through the various steps of GCNN operation and learning both visually and numerically.
翻訳日:2021-08-26 01:12:35 公開日:2021-08-23
# (参考訳) クラス不均衡と消費電力制約下におけるUAVスワムのフェデレーション学習 [全文訳有]

Federated Learning for UAV Swarms Under Class Imbalance and Power Consumption Constraints ( http://arxiv.org/abs/2108.10748v1 )

ライセンス: CC BY 4.0
Ilyes Mrad, Lutfi Samara, Alaa Awad Abdellatif, Abubakr Al-Abbasi, Ridha Hamila, Aiman Erbad(参考訳) 民間および軍事用途における無人航空機(uav)の使用は、従来のアプローチよりも多くの利点があるため増加を続けている。 このような利点が豊富にあるにもかかわらず、設計上の制約を考慮して、UAVの利用状況を調べることが不可欠である。 本稿では,各UAVが機械学習分類タスクを実行する際のUAVスワムの展開について検討する。 地上ベース処理ノードとのデータ交換を回避するため、UAVリーダとSwarmメンバ間の連合学習アプローチを採用し、地上間通信や地上間通信を過度に回避しつつ、局所学習モデルを改善する。 さらに, 提案手法では, uavsの厳密なエネルギー制約とクラス不均衡の問題を考慮し, これらの設計パラメータを考慮すれば, 分類精度, エネルギー消費量, uavsの可利用性において, 複数のベースラインアルゴリズムと比較して, uav群の性能が著しく向上することを示す。

The usage of unmanned aerial vehicles (UAVs) in civil and military applications continues to increase due to the numerous advantages that they provide over conventional approaches. Despite the abundance of such advantages, it is imperative to investigate the performance of UAV utilization while considering their design limitations. This paper investigates the deployment of UAV swarms when each UAV carries a machine learning classification task. To avoid data exchange with ground-based processing nodes, a federated learning approach is adopted between a UAV leader and the swarm members to improve the local learning model while avoiding excessive air-to-ground and ground-to-air communications. Moreover, the proposed deployment framework considers the stringent energy constraints of UAVs and the problem of class imbalance, where we show that considering these design parameters significantly improves the performances of the UAV swarm in terms of classification accuracy, energy consumption and availability of UAVs when compared with several baseline algorithms.
翻訳日:2021-08-26 00:45:26 公開日:2021-08-23
# (参考訳) edge-SR: 大衆の超解答 [全文訳有]

edge-SR: Super-Resolution For The Masses ( http://arxiv.org/abs/2108.10335v1 )

ライセンス: CC BY-SA 4.0
Pablo Navarrete Michelini, Yunhua Lu, Xingqun Jiang(参考訳) 古典的な画像スケーリング(例) bicubic)は1つの畳み込み層と1つのアップスケーリングフィルタと見なすことができる。 その実装は、すべてのディスプレイデバイスと画像処理ソフトウェアでユビキタスである。 過去10年間、複数の畳み込み層と多数のフィルタを用いた画像超解像(sr)タスクのためにディープラーニングシステムが導入された。 これらの手法は、アップスケールタスクのための画像品質のベンチマークを引き継いだ。 ディスプレイパネルやタブレット,ラップトップなど,エッジデバイス上でのディープラーニングアーキテクチャを,古典的なアップスケールに置き換えることは可能でしょうか? 一方、Edge-AIチップの現在のトレンドは、ディープラーニングタスクを効率的に実行できるハードウェアの急速な開発によって、この方向への有望な未来を示している。 一方、画像SRでは、エッジデバイス上でリアルタイムに実行可能な極端に小さなサイズに制限を押し上げるアーキテクチャはごくわずかである。 古典的なアップスケーラと小さなディープラーニング構成のギャップを埋めることを目的として,この問題に対する潜在的な解決策を探究する。 古典的なアップスケーリングからディープラーニングへの遷移として、画像のスケールアップに解釈可能なメカニズムを使用する一層アーキテクチャのセットであるエッジSR(eSR)を提案する。 確かに、一層アーキテクチャはディープラーニングシステムの品質に到達できない。 それでも、高速要求では、esrは画像品質と実行時のパフォーマンスのトレードオフがより良くなります。 イメージアップスケールのための古典的アーキテクチャとディープラーニングアーキテクチャのギャップを埋めることが、このテクノロジの大規模採用に不可欠である。 同様に、この問題を解決するための内部戦略を明らかにし、将来の改善と大規模ネットワークの理解を深めるための解釈可能なシステムを持つことが重要である。

Classic image scaling (e.g. bicubic) can be seen as one convolutional layer and a single upscaling filter. Its implementation is ubiquitous in all display devices and image processing software. In the last decade deep learning systems have been introduced for the task of image super-resolution (SR), using several convolutional layers and numerous filters. These methods have taken over the benchmarks of image quality for upscaling tasks. Would it be possible to replace classic upscalers with deep learning architectures on edge devices such as display panels, tablets, laptop computers, etc.? On one hand, the current trend in Edge-AI chips shows a promising future in this direction, with rapid development of hardware that can run deep-learning tasks efficiently. On the other hand, in image SR only few architectures have pushed the limit to extreme small sizes that can actually run on edge devices at real-time. We explore possible solutions to this problem with the aim to fill the gap between classic upscalers and small deep learning configurations. As a transition from classic to deep-learning upscaling we propose edge-SR (eSR), a set of one-layer architectures that use interpretable mechanisms to upscale images. Certainly, a one-layer architecture cannot reach the quality of deep learning systems. Nevertheless, we find that for high speed requirements, eSR becomes better at trading-off image quality and runtime performance. Filling the gap between classic and deep-learning architectures for image upscaling is critical for massive adoption of this technology. It is equally important to have an interpretable system that can reveal the inner strategies to solve this problem and guide us to future improvements and better understanding of larger networks.
翻訳日:2021-08-26 00:34:37 公開日:2021-08-23
# (参考訳) エンドツーエンドオープン語彙キーワード検索 [全文訳有]

End-to-End Open Vocabulary Keyword Search ( http://arxiv.org/abs/2108.10357v1 )

ライセンス: CC BY 4.0
Bolaji Yusuf, Alican Gok, Batuhan Gundogdu, Murat Saraclar(参考訳) 近年,音声コンテンツ検索に対するニューラルアプローチが普及している。 しかし、それらは語彙や不均衡なテスト設定に対処する能力に制限される傾向がある。 これらの制限は、クエリの集合が事前に知られておらず、システムがクエリを含むかどうかだけでなく、そのような発生の正確な場所を返すべきであるキーワード検索において、その適用性を制限する。 本研究では,キーワード検索に最適化されたモデルを提案する。 モデルはクエリと発話を入力として取り、そのフレームで発生したクエリの発話のフレーム毎に確率列を返す。 実験により, 提案手法は, 正負の試行比率が人工的にバランスの取れたタスクにおいて, 類似のエンドツーエンドモデルよりも優れるだけでなく, キーワード検索の難易度を, その固有不均衡で処理できることを示した。 さらに,LVCSRに基づくキーワード検索システムにおいて,出力のリスコア化に本システムを用いることで,後者を大幅に改善する。

Recently, neural approaches to spoken content retrieval have become popular. However, they tend to be restricted in their vocabulary or in their ability to deal with imbalanced test settings. These restrictions limit their applicability in keyword search, where the set of queries is not known beforehand, and where the system should return not just whether an utterance contains a query but the exact location of any such occurrences. In this work, we propose a model directly optimized for keyword search. The model takes a query and an utterance as input and returns a sequence of probabilities for each frame of the utterance of the query having occurred in that frame. Experiments show that the proposed model not only outperforms similar end-to-end models on a task where the ratio of positive and negative trials is artificially balanced, but it is also able to deal with the far more challenging task of keyword search with its inherent imbalance. Furthermore, using our system to rescore the outputs an LVCSR-based keyword search system leads to significant improvements on the latter.
翻訳日:2021-08-25 23:41:51 公開日:2021-08-23
# (参考訳) 単眼カメラを用いた船舶追跡 [全文訳有]

Marine vessel tracking using a monocular camera ( http://arxiv.org/abs/2108.10367v1 )

ライセンス: CC BY-SA 4.0
Tobias Jacob, Raffaele Galliera, Muddasar Ali, Sikha Bagui(参考訳) 本稿では,gpsデータのみを用いた新しいカメラキャリブレーション手法を提案する。 境界ボックスの位置と大きさを利用して距離を推定し、カメラから100mの距離あたり平均5.55mの予測誤差を達成することにより、ビデオ内の平面上を移動する物体を追跡する新しい方法を実現する。 このソリューションはエッジでリアルタイムで実行することができ、低電力のIoT環境で効率的な推論を実現すると同時に、複数の異なるコンテナを追跡することができる。

In this paper, a new technique for camera calibration using only GPS data is presented. A new way of tracking objects that move on a plane in a video is achieved by using the location and size of the bounding box to estimate the distance, achieving an average prediction error of 5.55m per 100m distance from the camera. This solution can be run in real-time at the edge, achieving efficient inference in a low-powered IoT environment while also being able to track multiple different vessels.
翻訳日:2021-08-25 23:31:59 公開日:2021-08-23
# (参考訳) ピアノ転写のためのスパース解析フィルタの学習 [全文訳有]

Learning Sparse Analytic Filters for Piano Transcription ( http://arxiv.org/abs/2108.10382v1 )

ライセンス: CC BY 4.0
Frank Cwitkowitz, Mojtaba Heydari and Zhiyao Duan(参考訳) 近年,様々な音声関連機械学習タスクにおいて,フィルタバンク学習が普及している。 これは、ダウンストリーム処理で活用できるタスク固有のオーディオ特性を発見する能力に起因している。 また、多種多様なオーディオアプリケーションに取り組むために使用されるほぼユビキタスなディープラーニング手法の自然な拡張でもある。 本研究では,低レベル音楽情報検索の課題であるピアノの書き起こしに対して,フロントエンドフィルタバンク学習モジュールのいくつかのバリエーションについて検討する。 我々は、特徴抽出段階のみを変更する標準的なピアノ転写モデルを構築した。 フィルタバンクモジュールは、複雑なフィルタが長い受容場を持つ1次元畳み込みカーネルであるように設計されている。 追加のバリエーションは、フィルタを本質的に解析し、フィルタバンクの間隔を促進するために変分ドロップアウトを適用するためにヒルベルト変換を用いる。 書き起こし結果はすべての実験で比較され,フィルタバンクの可視化と解析を提供する。

In recent years, filterbank learning has become an increasingly popular strategy for various audio-related machine learning tasks. This is partly due to its ability to discover task-specific audio characteristics which can be leveraged in downstream processing. It is also a natural extension of the nearly ubiquitous deep learning methods employed to tackle a diverse array of audio applications. In this work, several variations of a frontend filterbank learning module are investigated for piano transcription, a challenging low-level music information retrieval task. We build upon a standard piano transcription model, modifying only the feature extraction stage. The filterbank module is designed such that its complex filters are unconstrained 1D convolutional kernels with long receptive fields. Additional variations employ the Hilbert transform to render the filters intrinsically analytic and apply variational dropout to promote filterbank sparsity. Transcription results are compared across all experiments, and we offer visualization and analysis of the filterbanks.
翻訳日:2021-08-25 23:21:27 公開日:2021-08-23
# (参考訳) 効率的なビデオ推論のための動的ネットワーク量子化 [全文訳有]

Dynamic Network Quantization for Efficient Video Inference ( http://arxiv.org/abs/2108.10394v1 )

ライセンス: CC BY 4.0
Ximeng Sun, Rameswar Panda, Chun-Fu Chen, Aude Oliva, Rogerio Feris, Kate Saenko(参考訳) 深層畳み込みネットワークは最近、ビデオ認識で大きな成功を収めているが、強固な認識を実現するのに大量の計算リソースを必要とするため、実際の実現は依然として課題である。 本稿では,効率向上のための量子化の有効性を活かした動的ネットワーク量子化フレームワークを提案する。 具体的には、ビデオクリップを与えられた場合、認識ネットワークと並行して非常に軽量なネットワークを訓練し、ビデオ認識においてフレーム単位の精度を示す動的ポリシーを作成する。 我々は,ビデオ認識に必要な競合性能と資源効率を両立させるために,標準バックプロパゲーションと損失を用いて,両方のネットワークを効果的に訓練する。 4つの多種多様なベンチマークデータセットに関する広範囲な実験は、提案手法が既存の最先端メソッドを上回りながら、計算とメモリ使用量の大幅な節約をもたらすことを示している。

Deep convolutional networks have recently achieved great success in video recognition, yet their practical realization remains a challenge due to the large amount of computational resources required to achieve robust recognition. Motivated by the effectiveness of quantization for boosting efficiency, in this paper, we propose a dynamic network quantization framework, that selects optimal precision for each frame conditioned on the input for efficient video recognition. Specifically, given a video clip, we train a very lightweight network in parallel with the recognition network, to produce a dynamic policy indicating which numerical precision to be used per frame in recognizing videos. We train both networks effectively using standard backpropagation with a loss to achieve both competitive performance and resource efficiency required for video recognition. Extensive experiments on four challenging diverse benchmark datasets demonstrate that our proposed approach provides significant savings in computation and memory usage while outperforming the existing state-of-the-art methods.
翻訳日:2021-08-25 23:07:12 公開日:2021-08-23
# (参考訳) SreaMRAK A Streaming Multi-Resolution Adaptive Kernel Algorithm [全文訳有]

SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm ( http://arxiv.org/abs/2108.10411v1 )

ライセンス: CC BY 4.0
Andreas Oslandsbotn, Zeljko Kereta, Valeriya Naumova, Yoav Freund, Alexander Cloninger(参考訳) カーネルリッジ回帰(KRR)は非線形非パラメトリック学習の一般的なスキームである。 しかし、既存のKRRの実装では、すべてのデータがメインメモリに格納されることが要求されるため、データサイズがメモリサイズを超える状況では、KRRの使用が著しく制限される。 このような応用は、データマイニング、バイオインフォマティクス、制御においてますます一般的になっている。 メモリに大きすぎるデータセットを計算するための強力なパラダイムは、計算のストリーミングモデルであり、1つのデータサンプルを一度に処理し、次のデータに移動する前に各サンプルを破棄する。 本稿では,KRRのストリーミング版であるStreaMRAKを提案する。 StreaMRAKは、問題をいくつかのレベルの解像度に分割することで既存のKRRスキームを改善する。 このアルゴリズムは、トレーニングモデルに新しいサンプルを連続的かつ効率的に統合することで、メモリ要求を減らす。 新たなサブサンプリング方式により、StreaMRAKは元のデータのスケッチを作成することで、メモリと計算の複雑さを低減し、サブサンプリング密度はカーネルの帯域幅とデータの局所次元に適応する。 本稿では,2つの合成問題と2重振り子の軌道予測に関する実証研究を行う。 その結果,提案アルゴリズムは高速かつ高精度であることがわかった。

Kernel ridge regression (KRR) is a popular scheme for non-linear non-parametric learning. However, existing implementations of KRR require that all the data is stored in the main memory, which severely limits the use of KRR in contexts where data size far exceeds the memory size. Such applications are increasingly common in data mining, bioinformatics, and control. A powerful paradigm for computing on data sets that are too large for memory is the streaming model of computation, where we process one data sample at a time, discarding each sample before moving on to the next one. In this paper, we propose StreaMRAK - a streaming version of KRR. StreaMRAK improves on existing KRR schemes by dividing the problem into several levels of resolution, which allows continual refinement to the predictions. The algorithm reduces the memory requirement by continuously and efficiently integrating new samples into the training model. With a novel sub-sampling scheme, StreaMRAK reduces memory and computational complexities by creating a sketch of the original data, where the sub-sampling density is adapted to the bandwidth of the kernel and the local dimensionality of the data. We present a showcase study on two synthetic problems and the prediction of the trajectory of a double pendulum. The results show that the proposed algorithm is fast and accurate.
翻訳日:2021-08-25 22:45:58 公開日:2021-08-23
# (参考訳) ニューラルマシン翻訳のための繰り返し複数の層を奥行きで共有する [全文訳有]

Recurrent multiple shared layers in Depth for Neural Machine Translation ( http://arxiv.org/abs/2108.10417v1 )

ライセンス: CC BY-SA 4.0
GuoLiang Li and Yiyang Li(参考訳) より深いモデルを学ぶことは、通常、モデルパフォーマンスを改善するためのシンプルで効果的なアプローチであるが、より深いモデルはより大きなモデルパラメータを持ち、訓練することがより困難である。 より深いモデルを得るためには、単にモデルのレイヤーを積み重ねるだけではうまく機能しているように思えるが、以前の研究では、モデルにメリットはないと主張した。 本稿では,トランスフォーマーのエンコーダブロックとデコーダブロックを奥行き方向にループする再帰機構を持つ深層モデルを提案する。 モデルパラメータの増加に対処するために、異なる再帰モーメントでパラメータを共有することを選択する。 我々は,wmt16英語対ドイツ語およびwmt14英語対フランス翻訳タスクについて実験を行い,トランスフォーマーモデルパラメータの27.23%である0.35, 1.45ブルーポイントの浅層トランスフォーマーベース/ビッグベースを上回った。 深層トランス (20層エンコーダ, 6層デコーダ) と比較して, モデル性能と推論速度は類似しているが, モデルパラメータは前者の54.72%である。

Learning deeper models is usually a simple and effective approach to improve model performance, but deeper models have larger model parameters and are more difficult to train. To get a deeper model, simply stacking more layers of the model seems to work well, but previous works have claimed that it cannot benefit the model. We propose to train a deeper model with recurrent mechanism, which loops the encoder and decoder blocks of Transformer in the depth direction. To address the increasing of model parameters, we choose to share parameters in different recursive moments. We conduct our experiments on WMT16 English-to-German and WMT14 English-to-France translation tasks, our model outperforms the shallow Transformer-Base/Big baseline by 0.35, 1.45 BLEU points, which is 27.23% of Transformer-Big model parameters. Compared to the deep Transformer(20-layer encoder, 6-layer decoder), our model has similar model performance and infer speed, but our model parameters are 54.72% of the former.
翻訳日:2021-08-25 22:07:46 公開日:2021-08-23
# (参考訳) 自己監督型GNNのための共同学習型データ拡張 [全文訳有]

Jointly Learnable Data Augmentations for Self-Supervised GNNs ( http://arxiv.org/abs/2108.10420v1 )

ライセンス: CC BY 4.0
Zekarias T. Kefato and Sarunas Girdzijauskas and Hannes St\"ark(参考訳) 自己教師付き学習(SSL)は、手動ラベリングに頼ることなくオブジェクトの表現を学習することを目的としている。 近年,グラフ表現学習のためのSSLメソッドがSOTA半教師付きGNNに匹敵する性能を実現している。 siameseネットワークはデータ拡張に依存しており、これらの手法で使われる一般的なアーキテクチャである。 しかし、これらの手法はヒューリスティックなデータ拡張技術に依存している。 さらに、コントラスト項または他のトリック(例えば非対称性)を用いて、シームズネットワークで起こりうる自明な解を避ける。 本研究では,GNNのための新しいSSL方式であるGraphSurgeonを提案する。 まず、ヒューリスティックスの代わりに、グラフにエンコードされた固有の信号を利用して、埋め込みと共同で学習可能なデータ拡張手法を提案する。 さらに,学習可能なデータ拡張の柔軟性を生かして,埋め込み空間を補完する新たな戦略であるpost additionationを導入する。 この戦略は、メモリオーバーヘッドとランタイムコストを大幅に削減する。 第二に、真に対照的な用語をサンプリングすることは困難であるため、明示的な負のサンプリングを避ける。 第3に、エンジニアリングのトリックに頼るのではなく、ラプラシアン固有マップに動機づけられたスケーラブルな制約付き最適化目標を使用して、自明なソリューションを避けています。 graphsurgeonの実用性を検証するために、複数のドメインにまたがる14のパブリックデータセットと、数十億のエッジを持つ小規模から大規模のグラフを用いて、実証的な評価を行う。 その結果,GraphSurgeonは6つのSOTA半教師付きベースラインと同等であり,ノード分類タスクにおける5つのSOTA自己教師付きベースラインと同等であることがわかった。 ソースコードはhttps://github.com/z ekarias-tilahun/grap h-surgeonで入手できる。

Self-supervised Learning (SSL) aims at learning representations of objects without relying on manual labeling. Recently, a number of SSL methods for graph representation learning have achieved performance comparable to SOTA semi-supervised GNNs. A Siamese network, which relies on data augmentation, is the popular architecture used in these methods. However, these methods rely on heuristically crafted data augmentation techniques. Furthermore, they use either contrastive terms or other tricks (e.g., asymmetry) to avoid trivial solutions that can occur in Siamese networks. In this study, we propose, GraphSurgeon, a novel SSL method for GNNs with the following features. First, instead of heuristics we propose a learnable data augmentation method that is jointly learned with the embeddings by leveraging the inherent signal encoded in the graph. In addition, we take advantage of the flexibility of the learnable data augmentation and introduce a new strategy that augments in the embedding space, called post augmentation. This strategy has a significantly lower memory overhead and run-time cost. Second, as it is difficult to sample truly contrastive terms, we avoid explicit negative sampling. Third, instead of relying on engineering tricks, we use a scalable constrained optimization objective motivated by Laplacian Eigenmaps to avoid trivial solutions. To validate the practical use of GraphSurgeon, we perform empirical evaluation using 14 public datasets across a number of domains and ranging from small to large scale graphs with hundreds of millions of edges. Our finding shows that GraphSurgeon is comparable to six SOTA semi-supervised and on par with five SOTA self-supervised baselines in node classification tasks. The source code is available at https://github.com/z ekarias-tilahun/grap h-surgeon.
翻訳日:2021-08-25 21:58:34 公開日:2021-08-23
# (参考訳) 縦距離:アカウンタブル・インスタンス・アトリビューションに向けて [全文訳有]

Longitudinal Distance: Towards Accountable Instance Attribution ( http://arxiv.org/abs/2108.10437v1 )

ライセンス: CC BY 4.0
Rosina O. Weber, Prateek Goel, Shideh Amiri, and Gideon Simpson(参考訳) 解釈可能な機械学習(IML)と説明可能な人工知能(XAI)のこれまでの研究は、エージェントのモデル(つまりIML)の解釈可能性を求めること、あるいはモデル(すなわちXAI)に加えてユーザのコンテキストに焦点を当てることに大きく分類することができる。 前者は特徴または例帰属に分類される。 ケースベース推論(cbr)を使用したり、インスパイアされたりする例やサンプルベースのメソッドは、エージェントの決定に責任を持つインスタンスを必ずしも帰属しないインスタンスを選択するための様々なアプローチに依存している。 さらに、既存のアプローチでは解釈可能性と説明可能性に注目しているが、説明責任に関しては不足している。 ケースベース推論の原則に着想を得た本論文では,CBRエージェントの構築に使用可能なニューラルネットワークエージェントの判断に対する属性インスタンスの使用を,縦断距離と呼ぶ擬似メトリックを導入する。

Previous research in interpretable machine learning (IML) and explainable artificial intelligence (XAI) can be broadly categorized as either focusing on seeking interpretability in the agent's model (i.e., IML) or focusing on the context of the user in addition to the model (i.e., XAI). The former can be categorized as feature or instance attribution. Example- or sample-based methods such as those using or inspired by case-based reasoning (CBR) rely on various approaches to select instances that are not necessarily attributing instances responsible for an agent's decision. Furthermore, existing approaches have focused on interpretability and explainability but fall short when it comes to accountability. Inspired in case-based reasoning principles, this paper introduces a pseudo-metric we call Longitudinal distance and its use to attribute instances to a neural network agent's decision that can be potentially used to build accountable CBR agents.
翻訳日:2021-08-25 21:39:51 公開日:2021-08-23
# (参考訳) 色だけ:ニューラルステインラーニングを用いた画像に基づく空間的遺伝子発現予測 [全文訳有]

All You Need is Color: Image based Spatial Gene Expression Prediction using Neural Stain Learning ( http://arxiv.org/abs/2108.10446v1 )

ライセンス: CC BY 4.0
Muhammad Dawood, Kim Branson, Nasir M. Rajpoot, Fayyaz ul Amir Afsar Minhas(参考訳) 「腫瘍部の定期組織像において、その染色吸収特性をモデル化して、所定の空間的位置における異なる遺伝子の発現レベルを予測することは可能か。」 本研究では,ヘマトキシリン&エオシン(H&E)ヒストロジーセクションのデジタル病理画像を用いて,空間転写学的遺伝子発現プロファイルの予測のための「ステイン・アウェア」機械学習手法を提案する。 遺伝子発現予測に使用される最近の深層学習法とは違って,提案手法であるNeural Stain Learning (NSL) は,問題固有の染色脱畳行列をエンドツーエンドに学習することで,組織と遺伝子発現パターンとの関係を明示的にモデル化する。 提案手法は,11個のトレーニング可能な重みパラメータのみで,細胞組成と形態的特徴を持つ古典回帰モデルと深層学習法の両方に優れる。 提案手法から得られた遺伝子発現予測は,他の手法と比較して,より大規模な遺伝子配列に対するシークエンシングによって得られた真の発現値と高い相関関係を示した。

"Is it possible to predict expression levels of different genes at a given spatial location in the routine histology image of a tumor section by modeling its stain absorption characteristics?&quo t; In this work, we propose a "stain-aware" machine learning approach for prediction of spatial transcriptomic gene expression profiles using digital pathology image of a routine Hematoxylin & Eosin (H&E) histology section. Unlike recent deep learning methods which are used for gene expression prediction, our proposed approach termed Neural Stain Learning (NSL) explicitly models the association of stain absorption characteristics of the tissue with gene expression patterns in spatial transcriptomics by learning a problem-specific stain deconvolution matrix in an end-to-end manner. The proposed method with only 11 trainable weight parameters outperforms both classical regression models with cellular composition and morphological features as well as deep learning methods. We have found that the gene expression predictions from the proposed approach show higher correlations with true expression values obtained through sequencing for a larger set of genes in comparison to other approaches.
翻訳日:2021-08-25 21:29:18 公開日:2021-08-23
# (参考訳) Differential Music:メロディック・ハーモニック・インターバルに基づく表現付きLSTMネットワークによる自動音楽生成 [全文訳有]

Differential Music: Automated Music Generation Using LSTM Networks with Representation Based on Melodic and Harmonic Intervals ( http://arxiv.org/abs/2108.10449v1 )

ライセンス: CC BY 4.0
Hooman Rafraf(参考訳) 本稿では,絶対ピッチではなく音楽の運動に基づく音楽情報の符号化に新たなアプローチをとるLSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。 メロディはピッチの連続ではなく間隔の列として符号化され、和音は各音符が各時間ステップでメロディで作る間隔の組として符号化される。 実験結果は、音楽やトーンを聴くと約束を示す。 この方法にも弱点があり、主に構成の過剰な変調があるが、符号化の性質から期待されている。 この問題は後ほど論文で議論され、将来の仕事の潜在的な話題である。

This paper presents a generative AI model for automated music composition with LSTM networks that takes a novel approach at encoding musical information which is based on movement in music rather than absolute pitch. Melodies are encoded as a series of intervals rather than a series of pitches, and chords are encoded as the set of intervals that each chord note makes with the melody at each timestep. Experimental results show promise as they sound musical and tonal. There are also weaknesses to this method, mainly excessive modulations in the compositions, but that is expected from the nature of the encoding. This issue is discussed later in the paper and is a potential topic for future work.
翻訳日:2021-08-25 21:15:40 公開日:2021-08-23
# ベイズニューラルネットワークの解説

Explaining Bayesian Neural Networks ( http://arxiv.org/abs/2108.10346v1 )

ライセンス: Link先を確認
Kirill Bykov, Marina M.-C. H\"ohne, Adelaida Creosteanu, Klaus-Robert M\"uller, Frederick Klauschen, Shinichi Nakajima, Marius Kloft(参考訳) 意思決定においてDeep Neural Networks(DNN)のような高度な学習マシンをより透過的にするために、説明可能なAI(XAI)は、DNNの予測の解釈を提供することを目的としている。 これらの解釈は通常、ヒートマップの形で与えられ、それぞれが与えられたインスタンスの予測に関する関連するパターンを示す。 ベイジアンニューラルネットワーク(BNN)のようなベイジアンアプローチは、それまでの重量分布を通じて既に組み込まれていた、限定的な透明性(モデル透明性)を持っているが、特に、与えられたインスタンスに対する予測についての説明が欠けている。 本稿では,この2つの透明性の観点を,BNNの説明のための全体的説明フレームワークにまとめる。 ベイズフレームワーク内では、ネットワークの重み付けは確率分布に従う。 したがって、DNNの標準的な(決定論的)予測戦略は、BNNにおいて予測分布に拡張され、標準説明は説明分布に拡張される。 この観点から、BNNが複数の異種予測戦略を暗黙的に採用していることが判明した。 それらのいくつかは標準のDNNから受け継がれているが、BNNに固有の不確実性を考慮することで明らかになっているものもある。 おもちゃ/ベンチマークデータと病理学の実世界データに関する定量的・定性的な実験から,bnnを説明するための提案手法がより効果的で洞察に富んだ説明につながる可能性が示唆された。

To make advanced learning machines such as Deep Neural Networks (DNNs) more transparent in decision making, explainable AI (XAI) aims to provide interpretations of DNNs' predictions. These interpretations are usually given in the form of heatmaps, each one illustrating relevant patterns regarding the prediction for a given instance. Bayesian approaches such as Bayesian Neural Networks (BNNs) so far have a limited form of transparency (model transparency) already built-in through their prior weight distribution, but notably, they lack explanations of their predictions for given instances. In this work, we bring together these two perspectives of transparency into a holistic explanation framework for explaining BNNs. Within the Bayesian framework, the network weights follow a probability distribution. Hence, the standard (deterministic) prediction strategy of DNNs extends in BNNs to a predictive distribution, and thus the standard explanation extends to an explanation distribution. Exploiting this view, we uncover that BNNs implicitly employ multiple heterogeneous prediction strategies. While some of these are inherited from standard DNNs, others are revealed to us by considering the inherent uncertainty in BNNs. Our quantitative and qualitative experiments on toy/benchmark data and real-world data from pathology show that the proposed approach of explaining BNNs can lead to more effective and insightful explanations.
翻訳日:2021-08-25 14:30:09 公開日:2021-08-23
# 3次元シーンにおける4次元人体キャプチャの学習動作

Learning Motion Priors for 4D Human Body Capture in 3D Scenes ( http://arxiv.org/abs/2108.10399v1 )

ライセンス: Link先を確認
Siwei Zhang, Yan Zhang, Federica Bogo, Marc Pollefeys, Siyu Tang(参考訳) モノクロビデオから複雑なシーンで高品質な3Dモーションを復元することは、AR/VRからロボティクスまで、多くのアプリケーションにとって重要である。 しかし, 咬合や部分的視点を扱いながら, 現実的な人間とシーンの相互作用を捉えることは困難であり, 現在のアプローチは, 説得力のある結果を得るには程遠い。 この問題を解決するために, LEMO: LEMO: LEarning Human Motion priors for 4D human body capture を提案する。 大規模モーションキャプチャデータセットamassを活用することで,新たなモーションスムースネスを事前に導入し,シーケンス上で回収されたポーズによって提示されるジッタを強力に低減する。 さらに, 身体と身体の相互作用に頻発する接触や咬合を扱うために, 接触摩擦項と接触認識運動インフィラを設計した。 提案手法の有効性を証明するために,これらを3次元シーンにおける4次元人体キャプチャのための新しいパイプラインとして組み合わせた。 われわれのパイプラインでは、高品質な4D人体撮影、滑らかな動きの再構築、身体とシーンの相互作用を実証している。 コードとデータはhttps://sanweiliti.g ithub.io/LEMO/LEMO.h tmlで公開されている。

Recovering high-quality 3D human motion in complex scenes from monocular videos is important for many applications, ranging from AR/VR to robotics. However, capturing realistic human-scene interactions, while dealing with occlusions and partial views, is challenging; current approaches are still far from achieving compelling results. We address this problem by proposing LEMO: LEarning human MOtion priors for 4D human body capture. By leveraging the large-scale motion capture dataset AMASS, we introduce a novel motion smoothness prior, which strongly reduces the jitters exhibited by poses recovered over a sequence. Furthermore, to handle contacts and occlusions occurring frequently in body-scene interactions, we design a contact friction term and a contact-aware motion infiller obtained via per-instance self-supervised training. To prove the effectiveness of the proposed motion priors, we combine them into a novel pipeline for 4D human body capture in 3D scenes. With our pipeline, we demonstrate high-quality 4D human body capture, reconstructing smooth motions and physically plausible body-scene interactions. The code and data are available at https://sanweiliti.g ithub.io/LEMO/LEMO.h tml.
翻訳日:2021-08-25 14:28:45 公開日:2021-08-23
# 1つのTSアライメントがすべてを支配する

One TTS Alignment To Rule Them All ( http://arxiv.org/abs/2108.10447v1 )

ライセンス: Link先を確認
Rohan Badlani, Adrian {\L}ancucki, Kevin J. Shih, Rafael Valle, Wei Ping, Bryan Catanzaro(参考訳) 音声テキストアライメントは、ニューラルテキスト音声(TTS)モデルの重要な構成要素である。 自動回帰TSモデルは通常、これらのアライメントをオンラインに学習するために注意機構を使用する。 しかし、これらのアライメントは脆く、長い発話やドメイン外テキストに一般化できないことが多く、単語の欠落や繰り返しにつながる。 ほとんどの非自己回帰的エンドツーエンドTSモデルは、外部ソースから抽出された時間に依存する。 本稿では,RAD-TTSで提案するアライメント機構を汎用的なアライメント学習フレームワークとして活用する。 このフレームワークは、フォワードサムアルゴリズム、ビタビアルゴリズム、およびシンプルで効率的な静的プリミティブを組み合わせる。 我々の実験では、アライメント学習フレームワークは自動回帰(Flowtron, Tacotron2)と非自己回帰(FastPitch, FastSpeech 2, RAD-TTS)の両方でテスト済みのTSアーキテクチャを改善した。 具体的には、既存の注意に基づくメカニズムのアライメント収束速度を改善し、トレーニングパイプラインを単純化し、長い発話のエラーに対してモデルをより堅牢にする。 最も重要なことは、このフレームワークが人間の評価者によって判断されるように、知覚された音声合成品質を改善することである。

Speech-to-text alignment is a critical component of neural textto-speech (TTS) models. Autoregressive TTS models typically use an attention mechanism to learn these alignments on-line. However, these alignments tend to be brittle and often fail to generalize to long utterances and out-of-domain text, leading to missing or repeating words. Most non-autoregressive endto-end TTS models rely on durations extracted from external sources. In this paper we leverage the alignment mechanism proposed in RAD-TTS as a generic alignment learning framework, easily applicable to a variety of neural TTS models. The framework combines forward-sum algorithm, the Viterbi algorithm, and a simple and efficient static prior. In our experiments, the alignment learning framework improves all tested TTS architectures, both autoregressive (Flowtron, Tacotron 2) and non-autoregressive (FastPitch, FastSpeech 2, RAD-TTS). Specifically, it improves alignment convergence speed of existing attention-based mechanisms, simplifies the training pipeline, and makes the models more robust to errors on long utterances. Most importantly, the framework improves the perceived speech synthesis quality, as judged by human evaluators.
翻訳日:2021-08-25 14:24:50 公開日:2021-08-23
# ComSum: コミットメッセージの要約と保存の意味

ComSum: Commit Messages Summarization and Meaning Preservation ( http://arxiv.org/abs/2108.10763v1 )

ライセンス: Link先を確認
Leshem Choshen, Idan Amit(参考訳) テキスト要約のための700万のコミットメッセージからなるデータセットであるComSumを提示する。 文書化コミット時には、ソフトウェアコードが変更され、メッセージと要約の両方がポストされる。 これらを集めて、開発者の作業要約データセットをキュレートします。 サイズ、実用性、挑戦的な言語ドメインの増大とともに、データセットは経験的ソフトウェア工学の生きた分野の恩恵を受ける。 コミットはタイプロジに従っているため,ルージュによるアウトプットの評価だけでなく,その意味の保存も提案する。

We present ComSum, a data set of 7 million commit messages for text summarization. When documenting commits, software code changes, both a message and its summary are posted. We gather and filter those to curate developers' work summarization data set. Along with its growing size, practicality and challenging language domain, the data set benefits from the living field of empirical software engineering. As commits follow a typology, we propose to not only evaluate outputs by Rouge, but by their meaning preservation.
翻訳日:2021-08-25 14:24:28 公開日:2021-08-23
# 繊維CUR分解による高速ロバストテンソル主成分分析

Fast Robust Tensor Principal Component Analysis via Fiber CUR Decomposition ( http://arxiv.org/abs/2108.10448v1 )

ライセンス: Link先を確認
HanQin Cai, Zehan Chao, Longxiu Huang, Deanna Needell(参考訳) 本稿では,基礎となる低乗数テンソルとスパースアウトリーテンソルをその和から分離することを目的としたテンソルロバスト主成分分析(TRPCA)の問題について検討する。 本研究では,大規模なTRPCA問題に対して,ロバストテンソルCUR (RTCUR) という高速非凸アルゴリズムを提案する。 RTCURは射影の交互化の枠組みを考え、最近開発されたテンソルファイバーCUR分解を利用して計算複雑性を劇的に下げる。 RTCURの性能優位性は、合成データセットの最先端技術に対して実証的に検証され、カラービデオ背景抽出のような実世界のアプリケーションでさらに実証される。

We study the problem of tensor robust principal component analysis (TRPCA), which aims to separate an underlying low-multilinear-rank tensor and a sparse outlier tensor from their sum. In this work, we propose a fast non-convex algorithm, coined Robust Tensor CUR (RTCUR), for large-scale TRPCA problems. RTCUR considers a framework of alternating projections and utilizes the recently developed tensor Fiber CUR decomposition to dramatically lower the computational complexity. The performance advantage of RTCUR is empirically verified against the state-of-the-arts on the synthetic datasets and is further demonstrated on the real-world application such as color video background subtraction.
翻訳日:2021-08-25 14:23:05 公開日:2021-08-23
# 包括的ジェンダーバイアス:トルコ語と英語の機械翻訳モデルにおける事例研究

Examining Covert Gender Bias: A Case Study in Turkish and English Machine Translation Models ( http://arxiv.org/abs/2108.10379v1 )

ライセンス: Link先を確認
Chloe Ciora, Nur Iren, Malihe Alikhani(参考訳) 機械翻訳(mt)がますます強力になり、アクセスしやすく、広く普及するにつれて、バイアスの持続の可能性はその進歩とともに高まっている。 機械翻訳では偏差の過剰な指標が研究されているが、隠蔽バイアスがさらに絡み合っている問題を露呈していると主張する。 トルコ語と英語のジェンダーニュートラル言語を用いて,mtモデルにおける性別バイアスと隠密バイアスについて検討した。 具体的には、非対称性マーキングを調査する手法を提案する。 また、人格の属性のバイアスを評価し、MTモデルにおけるオーバートバイアス指標を用いて職業的・人格的ステレオタイプを調べる。 我々の研究は、MTモデルにおけるより深いバイアス層を探求し、MTモデル開発における言語固有の学際方法論の継続的な必要性を実証する。

As Machine Translation (MT) has become increasingly more powerful, accessible, and widespread, the potential for the perpetuation of bias has grown alongside its advances. While overt indicators of bias have been studied in machine translation, we argue that covert biases expose a problem that is further entrenched. Through the use of the gender-neutral language Turkish and the gendered language English, we examine cases of both overt and covert gender bias in MT models. Specifically, we introduce a method to investigate asymmetrical gender markings. We also assess bias in the attribution of personhood and examine occupational and personality stereotypes through overt bias indicators in MT models. Our work explores a deeper layer of bias in MT models and demonstrates the continued need for language-specific, interdisciplinary methodology in MT model development.
翻訳日:2021-08-25 14:22:39 公開日:2021-08-23
# CBRによる知識ベースXAI:モデルが理解できる以上の説明がある

Knowledge-based XAI through CBR: There is more to explanations than models can tell ( http://arxiv.org/abs/2108.10363v1 )

ライセンス: Link先を確認
Rosina Weber, Manil Shrestha, Adam J Johs(参考訳) 知識に基づく説明可能な人工知能の根底にある仮説は、データ中心の人工知能エージェント(ニューラルネットワークなど)に必要なデータは、そのようなエージェントの人間への決定を説明するのに必要なデータよりも、内容の多様性が低いことである。 分類器は1つの視点から現象を表現するデータを使って高い精度を達成できるが、説明のオーディエンスは複数の利害関係者を伴い、多様な視点にまたがる。 したがって、エージェントが使用するデータを補完するためにドメイン知識を使うことを提案する。 我々は,cbr法に準拠した教師付きデータ分類問題として,知識に基づく説明可能な人工知能を定式化する。 この定式化において、入力は、データ中心エージェントの入力と出力の両方からなるケース問題であり、そのケースソリューションは、ドメイン知識と課題の専門家から得られた説明カテゴリである。 この定式化は一般的に正確な分類を導くものではなく、正しい説明カテゴリーの選択を妨げている。 知識ベースの説明可能な人工知能は、説明カテゴリを選択する際に正確性を高めるドメイン知識に合わせた機能を追加することで、この定式化のデータを拡張します。

The underlying hypothesis of knowledge-based explainable artificial intelligence is the data required for data-centric artificial intelligence agents (e.g., neural networks) are less diverse in contents than the data required to explain the decisions of such agents to humans. The idea is that a classifier can attain high accuracy using data that express a phenomenon from one perspective whereas the audience of explanations can entail multiple stakeholders and span diverse perspectives. We hence propose to use domain knowledge to complement the data used by agents. We formulate knowledge-based explainable artificial intelligence as a supervised data classification problem aligned with the CBR methodology. In this formulation, the inputs are case problems composed of both the inputs and outputs of the data-centric agent and case solutions, the outputs, are explanation categories obtained from domain knowledge and subject matter experts. This formulation does not typically lead to an accurate classification, preventing the selection of the correct explanation category. Knowledge-based explainable artificial intelligence extends the data in this formulation by adding features aligned with domain knowledge that can increase accuracy when selecting explanation categories.
翻訳日:2021-08-25 14:21:59 公開日:2021-08-23
# 階層型ネットワーク分割を用いた顔認識モデルの解析

Interpreting Face Inference Models using Hierarchical Network Dissection ( http://arxiv.org/abs/2108.10360v1 )

ライセンス: Link先を確認
Divyang Teotia, Agata Lapedriza, Sarah Ostadabbas(参考訳) 本稿では,顔中心推論モデルの内部表現を解釈する汎用パイプラインである階層型ネットワーク分割を提案する。 階層型ネットワーク分割法は,確率論的定式化を用いて,モデルの単位と「顔辞書」(対応するサンプル画像を含む顔概念の集合)の概念をペアリングする。 私たちのパイプラインは、オブジェクト中心およびシーン中心モデルの一般的な解釈可能性モデルであるNetwork Dissectionにインスパイアされています。 しかし,ネットワーク分割が対処できない顔中心モデルの2つの重要な課題は,(1) 概念の空間的重なり:(2) イメージの同じ領域に同時に発生する異なる顔概念,例えば、"nose"(顔面部分)と"pointy nose"(顔面属性)、(2) グローバル概念: 顔の特定の位置を指しない概念に親和性のある単位(例: 顔の特定の位置を参照しない単位)である。 年齢)。 単位概念ペアリングの定式化の有効性を検証するために,まずバイアスデータを用いた制御実験を行った。 これらの実験は、階層的ネットワーク分割を用いてトレーニングデータのバイアスを検出する方法を示している。 そして、広く使われている顔データセットに基づいて訓練された異なる顔中心推論モデルを識別する。 結果は、異なるタスクのために訓練されたモデルが異なる内部表現を持つことを示す。 さらに, 解析結果から, トレーニングデータのバイアスと, 顔中心推論タスクの興味深い特徴が明らかになった。

This paper presents Hierarchical Network Dissection, a general pipeline to interpret the internal representation of face-centric inference models. Using a probabilistic formulation, Hierarchical Network Dissection pairs units of the model with concepts in our "Face Dictionary" (a collection of facial concepts with corresponding sample images). Our pipeline is inspired by Network Dissection, a popular interpretability model for object-centric and scene-centric models. However, our formulation allows to deal with two important challenges of face-centric models that Network Dissection cannot address: (1) spacial overlap of concepts: there are different facial concepts that simultaneously occur in the same region of the image, like "nose" (facial part) and "pointy nose" (facial attribute); and (2) global concepts: there are units with affinity to concepts that do not refer to specific locations of the face (e.g. apparent age). To validate the effectiveness of our unit-concept pairing formulation, we first conduct controlled experiments on biased data. These experiments illustrate how Hierarchical Network Dissection can be used to discover bias in the training data. Then, we dissect different face-centric inference models trained on widely-used facial datasets. The results show models trained for different tasks have different internal representations. Furthermore, the interpretability results reveal some biases in the training data and some interesting characteristics of the face-centric inference tasks.
翻訳日:2021-08-25 14:21:13 公開日:2021-08-23
# スパースマルチビューカメラを用いた軽量多人数全モーションキャプチャ

Lightweight Multi-person Total Motion Capture Using Sparse Multi-view Cameras ( http://arxiv.org/abs/2108.10378v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Zhe Li, Liang An, Mengcheng Li, Tao Yu, Yebin Liu(参考訳) 重度の閉塞、体から顔、手までの再現性の違い、観察スケールの大幅な変化、体の動きの速さなど、多人数のモーションキャプチャーは極めて困難である。 上記の課題を克服するために,スパースマルチビューカメラのみを用いた多人数対話型シナリオのための軽量な全モーションキャプチャシステムを提案する。 本手法は,手と顔のブートストラップアルゴリズムを新たに提案することにより,手と顔の高精度な位置決めと正確な関連付けを行うことができる。 ポーズ回帰法とキーポイント検出法を併用し、さらに画素整列精度を実現するための2段階パラメトリックフィッティング法を提案する。 さらに, 極端に自閉されたポーズと密接なインタラクションに対して, 画素配列の再構成を次のフレームに伝播させる新しいフィードバック機構が提案されている。 全体として,最初の軽量トータルキャプチャシステムを提案し,高速でロバストで高精度なマルチパーソントータルモーションキャプチャ性能を実現する。 その結果,提案手法は,スパースビュー設定時の既存手法よりも精度が高いことがわかった。

Multi-person total motion capture is extremely challenging when it comes to handle severe occlusions, different reconstruction granularities from body to face and hands, drastically changing observation scales and fast body movements. To overcome these challenges above, we contribute a lightweight total motion capture system for multi-person interactive scenarios using only sparse multi-view cameras. By contributing a novel hand and face bootstrapping algorithm, our method is capable of efficient localization and accurate association of the hands and faces even on severe occluded occasions. We leverage both pose regression and keypoints detection methods and further propose a unified two-stage parametric fitting method for achieving pixel-aligned accuracy. Moreover, for extremely self-occluded poses and close interactions, a novel feedback mechanism is proposed to propagate the pixel-aligned reconstructions into the next frame for more accurate association. Overall, we propose the first light-weight total capture system and achieves fast, robust and accurate multi-person total motion capture performance. The results and experiments show that our method achieves more accurate results than existing methods under sparse-view setups.
翻訳日:2021-08-25 14:20:46 公開日:2021-08-23
# Graph-LDA:Few-Shot分類の精度向上に先立つグラフ構造

Graph-LDA: Graph Structure Priors to Improve the Accuracy in Few-Shot Classification ( http://arxiv.org/abs/2108.10427v1 )

ライセンス: Link先を確認
Myriam Bontonou, Nicolas Farrugia, Vincent Gripon(参考訳) 利用可能なラベル付きサンプルの数がそれらの次元よりも少ない分類問題に直面するのは非常に一般的である。 これらの条件は不確定な設定を引き起こす可能性が高く、過剰適合のリスクが高い。 訓練された分類器の一般化能力を改善するために、一般的なソリューションには、データ分散に関する事前の使用が含まれる。 多くの選択肢の中で、グラフを通して表現されるデータ構造先行は、この分野でますます人気がある。 本稿では,観測されたクラス信号が,基礎となるグラフ構造と等方性に依存せず,一方が既知のグラフ演算子によって色付けされた2つのノイズ源で劣化することが想定されるジェネリックモデルを提案する。 このモデルでは、そのような信号を分類する最適な手法を導出する。 興味深いことに、この方法論は単一のパラメータを含み、利用可能なデータが不足している場合に特に適している。 様々な実データを用いて,提案モデルが現実のシナリオに実装可能であることを示し,一般的な代替モデルと比較して一般化精度が向上することを示した。

It is very common to face classification problems where the number of available labeled samples is small compared to their dimension. These conditions are likely to cause underdetermined settings, with high risk of overfitting. To improve the generalization ability of trained classifiers, common solutions include using priors about the data distribution. Among many options, data structure priors, often represented through graphs, are increasingly popular in the field. In this paper, we introduce a generic model where observed class signals are supposed to be deteriorated with two sources of noise, one independent of the underlying graph structure and isotropic, and the other colored by a known graph operator. Under this model, we derive an optimal methodology to classify such signals. Interestingly, this methodology includes a single parameter, making it particularly suitable for cases where available data is scarce. Using various real datasets, we showcase the ability of the proposed model to be implemented in real world scenarios, resulting in increased generalization accuracy compared to popular alternatives.
翻訳日:2021-08-25 14:15:13 公開日:2021-08-23
# CoverTheFace: 深層学習と統計的形状解析を用いた顔被覆モニタリングと実演

CoverTheFace: face covering monitoring and demonstrating using deep learning and statistical shape analysis ( http://arxiv.org/abs/2108.10430v1 )

ライセンス: Link先を確認
Yixin Hu and Xingyu Li(参考訳) マスクを着用することは、ワクチンの開発に成功し、広く普及しているにもかかわらず、新型コロナウイルス(covid-19)パンデミックに対する強力な保護である。 しかし、多くは誤って着用する。 この観察により,マスクを着用している人の状態を自動で監視する手法が考案された。 従来の研究とは異なり、われわれの研究はマスク検出に留まらず、適切なマスク着用についてパーソナライズされたデモを作成することに焦点を当てている。 パイプラインは、フェイスカバーの検出から始まります。 顔が不適切に覆われている画像に対して,マスクオーバーレイモジュールは,顔の形状を近似するために統計的形状解析(ssa)と密集したランドマークアライメントを組み込んで,対応する顔被覆例を生成する。 提案システムは,顔が適切にカバーされた画像の識別に成功していることを示す。 我々のマスクオーバーレイに関するアブレーション研究は、SSAモデルが顔の形状、向き、スケールの変化に対処するのに役立つことを示唆している。 最後のフェイスカバーの例、特にハーフプロフィールのフェイスイメージは、以前のアートを著しく上回っている。

Wearing a mask is a strong protection against the COVID-19 pandemic, even though the vaccine has been successfully developed and is widely available. However, many people wear them incorrectly. This observation prompts us to devise an automated approach to monitor the condition of people wearing masks. Unlike previous studies, our work goes beyond mask detection; it focuses on generating a personalized demonstration on proper mask-wearing, which helps people use masks better through visual demonstration rather than text explanation. The pipeline starts from the detection of face covering. For images where faces are improperly covered, our mask overlay module incorporates statistical shape analysis (SSA) and dense landmark alignment to approximate the geometry of a face and generates corresponding face-covering examples. Our results show that the proposed system successfully identifies images with faces covered properly. Our ablation study on mask overlay suggests that the SSA model helps to address variations in face shapes, orientations, and scales. The final face-covering examples, especially half profile face images, surpass previous arts by a noticeable margin.
翻訳日:2021-08-25 14:11:24 公開日:2021-08-23
# L1-regularized neural ranking for risk stratification and its application to prediction of time to distance metastasis in luminal node negative chemotherapy na\"ive breast cancer patients

L1-regularized neural ranking for risk stratification and its application to prediction of time to distant metastasis in luminal node negative chemotherapy na\"ive breast cancer patients ( http://arxiv.org/abs/2108.10365v1 )

ライセンス: Link先を確認
Fayyaz Minhas, Michael S. Toss, Noor ul Wahab, Emad Rakha and Nasir M. Rajpoot(参考訳) 早期癌患者が遠隔転移のリスクが高いか, 臨床病理学的因子が関与しているか予測できるか? 本稿では,このような疑問に答えるためのランキングベース検閲対応機械学習モデルを提案する。 提案モデルでは,L1-regulrizationにより最小数の臨床病理学的共変量を用いて,リスク層序の解釈式を生成することができる。 本手法を用いて, 早期, 光(ER+, HER2-)乳がん患者, 内分泌療法を受けたが化学療法を受けなかった患者 (n = 728) と遠隔転移 (TTDM) との関連性を検討した。 提案手法を用いて得られたTTDMリスク層序式は, 主に有糸分裂スコア, 組織型腫瘍, リンパ血管浸潤に基づく。 これらの発見は、遠隔転移のリスクを高めるためにこれらの共変量の既知の役割と共生する。 以上の結果から, リスク階層化式は, 遠隔転移リスクの高い症例 (p-value < 0.005) と低リスク症例 (concordance-index 0.73) の分類が可能であり, また, 遠隔転移までの期間にもとづく分類が可能であった。

Can we predict if an early stage cancer patient is at high risk of developing distant metastasis and what clinicopathological factors are associated with such a risk? In this paper, we propose a ranking based censoring-aware machine learning model for answering such questions. The proposed model is able to generate an interpretable formula for risk stratifi-cation using a minimal number of clinicopathological covariates through L1-regulrization. Using this approach, we analyze the association of time to distant metastasis (TTDM) with various clinical parameters for early stage, luminal (ER+ or HER2-) breast cancer patients who received endocrine therapy but no chemotherapy (n = 728). The TTDM risk stratification formula obtained using the proposed approach is primarily based on mitotic score, histolog-ical tumor type and lymphovascular invasion. These findings corroborate with the known role of these covariates in increased risk for distant metastasis. Our analysis shows that the proposed risk stratification formula can discriminate between cases with high and low risk of distant metastasis (p-value < 0.005) and can also rank cases based on their time to distant metastasis with a concordance-index of 0.73.
翻訳日:2021-08-25 14:09:41 公開日:2021-08-23
# 周辺環境を利用した携帯電話上での視覚文書からの情報抽出

Using Neighborhood Context to Improve Information Extraction from Visual Documents Captured on Mobile Phones ( http://arxiv.org/abs/2108.10395v1 )

ライセンス: Link先を確認
Kalpa Gunaratna, Vijay Srinivasan, Sandeep Nama, Hongxia Jin(参考訳) ビジュアルドキュメントからの情報抽出は、エンドユーザにとって便利でインテリジェントな支援を可能にする。 本研究では, 周辺言語モデルを用いて, 視覚文書の局所的コンテキストに注意を払い, 情報抽出精度を向上させる, 近隣情報抽出(NIE)アプローチを提案する。 我々は2つの異なるビジュアルドキュメントデータセットを収集し、我々のアプローチが最先端のグローバルなコンテキストベースIE技術より優れていることを示す。 実際、NIEは、小型と大型のモデルサイズの両方で既存のアプローチより優れている。 通常、小型モデルを必要とするモバイルプラットフォーム上でのNIEのオンデバイス実装は、実世界の実用的なアプリケーションにおけるNIEの有用性を示している。

Information Extraction from visual documents enables convenient and intelligent assistance to end users. We present a Neighborhood-based Information Extraction (NIE) approach that uses contextual language models and pays attention to the local neighborhood context in the visual documents to improve information extraction accuracy. We collect two different visual document datasets and show that our approach outperforms the state-of-the-art global context-based IE technique. In fact, NIE outperforms existing approaches in both small and large model sizes. Our on-device implementation of NIE on a mobile platform that generally requires small models showcases NIE's usefulness in practical real-world applications.
翻訳日:2021-08-25 14:09:13 公開日:2021-08-23
# 変分量子アルゴリズムにおける高速収束のための適応ショット割り当て

Adaptive shot allocation for fast convergence in variational quantum algorithms ( http://arxiv.org/abs/2108.10434v1 )

ライセンス: Link先を確認
Andi Gu, Angus Lowe, Pavel A. Dub, Patrick J. Coles, Andrew Arrasmith(参考訳) 変分量子アルゴリズム (vqas) は、短期量子コンピュータにおける化学や材料科学のような実用的な応用への有望なアプローチである。 しかしながら、VQAを実装するには、効率的な古典最適化戦略が必要である。 本稿では,各ステップにおける適応ショット数を用いた新しい確率的勾配降下法であるglobal coupled adaptive number of shots (gcans)法を提案する。 これらの改善により、現在のクラウドプラットフォーム上でVQAを実行するのに必要な時間と費用が削減される。 解析的に、凸集合 gCANS が最適点への幾何収束を達成することを証明した。 さらに,いくつかの化学構成問題に対するgcansの性能を数値的に検討した。 また,異なるスピン数を持つIsingモデルの基底状態の探索も検討し,手法のスケーリングについて検討する。 これらの問題に対して、gCANSは私たちが考慮している他のオプティマイザと良好に比較できる。

Variational Quantum Algorithms (VQAs) are a promising approach for practical applications like chemistry and materials science on near-term quantum computers as they typically reduce quantum resource requirements. However, in order to implement VQAs, an efficient classical optimization strategy is required. Here we present a new stochastic gradient descent method using an adaptive number of shots at each step, called the global Coupled Adaptive Number of Shots (gCANS) method, which improves on prior art in both the number of iterations as well as the number of shots required. These improvements reduce both the time and money required to run VQAs on current cloud platforms. We analytically prove that in a convex setting gCANS achieves geometric convergence to the optimum. Further, we numerically investigate the performance of gCANS on some chemical configuration problems. We also consider finding the ground state for an Ising model with different numbers of spins to examine the scaling of the method. We find that for these problems, gCANS compares favorably to all of the other optimizers we consider.
翻訳日:2021-08-25 14:09:03 公開日:2021-08-23
# 行動空間探索による無線システムの最適決定性資源配分のモデル自由学習

Model-Free Learning of Optimal Deterministic Resource Allocations in Wireless Systems via Action-Space Exploration ( http://arxiv.org/abs/2108.10352v1 )

ライセンス: Link先を確認
Hassaan Hashmi and Dionysios S. Kalogerias(参考訳) ワイヤレスシステムのリソース割り当ては、永続的で挑戦的な非凸制約付き最適化タスクを指しており、特に、不均一な目的と不正確あるいは未知のモデルやチャネル統計を持つ複数のユーザを含む現代の通信およびネットワーク設定においてタイムリーである。 本稿では,最適パラメータ化資源割り当てポリシーを効率よく学習するための,技術的基盤と拡張性のある原始双対決定性ポリシー勾配法を提案する。 提案手法は,深層ニューラルネットワークなどの一般的な普遍的政策表現の勾配を効率よく活用するだけでなく,行動空間の低次元摂動によって構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため,真のモデルフリーである。 理論と数値シミュレーションの両方が提案手法の有効性と適用性を確認し、ほぼ最適性能とスケーラビリティの両面において現在の技術よりも優れていることを証明している。

Wireless systems resource allocation refers to perpetual and challenging nonconvex constrained optimization tasks, which are especially timely in modern communications and networking setups involving multiple users with heterogeneous objectives and imprecise or even unknown models and/or channel statistics. In this paper, we propose a technically grounded and scalable primal-dual deterministic policy gradient method for efficiently learning optimal parameterized resource allocation policies. Our method not only efficiently exploits gradient availability of popular universal policy representations, such as deep neural networks, but is also truly model-free, as it relies on consistent zeroth-order gradient approximations of the associated random network services constructed via low-dimensional perturbations in action space, thus fully bypassing any dependence on critics. Both theory and numerical simulations confirm the efficacy and applicability of the proposed approach, as well as its superiority over the current state of the art in terms of both achieving near-optimal performance and scalability.
翻訳日:2021-08-25 14:07:23 公開日:2021-08-23
# 自動車の縦軌道予測と高架道路の車線変化

Predicting Vehicles' Longitudinal Trajectories and Lane Changes on Highway On-Ramps ( http://arxiv.org/abs/2108.10397v1 )

ライセンス: Link先を確認
Nachuan Li, Riley Fischer, Wissam Kontar, Soyoung Ahn(参考訳) 高速道路を走行する車両は渋滞の原因の1つだ。 本稿では,高速道路における車両の縦方向の軌跡と車線変化(LC)を予測するための予測フレームワークを提案する。 具体的には,軌道の4秒間を入力し,最大15秒前の長手軌跡とLCの予測を出力する予測モデルを組み合わせる。 次世代シミュレーション(NGSIM)データに基づくトレーニングと検証により,開発したモデルの予測能力とその精度は,従来の長短メモリ(LSTM)モデルよりも優れていた。 最終的に、ここで提示された作業は、オンランプで経験する渋滞を緩和し、安全性を改善し、効果的な交通制御戦略を導くことができる。

Vehicles on highway on-ramps are one of the leading contributors to congestion. In this paper, we propose a prediction framework that predicts the longitudinal trajectories and lane changes (LCs) of vehicles on highway on-ramps and tapers. Specifically, our framework adopts a combination of prediction models that inputs a 4 seconds duration of a trajectory to output a forecast of the longitudinal trajectories and LCs up to 15 seconds ahead. Training and Validation based on next generation simulation (NGSIM) data show that the prediction power of the developed model and its accuracy outperforms a traditional long-short term memory (LSTM) model. Ultimately, the work presented here can alleviate the congestion experienced on on-ramps, improve safety, and guide effective traffic control strategies.
翻訳日:2021-08-25 14:07:05 公開日:2021-08-23
# 強化学習による電力グリッドカスケード故障軽減

Power Grid Cascading Failure Mitigation by Reinforcement Learning ( http://arxiv.org/abs/2108.10424v1 )

ライセンス: Link先を確認
Yongli Zhu(参考訳) 本稿では,強化学習(RL)に基づくカスケード障害軽減戦略を提案する。 マルチステージカスケード障害(MSCF)問題の動機と気候変動の課題との関連について紹介する。 mcsf問題のボトムレベル補正制御はdcopf(direct current optimal power flow)に基づいて定式化される。 そして、高レベルなRL戦略によりMSCF問題を緩和するために、物理学的インフォームド報酬、行動、状態が考案される。 さらに、浅層と深層の両方のニューラルネットワークアーキテクチャがテストされている。 提案手法によるIEEE 118バスシステム実験は,システム崩壊の低減に有望な性能を示す。

This paper proposes a cascading failure mitigation strategy based on Reinforcement Learning (RL). The motivation of the Multi-Stage Cascading Failure (MSCF) problem and its connection with the challenge of climate change are introduced. The bottom-level corrective control of the MCSF problem is formulated based on DCOPF (Direct Current Optimal Power Flow). Then, to mitigate the MSCF issue by a high-level RL-based strategy, physics-informed reward, action, and state are devised. Besides, both shallow and deep neural network architectures are tested. Experiments on the IEEE 118-bus system by the proposed mitigation strategy demonstrate a promising performance in reducing system collapses.
翻訳日:2021-08-25 14:06:53 公開日:2021-08-23
# ロバストリスク対応強化学習

Robust Risk-Aware Reinforcement Learning ( http://arxiv.org/abs/2108.10403v1 )

ライセンス: Link先を確認
Sebastian Jaimungal, Silvana Pesenti, Ye Sheng Wang, and Hariom Tatsat(参考訳) 本稿では、リスク認識性能基準の堅牢な最適化のための強化学習(RL)手法を提案する。 エージェントが様々なリスク・リワードプロファイルを表現できるようにするために,ランク依存型予測ユーティリティ(RDEU)を用いて政策の価値を評価する。 RDEUはエージェントがゲインを求め、同時にダウンサイドイベントから自身を保護する。 モデル不確実性に対する最適ポリシーを確固たるものにするために、我々はその分布ではなく、ワッサーシュタイン球の内部にある最悪の分布によってポリシーを評価する。 このように、我々の問題定式化は、ポリシー(外部問題)を選択するアクターと見なすことができ、敵は、その戦略(内部問題)の性能を悪化させるために行動する。 我々は,内外問題に対する明示的な政策勾配を定式化し,ロバスト・ポートフォリオ・アロケーション,ベンチマークの最適化,統計的仲裁という3つの原型的金融問題に対する効果を示す。

We present a reinforcement learning (RL) approach for robust optimisation of risk-aware performance criteria. To allow agents to express a wide variety of risk-reward profiles, we assess the value of a policy using rank dependent expected utility (RDEU). RDEU allows the agent to seek gains, while simultaneously protecting themselves against downside events. To robustify optimal policies against model uncertainty, we assess a policy not by its distribution, but rather, by the worst possible distribution that lies within a Wasserstein ball around it. Thus, our problem formulation may be viewed as an actor choosing a policy (the outer problem), and the adversary then acting to worsen the performance of that strategy (the inner problem). We develop explicit policy gradient formulae for the inner and outer problems, and show its efficacy on three prototypical financial problems: robust portfolio allocation, optimising a benchmark, and statistical arbitrage
翻訳日:2021-08-25 14:05:03 公開日:2021-08-23
# GitHub Copilotのコードコントリビューションに関する実証的サイバーセキュリティ評価

An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions ( http://arxiv.org/abs/2108.09293v2 )

ライセンス: Link先を確認
Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri(参考訳) コンピュータコードを自動的に生成するツールを含む、人間がコンピュータシステムの設計を支援するAIベースのシステムを設計することへの関心は急速に高まっている。 最も有名なのは、オープンソースのGitHubコードでトレーニングされた言語モデルである、最初の自己記述型の‘AIペアプログラマ’であるGitHub Copilotである。 しかし、コードにはしばしばバグが含まれているため、Copilotが処理した大量の未検証コードを考えると、言語モデルが悪用可能なバグのあるコードから学べることは確かです。 これにより、copilotのコードコントリビュートに対するセキュリティの懸念が高まる。 本研究では,GitHub Copilotがセキュアでないコードを推奨する原因となる状況と状況について,体系的に調査する。 この分析を実行するために、copilotにハイリスクcweに関連するシナリオでコードを生成するように促します。 MITREの"Top 25"リストから引用)。 弱点の多様性、プロンプトの多様性、ドメインの多様性を考慮して、3つの異なるコード生成軸でcopilotのパフォーマンスを調べます。 総じて、Copilotが完成するための89のシナリオを生成し、1,692のプログラムを生成します。 これらのうち、約40%が脆弱であることが分かりました。

There is burgeoning interest in designing AI-based systems to assist humans in designing computing systems, including tools that automatically generate computer code. The most notable of these comes in the form of the first self-described `AI pair programmer', GitHub Copilot, a language model trained over open-source GitHub code. However, code often contains bugs - and so, given the vast quantity of unvetted code that Copilot has processed, it is certain that the language model will have learned from exploitable, buggy code. This raises concerns on the security of Copilot's code contributions. In this work, we systematically investigate the prevalence and conditions that can cause GitHub Copilot to recommend insecure code. To perform this analysis we prompt Copilot to generate code in scenarios relevant to high-risk CWEs (e.g. those from MITRE's "Top 25" list). We explore Copilot's performance on three distinct code generation axes -- examining how it performs given diversity of weaknesses, diversity of prompts, and diversity of domains. In total, we produce 89 different scenarios for Copilot to complete, producing 1,692 programs. Of these, we found approximately 40% to be vulnerable.
翻訳日:2021-08-25 09:21:19 公開日:2021-08-23
# (参考訳) DTWSSE:シームズエンコーダによる時系列データ拡張 [全文訳有]

DTWSSE: Data Augmentation with a Siamese Encoder for Time Series ( http://arxiv.org/abs/2108.09885v1 )

ライセンス: CC BY 4.0
Xinyu Yang, Xinlan Zhang, Zhenguo Zhang, Yahui Zhao, Rongyi Cui(参考訳) ラベル付き時系列データへのアクセスは、現実世界ではしばしば制限されるため、時系列分析の分野でのディープラーニングモデルのパフォーマンスが制限される。 データ拡張は、小さなサンプルサイズと時系列データセットの不均衡の問題を解決する効果的な方法である。 データ拡張の2つの重要な要素は距離メートル法と補間法の選択である。 SMOTEはユークリッド距離メートル法を使用し、オブジェクトに直接補間するため、時系列データではうまく機能しない。 そこで本研究では,DTWSSE と呼ばれる補間のためのシアムエンコーダを用いた DTW に基づく合成マイノリティオーバーサンプリング手法を提案する。 時系列距離を適度に測定するために、有効な方法の砦であることが証明されたdtwを距離メトリクスとして採用する。 DTW測定値に適応するために、教師なしの自己学習方式で訓練されたオートエンコーダを用いて補間を行う。 エンコーダは、dtw隠れ空間からユークリッド深層特徴空間への時系列データをマッピングするシームニューラルネットであり、デコーダは、dtw隠れ空間に深い特徴空間をマッピングするために使用される。 提案手法を,複数の異なるバランスのとれた時系列データセット上で検証した。 実験の結果,提案手法は下流深層学習モデルの性能向上につながることが示された。

Access to labeled time series data is often limited in the real world, which constrains the performance of deep learning models in the field of time series analysis. Data augmentation is an effective way to solve the problem of small sample size and imbalance in time series datasets. The two key factors of data augmentation are the distance metric and the choice of interpolation method. SMOTE does not perform well on time series data because it uses a Euclidean distance metric and interpolates directly on the object. Therefore, we propose a DTW-based synthetic minority oversampling technique using siamese encoder for interpolation named DTWSSE. In order to reasonably measure the distance of the time series, DTW, which has been verified to be an effective method forts, is employed as the distance metric. To adapt the DTW metric, we use an autoencoder trained in an unsupervised self-training manner for interpolation. The encoder is a Siamese Neural Network for mapping the time series data from the DTW hidden space to the Euclidean deep feature space, and the decoder is used to map the deep feature space back to the DTW hidden space. We validate the proposed methods on a number of different balanced or unbalanced time series datasets. Experimental results show that the proposed method can lead to better performance of the downstream deep learning model.
翻訳日:2021-08-25 00:17:45 公開日:2021-08-23
# (参考訳) グラフ異常検出のための生成的・対照的自己教師付き学習 [全文訳有]

Generative and Contrastive Self-Supervised Learning for Graph Anomaly Detection ( http://arxiv.org/abs/2108.09896v1 )

ライセンス: CC BY 4.0
Yu Zheng, Ming Jin, Yixin Liu, Lianhua Chi, Khoa T. Phan, Yi-Ping Phoebe Chen(参考訳) グラフデータからの異常検出は、サイバーセキュリティ、ファイナンス、ソーシャルネットワークなど、多くの重要なアプリケーションで実用上重要な意味を持つため、多くの注目を集めている。 既存のデータマイニングと機械学習の手法は、グラフデータの複雑な相互依存を効果的に捉えられない浅い方法か、文脈情報を効果的な異常検出のための監視信号として活用できないグラフオートエンコーダ手法である。 本稿では,これらの課題を克服するために,グラフ異常検出のための自己教師あり学習(sl-gad)を提案する。 本手法は,対象ノードに基づいて異なる文脈的サブグラフ(ビュー)を構築し,生成属性回帰と多視点コントラスト学習という2つのモジュールを用いて異常検出を行う。 生成属性回帰モジュールは属性空間内の異常をキャプチャできるが、マルチビューコントラスト学習モジュールは複数のサブグラフからよりリッチな構造情報を利用することができるため、構造空間内の異常を捕捉し、構造と属性情報を混合する。 本研究では,6つのベンチマークデータセットに対する広範な実験を行い,本手法が最先端の手法よりも高い性能を示すことを示した。

Anomaly detection from graph data has drawn much attention due to its practical significance in many critical applications including cybersecurity, finance, and social networks. Existing data mining and machine learning methods are either shallow methods that could not effectively capture the complex interdependency of graph data or graph autoencoder methods that could not fully exploit the contextual information as supervision signals for effective anomaly detection. To overcome these challenges, in this paper, we propose a novel method, Self-Supervised Learning for Graph Anomaly Detection (SL-GAD). Our method constructs different contextual subgraphs (views) based on a target node and employs two modules, generative attribute regression and multi-view contrastive learning for anomaly detection. While the generative attribute regression module allows us to capture the anomalies in the attribute space, the multi-view contrastive learning module can exploit richer structure information from multiple subgraphs, thus abling to capture the anomalies in the structure space, mixing of structure, and attribute information. We conduct extensive experiments on six benchmark datasets and the results demonstrate that our method outperforms state-of-the-art methods by a large margin.
翻訳日:2021-08-25 00:06:37 公開日:2021-08-23
# (参考訳) 境界不確かさ推定を用いた弱教師付アモーダルセグメンタ [全文訳有]

A Weakly Supervised Amodal Segmenter with Boundary Uncertainty Estimation ( http://arxiv.org/abs/2108.09897v1 )

ライセンス: CC BY 4.0
Khoi Nguyen, Sinisa Todorovic(参考訳) 本稿では,弱教師付きアモーダルインスタンスセグメンテーション(amodal instance segmentation)に対処し,可視および遮蔽(amodal)オブジェクトのセグメンテーションと,地対可視(modal)セグメンテーションのみを提供するトレーニングを目標とする。 先行研究の後,訓練画像におけるオクルージョン生成にデータ操作を用い,セグメンタを訓練し,操作されたデータのアモーダルセグメンテーションを予測する。 トレーニング画像の予測結果は,テスト画像のアモーダルなインスタンスセグメンテーションに使用するMask-RCNNの標準トレーニングにおいて,擬似地下真実として捉えられている。 疑似地下真実を生成するために,境界不確実性推定(ASBU)に基づく新しいアモーダルセグメンタを定義し,2つのコントリビューションを行う。 まず、先行作業ではオクルーダーマスクを使用しますが、ASBUではオクルージョン境界を入力として使用しています。 次に、ASBUは予測の不確実性マップを推定する。 推定不確実性は、不確実性の高い領域において低いセグメンテーション損失が発生するように学習を規則化する。 ASBUは,COCOAデータセットとKINSデータセットの3つのタスク – アモーダルインスタンスセグメンテーション,アモーダル補完,オーダリングリカバリ – に関する技術状況に対して,大幅なパフォーマンス向上を実現している。

This paper addresses weakly supervised amodal instance segmentation, where the goal is to segment both visible and occluded (amodal) object parts, while training provides only ground-truth visible (modal) segmentations. Following prior work, we use data manipulation to generate occlusions in training images and thus train a segmenter to predict amodal segmentations of the manipulated data. The resulting predictions on training images are taken as the pseudo-ground truth for the standard training of Mask-RCNN, which we use for amodal instance segmentation of test images. For generating the pseudo-ground truth, we specify a new Amodal Segmenter based on Boundary Uncertainty estimation (ASBU) and make two contributions. First, while prior work uses the occluder's mask, our ASBU uses the occlusion boundary as input. Second, ASBU estimates an uncertainty map of the prediction. The estimated uncertainty regularizes learning such that lower segmentation loss is incurred on regions with high uncertainty. ASBU achieves significant performance improvement relative to the state of the art on the COCOA and KINS datasets in three tasks: amodal instance segmentation, amodal completion, and ordering recovery.
翻訳日:2021-08-24 23:38:25 公開日:2021-08-23
# (参考訳) シングルビュー3次元再構成のためのブラックボックス試験時間形状改善 [全文訳有]

Black-Box Test-Time Shape REFINEment for Single View 3D Reconstruction ( http://arxiv.org/abs/2108.09911v1 )

ライセンス: CC BY 4.0
Brandon Leung, Chih-Hui Ho, Nuno Vasconcelos(参考訳) 画像から物体の3次元形状、すなわち物体の3次元形状を復元する手法が近年進歩している。 シングルビュー3D再構築。 しかし,現在の手法では,入力画像の形状を真に理解するのではなく,単に「アレスト近傍」戦略を採用することが示唆されている。 本稿では,(1)粗い再構成と入力画像との矛盾,(2)ドメインをまたがる一般化ができないこと,等を厳格に示す。 そこで本研究では,黒箱法のパイプラインに容易に統合可能な後処理メッシュ改良ステップであるrefineを提案する。 テスト時には、REFINEはメッシュ毎のネットワークインスタンスを最適化し、メッシュと所定のオブジェクトビュー間の一貫性を促進する。 これは損失の正規化という新たな組み合わせと共に、ドメインギャップを減らし、アートパフォーマンスの状態を達成します。 我々は、この新パラダイムが、新しい再建ネットワークの導入に伴って、堅牢で正確な再構築に向けた重要なステップであると信じている。

Much recent progress has been made in reconstructing the 3D shape of an object from an image of it, i.e. single view 3D reconstruction. However, it has been suggested that current methods simply adopt a "nearest-neighbor&quo t; strategy, instead of genuinely understanding the shape behind the input image. In this paper, we rigorously show that for many state of the art methods, this issue manifests as (1) inconsistencies between coarse reconstructions and input images, and (2) inability to generalize across domains. We thus propose REFINE, a postprocessing mesh refinement step that can be easily integrated into the pipeline of any black-box method in the literature. At test time, REFINE optimizes a network per mesh instance, to encourage consistency between the mesh and the given object view. This, along with a novel combination of regularizing losses, reduces the domain gap and achieves state of the art performance. We believe that this novel paradigm is an important step towards robust, accurate reconstructions, remaining relevant as new reconstruction networks are introduced.
翻訳日:2021-08-24 23:13:57 公開日:2021-08-23
# (参考訳) 臨床シーケンスラベリングにおける注釈の粒度とコストの分析 [全文訳有]

Analyzing the Granularity and Cost of Annotation in Clinical Sequence Labeling ( http://arxiv.org/abs/2108.09913v1 )

ライセンス: CC BY 4.0
Haozhan Sun, Chenchen Xu, Hanna Suominen(参考訳) 最近のトップ研究で示されているように、よく注釈付けられたデータセットは、教師付き機械学習(ML)において、これまで以上に研究者にとって重要になっている。 しかし、データセットのアノテーションプロセスとその関連する人的労働コストは見落とされ続けている。 本研究は,看護シフトチェンジハンドオーバによる臨床記録を用いて,シーケンスラベリングにおけるアノテーションの粒度とMLパフォーマンスの関係を解析する。 まず, 看護知識に基づく追加情報なしに, テキスト言語特徴のみから派生したモデルについて検討した。 このシーケンスタグは、この粒度の下のほとんどのカテゴリでよく機能する。 次に,看護婦による追加のマニュアルアノテーションを含め,ほぼ同一のシーケンスタグ付け性能を示す。 最後に,投資のリターンが低かったため,詳細な粒度に注釈を付ける必要がなく,かつ推奨されないという,コミュニティへのガイドラインと参照を与える。 したがって,テキスト知識などの他の特徴を研究者や実践者に対して,シーケンスラベリング性能を向上させるための費用対効果の高い情報源として強調することを推奨する。

Well-annotated datasets, as shown in recent top studies, are becoming more important for researchers than ever before in supervised machine learning (ML). However, the dataset annotation process and its related human labor costs remain overlooked. In this work, we analyze the relationship between the annotation granularity and ML performance in sequence labeling, using clinical records from nursing shift-change handover. We first study a model derived from textual language features alone, without additional information based on nursing knowledge. We find that this sequence tagger performs well in most categories under this granularity. Then, we further include the additional manual annotations by a nurse, and find the sequence tagging performance remaining nearly the same. Finally, we give a guideline and reference to the community arguing it is not necessary and even not recommended to annotate in detailed granularity because of a low Return on Investment. Therefore we recommend emphasizing other features, like textual knowledge, for researchers and practitioners as a cost-effective source for increasing the sequence labeling performance.
翻訳日:2021-08-24 22:57:59 公開日:2021-08-23
# (参考訳) 実世界のX線セキュリティ検査に向けて:禁止項目検出のための高品質ベンチマークと横方向抑制モジュール [全文訳有]

Towards Real-world X-ray Security Inspection: A High-Quality Benchmark and Lateral Inhibition Module for Prohibited Items Detection ( http://arxiv.org/abs/2108.09917v1 )

ライセンス: CC BY 4.0
Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu(参考訳) X線画像における禁止アイテムの検出は、公共の安全を守る上で重要な役割を担い、しばしば色単調で光沢のない物体を扱い、不満足なパフォーマンスをもたらす。 これまで、特殊な高品質データセットが欠如しているため、この問題に触発する研究はまれである。 本研究ではまず,8カテゴリの102,928の共通禁止項目を含む,高品質なX線(HiXray)セキュリティ検査画像データセットを提示する。 これは、空港のセキュリティ検査から収集され、専門家のセキュリティ検査官によって注釈付された、禁止項目検出のための高品質のデータセットである。 また,正確な禁止項目検出のために,不適切な情報を無視し,特にオブジェクトが重なり合う場合に,識別可能な特徴に焦点をあてることで,人間がこれらの項目を認識できることに着想を得た横方向抑制モジュール(LIM)を提案する。 具体的には、厳密に設計されたフレキシブルな追加モジュールであるLIMは、双方向伝搬(BP)モジュールによって最大に流れるノイズ情報を抑圧し、境界活性化(BA)モジュールによって4方向から最も識別可能なカリスマ性境界を活性化する。 提案手法はHiXrayとOPIXrayで広範に評価し,SOTA検出法より優れていることを示す。

Prohibited items detection in X-ray images often plays an important role in protecting public safety, which often deals with color-monotonous and luster-insufficient objects, resulting in unsatisfactory performance. Till now, there have been rare studies touching this topic due to the lack of specialized high-quality datasets. In this work, we first present a High-quality X-ray (HiXray) security inspection image dataset, which contains 102,928 common prohibited items of 8 categories. It is the largest dataset of high quality for prohibited items detection, gathered from the real-world airport security inspection and annotated by professional security inspectors. Besides, for accurate prohibited item detection, we further propose the Lateral Inhibition Module (LIM) inspired by the fact that humans recognize these items by ignoring irrelevant information and focusing on identifiable characteristics, especially when objects are overlapped with each other. Specifically, LIM, the elaborately designed flexible additional module, suppresses the noisy information flowing maximumly by the Bidirectional Propagation (BP) module and activates the most identifiable charismatic, boundary, from four directions by Boundary Activation (BA) module. We evaluate our method extensively on HiXray and OPIXray and the results demonstrate that it outperforms SOTA detection methods.
翻訳日:2021-08-24 22:48:06 公開日:2021-08-23
# (参考訳) 非可換代数を用いた畳み込みフィルタとニューラルネットワーク [全文訳有]

Convolutional Filtering and Neural Networks with Non Commutative Algebras ( http://arxiv.org/abs/2108.09923v1 )

ライセンス: CC BY 4.0
Alejandro Parada-Mayorga and Alejandro Ribeiro(参考訳) 本稿では,非可換代数に基づく代数的ニューラルネットワーク(AlgNN)の安定性について述べる。 AlgNNは代数、ベクトル空間、準同型によって決定される代数信号モデル(ASM)に関連付けられた各層を持つ積層構造である。 信号はベクトル空間の要素としてモデル化され、フィルターは代数の要素であり、準同型はフィルターを具体的作用素として実現する。 非可換代数における代数フィルタの準同型摂動に対する安定性について検討し、安定性が保証される条件を提供する。 シフト作用素とシフトと摂動の間の可換性は、安定であることのアーキテクチャの性質に影響を与えないことを示す。 これは、安定性を保証するのにシフト不変性が畳み込みアーキテクチャの必要特性であったかどうかという疑問に対する答えを提供する。 さらに、非可換代数におけるフィルタの周波数応答は可換代数におけるフィルタとはかなり異なるが、安定なフィルタに対するそれらの導関数は類似した挙動を持つことを示した。

In this paper we provide stability results for algebraic neural networks (AlgNNs) based on non commutative algebras. AlgNNs are stacked layered structures with each layer associated to an algebraic signal model (ASM) determined by an algebra, a vector space, and a homomorphism. Signals are modeled as elements of the vector space, filters are elements in the algebra, while the homomorphism provides a realization of the filters as concrete operators. We study the stability of the algebraic filters in non commutative algebras to perturbations on the homomorphisms, and we provide conditions under which stability is guaranteed. We show that the commutativity between shift operators and between shifts and perturbations does not affect the property of an architecture of being stable. This provides an answer to the question of whether shift invariance was a necessary attribute of convolutional architectures to guarantee stability. Additionally, we show that although the frequency responses of filters in non commutative algebras exhibit substantial differences with respect to filters in commutative algebras, their derivatives for stable filters have a similar behavior.
翻訳日:2021-08-24 22:33:46 公開日:2021-08-23
# (参考訳) TwitterにおけるSarcasm検出 -- データ拡張時のパフォーマンスへの影響: ワード埋め込み [全文訳有]

Sarcasm Detection in Twitter -- Performance Impact when using Data Augmentation: Word Embeddings ( http://arxiv.org/abs/2108.09924v1 )

ライセンス: CC BY 4.0
Alif Tri Handoyo, Hidayaturrahman, Derwin Suhartono(参考訳) サルカスム(Sarcasm)は、通常、誰かをモックしたり、困らせたり、ユーモラスな目的のために使われる言葉である。 sarcasmは、主にソーシャルネットワークやマイクロブログウェブサイトで使われており、人々がモックしたり検閲したりすることで、人間が何を言ったかが意味なのかを判断するのが難しくなっている。 感情分析や意見マイニングといった自然言語処理アプリケーションにおける皮肉な発話の識別に失敗すると、分類アルゴリズムが混同され、誤った結果が生成される。 サルカズム検出に関するいくつかの研究は、異なる学習アルゴリズムを利用している。 しかし、これらの学習モデルのほとんどは、常に表現の内容のみに焦点を合わせており、文脈情報は孤立している。 その結果,サルコスティック表現における文脈情報の把握に失敗した。 さらに、いくつかの研究で使われるデータセットには、モデル結果に影響を与える不均衡データセットがある。 本稿では、RoBERTaを用いたTwitterにおける皮肉識別のための文脈モデルを提案し、単語埋め込みと文脈学習の構築にGlobal Vector representation(GloVe )を適用してデータセットを増強し、より多くのデータを生成し、データセットのバランスをとる。 この手法の有効性は、様々なデータセットとデータ拡張設定でテストされる。 特に、データ拡張を使用する場合のiSarcasmデータセットのパフォーマンスは3.2%向上し、サーカシック(sarcastic)とラベル付けされたデータの20%が増加し、結果、Fスコアはデータ拡張なしの37.2%に対して40.4%向上した。

Sarcasm is the use of words usually used to either mock or annoy someone, or for humorous purposes. Sarcasm is largely used in social networks and microblogging websites, where people mock or censure in a way that makes it difficult even for humans to tell if what is said is what is meant. Failure to identify sarcastic utterances in Natural Language Processing applications such as sentiment analysis and opinion mining will confuse classification algorithms and generate false results. Several studies on sarcasm detection have utilized different learning algorithms. However, most of these learning models have always focused on the contents of expression only, leaving the contextual information in isolation. As a result, they failed to capture the contextual information in the sarcastic expression. Moreover, some datasets used in several studies have an unbalanced dataset which impacting the model result. In this paper, we propose a contextual model for sarcasm identification in twitter using RoBERTa, and augmenting the dataset by applying Global Vector representation (GloVe) for the construction of word embedding and context learning to generate more data and balancing the dataset. The effectiveness of this technique is tested with various datasets and data augmentation settings. In particular, we achieve performance gain by 3.2% in the iSarcasm dataset when using data augmentation to increase 20% of data labeled as sarcastic, resulting F-score of 40.4% compared to 37.2% without data augmentation.
翻訳日:2021-08-24 22:08:24 公開日:2021-08-23
# (参考訳) SegMix: セマンティックセグメンテーションと対向ロバストネスのための共起駆動混合 [全文訳有]

SegMix: Co-occurrence Driven Mixup for Semantic Segmentation and Adversarial Robustness ( http://arxiv.org/abs/2108.09929v1 )

ライセンス: CC0 1.0
Md Amirul Islam, Matthew Kowal, Konstantinos G. Derpanis, Neil D. B. Bruce(参考訳) 本稿では,ネットワーク全体のカテゴリ間情報に関連する競合仮説から生じる干渉を効果的に解消する,畳み込みニューラルネットワークのトレーニング戦略を提案する。 この前提は機能バインディングの概念に基づいており、ネットワーク内の層と空間にまたがる活性化をうまく統合して正しい推論決定に達するプロセスとして定義される。 本研究は, (i) カテゴリクラスタリングや (ii) カテゴリの共起可能性に基づくイメージをブレンドすることにより, 高密度画像ラベリングのタスクを実現する。 次に、ブレンド画像の分割と分離を同時に行う機能バインディングネットワークを訓練する。 その後、ノイズの活性化を抑制する特徴が追加の望ましい特性と高い確率の予測を示す。 このプロセスを通じて,基本セグメンテーションとサリエンシネットワークの性能を向上すると同時に,敵攻撃に対するロバスト性を高めるための一般的なメカニズムを明らかにする。

In this paper, we present a strategy for training convolutional neural networks to effectively resolve interference arising from competing hypotheses relating to inter-categorical information throughout the network. The premise is based on the notion of feature binding, which is defined as the process by which activations spread across space and layers in the network are successfully integrated to arrive at a correct inference decision. In our work, this is accomplished for the task of dense image labelling by blending images based on (i) categorical clustering or (ii) the co-occurrence likelihood of categories. We then train a feature binding network which simultaneously segments and separates the blended images. Subsequent feature denoising to suppress noisy activations reveals additional desirable properties and high degrees of successful predictions. Through this process, we reveal a general mechanism, distinct from any prior methods, for boosting the performance of the base segmentation and saliency network while simultaneously increasing robustness to adversarial attacks.
翻訳日:2021-08-24 21:58:26 公開日:2021-08-23
# (参考訳) 連合学習は公平性と差別化されたプライバシーを満たす [全文訳有]

Federated Learning Meets Fairness and Differential Privacy ( http://arxiv.org/abs/2108.09932v1 )

ライセンス: CC BY 4.0
Manisha Padala, Sankarshan Damle and Sujit Gujar(参考訳) ディープラーニングの成功は、バイアスのある予測からデータプライバシに至るまで、いくつかの倫理的な懸念を引き起こす。 研究者たちは、公正度メトリクスやフェデレーション学習(差分プライバシー)を導入することで、これらの問題に対処する。 まず,3つの尺度を同時に組み込んだ倫理的フェデレーション学習モデルを提案する。 成人、銀行、オランダのデータセットにおける実験では、正確性、公平性、プライバシーの間に生じる‘経験的相互作用’が強調されている。

Deep learning's unprecedented success raises several ethical concerns ranging from biased predictions to data privacy. Researchers tackle these issues by introducing fairness metrics, or federated learning, or differential privacy. A first, this work presents an ethical federated learning model, incorporating all three measures simultaneously. Experiments on the Adult, Bank and Dutch datasets highlight the resulting ``empirical interplay" between accuracy, fairness, and privacy.
翻訳日:2021-08-24 21:33:30 公開日:2021-08-23
# (参考訳) メンタルヘルスアセスメントのための顔行動のモデリングダイナミクス [全文訳有]

Modeling Dynamics of Facial Behavior for Mental Health Assessment ( http://arxiv.org/abs/2108.09934v1 )

ライセンス: CC BY 4.0
Minh Tran, Ellen Bradley, Michelle Matvey, Joshua Woolley, Mohammad Soleymani(参考訳) 顔面行動単位(FAU)強度は、顔の行動分析のための一般的な記述法である。 しかし、FAUは、一度に数個しか活性化されないときにわずかに表現される。 本研究では,自然言語処理における単語表現に使用されるアルゴリズムを用いて,表情の動的表現の可能性を検討する。 具体的には、顔クラスタの埋め込みを学習するためにグローバルベクトル表現(GloVe)アルゴリズムを適用する前に、5.3Mフレームの時間的表情の大規模なデータセット上でクラスタリングを行う。 統合失調症の症状推定とうつ病重症度回帰という2つの下流課題における学習表現の有用性を評価する。 これらの実験結果から,FAU強度のみを用いたベースラインモデルによるメンタルヘルス症状の評価を改善するためのアプローチの有効性が示唆された。

Facial action unit (FAU) intensities are popular descriptors for the analysis of facial behavior. However, FAUs are sparsely represented when only a few are activated at a time. In this study, we explore the possibility of representing the dynamics of facial expressions by adopting algorithms used for word representation in natural language processing. Specifically, we perform clustering on a large dataset of temporal facial expressions with 5.3M frames before applying the Global Vector representation (GloVe) algorithm to learn the embeddings of the facial clusters. We evaluate the usefulness of our learned representations on two downstream tasks: schizophrenia symptom estimation and depression severity regression. These experimental results show the potential effectiveness of our approach for improving the assessment of mental health symptoms over baseline models that use FAU intensities alone.
翻訳日:2021-08-24 21:22:57 公開日:2021-08-23
# (参考訳) 人物再同定のためのGAN生成画像の品質探索 [全文訳有]

Exploring the Quality of GAN Generated Images for Person Re-Identification ( http://arxiv.org/abs/2108.09977v1 )

ライセンス: CC BY 4.0
Yiqi Jiang, Weihua Chen, Xiuyu Sun, Xiaoyu Shi, Fan Wang, Hao Li(参考訳) 近年、ドメイン間のギャップを埋め、特徴空間におけるデータ多様性を豊かにする能力から、人物再識別のための強化データ(ReID)の生成に強い効果が示されている。 しかし、ReIDの作業の多くは、追加のトレーニングサンプルとしてすべてのGAN生成データを選択したり、データセットレベルでのGAN生成の品質を評価し、ReIDタスクにおけるデータのイメージレベルの本質的な特徴を無視したりする。 本稿では,ReID サンプルの深部特性を分析し,ReID に優れた GAN 生成画像を作成するという課題を解決する。 具体的には、各データサンプルのID一貫性と多様性の制約について、異なる空間に画像をマッピングすることで検討する。 計量に基づくサンプリング法により,すべてのGAN生成データが拡張に有用ではないことを示す。 品質評価によってフィルタリングされたデータでトレーニングされたモデルは、大きなマージンで設定された完全な拡張でトレーニングされたモデルよりも優れています。 拡張実験により,教師付きReIDタスクと教師なしドメイン適応ReIDタスクの両方において,本手法の有効性が示された。

Recently, GAN based method has demonstrated strong effectiveness in generating augmentation data for person re-identification (ReID), on account of its ability to bridge the gap between domains and enrich the data variety in feature space. However, most of the ReID works pick all the GAN generated data as additional training samples or evaluate the quality of GAN generation at the entire data set level, ignoring the image-level essential feature of data in ReID task. In this paper, we analyze the in-depth characteristics of ReID sample and solve the problem of "What makes a GAN-generated image good for ReID". Specifically, we propose to examine each data sample with id-consistency and diversity constraints by mapping image onto different spaces. With a metric-based sampling method, we demonstrate that not every GAN-generated data is beneficial for augmentation. Models trained with data filtered by our quality evaluation outperform those trained with the full augmentation set by a large margin. Extensive experiments show the effectiveness of our method on both supervised ReID task and unsupervised domain adaptation ReID task.
翻訳日:2021-08-24 21:13:12 公開日:2021-08-23
# (参考訳) farsighted probabilistic sampling based local search for (weighted) partial maxsat (英語) [全文訳有]

Farsighted Probabilistic Sampling based Local Search for (Weighted) Partial MaxSAT ( http://arxiv.org/abs/2108.09988v1 )

ライセンス: CC BY 4.0
Jiongzhi Zheng and Jianrong Zhou and Kun He(参考訳) 部分MaxSAT (PMS) と重み付き部分MaxSAT (WPMS) はどちらも、MaxSATの典型的な組合せ問題に対する実用的な一般化である。 本研究では, (w)pms という2つの問題を解くために, fps と呼ばれる遠視的確率的サンプリングに基づく局所探索アルゴリズムを提案する。 fpsアルゴリズムは、既存の(w)pms局所探索アルゴリズムで広く使われている反復ステップ毎に単一の変数を反転するメカニズムを、提案された遠視局所探索戦略に置き換え、高品質な局所最適解を提供する。 遠視戦略は確率的サンプリング技術を用いており、アルゴリズムを広く効率的に見渡すことができる。 これにより、FPSはより優れた探索方向を提供し、効率を低下させることなく性能を向上させることができる。 近年のMaxSAT評価において, (W)PMS問題の全ベンチマークにおいて, PMSとWPMS問題の両方を解くために, 最先端の局所探索アルゴリズムSATLike3.0を著しく上回っていることを示す。 さらに、最近のMaxSAT Evaluation(MSE2021)において、全4つのカテゴリー(PMSとWPMS、それぞれ2つの時間制限を伴う)のうち3つのカテゴリのチャンピオンであるSATLike, SATLike-cの拡張解法との比較を行った。 SATLike-c の局所探索成分を遠距離サンプリングによる局所探索手法に置き換え,結果の FPS-c は PMS と WPMS の両問題を解くために SATLike-c よりも優れている。

Partial MaxSAT (PMS) and Weighted Partial MaxSAT (WPMS) are both practical generalizations to the typical combinatorial problem of MaxSAT. In this work, we propose an effective farsighted probabilistic sampling based local search algorithm called FPS for solving these two problems, denoted as (W)PMS. The FPS algorithm replaces the mechanism of flipping a single variable per iteration step, that is widely used in existing (W)PMS local search algorithms, with the proposed farsighted local search strategy, and provides higher-quality local optimal solutions. The farsighted strategy employs the probabilistic sampling technique that allows the algorithm to look-ahead widely and efficiently. In this way, FPS can provide more and better search directions and improve the performance without reducing the efficiency. Extensive experiments on all the benchmarks of (W)PMS problems from the incomplete track of recent four years of MaxSAT Evaluations demonstrate that our method significantly outperforms SATLike3.0, the state-of-the-art local search algorithm, for solving both the PMS and WPMS problems. We furthermore do comparison with the extended solver of SATLike, SATLike-c, which is the champion of three categories among the total four (PMS and WPMS categories, each associated with two time limits) of the incomplete track in the recent MaxSAT Evaluation (MSE2021). We replace the local search component in SATLike-c with the proposed farsighted sampling local search approach, and the resulting solver FPS-c also outperforms SATLike-c for solving both the PMS and WPMS problems.
翻訳日:2021-08-24 20:58:34 公開日:2021-08-23
# (参考訳) MS-DARTS:平均シフトに基づく微分可能なアーキテクチャ検索 [全文訳有]

MS-DARTS: Mean-Shift Based Differentiable Architecture Search ( http://arxiv.org/abs/2108.09996v1 )

ライセンス: CC BY 4.0
Jun-Wei Hsieh, Ming-Ching Chang, Ping-Yang Chen, Cheng-Han Chou, Chih-Sheng Huang(参考訳) 微分可能アーキテクチャサーチ (DARTS) は、探索コストの低い効果的な連続緩和型ネットワークアーキテクチャサーチ (NAS) 手法である。 これはAuto-ML研究において大きな注目を集め、NASで最も有用なパラダイムの1つとなった。 DARTSは複雑なパラメータをよりよく制御する従来のNASアプローチよりも優れた効率性が得られるが、しばしば、継続的アーキテクチャを識別する際のアーキテクチャの劣化に悩まされる。 我々は,DARTSの最終離散化段階において,性能の劇的な低下を引き起こす妥当性の低下を観察した。 そこで本研究では,サンプリングと摂動に基づく安定性向上を目的とした平均シフト型DARTS(MS-DARTS)を提案する。 本手法は,ロスランドスケープを平滑化し,適切な帯域幅でアーキテクチャパラメータをサンプリングすることにより,DARTSの安定性と精度を向上させる。 平均シフトアプローチの収束と、安定性と精度に影響を与える帯域幅選択の影響について検討する。 CIFAR-10, CIFAR-100, ImageNet で行った評価の結果,MS-DARTS アーカイブは検索コストを削減した他の最先端NAS 手法よりも高い性能を示した。

Differentiable Architecture Search (DARTS) is an effective continuous relaxation-based network architecture search (NAS) method with low search cost. It has attracted significant attentions in Auto-ML research and becomes one of the most useful paradigms in NAS. Although DARTS can produce superior efficiency over traditional NAS approaches with better control of complex parameters, oftentimes it suffers from stabilization issues in producing deteriorating architectures when discretizing the continuous architecture. We observed considerable loss of validity causing dramatic decline in performance at this final discretization step of DARTS. To address this issue, we propose a Mean-Shift based DARTS (MS-DARTS) to improve stability based on sampling and perturbation. Our approach can improve bot the stability and accuracy of DARTS, by smoothing the loss landscape and sampling architecture parameters within a suitable bandwidth. We investigate the convergence of our mean-shift approach, together with the effects of bandwidth selection that affects stability and accuracy. Evaluations performed on CIFAR-10, CIFAR-100, and ImageNet show that MS-DARTS archives higher performance over other state-of-the-art NAS methods with reduced search cost.
翻訳日:2021-08-24 20:43:41 公開日:2021-08-23
# (参考訳) 機械学習を用いたクレジットカード不正検出に関する研究 [全文訳有]

Credit Card Fraud Detection using Machine Learning: A Study ( http://arxiv.org/abs/2108.10005v1 )

ライセンス: CC BY 4.0
Pooja Tiwari, Simran Mehta, Nishtha Sakhuja, Jitendra Kumar, Ashutosh Kumar Singh(参考訳) 世界が急速にデジタル化に向かっており、貨幣取引も現金化が進んでおり、クレジットカードの利用が急速に増加している。 また、それに伴う不正行為も増加しており、金融機関に大きな損失をもたらしている。 したがって、不正取引を非詐欺取引から分析し、検出する必要がある。 本稿では,クレジットカード詐欺を検知するための各種手法の包括的レビューを行う。 これらの手法には隠れマルコフモデル、決定木、ロジスティック回帰、サポートベクターマシン(svm)、遺伝的アルゴリズム、ニューラルネットワーク、ランダムフォレスト、ベイズ信念ネットワークが含まれる。 様々な技法の総合的な分析を行った。 論文は各論文に記載されているものと同じ長文と短文で締めくくります。

As the world is rapidly moving towards digitization and money transactions are becoming cashless, the use of credit cards has rapidly increased. The fraud activities associated with it have also been increasing which leads to a huge loss to the financial institutions. Therefore, we need to analyze and detect the fraudulent transaction from the non-fraudulent ones. In this paper, we present a comprehensive review of various methods used to detect credit card fraud. These methodologies include Hidden Markov Model, Decision Trees, Logistic Regression, Support Vector Machines (SVM), Genetic algorithm, Neural Networks, Random Forests, Bayesian Belief Network. A comprehensive analysis of various techniques is presented. We conclude the paper with the pros and cons of the same as stated in the respective papers.
翻訳日:2021-08-24 20:27:08 公開日:2021-08-23
# (参考訳) OBDMにおけるQDEFとその近似 [全文訳有]

QDEF and Its Approximations in OBDM ( http://arxiv.org/abs/2108.10021v1 )

ライセンス: CC BY 4.0
Gianluca Cima, Federico Croce, Maurizio Lenzerini(参考訳) 入力データセット(すなわちタプルの集合)が与えられた場合、オントロジーベースのデータ管理(OBDM)におけるクエリ定義性は、与えられたデータセットのタプルと特定の回答が一致するオントロジー上のクエリを見つける。 本稿では、OBDMシステムに関するデータセットのキャラクタリゼーションとして、そのようなクエリを参照する。 最初の貢献は、リコール(完全キャラクタリゼーション)と精度(音響キャラクタリゼーション)の観点から、完全キャラクタリゼーションの近似を提案することである。 第2のコントリビューションは、検証(与えられたクエリが完璧であるか、または与えられたデータセットの近似的なキャラクタリゼーションか)、存在(完全であるか、または与えられたデータセットの最適なキャラクタリゼーションが存在するか)、および計算(完全であるか、または与えられたデータセットの最適なキャラクタリゼーションを計算)という3つの計算問題の完全な複雑性解析を行うことである。

Given an input dataset (i.e., a set of tuples), query definability in Ontology-based Data Management (OBDM) amounts to find a query over the ontology whose certain answers coincide with the tuples in the given dataset. We refer to such a query as a characterization of the dataset with respect to the OBDM system. Our first contribution is to propose approximations of perfect characterizations in terms of recall (complete characterizations) and precision (sound characterizations). A second contribution is to present a thorough complexity analysis of three computational problems, namely verification (check whether a given query is a perfect, or an approximated characterization of a given dataset), existence (check whether a perfect, or a best approximated characterization of a given dataset exists), and computation (compute a perfect, or best approximated characterization of a given dataset).
翻訳日:2021-08-24 20:15:31 公開日:2021-08-23
# (参考訳) 構成可能な3dシーンレイアウトによるリアル画像合成 [全文訳有]

Realistic Image Synthesis with Configurable 3D Scene Layouts ( http://arxiv.org/abs/2108.10031v1 )

ライセンス: CC BY 4.0
Jaebong Jeong, Janghun Jo, Jingdong Wang, Sunghyun Cho, Jaesik Park(参考訳) 最近の条件付き画像合成手法は高品質な合成画像を提供する。 しかし、オブジェクトの位置や向きなどの画像内容の正確な調整は依然として困難であり、合成画像は幾何学的に無効な内容を持つことが多い。 3次元幾何学的な側面から合成画像のリッチな制御性を実現するために,構成可能な3次元シーンレイアウトに基づくリアルな画像合成手法を提案する。 提案手法はセマンティックなクラスラベルを持つ3Dシーンを入力として、入力された3Dシーンの色値を合成する3Dシーン描画ネットワークを訓練する。 トレーニング済みのペイントネットワークでは、入力された3dシーンの写実的なイメージをレンダリングして操作することができる。 絵画ネットワークを3Dカラー監視なしで訓練するために,市販の2Dセマンティック画像合成手法を利用する。 実験では,本手法が幾何学的正しい構造をもつ画像を生成し,視点や物体のポーズの変化や絵画スタイルの操作といった幾何学的操作をサポートすることを示す。

Recent conditional image synthesis approaches provide high-quality synthesized images. However, it is still challenging to accurately adjust image contents such as the positions and orientations of objects, and synthesized images often have geometrically invalid contents. To provide users with rich controllability on synthesized images in the aspect of 3D geometry, we propose a novel approach to realistic-looking image synthesis based on a configurable 3D scene layout. Our approach takes a 3D scene with semantic class labels as input and trains a 3D scene painting network that synthesizes color values for the input 3D scene. With the trained painting network, realistic-looking images for the input 3D scene can be rendered and manipulated. To train the painting network without 3D color supervision, we exploit an off-the-shelf 2D semantic image synthesis method. In experiments, we show that our approach produces images with geometrically correct structures and supports geometric manipulation such as the change of the viewpoint and object poses as well as manipulation of the painting style.
翻訳日:2021-08-24 19:25:13 公開日:2021-08-23
# (参考訳) 原始と双対の組合せ次元 [全文訳有]

Primal and Dual Combinatorial Dimensions ( http://arxiv.org/abs/2108.10037v1 )

ライセンス: CC BY 4.0
Pieter Kleer and Hans Simon(参考訳) 多値関数クラスに対する擬次元や脂肪散乱次元のような様々な組合せ次元の原始と双対の関係について厳密な境界を与える。 これらの次元概念は、学習理論の領域において重要な役割を果たす。 最初は、関数クラスの双対次元をその原始性の観点から有界にし、その後(ほとんど)一致する下界を与えるいくつかの(フォークロア)結果についてレビューする。 特に、Assouad (1983) によるよく知られた有界な多値函数クラスに対して、二元関数クラスの原始および双対VC次元に関連する適切な一般化を与える。

We give tight bounds on the relation between the primal and dual of various combinatorial dimensions, such as the pseudo-dimension and fat-shattering dimension, for multi-valued function classes. These dimensional notions play an important role in the area of learning theory. We first review some (folklore) results that bound the dual dimension of a function class in terms of its primal, and after that give (almost) matching lower bounds. In particular, we give an appropriate generalization to multi-valued function classes of a well-known bound due to Assouad (1983), that relates the primal and dual VC-dimension of a binary function class.
翻訳日:2021-08-24 19:09:09 公開日:2021-08-23
# (参考訳) 畳み込みニューラルネットワークを用いた脳波に基づく運転注意の分類 [全文訳有]

EEG-based Classification of Drivers Attention using Convolutional Neural Network ( http://arxiv.org/abs/2108.10062v1 )

ライセンス: CC BY 4.0
Fred Atilla and Maryam Alimardani(参考訳) 運転者の注意状態の正確な検出は、予期せぬ危険にリアルタイムで対応し、道路安全を改善する支援技術の開発に役立つ。 本研究は,参加者の脳活動について訓練した注意分類器の性能を比較した。 参加者は、クルージングレーンからランダムに外れた没入型シミュレータで運転タスクを実行した。 彼らは偏差を正す必要があり、その応答時間は注意の指標とみなされた。 参加者は2つのセッションでタスクを繰り返し、あるセッションでは審美的なフィードバックを受け取り、別のセッションではフィードバックを受けなかった。 脳波信号を用いて脳波スペクトルバンドパワーを用いたサポートベクトルマシン(SVM)と、スペクトル特徴または生脳波データを用いた畳み込みニューラルネットワーク(CNN)の3つの注意分類器を訓練した。 その結果, 審美的フィードバックにより得られた脳波データに基づくcnnモデルが最も精度が高かった(89%)。 モデルのトレーニングに参加者自身の脳活動を使用することで、最高のパフォーマンスが得られる一方で、オブジェクト間移動学習は高い(75%)パフォーマンスを示し、キャリブレーションなしのBrain-Computer Interface(BCI)システムの実現を約束している。 この結果から,CNNおよび生脳波信号は受動的BCIの訓練に有効であることが示唆された。

Accurate detection of a drivers attention state can help develop assistive technologies that respond to unexpected hazards in real time and therefore improve road safety. This study compares the performance of several attention classifiers trained on participants brain activity. Participants performed a driving task in an immersive simulator where the car randomly deviated from the cruising lane. They had to correct the deviation and their response time was considered as an indicator of attention level. Participants repeated the task in two sessions; in one session they received kinesthetic feedback and in another session no feedback. Using their EEG signals, we trained three attention classifiers; a support vector machine (SVM) using EEG spectral band powers, and a Convolutional Neural Network (CNN) using either spectral features or the raw EEG data. Our results indicated that the CNN model trained on raw EEG data obtained under kinesthetic feedback achieved the highest accuracy (89%). While using a participants own brain activity to train the model resulted in the best performances, inter-subject transfer learning still performed high (75%), showing promise for calibration-free Brain-Computer Interface (BCI) systems. Our findings show that CNN and raw EEG signals can be employed for effective training of a passive BCI for real-time attention classification.
翻訳日:2021-08-24 18:53:25 公開日:2021-08-23
# (参考訳) 2次元マントル対流のサロゲートモデリングのためのディープラーニング

Deep learning for surrogate modelling of 2D mantle convection ( http://arxiv.org/abs/2108.10105v1 )

ライセンス: CC BY 4.0
Siddhant Agarwal, Nicola Tosi, Pan Kessel, Doris Breuer, Gr\'egoire Montavon(参考訳) 伝統的に、スケーリング法則に基づく1Dモデルは、地球、火星、水星、金星などの地球惑星の内部の対流熱伝達岩をパラメータ化して、2Dまたは3Dでの高忠実な前進の計算的ボトルネックに取り組むために使われてきた。 しかし、これらはモデリングできる物理量に制限されている(例)。 深さ依存性物質特性) 平均マントル温度のような平均量のみを予測する。 最近,feedforward neural networks (fnn) が多数の2次元シミュレーションを用いてトレーニングすることで,この限界を克服し,複雑なモデル [agarwal et al] に間に合うように1次元平均温度プロファイル全体の進化を確実に予測できることを示した。 2020]. 熱水プルームや寒冷地などの対流構造の形で、より多くの情報を含む2次元の温度場を予測するためにこの手法を拡張した。 火星のような惑星のマントルの熱的進化に関する10,525の2次元シミュレーションのデータセットを用いて、深層学習技術が信頼できるパラメータ化サロゲート(すなわち、)を生成可能であることを示す。 基底となる偏微分方程式の温度(パラメータのみに基づく温度)のような状態変数を予測する代理。 まず、畳み込み型オートエンコーダを用いて、142の係数で温度場を圧縮し、FNNと長期記憶ネットワーク(LSTM)を用いて圧縮されたフィールドを予測する。 平均して、FNN予測は99.30%、LSTM予測は99.22%正確である。 LSTMとFNN予測の適切な直交分解(POD)は、平均相対精度が低いにもかかわらず、LSTMはFNNよりも流れのダイナミクスを捕えることを示す。 総和すると、FNN予測とLSTM予測からのPOD係数はそれぞれ、元のシミュレーションの係数に対して96.51%と97.66%となる。

Traditionally, 1D models based on scaling laws have been used to parameterized convective heat transfer rocks in the interior of terrestrial planets like Earth, Mars, Mercury and Venus to tackle the computational bottleneck of high-fidelity forward runs in 2D or 3D. However, these are limited in the amount of physics they can model (e.g. depth dependent material properties) and predict only mean quantities such as the mean mantle temperature. We recently showed that feedforward neural networks (FNN) trained using a large number of 2D simulations can overcome this limitation and reliably predict the evolution of entire 1D laterally-averaged temperature profile in time for complex models [Agarwal et al. 2020]. We now extend that approach to predict the full 2D temperature field, which contains more information in the form of convection structures such as hot plumes and cold downwellings. Using a dataset of 10,525 two-dimensional simulations of the thermal evolution of the mantle of a Mars-like planet, we show that deep learning techniques can produce reliable parameterized surrogates (i.e. surrogates that predict state variables such as temperature based only on parameters) of the underlying partial differential equations. We first use convolutional autoencoders to compress the temperature fields by a factor of 142 and then use FNN and long-short term memory networks (LSTM) to predict the compressed fields. On average, the FNN predictions are 99.30% and the LSTM predictions are 99.22% accurate with respect to unseen simulations. Proper orthogonal decomposition (POD) of the LSTM and FNN predictions shows that despite a lower mean absolute relative accuracy, LSTMs capture the flow dynamics better than FNNs. When summed, the POD coefficients from FNN predictions and from LSTM predictions amount to 96.51% and 97.66% relative to the coefficients of the original simulations, respectively.
翻訳日:2021-08-24 18:43:31 公開日:2021-08-23
# (参考訳) トランスダクティブとインダクティブの埋め込みを統合することでリンク予測精度が向上する [全文訳有]

Integrating Transductive And Inductive Embeddings Improves Link Prediction Accuracy ( http://arxiv.org/abs/2108.10108v1 )

ライセンス: CC BY 4.0
Chitrank Gupta, Yash Jain, Abir De, Soumen Chakrabarti(参考訳) 近年では、帰納的グラフ埋め込みモデル \emph{viz. グラフニューラルネットワーク(GNN)は、オンラインソーシャルネットワークのリンク予測(LP)において、ますます正確になっている。 このようなネットワークの性能は、ネットワークやアプリケーションによって異なる入力ノードの特徴に強く依存する。 適切なノード機能の選択はアプリケーションに依存し、一般的には公開質問である。 さらに、プライバシや倫理的な問題から、パーソナライズされたノード機能の使用は制限されることが多い。 実際、オンラインソーシャルネットワークから入手可能な多くのデータは、ノード機能(例えばデモグラフィ)を含んでいない。 本稿では,初期ノード表現を得るためのトランスダクティブ手法(例えばnode2vec)を活用し,その後にインダクティブノード埋め込み技術が継承され,リンク予測精度が大幅に向上することを示す包括的実験解析を行う。 多様なGNN変種に対して,Node2Vecから得られたノード表現ベクトルは,GNNの高品質な入力機能として機能し,LP性能を向上させることを実証した。

In recent years, inductive graph embedding models, \emph{viz.}, graph neural networks (GNNs) have become increasingly accurate at link prediction (LP) in online social networks. The performance of such networks depends strongly on the input node features, which vary across networks and applications. Selecting appropriate node features remains application-dependen t and generally an open question. Moreover, owing to privacy and ethical issues, use of personalized node features is often restricted. In fact, many publicly available data from online social network do not contain any node features (e.g., demography). In this work, we provide a comprehensive experimental analysis which shows that harnessing a transductive technique (e.g., Node2Vec) for obtaining initial node representations, after which an inductive node embedding technique takes over, leads to substantial improvements in link prediction accuracy. We demonstrate that, for a wide variety of GNN variants, node representation vectors obtained from Node2Vec serve as high quality input features to GNNs, thereby improving LP performance.
翻訳日:2021-08-24 18:41:34 公開日:2021-08-23
# (参考訳) VerbCL: 事例法におけるハイライト抽出のためのVerbatim Quotesのデータセット [全文訳有]

VerbCL: A Dataset of Verbatim Quotes for Highlight Extraction in Case Law ( http://arxiv.org/abs/2108.10120v1 )

ライセンス: CC BY 4.0
Julien Rossi, Svitlana Vakulenko, Evangelos Kanoulas(参考訳) 法的意見の提出は、裁判所の決定から情報の検索、抽出、要約を必要とする専門家の業務である法的議論の重要な部分である。 引用目的の意見における法的に健全な部分の特定は、ハイライト抽出または通過検索タスクのドメイン固有の定式化と見なすことができる。 ウェブ検索などの他の分野の類似タスクは、注意と改善が著しいことから、法律分野の進歩は、トレーニングや評価のためのリソースの不足によって妨げられている。 本稿では,裁判所意見の引用グラフからなる新たなデータセットについて述べる。 特に、原論の文章が直接再利用されるような、動詞的な引用に焦点をあてる。 提案手法では,引用における使用法を示し,引用グラフにおける意見の関連性への寄与を測ることで,裁判所意見の異なるテキストの相対的重要性を説明する。 我々は,courtlistenerから派生した大規模データセットである verbcl をリリースし,このタスクの最初のベースライン結果を確立するための引用グラフに基づいて,単一文書要約タスクとしてハイライト抽出のタスクを導入する。

Citing legal opinions is a key part of legal argumentation, an expert task that requires retrieval, extraction and summarization of information from court decisions. The identification of legally salient parts in an opinion for the purpose of citation may be seen as a domain-specific formulation of a highlight extraction or passage retrieval task. As similar tasks in other domains such as web search show significant attention and improvement, progress in the legal domain is hindered by the lack of resources for training and evaluation. This paper presents a new dataset that consists of the citation graph of court opinions, which cite previously published court opinions in support of their arguments. In particular, we focus on the verbatim quotes, i.e., where the text of the original opinion is directly reused. With this approach, we explain the relative importance of different text spans of a court opinion by showcasing their usage in citations, and measuring their contribution to the relations between opinions in the citation graph. We release VerbCL, a large-scale dataset derived from CourtListener and introduce the task of highlight extraction as a single-document summarization task based on the citation graph establishing the first baseline results for this task on the VerbCL dataset.
翻訳日:2021-08-24 18:31:50 公開日:2021-08-23
# (参考訳) プレイヤーのパフォーマンスと試合結果予測のための機械学習手法に関する研究 [全文訳有]

A study on Machine Learning Approaches for Player Performance and Match Results Prediction ( http://arxiv.org/abs/2108.10125v1 )

ライセンス: CC BY 4.0
Harsh Mittal, Deepak Rikhari, Jitendra Kumar, Ashutosh Kumar Singh(参考訳) クリケットは世界でもっとも人気のあるスポーツの1つだ。 機械学習の分野において、クリケットの試合の結果を予測することは根本的な問題となっている。 複数の研究者がクリケットの試合やトーナメントの結果を予測したり、試合中の選手のパフォーマンスを予測したり、現在のパフォーマンス、フォーム、モラルなどに応じて選択すべき選手を予測することを試みた。 機械学習と人工知能の技術を使用して、詳細な詳細、特徴、パラメータを念頭に置いています。 これらの技法のいくつかについて、簡単な比較とともに議論する。

Cricket is unarguably one of the most popular sports in the world. Predicting the outcome of a cricket match has become a fundamental problem as we are advancing in the field of machine learning. Multiple researchers have tried to predict the outcome of a cricket match or a tournament, or to predict the performance of players during a match, or to predict the players who should be selected as per their current performance, form, morale, etc. using machine learning and artificial intelligence techniques keeping in mind extensive detailing, features, and parameters. We discuss some of these techniques along with a brief comparison among these techniques.
翻訳日:2021-08-24 18:15:22 公開日:2021-08-23
# (参考訳) 事例法及び法令法における法的探究 [全文訳有]

Legal Search in Case Law and Statute Law ( http://arxiv.org/abs/2108.10127v1 )

ライセンス: CC BY 4.0
Julien Rossi, Evangelos Kanoulas(参考訳) 本稿では,典型的法的文書収集の文脈において,文書の相互関連性を特定する手法について述べる。 本稿では,教師なしおよび教師なし学習を含む一般化言語モデルの利用について検討する。 本手法は,テキスト要約を用いて,全文に基づいて既存のベースラインをオーバーパフォーマンスし,今後の作業に向けた潜在的な改善方向を動機付ける。

In this work we describe a method to identify document pairwise relevance in the context of a typical legal document collection: limited resources, long queries and long documents. We review the usage of generalized language models, including supervised and unsupervised learning. We observe how our method, while using text summaries, overperforms existing baselines based on full text, and motivate potential improvement directions for future work.
翻訳日:2021-08-24 18:07:48 公開日:2021-08-23
# (参考訳) CGEMs: GPT-3を用いた自動コード生成のメトリクスモデル [全文訳有]

CGEMs: A Metric Model for Automatic Code Generation using GPT-3 ( http://arxiv.org/abs/2108.10168v1 )

ライセンス: CC BY 4.0
Aishwarya Narasimhan (1), Krishna Prasad Agara Venkatesha Rao (2), Veena M B (1) ((1) B M S College of Engineering, (2) Sony India Software Centre Pvt. Ltd.)(参考訳) 今日のai技術は、ほぼすべての業界と生活の歩みにおいてその強みを見せている。 テキスト生成、テキスト要約、チャットボット、NLPは広く使われている。 そのようなパラダイムの1つは自動コード生成である。 AIは何でも生成できるため、出力スペースは制限されない。 自動運転車は安全性を検証するために1億マイルを走行するが、制約のない空間を監視しカバーするためのテストは書けない。 aiが生成するコンテンツを検証するための解決策の1つは、問題を制約し、それを抽象的から現実的なものに変換することである。 この場合、統計的に有意なサンプル数をテスト/検証するために後者のアプローチを用いる。 この仮説は、AI生成コードの検証が主な動機であり、AI生成コードが信頼できるかどうかを知るため、計量モデルCGEMを提案する。 プログラムが異なる命名規則で異なるロジックを持つことができるため、これは非常に難しいタスクであるが、メトリクスはプログラムの構造とロジックをキャプチャする必要がある。 これは、AIベースのテキスト生成、Q&A、翻訳などにおいて、文法が持つ重要性と似ている。 コンパイル、ロジック変換へのNL記述、必要な編集数、一般的に使用される静的コードメトリクスとNLPメトリクス。 これらのメトリクスはOpenAIのGPT-3を使って生成された80のコードに適用される。 ニューラルネットワークがバイナリ分類用に設計されたポスト(生成されたコードの許容/許容品質)。 このネットワークへの入力は、メトリクスから得られた特徴の値である。 分類精度は76.92%、F1スコアは55.56%である。 XAIはモデル解釈可能性のために拡張されている。

Today, AI technology is showing its strengths in almost every industry and walks of life. From text generation, text summarization, chatbots, NLP is being used widely. One such paradigm is automatic code generation. An AI could be generating anything; hence the output space is unconstrained. A self-driving car is driven for 100 million miles to validate its safety, but tests cannot be written to monitor and cover an unconstrained space. One of the solutions to validate AI-generated content is to constrain the problem and convert it from abstract to realistic, and this can be accomplished by either validating the unconstrained algorithm using theoretical proofs or by using Monte-Carlo simulation methods. In this case, we use the latter approach to test/validate a statistically significant number of samples. This hypothesis of validating the AI-generated code is the main motive of this work and to know if AI-generated code is reliable, a metric model CGEMs is proposed. This is an extremely challenging task as programs can have different logic with different naming conventions, but the metrics must capture the structure and logic of the program. This is similar to the importance grammar carries in AI-based text generation, Q&A, translations, etc. The various metrics that are garnered in this work to support the evaluation of generated code are as follows: Compilation, NL description to logic conversion, number of edits needed, some of the commonly used static-code metrics and NLP metrics. These metrics are applied to 80 codes generated using OpenAI's GPT-3. Post which a Neural network is designed for binary classification (acceptable/not acceptable quality of the generated code). The inputs to this network are the values of the features obtained from the metrics. The model achieves a classification accuracy of 76.92% and an F1 score of 55.56%. XAI is augmented for model interpretability.
翻訳日:2021-08-24 17:59:11 公開日:2021-08-23
# (参考訳) 生産システムにおけるBERTベースのクエリ-クラス関連分類器の展開:トレンチからの視点 [全文訳有]

Deploying a BERT-based Query-Title Relevance Classifier in a Production System: a View from the Trenches ( http://arxiv.org/abs/2108.10197v1 )

ライセンス: CC BY 4.0
Leonard Dahlmann, Tomer Lancewicki(参考訳) The Bidirectional Encoder Representations from Transformers (BERT) model has radically improve the performance of many natural Language Processing (NLP) tasks such as Text Classification and Named Entity Recognition (NER) applications。 しかしながら,BERTを低レイテンシ,高スループットの産業用ユースケースに拡張することは,その巨大さから困難である。 BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルを用いて,QTR分類器の配置を最適化した。 このモデルはCPU上で少なくとも0.2msの入力を推測することができる。 BertBiLSTMは、上記の実世界の生産タスクの精度と効率の点で、市販のBERTモデルの性能を上回っている。 この結果は2段階に分けて達成する。 まず、トレーニング済みのモデル、ebertを作成します。これは、独自のアイテムタイトルコーパスでトレーニングされた、bertのオリジナルのアーキテクチャです。 次に、QTRタスクに対して細いeBERTをチューニングする。 次に,EBERTモデルの性能を模倣するBertBiLSTMモデルを,KD(Knowledge Distillation)と呼ばれるプロセスを用いて訓練し,類似した目的を達成するためにデータ拡張の効果を示す。 実験の結果,提案モデルは他のコンパクトモデルよりも優れていることがわかった。

The Bidirectional Encoder Representations from Transformers (BERT) model has been radically improving the performance of many Natural Language Processing (NLP) tasks such as Text Classification and Named Entity Recognition (NER) applications. However, it is challenging to scale BERT for low-latency and high-throughput industrial use cases due to its enormous size. We successfully optimize a Query-Title Relevance (QTR) classifier for deployment via a compact model, which we name BERT Bidirectional Long Short-Term Memory (BertBiLSTM). The model is capable of inferring an input in at most 0.2ms on CPU. BertBiLSTM exceeds the off-the-shelf BERT model's performance in terms of accuracy and efficiency for the aforementioned real-world production task. We achieve this result in two phases. First, we create a pre-trained model, called eBERT, which is the original BERT architecture trained with our unique item title corpus. We then fine-tune eBERT for the QTR task. Second, we train the BertBiLSTM model to mimic the eBERT model's performance through a process called Knowledge Distillation (KD) and show the effect of data augmentation to achieve the resembling goal. Experimental results show that the proposed model outperforms other compact and production-ready models.
翻訳日:2021-08-24 17:51:17 公開日:2021-08-23
# (参考訳) 3次元ステレオネットワーク最適化のための分離可能な畳み込み [全文訳有]

Separable Convolutions for Optimizing 3D Stereo Networks ( http://arxiv.org/abs/2108.10216v1 )

ライセンス: CC BY 4.0
Rafia Rahim, Faranak Shamsafar and Andreas Zell(参考訳) ディープラーニングに基づく3Dステレオネットワークは、2Dネットワークや従来のステレオ手法に比べて優れた性能を提供する。 しかし、この性能改善は計算複雑性の増大によるコストが伴うため、これらのネットワークは現実のアプリケーションでは実用的ではない。 特に、これらのネットワークは3d畳み込みを主要な作業馬として用い、格差を洗練し後退させます。 まず、ステレオネットワークにおけるこれらの3D畳み込みは、ネットワーク全体の94%を消費し、主要なボトルネックとして機能することを示す。 次に,パラメータ数と演算量を削減するために,分離可能な「プラグ&ラン」畳み込みを提案する。 アートステレオネットワークの既存の状態と統合すると、これらの畳み込みは性能を損なうことなく、演算数の最大7倍、パラメータの最大3.5倍の削減につながる。 実際、これらの混乱は、ほとんどのケースでパフォーマンスの改善につながります。

Deep learning based 3D stereo networks give superior performance compared to 2D networks and conventional stereo methods. However, this improvement in the performance comes at the cost of increased computational complexity, thus making these networks non-practical for the real-world applications. Specifically, these networks use 3D convolutions as a major work horse to refine and regress disparities. In this work first, we show that these 3D convolutions in stereo networks consume up to 94% of overall network operations and act as a major bottleneck. Next, we propose a set of "plug-&-run" separable convolutions to reduce the number of parameters and operations. When integrated with the existing state of the art stereo networks, these convolutions lead up to 7x reduction in number of operations and up to 3.5x reduction in parameters without compromising their performance. In fact these convolutions lead to improvement in their performance in the majority of cases.
翻訳日:2021-08-24 17:40:37 公開日:2021-08-23
# (参考訳) 特徴データのためのキューブサンプリングK-プロトタイプクラスタリング [全文訳有]

Cube Sampled K-Prototype Clustering for Featured Data ( http://arxiv.org/abs/2108.10262v1 )

ライセンス: CC BY 4.0
Seemandhar Jain, Aditya A. Shastri, Kapil Ahuja, Yann Busnel, and Navneet Pratap Singh(参考訳) クラスタ化 大量のデータは現在、ますます重要になっています。 データのサイズが大きいため、クラスタリングアルゴリズムには時間を要することが多い。 クラスタリングの前にこのデータをサンプリングすることは、この時間を短縮するために一般的に使用される。 本研究では,K-Prototypeクラスタリングとともに,立方体サンプリングと呼ばれる確率的サンプリング手法を提案する。 立方体サンプリングは正確なサンプル選択のために使用される。 K-プロトタイプ(K-Prototype)は、データを数値化する際に最もよく使われるクラスタリングアルゴリズムである。 この研究の新規性は、主成分分析(PCA)を用いた立方体サンプリングにおいて重要な包含確率を得ることである。 UCIリポジトリからの複数のデータセットの実験では、立方体サンプルのK-Prototypeアルゴリズムが、類似のサンプルの他の一般的なクラスタリングアルゴリズム(K-Means, Hierarchical Clustering (HC), Spectral Clustering (SC))の中で最高のクラスタリング精度を提供することが示された。 アンサンプされたK-Prototype、K-Means、HC、SCと比較すると、計算複雑性の低減(データサイズが小さくなるため)の利点が加わり、最も正確である。

Clustering large amount of data is becoming increasingly important in the current times. Due to the large sizes of data, clustering algorithm often take too much time. Sampling this data before clustering is commonly used to reduce this time. In this work, we propose a probabilistic sampling technique called cube sampling along with K-Prototype clustering. Cube sampling is used because of its accurate sample selection. K-Prototype is most frequently used clustering algorithm when the data is numerical as well as categorical (very common in today's time). The novelty of this work is in obtaining the crucial inclusion probabilities for cube sampling using Principal Component Analysis (PCA). Experiments on multiple datasets from the UCI repository demonstrate that cube sampled K-Prototype algorithm gives the best clustering accuracy among similarly sampled other popular clustering algorithms (K-Means, Hierarchical Clustering (HC), Spectral Clustering (SC)). When compared with unsampled K-Prototype, K-Means, HC and SC, it still has the best accuracy with the added advantage of reduced computational complexity (due to reduced data size).
翻訳日:2021-08-24 17:29:01 公開日:2021-08-23
# (参考訳) ニューラルネットワーク, 整数計画, グリッド近傍探索に基づく分子設計

Molecular Design Based on Artificial Neural Networks, Integer Programming and Grid Neighbor Search ( http://arxiv.org/abs/2108.10266v1 )

ライセンス: CC BY 4.0
Naveed Ahmed Azam, Jianshen Zhu, Kazuya Haraguchi, Liang Zhao, Hiroshi Nagamochi and Tatsuya Akutsu(参考訳) 近年, 人工ニューラルネットワークと混合整数線形計画法を用いて, 望ましい化学特性を持つ化合物の分子構造を設計するための新しい枠組みが提案されている。 本フレームワークでは、予測関数およびグラフの構造に関するその他の要件を表す混合整数線形プログラムの実現可能な解として、目的とする化学値の化学グラフを推定する。 本稿では,探索空間における出力化学グラフの近傍を探索することにより,混合整数線形プログラムの他の実現可能な解を生成する手法を提案する。 この手順はフレームワークに新しいビルディングブロックとして組み込まれている。 計算実験の結果,提案手法は, 最大50個の非水素原子を持つ新しい化学グラフを生成できることが示唆された。

A novel framework has recently been proposed for designing the molecular structure of chemical compounds with a desired chemical property using both artificial neural networks and mixed integer linear programming. In the framework, a chemical graph with a target chemical value is inferred as a feasible solution of a mixed integer linear program that represents a prediction function and other requirements on the structure of graphs. In this paper, we propose a procedure for generating other feasible solutions of the mixed integer linear program by searching the neighbor of output chemical graph in a search space. The procedure is combined in the framework as a new building block. The results of our computational experiments suggest that the proposed method can generate an additional number of new chemical graphs with up to 50 non-hydrogen atoms.
翻訳日:2021-08-24 17:21:40 公開日:2021-08-23
# (参考訳) a simpleicial model for $kb4_n$: epistemic logic with agents that may die [全文訳有]

A Simplicial Model for $KB4_n$: Epistemic Logic with Agents that May Die ( http://arxiv.org/abs/2108.10293v1 )

ライセンス: CC BY 4.0
Eric Goubault and J\'er\'emy Ledent and Sergio Rajsbaum(参考訳) multi-agent epistemic logic $s5$の標準的な意味論は、アクセシビリティの関係が反射的、対称的、推移的であるkripkeモデルに基づいている。 この1次元構造は、前者の著作で純粋に単純化されたモデルとして定式化されたペアワイズ相互作用を超えた暗黙の高次元情報を含んでいる。 ここでは、この理論をすべての単体モデル(純粋でないものを含む)に拡張する。 対応するクリプキモデルは、アクセシビリティ関係が対称で推移的であるが、反射的でないモデルである。 これは、一部のエージェントが死ぬ可能性がある状況について推論できる、疫学的な論理を$KB4$にします。

The standard semantics of multi-agent epistemic logic $S5$ is based on Kripke models whose accessibility relations are reflexive, symmetric and transitive. This one dimensional structure contains implicit higher-dimensional information beyond pairwise interactions, that has been formalized as pure simplicial models in previous work from the authors. Here we extend the theory to encompass all simplicial models - including the ones that are not pure. The corresponding Kripke models are those where the accessibility relation is symmetric and transitive, but might not be reflexive. This yields the epistemic logic $KB4$ which can reason about situations where some of the agents may die.
翻訳日:2021-08-24 17:20:40 公開日:2021-08-23
# (参考訳) 意味的潜在空間による顔合成のバイアスと偏見の探求 [全文訳有]

Exploring Biases and Prejudice of Facial Synthesis via Semantic Latent Space ( http://arxiv.org/abs/2108.10265v1 )

ライセンス: CC0 1.0
Xuyang Shen, Jo Plested, Sabrina Caldwell, Tom Gedeon(参考訳) ディープラーニング(DL)モデルは、より便利でスマートな生活を提供するために広く利用されている。 しかし、偏りのあるアルゴリズムは我々に悪影響を与える。 例えば、偏見付きアルゴリズムを対象とするグループは不公平に扱われ、偏見によるネガティブな結果を恐れる。 この研究は、偏りのある生成モデルの振る舞いをターゲットとし、偏りの原因を特定し、それらを排除する。 予想通り、偏りのあるデータが顔の前面モデルの偏りのある予測を引き起こすと結論付けることができる。 トレーニングデータにおける男女の顔の比率の変化は、テストデータに対する行動にかなりの影響を与える可能性がある: 50:50パーセントという明らかな選択は、女性の顔に対する偏った行動を減らすためにこのデータセットにとって最良のものではないことが分かりました。 不正確な性面の生成と生成の失敗は、これらのモデルの2つの挙動である。 さらに、顔のフロントエンドモデルのいくつかのレイヤだけがバイアス付きデータセットに対して脆弱である。 フェースフロンダライゼーションモデルにおけるジェネレータのスキップ接続の最適化は、モデルのバイアスを軽減することができる。 無限大のデータセットを使わずに全てのトレーニングバイアスを除去することは不可能であると結論し、我々の実験はバイアスを減らし定量化できることを示した。 完璧な偏見のない予測器の次は、既知のバイアスを最小限にしたものだと私たちは信じています。

Deep learning (DL) models are widely used to provide a more convenient and smarter life. However, biased algorithms will negatively influence us. For instance, groups targeted by biased algorithms will feel unfairly treated and even fearful of negative consequences of these biases. This work targets biased generative models' behaviors, identifying the cause of the biases and eliminating them. We can (as expected) conclude that biased data causes biased predictions of face frontalization models. Varying the proportions of male and female faces in the training data can have a substantial effect on behavior on the test data: we found that the seemingly obvious choice of 50:50 proportions was not the best for this dataset to reduce biased behavior on female faces, which was 71% unbiased as compared to our top unbiased rate of 84%. Failure in generation and generating incorrect gender faces are two behaviors of these models. In addition, only some layers in face frontalization models are vulnerable to biased datasets. Optimizing the skip-connections of the generator in face frontalization models can make models less biased. We conclude that it is likely to be impossible to eliminate all training bias without an unlimited size dataset, and our experiments show that the bias can be reduced and quantified. We believe the next best to a perfect unbiased predictor is one that has minimized the remaining known bias.
翻訳日:2021-08-24 16:44:44 公開日:2021-08-23
# Fluent: おしゃべりする人のためのAI強化の筆記ツール

Fluent: An AI Augmented Writing Tool for People who Stutter ( http://arxiv.org/abs/2108.09918v1 )

ライセンス: Link先を確認
Bhavya Ghai, Klaus Mueller(参考訳) 発声は、世界中の何百万人もの人々の個人的および専門的な生活に影響を与える言語障害である。 汚名や差別から身を守るために、異端者(pws)は異なる戦略を採り入れて混乱を隠そうとする。 一般的な戦略の1つは単語置換(英語版)であり、それは個人が単語を打つことを避け、代わりに代替語を使うものである。 このプロセス自体がストレスを引き起こし、負担を増加させます。 そこで本研究では,よりフルーレントに話すことができるスクリプト記述におけるpwを支援する,ai拡張ライティングツールであるfluentを提案する。 Fluentは、個人が発音に苦しむ可能性のある単語を識別する、新しいアクティブラーニングベースの方法である。 このような単語はインターフェイスでハイライトされる。 そのような単語の上にホバリングすると、Fluentは類似した意味を持つが話しやすい単語のセットを提示する。 ユーザーはこれらの提案を受け入れたり無視したりできる。 このようなユーザインタラクション(フィードバック)に基づいて、fluentは、各ユーザのパーソナライズされたニーズに合うように、その分類器を継続的に進化させます。 10名のシミュレートユーザを対象に,難解な単語を識別する能力を評価した。 20未満のインタラクションで平均80%以上の精度で難解な単語を識別できることが分かり、より多くのフィードバックを得て改善を続けました。 私たちのツールは、講演やプレゼンテーションなど、特定の重要な生活状況に役立ちます。 このツールのソースコードはgithub.com/bhavyagha i/Fluentで公開されている。

Stuttering is a speech disorder which impacts the personal and professional lives of millions of people worldwide. To save themselves from stigma and discrimination, people who stutter (PWS) may adopt different strategies to conceal their stuttering. One of the common strategies is word substitution where an individual avoids saying a word they might stutter on and use an alternative instead. This process itself can cause stress and add more burden. In this work, we present Fluent, an AI augmented writing tool which assists PWS in writing scripts which they can speak more fluently. Fluent embodies a novel active learning based method of identifying words an individual might struggle pronouncing. Such words are highlighted in the interface. On hovering over any such word, Fluent presents a set of alternative words which have similar meaning but are easier to speak. The user is free to accept or ignore these suggestions. Based on such user interaction (feedback), Fluent continuously evolves its classifier to better suit the personalized needs of each user. We evaluated our tool by measuring its ability to identify difficult words for 10 simulated users. We found that our tool can identify difficult words with a mean accuracy of over 80% in under 20 interactions and it keeps improving with more feedback. Our tool can be beneficial for certain important life situations like giving a talk, presentation, etc. The source code for this tool has been made publicly accessible at github.com/bhavyagha i/Fluent.
翻訳日:2021-08-24 16:07:39 公開日:2021-08-23
# 混合分布下におけるフェデレーション型マルチタスク学習

Federated Multi-Task Learning under a Mixture of Distributions ( http://arxiv.org/abs/2108.10252v1 )

ライセンス: Link先を確認
Othmane Marfoq, Giovanni Neglia, Aur\'elien Bellet, Laetitia Kameni, Richard Vidal(参考訳) スマートフォンやiotデバイスが生成するデータのサイズの増加は、マシンラーニングモデルのオンデバイス共同トレーニングのためのフレームワークであるfederated learning(fl)の開発を促した。 FLにおける最初の取り組みは、クライアント間で平均的なパフォーマンスを持つ単一のグローバルモデルを学ぶことに焦点を当てたが、グローバルモデルは、ローカルデータ分散の固有の不均一性のため、あるクライアントにとって任意に悪いかもしれない。 フェデレートされたマルチタスク学習(MTL)アプローチは、最適最適化問題を定式化することでパーソナライズされたモデルを学ぶことができる。 ペナリゼーション用語は、パーソナライズされたモデル間の複雑な関係を捉えることができるが、局所的なデータ分布に関する統計的仮定を明確にする。 本研究では,各局所データ分布が未知の基底分布の混合であるというフレキシブルな仮定の下で,フェデレーションMTLについて検討する。 この仮定は、既存のパーソナライズされたFLアプローチのほとんどを包含し、クライアントサーバと完全に分散された設定の両方に、EMのようなフェデレーションアルゴリズムをもたらす。 さらに、トレーニング時に見えない顧客にパーソナライズされたモデルを提供するための原則的な方法を提供する。 アルゴリズムの収束は、一般的な興味を持つ可能性のある新しいフェデレーションサロゲート最適化フレームワークによって分析される。 flベンチマークの実験結果は、たいていの場合、我々のアプローチは最先端の手法よりも高い精度と公平性を持つモデルを提供することを示している。

The increasing size of data generated by smartphones and IoT devices motivated the development of Federated Learning (FL), a framework for on-device collaborative training of machine learning models. First efforts in FL focused on learning a single global model with good average performance across clients, but the global model may be arbitrarily bad for a given client, due to the inherent heterogeneity of local data distributions. Federated multi-task learning (MTL) approaches can learn personalized models by formulating an opportune penalized optimization problem. The penalization term can capture complex relations among personalized models, but eschews clear statistical assumptions about local data distributions. In this work, we propose to study federated MTL under the flexible assumption that each local data distribution is a mixture of unknown underlying distributions. This assumption encompasses most of the existing personalized FL approaches and leads to federated EM-like algorithms for both client-server and fully decentralized settings. Moreover, it provides a principled way to serve personalized models to clients not seen at training time. The algorithms' convergence is analyzed through a novel federated surrogate optimization framework, which can be of general interest. Experimental results on FL benchmarks show that in most cases our approach provides models with higher accuracy and fairness than state-of-the-art methods.
翻訳日:2021-08-24 16:07:17 公開日:2021-08-23
# TACo:ビデオテキストアライメントのためのToken-Aware Cascade Contrastive Learning

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment ( http://arxiv.org/abs/2108.09980v1 )

ライセンス: Link先を確認
Jianwei Yang, Yonatan Bisk, Jianfeng Gao(参考訳) コントラスト学習は、ビデオテキストアライメントとマルチモーダル表現学習のためのトランスフォーマーに基づく視覚言語モデルの訓練に広く用いられている。 本稿では,2つの新しい手法を用いてコントラスト学習を改善する,Token-Aware Cascade contrastive Learning (TACo) というアルゴリズムを提案する。 1つ目は、単語の構文クラスを考慮して計算されるトークン対応のコントラスト損失である。 これは、ビデオテキストペアの場合、名詞や動詞などのテキスト中の内容語は、関数語よりもビデオ内の視覚的内容と一致している可能性が高いという観察によって動機づけられる。 第2にカスケードサンプリング法を適用して,マルチモーダル核融合層の効率良く損失推定を行うための,少数のハード・ネガティブなサンプルを生成する。 TACoの有効性を検証するため,本実験では,テキスト・ビデオ検索(YouCook2,MSR-VTT,Ac tivityNet),ビデオ・アクション・ステップ・ローカライゼーション(CrossTask),ビデオ・アクション・セグメンテーション(COIN)など,一連の下流タスクの事前学習モデルを微調整した。 以上の結果から,本モデルでは,従来の手法よりも異なる実験環境において一貫した改善が得られ,YouCook2,MSR-VTT,Ac tivityNetの3つの公開テキストビデオ検索ベンチマークに新たな最先端設定が導入された。

Contrastive learning has been widely used to train transformer-based vision-language models for video-text alignment and multi-modal representation learning. This paper presents a new algorithm called Token-Aware Cascade contrastive learning (TACo) that improves contrastive learning using two novel techniques. The first is the token-aware contrastive loss which is computed by taking into account the syntactic classes of words. This is motivated by the observation that for a video-text pair, the content words in the text, such as nouns and verbs, are more likely to be aligned with the visual contents in the video than the function words. Second, a cascade sampling method is applied to generate a small set of hard negative examples for efficient loss estimation for multi-modal fusion layers. To validate the effectiveness of TACo, in our experiments we finetune pretrained models for a set of downstream tasks including text-video retrieval (YouCook2, MSR-VTT and ActivityNet), video action step localization (CrossTask), video action segmentation (COIN). The results show that our models attain consistent improvements across different experimental settings over previous methods, setting new state-of-the-art on three public text-video retrieval benchmarks of YouCook2, MSR-VTT and ActivityNet.
翻訳日:2021-08-24 16:06:53 公開日:2021-08-23
# Deep Relational Metric Learning

Deep Relational Metric Learning ( http://arxiv.org/abs/2108.10026v1 )

ライセンス: Link先を確認
Wenzhao Zheng, Borui Zhang, Jiwen Lu, Jie Zhou(参考訳) 本稿では,画像クラスタリングと検索のための深部リレーショナルメトリック学習(DRML)フレームワークを提案する。 既存のディープメトリック学習法は、クラス間距離を増加させ、クラス内距離を減少させる一般的な目的を持つ埋め込み空間を学習する。 しかし、従来のメトリクス学習の損失は、通常、目に見えないクラスのサンプルを特定するのに役立つクラス内変異を抑える。 この問題に対処するために,異なる側面の画像を特徴付ける特徴のアンサンブルを適応的に学習し,クラス間分布とクラス内分布の両方をモデル化する。 さらに,アンサンブル内の各特徴間の相関をキャプチャし,画像を表すグラフを構築するためのリレーショナルモジュールも採用する。 次に、グラフ上で関係推論を行い、アンサンブルを統合し、類似度を測定するための関係認識埋め込みを得る。 広く使われているCUB-200-2011、Cars196、Stanford Online Productsのデータセットに関する大規模な実験は、我々のフレームワークが既存の深層学習法を改善し、非常に競争力のある結果をもたらすことを示した。

This paper presents a deep relational metric learning (DRML) framework for image clustering and retrieval. Most existing deep metric learning methods learn an embedding space with a general objective of increasing interclass distances and decreasing intraclass distances. However, the conventional losses of metric learning usually suppress intraclass variations which might be helpful to identify samples of unseen classes. To address this problem, we propose to adaptively learn an ensemble of features that characterizes an image from different aspects to model both interclass and intraclass distributions. We further employ a relational module to capture the correlations among each feature in the ensemble and construct a graph to represent an image. We then perform relational inference on the graph to integrate the ensemble and obtain a relation-aware embedding to measure the similarities. Extensive experiments on the widely-used CUB-200-2011, Cars196, and Stanford Online Products datasets demonstrate that our framework improves existing deep metric learning methods and achieves very competitive results.
翻訳日:2021-08-24 16:06:24 公開日:2021-08-23
# ChiNet: マルチモーダル宇宙空間推定のための深部反復畳み込み学習

ChiNet: Deep Recurrent Convolutional Learning for Multimodal Spacecraft Pose Estimation ( http://arxiv.org/abs/2108.10282v1 )

ライセンス: Link先を確認
Duarte Rondao, Nabil Aouf, Mark A. Richardson(参考訳) 本稿では,ランデブーシーケンスからの時間情報を組み込んで,宇宙船の相対的な姿勢を推定する革新的な深層学習パイプラインを提案する。 畳み込みニューラルネットワーク(CNN)バックボーンによって抽出された特徴の処理のために、データのシーケンスをモデル化する上で、LSTMユニットのパフォーマンスを活用する。 3つの異なるトレーニング戦略が組み合わさって、特徴学習を容易にし、回帰によるエンドツーエンドのポーズ推定を改善する。 画像から特徴表現を自律的に確認するcnnの能力を利用して、熱赤外データを赤緑色(rgb)入力と融合させ、可視波長における画像空間オブジェクトからのアーティファクトの効果を緩和する。 chinetと呼ばれるフレームワークのそれぞれの貢献は、合成データセット上で実証され、完全なパイプラインは実験データ上で検証される。

This paper presents an innovative deep learning pipeline which estimates the relative pose of a spacecraft by incorporating the temporal information from a rendezvous sequence. It leverages the performance of long short-term memory (LSTM) units in modelling sequences of data for the processing of features extracted by a convolutional neural network (CNN) backbone. Three distinct training strategies, which follow a coarse-to-fine funnelled approach, are combined to facilitate feature learning and improve end-to-end pose estimation by regression. The capability of CNNs to autonomously ascertain feature representations from images is exploited to fuse thermal infrared data with red-green-blue (RGB) inputs, thus mitigating the effects of artefacts from imaging space objects in the visible wavelength. Each contribution of the proposed framework, dubbed ChiNet, is demonstrated on a synthetic dataset, and the complete pipeline is validated on experimental data.
翻訳日:2021-08-24 16:06:05 公開日:2021-08-23
# 意味保存型逆テキスト攻撃

Semantic-Preserving Adversarial Text Attacks ( http://arxiv.org/abs/2108.10015v1 )

ライセンス: Link先を確認
Xinghao Yang, Weifeng Liu, James Bailey, Tianqing Zhu, Dacheng Tao, Wei Liu(参考訳) ディープニューラルネットワーク(DNN)は、敵対的な画像に対して脆弱であることが知られているが、テキスト分類における堅牢性はほとんど研究されていない。 文字レベル、単語レベル、文レベル攻撃など、いくつかのテキスト攻撃手法が文献で提案されている。 しかし, 語彙的正しさ, 構文的健全性, 意味的類似性を同時に確保しつつ, 誤分類を誘発するために必要な単語変化の最小化は依然として課題である。 本稿では,ビグラムとユニグラムに基づく適応的セマンティック保存最適化法(BU-SPO)を提案する。 我々の方法には4つの大きなメリットがある。 まず,テキスト文書をユニグラム語レベルでだけでなく,bigramレベルでも攻撃し,意味を保ち,意味のない出力を発生させないことを提案する。 次に,同義語候補とセメム候補の両方において,入力語を選択肢に置き換えるハイブリッド手法を提案する。 第3に,単語置換の優先度を決定するための最適化アルゴリズム,すなわちセマンティック保存最適化(SPO)を設計し,変更コストの低減を図る。 最後に,セマンティックフィルタ(sof)を用いてspoをさらに改良し,最も意味的類似度の高い逆例を探索する。 IMDB, AG's News, Yahoo!におけるBU-SPOとBU-SPOFの有効性を評価する。 一般的な4つのDNNモデルを攻撃することで、テキストデータセットに回答する。 その結果,本手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を達成することができた。

Deep neural networks (DNNs) are known to be vulnerable to adversarial images, while their robustness in text classification is rarely studied. Several lines of text attack methods have been proposed in the literature, including character-level, word-level, and sentence-level attacks. However, it is still a challenge to minimize the number of word changes necessary to induce misclassification, while simultaneously ensuring lexical correctness, syntactic soundness, and semantic similarity. In this paper, we propose a Bigram and Unigram based adaptive Semantic Preservation Optimization (BU-SPO) method to examine the vulnerability of deep models. Our method has four major merits. Firstly, we propose to attack text documents not only at the unigram word level but also at the bigram level which better keeps semantics and avoids producing meaningless outputs. Secondly, we propose a hybrid method to replace the input words with options among both their synonyms candidates and sememe candidates, which greatly enriches the potential substitutions compared to only using synonyms. Thirdly, we design an optimization algorithm, i.e., Semantic Preservation Optimization (SPO), to determine the priority of word replacements, aiming to reduce the modification cost. Finally, we further improve the SPO with a semantic Filter (named SPOF) to find the adversarial example with the highest semantic similarity. We evaluate the effectiveness of our BU-SPO and BU-SPOF on IMDB, AG's News, and Yahoo! Answers text datasets by attacking four popular DNNs models. Results show that our methods achieve the highest attack success rates and semantics rates by changing the smallest number of words compared with existing methods.
翻訳日:2021-08-24 16:05:22 公開日:2021-08-23
# 説明可能な事実チェックに向けて

Towards Explainable Fact Checking ( http://arxiv.org/abs/2108.10274v1 )

ライセンス: Link先を確認
Isabelle Augenstein(参考訳) 過去10年で、偽情報や偽情報のオンライン化が大幅に増加し、ターゲットの偽情報キャンペーンから政治への影響、公衆衛生に関する偽情報の意図しない拡散などがあった。 この開発は、チェック価値のあるクレームを検出し、クレームに対するツイートのスタンスを決定するアプローチから、与えられた証拠文書のクレームの正確性を決定する方法まで、自動事実チェックの分野の研究を刺激してきた。 これらの自動手法は、しばしばコンテンツベースであり、自然言語処理を用いて、深層ニューラルネットワークを使用してテキストから高次特徴を学習し、予測を行う。 ディープニューラルネットワークはブラックボックスモデルであるため、内部の動作を簡単に説明できない。 同時に、特定の決定にどのように到達するか、特に意思決定に使用される場合は、説明することが望ましい。 これは以前から知られていたが、この問題は拡大するモデルによって悪化し、euの法律では意思決定に使用するモデルが必要となり、最近ではeuで運営されているオンラインプラットフォームがサービスに対して透過的な報告を提供するよう要求する法律によって悪化した。 それにもかかわらず、現在の説明可能性の解決策は、事実チェックの領域にはまだ欠けている。 本論文は,クレームチェック適性検出,スタンス検出,veracity予測を含む自動事実チェックについて述べる。 論文では、限定されたラベル付きデータによる学習の分野で、自然言語処理のためのより一般的な機械学習ソリューションを提案している。 最後に、論文は説明可能な事実チェックのための最初のソリューションを提示している。

The past decade has seen a substantial rise in the amount of mis- and disinformation online, from targeted disinformation campaigns to influence politics, to the unintentional spreading of misinformation about public health. This development has spurred research in the area of automatic fact checking, from approaches to detect check-worthy claims and determining the stance of tweets towards claims, to methods to determine the veracity of claims given evidence documents. These automatic methods are often content-based, using natural language processing methods, which in turn utilise deep neural networks to learn higher-order features from text in order to make predictions. As deep neural networks are black-box models, their inner workings cannot be easily explained. At the same time, it is desirable to explain how they arrive at certain decisions, especially if they are to be used for decision making. While this has been known for some time, the issues this raises have been exacerbated by models increasing in size, and by EU legislation requiring models to be used for decision making to provide explanations, and, very recently, by legislation requiring online platforms operating in the EU to provide transparent reporting on their services. Despite this, current solutions for explainability are still lacking in the area of fact checking. This thesis presents my research on automatic fact checking, including claim check-worthiness detection, stance detection and veracity prediction. Its contributions go beyond fact checking, with the thesis proposing more general machine learning solutions for natural language processing in the area of learning with limited labelled data. Finally, the thesis presents some first solutions for explainable fact checking.
翻訳日:2021-08-24 16:04:57 公開日:2021-08-23
# エッジ生成を利用したVoxel-based Shape Completion

Voxel-based Network for Shape Completion by Leveraging Edge Generation ( http://arxiv.org/abs/2108.09936v1 )

ライセンス: Link先を確認
Xiaogang Wang, Marcelo H Ang Jr and Gim Hee Lee(参考訳) ディープラーニング技術は、部分的な入力からオブジェクトの形を欠くことを目標として、ポイントクラウドの補完を大幅に改善した。 しかし,既存の手法では細かな細部を過度にスムーシングするため,現実的な構造を復元できない場合が多い。 本稿では,エッジ生成(VE-PCN)を活用して,点雲補完のためのボクセルネットワークを開発する。 まず点雲を正規のボクセル格子に埋め込み、幻覚した形状のエッジの助けを借りて完全な物体を生成する。 この分離されたアーキテクチャとマルチスケールグリッド機能学習は、より現実的な表面上の詳細を生成することができる。 我々は,公開可能な完成データセット上でモデルを評価し,既存の最先端のアプローチを定量的かつ質的に上回ることを示す。 ソースコードはhttps://github.com/x iaogangw/ve-pcnで入手できます。

Deep learning technique has yielded significant improvements in point cloud completion with the aim of completing missing object shapes from partial inputs. However, most existing methods fail to recover realistic structures due to over-smoothing of fine-grained details. In this paper, we develop a voxel-based network for point cloud completion by leveraging edge generation (VE-PCN). We first embed point clouds into regular voxel grids, and then generate complete objects with the help of the hallucinated shape edges. This decoupled architecture together with a multi-scale grid feature learning is able to generate more realistic on-surface details. We evaluate our model on the publicly available completion datasets and show that it outperforms existing state-of-the-art approaches quantitatively and qualitatively. Our source code is available at https://github.com/x iaogangw/VE-PCN.
翻訳日:2021-08-24 16:04:12 公開日:2021-08-23
# BiaSwap: バイアス調整スワップ強化によるデータセットバイアスの除去

BiaSwap: Removing dataset bias with bias-tailored swapping augmentation ( http://arxiv.org/abs/2108.10008v1 )

ライセンス: Link先を確認
Eungyeup Kim, Jihyeon Lee, Jaegul Choo(参考訳) ディープニューラルネットワークは、データセットに固有のスプリアス相関に基づいて意思決定することが多く、偏りのないデータ分散では一般化できない。 以前のアプローチでは、ネットワークが学習することを防ぐためにデータセットバイアスの種類を事前に定義していたが、実際のデータセットのバイアスタイプを認識することは、しばしば禁止されている。 本稿では,バイアスタイプの監督を必要とせず,非バイアス表現を学習するための新しいバイアス調整強化手法BiaSwapを提案する。 バイアスが分かり易い属性に対応すると仮定すると、バイアス付き分類器がそれらをどれだけ近道として活用できるかに基づいてトレーニング画像を分類し、教師なしの方法でバイアスガイドとバイアスパターンのサンプルに分割する。 その後、画像翻訳モデルのスタイル変換モジュールと、このようなバイアス付き分類器のクラスアクティベーションマップを統合することにより、分類器が学習したバイアス属性を主に転送することができる。 そのため、バイアスガイドとバイアスコントラストのペアが与えられた場合、バイアスガイド画像中のバイアス非関連画像を保存しつつ、バイアスコントラスト画像からバイアス特性を含むバイアススワップ画像を生成する。 このような拡張画像を考えると、biaswapは、合成データと実世界のデータセットの両方において、既存のベースラインに対するデバイアスの優位性を示している。 BiaSwapはバイアスを注意深く監視することなく、バイアスのないサンプルとバイアスを導くサンプルの両方で顕著なパフォーマンスを達成し、モデルの一般化能力の向上を示唆している。

Deep neural networks often make decisions based on the spurious correlations inherent in the dataset, failing to generalize in an unbiased data distribution. Although previous approaches pre-define the type of dataset bias to prevent the network from learning it, recognizing the bias type in the real dataset is often prohibitive. This paper proposes a novel bias-tailored augmentation-based approach, BiaSwap, for learning debiased representation without requiring supervision on the bias type. Assuming that the bias corresponds to the easy-to-learn attributes, we sort the training images based on how much a biased classifier can exploits them as shortcut and divide them into bias-guiding and bias-contrary samples in an unsupervised manner. Afterwards, we integrate the style-transferring module of the image translation model with the class activation maps of such biased classifier, which enables to primarily transfer the bias attributes learned by the classifier. Therefore, given the pair of bias-guiding and bias-contrary, BiaSwap generates the bias-swapped image which contains the bias attributes from the bias-contrary images, while preserving bias-irrelevant ones in the bias-guiding images. Given such augmented images, BiaSwap demonstrates the superiority in debiasing against the existing baselines over both synthetic and real-world datasets. Even without careful supervision on the bias, BiaSwap achieves a remarkable performance on both unbiased and bias-guiding samples, implying the improved generalization capability of the model.
翻訳日:2021-08-24 16:04:00 公開日:2021-08-23
# 領域一般化のためのトランスフォーマによる空間関係の発見

Discovering Spatial Relationships by Transformers for Domain Generalization ( http://arxiv.org/abs/2108.10046v1 )

ライセンス: Link先を確認
Cuicui Kang and Karthik Nandakumar(参考訳) 画像データの多様性の急激な増大により、領域一般化の問題は近年注目されている。 ドメインの一般化は難しい問題だが、コンピュータビジョンにおけるAI技術の急速な開発のおかげで、大きな発展を遂げている。 これらのアルゴリズムの多くは、畳み込みニューラルネット(CNN)に基づく深いアーキテクチャで提案されている。 しかし、CNNには識別的特徴を見つける能力があるものの、CNNフィルタに対する応答がほとんど局所的であるため、画像内の異なる位置間の関係をモデル化する作業は不十分である。 これらの局所的および大域的空間関係は、検討中の対象を区別するために特徴づけられるため、領域ギャップに対する一般化能力の向上に重要な役割を果たしている。 対象部品の関係をよりよいドメインの一般化にするために、本研究は自己注意モデルの利用を提案する。 しかし,2次元画像の特徴抽出には熟練していないシーケンスに対して,アテンションモデルを提案する。 これを考慮し,これらの局所的特徴の空間的関係を探索するハイブリッドアーキテクチャを提案し,識別的特徴とそれらの関係をエンコードした複合表現を導出し,ドメインの一般化を改善する。 3つのよく知られたベンチマークの評価は、提案手法を用いて画像の特徴間の関係をモデル化することの利点を示し、最先端のドメイン一般化性能を達成する。 より具体的には、提案されたアルゴリズムは、PACSとOffice-Homeデータベースでそれぞれ2.2\%$と3.4\%$で最先端である。

Due to the rapid increase in the diversity of image data, the problem of domain generalization has received increased attention recently. While domain generalization is a challenging problem, it has achieved great development thanks to the fast development of AI techniques in computer vision. Most of these advanced algorithms are proposed with deep architectures based on convolution neural nets (CNN). However, though CNNs have a strong ability to find the discriminative features, they do a poor job of modeling the relations between different locations in the image due to the response to CNN filters are mostly local. Since these local and global spatial relationships are characterized to distinguish an object under consideration, they play a critical role in improving the generalization ability against the domain gap. In order to get the object parts relationships to gain better domain generalization, this work proposes to use the self attention model. However, the attention models are proposed for sequence, which are not expert in discriminate feature extraction for 2D images. Considering this, we proposed a hybrid architecture to discover the spatial relationships between these local features, and derive a composite representation that encodes both the discriminative features and their relationships to improve the domain generalization. Evaluation on three well-known benchmarks demonstrates the benefits of modeling relationships between the features of an image using the proposed method and achieves state-of-the-art domain generalization performance. More specifically, the proposed algorithm outperforms the state-of-the-art by $2.2\%$ and $3.4\%$ on PACS and Office-Home databases, respectively.
翻訳日:2021-08-24 16:03:34 公開日:2021-08-23
# ディープベイズ画像集合分類 : 敵対的攻撃に対する防御的アプローチ

Deep Bayesian Image Set Classification: A Defence Approach against Adversarial Attacks ( http://arxiv.org/abs/2108.10217v1 )

ライセンス: Link先を確認
Nima Mirnateghi, Syed Afaq Ali Shah, Mohammed Bennamoun(参考訳) 近年、ディープラーニングは、物体認識、顔認識、シーン理解に優れた業績により、様々なコンピュータビジョンシステムにおいて不可欠な部分となっている。 しかし、ディープニューラルネットワーク(DNN)は敵にほぼ自信を持って騙される可能性がある。 実際には、注意深い摂動画像に対するディープラーニングシステムの脆弱性は、敵対的な例として知られ、物理的な世界のアプリケーションにおいて深刻なセキュリティの脅威となる。 この現象に対処するために、我々は、我々の知識に対して、初めて、敵対的防御に基づくイメージセットを提示する。 画像集合分類は、外見の多様性を扱う本質的な性質から、物体と顔の認識に例外的な性能を示した。 本稿では,幅広い敵攻撃に対する防御フレームワークとして,頑健なベイズ画像集合分類を提案する。 提案手法の性能を様々な投票戦略を用いて広範囲に実験する。 さらに,各画像集合における摂動画像の比率とともに,画像サイズ,摂動大きさの影響を解析する。 また,最新の防御手法とシングルショット認識タスクを用いて,本手法を評価した。 CIFAR-10, MNIST, ETH-80, Tiny ImageNetデータセットでは, 実験結果が優れていた。

Deep learning has become an integral part of various computer vision systems in recent years due to its outstanding achievements for object recognition, facial recognition, and scene understanding. However, deep neural networks (DNNs) are susceptible to be fooled with nearly high confidence by an adversary. In practice, the vulnerability of deep learning systems against carefully perturbed images, known as adversarial examples, poses a dire security threat in the physical world applications. To address this phenomenon, we present, what to our knowledge, is the first ever image set based adversarial defence approach. Image set classification has shown an exceptional performance for object and face recognition, owing to its intrinsic property of handling appearance variability. We propose a robust deep Bayesian image set classification as a defence framework against a broad range of adversarial attacks. We extensively experiment the performance of the proposed technique with several voting strategies. We further analyse the effects of image size, perturbation magnitude, along with the ratio of perturbed images in each image set. We also evaluate our technique with the recent state-of-the-art defence methods, and single-shot recognition task. The empirical results demonstrate superior performance on CIFAR-10, MNIST, ETH-80, and Tiny ImageNet datasets.
翻訳日:2021-08-24 16:03:08 公開日:2021-08-23
# 画像分類のための明らかなCNN分類器の融合

Fusion of evidential CNN classifiers for image classification ( http://arxiv.org/abs/2108.10233v1 )

ライセンス: Link先を確認
Zheng Tong and Philippe Xu and Thierry Denoeux(参考訳) 本稿では,畳み込みニューラルネットワークを結合する信念関数に基づく情報融合手法を提案する。 このアプローチでは、事前訓練されたDSベースのCNNアーキテクチャが入力画像から特徴を抽出し、異なるフレームのマス関数に変換する。 融合モジュールは、デンプスターの法則を用いてこれらの質量関数を集約する。 エンドツーエンドの学習手順によって、ソフトラベルの学習セットを使用してアーキテクチャ全体の微調整が可能になり、さらに分類性能が向上します。 この手法の有効性を3つのベンチマークデータベースを用いて実験的に実証した。

We propose an information-fusion approach based on belief functions to combine convolutional neural networks. In this approach, several pre-trained DS-based CNN architectures extract features from input images and convert them into mass functions on different frames of discernment. A fusion module then aggregates these mass functions using Dempster's rule. An end-to-end learning procedure allows us to fine-tune the overall architecture using a learning set with soft labels, which further improves the classification performance. The effectiveness of this approach is demonstrated experimentally using three benchmark databases.
翻訳日:2021-08-24 16:02:51 公開日:2021-08-23
# 周波数方向による効率的なストリーミング低調波テンソル近似

Effective Streaming Low-tubal-rank Tensor Approximation via Frequent Directions ( http://arxiv.org/abs/2108.10129v1 )

ライセンス: Link先を確認
Qianxin Yi, Chenhao Wang, Kaidong Wang, and Yao Wang(参考訳) 低指数テンソル近似は大規模多次元データの解析のために提案されている。 しかし、そのような正確な近似を見つけることは、限られた計算資源のため、ストリーミング環境では困難である。 本稿では,テンソルSingular Value Decomposition (t-SVD)に基づくストリーミングデータから,効率よく正確な低ツバルランクテンソル近似を構築するために,一般的な行列スケッチ手法である Frequent Directions を拡張した。 具体的には、新しいアルゴリズムではテンソルデータをスライスごとにスライスすることができるが、オリジナルのテンソルの主情報をキャプチャできるより小さなスケッチを維持および漸進的に更新するだけでよい。 厳密な理論解析により,スケッチサイズが線形に大きくなると,新しいアルゴリズムの近似誤差が任意に小さくなることを示した。 合成データと実多次元データの両方に対する広範な実験の結果は、効率と精度の両面で、他のスケッチアルゴリズムと比較してより優れていることが判明した。

Low-tubal-rank tensor approximation has been proposed to analyze large-scale and multi-dimensional data. However, finding such an accurate approximation is challenging in the streaming setting, due to the limited computational resources. To alleviate this issue, this paper extends a popular matrix sketching technique, namely Frequent Directions, for constructing an efficient and accurate low-tubal-rank tensor approximation from streaming data based on the tensor Singular Value Decomposition (t-SVD). Specifically, the new algorithm allows the tensor data to be observed slice by slice, but only needs to maintain and incrementally update a much smaller sketch which could capture the principal information of the original tensor. The rigorous theoretical analysis shows that the approximation error of the new algorithm can be arbitrarily small when the sketch size grows linearly. Extensive experimental results on both synthetic and real multi-dimensional data further reveal the superiority of the proposed algorithm compared with other sketching algorithms for getting low-tubal-rank approximation, in terms of both efficiency and accuracy.
翻訳日:2021-08-24 16:01:08 公開日:2021-08-23
# 双方向協調合成ネットワークを用いた顔認識

Face Photo-Sketch Recognition Using Bidirectional Collaborative Synthesis Network ( http://arxiv.org/abs/2108.09898v1 )

ライセンス: Link先を確認
Seho Bae, Nizam Ud Din, Hyunkyu Park, and Juneho Yi(参考訳) 本研究は,顔のスケッチ画像と顔写真データベースとのマッチング問題に対処するディープラーニングベースのフレームワークを特徴とする。 1)写真とスケッチの間には大きなモダリティギャップがあり,2) 深層学習ネットワークをトレーニングするにはペアのトレーニングサンプルの数が不十分であるため,写真スケッチマッチングの問題は難しい。 大きなモダリティギャップの問題を回避するために、我々のアプローチは2つのモダリティ間の中間潜在空間を使用することである。 双方向(photo -> sketch and sketch -> photo)協調合成ネットワークを用いて,この潜在空間における2つのモードの分布を効果的に調整する。 StyleGANのようなアーキテクチャを用いて、中間潜伏空間に豊かな表現力を持たせる。 トレーニングサンプル不足の問題を解決するために,3段階のトレーニング方式を提案する。 公開複合顔スケッチデータベースの広範な評価により,既存の最先端手法と比較して優れた性能が得られた。 提案手法は他のモダリティ対のマッチングに応用できる。

This research features a deep-learning based framework to address the problem of matching a given face sketch image against a face photo database. The problem of photo-sketch matching is challenging because 1) there is large modality gap between photo and sketch, and 2) the number of paired training samples is insufficient to train deep learning based networks. To circumvent the problem of large modality gap, our approach is to use an intermediate latent space between the two modalities. We effectively align the distributions of the two modalities in this latent space by employing a bidirectional (photo -> sketch and sketch -> photo) collaborative synthesis network. A StyleGAN-like architecture is utilized to make the intermediate latent space be equipped with rich representation power. To resolve the problem of insufficient training samples, we introduce a three-step training scheme. Extensive evaluation on public composite face sketch database confirms superior performance of our method compared to existing state-of-the-art methods. The proposed methodology can be employed in matching other modality pairs.
翻訳日:2021-08-24 15:59:07 公開日:2021-08-23
# ブール論理におけるリテラルの定量化と説明可能なAIへの応用

On Quantifying Literals in Boolean Logic and Its Applications to Explainable AI ( http://arxiv.org/abs/2108.09876v1 )

ライセンス: Link先を確認
Adnan Darwiche and Pierre Marquis(参考訳) 量化ブール論理は、存在的かつ普遍的に変数を定量化するための演算子をブール論理に追加することによって得られる。 これは、何十年にもわたって研究されてきた様々なアプリケーションを可能にすることで、ブール論理の到達範囲を広げる。 リテラル(可変状態)の存在量化とその応用も文献で研究されている。 本稿では、汎用リテラル量子化とその応用、特に説明可能なAIについて研究することでこれを補完する。 また,数量化のための新しい意味論を提供し,変数/文字間および存在/普遍的数量化間の相互作用について論じる。 さらに,量子化を効率的に行うことのできるブール公式や回路のクラスを同定する。 リテラル量子化は変数量子化よりも細粒度であり、後者は前者の言葉で定義できる。 これにより、リテラル量子化をプリミティブとする量化ブール論理が洗練される。

Quantified Boolean logic results from adding operators to Boolean logic for existentially and universally quantifying variables. This extends the reach of Boolean logic by enabling a variety of applications that have been explored over the decades. The existential quantification of literals (variable states) and its applications have also been studied in the literature. In this paper, we complement this by studying universal literal quantification and its applications, particularly to explainable AI. We also provide a novel semantics for quantification, discuss the interplay between variable/literal and existential/universa l quantification. We further identify some classes of Boolean formulas and circuits on which quantification can be done efficiently. Literal quantification is more fine-grained than variable quantification as the latter can be defined in terms of the former. This leads to a refinement of quantified Boolean logic with literal quantification as its primitive.
翻訳日:2021-08-24 15:57:32 公開日:2021-08-23
# 多様体学習のための遺伝的プログラミング:局所トポロジーの保存

Genetic Programming for Manifold Learning: Preserving Local Topology ( http://arxiv.org/abs/2108.09914v1 )

ライセンス: Link先を確認
Andrew Lensen, Bing Xue, Mengjie Zhang(参考訳) マニフォールド学習は、ますます巨大なデータセットの世界で、貴重なツールである。 多様体学習アルゴリズムは、元のデータの最も重要な構造を保存する非線形変換を通じて、高次元データセットのより低い次元表現(埋め込み)を見つけることができる。 最先端多様体学習法は、元の空間と発見された埋め込み空間をマッピングせずに直接埋め込みを最適化する。 これにより、探索的データ分析における重要な要件である解釈可能性はほぼ不可能になる。 近年、遺伝的プログラミングは、元の空間から埋め込みへの関数写像を進化させることによって、多様体学習に非常に有望なアプローチとして現れている。 しかし、遺伝的プログラミングに基づく多様体学習は、他の手法の性能と一致しない。 本研究では,局所的なトポロジを保存した多様体学習に遺伝的プログラミングを用いる新しい手法を提案する。 これは,地域構造(トポロジー)が最重要課題であるタスクにおいて,大幅な改善が期待できる。 提案手法を様々なベースライン多様体学習法と比較し,従来の遺伝的プログラミング手法よりも明らかに改善するなど,他の手法よりも優れていることを見出した。 これらの結果は、進化した写像の解釈可能性や再利用可能性を考えると、特に有望である。

Manifold learning methods are an invaluable tool in today's world of increasingly huge datasets. Manifold learning algorithms can discover a much lower-dimensional representation (embedding) of a high-dimensional dataset through non-linear transformations that preserve the most important structure of the original data. State-of-the-art manifold learning methods directly optimise an embedding without mapping between the original space and the discovered embedded space. This makes interpretability - a key requirement in exploratory data analysis - nearly impossible. Recently, genetic programming has emerged as a very promising approach to manifold learning by evolving functional mappings from the original space to an embedding. However, genetic programming-based manifold learning has struggled to match the performance of other approaches. In this work, we propose a new approach to using genetic programming for manifold learning, which preserves local topology. This is expected to significantly improve performance on tasks where local neighbourhood structure (topology) is paramount. We compare our proposed approach with various baseline manifold learning methods and find that it often outperforms other methods, including a clear improvement over previous genetic programming approaches. These results are particularly promising, given the potential interpretability and reusability of the evolved mappings.
翻訳日:2021-08-24 15:57:19 公開日:2021-08-23
# APObind:De Novoドラッグデザインにおける機械学習応用のためのリガンド非結合タンパク質のデータセット

APObind: A Dataset of Ligand Unbound Protein Conformations for Machine Learning Applications in De Novo Drug Design ( http://arxiv.org/abs/2108.09926v1 )

ライセンス: Link先を確認
Rishal Aggarwal, Akash Gupta, U Deva Priyakumar(参考訳) タンパク質リガンド複合体構造は、受容体結合部位の検出、小さな分子ドッキング、結合親和性予測などの薬物設計に関連する重要なタスクを実行するベンチマーク機械学習手法を設計するために利用されてきた。 しかし、これらの方法は通常、タンパク質のリガンド結合(またはホロ)配座のみに基づいて訓練されるため、タンパク質構造がネイティブなアンバウンド配座(apo)にある場合、通常は新しく同定された受容体の配座である場合、うまく機能することが保証されない。 主な理由は、結合部位の局所構造が通常、リガンド結合によって変化するからである。 この問題を解決するため,我々は pdbbind データセットに存在するタンパク質の apo コンフォーメーションを提供することを目的とした apobind というデータセットを提案する。 さらに,本データセット上の3つのユースケースに特有の手法の性能について検討し,APObindデータセット上での検証の重要性を示す。

Protein-ligand complex structures have been utilised to design benchmark machine learning methods that perform important tasks related to drug design such as receptor binding site detection, small molecule docking and binding affinity prediction. However, these methods are usually trained on only ligand bound (or holo) conformations of the protein and therefore are not guaranteed to perform well when the protein structure is in its native unbound conformation (or apo), which is usually the conformation available for a newly identified receptor. A primary reason for this is that the local structure of the binding site usually changes upon ligand binding. To facilitate solutions for this problem, we propose a dataset called APObind that aims to provide apo conformations of proteins present in the PDBbind dataset, a popular dataset used in drug design. Furthermore, we explore the performance of methods specific to three use cases on this dataset, through which, the importance of validating them on the APObind dataset is demonstrated.
翻訳日:2021-08-24 15:57:04 公開日:2021-08-23
# 時間とともに進化するcovid-19の不確実性と密度依存型社会強化と無症候性感染症のモデル化

Modeling COVID-19 uncertainties evolving over time and density-dependent social reinforcement and asymptomatic infections ( http://arxiv.org/abs/2108.10029v1 )

ライセンス: Link先を確認
Qing Liu and Longbing Cao(参考訳) 新型コロナウイルス感染症2019(COVID-19)は、そのプロセスとデータの不確実性の両方をモデル化し、無症候性感染、感染の社会的強化、報告されたデータにおける様々な品質問題で表される、独特で未知の複雑な問題とモデリング課題を提示する。 これらの不確実性は、ワクチンを服用しながらも感受性の高い集団による圧倒的な突然変異優位の再発においてさらに驚くべきものとなる。 Here we introduce a novel hybrid approach to (1) characterizing and distinguishing Undocumented (U) and Documented (D) infections commonly seen during COVID-19 incubation periods and asymptomatic infections by expanding the foundational compartmental epidemic Susceptible-Infected -Recovered (SIR) model with two compartments, resulting in a new Susceptible-Undocume nted infected-Documented infected-Recovered (SUDR) model; (2) characterizing the probabilistic density of infections by empowering SUDR to capture exogenous processes like clustering contagion interactions, superspreading and social reinforcement; and (3) approximating the density likelihood of COVID-19 prevalence over time by incorporating Bayesian inference into SUDR. 既存の新型コロナウイルスモデルとは異なり、SUDRは未知の感染過程における未文書の感染を特徴付ける。 新型コロナウイルス感染時の時間的伝達と社会強化の不確実性を把握するため、感染率を未記録の感染者の時間的変動密度関数によってモデル化する。 本研究は, 平均体後部分布から適切な先行点を抽出し, 一般のCOVID-19症例データで広く見られるランダム性, ノイズ, 空間性を扱うのに適したSUDRを同定した。

The novel coronavirus disease 2019 (COVID-19) presents unique and unknown problem complexities and modeling challenges, where an imperative task is to model both its process and data uncertainties, represented in implicit and high-proportional undocumented infections, asymptomatic contagion, social reinforcement of infections, and various quality issues in the reported data. These uncertainties become even more phenomenal in the overwhelming mutation-dominated resurgences with vaccinated but still susceptible populations. Here we introduce a novel hybrid approach to (1) characterizing and distinguishing Undocumented (U) and Documented (D) infections commonly seen during COVID-19 incubation periods and asymptomatic infections by expanding the foundational compartmental epidemic Susceptible-Infected -Recovered (SIR) model with two compartments, resulting in a new Susceptible-Undocume nted infected-Documented infected-Recovered (SUDR) model; (2) characterizing the probabilistic density of infections by empowering SUDR to capture exogenous processes like clustering contagion interactions, superspreading and social reinforcement; and (3) approximating the density likelihood of COVID-19 prevalence over time by incorporating Bayesian inference into SUDR. Different from existing COVID-19 models, SUDR characterizes the undocumented infections during unknown transmission processes. To capture the uncertainties of temporal transmission and social reinforcement during the COVID-19 contagion, the transmission rate is modeled by a time-varying density function of undocumented infectious cases. We solve the modeling by sampling from the mean-field posterior distribution with reasonable priors, making SUDR suitable to handle the randomness, noise and sparsity of COVID-19 observations widely seen in the public COVID-19 case data.
翻訳日:2021-08-24 15:54:56 公開日:2021-08-23
# 構造変数選択のための排他的グループラッソ

Exclusive Group Lasso for Structured Variable Selection ( http://arxiv.org/abs/2108.10284v1 )

ライセンス: Link先を確認
David Gregoratti and Xavier Mestre and Carlos Buelga(参考訳) 構造的変数選択問題は、前定義されたグループに分割された共変数が、グループごとにゼロでないエントリが少ないスパースパターンに従って活性化される。 原子ノルムの概念に基づいた合成ノルムは、そのような排他的群空間パターンを促進するために適切に設計することができる。 結果として得られるノルムは、近位アルゴリズムのような回復をサポートする効率的で柔軟な正規化最適化アルゴリズムに役立ちます。 さらに, 推定支持体に構造原子を逐次含むことで解を構築できる能動集合アルゴリズムを提案する。 また、そのようなアルゴリズムは、通常の排他的群空間よりも厳密な構造に適合するように調整することができる。 漸近的整合性解析(パラメータ数と観測サイズで増加するグループ数の両方)は、従来の仮定の下で署名された支持回復の観点から、提案手法の有効性を確立する。 最後に、一連の数値シミュレーションがさらに結果を裏付ける。

A structured variable selection problem is considered in which the covariates, divided into predefined groups, activate according to sparse patterns with few nonzero entries per group. Capitalizing on the concept of atomic norm, a composite norm can be properly designed to promote such exclusive group sparsity patterns. The resulting norm lends itself to efficient and flexible regularized optimization algorithms for support recovery, like the proximal algorithm. Moreover, an active set algorithm is proposed that builds the solution by successively including structure atoms into the estimated support. It is also shown that such an algorithm can be tailored to match more rigid structures than plain exclusive group sparsity. Asymptotic consistency analysis (with both the number of parameters as well as the number of groups growing with the observation size) establishes the effectiveness of the proposed solution in terms of signed support recovery under conventional assumptions. Finally, a set of numerical simulations further corroborates the results.
翻訳日:2021-08-24 15:54:25 公開日:2021-08-23
# 機械の学習画像符号化:コンテンツ適応的アプローチ

Learned Image Coding for Machines: A Content-Adaptive Approach ( http://arxiv.org/abs/2108.09992v1 )

ライセンス: Link先を確認
Nam Le, Honglei Zhang, Francesco Cricri, Ramin Ghaznavi-Youvalari, Hamed Rezazadegan Tavakoli, Esa Rahtu(参考訳) 今日、Cisco Annual Internet Report (2018-2023)によると、インターネットトラフィックの最速成長カテゴリーは機械間通信である。 特に、画像とビデオの機械間通信は、新しい課題であり、データ圧縮の文脈で新しい視点を開く。 可能な解決策の1つは、現在の人間のターゲット画像とビデオコーディング標準をマシン消費のユースケースに適応させることである。 別のアプローチは、機械間通信のための全く新しい圧縮パラダイムとアーキテクチャを開発することである。 本稿では,画像圧縮に着目し,機械消費の圧縮効率向上を目的とした,エンドツーエンドの学習画像コーデックの潜在表現を最適化する推論時コンテンツ適応微調整方式を提案する。 実験の結果,予め訓練した画像コーデックに対して平均ビットレート(BDレート)を3.66%削減できることがわかった。 特に低ビットレートでは,提案手法により9.85%の大幅なビットレート削減が可能となった。 VVC(Versatile Video Coding)は,画像・ビデオコーデックの30.54%のBDレートを実現している。

Today, according to the Cisco Annual Internet Report (2018-2023), the fastest-growing category of Internet traffic is machine-to-machine communication. In particular, machine-to-machine communication of images and videos represents a new challenge and opens up new perspectives in the context of data compression. One possible solution approach consists of adapting current human-targeted image and video coding standards to the use case of machine consumption. Another approach consists of developing completely new compression paradigms and architectures for machine-to-machine communications. In this paper, we focus on image compression and present an inference-time content-adaptive finetuning scheme that optimizes the latent representation of an end-to-end learned image codec, aimed at improving the compression efficiency for machine-consumption. The conducted experiments show that our online finetuning brings an average bitrate saving (BD-rate) of -3.66% with respect to our pretrained image codec. In particular, at low bitrate points, our proposed method results in a significant bitrate saving of -9.85%. Overall, our pretrained-and-then- finetuned system achieves -30.54% BD-rate over the state-of-the-art image/video codec Versatile Video Coding (VVC).
翻訳日:2021-08-24 15:53:21 公開日:2021-08-23
# 機械のイメージコーディング--エンドツーエンドの学習アプローチ

Image coding for machines: an end-to-end learned approach ( http://arxiv.org/abs/2108.09993v1 )

ライセンス: Link先を確認
Nam Le, Honglei Zhang, Francesco Cricri, Ramin Ghaznavi-Youvalari, Esa Rahtu(参考訳) 近年では、深層学習に基づくコンピュータビジョンシステムが画像に応用され続けており、多くの場合、画像の唯一の消費形態を表している。 マシン消費を対象とする画像コーデックは、人間の消費を対象とする最先端のコーデックに対して、どの程度の精度で機能するのか? 本稿では,ニューラルネットワーク(nn)をベースとし,エンドツーエンド学習を行うマシンのためのイメージコーデックを提案する。 特に,コンピュータビジョンタスク損失,画像歪み損失,レート損失といった,競合する損失関数のバランスに関する微妙な問題に対処するトレーニング戦略を提案する。 我々のNNベースのコーデックは、オブジェクト検出タスクとインスタンスセグメンテーションタスクにおける最先端のVersa-tile Video Coding(VVC)標準よりも優れており、そのコンパクトさにより、それぞれ-37.87%と-32.90%のBDレートゲインを達成した。 我々の知る限りでは、これが最初のエンドツーエンドの機械学習画像コーデックである。

Over recent years, deep learning-based computer vision systems have been applied to images at an ever-increasing pace, oftentimes representing the only type of consumption for those images. Given the dramatic explosion in the number of images generated per day, a question arises: how much better would an image codec targeting machine-consumption perform against state-of-the-art codecs targeting human-consumption? In this paper, we propose an image codec for machines which is neural network (NN) based and end-to-end learned. In particular, we propose a set of training strategies that address the delicate problem of balancing competing loss functions, such as computer vision task losses, image distortion losses, and rate loss. Our experimental results show that our NN-based codec outperforms the state-of-the-art Versa-tile Video Coding (VVC) standard on the object detection and instance segmentation tasks, achieving -37.87% and -32.90% of BD-rate gain, respectively, while being fast thanks to its compact size. To the best of our knowledge, this is the first end-to-end learned machine-targeted image codec.
翻訳日:2021-08-24 15:53:04 公開日:2021-08-23
# 量子圧縮センシングを用いたディープニューラルネットワーク推論の高速化について

On the Acceleration of Deep Neural Network Inference using Quantized Compressed Sensing ( http://arxiv.org/abs/2108.10101v1 )

ライセンス: Link先を確認
Meshia C\'edric Oveneke(参考訳) リソース制限されたデバイス上でのディープニューラルネットワーク(DNN)推論の高速化は、より広範な包括的採用を保証する上で最も重要な障壁のひとつだ。 これを軽減するために、DNNのバイナリ量子化による高速な畳み込みとメモリ節約は、精度の大幅な低下にもかかわらず、最も有望な戦略の1つである。 そこで本研究では,量子化圧縮センシング(QCS)に基づく新しいバイナリ量子化関数を提案する。 理論的な議論では、提案手法は量子化誤差と結果の精度低下を低減しつつ、標準手法の実用的利点を保っている。

Accelerating deep neural network (DNN) inference on resource-limited devices is one of the most important barriers to ensuring a wider and more inclusive adoption. To alleviate this, DNN binary quantization for faster convolution and memory savings is one of the most promising strategies despite its serious drop in accuracy. The present paper therefore proposes a novel binary quantization function based on quantized compressed sensing (QCS). Theoretical arguments conjecture that our proposal preserves the practical benefits of standard methods, while reducing the quantization error and the resulting drop in accuracy.
翻訳日:2021-08-24 15:52:42 公開日:2021-08-23
# 新しいq-newton法はバックトラックライン探索を満たす:良好な収束保証、鞍点回避、二次収束率、簡単な実装

New Q-Newton's method meets Backtracking line search: good convergence guarantee, saddle points avoidance, quadratic rate of convergence, and easy implementation ( http://arxiv.org/abs/2108.10249v1 )

ライセンス: Link先を確認
Tuyen Trung Truong(参考訳) 最近の共同研究において、著者は、サドル点を回避し、2次収束率を持つNew Q-Newton法と呼ばれるニュートン法を修正した。 この方法の理論的収束保証は確立されていないが、小規模問題に対する実験により、適応立方正則化やBFGSといったニュートン法や、非有界二方向追跡勾配法のような一階法など、他のよく知られた修正法と非常に競合することを示した。 本稿では、より洗練されたハイパーパラメータとバックトラックライン探索を組み込んだ、New Q-Newton法(New Q-Newton法)の修正を提案し、収束保証問題を解消する。 この方法は非常に優れた理論的保証を持ち、これはある {\bf Morse 関数に対して以下の結果が得られる(新Q-ニュートン法では未知である)。 f:\mathbb{R}^m\rightarrow \mathbb{R}$ をモース函数とする。 このとき、New Q-Newton のメソッドで構築されたシーケンス $\{x_n\}$ に対して、ランダムな初期点 $x_0$ からバックトラックすると、次の2つの選択肢がある: i) $\lim _{n\rightarrow\infty}|||x_n||=\infty$, or i) $\{x_n\}$ は、$f$ の a {\bf局所最小値である点 $x_{\infty}$ に収束する。 さらに、$f$ がコンパクトな部分レベルを持つ場合、ケース ii) が発生する。 私たちの知る限り、モース関数は、これまでの文献において反復最適化アルゴリズムの最良の理論的保証である。 我々は,より簡易な新Q-Newton法Backtrackingを用いて,小規模で実験を行い,新Q-Newton法を大幅に改善することを発見した。

In a recent joint work, the author has developed a modification of Newton's method, named New Q-Newton's method, which can avoid saddle points and has quadratic rate of convergence. While good theoretical convergence guarantee has not been established for this method, experiments on small scale problems show that the method works very competitively against other well known modifications of Newton's method such as Adaptive Cubic Regularization and BFGS, as well as first order methods such as Unbounded Two-way Backtracking Gradient Descent. In this paper, we resolve the convergence guarantee issue by proposing a modification of New Q-Newton's method, named New Q-Newton's method Backtracking, which incorporates a more sophisticated use of hyperparameters and a Backtracking line search. This new method has very good theoretical guarantees, which for a {\bf Morse function} yields the following (which is unknown for New Q-Newton's method): {\bf Theorem.} Let $f:\mathbb{R}^m\rightarrow \mathbb{R}$ be a Morse function, that is all its critical points have invertible Hessian. Then for a sequence $\{x_n\}$ constructed by New Q-Newton's method Backtracking from a random initial point $x_0$, we have the following two alternatives: i) $\lim _{n\rightarrow\infty}||x_n||=\infty$, or ii) $\{x_n\}$ converges to a point $x_{\infty}$ which is a {\bf local minimum} of $f$, and the rate of convergence is {\bf quadratic}. Moreover, if $f$ has compact sublevels, then only case ii) happens. As far as we know, for Morse functions, this is the best theoretical guarantee for iterative optimization algorithms so far in the literature. We have tested in experiments on small scale, with some further simplified versions of New Q-Newton's method Backtracking, and found that the new method significantly improve New Q-Newton's method.
翻訳日:2021-08-24 15:52:32 公開日:2021-08-23
# 二重テキスト正規化のための統一トランスフォーマーベースフレームワーク

A Unified Transformer-based Framework for Duplex Text Normalization ( http://arxiv.org/abs/2108.09889v1 )

ライセンス: Link先を確認
Tuan Manh Lai, Yang Zhang, Evelina Bakhturina, Boris Ginsburg, Heng Ji(参考訳) テキスト正規化(TN)と逆テキスト正規化(ITN)はそれぞれ、テキスト音声合成と自動音声認識に欠かせない前処理と後処理のステップである。 重み付き有限状態トランスデューサからニューラルネットワークまで、多くの方法がTNまたはITNに提案されている。 優れたパフォーマンスにもかかわらず、これらの手法は2つのタスクのうち1つだけに取り組むことを目的としており、両方ではない。 その結果、完全な音声対話システムでは、TNとITNの2つの別々のモデルを構築する必要がある。 この不均一性はシステムの技術的な複雑さを増加させ、プロダクション環境でのメンテナンスコストを増加させる。 そこで本研究では,TNとITNを同時に処理可能な単一神経二重系構築のための統合フレームワークを提案する。 簡単なデータ拡張手法と組み合わせて,Google TNデータセットによる英語とロシア語の最先端結果を得る。 また、追加の微調整なしで、内部の英語TNデータセット上で95%以上の文レベルの精度に達することができる。 また、ドイツ語のスポケンウィキペディアコーパスからクリーンなデータセットを作成し、データセット上でのシステムのパフォーマンスを報告します。 全体として,提案する二重化テキスト正規化フレームワークは非常に効果的であり,様々なドメインや言語に適用可能であることを実験的に実証する。

Text normalization (TN) and inverse text normalization (ITN) are essential preprocessing and postprocessing steps for text-to-speech synthesis and automatic speech recognition, respectively. Many methods have been proposed for either TN or ITN, ranging from weighted finite-state transducers to neural networks. Despite their impressive performance, these methods aim to tackle only one of the two tasks but not both. As a result, in a complete spoken dialog system, two separate models for TN and ITN need to be built. This heterogeneity increases the technical complexity of the system, which in turn increases the cost of maintenance in a production setting. Motivated by this observation, we propose a unified framework for building a single neural duplex system that can simultaneously handle TN and ITN. Combined with a simple but effective data augmentation method, our systems achieve state-of-the-art results on the Google TN dataset for English and Russian. They can also reach over 95% sentence-level accuracy on an internal English TN dataset without any additional fine-tuning. In addition, we also create a cleaned dataset from the Spoken Wikipedia Corpora for German and report the performance of our systems on the dataset. Overall, experimental results demonstrate the proposed duplex text normalization framework is highly effective and applicable to a range of domains and languages
翻訳日:2021-08-24 15:51:46 公開日:2021-08-23
# イベントタイプと引数ロールの関連付けによるイベント抽出

Event Extraction by Associating Event Types and Argument Roles ( http://arxiv.org/abs/2108.10038v1 )

ライセンス: Link先を確認
Qian Li, Shu Guo, Jia Wu, Jianxin Li, Jiawei Sheng, Lihong Wang, Xiaohan Dong, Hao Peng(参考訳) イベント抽出(EE)は、テキストから構造的なイベント知識を取得するもので、イベントタイプ分類と要素抽出(つまり、異なる役割パターンの下でトリガと引数を識別する)の2つのサブタスクに分けられる。 異なるイベントタイプは常に異なる抽出スキーマ(すなわちロールパターン)を持っているため、eeに関する以前の作業は、通常独立した学習パラダイムに従い、異なるイベントタイプに対して独立して要素抽出を行う。 イベントタイプと引数ロール間の有意義な関連を無視し、頻度の低い型/ロールに対して比較的低いパフォーマンスをもたらす。 本稿では、eeタスクのための新しいニューラルアソシエーションフレームワークを提案する。 文書が与えられた場合、まず、異なるタイプの文ノードを関連付けるために文書レベルのグラフを構築し、グラフ注意ネットワークを用いて文の埋め込みを学習することで、型分類を行う。 次に、引数ロールの普遍的スキーマを構築して要素抽出を行い、抽出された要素の役割嗜好を高めるパラメータ継承機構を構築する。 このように、私たちのモデルは、EE中のタイプや役割の関連を考慮に入れ、それら間で暗黙の情報共有を可能にします。 実験の結果,提案手法は両サブタスクにおいて,最先端のEE手法よりも一貫して優れていることがわかった。 特にトレーニングデータが少ないタイプ/ロールの場合、パフォーマンスは既存のメソッドよりも優れている。

Event extraction (EE), which acquires structural event knowledge from texts, can be divided into two sub-tasks: event type classification and element extraction (namely identifying triggers and arguments under different role patterns). As different event types always own distinct extraction schemas (i.e., role patterns), previous work on EE usually follows an isolated learning paradigm, performing element extraction independently for different event types. It ignores meaningful associations among event types and argument roles, leading to relatively poor performance for less frequent types/roles. This paper proposes a novel neural association framework for the EE task. Given a document, it first performs type classification via constructing a document-level graph to associate sentence nodes of different types, and adopting a graph attention network to learn sentence embeddings. Then, element extraction is achieved by building a universal schema of argument roles, with a parameter inheritance mechanism to enhance role preference for extracted elements. As such, our model takes into account type and role associations during EE, enabling implicit information sharing among them. Experimental results show that our approach consistently outperforms most state-of-the-art EE methods in both sub-tasks. Particularly, for types/roles with less training data, the performance is superior to the existing methods.
翻訳日:2021-08-24 15:51:28 公開日:2021-08-23
# 文脈不整合を用いた人物再識別における多元対逆攻撃検出

Multi-Expert Adversarial Attack Detection in Person Re-identification Using Context Inconsistency ( http://arxiv.org/abs/2108.09891v1 )

ライセンス: Link先を確認
Xueping Wang, Shasha Li, Min Liu, Yaonan Wang and Amit K. Roy-Chowdhury(参考訳) ディープニューラルネットワーク(DNN)の成功は、人物再識別(ReID)の広範な応用を促進させた。 しかし、ReIDシステムは、視覚的に目立った敵対的摂動の悪意ある攻撃にDNNの加害性を継承する。 したがって、アドバー・サリアル攻撃の検出は、ReIDシステムの基本要件である。 本研究では,DNNベースのReIDシステムに適合するコンテキスト不整合をチェックすることで,この目標を達成するためのマルチエキスパート・アタック検出(MEAAD)手法を提案する。 Specifically,three kinds of context inconsistencies caused by adversar-ial attacks are employed to learn a detector for distinguish-ing the perturbed examples, i.e., a) the embedding distancesbetween a perturbed query person image and its top-K re-trievals are generally larger than those between a benignquery image and its top-K retrievals, b) the embedding dis-tances among the top-K retrievals of a perturbed query im-age are larger than those of a benign query image, c) thetop-K retrievals of a benign query image obtained with mul-tiple expert ReID models tend to be consistent, which isnot preserved when attacks are present. Market1501とDukeMTMC-ReIDデータセットの広範なエクスペラメントは、ReIDに対する最初の敵攻撃検出アプローチとして、MEAADは様々な敵の攻撃タックを効果的に検出し、高いROC-AUC(97.5%以上)を達成することを示している。

The success of deep neural networks (DNNs) haspromoted the widespread applications of person re-identification (ReID). However, ReID systems inherit thevulnerability of DNNs to malicious attacks of visually in-conspicuous adversarial perturbations. Detection of adver-sarial attacks is, therefore, a fundamental requirement forrobust ReID systems. In this work, we propose a Multi-Expert Adversarial Attack Detection (MEAAD) approach toachieve this goal by checking context inconsistency, whichis suitable for any DNN-based ReID systems. Specifically,three kinds of context inconsistencies caused by adversar-ial attacks are employed to learn a detector for distinguish-ing the perturbed examples, i.e., a) the embedding distancesbetween a perturbed query person image and its top-K re-trievals are generally larger than those between a benignquery image and its top-K retrievals, b) the embedding dis-tances among the top-K retrievals of a perturbed query im-age are larger than those of a benign query image, c) thetop-K retrievals of a benign query image obtained with mul-tiple expert ReID models tend to be consistent, which isnot preserved when attacks are present. Extensive exper-iments on the Market1501 and DukeMTMC-ReID datasetsshow that, as the first adversarial attack detection approachfor ReID,MEAADeffectivel y detects various adversarial at-tacks and achieves high ROC-AUC (over 97.5%).
翻訳日:2021-08-24 15:42:57 公開日:2021-08-23
# CANet: シャドー除去のためのコンテキスト認識ネットワーク

CANet: A Context-Aware Network for Shadow Removal ( http://arxiv.org/abs/2108.09894v1 )

ライセンス: Link先を確認
Zipei Chen, Chengjiang Long, Ling Zhang, Chunxia Xiao(参考訳) 本稿では,非シャドー領域からのコンテキスト情報を埋め込み特徴空間のシャドウ領域に転送する,シャドウ除去のための2段階のコンテキスト認識ネットワークcanetを提案する。 ステージiでは,シャドウパッチと非シャドウパッチの潜在的なマッチングペアを生成するためのcpm(contextual patch matching)モジュールを提案する。 シャドウ領域と非シャドウ領域間の潜在的なコンテキスト関係と組み合わせることで、よく設計されたコンテキスト特徴伝達(CFT)機構は、異なるスケールで非シャドウ領域からシャドウ領域へコンテキスト情報を転送することができる。 再構成された特徴写像により、LとA/Bチャネルの影を別々に除去する。 ステージIIでは、エンコーダデコーダを用いて現在の結果を洗練し、最終的なシャドウ除去結果を生成する。 提案したCANetを2つのベンチマークデータセットと複雑なシーンを持つ実世界の影画像で評価した。 提案したCANetの有効性を強く実証し,最先端技術に優れた性能を示した。

In this paper, we propose a novel two-stage context-aware network named CANet for shadow removal, in which the contextual information from non-shadow regions is transferred to shadow regions at the embedded feature spaces. At Stage-I, we propose a contextual patch matching (CPM) module to generate a set of potential matching pairs of shadow and non-shadow patches. Combined with the potential contextual relationships between shadow and non-shadow regions, our well-designed contextual feature transfer (CFT) mechanism can transfer contextual information from non-shadow to shadow regions at different scales. With the reconstructed feature maps, we remove shadows at L and A/B channels separately. At Stage-II, we use an encoder-decoder to refine current results and generate the final shadow removal results. We evaluate our proposed CANet on two benchmark datasets and some real-world shadow images with complex scenes. Extensive experimental results strongly demonstrate the efficacy of our proposed CANet and exhibit superior performance to state-of-the-arts.
翻訳日:2021-08-24 15:42:33 公開日:2021-08-23
# 第2回反UAVワークショップ・チャレンジ:方法と成果

The 2nd Anti-UAV Workshop & Challenge: Methods and Results ( http://arxiv.org/abs/2108.09909v1 )

ライセンス: Link先を確認
Jian Zhao, Gang Wang, Jianan Li, Lei Jin, Nana Fan, Min Wang, Xiaojuan Wang, Ting Yong, Yafeng Deng, Yandong Guo, Shiming Ge, Guodong Guo(参考訳) 第2回反UAVワークショップ「チャレンジ」は、マルチスケール物体追跡の新しい高精度な手法の研究を促進することを目的としている。 反UAVチャレンジで使用される反UAVデータセットが公開された。 データセットには$i.e.$とtest-devサブセットとtest-challengeサブセットの2つのサブセットがある。 どちらのサブセットも140個の熱赤外ビデオシーケンスで構成されており、複数のUAVが発生している。 世界から24チームが参加し、第2回対uavチャレンジに出場した。 本稿では,第2回反UAVワークショップ・チャレンジの概要を紹介するとともに,第2回反UAVワークショップ・チャレンジについて紹介する。 ベンチマークデータセットとその他の情報は、https://anti-uav.git hub.io/で見ることができる。

The 2nd Anti-UAV Workshop \& Challenge aims to encourage research in developing novel and accurate methods for multi-scale object tracking. The Anti-UAV dataset used for the Anti-UAV Challenge has been publicly released. There are two subsets in the dataset, $i.e.$, the test-dev subset and test-challenge subset. Both subsets consist of 140 thermal infrared video sequences, spanning multiple occurrences of multi-scale UAVs. Around 24 participating teams from the globe competed in the 2nd Anti-UAV Challenge. In this paper, we provide a brief summary of the 2nd Anti-UAV Workshop \& Challenge including brief introductions to the top three methods.The submission leaderboard will be reopened for researchers that are interested in the Anti-UAV challenge. The benchmark dataset and other information can be found at: https://anti-uav.git hub.io/.
翻訳日:2021-08-24 15:42:17 公開日:2021-08-23
# PR-GCN:6次元空間推定のためのポイントリファインメント付きディープグラフ畳み込みネットワーク

PR-GCN: A Deep Graph Convolutional Network with Point Refinement for 6D Pose Estimation ( http://arxiv.org/abs/2108.09916v1 )

ライセンス: Link先を確認
Guangyuan Zhou, Huiqun Wang, Jiaxin Chen and Di Huang(参考訳) RGB-D に基づく6D ポーズ推定は近年顕著な進歩を遂げているが,(1) 深度データの非効率な表現,(2) 異なるモダリティの不十分な統合の2つの大きな限界に悩まされている。 本稿では,グラフ畳み込みネットワーク (graph convolutional network with pointfine (pr-gcn)) という新しい深層学習手法を提案する。 まず、3dポイントの雲を磨くためにprn(pointfine network)を導入し、ノイズを除去した欠片を回収した。 その後,マルチモーダル融合グラフ畳み込みネットワーク(mmf-gcn)が提案され,グラフ畳み込みネットワーク内の局所情報伝搬を介して幾何・認識間相関を捉えるrgb-d結合が強化される。 広く使用されている3つのベンチマークで広範な実験が行われ、最先端のパフォーマンスが達成される。 また,提案した PRN および MMF-GCN モジュールは,他のフレームワークによく一般化されている。

RGB-D based 6D pose estimation has recently achieved remarkable progress, but still suffers from two major limitations: (1) ineffective representation of depth data and (2) insufficient integration of different modalities. This paper proposes a novel deep learning approach, namely Graph Convolutional Network with Point Refinement (PR-GCN), to simultaneously address the issues above in a unified way. It first introduces the Point Refinement Network (PRN) to polish 3D point clouds, recovering missing parts with noise removed. Subsequently, the Multi-Modal Fusion Graph Convolutional Network (MMF-GCN) is presented to strengthen RGB-D combination, which captures geometry-aware inter-modality correlation through local information propagation in the graph convolutional network. Extensive experiments are conducted on three widely used benchmarks, and state-of-the-art performance is reached. Besides, it is also shown that the proposed PRN and MMF-GCN modules are well generalized to other frameworks.
翻訳日:2021-08-24 15:42:05 公開日:2021-08-23
# 多視点表面再構成のための符号付き距離場学習

Learning Signed Distance Field for Multi-view Surface Reconstruction ( http://arxiv.org/abs/2108.09964v1 )

ライセンス: Link先を確認
Jingyang Zhang, Yao Yao, Long Quan(参考訳) 暗黙的神経表現に関する最近の研究は、多視点表面再構成に有望な結果を示している。 しかし、ほとんどのアプローチは比較的単純な幾何学に限られており、通常は複雑で凹凸な物体を再構成するためにきれいな物体マスクを必要とする。 本稿では,ステレオマッチングと特徴整合性の知識を活かし,暗黙的表面表現を最適化する新しい神経表面再構成フレームワークを提案する。 具体的には,サイン付き距離場(SDF)と表面光場をそれぞれ,シーン形状と外観を表すために適用する。 SDFはステレオマッチングから幾何学的に直接監督され、多視点特徴の一貫性とレンダリング画像の忠実度を最適化することにより洗練される。 本手法は,地形推定の堅牢性を向上し,複雑なシーントポロジの再構築を支援する。 DTU、EPFL、タンク、テンプルのデータセットに関する大規模な実験が行われた。 従来の最先端手法と比較して,マスキングを入力として使用せずに,広いオープンシーンでメッシュ再構成を実現する。

Recent works on implicit neural representations have shown promising results for multi-view surface reconstruction. However, most approaches are limited to relatively simple geometries and usually require clean object masks for reconstructing complex and concave objects. In this work, we introduce a novel neural surface reconstruction framework that leverages the knowledge of stereo matching and feature consistency to optimize the implicit surface representation. More specifically, we apply a signed distance field (SDF) and a surface light field to represent the scene geometry and appearance respectively. The SDF is directly supervised by geometry from stereo matching, and is refined by optimizing the multi-view feature consistency and the fidelity of rendered images. Our method is able to improve the robustness of geometry estimation and support reconstruction of complex scene topologies. Extensive experiments have been conducted on DTU, EPFL and Tanks and Temples datasets. Compared to previous state-of-the-art methods, our method achieves better mesh reconstruction in wide open scenes without masks as input.
翻訳日:2021-08-24 15:41:43 公開日:2021-08-23
# ぼやけ不変な動き推定と画素容積を用いたリカレントビデオデブラリング

Recurrent Video Deblurring with Blur-Invariant Motion Estimation and Pixel Volumes ( http://arxiv.org/abs/2108.09982v1 )

ライセンス: Link先を確認
Hyeongseok Son, Junyong Lee, Jonghyeop Lee, Sunghyun Cho, Seungyong Lee(参考訳) ビデオデブラリングの成功には,隣接するフレームからの情報を活用することが不可欠である。 最新のビデオデブラリング手法の多くは、ビデオフレーム間の動き補償を利用して、ターゲットフレームをデブラリングするのに役立つ複数のフレームから情報を集約する。 しかし、従来のデブロアリング法で採用した動き補償法はボケ不変ではなく、ボケ量が異なるボケフレームに対して精度が制限される。 この問題を軽減するために,複数のビデオフレームから情報を効果的に集約することで,映像を損なう2つの新しい手法を提案する。 まず,ボケフレーム間の動き推定精度を向上させるために,ボケ不変な動き推定学習を提案する。 第2に、動き補償では、推定された動きに干渉してフレームを整列する代わりに、候補シャープ画素を含む画素ボリュームを使用して、動き推定誤差を解消する。 これら2つのプロセスを組み合わせることで、従来のフレームの劣化をフル活用する効果的な繰り返しビデオデブロアリングネットワークを提案する。 実験により,本手法は,ディープラーニングを用いた最近の手法と比較して,定量的かつ質的に,最先端の性能を達成することが示された。

For the success of video deblurring, it is essential to utilize information from neighboring frames. Most state-of-the-art video deblurring methods adopt motion compensation between video frames to aggregate information from multiple frames that can help deblur a target frame. However, the motion compensation methods adopted by previous deblurring methods are not blur-invariant, and consequently, their accuracy is limited for blurry frames with different blur amounts. To alleviate this problem, we propose two novel approaches to deblur videos by effectively aggregating information from multiple video frames. First, we present blur-invariant motion estimation learning to improve motion estimation accuracy between blurry frames. Second, for motion compensation, instead of aligning frames by warping with estimated motions, we use a pixel volume that contains candidate sharp pixels to resolve motion estimation errors. We combine these two processes to propose an effective recurrent video deblurring network that fully exploits deblurred previous frames. Experiments show that our method achieves the state-of-the-art performance both quantitatively and qualitatively compared to recent methods that use deep learning.
翻訳日:2021-08-24 15:41:27 公開日:2021-08-23
# 医用画像分類作業における自己監督機能はどの程度可能か?

How Transferable Are Self-supervised Features in Medical Image Classification Tasks? ( http://arxiv.org/abs/2108.10048v1 )

ライセンス: Link先を確認
Tuan Truong, Sadegh Mohammadi, Matthias Lenga(参考訳) 転送学習は、医学分類タスクにおけるラベル付きデータの欠如を軽減するための標準的プラクティスとなっている。 教師付きイメージネット事前学習機能を用いた下流タスクの微調整は簡単であり,多くの研究で広く研究されているが,自己教師付き事前学習の有用性についてはほとんど研究されていない。 本稿では,3つの自己教師技術 (simclr, swav, dino) から初期化したモデルの性能を評価することにより,imagenetの自己教師付きプリトレーニングの伝達性を評価する。 選択された課題は, センチネル軸索リンパ節像における腫瘍検出, 底部画像における糖尿病網膜症分類, 胸部X線画像における複数の病態分類である。 本研究では, 自己教師付き事前学習モデルにより, 教師付きモデルよりもリッチな埋め込みが得られ, 線形評価と微調整の両面から下流タスクの恩恵を受けることを示す。 例えば、糖尿病性網膜症分類タスクにおけるkappaスコアの最大14.79%、腫瘍分類タスクにおけるaucの5.4%、肺炎検出における7.03%、胸部x線における病理状態の検出におけるaucの9.4%が改善されている。 さらに,複数のモデルから事前学習した埋め込みを融合するエンドツーエンドの移動学習手法として,動的ビジュアルメタ埋め込み(DVME)を導入する。 DVMEにより得られた集合表現は,1つの事前学習モデルを用いた場合と比較して,選択したタスクの性能が大幅に向上し,任意の事前学習モデルに一般化可能であることを示す。

Transfer learning has become a standard practice to mitigate the lack of labeled data in medical classification tasks. Whereas finetuning a downstream task using supervised ImageNet pretrained features is straightforward and extensively investigated in many works, there is little study on the usefulness of self-supervised pretraining. In this paper, we assess the transferability of ImageNet self-supervisedpretr aining by evaluating the performance of models initialized with pretrained features from three self-supervised techniques (SimCLR, SwAV, and DINO) on selected medical classification tasks. The chosen tasks cover tumor detection in sentinel axillary lymph node images, diabetic retinopathy classification in fundus images, and multiple pathological condition classification in chest X-ray images. We demonstrate that self-supervised pretrained models yield richer embeddings than their supervised counterpart, which benefits downstream tasks in view of both linear evaluation and finetuning. For example, in view of linear evaluation at acritically small subset of the data, we see an improvement up to 14.79% in Kappa score in the diabetic retinopathy classification task, 5.4% in AUC in the tumor classification task, 7.03% AUC in the pneumonia detection, and 9.4% in AUC in the detection of pathological conditions in chest X-ray. In addition, we introduce Dynamic Visual Meta-Embedding (DVME) as an end-to-end transfer learning approach that fuses pretrained embeddings from multiple models. We show that the collective representation obtained by DVME leads to a significant improvement in the performance of selected tasks compared to using a single pretrained model approach and can be generalized to any combination of pretrained models.
翻訳日:2021-08-24 15:41:08 公開日:2021-08-23
# ODAM: Posed RGB Video を用いたオブジェクト検出・アソシエーション・マッピング

ODAM: Object Detection, Association, and Mapping using Posed RGB Video ( http://arxiv.org/abs/2108.10165v1 )

ライセンス: Link先を確認
Kejie Li, Daniel DeTone, Steven Chen, Minh Vo, Ian Reid, Hamid Rezatofighi, Chris Sweeney, Julian Straub, Richard Newcombe(参考訳) 物体を3Dで局所化し、その範囲を推定することは、拡張現実とロボティクスに多くの応用がある高レベルの3Dシーン理解への重要なステップである。 ポーズ付きRGBビデオを用いた3次元物体検出・アソシエーション・マッピングシステムであるODAMについて述べる。 提案システムはディープラーニングのフロントエンドを用いて、与えられたRGBフレームから3Dオブジェクトを検出し、グラフニューラルネットワーク(GNN)を用いてそれらをグローバルなオブジェクトベースマップに関連付ける。 これらのフレームからモデルへの関係に基づいて、バックエンドは、マルチビューの幾何学的制約とオブジェクトスケールの前に、スーパークアドリックとして表現されるオブジェクトバウンディングボリュームを最適化します。 提案手法をScanNet上で検証し,既存のRGB法よりも大幅に改善したことを示す。

Localizing objects and estimating their extent in 3D is an important step towards high-level 3D scene understanding, which has many applications in Augmented Reality and Robotics. We present ODAM, a system for 3D Object Detection, Association, and Mapping using posed RGB videos. The proposed system relies on a deep learning front-end to detect 3D objects from a given RGB frame and associate them to a global object-based map using a graph neural network (GNN). Based on these frame-to-model associations, our back-end optimizes object bounding volumes, represented as super-quadrics, under multi-view geometry constraints and the object scale prior. We validate the proposed system on ScanNet where we show a significant improvement over existing RGB-only methods.
翻訳日:2021-08-24 15:40:40 公開日:2021-08-23
# インスタンス認識のためのバランス学習に向けて

Towards Balanced Learning for Instance Recognition ( http://arxiv.org/abs/2108.10175v1 )

ライセンス: Link先を確認
Jiangmiao Pang, Kai Chen, Qi Li, Zhihai Xu, Huajun Feng, Jianping Shi, Wanli Ouyang, Dahua Lin(参考訳) インスタンス認識は、様々な深い畳み込みニューラルネットワークの開発とともに急速に進歩している。 ネットワークのアーキテクチャと比較すると、検知器の成功に欠かせないトレーニングプロセスは、比較的注目を集めていない。 本研究は,検出器の標準訓練実践を再考し,通常,試料レベル,特徴レベル,目標レベルという3つのレベルから構成されるトレーニングプロセスにおいて,検出性能が不均衡によって制限されることが多かった。 そこで本研究では,インスタンス認識のためのバランスのとれた学習のための簡易かつ効果的なフレームワークであるlibra r-cnnを提案する。 IoUバランスのサンプリング、バランスの取れた特徴ピラミッド、および目的の再重み付けを統合し、サンプル、特徴、目的レベルの不均衡を軽減する。 ms coco、lvis、pascal vocデータセットを用いた広範な実験により、全体的なバランス設計の有効性が証明された。

Instance recognition is rapidly advanced along with the developments of various deep convolutional neural networks. Compared to the architectures of networks, the training process, which is also crucial to the success of detectors, has received relatively less attention. In this work, we carefully revisit the standard training practice of detectors, and find that the detection performance is often limited by the imbalance during the training process, which generally consists in three levels - sample level, feature level, and objective level. To mitigate the adverse effects caused thereby, we propose Libra R-CNN, a simple yet effective framework towards balanced learning for instance recognition. It integrates IoU-balanced sampling, balanced feature pyramid, and objective re-weighting, respectively for reducing the imbalance at sample, feature, and objective level. Extensive experiments conducted on MS COCO, LVIS and Pascal VOC datasets prove the effectiveness of the overall balanced design.
翻訳日:2021-08-24 15:40:25 公開日:2021-08-23
# LivDet 2021 Fingerprint Liveness Detection competition -- 未知の世界へ

LivDet 2021 Fingerprint Liveness Detection Competition -- Into the unknown ( http://arxiv.org/abs/2108.10183v1 )

ライセンス: Link先を確認
Roberto Casula, Marco Micheletto, Giulia Orr\`u, Rita Delussu, Sara Concas, Andrea Panzino, Gian Luca Marcialis(参考訳) 国際指紋活力検出コンペティション(international fingerprint liveness detection competition)は、指紋提示攻撃検出の進歩を評価・報告することを目的とした、学界や業界に開放された国際二年次コンペティションである。 提案した"Liveness Detection in Action"と"Fingerprint representation"は,検証システムに組み込まれたPADの影響と,モバイルアプリケーションにおける機能セットの有効性とコンパクト性を評価することを目的としている。 さらに, 最終結果に特に影響を与えた新しいspoof作製法を実験した。 LivDetが達成した最大数である23のアルゴリズムが競技会に提出された。

The International Fingerprint Liveness Detection Competition is an international biennial competition open to academia and industry with the aim to assess and report advances in Fingerprint Presentation Attack Detection. The proposed "Liveness Detection in Action" and "Fingerprint representation" challenges were aimed to evaluate the impact of a PAD embedded into a verification system, and the effectiveness and compactness of feature sets for mobile applications. Furthermore, we experimented a new spoof fabrication method that has particularly affected the final results. Twenty-three algorithms were submitted to the competition, the maximum number ever achieved by LivDet.
翻訳日:2021-08-24 15:40:10 公開日:2021-08-23
# vogtareuth rehab depth datasets:リハビリテーションにおけるマーカーレス姿勢推定ベンチマーク

Vogtareuth Rehab Depth Datasets: Benchmark for Marker-less Posture Estimation in Rehabilitation ( http://arxiv.org/abs/2108.10272v1 )

ライセンス: Link先を確認
Soubarna Banik, Alejandro Mendoza Garcia, Lorenz Kiwull, Steffen Berweck, and Alois Knoll(参考訳) 単一深度カメラを用いた姿勢推定はリハビリテーション運動の分析に有用である。 コンピュータビジョン研究における姿勢推定の最近の進歩は、大規模ポーズデータセットの可用性によって可能になっている。 しかし、リハビリテーション演習に関わる複雑な姿勢は、既存のベンチマーク深度データセットには示されていない。 そこで本研究では,リハビリテーション訓練を行う成人・小児の深度画像と2次元ポーズ情報を含む2つのリハビリテーション特有のポーズデータセットを提案する。 非リハビリテーションベンチマークデータセットでトレーニングされた最先端のマーカーレス姿勢推定モデルを用いる。 リハビリデータセットで評価し、パフォーマンスが非リハビリからリハビリに著しく低下していることを確認し、これらのデータセットの必要性を強調します。 当社のデータセットは,ポーズモデルのトレーニングと,リハビリに特有の複雑な姿勢の検出に使用することができる。 データセットは研究コミュニティの利益のためにリリースされる予定だ。

Posture estimation using a single depth camera has become a useful tool for analyzing movements in rehabilitation. Recent advances in posture estimation in computer vision research have been possible due to the availability of large-scale pose datasets. However, the complex postures involved in rehabilitation exercises are not represented in the existing benchmark depth datasets. To address this limitation, we propose two rehabilitation-speci fic pose datasets containing depth images and 2D pose information of patients, both adult and children, performing rehab exercises. We use a state-of-the-art marker-less posture estimation model which is trained on a non-rehab benchmark dataset. We evaluate it on our rehab datasets, and observe that the performance degrades significantly from non-rehab to rehab, highlighting the need for these datasets. We show that our dataset can be used to train pose models to detect rehab-specific complex postures. The datasets will be released for the benefit of the research community.
翻訳日:2021-08-24 15:39:55 公開日:2021-08-23
# PW-MAD:汎用顔形態検出のための画素ワイズスーパービジョン

PW-MAD: Pixel-wise Supervision for Generalized Face Morphing Attack Detection ( http://arxiv.org/abs/2108.10291v1 )

ライセンス: Link先を確認
Naser Damer, Noemie Spiller, Meiling Fang, Fadi Boutros, Florian Kirchbuchner and Arjan Kuijper(参考訳) フェイスモーフィング攻撃画像は複数のidに対して検証することができ、この攻撃は境界チェックのようなアイデンティティ検証に基づくプロセスにとって大きな脆弱性となる。 しかし、顔の変形を検知する様々な方法が提案されているが、予期せぬ後変態過程への一般化性は低い。 主要なポストモーフィングプロセスは、パスポートやID文書を発行する際、多くの国で実施される印刷およびスキャン操作である。 本研究では,画像全体のラベルを1つだけ持つのではなく,トレーニングプロセス中に,画像の各ピクセルを攻撃に分類するネットワークを訓練する,画素単位の監視アプローチを適用することで,この一般化問題に対処する。 我々のPW-MAD(Pixel-wise morphing attack Detection)ソリューションは、確立されたベースラインのセットよりも精度が高い。 さらに, 本手法は, 未知の再帰攻撃に対する評価において, 関連する作業と比較して高い一般化性を示す。 当社のPW-MADアプローチに加えて、デジタルおよび再デジタル化された攻撃とボナファイドサンプルを備えた新たな顔変形攻撃データセット、すなわち、研究目的で公開されるLMA-DRDデータセットを作成しています。

A face morphing attack image can be verified to multiple identities, making this attack a major vulnerability to processes based on identity verification, such as border checks. Different methods have been proposed to detect face morphing attacks, however, with low generalizability to unexpected post-morphing processes. A major post-morphing process is the print and scan operation performed in many countries when issuing a passport or identity document. In this work, we address this generalization problem by adapting a pixel-wise supervision approach where we train a network to classify each pixel of the image into an attack or not during the training process, rather than only having one label for the whole image. Our pixel-wise morphing attack detection (PW-MAD) solution performs more accurately than a set of established baselines. More importantly, our approach shows high generalizability in comparison to related works, when evaluated on unknown re-digitized attacks. Additionally to our PW-MAD approach, we create a new face morphing attack dataset with digital and re-digitized attacks and bona fide samples, namely the LMA-DRD dataset that will be made publicly available for research purposes.
翻訳日:2021-08-24 15:39:40 公開日:2021-08-23
# ラベルなし新環境におけるランキングモデル

Ranking Models in Unlabeled New Environments ( http://arxiv.org/abs/2108.10310v1 )

ライセンス: Link先を確認
Xiaoxiao Sun, Yunzhong Hou, Weijian Deng, Hongdong Li, Liang Zheng(参考訳) 特定のソースドメインでトレーニングされた多数の既用モデルが提供され、モデルの相対的なパフォーマンスに基づいて、最も適切なモデルを異なるターゲットドメインに直接適用したいと考えるシナリオを考えてみましょう。 理想的には、新しいターゲット環境ごとにモデルパフォーマンス評価のためのバリデーションセットをアノテートする必要がありますが、こうしたアノテーションは、しばしば非常に高価です。 この状況下では,ラベルなしの新環境におけるランキングモデルの問題を紹介する。 本研究では,1)完全にラベル付けされたプロキシデータセットを採用し,2)所定のターゲット環境における真のモデルランキングをよく反映し,プロキシセットのパフォーマンスランキングをサロゲートとして使用することを提案する。 まず、ラベル付きデータセットをプロキシとして選択します。 特に、ラベルなしのターゲットドメインにもっと近いデータセットは、相対的なパフォーマンスランキングをよりよく保存できる。 そこで本研究では,ターゲットと類似した分布を持つ様々なデータセットから画像のサンプリングにより,プロキシセットを探索することを提案する。 十分なデータセットが公開されている人物再識別(re-id)タスクに関する問題とその解決策を分析し、注意深く構築されたプロキシセットが、新しい環境での相対的なパフォーマンスランキングを効果的に取得することを示す。 コードは \url{https://github.com/s xzrt/Proxy-Set} で入手できる。

Consider a scenario where we are supplied with a number of ready-to-use models trained on a certain source domain and hope to directly apply the most appropriate ones to different target domains based on the models' relative performance. Ideally we should annotate a validation set for model performance assessment on each new target environment, but such annotations are often very expensive. Under this circumstance, we introduce the problem of ranking models in unlabeled new environments. For this problem, we propose to adopt a proxy dataset that 1) is fully labeled and 2) well reflects the true model rankings in a given target environment, and use the performance rankings on the proxy sets as surrogates. We first select labeled datasets as the proxy. Specifically, datasets that are more similar to the unlabeled target domain are found to better preserve the relative performance rankings. Motivated by this, we further propose to search the proxy set by sampling images from various datasets that have similar distributions as the target. We analyze the problem and its solutions on the person re-identification (re-ID) task, for which sufficient datasets are publicly available, and show that a carefully constructed proxy set effectively captures relative performance ranking in new environments. Code is available at \url{https://github.com/s xzrt/Proxy-Set}.
翻訳日:2021-08-24 15:39:18 公開日:2021-08-23
# 自律運転のための簡易な3次元多物体追跡

Exploring Simple 3D Multi-Object Tracking for Autonomous Driving ( http://arxiv.org/abs/2108.10312v1 )

ライセンス: Link先を確認
Chenxu Luo, Xiaodong Yang, Alan Yuille(参考訳) lidar point cloudの3dマルチオブジェクトトラッキングは、自動運転車にとって重要な要素だ。 既存の手法は主に追跡・検出パイプラインに基づいており、検出関連のために必然的にヒューリスティックマッチングステップを必要とする。 本稿では,手作りの追跡パラダイムを簡素化するために,原点雲からの共同検出と追跡のためのエンドツーエンドのトレーニング可能なモデルを提案する。 我々のキーとなる設計は、与えられたスニペット内の各オブジェクトの最初の位置を予測し、トラッキングIDを取得し、その位置をモーション推定に基づいて更新することである。 推測において、ヒューリスティックマッチングステップは、単純な読み出し操作により完全に放棄することができる。 SimTrackは、追跡対象関連、新しく生まれたオブジェクト検出、デッドトラックキラーを単一の統一モデルに統合する。 我々は、nuScenesとWaymo Open Datasetの2つの大規模データセットに対して広範な評価を行う。 実験の結果,提案手法はヒューリスティックマッチングルールを除外しつつ,最先端手法と好適に比較できることがわかった。

3D multi-object tracking in LiDAR point clouds is a key ingredient for self-driving vehicles. Existing methods are predominantly based on the tracking-by-detectio n pipeline and inevitably require a heuristic matching step for the detection association. In this paper, we present SimTrack to simplify the hand-crafted tracking paradigm by proposing an end-to-end trainable model for joint detection and tracking from raw point clouds. Our key design is to predict the first-appear location of each object in a given snippet to get the tracking identity and then update the location based on motion estimation. In the inference, the heuristic matching step can be completely waived by a simple read-off operation. SimTrack integrates the tracked object association, newborn object detection, and dead track killing in a single unified model. We conduct extensive evaluations on two large-scale datasets: nuScenes and Waymo Open Dataset. Experimental results reveal that our simple approach compares favorably with the state-of-the-art methods while ruling out the heuristic matching rules.
翻訳日:2021-08-24 15:38:58 公開日:2021-08-23
# 入射発電機による明示的識別器の分布脆弱性の解明

Revealing Distributional Vulnerability of Explicit Discriminators by Implicit Generators ( http://arxiv.org/abs/2108.09976v1 )

ライセンス: Link先を確認
Zhilin Zhao and Longbing Cao and Kun-Yu Lin(参考訳) 観測可能な分布内分布(ID)サンプルをトレーニングした明示的識別器は、分布の脆弱性により、分布外分布(OOD)サンプルに対して高い信頼度を予測できる。 これは主に、OODサンプルが利用できない場合に、識別器を訓練するための限定的なIDサンプルが原因である。 この問題に対処するため,最先端手法では,データやネットワーク特性を考慮せず,一般的な仮定によって生成されたoodサンプルを用いて判別器を訓練する。 しかし、異なるネットワークアーキテクチャとトレーニングIDデータセットは多様な脆弱性を引き起こす可能性があるため、生成されたOODサンプルは通常、明示的な識別器の特定の分散脆弱性を誤る。 分布的脆弱性を解明し,パッチを当てるために,暗黙的生成器(fig)による識別法を新たに提案する。 シャノンエントロピーによれば、明示的な判別器は対応する暗黙的生成器を構成でき、余分な訓練コストなしで特定のoodサンプルを生成することができる。 次に、Langevin Dynamic samplerがジェネレータから高品質なOODサンプルを描画して脆弱性を明らかにする。 最後に、暗黙発生器の設計原理に基づいて構築された正規化器は、高エントロピーで生成されたOODサンプルを奨励することにより、分布上の脆弱性をパッチする。 4つのネットワーク,4つのIDデータセット,7つのOODデータセットに対する実験により,FIGが最先端のOOD検出性能を実現し,競争力のある分類能力を維持することを示す。

An explicit discriminator trained on observable in-distribution (ID) samples can make high-confidence prediction on out-of-distribution (OOD) samples due to its distributional vulnerability. This is primarily caused by the limited ID samples observable for training discriminators when OOD samples are unavailable. To address this issue, the state-of-the-art methods train the discriminator with OOD samples generated by general assumptions without considering the data and network characteristics. However, different network architectures and training ID datasets may cause diverse vulnerabilities, and the generated OOD samples thus usually misaddress the specific distributional vulnerability of the explicit discriminator. To reveal and patch the distributional vulnerabilities, we propose a novel method of \textit{fine-tuning explicit discriminators by implicit generators} (FIG). According to the Shannon entropy, an explicit discriminator can construct its corresponding implicit generator to generate specific OOD samples without extra training costs. A Langevin Dynamic sampler then draws high-quality OOD samples from the generator to reveal the vulnerability. Finally, a regularizer, constructed according to the design principle of the implicit generator, patches the distributional vulnerability by encouraging those generated OOD samples with high entropy. Our experiments on four networks, four ID datasets and seven OOD datasets demonstrate that FIG achieves state-of-the-art OOD detection performance and maintains a competitive classification capability.
翻訳日:2021-08-24 15:36:45 公開日:2021-08-23
# グラフ上の相対エントロピー規則化された最適輸送:新しいアルゴリズムと実験的比較

Relative Entropy-Regularized Optimal Transport on a Graph: a new algorithm and an experimental comparison ( http://arxiv.org/abs/2108.10004v1 )

ライセンス: Link先を確認
Sylvain Courtain, Guillaume Guex, Ilkka Kivimaki and Marco Saerens(参考訳) 本研究は, [21, 23] に続いて, ランダム化最短経路形式におけるグラフ問題の最適トランスポートを解くための, 新しい相対エントロピー正規化アルゴリズムについて検討する。 より正確には、単位フローを入力ノードの集合に注入し、期待輸送コストをパス相対エントロピー正規化項とともに最小化し、ランダム化されたルーティングポリシーを提供する。 この新しい定式化の主な利点は、実世界の問題でよく発生するエッジフローのキャパシティの制約に容易に対応できることである。 結果として得られる最適ルーティングポリシー、すなわち、各ノードのエッジに従う確率分布はマルコビアンであり、[8]で開発されたアルゴリズムの変種により入力と出力が所定の限界確率に制限されることで計算される。 さらに,最近開発された他の手法との比較により,導入したモデルから導出したノード間の距離測定により,半教師付き分類タスクにおいて競合する結果が得られた。

Following [21, 23], the present work investigates a new relative entropy-regularized algorithm for solving the optimal transport on a graph problem within the randomized shortest paths formalism. More precisely, a unit flow is injected into a set of input nodes and collected from a set of output nodes while minimizing the expected transportation cost together with a paths relative entropy regularization term, providing a randomized routing policy. The main advantage of this new formulation is the fact that it can easily accommodate edge flow capacity constraints which commonly occur in real-world problems. The resulting optimal routing policy, i.e., the probability distribution of following an edge in each node, is Markovian and is computed by constraining the input and output flows to the prescribed marginal probabilities thanks to a variant of the algorithm developed in [8]. Besides, experimental comparisons with other recently developed techniques show that the distance measure between nodes derived from the introduced model provides competitive results on semi-supervised classification tasks.
翻訳日:2021-08-24 15:36:21 公開日:2021-08-23
# グラフ注意多層パーセプトロン

Graph Attention Multi-Layer Perceptron ( http://arxiv.org/abs/2108.10097v1 )

ライセンス: Link先を確認
Wentao Zhang, Ziqi Yin, Zeang Sheng, Wen Ouyang, Xiaosen Li, Yangyu Tao, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は、最近、多くのグラフベースのアプリケーションで最先端のパフォーマンスを達成した。 高い表現力にもかかわらず、彼らは通常、複数の訓練エポックで高価な再帰的な近隣拡張を実行し、スケーラビリティの問題に直面します。 さらに、それらの多くは固定ホップ近傍に制限されており、異なるノードに対する実際の受容野要求に敏感であるため、柔軟性がない。 スケーラブルでフレキシブルなグラフ注意多層パーセプトロン(GAMLP)を導入することで、これらの制限を回避する。 非線形変換と特徴伝播の分離により、gamlpは予め計算した方法で伝播手順を実行することでスケーラビリティと効率を大幅に向上させる。 GAMLPの各ノードは3つの原則による受容野の注意によって柔軟で適応的であり、受信野の異なる大きさに伝播する特徴を利用する。 我々は,3つの大規模オープングラフベンチマーク(ogbn-papers100M,ogb n-products,ogbn-mag) について広範な評価を行い,GAMLPが最先端の性能を達成するだけでなく,高いスケーラビリティと効率を提供することを示した。

Graph neural networks (GNNs) have recently achieved state-of-the-art performance in many graph-based applications. Despite the high expressive power, they typically need to perform an expensive recursive neighborhood expansion in multiple training epochs and face a scalability issue. Moreover, most of them are inflexible since they are restricted to fixed-hop neighborhoods and insensitive to actual receptive field demands for different nodes. We circumvent these limitations by introducing a scalable and flexible Graph Attention Multilayer Perceptron (GAMLP). With the separation of the non-linear transformation and feature propagation, GAMLP significantly improves the scalability and efficiency by performing the propagation procedure in a pre-compute manner. With three principled receptive field attention, each node in GAMLP is flexible and adaptive in leveraging the propagated features over the different sizes of reception field. We conduct extensive evaluations on the three large open graph benchmarks (e.g., ogbn-papers100M, ogbn-products and ogbn-mag), demonstrating that GAMLP not only achieves the state-of-art performance, but also additionally provide high scalability and efficiency.
翻訳日:2021-08-24 15:36:02 公開日:2021-08-23
# Collect & Infer -- データ効率のよい強化学習を新たに検討

Collect & Infer -- a fresh look at data-efficient Reinforcement Learning ( http://arxiv.org/abs/2108.10273v1 )

ライセンス: Link先を確認
Martin Riedmiller, Jost Tobias Springenberg, Roland Hafner, Nicolas Heess(参考訳) 本稿では,データ効率の観点から強化学習(rl)を新たに見ることを提案する。 データ効率のよいRLは3つの主要な段階を経てきた: 純粋なオンラインRL: すべてのデータポイントが1回だけ考慮される、RL: 経験の一部で追加の学習を行うリプレイバッファ、最後にトランジションメモリベースのRL: 概念的には、すべてのトランジションがすべての更新ステップに格納され、再使用される。 明示的に記憶されたすべての経験から知識を推測することは、データ効率の大幅な向上につながるが、このデータがどのように収集されるかという問題は、非常に未検討である。 データ効率は両面を慎重に検討することでのみ達成できると我々は主張する。 我々は,この知見を,データ収集と知識推論の2つのプロセスとしてRLを明示的にモデル化する,「収集と推論」と呼ばれるパラダイムを通じて明確にすることを提案する。 本稿では、このパラダイムの意義、その考え方が文献にどのように反映されているか、そしてデータ効率のよいRLに関する今後の研究を導く方法について論じる。

This position paper proposes a fresh look at Reinforcement Learning (RL) from the perspective of data-efficiency. Data-efficient RL has gone through three major stages: pure on-line RL where every data-point is considered only once, RL with a replay buffer where additional learning is done on a portion of the experience, and finally transition memory based RL, where, conceptually, all transitions are stored and re-used in every update step. While inferring knowledge from all explicitly stored experience has lead to a tremendous gain in data-efficiency, the question of how this data is collected has been vastly understudied. We argue that data-efficiency can only be achieved through careful consideration of both aspects. We propose to make this insight explicit via a paradigm that we call 'Collect and Infer', which explicitly models RL as two separate but interconnected processes, concerned with data collection and knowledge inference respectively. We discuss implications of the paradigm, how its ideas are reflected in the literature, and how it can guide future research into data efficient RL.
翻訳日:2021-08-24 15:35:41 公開日:2021-08-23
# c5t5:トランスフォーマーによる有機分子の制御可能な生成

C5T5: Controllable Generation of Organic Molecules with Transformers ( http://arxiv.org/abs/2108.10307v1 )

ライセンス: Link先を確認
Daniel Rothchild, Alex Tamkin, Julie Yu, Ujval Misra, Joseph Gonzalez(参考訳) 望ましい性質を持つ有機材料を設計する方法は、医学、再生可能エネルギー、石油化学工学、農業などの分野に高い影響を与える。 しかし、候補化合物は、合成アクセシビリティやその他のドメインの専門家にとって直感的だが定量化が難しいメトリクスを含む、複数の制約を満たす必要があるため、望ましい特性を持つ物質を設計するために生成モデリングを使用することは困難である。 C5T5は、トランスフォーマーがゼロショット選択置換編集を可能とし、有機物を所望のプロパティ値に変化させる、新しい自己教師型事前学習法である。 C5T5はIUPACの名前で運営されており、有機化学者の豊富な構造情報を直感的にコード化しているが、MLコミュニティからは無視されている。 本手法では, 合成分子対を必要とせず, 分子特性を大まかに見積もるだけで, 長距離依存性や対称分子構造をグラフ法よりも容易にモデル化することができる。 C5T5はまた、ドメインエキスパートに強力なインターフェースを提供する: IUPAC名フラグメントを選択して置き換えることで、ユーザが生成プロセスのきめ細かい制御を許可する。 薬物発見に関連する4つの物理特性に対するC5T5の有効性を実証し,分子を望ましい性質値に変化させるための化学的に直感的な戦略を学習することを示した。

Methods for designing organic materials with desired properties have high potential impact across fields such as medicine, renewable energy, petrochemical engineering, and agriculture. However, using generative modeling to design substances with desired properties is difficult because candidate compounds must satisfy multiple constraints, including synthetic accessibility and other metrics that are intuitive to domain experts but challenging to quantify. We propose C5T5, a novel self-supervised pretraining method that enables transformers to make zero-shot select-and-replace edits, altering organic substances towards desired property values. C5T5 operates on IUPAC names -- a standardized molecular representation that intuitively encodes rich structural information for organic chemists but that has been largely ignored by the ML community. Our technique requires no edited molecule pairs to train and only a rough estimate of molecular properties, and it has the potential to model long-range dependencies and symmetric molecular structures more easily than graph-based methods. C5T5 also provides a powerful interface to domain experts: it grants users fine-grained control over the generative process by selecting and replacing IUPAC name fragments, which enables experts to leverage their intuitions about structure-activity relationships. We demonstrate C5T5's effectiveness on four physical properties relevant for drug discovery, showing that it learns successful and chemically intuitive strategies for altering molecules towards desired property values.
翻訳日:2021-08-24 15:35:20 公開日:2021-08-23
# 数個の勾配量子化器の速度歪み比較

Rate distortion comparison of a few gradient quantizers ( http://arxiv.org/abs/2108.09899v1 )

ライセンス: Link先を確認
Tharindu Adikari(参考訳) この記事では勾配圧縮の文脈について述べる。 勾配圧縮は、確率勾配勾配のような勾配に基づく手法を用いて、大規模機械学習モデルを分散的に訓練する際に発生する通信ボトルネックを緩和する一般的な手法である。 本稿では,勾配成分のガウス分布を仮定して,スケールドサインやtop-kのような勾配量子化スキームのレート歪みトレードオフを見出し,シャノンレート歪み限界と比較する。 ベクトル量化器との類似した比較も示す。

This article is in the context of gradient compression. Gradient compression is a popular technique for mitigating the communication bottleneck observed when training large machine learning models in a distributed manner using gradient-based methods such as stochastic gradient descent. In this article, assuming a Gaussian distribution for the components in gradient, we find the rate distortion trade-off of gradient quantization schemes such as Scaled-sign and Top-K, and compare with the Shannon rate distortion limit. A similar comparison with vector quantizers also is presented.
翻訳日:2021-08-24 15:34:01 公開日:2021-08-23
# オンラインレポートに基づく慢性痛経験の分析:RRCPデータセット

Analysis of Chronic Pain Experiences Based on Online Reports: the RRCP Dataset ( http://arxiv.org/abs/2108.10218v1 )

ライセンス: Link先を確認
Diogo A.P. Nunes, David Martins de Matos, Joana Ferreira Gomes, Fani Neto(参考訳) 慢性的な痛みは主要な健康問題として認識され、経済的、社会的、個人のレベルに影響を及ぼす。 個人的かつ主観的な経験であり、被験者の過去の経験、社会文化的埋め込み、および感情的および心理的負荷を含む複雑な認知過程に依存するため、慢性的な痛みを純粋に不安的な刺激として外的かつ公平に経験し、説明し、解釈することは不可能である。 したがって、言語コミュニケーションは、外部のエンティティにアクセスできない健康専門家に関連情報を伝達する鍵となる。 具体的には、慢性的な痛みに苦しむ患者が経験から説明し、その情報がどのように開示されるかによって、患者固有の性質と痛み自体の経験が明らかになる。 本稿では,ソーシャルメディアによる慢性痛経験のテキスト記述と,各種の慢性痛経験の議論を含むReddit Reports of chronic Pain (RRCP)データセットについて報告する。 各病理学において、その慢性的な痛みの連続した経験から生じる主な懸念を、それに関連する文書のサブセットで表されるように特定する。 これは潜在空間における文書クラスタリングによって得られる。 コサインの類似性により、異なる病理のどの懸念が痛みの全ての経験の中核であり、特定の形態に排他的であるかを決定する。 最後に, 慢性痛に関する記述の教師なし意味分析は, 慢性痛経験における病態の相違について臨床研究を反映している。

Chronic pain is recognized as a major health problem, with impacts at the economic, social, and individual levels. Being a private and subjective experience, dependent on a complex cognitive process involving the subject's past experiences, sociocultural embeddedness, as well as emotional and psychological loads, it is impossible to externally and impartially experience, describe, and interpret chronic pain as a purely noxious stimulus that would directly point to a causal agent and facilitate its mitigation. Verbal communication is, thus, key to convey relevant information to health professionals that would otherwise not be accessible to external entities. Specifically, what a patient suffering of chronic pain describes from the experience and how this information is disclosed reveals intrinsic qualities about the patient and the experience of pain itself. We present the Reddit Reports of Chronic Pain (RRCP) dataset, which comprises social media textual descriptions and discussion of various forms of chronic pain experiences, as reported from the perspective of different base pathologies. For each pathology, we identify the main concerns emergent of its consequent experience of chronic pain, as represented by the subset of documents explicitly related to it. This is obtained via document clustering in the latent space. By means of cosine similarity, we determine which concerns of different pathologies are core to all experiences of pain, and which are exclusive to certain forms. Finally, we argue that our unsupervised semantic analysis of descriptions of chronic pain echoes clinical research on how different pathologies manifest in terms of the chronic pain experience.
翻訳日:2021-08-24 15:33:52 公開日:2021-08-23
# 連続最適化問題としての制約付き外部エージェントによるネットワーク制御

Network control by a constrained external agent as a continuous optimization problem ( http://arxiv.org/abs/2108.10298v1 )

ライセンス: Link先を確認
Jannes Nys, Milan van den Heuvel, Koen Schoors, Bruno Merlevede(参考訳) ネットワークにおける制御を扱う社会科学研究は、通常、ヒューリスティックスや静的制御分布を記述する。 しかし、最適政策は、現実の制約を受ける社会経済ネットワークの制御を最適化する介入を必要とする。 我々は、ディープラーニングとネットワーク科学の最適化ツールを、現実世界のネットワークにおけるそのような介入を最適化できるフレームワークに統合する。 我々は、戦略上重要な企業ネットワークの脆弱性を、重要な同時的政策課題であるセンシティブな買収に特徴付けることができる、企業制御の文脈でこの枠組みを実証する。 このフレームワークは、現実世界の社会経済ネットワークを管理するための洞察を生み出し、このような複雑なシステムの理解と制御を改善するための新しい研究道を開く。

Social science studies dealing with control in networks typically resort to heuristics or describing the static control distribution. Optimal policies, however, require interventions that optimize control over a socioeconomic network subject to real-world constraints. We integrate optimisation tools from deep-learning with network science into a framework that is able to optimize such interventions in real-world networks. We demonstrate the framework in the context of corporate control, where it allows to characterize the vulnerability of strategically important corporate networks to sensitive takeovers, an important contemporaneous policy challenge. The framework produces insights that are relevant for governing real-world socioeconomic networks, and opens up new research avenues for improving our understanding and control of such complex systems.
翻訳日:2021-08-24 15:33:25 公開日:2021-08-23
# 光制約構造-運動からのバーストイメージング

Burst Imaging for Light-Constrained Structure-From-Motio n ( http://arxiv.org/abs/2108.09895v1 )

ライセンス: Link先を確認
Ahalya Ravendran, Mitch Bryson, Donald G. Dansereau(参考訳) 極めて低い光条件下で撮影された画像はノイズが限られており、既存のロボットビジョンアルゴリズムが失敗する可能性がある。 本稿では,低光度で取得した画像から3次元再構成を支援する画像処理手法を提案する。 本手法は,バースト写真に基づく短時間露光画像のバースト内画像の直接登録手法を用いて,特徴量に基づく構造移動(SfM)の堅牢性と精度を向上させる。 我々は,撮影シーンにおけるSfMの性能向上を実証し,性能改善とカメラポーズ推定の定量的評価を行った。 さらに,本手法は,最先端技術よりも正確な復元によく収束することを示す。 本手法は,地下地雷や夜間運転などの環境で動作するロボットに応用可能な,低照度環境下でのロボットの動作を可能にするための重要なステップである。

Images captured under extremely low light conditions are noise-limited, which can cause existing robotic vision algorithms to fail. In this paper we develop an image processing technique for aiding 3D reconstruction from images acquired in low light conditions. Our technique, based on burst photography, uses direct methods for image registration within bursts of short exposure time images to improve the robustness and accuracy of feature-based structure-from-motio n (SfM). We demonstrate improved SfM performance in challenging light-constrained scenes, including quantitative evaluations that show improved feature performance and camera pose estimates. Additionally, we show that our method converges more frequently to correct reconstructions than the state-of-the-art. Our method is a significant step towards allowing robots to operate in low light conditions, with potential applications to robots operating in environments such as underground mines and night time operation.
翻訳日:2021-08-24 15:31:28 公開日:2021-08-23
# 知識蒸留に基づく効率的な医用画像分割

Efficient Medical Image Segmentation Based on Knowledge Distillation ( http://arxiv.org/abs/2108.09987v1 )

ライセンス: Link先を確認
Dian Qin, Jiajun Bu, Zhe Liu, Xin Shen, Sheng Zhou, Jingjun Gu, Zhijua Wang, Lei Wu, Huifen Dai(参考訳) 近年,医用画像分割問題に対するより正確な予測結果を得るために畳み込みニューラルネットワークを適用している。 しかし,既存の手法の成功は,現実のシナリオでは実現不可能な膨大な計算複雑性と大規模ストレージに大きく依存している。 この問題に対処するために、医用画像分割ネットワークから知識を抽出し、別の軽量ネットワークを訓練することで効率的なアーキテクチャを提案する。 このアーキテクチャにより、軽量ネットワークは、実行効率を維持しながらセグメンテーション能力を大幅に改善することができる。 さらに,教師から学生ネットワークへ意味領域情報を伝達するために,医用画像セグメンテーションに適した新しい蒸留モジュールを考案する。 学生ネットワークは、異なる組織領域から計算された表現の差の程度を模倣するよう強制する。 このモジュールは、医療画像を扱う際に発生する曖昧な境界問題を避け、代わりに各意味領域の内部情報をエンコードして転送する。 モジュールから恩恵を受けた軽量ネットワークは、推論フェーズでの可搬性を維持しながら、実験で最大32.6%の改善を受けることができた。 この構造は、広く受け入れられている2つの公共CTデータセットLiTS17とKiTS19で検証されている。 提案手法により蒸留した軽量ネットワークは, 比較的高い動作速度とストレージ使用量を必要とするシナリオにおいて, 無視できない価値を有することを実証する。

Recent advances have been made in applying convolutional neural networks to achieve more precise prediction results for medical image segmentation problems. However, the success of existing methods has highly relied on huge computational complexity and massive storage, which is impractical in the real-world scenario. To deal with this problem, we propose an efficient architecture by distilling knowledge from well-trained medical image segmentation networks to train another lightweight network. This architecture empowers the lightweight network to get a significant improvement on segmentation capability while retaining its runtime efficiency. We further devise a novel distillation module tailored for medical image segmentation to transfer semantic region information from teacher to student network. It forces the student network to mimic the extent of difference of representations calculated from different tissue regions. This module avoids the ambiguous boundary problem encountered when dealing with medical imaging but instead encodes the internal information of each semantic region for transferring. Benefited from our module, the lightweight network could receive an improvement of up to 32.6% in our experiment while maintaining its portability in the inference phase. The entire structure has been verified on two widely accepted public CT datasets LiTS17 and KiTS19. We demonstrate that a lightweight network distilled by our method has non-negligible value in the scenario which requires relatively high operating speed and low storage usage.
翻訳日:2021-08-24 15:31:11 公開日:2021-08-23
# ZS-SLR:RGB-Dビデオからのゼロショット手話認識

ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos ( http://arxiv.org/abs/2108.10059v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera(参考訳) 手話認識(SLR)はコンピュータビジョンにおいて難しい研究分野である。 SLRにおけるアノテーションボトルネックに対処するため、ZES-SLR(Zero-Shot Sign Language Recognition)の問題を定式化し、RGBとDepthの2つの入力モードから2ストリームモデルを提案する。 視覚トランスフォーマビリティの恩恵を受けるために,人間検出と視覚特徴表現の2つの視覚トランスフォーマモデルを用いた。 トランスフォーマエンコーダ-デコーダアーキテクチャを高速かつ高精度な人間検出モデルとして構成し,現在の人間検出モデルの課題を克服する。 人間のキーポイントを考えると、検出された人体は9つの部分に分けられる。 視覚変換器とLSTMネットワークを用いて人体からの時空間表現を得る。 セマンティックスペースは、トランスフォーマー(BERT)モデルによる双方向エンコーダ表現を通じて、クラスラベルの言語埋め込みに視覚的特徴をマッピングする。 提案手法をモンタルバーノII, MSR Daily Activity 3D, CAD-60, NTU-60の4つのデータセットで評価し, 最先端のZS-SLRモデルと比較した。

Sign Language Recognition (SLR) is a challenging research area in computer vision. To tackle the annotation bottleneck in SLR, we formulate the problem of Zero-Shot Sign Language Recognition (ZS-SLR) and propose a two-stream model from two input modalities: RGB and Depth videos. To benefit from the vision Transformer capabilities, we use two vision Transformer models, for human detection and visual features representation. We configure a transformer encoder-decoder architecture, as a fast and accurate human detection model, to overcome the challenges of the current human detection models. Considering the human keypoints, the detected human body is segmented into nine parts. A spatio-temporal representation from human body is obtained using a vision Transformer and a LSTM network. A semantic space maps the visual features to the lingual embedding of the class labels via a Bidirectional Encoder Representations from Transformers (BERT) model. We evaluated the proposed model on four datasets, Montalbano II, MSR Daily Activity 3D, CAD-60, and NTU-60, obtaining state-of-the-art results compared to state-of-the-art ZS-SLR models.
翻訳日:2021-08-24 15:30:50 公開日:2021-08-23
# 2次元注意を有する多型潜時ベクトルによる画像再構成のための適応ganエンコーダ

Adaptable GAN Encoders for Image Reconstruction via Multi-type Latent Vectors with Two-scale Attentions ( http://arxiv.org/abs/2108.10201v1 )

ライセンス: Link先を確認
Cheng Yu, Wenmin Wang(参考訳) 現在のGAN(Deep Generative Adversarial Network)は高品質な(HQ)画像を合成できるが、画像再構成のための新しいGANエンコーダの発見は依然として好ましい。 遅延空間にイメージを埋め込む場合、既存のGANエンコーダは(人間の顔のような)整列画像に対してうまく機能するが、より一般化されたGANには適応しない。 我々の知る限り、現在最先端のGANエンコーダは、異なるGAN上のほとんどの本社構内合成画像から高忠実度画像を再構成する適切なエンコーダを持っていない。 パフォーマンスは限定的であり、特に非アライメントや実画像では顕著である。 このような問題に対処する新しい手法(MTV-TSA)を提案する。 潜時空間からマルチタイプ潜時ベクトル(mtv)を作成し、画像から2スケールの注意(tsa)を作成することで、様々な訓練済みganに適応可能なエンコーダセットを設計することができる。 2組の損失関数を一般化してエンコーダを最適化する。 設計されたエンコーダは、ganが合成されたほとんどのhq画像から高い忠実度画像を再構成する。 さらに,提案手法は実画像の再構成をうまく行い,学習属性の方向に基づいて処理することができる。 設計されたエンコーダは、統一された畳み込みブロックを持ち、対応する正規化層と最後のブロックを微調整することで、現在のGANアーキテクチャ(PGGAN、StyleGAN、BigGANなど)によく適合する。 このようなよく設計されたエンコーダは、より迅速に収束するように訓練することもできる。

Although current deep generative adversarial networks (GANs) could synthesize high-quality (HQ) images, discovering novel GAN encoders for image reconstruction is still favorable. When embedding images to latent space, existing GAN encoders work well for aligned images (such as the human face), but they do not adapt to more generalized GANs. To our knowledge, current state-of-the-art GAN encoders do not have a proper encoder to reconstruct high-fidelity images from most misaligned HQ synthesized images on different GANs. Their performances are limited, especially on non-aligned and real images. We propose a novel method (named MTV-TSA) to handle such problems. Creating multi-type latent vectors (MTV) from latent space and two-scale attentions (TSA) from images allows designing a set of encoders that can be adaptable to a variety of pre-trained GANs. We generalize two sets of loss functions to optimize the encoders. The designed encoders could make GANs reconstruct higher fidelity images from most synthesized HQ images. In addition, the proposed method can reconstruct real images well and process them based on learned attribute directions. The designed encoders have unified convolutional blocks and could match well in current GAN architectures (such as PGGAN, StyleGANs, and BigGAN) by fine-tuning the corresponding normalization layers and the last block. Such well-designed encoders can also be trained to converge more quickly.
翻訳日:2021-08-24 15:30:26 公開日:2021-08-23
# SwinIR: Swin Transformer を用いた画像復元

SwinIR: Image Restoration Using Swin Transformer ( http://arxiv.org/abs/2108.10257v1 )

ライセンス: Link先を確認
Jingyun Liang, Jiezhang Cao, Guolei Sun, Kai Zhang, Luc Van Gool, Radu Timofte(参考訳) 画像復元は、低品質の画像(例えば、ダウンスケール、ノイズ、圧縮画像)から高品質な画像を復元することを目的とした、長年の低レベルビジョン問題である。 最先端の画像復元手法は畳み込みニューラルネットワークに基づいているが、高レベルの視覚タスクにおいて印象的なパフォーマンスを示すTransformerを使った試みはほとんどない。 本稿では,Swin Transformerに基づく画像復元のための強力なベースラインモデルSwinIRを提案する。 swinirは、浅い特徴抽出、深い特徴抽出、高品質の画像再構成の3つの部分からなる。 特に、深い特徴抽出モジュールはいくつかの残余Swin Transformerブロック(RSTB)で構成され、それぞれが残余接続とともに複数のSwin Transformer層を有する。 画像スーパーレゾリューション(古典的,軽量,実世界の画像スーパーレゾリューションを含む)、画像デノイジング(グレースケールとカラー画像デノイジングを含む)、jpeg圧縮アーティファクト削減の3つの代表的なタスクについて実験を行った。 実験の結果、SwinIRは異なるタスクにおける最先端のメソッドを$\textbf{up to 0.14$\sim$0.45dB}$で上回り、パラメータの総数は$\textbf{up to 67%}$で減少することを示した。

Image restoration is a long-standing low-level vision problem that aims to restore high-quality images from low-quality images (e.g., downscaled, noisy and compressed images). While state-of-the-art image restoration methods are based on convolutional neural networks, few attempts have been made with Transformers which show impressive performance on high-level vision tasks. In this paper, we propose a strong baseline model SwinIR for image restoration based on the Swin Transformer. SwinIR consists of three parts: shallow feature extraction, deep feature extraction and high-quality image reconstruction. In particular, the deep feature extraction module is composed of several residual Swin Transformer blocks (RSTB), each of which has several Swin Transformer layers together with a residual connection. We conduct experiments on three representative tasks: image super-resolution (including classical, lightweight and real-world image super-resolution), image denoising (including grayscale and color image denoising) and JPEG compression artifact reduction. Experimental results demonstrate that SwinIR outperforms state-of-the-art methods on different tasks by $\textbf{up to 0.14$\sim$0.45dB}$, while the total number of parameters can be reduced by $\textbf{up to 67%}$.
翻訳日:2021-08-24 15:29:56 公開日:2021-08-23
# クロスクオリティLFW:非拘束環境におけるクロスリゾリューション画像認識のためのデータベース

Cross-Quality LFW: A Database for Analyzing Cross-Resolution Image Face Recognition in Unconstrained Environments ( http://arxiv.org/abs/2108.10290v1 )

ライセンス: Link先を確認
Martin Knoche, Stefan H\"ormann, Gerhard Rigoll(参考訳) 現実世界の顔認識アプリケーションは、様々な被写体間距離、カメラ設定の貧弱さ、モーションボケなどの撮影条件が異なるため、最適化された画質や解像度を扱うことが多い。 この特性は性能に無知な影響を及ぼす。 最近のクロスレゾリューション顔認識アプローチでは、画像品質の現実世界のエッジケースに対する堅牢性を測定するために、シンプルで任意で非現実的なダウン・アンド・アップ・スケーリング技術を用いた。 そこで本研究では,野生の有名なラベル付き顔(lfw)に由来する新しい標準ベンチマークデータセットを提案する。 ポーズ、年齢、類似性、敵対的な攻撃に焦点を当てた従来のデリバティブとは対照的に、XQLFW(Cross-Quality Labeled Faces in the Wild)データセットは品質差を最大化します。 必要に応じてよりリアルな合成劣化画像のみを含む。 提案するデータセットは,画像品質が最先端のアプローチに与える影響をさらに調査するために使用される。 XQLFWでは、これらのモデルがクロスクオリティのケースで異なる性能を示すので、LFWの性能によって一般化能力は正確には予測されない。 さらに,近年の深層学習モデルを用いて,クロスレゾリューションの応用を訓練し,画像品質に対する感受性を評価する。 クロスレゾリューション顔認識のさらなる研究を奨励し、画像品質のロバスト性の評価を喚起するために、評価のためのデータベースとコードを公開する。

Real-world face recognition applications often deal with suboptimal image quality or resolution due to different capturing conditions such as various subject-to-camera distances, poor camera settings, or motion blur. This characteristic has an unignorable effect on performance. Recent cross-resolution face recognition approaches used simple, arbitrary, and unrealistic down- and up-scaling techniques to measure robustness against real-world edge-cases in image quality. Thus, we propose a new standardized benchmark dataset derived from the famous Labeled Faces in the Wild (LFW). In contrast to previous derivatives, which focus on pose, age, similarity, and adversarial attacks, our Cross-Quality Labeled Faces in the Wild (XQLFW) dataset maximizes the quality difference. It contains only more realistic synthetically degraded images when necessary. Our proposed dataset is then used to further investigate the influence of image quality on several state-of-the-art approaches. With XQLFW, we show that these models perform differently in cross-quality cases, and hence, the generalizing capability is not accurately predicted by their performance on LFW. Additionally, we report baseline accuracy with recent deep learning models explicitly trained for cross-resolution applications and evaluate the susceptibility to image quality. To encourage further research in cross-resolution face recognition and incite the assessment of image quality robustness, we publish the database and code for evaluation.
翻訳日:2021-08-24 15:29:31 公開日:2021-08-23
# 単一正帰還デバイスを用いたパルス幅変調ニューロン

Pulse-Width Modulation Neuron Implemented by Single Positive-Feedback Device ( http://arxiv.org/abs/2108.09954v1 )

ライセンス: Link先を確認
Sung Yun Woo, Dongseok Kwon, Byung-Gook Park, Jong-Ho Lee, and Jong-Ho Bae(参考訳) パルス幅変調(PWM)機能を実装するための正フィードバック(PF)デバイスとその動作方式を提案し,PWM機能を実装する装置動作機構を解析した。 n−浮遊体(Qn)に蓄積される電荷量を調整することにより、浮遊体の電位は時間とともに直線的に変化する。 Qnがしきい値(Qth)に達すると、PF装置は突然オンになる。 Qnの線形時間変化特性とQthのゲートバイアス依存性から、パルス幅変換とハードシグモイド活性化機能を含む完全機能可能なPWMニューロン特性を単一PF装置から得られる。 単一PFデバイスを用いてPWMニューロンを実装できるので、PWMニューロン回路の面積を従来報告したニューロンよりも著しく減少させることが有用である。

Positive-feedback (PF) device and its operation scheme to implement pulse width modulation (PWM) function was proposed and demonstrated, and the device operation mechanism for implementing PWM function was analyzed. By adjusting the amount of the charge stored in the n- floating body (Qn), the potential of the floating body linearly changes with time. When Qn reaches to a threshold value (Qth), the PF device turns on abruptly. From the linear time-varying property of Qn and the gate bias dependency of Qth, fully functionable PWM neuron properties including voltage to pulse width conversion and hard-sigmoid activation function were successfully obtained from a single PF device. A PWM neuron can be implemented by using a single PF device, thus it is beneficial to extremely reduce the area of a PWM neuron circuit than the previously reported one.
翻訳日:2021-08-24 15:27:44 公開日:2021-08-23
# 限定語彙を用いた自動音声認識:調査

Automatic Speech Recognition using limited vocabulary: A survey ( http://arxiv.org/abs/2108.10254v1 )

ライセンス: Link先を確認
Jean Louis K. E. Fendji, Diane M. Tala, Blaise O. Yenke, and Marcellin Atemkeng(参考訳) 音声認識(Automatic Speech Recognition, ASR)は、膨大な数のアプリケーションと、音声処理をサポートするインターフェースやコンピューティングデバイスの普及により、活発な研究分野である。 しかし、ほとんどのアプリケーションは、未公開の言語を覆い隠す、十分なリソースを持つ言語に基づいている。 しかし、ASRは、人間から人間、人間から機械までを設計する際に、そのような言語を広めるには不確実な手段である。 アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。 限定語彙を用いたASRは、少数の単語や文の認識に焦点を当てた音声認識問題のサブセットである。 本稿では,asrシステムを支えるメカニズムの包括的視点と,技術,ツール,プロジェクト,最近のコントリビュート,および限定語彙を用いたasrの今後の方向性について述べる。 これにより、限られた語彙を用いてASRシステムを設計する際に進むことができる。 限られた語彙に重点を置いているが、この調査で報告されたツールや技法は一般にASRシステムに適用されている。

Automatic Speech Recognition (ASR) is an active field of research due to its huge number of applications and the proliferation of interfaces or computing devices that can support speech processing. But the bulk of applications is based on well-resourced languages that overshadow under-resourced ones. Yet ASR represents an undeniable mean to promote such languages, especially when design human-to-human or human-to-machine systems involving illiterate people. An approach to design an ASR system targeting under-resourced languages is to start with a limited vocabulary. ASR using a limited vocabulary is a subset of the speech recognition problem that focuses on the recognition of a small number of words or sentences. This paper aims to provide a comprehensive view of mechanisms behind ASR systems as well as techniques, tools, projects, recent contributions, and possibly future directions in ASR using a limited vocabulary. This work consequently provides a way to go when designing ASR system using limited vocabulary. Although an emphasis is put on limited vocabulary, most of the tools and techniques reported in this survey applied to ASR systems in general.
翻訳日:2021-08-24 15:27:28 公開日:2021-08-23
# Anarchic Federated Learning

Anarchic Federated Learning ( http://arxiv.org/abs/2108.09875v1 )

ライセンス: Link先を確認
Haibo Yang, Xin Zhang, Prashant Khanduri, Jia Liu(参考訳) エッジネットワーク上にデプロイされた現在の連合学習(fl)システムは,データや計算能力の多様性が高い多数のワーカに対して,一貫して対処しなければならない。 この多様な労働者は、(1)労働者の意志でトレーニングを行う能力を与える柔軟な労働者参加、(2)サーバーとの非同期通信と共に各労働者のローカルな更新(計算資源に基づく)の数の変化、(3)労働者間の異種データなど、FLアルゴリズムの開発を必要とする。 このような課題に対処するため,本稿では,'Anarchic Federated Learning' (AFL) と呼ばれる新たなパラダイムを提案する。 従来のFLモデルとは対照的に、AFLの各作業員は、FLに参加するときの完全な自由(i)と、現在の状況(例えば、バッテリーレベル、通信チャネル、プライバシー問題)に基づいて各ラウンドで実行するローカルステップの数(i)がある。 しかし、AFLは、サーバーがカオス的なワーカーの振る舞いを扱う必要があるため、アルゴリズム設計における重大な課題も導入している。 この目的のために,AFedAvg-TSLR-CD と AFedAvg-TSLR-CS という2つのアナーキック型FedAvg-likeアルゴリズムを提案する。 一般の作業者情報到着プロセスでは,両アルゴリズムが新しいAFLパラダイムにおいて,非常に望ましい線形高速化効果を保っていることを示す。 さらに,我々の AFedAvg-TSLR アルゴリズムフレームワークは,高度な FL アルゴリズムをワーカーおよびサーバサイドオプティマイザとして利用することにより,AFL の高性能化を実現することができることを示す。 提案アルゴリズムを実世界のデータセットで広範な実験により検証する。

Present-day federated learning (FL) systems deployed over edge networks have to consistently deal with a large number of workers with high degrees of heterogeneity in data and/or computing capabilities. This diverse set of workers necessitates the development of FL algorithms that allow: (1) flexible worker participation that grants the workers' capability to engage in training at will, (2) varying number of local updates (based on computational resources) at each worker along with asynchronous communication with the server, and (3) heterogeneous data across workers. To address these challenges, in this work, we propose a new paradigm in FL called ``Anarchic Federated Learning'' (AFL). In stark contrast to conventional FL models, each worker in AFL has complete freedom to choose i) when to participate in FL, and ii) the number of local steps to perform in each round based on its current situation (e.g., battery level, communication channels, privacy concerns). However, AFL also introduces significant challenges in algorithmic design because the server needs to handle the chaotic worker behaviors. Toward this end, we propose two Anarchic FedAvg-like algorithms with two-sided learning rates for both cross-device and cross-silo settings, which are named AFedAvg-TSLR-CD and AFedAvg-TSLR-CS, respectively. For general worker information arrival processes, we show that both algorithms retain the highly desirable linear speedup effect in the new AFL paradigm. Moreover, we show that our AFedAvg-TSLR algorithmic framework can be viewed as a {\em meta-algorithm} for AFL in the sense that they can utilize advanced FL algorithms as worker- and/or server-side optimizers to achieve enhanced performance under AFL. We validate the proposed algorithms with extensive experiments on real-world datasets.
翻訳日:2021-08-24 15:25:31 公開日:2021-08-23
# トランスフォーマーを用いたフローサイトメトリーデータにおける細胞集団の自動同定

Automated Identification of Cell Populations in Flow Cytometry Data with Transformers ( http://arxiv.org/abs/2108.10072v1 )

ライセンス: Link先を確認
Matthias W\"odlinger, Michael Reiter, Lisa Weijler, Margarita Maurer-Granofszky, Angela Schumich, Michael Dworzak(参考訳) 急性リンパ芽球性白血病(ALL)は小児や青年期で最も頻度の高い血液悪性腫瘍である。 ALの強い予後因子は、患者に持続する白血病細胞の数を測定する最小残留疾患(英語版)(MRD)によって与えられる。 治療後の多パラメータフローサイトメトリー(FCM)データからの手動MDD評価は時間と主観的である。 本研究では,FCMデータから直接MDD値を計算するための自動手法を提案する。 本稿では,サンプル中の爆発細胞を直接同定するトランスフォーマーアーキテクチャに基づく,新しいニューラルネットワークアプローチを提案する。 本手法は,3つの臨床センターから入手可能なALL FCMデータに基づいて,教師付きで訓練し,評価する。 本手法は,200 B-ALL試料で試験した場合のf1中央値 ~0.93 に達する。

Acute Lymphoblastic Leukemia (ALL) is the most frequent hematologic malignancy in children and adolescents. A strong prognostic factor in ALL is given by the Minimal Residual Disease (MRD), which is a measure for the number of leukemic cells persistent in a patient. Manual MRD assessment from Multiparameter Flow Cytometry (FCM) data after treatment is time-consuming and subjective. In this work, we present an automated method to compute the MRD value directly from FCM data. We present a novel neural network approach based on the transformer architecture that learns to directly identify blast cells in a sample. We train our method in a supervised manner and evaluate it on publicly available ALL FCM data from three different clinical centers. Our method reaches a median f1 score of ~0.93 when tested on 200 B-ALL samples.
翻訳日:2021-08-24 15:24:55 公開日:2021-08-23
# DBAなし? 後悔するな! 証明可能な保証付き分析およびHTAPワークロードのインデックスチューニングのためのマルチアームバンド

No DBA? No regret! Multi-armed bandits for index tuning of analytical and HTAP workloads with provable guarantees ( http://arxiv.org/abs/2108.10130v1 )

ライセンス: Link先を確認
R. Malinga Perera, Bastian Oetomo, Benjamin I. P. Rubinstein, Renata Borovica-Gajic(参考訳) 物理データベース設計の自動化は、最適化された構造によって得られる大幅な性能向上のために、データベース研究に長期的な関心が保たれている。 相当な進歩にもかかわらず、今日の商用ソリューションの大部分は極めて手作業で、代表的トレーニングワークロードの特定と提供を期待されているデータベース管理者(dbas)によるオフライン呼び出しを必要とする。 クエリストアのような最新の進歩でさえ、動的環境に対する限定的なサポートしか提供しない。 静的なワークロードの代表を識別することはもはや現実的ではなく、物理的な設計ツールがクエリオプティマイザーのコスト見積に影響を受けやすい。 さらに、ハイブリッドトランザクションおよび分析処理(HTAP)システムのような現代のアプリケーション環境では、分析モデリングは不可能である。 我々は,dbaやクエリオプティマイザを回避し,戦略的な探索と直接的パフォーマンス観察を通じて実現可能な構造のメリットを学習する,オンラインインデックス選択の自動運転手法を提案する。 我々は,この問題を不確実性下での逐次的意思決定の1つ,特にバンディット学習環境において捉えている。 マルチアームバンディットは、完全な後見に最適なポリシーに収束する平均的なパフォーマンスを確実に保証するために、探索と搾取のバランスをとる。 最先端の商用チューニングツールに対する包括的実証評価は、シフトおよびアドホックなワークロードの最大75%のスピードアップと、分析処理環境での静的ワークロードの最大28%のスピードアップを示しています。 HTAP環境では、我々のソリューションは、シフトの最大59%のスピードアップと静的ワークロードの51%のスピードアップを提供します。 さらに,バンディットフレームワークは,収束速度と性能変動性(最大58%の速度アップ)において,深層強化学習(RL)よりも優れていた。

Automating physical database design has remained a long-term interest in database research due to substantial performance gains afforded by optimised structures. Despite significant progress, a majority of today's commercial solutions are highly manual, requiring offline invocation by database administrators (DBAs) who are expected to identify and supply representative training workloads. Even the latest advancements like query stores provide only limited support for dynamic environments. This status quo is untenable: identifying representative static workloads is no longer realistic; and physical design tools remain susceptible to the query optimiser's cost misestimates. Furthermore, modern application environments such as hybrid transactional and analytical processing (HTAP) systems render analytical modelling next to impossible. We propose a self-driving approach to online index selection that eschews the DBA and query optimiser, and instead learns the benefits of viable structures through strategic exploration and direct performance observation. We view the problem as one of sequential decision making under uncertainty, specifically within the bandit learning setting. Multi-armed bandits balance exploration and exploitation to provably guarantee average performance that converges to policies that are optimal with perfect hindsight. Our comprehensive empirical evaluation against a state-of-the-art commercial tuning tool demonstrates up to 75% speed-up on shifting and ad-hoc workloads and up to 28% speed-up on static workloads in analytical processing environments. In HTAP environments, our solution provides up to 59% speed-up on shifting and 51% speed-up on static workloads. Furthermore, our bandit framework outperforms deep reinforcement learning (RL) in terms of convergence speed and performance volatility (providing up to 58% speed-up).
翻訳日:2021-08-24 15:24:45 公開日:2021-08-23
# 小児自動睡眠停止 : 最先端の深層学習法の比較研究

Pediatric Automatic Sleep Staging: A comparative study of state-of-the-art deep learning methods ( http://arxiv.org/abs/2108.10211v1 )

ライセンス: Link先を確認
Huy Phan, Alfred Mertins, Mathias Baumert(参考訳) 近年の成人における自動睡眠ステージングの進歩にもかかわらず、最も先進的なアルゴリズムが小児集団に一般化し、夜間ポリソムノグラフィー(PSG)に特徴的な特徴を示すことが現在知られている。 そこで本研究では,小児期自動睡眠ステージングのための最先端の深層学習法について,大規模比較研究を行う。 多様な閉塞型睡眠時無呼吸 (osa) の重症度を対象とし, 1200名以上の小児のサンプルを評価するために, 異なる特徴を持つ6種類の深層ニューラルネットワークの選定を行った。 実験結果から,新規被験者を対象とした自動睡眠ステージリングは,成人に報告された専門家レベルと同等であり,全体の精度は87.0%,コーエンカッパは0.829,マクロF1スコアは83.5%であった。 デュアルチャネルeeg$\cdot$eogを使用するとさらに性能が向上し、精度88.2%、cohen's kappa 0.844、マクロf1-score 85.1%に達した。 また, 学習データとテストデータが7ヶ月間隔で記録された場合, 学習アルゴリズムはドリフトの概念にロバストであることが判明した。 詳細な分析は、自動スコアラー同士の「ほぼ完璧な」一致と、ステージングエラーにおける同様の行動パターンをさらに示している。

Despite the tremendous progress recently made towards automatic sleep staging in adults, it is currently known if the most advanced algorithms generalize to the pediatric population, which displays distinctive characteristics in overnight polysomnography (PSG). To answer the question, in this work, we conduct a large-scale comparative study on the state-of-the-art deep learning methods for pediatric automatic sleep staging. A selection of six different deep neural networks with diverging features are adopted to evaluate a sample of more than 1,200 children across a wide spectrum of obstructive sleep apnea (OSA) severity. Our experimental results show that the performance of automated pediatric sleep staging when evaluated on new subjects is equivalent to the expert-level one reported on adults, reaching an overall accuracy of 87.0%, a Cohen's kappa of 0.829, and a macro F1-score of 83.5% in case of single-channel EEG. The performance is further improved when dual-channel EEG$\cdot$EOG are used, reaching an accuracy of 88.2%, a Cohen's kappa of 0.844, and a macro F1-score of 85.1%. The results also show that the studied algorithms are robust to concept drift when the training and test data were recorded 7-months apart. Detailed analyses further demonstrate "almost perfect" agreement between the automatic scorers to one another and their similar behavioral patterns on the staging errors.
翻訳日:2021-08-24 15:24:13 公開日:2021-08-23
# 神経テンソル完成のための影響誘導データ拡張

Influence-guided Data Augmentation for Neural Tensor Completion ( http://arxiv.org/abs/2108.10248v1 )

ライセンス: Link先を確認
Sejoon Oh, Sungchul Kim, Ryan A. Rossi, Srijan Kumar(参考訳) 多次元データ(あるいはテンソル)の欠落値をより正確に予測する方法。 テンソル補完のタスクは、パーソナライズドレコメンデーション、画像とビデオの復元、ソーシャルネットワークにおけるリンク予測など、多くのアプリケーションにおいて不可欠である。 多くのテンソル分解とニューラルネットワークベースのテンソル補完アルゴリズムは、部分的に観測されたテンソルの欠落エントリを予測するために開発された。 しかし、実世界のテンソルは非常に小さく、これらの手法は少量のデータに過度に適合する傾向があるため、不正確な推定を行うことができる。 本稿では,これらの欠点を克服し,テンソルのデータ拡張手法を提案する。 本稿では,ニューラルテンソル完了法の予測精度を高める汎用データ拡張フレームワークであるDAINを提案する。 具体的には、DAINはまず神経モデルを訓練し、影響関数でテンソル細胞の重要性を見出す。 その後、dainは各実体(すなわち次元の指標)の重要性を計算するために細胞の重要性を集約する。 最後に、dainはエンティティの重要性の重み付けサンプリングと値予測によってテンソルを増強する。 広範囲な実験結果から,DAINは4つの実世界のテンソル上での神経テンソル完了の計算精度を高めるという点で,すべてのデータ拡張ベースラインより優れていた。 DAINのアブレーション研究はDAINの各成分の有効性を裏付ける。 さらに,DAINは大規模データセットにほぼ線形にスケールすることを示す。

How can we predict missing values in multi-dimensional data (or tensors) more accurately? The task of tensor completion is crucial in many applications such as personalized recommendation, image and video restoration, and link prediction in social networks. Many tensor factorization and neural network-based tensor completion algorithms have been developed to predict missing entries in partially observed tensors. However, they can produce inaccurate estimations as real-world tensors are very sparse, and these methods tend to overfit on the small amount of data. Here, we overcome these shortcomings by presenting a data augmentation technique for tensors. In this paper, we propose DAIN, a general data augmentation framework that enhances the prediction accuracy of neural tensor completion methods. Specifically, DAIN first trains a neural model and finds tensor cell importances with influence functions. After that, DAIN aggregates the cell importance to calculate the importance of each entity (i.e., an index of a dimension). Finally, DAIN augments the tensor by weighted sampling of entity importances and a value predictor. Extensive experimental results show that DAIN outperforms all data augmentation baselines in terms of enhancing imputation accuracy of neural tensor completion on four diverse real-world tensors. Ablation studies of DAIN substantiate the effectiveness of each component of DAIN. Furthermore, we show that DAIN scales near linearly to large datasets.
翻訳日:2021-08-24 15:23:48 公開日:2021-08-23
# 深層ニューラルネットワークによる微生物コロニー検出法 -比較解析-

Deep neural networks approach to microbial colony detection -- a comparative analysis ( http://arxiv.org/abs/2108.10103v1 )

ライセンス: Link先を確認
Sylwia Majchrowska, Jaros{\l}aw Paw{\l}owski, Natalia Czerep, Aleksander G\'orecki, Jakub Kuci\'nski, and Tomasz Golan(参考訳) 微生物コロニーの計数は微生物学の基本的な課題であり、多くの産業分野に応用されている。 それにもかかわらず、人工知能を用いた自動微生物計数に関する最近の研究は、統一された方法論の欠如と大規模なデータセットの可用性のため、ほとんど比較できない。 最近導入されたagarデータセットは、第2のニーズへの答えだが、研究はまだ不十分である。 この問題に対処するため,AGARデータセット上での3つのよく知られたディープラーニング手法,すなわち2段階,1段階,トランスフォーマーに基づくニューラルネットワークの性能を比較した。 得られた結果は将来の実験のベンチマークとして機能するかもしれない。

Counting microbial colonies is a fundamental task in microbiology and has many applications in numerous industry branches. Despite this, current studies towards automatic microbial counting using artificial intelligence are hardly comparable due to the lack of unified methodology and the availability of large datasets. The recently introduced AGAR dataset is the answer to the second need, but the research carried out is still not exhaustive. To tackle this problem, we compared the performance of three well-known deep learning approaches for object detection on the AGAR dataset, namely two-stage, one-stage and transformer based neural networks. The achieved results may serve as a benchmark for future experiments.
翻訳日:2021-08-24 15:21:58 公開日:2021-08-23
# 逆学習に基づく未知視線トモグラフィ再構成のためのアプローチ

An Adversarial Learning Based Approach for Unknown View Tomographic Reconstruction ( http://arxiv.org/abs/2108.09873v1 )

ライセンス: Link先を確認
Mona Zehni, Zhizhen Zhao(参考訳) 2次元断層画像再構成の目標は、様々な視点から投影線から画像を復元することである。 しばしば、射影線に関連する射影角が予め知られていると仮定される。 しかし、特定の状況下では、これらの角度は概して知られているか全く知られていない。 ランダムな投影線の集合から画像を再構成することがより困難になる。 本稿では,実測値と実測値とを一致させて画像と投影角分布を復元する逆学習に基づく手法を提案する。 分布の適合は、wasserstein生成逆ネットワーク構造に基づくジェネレータと批評家との間のmin-maxゲームを解決することによって達成される。 勾配バック伝搬による投影角分布の更新に対応するため,離散分布からのサンプルのグムベル・ソフトマックス再パラメータ化を用いて損失を近似する。 本理論解析は,画像の特異な復元と,回転までの投影分布と収束時の反射を検証する。 広範に数値実験を行ったところ, ノイズ汚染下での画像と投影角分布を正確に再現できる可能性が示された。

The goal of 2D tomographic reconstruction is to recover an image given its projection lines from various views. It is often presumed that projection angles associated with the projection lines are known in advance. Under certain situations, however, these angles are known only approximately or are completely unknown. It becomes more challenging to reconstruct the image from a collection of random projection lines. We propose an adversarial learning based approach to recover the image and the projection angle distribution by matching the empirical distribution of the measurements with the generated data. Fitting the distributions is achieved through solving a min-max game between a generator and a critic based on Wasserstein generative adversarial network structure. To accommodate the update of the projection angle distribution through gradient back propagation, we approximate the loss using the Gumbel-Softmax reparameterization of samples from discrete distributions. Our theoretical analysis verifies the unique recovery of the image and the projection distribution up to a rotation and reflection upon convergence. Our extensive numerical experiments showcase the potential of our method to accurately recover the image and the projection angle distribution under noise contamination.
翻訳日:2021-08-24 15:19:43 公開日:2021-08-23
# 主観的エンベロープに基づくパーキンソン病音声サンプルの多型再構成アルゴリズム

Subject Envelope based Multitype Reconstruction Algorithm of Speech Samples of Parkinson's Disease ( http://arxiv.org/abs/2108.09922v1 )

ライセンス: Link先を確認
Yongming Li, Chengyu Liu, Pin Wang, Hehua Zhang, Anhai Wei(参考訳) パーキンソン病(PD)のリスクは極めて深刻であり,現在PD音声認識は有効な診断方法である。 しかし, 病期, コーパス, その他の因子がデータ収集に与える影響から, PDの状態を反映した各試料の収集能力は異なる。 全く役に立たないサンプルはなく、100%完璧ではない。 この特徴は、サンプルを取り除いたり、サンプルを保持するだけでは適切でないことを意味する。 高品質な新しいサンプルを得るためには,サンプル変換を検討する必要がある。 残念なことに,既存のPD音声認識手法は,サンプル学習よりも特徴学習と分類器設計に重点を置いている。 以上の問題を解決するために,多型再構成演算子に基づくPD音声サンプル変換アルゴリズムを提案する。 アルゴリズムは4つの大きなステップに分けられる。 a型、b型、c型の3種類の再構成演算子がアルゴリズムで設計されている。 a型演算子に関して、最初のデータセットを取得するために線形変換を設計することで、元のデータセットを直接再構成する。 タイプB演算子は、第2の新しいデータセットを得るためにデータセットのクラスタリングと線形変換のために設計されている。 第3のオペレータ、すなわちタイプCオペレータは、クラスタリングと畳み込みによってデータセットを再構築し、第3のデータセットを取得する。 最後に、3つの新しいデータセットに基づいてベース分類器を訓練し、決定重み付けによって分類結果を融合する。 実験区間では,2つの代表的なPD音声データセットを用いて検証を行う。 その結果,提案アルゴリズムの有効性が示された。 他のアルゴリズムと比較して,提案アルゴリズムは分類精度の点で明らかに改善されている。

The risk of Parkinson's disease (PD) is extremely serious, and PD speech recognition is an effective method of diagnosis nowadays. However, due to the influence of the disease stage, corpus, and other factors on data collection, the ability of every samples within one subject to reflect the status of PD vary. No samples are useless totally, and not samples are 100% perfect. This characteristic means that it is not suitable just to remove some samples or keep some samples. It is necessary to consider the sample transformation for obtaining high quality new samples. Unfortunately, existing PD speech recognition methods focus mainly on feature learning and classifier design rather than sample learning, and few methods consider the sample transformation. To solve the problem above, a PD speech sample transformation algorithm based on multitype reconstruction operators is proposed in this paper. The algorithm is divided into four major steps. Three types of reconstruction operators are designed in the algorithm: types A, B and C. Concerning the type A operator, the original dataset is directly reconstructed by designing a linear transformation to obtain the first dataset. The type B operator is designed for clustering and linear transformation of the dataset to obtain the second new dataset. The third operator, namely, the type C operator, reconstructs the dataset by clustering and convolution to obtain the third dataset. Finally, the base classifier is trained based on the three new datasets, and then the classification results are fused by decision weighting. In the experimental section, two representative PD speech datasets are used for verification. The results show that the proposed algorithm is effective. Compared with other algorithms, the proposed algorithm achieves apparent improvements in terms of classification accuracy.
翻訳日:2021-08-24 15:19:26 公開日:2021-08-23
# back to the drawing board: a critical evaluation of poisoning attacks on federated learning

Back to the Drawing Board: A Critical Evaluation of Poisoning Attacks on Federated Learning ( http://arxiv.org/abs/2108.10241v1 )

ライセンス: Link先を確認
Virat Shejwalkar, Amir Houmansadr, Peter Kairouz and Daniel Ramage(参考訳) 近年の研究では、フェデレートラーニング(FL)は、妥協されたクライアントによる攻撃に弱いことが示されていますが、これらの研究は非現実的な仮定を多く作り、誤解を招く結論に達しています。 例えば、彼らはしばしば非現実的に高いパーセンテージの漏洩したクライアントを使い、敵に対して非現実的な能力を仮定する。 我々は,現実的な脅威モデルと敵対的能力のセットを慎重に特徴付けることにより,実用的fl環境下での中毒攻撃の最初の批判的解析を行う。 確立された信念とは裏腹に, FLは, 防御がなくても, 実際には非常に堅牢であることを示す。 実際、私たちはさらに前進して、2つの現実的な脅威モデルの下で最先端の毒殺攻撃を提案し、3つのベンチマークデータセットにわたる広範囲な実験を通して、特に単純な防御メカニズムを使用する場合において、効果的な毒殺攻撃がどのように存在するかを示す。 我々は過去の誤解を修正し、我々のコミュニティがこの分野でより正確な研究を行い、より強力な(そしてより現実的な)攻撃と防衛を構築することを奨励する具体的なガイドラインを与えます。

While recent works have indicated that federated learning (FL) is vulnerable to poisoning attacks by compromised clients, we show that these works make a number of unrealistic assumptions and arrive at somewhat misleading conclusions. For instance, they often use impractically high percentages of compromised clients or assume unrealistic capabilities for the adversary. We perform the first critical analysis of poisoning attacks under practical production FL environments by carefully characterizing the set of realistic threat models and adversarial capabilities. Our findings are rather surprising: contrary to the established belief, we show that FL, even without any defenses, is highly robust in practice. In fact, we go even further and propose novel, state-of-the-art poisoning attacks under two realistic threat models, and show via an extensive set of experiments across three benchmark datasets how (in)effective poisoning attacks are, especially when simple defense mechanisms are used. We correct previous misconceptions and give concrete guidelines that we hope will encourage our community to conduct more accurate research in this space and build stronger (and more realistic) attacks and defenses.
翻訳日:2021-08-24 15:18:58 公開日:2021-08-23
# ReSpawn:信頼できない記憶を考慮したスパイクニューラルネットワークのエネルギー効率の良いフォールトトレランス

ReSpawn: Energy-Efficient Fault-Tolerance for Spiking Neural Networks considering Unreliable Memories ( http://arxiv.org/abs/2108.10271v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的にインスパイアされた計算のために教師なし学習能力を持つ低エネルギーを持つ可能性を示している。 しかし、製造欠陥や電圧誘起近似誤差から生じる、ハードウェアによるメモリ障害の存在下で処理が実行されると、精度が低下する可能性がある。 最近の研究は、SNNにおけるフォールトモデリングとランダムなフォールトインジェクションに焦点が当てられているため、SNNハードウェアアーキテクチャにおけるメモリフォールトが正確性および各フォールト軽減技術に与える影響は、十分に調べられていない。 そこで本研究では,回復力とエネルギー効率のよいSNNのためのオフチップメモリとオンチップメモリの両方において,障害の負の影響を緩和する新しいフレームワークであるReSpawnを提案する。 ReSpawnの主なメカニズムは,(1)SNNの耐障害性の解析,(2)記憶における(a)フォールト・アウェア・マッピング(FAM)によるSNN耐障害性の向上,(b)フォールト・アウェア・トレーニング・アンド・マッピング(FATM)である。 トレーニングデータセットが完全に利用できない場合、FAMは、非デフォルトメモリセルに重要なビットを配置する効率的なビットシャッフル技術と、欠陥のあるセルに重要なビットを配置し、メモリアクセスエネルギーを最小化する。 一方、トレーニングデータセットが完全に利用可能であれば、FATMはデータマッピングとトレーニングプロセスにおける障害メモリセルを考慮して使用される。 実験の結果, 断層緩和技術のないベースラインSNNと比較して, 断層認識マッピング方式によるReSpawnは, 900個のニューロンを持つネットワークにおいて, 再トレーニングなしで精度を最大70%向上することがわかった。

Spiking neural networks (SNNs) have shown a potential for having low energy with unsupervised learning capabilities due to their biologically-inspire d computation. However, they may suffer from accuracy degradation if their processing is performed under the presence of hardware-induced faults in memories, which can come from manufacturing defects or voltage-induced approximation errors. Since recent works still focus on the fault-modeling and random fault injection in SNNs, the impact of memory faults in SNN hardware architectures on accuracy and the respective fault-mitigation techniques are not thoroughly explored. Toward this, we propose ReSpawn, a novel framework for mitigating the negative impacts of faults in both the off-chip and on-chip memories for resilient and energy-efficient SNNs. The key mechanisms of ReSpawn are: (1) analyzing the fault tolerance of SNNs; and (2) improving the SNN fault tolerance through (a) fault-aware mapping (FAM) in memories, and (b) fault-aware training-and-mapping (FATM). If the training dataset is not fully available, FAM is employed through efficient bit-shuffling techniques that place the significant bits on the non-faulty memory cells and the insignificant bits on the faulty ones, while minimizing the memory access energy. Meanwhile, if the training dataset is fully available, FATM is employed by considering the faulty memory cells in the data mapping and training processes. The experimental results show that, compared to the baseline SNN without fault-mitigation techniques, ReSpawn with a fault-aware mapping scheme improves the accuracy by up to 70% for a network with 900 neurons without retraining.
翻訳日:2021-08-24 15:18:36 公開日:2021-08-23
# (参考訳) デカップリングパッチ校正による高解像度画像のスーパーピクセル生成 [全文訳有]

Generating Superpixels for High-resolution Images with Decoupled Patch Calibration ( http://arxiv.org/abs/2108.08607v2 )

ライセンス: CC BY 4.0
Yaxiong Wang and Yunchao Wei and Xueming Qian and Li Zhu and Yi Yang(参考訳) スーパーピクセルのセグメンテーションは最近、差別化可能なディープラーニングの進歩から大きな進歩を遂げている。 しかし、非常に高解像度のスーパーピクセルセグメンテーションは、高価なメモリと計算コストのために依然として困難であり、現在の高度なスーパーピクセルネットワークは処理に失敗している。 本稿では,高分解能スーパーピクセルセグメンテーションを効率的かつ正確に実装することを目的としたパッチキャリブレーションネットワーク(pcnet)を考案する。 PCNetは、GPUメモリの節約と計算コストの軽減のために、低解像度入力から高解像度出力を生成するという原則に従っている。 ダウンサンプリング操作によって破壊された細部を思い出すために,本スーパーピクセル生成部を協調的に増強する新しいデカップリングパッチ校正(DPC)ブランチを提案する。 特に、DPCは高解像度画像からローカルパッチを取り、動的にバイナリマスクを生成して、ネットワークを領域境界に集中させる。 dpcとメインブランチのパラメータを共有することで、高解像度パッチから学んだ詳細な知識を転送し、破壊した情報を校正する。 私たちの知る限りでは、ディープラーニングベースのスーパーピクセル生成を高解像度ケースで検討する最初の試みをしました。 本研究では,2つの公開データセットと1つの新しい構築データセットから評価ベンチマークを構築し,人間の細粒度から都市景観まで幅広い多様性をカバーした。 大規模な実験により、PCNetは定量化結果の最先端に対して良好に機能するだけでなく、1080Ti GPU上での3Kから5Kへの上界の分解能も向上できることが示された。

Superpixel segmentation has recently seen important progress benefiting from the advances in differentiable deep learning. However, the very high-resolution superpixel segmentation still remains challenging due to the expensive memory and computation cost, making the current advanced superpixel networks fail to process. In this paper, we devise Patch Calibration Networks (PCNet), aiming to efficiently and accurately implement high-resolution superpixel segmentation. PCNet follows the principle of producing high-resolution output from low-resolution input for saving GPU memory and relieving computation cost. To recall the fine details destroyed by the down-sampling operation, we propose a novel Decoupled Patch Calibration (DPC) branch for collaboratively augment the main superpixel generation branch. In particular, DPC takes a local patch from the high-resolution images and dynamically generates a binary mask to impose the network to focus on region boundaries. By sharing the parameters of DPC and main branches, the fine-detailed knowledge learned from high-resolution patches will be transferred to help calibrate the destroyed information. To the best of our knowledge, we make the first attempt to consider the deep-learning-based superpixel generation for high-resolution cases. To facilitate this research, we build evaluation benchmarks from two public datasets and one new constructed one, covering a wide range of diversities from fine-grained human parts to cityscapes. Extensive experiments demonstrate that our PCNet can not only perform favorably against the state-of-the-arts in the quantitative results but also improve the resolution upper bound from 3K to 5K on 1080Ti GPUs.
翻訳日:2021-08-24 12:32:40 公開日:2021-08-23
# (参考訳) 画像分類タスクにおける量子ニューラルネットワークモデルと古典ニューラルネットワークモデルの比較 [全文訳有]

Comparing concepts of quantum and classical neural network models for image classification task ( http://arxiv.org/abs/2108.08875v2 )

ライセンス: CC BY 4.0
Rafal Potempa and Sebastian Porebski(参考訳) 量子アーキテクチャはまだ開発中だが、利用可能な場合は、機械学習アルゴリズムが数値データのみを処理できる場合にのみ量子データを処理できる。 したがって、分類や回帰の問題においては、数値入力データを量子形式に転送し、量子コンピュータが利用可能な機械学習手法を利用できるようにする量子システムをシミュレートし、研究する必要がある。 本資料は、MNISTデータセットからの手書き桁の分類問題のために開発されたハイブリッド量子古典ニューラルネットワークのトレーニングと性能に関する実験結果を含む。 2つのモデルの比較結果: 類似のトレーニングパラメータの古典的および量子的ニューラルネットワークは、量子ネットワークが時間を要するが、古典的ネットワークを克服することを示している(より収束し、より高いトレーニングとテストの精度を達成する)。

While quantum architectures are still under development, when available, they will only be able to process quantum data when machine learning algorithms can only process numerical data. Therefore, in the issues of classification or regression, it is necessary to simulate and study quantum systems that will transfer the numerical input data to a quantum form and enable quantum computers to use the available methods of machine learning. This material includes the results of experiments on training and performance of a hybrid quantum-classical neural network developed for the problem of classification of handwritten digits from the MNIST data set. The comparative results of two models: classical and quantum neural networks of a similar number of training parameters, indicate that the quantum network, although its simulation is time-consuming, overcomes the classical network (it has better convergence and achieves higher training and testing accuracy).
翻訳日:2021-08-24 11:55:39 公開日:2021-08-23
# (参考訳) fastformer: 付加的な注意は必要なすべてだ [全文訳有]

Fastformer: Additive Attention Can Be All You Need ( http://arxiv.org/abs/2108.09084v2 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) Transformerは、テキスト理解のための強力なモデルである。 しかし、入力シーケンス長の2次複雑さのため、非効率である。 変圧器の加速には多くの方法があるが、長いシーケンスでは効率が悪いか、十分に効果的ではない。 本稿では,付加的注意に基づく効率的な変圧器モデルであるfastformerを提案する。 Fastformerでは、トークン間のペアワイズ相互作用をモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンション機構を使用し、さらにグローバルコンテキスト表現との相互作用に基づいて各トークン表現を変換する。 このように、fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。 5つのデータセットに関する広範囲な実験により、fastformerは既存の多くのトランスフォーマーモデルよりもはるかに効率的であり、同時に、同等あるいはそれ以上の長いテキストモデリング性能を達成することができる。

Transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough. In this paper, we propose Fastformer, which is an efficient Transformer model based on additive attention. In Fastformer, instead of modeling the pair-wise interactions between tokens, we first use additive attention mechanism to model global contexts, and then further transform each token representation based on its interaction with global context representations. In this way, Fastformer can achieve effective context modeling with linear complexity. Extensive experiments on five datasets show that Fastformer is much more efficient than many existing Transformer models and can meanwhile achieve comparable or even better long text modeling performance.
翻訳日:2021-08-24 11:45:13 公開日:2021-08-23
# 意味的テキスト類似性のためのチェコ語ニュースデータセット

Czech News Dataset for Semantic Textual Similarity ( http://arxiv.org/abs/2108.08708v2 )

ライセンス: Link先を確認
Jakub Sido, Michal Sej\'ak, Ond\v{r}ej Pra\v{z}\'ak, Miloslav Konop\'ik, V\'aclav Moravec(参考訳) 本稿では,意味的類似性アノテーションを持つ文からなる新しいデータセットについて述べる。 このデータはチェコ語におけるジャーナリストの領域に由来する。 データの収集と注釈付けのプロセスについて詳述する。 データセットには、138,556人のアノテーションが列車とテストセットに分割されている。 合計485人のジャーナリズム学生が作成プロセスに参加した。 テストセットの信頼性を高めるために、アノテーションを平均9個の個別アノテーションとして計算する。 アノテーションアノテータ間のアノテータ間の合意を計測することで,データセットの品質を評価する。 合意番号の他に、収集したデータセットの詳細な統計情報を提供する。 本稿では,文の意味的類似性を予測するシステムを構築するための基礎実験を行った。 大量のトレーニングアノテーション(116 956)により、平均アノテータ (0,92対0,86対人相関係数) よりもはるかに優れた性能を発揮する。

This paper describes a novel dataset consisting of sentences with semantic similarity annotations. The data originate from the journalistic domain in the Czech language. We describe the process of collecting and annotating the data in detail. The dataset contains 138,556 human annotations divided into train and test sets. In total, 485 journalism students participated in the creation process. To increase the reliability of the test set, we compute the annotation as an average of 9 individual annotations. We evaluate the quality of the dataset by measuring inter and intra annotation annotators' agreements. Beside agreement numbers, we provide detailed statistics of the collected dataset. We conclude our paper with a baseline experiment of building a system for predicting the semantic similarity of sentences. Due to the massive number of training annotations (116 956), the model can perform significantly better than an average annotator (0,92 versus 0,86 of Person's correlation coefficients).
翻訳日:2021-08-24 11:30:16 公開日:2021-08-23
# instagramにおける違法薬物密売事件の検出--深層マルチモーダル・マルチラベル学習アプローチ

Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach ( http://arxiv.org/abs/2108.08920v2 )

ライセンス: Link先を確認
Chuanbo Hu, Minglei Yin, Bin Liu, Xin Li, Yanfang Ye(参考訳) instagramやtwitterといったソーシャルメディアは、違法薬物のマーケティングや販売の重要なプラットフォームとなっている。 オンライン違法薬物取引の検出は、違法薬物のオンライン取引と戦うために重要になっている。 しかし、法的地位はしばしば空間的・時間的に変化し、同じ薬物、連邦法、州法でもその合法性に関して異なる規則を持つことができる。 一方、より多くの麻薬密売事件は、情報の多様性につながる広告コメントの新しい形態に変装している。 そのため、ソーシャルメディアからの違法薬物密売事件(idte)の正確な検出がさらに困難になっている。 本研究では,Instagram上でのIDTEのきめ細かい検出に関する最初の系統的研究を行う。 マルチモーダルidte(mm-idte)と呼ばれるデータセット上でのidteの検出とその有効性を示すために,dmml(deep multimodal multilabel learning)アプローチを提案する。 具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。 BERTの成功にインスパイアされた我々は,予め訓練されたテキストと画像エンコーダを併用して,自己制御型双方向変換器を開発した。 我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。 MM-IDTEデータセットの大規模な実験結果から, DMML法では, 特別な文字やスタイル変化があってもIDTEを正確に検出できることがわかった。

Social media such as Instagram and Twitter have become important platforms for marketing and selling illicit drugs. Detection of online illicit drug trafficking has become critical to combat the online trade of illicit drugs. However, the legal status often varies spatially and temporally; even for the same drug, federal and state legislation can have different regulations about its legality. Meanwhile, more drug trafficking events are disguised as a novel form of advertising commenting leading to information heterogeneity. Accordingly, accurate detection of illicit drug trafficking events (IDTEs) from social media has become even more challenging. In this work, we conduct the first systematic study on fine-grained detection of IDTEs on Instagram. We propose to take a deep multimodal multilabel learning (DMML) approach to detect IDTEs and demonstrate its effectiveness on a newly constructed dataset called multimodal IDTE(MM-IDTE). Specifically, our model takes text and image data as the input and combines multimodal information to predict multiple labels of illicit drugs. Inspired by the success of BERT, we have developed a self-supervised multimodal bidirectional transformer by jointly fine-tuning pretrained text and image encoders. We have constructed a large-scale dataset MM-IDTE with manually annotated multiple drug labels to support fine-grained detection of illicit drugs. Extensive experimental results on the MM-IDTE dataset show that the proposed DMML methodology can accurately detect IDTEs even in the presence of special characters and style changes attempting to evade detection.
翻訳日:2021-08-24 11:30:02 公開日:2021-08-23
# SplitGuard: スプリットラーニングにおけるトレーニングハイジャック攻撃の検出と緩和

SplitGuard: Detecting and Mitigating Training-Hijacking Attacks in Split Learning ( http://arxiv.org/abs/2108.09052v2 )

ライセンス: Link先を確認
Ege Erdogan, Alptekin Kupcu, A. Ercument Cicek(参考訳) 分割学習のような分散ディープラーニングフレームワークは、最近、参加者のグループが生データを共有せずにディープニューラルネットワークを協調的にトレーニングできるように提案されている。 特にスプリットラーニングは、クライアントとサーバの間のニューラルネットワークを分割して、クライアントが初期レイヤを計算し、サーバが残りのレイヤを計算することで、この目標を達成する。 しかし,本手法では,クライアントのプライベートデータを盗もうとする悪意のあるサーバに対して,クライアントモデルから選択したタスクを学習するためのユニークな攻撃ベクトルを導入する。 具体的な例がすでに提案されているように、このようなトレーニングハイジャック攻撃は、スプリットラーニングクライアントのデータプライバシに重大なリスクをもたらす。 本論文では,スプリット学習クライアントが,トレーニングハイジャック攻撃の対象であるか否かを検知する手法であるSplitGuardを提案する。 我々は,その効果を実験的に評価し,その利用に関する諸点を詳細に検討した。 スプリットガードは、敵が回収した情報の量を最小限に抑えつつ、トレーニングハイジャック攻撃を効果的に検出できると結論付けた。

Distributed deep learning frameworks, such as split learning, have recently been proposed to enable a group of participants to collaboratively train a deep neural network without sharing their raw data. Split learning in particular achieves this goal by dividing a neural network between a client and a server so that the client computes the initial set of layers, and the server computes the rest. However, this method introduces a unique attack vector for a malicious server attempting to steal the client's private data: the server can direct the client model towards learning a task of its choice. With a concrete example already proposed, such training-hijacking attacks present a significant risk for the data privacy of split learning clients. In this paper, we propose SplitGuard, a method by which a split learning client can detect whether it is being targeted by a training-hijacking attack or not. We experimentally evaluate its effectiveness, and discuss in detail various points related to its use. We conclude that SplitGuard can effectively detect training-hijacking attacks while minimizing the amount of information recovered by the adversaries.
翻訳日:2021-08-24 11:28:19 公開日:2021-08-23
# メタコントラストネットワークを用いた自己教師付きビデオ表現学習

Self-Supervised Video Representation Learning with Meta-Contrastive Network ( http://arxiv.org/abs/2108.08426v2 )

ライセンス: Link先を確認
Yuanze Lin, Xun Guo, Yan Lu(参考訳) 自己教師付き学習は、事前学習領域から下流タスクへの効果的な適応を目的とした、事前訓練ビデオ表現に成功している。 既存のアプローチは、インスタンスレベルの識別を学ぶために対照的な損失を利用するだけです。 しかし、カテゴリ情報の欠如は、この種の手法の一般化能力を制約する強正の問題につながる。 メタ学習のマルチタスクプロセスは、この問題に対する解決策を提供することができる。 本稿では,既存の自己教師ありアプローチの学習能力を高めるために,コントラスト学習とメタ学習を組み合わせたメタコントラストネットワーク(mcn)を提案する。 本手法は,モデルに依存しないメタラーニング(MAML)に基づく2つの訓練段階を含む。 本手法の有効性を広範囲に評価した。 2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNはUCF101およびHMDB51データセットに対する最先端のアプローチより優れている。 より具体的に言うと、r(2+1)dバックボーンでは、ビデオアクション認識では84.8%、54.5%、ビデオ検索では52.5%、23.7%のtop-1アキュラティを達成している。

Self-supervised learning has been successfully applied to pre-train video representations, which aims at efficient adaptation from pre-training domain to downstream tasks. Existing approaches merely leverage contrastive loss to learn instance-level discrimination. However, lack of category information will lead to hard-positive problem that constrains the generalization ability of this kind of methods. We find that the multi-task process of meta learning can provide a solution to this problem. In this paper, we propose a Meta-Contrastive Network (MCN), which combines the contrastive learning and meta learning, to enhance the learning ability of existing self-supervised approaches. Our method contains two training stages based on model-agnostic meta learning (MAML), each of which consists of a contrastive branch and a meta branch. Extensive evaluations demonstrate the effectiveness of our method. For two downstream tasks, i.e., video action recognition and video retrieval, MCN outperforms state-of-the-art approaches on UCF101 and HMDB51 datasets. To be more specific, with R(2+1)D backbone, MCN achieves Top-1 accuracies of 84.8% and 54.5% for video action recognition, as well as 52.5% and 23.7% for video retrieval.
翻訳日:2021-08-24 11:28:01 公開日:2021-08-23