このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210821となっている論文です。

PDF登録状況(公開日: 20210821)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 屋内位置決めシステムにおける教師なし移動検出 [全文訳有]

Unsupervised Movement Detection in Indoor Positioning Systems ( http://arxiv.org/abs/2109.10757v1 )

ライセンス: CC BY 4.0
Jonathan Flossdorf, Anne Meyer, Dmitri Artjuch, Jaques Schneider, Carsten Jentsch(参考訳) 近年では製造工程における室内位置決めシステムの利用が盛んになっている。 通常、製造ホールはセンサーの位置データを受信する衛星を備えており、部品、荷積み機、産業用トラックに固定することができる。 これにより、例えば企業が検索の労力を減らし、個々のシステムプロセスの最適化が可能になる。 本研究の文脈では,センサは移動時にのみ位置情報を送信する。 しかし、周囲の要因が乱れるなど、様々な状況がデータ送信に好ましくない影響をしばしば与えている。 これは、データ品質、エネルギー消費、システム全体の信頼性に悪影響を及ぼす。 そこで本研究では,室内システムの騒音や測定誤差の影響を受けやすいため,好ましくない信号と実際の動きを区別することを目的としている。 そこで,本課題に適した2つの非教師なし分類アルゴリズムを提案する。 興味のある問題によっては、それらは距離ベースか時間ベースの基準に依存しており、すべての必須情報を利用することができる。 さらに,両方の分類を結合し,それらを空間生産領域に集約する手法を提案する。 これにより、位置データのみを用いて、下層のプロダクションホールの包括的なマップを生成することができる。 基盤となる移動構造の分析と検出は別として、利用者は自身のシステムプロセスのより良い理解と、より効率的な位置決めシステムの使用につながる問題のあるシステム領域の検出から恩恵を受ける。 全ての手法は教師なしの技術で構築されているため、実際は手動で適用でき、位置決めシステムの出力データ以上の情報を必要としない。

In recent years, the usage of indoor positioning systems for manufacturing processes became increasingly popular. Typically, the production hall is equipped with satellites which receive position data of sensors that can be pinned on components, load carriers or industrial trucks. This enables a company e.g. to reduce search efforts and to optimize individual system processes. In our research context, a sensor only sends position information when it is moved. However, various circumstances frequently affect that data is undesirably sent, e.g. due to disrupting factors nearby. This has a negative impact on the data quality, the energy consumption, and the reliability of the whole system. Motivated by this, we aim to distinguish between actual movements and signals that were undesirably sent which is in particular challenging due to the susceptibility of indoor systems in terms of noise and measuring errors. Therefore, we propose two novel unsupervised classification algorithms suitable for this task. Depending on the question of interest, they rely either on a distance-based or on a time-based criterion, which allows to make use of all essential information. Furthermore, we propose an approach to combine both classifications and to aggregate them on spatial production areas. This enables us to generate a comprehensive map of the underlying production hall with the sole usage of the position data. Aside from the analysis and detection of the underlying movement structure, the user benefits from a better understanding of own system processes and from the detection of problematic system areas which leads to a more efficient usage of positioning systems. Since all our approaches are constructed with unsupervised techniques, they are handily applicable in practice and do not require more information than the output data of the positioning system.
翻訳日:2021-09-26 23:37:59 公開日:2021-08-21
# 深部畳み込みニューラルネットワークを高速化する数値精度に制限のある再構成可能なコプロセッサアーキテクチャ

Reconfigurable co-processor architecture with limited numerical precision to accelerate deep convolutional neural networks ( http://arxiv.org/abs/2109.03040v1 )

ライセンス: Link先を確認
Sasindu Wijeratne, Sandaruwan Jayaweera, Mahesh Dananjaya, Ajith Pasqual(参考訳) 畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。 しかし、既存のソフトウェアソリューションは効率的ではない。 そのため、多くのハードウェアアクセラレーターが実装の性能、パワー、資源利用を最適化する提案がなされている。 既存のソリューションの中で、FPGA(Field Programmable Gate Array)ベースのアーキテクチャは、スケーラビリティと開発時間の最小化とともに、より良いコスト-エネルギーパフォーマンスのトレードオフを提供します。 本稿では,CNNを高速化するモデル非依存の再構成可能コプロセッシングアーキテクチャを提案する。 我々のアーキテクチャは、最大データ並列性を利用するためのキャッシュ技術と相互接続ネットワークを備えた並列Multiply and Accumulate (MAC)ユニットで構成されている。 既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。 その結果,我々のアーキテクチャは,競争精度で資源利用の大幅な削減を実現した。 さらに,協調処理ファブリックにアクセスして層間並列性を管理するアセンブリ型マイクロインストラクションを開発し,限られた資源を再利用した。 最後に、Xilinx Virtex 7 FPGA上で最大9x9のカーネルサイズをテストし、3x3カーネルサイズで最大226.2 GOp/Sのスループットを実現した。

Convolutional Neural Networks (CNNs) are widely used in deep learning applications, e.g. visual systems, robotics etc. However, existing software solutions are not efficient. Therefore, many hardware accelerators have been proposed optimizing performance, power and resource utilization of the implementation. Amongst existing solutions, Field Programmable Gate Array (FPGA) based architecture provides better cost-energy-performa nce trade-offs as well as scalability and minimizing development time. In this paper, we present a model-independent reconfigurable co-processing architecture to accelerate CNNs. Our architecture consists of parallel Multiply and Accumulate (MAC) units with caching techniques and interconnection networks to exploit maximum data parallelism. In contrast to existing solutions, we introduce limited precision 32 bit Q-format fixed point quantization for arithmetic representations and operations. As a result, our architecture achieved significant reduction in resource utilization with competitive accuracy. Furthermore, we developed an assembly-type microinstructions to access the co-processing fabric to manage layer-wise parallelism, thereby making re-use of limited resources. Finally, we have tested our architecture up to 9x9 kernel size on Xilinx Virtex 7 FPGA, achieving a throughput of up to 226.2 GOp/S for 3x3 kernel size.
翻訳日:2021-09-12 10:54:46 公開日:2021-08-21
# (参考訳) ディープラーニングに基づく正規化(安定化)再構成アルゴリズム [全文訳有]

Regularizing (Stabilizing) Deep Learning Based Reconstruction Algorithms ( http://arxiv.org/abs/2108.13551v1 )

ライセンス: CC0 1.0
Abinash Nayak(参考訳) 逆問題は不適切であり、それを有意義に解くには正規化法を使わなければならないことはよく知られている。 伝統的に、一般的な正規化法はペナルティ化された変分アプローチである。 近年、古典的正規化再構成アプローチは(深層学習に基づく)学習的再構成アルゴリズムによって非分類化されている。 しかし、従来の正則化法とは異なり、安定性や正則化といった理論的な基盤は、そのような学習された再構成アルゴリズムでは不十分である。 したがって、これらのアルゴリズムから得られた結果は、経験的に優れているが、学習プロセスから生じる特定の不安定性や(ハロゲン化)特徴を含むため、常に完全に信頼されるとは限らない。 実際、このような学習アルゴリズムは、データ内の小さな(逆)ノイズに非常に影響を受けやすく、回収された解に深刻な不安定性をもたらすことが示されており、これは、不適切な(逆)問題の本質的な不安定性とは全く異なる可能性がある。 しかし、古典正規化法はそのような(逆)ノイズをうまく処理することができ、安定した回復をもたらす。 そこで我々は,このような(不安定な)学習的再構成手法を安定化し,対向雑音の存在下でも正規化解を回復するための一定の正規化手法を提案する。 そのため、古典的な正規化の概念を拡張し、学習された再構成アルゴリズムに組み込む必要がある。 また,最も一般的な学習再建アルゴリズムである学習後再構築と学習後再構築の2つを正規化するための正規化手法を提案する。

It's well-known that inverse problems are ill-posed and to solve them meaningfully one has to employ regularization methods. Traditionally, popular regularization methods have been the penalized Variational approaches. In recent years, the classical regularized-reconstr uction approaches have been outclassed by the (deep-learning-based ) learned reconstruction algorithms. However, unlike the traditional regularization methods, the theoretical underpinnings, such as stability and regularization, have been insufficient for such learned reconstruction algorithms. Hence, the results obtained from such algorithms, though empirically outstanding, can't always be completely trusted, as they may contain certain instabilities or (hallucinated) features arising from the learned process. In fact, it has been shown that such learning algorithms are very susceptible to small (adversarial) noises in the data and can lead to severe instabilities in the recovered solution, which can be quite different than the inherent instabilities of the ill-posed (inverse) problem. Whereas, the classical regularization methods can handle such (adversarial) noises very well and can produce stable recovery. Here, we try to present certain regularization methods to stabilize such (unstable) learned reconstruction methods and recover a regularized solution, even in the presence of adversarial noises. For this, we need to extend the classical notion of regularization and incorporate it in the learned reconstruction algorithms. We also present some regularization techniques to regularize two of the most popular learning reconstruction algorithms, the Learned Post-Processing Reconstruction and the Learned Unrolling Reconstruction.
翻訳日:2021-09-05 10:24:48 公開日:2021-08-21
# ディープラーニングを用いた認知症知識発見のための弾性ネット正規化の新しい解法

A Novel Solution of an Elastic Net Regularization for Dementia Knowledge Discovery using Deep Learning ( http://arxiv.org/abs/2109.00896v1 )

ライセンス: Link先を確認
Kshitiz Shrestha, Omar Hisham Alsadoon, Abeer Alsadoon, Tarik A. Rashid, Rasha S. Ali, P.W.C. Prasad, Oday D. Jerew(参考訳) 背景と目的:MRIの正確な分類は、軽度認知障害(MCI)からアルツハイマー病(AD)への変換を正確に予測するために不可欠である。 一方、ディープラーニングは認知症病の分類と予測に成功している。 しかし,MRI画像分類の精度は低い。 本稿では,特徴選択におけるElastic Net Regularizationを用いて,ディープラーニングアーキテクチャによる分類の精度を高め,処理時間を短縮することを目的とする。 方法論:本システムは,弾性ネット正規化を用いた分類と予測の精度を高めるために,畳み込みニューラルネットワーク(cnn)から構成される。 当初、MRI画像はCNNに入力され、プール層と交互に畳み込み層を通して機能を抽出し、それから完全に接続された層を通して抽出される。 その後、抽出した特徴を原理成分分析(pca)と弾性ネット正規化により特徴選択を行う。 最後に、選択した特徴を、MRI画像の分類のためのExtreme Machine Learning (EML)への入力として使用する。 結果: 提案手法の精度は現在のシステムよりも優れていることが示された。 さらに,提案手法では,分類精度を平均で5%向上させ,処理時間を平均で30秒から40秒短縮した。 結論:提案システムは,MCIコンバータ/非コンバータ分類の精度と処理時間の改善に重点を置いている。 CNN、FreeSurfer、PCA、Elastic Net、Extreme Machine Learningを使った機能抽出、機能選択、分類で構成されている。 最後に,本研究は弾性ネット正則化を用いて精度と処理時間を向上し,分類に重要な特徴を提供する。

Background and Aim: Accurate classification of Magnetic Resonance Images (MRI) is essential to accurately predict Mild Cognitive Impairment (MCI) to Alzheimer's Disease (AD) conversion. Meanwhile, deep learning has been successfully implemented to classify and predict dementia disease. However, the accuracy of MRI image classification is low. This paper aims to increase the accuracy and reduce the processing time of classification through Deep Learning Architecture by using Elastic Net Regularization in Feature Selection. Methodology: The proposed system consists of Convolutional Neural Network (CNN) to enhance the accuracy of classification and prediction by using Elastic Net Regularization. Initially, the MRI images are fed into CNN for features extraction through convolutional layers alternate with pooling layers, and then through a fully connected layer. After that, the features extracted are subjected to Principle Component Analysis (PCA) and Elastic Net Regularization for feature selection. Finally, the selected features are used as an input to Extreme Machine Learning (EML) for the classification of MRI images. Results: The result shows that the accuracy of the proposed solution is better than the current system. In addition to that, the proposed method has improved the classification accuracy by 5% on average and reduced the processing time by 30 ~ 40 seconds on average. Conclusion: The proposed system is focused on improving the accuracy and processing time of MCI converters/non-conve rters classification. It consists of features extraction, feature selection, and classification using CNN, FreeSurfer, PCA, Elastic Net, Extreme Machine Learning. Finally, this study enhances the accuracy and the processing time by using Elastic Net Regularization, which provides important selected features for classification.
翻訳日:2021-09-05 08:54:04 公開日:2021-08-21
# 資源制約付きエッジコンピューティングシステムの最適化圧縮

Supervised Compression for Resource-constrained Edge Computing Systems ( http://arxiv.org/abs/2108.11898v1 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Ruihan Yang, Marco Levorato, Stephan Mandt(参考訳) スマートフォンやドローン、医療センサーなど、低消費電力のデバイスにディープラーニングアルゴリズムをデプロイすることに関心がある。 しかし、フルスケールのディープニューラルネットワークはエネルギーとストレージの面で資源集約的すぎることが多い。 そのため、データを圧縮して送信するエッジサーバでは、機械学習操作のバルク部が頻繁に実行される。 しかし、データ(画像など)を圧縮すると、監視されたタスクとは無関係な情報を送信する。 もうひとつの一般的なアプローチは、中間機能を圧縮しながらデバイスとサーバの間にディープネットワークを分割することである。 しかし、これまでのところ、これらの分割コンピューティング戦略は、機能圧縮に対する非効率なアプローチのため、前述のナイーブなデータ圧縮ベースラインをわずかに上回っている。 本稿では、知識蒸留とニューラルイメージ圧縮のアイデアを採用し、中間特徴表現をより効率的に圧縮する。 教師モデルと生徒モデルを用いて,エントロピー符号化に先立って確率的ボトルネックと学習可能な圧縮手法を開発した。 3つのビジョンタスクにおいて,我々のアプローチを様々なニューラルイメージと特徴圧縮ベースラインと比較し,より小さなレイテンシを維持しながら,教師付きレートゆがみ性能を向上できることを見出した。 さらに、学習した特徴表現が複数の下流タスクに役立てるように調整可能であることを示す。

There has been much interest in deploying deep learning algorithms on low-powered devices, including smartphones, drones, and medical sensors. However, full-scale deep neural networks are often too resource-intensive in terms of energy and storage. As a result, the bulk part of the machine learning operation is therefore often carried out on an edge server, where the data is compressed and transmitted. However, compressing data (such as images) leads to transmitting information irrelevant to the supervised task. Another popular approach is to split the deep network between the device and the server while compressing intermediate features. To date, however, such split computing strategies have barely outperformed the aforementioned naive data compression baselines due to their inefficient approaches to feature compression. This paper adopts ideas from knowledge distillation and neural image compression to compress intermediate feature representations more efficiently. Our supervised compression approach uses a teacher model and a student model with a stochastic bottleneck and learnable prior for entropy coding. We compare our approach to various neural image and feature compression baselines in three vision tasks and found that it achieves better supervised rate-distortion performance while also maintaining smaller end-to-end latency. We furthermore show that the learned feature representations can be tuned to serve multiple downstream tasks.
翻訳日:2021-08-29 12:13:24 公開日:2021-08-21
# Curricular SincNet:潜時空間におけるハードサンプル強調によるロバストディープ話者認識に向けて

Curricular SincNet: Towards Robust Deep Speaker Recognition by Emphasizing Hard Samples in Latent Space ( http://arxiv.org/abs/2108.10714v1 )

ライセンス: Link先を確認
Labib Chowdhury, Mustafa Kamal, Najia Hasan and Nabeel Mohammed(参考訳) ディープラーニングモデルは、話者認識などの生体認証システムにおいて、ますます好まれる選択肢となっている。 ディープニューラルネットワークアーキテクチャであるSincNetは、音声信号を直接処理できるパラメータ化されたシンク関数のために、話者認識タスクで人気を博した。 オリジナルのsincnetアーキテクチャはsoftmaxロスを使っているが、認識ベースのタスクには最適ではないかもしれない。 このような損失関数はクラス間マージンを課したり、簡単なトレーニングサンプルと難しいトレーニングサンプルを区別したりしない。 カリキュラム学習、特に角マージンに基づく損失を利用した学習は、顔認識などの他の生体計測応用において非常に成功した。 このようなカリキュラム学習に基づくテクニックの利点は、クラス間マージンを課すだけでなく、簡単でハードなサンプルを考慮に入れることだ。 本稿では,sincnetアーキテクチャを学習するためにsincnetモデルの改良版であるcurricular sincnet (cl-sincnet)を提案する。 提案モデルは,データセット内およびデータセット間評価プロトコルを用いて,複数のデータセット上で評価される。 どちらの設定でも、モデルは以前に公開された他の作業と競合する。 データセット間テストの場合、SincNetや他の公開作業と比較すると、エラー率を4倍に減らして、全体的な結果が最も良い。

Deep learning models have become an increasingly preferred option for biometric recognition systems, such as speaker recognition. SincNet, a deep neural network architecture, gained popularity in speaker recognition tasks due to its parameterized sinc functions that allow it to work directly on the speech signal. The original SincNet architecture uses the softmax loss, which may not be the most suitable choice for recognition-based tasks. Such loss functions do not impose inter-class margins nor differentiate between easy and hard training samples. Curriculum learning, particularly those leveraging angular margin-based losses, has proven very successful in other biometric applications such as face recognition. The advantage of such a curriculum learning-based techniques is that it will impose inter-class margins as well as taking to account easy and hard samples. In this paper, we propose Curricular SincNet (CL-SincNet), an improved SincNet model where we use a curricular loss function to train the SincNet architecture. The proposed model is evaluated on multiple datasets using intra-dataset and inter-dataset evaluation protocols. In both settings, the model performs competitively with other previously published work. In the case of inter-dataset testing, it achieves the best overall results with a reduction of 4\% error rate compare to SincNet and other published work.
翻訳日:2021-08-25 14:05:55 公開日:2021-08-21
# (参考訳) 有能な物体検出のためのマルチスケールエッジベースU字型ネットワーク [全文訳有]

Multi-scale Edge-based U-shape Network for Salient Object Detection ( http://arxiv.org/abs/2108.09408v1 )

ライセンス: CC BY 4.0
Han Sun, Yetong Bian, Ningzhong Liu, Huiyu Zhou(参考訳) ディープラーニングベースのサルエントオブジェクト検出手法は、大きな改善を達成している。 しかし,不適切な特徴抽出と統合が主な原因である,ぼやけた境界や不正確な位置などの予測にはまだ問題が残っている。 本稿では,様々な機能を異なるスケールで統合し,より優れた性能を実現するマルチスケールエッジベースu-shape network(meun)を提案する。 境界予測に有用な情報を抽出するために、各デコーダユニットにU字形エッジネットワークモジュールを埋め込む。 さらに、追加のダウンサンプリングモジュールは位置の不正確さを緩和する。 4つのベンチマークデータセットの実験結果から,提案手法の有効性と信頼性が示された。 マルチスケールのエッジベースのu字型ネットワークは、15の最先端のオブジェクト検出方法と比べても優れている。

Deep-learning based salient object detection methods achieve great improvements. However, there are still problems existing in the predictions, such as blurry boundary and inaccurate location, which is mainly caused by inadequate feature extraction and integration. In this paper, we propose a Multi-scale Edge-based U-shape Network (MEUN) to integrate various features at different scales to achieve better performance. To extract more useful information for boundary prediction, U-shape Edge Network modules are embedded in each decoder units. Besides, the additional down-sampling module alleviates the location inaccuracy. Experimental results on four benchmark datasets demonstrate the validity and reliability of the proposed method. Multi-scale Edge based U-shape Network also shows its superiority when compared with 15 state-of-the-art salient object detection methods.
翻訳日:2021-08-25 10:04:30 公開日:2021-08-21
# (参考訳) 2020年米大統領選挙:Twitterで女性ユーザーと男性ユーザーの分析 [全文訳有]

2020 U.S. Presidential Election: Analysis of Female and Male Users on Twitter ( http://arxiv.org/abs/2108.09416v1 )

ライセンス: CC BY 4.0
Amir Karami, Spring B. Clark, Anderson Mackenzie, Dorathea Lee, Michael Zhu, Hannah R. Boyajieff, Bailey Goldschmidt(参考訳) ソーシャルメディアは、選挙運動において、様々な問題について意見を表明するために一般に使用される。 様々なソーシャルメディアチャンネルの中で、Twitterは研究者や政治家が経済や外交政策など幅広いトピックに関する世論を探るための効率的なプラットフォームを提供している。 現在の文献は、主にユーザーの性別を考慮せずにツイートの内容を分析することに焦点を当てている。 この研究は、大量のツイートを収集、分析し、計算、ヒューマンコーディング、統計分析を用いて、2020年のアメリカ合衆国大統領選挙中に投稿された30万以上のツイートのトピックを識別し、トピックの平均重量について女性と男性のユーザーを比較する。 私たちの発見は、税や気候変動、新型コロナウイルス(covid-19)パンデミックなど、幅広いトピックに基づいています。 トピックのうち,70%以上のトピックにおいて,女性ユーザと男性ユーザの間に有意な違いがある。 本研究のアプローチは情報学,政治学,コミュニケーション学の分野での研究に役立ち,政治運動によって世論のジェンダーに基づく理解を得るのに有効である。

Social media is commonly used by the public during election campaigns to express their opinions regarding different issues. Among various social media channels, Twitter provides an efficient platform for researchers and politicians to explore public opinion regarding a wide range of topics such as economy and foreign policy. Current literature mainly focuses on analyzing the content of tweets without considering the gender of users. This research collects and analyzes a large number of tweets and uses computational, human coding, and statistical analyses to identify topics in more than 300,000 tweets posted during the 2020 U.S. presidential election and to compare female and male users regarding the average weight of the topics. Our findings are based upon a wide range of topics, such as tax, climate change, and the COVID-19 pandemic. Out of the topics, there exists a significant difference between female and male users for more than 70% of topics. Our research approach can inform studies in the areas of informatics, politics, and communication, and it can be used by political campaigns to obtain a gender-based understanding of public opinion.
翻訳日:2021-08-25 09:53:13 公開日:2021-08-21
# (参考訳) L3C-Stereo:ステレオ画像のロスレス圧縮 [全文訳有]

L3C-Stereo: Lossless Compression for Stereo Images ( http://arxiv.org/abs/2108.09422v1 )

ライセンス: CC BY 4.0
Zihao Huang, Zhe Sun, Feng Duan, Andrzej Cichocki, Peiying Ruan and Chao Li(参考訳) 多数の自動運転タスクには高精細なステレオ画像が必要であり、大量のストレージスペースを必要とする。 効率よく無損失圧縮を実行することが現実的な問題となっている。 一般に、各画素の正確な確率推定を行うのは難しい。 そこで本稿では, ワープモジュールと確率推定モジュールの2つの主要モジュールからなるマルチスケールロスレス圧縮モデルであるL3C-Stereoを提案する。 ワープモジュールは、同じドメインからの2つのビュー特徴写像を利用して、適切なビューを再構成し、正しいビューの確率推定の信頼性を向上させるために使用される不均一マップを生成する。 確率推定モジュールは、適応算術符号化のための画素単位のロジスティック混合分布を提供する。 実験では,3つのデータセットすべてにおいて,手作り圧縮法と学習ベース法を上回った。 そして, 最大偏差が圧縮効果を向上させることを示す。 さらに,本モデルの圧縮特性により,後続のステレオタスクに対して許容される品質の差マップを自然に生成する。

A large number of autonomous driving tasks need high-definition stereo images, which requires a large amount of storage space. Efficiently executing lossless compression has become a practical problem. Commonly, it is hard to make accurate probability estimates for each pixel. To tackle this, we propose L3C-Stereo, a multi-scale lossless compression model consisting of two main modules: the warping module and the probability estimation module. The warping module takes advantage of two view feature maps from the same domain to generate a disparity map, which is used to reconstruct the right view so as to improve the confidence of the probability estimate of the right view. The probability estimation module provides pixel-wise logistic mixture distributions for adaptive arithmetic coding. In the experiments, our method outperforms the hand-crafted compression methods and the learning-based method on all three datasets used. Then, we show that a better maximum disparity can lead to a better compression effect. Furthermore, thanks to a compression property of our model, it naturally generates a disparity map of an acceptable quality for the subsequent stereo tasks.
翻訳日:2021-08-25 09:40:25 公開日:2021-08-21
# (参考訳) 腫瘍内パーティショニングのための特徴表現を増強した適応的教師なし学習とグリオ芽腫の生存予測 [全文訳有]

Adaptive unsupervised learning with enhanced feature representation for intra-tumor partitioning and survival prediction for glioblastoma ( http://arxiv.org/abs/2108.09423v1 )

ライセンス: CC BY 4.0
Yifan Li, Chao Li, Yiran Wei, Stephen Price, Carola-Bibiane Sch\"onlieb, Xi Chen(参考訳) グリオ芽腫は局所的な微細構造と血管に非常に異質である。 グリオブラスト腫の空間的多様性はより正確な治療につながる可能性がある。 教師なし学習法では,Glioblastoma MRI由来の放射線学的特徴が腫瘍亜領域のセグメンテーションや生存予測に広く利用されている。 しかし、アルゴリズムの結果の信頼性は、あいまいな中間過程と、クラスタリングアルゴリズムのランダム性、特に異種患者のデータによってもたらされる不安定性の両方によってしばしば問題となる。 本稿では, 腫瘍内パーティショニングとグリオーマ生存予測のための適応型非教師なし学習手法を提案する。 K-meansのような教師なし学習アルゴリズムのクラスタリング安定性を向上させるために,新規かつ問題特異的な自動エンコーダ(FAE)を開発した。 さらに、プロセス全体をベイズ最適化(BO)技法でモデル化し、ハイパーパラメータを適度な数ステップで適応的に最適化することができるようにした。 その結果,提案手法はロバストで臨床的に関連するmriサブリージョンと統計的に有意な生存予測を生成できることがわかった。

Glioblastoma is profoundly heterogeneous in regional microstructure and vasculature. Characterizing the spatial heterogeneity of glioblastoma could lead to more precise treatment. With unsupervised learning techniques, glioblastoma MRI-derived radiomic features have been widely utilized for tumor sub-region segmentation and survival prediction. However, the reliability of algorithm outcomes is often challenged by both ambiguous intermediate process and instability introduced by the randomness of clustering algorithms, especially for data from heterogeneous patients. In this paper, we propose an adaptive unsupervised learning approach for efficient MRI intra-tumor partitioning and glioblastoma survival prediction. A novel and problem-specific Feature-enhanced Auto-Encoder (FAE) is developed to enhance the representation of pairwise clinical modalities and therefore improve clustering stability of unsupervised learning algorithms such as K-means. Moreover, the entire process is modelled by the Bayesian optimization (BO) technique with a custom loss function that the hyper-parameters can be adaptively optimized in a reasonably few steps. The results demonstrate that the proposed approach can produce robust and clinically relevant MRI sub-regions and statistically significant survival predictions.
翻訳日:2021-08-25 09:20:31 公開日:2021-08-21
# (参考訳) ARAPReg:変形可能な形状発電機を学習する正規化損失の可能性 [全文訳有]

ARAPReg: An As-Rigid-As Possible Regularization Loss for Learning Deformable Shape Generators ( http://arxiv.org/abs/2108.09432v1 )

ライセンス: CC BY 4.0
Qixing Huang, Xiangru Huang, Bo Sun, Zaiwei Zhang, Junfeng Jiang and Chandrajit Bajaj(参考訳) 本稿では,パラメトリック変形形状生成器の訓練のための教師なし損失について述べる。 鍵となる考え方は、生成した形状間の局所剛性の保存を強制することである。 本手法は,as-rigid-as possible (または arap) 変形エネルギーの近似に基づく。 本稿では,ARAPエネルギーのヘシアンスペクトル分解による教師なし損失の展開について述べる。 私たちの損失は、強固な規範を通してポーズと形の変化をうまく分離します。 損失は単純な閉形式表現を許容する。 訓練が容易で、可変オートエンコーダ(VAE)やオートデコーダ(AD)など、任意の標準世代モデルにプラグインすることができる。 実験の結果,人間,動物,骨といった様々な形状カテゴリの公開ベンチマークデータセットにおいて,既存の形状生成アプローチをかなり上回っていることがわかった。

This paper introduces an unsupervised loss for training parametric deformation shape generators. The key idea is to enforce the preservation of local rigidity among the generated shapes. Our approach builds on an approximation of the as-rigid-as possible (or ARAP) deformation energy. We show how to develop the unsupervised loss via a spectral decomposition of the Hessian of the ARAP energy. Our loss nicely decouples pose and shape variations through a robust norm. The loss admits simple closed-form expressions. It is easy to train and can be plugged into any standard generation models, e.g., variational auto-encoder (VAE) and auto-decoder (AD). Experimental results show that our approach outperforms existing shape generation approaches considerably on public benchmark datasets of various shape categories such as human, animal and bone.
翻訳日:2021-08-25 09:07:38 公開日:2021-08-21
# (参考訳) deepedgebench: エッジデバイス上のディープニューラルネットワークのベンチマーク [全文訳有]

DeepEdgeBench: Benchmarking Deep Neural Networks on Edge Devices ( http://arxiv.org/abs/2108.09457v1 )

ライセンス: CC BY 4.0
Stephan Patrick Baller, Anshul Jindal, Mohak Chadha, Michael Gerndt(参考訳) EdgeAI(Edgeコンピューティングベースの人工知能)は、厳しいレイテンシ要件を満たすために、多種多様な分散AIアプリケーションを扱うために、ここ数年、最も活発に研究されている。 一方、多くの企業は、エッジコンピューティング環境で計算ノードとして機能するために、人気のRaspberry PiやNvidiaのJetson Nanoのような、フォームファクタ(消費電力とリソースの制限)の少ないエッジデバイスをリリースしている。 エッジデバイスはコンピューティングのパワーとハードウェアのリソースで制限されているが、パフォーマンスを向上させるためにアクセラレーターによって駆動される。 したがって、AIベースのDeep Neural Networksが限られたリソースを持つデバイス上でどのように機能するかは興味深い。 本研究では,Asus Tinker Edge R, Raspberry Pi 4, Google Coral Dev Board, Nvidia Jetson Nano, そして1つのマイクロコントローラであるArduino Nano 33 BLEを,異なるディープラーニングモデルとフレームワーク上で,チップ上での4つのシステム(SoC)の推論時間と消費電力で比較した。 また,装置の消費電力,推定時間,精度を計測し,他の機器に容易に拡張できる方法を提案する。 我々の結果は、Tensorflowベースの量子化モデルでは、Google Coral Dev Boardが推論時間と消費電力の両方で最高のパフォーマンスを提供します。 計算時間の少ない部分、すなわち、計算時間 MobileNetV2の29.3%以下では、Jetson Nanoは他のデバイスよりも高速に動作している。

EdgeAI (Edge computing based Artificial Intelligence) has been most actively researched for the last few years to handle variety of massively distributed AI applications to meet up the strict latency requirements. Meanwhile, many companies have released edge devices with smaller form factors (low power consumption and limited resources) like the popular Raspberry Pi and Nvidia's Jetson Nano for acting as compute nodes at the edge computing environments. Although the edge devices are limited in terms of computing power and hardware resources, they are powered by accelerators to enhance their performance behavior. Therefore, it is interesting to see how AI-based Deep Neural Networks perform on such devices with limited resources. In this work, we present and compare the performance in terms of inference time and power consumption of the four Systems on a Chip (SoCs): Asus Tinker Edge R, Raspberry Pi 4, Google Coral Dev Board, Nvidia Jetson Nano, and one microcontroller: Arduino Nano 33 BLE, on different deep learning models and frameworks. We also provide a method for measuring power consumption, inference time and accuracy for the devices, which can be easily extended to other devices. Our results showcase that, for Tensorflow based quantized model, the Google Coral Dev Board delivers the best performance, both for inference time and power consumption. For a low fraction of inference computation time, i.e. less than 29.3% of the time for MobileNetV2, the Jetson Nano performs faster than the other devices.
翻訳日:2021-08-25 08:44:45 公開日:2021-08-21
# (参考訳) 教師なしドメイン適応のためのロバスト組立ネットワーク [全文訳有]

Robust Ensembling Network for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2108.09473v1 )

ライセンス: CC BY 4.0
Han Sun, Lei Lin, Ningzhong Liu, Huiyu Zhou(参考訳) 近年,unsupervised domain adaptation (uda)問題に対処するために,転送可能なモデルを実現するための広範な研究が提案されている。 その中でも最も一般的な手法は、ソースドメインとターゲットドメイン間の距離を短くする、逆領域適応法である。 敵対的学習は非常に効果的であるが、ネットワークの不安定性と混乱したカテゴリ情報の欠点につながる。 本稿では,情報伝達のためのグローバル情報学習にロバストな時間センシング教師ネットワークを適用した,udaのためのロバストセンシングネットワーク (ren) を提案する。 具体的には、主に教師ネットワークと生徒ネットワークを含み、標準ドメイン適応トレーニングを行い、教師ネットワークの重みを更新する。 さらに, 判別器の能力を向上させるために, 二重ネットワーク条件付き対向損失を提案する。 最後に,学生ネットワークの基本能力を向上させるために,学生ネットワークと教師ネットワークの誤りのバランスをとるために,一貫性制約を利用する。 いくつかのUDAデータセットに対する大規模な実験結果は、他の最先端UDAアルゴリズムと比較することにより、我々のモデルの有効性を実証した。

Recently, in order to address the unsupervised domain adaptation (UDA) problem, extensive studies have been proposed to achieve transferrable models. Among them, the most prevalent method is adversarial domain adaptation, which can shorten the distance between the source domain and the target domain. Although adversarial learning is very effective, it still leads to the instability of the network and the drawbacks of confusing category information. In this paper, we propose a Robust Ensembling Network (REN) for UDA, which applies a robust time ensembling teacher network to learn global information for domain transfer. Specifically, REN mainly includes a teacher network and a student network, which performs standard domain adaptation training and updates weights of the teacher network. In addition, we also propose a dual-network conditional adversarial loss to improve the ability of the discriminator. Finally, for the purpose of improving the basic ability of the student network, we utilize the consistency constraint to balance the error between the student network and the teacher network. Extensive experimental results on several UDA datasets have demonstrated the effectiveness of our model by comparing with other state-of-the-art UDA algorithms.
翻訳日:2021-08-25 08:19:59 公開日:2021-08-21
# (参考訳) MimicBot:ImitationとReinforcement Learningを組み合わせてBot Bowlで優勝 [全文訳有]

MimicBot: Combining Imitation and Reinforcement Learning to win in Bot Bowl ( http://arxiv.org/abs/2108.09478v1 )

ライセンス: CC BY 4.0
Nicola Pezzotti(参考訳) 本稿では,Bot Bowl IIIコンペティションに参加したFantasy Football AIでプレイするように訓練されたハイブリッドエージェントについて述べる。 エージェントであるMimicBotは、特別に設計されたディープポリシーネットワークを使用して実装され、模倣と強化学習の組み合わせを使って訓練される。 このような文脈で強化学習アプローチを用いた以前の試みは、いくつかの理由で失敗した。 環境に内在するランダム性と、利用可能なアクションの数が大きくて不均一であるため、カリキュラム学習アプローチは、ランダムに支払われるエージェントを一貫して打ち負かせない。 現在、機械学習のアプローチは、ゲーム上のドメイン知識を利用するスクリプトボットを打ち負かすことはできない。 私たちのソリューションは、模倣学習とハイブリッド意思決定プロセスのおかげで、一貫してこのようなスクリプトエージェントを破ります。 さらに,強化学習環境において,サンプル効率を劇的に向上させながら,より効率的にトレーニングする方法を考察した。 MimicBotはBot Bowl IIIコンペティションの勝者であり、現在最先端のソリューションである。

This paper describe an hybrid agent trained to play in Fantasy Football AI which participated in the Bot Bowl III competition. The agent, MimicBot, is implemented using a specifically designed deep policy network and trained using a combination of imitation and reinforcement learning. Previous attempts in using a reinforcement learning approach in such context failed for a number of reasons, e.g. due to the intrinsic randomness in the environment and the large and uneven number of actions available, with a curriculum learning approach failing to consistently beat a randomly paying agent. Currently no machine learning approach can beat a scripted bot which makes use of the domain knowledge on the game. Our solution, thanks to an imitation learning and a hybrid decision-making process, consistently beat such scripted agents. Moreover we shed lights on how to more efficiently train in a reinforcement learning setting while drastically increasing sample efficiency. MimicBot is the winner of the Bot Bowl III competition, and it is currently the state-of-the-art solution.
翻訳日:2021-08-25 08:08:10 公開日:2021-08-21
# (参考訳) Grid-VLP:ビジョンランゲージ事前トレーニングのためのグリッド機能の再検討 [全文訳有]

Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training ( http://arxiv.org/abs/2108.09479v1 )

ライセンス: CC BY 4.0
Ming Yan, Haiyang Xu, Chenliang Li, Bin Bi, Junfeng Tian, Min Gui and Wei Wang(参考訳) 視覚言語前訓練(vlp)に対する既存のアプローチは、境界ボックス(領域)に基づいた物体検出器に強く依存しており、最初に画像からサルエントオブジェクトを検出し、その後、トランスフォーマティブベースのモデルを使用してクロスモーダル融合を行う。 優れた性能にもかかわらず、これらのアプローチは有効性と効率の両面で対象検出器の能力に縛られている。 さらに、オブジェクト検出の存在はモデル設計に不必要な制約を課し、エンドツーエンドのトレーニングをサポートするのが難しくなる。 本稿では,視覚言語事前学習のためのグリッドベースの畳み込み機能を再検討し,高価な地域関連ステップをスキップする。 本稿では,グリッド機能と驚くほどうまく連携する,単純かつ効果的なグリッドベースVLP法を提案する。 ドメイン内データセットのみを事前学習することにより,提案手法は,3つの視覚言語理解タスクにおいて,最も競争力のある領域ベースのVLP手法より優れている。 本研究の成果は,視覚言語プレトレーニング技術の進歩に寄与し,より効果的かつ効率的なVLPに向けた新たな方向性を提供することを願っている。

Existing approaches to vision-language pre-training (VLP) heavily rely on an object detector based on bounding boxes (regions), where salient objects are first detected from images and then a Transformer-based model is used for cross-modal fusion. Despite their superior performance, these approaches are bounded by the capability of the object detector in terms of both effectiveness and efficiency. Besides, the presence of object detection imposes unnecessary constraints on model designs and makes it difficult to support end-to-end training. In this paper, we revisit grid-based convolutional features for vision-language pre-training, skipping the expensive region-related steps. We propose a simple yet effective grid-based VLP method that works surprisingly well with the grid features. By pre-training only with in-domain datasets, the proposed Grid-VLP method can outperform most competitive region-based VLP methods on three examined vision-language understanding tasks. We hope that our findings help to further advance the state of the art of vision-language pre-training, and provide a new direction towards effective and efficient VLP.
翻訳日:2021-08-25 07:50:01 公開日:2021-08-21
# (参考訳) yseop at finsim-3 shared task 2021: specializing financial domain learning with phrase representations [全文訳有]

Yseop at FinSim-3 Shared Task 2021: Specializing Financial Domain Learning with Phrase Representations ( http://arxiv.org/abs/2108.09485v1 )

ライセンス: CC BY 4.0
Hanna Abi Akl, Dominique Mariko, Hugues de Mazancourt(参考訳) 本稿では,FinSim-3共有タスク2021:財務分野のセマンティック類似性を学ぶためのアプローチを提案する。 この共有タスクの目的は、金融ドメインから与えられた用語のリストを、外部オントロジーにおいて最も関連するハイパーnym(またはトップレベル)概念に正しく分類することである。 そこで,本研究では,カスタムコーパス上で事前学習した文-roberta(sroberta)埋め込みモデルと,ファストテキストモデルを用いて提案するベースライン単語埋め込み構造を改善し,分類性能を向上させる2つの文-sentence埋め込みモデルの評価を行った。 両指標で総合2位、平均精度で0.917、平均ランクで1.141。

In this paper, we present our approaches for the FinSim-3 Shared Task 2021: Learning Semantic Similarities for the Financial Domain. The aim of this shared task is to correctly classify a list of given terms from the financial domain into the most relevant hypernym (or top-level) concept in an external ontology. For our system submission, we evaluate two methods: a Sentence-RoBERTa (SRoBERTa) embeddings model pre-trained on a custom corpus, and a dual word-sentence embeddings model that builds on the first method by improving the proposed baseline word embeddings construction using the FastText model to boost the classification performance. Our system ranks 2nd overall on both metrics, scoring 0.917 on Average Accuracy and 1.141 on Mean Rank.
翻訳日:2021-08-25 07:42:00 公開日:2021-08-21
# (参考訳) flikcer - リアルタイム輝度周波数解析によるオンラインてんかん原性視覚コンテンツを解決するためのchromeエクステンション [全文訳有]

Flikcer -- A Chrome Extension to Resolve Online Epileptogenic Visual Content with Real-Time Luminance Frequency Analysis ( http://arxiv.org/abs/2108.09491v1 )

ライセンス: CC BY 4.0
Jaisal Kothari, Ashay Srivastava(参考訳) 映像コンテンツの輝度変動が速いか、あるいはてんかん原性視覚コンテンツと呼ばれる高コントラストの空間パターンが、感光性てんかんの視聴者に発作を誘発し、さらにこの疾患の影響を受けないユーザーに不快感を引き起こすこともある。 flikcerはwebサイトとchromeエクステンションという形で、ビデオのてんかん的なコンテンツを解決しようとするウェブアプリだ。 これは発作の可能性のあるトリガーの数を提供する。 また、これらのトリガーのタイムスタンプや、ビデオのより安全なバージョンも無料でダウンロードできる。 アルゴリズムはpythonで書かれており、機械学習とコンピュータビジョンを使用している。 このアルゴリズムの重要な側面は計算効率であり、利用者のリアルタイムな実装を可能にする。

Video content with fast luminance variations, or with spatial patterns of high contrast - referred to as epileptogenic visual content - may induce seizures on viewers with photosensitive epilepsy, and even cause discomfort in users not affected by this disease. Flikcer is a web app in the form of a website and chrome extension which aims to resolve epileptic content in videos. It provides the number of possible triggers for a seizure. It also provides the timestamps for these triggers along with a safer version of the video, free to download. The algorithm is written in Python and uses machine learning and computer vision. A key aspect of the algorithm is its computational efficiency, allowing real time implementation for public users.
翻訳日:2021-08-25 07:34:50 公開日:2021-08-21
# (参考訳) 文書アライメントのための多言語文類似度測定におけるメトリック学習 [全文訳有]

Metric Learning in Multilingual Sentence Similarity Measurement for Document Alignment ( http://arxiv.org/abs/2108.09495v1 )

ライセンス: CC BY 4.0
Charith Rajitha, Lakmali Piyarathne, Dilan Sachintha, Surangika Ranathunga(参考訳) 多言語文表現に基づく文書アライメント技術は,最近,その成果が示された。 しかし、これらの手法は教師なし距離測定技術に依存しており、手作業では微調整できない。 本稿では,これらの教師なし距離測定手法の代わりに,タスク固有距離測定の導出にメトリックラーニングを用いる。 これらの測定は教師あり、つまり距離測定メトリックは並列データセットを使って訓練される。 3つの異なる言語族に属する英語、シンハラ語、タミル語に属するデータセットを用いて、これらのタスク固有の教師付き距離学習メトリクスが、教師なし距離学習指標よりもドキュメントアライメントに優れていることを示す。

Document alignment techniques based on multilingual sentence representations have recently shown state of the art results. However, these techniques rely on unsupervised distance measurement techniques, which cannot be fined-tuned to the task at hand. In this paper, instead of these unsupervised distance measurement techniques, we employ Metric Learning to derive task-specific distance measurements. These measurements are supervised, meaning that the distance measurement metric is trained using a parallel dataset. Using a dataset belonging to English, Sinhala, and Tamil, which belong to three different language families, we show that these task-specific supervised distance learning metrics outperform their unsupervised counterparts, for document alignment.
翻訳日:2021-08-25 07:23:51 公開日:2021-08-21
# (参考訳) 文書間の関係抽出のための階層型エンティティグラフ畳み込みネットワーク [全文訳有]

A Hierarchical Entity Graph Convolutional Network for Relation Extraction across Documents ( http://arxiv.org/abs/2108.09505v1 )

ライセンス: CC0 1.0
Tapas Nayak and Hwee Tou Ng(参考訳) 関係抽出のための遠方の教師付きデータセットは、主に文レベルの抽出に焦点を当てており、関係性が非常に少ない。 本稿では,関係タプルの2つの実体が,共通実体の連鎖を介して連結された2つの異なる文書に現れるクロスドキュメント関係抽出を提案する。 このアイデアに従い、各チェーンが正確に2つのドキュメントを含む2つのホップ関係抽出のためのデータセットを作成する。 提案するデータセットは,公開可能な文レベルのデータセットよりも高い関係性をカバーする。 また,この課題に対する階層型エンティティグラフ畳み込みネットワーク(HEGCN)モデルを提案する。

Distantly supervised datasets for relation extraction mostly focus on sentence-level extraction, and they cover very few relations. In this work, we propose cross-document relation extraction, where the two entities of a relation tuple appear in two different documents that are connected via a chain of common entities. Following this idea, we create a dataset for two-hop relation extraction, where each chain contains exactly two documents. Our proposed dataset covers a higher number of relations than the publicly available sentence-level datasets. We also propose a hierarchical entity graph convolutional network (HEGCN) model for this task that improves performance by 1.1\% F1 score on our two-hop relation extraction dataset, compared to some strong neural baselines.
翻訳日:2021-08-25 07:14:28 公開日:2021-08-21
# (参考訳) テンソル場上の学習変換のための回転同変ニューラル演算子(例えば3次元画像とベクトル場) [全文訳有]

Rotationally Equivariant Neural Operators for Learning Transformations on Tensor Fields (eg 3D Images and Vector Fields) ( http://arxiv.org/abs/2108.09541v1 )

ライセンス: CC BY 4.0
Paul Shen, Michael Herbst, Venkat Viswanathan(参考訳) テンソル場の集合間の変換および回転同変変換と同様に、学習分解不変量に対する同変ニューラルネットワークを導入する。 入力と出力はスカラー場、ベクトル場、二階テンソル場、高階場の任意の混合を含むことができる。 我々のテンソル場畳み込み層は任意の線型作用素をエミュレートし、そのインパルス応答やグリーン関数を畳み込み核として学習する。 テンソル場注目層は局所テンソル積を介してペアワイズ場結合をエミュレートする。 畳み込みとそれに付随する随伴体は実あるいはフーリエ空間に存在し、線形スケーリングが可能である。 E3NN, TBNN, FNOの概念を統一することにより, 工学および量子化学における幅広いPDEおよび力学系の予測性能が向上する。 コードはJuliaにあり、著者からの要望に応じて入手できる。

We introduce equivariant neural operators for learning resolution invariant as well as translation and rotation equivariant transformations between sets of tensor fields. Input and output may contain arbitrary mixes of scalar fields, vector fields, second order tensor fields and higher order fields. Our tensor field convolution layers emulate any linear operator by learning its impulse response or Green's function as the convolution kernel. Our tensor field attention layers emulate pairwise field coupling via local tensor products. Convolutions and associated adjoints can be in real or Fourier space allowing for linear scaling. By unifying concepts from E3NN, TBNN and FNO, we achieve good predictive performance on a wide range of PDEs and dynamical systems in engineering and quantum chemistry. Code is in Julia and available upon request from authors.
翻訳日:2021-08-25 07:03:22 公開日:2021-08-21
# (参考訳) 時空間データマニフォールドの連成特性 [全文訳有]

Joint Characterization of Spatiotemporal Data Manifolds ( http://arxiv.org/abs/2108.09545v1 )

ライセンス: CC BY 4.0
Daniel Sousa and Christopher Small(参考訳) 時空間(ST)画像データはますます一般的になり、しばしば高次元(高次元)である。 STデータのモデリングは、独立して相互作用するプロセスが多々存在するため、測定に寄与するかもしれないし、貢献しないかもしれない。 キャラクタリゼーションは、生成過程とそのデータ表現に関する仮定の導出を支援することによって、モデリングの補完と見なすことができる。 次元減少(DR)は、高次元信号の「次元の曲線」を緩和するためにしばしば実装される特徴である。 長年にわたり、主成分(PC)と経験直交関数(EOF)分析は、DRおよびST分析に対する線形で可逆的なアプローチとして用いられてきた。 近年、非線形drアルゴリズムのスイートが開発され、しばしば"manifold learning"と分類されている。 ここでは、ラプラシアン固有写像 (LE) と t-分散確率的隣接埋め込み (t-SNE) の2つの非線形DRアプローチとともに、PC/EOFを用いたSTデータ多様体の合同特徴づけについて検討する。 合成例から始まり,空間で約5桁,時間で2桁のstデータセットを大域的,地域的,フィールドスケールに展開し,これら3つのdrアプローチがst多様体トポロジーに関する補完的情報が得られることを示す。 PCs/EOFs による比較的拡散したTFS と比較して、非線形アプローチは、時間的終端部材 (LE) および/または時空間クラスタリング (t-SNE) におけるあいまいさを減少させたよりコンパクトな多様体を生成する。 これらの特性は、LEやt-SNEよりも高い解釈可能性、計算要求の大幅な低減、PC/EOFの空間エイリアスに対する感度の低下によって補償される。 総合的に考えると, 単一のアプローチだけで, 生成st過程をより深く把握できる3つの相補的なdrアプローチを用いた共同キャラクタリゼーションを見いだすことができる。

Spatiotemporal (ST) image data are increasingly common and often high-dimensional (high-D). Modeling ST data can be a challenge due to the plethora of independent and interacting processes which may or may not contribute to the measurements. Characterization can be considered the complement to modeling by helping guide assumptions about generative processes and their representation in the data. Dimensionality reduction (DR) is a frequently implemented type of characterization designed to mitigate the "curse of dimensionality" on high-D signals. For decades, Principal Component (PC) and Empirical Orthogonal Function (EOF) analysis has been used as a linear, invertible approach to DR and ST analysis. Recent years have seen the additional development of a suite of nonlinear DR algorithms, frequently categorized as "manifold learning". Here, we explore the idea of joint characterization of ST data manifolds using PCs/EOFs alongside two nonlinear DR approaches: Laplacian Eigenmaps (LE) and t-distributed stochastic neighbor embedding (t-SNE). Starting with a synthetic example and progressing to global, regional, and field scale ST datasets spanning roughly 5 orders of magnitude in space and 2 in time, we show these three DR approaches can yield complementary information about ST manifold topology. Compared to the relatively diffuse TFS produced by PCs/EOFs, the nonlinear approaches yield more compact manifolds with decreased ambiguity in temporal endmembers (LE) and/or in spatiotemporal clustering (t-SNE). These properties are compensated by the greater interpretability, significantly lower computational demand and diminished sensitivity to spatial aliasing for PCs/EOFs than LE or t-SNE. Taken together, we find joint characterization using the three complementary DR approaches capable of greater insight into generative ST processes than possible using any single approach alone.
翻訳日:2021-08-25 06:59:04 公開日:2021-08-21
# (参考訳) ピカチュウはどうですか。 Pok\emon ワード埋め込みデータによる Pok\emon プロパティの収集とランク付け [全文訳有]

How Cute is Pikachu? Gathering and Ranking Pok\'emon Properties from Data with Pok\'emon Word Embeddings ( http://arxiv.org/abs/2108.09546v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen, Khalid Alnajjar and Niko Partanen(参考訳) 我々は,151個のオリジナル pok\'emon に対して,記述性を自動的に得るための異なる方法を提案する。 クロールしたPok\'emonコーパス上に複数の単語埋め込みモデルをトレーニングし、与えられたPok\'emonにどのような特徴があるかに基づいて、自動的に英語の形容詞をランク付けする。 我々の実験に基づいて、事前訓練されたモデルを使用するよりも、ドメイン固有のデータでモデルをトレーニングする方がよい。 Word2Vecは、結果においてfastTextモデルよりもノイズが少ない。 さらに、各Pok\'emonのプロパティのリストを自動的に拡張します。 しかし、いずれの手法も見つからず、異なるセマンティックモデルにはかなりのノイズがある。 私たちのモデルはZenodoでリリースされました。

We present different methods for obtaining descriptive properties automatically for the 151 original Pok\'emon. We train several different word embeddings models on a crawled Pok\'emon corpus, and use them to rank automatically English adjectives based on how characteristic they are to a given Pok\'emon. Based on our experiments, it is better to train a model with domain specific data than to use a pretrained model. Word2Vec produces less noise in the results than fastText model. Furthermore, we expand the list of properties for each Pok\'emon automatically. However, none of the methods is spot on and there is a considerable amount of noise in the different semantic models. Our models have been released on Zenodo.
翻訳日:2021-08-25 06:43:56 公開日:2021-08-21
# (参考訳) 熱可視顔認証のための合成手法 [全文訳有]

A Synthesis-Based Approach for Thermal-to-Visible Face Verification ( http://arxiv.org/abs/2108.09558v1 )

ライセンス: CC BY 4.0
Neehar Peri, Joshua Gleason, Carlos D. Castillo, Thirimachos Bourlai, Vishal M. Patel, Rama Chellappa(参考訳) 近年,検査官の認識性能に適合する可視分光顔認証システムが提案されている。 しかし、このようなシステムは低照度や夜間では効果がない。 体温を吸収する熱顔画像は、可視光スペクトルを効果的に増強し、照明が制限されたシーンで識別可能な顔の特徴を捉える。 コストの増大と多様な熱スペクトルと可視スペクトルデータセットの取得の困難さから、アルゴリズムや低光度認識のための大規模ベンチマークは限られている。 本稿では,ARL-VTFとTUFTSの両方のマルチスペクトル顔データに対して,最先端の性能を実現するアルゴリズムを提案する。 さらに,マルチスペクトル顔合成と検証のためのラベル平滑化による顔アライメント,ピクセルレベル対応,アイデンティティ分類の影響について検討した。 提案手法は広く適用可能であり,堅牢であり,かつ高い有効性を示す。 また,提案手法は,プロファイル対フロント検証において,フェイスフロント化法を有意に上回っていることを示す。 最後にmilab-vtf(b)を提案する。これは対のサーマルビデオと可視ビデオで構成される、挑戦的なマルチスペクトル顔データセットである。 私たちの知る限りでは、400人の被験者による顔データとともに、このデータセットは、屋内および長距離の熱可視性顔画像の最も広範なコレクションである。 最後に,MILAB-VTF(B)データセットに対して,エンドツーエンドのサーマル・トゥ・ザ・ヴィジュアブル・フェース・検証システムにより高い性能が得られることを示す。

In recent years, visible-spectrum face verification systems have been shown to match expert forensic examiner recognition performance. However, such systems are ineffective in low-light and nighttime conditions. Thermal face imagery, which captures body heat emissions, effectively augments the visible spectrum, capturing discriminative facial features in scenes with limited illumination. Due to the increased cost and difficulty of obtaining diverse, paired thermal and visible spectrum datasets, algorithms and large-scale benchmarks for low-light recognition are limited. This paper presents an algorithm that achieves state-of-the-art performance on both the ARL-VTF and TUFTS multi-spectral face datasets. Importantly, we study the impact of face alignment, pixel-level correspondence, and identity classification with label smoothing for multi-spectral face synthesis and verification. We show that our proposed method is widely applicable, robust, and highly effective. In addition, we show that the proposed method significantly outperforms face frontalization methods on profile-to-frontal verification. Finally, we present MILAB-VTF(B), a challenging multi-spectral face dataset that is composed of paired thermal and visible videos. To the best of our knowledge, with face data from 400 subjects, this dataset represents the most extensive collection of publicly available indoor and long-range outdoor thermal-visible face imagery. Lastly, we show that our end-to-end thermal-to-visible face verification system provides strong performance on the MILAB-VTF(B) dataset.
翻訳日:2021-08-25 06:34:29 公開日:2021-08-21
# (参考訳) 連続学習における主勾配方向と信頼貯留層サンプリング [全文訳有]

Principal Gradient Direction and Confidence Reservoir Sampling for Continual Learning ( http://arxiv.org/abs/2108.09592v1 )

ライセンス: CC BY 4.0
Zhiyi Chen and Tong Lin(参考訳) タスクフリーオンライン連続学習は、非IDデータストリーム上の学習者の破滅的な忘れを緩和することを目的としている。 Experience Replay (ER) はSOTA連続学習法であり、他のリプレイ手法のバックボーンアルゴリズムとして広く使われている。 しかし, ERのトレーニング戦略は, リプレイされた例を十分に活用するには単純すぎるため, 貯水池のサンプリング戦略も最適ではない。 本研究では,ERを特別な場合とみなすことのできる一般近位勾配フレームワークを提案する。 さらに,主グラディエント方向(PGD)と信頼性貯留層サンプリング(CRS)の2つの改良点を提案する。 主勾配方向において,過去の勾配の大きな寄与を表すだけでなく,現在の勾配に関する新たな知識も保持する目標勾配を最適化する。 次に、保存されたサンプルの値を測定するマージンベースのメトリックに基づいて、より有益なメモリバッファを維持するための信頼度リザーバサンプリングを示す。 このアルゴリズムは平均精度を7.9%まで向上させ、4つのデータセットで最大15.4%まで忘れてしまうという、soma erベースの手法であるmir-replayの性能を一貫して向上させる。

Task-free online continual learning aims to alleviate catastrophic forgetting of the learner on a non-iid data stream. Experience Replay (ER) is a SOTA continual learning method, which is broadly used as the backbone algorithm for other replay-based methods. However, the training strategy of ER is too simple to take full advantage of replayed examples and its reservoir sampling strategy is also suboptimal. In this work, we propose a general proximal gradient framework so that ER can be viewed as a special case. We further propose two improvements accordingly: Principal Gradient Direction (PGD) and Confidence Reservoir Sampling (CRS). In Principal Gradient Direction, we optimize a target gradient that not only represents the major contribution of past gradients, but also retains the new knowledge of the current gradient. We then present Confidence Reservoir Sampling for maintaining a more informative memory buffer based on a margin-based metric that measures the value of stored examples. Experiments substantiate the effectiveness of both our improvements and our new algorithm consistently boosts the performance of MIR-replay, a SOTA ER-based method: our algorithm increases the average accuracy up to 7.9% and reduces forgetting up to 15.4% on four datasets.
翻訳日:2021-08-25 06:20:02 公開日:2021-08-21
# (参考訳) 長文音声対話のための階層的要約 [全文訳有]

Hierarchical Summarization for Longform Spoken Dialog ( http://arxiv.org/abs/2108.09597v1 )

ライセンス: CC BY 4.0
Daniel Li, Thomas Chen, Albert Tung, Lydia Chilton(参考訳) 私たちは毎日会話に囲まれています。 この媒体は、監査的に多様な情報ストリームを提供するが、体系的にダイアログを理解することは、しばしば非自明である。 音声対話の広汎性にもかかわらず、自動音声理解と品質情報抽出は、特に文章の散文と比較した場合、著しく貧弱である。 さらに、テキストを理解することに比べ、聴覚コミュニケーションは、話者の拡散、非公式な散文スタイル、構造の欠如など、多くの課題をもたらす。 これらの懸念はすべて、ユーザが話し言葉のドメインを理解し、ナビゲートするのに役立つ、明確にカスタマイズされた対話システムの必要性を示しています。 個々の自動音声認識(ASR)とテキスト要約法はすでに存在するが、それらは不完全な技術であり、ユーザ目的や意図、音声言語による合併症への対処も考慮していない。 その結果、2段階のASRとテキスト要約パイプラインを設計し、これらの音声認識課題を解決するためのセマンティックセグメンテーションとマージアルゴリズムを提案する。 本システムでは,ユーザが簡単にコンテンツを閲覧・ナビゲートできるだけでなく,これらの基盤技術におけるエラーからの回復も可能である。 最後に,音声を素早くスキップし,ユーザの興味のある内容を識別するツールとして,階層的な要約のユーザの好みを強調するシステムの評価を行う。

Every day we are surrounded by spoken dialog. This medium delivers rich diverse streams of information auditorily; however, systematically understanding dialog can often be non-trivial. Despite the pervasiveness of spoken dialog, automated speech understanding and quality information extraction remains markedly poor, especially when compared to written prose. Furthermore, compared to understanding text, auditory communication poses many additional challenges such as speaker disfluencies, informal prose styles, and lack of structure. These concerns all demonstrate the need for a distinctly speech tailored interactive system to help users understand and navigate the spoken language domain. While individual automatic speech recognition (ASR) and text summarization methods already exist, they are imperfect technologies; neither consider user purpose and intent nor address spoken language induced complications. Consequently, we design a two stage ASR and text summarization pipeline and propose a set of semantic segmentation and merging algorithms to resolve these speech modeling challenges. Our system enables users to easily browse and navigate content as well as recover from errors in these underlying technologies. Finally, we present an evaluation of the system which highlights user preference for hierarchical summarization as a tool to quickly skim audio and identify content of interest to the user.
翻訳日:2021-08-25 06:10:24 公開日:2021-08-21
# (参考訳) SERF:log-Softplus ERrorActivation Functionを用いたディープニューラルネットワークのより良いトレーニングを目指して [全文訳有]

SERF: Towards better training of deep neural networks using log-Softplus ERror activation Function ( http://arxiv.org/abs/2108.09598v1 )

ライセンス: CC BY 4.0
Sayan Nag, Mayukh Bhattacharyya(参考訳) アクティベーション機能は、トレーニングダイナミクスとニューラルネットワークのパフォーマンスを決定する上で重要な役割を果たす。 シンプルで有効であるにもかかわらず広く採用されているアクティベーション関数 ReLU には、Dying ReLU 問題を含むいくつかの欠点がある。 そこで本研究では,自然界において自己正規化され,非単調であるサーフと呼ばれる新しい活性化関数を提案する。 Mishと同様に、SerfもSwishファミリーに属している。 コンピュータビジョン(画像分類とオブジェクト検出)と自然言語処理(機械翻訳、感情分類、マルチモーダル・エンテーメント)の様々な実験に基づいて、SerfはReLU(ベースライン)とSwishとMishを含む他のアクティベーション機能を大きく上回っており、より深いアーキテクチャに顕著な差がある。 アブレーション研究により、serfベースのアーキテクチャは様々なシナリオにおいてswishやmishよりも優れた性能を示し、様々な深さ、複雑さ、最適化、学習率、バッチサイズ、初期化器、ドロップアウト率でserfの有効性と互換性を検証する。 最後に,SwishとSerfの数学的関係について検討し,よりスムーズかつ高速に勾配を最適化する正規化効果を提供するSerfの第1微分のプレコンディショナー関数の影響を示す。

Activation functions play a pivotal role in determining the training dynamics and neural network performance. The widely adopted activation function ReLU despite being simple and effective has few disadvantages including the Dying ReLU problem. In order to tackle such problems, we propose a novel activation function called Serf which is self-regularized and nonmonotonic in nature. Like Mish, Serf also belongs to the Swish family of functions. Based on several experiments on computer vision (image classification and object detection) and natural language processing (machine translation, sentiment classification and multimodal entailment) tasks with different state-of-the-art architectures, it is observed that Serf vastly outperforms ReLU (baseline) and other activation functions including both Swish and Mish, with a markedly bigger margin on deeper architectures. Ablation studies further demonstrate that Serf based architectures perform better than those of Swish and Mish in varying scenarios, validating the effectiveness and compatibility of Serf with varying depth, complexity, optimizers, learning rates, batch sizes, initializers and dropout rates. Finally, we investigate the mathematical relation between Swish and Serf, thereby showing the impact of preconditioner function ingrained in the first derivative of Serf which provides a regularization effect making gradients smoother and optimization faster.
翻訳日:2021-08-25 05:43:59 公開日:2021-08-21
# CushLEPOR: LABSE蒸留知識モデルを用いたカスタマイズhLEPORメトリクスによる人的判断との整合性向上

CushLEPOR: Customised hLEPOR Metric Using LABSE Distilled Knowledge Model to Improve Agreement with Human Judgements ( http://arxiv.org/abs/2108.09484v1 )

ライセンス: Link先を確認
Lifeng Han, Irina Sorokina, Gleb Erofeev, Serge Gladkoff(参考訳) 人間の評価は常に高価で、研究者は自動メトリクスを信頼できない。 そこで本稿では,事前学習型言語モデル(PLM)と限定された人間のラベル付きスコアの利点を生かして,従来のメトリクスをカスタマイズすることを提案する。 まず、hLEPORのパラメータ要素を再導入し、次に、hLEPORのパラメータの重み付けを自動的にチューニングするPythonポータブルバージョンを開発しました。 次に、LABSE蒸留知識モデルを用いて、cushLEPORが配置された正確なMT言語対に関する因子重みを自動的に最適化することにより、人間の判断とのメートル法合意を向上する、カスタマイズhLEPOR(cushLEPOR)を提案する。 また、英語とドイツ語と中国語のペアにおけるMQMおよびpSQMフレームワークに基づく評価データに対して、cushLEPORを最適化する。 実験の結果、CushLEPOR は LABSE のような PLM とのより優れた契約、MQM や pSQM などの人的評価に対するより良い合意、BLEU よりもはるかに優れたパフォーマンスをもたらすことが示されている(データは \url{https://github.com/p oethan/cushLEPOR} で入手できる)。

Human evaluation has always been expensive while researchers struggle to trust the automatic metrics. To address this, we propose to customise traditional metrics by taking advantages of the pre-trained language models (PLMs) and the limited available human labelled scores. We first re-introduce the hLEPOR metric factors, followed by the Python portable version we developed which achieved the automatic tuning of the weighting parameters in hLEPOR metric. Then we present the customised hLEPOR (cushLEPOR) which uses LABSE distilled knowledge model to improve the metric agreement with human judgements by automatically optimised factor weights regarding the exact MT language pairs that cushLEPOR is deployed to. We also optimise cushLEPOR towards human evaluation data based on MQM and pSQM framework on English-German and Chinese-English language pairs. The experimental investigations show cushLEPOR boosts hLEPOR performances towards better agreements to PLMs like LABSE with much lower cost, and better agreements to human evaluations including MQM and pSQM scores, and yields much better performances than BLEU (data available at \url{https://github.com/p oethan/cushLEPOR}).
翻訳日:2021-08-24 16:08:02 公開日:2021-08-21
# learn-explain-reinfo rce: counterfactual reasoningとアルツハイマー病診断モデル強化のための指導

Learn-Explain-Reinfo rce: Counterfactual Reasoning and Its Guidance to Reinforce an Alzheimer's Disease Diagnosis Model ( http://arxiv.org/abs/2108.09451v1 )

ライセンス: Link先を確認
Kwanseok Oh, Jee Seok Yoon, and Heung-Il Suk(参考訳) 既存の疾患診断モデルの研究は、パフォーマンス改善のための診断モデル学習や、訓練された診断モデルの視覚的説明に焦点を当てている。 本稿では、診断モデル学習、視覚的説明生成(説明単位)、視覚的説明によって導かれる訓練された診断モデル強化(強化単位)を統一する新しい学習説明強化(LEAR)フレームワークを提案する。 視覚的説明のために、入力サンプルを目的のターゲットラベルとして識別するために変換する反ファクトマップを生成する。 例えば、カウンターファクトマップは、通常の脳画像内で仮説上の異常を局在させ、アルツハイマー病(AD)と診断される可能性がある。 我々は,対象課題に関するデータ駆動型およびモデル駆動型知識,すなわち構造的MRIを用いたAD診断が,訓練された診断モデルの一般化を強化する上で重要な情報源であると考えている。 この目的のために,反事実マップの指導により注意に基づく特徴リファインメントモジュールを考案する。 説明と補強は相互に行われ、反復的に操作できる。 提案手法はadniデータセットの質的・定量的解析により検証された。 その理解性と忠実さはアブレーション研究と既存手法との比較によって実証された。

Existing studies on disease diagnostic models focus either on diagnostic model learning for performance improvement or on the visual explanation of a trained diagnostic model. We propose a novel learn-explain-reinfo rce (LEAR) framework that unifies diagnostic model learning, visual explanation generation (explanation unit), and trained diagnostic model reinforcement (reinforcement unit) guided by the visual explanation. For the visual explanation, we generate a counterfactual map that transforms an input sample to be identified as an intended target label. For example, a counterfactual map can localize hypothetical abnormalities within a normal brain image that may cause it to be diagnosed with Alzheimer's disease (AD). We believe that the generated counterfactual maps represent data-driven and model-induced knowledge about a target task, i.e., AD diagnosis using structural MRI, which can be a vital source of information to reinforce the generalization of the trained diagnostic model. To this end, we devise an attention-based feature refinement module with the guidance of the counterfactual maps. The explanation and reinforcement units are reciprocal and can be operated iteratively. Our proposed approach was validated via qualitative and quantitative analysis on the ADNI dataset. Its comprehensibility and fidelity were demonstrated through ablation studies and comparisons with existing methods.
翻訳日:2021-08-24 16:04:33 公開日:2021-08-21
# 離散高次元データを用いたベイズネットワーク同定のためのスパース構造学習アルゴリズム

A Sparse Structure Learning Algorithm for Bayesian Network Identification from Discrete High-Dimensional Data ( http://arxiv.org/abs/2108.09501v1 )

ライセンス: Link先を確認
Nazanin Shajoonnezhad, Amin Nikanjam(参考訳) 本稿では,高次元離散データから疎構造ベイズネットワークを学習する問題に対処する。 連続ベイズネットワークと比較すると、離散ベイズネットワークの学習は大きなパラメータ空間のため難しい問題である。 連続ベイズネットワークの学習には多くのアプローチが開発されているが、離散的ネットワークに対するアプローチはほとんど提案されていない。 本稿では,学習ベイズネットワークを最適化問題として扱い,空間性とDAG特性を同時に満足するスコア関数を提案する。 また,スコア関数を最適化するためにブロック方向確率座標降下アルゴリズムを実装した。 具体的には,アルゴリズムを高次元データで効率的に動作させるため,最適化アルゴリズムに分散低減法を用いる。 提案手法は,よく知られたベンチマークネットワークからの合成データに適用できる。 構築したネットワークの品質,スケーラビリティ,堅牢性を測定した。 いくつかの競合手法と比較して,本アルゴリズムは評価指標において他のアルゴリズムよりも優れていた。

This paper addresses the problem of learning a sparse structure Bayesian network from high-dimensional discrete data. Compared to continuous Bayesian networks, learning a discrete Bayesian network is a challenging problem due to the large parameter space. Although many approaches have been developed for learning continuous Bayesian networks, few approaches have been proposed for the discrete ones. In this paper, we address learning Bayesian networks as an optimization problem and propose a score function that satisfies the sparsity and the DAG property simultaneously. Besides, we implement a block-wised stochastic coordinate descent algorithm to optimize the score function. Specifically, we use a variance reducing method in our optimization algorithm to make the algorithm work efficiently in high-dimensional data. The proposed approach is applied to synthetic data from well-known benchmark networks. The quality, scalability, and robustness of the constructed network are measured. Compared to some competitive approaches, the results reveal that our algorithm outperforms the others in evaluation metrics.
翻訳日:2021-08-24 16:02:25 公開日:2021-08-21
# 確率勾配の輝きのランダム性向上は一般化を改善するか?

How Can Increased Randomness in Stochastic Gradient Descent Improve Generalization? ( http://arxiv.org/abs/2108.09507v1 )

ライセンス: Link先を確認
Arwen V. Bradley and Carlos Alberto Gomez-Uribe(参考訳) 近年の研究では、確率勾配降下(SGD)における学習率の増加やミニバッチサイズの減少がテストセット性能を向上させることが報告されている。 複数の局所ミニマを持つ損失関数を持つモデルでは、いくつかの条件下でこれを期待できる。 我々の主な貢献は、一般化におけるSGD学習率とバッチサイズの役割を研究する物理の手法に着想を得た、近似的だが解析的なアプローチである。 複数の最小値を持つ損失関数のトレーニングとテストデータ分布のシフトの下でテストセットのパフォーマンスを特徴付ける。 このシフトは単にサンプリングによって起こりうるため、一般的には実践的な応用に現れる。 その結果,局所的ミニマムの変化は曲率を上げることによってテスト性能を悪化させ,広義の局所的ミニマムの選択により一般化が向上することを示す。 次に,SGDを専門とし,静止条件下でのテスト性能について検討する。 SGDの正確な定常分布を得ることは困難であるため、SGDのFokker-Planck近似を導出し、その定常分布を得る。 このプロセスは, 最小バッチサイズで分割された学習速度が, 統計力学において温度に類似する役割を担っていることを示唆し, 定常分布を含むSGDは, 温度を一定に保った学習速度やバッチサイズの変化に大きく変化しないことを示唆している。 また,SGD温度の上昇は局所最小値の選択を低曲率で促進し,より一般化できることを示す。 我々は,SGDの温度不変性を示すCIFAR10の実験を行い,SGD温度が上昇するにつれて試験損失が向上し,この効果を駆動する際のサンプリングとドメインシフトの影響を定量化する。 最後に,2つの局所最小値による簡易な損失に我々の理論がどのように適用されるかを示す合成実験を示す。

Recent works report that increasing the learning rate or decreasing the minibatch size in stochastic gradient descent (SGD) can improve test set performance. We argue this is expected under some conditions in models with a loss function with multiple local minima. Our main contribution is an approximate but analytical approach inspired by methods in Physics to study the role of the SGD learning rate and batch size in generalization. We characterize test set performance under a shift between the training and test data distributions for loss functions with multiple minima. The shift can simply be due to sampling, and is therefore typically present in practical applications. We show that the resulting shift in local minima worsens test performance by picking up curvature, implying that generalization improves by selecting wide and/or little-shifted local minima. We then specialize to SGD, and study its test performance under stationarity. Because obtaining the exact stationary distribution of SGD is intractable, we derive a Fokker-Planck approximation of SGD and obtain its stationary distribution instead. This process shows that the learning rate divided by the minibatch size plays a role analogous to temperature in statistical mechanics, and implies that SGD, including its stationary distribution, is largely invariant to changes in learning rate or batch size that leave its temperature constant. We show that increasing SGD temperature encourages the selection of local minima with lower curvature, and can enable better generalization. We provide experiments on CIFAR10 demonstrating the temperature invariance of SGD, improvement of the test loss as SGD temperature increases, and quantifying the impact of sampling versus domain shift in driving this effect. Finally, we present synthetic experiments showing how our theory applies in a simplified loss with two local minima.
翻訳日:2021-08-24 16:02:12 公開日:2021-08-21
# BoundaryNet: 半自動レイアウトアノテーションのための高速マーキング距離マップを備えた注意深いネットワーク

BoundaryNet: An Attentive Deep Network with Fast Marching Distance Maps for Semi-automatic Layout Annotation ( http://arxiv.org/abs/2108.09433v1 )

ライセンス: Link先を確認
Abhishek Trivedi and Ravi Kiran Sarvadevabhatla(参考訳) 画像領域の正確な境界アノテーションは、領域クラスセマンティクスに依存する下流アプリケーションにとって重要である。 いくつかの文書コレクションは、アスペクト比の広い多クラス領域インスタンスと非常に不規則で重なり合う密集したレイアウトを含んでいる。 完全自動境界推定手法は、データ集約的であり、可変サイズの画像を扱うことができず、上記の画像に対する準最適結果を生成する傾向がある。 本稿では,高精度半自動レイアウトアノテーションのための新しいリサイズフリーアプローチであるバウンダリネットを提案する。 可変サイズのユーザ選択領域は、最初に注目誘導スキップネットワークにより処理される。 ネットワーク最適化は高速マーチング距離マップを介して導かれ、高品質な初期境界推定と関連する特徴表現を得る。 これらの出力は、ハウスドルフ損失を用いて最適化された残差グラフ畳み込みネットワークによって処理され、最終的な領域境界を得る。 挑戦的な画像原稿データセットの結果、BoundaryNetは強いベースラインを上回り、高品質なセマンティック領域境界を生成する。 定性的には,スクリプトシステムとレイアウトの異なる複数の文書画像データセットを,追加の微調整なしで一般化する。 BoundaryNetを文書アノテーションシステムに統合し、手動や完全自動の代替品と比較して高いアノテーションスループットを提供することを示す。

Precise boundary annotations of image regions can be crucial for downstream applications which rely on region-class semantics. Some document collections contain densely laid out, highly irregular and overlapping multi-class region instances with large range in aspect ratio. Fully automatic boundary estimation approaches tend to be data intensive, cannot handle variable-sized images and produce sub-optimal results for aforementioned images. To address these issues, we propose BoundaryNet, a novel resizing-free approach for high-precision semi-automatic layout annotation. The variable-sized user selected region of interest is first processed by an attention-guided skip network. The network optimization is guided via Fast Marching distance maps to obtain a good quality initial boundary estimate and an associated feature representation. These outputs are processed by a Residual Graph Convolution Network optimized using Hausdorff loss to obtain the final region boundary. Results on a challenging image manuscript dataset demonstrate that BoundaryNet outperforms strong baselines and produces high-quality semantic region boundaries. Qualitatively, our approach generalizes across multiple document image datasets containing different script systems and layouts, all without additional fine-tuning. We integrate BoundaryNet into a document annotation system and show that it provides high annotation throughput compared to manual and fully automatic alternatives.
翻訳日:2021-08-24 16:00:48 公開日:2021-08-21
# Palmira: 手書き手書き文字のDenseとUneven LayoutのインスタンスセグメンテーションのためのDeep Deformable Network

Palmira: A Deep Deformable Network for Instance Segmentation of Dense and Uneven Layouts in Handwritten Manuscripts ( http://arxiv.org/abs/2108.09436v1 )

ライセンス: Link先を確認
Prema Satish Sharan, Sowmya Aitha, Amandeep Kumar, Abhishek Trivedi, Aaron Augustine, Ravi Kiran Sarvadevabhatla(参考訳) 手書きの文書は、しばしば濃密で不均一なレイアウトで特徴づけられる。 進歩にもかかわらず、セマンティックレイアウトセグメンテーションのための標準的なディープネットワークベースのアプローチは、セマンティクス領域にまたがる複雑な変形に対して堅牢ではない。 この現象は、特に低リソースのインディアムリーフ原稿ドメインで顕著である。 この問題に対処するため、最初にindiscapes2を紹介します。indiscapes2は、セマンティックレイアウトアノテーションを備えた、インデックス原稿の新しい大規模多種多様なデータセットです。 Indiscapes2には4つの異なる歴史的コレクションの文書があり、前身であるIndiscapesよりも150%大きい。 また,手書き原稿中の領域の頑健な変形対応インスタンスセグメンテーションのための,新しい深層ネットワークpalmiraを提案する。 また、ハウスドルフ距離とその変種を境界対応性能尺度として報告する。 実験によりPalmiraはロバストなレイアウトを提供し、強力なベースラインアプローチやアブレーティブなバリエーションよりも優れていることが示された。 我々はまた、パルミラの一般化能力を示すために、アラビア語、東南アジア、ヘブライの歴史写本の質的な結果も含んでいる。

Handwritten documents are often characterized by dense and uneven layout. Despite advances, standard deep network based approaches for semantic layout segmentation are not robust to complex deformations seen across semantic regions. This phenomenon is especially pronounced for the low-resource Indic palm-leaf manuscript domain. To address the issue, we first introduce Indiscapes2, a new large-scale diverse dataset of Indic manuscripts with semantic layout annotations. Indiscapes2 contains documents from four different historical collections and is 150% larger than its predecessor, Indiscapes. We also propose a novel deep network Palmira for robust, deformation-aware instance segmentation of regions in handwritten manuscripts. We also report Hausdorff distance and its variants as a boundary-aware performance measure. Our experiments demonstrate that Palmira provides robust layouts, outperforms strong baseline approaches and ablative variants. We also include qualitative results on Arabic, South-East Asian and Hebrew historical manuscripts to showcase the generalization capability of Palmira.
翻訳日:2021-08-24 16:00:28 公開日:2021-08-21
# semifed:一貫性と擬似ラベル付き半教師付き連合学習

SemiFed: Semi-supervised Federated Learning with Consistency and Pseudo-Labeling ( http://arxiv.org/abs/2108.09412v1 )

ライセンス: Link先を確認
Haowen Lin, Jian Lou, Li Xiong, Cyrus Shahabi(参考訳) フェデレートラーニングは、携帯電話や組織などの複数のクライアントが、ローカルデータのプライバシーを保護しながら、予測の共有モデルを共同で学習することを可能にする。 しかし、フェデレーション学習の最近の研究と応用は、すべてのクライアントが完全なラベル付きデータを持っていると仮定している。 本研究では、各クライアントのデータサンプルを部分的にラベル付けするクロスサイロ・フェデレーション学習の新しいシナリオに焦点を当てる。 我々は,ラベル付きサンプルへのアクセスに制限があるにもかかわらず,大量のラベル付きデータを用いてモデルの精度を向上させる半教師付き学習手法のアイデアを借りる。 半教師付き学習のための2つの支配的アプローチである一貫性の正規化と擬似ラベル付けを統一したsemifedと呼ばれる新しいフレームワークを提案する。 SemiFedはまず、一貫性の正則化を強制するために高度なデータ拡張技術を適用し、トレーニング中にモデルの予測を使用して擬似ラベルを生成する。 SemiFedはフェデレーションを利用して、あるイメージに対して、異なるクライアントから複数のモデルが高信頼の予測を生成し、同じラベルに同意した場合のみ、擬似ラベルを保持する。 2つの画像ベンチマークに関する広範囲実験により,不均質および異種データ分布設定における提案手法の有効性を実証した。

Federated learning enables multiple clients, such as mobile phones and organizations, to collaboratively learn a shared model for prediction while protecting local data privacy. However, most recent research and applications of federated learning assume that all clients have fully labeled data, which is impractical in real-world settings. In this work, we focus on a new scenario for cross-silo federated learning, where data samples of each client are partially labeled. We borrow ideas from semi-supervised learning methods where a large amount of unlabeled data is utilized to improve the model's accuracy despite limited access to labeled examples. We propose a new framework dubbed SemiFed that unifies two dominant approaches for semi-supervised learning: consistency regularization and pseudo-labeling. SemiFed first applies advanced data augmentation techniques to enforce consistency regularization and then generates pseudo-labels using the model's predictions during training. SemiFed takes advantage of the federation so that for a given image, the pseudo-label holds only if multiple models from different clients produce a high-confidence prediction and agree on the same label. Extensive experiments on two image benchmarks demonstrate the effectiveness of our approach under both homogeneous and heterogeneous data distribution settings
翻訳日:2021-08-24 15:59:54 公開日:2021-08-21
# 実証学習における「逆例」

"Adversarial Examples" for Proof-of-Learning ( http://arxiv.org/abs/2108.09454v1 )

ライセンス: Link先を確認
Rui Zhang, Jian Liu, Yuan Ding, Qingbiao Wu, and Kui Ren(参考訳) S&P'21では、Jia et al。 これは、証明者がトレーニング手順の完全性を証明することによって、機械学習モデルのオーナシップを実証することを可能にする。 証明の生成において証明者が行うものよりもコスト(計算量と記憶量の両方)の低い有効な証明を構築することはできない。 PoL証明は、トレーニング中に記録された一連の中間モデルと、記録された各モデルを得るために使用される対応するデータポイントを含む。 通称、jia et al。 最終的なモデルとトレーニングデータセットを知るだけの敵は、正しいデータポイントを持つ中間モデルのセットを効率的に見つけることができないと主張した。 しかし,本稿では,PoLが「逆例」に対して脆弱であることを示す。 具体的には、敵対的な例を最適化するのと同様の方法で、任意のモデルを任意に「生成」することで、正しいデータポイントを持つ中間モデルを効率的に生成することができる。 理論的にも経験的にも、証明者による証明よりもはるかに低コストで有効な証明を生成できることを示し、PoLを破ることに成功した。

In S&P '21, Jia et al. proposed a new concept/mechanism named proof-of-learning (PoL), which allows a prover to demonstrate ownership of a machine learning model by proving integrity of the training procedure. It guarantees that an adversary cannot construct a valid proof with less cost (in both computation and storage) than that made by the prover in generating the proof. A PoL proof includes a set of intermediate models recorded during training, together with the corresponding data points used to obtain each recorded model. Jia et al. claimed that an adversary merely knowing the final model and training dataset cannot efficiently find a set of intermediate models with correct data points. In this paper, however, we show that PoL is vulnerable to "adversarial examples"! Specifically, in a similar way as optimizing an adversarial example, we could make an arbitrarily-chosen data point "generate" a given model, hence efficiently generating intermediate models with correct data points. We demonstrate, both theoretically and empirically, that we are able to generate a valid proof with significantly less cost than generating a proof by the prover, thereby we successfully break PoL.
翻訳日:2021-08-24 15:58:51 公開日:2021-08-21
# 結晶構造相マッピングの自動化:ディープラーニングと制約推論を組み合わせる

Automating Crystal-Structure Phase Mapping: Combining Deep Learning with Constraint Reasoning ( http://arxiv.org/abs/2108.09523v1 )

ライセンス: Link先を確認
Di Chen, Yiwei Bai, Sebastian Ament, Wenting Zhao, Dan Guevarra, Lan Zhou, Bart Selman, R. Bruce van Dover, John M. Gregoire, Carla P. Gomes(参考訳) 結晶構造相マッピング(英: crystal-structure phase mapping)は、合成材料における結晶構造やその混合物の同定を必要とする、材料科学における中核的で長期にわたる挑戦である。 材料科学の専門家は単純なシステムを解くことに長けているが、複雑なシステムを解くことはできない。 ここでは結晶構造位相マッピングの自動化について述べる。 我々は,教師なしパターンデミックス問題として位相マッピングを定式化し,深層推論ネットワーク(drnets)を用いてその解法を説明する。 DRNetは、科学的事前知識を組み込むための制約推論とディープラーニングを組み合わせることで、わずかな量の(ラベルのない)データしか必要としない。 DRNetは、制約推論をニューラルネットワーク最適化にシームレスに統合した結晶の混合物を管理する熱力学規則に関する豊富な事前知識を利用して、限られたデータを補償する。 DRNetは、事前知識ドメイン制約を符号化し、ニューラルネットワーク最適化に制約推論をシームレスに統合するための解釈可能な潜在空間で設計されている。 DRNetはかつての結晶構造相マッピングのアプローチを超越し、Bi-Cu-V酸化物相図を解き、太陽電池材料の発見を支援した。

Crystal-structure phase mapping is a core, long-standing challenge in materials science that requires identifying crystal structures, or mixtures thereof, in synthesized materials. Materials science experts excel at solving simple systems but cannot solve complex systems, creating a major bottleneck in high-throughput materials discovery. Herein we show how to automate crystal-structure phase mapping. We formulate phase mapping as an unsupervised pattern demixing problem and describe how to solve it using Deep Reasoning Networks (DRNets). DRNets combine deep learning with constraint reasoning for incorporating scientific prior knowledge and consequently require only a modest amount of (unlabeled) data. DRNets compensate for the limited data by exploiting and magnifying the rich prior knowledge about the thermodynamic rules governing the mixtures of crystals with constraint reasoning seamlessly integrated into neural network optimization. DRNets are designed with an interpretable latent space for encoding prior-knowledge domain constraints and seamlessly integrate constraint reasoning into neural network optimization. DRNets surpass previous approaches on crystal-structure phase mapping, unraveling the Bi-Cu-V oxide phase diagram, and aiding the discovery of solar-fuels materials.
翻訳日:2021-08-24 15:58:34 公開日:2021-08-21
# 多項式次数の多項式核の高速スケッチ

Fast Sketching of Polynomial Kernels of Polynomial Degree ( http://arxiv.org/abs/2108.09420v1 )

ライセンス: Link先を確認
Zhao Song, David P. Woodruff, Zheng Yu, Lichen Zhang(参考訳) カーネルメソッドは機械学習の基本であり、カーネル近似の高速アルゴリズムは機械学習における多くのコアタスクを直接高速化する。 多項式核は、テイラー級数展開を通じて多項式核によって近似されることが多いため、特に重要である。 最近の斜めスケッチ技術では、多項式核の指数関数から多項式への次数 q$ に対する実行時間の依存性が小さくなっており、これはガウス核にとって有用であり、q$ は多対数として選択できる。 しかし、ニューラル・タンジェントやアークコサイン・カーネルのようなよりゆっくりと成長するカーネルの場合、$q$は多項式でなければならない。 この実行時間を大幅に改善し、先行注文項の$q$への依存をなくすことにより、新たな不明瞭なスケッチを提示する。 新しいサンプリングスキームと組み合わせることで、成長の遅いカーネルの大規模なファミリーを近似するための最速のアルゴリズムを与える。

Kernel methods are fundamental in machine learning, and faster algorithms for kernel approximation provide direct speedups for many core tasks in machine learning. The polynomial kernel is especially important as other kernels can often be approximated by the polynomial kernel via a Taylor series expansion. Recent techniques in oblivious sketching reduce the dependence in the running time on the degree $q$ of the polynomial kernel from exponential to polynomial, which is useful for the Gaussian kernel, for which $q$ can be chosen to be polylogarithmic. However, for more slowly growing kernels, such as the neural tangent and arc-cosine kernels, $q$ needs to be polynomial, and previous work incurs a polynomial factor slowdown in the running time. We give a new oblivious sketch which greatly improves upon this running time, by removing the dependence on $q$ in the leading order term. Combined with a novel sampling scheme, we give the fastest algorithms for approximating a large family of slow-growing kernels.
翻訳日:2021-08-24 15:56:17 公開日:2021-08-21
# 分離学習環境における逐次確率最適化

Sequential Stochastic Optimization in Separable Learning Environments ( http://arxiv.org/abs/2108.09585v1 )

ライセンス: Link先を確認
R. Reid Bishop and Chelsea C. White III(参考訳) 我々は,様々な種類の教師付き学習概念を包含する不確実性の下での逐次的意思決定問題を考える。 これらの問題は、完全に観察された状態過程と部分的に観測された変調過程を有し、状態過程は観察過程を通してのみ変調過程に影響され、観察過程は変調過程のみを観察し、変調過程は制御に外在する。 我々は,この幅広い問題を部分観察マルコフ決定過程(pomdp)としてモデル化する。 変調過程の信念関数は制御不変であり、状態過程の制御から変調過程の推定を分離する。 We call this specially structured POMDP the separable POMDP, or SEP-POMDP, and show it (i) can serve as a model for a broad class of application areas, e.g., inventory control, finance, healthcare systems, (ii) inherits value function and optimal policy structure from a set of completely observed MDPs, (iii) can serve as a bridge between classical models of sequential decision making under uncertainty having fully specified model artifacts and such models that are not fully specified and require the use of predictive methods from statistics and machine learning, and (iv) allows for specialized approximate solution procedures.

We consider a class of sequential decision-making problems under uncertainty that can encompass various types of supervised learning concepts. These problems have a completely observed state process and a partially observed modulation process, where the state process is affected by the modulation process only through an observation process, the observation process only observes the modulation process, and the modulation process is exogenous to control. We model this broad class of problems as a partially observed Markov decision process (POMDP). The belief function for the modulation process is control invariant, thus separating the estimation of the modulation process from the control of the state process. We call this specially structured POMDP the separable POMDP, or SEP-POMDP, and show it (i) can serve as a model for a broad class of application areas, e.g., inventory control, finance, healthcare systems, (ii) inherits value function and optimal policy structure from a set of completely observed MDPs, (iii) can serve as a bridge between classical models of sequential decision making under uncertainty having fully specified model artifacts and such models that are not fully specified and require the use of predictive methods from statistics and machine learning, and (iv) allows for specialized approximate solution procedures.
翻訳日:2021-08-24 15:55:58 公開日:2021-08-21
# Integer-arithmetic-o nly Certified Robustness for Quantized Neural Networks

Integer-arithmetic-o nly Certified Robustness for Quantized Neural Networks ( http://arxiv.org/abs/2108.09413v1 )

ライセンス: Link先を確認
Haowen Lin, Jian Lou, Li Xiong and Cyrus Shahabi(参考訳) 敵対的なデータ例は、機械学習とセキュリティコミュニティから大きな注目を集めている。 反対例に取り組むための一連の研究は、理論的な堅牢性を保証するためのランダムな平滑化によって、堅牢性を保証する。 しかし、そのような機構は通常、推論の計算に浮動小数点演算を使い、大きなメモリフットプリントと計算コストを犠牲にする。 これらの防御モデルは、エッジデバイス上で効率的に動作したり、チューリングテンソルコアや整数専用ARMプロセッサのような整数専用論理ユニットにデプロイすることはできない。 これらの課題を克服するために,任意の分類器を新しいスムーズな分類器に変換するために,量子化を用いた整数ランダム化平滑化手法を提案する。 提案手法ではL2-ノルムの下で強靭性を保証する。 提案手法は,2つの異なるデータセット(CIFAR-10とCaltech-101)上の汎用CPUおよびモバイルデバイス上で,浮動小数点演算によるロバストな手法に対して,同等の精度と4倍~5倍の高速化が得られることを示す。

Adversarial data examples have drawn significant attention from the machine learning and security communities. A line of work on tackling adversarial examples is certified robustness via randomized smoothing that can provide a theoretical robustness guarantee. However, such a mechanism usually uses floating-point arithmetic for calculations in inference and requires large memory footprints and daunting computational costs. These defensive models cannot run efficiently on edge devices nor be deployed on integer-only logical units such as Turing Tensor Cores or integer-only ARM processors. To overcome these challenges, we propose an integer randomized smoothing approach with quantization to convert any classifier into a new smoothed classifier, which uses integer-only arithmetic for certified robustness against adversarial perturbations. We prove a tight robustness guarantee under L2-norm for the proposed approach. We show our approach can obtain a comparable accuracy and 4x~5x speedup over floating-point arithmetic certified robust methods on general-purpose CPUs and mobile devices on two distinct datasets (CIFAR-10 and Caltech-101).
翻訳日:2021-08-24 15:53:55 公開日:2021-08-21
# 空間適応型特徴変換による可変レート深部画像圧縮

Variable-Rate Deep Image Compression through Spatially-Adaptive Feature Transform ( http://arxiv.org/abs/2108.09551v1 )

ライセンス: Link先を確認
Myungseo Song, Jinyoung Choi, Bohyung Han(参考訳) 本研究では,空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。 本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮率をカバーする。 さらに,提案フレームワークでは,符号化ネットワークの目的タスクに特化して最適化された品質マップを効率的に推定することにより,様々なタスクに対するタスク認識画像圧縮を行うことができる。 これは、個別のタスクの別々のモデルを学ぶことなく、事前訓練されたネットワークで可能だ。 本アルゴリズムは,複数の異なるターゲットレートに対して別々に最適化された複数のモデルに基づくアプローチと比較して,優れたレートゆがみトレードオフを実現する。 同じレベルの圧縮では、モデルトレーニングを伴わずにタスク認識品質マップ推定により、画像分類とテキスト領域の品質保存の性能を向上する。 コードはプロジェクトのwebサイトで入手できる。 https://github.com/m icmic123/qmapcompres sion

We propose a versatile deep image compression network based on Spatial Feature Transform (SFT arXiv:1804.02815), which takes a source image and a corresponding quality map as inputs and produce a compressed image with variable rates. Our model covers a wide range of compression rates using a single model, which is controlled by arbitrary pixel-wise quality maps. In addition, the proposed framework allows us to perform task-aware image compressions for various tasks, e.g., classification, by efficiently estimating optimized quality maps specific to target tasks for our encoding network. This is even possible with a pretrained network without learning separate models for individual tasks. Our algorithm achieves outstanding rate-distortion trade-off compared to the approaches based on multiple models that are optimized separately for several different target rates. At the same level of compression, the proposed approach successfully improves performance on image classification and text region quality preservation via task-aware quality map estimation without additional model training. The code is available at the project website: https://github.com/m icmic123/QmapCompres sion
翻訳日:2021-08-24 15:53:37 公開日:2021-08-21
# パーソナライズ・イン・ザ・ループ文書要約に向けて

Towards Personalized and Human-in-the-Loop Document Summarization ( http://arxiv.org/abs/2108.09443v1 )

ライセンス: Link先を確認
Samira Ghodratnama(参考訳) コンピュータデバイスのユビキタス化とインターネットの普及により、大量のデータが継続的に生成されている。 したがって、与えられたトピックに関する利用可能な情報の量は、人間の処理能力をはるかに超え、情報過負荷と呼ばれるものを引き起こす。 大量の情報を効率的に処理し,ユーザにとって重要な価値を持つコンテンツを生成するためには,情報の識別,統合,要約が必要である。 データ要約は、関連する情報を収集し、より短いフォーマットに収集し、複雑な質問に答え、新しい洞察を得、概念境界を発見するのに役立つ。 本論文は,新しい要約手法を用いて情報過負荷を軽減するための3つの課題に焦点を当てている。 さらに、個人化された情報抽出を支援するために文書の分析を容易にする。 この論文は、(i)文書要約における機能工学、(ii)従来の静的および非フレキシブルな要約、(iii)伝統的な総合的な要約アプローチ、(iv)参照要約の必要性の4つの領域に研究問題を分けている。 i)自動インテリジェント機能工学の獲得,ii)柔軟でインタラクティブな要約の実現,iii)知的でパーソナライズされた要約アプローチを活用した新しいアプローチを提案する。 実験の結果,提案手法は他の最先端モデルと比較して有効性が証明された。 さらに,ネットワークトラフィックデータ,ヘルスデータ,ビジネスプロセスデータの要約を通じて,異なるドメインにおける情報過負荷問題に対する解決策を提案する。

The ubiquitous availability of computing devices and the widespread use of the internet have generated a large amount of data continuously. Therefore, the amount of available information on any given topic is far beyond humans' processing capacity to properly process, causing what is known as information overload. To efficiently cope with large amounts of information and generate content with significant value to users, we require identifying, merging and summarising information. Data summaries can help gather related information and collect it into a shorter format that enables answering complicated questions, gaining new insight and discovering conceptual boundaries. This thesis focuses on three main challenges to alleviate information overload using novel summarisation techniques. It further intends to facilitate the analysis of documents to support personalised information extraction. This thesis separates the research issues into four areas, covering (i) feature engineering in document summarisation, (ii) traditional static and inflexible summaries, (iii) traditional generic summarisation approaches, and (iv) the need for reference summaries. We propose novel approaches to tackle these challenges, by: i)enabling automatic intelligent feature engineering, ii) enabling flexible and interactive summarisation, iii) utilising intelligent and personalised summarisation approaches. The experimental results prove the efficiency of the proposed approaches compared to other state-of-the-art models. We further propose solutions to the information overload problem in different domains through summarisation, covering network traffic data, health data and business process data.
翻訳日:2021-08-24 15:51:07 公開日:2021-08-21
# 介入を用いた自律エージェントの因果モデル学習

Learning Causal Models of Autonomous Agents using Interventions ( http://arxiv.org/abs/2108.09586v1 )

ライセンス: Link先を確認
Pulkit Verma, Siddharth Srivastava(参考訳) aiシステムの広範な使用におけるいくつかの障害の1つは、そのようなシステムの安全で信頼性のある動作を保証することができる解釈可能性の要件の欠如である。 我々はエージェントアセスメントモジュールの解析を拡張し、AIシステムがシミュレータでハイレベルな命令シーケンスを実行し、アクションのシーケンスの実行についてユーザクエリに回答できるようにする。 このような原始的なクエリ応答能力は,ユーザの解釈可能なシステムの因果モデルを定常的,完全に可観測的,決定論的設定で効率的に導出するのに十分であることを示す。 また、STRIPSのようなドメインの因果構造を捉える動的因果決定ネットワーク(DCDN)を導入する。 クエリの異なるクラスの比較分析は、それらに答えるために必要な計算要件と、正しいモデルを学ぶためにそれらの応答を評価するのに必要な努力の観点からも示される。

One of the several obstacles in the widespread use of AI systems is the lack of requirements of interpretability that can enable a layperson to ensure the safe and reliable behavior of such systems. We extend the analysis of an agent assessment module that lets an AI system execute high-level instruction sequences in simulators and answer the user queries about its execution of sequences of actions. We show that such a primitive query-response capability is sufficient to efficiently derive a user-interpretable causal model of the system in stationary, fully observable, and deterministic settings. We also introduce dynamic causal decision networks (DCDNs) that capture the causal structure of STRIPS-like domains. A comparative analysis of different classes of queries is also presented in terms of the computational requirements needed to answer them and the efforts required to evaluate their responses to learn the correct model.
翻訳日:2021-08-24 15:50:45 公開日:2021-08-21
# 医療画像に対する教師なし局所識別

Unsupervised Local Discrimination for Medical Images ( http://arxiv.org/abs/2108.09440v1 )

ライセンス: Link先を確認
Huai Chen, Renzhen Wang, Jieyu Li, Qing Peng, Deyu Meng and Lisheng Wang(参考訳) 対照的表現学習は、医療画像処理における高価な注釈データの需要を軽減する効果的な教師なし手法である。 最近の研究は主に、グローバルな特徴を学習するためのケースワイドな識別に基づくが、局所的な詳細は無視され、小さな解剖学的構造、組織、病変の処理に応用が制限されている。 そこで我々は,医療モデルを効果的に初期化するための局所的識別特徴を学習するための普遍的局所的判別枠組みを提案し,その実践的応用を体系的に検討する。 具体的には、モダリティ内構造類似性の共通性、すなわち、それに基づく。 類似した構造が同じモダリティイメージで共有され、体系的な局所的特徴学習フレームワークが提案されている。 グローバル埋め込みに基づくインスタンス間比較を行う代わりに,画素間埋め込みを行い,パッチと領域間の類似度を測定することに焦点を当てた。 より微細なコントラスト則により、学習表現はセグメンテーションタスクにおいてより一般化され、カラーファンダスと胸部x線中の12個の下流タスクのうち11個を勝ち取ることにより、広範な最先端手法よりも優れる。 さらに、モダリティ間の形状類似性、すなわち、性質に基づく。 構造は類似した形状を共有できるが、異なる医療形態では、領域判別に先立って、非教師なしセグメンテーションを実現するために、異質な形状を結合する。 他のモードからの形状記述と領域識別による内部パターンの類似性のみに基づいて、セグメンテーションターゲットの実現可能性を示す。 最後に,1ショットのランドマークの局所化を実現するために,中心感性平均化を導入することにより,パッチ識別のセンタ感性を高める。

Contrastive representation learning is an effective unsupervised method to alleviate the demand for expensive annotated data in medical image processing. Recent work mainly based on instance-wise discrimination to learn global features, while neglect local details, which limit their application in processing tiny anatomical structures, tissues and lesions. Therefore, we aim to propose a universal local discrmination framework to learn local discriminative features to effectively initialize medical models, meanwhile, we systematacially investigate its practical medical applications. Specifically, based on the common property of intra-modality structure similarity, i.e. similar structures are shared among the same modality images, a systematic local feature learning framework is proposed. Instead of making instance-wise comparisons based on global embedding, our method makes pixel-wise embedding and focuses on measuring similarity among patches and regions. The finer contrastive rule makes the learnt representation more generalized for segmentation tasks and outperform extensive state-of-the-art methods by wining 11 out of all 12 downstream tasks in color fundus and chest X-ray. Furthermore, based on the property of inter-modality shape similarity, i.e. structures may share similar shape although in different medical modalities, we joint across-modality shape prior into region discrimination to realize unsupervised segmentation. It shows the feaibility of segmenting target only based on shape description from other modalities and inner pattern similarity provided by region discrimination. Finally, we enhance the center-sensitive ability of patch discrimination by introducing center-sensitive averaging to realize one-shot landmark localization, this is an effective application for patch discrimination.
翻訳日:2021-08-24 15:49:28 公開日:2021-08-21
# Sugeno Fuzzy Integral Technique を用いた頚椎細胞画像分類のためのCNN分類器のアンサンブル

Ensemble of CNN classifiers using Sugeno Fuzzy Integral Technique for Cervical Cytology Image Classification ( http://arxiv.org/abs/2108.09460v1 )

ライセンス: Link先を確認
Rohit Kundu, Hritam Basak, Akhil Koilada, Soham Chattopadhyay, Sukanta Chakraborty, Nibaran Das(参考訳) 子宮頸がんは4番目に一般的ながんのカテゴリーであり、毎年50万人以上の女性に影響を与えている。 早期診断は、がんの治療や治療にも役立つが、退屈で時間のかかる検査プロセスによって、集団検診は不可能である。 病理学者の効率的かつ信頼性の高い検出を支援するため,本報告では,子宮頸癌の単一細胞およびスライド画像の分類を行うためのコンピュータ支援診断ツールを提案する。 バイオメディカル画像分類のための自動検出ツールを開発する際の主な関心事は、公開データの可用性が低いことである。 アンサンブル学習は、画像分類の一般的なアプローチであるが、分類器に事前決定された重みを活用する単純化されたアプローチは、満足して実行できない。 本研究では,sugenoファジィ積分を用いて,インセプションv3,drknet-161,resnet -34の3つの学習モデルから決定スコアをアンサンブルする。 提案するファジィ融合は,各サンプルに対する分類器の信頼度を考慮に入れ,各分類器に与える重要度を適応的に変化させ,各サンプルから供給される補完的情報を取り込み,分類性能を向上させる。 提案手法は, mendeley liquid based cytology (lbc) dataset, sipakmed whole slide image (wsi) dataset, sipakmed single cell image (sci) datasetの3つの公開データセットにおいて評価され, 得られた結果は有望である。 GradCAMに基づく視覚表現と統計検査によるアプローチの分析と,文献における既存およびベースラインモデルとの比較は,アプローチの有効性を正当化する。

Cervical cancer is the fourth most common category of cancer, affecting more than 500,000 women annually, owing to the slow detection procedure. Early diagnosis can help in treating and even curing cancer, but the tedious, time-consuming testing process makes it impossible to conduct population-wise screening. To aid the pathologists in efficient and reliable detection, in this paper, we propose a fully automated computer-aided diagnosis tool for classifying single-cell and slide images of cervical cancer. The main concern in developing an automatic detection tool for biomedical image classification is the low availability of publicly accessible data. Ensemble Learning is a popular approach for image classification, but simplistic approaches that leverage pre-determined weights to classifiers fail to perform satisfactorily. In this research, we use the Sugeno Fuzzy Integral to ensemble the decision scores from three popular pretrained deep learning models, namely, Inception v3, DenseNet-161 and ResNet-34. The proposed Fuzzy fusion is capable of taking into consideration the confidence scores of the classifiers for each sample, and thus adaptively changing the importance given to each classifier, capturing the complementary information supplied by each, thus leading to superior classification performance. We evaluated the proposed method on three publicly available datasets, the Mendeley Liquid Based Cytology (LBC) dataset, the SIPaKMeD Whole Slide Image (WSI) dataset, and the SIPaKMeD Single Cell Image (SCI) dataset, and the results thus yielded are promising. Analysis of the approach using GradCAM-based visual representations and statistical tests, and comparison of the method with existing and baseline models in literature justify the efficacy of the approach.
翻訳日:2021-08-24 15:48:55 公開日:2021-08-21
# マスキングによるエンド2エンドの顔認識

End2End Occluded Face Recognition by Masking Corrupted Features ( http://arxiv.org/abs/2108.09468v1 )

ライセンス: Link先を確認
Haibo Qiu, Dihong Gong, Zhifeng Li, Wei Liu, Dacheng Tao(参考訳) 近年の深層畳み込みニューラルネットワークの進歩により、顔認識において大きな進歩が見られた。 しかし、最先端の一般顔認識モデルは、現実のシナリオでよく見られるような、隠蔽された顔画像にうまく当てはまらない。 潜在的な理由は、訓練用の大規模な隠蔽顔データがないことと、閉塞によって引き起こされる破損した特徴に対処するための特定の設計がないことである。 本稿では,1つのエンドツーエンドのディープニューラルネットワークに基づいて,オクルージョンに頑健な新しい顔認識手法を提案する。 私たちのアプローチは(オクルージョンマスクによる顔認識)、深層畳み込みニューラルネットワークから破損した特徴を発見し、動的に学習したマスクによってそれらをきれいにすることを学びます。 さらに,大規模な隠蔽顔画像を構築し,効果的かつ効率的に訓練する。 外部検出器に頼ってオクルージョンを発見する方法や、差別的でない浅いモデルを使う方法に比べれば、より単純だが強力である。 LFW、Megaface Challenge 1, RMF2、ARデータセットおよびその他の擬似隠蔽/マス付きデータセットの実験結果から、オクルージョン下での精度が劇的に向上し、一般的な顔認識でうまく一般化されることを確認した。

With the recent advancement of deep convolutional neural networks, significant progress has been made in general face recognition. However, the state-of-the-art general face recognition models do not generalize well to occluded face images, which are exactly the common cases in real-world scenarios. The potential reasons are the absences of large-scale occluded face data for training and specific designs for tackling corrupted features brought by occlusions. This paper presents a novel face recognition method that is robust to occlusions based on a single end-to-end deep neural network. Our approach, named FROM (Face Recognition with Occlusion Masks), learns to discover the corrupted features from the deep convolutional neural networks, and clean them by the dynamically learned masks. In addition, we construct massive occluded face images to train FROM effectively and efficiently. FROM is simple yet powerful compared to the existing methods that either rely on external detectors to discover the occlusions or employ shallow models which are less discriminative. Experimental results on the LFW, Megaface challenge 1, RMF2, AR dataset and other simulated occluded/masked datasets confirm that FROM dramatically improves the accuracy under occlusions, and generalizes well on general face recognition.
翻訳日:2021-08-24 15:48:21 公開日:2021-08-21
# 公共ウェブカメラからの3次元再構成

3D Reconstruction from public webcams ( http://arxiv.org/abs/2108.09476v1 )

ライセンス: Link先を確認
Tianyu Wu, Konrad Schindler and Cenek Albl(参考訳) 本稿では,複数のウェブカメラで捉えたシーンの3次元形状を再構成する可能性を検討する。 公開されているウェブカメラの数は増えており、毎日増えている。 論理的な疑問が生まれます - この自由データソースは、余暇活動を超えた何かに使えるのでしょうか? 課題は、これらのカメラの内部、外部、または時間的なキャリブレーションがないことである。 コンピュータビジョンの最近の進歩により、我々はカメラの校正に成功し、静的なシーンの3次元再構成を行い、移動物体の3次元軌跡を復元した。

In this paper, we investigate the possibility of reconstructing the 3D geometry of a scene captured by multiple webcams. The number of publicly accessible webcams is already large and it is growing every day. A logical question arises - can we use this free source of data for something beyond leisure activities? The challenge is that no internal, external, or temporal calibration of these cameras is available. We show that using recent advances in computer vision, we successfully calibrate the cameras, perform 3D reconstructions of the static scene and also recover the 3D trajectories of moving objects.
翻訳日:2021-08-24 15:48:00 公開日:2021-08-21
# MOTSynth: 合成データは歩行者の検知と追跡にどのように役立つか?

MOTSynth: How Can Synthetic Data Help Pedestrian Detection and Tracking? ( http://arxiv.org/abs/2108.09518v1 )

ライセンス: Link先を確認
Matteo Fabbri, Guillem Braso, Gianluca Maugeri, Orcun Cetintas, Riccardo Gasparini, Aljosa Osep, Simone Calderara, Laura Leal-Taixe, Rita Cucchiara(参考訳) ビデオ歩行者検出と追跡のためのディープラーニングに基づく手法は、優れたパフォーマンスを達成するために大量のトレーニングデータを必要とする。 しかし、混み合った公共環境におけるデータ取得は、データプライバシの懸念を引き起こす - すべての参加者の明確な同意なしに、単にデータを記録して保存することは許されない。 さらに、コンピュータビジョンアプリケーションに対するそのようなデータのアノテーションは通常、特にビデオ領域においてかなりの手作業を必要とする。 非常に混み合ったシナリオにおける歩行者のラベル付けは、人間のアノテータであっても困難であり、トレーニングデータにエラーをもたらす可能性がある。 本稿では,合成データのみを用いて多人数追跡の異なる側面を前進させる方法について検討する。 この目的のために、レンダリングゲームエンジンを用いてオブジェクトの検出と追跡のための大規模で高度に多様な合成データセットMOTSynthを生成する。 実験の結果,MOTSynthは,歩行者検出,再識別,セグメンテーション,追跡といったタスクの実際のデータを置き換えるために利用できることがわかった。

Deep learning-based methods for video pedestrian detection and tracking require large volumes of training data to achieve good performance. However, data acquisition in crowded public environments raises data privacy concerns -- we are not allowed to simply record and store data without the explicit consent of all participants. Furthermore, the annotation of such data for computer vision applications usually requires a substantial amount of manual effort, especially in the video domain. Labeling instances of pedestrians in highly crowded scenarios can be challenging even for human annotators and may introduce errors in the training data. In this paper, we study how we can advance different aspects of multi-person tracking using solely synthetic data. To this end, we generate MOTSynth, a large, highly diverse synthetic dataset for object detection and tracking using a rendering game engine. Our experiments show that MOTSynth can be used as a replacement for real data on tasks such as pedestrian detection, re-identification, segmentation, and tracking.
翻訳日:2021-08-24 15:47:48 公開日:2021-08-21
# vision transformer (vit) アーキテクチャを用いた建設監視自動化のための不均衡データセットの構築材料分類

Construction material classification on imbalanced datasets for construction monitoring automation using Vision Transformer (ViT) architecture ( http://arxiv.org/abs/2108.09527v1 )

ライセンス: Link先を確認
Maryam Soleymani, Mahdi Bonyani, Hadi Mahami, Farnad Nasirzadeh(参考訳) 今日では、自動化は建設プロジェクトの生産性に大きな影響を与えるため、重要なトピックである。 この産業における自動化の利用は、建設作業の効率、品質、安全性を著しく向上させるなど、大きな成果をもたらす。 建設における自動化の範囲は幅広い段階を含み、建設プロジェクトを監視することは例外ではない。 さらに、プロジェクト進捗の正確かつタイムリーな評価によって、マネージャはスケジュールからの逸脱を素早く識別し、必要なアクションを適切なタイミングで行うことができるので、プロジェクト管理において非常に重要です。 この段階で最も重要なタスクの1つは、プロジェクト進捗を日々追跡することであり、それは非常に時間がかかり、労働集約的ですが、自動化によってこのタスクが促進され、加速されました。 また、多くの危険なタスクのリスクを排除または少なくとも減らした。 このようにして、建設自動化の最初のステップは、プロジェクト現場で使われている材料を自動的に検出することである。 本稿では,視覚変換器(ViT)と呼ばれる新しいディープラーニングアーキテクチャを用いて,建設材料の検出と分類を行う。 提案手法の適用性および性能を評価するため, 従来の論文で用いた構成材料ライブラリ (CML) と構築材料データセット (BMD) の3つの大きな不均衡なデータセットと, それらを組み合わせて作成した新しいデータセットを用いて, 実験を行った。 得られた結果から,すべてのパラメータおよび材料カテゴリーで100%の精度が得られた。 提案手法は, 異なる材料タイプを検出し, 分類するための新しいロバストなツールであると考えられる。

Nowadays, automation is a critical topic due to its significant impacts on the productivity of construction projects. Utilizing automation in this industry brings about great results, such as remarkable improvements in the efficiency, quality, and safety of construction activities. The scope of automation in construction includes a wide range of stages, and monitoring construction projects is no exception. Additionally, it is of great importance in project management since an accurate and timely assessment of project progress enables managers to quickly identify deviations from the schedule and take the required actions at the right time. In this stage, one of the most important tasks is to daily keep track of the project progress, which is very time-consuming and labor-intensive, but automation has facilitated and accelerated this task. It also eliminated or at least decreased the risk of many dangerous tasks. In this way, the first step of construction automation is to detect used materials in a project site automatically. In this paper, a novel deep learning architecture is utilized, called Vision Transformer (ViT), for detecting and classifying construction materials. To evaluate the applicability and performance of the proposed method, it is trained and tested on three large imbalanced datasets, namely Construction Material Library (CML) and Building Material Dataset (BMD), used in the previous papers, as well as a new dataset created by combining them. The achieved results revealed an accuracy of 100 percent in all parameters and also in each material category. It is believed that the proposed method provides a novel and robust tool for detecting and classifying different material types.
翻訳日:2021-08-24 15:47:32 公開日:2021-08-21
# SSR: シングルビュー2次元から3次元再構成のための半教師付きソフトラスタライザ

SSR: Semi-supervised Soft Rasterizer for single-view 2D to 3D Reconstruction ( http://arxiv.org/abs/2108.09593v1 )

ライセンス: Link先を確認
Issam Laradji, Pau Rodr\'iguez, David Vazquez, Derek Nowrouzezahrai(参考訳) 最近の研究は、弱い監督下でのオブジェクトメッシュの学習に大きな進歩をもたらした。 ソフトラスタライズ法は2次元画像からの正確な3次元再構成を実現した。 本研究では,このような3次元復元手法がラベルなし画像を活用することで,ラベリング作業をさらに削減する。 これらのラベルのない画像の視点を得るために、2つの画像を入力として取り、同一の視点に対応するか否かを出力するSiameseネットワークを提案する。 トレーニング中、クロスエントロピー損失を最小限に抑え、一対のイメージが同じ視点に属するか否かを予測する確率を最大化する。 新しい画像の視点を得るために、トレーニングサンプルから得られた異なる視点と比較し、最も高い一致確率で視点を選択する。 ラベル付けされていない画像に最も自信のある視点でラベル付けし、異なるラスタライズ層を持つディープネットワークを訓練する。 実験の結果、2つのオブジェクトのみをラベル付けしても、未ラベルの例を利用する場合、ShapeNetのIoUは大幅に改善されることがわかった。 コードはhttps://github.com/I ssamLaradji/SSRで入手できる。

Recent work has made significant progress in learning object meshes with weak supervision. Soft Rasterization methods have achieved accurate 3D reconstruction from 2D images with viewpoint supervision only. In this work, we further reduce the labeling effort by allowing such 3D reconstruction methods leverage unlabeled images. In order to obtain the viewpoints for these unlabeled images, we propose to use a Siamese network that takes two images as input and outputs whether they correspond to the same viewpoint. During training, we minimize the cross entropy loss to maximize the probability of predicting whether a pair of images belong to the same viewpoint or not. To get the viewpoint of a new image, we compare it against different viewpoints obtained from the training samples and select the viewpoint with the highest matching probability. We finally label the unlabeled images with the most confident predicted viewpoint and train a deep network that has a differentiable rasterization layer. Our experiments show that even labeling only two objects yields significant improvement in IoU for ShapeNet when leveraging unlabeled examples. Code is available at https://github.com/I ssamLaradji/SSR.
翻訳日:2021-08-24 15:47:05 公開日:2021-08-21
# フェアネスを考慮したオンラインメタラーニング

Fairness-Aware Online Meta-learning ( http://arxiv.org/abs/2108.09435v1 )

ライセンス: Link先を確認
Chen Zhao, Feng Chen, Bhavani Thuraisingham(参考訳) オンラインメタ学習(oml)は,タスクが次々に現れる逐次的な環境において,モデルパラメータ(あるいは学習の学習)よりも優れた優先順位を学習する。 このようなテクニックは、人間の知性の重要な特徴である公平さで学習することの重要性を完全に無視する。 (2)オンライン・フェアネス・アウェア・ラーニング この設定は、公平性が懸念される多くの分類問題を捉えている。 しかし、タスク固有の適応なしにゼロショット一般化を達成することを目指している。 これにより、モデルが新たに到着したデータに適応する能力が制限される。 このような問題を克服し,そのギャップを埋めるために,本稿では,不公平防止の設定下にある新しいオンラインメタ学習アルゴリズムであるFFMLを提案する。 ffmlの重要な部分は、モデルの正確性と公平性にそれぞれ関連づけられたオンラインフェア分類モデルのプライマリパラメータとデュアルパラメータの優れた事前学習である。 この問題は二値凸凹最適化の形で定式化されている。 理論解析は、損失後悔と累積公正性制約の違反に対して、サブ線形上界を与える。 実世界の3つのデータセットの分類にFFMLを適用することでFFMLの汎用性を実証し、公平性と分類精度のトレードオフに関する先行研究よりも大幅に改善したことを示す。

In contrast to offline working fashions, two research paradigms are devised for online learning: (1) Online Meta Learning (OML) learns good priors over model parameters (or learning to learn) in a sequential setting where tasks are revealed one after another. Although it provides a sub-linear regret bound, such techniques completely ignore the importance of learning with fairness which is a significant hallmark of human intelligence. (2) Online Fairness-Aware Learning. This setting captures many classification problems for which fairness is a concern. But it aims to attain zero-shot generalization without any task-specific adaptation. This therefore limits the capability of a model to adapt onto newly arrived data. To overcome such issues and bridge the gap, in this paper for the first time we proposed a novel online meta-learning algorithm, namely FFML, which is under the setting of unfairness prevention. The key part of FFML is to learn good priors of an online fair classification model's primal and dual parameters that are associated with the model's accuracy and fairness, respectively. The problem is formulated in the form of a bi-level convex-concave optimization. Theoretic analysis provides sub-linear upper bounds for loss regret and for violation of cumulative fairness constraints. Our experiments demonstrate the versatility of FFML by applying it to classification on three real-world datasets and show substantial improvements over the best prior work on the tradeoff between fairness and classification accuracy
翻訳日:2021-08-24 15:38:30 公開日:2021-08-21
# 交通事故検出のための不均衡時空間トラヒックフローデータの深い表現

Deep Representation of Imbalanced Spatio-temporal Traffic Flow Data for Traffic Accident Detection ( http://arxiv.org/abs/2108.09506v1 )

ライセンス: Link先を確認
Pouya Mehrannia, Shayan Shirahmad Gale Bagi, Behzad Moshiri, Otman Adam Al-Basir(参考訳) 交通事故の自動検出は、交通、公共安全、経路計画の改善に重要な影響を及ぼす。 事故発生から救助隊派遣までの時間の連続的な減少によって多くの命を救うことができ、またドライバーに代替ルートの選択を通知することで多くの走行時間を節約できる。 この問題は、主に事故の稀さと環境の空間的不均一性のために困難である。 本稿では,高速道路事故の自動検出のためのLong-Short Term Memory (LSTM) ネットワークを用いたループ検出データの深部表現について検討する。 LSTMベースのフレームワークは、データの次元を減らしながら、エンコードされた特徴空間におけるクラス分離性を高める。 ミネソタ州ツインシティーズ・メトロ・フリーウェイズから収集された実事故およびループ検出器データを用いた実験により、lstmネットワークを用いた交通流データの深い表現は、高速道路事故を18分以内の真の正の率 0.71 と偽の正の率 0.25 で検出できる可能性が証明された。

Automatic detection of traffic accidents has a crucial effect on improving transportation, public safety, and path planning. Many lives can be saved by the consequent decrease in the time between when the accidents occur and when rescue teams are dispatched, and much travelling time can be saved by notifying drivers to select alternative routes. This problem is challenging mainly because of the rareness of accidents and spatial heterogeneity of the environment. This paper studies deep representation of loop detector data using Long-Short Term Memory (LSTM) network for automatic detection of freeway accidents. The LSTM-based framework increases class separability in the encoded feature space while reducing the dimension of data. Our experiments on real accident and loop detector data collected from the Twin Cities Metro freeways of Minnesota demonstrate that deep representation of traffic flow data using LSTM network has the potential to detect freeway accidents in less than 18 minutes with a true positive rate of 0.71 and a false positive rate of 0.25 which outperforms other competing methods in the same arrangement.
翻訳日:2021-08-24 15:38:10 公開日:2021-08-21
# DSP-SLAM: 深い形状を持つオブジェクト指向SLAM

DSP-SLAM: Object Oriented SLAM with Deep Shape Priors ( http://arxiv.org/abs/2108.09481v1 )

ライセンス: Link先を確認
Jingwen Wang, Martin R\"unz, Lourdes Agapito(参考訳) DSP-SLAMはオブジェクト指向SLAMシステムであり,前景オブジェクトのための高密度3次元モデルのリッチで高精度な関節マップを構築し,背景を表わすランドマークポイントを疎外する。 DSP-SLAMは特徴に基づくSLAMシステムによって再構成された3次元点雲を入力として、検出された物体の密な再構成でスパースマップを強化する能力を備える。 オブジェクトはセマンティックなインスタンスセグメンテーションによって検出され、その形状とポーズはカテゴリ固有の深部形状の埋め込みを先行として、新しい2階最適化によって推定される。 我々のオブジェクト認識バンドル調整は、ポーズグラフを構築し、カメラポーズ、オブジェクト位置、特徴点を共同で最適化する。 DSP-SLAMは、モノクロ、ステレオ、ステレオ+LiDARの3つの異なる入力モードで毎秒10フレームで動作する。 本研究では,フリブルク・レッドウッド・osデータセットの単眼rgb配列とキッティオドメトリーデータセットのステレオ+ライダー配列のほぼフレームレートで動作するdsp-slamを,部分的観測からでも高品質な完全なオブジェクト再構成を実現するとともに,一貫したグローバルマップを維持しながら実証する。 KITTIデータセット上でのカメラトラッキングドリフトの低減と,近年の深部事前再構成手法によるオブジェクトのポーズと形状復元の改善を示す。

We propose DSP-SLAM, an object-oriented SLAM system that builds a rich and accurate joint map of dense 3D models for foreground objects, and sparse landmark points to represent the background. DSP-SLAM takes as input the 3D point cloud reconstructed by a feature-based SLAM system and equips it with the ability to enhance its sparse map with dense reconstructions of detected objects. Objects are detected via semantic instance segmentation, and their shape and pose is estimated using category-specific deep shape embeddings as priors, via a novel second order optimization. Our object-aware bundle adjustment builds a pose-graph to jointly optimize camera poses, object locations and feature points. DSP-SLAM can operate at 10 frames per second on 3 different input modalities: monocular, stereo, or stereo+LiDAR. We demonstrate DSP-SLAM operating at almost frame rate on monocular-RGB sequences from the Friburg and Redwood-OS datasets, and on stereo+LiDAR sequences on the KITTI odometry dataset showing that it achieves high-quality full object reconstructions, even from partial observations, while maintaining a consistent global map. Our evaluation shows improvements in object pose and shape reconstruction with respect to recent deep prior-based reconstruction methods and reductions in camera tracking drift on the KITTI dataset.
翻訳日:2021-08-24 15:33:14 公開日:2021-08-21
# LiDARパノプティブセグメンテーションにおける従来の点群クラスタリング手法の技術的検討と評価

A Technical Survey and Evaluation of Traditional Point Cloud Clustering Methods for LiDAR Panoptic Segmentation ( http://arxiv.org/abs/2108.09522v1 )

ライセンス: Link先を確認
Yiming Zhao, Xiao Zhang, Xinming Huang(参考訳) LiDARのパノプティカルセグメンテーションは、自動運転のための新しい技術課題である。 一般的なエンドツーエンドのディープラーニングソリューションとは対照的に、セマンティクス情報を抽出する既存のセマンティクスセグメンテーションネットワークと、各インスタンスオブジェクトを分割する従来のlidar point cloud clusterアルゴリズムとのハイブリッド手法を提案する。 幾何学に基づく従来のクラスタリングアルゴリズムは、semantickittiデータセットのpanoptic segmentation leaderboard上で公開されたすべてのエンドツーエンドのディープラーニングソリューションの中で最先端のパフォーマンスを示すことによって考慮に値すると論じている。 私たちの知る限り、我々はクラスタリングアルゴリズムでpoint cloud panopticセグメンテーションを試した最初の人物です。 そこで本研究では,新しいモデルを開発する代わりに,4つの典型的なクラスタ手法を実装し,その性能をベンチマークで報告する。 これら4つのクラスタメソッドは、リアルタイム実行速度が最も代表的である。 本論文ではC++で実装し,既存のディープラーニングフレームワークとシームレスに統合するためのpython関数としてラップする。 この問題に関心のあるピア研究者のためにコードを公開しています。

LiDAR panoptic segmentation is a newly proposed technical task for autonomous driving. In contrast to popular end-to-end deep learning solutions, we propose a hybrid method with an existing semantic segmentation network to extract semantic information and a traditional LiDAR point cloud cluster algorithm to split each instance object. We argue geometry-based traditional clustering algorithms are worth being considered by showing a state-of-the-art performance among all published end-to-end deep learning solutions on the panoptic segmentation leaderboard of the SemanticKITTI dataset. To our best knowledge, we are the first to attempt the point cloud panoptic segmentation with clustering algorithms. Therefore, instead of working on new models, we give a comprehensive technical survey in this paper by implementing four typical cluster methods and report their performances on the benchmark. Those four cluster methods are the most representative ones with real-time running speed. They are implemented with C++ in this paper and then wrapped as a python function for seamless integration with the existing deep learning frameworks. We release our code for peer researchers who might be interested in this problem.
翻訳日:2021-08-24 15:32:46 公開日:2021-08-21
# 医用画像分割のための深層学習法の系統的臨床評価--ラジオサージリー応用

Systematic Clinical Evaluation of A Deep Learning Method for Medical Image Segmentation: Radiosurgery Application ( http://arxiv.org/abs/2108.09535v1 )

ライセンス: Link先を確認
Boris Shirokikh, Alexandra Dalechina, Alexey Shevtsov, Egor Krivov, Valery Kostjuchenko, Amayak Durgaryan, Mikhail Galkin, Andrey Golanov and Mikhail Belyaev(参考訳) 3次元医用画像分割作業において,Deep Learning(DL)手法を体系的に評価した。 セグメンテーション法は, 放射線治療プロセスに統合され, 臨床ワークフローに直接影響を及ぼす。 提案手法では,手動セグメンテーションの相対的な欠点,すなわち,高波長間コントゥーリング変動とコンチューリングプロセスの高時間消費に対処する。 既存の評価に対する主な拡張は、他の医用画像分割タスクでさらに一般化できる、慎重に詳細な分析である。 まず, レータ間検出契約の変更を解析する。 セグメンテーションモデルは検出不一致の比率を0.162から0.085に減少させる(p < 0.05)。 第2に,このモデルが表層ダイススコア0.845から0.871 (p < 0.05) に向上することを示す。 第3に、モデルが1.6倍から2.0倍(p < 0.05)のデライン化過程を加速することを示す。 最後に,評価バイアスを排除または推定するために臨床実験のセットアップを設計し,その結果の意義を保存した。 臨床評価に加えて、3次元医用画像セグメンテーションのための効率的なdlベースモデル構築のための直感と実践的アイデアを要約する。

We systematically evaluate a Deep Learning (DL) method in a 3D medical image segmentation task. Our segmentation method is integrated into the radiosurgery treatment process and directly impacts the clinical workflow. With our method, we address the relative drawbacks of manual segmentation: high inter-rater contouring variability and high time consumption of the contouring process. The main extension over the existing evaluations is the careful and detailed analysis that could be further generalized on other medical image segmentation tasks. Firstly, we analyze the changes in the inter-rater detection agreement. We show that the segmentation model reduces the ratio of detection disagreements from 0.162 to 0.085 (p < 0.05). Secondly, we show that the model improves the inter-rater contouring agreement from 0.845 to 0.871 surface Dice Score (p < 0.05). Thirdly, we show that the model accelerates the delineation process in between 1.6 and 2.0 times (p < 0.05). Finally, we design the setup of the clinical experiment to either exclude or estimate the evaluation biases, thus preserve the significance of the results. Besides the clinical evaluation, we also summarize the intuitions and practical ideas for building an efficient DL-based model for 3D medical image segmentation.
翻訳日:2021-08-24 15:32:29 公開日:2021-08-21
# クロスアテンションディープネットワークを用いたマルチモーダル乳腺病変分類

Multimodal Breast Lesion Classification Using Cross-Attention Deep Networks ( http://arxiv.org/abs/2108.09591v1 )

ライセンス: Link先を確認
Hung Q. Vo, Pengyu Yuan, Tiancheng He, Stephen T.C. Wong, and Hien V. Nguyen(参考訳) 正確な乳房病変リスク推定は、不要な生検を著しく減らし、医師が最適な治療計画を決定するのに役立つ。 既存のコンピュータ支援システムのほとんどは乳腺病変を分類するためにマンモグラムの特徴のみに依存している。 このアプローチは便利であるが、最適な性能を達成するために臨床報告で有用な情報を十分に活用していない。 乳房病変の分類はマンモグラフィー単独と比較して有意に改善するだろうか? 医療実践の変化による臨床情報の欠落に対する対処法 マンモグラムと臨床特徴を組み合わせる最善の方法は何か? これらの根本的な問題に対処するために体系的な研究が必要となる。 本稿では, マンモグラムと分類学的臨床変数を組み合わせるために, 特徴連結, 交差注意, 共同注意に基づく複数のマルチモーダルディープネットワークについて検討する。 提案するアーキテクチャにより,病変分類性能が著しく向上した(roc曲線下平均面積は0.99から0.94)。 また,臨床変数の欠如時にモデルを評価する。

Accurate breast lesion risk estimation can significantly reduce unnecessary biopsies and help doctors decide optimal treatment plans. Most existing computer-aided systems rely solely on mammogram features to classify breast lesions. While this approach is convenient, it does not fully exploit useful information in clinical reports to achieve the optimal performance. Would clinical features significantly improve breast lesion classification compared to using mammograms alone? How to handle missing clinical information caused by variation in medical practice? What is the best way to combine mammograms and clinical features? There is a compelling need for a systematic study to address these fundamental questions. This paper investigates several multimodal deep networks based on feature concatenation, cross-attention, and co-attention to combine mammograms and categorical clinical variables. We show that the proposed architectures significantly increase the lesion classification performance (average area under ROC curves from 0.89 to 0.94). We also evaluate the model when clinical variables are missing.
翻訳日:2021-08-24 15:32:10 公開日:2021-08-21
# サブ国家レベルの解像度でCOVID-19の今後の知見を可能にする汎用予測ソリューション

A generalized forecasting solution to enable future insights of COVID-19 at sub-national level resolutions ( http://arxiv.org/abs/2108.09556v1 )

ライセンス: Link先を確認
Umar Marikkar, Harshana Weligampola, Rumali Perera, Jameel Hassan, Suren Sritharan, Gihan Jayatilaka, Roshan Godaliyadda, Vijitha Herath, Parakrama Ekanayake, Janaka Ekanayake, Anuruddhika Rathnayake, Samath Dharmaratne(参考訳) 新型コロナウイルスは公衆衛生に大きな影響を与え続けている。 この影響を最小限に抑えるため、政策立案者は、実際の脅威に対して不当に実施された場合、誤った脅威評価の結果、望ましくない社会経済的合併症を引き起こすような封じ込め措置を講じる。 さらに、マクロレベルの意思決定や全国レベルの意思決定は、小さな地域での局所的な感受性を考慮できない。 したがって、正確な予測を通じて、covid-19の行動に関する洞察を提供する地域的な脅威アセスメントの必要性が生じる。 In this study, a forecasting solution is proposed, to predict daily new cases of COVID-19 in regions small enough where containment measures could be locally implemented, by targeting three main shortcomings that exist in literature; the unreliability of existing data caused by inconsistent testing patterns in smaller regions, weak deploy-ability of forecasting models towards predicting cases in previously unseen regions, and model training biases caused by the imbalanced nature of data in COVID-19 epi-curves. そこで本研究は,その地域の疫学的なダイナミクスに基づく決定論的エピカーブを平滑化するための最適化平滑化手法,特定の地域からのデータを用いてトレーニングされた長期記憶型予測モデル,履歴データを持たない地域におけるデプロイ可能性の最大化を目的とした多種多様なトレーニングセット,エピ曲線に見られるデータ不均衡を緩和するための学習中の適応損失関数の3つを特徴とする。 提案する平滑化手法,一般化トレーニング戦略,適応損失関数は予測全体の精度を大きく向上させ,より局所的なマイクロレベルでの効率的な封じ込めが可能となった。

COVID-19 continues to cause a significant impact on public health. To minimize this impact, policy makers undertake containment measures that however, when carried out disproportionately to the actual threat, as a result if errorneous threat assessment, cause undesirable long-term socio-economic complications. In addition, macro-level or national level decision making fails to consider the localized sensitivities in small regions. Hence, the need arises for region-wise threat assessments that provide insights on the behaviour of COVID-19 through time, enabled through accurate forecasts. In this study, a forecasting solution is proposed, to predict daily new cases of COVID-19 in regions small enough where containment measures could be locally implemented, by targeting three main shortcomings that exist in literature; the unreliability of existing data caused by inconsistent testing patterns in smaller regions, weak deploy-ability of forecasting models towards predicting cases in previously unseen regions, and model training biases caused by the imbalanced nature of data in COVID-19 epi-curves. Hence, the contributions of this study are three-fold; an optimized smoothing technique to smoothen less deterministic epi-curves based on epidemiological dynamics of that region, a Long-Short-Term-Memo ry (LSTM) based forecasting model trained using data from select regions to create a representative and diverse training set that maximizes deploy-ability in regions with lack of historical data, and an adaptive loss function whilst training to mitigate the data imbalances seen in epi-curves. The proposed smoothing technique, the generalized training strategy and the adaptive loss function largely increased the overall accuracy of the forecast, which enables efficient containment measures at a more localized micro-level.
翻訳日:2021-08-24 15:28:58 公開日:2021-08-21
# プログラマブルfpgaベースのメモリコントローラ

Programmable FPGA-based Memory Controller ( http://arxiv.org/abs/2108.09601v1 )

ライセンス: Link先を確認
Sasindu Wijeratne, Sanket Pattnaik, Zhiyu Chen, Rajgopal Kannan, Viktor Prasanna(参考訳) DRAM技術の世代別改良にもかかわらず、メモリアクセスレイテンシは依然としてアプリケーションアクセラレーターの主要なボトルネックであり、主にターゲットアプリケーション、使用するアルゴリズム、アクセラレーターアーキテクチャのバリエーションを十分に考慮できないメモリインターフェースIPの制限のためである。 本稿では,異なるアプリケーション用のメモリコントローラの開発に時間を要するため,利用可能なハードウェアリソース上で,異なるターゲットアプリケーション用に設定可能なモジュール型でプログラム可能なメモリコントローラを提案する。 提案するメモリコントローラはバルクメモリ転送とともにキャッシュラインアクセスを効率的にサポートする。 ユーザーはFPGA上の利用可能なロジックリソース、メモリアクセスパターン、および外部メモリ仕様に応じてコントローラを設定することができる。 モジュール設計は、要求スケジューリング、内部キャッシュ、直接メモリアクセスを含む様々なメモリアクセス最適化技術をサポートする。 これらの技術は、高い持続帯域幅を維持しながら、全体のレイテンシを低減することに寄与する。 本研究では,最先端FPGA上に実装し,グラフ解析とディープラーニング処理という2つの広く研究されている領域を用いて性能評価を行う。 商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。

Even with generational improvements in DRAM technology, memory access latency still remains the major bottleneck for application accelerators, primarily due to limitations in memory interface IPs which cannot fully account for variations in target applications, the algorithms used, and accelerator architectures. Since developing memory controllers for different applications is time-consuming, this paper introduces a modular and programmable memory controller that can be configured for different target applications on available hardware resources. The proposed memory controller efficiently supports cache-line accesses along with bulk memory transfers. The user can configure the controller depending on the available logic resources on the FPGA, memory access pattern, and external memory specifications. The modular design supports various memory access optimization techniques including, request scheduling, internal caching, and direct memory access. These techniques contribute to reducing the overall latency while maintaining high sustained bandwidth. We implement the system on a state-of-the-art FPGA and evaluate its performance using two widely studied domains: graph analytics and deep learning workloads. We show improved overall memory access time up to 58% on CNN and GCN workloads compared with commercial memory controller IPs.
翻訳日:2021-08-24 15:28:28 公開日:2021-08-21
# 多様な時間スケールを用いた貯留層計算によるマルチスケールダイナミクスの予測

Reservoir Computing with Diverse Timescales for Prediction of Multiscale Dynamics ( http://arxiv.org/abs/2108.09446v1 )

ライセンス: Link先を確認
Gouhei Tanaka, Tadayoshi Matsumori, Hiroaki Yoshida, Kazuyuki Aihara(参考訳) 機械学習のアプローチは最近、動的システムに対する物理的・数学的モデリングアプローチの代替または補助として活用されている。 マルチスケールダイナミックスのモデリングと予測に特化した効率的な機械学習手法を開発するために,異種漏洩積分体ニューロンの繰り返しネットワークを用いて,様々な時間スケールの貯水池計算モデルを提案する。 サブシステムダイナミクスの時間スケールに大きなギャップを含む高速でカオス的な動的システムの予測タスクにおいて,提案モデルが既存の標準モデルよりも高いポテンシャルを持ち,リーク率パラメータの最適化を必要とせずとも,標準モデルに匹敵する性能が得られることを実証する。 解析の結果, モデル学習により, 対象動力学の各成分を生産するのに要する時間スケールが, 適切に柔軟に選択できることが判明した。

Machine learning approaches have recently been leveraged as a substitute or an aid for physical/mathematica l modeling approaches to dynamical systems. To develop an efficient machine learning method dedicated to modeling and prediction of multiscale dynamics, we propose a reservoir computing model with diverse timescales by using a recurrent network of heterogeneous leaky integrator neurons. In prediction tasks with fast-slow chaotic dynamical systems including a large gap in timescales of their subsystems dynamics, we demonstrate that the proposed model has a higher potential than the existing standard model and yields a performance comparable to the best one of the standard model even without an optimization of the leak rate parameter. Our analysis reveals that the timescales required for producing each component of target dynamics are appropriately and flexibly selected from the reservoir dynamics by model training.
翻訳日:2021-08-24 15:27:12 公開日:2021-08-21
# グラフニューラルネットワークに対するハードラベルブラックボックスの逆攻撃

A Hard Label Black-box Adversarial Attack Against Graph Neural Networks ( http://arxiv.org/abs/2108.09513v1 )

ライセンス: Link先を確認
Jiaming Mu, Binghui Wang, Qi Li, Kun Sun, Mingwei Xu, Zhuotao Liu(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やグラフ分類などの様々なグラフ構造関連タスクにおいて,最先端のパフォーマンスを実現している。 しかし、GNNは敵の攻撃に弱い。 既存の研究は主にノード分類のためのGNNに対する攻撃に焦点を当てているが、グラフ分類のためのGNNに対する攻撃は十分に研究されていない。 本研究では,グラフ構造を摂動することで,グラフ分類のためのGNNに対する敵対攻撃を系統的に研究する。 特に、攻撃者がターゲットGNNモデルについて知識がなく、ターゲットモデルに問い合わせることによって予測されたラベルしか取得できないハードラベルブラックボックス攻撃(ハードラベルブラックボックス攻撃)に注目し、この目的を達成するために、高い攻撃成功率を維持しながらグラフに乱されるエッジの数を最小化する最適化問題として攻撃を定式化する。 元の最適化問題の解法は難解であり、この最適化問題を理論的収束保証により解き放つことができるように緩和する。 また、ターゲットGNNモデルに対するクエリ数を減少させるために、粗粒度探索アルゴリズムとクエリ効率勾配計算アルゴリズムを設計する。 実世界の3つのデータセットに対する実験結果から,クエリや摂動の少ないグラフ分類において,GNNを効果的に攻撃できることが示された。 また,本攻撃の有効性を2つの防御条件下で評価した。1つは高度に設計された逆グラフ検出器であり、もう1つはターゲットのgnnモデル自体が逆グラフ生成を防止する防御機能を備えていることである。 実験の結果,このような防御効果は十分ではないことが明らかとなった。

Graph Neural Networks (GNNs) have achieved state-of-the-art performance in various graph structure related tasks such as node classification and graph classification. However, GNNs are vulnerable to adversarial attacks. Existing works mainly focus on attacking GNNs for node classification; nevertheless, the attacks against GNNs for graph classification have not been well explored. In this work, we conduct a systematic study on adversarial attacks against GNNs for graph classification via perturbing the graph structure. In particular, we focus on the most challenging attack, i.e., hard label black-box attack, where an attacker has no knowledge about the target GNN model and can only obtain predicted labels through querying the target model.To achieve this goal, we formulate our attack as an optimization problem, whose objective is to minimize the number of edges to be perturbed in a graph while maintaining the high attack success rate. The original optimization problem is intractable to solve, and we relax the optimization problem to be a tractable one, which is solved with theoretical convergence guarantee. We also design a coarse-grained searching algorithm and a query-efficient gradient computation algorithm to decrease the number of queries to the target GNN model. Our experimental results on three real-world datasets demonstrate that our attack can effectively attack representative GNNs for graph classification with less queries and perturbations. We also evaluate the effectiveness of our attack under two defenses: one is well-designed adversarial graph detector and the other is that the target GNN model itself is equipped with a defense to prevent adversarial graph generation. Our experimental results show that such defenses are not effective enough, which highlights more advanced defenses.
翻訳日:2021-08-24 15:26:58 公開日:2021-08-21
# 確率ベイズゲームにおける時間的自己プレイ

Temporal Induced Self-Play for Stochastic Bayesian Games ( http://arxiv.org/abs/2108.09444v1 )

ライセンス: Link先を確認
Weizhe Chen, Zihan Zhou, Yi Wu, Fei Fang(参考訳) ダイナミックゲームを解くための実践的な要件は、プレイヤーがいかなる決定点からでもうまくプレーすることを保証することである。 この要件を満たすため、既存の取り組みは均衡改善に重点を置いているが、既存の技術のスケーラビリティと適用性は限られている。 本稿では,任意の意思決定点から適切なパフォーマンスの戦略を見出すための新しい強化学習ベースフレームワークtispを提案する。 TISPは、信念空間表現、後方誘導、ポリシー学習、および非パラメトリック近似を使用する。 TISPを基盤として,政策段階のアルゴリズムであるTISP-PGを設計する。 有限地平線を持つゼロサム一辺確率ベイズゲームにおいて、tispベースのアルゴリズムが近似完全ベイズ均衡を見つけることが証明される。 セキュリティゲームやグリッドワールドゲームなど,TISPベースのアルゴリズムを多種多様なゲームでテストする。 その結果,TISP-PGは既存の数学的プログラミング手法よりも拡張性が高く,他の学習手法よりも優れていた。

One practical requirement in solving dynamic games is to ensure that the players play well from any decision point onward. To satisfy this requirement, existing efforts focus on equilibrium refinement, but the scalability and applicability of existing techniques are limited. In this paper, we propose Temporal-Induced Self-Play (TISP), a novel reinforcement learning-based framework to find strategies with decent performances from any decision point onward. TISP uses belief-space representation, backward induction, policy learning, and non-parametric approximation. Building upon TISP, we design a policy-gradient-base d algorithm TISP-PG. We prove that TISP-based algorithms can find approximate Perfect Bayesian Equilibrium in zero-sum one-sided stochastic Bayesian games with finite horizon. We test TISP-based algorithms in various games, including finitely repeated security games and a grid-world game. The results show that TISP-PG is more scalable than existing mathematical programming-based methods and significantly outperforms other learning-based methods.
翻訳日:2021-08-24 15:21:02 公開日:2021-08-21
# 環境データ不足に対する計算的計算法に関する研究

A computational study on imputation methods for missing environmental data ( http://arxiv.org/abs/2108.09500v1 )

ライセンス: Link先を確認
Paul Dixneuf and Fausto Errico and Mathias Glaus(参考訳) データベース形式でのデータ取得と記録は日常的な操作である。 しかし、データ収集のプロセスは、不規則な状況に陥り、データ欠落したデータベースが発生する可能性がある。 ミスエントリは分析効率を変化させ、その結果、関連する意思決定プロセスを変化させる。 本稿では,自然環境に関する情報を収集するデータベースに焦点を当てる。 記録された活動の幅広いスペクトルを考えると、これらのデータベースは典型的に混在している。 したがって、この特性を考慮したデータ処理手法の性能を評価することは重要である。 本稿では,いくつかの欠落データ計算手法の性能と,その環境における欠落データ問題への応用について検討する。 この手法を連鎖方程式 (mice) と k-nearest neighbors (knn) による多変量インプテーション法(multivariate imputation by chained equation) と比較した。 さまざまなタイプの10の事前処理データセットでテストが行われた。 その結果,MF の計算誤差は MICE と KNN より優れており,MF が計算誤差を 150% まで削減した混合型データベースの性能差は,他の手法と比較して顕著であった。 通常、KNNは最速の方法であった。 mfはケベックの排水処理プラントのパフォーマンスモニタリングのケーススタディにうまく適用された。 本研究は, 環境データ不足に対処する上で, MFを抑止法として用いることの意義を示すものである。

Data acquisition and recording in the form of databases are routine operations. The process of collecting data, however, may experience irregularities, resulting in databases with missing data. Missing entries might alter analysis efficiency and, consequently, the associated decision-making process. This paper focuses on databases collecting information related to the natural environment. Given the broad spectrum of recorded activities, these databases typically are of mixed nature. It is therefore relevant to evaluate the performance of missing data processing methods considering this characteristic. In this paper we investigate the performances of several missing data imputation methods and their application to the problem of missing data in environment. A computational study was performed to compare the method missForest (MF) with two other imputation methods, namely Multivariate Imputation by Chained Equations (MICE) and K-Nearest Neighbors (KNN). Tests were made on 10 pretreated datasets of various types. Results revealed that MF generally outperformed MICE and KNN in terms of imputation errors, with a more pronounced performance gap for mixed typed databases where MF reduced the imputation error up to 150%, when compared to the other methods. KNN was usually the fastest method. MF was then successfully applied to a case study on Quebec wastewater treatment plants performance monitoring. We believe that the present study demonstrates the pertinence of using MF as imputation method when dealing with missing environmental data.
翻訳日:2021-08-24 15:20:46 公開日:2021-08-21
# ソフトウェア工学における用語相互関係と動向

Term Interrelations and Trends in Software Engineering ( http://arxiv.org/abs/2108.09529v1 )

ライセンス: Link先を確認
Janusan Baskararajah and Lei Zhang and Andriy Miranskyy(参考訳) ソフトウェアエンジニアリング(se)コミュニティは多作であり、専門家が新しい論文の洪水に追随し、新生物がこの分野に参入することを困難にしている。 そこで我々は,SEコミュニティのテキストコーパスから用語とその相互関係を抽出し,用語の傾向を示すツールの恩恵を受けることができると考えている。 本稿では,単語埋め込み技術を用いたプロトタイピングツールを構築する。 我々は、SE Body of Knowledgeハンドブックと15,233の研究論文のタイトルと要約の埋め込みを訓練する。 また、組み込みのトレーニングの検証に必要なテストケースを作成します。 本稿では,埋め込みが用語の要約や知識ベースの動向を明らかにするのに役立つことを示す代表的な例を示す。

The Software Engineering (SE) community is prolific, making it challenging for experts to keep up with the flood of new papers and for neophytes to enter the field. Therefore, we posit that the community may benefit from a tool extracting terms and their interrelations from the SE community's text corpus and showing terms' trends. In this paper, we build a prototyping tool using the word embedding technique. We train the embeddings on the SE Body of Knowledge handbook and 15,233 research papers' titles and abstracts. We also create test cases necessary for validation of the training of the embeddings. We provide representative examples showing that the embeddings may aid in summarizing terms and uncovering trends in the knowledge base.
翻訳日:2021-08-24 15:20:26 公開日:2021-08-21
# 時空間データ調音のための成長変換力学系の利用

Using growth transform dynamical systems for spatio-temporal data sonification ( http://arxiv.org/abs/2108.09537v1 )

ライセンス: Link先を確認
Oindrila Chatterjee, Shantanu Chakrabartty(参考訳) 有意義な音声シグネチャで情報を符号化するソニフィケーションは、人間のループ内決定のための従来の可視化手法の強化や置き換えにいくつかの利点がある。 文献で報告されている標準的な音素化手法は、(i)変数のサブセットのみを使用するか、(ii)データ上の学習タスクを最初に解決し、次いで、エンドユーザーが決定するために使用する音声波形に出力をマッピングする。 本稿では, 複合成長変換力学系モデルを用いて, 学習(あるいはより一般的には最適化)と音化過程を統合した, 高次元データを音化するための新しい枠組みを提案する。 本アルゴリズムは,学習課題や予測課題の根底にあるデータと最適化パラメータを入力として,ユーザが定義する心理音響パラメータと組み合わせる。 その結果、高次元データの統計特性を符号化するだけでなく、最適化・学習プロセスの基盤となる複雑さを明らかにするバイノーラル音声シグネチャを出力する。 合成データセットを用いた広範囲な実験とともに、小児のてんかん発作を検出する可能性を持つ脳波解析(eeg)の枠組みを実証する。

Sonification, or encoding information in meaningful audio signatures, has several advantages in augmenting or replacing traditional visualization methods for human-in-the-loop decision-making. Standard sonification methods reported in the literature involve either (i) using only a subset of the variables, or (ii) first solving a learning task on the data and then mapping the output to an audio waveform, which is utilized by the end-user to make a decision. This paper presents a novel framework for sonifying high-dimensional data using a complex growth transform dynamical system model where both the learning (or, more generally, optimization) and the sonification processes are integrated together. Our algorithm takes as input the data and optimization parameters underlying the learning or prediction task and combines it with the psychoacoustic parameters defined by the user. As a result, the proposed framework outputs binaural audio signatures that not only encode some statistical properties of the high-dimensional data but also reveal the underlying complexity of the optimization/learnin g process. Along with extensive experiments using synthetic datasets, we demonstrate the framework on sonifying Electro-encephalogra m (EEG) data with the potential for detecting epileptic seizures in pediatric patients.
翻訳日:2021-08-24 15:20:14 公開日:2021-08-21
# 多様な動作予測のための滑らかなポーズ列の生成

Generating Smooth Pose Sequences for Diverse Human Motion Prediction ( http://arxiv.org/abs/2108.08422v2 )

ライセンス: Link先を確認
Wei Mao, Miaomiao Liu, Mathieu Salzmann(参考訳) 確率的動き予測の最近の進歩、すなわち、1つの過去のポーズシーケンスが与えられた複数の将来の人間の動きを予測することは、非常に多様な将来の動きを生み出し、いくつかの身体部分の運動を制御することさえもたらした。 しかし、これを実現するためには、多様性のためのいくつかのマッピングと、制御可能な動き予測のための専用モデルを学ぶ必要がある。 本稿では,多様かつ制御可能な動き予測のための統合型深層生成ネットワークを提案する。 この目的のために、現実的な人間の動きは有効なポーズの滑らかなシーケンスで構成されており、限られたデータを考えると、ポーズの事前学習は動きよりもずっと扱いやすいという直観を活用できる。 そこで我々は,各部位の動作を逐次予測するジェネレータを設計し,動作リアリズムを実現するために,関節角度の損失とともに正規化フローベースのポーズを導入し,サンプルの多様性と精度の両面で,我々のアプローチが最先端のベースラインより優れていることを示す。 コードはhttps://github.com/w ei-mao-2019/gspsで入手できる。

Recent progress in stochastic motion prediction, i.e., predicting multiple possible future human motions given a single past pose sequence, has led to producing truly diverse future motions and even providing control over the motion of some body parts. However, to achieve this, the state-of-the-art method requires learning several mappings for diversity and a dedicated model for controllable motion prediction. In this paper, we introduce a unified deep generative network for both diverse and controllable motion prediction. To this end, we leverage the intuition that realistic human motions consist of smooth sequences of valid poses, and that, given limited data, learning a pose prior is much more tractable than a motion one. We therefore design a generator that predicts the motion of different body parts sequentially, and introduce a normalizing flow based pose prior, together with a joint angle loss, to achieve motion realism.Our experiments on two standard benchmark datasets, Human3.6M and HumanEva-I, demonstrate that our approach outperforms the state-of-the-art baselines in terms of both sample diversity and accuracy. The code is available at https://github.com/w ei-mao-2019/gsps
翻訳日:2021-08-24 11:29:39 公開日:2021-08-21
# 知識グラフを用いた質問応答のためのトップk演算子を用いた効率的な文脈化

Efficient Contextualization using Top-k Operators for Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2108.08597v2 )

ライセンス: Link先を確認
Philipp Christmann, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 知識ベース(KB-QA)に関する複雑な疑問に答えるには、数百万のエンティティと数千の述語を含む何十億もの事実を含む膨大な入力データに直面する。 効率性のために、QAシステムはまず、すべての回答と関連する手がかりを含む可能性のある事実の集合を特定することによって、回答検索空間を縮小する。 最も一般的なテクニックは、名前付きエンティティ曖昧化(NED)システムを問題に適用し、曖昧なエンティティに対してKB事実を検索することである。 本研究は,KB対応信号を用いて検索空間の無関係な部分を抽出する効率的なECQAを提案する。 ECQAは、語彙マッチング、質問への関連性、候補項目間のコヒーレンス、KBグラフの接続性といった信号を組み合わせたKB項目のスコア順リスト上のトップkクエリ処理に基づいている。 最近の2つのQAベンチマークによる実験は、解答の有無、検索空間のサイズ、ランタイムに関して、最先端のベースラインよりもECQAの方が優れていることを示している。

Answering complex questions over knowledge bases (KB-QA) faces huge input data with billions of facts, involving millions of entities and thousands of predicates. For efficiency, QA systems first reduce the answer search space by identifying a set of facts that is likely to contain all answers and relevant cues. The most common technique is to apply named entity disambiguation (NED) systems to the question, and retrieve KB facts for the disambiguated entities. This work presents ECQA, an efficient method that prunes irrelevant parts of the search space using KB-aware signals. ECQA is based on top-k query processing over score-ordered lists of KB items that combine signals about lexical matching, relevance to the question, coherence among candidate items, and connectivity in the KB graph. Experiments with two recent QA benchmarks demonstrate the superiority of ECQA over state-of-the-art baselines with respect to answer presence, size of the search space, and runtimes.
翻訳日:2021-08-24 11:29:18 公開日:2021-08-21
# マルチセンターフェデレーションラーニング

Multi-Center Federated Learning ( http://arxiv.org/abs/2108.08647v2 )

ライセンス: Link先を確認
Ming Xie, Guodong Long, Tao Shen, Tianyi Zhou, Xianzhi Wang, Jing Jiang, Chengqi Zhang(参考訳) フェデレーション学習(federated learning, fl)は、分散学習におけるデータのプライバシを保護する。 しかし、flは実用的な設定、例えば異なるユーザに対する非iidデータなどにおいて一般的に見られる異質性の存在下では脆弱である。 既存のFLアプローチは通常、1つのグローバルモデルを更新して、データ分散間の不一致に関わらず、勾配を集約することで、すべてのユーザの共有知識をキャプチャする。 対照的に、複数のグローバルモデルの混合は、FLの異なるグローバルモデル(すなわちセンター)にユーザーを割り当てる場合、様々なユーザー間の不均一性を捉えることができる。 そこで本研究では,新しい多元集約機構を提案する。 データから複数のグローバルモデルを学び、同時にユーザーとセンターの最適なマッチングを導き出す。 次に、確率的予測最大化(EM)アルゴリズムにより効率よく解ける二段階最適化問題として定式化する。 FLの複数のベンチマークデータセットに対する実験により,本手法はいくつかのFL競合より優れていることが示された。 ソースコードはGithubで公開されている。

Federated learning (FL) can protect data privacy in distributed learning since it merely collects local gradients from users without access to their data. However, FL is fragile in the presence of heterogeneity that is commonly encountered in practical settings, e.g., non-IID data over different users. Existing FL approaches usually update a single global model to capture the shared knowledge of all users by aggregating their gradients, regardless of the discrepancy between their data distributions. By comparison, a mixture of multiple global models could capture the heterogeneity across various users if assigning the users to different global models (i.e., centers) in FL. To this end, we propose a novel multi-center aggregation mechanism . It learns multiple global models from data, and simultaneously derives the optimal matching between users and centers. We then formulate it as a bi-level optimization problem that can be efficiently solved by a stochastic expectation maximization (EM) algorithm. Experiments on multiple benchmark datasets of FL show that our method outperforms several popular FL competitors. The source code are open source on Github.
翻訳日:2021-08-24 11:28:37 公開日:2021-08-21