このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210930となっている論文です。

PDF登録状況(公開日: 20210930)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 胸部X線画像からの新型コロナウイルスの診断のためのディープラーニングとANOVA特徴選択法に基づく新しいフレームワーク [全文訳有]

A novel framework based on deep learning and ANOVA feature selection method for diagnosis of COVID-19 cases from chest X-ray Images ( http://arxiv.org/abs/2110.06340v1 )

ライセンス: CC BY 4.0
Hamid Nasiri, Seyyed Ali Alavi(参考訳) 新型コロナウイルス(covid-19)は、武漢で初めて特定され、世界規模で急速に広がり、経済や人々の日常生活に打撃を与えた。 熱、頭痛、頭痛、疲労、筋肉痛、呼吸困難は、すべてCOVID-19の典型的な症状である。 新型コロナウイルスの早期に感染した個人を特定し、治療し、ウイルスの感染を減らすためには、信頼できる検出技術が必要である。 最もアクセスしやすい方法はrt-pcrであるが、時間的コミットメントと偽陰性の結果のため、代替案を求める必要がある。 実際、rt-pcrと比較して胸部ctスキャンや胸部x線画像が優れている。 CTスキャン装置の不足と高コストのため、X線画像はスクリーニングに好適である。 本稿では,X線画像から特徴を抽出するために,事前学習ネットワークDenseNet169を用いた。 特徴選択法 (ANOVA) により, 次元の呪いを克服し, 予測精度を向上させるとともに, 計算量と時間の複雑さを低減した。 最後に、選択された特徴はXGBoostによって分類された。 chestx-ray8データセットは,提案手法の訓練と評価に用いられた。 この方法は2類分類(共生19、健康)では98.72%、3類分類では92%の精度(共生19、健康、肺炎)に達した。

The new coronavirus (known as COVID-19) was first identified in Wuhan and quickly spread worldwide, wreaking havoc on the economy and people's everyday lives. Fever, cough, sore throat, headache, exhaustion, muscular aches, and difficulty breathing are all typical symptoms of COVID-19. A reliable detection technique is needed to identify affected individuals and care for them in the early stages of COVID-19 and reduce the virus's transmission. The most accessible method for COVID-19 identification is RT-PCR; however, due to its time commitment and false-negative results, alternative options must be sought. Indeed, compared to RT-PCR, chest CT scans and chest X-ray images provide superior results. Because of the scarcity and high cost of CT scan equipment, X-ray images are preferable for screening. In this paper, a pre-trained network, DenseNet169, was employed to extract features from X-ray images. Features were chosen by a feature selection method (ANOVA) to reduce computations and time complexity while overcoming the curse of dimensionality to improve predictive accuracy. Finally, selected features were classified by XGBoost. The ChestX-ray8 dataset, which was employed to train and evaluate the proposed method. This method reached 98.72% accuracy for two-class classification (COVID-19, healthy) and 92% accuracy for three-class classification (COVID-19, healthy, pneumonia).
翻訳日:2021-10-17 16:05:49 公開日:2021-09-30
# (参考訳) 1次元自己操作型ニューラルネットワークによるリアルタイム心電図分類 [全文訳有]

Real-Time Patient-Specific ECG Classification by 1D Self-Operational Neural Networks ( http://arxiv.org/abs/2110.02215v1 )

ライセンス: CC BY 4.0
Junaid Malik, Ozer Can Devecioglu, Serkan Kiranyaz, Turker Ince, and Moncef Gabbouj(参考訳) 汎用心電図分類や不整脈検出のための多くの深層学習手法が提案されているが、リアルタイム能力と患者固有の心電図の高精度なシステムはまだ少ない。 特に、患者固有のデータの不足は、あらゆる分類器に究極の挑戦をもたらす。 近年, 小型1次元畳み込みニューラルネットワーク (CNN) は, 心室および上室異所性ビートを正確に分類するための最先端性能を達成している。 しかし、いくつかの研究は、従来のCNNの学習性能が基本的な(線形)ニューロンモデルを持つ同種ネットワークであるため、制限されていることを証明している。 本研究は, この障害に対処し, 患者固有の心電図分類性能を高めるために, 1D Self-organized Operational Neural Networks (1D Self-ONNs) を提案する。 自己組織能力のため、セルフONNは、演算子セットライブラリ内の前の演算子探索を回避し、演算子集合の最良の検出を完全に回避する従来のONNよりも、最大の優位性と優位性を持つ。 1D Self-ONNsが分類タスクのために提案された最初の研究として、MIT-BIH arrhythmiaベンチマークデータベースによる我々の結果は、1D Self-ONNsが1D CNNをかなり上回りながら、同様の計算複雑性を持つことを示した。 AAMIレコメンデーションと最小限のトレーニングデータにより、MIT-BIHデータセットの1D Self-ONNは平均98%と99.04%のアキュラシー、76.6%、93.7%の平均F1スコアが上室外転拍と心室外転拍(VEB)の分類でそれぞれ達成された。

Despite the proliferation of numerous deep learning methods proposed for generic ECG classification and arrhythmia detection, compact systems with the real-time ability and high accuracy for classifying patient-specific ECG are still few. Particularly, the scarcity of patient-specific data poses an ultimate challenge to any classifier. Recently, compact 1D Convolutional Neural Networks (CNNs) have achieved the state-of-the-art performance level for the accurate classification of ventricular and supraventricular ectopic beats. However, several studies have demonstrated the fact that the learning performance of the conventional CNNs is limited because they are homogenous networks with a basic (linear) neuron model. In order to address this deficiency and further boost the patient-specific ECG classification performance, in this study, we propose 1D Self-organized Operational Neural Networks (1D Self-ONNs). Due to its self-organization capability, Self-ONNs have the utmost advantage and superiority over conventional ONNs where the prior operator search within the operator set library to find the best possible set of operators is entirely avoided. As the first study where 1D Self-ONNs are ever proposed for a classification task, our results over the MIT-BIH arrhythmia benchmark database demonstrate that 1D Self-ONNs can surpass 1D CNNs with a significant margin while having a similar computational complexity. Under AAMI recommendations and with minimal common training data used, over the entire MIT-BIH dataset 1D Self-ONNs have achieved 98% and 99.04% average accuracies, 76.6% and 93.7% average F1 scores on supra-ventricular and ventricular ectopic beat (VEB) classifications, respectively, which is the highest performance level ever reported.
翻訳日:2021-10-10 12:37:44 公開日:2021-09-30
# (参考訳) 自己組織化ニューラルネットワークによるホルター心電図のロバストピーク検出 [全文訳有]

Robust Peak Detection for Holter ECGs by Self-Organized Operational Neural Networks ( http://arxiv.org/abs/2110.02381v1 )

ライセンス: CC BY 4.0
Serkan Kiranyaz, Junaid Malik, Muhammad Uzair Zahid, Turker Ince, Muhammad Chowdhury, Amith Khandakar, Anas Tahir and Moncef Gabbouj(参考訳) 文献では多数のRピーク検出器が提案されているが、その堅牢性と性能はホルターモニターなどの移動ECGセンサから取得した低品質でノイズの多い信号で著しく低下する可能性がある。 近年、この問題は、ホルターモニターで最先端のパフォーマンスレベルを達成した深層1次元畳み込みニューラルネットワーク(cnns)によって解決されているが、それらはリアルタイム処理のために特別な並列化ハードウェアセットアップを必要とする高い複雑性レベルをもたらす。 一方,ネットワーク構成のコンパクト化により性能が低下する。 近年の研究では、CNNの学習性能は、単独の線形ニューロンモデルとの厳密な同質な構成のため制限されていることが示されている。 これはONN(Operational Neural Networks)によって、様々な非線形演算子を持つニューロンをカプセル化した異種ネットワーク構成によって解決されている。 本研究では,よりエレガントな計算効率とともにピーク検出性能をさらに高めるために,生成ニューロンを用いた1次元自己組織型オペレーショナルニューラルネットワーク(self-onns)を提案する。 ONNに対する1D Self-ONNの最も重要な利点は、トレーニング中に各生成ニューロンが最適な演算子を生成する能力を持っているため、ニューロン毎に最適な演算子を探索する必要がなくなる、自己組織化能力である。 中国生理信号チャレンジ-2020(CPSC)データセットの100万回以上のECGビートを用いた実験結果から、提案された1D Self-ONNは、複雑さの少ない最先端の深部CNNを大幅に超えることが示されている。 その結果、cpscデータセットにおける99.10%のf1-score、99.79%の感度、98.42%の正の予測率を達成した。

Although numerous R-peak detectors have been proposed in the literature, their robustness and performance levels may significantly deteriorate in low quality and noisy signals acquired from mobile ECG sensors such as Holter monitors. Recently, this issue has been addressed by deep 1D Convolutional Neural Networks (CNNs) that have achieved state-of-the-art performance levels in Holter monitors; however, they pose a high complexity level that requires special parallelized hardware setup for real-time processing. On the other hand, their performance deteriorates when a compact network configuration is used instead. This is an expected outcome as recent studies have demonstrated that the learning performance of CNNs is limited due to their strictly homogenous configuration with the sole linear neuron model. This has been addressed by Operational Neural Networks (ONNs) with their heterogenous network configuration encapsulating neurons with various non-linear operators. In this study, to further boost the peak detection performance along with an elegant computational efficiency, we propose 1D Self-Organized Operational Neural Networks (Self-ONNs) with generative neurons. The most crucial advantage of 1D Self-ONNs over the ONNs is their self-organization capability that voids the need to search for the best operator set per neuron since each generative neuron has the ability to create the optimal operator during training. The experimental results over the China Physiological Signal Challenge-2020 (CPSC) dataset with more than one million ECG beats show that the proposed 1D Self-ONNs can significantly surpass the state-of-the-art deep CNN with less computational complexity. Results demonstrate that the proposed solution achieves 99.10% F1-score, 99.79% sensitivity, and 98.42% positive predictivity in the CPSC dataset which is the best R-peak detection performance ever achieved.
翻訳日:2021-10-10 12:15:57 公開日:2021-09-30
# ニューラルネットワークによるブラインドコヒーレントプリアンブル検出

Blind Coherent Preamble Detection via Neural Networks ( http://arxiv.org/abs/2110.02738v1 )

ライセンス: Link先を確認
Jafar Mohammadi, Gerhard Schreiber, Thorsten Wild, Yejian Chen(参考訳) 無線通信システムにおいて、ユーザ装置(UE)は、検出・同期される基地局(BS)にランダムアクセスプリアンブルシーケンスを送信する。 標準化されたセル通信システムでは、定振幅ゼロ自己相関(cazac)特性のためにzadoff-chuシーケンスが提案されている。 従来のアプローチでは、マッチしたフィルタを使ってシーケンスを検出する。 異なるアンテナから到着したシーケンスと時間インスタンスは、ノイズのばらつきを減らすためにまとめられる。 この段階ではチャネルの知識が不明であるため、コヒーレント結合スキームの実装は非常に困難である。 本研究では,システム設計の知識を活用し,ニューラルネットワーク(NN)シーケンス検出器とタイミング予測器を提案する。 NNによるプリアンブル検出のプロセス全体を置き換えるものではない。 代わりに、nn を\textit{blind}コヒーレントにのみ使用することを提案し、チャネル効果を補償するために検出器内の信号を組み合わせて、信号と雑音比を最大化する。 さらに,チャネル共分散行列に対するクロネッカー近似モデルを用いて問題複雑性を低減し,必要なnnのサイズを削減した。 タイミングの高度推定とシーケンス検出に関する分析を行い,マッチングフィルタのベースラインと比較した。

In wireless communications systems, the user equipment (UE) transmits a random access preamble sequence to the base station (BS) to be detected and synchronized. In standardized cellular communications systems Zadoff-Chu sequences has been proposed due to their constant amplitude zero autocorrelation (CAZAC) properties. The conventional approach is to use matched filters to detect the sequence. Sequences arrived from different antennas and time instances are summed up to reduce the noise variance. Since the knowledge of the channel is unknown at this stage, a coherent combining scheme would be very difficult to implement. In this work, we leverage the system design knowledge and propose a neural network (NN) sequence detector and timing advanced estimator. We do not replace the whole process of preamble detection by a NN. Instead, we propose to use NN only for \textit{blind} coherent combining of the signals in the detector to compensate for the channel effect, thus maximize the signal to noise ratio. We have further reduced the problem's complexity using Kronecker approximation model for channel covariance matrices, thereby, reducing the size of required NN. The analysis on timing advanced estimation and sequences detection has been performed and compared with the matched filter baseline.
翻訳日:2021-10-10 11:49:10 公開日:2021-09-30
# ホワイトボックス評価によるXベクトル話者匿名化の評価

Evaluating X-vector-based Speaker Anonymization under White-box Assessment ( http://arxiv.org/abs/2109.11946v2 )

ライセンス: Link先を確認
Pierre Champion (Inria), Denis Jouvet (Inria), Anthony Larcher (LIUM)(参考訳) 音声プライバシー問題(Voice Privacy Challenge)のシナリオでは、ソース話者から全ての発話を同じターゲットIDに一致するように変換することで匿名化が達成される。 この文脈では、匿名化システムに関する最大知識を持つ攻撃者は、ターゲットのアイデンティティを推測することはできない。 本稿は、標的選択を特定のアイデンティティ、すなわちランダムなアイデンティティの選択を排除し、ホワイトボックスアセスメントの下で極端な脅威を評価することを提案した(攻撃者はシステムについて完全な知識を持っている)。 また、特定の話者を匿名化するために、ターゲットのアイデンティティが他の話者よりも優れているかどうかを調査することができる。

In the scenario of the Voice Privacy challenge, anonymization is achieved by converting all utterances from a source speaker to match the same target identity; this identity being randomly selected. In this context, an attacker with maximum knowledge about the anonymization system can not infer the target identity. This article proposed to constrain the target selection to a specific identity, i.e., removing the random selection of identity, to evaluate the extreme threat under a whitebox assessment (the attacker has complete knowledge about the system). Targeting a unique identity also allows us to investigate whether some target's identities are better than others to anonymize a given speaker.
翻訳日:2021-10-10 11:48:16 公開日:2021-09-30
# (参考訳) 自己コンディショニング事前学習言語モデル [全文訳有]

Self-conditioning pre-trained language models ( http://arxiv.org/abs/2110.02802v1 )

ライセンス: CC BY 4.0
Xavier Suau, Luca Zappella, Nicholas Apostoloff(参考訳) 事前学習されたトランスフォーマティブ言語モデル(tlms)におけるエキスパートユニットの存在と、特定の概念を含むテキスト生成の条件付けにどのように使用できるかを検討する。 我々は、入力中の概念を所定の平均精度で検出できるニューロンとして、専門家ユニットを定義する。 概念は、概念を含まないまたは含まない一連の文で表現される。 OneSecデータセットを利用すると、1344のコンセプトのデータセットをコンパイルして、TLMのさまざまな専門家ユニットを発見できます。 実験では,既成の既成のTLMを自身の知識(セルフコンディショニング)で条件付けして,与えられた概念を含むテキストを生成することができることを示した。 この目的のために,提案手法はtlmを条件づける効果的な手法であることを実験的に示す。 提案手法では,モデルの微調整やパラメータの追加は必要とせず,計算資源の最小化による大規模TLMの条件付けが可能となる。 さらに、GPT2の少数の専門家に介入することで、世代ごとに2つの概念を同等にすることができる。 ジェンダーバイアスの具体例を考察し,与えられた文脈において,モデルのパープレキシティを維持しながら性同一性が達成されることを示す。

We study the presence of expert units in pre-trained Transformer-based Language Models (TLMs), and how they can be used to condition text generation to contain specific concepts. We define expert units to be neurons that are able to detect a concept in the input with a given average precision. A concept is represented with a set of sentences that either do or do not contain the concept. Leveraging the OneSec dataset, we compile a dataset of 1344 concepts that allows diverse expert units in TLMs to be discovered. Our experiments demonstrate that off-the-shelf pre-trained TLMs can be conditioned on their own knowledge (self-conditioning) to generate text that contains a given concept. To this end, we intervene on the top expert units by fixing their output during inference, and we show experimentally that this is an effective method to condition TLMs. Our method does not require fine-tuning the model or using additional parameters, which allows conditioning large TLM with minimal compute resources. Furthermore, by intervening on a small number of experts in GPT2, we can achieve parity with respect to two concepts at generation time. The specific case of gender bias is explored, and we show that, for given contexts, gender parity is achieved while maintaining the model's perplexity.
翻訳日:2021-10-10 11:40:46 公開日:2021-09-30
# Molecule3D:分子グラフから3次元ジオメトリを予測するベンチマーク

Molecule3D: A Benchmark for Predicting 3D Geometries from Molecular Graphs ( http://arxiv.org/abs/2110.01717v1 )

ライセンス: Link先を確認
Zhao Xu, Youzhi Luo, Xuan Zhang, Xinyi Xu, Yaochen Xie, Meng Liu, Kaleb Dickerson, Cheng Deng, Maho Nakata, Shuiwang Ji(参考訳) グラフニューラルネットワークは、ノードとエッジがそれぞれ原子と化学結合に対応する分子グラフをモデル化するための有望な手法として登場している。 最近の研究では、結合長や角度などの3次元分子ジオメトリが利用可能である場合、分子特性予測タスクをより正確にすることができる。 しかし、3次元分子幾何学の計算には計算的に禁止される量子計算が必要である。 例えば、小さな分子の3dジオメトリの正確な計算には、密度汎関数理論(dft)を用いた数時間の計算時間を必要とする。 本稿では,機械学習を用いて分子グラフから基底状態3次元ジオメトリを予測することを提案する。 これを実現するために,DFT由来の約400万分子の精密な基底状態測地データを含むMolecule3Dというベンチマークを開発した。 データ処理、分割、トレーニング、評価などのための一連のソフトウェアツールも提供しています。 具体的には,4つの指標を用いて予測された測地値の誤差と妥当性を評価する。 3次元空間における原子間対距離または原子座標を予測する2つのベースライン法を実装した。 実験の結果,RDKitを用いた3次元ジオメトリの生成と比較すると,予測精度は同等だが計算コストははるかに小さいことがわかった。 molecule3d は molecularx software library (https://github.com/ divelab/moleculex) のモジュールとして利用可能です。

Graph neural networks are emerging as promising methods for modeling molecular graphs, in which nodes and edges correspond to atoms and chemical bonds, respectively. Recent studies show that when 3D molecular geometries, such as bond lengths and angles, are available, molecular property prediction tasks can be made more accurate. However, computing of 3D molecular geometries requires quantum calculations that are computationally prohibitive. For example, accurate calculation of 3D geometries of a small molecule requires hours of computing time using density functional theory (DFT). Here, we propose to predict the ground-state 3D geometries from molecular graphs using machine learning methods. To make this feasible, we develop a benchmark, known as Molecule3D, that includes a dataset with precise ground-state geometries of approximately 4 million molecules derived from DFT. We also provide a set of software tools for data processing, splitting, training, and evaluation, etc. Specifically, we propose to assess the error and validity of predicted geometries using four metrics. We implement two baseline methods that either predict the pairwise distance between atoms or atom coordinates in 3D space. Experimental results show that, compared with generating 3D geometries with RDKit, our method can achieve comparable prediction accuracy but with much smaller computational costs. Our Molecule3D is available as a module of the MoleculeX software library (https://github.com/ divelab/MoleculeX).
翻訳日:2021-10-10 09:17:41 公開日:2021-09-30
# フィードフォワードニューラルネットワークによる外見自由物体追跡の課題

The Challenge of Appearance-Free Object Tracking with Feedforward Neural Networks ( http://arxiv.org/abs/2110.02772v1 )

ライセンス: Link先を確認
Girik Malik, Drew Linsley, Thomas Serre, Ennio Mingolla(参考訳) ニューラルネットワークを用いた物体追跡のほとんど全てのモデルは、物体認識のために設計された"バックボーン"アーキテクチャから抽出された外観特徴に依存する。 実際、オブジェクト追跡の大幅な進歩は、その外観によってオブジェクトを識別しやすくするバックボーンの導入によって加速された。 しかし、神経生理学と心理物理学の広範な証拠は、生物学的視覚システムが外見と運動の特徴の両方を用いて物体を追跡することを示唆している。 これは認知心理学に触発された視覚的チャレンジで、観察者が自分の動きだけで物体を追跡することを学ぶ能力をテストする。 標準の3次元畳み込み深層ネットワークモデルは、生成されたシーンに乱れが生じたり、物体が長距離を移動するときに、この課題を解決するのに苦労している。 この課題は、物体の動きの経路を辿ることが、フィードフォワードニューラルネットワークの盲点であることを明らかにする。 我々は、生物学的ビジョンから外見のない物体追跡の戦略が、ディープニューラルネットワークのこれらの障害を解き起こすことを期待する。

Nearly all models for object tracking with artificial neural networks depend on appearance features extracted from a "backbone" architecture, designed for object recognition. Indeed, significant progress on object tracking has been spurred by introducing backbones that are better able to discriminate objects by their appearance. However, extensive neurophysiology and psychophysics evidence suggests that biological visual systems track objects using both appearance and motion features. Here, we introduce $\textit{PathTracker}$, a visual challenge inspired by cognitive psychology, which tests the ability of observers to learn to track objects solely by their motion. We find that standard 3D-convolutional deep network models struggle to solve this task when clutter is introduced into the generated scenes, or when objects travel long distances. This challenge reveals that tracing the path of object motion is a blind spot of feedforward neural networks. We expect that strategies for appearance-free object tracking from biological vision can inspire solutions these failures of deep neural networks.
翻訳日:2021-10-10 09:15:53 公開日:2021-09-30
# (参考訳) 物理方法論とデータサイエンスの統合によるパラダイムシフト [全文訳有]

Paradigm Shift Through the Integration of Physical Methodology and Data Science ( http://arxiv.org/abs/2110.01408v1 )

ライセンス: CC BY 4.0
Takashi Miyamoto(参考訳) 近年、データサイエンス方法論は、フレキシブルな表現性能と高速な計算手段を提供し、従来の科学的方法論が直面する課題に対処しつつ、計算の解釈可能性やデータ量に対する外挿予測の要求といった前例のない課題を明らかにしている。 従来の物理・データ科学の方法論を統合する手法は、両方の方法論を補完する数学的解析の新しい手法であり、様々な科学分野で研究されている。 本稿では,科学的理論の観点から,このような統合手法の重要性と重要性を強調した。 また、特定の方法や応用に関する総合的な調査を行い、関連する研究分野における技術の現状について概説する。

Data science methodologies, which have undergone significant developments recently, provide flexible representational performance and fast computational means to address the challenges faced by traditional scientific methodologies while revealing unprecedented challenges such as the interpretability of computations and the demand for extrapolative predictions on the amount of data. Methods that integrate traditional physical and data science methodologies are new methods of mathematical analysis that complement both methodologies and are being studied in various scientific fields. This paper highlights the significance and importance of such integrated methods from the viewpoint of scientific theory. Additionally, a comprehensive survey of specific methods and applications are conducted, and the current state of the art in relevant research fields are summarized.
翻訳日:2021-10-07 09:03:54 公開日:2021-09-30
# (参考訳) データフローとgaasからみた軍事用途における選択アルゴリズムの検討 [全文訳有]

A Survey of Selected Algorithms Used in Military Applications from the Viewpoints of Dataflow and GaAs ( http://arxiv.org/abs/2110.01389v1 )

ライセンス: CC BY 4.0
Ilir Capuni and Veljko Milutinovic(参考訳) これは、しばしば軍事目的に使用される10のアルゴリズムの短い調査であり、続いて、チップ上のスーパーコンピュータのアーキテクチャと技術であるデータフローとGaAsの潜在的な適合性の分析である。 アルゴリズムやデバイスが軍事的設定で使用される場合、スピード、信頼性、スケール、エネルギー、サイズ、正確性に関する厳密な要件を前提とするのは当然である。 上記の2つのパラダイムは、これらの要件の大部分を満たす上で有望なようだ。

This is a short survey of ten algorithms that are often used for military purposes, followed by analysis of their potential suitability for dataflow and GaAs, which are a specific architecture and technology for supercomputers on a chip, respectively. Whenever an algorithm or a device is used in military settings, it is natural to assume strict requirements related to speed, reliability, scale, energy, size, and accuracy. The two aforementioned paradigms seem to be promising in fulfilling most of these requirements.
翻訳日:2021-10-07 08:47:39 公開日:2021-09-30
# (参考訳) 制御におけるニューラルネットワークの検証 [全文訳有]

Neural Network Verification in Control ( http://arxiv.org/abs/2110.01388v1 )

ライセンス: CC BY 4.0
Michael Everett(参考訳) 学習ベースの手法は、コントロールにおける長年の課題の多くに解決策を提供することができる。 しかし、現代の学習手法で一般的に使用されるニューラルネットワーク(NN)は、結果の制御システムの安全性特性を分析する上で大きな課題となる。 幸いなことに、新しい文献体系は、これらの高次元、高非線形表現の分析と検証のための扱いやすい方法を提供することができた。 このチュートリアルは、NNの堅牢性を検証する最新の技術(多くはコンピュータビジョンと機械学習コミュニティに由来する)を紹介し、統合する。 これらの技術は、神経フィードバックループ(例えば、NN制御ポリシー付きクローズドループシステム)の正式な保証を提供するために拡張される。 提案したツールは, 閉ループ到達性解析と堅牢な深層強化学習を可能にする。

Learning-based methods could provide solutions to many of the long-standing challenges in control. However, the neural networks (NNs) commonly used in modern learning approaches present substantial challenges for analyzing the resulting control systems' safety properties. Fortunately, a new body of literature could provide tractable methods for analysis and verification of these high dimensional, highly nonlinear representations. This tutorial first introduces and unifies recent techniques (many of which originated in the computer vision and machine learning communities) for verifying robustness properties of NNs. The techniques are then extended to provide formal guarantees of neural feedback loops (e.g., closed-loop system with NN control policy). The provided tools are shown to enable closed-loop reachability analysis and robust deep reinforcement learning.
翻訳日:2021-10-07 08:40:12 公開日:2021-09-30
# MobTCast: 人体移動予測のための補助軌道予測の活用

MobTCast: Leveraging Auxiliary Trajectory Forecasting for Human Mobility Prediction ( http://arxiv.org/abs/2110.01401v1 )

ライセンス: Link先を確認
Hao Xue, Flora D.Salim, Yongli Ren, Nuria Oliver(参考訳) 人間のモビリティ予測は多くの位置情報ベースのサービスやアプリケーションの中核機能である。 しかし、モビリティデータのスパース性のため、訪問する今後のpois(place-of-intere sts)を予測するのは容易ではない。 本稿では,モビリティ予測のためのTransformerベースのコンテキスト認識ネットワークであるMobTCastを提案する。 具体的には,時間的,意味的,社会的,地理的の4種類の文脈の影響について検討する。 本稿ではまず,履歴POIシーケンスと意味情報を入力として利用するトランスフォーマーアーキテクチャを用いて,基本モビリティ特徴抽出器を設計する。 時間的コンテキストと意味的コンテキストの両方を扱う。 基本抽出器と利用者の社会的つながりに基づいて,社会的文脈の影響をモデル化するために自己認識モジュールを用いる。 さらに,既存の手法と異なり,地理的文脈をモデル化し,次の位置を予測する補助タスクとして,MobTCastの位置情報予測ブランチを導入する。 直感的には、予測されたPOIの位置と予測された補助分岐からの位置との地理的距離は可能な限り近いべきである。 この関係を反映するため、我々はPOI予測性能をさらに向上させるために一貫性損失を設計する。 実験の結果、MobTCastは他の最先端の次世代POI予測手法よりも優れていた。 我々のアプローチは、次のpoi予測で異なるタイプのコンテキストを含める価値を示します。

Human mobility prediction is a core functionality in many location-based services and applications. However, due to the sparsity of mobility data, it is not an easy task to predict future POIs (place-of-interests) that are going to be visited. In this paper, we propose MobTCast, a Transformer-based context-aware network for mobility prediction. Specifically, we explore the influence of four types of context in the mobility prediction: temporal, semantic, social and geographical contexts. We first design a base mobility feature extractor using the Transformer architecture, which takes both the history POI sequence and the semantic information as input. It handles both the temporal and semantic contexts. Based on the base extractor and the social connections of a user, we employ a self-attention module to model the influence of the social context. Furthermore, unlike existing methods, we introduce a location prediction branch in MobTCast as an auxiliary task to model the geographical context and predict the next location. Intuitively, the geographical distance between the location of the predicted POI and the predicted location from the auxiliary branch should be as close as possible. To reflect this relation, we design a consistency loss to further improve the POI prediction performance. In our experimental results, MobTCast outperforms other state-of-the-art next POI prediction methods. Our approach illustrates the value of including different types of context in next POI prediction.
翻訳日:2021-10-05 15:51:18 公開日:2021-09-30
# RED++ : 入力分割と出力マージによるディープニューラルネットワークのデータフリープルーニング

RED++ : Data-Free Pruning of Deep Neural Networks via Input Splitting and Output Merging ( http://arxiv.org/abs/2110.01397v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Matthieu Cord and Kevin Bailly(参考訳) Pruning Deep Neural Networks (DNN) は、推論ランタイムアクセラレーションの目標において、顕著な研究分野である。 本稿では,新しいデータフリープルーニングプロトコルRED++を紹介する。 訓練されたニューラルネットワークのみを必要とし、dnnアーキテクチャに特化せず、ニューロンの重み値の冗長性を示す適応型データフリースカラーハッシュを用いる。 本研究は,ハッシングによる精度の維持と,当該冗長性の利用による予測刈り取り率に関する理論的および実証的保証について検討した。 そこで本研究では,DNN層のデータフリープルーニング手法を提案する。 このアルゴリズムは単純で並列化可能であり、大きな計算の負荷を効率よくメモリアクセスとアロケーションにシフトさせることにより、DNNプルーニングの新たな視点を提供する。 我々はRED++のパフォーマンスを理論的に保証し、ResNets、MobileNets、EfficientNets上のデータ駆動型と競合する他のデータフリープルーニングメソッドよりも優れていることを実証する。

Pruning Deep Neural Networks (DNNs) is a prominent field of study in the goal of inference runtime acceleration. In this paper, we introduce a novel data-free pruning protocol RED++. Only requiring a trained neural network, and not specific to DNN architecture, we exploit an adaptive data-free scalar hashing which exhibits redundancies among neuron weight values. We study the theoretical and empirical guarantees on the preservation of the accuracy from the hashing as well as the expected pruning ratio resulting from the exploitation of said redundancies. We propose a novel data-free pruning technique of DNN layers which removes the input-wise redundant operations. This algorithm is straightforward, parallelizable and offers novel perspective on DNN pruning by shifting the burden of large computation to efficient memory access and allocation. We provide theoretical guarantees on RED++ performance and empirically demonstrate its superiority over other data-free pruning methods and its competitiveness with data-driven ones on ResNets, MobileNets and EfficientNets.
翻訳日:2021-10-05 15:47:00 公開日:2021-09-30
# 機械学習を用いたマルベリー葉収量予測

Mulberry Leaf Yield Prediction Using Machine Learning Techniques ( http://arxiv.org/abs/2110.01394v1 )

ライセンス: Link先を確認
Srikantaiah K C, Deeksha A(参考訳) 土壌の栄養素は健康な作物の成長に不可欠である。 インドはムルベリーの葉を大量に生産し、生の絹を生産する。 インドの気候は好まれるため、マルベリーは年間を通じて栽培されている。 農夫の大多数は、葉が栄養不良になるため土壌の性質や無生物的要因にほとんど注意を払わず、カイコに食されると、所望の良質な最終産物である生の絹は生産されない。 農夫は、自分の土地が生産できる収量を知ることで、事前に計画できることが有益である。 本稿では, 土壌パラメータに基づいて, マルベリー作物の収量を予測するために, 異なる機械学習手法を用いた。 3つの高度な機械学習モデル、すなわち多重線形回帰、リッジ回帰、ランダムフォレスト回帰(RF)を選択して比較する。 実験の結果,ランダムフォレスト回帰は他のアルゴリズムよりも優れていることがわかった。

Soil nutrients are essential for the growth of healthy crops. India produces a humungous quantity of Mulberry leaves which in turn produces the raw silk. Since the climatic conditions in India is favourable, Mulberry is grown throughout the year. Majority of the farmers hardly pay attention to the nature of soil and abiotic factors due to which leaves become malnutritious and thus when they are consumed by the silkworm, desired quality end-product, raw silk, will not be produced. It is beneficial for the farmers to know the amount of yield that their land can produce so that they can plan in advance. In this paper, different Machine Learning techniques are used in predicting the yield of the Mulberry crops based on the soil parameters. Three advanced machine-learning models are selected and compared, namely, Multiple linear regression, Ridge regression and Random Forest Regression (RF). The experimental results show that Random Forest Regression outperforms other algorithms.
翻訳日:2021-10-05 15:25:01 公開日:2021-09-30
# 機械学習を用いたIPLマッチング結果の予測

Prediction of IPL Match Outcome Using Machine Learning Techniques ( http://arxiv.org/abs/2110.01395v1 )

ライセンス: Link先を確認
Srikantaiah K C, Aryan Khetan, Baibhav Kumar, Divy Tolani, Harshal Patel(参考訳) インドで最も人気のあるスポーツはクリケットであり、T20、ODI、Testといった様々なフォーマットで全国でプレイされている。 インド・プレミアリーグ(indian premier league、ipl)は、インドの地域チーム、ナショナルチーム、国際チームから選手が参加するクリケットの試合である。 ライブストリーミング、ラジオ、テレビ放送など多くの要素がクリケットファンの間で人気を博した。 IPLマッチの結果を予測することは、オンライントレーダーやスポンサーにとって非常に重要である。 チーム構成、打率、チーム内の各選手のボーリング平均、前試合でのチームの成功、そして、トス、会場、昼夜といった伝統的な要因に加えて、特定の試合会場で特定のチームに対して最初に打って勝つ確率に基づいて、2つのチーム間の試合を予測することができる。 本稿では,SVM,ランダムフォレスト分類器(RFC),ロジスティック回帰,K-Nearest Neighborといった機械学習アルゴリズムを用いて,IPLマッチの結果を予測するモデルを提案する。 実験の結果、ランダムフォレストアルゴリズムは88.10%の精度で他のアルゴリズムよりも優れていた。

India's most popular sport is cricket and is played across all over the nation in different formats like T20, ODI, and Test. The Indian Premier League (IPL) is a national cricket match where players are drawn from regional teams of India, National Team and also from international team. Many factors like live streaming, radio, TV broadcast made this league as popular among cricket fans. The prediction of the outcome of the IPL matches is very important for online traders and sponsors. We can predict the match between two teams based on various factors like team composition, batting and bowling averages of each player in the team, and the team's success in their previous matches, in addition to traditional factors such as toss, venue, and day-night, the probability of winning by batting first at a specified match venue against a specific team. In this paper, we have proposed a model for predicting outcome of the IPL matches using Machine learning Algorithms namely SVM, Random Forest Classifier (RFC), Logistic Regression and K-Nearest Neighbor. Experimental results showed that the Random Forest algorithm outperforms other algorithms with an accuracy of 88.10%.
翻訳日:2021-10-05 15:24:47 公開日:2021-09-30
# (参考訳) 自己教師付き学習による強重力レンズのマイニング [全文訳有]

Mining for strong gravitational lenses with self-supervised learning ( http://arxiv.org/abs/2110.00023v1 )

ライセンス: CC BY 4.0
George Stein, Jacqueline Blaum, Peter Harrington, Tomislav Medan, Zarija Lukic(参考訳) 我々は、Dark Energy Spectroscopic Instruments (DESI) Legacy Imaging Surveys' Data Release 9から7600万個の銀河画像から情報を抽出するために、自己教師付き表現学習を採用している。 新しい強い重力レンズ候補の同定を目標として、まず1つのラベル付き例から新しい強いレンズを発見するための高速類似性探索ツールを開発した。 次に、単純な線形分類器を自己教師付き表現でトレーニングする方法を示し、cpu上でほんの数分で、強力なレンズを効率良く自動的に分類できることを示す。 1192個の新しい強力なレンズ候補を、簡単な視覚的識別キャンペーンを通じて特定し、インタラクティブなWebベースの類似性検索ツールとトップネットワーク予測を公開し、より強力な重力レンズや他のレアな物体をクラウドソーシングで素早く発見できるようにする。

We employ self-supervised representation learning to distill information from 76 million galaxy images from the Dark Energy Spectroscopic Instrument (DESI) Legacy Imaging Surveys' Data Release 9. Targeting the identification of new strong gravitational lens candidates, we first create a rapid similarity search tool to discover new strong lenses given only a single labelled example. We then show how training a simple linear classifier on the self-supervised representations, requiring only a few minutes on a CPU, can automatically classify strong lenses with great efficiency. We present 1192 new strong lens candidates that we identified through a brief visual identification campaign, and release an interactive web-based similarity search tool and the top network predictions to facilitate crowd-sourcing rapid discovery of additional strong gravitational lenses and other rare objects: github.com/georgeste in/ssl-legacysurvey
翻訳日:2021-10-05 05:49:26 公開日:2021-09-30
# (参考訳) 人間ファントムを通さない磁気共鳴画像のマルチサイト調和学習 [全文訳有]

Learning Multi-Site Harmonization of Magnetic Resonance Images Without Traveling Human Phantoms ( http://arxiv.org/abs/2110.00041v1 )

ライセンス: CC BY 4.0
Siyuan Liu and Pew-Thian Yap(参考訳) 調和化はデータの一貫性を改善し、複数のサイトにわたって取得された多様な画像データの効果的な統合の中心である。 近年の調和のための深層学習技術は自然界で主に管理されており、複数の場所で同じ被験者の画像データを取得する必要がある。 そのため、信頼できるネットワークトレーニングに十分なサンプルサイズが必要な場合、データ収集は、人体がサイトを横断する必要があり、したがって困難でコストがかかり、実用的ではない。 ここでは,人間のファントムデータに依存しない深層ニューラルネットワークを用いて,調和を実現する方法を示す。 本手法は,複数の場所で取得した画像からサイト固有の外観情報とサイト不変の解剖情報をアンタングルし,そのアンタングル情報を用いて対象部位毎の画像を生成する。 6000以上の多地点t1強調画像とt2強調画像を用いて,本手法が解剖学的詳細を変化させることなく,リアルなサイト特有の外観を持つ画像の生成に極めて有効であることを示す。 提案手法は,様々なスキャナーやプロトコルを介し,データ収集を行なわずに,既存の大規模イメージング研究の幅広い領域において,データの再帰的調和を可能にする。

Harmonization improves data consistency and is central to effective integration of diverse imaging data acquired across multiple sites. Recent deep learning techniques for harmonization are predominantly supervised in nature and hence require imaging data of the same human subjects to be acquired at multiple sites. Data collection as such requires the human subjects to travel across sites and is hence challenging, costly, and impractical, more so when sufficient sample size is needed for reliable network training. Here we show how harmonization can be achieved with a deep neural network that does not rely on traveling human phantom data. Our method disentangles site-specific appearance information and site-invariant anatomical information from images acquired at multiple sites and then employs the disentangled information to generate the image of each subject for any target site. We demonstrate with more than 6,000 multi-site T1- and T2-weighted images that our method is remarkably effective in generating images with realistic site-specific appearances without altering anatomical details. Our method allows retrospective harmonization of data in a wide range of existing modern large-scale imaging studies, conducted via different scanners and protocols, without additional data collection.
翻訳日:2021-10-05 05:15:12 公開日:2021-09-30
# (参考訳) 科学的証拠抽出 [全文訳有]

Scientific evidence extraction ( http://arxiv.org/abs/2110.00061v1 )

ライセンス: CC BY 4.0
Brandon Smock and Rohith Pesala and Robin Abraham(参考訳) 近年,非構造化文書からのテーブル構造推論と抽出の問題に機械学習を適用することへの関心が高まっている。 しかしながら、ラベル付きデータからモデルのトレーニングや評価を行う際に生じるいくつかの問題から、この分野の進歩は、作成と測定の両方に挑戦している。 これには、各入力サンプルに対して1つの決定的基底真理出力が欠如していることや、このタスクの部分的正しさを測定する理想的な計量が欠如していることなど、基本的な課題が含まれる。 そこで我々は,新しいデータセットであるpubmed table 100万(pubtables-1m)と,新しいメトリッククラスであるgrid table similarity(grits)を提案する。 PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさで、複数のアーキテクチャやモダリティをまたいだモデルで使用することができ、曖昧さやアノテーションの一貫性の欠如といった問題に対処する。 DeTRを初めてテーブル抽出に適用し,PubTables-1Mでトレーニングしたオブジェクト検出モデルが,検出,構造認識,機能解析の3つのタスクすべてに対して,優れた結果をもたらすことを示す。 データセットを詳細に説明し、他の人が作業の上に構築し、これらのデータと関連するタスクのための他のデータセットを組み合わせられるようにします。 pubtables-1mと提案するメトリクスが,テーブル抽出のための多種多様なモデルのトレーニングと評価に適したベンチマークを作成することにより,この分野のさらなる進展を期待する。 データとコードはhttps://github.com/m icrosoft/table-trans formerでリリースされる。

Recently, interest has grown in applying machine learning to the problem of table structure inference and extraction from unstructured documents. However, progress in this area has been challenging both to make and to measure, due to several issues that arise in training and evaluating models from labeled data. This includes challenges as fundamental as the lack of a single definitive ground truth output for each input sample and the lack of an ideal metric for measuring partial correctness for this task. To address these we propose a new dataset, PubMed Tables One Million (PubTables-1M), and a new class of metric, grid table similarity (GriTS). PubTables-1M is nearly twice as large as the previous largest comparable dataset, can be used for models across multiple architectures and modalities, and addresses issues such as ambiguity and lack of consistency in the annotations. We apply DETR to table extraction for the first time and show that object detection models trained on PubTables-1M produce excellent results out-of-the-box for all three tasks of detection, structure recognition, and functional analysis. We describe the dataset in detail to enable others to build on our work and combine this data with other datasets for these and related tasks. It is our hope that PubTables-1M and the proposed metrics can further progress in this area by creating a benchmark suitable for training and evaluating a wide variety of models for table extraction. Data and code will be released at https://github.com/m icrosoft/table-trans former.
翻訳日:2021-10-05 05:02:11 公開日:2021-09-30
# (参考訳) 時系列ニューラルネットワークと統計的手法を組み合わせた時系列予測の2つの方法 [全文訳有]

Two ways towards combining Sequential Neural Network and Statistical Methods to Improve the Prediction of Time Series ( http://arxiv.org/abs/2110.00082v1 )

ライセンス: CC BY 4.0
Jingwei Li(参考訳) 統計モデリングとデータ駆動学習は、多くの注目を集める2つの重要な分野である。 統計モデルは変数間の関係を捉えて解釈することを意図しており、データベースの学習は複雑なモデルを通じて前処理することなくデータから直接情報を抽出する。 両分野での広範な研究を考えると、データベースのメソッドを既存の知識やモデルと適切に統合する方法が微妙な問題である。 本稿では,時系列データに基づいて,データ特徴の統計的抽出を利用した分解法と解析手法の2つの方法を統合する。 まず、データを線形安定・非線形安定・不安定に分解し、線形安定・非線形安定部分に対して適切な統計モデルを、不安定部分に対して適切な機械学習ツールを使用する。 2つ目は統計モデルを適用してデータの統計特徴を抽出し、トレーニング用の機械学習プラットフォームに追加入力として与えるものだ。 最も重要で難しいのは、数学的または統計モデルから貴重な情報を決定・抽出し、機械学習アルゴリズムのパフォーマンスを高める方法である。 時系列データを用いて,安定性の異なる提案を評価した。 パフォーマンスの結果、どちらの手法もモデルと学習を別々に使用する既存のスキームよりも優れており、改善率は60%を超えている。 提案手法はいずれも,モデルベースとデータ駆動方式のギャップを橋渡しし,両者を統合することで,総合的に高い学習性能を提供する。

Statistic modeling and data-driven learning are the two vital fields that attract many attentions. Statistic models intend to capture and interpret the relationships among variables, while data-based learning attempt to extract information directly from the data without pre-processing through complex models. Given the extensive studies in both fields, a subtle issue is how to properly integrate data based methods with existing knowledge or models. In this paper, based on the time series data, we propose two different directions to integrate the two, a decomposition-based method and a method exploiting the statistic extraction of data features. The first one decomposes the data into linear stable, nonlinear stable and unstable parts, where suitable statistical models are used for the linear stable and nonlinear stable parts while the appropriate machine learning tools are used for the unstable parts. The second one applies statistic models to extract statistics features of data and feed them as additional inputs into the machine learning platform for training. The most critical and challenging thing is how to determine and extract the valuable information from mathematical or statistical models to boost the performance of machine learning algorithms. We evaluate the proposal using time series data with varying degrees of stability. Performance results show that both methods can outperform existing schemes that use models and learning separately, and the improvements can be over 60%. Both our proposed methods are promising in bridging the gap between model-based and data-driven schemes and integrating the two to provide an overall higher learning performance.
翻訳日:2021-10-05 04:46:11 公開日:2021-09-30
# (参考訳) 映像における深層学習に基づく行動検出:調査 [全文訳有]

Deep Learning-based Action Detection in Untrimmed Videos: A Survey ( http://arxiv.org/abs/2110.00111v1 )

ライセンス: CC BY 4.0
Elahe Vahdani and Yingli Tian(参考訳) 人間の行動や活動を理解することは、多くの現実世界のアプリケーションの発展を促進し、ビデオ分析に不可欠である。 トリミングされたビデオにおけるアクション認識アルゴリズムの進歩にもかかわらず、現実世界の動画の大部分は長く、興味の薄いセグメントでトリミングされていない。 非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズし、アクションカテゴリを分類することを目的としている。 アクションアノテーションの利用可能度に応じて,時間的活動検出タスクを,完全かつ限定的な監視設定で検討した。 本稿では,完全教師あり,弱い教師あり,教師なし,教師なし,自己教師なし,半教師ありなど,監督レベルが異なるビデオにおいて,時間的動作検出に取り組むための深層学習に基づくアルゴリズムの概要について述べる。 さらに,行動が時間的および空間的次元の両方に局所化される時空間的行動検出の進歩についても概説する。 さらに、一般的に使用されるアクション検出ベンチマークデータセットと評価メトリクスを記述し、最先端手法の性能を比較する。 最後に,非トリミングビデオにおける時間的行動検出の現実的応用と今後の方向性について述べる。

Understanding human behavior and activity facilitates advancement of numerous real-world applications, and is critical for video analysis. Despite the progress of action recognition algorithms in trimmed videos, the majority of real-world videos are lengthy and untrimmed with sparse segments of interest. The task of temporal activity detection in untrimmed videos aims to localize the temporal boundary of actions and classify the action categories. Temporal activity detection task has been investigated in full and limited supervision settings depending on the availability of action annotations. This paper provides an extensive overview of deep learning-based algorithms to tackle temporal action detection in untrimmed videos with different supervision levels including fully-supervised, weakly-supervised, unsupervised, self-supervised, and semi-supervised. In addition, this paper also reviews advances in spatio-temporal action detection where actions are localized in both temporal and spatial dimensions. Moreover, the commonly used action detection benchmark datasets and evaluation metrics are described, and the performance of the state-of-the-art methods are compared. Finally, real-world applications of temporal action detection in untrimmed videos and a set of future directions are discussed.
翻訳日:2021-10-05 04:34:24 公開日:2021-09-30
# (参考訳) 逐次予測器の比較

Comparing Sequential Forecasters ( http://arxiv.org/abs/2110.00115v1 )

ライセンス: CC BY 4.0
Yo Joong Choe and Aaditya Ramdas(参考訳) 2つ以上の予測者が時間とともに一連の予測を行い、それらをオンラインまたはポストホックに比較する方法の問題に取り組む。 気象学からスポーツまで幅広い分野において、予測者は時間とともに異なる事象や量について予測を行い、統計学的に厳密な方法でそれらを比較する方法を説明する。 具体的には,比較的大きなスコアリングルール(線形同値のバウンドスコア)を用いた場合の予測品質の時間変動差を推定するための非漸近的逐次推定手法を設計する。 その結果得られる信頼区間は連続的に監視され、任意のデータ依存停止時間("anytime-valid")における統計的に妥当な比較結果が得られる。 Shafer と Vovk のゲーム理論的確率の精神では、予測や結果によらず分布的な仮定をしないという意味で、CS のカバレッジ保証も分布自由である。 さらに、Henzi と Ziegel による最近の事前プリントとは対照的に、ある予測器が平均的に他の予測器よりも優れているかどうかについて弱いヌル仮説を逐次テストする方法を示し、任意の停止時間で証拠を定量化する異なる電子プロセスを設計する。 本手法は, 総合実験における固定時間および漸近的な結果に対する妥当性を検証し, メジャーリーグ野球(mlb)試合の確率予測の比較, アンサンブル気象予報のための統計的後処理法の比較など, 実データ環境での有効性を実証する。

We consider two or more forecasters each making a sequence of predictions over time and tackle the problem of how to compare them -- either online or post-hoc. In fields ranging from meteorology to sports, forecasters make predictions on different events or quantities over time, and this work describes how to compare them in a statistically rigorous manner. Specifically, we design a nonasymptotic sequential inference procedure for estimating the time-varying difference in forecast quality when using a relatively large class of scoring rules (bounded scores with a linear equivalent). The resulting confidence intervals can be continuously monitored and yield statistically valid comparisons at arbitrary data-dependent stopping times ("anytime-valid"); this is enabled by adapting recent variance-adaptive confidence sequences (CS) to our setting. In the spirit of Shafer and Vovk's game-theoretic probability, the coverage guarantees for our CSs are also distribution-free, in the sense that they make no distributional assumptions whatsoever on the forecasts or outcomes. Additionally, in contrast to a recent preprint by Henzi and Ziegel, we show how to sequentially test a weak null hypothesis about whether one forecaster outperforms another on average over time, by designing different e-processes that quantify the evidence at any stopping time. We examine the validity of our methods over their fixed-time and asymptotic counterparts in synthetic experiments and demonstrate their effectiveness in real-data settings, including comparing probability forecasts on Major League Baseball (MLB) games and comparing statistical postprocessing methods for ensemble weather forecasts.
翻訳日:2021-10-05 03:30:23 公開日:2021-09-30
# (参考訳) #ContextMatters: 政治における女性を支援するために機械学習を使うことの利点と限界 [全文訳有]

#ContextMatters: Advantages and Limitations of Using Machine Learning to Support Women in Politics ( http://arxiv.org/abs/2110.00116v1 )

ライセンス: CC BY 4.0
Jacqueline Comer, Sam Work, Kory W Mathewson, Lana Cuthbertson, Kasey Machin(参考訳) 国連は2015年に性平等を持続可能な開発目標とし、政治における女性の過少表現をジェンダー平等を達成するための特定の障壁として認識した。 世界中の政治システムは、男性よりも女性の方が少ないため、選出された政府のあらゆるレベルにおいて男女不平等を経験する。 これは部分的にはオンライン虐待によるもので、特にTwitterのようなソーシャルメディアプラットフォームでは、女性が男性よりも有害な虐待を被る傾向にある。 本稿では,政治における女性のオンライン談話に影響を与えるように設計された最初の自然言語処理に基づく介入であるparitybotについて考察する。 ParityBOTはカナダ、米国、ニュージーランドの選挙にまたがって展開され、女性候補者に向けられた1200万以上のツイートを分析し分類し、支援的なツイートで有害なツイートに対処するために使われた。 これらの選挙から, 自然言語処理システムを用いたオンライン毒性の検出, とくに文脈的に重要なマイクロアグレッションの限界, 今後の研究と応用の可能性を明らかにする3つのケーススタディを提示する。 そこでは、ParityBOTが特定の女性に向けられた侮辱を拾い上げることができず、それは人間のユーザーにとって明らかである。 本研究は, マイクロアグレッションの未然の被害と, 女性の被害の可能性を調査し, 技術的盲点を鑑み, 男女平等に向けての進展について検討する。 この研究は、オンラインヘイトに対処するための責任ある社会的影響のあるアプローチを開発するための、非営利の社会グループと技術専門家とのパートナーシップの利点に関する議論で締めくくられる。

The United Nations identified gender equality as a Sustainable Development Goal in 2015, recognizing the underrepresentation of women in politics as a specific barrier to achieving gender equality. Political systems around the world experience gender inequality across all levels of elected government as fewer women run for office than men. This is due in part to online abuse, particularly on social media platforms like Twitter, where women seeking or in power tend to be targeted with more toxic maltreatment than their male counterparts. In this paper, we present reflections on ParityBOT - the first natural language processing-based intervention designed to affect online discourse for women in politics for the better, at scale. Deployed across elections in Canada, the United States and New Zealand, ParityBOT was used to analyse and classify more than 12 million tweets directed at women candidates and counter toxic tweets with supportive ones. From these elections we present three case studies highlighting the current limitations of, and future research and application opportunities for, using a natural language processing-based system to detect online toxicity, specifically with regards to contextually important microaggressions. We examine the rate of false negatives, where ParityBOT failed to pick up on insults directed at specific high profile women, which would be obvious to human users. We examine the unaddressed harms of microaggressions and the potential of yet unseen damage they cause for women in these communities, and for progress towards gender equality overall, in light of these technological blindspots. This work concludes with a discussion on the benefits of partnerships between nonprofit social groups and technology experts to develop responsible, socially impactful approaches to addressing online hate.
翻訳日:2021-10-05 03:28:51 公開日:2021-09-30
# (参考訳) HUMBI: 人体表現の大規模マルチビューデータセットとベンチマークチャレンジ [全文訳有]

HUMBI: A Large Multiview Dataset of Human Body Expressions and Benchmark Challenge ( http://arxiv.org/abs/2110.00119v1 )

ライセンス: CC BY 4.0
Jae Shin Yoon, Zhixuan Yu, Jaesik Park, Hyun Soo Park(参考訳) 本稿では,人体表現を自然着色で表現するHUMBIという大規模マルチビューデータセットを提案する。 HUMBIの目標は、視線、顔、手、体、衣服を含む5つの主要身体信号の視覚特有の外観と形状のモデリングを容易にすることである。 107個の同期HDカメラは、性別、民族、年齢、スタイルにまたがる772個の特徴を捉えている。 マルチビュー画像ストリームを用いて,3次元メッシュモデルを用いて高忠実度ボディ表現を再構成し,ビュー特有の外観を表現する。 HUMBIは完全な人体モデルの学習と再構築に非常に効果的であり、MPII-Gaze、Multi-PIE、Human3.6M、Panoptic Studioのデータセットのような限られた視点で、人体表現の既存のデータセットと相補的であることを示す。 HUMBIをベースとして,多種多様な人間の表現を3Dでモデル化する際のフォトリアリズムを大幅に拡張することを目的とした,ポーズ誘導型外観レンダリングタスクの新たなベンチマーク課題を定式化する。 HUMBIはhttp://humbi-data.ne tで公開されている。

This paper presents a new large multiview dataset called HUMBI for human body expressions with natural clothing. The goal of HUMBI is to facilitate modeling view-specific appearance and geometry of five primary body signals including gaze, face, hand, body, and garment from assorted people. 107 synchronized HD cameras are used to capture 772 distinctive subjects across gender, ethnicity, age, and style. With the multiview image streams, we reconstruct high fidelity body expressions using 3D mesh models, which allows representing view-specific appearance. We demonstrate that HUMBI is highly effective in learning and reconstructing a complete human model and is complementary to the existing datasets of human body expressions with limited views and subjects such as MPII-Gaze, Multi-PIE, Human3.6M, and Panoptic Studio datasets. Based on HUMBI, we formulate a new benchmark challenge of a pose-guided appearance rendering task that aims to substantially extend photorealism in modeling diverse human expressions in 3D, which is the key enabling factor of authentic social tele-presence. HUMBI is publicly available at http://humbi-data.ne t
翻訳日:2021-10-05 03:12:57 公開日:2021-09-30
# ガラスを見る: 透明物体のジョイントポイントクラウドと深さコンプリート

Seeing Glass: Joint Point Cloud and Depth Completion for Transparent Objects ( http://arxiv.org/abs/2110.00087v1 )

ライセンス: Link先を確認
Haoping Xu, Yi Ru Wang, Sagi Eppel, Al\`an Aspuru-Guzik, Florian Shkurti, Animesh Garg(参考訳) 多くのオブジェクト操作アルゴリズムの基礎はRGB-D入力である。 しかし、コモディティRGB-Dセンサーは、光の屈折と吸収により、幅広い透明物体に対して歪んだ深度マップしか提供できない。 透明物体の知覚課題に取り組むために, 容器内の流体を部分的に充填した状態であっても, 透明物体の奥行きを粗雑で複雑な場面で完結させることのできる, ジョイントポイントクラウドと深さ完結法であるtransparenetを提案する。 文献における既存の透明オブジェクトデータ収集方式の欠点を解決するために,ロボット制御画像収集と視覚に基づく自動アノテーションからなる自動データセット作成ワークフローを提案する。 この自動化ワークフローを通じて、約15,000 RGB-D画像からなるトロント透明オブジェクト深度データセット(TODD)を作成しました。 実験結果から,トランスパレネットは,cleargraspを含む複数のデータセットにおいて,既存の最先端の奥行き補完手法よりも優れており,また,todd上でのトレーニング時にごちゃごちゃしたシーンも処理できることが示されている。 コードとデータセットはhttps://www.pair.tor onto.edu/TranspareNe t/で公開される。

The basis of many object manipulation algorithms is RGB-D input. Yet, commodity RGB-D sensors can only provide distorted depth maps for a wide range of transparent objects due light refraction and absorption. To tackle the perception challenges posed by transparent objects, we propose TranspareNet, a joint point cloud and depth completion method, with the ability to complete the depth of transparent objects in cluttered and complex scenes, even with partially filled fluid contents within the vessels. To address the shortcomings of existing transparent object data collection schemes in literature, we also propose an automated dataset creation workflow that consists of robot-controlled image collection and vision-based automatic annotation. Through this automated workflow, we created Toronto Transparent Objects Depth Dataset (TODD), which consists of nearly 15000 RGB-D images. Our experimental evaluation demonstrates that TranspareNet outperforms existing state-of-the-art depth completion methods on multiple datasets, including ClearGrasp, and that it also handles cluttered scenes when trained on TODD. Code and dataset will be released at https://www.pair.tor onto.edu/TranspareNe t/
翻訳日:2021-10-04 14:48:50 公開日:2021-09-30
# スティフェル多様体上のスパース2次最適化と置換同期への応用

Sparse Quadratic Optimisation over the Stiefel Manifold with Application to Permutation Synchronisation ( http://arxiv.org/abs/2110.00053v1 )

ライセンス: Link先を確認
Florian Bernard, Daniel Cremers, Johan Thunberg(参考訳) 二次目的函数を最大化(あるいは最小化)するスティーフェル多様体上のスパース行列(単位長さの相互直交列を持つ行列)を求める非凸最適化問題に対処する。 スティーフェル多様体上の最適化問題は、例えばグラフマッチング、クラスタリング、置換同期のような様々な組合せ問題のスペクトル緩和において発生する。 このような環境ではスパーシティは望ましい性質であるが、既存の解法、例えば固有値分解に基づく解法ではスパーシティを考慮できないが、グローバル最適性保証を維持しているため、スペクトル公式では無視されることが多い。 我々はこのギャップを埋め、行列の優性固有空間を見つけるための直交反復アルゴリズムの単純かつ効果的なスパルシリティ・プロモーティング修正を提案する。 これにより、この手法は二次目的関数に対してグローバルに最適であるスタイフェル行列を見つけると同時に、スパースであることを保証することができる。 モチベーションアプリケーションとして、コンピュータビジョンやコンピュータグラフィックスなどにおいて、複数の画像や3次元形状のマッチングに特に関連する制約付きクラスタリング問題として理解することができる、置換同期のタスクを考える。 提案手法が従来の手法よりも優れていることを示す。

We address the non-convex optimisation problem of finding a sparse matrix on the Stiefel manifold (matrices with mutually orthogonal columns of unit length) that maximises (or minimises) a quadratic objective function. Optimisation problems on the Stiefel manifold occur for example in spectral relaxations of various combinatorial problems, such as graph matching, clustering, or permutation synchronisation. Although sparsity is a desirable property in such settings, it is mostly neglected in spectral formulations since existing solvers, e.g. based on eigenvalue decomposition, are unable to account for sparsity while at the same time maintaining global optimality guarantees. We fill this gap and propose a simple yet effective sparsity-promoting modification of the Orthogonal Iteration algorithm for finding the dominant eigenspace of a matrix. By doing so, we can guarantee that our method finds a Stiefel matrix that is globally optimal with respect to the quadratic objective function, while in addition being sparse. As a motivating application we consider the task of permutation synchronisation, which can be understood as a constrained clustering problem that has particular relevance for matching multiple images or 3D shapes in computer vision, computer graphics, and beyond. We demonstrate that the proposed approach outperforms previous methods in this domain.
翻訳日:2021-10-04 14:48:28 公開日:2021-09-30
# PIETS: 異種時系列予測のための並列化不規則エンコーダ

PIETS: Parallelised Irregularity Encoders for Forecasting with Heterogeneous Time-Series ( http://arxiv.org/abs/2110.00071v1 )

ライセンス: Link先を確認
Futoon M. Abushaqra, Hao Xue, Yongli Ren and Flora D. Salim(参考訳) マルチソースデータセットの不均一性と不規則性は時系列解析において重要な課題となる。 文献では、時間パターンや特徴の相関を無視するアンサンブル学習モデルや、データセットの特定の部分を選択する固定サイズのウィンドウを定義することによって、マルチソース時系列の融合が達成されている。 一方で、多くの研究は時系列の不規則性を扱うための大きな改善が示されているが、マルチソースデータには適用されていない。 本研究では、異種時系列をモデル化するための新しいアーキテクチャ、PIETSを設計する。 PIETS の特徴は,(1) 利用可能な情報をすべて活用し,モデルの収束を加速するマルチソースサンプルの不規則エンコーダ,(2) 柔軟性を実現するために並列化されたニューラルネットワーク,(3) 異なる情報をハイライトし,最も関連性の高いデータに高い重要性を与える注意機構である。 提案手法は,covid-19に関連する実世界のデータセットを広範囲に実験した結果,ヘテロジニアスな時間的データを効果的にモデル化し,予測タスクにおける他の最先端のアプローチよりも優れることが示された。

Heterogeneity and irregularity of multi-source data sets present a significant challenge to time-series analysis. In the literature, the fusion of multi-source time-series has been achieved either by using ensemble learning models which ignore temporal patterns and correlation within features or by defining a fixed-size window to select specific parts of the data sets. On the other hand, many studies have shown major improvement to handle the irregularity of time-series, yet none of these studies has been applied to multi-source data. In this work, we design a novel architecture, PIETS, to model heterogeneous time-series. PIETS has the following characteristics: (1) irregularity encoders for multi-source samples that can leverage all available information and accelerate the convergence of the model; (2) parallelised neural networks to enable flexibility and avoid information overwhelming; and (3) attention mechanism that highlights different information and gives high importance to the most related data. Through extensive experiments on real-world data sets related to COVID-19, we show that the proposed architecture is able to effectively model heterogeneous temporal data and outperforms other state-of-the-art approaches in the prediction task.
翻訳日:2021-10-04 14:46:12 公開日:2021-09-30
# SpliceOut: シンプルで効率的なオーディオ拡張方法

SpliceOut: A Simple and Efficient Audio Augmentation Method ( http://arxiv.org/abs/2110.00046v1 )

ライセンス: Link先を確認
Arjit Jain, Pranay Reddy Samala, Deepak Mittal, Preethi Jyoti, Maneesh Singh(参考訳) 時間マスキングは、自動音声認識(ASR)や音声分類(特にSpecAugmentの一部として)など、音声および音声タスクの事実上の強化技術となっている。 本研究では,時間マスキングの簡易な修正であるSpliceOutを提案する。 spliceoutは、さまざまなトレーニングデータを使用した7つの異なる言語のためのasrを含む、さまざまな音声および音声タスクの仕様と、音声翻訳、音声、音楽の分類に比較可能であり、広く適用可能な音声拡張手法としての地位を確立している。 spliceoutは、他の拡張技術と併用することで、さらなる利益を提供する。 完全な教師付き設定は別として,半教師付きおよび自己教師付き設定のパフォーマンス向上とともに,教師なし表現学習を補完できることを実証する。

Time masking has become a de facto augmentation technique for speech and audio tasks, including automatic speech recognition (ASR) and audio classification, most notably as a part of SpecAugment. In this work, we propose SpliceOut, a simple modification to time masking which makes it computationally more efficient. SpliceOut performs comparably to (and sometimes outperforms) SpecAugment on a wide variety of speech and audio tasks, including ASR for seven different languages using varying amounts of training data, as well as on speech translation, sound and music classification, thus establishing itself as a broadly applicable audio augmentation method. SpliceOut also provides additional gains when used in conjunction with other augmentation techniques. Apart from the fully-supervised setting, we also demonstrate that SpliceOut can complement unsupervised representation learning with performance gains in the semi-supervised and self-supervised settings.
翻訳日:2021-10-04 14:42:31 公開日:2021-09-30
# DeepMCAT: 医療画像分類のための大規模ディープクラスタリング

DeepMCAT: Large-Scale Deep Clustering for Medical Image Categorization ( http://arxiv.org/abs/2110.00109v1 )

ライセンス: Link先を確認
Turkay Kart, Wenjia Bai, Ben Glocker and Daniel Rueckert(参考訳) 近年,医療画像における機械学習研究の展望は,教師あり,弱い,あるいは教師なしの手法へと大きく変化している。 これは、地味ラベルが手作業で入手するのに時間と費用がかかるという事実が主な原因である。 患者のメタデータからラベルを生成することは実現可能だが、バイアスをもたらすユーザ指向のエラーに悩まされる。 本研究では,心臓mr画像に焦点をあて,ラベルを使わずに大規模医用画像データセットの自動クラスタリングと分類を行うための教師なしアプローチを提案する。 本研究では,クラスバランスと非バランスな大規模データセットを用いたエンドツーエンドトレーニングについて検討した。 提案手法は,高純度クラスタを作成でき,これらのデータセット上で0.99以上のクラスタ純度を達成した。 以上の結果から,病院における臨床pacsシステムを整理するなど,非構造化大規模医療データベースを分類する手法の可能性を示した。

In recent years, the research landscape of machine learning in medical imaging has changed drastically from supervised to semi-, weakly- or unsupervised methods. This is mainly due to the fact that ground-truth labels are time-consuming and expensive to obtain manually. Generating labels from patient metadata might be feasible but it suffers from user-originated errors which introduce biases. In this work, we propose an unsupervised approach for automatically clustering and categorizing large-scale medical image datasets, with a focus on cardiac MR images, and without using any labels. We investigated the end-to-end training using both class-balanced and imbalanced large-scale datasets. Our method was able to create clusters with high purity and achieved over 0.99 cluster purity on these datasets. The results demonstrate the potential of the proposed method for categorizing unstructured large medical databases, such as organizing clinical PACS systems in hospitals.
翻訳日:2021-10-04 14:39:09 公開日:2021-09-30
# Twitterの埋め込みの多様性と新型コロナウイルスの現況

Variance of Twitter Embeddings and Temporal Trends of COVID-19 cases ( http://arxiv.org/abs/2110.00031v1 )

ライセンス: Link先を確認
Khushbu Pahwa, Ambika Sadhu, Mayank Sethi, Sargun Nagpal, Tavpritesh Sethi(参考訳) 新型コロナウイルスの感染拡大は、効果的な行政判断を必要とする。 インドでは4人以上が新型コロナウイルス(covid-19)に感染し、3人以上が確認された。 疑わしい第3波の脅威は 何百万にも及ばない この変化を続けるウイルスの動態において、予測モデリング手法は統合的なツールとして機能する。 パンデミックはソーシャルメディアを前例のない形で利用した。 本稿では,ソーシャルメディア,特にTwitterを活用する手法を提案し,新型コロナウイルス関連シナリオを予測することを目的とする。 本研究では、covid-19関連ツイートの急増がケースの増加にどのように影響するかを理解したい。 この予測分析は、管理者がタイムリーなリソース割り当てによって被害の重大さを軽減するのに役立つ。 単語埋め込みを用いて、ツイートの意味を捉えることで、重要な次元(SD)を識別する。 本手法は, リードタイムが15日, R2スコアが0.80, 0.62の症例の増加を予測した。 最後に,SDのテーマ的有用性について解説する。

The severity of the coronavirus pandemic necessitates the need of effective administrative decisions. Over 4 lakh people in India succumbed to COVID-19, with over 3 crore confirmed cases, and still counting. The threat of a plausible third wave continues to haunt millions. In this ever changing dynamic of the virus, predictive modeling methods can serve as an integral tool. The pandemic has further triggered an unprecedented usage of social media. This paper aims to propose a method for harnessing social media, specifically Twitter, to predict the upcoming scenarios related to COVID-19 cases. In this study, we seek to understand how the surges in COVID-19 related tweets can indicate rise in the cases. This prospective analysis can be utilised to aid administrators about timely resource allocation to lessen the severity of the damage. Using word embeddings to capture the semantic meaning of tweets, we identify Significant Dimensions (SDs).Our methodology predicts the rise in cases with a lead time of 15 days and 30 days with R2 scores of 0.80 and 0.62 respectively. Finally, we explain the thematic utility of the SDs.
翻訳日:2021-10-04 14:38:10 公開日:2021-09-30
# ステップスロープロスによる信頼度予測の学習

Learning to Predict Trustworthiness with Steep Slope Loss ( http://arxiv.org/abs/2110.00054v1 )

ライセンス: Link先を確認
Yan Luo, Yongkang Wong, Mohan S. Kankanhalli, and Qi Zhao(参考訳) 分類器によって得られる予測の信頼性を理解することは、AIモデルの安全かつ効果的な利用に不可欠である。 以前の取り組みは、小規模データセットで信頼できることが証明されている。 本研究では,高次元特徴,多様な視覚概念,大規模サンプルにより課題が困難な実世界の大規模データセットにおける信頼性の予測問題について検討する。 このような状況下において,先行技術損失関数で訓練された信頼度予測器,すなわちクロスエントロピー損失,焦点損失,真のクラス確率信頼度損失は,正しい予測と誤った予測の両方を信頼度と捉える傾向にある。 理由は2つある。 第一に、正しい予測は一般に誤った予測よりも支配的である。 第二に、データの複雑さのため、現実の大規模データセット上の正しい予測と間違った予測を区別することは困難である。 信頼度予測器の一般化性を向上させるために, 互いに反対する2つのスライド状の曲線による不正確な予測と特徴w.r.t.正しい予測とを分離する, 新たな急傾斜損失を提案する。 提案した損失は、Vision TransformerとResNetの2つの代表的なディープラーニングモデルを用いて信頼性予測として評価される。 本研究では,imagenetに関する総合的な実験と解析を行い,提案する損失が信頼性予測の一般化を効果的に改善することを示す。 再現性に関するコードと事前訓練された信頼性予測は、https://github.com/l uoyan407/predict_tru stworthinessで見ることができる。

Understanding the trustworthiness of a prediction yielded by a classifier is critical for the safe and effective use of AI models. Prior efforts have been proven to be reliable on small-scale datasets. In this work, we study the problem of predicting trustworthiness on real-world large-scale datasets, where the task is more challenging due to high-dimensional features, diverse visual concepts, and large-scale samples. In such a setting, we observe that the trustworthiness predictors trained with prior-art loss functions, i.e., the cross entropy loss, focal loss, and true class probability confidence loss, are prone to view both correct predictions and incorrect predictions to be trustworthy. The reasons are two-fold. Firstly, correct predictions are generally dominant over incorrect predictions. Secondly, due to the data complexity, it is challenging to differentiate the incorrect predictions from the correct ones on real-world large-scale datasets. To improve the generalizability of trustworthiness predictors, we propose a novel steep slope loss to separate the features w.r.t. correct predictions from the ones w.r.t. incorrect predictions by two slide-like curves that oppose each other. The proposed loss is evaluated with two representative deep learning models, i.e., Vision Transformer and ResNet, as trustworthiness predictors. We conduct comprehensive experiments and analyses on ImageNet, which show that the proposed loss effectively improves the generalizability of trustworthiness predictors. The code and pre-trained trustworthiness predictors for reproducibility are available at https://github.com/l uoyan407/predict_tru stworthiness.
翻訳日:2021-10-04 14:36:29 公開日:2021-09-30
# 移民願書の求人記述から標準職業分類コードを決定する

Determining Standard Occupational Classification Codes from Job Descriptions in Immigration Petitions ( http://arxiv.org/abs/2110.00078v1 )

ライセンス: Link先を確認
Sourav Mukherjee, David Widmark, Vince DiMascio, Tim Oates(参考訳) 標準的な職業分類(SOC)コードの正確な仕様は、多くのアメリカのワークビザアプリケーションの成功に不可欠である。 正しいsocコードの決定は、職務要件の注意深い研究と、しばしば退屈な活動である労働統計局によって与えられた定義との比較に依存している。 本稿では,自然言語処理(nlp)の手法を応用し,ジョブ記述に基づくsocコードを計算的に決定する。 我々は,予測とトレーニング時間の質に関して,様々な予測モデルを実装し,経験的に評価し,このタスクに最も適したモデルを同定する。

Accurate specification of standard occupational classification (SOC) code is critical to the success of many U.S. work visa applications. Determination of correct SOC code relies on careful study of job requirements and comparison to definitions given by the U.S. Bureau of Labor Statistics, which is often a tedious activity. In this paper, we apply methods from natural language processing (NLP) to computationally determine SOC code based on job description. We implement and empirically evaluate a broad variety of predictive models with respect to quality of prediction and training time, and identify models best suited for this task.
翻訳日:2021-10-04 14:33:10 公開日:2021-09-30
# ツリーアンサンブル説明可能性法の信頼性について

On the Trustworthiness of Tree Ensemble Explainability Methods ( http://arxiv.org/abs/2110.00086v1 )

ライセンス: Link先を確認
Angeline Yasodhara, Azin Asgarian, Diego Huang, Parinaz Sobhani(参考訳) 医療、刑事司法、財務といった重要な領域における機械学習モデルのデプロイの増加は、これらのモデルをステークホルダーに説明できる信頼できる方法の必要性を強調している。 特徴重要度法(ゲインやSHAPなど)は、このニーズに対処する最も一般的な説明可能性法の一つである。 信頼できる、意味のある説明可能性のテクニックは、正確で安定した説明を提供する必要があります。 局所的特徴重要手法(個々の予測を例示する)の安定性は以前から研究されてきたが、グローバル特徴重要手法(モデル全体の説明)の安定性に関する知識ギャップがある。 さらに、機能順序付けに関してグローバル特徴重要法の正確性を評価し比較する研究は行われていない。 本稿では,シミュレーションと4つの実世界のデータセットを用いて,グローバルな特徴重要度手法の精度と安定性を評価する。 業界で広く使われている木に基づくアンサンブル手法に注目し、説明の正確さと安定性を2つのシナリオで測る。 1)入力が乱されるとき 2)モデルが乱される場合。 本研究は,様々な環境下でのこれらの手法の比較を行い,ノイズ入力に対する精度の欠如と安定性の欠如を示すことにより,グローバル特徴重要手法の限界を浮き彫りにした。 1) データにおける入力寸法の増大又はノイズ 2) 異なるランダムシードやハイパーパラメータ設定で初期化したモデルにおける摂動

The recent increase in the deployment of machine learning models in critical domains such as healthcare, criminal justice, and finance has highlighted the need for trustworthy methods that can explain these models to stakeholders. Feature importance methods (e.g. gain and SHAP) are among the most popular explainability methods used to address this need. For any explainability technique to be trustworthy and meaningful, it has to provide an explanation that is accurate and stable. Although the stability of local feature importance methods (explaining individual predictions) has been studied before, there is yet a knowledge gap about the stability of global features importance methods (explanations for the whole model). Additionally, there is no study that evaluates and compares the accuracy of global feature importance methods with respect to feature ordering. In this paper, we evaluate the accuracy and stability of global feature importance methods through comprehensive experiments done on simulations as well as four real-world datasets. We focus on tree-based ensemble methods as they are used widely in industry and measure the accuracy and stability of explanations under two scenarios: 1) when inputs are perturbed 2) when models are perturbed. Our findings provide a comparison of these methods under a variety of settings and shed light on the limitations of global feature importance methods by indicating their lack of accuracy with and without noisy inputs, as well as their lack of stability with respect to: 1) increase in input dimension or noise in the data; 2) perturbations in models initialized by different random seeds or hyperparameter settings.
翻訳日:2021-10-04 14:33:00 公開日:2021-09-30
# 確率的グラフモデルの強化:パージ・アンド・マージアルゴリズム

Strengthening Probabilistic Graphical Models: The Purge-and-merge Algorithm ( http://arxiv.org/abs/2110.00091v1 )

ライセンス: Link先を確認
Simon Streicher and Johan du Preez(参考訳) 確率的グラフィカルモデル(PGM)は、様々な確率分布上の複雑な関係のシステムを解く強力なツールである。 木構造PGMは常に効率的かつ正確な解をもたらすが、グラフ(またはループ)構造PGMの推論は最適解を発見することが保証されない。 ループ状のPGMを等価な木構造に変換することは原則として可能であるが、最も興味深い問題に対して、指数的爆破による非現実的である。 そこで我々は,purge-and-mergeアルゴリズムを開発した。 このアルゴリズムの背景にある考え方は、因子を選択的にマージすることで、可換グラフ構造を木構造に向けて反復的に掘り下げることである。 マージングプロセスは、アルゴリズムが進行するにつれて冗長性が浄化されるスパース構造を利用することで、指数的な爆発を避けるように設計されている。 このアプローチは,Sudoku,Fill-a-pix,K akuroなど,数多くの制約満足パズルに対して評価される。 これらの課題において,本システムは文献で報告されている他のpgmベースのアプローチよりも優れていた。 これらのタスクは CSP のバイナリ論理に限られていたが、一般の PGM 推論への拡張の約束があると考えている。

Probabilistic graphical models (PGMs) are powerful tools for solving systems of complex relationships over a variety of probability distributions. Tree-structured PGMs always result in efficient and exact solutions, while inference on graph (or loopy) structured PGMs is not guaranteed to discover the optimal solutions. It is in principle possible to convert loopy PGMs to an equivalent tree structure, but for most interesting problems this is impractical due to exponential blow-up. To address this, we developed the purge-and-merge algorithm. The idea behind this algorithm is to iteratively nudge a malleable graph structure towards a tree structure by selectively merging factors. The merging process is designed to avoid exponential blow-up by making use of sparse structures from which redundancy is purged as the algorithm progresses. This approach is evaluated on a number of constraint-satisfact ion puzzles such as Sudoku, Fill-a-pix, and Kakuro. On these tasks, our system outperformed other PGM-based approaches reported in the literature. Although these tasks were limited to the binary logic of CSP, we believe it holds promise for extension to general PGM inference.
翻訳日:2021-10-04 14:32:38 公開日:2021-09-30
# Reward Machines を用いた分散グラフベースマルチエージェント強化学習

Decentralized Graph-Based Multi-Agent Reinforcement Learning Using Reward Machines ( http://arxiv.org/abs/2110.00096v1 )

ライセンス: Link先を確認
Jueming Hu, Zhe Xu, Weichang Wang, Guannan Qu, Yutian Pang, and Yongming Liu(参考訳) マルチエージェント強化学習(MARL)では、エージェントの集合体が複雑な時間的拡張タスクを学習することは困難である。 困難は計算複雑性と、報酬関数の背後にある高レベルのアイデアの学習方法にある。 グラフに基づくマルコフ決定過程 (MDP) について検討し, 周辺エージェントのダイナミクスを結合する。 報酬処理装置(RM)を用いて各エージェントのタスクを符号化し、報酬関数の内部構造を公開する。 rmは高いレベルの知識を記述でき、非マルコフ報酬関数をエンコードできる。 そこで我々は,各エージェントに局所的ポリシーを付与し,エージェントが利用可能な情報に基づいて,エージェントが独立して決定を下すことを可能にする分散グラフベース強化学習(DGRM)という,計算複雑性に対処する分散学習アルゴリズムを提案する。 DGRMはアクター・クリティック構造を用い、離散状態問題に対する表型Q-関数を導入する。 本稿では,他のエージェントに対するQ-関数の依存性が指数関数的に減少することを示す。 さらに、DGRMの複雑さは最大の$\kappa$-hop地区の局所情報サイズと関連しており、DGRMは目的関数の定常点の$O(\rho^{\kappa+1})$-approximationを見つけることができる。 さらに効率を向上させるために,深層ニューラルネットワークを用いてQ関数とポリシ関数を近似し,大規模あるいは連続的な状態問題を解くディープDGRMアルゴリズムを提案する。 提案手法の有効性は,UAVパッケージデリバリーとCOVID-19パンデミック緩和の2つの事例から評価した。 実験の結果,DGRMでは局所情報が十分であり,エージェントはRMの助けを借りて複雑なタスクを遂行できることがわかった。 DGRMは、新型コロナウイルス(COVID-19)のパンデミック対策のベースラインに比べて、世界の累積報酬を119%改善する。

In multi-agent reinforcement learning (MARL), it is challenging for a collection of agents to learn complex temporally extended tasks. The difficulties lie in computational complexity and how to learn the high-level ideas behind reward functions. We study the graph-based Markov Decision Process (MDP) where the dynamics of neighboring agents are coupled. We use a reward machine (RM) to encode each agent's task and expose reward function internal structures. RM has the capacity to describe high-level knowledge and encode non-Markovian reward functions. We propose a decentralized learning algorithm to tackle computational complexity, called decentralized graph-based reinforcement learning using reward machines (DGRM), that equips each agent with a localized policy, allowing agents to make decisions independently, based on the information available to the agents. DGRM uses the actor-critic structure, and we introduce the tabular Q-function for discrete state problems. We show that the dependency of Q-function on other agents decreases exponentially as the distance between them increases. Furthermore, the complexity of DGRM is related to the local information size of the largest $\kappa$-hop neighborhood, and DGRM can find an $O(\rho^{\kappa+1})$-approximation of a stationary point of the objective function. To further improve efficiency, we also propose the deep DGRM algorithm, using deep neural networks to approximate the Q-function and policy function to solve large-scale or continuous state problems. The effectiveness of the proposed DGRM algorithm is evaluated by two case studies, UAV package delivery and COVID-19 pandemic mitigation. Experimental results show that local information is sufficient for DGRM and agents can accomplish complex tasks with the help of RM. DGRM improves the global accumulated reward by 119% compared to the baseline in the case of COVID-19 pandemic mitigation.
翻訳日:2021-10-04 14:30:04 公開日:2021-09-30
# Noise2Recon: 関節再建と脱神経のための半監督型フレームワーク

Noise2Recon: A Semi-Supervised Framework for Joint MRI Reconstruction and Denoising ( http://arxiv.org/abs/2110.00075v1 )

ライセンス: Link先を確認
Arjun D Desai, Batu M Ozturkler, Christopher M Sandino, Shreyas Vasanawala, Brian A Hargreaves, Christopher M Re, John M Pauly, Akshay S Chaudhari(参考訳) Deep Learning (DL)は、高速で高品質なMRI再構成を約束している。 しかし、標準的なDL法は、十分にサンプリングされた地上構造データに大きく依存しており、特に低信号対雑音比(SNR)取得において、OODシフトに敏感である。 この課題を解決するため,関節MR再建・復調のための半教師付き整合性ベースのフレームワーク(Noss2Recon)を提案する。 本手法では,全サンプル数とアンダーサンプル数のみのスキャンを限定的に使用することができる。 本手法を拡張型教師あり技術と微調整デノイザと比較した。 その結果, 地中構造データが少ない場合でも, ノイズ2Recon (1) は分布内(低雑音)スキャンで高い性能を示し, 2) OOD, ノイズスキャンの一般化性を向上させることがわかった。

Deep learning (DL) has shown promise for faster, high quality accelerated MRI reconstruction. However, standard supervised DL methods depend on extensive amounts of fully-sampled ground-truth data and are sensitive to out-of-distribution (OOD) shifts, in particular for low signal-to-noise ratio (SNR) acquisitions. To alleviate this challenge, we propose a semi-supervised, consistency-based framework (termed Noise2Recon) for joint MR reconstruction and denoising. Our method enables the usage of a limited number of fully-sampled and a large number of undersampled-only scans. We compare our method to augmentation-based supervised techniques and fine-tuned denoisers. Results demonstrate that even with minimal ground-truth data, Noise2Recon (1) achieves high performance on in-distribution (low-noise) scans and (2) improves generalizability to OOD, noisy scans.
翻訳日:2021-10-04 14:29:19 公開日:2021-09-30
# GPUによる逆レンダリングの高速化と光経路の再利用

Accelerating Inverse Rendering By Using a GPU and Reuse of Light Paths ( http://arxiv.org/abs/2110.00085v1 )

ライセンス: Link先を確認
Ido Czerninski and Yoav Y. Schechner(参考訳) 逆レンダリングは、一連のデータ画像からシーン特性を推定しようとする。 支配的なアプローチはモンテカルロを用いた微分レンダリングに基づいている。 このようなアルゴリズムは、通常フォワードモデルに依存し、反復ごとに数百万光路をサンプリングする必要がある反復勾配法を使用する。 本稿では,既存の逆レンダリングアルゴリズムを高速化する効率的なフレームワークを提案する。 これは、GPUアーキテクチャに特化して逆レンダリングの反復プロセスを調整することで達成される。 このため,経路ソーティングと経路リサイクルという2つのインターリーブステップを導入する。 Path Sortingを使えば、GPUは同じサイズの光パスを扱うことができる。 パスのリサイクルにより、アルゴリズムは以前のイテレーションからの光の経路を使用して、エンコードした情報をよりよく利用することができる。 同時に、これらのステップは勾配最適化を著しく高速化する。 本稿では, パスリサイクルの理論的背景について述べる。 体積散乱トモグラフィーと反射法(表面反射法)の効率を実証する。

Inverse rendering seeks to estimate scene characteristics from a set of data images. The dominant approach is based on differential rendering using Monte-Carlo. Algorithms as such usually rely on a forward model and use an iterative gradient method that requires sampling millions of light paths per iteration. This paper presents an efficient framework that speeds up existing inverse rendering algorithms. This is achieved by tailoring the iterative process of inverse rendering specifically to a GPU architecture. For this cause, we introduce two interleaved steps - Path Sorting and Path Recycling. Path Sorting allows the GPU to deal with light paths of the same size. Path Recycling allows the algorithm to use light paths from previous iterations to better utilize the information they encode. Together, these steps significantly speed up gradient optimization. In this paper, we give the theoretical background for Path Recycling. We demonstrate its efficiency for volumetric scattering tomography and reflectometry (surface reflections).
翻訳日:2021-10-04 14:29:01 公開日:2021-09-30
# マルチエージェントシステムにおけるマインドコラボレーション理論の創発

Emergence of Theory of Mind Collaboration in Multiagent Systems ( http://arxiv.org/abs/2110.00121v1 )

ライセンス: Link先を確認
Luyao Yuan, Zipeng Fu, Linqi Zhou, Kexin Yang, Song-Chun Zhu(参考訳) 現在、マルチエージェントシステムの研究では、エージェントの意図は通常無視される。 それにもかかわらず、心の理論(tom)で指摘されているように、人々は競争、協力、連立におけるパフォーマンスの優位性を得るために、信念、目標、意図を含む他人の精神状態について定期的に推論する。 しかし、その本質的な再帰と信条上の分散の難解なモデリングのため、マルチエージェントの計画と意思決定へのtomの統合は依然として課題である。 本稿では,マルチエージェント部分観測可能なマルコフ決定プロセス(POMDP)にToMを組み込み,ToMとエージェント間の効果的な協調を開発するための適応トレーニングアルゴリズムを提案する。 アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。

Currently, in the study of multiagent systems, the intentions of agents are usually ignored. Nonetheless, as pointed out by Theory of Mind (ToM), people regularly reason about other's mental states, including beliefs, goals, and intentions, to obtain performance advantage in competition, cooperation or coalition. However, due to its intrinsic recursion and intractable modeling of distribution over belief, integrating ToM in multiagent planning and decision making is still a challenge. In this paper, we incorporate ToM in multiagent partially observable Markov decision process (POMDP) and propose an adaptive training algorithm to develop effective collaboration between agents with ToM. We evaluate our algorithms with two games, where our algorithm surpasses all previous decentralized execution algorithms without modeling ToM.
翻訳日:2021-10-04 14:26:00 公開日:2021-09-30
# 骨シンチグラフィーにおける骨転移と骨の外傷の鑑別のためのアルゴリズムの開発と、そのアルゴリズムの視覚的証拠の実証 - 胸骨前部CT画像のみを用いて-

Development of the algorithm for differentiating bone metastases and trauma of the ribs in bone scintigraphy and demonstration of visual evidence of the algorithm -- Using only anterior bone scan view of thorax ( http://arxiv.org/abs/2110.00130v1 )

ライセンス: Link先を確認
Shigeaki Higashiyama, Yukino Ohta, Yutaka Katayama, Atsushi Yoshida, Joji Kawabe(参考訳) 背景: 医用画像への人工知能(AI)モデルの適用について多くの研究がなされているが, 骨シンチグラフィの胸骨前部像のみを用いて骨転移と外傷のリブの蓄積を判断するAIモデルは報告されていない。 近年,Deep Convolutional Neural Network (DCNN) を用いた診断画像領域において,Grad-CAM (Grad-CAM) と呼ばれる診断基盤の可視化手法が提案されている。 骨シンチグラフィーでは診断基準の可視化は報告されていない。 本研究の目的は,胸部における ri の蓄積が骨転移か外傷かの分類・診断を行うアルゴリズムの開発に加えて,dcnn の関心領域を可視化することである。 材料と方法: 本研究では, 骨シンチグラフィを施行した838例を用いて骨転移の検索を行った。 骨シンチグラフィーの胸部前部像を用いてアルゴリズムを作成した。 胸骨に骨転移を生じた437例,外傷によるri集積異常401例を施行した。 結果: aiモデルは90.00%の感度と86.5%の精度で骨転移病変を検出できた。 また、AIモデルがGrad-CAMで重視している部分を視覚化することもできた。

Background: Although there are many studies on the application of artificial intelligence (AI) models to medical imaging, there is no report of an AI model that determines the accumulation of ribs in bone metastases and trauma only using the anterior image of thorax of bone scintigraphy. In recent years, a method for visualizing diagnostic grounds called Gradient-weighted Class Activation Mapping (Grad-CAM) has been proposed in the area of diagnostic images using Deep Convolutional Neural Network (DCNN). As far as we have investigated, there are no reports of visualization of the diagnostic basis in bone scintigraphy. Our aim is to visualize the area of interest of DCNN, in addition to developing an algorithm to classify and diagnose whether RI accumulation on the ribs is bone metastasis or trauma using only anterior bone scan view of thorax. Material and Methods: For this retrospective study, we used 838 patients who underwent bone scintigraphy to search for bone metastases at our institution. A frontal chest image of bone scintigraphy was used to create the algorithm. We used 437 cases with bone metastases on the ribs and 401 cases with abnormal RI accumulation due to trauma. Result: AI model was able to detect bone metastasis lesion with a sensitivity of 90.00% and accuracy of 86.5%. And it was possible to visualize the part that the AI model focused on with Grad-CAM.
翻訳日:2021-10-04 14:21:15 公開日:2021-09-30
# 物理と平等制約付きニューラルネットワーク:偏微分方程式への応用

Physics and Equality Constrained Artificial Neural Networks: Application to Partial Differential Equations ( http://arxiv.org/abs/2109.14860v1 )

ライセンス: Link先を確認
Shamsulhaq Basir, Inanc Senocak(参考訳) 偏微分方程式 (PDE) の解を求めるために, 物理インフォームドニューラルネットワーク (PINN) が提案されている。 PINNでは、興味のあるPDEの残形とその境界条件は、制約のない最適化問題として複合目的関数にまとめられ、その後、ディープフィードフォワードニューラルネットワークのトレーニングに使用される。 本稿では,この目的関数を定式化する方法が,異なる種類のPDEに適用した場合のPINNアプローチにおける厳しい制約の源であることを示す。 これらの制約に対処するため,逆問題と前方問題の両方に対処可能な多目的フレームワークを提案する。 このフレームワークは多要素データ融合に適しており、適切な初期条件と境界条件で制御物理方程式をシームレスに制約することができる。 提案フレームワークのバックボーンは、損失関数の最小化を目的とした非線形等質制約最適化問題の定式化であり、拡張ラグランジアン法(ALM)を用いて制約最適化問題を非制約最適化問題に変換する。 我々は,ALMを確率的・勾配差型学習アルゴリズム内に実装し,他の損失項を犠牲にすることなく,制約を満たすことに注力する。 さらに、元の残層の変更として、ニューラルネットワークアーキテクチャにおけるリーン残層を提案し、いわゆる消滅段階問題に対処する。 多次元データ融合による水理分野からの非線形逆問題を含む多次元PDEの解を学習するために, 物理・等式制約付きディープラーニングフレームワークの有効性と有用性を示す。 提案するモデルで得られた結果は,考慮されたすべてのケースに対して非常に密接に一致する。

Physics-informed neural networks (PINNs) have been proposed to learn the solution of partial differential equations (PDE). In PINNs, the residual form of the PDE of interest and its boundary conditions are lumped into a composite objective function as an unconstrained optimization problem, which is then used to train a deep feed-forward neural network. Here, we show that this specific way of formulating the objective function is the source of severe limitations in the PINN approach when applied to different kinds of PDEs. To address these limitations, we propose a versatile framework that can tackle both inverse and forward problems. The framework is adept at multi-fidelity data fusion and can seamlessly constrain the governing physics equations with proper initial and boundary conditions. The backbone of the proposed framework is a nonlinear, equality-constrained optimization problem formulation aimed at minimizing a loss functional, where an augmented Lagrangian method (ALM) is used to formally convert a constrained-optimiza tion problem into an unconstrained-optimi zation problem. We implement the ALM within a stochastic, gradient-descent type training algorithm in a way that scrupulously focuses on meeting the constraints without sacrificing other loss terms. Additionally, as a modification of the original residual layers, we propose lean residual layers in our neural network architecture to address the so-called vanishing-gradient problem. We demonstrate the efficacy and versatility of our physics- and equality-constrained deep-learning framework by applying it to learn the solutions of various multi-dimensional PDEs, including a nonlinear inverse problem from the hydrology field with multi-fidelity data fusion. The results produced with our proposed model match exact solutions very closely for all the cases considered.
翻訳日:2021-10-04 14:18:31 公開日:2021-09-30
# Prefix-to-SQL: 不完全なユーザ質問からのテキストからSQL生成

Prefix-to-SQL: Text-to-SQL Generation from Incomplete User Questions ( http://arxiv.org/abs/2109.13066v3 )

ライセンス: Link先を確認
Naihao Deng, Shuaichen Chang, Peng Shi, Tao Yu, Rui Zhang(参考訳) 既存のtext-to-sql研究は、完全な質問を入力としか考えていないが、素人は完全な質問を定式化しようと努力するかもしれない。 データベースシステム(nlidb)に対するよりスマートな自然言語インタフェースを構築するために、ユーザからの質問プレフィックスを入力として、意図するsqlを予測する新しいタスクプレフィックスto-sqlを提案する。 我々はPAGSASと呼ばれる新しいベンチマークを構築し、124Kのユーザ質問プレフィックスと、アドバイス、GeoQuery、Scholar、ATIS、Spiderの5つのサブタスク用のSQLを含む。 さらに,ユーザがどれだけの労力を節約できるかを計測する新しい指標SAVEを提案する。 実験の結果, PAGSASはT5のような強力なベースラインモデルにおいても困難であることがわかった。 省略トークンの数に先行SQLの難しさが関係しているのを観察するため、サンプルを供給するためのカリキュラム学習と、省略トークンの数の増加を取り入れた。 これにより、pagsasのサブタスクgeoqueryにおける9%のリコールスコアが、様々なサブタスクのスコアを改善する。

Existing text-to-SQL research only considers complete questions as the input, but lay-users might strive to formulate a complete question. To build a smarter natural language interface to database systems (NLIDB) that also processes incomplete questions, we propose a new task, prefix-to-SQL which takes question prefix from users as the input and predicts the intended SQL. We construct a new benchmark called PAGSAS that contains 124K user question prefixes and the intended SQL for 5 sub-tasks Advising, GeoQuery, Scholar, ATIS, and Spider. Additionally, we propose a new metric SAVE to measure how much effort can be saved by users. Experimental results show that PAGSAS is challenging even for strong baseline models such as T5. As we observe the difficulty of prefix-to-SQL is related to the number of omitted tokens, we incorporate curriculum learning of feeding examples with an increasing number of omitted tokens. This improves scores on various sub-tasks by as much as 9% recall scores on sub-task GeoQuery in PAGSAS.
翻訳日:2021-10-03 10:41:24 公開日:2021-09-30
# (参考訳) フレア予測テストベッドにおける特徴選択--24手法の比較検討 [全文訳有]

Feature Selection on a Flare Forecasting Testbed: A Comparative Study of 24 Methods ( http://arxiv.org/abs/2109.14770v1 )

ライセンス: CC BY 4.0
Atharv Yeoleka, Sagar Patel, Shreejaa Talla, Krishna Rukmini Puthucode, Azim Ahmadzadeh, Viacheslav M. Sadykov, and Rafal A. Angryk(参考訳) space-weather analytics for solar flares (swan-sf) は、太陽フレア予測モデルのテストベッドとしてヘリオフィジカルスコミュニティにサービスを提供するために最近作成された多変量時系列ベンチマークデータセットである。 SWAN-SFには54のユニークな特徴があり、24の定量的特徴が活動領域の光球磁場マップから計算され、その先例的なフレア活動を記述する。 本研究では,これらの特徴がフレア予測の野心的な課題に与える影響を定量化する問題を,初めて体系的に攻撃した。 我々は,前処理,特徴選択,評価フェーズのためのエンドツーエンドパイプラインを実装した。 多変量・単変量・教師なし・教師なし・ラッパー・フィルタを含む24種類の特徴サブセット選択アルゴリズムを組み込んだ。 多変量時系列とベクトル化形式の両方で異なるFSSアルゴリズムの結果を方法論的に比較し、その相関関係と信頼性を、一変量および多変量方法で、未確認データに基づくフレア予測のために選択された特徴を用いて可能な限り検証した。 本研究の結論は, 上位Kの特徴と分析から, 最良FSS法に関する報告で締めくくった。 われわれの研究の再現性とデータの入手により、将来の試みは我々の発見とそれ自身に匹敵するものになることを願っている。

The Space-Weather ANalytics for Solar Flares (SWAN-SF) is a multivariate time series benchmark dataset recently created to serve the heliophysics community as a testbed for solar flare forecasting models. SWAN-SF contains 54 unique features, with 24 quantitative features computed from the photospheric magnetic field maps of active regions, describing their precedent flare activity. In this study, for the first time, we systematically attacked the problem of quantifying the relevance of these features to the ambitious task of flare forecasting. We implemented an end-to-end pipeline for preprocessing, feature selection, and evaluation phases. We incorporated 24 Feature Subset Selection (FSS) algorithms, including multivariate and univariate, supervised and unsupervised, wrappers and filters. We methodologically compared the results of different FSS algorithms, both on the multivariate time series and vectorized formats, and tested their correlation and reliability, to the extent possible, by using the selected features for flare forecasting on unseen data, in univariate and multivariate fashions. We concluded our investigation with a report of the best FSS methods in terms of their top-k features, and the analysis of the findings. We wish the reproducibility of our study and the availability of the data allow the future attempts be comparable with our findings and themselves.
翻訳日:2021-10-02 06:11:57 公開日:2021-09-30
# (参考訳) 小児脳腫瘍に対する先行知識に基づく腫瘍・腫瘍亜分節分類ツール [全文訳有]

A Prior Knowledge Based Tumor and Tumoral Subregion Segmentation Tool for Pediatric Brain Tumors ( http://arxiv.org/abs/2109.14775v1 )

ライセンス: CC BY 4.0
Silu Zhang, Angela Edwards, Shubo Wang, Zoltan Patay, Asim Bag, Matthew A. Scoggins(参考訳) 近年,深層学習(DL)モデルが注目され,脳腫瘍やサブリージョンセグメンテーションに優れた性能を示した。 しかし、この成功は、十分なデータが収集され、手動でラベル付けされ、DLモデルのトレーニングのために公開された成人グリオーマのセグメンテーションに限られる。 成人グリオーマとは外観が異なるため,小児腫瘍の分節は依然として困難である。 したがって、保持されたDLモデルを小児データに直接適用すると、通常は受け入れられない結果が生成される。 小児データはラベル付きとラベルなしの両方で非常に限られているため、データから学ぶのではなく、知識に基づく脳腫瘍の分節モデルを提案する。 また,非定型テラトイド・ラビド腫瘍(ATRT)のような超異種腫瘍に対して,より多くの亜領域の分節も提供した。 提案手法は, 移行学習においてトレーニングデータが利用できない場合に, 小児データに基づくDLモデルに対して, 腫瘍全体とサブリージョンセグメンテーションタスクの両方で優れた性能を示した。

In the past few years, deep learning (DL) models have drawn great attention and shown superior performance on brain tumor and subregion segmentation tasks. However, the success is limited to segmentation of adult gliomas, where sufficient data have been collected, manually labeled, and published for training DL models. It is still challenging to segment pediatric tumors, because the appearances are different from adult gliomas. Hence, directly applying a pretained DL model on pediatric data usually generates unacceptable results. Because pediatric data is very limited, both labeled and unlabeled, we present a brain tumor segmentation model that is based on knowledge rather than learning from data. We also provide segmentation of more subregions for super heterogeneous tumor like atypical teratoid rhabdoid tumor (ATRT). Our proposed approach showed superior performance on both whole tumor and subregion segmentation tasks to DL based models on our pediatric data when training data is not available for transfer learning.
翻訳日:2021-10-02 05:45:58 公開日:2021-09-30
# (参考訳) ティッピング・ザ・スケールズ(tiping the scales) : mcgill pain questionnaireにおける形容詞尺度のコーパスによる再構成 [全文訳有]

Tipping the Scales: A Corpus-Based Reconstruction of Adjective Scales in the McGill Pain Questionnaire ( http://arxiv.org/abs/2109.14788v1 )

ライセンス: CC BY 4.0
Miriam Stern(参考訳) 現代の医療診断は、患者から医師に臨床情報を翻訳するための正確な痛み評価ツールに依存している。 McGill Pain Questionnaire (MPQ) は、患者に痛みを量させるために、20のカテゴリーで異なる強度の78の形容詞を利用する臨床的痛み評価技術である。 アンケートの有効性は、痛みを経験する患者による予測可能な形容詞の使用パターンに依存する。 本研究では,患者フォーラムや現代のNLP技術から収集したデータを用いて,MPQの形容詞強度順序を再現する。 主言語文脈を検索して形容詞強度関係を抽出し,その関係情報を結合して頑健な形容詞尺度を形成する。 この研究によって予測される17の形容詞関係のうち、10はMPQとの合意を示し、.1アルファレベルで統計的に有意である。 以上の結果から, 苦しむ人による形容詞使用の予測可能なパターンが示唆されるが, 形容詞をグループ化するMPQのカテゴリーに疑問を投げかける。

Modern medical diagnosis relies on precise pain assessment tools in translating clinical information from patient to physician. The McGill Pain Questionnaire (MPQ) is a clinical pain assessment technique that utilizes 78 adjectives of different intensities in 20 different categories to quantity a patient's pain. The questionnaire's efficacy depends on a predictable pattern of adjective use by patients experiencing pain. In this study, I recreate the MPQ's adjective intensity orderings using data gathered from patient forums and modern NLP techniques. I extract adjective intensity relationships by searching for key linguistic contexts, and then combine the relationship information to form robust adjective scales. Of 17 adjective relationships predicted by this research, 10 show agreement with the MPQ, which is statistically significant at the .1 alpha level. The results suggest predictable patterns of adjective use by people experiencing pain, but call into question the MPQ's categories for grouping adjectives.
翻訳日:2021-10-02 05:38:41 公開日:2021-09-30
# (参考訳) 変分オートエンコーダにおけるwasserstein距離を用いたデータ拡張 [全文訳有]

Towards Better Data Augmentation using Wasserstein Distance in Variational Auto-encoder ( http://arxiv.org/abs/2109.14795v1 )

ライセンス: CC0 1.0
Zichuan Chen, Peng Liu(参考訳) VAEまたは変分自動エンコーダは、データを潜在属性に圧縮し、異なる種類の新しいデータを生成する。 KL分散に基づくVAEは、データ拡張に有効な手法であると考えられている。 本稿では,潜在属性の分布類似性の尺度としてワッサースタイン距離を用いることを提案し,その理論的下界(ELBO)が,軽度条件下でのKLの発散よりも優れていることを示す。 複数の実験を用いて,新しい損失関数は収束性が向上し,画像分類タスクに役立つ人工画像を生成することを実証した。

VAE, or variational auto-encoder, compresses data into latent attributes, and generates new data of different varieties. VAE based on KL divergence has been considered as an effective technique for data augmentation. In this paper, we propose the use of Wasserstein distance as a measure of distributional similarity for the latent attributes, and show its superior theoretical lower bound (ELBO) compared with that of KL divergence under mild conditions. Using multiple experiments, we demonstrate that the new loss function exhibits better convergence property and generates artificial images that could better aid the image classification tasks.
翻訳日:2021-10-02 05:18:39 公開日:2021-09-30
# (参考訳) 音語埋め込み [全文訳有]

Phonetic Word Embeddings ( http://arxiv.org/abs/2109.14796v1 )

ライセンス: CC BY 4.0
Rahul Sharma, Kunal Dhawan, Balakrishna Pailla(参考訳) 本研究は,人間の音知覚からモチベーションを受ける単語間の音声的類似性を計算するための新しい手法を提案する。 この計量は、同様の発音語をグループ化し、様々な下流計算音韻処理に使用できる連続ベクトル埋め込み空間を学習するために用いられる。 本手法の有効性を2つの異なる言語(英語,ヒンディー語)に対して示し,音韻類似性を予測するための確立されたテストについて,先行研究よりも性能向上について検討した。 この分野での限定的なベンチマーク機構に対処するために,音響類似性アルゴリズムの有効性を比較するために,ヘテログラフィックパントデータセットに基づく評価手法も導入する。 さらに, 組込み空間の可視化について, 本アルゴリズムの様々な利用事例について論じる。 再現性を支援し、関連するタスクに採用できるように、オープンソース実装も共有されている。

This work presents a novel methodology for calculating the phonetic similarity between words taking motivation from the human perception of sounds. This metric is employed to learn a continuous vector embedding space that groups similar sounding words together and can be used for various downstream computational phonology tasks. The efficacy of the method is presented for two different languages (English, Hindi) and performance gains over previous reported works are discussed on established tests for predicting phonetic similarity. To address limited benchmarking mechanisms in this field, we also introduce a heterographic pun dataset based evaluation methodology to compare the effectiveness of acoustic similarity algorithms. Further, a visualization of the embedding space is presented with a discussion on the various possible use-cases of this novel algorithm. An open-source implementation is also shared to aid reproducibility and enable adoption in related tasks.
翻訳日:2021-10-02 05:14:06 公開日:2021-09-30
# (参考訳) 自動運転における緊急車両の音声検出と位置推定 [全文訳有]

Emergency Vehicles Audio Detection and Localization in AutonomousDriving ( http://arxiv.org/abs/2109.14797v1 )

ライセンス: CC BY 4.0
Hongyi Sun, Xinyi Liu, Kecheng Xu, Jinghao Miao, Qi Luo(参考訳) 救急車両は、他の全ての車両に対して通行権を有する。 したがって、他の全ての車両は、アクティブサイレンで緊急車両を生産するために適切な行動をとる必要がある。 このタスクは、人間のドライバーのための耳と目との協調を必要とするため、完全自律運転車のための視覚ベースのアルゴリズムの補助として、音声検出も必要である。 都市交通のシナリオでは、緊急車両の存在と、適切な行動を決定するための相対的な位置の両方を知る必要がある。 本稿では,2つのコスト効率のよいマイクロホンを用いて,実世界のサイレンデータを収集するシステムを提案する。 我々は,特に10mから50mの範囲において,各タスクに対して有望なパフォーマンスを達成することができる(エゴ車両のサイズは長さ約5m,幅約2m)。 サイレンの存在を決定するリコールレートは99.16%で、中央値と平均値の絶対誤差はそれぞれ9.64{\degと19.18{\degであり、中央値と平均距離の絶対誤差はそれぞれ9.30mと10.58mである。 また,50msのレイテンシで方向と距離を同時に含むサイレンの存在と音源の定位を決定するための機械学習アプローチをベンチマークする。

Emergency vehicles in service have right-of-way over all other vehicles. Hence, all other vehicles are supposed to take proper actions to yield emergency vehicles with active sirens. As this task requires the cooperation between ears and eyes for human drivers, it also needs audio detection as a supplement to vision-based algorithms for fully autonomous driving vehicles. In urban driving scenarios, we need to know both the existence of emergency vehicles and their relative positions to us to decide the proper actions. We present a novel system from collecting the real-world siren data to the deployment of models using only two cost-efficient microphones. We are able to achieve promising performance for each task separately, especially within the crucial 10m to 50m distance range to react (the size of our ego vehicle is around 5m in length and 2m in width). The recall rate to determine the existence of sirens is 99.16% , the median and mean angle absolute error is 9.64{\deg} and 19.18{\deg} respectively, and the median and mean distance absolute error of 9.30m and 10.58m respectively within that range. We also benchmark various machine learning approaches that can determine the siren existence and sound source localization which includes direction and distance simultaneously within 50ms of latency.
翻訳日:2021-10-02 05:05:08 公開日:2021-09-30
# (参考訳) GT U-Net: 歯根切開のためのU-Netライクなグループトランスネットワーク [全文訳有]

GT U-Net: A U-Net Like Group Transformer Network for Tooth Root Segmentation ( http://arxiv.org/abs/2109.14813v1 )

ライセンス: CC BY 4.0
Yunxiang Li, Shuai Wang, Jun Wang, Guodong Zeng, Wenjun Liu, Qianni Zhang, Qun Jin, Yaqi Wang(参考訳) 根管治療の正確な評価を実現するためには, 根管治療評価において歯根境界の位置が重要な解剖情報となるように, 口腔x線画像上で歯根分画を行うことが基本である。 しかし, ファジィ境界は歯根分節が非常に困難である。 本稿では,歯根セグメント化のための新しいエンド・ツー・エンドのu-netライクグループトランスフォーマーネットワーク(gt u-net)を提案する。 提案するネットワークはU-Netの基本構造を保持するが,各エンコーダとデコーダはグループトランスフォーマーに置き換えられ,グループ構造とボトルネック構造を用いて従来のトランスフォーマーアーキテクチャの計算コストを大幅に削減する。 さらに,提案するgt u-netは畳み込みとトランスフォーマのハイブリッド構造で構成され,事前学習重量に依存しない。 最適化のために,形状認識フーリエ記述子(fd)損失関数を提案する。 実験の結果,本ネットワークは,収集した歯根セグメンテーションデータセットと公開網膜データセットドライブにおいて最先端のパフォーマンスを実現することがわかった。 コードはhttps://github.com/K ent0n-Li/GT-U-Netでリリースされた。

To achieve an accurate assessment of root canal therapy, a fundamental step is to perform tooth root segmentation on oral X-ray images, in that the position of tooth root boundary is significant anatomy information in root canal therapy evaluation. However, the fuzzy boundary makes the tooth root segmentation very challenging. In this paper, we propose a novel end-to-end U-Net like Group Transformer Network (GT U-Net) for the tooth root segmentation. The proposed network retains the essential structure of U-Net but each of the encoders and decoders is replaced by a group Transformer, which significantly reduces the computational cost of traditional Transformer architectures by using the grouping structure and the bottleneck structure. In addition, the proposed GT U-Net is composed of a hybrid structure of convolution and Transformer, which makes it independent of pre-training weights. For optimization, we also propose a shape-sensitive Fourier Descriptor (FD) loss function to make use of shape prior knowledge. Experimental results show that our proposed network achieves the state-of-the-art performance on our collected tooth root segmentation dataset and the public retina dataset DRIVE. Code has been released at https://github.com/K ent0n-Li/GT-U-Net.
翻訳日:2021-10-02 04:55:35 公開日:2021-09-30
# (参考訳) トランスフォーマーモデルを用いたbidirectiona lEncoder表現を用いたCOVID-19フェイクニュースの検出 [全文訳有]

COVID-19 Fake News Detection Using Bidirectiona lEncoder Representations from Transformers Based Models ( http://arxiv.org/abs/2109.14816v1 )

ライセンス: CC BY 4.0
Yuxiang Wang, Yongheng Zhang, Xuebo Li, Xinyao Yu(参考訳) 現在、ソーシャルメディアの開発により、人々は最新のニュースに簡単にアクセスできるようになっている。 新型コロナウイルス(COVID-19)のパンデミックでは、ニュースにアクセスして対応する保護措置をとることが重要である。 しかし、偽ニュースは溢れており、特に世界的なパンデミックでは深刻な問題となっている。 誤解を招く偽ニュースは、個人と社会の観点で大きな損失をもたらす可能性がある。 新型コロナウイルスの偽ニュース検出は、NLP分野において新しく重要な課題となっている。 しかし、偽ニュースは常に正しい部分と間違った部分を含んでいる。 この事実は分類作業の難しさを増す。 本稿では,変換器(BERT)モデルから事前学習した双方向エンコーダ表現をベースモデルとして微調整する。 bilstm層とcnn層を、それぞれ凍結パラメータの有無にかかわらず、凍結パラメータを持つ微調整bertモデルの上に追加する。 モデル性能評価の結果、私たちの最良のモデル(凍結パラメータとbilstm層を備えたbert微調整モデル)が、新型コロナウイルスの偽ニュース検出タスクに対して最先端の結果を達成できることが示されました。 また,最良のモデルを用いてキーワード評価手法を検討し,キーワード除去後のモデル性能を評価する。

Nowadays, the development of social media allows people to access the latest news easily. During the COVID-19 pandemic, it is important for people to access the news so that they can take corresponding protective measures. However, the fake news is flooding and is a serious issue especially under the global pandemic. The misleading fake news can cause significant loss in terms of the individuals and the society. COVID-19 fake news detection has become a novel and important task in the NLP field. However, fake news always contain the correct portion and the incorrect portion. This fact increases the difficulty of the classification task. In this paper, we fine tune the pre-trained Bidirectional Encoder Representations from Transformers (BERT) model as our base model. We add BiLSTM layers and CNN layers on the top of the finetuned BERT model with frozen parameters or not frozen parameters methods respectively. The model performance evaluation results showcase that our best model (BERT finetuned model with frozen parameters plus BiLSTM layers) achieves state-of-the-art results towards COVID-19 fake news detection task. We also explore keywords evaluation methods using our best model and evaluate the model performance after removing keywords.
翻訳日:2021-10-02 04:45:46 公開日:2021-09-30
# (参考訳) 連続したシーンセグメントを用いたセマンティックデンス再構成 [全文訳有]

Semantic Dense Reconstruction with Consistent Scene Segments ( http://arxiv.org/abs/2109.14821v1 )

ライセンス: CC BY 4.0
Yingcai Wan, Yanyan Li, Yingxuan You, Cheng Guo, Lijin Fang and Federico Tombari(参考訳) 本稿では,RGB-Dシーケンスから高レベルなシーン理解タスクを解くために,高密度なセマンティック3次元シーン再構築手法を提案する。 まず、各RGB-Dペアは、フルスキャンから部分ビューの対応するものへの高い確率でオブジェクトのラベルを伝播するカメラ追跡バックボーンに基づいて、一貫して2Dセマンティックマップに分割される。 そして、入力されたRGB-Dシーケンスから未知環境の高密度な3Dメッシュモデルを生成する。 2次元一貫性のあるセマンティクスセグメントと3次元モデルから恩恵を受け、異なるビューの2次元セマンティクスセグメントから深い特徴量を抽出する新しいセマンティクスプロジェクションブロック(sp-block)を提案する。 さらに、セマンティックボリュームは、ポイントクラウドエンコーダから深いボリュームに融合され、最終的なセマンティックセマンティックセグメンテーションが作成される。 公開データセットの広範な実験評価により,本システムは高精度な3次元高密度再構成と最先端意味予測を同時に達成できることが判明した。

In this paper, a method for dense semantic 3D scene reconstruction from an RGB-D sequence is proposed to solve high-level scene understanding tasks. First, each RGB-D pair is consistently segmented into 2D semantic maps based on a camera tracking backbone that propagates objects' labels with high probabilities from full scans to corresponding ones of partial views. Then a dense 3D mesh model of an unknown environment is incrementally generated from the input RGB-D sequence. Benefiting from 2D consistent semantic segments and the 3D model, a novel semantic projection block (SP-Block) is proposed to extract deep feature volumes from 2D segments of different views. Moreover, the semantic volumes are fused into deep volumes from a point cloud encoder to make the final semantic segmentation. Extensive experimental evaluations on public datasets show that our system achieves accurate 3D dense reconstruction and state-of-the-art semantic prediction performances simultaneously.
翻訳日:2021-10-02 04:40:56 公開日:2021-09-30
# (参考訳) AffectGAN: セマンティックスによる効果に基づく生成アート [全文訳有]

AffectGAN: Affect-Based Generative Art Driven by Semantics ( http://arxiv.org/abs/2109.14845v1 )

ライセンス: CC BY 4.0
Theodoros Galanos, Antonios Liapis, Georgios N. Yannakakis(参考訳) 本稿では,特定の感情状態を表す芸術的画像を生成する新しい手法を提案する。 AffectGANモデルは、ビジュアル生成のための最先端のディープラーニング手法、OpenAIのセマンティックモデル、およびビジュアルアート百科事典WikiArtの注釈付きデータセットを活用することで、特定のあるいは広いセマンティックプロンプトと意図された感情結果に基づいて画像を生成することができる。 affectganが生成する32枚の画像の小さなデータセットは、50人の参加者によって、彼らが特定した感情と、その品質と新規性の観点から注釈付けされる。 その結果、ほとんどの場合、イメージ生成のプロンプトとして使用される意図された感情は、参加者の反応と一致していることがわかった。 この小さな研究は、感情的コンピューティングと計算的創造性を融合する新しいビジョンを生み出し、彼らの出力を誘惑する感情の観点で、意図的な生成システムを可能にする。

This paper introduces a novel method for generating artistic images that express particular affective states. Leveraging state-of-the-art deep learning methods for visual generation (through generative adversarial networks), semantic models from OpenAI, and the annotated dataset of the visual art encyclopedia WikiArt, our AffectGAN model is able to generate images based on specific or broad semantic prompts and intended affective outcomes. A small dataset of 32 images generated by AffectGAN is annotated by 50 participants in terms of the particular emotion they elicit, as well as their quality and novelty. Results show that for most instances the intended emotion used as a prompt for image generation matches the participants' responses. This small-scale study brings forth a new vision towards blending affective computing with computational creativity, enabling generative systems with intentionality in terms of the emotions they wish their output to elicit.
翻訳日:2021-10-02 04:25:05 公開日:2021-09-30
# (参考訳) HLIC:強化学習による学習画像圧縮における最適化基準の調和化 [全文訳有]

HLIC: Harmonizing Optimization Metrics in Learned Image Compression by Reinforcement Learning ( http://arxiv.org/abs/2109.14863v1 )

ライセンス: CC BY 4.0
Baocheng Sun, Meng Gu, Dailan He, Tongda Xu, Yan Wang, Hongwei Qin(参考訳) 近年,画像圧縮の学習が進歩している。 ピーク信号対雑音比(PSNR)とマルチスケール構造類似度(MS-SSIM)は、最も人気のある評価指標である。 異なるメトリクスは人間の知覚の特定の側面のみを反映しているため、この分野での作業は通常、損失関数としてPSNRとMS-SSIMを使用して2つのモデルを最適化する。 本稿では,強化学習によるオンライン損失関数適応を用いた学習画像圧縮(hlic)における最適化指標の調和化を提案する。 これにより、PSNRとMS-SSIMの両方の利点を活用でき、視覚的品質の向上とVMAFスコアの向上を実現できます。 我々の知る限り、学習された画像圧縮のような低レベルの視覚タスクにおいて、最適化メトリクスを調和させるための自動損失関数適応を初めて検討する。

Learned image compression is making good progress in recent years. Peak signal-to-noise ratio (PSNR) and multi-scale structural similarity (MS-SSIM) are the two most popular evaluation metrics. As different metrics only reflect certain aspects of human perception, works in this field normally optimize two models using PSNR and MS-SSIM as loss function separately, which is suboptimal and makes it difficult to select the model with best visual quality or overall performance. Towards solving this problem, we propose to Harmonize optimization metrics in Learned Image Compression (HLIC) using online loss function adaptation by reinforcement learning. By doing so, we are able to leverage the advantages of both PSNR and MS-SSIM, achieving better visual quality and higher VMAF score. To our knowledge, our work is the first to explore automatic loss function adaptation for harmonizing optimization metrics in low level vision tasks like learned image compression.
翻訳日:2021-10-02 04:11:25 公開日:2021-09-30
# (参考訳) ゼロショット機械学習からゼロデイ攻撃検出へ [全文訳有]

From Zero-Shot Machine Learning to Zero-Day Attack Detection ( http://arxiv.org/abs/2109.14868v1 )

ライセンス: CC BY 4.0
Mohanad Sarhan, Siamak Layeghy, Marcus Gallagher and Marius Portmann(参考訳) 標準的なML手法では、テストサンプルはトレーニングフェーズで使用される事前観測されたクラスのセットから導出されていると仮定する。 モデルが有用なパターンを抽出して学習し、同じデータクラスに属する新しいデータサンプルを検出する。 しかし、ネットワーク侵入検知システムのような特定のアプリケーションでは、モデルがプロダクションで観察するであろうすべての攻撃クラスのデータサンプルを取得することが困難である。 mlベースのnidssはゼロデイアタック(zero-day attack)として知られる新たなアタックトラフィックに直面している。 本稿では,ゼロデイアタックシナリオの検出において,MLモデルの性能を評価するため,ゼロショット学習手法を提案する。 属性学習の段階では、MLモデルはネットワークデータの特徴をマッピングし、既知の攻撃(参照)クラスとセマンティック属性を区別する。 推定段階では、既知の攻撃とゼロデイ攻撃の関係を構築することにより、ゼロデイアタック(unseen)クラスの検出においてモデルを評価する。 新しいメトリックはゼロデイ検出率として定義され、推論段階における学習モデルの有効性を測定する。 その結果、攻撃クラスの大半はMLベースのNIDSをゼロデイ攻撃シナリオに採用する組織にとって重大なリスクを示さないことが明らかになった。 しかし,本論文で特定した特定の攻撃群に対しては,攻撃行動の学習属性を適用して悪意のある攻撃行動を検出できない。 さらに、wasserstein距離法を用いて、mlモデルのトレーニングで使用される他の攻撃タイプと、これらの攻撃がどの程度異なるかを測定する分析を行った。 その結果,ゼロデイ検出率の低い高度な攻撃は,他の攻撃クラスに比べて特徴分布が著しく異なることがわかった。

The standard ML methodology assumes that the test samples are derived from a set of pre-observed classes used in the training phase. Where the model extracts and learns useful patterns to detect new data samples belonging to the same data classes. However, in certain applications such as Network Intrusion Detection Systems, it is challenging to obtain data samples for all attack classes that the model will most likely observe in production. ML-based NIDSs face new attack traffic known as zero-day attacks, that are not used in the training of the learning models due to their non-existence at the time. In this paper, a zero-shot learning methodology has been proposed to evaluate the ML model performance in the detection of zero-day attack scenarios. In the attribute learning stage, the ML models map the network data features to distinguish semantic attributes from known attack (seen) classes. In the inference stage, the models are evaluated in the detection of zero-day attack (unseen) classes by constructing the relationships between known attacks and zero-day attacks. A new metric is defined as Zero-day Detection Rate, which measures the effectiveness of the learning model in the inference stage. The results demonstrate that while the majority of the attack classes do not represent significant risks to organisations adopting an ML-based NIDS in a zero-day attack scenario. However, for certain attack groups identified in this paper, such systems are not effective in applying the learnt attributes of attack behaviour to detect them as malicious. Further Analysis was conducted using the Wasserstein Distance technique to measure how different such attacks are from other attack types used in the training of the ML model. The results demonstrate that sophisticated attacks with a low zero-day detection rate have a significantly distinct feature distribution compared to the other attack classes.
翻訳日:2021-10-02 03:58:39 公開日:2021-09-30
# (参考訳) 1次元自己組織型オペレーショナルニューラルネットワークによる回転機械の早期軸受故障診断 [全文訳有]

Early Bearing Fault Diagnosis of Rotating Machinery by 1D Self-Organized Operational Neural Networks ( http://arxiv.org/abs/2109.14873v1 )

ライセンス: CC BY 4.0
Turker Ince, Junaid Malik, Ozer Can Devecioglu, Serkan Kiranyaz, Onur Avci, Levent Eren and Moncef Gabbouj(参考訳) 現代の電気回転機械(RM)の予防メンテナンスは、信頼性の高い運転の確保、予測不能な故障の防止、コストのかかる修理の回避に重要である。 近年,主にベアリング断層の検出に焦点をあてたディープラーニングネットワークに基づく機械学習モニタリング手法の研究が盛んに行われているが,早期断層診断における異常度分類に十分な精度で対応していない。 1次元畳み込みニューラルネットワーク(cnns)は、生の振動や電流信号からrm軸受故障を検出できるが、故障重大度を分類することはできなかった。 さらに、最近の研究では、基礎となる線形ニューロンモデルによる従来のCNNの学習能力の限界が示されている。 近年,非線形ニューロンモデルの導入によるCNNの学習能力向上とネットワーク構成の不均一性向上を目的として,オペレーショナルニューラルネットワーク(ONN)を提案する。 本研究では,障害重大度分類と連続状態監視を行うために,生成ニューロンを用いた1次元自己組織化onn(self-onns)を提案する。 内輪および転動要素故障に対するx軸振動信号とy軸振動信号を用いたNSF/IMSベンチマーク実験の結果, 提案した1D Self-ONNは, 計算量に類似した1D CNNに対して, 顕著な性能差が認められた。

Preventive maintenance of modern electric rotating machinery (RM) is critical for ensuring reliable operation, preventing unpredicted breakdowns and avoiding costly repairs. Recently many studies investigated machine learning monitoring methods especially based on Deep Learning networks focusing mostly on detecting bearing faults; however, none of them addressed bearing fault severity classification for early fault diagnosis with high enough accuracy. 1D Convolutional Neural Networks (CNNs) have indeed achieved good performance for detecting RM bearing faults from raw vibration and current signals but did not classify fault severity. Furthermore, recent studies have demonstrated the limitation in terms of learning capability of conventional CNNs attributed to the basic underlying linear neuron model. Recently, Operational Neural Networks (ONNs) were proposed to enhance the learning capability of CNN by introducing non-linear neuron models and further heterogeneity in the network configuration. In this study, we propose 1D Self-organized ONNs (Self-ONNs) with generative neurons for bearing fault severity classification and providing continuous condition monitoring. Experimental results over the benchmark NSF/IMS bearing vibration dataset using both x- and y-axis vibration signals for inner race and rolling element faults demonstrate that the proposed 1D Self-ONNs achieve significant performance gap against the state-of-the-art (1D CNNs) with similar computational complexity.
翻訳日:2021-10-02 03:33:22 公開日:2021-09-30
# (参考訳) 二重非負重み行列による逆回帰 [全文訳有]

Adversarial Regression with Doubly Non-negative Weighting Matrices ( http://arxiv.org/abs/2109.14875v1 )

ライセンス: CC BY 4.0
Tam Le and Truyen Nguyen and Makoto Yamada and Jose Blanchet and Viet Anh Nguyen(参考訳) 出力応答を予測する機械学習タスクの多くは、重み付け回帰モデルをトレーニングすることで解決できる。 残念なことに、この種のモデルの予測能力は、低いサンプルサイズまたは共変摂動下で著しく低下する可能性がある。 トレーニングサンプルの再重み付けはこれらの問題に対する効果的な緩和戦略として注目されている。 本稿では,二重非負行列を用いて試料重みを再パラメータ化することにより,核重み付け回帰のための新規かつコヒーレントなスキームを提案する。 重み付け行列が対数行列の発散あるいはブレス=ヴァッサーシュタイン距離を用いて不確実性集合に閉じ込められた場合、逆再重み付け推定が一階法で効率的に解けることを示す。 数値実験により、我々の重み付け戦略が多くのデータセットに有望な結果をもたらすことが示された。

Many machine learning tasks that involve predicting an output response can be solved by training a weighted regression model. Unfortunately, the predictive power of this type of models may severely deteriorate under low sample sizes or under covariate perturbations. Reweighting the training samples has aroused as an effective mitigation strategy to these problems. In this paper, we propose a novel and coherent scheme for kernel-reweighted regression by reparametrizing the sample weights using a doubly non-negative matrix. When the weighting matrix is confined in an uncertainty set using either the log-determinant divergence or the Bures-Wasserstein distance, we show that the adversarially reweighted estimate can be solved efficiently using first-order methods. Numerical experiments show that our reweighting strategy delivers promising results on numerous datasets.
翻訳日:2021-10-02 03:18:08 公開日:2021-09-30
# (参考訳) 不確かさスライスサンプリングに基づくアノテーションワークフローを用いたロバストセグメンテーションモデル [全文訳有]

Robust Segmentation Models using an Uncertainty Slice Sampling Based Annotation Workflow ( http://arxiv.org/abs/2109.14879v1 )

ライセンス: CC BY 4.0
Grzegorz Chlebus and Andrea Schenk and Horst K. Hahn and Bram van Ginneken and Hans Meine(参考訳) セマンティックセグメンテーションニューラルネットワークは、優れた性能を達成するためにピクセルレベルのアノテーションを大量に要求する。 医療領域では、こうしたアノテーションは時間と専門知識を必要とするため、高価です。 アクティブラーニングは、モデルに最も有益なラベル付けの事例を選択するための戦略を考案することで、アノテーションの取り組みを最適化する。 本研究では,アノテーションのために2次元画像スライスを選択し,他の様々な戦略と比較する3次元医用ボリュームの意味セグメンテーションのための不確実性スライスサンプリング(uss)戦略を提案する。 多地点データを用いたCT肝セグメンテーション作業におけるUSSの有効性を示す。 5回の訓練の後、USSから得られたトレーニングデータは、それぞれ8121 (13%)、8641 (14%)、3730 (6%)の不確実量(UVS)、ランダムボリューム(RVS)、ランダムスライス(RSS)サンプリングと比較して2410スライス(データプール内のスライス全体の4%)で構成された。 最小のデータ量で訓練されたにもかかわらず、uss戦略に基づいたモデルは、他の戦略に従ってトレーニングされた234のテストボリュームで評価され、平均サイス指数0.964、相対体積誤差4.2%、平均表面距離1.35mm、ハウスドルフ距離23.4mmを達成した。 これは、すべての利用可能なデータで訓練されたモデルによって達成された0.967, 3.8%, 1.18 mm, 22.9 mmにわずかに劣ったが、Diceの5番目のパーセンタイルと残りの95番目のパーセンタイルを用いたロバストネス分析により、USSは他のサンプリング方式と比較して最も堅牢なモデルに留まらず、Dice (0.946 vs. 0.945)と平均表面距離(1.92 mm vs. 2.03 mm)で訓練されたモデルよりも優れていた。

Semantic segmentation neural networks require pixel-level annotations in large quantities to achieve a good performance. In the medical domain, such annotations are expensive, because they are time-consuming and require expert knowledge. Active learning optimizes the annotation effort by devising strategies to select cases for labeling that are most informative to the model. In this work, we propose an uncertainty slice sampling (USS) strategy for semantic segmentation of 3D medical volumes that selects 2D image slices for annotation and compare it with various other strategies. We demonstrate the efficiency of USS on a CT liver segmentation task using multi-site data. After five iterations, the training data resulting from USS consisted of 2410 slices (4% of all slices in the data pool) compared to 8121 (13%), 8641 (14%), and 3730 (6%) for uncertainty volume (UVS), random volume (RVS), and random slice (RSS) sampling, respectively. Despite being trained on the smallest amount of data, the model based on the USS strategy evaluated on 234 test volumes significantly outperformed models trained according to other strategies and achieved a mean Dice index of 0.964, a relative volume error of 4.2%, a mean surface distance of 1.35 mm, and a Hausdorff distance of 23.4 mm. This was only slightly inferior to 0.967, 3.8%, 1.18 mm, and 22.9 mm achieved by a model trained on all available data, but the robustness analysis using the 5th percentile of Dice and the 95th percentile of the remaining metrics demonstrated that USS resulted not only in the most robust model compared to other sampling schemes, but also outperformed the model trained on all data according to Dice (0.946 vs. 0.945) and mean surface distance (1.92 mm vs. 2.03 mm).
翻訳日:2021-10-02 02:41:34 公開日:2021-09-30
# (参考訳) 逸脱した痕跡やその他の見知らぬものに関するプロセス発見 [全文訳有]

Process discovery on deviant traces and other stranger things ( http://arxiv.org/abs/2109.14883v1 )

ライセンス: CC BY 4.0
Federico Chesani, Chiara Di Francescomarino, Chiara Ghidini, Daniela Loreti, Fabrizio Maria Maggi, Paola Mello, Marco Montali, Sergio Tessaris(参考訳) ビジネスプロセスをモデルに理解し、形式化する必要性がここ数年で高まり、プロセス発見研究分野はますます重要になってきており、モデル表現に対する2つの異なるアプローチである手続き的および宣言的手法が開発されている。 この分類と直交すると、多くの作品が発見タスクを、入力ログに記録されたトレースによって導かれる1つの教師付き学習プロセスとして捉えている。 この作業では、宣言的プロセスにフォーカスし、プロセス発見をバイナリ教師付き学習タスクとしてあまり一般的でない見解を取り入れ、入力ログが通常のシステム実行の例とドメインセマンティクスに従って"ストランガー"な振る舞いを表すトレースの両方を報告します。 したがって、これらの2つの集合から得られる価値情報を抽出し、ユーザ定義の目標に従って「最適」なモデルに定式化することができる。 我々の手法、すなわちNegDisは、この分野における他の関連する研究と評価され、得られたソリューションの性能と品質の両方に関して有望な結果を示す。

As the need to understand and formalise business processes into a model has grown over the last years, the process discovery research field has gained more and more importance, developing two different classes of approaches to model representation: procedural and declarative. Orthogonally to this classification, the vast majority of works envisage the discovery task as a one-class supervised learning process guided by the traces that are recorded into an input log. In this work instead, we focus on declarative processes and embrace the less-popular view of process discovery as a binary supervised learning task, where the input log reports both examples of the normal system execution, and traces representing "stranger" behaviours according to the domain semantics. We therefore deepen how the valuable information brought by both these two sets can be extracted and formalised into a model that is "optimal" according to user-defined goals. Our approach, namely NegDis, is evaluated w.r.t. other relevant works in this field, and shows promising results as regards both the performance and the quality of the obtained solution.
翻訳日:2021-10-02 02:25:06 公開日:2021-09-30
# (参考訳) 医療応用におけるアウト・オブ・ディストリビューション検出:実践的評価のためのガイドライン [全文訳有]

Out-of-Distribution Detection for Medical Applications: Guidelines for Practical Evaluation ( http://arxiv.org/abs/2109.14885v1 )

ライセンス: CC BY 4.0
Karina Zadorozhny, Patrick Thoral, Paul Elbers, Giovanni Cin\`a(参考訳) 医療分野における機械学習モデルのデプロイにおいて,OOD(Out-of-Distribu tion)サンプルをリアルタイムで検出することが重要な安全性チェックである。 不確実な定量化技術が増えているにもかかわらず、実際にOOD検出方法を選択する方法の評価ガイドラインが不足している。 このギャップは、現実世界のアプリケーションに対するOOD検出手法の実装を妨げる。 本稿では,特定の医療データセットに対して最適なOOD検出器を選択するための実践的考察と試験を提案する。 これらのガイドラインは、Electronic Health Records (EHR)の実際のユースケースに説明されている。 本研究は,医療における機械学習モデルの使用に伴うリスクを軽減し,臨床実践におけるOOD検出手法の実装のガイドとして機能する。

Detection of Out-of-Distribution (OOD) samples in real time is a crucial safety check for deployment of machine learning models in the medical field. Despite a growing number of uncertainty quantification techniques, there is a lack of evaluation guidelines on how to select OOD detection methods in practice. This gap impedes implementation of OOD detection methods for real-world applications. Here, we propose a series of practical considerations and tests to choose the best OOD detector for a specific medical dataset. These guidelines are illustrated on a real-life use case of Electronic Health Records (EHR). Our results can serve as a guide for implementation of OOD detection methods in clinical practice, mitigating risks associated with the use of machine learning models in healthcare.
翻訳日:2021-10-02 01:56:28 公開日:2021-09-30
# (参考訳) 機械翻訳システムによる感性伝達評価のための感性認識尺度(SAM) [全文訳有]

Sentiment-Aware Measure (SAM) for Evaluating Sentiment Transfer by Machine Translation Systems ( http://arxiv.org/abs/2109.14895v1 )

ライセンス: CC BY 4.0
Hadeel Saadany, Hadeel Saadany, Emad Mohamed, Ashraf Tantavy(参考訳) 感情が主メッセージであるテキストの翻訳において、人間の翻訳者は感情を伝達する単語に特に注意を向ける。 その理由は、そのような単語の誤った翻訳が、原文の基本的側面、すなわち著者の感情を見逃してしまうからである。 オンラインの世界では、MTシステムはレビュー、つぶやき、ソーシャルメディア投稿などのユーザ生成コンテンツ(UGC)の翻訳に広く使われており、主なメッセージはテキストのトピックに対する著者の肯定的あるいは否定的な態度であることが多い。 このようなシナリオでは、正しい影響メッセージの転送において、MTシステムがどの程度信頼できる実生活ユーティリティであるかを正確に測定することが重要である。 本稿では,感情の正しい翻訳における人的評価のゴールド基準とどの程度の自動測定値が一致するかを判断する機械翻訳評価の分野での未認識問題に取り組む。 MT出力における唯一の誤りである感情の誤訳を見つける上で,従来の品質指標の有効性を評価する。 MTシステムを用いてUGCテキスト中の翻訳された感情メッセージの精度を評価するのに適した数値的「感情閉さ」尺度を提案する。 この感情認識尺度を組み込むことで、感情の正確な翻訳の人的判断と利用可能な品質指標の相関性を大幅に向上させることができることを示す。

In translating text where sentiment is the main message, human translators give particular attention to sentiment-carrying words. The reason is that an incorrect translation of such words would miss the fundamental aspect of the source text, i.e. the author's sentiment. In the online world, MT systems are extensively used to translate User-Generated Content (UGC) such as reviews, tweets, and social media posts, where the main message is often the author's positive or negative attitude towards the topic of the text. It is important in such scenarios to accurately measure how far an MT system can be a reliable real-life utility in transferring the correct affect message. This paper tackles an under-recognised problem in the field of machine translation evaluation which is judging to what extent automatic metrics concur with the gold standard of human evaluation for a correct translation of sentiment. We evaluate the efficacy of conventional quality metrics in spotting a mistranslation of sentiment, especially when it is the sole error in the MT output. We propose a numerical `sentiment-closeness& #x27; measure appropriate for assessing the accuracy of a translated affect message in UGC text by an MT system. We will show that incorporating this sentiment-aware measure can significantly enhance the correlation of some available quality metrics with the human judgement of an accurate translation of sentiment.
翻訳日:2021-10-02 01:39:18 公開日:2021-09-30
# (参考訳) チャネル変動がスポフ検出のための一級学習に及ぼす影響 [全文訳有]

Impact of Channel Variation on One-Class Learning for Spoof Detection ( http://arxiv.org/abs/2109.14900v1 )

ライセンス: CC BY-SA 4.0
Rohit Arora, Aanchan Mohan, Saket Anand(参考訳) ASVシステムの信頼性を高めるためのスポフィング検出の値は、例外ではない。 しかし,実際には,対策システム(cms)の性能はチャネル変動により著しく低下する。 マルチ条件トレーニング(MCT)は、そのようなシナリオを扱うための確立された手法である。 しかし、spoof検出の場合、「どのデータフィード戦略がmctに最適か」は分かっていない。 本稿では,ASVspoof 2019データセットの修正に様々なコーデックシミュレーションを用い,この問題に対処するためのデータフィードとミニバッチ戦略を用いて評価を行った。 提案実験は,LFCCフロントエンド特徴抽出器を用いたResnetモデルを用いた訓練における各種マージンベース損失の有効性を検証することを目的として,コーデックシミュレーションを用いて劣化したスプーフおよびボナファイド試料を正しく分類する。 アーキテクチャに焦点をあてたほとんどの研究とは対照的に、本研究では、データフィードとミニバッチの低重要度プロセスが、パフォーマンス向上のための改善の必要性に対する認識を高めることの重要性を強調している。

The value of Spoofing detection in increasing the reliability of the ASV system is unparalleled. In reality, however, the performance of countermeasure systems (CMs) degrades significantly due to channel variation. Multi-conditional training(MCT) is a well-established technique to handle such scenarios. However, "which data-feeding strategy is optimal for MCT?" is not known in the case of spoof detection. In this paper, various codec simulations were used to modify ASVspoof 2019 dataset, and assessments were done using data-feeding and mini-batching strategies to help address this question. Our experiments aim to test the efficacy of the various margin-based losses for training Resnet based models with LFCC front-end feature extractor to correctly classify the spoofed and bonafide samples degraded using codec simulations. Contrastingly to most of the works that focus mainly on architectures, this study highlights the relevance of the deemed-of-low-import ance process of data-feeding and mini-batching to raise awareness of the need to refine it for better performance.
翻訳日:2021-10-02 01:29:01 公開日:2021-09-30
# (参考訳) CrossCLR: マルチモーダルビデオ表現のためのクロスモーダルコントラスト学習 [全文訳有]

CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations ( http://arxiv.org/abs/2109.14910v1 )

ライセンス: CC BY 4.0
Mohammadreza Zolfaghari, Yi Zhu, Peter Gehler, Thomas Brox(参考訳) 対照的な学習は、負のサンプルの集合と正のペアを対比することで、強力な損失を柔軟に定義できる。 近年、この原則は、ビデオやテキストのクロスモーダル埋め込みを学ぶためにも使われてきたが、その可能性を最大限に活用することはなかった。 特に、以前の損失はモダリティ内類似性を考慮しておらず、同じ内容が埋め込み空間の複数の点にマッピングされるため、非効率な埋め込みにつながる。 crossclrでは、この問題を修正する対照的な損失を示します。 さらに,それらの入力埋め込みの観点で,関連性の高いサンプルの集合を定義し,偽陰性の問題を避けるために負のサンプルから除外する。 これらの原則は、学習された埋め込みの品質を一貫して改善することを示します。 CrossCLRで学んだ共同埋め込みは、Youcook2データセットとLSMDCデータセットの動画テキスト検索およびYoucook2データセットの動画キャプションにおいて、大きなマージンでテクニックの状態を拡張している。 また,この概念の一般性について,他の対のモダリティに対する改良されたジョイント埋め込みを学習することで実証する。

Contrastive learning allows us to flexibly define powerful losses by contrasting positive pairs from sets of negative samples. Recently, the principle has also been used to learn cross-modal embeddings for video and text, yet without exploiting its full potential. In particular, previous losses do not take the intra-modality similarities into account, which leads to inefficient embeddings, as the same content is mapped to multiple points in the embedding space. With CrossCLR, we present a contrastive loss that fixes this issue. Moreover, we define sets of highly related samples in terms of their input embeddings and exclude them from the negative samples to avoid issues with false negatives. We show that these principles consistently improve the quality of the learned embeddings. The joint embeddings learned with CrossCLR extend the state of the art in video-text retrieval on Youcook2 and LSMDC datasets and in video captioning on Youcook2 dataset by a large margin. We also demonstrate the generality of the concept by learning improved joint embeddings for other pairs of modalities.
翻訳日:2021-10-02 01:19:12 公開日:2021-09-30
# (参考訳) 超音波画像における腹部筋次元測定のための深層学習法 [全文訳有]

A Deep Learning Localization Method for Measuring Abdominal Muscle Dimensions in Ultrasound Images ( http://arxiv.org/abs/2109.14919v1 )

ライセンス: CC BY 4.0
Alzayat Saleh, Issam H. Laradji, Corey Lammie, David Vazquez, Carol A Flavell, and Mostafa Rahimi Azghadi(参考訳) 健康専門家は2次元超音波(us)ビデオと画像を使用して、筋肉の構造変化の評価を含む様々な目的のために内臓器を可視化し測定する。 アメリカの画像は、低腰痛(lbp)患者の治療計画の診断と作成のために腹部の筋肉の寸法を測定するのに使用できるが、解釈は困難である。 高い変動性のため、専門訓練を受けた熟練した専門家は、オブザーバー内の信頼性の低下を避けるために測定を行う必要がある。 この変動性は、腹部us画像における測定エンドポイントの正確な空間的位置を正確に見つけるという困難な性質に由来する。 本稿では,2次元us画像における腹部筋厚測定の自動化のために,deep learning (dl) アプローチを用いた。 この問題をローカライズタスクとして扱うことで,人間の操作と同じような計測エンドポイントの座標位置のブロブを生成するために,FCN (Fully Convolutional Network) アーキテクチャを改良した。 tra400 us画像データセットを用いて,テストセット上で平均絶対誤差(mae)を0.3125とし,熟練超音波技術者の性能にほぼ匹敵することを示した。 提案手法は,2次元US画像における計測プロセスを自動化するための次のステップを容易にするとともに,より効果的な臨床結果を得るために,オブザーバ間の変動を低減できる。

Health professionals extensively use Two- Dimensional (2D) Ultrasound (US) videos and images to visualize and measure internal organs for various purposes including evaluation of muscle architectural changes. US images can be used to measure abdominal muscles dimensions for the diagnosis and creation of customized treatment plans for patients with Low Back Pain (LBP), however, they are difficult to interpret. Due to high variability, skilled professionals with specialized training are required to take measurements to avoid low intra-observer reliability. This variability stems from the challenging nature of accurately finding the correct spatial location of measurement endpoints in abdominal US images. In this paper, we use a Deep Learning (DL) approach to automate the measurement of the abdominal muscle thickness in 2D US images. By treating the problem as a localization task, we develop a modified Fully Convolutional Network (FCN) architecture to generate blobs of coordinate locations of measurement endpoints, similar to what a human operator does. We demonstrate that using the TrA400 US image dataset, our network achieves a Mean Absolute Error (MAE) of 0.3125 on the test set, which almost matches the performance of skilled ultrasound technicians. Our approach can facilitate next steps for automating the process of measurements in 2D US images, while reducing inter-observer as well as intra-observer variability for more effective clinical outcomes.
翻訳日:2021-10-02 00:55:07 公開日:2021-09-30
# (参考訳) BERT、一時的なタグ付けにトランスフォーマーを導入 [全文訳有]

BERT got a Date: Introducing Transformers to Temporal Tagging ( http://arxiv.org/abs/2109.14927v1 )

ライセンス: CC BY 4.0
Satya Almasian, Dennis Aumiller, Michael Gertz(参考訳) テキスト中の時間表現は、言語理解において重要な役割を担い、それらを正しく識別することは、様々な検索や自然言語処理システムの基礎となる。 以前の研究は徐々にルールベースからニューラルネットワークアーキテクチャにシフトし、より精度の高い表現をタグ付けできるようになった。 しかし、ニューラルモデルは、ルールベースのモデルと同じレベルで異なる表現型を区別することはできない。 本研究は, 時相タグ付けと型分類に最も適した変圧器アーキテクチャの同定と, 半教師付き訓練がシステムの性能に及ぼす影響について検討することを目的とする。 トークン分類とエンコーダ-デコーダアーキテクチャの変種を研究した後,最終的にroberta言語モデルを用いたトランスフォーマエンコーダ-デコーダモデルを提案する。 ルールベースシステムからの弱いラベル付きデータでトレーニングリソースを補足することで,従来の時間的タグ付けや型分類,特にレアクラスを超越したモデルを構築した。 さらに、コードと事前学習実験を公開します。

Temporal expressions in text play a significant role in language understanding and correctly identifying them is fundamental to various retrieval and natural language processing systems. Previous works have slowly shifted from rule-based to neural architectures, capable of tagging expressions with higher accuracy. However, neural models can not yet distinguish between different expression types at the same level as their rule-based counterparts. n this work, we aim to identify the most suitable transformer architecture for joint temporal tagging and type classification, as well as, investigating the effect of semi-supervised training on the performance of these systems. After studying variants of token classification and encoder-decoder architectures, we ultimately present a transformer encoder-decoder model using RoBERTa language model as our best performing system. By supplementing training resources with weakly labeled data from rule-based systems, our model surpasses previous works in temporal tagging and type classification, especially on rare classes. Additionally, we make the code and pre-trained experiment publicly available
翻訳日:2021-10-02 00:35:10 公開日:2021-09-30
# (参考訳) スパースガウス除去におけるマルコフ決定過程の学習 [全文訳有]

Learning the Markov Decision Process in the Sparse Gaussian Elimination ( http://arxiv.org/abs/2109.14929v1 )

ライセンス: CC BY 4.0
Yingshi Chen(参考訳) スパースガウス除去のための学習に基づくアプローチを提案する。 現代のスパースソルバには、多くのハードコンビネート最適化問題があります。 これらのNPハード問題はマルコフ決定過程、特にQラーニング手法の枠組みで扱うことができる。 スパースソルバの主モジュールに対するQ-Learningアルゴリズムとして,最小次順序付け,タスクスケジューリング,適応ピボットを提案する。 最後に、スパースソルバをQ-Learningのフレームワークに再キャストする。 我々の研究は、これら2つの古典的数学モデル、ガウス的退化とマルコフ決定過程をつなぐ最初のステップである。 学習に基づくアルゴリズムは,いくつかの数値実験で検証されたスパースソルバの性能向上に役立つ。

We propose a learning-based approach for the sparse Gaussian Elimination. There are many hard combinatorial optimization problems in modern sparse solver. These NP-hard problems could be handled in the framework of Markov Decision Process, especially the Q-Learning technique. We proposed some Q-Learning algorithms for the main modules of sparse solver: minimum degree ordering, task scheduling and adaptive pivoting. Finally, we recast the sparse solver into the framework of Q-Learning. Our study is the first step to connect these two classical mathematical models: Gaussian Elimination and Markov Decision Process. Our learning-based algorithm could help improve the performance of sparse solver, which has been verified in some numerical experiments.
翻訳日:2021-10-02 00:12:05 公開日:2021-09-30
# (参考訳) prose2poem:ペルシア詩への散文翻訳におけるトランスフォーマー言語モデルの祝福 [全文訳有]

Prose2Poem: The blessing of Transformer-based Language Models in translating Prose to Persian Poetry ( http://arxiv.org/abs/2109.14934v1 )

ライセンス: CC BY 4.0
Reza Khanmohammadi, Mitra Sadat Mirshafiee, Yazdan Rezaee Jouryabi, Seyed Abolghasem Mirroshandel(参考訳) ペルシャ詩は、その哲学、知恵、スピーチ、合理性を、そのカップルに基づいて一貫して表現し続けており、母国語と非母国語の両方において、それ自体が謎の言語である。 それにもかかわらず、ペルシアの散文と詩の明らかなギャップは2つの文学を中途半端に残している。 散文とそれに相当する詩の並列コーパスをキュレートし,超低リソース環境でトランスフォーマーベースの言語モデルを用いて散文を古代ペルシア詩に翻訳する,新しいニューラルマシン翻訳(nmt)手法を提案する。 具体的には,変換モデルをスクラッチからトレーニングし,最終的な翻訳を得るためにBERTの様々なバリエーションを事前訓練した。 詩的基準の下でのマスキング言語モデリングの課題に対処するために,我々は2つのモデルにヒューリスティックに加わり,自動評価と人間評価の観点で有効な詩を作成した。 最終結果は,新しいペルシャ詩の創造における文献専門家と非専門家のヒューリスティック支援アプローチの適性と創造性を示す。

Persian Poetry has consistently expressed its philosophy, wisdom, speech, and rationale on the basis of its couplets, making it an enigmatic language on its own to both native and non-native speakers. Nevertheless, the notice able gap between Persian prose and poem has left the two pieces of literature medium-less. Having curated a parallel corpus of prose and their equivalent poems, we introduce a novel Neural Machine Translation (NMT) approach to translate prose to ancient Persian poetry using transformer-based Language Models in an extremely low-resource setting. More specifically, we trained a Transformer model from scratch to obtain initial translations and pretrained different variations of BERT to obtain final translations. To address the challenge of using masked language modelling under poeticness criteria, we heuristically joined the two models and generated valid poems in terms of automatic and human assessments. Final results demonstrate the eligibility and creativity of our novel heuristically aided approach among Literature professionals and non-professionals in generating novel Persian poems.
翻訳日:2021-10-02 00:00:17 公開日:2021-09-30
# (参考訳) ポイントクラウドの再検討 - 学習可能な機能保存アプローチ [全文訳有]

Revisiting Point Cloud Simplification: A Learnable Feature Preserving Approach ( http://arxiv.org/abs/2109.14982v1 )

ライセンス: CC BY 4.0
Rolandos Alexandros Potamias and Giorgos Bouritsas and Stefanos Zafeiriou(参考訳) 近年の3Dセンシング技術の進歩により、点雲を非常に高解像度で捉えることが可能になった。 しかし、詳細化は通常、高いストレージと処理と可視化操作の計算コストを犠牲にしている。 meshとpoint cloud simplification methodは、3dモデルの複雑さを低減し、視覚品質と関連するサルエント機能を維持することを目的としている。 従来の単純化手法は通常、時間を要する最適化問題の解決に頼っているため、大規模なデータセットでは実用的ではない。 本研究では,この計算負担を軽減するために,正解点のサンプリング学習による高速点雲単純化手法を提案する。 提案手法は、入力空間から任意のユーザ定義の点数を選択し、視覚的知覚誤差を最小限に抑えるために位置を再配置するよう訓練されたグラフニューラルネットワークアーキテクチャに依存する。 このアプローチは、複数の知覚メトリクスを使用して、さまざまなデータセット上で広範囲に評価される。 重要なことに,本手法は分布外形状を一般化し,ゼロショット機能を示す。

The recent advances in 3D sensing technology have made possible the capture of point clouds in significantly high resolution. However, increased detail usually comes at the expense of high storage, as well as computational costs in terms of processing and visualization operations. Mesh and Point Cloud simplification methods aim to reduce the complexity of 3D models while retaining visual quality and relevant salient features. Traditional simplification techniques usually rely on solving a time-consuming optimization problem, hence they are impractical for large-scale datasets. In an attempt to alleviate this computational burden, we propose a fast point cloud simplification method by learning to sample salient points. The proposed method relies on a graph neural network architecture trained to select an arbitrary, user-defined, number of points from the input space and to re-arrange their positions so as to minimize the visual perception error. The approach is extensively evaluated on various datasets using several perceptual metrics. Importantly, our method is able to generalize to out-of-distribution shapes, hence demonstrating zero-shot capabilities.
翻訳日:2021-10-01 23:44:46 公開日:2021-09-30
# (参考訳) 2019年のAIロボットレーシングコンペティションで優勝した人工知能 [全文訳有]

The Artificial Intelligence behind the winning entry to the 2019 AI Robotic Racing Competition ( http://arxiv.org/abs/2109.14985v1 )

ライセンス: CC BY 4.0
Christophe De Wagter and Federico Paredes-Vall\'es and Nilay Sheth and Guido de Croon(参考訳) ロボティクスは人工知能(ai)の進歩における次のフロンティアであり、ロボットが操作する現実世界は、固有のリアルタイム要件を持つ巨大で複雑な連続した状態空間を表している。 ロボット工学における極端な課題の1つは、現在自律ドローンレースによって形成されている。 人間のドローンレーサーは、190km/hの速度で複雑な軌道を飛ぶことができる。 同様のスピードを自律ドローンで達成することは、リソースの極端な制限の下でAIの基本的問題に取り組むことを意味する。 本稿では,AI Robotic Racing(AIRR)サーキットの優勝ソリューションについて紹介する。このサーキットは,すべての参加チームが同じドローンを使用した4つのレースからなるコンペティションである。 このアプローチの核心は、人間のパイロットがレースゲートのノイズの多い観測と、高速制御を実現するためのドローンのダイナミクスのメンタルモデルを組み合わせた方法に着想を得ています。 このアプローチは、効率的なディープニューラルセグメンテーションネットワークとアクティブビジョンによるゲート検出に重点を置いている。 さらに、ロバストな状態推定とリスクベースの制御に貢献する。 これにより、前回の自律型ドローンレースでは、前回のレースで約9.2m/sのスピードに到達できた。 私たちのソリューションは最速かつ最も堅牢でしたが、それでも最高の人間パイロットであるgab707に負けました。 提案されたアプローチは、人間のドローンパイロットとのギャップを埋めるための有望な方向を示し、AIを現実世界に持ち込むための重要なステップを形成する。

Robotics is the next frontier in the progress of Artificial Intelligence (AI), as the real world in which robots operate represents an enormous, complex, continuous state space with inherent real-time requirements. One extreme challenge in robotics is currently formed by autonomous drone racing. Human drone racers can fly through complex tracks at speeds of up to 190 km/h. Achieving similar speeds with autonomous drones signifies tackling fundamental problems in AI under extreme restrictions in terms of resources. In this article, we present the winning solution of the first AI Robotic Racing (AIRR) Circuit, a competition consisting of four races in which all participating teams used the same drone, to which they had limited access. The core of our approach is inspired by how human pilots combine noisy observations of the race gates with their mental model of the drone's dynamics to achieve fast control. Our approach has a large focus on gate detection with an efficient deep neural segmentation network and active vision. Further, we make contributions to robust state estimation and risk-based control. This allowed us to reach speeds of ~9.2m/s in the last race, unrivaled by previous autonomous drone race competitions. Although our solution was the fastest and most robust, it still lost against one of the best human pilots, Gab707. The presented approach indicates a promising direction to close the gap with human drone pilots, forming an important step in bringing AI to the real world.
翻訳日:2021-10-01 23:23:22 公開日:2021-09-30
# (参考訳) 言語モデルにおける構文パーシステンス:抽象言語表現への窓としてのプライミング [全文訳有]

Syntactic Persistence in Language Models: Priming as a Window into Abstract Language Representations ( http://arxiv.org/abs/2109.14989v1 )

ライセンス: CC BY 4.0
Arabella Sinclair, Jaap Jumelet, Willem Zuidema, Raquel Fern\'andez(参考訳) 文の構文構造が同じ構造を後続文でより有意なものにする現象である構文プライミング(syntactic priming)に,現代のニューラル言語モデルがどの程度の影響を受けやすいかを検討する。 これらのモデルによって得られた構文的知識の性質を研究するためにプライミングがどのように利用できるかを検討する。 プライミング強度と相互作用する様々な言語要因を制御できる大規模コーパスであるPrime-LMを新たに導入する。 近年の大規模トランスフォーマーモデルでは、構文的プライミングの証拠が実際に見られるが、これらのモデルによって学習された構文的一般化は意味情報によってある程度変調される。 異なる単語と意味を持つが、同じ構文構造を持つ複数の文でプライミングする場合、驚くほど強いプライミング効果が報告される。 構文的プライミングパラダイムは、言語モデルの能力に関する洞察を得る上で、非常に有用な追加ツールである、と結論づける。

We investigate the extent to which modern, neural language models are susceptible to syntactic priming, the phenomenon where the syntactic structure of a sentence makes the same structure more probable in a follow-up sentence. We explore how priming can be used to study the nature of the syntactic knowledge acquired by these models. We introduce a novel metric and release Prime-LM, a large corpus where we control for various linguistic factors which interact with priming strength. We find that recent large Transformer models indeed show evidence of syntactic priming, but also that the syntactic generalisations learned by these models are to some extent modulated by semantic information. We report surprisingly strong priming effects when priming with multiple sentences, each with different words and meaning but with identical syntactic structure. We conclude that the syntactic priming paradigm is a highly useful, additional tool for gaining insights into the capacities of language models.
翻訳日:2021-10-01 22:37:04 公開日:2021-09-30
# (参考訳) コンカレントプルーニングと自己蒸留によるディープニューラル圧縮 [全文訳有]

Deep Neural Compression Via Concurrent Pruning and Self-Distillation ( http://arxiv.org/abs/2109.15014v1 )

ライセンス: CC BY 4.0
James O' Neill, Sourav Dutta, Haytham Assem(参考訳) Pruningは、元のネットワークに近いパフォーマンスを維持しながら、パラメータの数を減らすことを目的としている。 本研究は,同一ネットワークのプルーンバージョンと非プルーンバージョン間の表現的類似性を最大化する,新しい<emph{self-distillation}ベースのプルーニング戦略を提案する。 蒸留と刈り取りを別々に扱う従来の手法とは異なり、蒸留は知識蒸留のように別の学生ネットワークを必要とせず、刈り取り基準を伝えるために蒸留を用いる。 提案した自己蒸留プルーニングの相互相関目的はスパース解を暗黙的に促進し、マグニチュードベースのプルーニング基準を自然に補完することを示す。 GLUE と XGLUE のベンチマーク実験により,単言語および言語間言語モデルの性能が向上した。 自己蒸留プルーニングモデルは、同じ数のパラメータを持つ小さなトランスフォーマーよりも優れており、より大きな蒸留ネットワーク(6倍)と競合する。 また, 自己蒸留はクラス分離性を最大化し, (2) 信号対雑音比を増加させ, (3) プルーニング後の収束速度を速くし, 自己蒸留プルーニングが一般化を改善できる理由についてさらなる知見を与える。

Pruning aims to reduce the number of parameters while maintaining performance close to the original network. This work proposes a novel \emph{self-distillation} based pruning strategy, whereby the representational similarity between the pruned and unpruned versions of the same network is maximized. Unlike previous approaches that treat distillation and pruning separately, we use distillation to inform the pruning criteria, without requiring a separate student network as in knowledge distillation. We show that the proposed {\em cross-correlation objective for self-distilled pruning} implicitly encourages sparse solutions, naturally complementing magnitude-based pruning criteria. Experiments on the GLUE and XGLUE benchmarks show that self-distilled pruning increases mono- and cross-lingual language model performance. Self-distilled pruned models also outperform smaller Transformers with an equal number of parameters and are competitive against (6 times) larger distilled networks. We also observe that self-distillation (1) maximizes class separability, (2) increases the signal-to-noise ratio, and (3) converges faster after pruning steps, providing further insights into why self-distilled pruning improves generalization.
翻訳日:2021-10-01 22:15:55 公開日:2021-09-30
# (参考訳) riedones3d:登録ときめ細かいクラスタリングのためのケルトコインデータセット [全文訳有]

Riedones3D: a celtic coin dataset for registration and fine-grained clustering ( http://arxiv.org/abs/2109.15033v1 )

ライセンス: CC BY 4.0
Sofiane Horache and Jean-Emmanuel Deschaud and Fran\c{c}ois Goulette and Katherine Gruel and Thierry Lejars and Olivier Masson(参考訳) 彼らの死に関する貨幣のクラスタリングは、ヌミスマティック研究の重要な要素であり、部族の経済史を理解するのに不可欠である(特にケルト文化において文学的生産が存在しない場合)。 多くの時間と専門知識を必要とする非常に難しい作業です。 何千ものコインを集積するためには、自動的な方法が必要である。 それでも、コインダイクラスタリング評価のための公開データセットは、新しい手法の開発において非常に重要であるが、あまりにも稀である。 そこで本研究では,コインの2070スキャンによる新しい3次元データセットを提案する。 このデータセットでは,ポイントクラウド登録のためのベンチマーク,コインダイ認識に必須なベンチマーク,コインダイクラスタリングのベンチマークの2つを提案する。 専門家を支援するためにコインを自動的にクラスタリングし、これらの2つのタスクの予備的な評価を行う方法を示す。 ベースラインとデータセットのコードはhttps://www.npm3d.fr /coins-riedones3dとhttps://www.chronoca rto.eu/spip.php? 記事84&lang=fr

Clustering coins with respect to their die is an important component of numismatic research and crucial for understanding the economic history of tribes (especially when literary production does not exist, in celtic culture). It is a very hard task that requires a lot of times and expertise. To cluster thousands of coins, automatic methods are becoming necessary. Nevertheless, public datasets for coin die clustering evaluation are too rare, though they are very important for the development of new methods. Therefore, we propose a new 3D dataset of 2 070 scans of coins. With this dataset, we propose two benchmarks, one for point cloud registration, essential for coin die recognition, and a benchmark of coin die clustering. We show how we automatically cluster coins to help experts, and perform a preliminary evaluation for these two tasks. The code of the baseline and the dataset will be publicly available at https://www.npm3d.fr /coins-riedones3d and https://www.chronoca rto.eu/spip.php?arti cle84&lang=fr
翻訳日:2021-10-01 21:55:57 公開日:2021-09-30
# (参考訳) 話者認識のための微調整wav2vec2 [全文訳有]

Fine-tuning wav2vec2 for speaker recognition ( http://arxiv.org/abs/2109.15053v1 )

ライセンス: CC BY 4.0
Nik Vaessen, David A. van Leeuwen(参考訳) 本稿では,音声認識の代わりにwav2vec2フレームワークを話者認識に適用することを検討する。 本稿では,事前学習した重みが話者認識タスクに与える影響と,wav2vec2出力シーケンスを固定長話者埋め込みにプーリングする方法について検討する。 この枠組みを話者認識に適用するために,CE と AAM のソフトマックス損失を持つ単一発話分類変種と,BCE の損失を持つ発話ペア分類変種を提案する。 ECAPA-TDNN ベースラインの 1.69% EER に対して,我々の最高性能である w2v2-aam は 1.88% EER を達成する。 コードはhttps://github.com/n ikvaessen/w2v2-speak erで入手できる。

This paper explores applying the wav2vec2 framework to speaker recognition instead of speech recognition. We study the effectiveness of the pre-trained weights on the speaker recognition task, and how to pool the wav2vec2 output sequence into a fixed-length speaker embedding. To adapt the framework to speaker recognition, we propose a single-utterance classification variant with CE or AAM softmax loss, and an utterance-pair classification variant with BCE loss. Our best performing variant, w2v2-aam, achieves a 1.88% EER on the extended voxceleb1 test set compared to 1.69% EER with an ECAPA-TDNN baseline. Code is available at https://github.com/n ikvaessen/w2v2-speak er.
翻訳日:2021-10-01 21:39:35 公開日:2021-09-30
# (参考訳) iShape:不規則な形状のインスタンスセグメンテーションに向けた第一歩 [全文訳有]

iShape: A First Step Towards Irregular Shape Instance Segmentation ( http://arxiv.org/abs/2109.15068v1 )

ライセンス: CC0 1.0
Lei Yang, Yan Zi Wei, Yisheng HE, Wei Sun, Zhenhang Huang, Haibin Huang, Haoqiang Fan(参考訳) 本稿では,不規則な形状を持つオブジェクトのインスタンスセグメンテーションの研究を促進するために,新しいデータセットを提案する。 私たちの重要な観察は、不規則な形状のオブジェクトは日常生活や産業シナリオに広く存在しているが、インスタンスセグメンテーションの分野では、対応するデータセットの欠如によってほとんど注目されなかったことです。 このギャップを埋めるために、例えばセグメンテーションのための不規則な形状データセットであるishapeを提案する。 iShapeには6つのサブデータセットがあり、それぞれが典型的な不規則な形状のシーンを表している。 通常のオブジェクトの既存のインスタンスセグメンテーションデータセットとは異なり、iShapeには、インスタンスのバウンディングボックス間の大きなオーバーラップ、極端なアスペクト比、インスタンスあたりの多数の接続コンポーネントなど、既存のインスタンスセグメンテーションアルゴリズムに挑戦する多くの特徴がある。 iShapeの一般的なインスタンスセグメンテーション手法をベンチマークした結果,パフォーマンスが劇的に低下した。 そこで我々はASISと呼ばれる親和性に基づくインスタンスセグメンテーションアルゴリズムを提案する。 ASISは、不規則なオブジェクトを含むArbitrary Shape Instance Segmentationを解決するために、知覚と推論を明示的に組み合わせている。 実験の結果、ASISはiShapeの最先端よりも優れていた。 データセットとコードはhttps://ishape.githu b.ioで入手できる。

In this paper, we introduce a brand new dataset to promote the study of instance segmentation for objects with irregular shapes. Our key observation is that though irregularly shaped objects widely exist in daily life and industrial scenarios, they received little attention in the instance segmentation field due to the lack of corresponding datasets. To fill this gap, we propose iShape, an irregular shape dataset for instance segmentation. iShape contains six sub-datasets with one real and five synthetics, each represents a scene of a typical irregular shape. Unlike most existing instance segmentation datasets of regular objects, iShape has many characteristics that challenge existing instance segmentation algorithms, such as large overlaps between bounding boxes of instances, extreme aspect ratios, and large numbers of connected components per instance. We benchmark popular instance segmentation methods on iShape and find their performance drop dramatically. Hence, we propose an affinity-based instance segmentation algorithm, called ASIS, as a stronger baseline. ASIS explicitly combines perception and reasoning to solve Arbitrary Shape Instance Segmentation including irregular objects. Experimental results show that ASIS outperforms the state-of-the-art on iShape. Dataset and code are available at https://ishape.githu b.io
翻訳日:2021-10-01 21:29:06 公開日:2021-09-30
# (参考訳) コントラスト学習と抽出的議論要約によるキーポイント分析 [全文訳有]

Key Point Analysis via Contrastive Learning and Extractive Argument Summarization ( http://arxiv.org/abs/2109.15086v1 )

ライセンス: CC BY 4.0
Milad Alshomary, Timon Gurke, Shahbaz Syed, Philipp Heinrich, Maximilian Splieth\"over, Philipp Cimiano, Martin Potthast, Henning Wachsmuth(参考訳) キーポイント分析は、与えられた引数の集合から簡潔でハイレベルなステートメントを抽出し、これらの引数の要点を表すタスクである。 本稿では,第8回Argument Miningワークショップと連携して,キーポイント分析共有タスクに対する提案手法を提案する。 このアプローチは2つの補完的なコンポーネントを統合する。 1つのコンポーネントは、引数とキーポイントをマッチングするsiameseニューラルネットワークによるコントラスト学習を採用しており、もう1つはキーポイントを生成するグラフベースの抽出要約モデルである。 自動評価と手動評価の両方において,提案手法は共有タスクへの投稿の中で最良であった。

Key point analysis is the task of extracting a set of concise and high-level statements from a given collection of arguments, representing the gist of these arguments. This paper presents our proposed approach to the Key Point Analysis shared task, collocated with the 8th Workshop on Argument Mining. The approach integrates two complementary components. One component employs contrastive learning via a siamese neural network for matching arguments to key points; the other is a graph-based extractive summarization model for generating key points. In both automatic and manual evaluation, our approach was ranked best among all submissions to the shared task.
翻訳日:2021-10-01 21:16:24 公開日:2021-09-30
# (参考訳) 多粒子力学系によるトランスフォーマーアーキテクチャの再設計 [全文訳有]

Redesigning the Transformer Architecture with Insights from Multi-particle Dynamical Systems ( http://arxiv.org/abs/2109.15142v1 )

ライセンス: CC BY 4.0
Subhabrata Dutta, Tanya Gautam, Soumen Chakrabarti and Tanmoy Chakraborty(参考訳) Transformerとその変種は、多くの異なる領域における効率的なシーケンス学習者であることが証明されている。 驚くべき成功にもかかわらず、重要な問題は、(10^7$から10^{11}$まで)訓練しなければならない膨大なパラメータと、ドット製品への注意の二次的な複雑さである。 本研究では,Transformerの2つの中心成分であるマルチヘッド自己アテンションとポイントワイドフィードフォワード変換をパラメータ空間と計算複雑性で近似する問題について検討する。 我々は,従来の微分方程式の数値解法として,ディープニューラルネットワークを解析する最近の発展の上に構築する。 変圧器の段差と複数の相互作用粒子の力学系の進化の類似性を利用して、時間的進化スキームTransEvolveを定式化し、複数の積層層にコストのかかるドット積の注意をバイパスする。 我々は、よく知られたエンコーダデコーダとエンコーダのみのタスクでTransEvolveで徹底的な実験を行う。 近似の程度(あるいは逆のパラメータ減少の程度)がタスクによって性能に異なる影響を与えることを観察する。 エンコーダ/デコーダのシステムでは、TransEvolveはオリジナルのTransformerに匹敵するパフォーマンスを提供するが、エンコーダのみのタスクではTransformerよりも連続的にパフォーマンスが向上する。

The Transformer and its variants have been proven to be efficient sequence learners in many different domains. Despite their staggering success, a critical issue has been the enormous number of parameters that must be trained (ranging from $10^7$ to $10^{11}$) along with the quadratic complexity of dot-product attention. In this work, we investigate the problem of approximating the two central components of the Transformer -- multi-head self-attention and point-wise feed-forward transformation, with reduced parameter space and computational complexity. We build upon recent developments in analyzing deep neural networks as numerical solvers of ordinary differential equations. Taking advantage of an analogy between Transformer stages and the evolution of a dynamical system of multiple interacting particles, we formulate a temporal evolution scheme, TransEvolve, to bypass costly dot-product attention over multiple stacked layers. We perform exhaustive experiments with TransEvolve on well-known encoder-decoder as well as encoder-only tasks. We observe that the degree of approximation (or inversely, the degree of parameter reduction) has different effects on the performance, depending on the task. While in the encoder-decoder regime, TransEvolve delivers performances comparable to the original Transformer, in encoder-only tasks it consistently outperforms Transformer along with several subsequent variants.
翻訳日:2021-10-01 21:07:51 公開日:2021-09-30
# (参考訳) 深層学習を用いたテキストスタイル変換の検討 [全文訳有]

A Review of Text Style Transfer using Deep Learning ( http://arxiv.org/abs/2109.15144v1 )

ライセンス: CC BY 4.0
Martina Toshevska, Sonja Gievska(参考訳) スタイルは、人が作る単語の選択によって示される文の不可欠な構成要素である。 人によって表現方法が異なるが、話し方や文章のスタイルを社会的な文脈、聴衆、対話者、機会の形式に合わせて調整する。 テキストスタイルの転送は、原文の意味を保ちながら、文章が書かれた文体的方法の適応および/または変更を行うタスクとして定義される。 本稿では,ディープラーニングを用いたテキストスタイル転送手法の体系的レビューを行う。 我々は、自然言語理解と生成の分野における現在の成功の原動力となっているディープニューラルネットワークの技術的進歩を指摘した。 レビューは、テキストスタイル転送プロセスにおける2つの重要な段階、すなわち表現学習と文生成を新しいスタイルで構成する。 この議論は、提案されたソリューション間の共通点と相違点、およびこの分野におけるさらなる研究の指揮と促進を期待される課題と機会を強調している。

Style is an integral component of a sentence indicated by the choice of words a person makes. Different people have different ways of expressing themselves, however, they adjust their speaking and writing style to a social context, an audience, an interlocutor or the formality of an occasion. Text style transfer is defined as a task of adapting and/or changing the stylistic manner in which a sentence is written, while preserving the meaning of the original sentence. A systematic review of text style transfer methodologies using deep learning is presented in this paper. We point out the technological advances in deep neural networks that have been the driving force behind current successes in the fields of natural language understanding and generation. The review is structured around two key stages in the text style transfer process, namely, representation learning and sentence generation in a new style. The discussion highlights the commonalities and differences between proposed solutions as well as challenges and opportunities that are expected to direct and foster further research in the field.
翻訳日:2021-10-01 20:40:15 公開日:2021-09-30
# (参考訳) 組み込みK-Meansクラスタリング [全文訳有]

Deep Embedded K-Means Clustering ( http://arxiv.org/abs/2109.15149v1 )

ライセンス: CC BY 4.0
Wengang Guo, Kaiyan Lin, Wei Ye(参考訳) 近年,オートエンコーダなどのディープニューラルネットワーク(DNN)の高表現力により,ディープクラスタリング手法が勢いを増している。 優れた表現が優れたクラスタリングにつながる一方で、優れたクラスタリングは表現学習のための優れた監視信号を提供します。 重要な疑問は 1)表現学習とクラスタリングをどのように最適化するか。 2)オートエンコーダの再構成損失は常に考慮すべきか? 本稿では,この2つの疑問に答えるため,DeKM(Deep Embedded K-Means)を提案する。 オートエンコーダが生成する埋め込み空間には明らかなクラスタ構造が存在しないため,埋め込み空間をクラスタ構造情報を明らかにする新しい空間に変換することを提案する。 これは、K-平均のクラス内散乱行列の固有ベクトルを含む正則変換行列によって達成される。 固有値は新しい空間におけるクラスター構造情報に対する固有ベクトルの寄与の重要性を示している。 私たちの目標はクラスタ構造情報を増やすことです。 この目的のために,デコーダを廃止し,表現を最適化するための欲求的手法を提案する。 表現学習とクラスタリングは、DECMによって交互に最適化される。 実世界のデータセットの実験結果は、DECMが最先端のパフォーマンスを達成することを示す。

Recently, deep clustering methods have gained momentum because of the high representational power of deep neural networks (DNNs) such as autoencoder. The key idea is that representation learning and clustering can reinforce each other: Good representations lead to good clustering while good clustering provides good supervisory signals to representation learning. Critical questions include: 1) How to optimize representation learning and clustering? 2) Should the reconstruction loss of autoencoder be considered always? In this paper, we propose DEKM (for Deep Embedded K-Means) to answer these two questions. Since the embedding space generated by autoencoder may have no obvious cluster structures, we propose to further transform the embedding space to a new space that reveals the cluster-structure information. This is achieved by an orthonormal transformation matrix, which contains the eigenvectors of the within-class scatter matrix of K-means. The eigenvalues indicate the importance of the eigenvectors' contributions to the cluster-structure information in the new space. Our goal is to increase the cluster-structure information. To this end, we discard the decoder and propose a greedy method to optimize the representation. Representation learning and clustering are alternately optimized by DEKM. Experimental results on the real-world datasets demonstrate that DEKM achieves state-of-the-art performance.
翻訳日:2021-10-01 19:51:00 公開日:2021-09-30
# (参考訳) コントラスト注意機構に基づくマルチモーダルサーカズム検出 [全文訳有]

Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism ( http://arxiv.org/abs/2109.15153v1 )

ライセンス: CC BY 4.0
Xiaoqiang Zhang, Ying Chen, Guangyuan Li(参考訳) 過去10年間、皮肉の検出はテキストのシナリオで集中的に行われてきた。 近年,ビデオ通信の普及に伴い,マルチモーダルシナリオの解析が注目されている。 したがって,ビデオ会話におけるサーカズムの検出を目的としたマルチモーダルサーカズム検出は,自然言語処理コミュニティとマルチモーダル解析コミュニティの両方でますますホットになっている。 本稿では,モダリティ間の共和性(例えば,音声音がグラムブルを表すときに補完を表すテキスト)を通してしばしばサーカズムが伝達されることを示すことを考慮し,モーダル間の対比的注意機構を用いて発話のコントラスト的特徴を抽出し,コントラス・インタテンションに基づくサーカズム検出(conattsd)モデルを構築する。 対照的な特徴は、2つのモード間の情報の矛盾を表す。 ベンチマークマルチモーダルサルカズムデータセットであるMUStARDに関する実験により,提案したConAttSDモデルの有効性を実証した。

In the past decade, sarcasm detection has been intensively conducted in a textual scenario. With the popularization of video communication, the analysis in multi-modal scenarios has received much attention in recent years. Therefore, multi-modal sarcasm detection, which aims at detecting sarcasm in video conversations, becomes increasingly hot in both the natural language processing community and the multi-modal analysis community. In this paper, considering that sarcasm is often conveyed through incongruity between modalities (e.g., text expressing a compliment while acoustic tone indicating a grumble), we construct a Contras-tive-Attenti on-based Sarcasm Detection (ConAttSD) model, which uses an inter-modality contrastive attention mechanism to extract several contrastive features for an utterance. A contrastive feature represents the incongruity of information between two modalities. Our experiments on MUStARD, a benchmark multi-modal sarcasm dataset, demonstrate the effectiveness of the proposed ConAttSD model.
翻訳日:2021-10-01 19:38:11 公開日:2021-09-30
# (参考訳) 出力雑音摂動によるブラックボックス攻撃の軽減 [全文訳有]

Mitigating Black-Box Adversarial Attacks via Output Noise Perturbation ( http://arxiv.org/abs/2109.15160v1 )

ライセンス: CC BY 4.0
Manjushree B. Aithal and Xiaohua Li(参考訳) ブラックボックスの敵攻撃では、敵はディープニューラルネットワーク(DNN)に問い合わせ、出力を使用して勾配を再構築し、敵の入力を反復的に最適化する。 本稿では,dnn出力にホワイトノイズを付加する手法について検討し,ノイズレベルとクエリコストのトレードオフ分析に着目した。 攻撃者のクエリカウント(QC)は、ノイズ標準偏差の関数として数学的に導出される。 これにより、ディフェンダは、QCが指定する所望のセキュリティレベルに対する攻撃とDNN性能損失の制限を緩和するために必要なノイズレベルを便利に見つけることができる。 解析の結果,DNN出力の小さな変動により付加雑音が大幅に拡大し,再構成された勾配は信号対雑音比(SNR)が極めて低いことがわかった。 標準偏差0.01未満の白色雑音を加えると、顕著な分類精度の低下を招くことなく、QCを桁違いに増大させることができる。 実験により,本手法は現実的なQC制約下でのソフトラベルとハードラベルのブラックボックス攻撃を効果的に軽減できることを示した。 また,本手法は他の多くの防御手法を上回っており,攻撃者の対策に頑健であることを示す。

In black-box adversarial attacks, adversaries query the deep neural network (DNN), use the output to reconstruct gradients, and then optimize the adversarial inputs iteratively. In this paper, we study the method of adding white noise to the DNN output to mitigate such attacks, with a unique focus on the trade-off analysis of noise level and query cost. The attacker's query count (QC) is derived mathematically as a function of noise standard deviation. With this result, the defender can conveniently find the noise level needed to mitigate attacks for the desired security level specified by QC and limited DNN performance loss. Our analysis shows that the added noise is drastically magnified by the small variation of DNN outputs, which makes the reconstructed gradient have an extremely low signal-to-noise ratio (SNR). Adding slight white noise with a standard deviation less than 0.01 is enough to increase QC by many orders of magnitude without introducing any noticeable classification accuracy reduction. Our experiments demonstrate that this method can effectively mitigate both soft-label and hard-label black-box attacks under realistic QC constraints. We also show that this method outperforms many other defense methods and is robust to the attacker's countermeasures.
翻訳日:2021-10-01 19:27:43 公開日:2021-09-30
# (参考訳) HSVA:ゼロショット学習のための階層型セマンティックビジュアル適応 [全文訳有]

HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning ( http://arxiv.org/abs/2109.15163v1 )

ライセンス: CC BY 4.0
Shiming Chen, Guo-Sen Xie, Qinmu Peng, Yang Liu, Baigui Sun, Hao Li, Xinge You, Ling Shao(参考訳) ゼロショット学習(zsl)は、目に見えないクラス認識問題に取り組み、見たクラスから見えないクラスへ意味的知識を転送する。 通常、望ましい知識伝達を保証するために、ZSLの視覚領域と意味領域を関連付けるための共通(ラテント)空間が採用されている。 しかし、既存の共通空間学習手法は、一段階適応による分布不一致を緩和するだけで意味領域と視覚領域を整合させる。 この戦略は、2つの領域における特徴表現の不均一性のため、本質的に分布と構造の変化の両方を含むため、通常効果がない。 これに対処するため,我々は新しい階層的意味・視覚適応(hsva)フレームワークを提案する。 具体的には、HSVAは階層的な2段階適応、すなわち構造適応と分布適応を採用することで、意味領域と視覚領域を整合させる。 構造適応ステップでは、2つのタスク固有のエンコーダを用いて、ソースデータ(視覚領域)とターゲットデータ(意味領域)を構造整合共通空間に符号化する。 この目的のために,2つのタスク固有分類器の予測間の差異を逆さまに最小化し,視覚的特徴多様体と意味的特徴多様体をより密に一致させるための教師付き逆差(sad)モジュールを提案する。 分布適応ステップでは、潜在多変量ガウス分布間のワッサーシュタイン距離を直接最小化し、共通エンコーダを用いて視覚分布と意味分布を整列させる。 最後に、構造と分布適応は、2つの部分整列変分オートエンコーダの下で統一された枠組みで導出される。 4つのベンチマークデータセットに対する大規模な実験により、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を発揮することが示された。 コードは \url{https://github.com/s himing-chen/hsva} で入手できる。

Zero-shot learning (ZSL) tackles the unseen class recognition problem, transferring semantic knowledge from seen classes to unseen ones. Typically, to guarantee desirable knowledge transfer, a common (latent) space is adopted for associating the visual and semantic domains in ZSL. However, existing common space learning methods align the semantic and visual domains by merely mitigating distribution disagreement through one-step adaptation. This strategy is usually ineffective due to the heterogeneous nature of the feature representations in the two domains, which intrinsically contain both distribution and structure variations. To address this and advance ZSL, we propose a novel hierarchical semantic-visual adaptation (HSVA) framework. Specifically, HSVA aligns the semantic and visual domains by adopting a hierarchical two-step adaptation, i.e., structure adaptation and distribution adaptation. In the structure adaptation step, we take two task-specific encoders to encode the source data (visual domain) and the target data (semantic domain) into a structure-aligned common space. To this end, a supervised adversarial discrepancy (SAD) module is proposed to adversarially minimize the discrepancy between the predictions of two task-specific classifiers, thus making the visual and semantic feature manifolds more closely aligned. In the distribution adaptation step, we directly minimize the Wasserstein distance between the latent multivariate Gaussian distributions to align the visual and semantic distributions using a common encoder. Finally, the structure and distribution adaptation are derived in a unified framework under two partially-aligned variational autoencoders. Extensive experiments on four benchmark datasets demonstrate that HSVA achieves superior performance on both conventional and generalized ZSL. The code is available at \url{https://github.com/s himing-chen/HSVA} .
翻訳日:2021-10-01 19:01:19 公開日:2021-09-30
# (参考訳) ICCV 2021 VIPriors Re-identification Challenge の報告 [全文訳有]

A Technical Report for ICCV 2021 VIPriors Re-identification Challenge ( http://arxiv.org/abs/2109.15164v1 )

ライセンス: CC BY 4.0
Cen Liu, Yunbo Peng, Yue Lin(参考訳) 人物の再識別は常にホットで困難な作業だった。 本稿では,VIPriors Challenge 2021における再同定の解法を紹介する。 この課題では、事前訓練された重量なしでモデルをスクラッチからトレーニングする方法が難しい。 提案手法では,最先端のデータ処理戦略,モデル設計,および後処理アンサンブル手法を用いて,データ不足の難しさを克服し,競争的な結果が得られることを示す。 1) 画像強化戦略と隠蔽画像の新しい前処理手法は,モデルがより識別的な特徴を学習するのに役立つ。 2) いくつかの強力なバックボーンと多重損失関数を用いて,より代表的な特徴を学習する。 3)再ランキング,自動クエリ拡張,アンサンブル学習などの後処理技術は,最終的な性能を大幅に向上させる。 チームの最終スコア(ALONG)は96.5154% mAPで、トップボードで1位となった。

Person re-identification has always been a hot and challenging task. This paper introduces our solution for the re-identification track in VIPriors Challenge 2021. In this challenge, the difficulty is how to train the model from scratch without any pretrained weight. In our method, we show use state-of-the-art data processing strategies, model designs, and post-processing ensemble methods, it is possible to overcome the difficulty of data shortage and obtain competitive results. (1) Both image augmentation strategy and novel pre-processing method for occluded images can help the model learn more discriminative features. (2) Several strong backbones and multiple loss functions are used to learn more representative features. (3) Post-processing techniques including re-ranking, automatic query expansion, ensemble learning, etc., significantly improve the final performance. The final score of our team (ALONG) is 96.5154% mAP, ranking first in the leaderboard.
翻訳日:2021-10-01 18:42:16 公開日:2021-09-30
# (参考訳) CoSeg:認知にインスパイアされた教師なしのイベントセグメンテーション [全文訳有]

CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation ( http://arxiv.org/abs/2109.15170v1 )

ライセンス: CC BY 4.0
Xiao Wang, Jingen Liu, Tao Mei, Jiebo Luo(参考訳) いくつかの認知研究は、人間が事象予測の副作用としてイベントセグメンテーションを達成することを発見した。 この発見に触発されて、イベントセグメンテーション/バウンダリ検出のための、シンプルで効果的なエンドツーエンドの自己教師付き学習フレームワークを提案する。 主流クラスタリング方式とは異なり,本フレームワークは変換器を用いた特徴再構成方式を利用してイベント境界の検出を行う。 これは、人間が予測と実際に知覚されるものの間の偏差を利用して新しい事象を発見するという事実と一致している。 セマンティクスにおける不均一性のため、境界のフレームは(一般的には大規模な再構成誤りを伴う)再構成が困難であり、イベント境界の検出に好適である。 また、画素レベルではなく意味的特徴レベルで再構成が行われるため、フレーム特徴再構成のための意味的視覚表現を学習するための時間的コントラスト的特徴埋め込みモジュールを開発する。 この手順は、人間が「長期記憶」で経験を積み上げるようなものです。 私たちの仕事の目標は、特定のイベントをローカライズするのではなく、ジェネリックイベントをセグメント化することです。 正確なイベント境界を達成することに注力します。 その結果,F1スコア(Precision/Recall)を主評価基準として,従来の手法と比較した。 一方、従来のフレームベースのMoFとIoUの計量も計算する。 公開データセット4つについて、徹底的にベンチマークを行い、より優れた結果を示します。

Some cognitive research has discovered that humans accomplish event segmentation as a side effect of event anticipation. Inspired by this discovery, we propose a simple yet effective end-to-end self-supervised learning framework for event segmentation/boundar y detection. Unlike the mainstream clustering-based methods, our framework exploits a transformer-based feature reconstruction scheme to detect event boundary by reconstruction errors. This is consistent with the fact that humans spot new events by leveraging the deviation between their prediction and what is actually perceived. Thanks to their heterogeneity in semantics, the frames at boundaries are difficult to be reconstructed (generally with large reconstruction errors), which is favorable for event boundary detection. Additionally, since the reconstruction occurs on the semantic feature level instead of pixel level, we develop a temporal contrastive feature embedding module to learn the semantic visual representation for frame feature reconstruction. This procedure is like humans building up experiences with "long-term memory". The goal of our work is to segment generic events rather than localize some specific ones. We focus on achieving accurate event boundaries. As a result, we adopt F1 score (Precision/Recall) as our primary evaluation metric for a fair comparison with previous approaches. Meanwhile, we also calculate the conventional frame-based MoF and IoU metric. We thoroughly benchmark our work on four publicly available datasets and demonstrate much better results.
翻訳日:2021-10-01 18:36:26 公開日:2021-09-30
# (参考訳) 非否定性を超えたサブモジュラー最適化:インセンティブ付きソーシャル広告における適応シード選択 [全文訳有]

Submodular Optimization Beyond Nonnegativity: Adaptive Seed Selection in Incentivized Social Advertising ( http://arxiv.org/abs/2109.15180v1 )

ライセンス: CC BY 4.0
Shaojie Tang, Jing Yuan(参考訳) ソーシャル広告(あるいはソーシャルプロモーション)の考え方は、影響力のある個人グループ(a.a \emph{seeds})を選択し、オンラインソーシャルネットワークを通じていくつかの製品やアイデアを促進することである。 ソーシャル広告エコシステムには、広告主とプラットフォームという2つの主要なプレーヤーがいる。 このプラットフォームは、広告を種子のフィードに挿入することで広告主に「いいね!」のようなバイラルなエンゲージメントを売っている。 これらの種は、ソーシャル広告キャンペーンへの参加と引き換えにプラットフォームから金銭的なインセンティブを受ける。 ある広告が、あるシードのフォロワーによって実行されると、プラットフォームは広告主から、エンゲージメントあたりのコストと呼ばれる一定額の支払いを受ける。 この広告はフォロワーのフォロワーからより多くのエンゲージメントを引き寄せ、ウイルス感染を引き起こす可能性がある。 キャンペーンの開始時に広告主はプラットフォームに予算を提出し、この予算は種を募集し、種が生み出すウイルスのエンゲージメントに支払うという2つの目的で使用できる。 支払いの最初の部分はシードで、後者はプラットフォームが収集した実際の収益である点に注意が必要だ。 この設定では、プラットフォームの問題は、予算制約の対象となる最大額の収入を集めることができるように、種のグループをリクルートすることだ。 目的関数が非単調で負の値を取るような種選択問題としてこの問題を定式化し、この設定には適用できない部分モジュラ最適化と影響の最大化に関する既存の結果を得る。 我々は,この問題を非適応的かつ適応的設定で検討する。 本稿では,ソーシャル広告に焦点をあてるが,目的関数が確率的部分モジュラー関数と線形関数の最小値の期待である任意の最適化問題に適用する。

The idea of social advertising (or social promotion) is to select a group of influential individuals (a.k.a \emph{seeds}) to help promote some products or ideas through an online social networks. There are two major players in the social advertising ecosystem: advertiser and platform. The platform sells viral engagements such as "like"s to advertisers by inserting their ads into the feed of seeds. These seeds receive monetary incentives from the platform in exchange for their participation in the social advertising campaign. Once an ad is engaged by a follower of some seed, the platform receives a fixed amount of payment, called cost per engagement, from the advertiser. The ad could potentially attract more engagements from followers' followers and trigger a viral contagion. At the beginning of a campaign, the advertiser submits a budget to the platform and this budget can be used for two purposes: recruiting seeds and paying for the viral engagements generated by the seeds. Note that the first part of payment goes to the seeds and the latter one is the actual revenue collected by the platform. In this setting, the problem for the platform is to recruit a group of seeds such that she can collect the largest possible amount of revenue subject to the budget constraint. We formulate this problem as a seed selection problem whose objective function is non-monotone and it might take on negative values, making existing results on submodular optimization and influence maximization not applicable to our setting. We study this problem under both non-adaptive and adaptive settings. Although we focus on social advertising in this paper, our results apply to any optimization problems whose objective function is the expectation of the minimum of a stochastic submodular function and a linear function.
翻訳日:2021-10-01 18:11:53 公開日:2021-09-30
# (参考訳) 雑音を考慮した多言語AMR解析 [全文訳有]

Multilingual AMR Parsing with Noisy Knowledge Distillation ( http://arxiv.org/abs/2109.15196v1 )

ライセンス: CC BY 4.0
Deng Cai and Xin Li and Jackie Chun-Sing Ho and Lidong Bing and Wai Lam(参考訳) 知識蒸留の観点から多言語AMRパーシングについて検討し,既存の英語パーサを教師として利用して多言語AMRパーサを学習し,改良することを目的とする。 私たちは厳格な多言語設定で探索を制限します。英語を含む全ての異なる言語を解析するモデルは1つしかありません。 蒸留の成功の鍵は,ノイズの入出力と正確な出力にあると考えられる。 広範な事前学習と合わせて、ドイツ語、スペイン語、イタリア語、中国語を含む4つの異なる外国語のすべての結果を大きなマージン(中国語および平均11.3のtextsc{Smatch}ポイントで最大18.8のtextsc{Smatch}ポイント)で上回るパフォーマンスを持つAMRパーサーを得る。 私たちのパーサーは、最新の最先端の英語専用パーサーと同等の性能を英語で達成しています。

We study multilingual AMR parsing from the perspective of knowledge distillation, where the aim is to learn and improve a multilingual AMR parser by using an existing English parser as its teacher. We constrain our exploration in a strict multilingual setting: there is but one model to parse all different languages including English. We identify that noisy input and precise output are the key to successful distillation. Together with extensive pre-training, we obtain an AMR parser whose performances surpass all previously published results on four different foreign languages, including German, Spanish, Italian, and Chinese, by large margins (up to 18.8 \textsc{Smatch} points on Chinese and on average 11.3 \textsc{Smatch} points). Our parser also achieves comparable performance on English to the latest state-of-the-art English-only parser.
翻訳日:2021-10-01 17:44:18 公開日:2021-09-30
# (参考訳) 深層強化学習を用いたリアルロボットチャレンジ [全文訳有]

Real Robot Challenge using Deep Reinforcement Learning ( http://arxiv.org/abs/2109.15233v1 )

ライセンス: CC BY 4.0
Robert McCarthy, Francisco Roldan Sanchez, Kevin McGuinness, Noel O'Connor, Stephen J. Redmond(参考訳) 本稿は,2021年現実ロボットチャレンジの第1フェーズにおいて,3本指ロボットが特定のゴールの軌跡に沿って立方体を運ぶことの課題である。 第1相を解決するために,ロボットシステムや一般にロボット把持に関する専門知識を最小限に抑える純粋強化学習手法を用いる。 後見経験リプレイと連動して、キューブを所望のx,y座標に移動させる制御ポリシーを教えるため、スパース目標ベースの報酬が使用される。 同時に、キューブを所望のz座標に持ち上げる方針を教えるために、密接な距離に基づく報酬が用いられる。 このポリシーは、評価のために実際のロボットに移される前に、ドメインランダム化によるシミュレーションで訓練される。 この移行後に性能が悪化する傾向にあるが、効果的なピンチグリップを用いてゴール軌道に沿って実際の立方体を持ち上げることができる。 私たちのアプローチは、従来のロボット制御技術を活用するものを含む、他のすべての提案よりも優れており、この課題を解決する最初の学習ベースのアプローチです。

This paper details our winning submission to Phase 1 of the 2021 Real Robot Challenge, a challenge in which a three fingered robot must carry a cube along specified goal trajectories. To solve Phase 1, we use a pure reinforcement learning approach which requires minimal expert knowledge of the robotic system or of robotic grasping in general. A sparse goal-based reward is employed in conjunction with Hindsight Experience Replay to teach the control policy to move the cube to the desired x and y coordinates. Simultaneously, a dense distance-based reward is employed to teach the policy to lift the cube to the desired z coordinate. The policy is trained in simulation with domain randomization before being transferred to the real robot for evaluation. Although performance tends to worsen after this transfer, our best trained policy can successfully lift the real cube along goal trajectories via the use of an effective pinching grasp. Our approach outperforms all other submissions, including those leveraging more traditional robotic control techniques, and is the first learning-based approach to solve this challenge.
翻訳日:2021-10-01 17:20:33 公開日:2021-09-30
# (参考訳) SlovakBERT: スロバキアのマスク語モデル [全文訳有]

SlovakBERT: Slovak Masked Language Model ( http://arxiv.org/abs/2109.15254v1 )

ライセンス: CC BY 4.0
Mat\'u\v{s} Pikuliak, \v{S}tefan Grivalsk\'y, Martin Kon\^opka, Miroslav Bl\v{s}t\'ak, Martin Tamajka, Viktor Bachrat\'y, Mari\'an \v{S}imko, Pavol Bal\'a\v{z}ik, Michal Trnka, Filip Uhl\'arik(参考訳) 本稿では,スロバキアのマスキング言語モデルであるBarberTを紹介する。 これはスロバキアのみのトランスフォーマーベースのモデルであり、大きなコーパスで訓練されている。 複数のnlpタスクでモデルを評価し,最新の結果を得た。 マスク付き言語モデルと、後続の音声タグ付け、感情分析、意味的テキスト類似性のための微調整モデルを公開する。

We introduce a new Slovak masked language model called SlovakBERT in this paper. It is the first Slovak-only transformers-based model trained on a sizeable corpus. We evaluate the model on several NLP tasks and achieve state-of-the-art results. We publish the masked language model, as well as the subsequently fine-tuned models for part-of-speech tagging, sentiment analysis and semantic textual similarity.
翻訳日:2021-10-01 17:14:26 公開日:2021-09-30
# (参考訳) T\"oRF:動的シーンビュー合成のための飛行時間放射場 [全文訳有]

T\"oRF: Time-of-Flight Radiance Fields for Dynamic Scene View Synthesis ( http://arxiv.org/abs/2109.15271v1 )

ライセンス: CC BY 4.0
Benjamin Attal, Eliot Laidlaw, Aaron Gokaslan, Changil Kim, Christian Richardt, James Tompkin, Matthew O'Toole(参考訳) ニューラルネットワークは静的な3Dシーン(例えば、NeRF)の放射場を表現し、正確に再構成することができる。 いくつかの作品では、これらを単眼映像で捉えたダイナミックなシーンに拡張し、有望なパフォーマンスを実現している。 しかし、単眼的な設定は制約の少ない問題であることが知られており、動的コンテンツの再構築にはデータ駆動前処理に依存する。 我々は、これらの先行情報を飛行時間(ToF)カメラの計測に置き換え、連続波ToFカメラの画像形成モデルに基づくニューラル表現を導入する。 加工深度マップを使用する代わりに、生のToFセンサ測定をモデル化し、再構成品質を改善し、低反射域、マルチパス干渉、センサの非曖昧な深度範囲の問題を回避する。 このアプローチは, 動的シーン再構成の堅牢性を向上し, 誤ったキャリブレーションや大きな動きに改善することを示し, 現代のスマートフォンで利用可能なRGB+ToFセンサの利点と限界について議論する。

Neural networks can represent and accurately reconstruct radiance fields for static 3D scenes (e.g., NeRF). Several works extend these to dynamic scenes captured with monocular video, with promising performance. However, the monocular setting is known to be an under-constrained problem, and so methods rely on data-driven priors for reconstructing dynamic content. We replace these priors with measurements from a time-of-flight (ToF) camera, and introduce a neural representation based on an image formation model for continuous-wave ToF cameras. Instead of working with processed depth maps, we model the raw ToF sensor measurements to improve reconstruction quality and avoid issues with low reflectance regions, multi-path interference, and a sensor's limited unambiguous depth range. We show that this approach improves robustness of dynamic scene reconstruction to erroneous calibration and large motions, and discuss the benefits and limitations of integrating RGB+ToF sensors that are now available on modern smartphones.
翻訳日:2021-10-01 16:56:11 公開日:2021-09-30
# (参考訳) MatSciBERT:テキストマイニングと情報抽出のための材料ドメイン言語モデル [全文訳有]

MatSciBERT: A Materials Domain Language Model for Text Mining and Information Extraction ( http://arxiv.org/abs/2109.15290v1 )

ライセンス: CC BY-SA 4.0
Tanishq Gupta, Mohd Zaki, N. M. Anoop Krishnan, Mausam(参考訳) 資料領域における膨大な量の知識が生成され、査読された科学文献に掲載されるテキストとして保存される。 変換器(BERT)モデルからの双方向エンコーダ表現などの自然言語処理の最近の進歩は、これらのテキストから情報を抽出する有望なツールを提供する。 しかし、これらのモデルの材料領域への直接適用は、モデル自体がドメインに固有の表記法やジャーゴンに基づいて訓練されないため、準最適結果をもたらす可能性がある。 そこで本論文では,資料領域で発行される学術文献の大規模コーパスに基づいて学習した教材認識言語モデルであるMatSciBERTについて述べる。 さらに,異なる材料データセットにおける抽象分類,名前付きエンティティ認識,関係抽出という3つの下流タスクにおけるmatscibertの性能評価を行った。 MatSciBERTは、科学コーパスで訓練された言語モデルであるSciBERTを、全てのタスクで上回っていることを示す。 さらに,情報抽出のための材料領域におけるマットシバートの応用について検討し,材料発見や最適化に寄与する可能性について考察する。 最後に、より大きな材料コミュニティで作業が行えるようにするために、トレーニング済みおよび微調整された重量とMatSciBERTのモデルを自由に利用できるようにする。

An overwhelmingly large amount of knowledge in the materials domain is generated and stored as text published in peer-reviewed scientific literature. Recent developments in natural language processing, such as bidirectional encoder representations from transformers (BERT) models, provide promising tools to extract information from these texts. However, direct application of these models in the materials domain may yield suboptimal results as the models themselves may not be trained on notations and jargon that are specific to the domain. Here, we present a materials-aware language model, namely, MatSciBERT, which is trained on a large corpus of scientific literature published in the materials domain. We further evaluate the performance of MatSciBERT on three downstream tasks, namely, abstract classification, named entity recognition, and relation extraction, on different materials datasets. We show that MatSciBERT outperforms SciBERT, a language model trained on science corpus, on all the tasks. Further, we discuss some of the applications of MatSciBERT in the materials domain for extracting information, which can, in turn, contribute to materials discovery or optimization. Finally, to make the work accessible to the larger materials community, we make the pretrained and finetuned weights and the models of MatSciBERT freely accessible.
翻訳日:2021-10-01 16:35:14 公開日:2021-09-30
# (参考訳) ギリシャ法に関する多元的法的話題分類 [全文訳有]

Multi-granular Legal Topic Classification on Greek Legislation ( http://arxiv.org/abs/2109.15298v1 )

ライセンス: CC BY 4.0
Christos Papaloukas, Ilias Chalkidis, Konstantinos Athinaios, Despina-Athanasia Pantazi, Manolis Koubarakis(参考訳) 本研究では,ギリシア語で書かれた法文を分類する作業について検討する。 我々は、ギリシャの法律に基づく新しいデータセットを紹介し、公開する。4万以上の公的機関からなる、ギリシャの立法資源を分類する。 このデータセットを実験し、従来の機械学習やRNNベースの手法から最先端のTransformerベースの手法まで、高度な手法と分類器の電池評価を行う。 ドメイン固有の単語埋め込みを持つ繰り返しアーキテクチャは、トランスフォーマーベースのモデルに対してさえ競合しながら、全体的なパフォーマンスを改善していることを示す。 最後に,多言語・単言語トランスフォーマーを用いたモデルが分類器のランキングの上位に現れることを示し,母語規則として単言語トランスフォーメーション学習モデルの訓練の必要性を疑問視する。 我々の知る限りでは、ギリシャ語法テキスト分類のタスクがオープンな研究プロジェクトで検討されたのはこれが初めてであり、ギリシャ語は一般に非常に限られたNLP資源を持つ言語でもある。

In this work, we study the task of classifying legal texts written in the Greek language. We introduce and make publicly available a novel dataset based on Greek legislation, consisting of more than 47 thousand official, categorized Greek legislation resources. We experiment with this dataset and evaluate a battery of advanced methods and classifiers, ranging from traditional machine learning and RNN-based methods to state-of-the-art Transformer-based methods. We show that recurrent architectures with domain-specific word embeddings offer improved overall performance while being competitive even to transformer-based models. Finally, we show that cutting-edge multilingual and monolingual transformer-based models brawl on the top of the classifiers' ranking, making us question the necessity of training monolingual transfer learning models as a rule of thumb. To the best of our knowledge, this is the first time the task of Greek legal text classification is considered in an open research project, while also Greek is a language with very limited NLP resources in general.
翻訳日:2021-10-01 16:12:35 公開日:2021-09-30
# (参考訳) 強化学習ファインチューニングによるスケーラブルオンラインプランニング [全文訳有]

Scalable Online Planning via Reinforcement Learning Fine-Tuning ( http://arxiv.org/abs/2109.15316v1 )

ライセンス: CC BY 4.0
Arnaud Fickinger, Hengyuan Hu, Brandon Amos, Stuart Russell, Noam Brown(参考訳) ルックアヘッド検索は、チェス、ゴー、ポーカーといった最近のAIの成功の重要な要素である。 しかし、これらのゲームや他の多くの設定で使用される検索方法は表形式である。 表状探索法は探索空間の大きさほどスケールしないため、確率性と部分的可観測性によってこの問題は悪化する。 本研究では、グラフ検索を強化学習によるポリシーニューラルネットワークのオンラインモデルに基づく微調整に置き換え、この手法がベンチマーク設定における最先端の検索アルゴリズムよりも優れていることを示す。 特に,我々は検索アルゴリズムを用いて,ハナビの自己演奏における新たな最先端結果を実現するとともに,AtariゲームMs. Pacmanの表探索よりも優れていることを示すことで,アルゴリズムの一般性を示す。

Lookahead search has been a critical component of recent AI successes, such as in the games of chess, go, and poker. However, the search methods used in these games, and in many other settings, are tabular. Tabular search methods do not scale well with the size of the search space, and this problem is exacerbated by stochasticity and partial observability. In this work we replace tabular search with online model-based fine-tuning of a policy neural network via reinforcement learning, and show that this approach outperforms state-of-the-art search algorithms in benchmark settings. In particular, we use our search algorithm to achieve a new state-of-the-art result in self-play Hanabi, and show the generality of our algorithm by also showing that it outperforms tabular search in the Atari game Ms. Pacman.
翻訳日:2021-10-01 15:47:14 公開日:2021-09-30
# テストベース構成分析のためのコントラスト訓練

Focused Contrastive Training for Test-based Constituency Analysis ( http://arxiv.org/abs/2109.15159v1 )

ライセンス: Link先を確認
Benjamin Roth, Erion \c{C}ano(参考訳) 言語検査に基づく構成分析のための文法モデルの自己学習手法を提案する。 事前学習された言語モデルは、コーパスから文法文を対比的に推定し、構文テストによって乱される非文法文によって微調整される。 テスト変換の結果になるかどうかによって、トレーニングにポジティブなインスタンスだけを選んだ場合、一貫性のあるゲインが達成できることを示した。 このようにして、正と負は同じ特性を示し、これは言語モデルにとって目標をより困難にし、また文内のテストアプリケーションの位置を示す追加のマークアップを可能にする。

We propose a scheme for self-training of grammaticality models for constituency analysis based on linguistic tests. A pre-trained language model is fine-tuned by contrastive estimation of grammatical sentences from a corpus, and ungrammatical sentences that were perturbed by a syntactic test, a transformation that is motivated by constituency theory. We show that consistent gains can be achieved if only certain positive instances are chosen for training, depending on whether they could be the result of a test transformation. This way, the positives, and negatives exhibit similar characteristics, which makes the objective more challenging for the language model, and also allows for additional markup that indicates the position of the test application within the sentence.
翻訳日:2021-10-01 15:10:19 公開日:2021-09-30
# 補助シーケンス予測課題によるトランスフォーマの合成汎化能力の誘導

Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks ( http://arxiv.org/abs/2109.15256v1 )

ライセンス: Link先を確認
Yichen Jiang, Mohit Bansal(参考訳) 体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。 しかし、既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。 コマンドをアクションにパースする必要があるscan compositionality challenge (lake and baroni, 2018) におけるトランスフォーマティブモデルの失敗に動機づけられ、追加のトレーニング監督として、関数と引数の意味論の進行を追跡する2つの補助シーケンス予測タスクを提案する。 これらの自動生成シーケンスは、入力データの構成要素的シンボリック構造のより代表的である。 推論中、モデルは各ステップの補助シーケンスにおける次のアクションと次のトークンを共同で予測する。 SCANデータセットの実験では、我々の手法はトランスフォーマーがコマンドの構成構造を理解し、その精度を<=10%から100%に向上させることが示されている。 トレーニングインスタンスは418(5%)に過ぎませんが、MCD1スプリットの精度は97.8%です。 したがって、最小でも適切なガイダンスを与えるトランスフォーマーでは、構成性が引き起こされる。 また、より少ない文脈化されたベクトルを注目のクエリとして利用し、体系的な構成性を達成するためのアーキテクチャ選択に関する洞察を提供する。 最後に, groundedscan task (ruis et al., 2020) において正の一般化結果を示す。 私たちのコードは、https://github.com/j iangycTarheel/compos itional-auxseqで公開されています。

Systematic compositionality is an essential mechanism in human language, allowing the recombination of known parts to create novel expressions. However, existing neural models have been shown to lack this basic ability in learning symbolic structures. Motivated by the failure of a Transformer model on the SCAN compositionality challenge (Lake and Baroni, 2018), which requires parsing a command into actions, we propose two auxiliary sequence prediction tasks that track the progress of function and argument semantics, as additional training supervision. These automatically-genera ted sequences are more representative of the underlying compositional symbolic structures of the input data. During inference, the model jointly predicts the next action and the next tokens in the auxiliary sequences at each step. Experiments on the SCAN dataset show that our method encourages the Transformer to understand compositional structures of the command, improving its accuracy on multiple challenging splits from <= 10% to 100%. With only 418 (5%) training instances, our approach still achieves 97.8% accuracy on the MCD1 split. Therefore, we argue that compositionality can be induced in Transformers given minimal but proper guidance. We also show that a better result is achieved using less contextualized vectors as the attention's query, providing insights into architecture choices in achieving systematic compositionality. Finally, we show positive generalization results on the groundedSCAN task (Ruis et al., 2020). Our code is publicly available at: https://github.com/j iangycTarheel/compos itional-auxseq
翻訳日:2021-10-01 15:10:06 公開日:2021-09-30
# 時間知覚ニューラルネットワークを用いたイベント認識のためのビデオデータのワークフロー強化

Workflow Augmentation of Video Data for Event Recognition with Time-Sensitive Neural Networks ( http://arxiv.org/abs/2109.15063v1 )

ライセンス: Link先を確認
Andreas Wachter and Werner Nahm(参考訳) ニューラルネットワークの教師付きトレーニングには、大きく、多様で、注釈付きのデータセットが必要である。 医学分野では、時間の制約、専門家の知識、イベントの流行のために、これは達成することがしばしば困難である。 人工的なデータ拡張は、レアイベントの検出と全体的なパフォーマンスの過度な適合を防止するのに役立つ。 しかし、ほとんどの拡張技術は純粋に空間変換を用いるが、時間相関のあるビデオデータには不十分である。 本稿では,新しいワークフロー拡張法を提案し,白内障手術におけるイベント認識に有用であることを示す。 提案手法は,人工映像作成によるイベント交代の頻度を増加させる。 オリジナルのビデオはイベントセグメントに分割され、元のアノテーションからワークフローグラフが抽出される。 最後に、セグメントはワークフローグラフに基づいて新しいビデオに組み立てられる。 オリジナルビデオと比較して,拡張白内障手術ビデオのイベント交代頻度は26%増加した。 さらに,最先端アプローチと比較して,分類精度が3%,精度が7.8%向上した。 当社のアプローチは,まれだが重要な事象の発生を増加させる上で特に有用であり,多種多様なユースケースに適用できる。

Supervised training of neural networks requires large, diverse and well annotated data sets. In the medical field, this is often difficult to achieve due to constraints in time, expert knowledge and prevalence of an event. Artificial data augmentation can help to prevent overfitting and improve the detection of rare events as well as overall performance. However, most augmentation techniques use purely spatial transformations, which are not sufficient for video data with temporal correlations. In this paper, we present a novel methodology for workflow augmentation and demonstrate its benefit for event recognition in cataract surgery. The proposed approach increases the frequency of event alternation by creating artificial videos. The original video is split into event segments and a workflow graph is extracted from the original annotations. Finally, the segments are assembled into new videos based on the workflow graph. Compared to the original videos, the frequency of event alternation in the augmented cataract surgery videos increased by 26%. Further, a 3% higher classification accuracy and a 7.8% higher precision was achieved compared to a state-of-the-art approach. Our approach is particularly helpful to increase the occurrence of rare but important events and can be applied to a large variety of use cases.
翻訳日:2021-10-01 15:09:18 公開日:2021-09-30
# action-appearance aligned meta-adaptation による教師なし少数ショット動作認識

Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned Meta-Adaptation ( http://arxiv.org/abs/2109.15317v1 )

ライセンス: Link先を確認
Jay Patravali, Gaurav Mittal, Ye Yu, Fuxin Li, Mei Chen(参考訳) metauvfsは,ビデオマイトショット動作認識のための最初の教師なしメタラーニングアルゴリズムである。 MetaUVFSは550K以上のラベル付きビデオを利用して、2ストリームの2Dと3DのCNNアーキテクチャを対照的な学習によって訓練し、それぞれ外見固有の空間的特徴とアクション固有の時空間的特徴をキャプチャする。 metauvfs は新たな action-appearance aligned meta-adaptation (a3m) モジュールで構成されており、教師なしのハードマインドエピソードにおける明示的な少数ショットのエピソディックメタラーニングを通じて、アクション指向のビデオ機能に焦点を当てることを学ぶ。 我々のアクション・アライメントと明示的な数ショット学習者は、下流の数ショットタスクを模倣するために教師なしの訓練を条件付け、MetaUVFSは教師なしのすべてのメソッドを数ショットのベンチマークで大幅に上回ります。 さらに、従来の数発のアクション認識方法とは異なり、MetaUVFSはベースクラスラベルも教師付き事前訓練されたバックボーンも必要としない。 したがって、私たちはMetaUVFSを一度トレーニングして、人気の高いHMDB51、UCF101、Kinetics100のショットデータセット上で、競争力のある、あるいは時には最先端の教師付き手法を上回ります。

We present MetaUVFS as the first Unsupervised Meta-learning algorithm for Video Few-Shot action recognition. MetaUVFS leverages over 550K unlabeled videos to train a two-stream 2D and 3D CNN architecture via contrastive learning to capture the appearance-specific spatial and action-specific spatio-temporal video features respectively. MetaUVFS comprises a novel Action-Appearance Aligned Meta-adaptation (A3M) module that learns to focus on the action-oriented video features in relation to the appearance features via explicit few-shot episodic meta-learning over unsupervised hard-mined episodes. Our action-appearance alignment and explicit few-shot learner conditions the unsupervised training to mimic the downstream few-shot task, enabling MetaUVFS to significantly outperform all unsupervised methods on few-shot benchmarks. Moreover, unlike previous few-shot action recognition methods that are supervised, MetaUVFS needs neither base-class labels nor a supervised pretrained backbone. Thus, we need to train MetaUVFS just once to perform competitively or sometimes even outperform state-of-the-art supervised methods on popular HMDB51, UCF101, and Kinetics100 few-shot datasets.
翻訳日:2021-10-01 15:09:03 公開日:2021-09-30
# CrossAug: Fact Verification Modelのデバイアスのためのコントラストデータ拡張手法

CrossAug: A Contrastive Data Augmentation Method for Debiasing Fact Verification Models ( http://arxiv.org/abs/2109.15107v1 )

ライセンス: Link先を確認
Minwoo Lee, Seungpil Won, Juae Kim, Hwanhee Lee, Cheoneum Park, Kyomin Jung(参考訳) 事実検証データセットは通常、ベラシティラベルを持つテキストソースがないため、クラウドソーシング技術を使用して構築される。 しかし、クラウドソーシングプロセスは、しばしばデータに望ましくないバイアスを生じさせ、モデルが急激なパターンを学習させる。 本稿では,事実検証モデルのデバイアス化のためのデータ拡張手法であるCrossAugを提案する。 具体的には、既存のサンプルから新たなクレームや証拠を生成するために、2段階の増補パイプラインを使用します。 生成されたサンプルは、元のペアと交差してペアリングされ、モデルのスプリアスパターンへの依存を減らし、より堅牢な表現を学ぶための対照的なサンプルを形成する。 実験結果から,本手法は, FEVERデータセットのデバイアス化拡張において, 従来技術のデバイアス化技術よりも3.6%向上し, ベースラインから10.13%向上した。 さらに,トレーニングデータの欠如により,モデルがバイアスの影響を受けやすいデータキャリア設定におけるアプローチを評価した。 実験の結果,本手法はこれらの低リソース条件下でのデバイアス化にも有効であり,Symmetricデータセットのベースライン性能を1%に抑えることができた。

Fact verification datasets are typically constructed using crowdsourcing techniques due to the lack of text sources with veracity labels. However, the crowdsourcing process often produces undesired biases in data that cause models to learn spurious patterns. In this paper, we propose CrossAug, a contrastive data augmentation method for debiasing fact verification models. Specifically, we employ a two-stage augmentation pipeline to generate new claims and evidences from existing samples. The generated samples are then paired cross-wise with the original pair, forming contrastive samples that facilitate the model to rely less on spurious patterns and learn more robust representations. Experimental results show that our method outperforms the previous state-of-the-art debiasing technique by 3.6% on the debiased extension of the FEVER dataset, with a total performance boost of 10.13% from the baseline. Furthermore, we evaluate our approach in data-scarce settings, where models can be more susceptible to biases due to the lack of training data. Experimental results demonstrate that our approach is also effective at debiasing in these low-resource conditions, exceeding the baseline performance on the Symmetric dataset with just 1% of the original data.
翻訳日:2021-10-01 15:08:26 公開日:2021-09-30
# 簡単にはつかめない: 物体検出のための低検出可能な逆境パッチ

You Cannot Easily Catch Me: A Low-Detectable Adversarial Patch for Object Detectors ( http://arxiv.org/abs/2109.15177v1 )

ライセンス: Link先を確認
Zijian Zhu, Hang Su, Chang Liu, Wenzhao Xiang and Shibao Zheng(参考訳) 盲点やまったくの誤認は、機械学習モデルを悪用し、欺く可能性がある。 デジタル「ステッカー」や「敵のパッチ」などの特定されていない物体は、顔認識システム、監視システム、自動運転車を騙すことができる。 幸いなことに、既存のほとんどの逆パッチは、逆パッチ検出器と呼ばれる単純な分類ネットワークによって、外され、無効になり、拒否される。 物体検出器は、モーターサイクリストとオートバイとを区別するなど、画像内の物体の種類を分類し、予測すると同時に、画像内の各物体の配置を「描画」して各物体にバウンディングボックスを配置し、再びモーターサイクリストとオートバイとを分離する。 しかし、検知器をもっとよく訓練するためには、モデルの盲点を探索するときに混乱または偽りの敵のパッチを被る必要がある。 このような探索のために、我々は、小さくてテクスチャに一貫性のある対向パッチを持つ物体検出器を攻撃し、これらの対向が認識されにくくする新しいアプローチ、低検出可能な対向パッチを考案した。 具体的には,いくつかの幾何学的プリミティブを用いてパッチの形状と位置をモデル化する。 また,攻撃性能を向上させるために,損失関数の点で異なる重み付けをバウンディングボックスに割り当てる。 共通検出データセットCOCOと駆動画像データセットD2-Cityを用いた実験により,LDAPは効果的な攻撃法であり,対向パッチ検出に抵抗できることが示された。

Blind spots or outright deceit can bedevil and deceive machine learning models. Unidentified objects such as digital "stickers," also known as adversarial patches, can fool facial recognition systems, surveillance systems and self-driving cars. Fortunately, most existing adversarial patches can be outwitted, disabled and rejected by a simple classification network called an adversarial patch detector, which distinguishes adversarial patches from original images. An object detector classifies and predicts the types of objects within an image, such as by distinguishing a motorcyclist from the motorcycle, while also localizing each object's placement within the image by "drawing" so-called bounding boxes around each object, once again separating the motorcyclist from the motorcycle. To train detectors even better, however, we need to keep subjecting them to confusing or deceitful adversarial patches as we probe for the models' blind spots. For such probes, we came up with a novel approach, a Low-Detectable Adversarial Patch, which attacks an object detector with small and texture-consistent adversarial patches, making these adversaries less likely to be recognized. Concretely, we use several geometric primitives to model the shapes and positions of the patches. To enhance our attack performance, we also assign different weights to the bounding boxes in terms of loss function. Our experiments on the common detection dataset COCO as well as the driving-video dataset D2-City show that LDAP is an effective attack method, and can resist the adversarial patch detector.
翻訳日:2021-10-01 15:08:04 公開日:2021-09-30
# DOME活性化機能の紹介

Introducing the DOME Activation Functions ( http://arxiv.org/abs/2109.14798v1 )

ライセンス: Link先を確認
Mohamed E. Hussein and Wael AbdAlmageed(参考訳) 本稿では,ニューラルネットワークの埋め込み空間におけるクラスコンパクト性と正規化を自然に誘導する非線形活性化関数を提案する。 この関数はDOME of Mirrored Exponentialという用語で呼ばれる。 この関数の基本形は、二項分類問題に対する出力活性化関数としてシグモイドあるいは双曲接形関数を置き換えることができる。 この関数は、多クラス分類の場合にも拡張でき、標準のsoftmax関数の代替として使うことができる。 さらに、ネットワークの中間層に適したより柔軟な形状を取るように一般化することもできる。 この記事のこのバージョンでは、概念のみを紹介します。 その後のバージョンでは、実験的評価が追加される。

In this paper, we introduce a novel non-linear activation function that spontaneously induces class-compactness and regularization in the embedding space of neural networks. The function is dubbed DOME for Difference Of Mirrored Exponential terms. The basic form of the function can replace the sigmoid or the hyperbolic tangent functions as an output activation function for binary classification problems. The function can also be extended to the case of multi-class classification, and used as an alternative to the standard softmax function. It can also be further generalized to take more flexible shapes suitable for intermediate layers of a network. In this version of the paper, we only introduce the concept. In a subsequent version, experimental evaluation will be added.
翻訳日:2021-10-01 15:06:39 公開日:2021-09-30
# 古典的計画のための強化学習--密集型報酬生成器としてのヒューリスティックス観

Reinforcement Learning for Classical Planning: Viewing Heuristics as Dense Reward Generators ( http://arxiv.org/abs/2109.14830v1 )

ライセンス: Link先を確認
Clement Gehring, Masataro Asai, Rohan Chitnis, Tom Silver, Leslie Pack Kaelbling, Shirin Sohrabi, Michael Katz(参考訳) 近年の強化学習(RL)は、古典的な計画領域にRLを適用することや、複雑なRLドメインに古典的な計画手法を適用することへの関心が高まっている。 しかし、古典的な計画に見られる長いホリゾンの目標ベースの問題は、rlに対する報酬を分散させ、直接のアプリケーション効率を損なう。 本稿では,RLのサンプル効率を向上させるために,古典的計画文献でよく用いられるドメイン非依存ヒューリスティック関数を活用することを提案する。 これらの古典的ヒューリスティックは、スパース・リワード問題を緩和し、RLエージェントがこれらのヒューリスティックの残余としてドメイン固有の値関数を学習し、学習を容易にするために、密度の高い報酬生成器として機能する。 この手法の正しい応用には、RLで使われる割引計量とヒューリスティックスで使われる非割引計量を統合する必要がある。 我々は,一階述語論理入力のためのニューラルネットワークアーキテクチャであるNeural Logic Machinesを用いて,値関数を実装した。 いくつかの古典的計画領域において、古典的ヒューリスティックスを用いて RL をスパース・リワード RL と比較してよいサンプル効率が得られることを示す。 さらに、学習した値関数が同一領域における新しい問題インスタンスに一般化されることを示す。

Recent advances in reinforcement learning (RL) have led to a growing interest in applying RL to classical planning domains or applying classical planning methods to some complex RL domains. However, the long-horizon goal-based problems found in classical planning lead to sparse rewards for RL, making direct application inefficient. In this paper, we propose to leverage domain-independent heuristic functions commonly used in the classical planning literature to improve the sample efficiency of RL. These classical heuristics act as dense reward generators to alleviate the sparse-rewards issue and enable our RL agent to learn domain-specific value functions as residuals on these heuristics, making learning easier. Correct application of this technique requires consolidating the discounted metric used in RL and the non-discounted metric used in heuristics. We implement the value functions using Neural Logic Machines, a neural network architecture designed for grounded first-order logic inputs. We demonstrate on several classical planning domains that using classical heuristics for RL allows for good sample efficiency compared to sparse-reward RL. We further show that our learned value functions generalize to novel problem instances in the same domain.
翻訳日:2021-10-01 15:06:30 公開日:2021-09-30
# LIFE:多変量時系列予測のための個々の特徴を学習する

LIFE: Learning Individual Features for Multivariate Time Series Prediction with Missing Values ( http://arxiv.org/abs/2109.14844v1 )

ライセンス: Link先を確認
Zhao-Yu Zhang, Shao-Qun Zhang, Yuan Jiang, and Zhi-Hua Zhou(参考訳) 多変量時系列(MTS)予測は実世界のフィールドでは至るところに存在するが、MSSデータには欠落する値がしばしば含まれている。 近年、mtsの欠落した値を扱うためにエンドツーエンドモデルを使うことへの関心が高まっている。 予測のための特徴を生成するため、既存の手法はMTSの全ての入力次元をマージするか、個別に各入力次元に取り組む。 しかし、どちらの手法も、通常、前者は信頼できない特徴を多く生み出し、後者は相関情報を欠いているため、うまく機能しない。 本稿では,mts予測に欠落した値を用いた新しいパラダイムを提供する,個人機能(life)フレームワークの学習を提案する。 LIFEは、相関次元を補助情報として利用し、非相関次元からの干渉を抑制することにより、予測のための信頼性の高い特徴を生成する。 3つの実世界のデータセットの実験は、既存の最先端モデルに対するLIFEの優位性を検証する。

Multivariate time series (MTS) prediction is ubiquitous in real-world fields, but MTS data often contains missing values. In recent years, there has been an increasing interest in using end-to-end models to handle MTS with missing values. To generate features for prediction, existing methods either merge all input dimensions of MTS or tackle each input dimension independently. However, both approaches are hard to perform well because the former usually produce many unreliable features and the latter lacks correlated information. In this paper, we propose a Learning Individual Features (LIFE) framework, which provides a new paradigm for MTS prediction with missing values. LIFE generates reliable features for prediction by using the correlated dimensions as auxiliary information and suppressing the interference from uncorrelated dimensions with missing values. Experiments on three real-world data sets verify the superiority of LIFE to existing state-of-the-art models.
翻訳日:2021-10-01 15:06:04 公開日:2021-09-30
# 協調型多エージェント深層強化学習のためのプライバシー保護分散学習フレームワーク

A Privacy-preserving Distributed Training Framework for Cooperative Multi-agent Deep Reinforcement Learning ( http://arxiv.org/abs/2109.14998v1 )

ライセンス: Link先を確認
Yimin Shi(参考訳) 深層強化学習(Dep Reinforcement Learning, DRL)は、訓練手順に収束するために大量のデータを必要とする場合があり、場合によってはエージェントの各アクションが後悔を引き起こすことがある。 この障壁は、異なるデータセットや環境所有者が協力して知識を共有し、エージェントをより効率的に訓練する動機となる。 しかし、異なる所有者からの生データを直接マージすれば、プライバシーの懸念が高まる。 この問題を解決するため,グローバルNNとローカルNNを併用した新しいディープニューラルネットワーク(DNN)アーキテクチャと,分散トレーニングフレームワークを提案する。 局所的な重み付けは所属するエージェントによってのみ更新されるが、グローバル重み付けはすべての協力エージェントによって更新される。 この方法では、グローバルウェイトがこれらの協力者の間で共通の知識を共有し、ローカルnnが特別なプロパティを保持し、エージェントが特定の環境と互換性を持つことを保証できることを期待します。 実験によると、このフレームワークは、同一または類似の環境のエージェントがトレーニングプロセスで協力し、より高い収束率とパフォーマンスを得るのに効率的に役立つ。

Deep Reinforcement Learning (DRL) sometimes needs a large amount of data to converge in the training procedure and in some cases, each action of the agent may produce regret. This barrier naturally motivates different data sets or environment owners to cooperate to share their knowledge and train their agents more efficiently. However, it raises privacy concerns if we directly merge the raw data from different owners. To solve this problem, we proposed a new Deep Neural Network (DNN) architecture with both global NN and local NN, and a distributed training framework. We allow the global weights to be updated by all the collaborator agents while the local weights are only updated by the agent they belong to. In this way, we hope the global weighs can share the common knowledge among these collaborators while the local NN can keep the specialized properties and ensure the agent to be compatible with its specific environment. Experiments show that the framework can efficiently help agents in the same or similar environments to collaborate in their training process and gain a higher convergence rate and better performance.
翻訳日:2021-10-01 15:05:46 公開日:2021-09-30
# 解釈可能な分類のためのスケーラブルなルールベース表現学習

Scalable Rule-Based Representation Learning for Interpretable Classification ( http://arxiv.org/abs/2109.15103v1 )

ライセンス: Link先を確認
Zhuo Wang, Wei Zhang, Ning Liu, Jianyong Wang(参考訳) 規則に基づくモデル、例えば決定木は、透明な内部構造と優れたモデル表現性のために高いモデル解釈性を必要とするシナリオで広く使われている。 しかし、ルールベースのモデルは、特に大きなデータセットでは、個々のパラメータや構造のために最適化が難しい。 アンサンブルメソッドとファジィ/ソフトルールは一般的にパフォーマンスを改善するために使用されるが、モデルの解釈性を犠牲にしている。 スケーラビリティと解釈性の両方を得るために,データ表現と分類のための解釈不能なルールを自動的に学習する,ルールベース表現学習器(rrl)という新しい分類器を提案する。 非微分可能rrlを効果的に訓練するために、連続空間に投影し、勾配降下を用いて離散モデルを直接最適化できる勾配グラフトと呼ばれる新しい訓練方法を提案する。 論理活性化関数の設計も改良され、rrlのスケーラビリティが向上し、エンドツーエンドの連続的な特徴を識別できるようになった。 9つの小さなデータセットと4つの大きなデータセットの探索実験により、RRLは競争的解釈可能なアプローチよりも優れており、異なるシナリオにおける分類精度とモデルの複雑さのトレードオフを得るために容易に調整できることを示した。 私たちのコードは以下の通りです。

Rule-based models, e.g., decision trees, are widely used in scenarios demanding high model interpretability for their transparent inner structures and good model expressivity. However, rule-based models are hard to optimize, especially on large data sets, due to their discrete parameters and structures. Ensemble methods and fuzzy/soft rules are commonly used to improve performance, but they sacrifice the model interpretability. To obtain both good scalability and interpretability, we propose a new classifier, named Rule-based Representation Learner (RRL), that automatically learns interpretable non-fuzzy rules for data representation and classification. To train the non-differentiable RRL effectively, we project it to a continuous space and propose a novel training method, called Gradient Grafting, that can directly optimize the discrete model using gradient descent. An improved design of logical activation functions is also devised to increase the scalability of RRL and enable it to discretize the continuous features end-to-end. Exhaustive experiments on nine small and four large data sets show that RRL outperforms the competitive interpretable approaches and can be easily adjusted to obtain a trade-off between classification accuracy and model complexity for different scenarios. Our code is available at: https://github.com/1 2wang3/rrl.
翻訳日:2021-10-01 15:04:47 公開日:2021-09-30
# 情報理論による強化学習

Reinforcement Learning with Information-Theoreti c Actuation ( http://arxiv.org/abs/2109.15147v1 )

ライセンス: Link先を確認
Elliot Catt, Marcus Hutter, Joel Veness(参考訳) 強化学習(Reinforcement Learning)は、観察、報酬、行動を通じて環境との相互作用を定式化する。 しかし、アクションはどこから来るのか? アクションは、手足の動き、チェスの駒、あるいはより一般的にはアクチュエータの出力など、外部の何かを表すものと見なされることが多い。 この研究では、対照的な見解、すなわちアクションモデルに対する内部選択の系列の出力として、アクションが最もよく考えられていることを探求し、定式化する。 この考え方は、大規模シーケンスモデルの最近の進歩をマルチタスク強化学習問題の事前知識として活用するのに特に適している。 本研究の主な貢献は、情報理論技術を用いて内部行動のシーケンシャルな概念を用いて、標準のMDPフォーマリズムを強化する方法を示し、これが内部行動値関数と外部行動値関数の自己整合性定義につながることを示すことである。

Reinforcement Learning formalises an embodied agent's interaction with the environment through observations, rewards and actions. But where do the actions come from? Actions are often considered to represent something external, such as the movement of a limb, a chess piece, or more generally, the output of an actuator. In this work we explore and formalize a contrasting view, namely that actions are best thought of as the output of a sequence of internal choices with respect to an action model. This view is particularly well-suited for leveraging the recent advances in large sequence models as prior knowledge for multi-task reinforcement learning problems. Our main contribution in this work is to show how to augment the standard MDP formalism with a sequential notion of internal action using information-theoreti c techniques, and that this leads to self-consistent definitions of both internal and external action value functions.
翻訳日:2021-10-01 15:04:25 公開日:2021-09-30
# 時空間風速予測のための多スケールグラフウェーブネット

Multi Scale Graph Wavenet for Spatio-temporal Wind Speed Forecasting ( http://arxiv.org/abs/2109.15239v1 )

ライセンス: Link先を確認
Neetesh Rathore, Pradeep Rathore, Arghya Basak, Sri Harsha Nistala, Venkataramana Runkana(参考訳) 幾何学的深層学習は、任意の構造を表現する本質的な能力のため、学術と産業の両方で大きな注目を集めている。 再生可能エネルギー、特に風力エネルギーへの関心が指数関数的に高まり、正確な風速予測は非常に重要になっている。 . 本稿では,風速予測のための新しいディープラーニングアーキテクチャであるマルチスケールグラフウェーブネットを提案する。 グラフ畳み込みニューラルネットワークに基づき、風速予測のための多変量時系列気象データにおける空間的・時間的関係をキャプチャする。 特に,拡張畳み込みやスキップ接続,インセプションネットワークから着想を得て,時間的関係とグラフ畳み込みネットワークを捉え,空間的関係を捉えた。 デンマークの異なる都市で観測された実風速データについて実験を行い,最先端のベースラインモデルと比較した。 我々の新しいアーキテクチャは、複数の予測地平線に対する風速予測の最先端手法を4-5%向上させた。

Geometric deep learning has gained tremendous attention in both academia and industry due to its inherent capability of representing arbitrary structures. Due to exponential increase in interest towards renewable sources of energy, especially wind energy, accurate wind speed forecasting has become very important. . In this paper, we propose a novel deep learning architecture, Multi Scale Graph Wavenet for wind speed forecasting. It is based on a graph convolutional neural network and captures both spatial and temporal relationships in multivariate time series weather data for wind speed forecasting. We especially took inspiration from dilated convolutions, skip connections and the inception network to capture temporal relationships and graph convolutional networks for capturing spatial relationships in the data. We conducted experiments on real wind speed data measured at different cities in Denmark and compared our results with the state-of-the-art baseline models. Our novel architecture outperformed the state-of-the-art methods on wind speed forecasting for multiple forecast horizons by 4-5%.
翻訳日:2021-10-01 15:04:11 公開日:2021-09-30
# アタリの幅ベースプランニングとアクティブラーニング

Width-Based Planning and Active Learning for Atari ( http://arxiv.org/abs/2109.15310v1 )

ライセンス: Link先を確認
Benjamin Ayton, Masataro Asai(参考訳) ワイドベースの計画では,Atari 2600ゲームにおいて,画素入力を用いた場合,強化学習よりも環境相互作用が著しく少ない。 近年のワイドベースアプローチでは,ゲーム画面上でトレーニングされた手書き特徴セットや変分オートエンコーダ(VAE),検索中に新しい特徴を持たないプルースクリーンを用いて,各画面の特徴ベクトルを計算している。 本稿では,VAEの幅計画における特徴の不確実性について考察する。 私たちの主な貢献は、計画中に観察される画面の有用性を最大化するアクティブラーニングの導入である。 実験結果から,アクティブな学習戦略を用いることで,環境相互作用の数に等しい幅に基づくアプローチに比べてゲームプレイスコアが増加することが示された。

Width-based planning has shown promising results on Atari 2600 games using pixel input, while using substantially fewer environment interactions than reinforcement learning. Recent width-based approaches have computed feature vectors for each screen using a hand designed feature set or a variational autoencoder (VAE) trained on game screens, and prune screens that do not have novel features during the search. In this paper, we explore consideration of uncertainty in features generated by a VAE during width-based planning. Our primary contribution is the introduction of active learning to maximize the utility of screens observed during planning. Experimental results demonstrate that use of active learning strategies increases gameplay scores compared to alternative width-based approaches with equal numbers of environment interactions.
翻訳日:2021-10-01 15:03:55 公開日:2021-09-30
# 一般化階層的非負テンソル分解

A Generalized Hierarchical Nonnegative Tensor Decomposition ( http://arxiv.org/abs/2109.14820v1 )

ライセンス: Link先を確認
Joshua Vendrow, Jamie Haddock, Deanna Needell(参考訳) 非負行列分解(NMF)は、トピックモデリングや文書解析を含む多くの応用を見出した。 階層的nmf(hnmf)変種は、様々な粒度でトピックを学習し、その階層的関係を示すことができる。 近年、複雑なマルチモーダル構造を持つデータセットを扱うために、非負のテンソル分解法(NTF)が同様の方法で適用されている。 階層的 NTF (HNTF) 法が提案されているが、これらの手法は行列ベースの手法を自然に一般化するものではない。 本稿では、hnmfモデルの特別ケースを直接一般化し、教師付き拡張を提供する新しいhntfモデルを提案する。 また,本モデルに対する乗算更新訓練手法を提案する。 実験の結果,本モデルは従来のHNMF法やHNTF法よりも自然にトピック階層を照らしていることがわかった。

Nonnegative matrix factorization (NMF) has found many applications including topic modeling and document analysis. Hierarchical NMF (HNMF) variants are able to learn topics at various levels of granularity and illustrate their hierarchical relationship. Recently, nonnegative tensor factorization (NTF) methods have been applied in a similar fashion in order to handle data sets with complex, multi-modal structure. Hierarchical NTF (HNTF) methods have been proposed, however these methods do not naturally generalize their matrix-based counterparts. Here, we propose a new HNTF model which directly generalizes a HNMF model special case, and provide a supervised extension. We also provide a multiplicative updates training method for this model. Our experimental results show that this model more naturally illuminates the topic hierarchy than previous HNMF and HNTF methods.
翻訳日:2021-10-01 15:03:24 公開日:2021-09-30
# ニューラルネットワークによるグラフリンク予測の改善

How Neural Processes Improve Graph Link Prediction ( http://arxiv.org/abs/2109.14894v1 )

ライセンス: Link先を確認
Huidong Liang and Junbin Gao(参考訳) リンク予測はグラフデータ解析における基本的な問題である。 文献の多くは、学習において全てのグラフノードと大多数のリンクを必要とするトランスダクティブリンク予測に焦点を当てているが、訓練においてノードの比率とリンクのみを使用するインダクティブリンク予測は、様々な現実のアプリケーションにおいてより難しい問題である。 本稿では,グラフニューラルネットワークを用いたメタラーニング手法を提案する: グラフニューラルネットワークのためのニューラルプロセス(NPGNN)。 実世界のグラフ実験により,提案手法が他の最先端モデルと比較して高い性能を達成し,一方,小さなサブグラフ上でのトレーニングではよく一般化することが示唆された。

Link prediction is a fundamental problem in graph data analysis. While most of the literature focuses on transductive link prediction that requires all the graph nodes and majority of links in training, inductive link prediction, which only uses a proportion of the nodes and their links in training, is a more challenging problem in various real-world applications. In this paper, we propose a meta-learning approach with graph neural networks for link prediction: Neural Processes for Graph Neural Networks (NPGNN), which can perform both transductive and inductive learning tasks and adapt to patterns in a large new graph after training with a small subgraph. Experiments on real-world graphs are conducted to validate our model, where the results suggest that the proposed method achieves stronger performance compared to other state-of-the-art models, and meanwhile generalizes well when training on a small subgraph.
翻訳日:2021-10-01 15:03:09 公開日:2021-09-30
# 変分縁粒子フィルタ

Variational Marginal Particle Filters ( http://arxiv.org/abs/2109.15134v1 )

ライセンス: Link先を確認
Jinlin Lai, Daniel Sheldon, Justin Domke(参考訳) 状態空間モデル(SSM)の変分推論は一般に難しいことが知られている。 最近の研究は、不偏連続モンテカルロ推定器からSSMの変動目標を導出することに焦点を当てている。 そこで本研究では,ラオ黒色化演算を適用した逐次モンテカルロから限界粒子フィルタを求め,軌道情報を犠牲にして分散と微分性を低減した。 本研究では,不偏推定器に基づくSSMの微分可能かつ再パラメータ化可能な変分フィルタである変分境界粒子フィルタ(VMPF)を提案する。 偏りのあるVMPFは、以前の目的よりも厳密な境界を与え、偏りのない再パラメータ化勾配は、しばしば有益である。

Variational inference for state space models (SSMs) is known to be hard in general. Recent works focus on deriving variational objectives for SSMs from unbiased sequential Monte Carlo estimators. We reveal that the marginal particle filter is obtained from sequential Monte Carlo by applying Rao-Blackwellization operations, which sacrifices the trajectory information for reduced variance and differentiability. We propose the variational marginal particle filter (VMPF), which is a differentiable and reparameterizable variational filtering objective for SSMs based on an unbiased estimator. We find that VMPF with biased gradients gives tighter bounds than previous objectives, and the unbiased reparameterization gradients are sometimes beneficial.
翻訳日:2021-10-01 15:02:53 公開日:2021-09-30
# 連続環境における視覚・言語ナビゲーションのためのLanguage-Aligned Waypoint (LAW) スーパービジョン

Language-Aligned Waypoint (LAW) Supervision for Vision-and-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2109.15207v1 )

ライセンス: Link先を確認
Sonia Raychaudhuri and Saim Wani and Shivansh Patel and Unnat Jain and Angel X. Chang(参考訳) 視覚言語ナビゲーション(vln)タスクでは、具体化エージェントが自然言語命令に従って3d環境をナビゲートする。 このタスクの課題は、エージェントが参照パスからフェールする‘経路外’シナリオをどのように扱うかである。 事前作業はエージェントの位置から目標までの最短経路に基づいてエージェントにアクションを監督するが、そのような目標指向の監督は指示と一致しないことが多い。 さらに、先行作業で使用される評価指標は、エージェントが追跡可能な言語命令の量を測定するものではない。 そこで本研究では,単純かつ効果的な言語対応型監督スキームと,エージェントがナビゲーション中に完了したサブインストラクション数を測定する新しいメトリックを提案する。

In the Vision-and-Language Navigation (VLN) task an embodied agent navigates a 3D environment, following natural language instructions. A challenge in this task is how to handle 'off the path' scenarios where an agent veers from a reference path. Prior work supervises the agent with actions based on the shortest path from the agent's location to the goal, but such goal-oriented supervision is often not in alignment with the instruction. Furthermore, the evaluation metrics employed by prior work do not measure how much of a language instruction the agent is able to follow. In this work, we propose a simple and effective language-aligned supervision scheme, and a new metric that measures the number of sub-instructions the agent has completed during navigation.
翻訳日:2021-10-01 15:02:41 公開日:2021-09-30
# SPATE-GAN:自己回帰型埋め込み損失を有する動的時空間パターンの生成モデルの改善

SPATE-GAN: Improved Generative Modeling of Dynamic Spatio-Temporal Patterns with an Autoregressive Embedding Loss ( http://arxiv.org/abs/2109.15044v1 )

ライセンス: Link先を確認
Konstantin Klemmer, Tianlin Xu, Beatrice Acciaio, Daniel B. Neill(参考訳) 生態学から大気科学まで、多くの学術分野が複雑な時空間的複雑性によって特徴づけられるデータを扱う。 これらのデータの生成モデルは、シミュレーションや合成トレーニングデータの作成など、さまざまな影響のある下流アプリケーションを可能にするため、特に興味深い。 最近の研究は、時空間データを生成するためのGAN(Generative Adversarial Nets)の可能性を強調している。 因果最適輸送理論(cot)に触発された新しいganアルゴリズムであるcot-ganが提案され、この課題により良い対処が試みられた。 しかし、より複雑な時空間パターンを学習するタスクは、特定のデータ構造に関する追加の知識を必要とする。 本研究では,時空間力学の学習を強化するために,自己回帰埋め込みに基づくcot-ganと組み合わせた新しい損失目標を提案する。 我々は,期待値からの観測値のずれを利用して,時空間自己相関を測定する新しい指標であるspate(spatio-tempora l association)を考案する。 実データおよび合成データサンプルのSPATEを計算し、時空相互作用を考慮した埋め込み損失を計算し、GANをヌードして観測されたダイナミックスに忠実な出力を学習する。 我々はこの新たな目的を、乱流、対数ゲージのcoxプロセス、地球規模の気象データなど、複雑な時空間パターンで検証する。 組込み損失はCOT-GANバックボーンのアーキテクチャの変更を伴わずに性能を向上し,自己回帰構造を捉える能力の増大を浮き彫りにした。 また,物理学を対象とする深層学習や,ニューラルネットワークと地理・地球物理学をつなぐ学際的研究の最近の進歩に関して,我々の研究を文脈化している。

From ecology to atmospheric sciences, many academic disciplines deal with data characterized by intricate spatio-temporal complexities, the modeling of which often requires specialized approaches. Generative models of these data are of particular interest, as they enable a range of impactful downstream applications like simulation or creating synthetic training data. Recent work has highlighted the potential of generative adversarial nets (GANs) for generating spatio-temporal data. A new GAN algorithm COT-GAN, inspired by the theory of causal optimal transport (COT), was proposed in an attempt to better tackle this challenge. However, the task of learning more complex spatio-temporal patterns requires additional knowledge of their specific data structures. In this study, we propose a novel loss objective combined with COT-GAN based on an autoregressive embedding to reinforce the learning of spatio-temporal dynamics. We devise SPATE (spatio-temporal association), a new metric measuring spatio-temporal autocorrelation by using the deviance of observations from their expected values. We compute SPATE for real and synthetic data samples and use it to compute an embedding loss that considers space-time interactions, nudging the GAN to learn outputs that are faithful to the observed dynamics. We test this new objective on a diverse set of complex spatio-temporal patterns: turbulent flows, log-Gaussian Cox processes and global weather data. We show that our novel embedding loss improves performance without any changes to the architecture of the COT-GAN backbone, highlighting our model's increased capacity for capturing autoregressive structures. We also contextualize our work with respect to recent advances in physics-informed deep learning and interdisciplinary work connecting neural networks with geographic and geophysical sciences.
翻訳日:2021-10-01 15:02:08 公開日:2021-09-30
# DAAS: 異なるアーキテクチャと拡張ポリシー検索

DAAS: Differentiable Architecture and Augmentation Policy Search ( http://arxiv.org/abs/2109.15273v1 )

ライセンス: Link先を確認
Xiaoxing Wang, Xiangxiang Chu, Junchi Yan, Xiaokang Yang(参考訳) ニューラルネットワーク探索(NAS)は、効率的なネットワーク構造を探究することを目的とした自動機械学習(Auto-ML)の活発な方向である。 検索アーキテクチャは、固定データ拡張ポリシを持つデータセットのトレーニングによって評価される。 しかし、最近の自動拡張に関する研究は、適合する拡張ポリシーが異なる構造にまたがる可能性があることを示している。 そこで本研究では,ニューラルアーキテクチャとデータ拡張の結合を考慮し,効果的な探索アルゴリズムを提案する。 具体的には 1)nasタスクでは,メモリ効率のため,gumbel-softmax再パラメータ化戦略を用いた単一パスベース微分可能手法を採用する。 2)自動提示タスクでは,ポリシー勾配アルゴリズムに基づく新しい探索法を導入し,計算の複雑さを著しく低減する。 CIFAR-10で97.91%の精度、ImageNetデータセットで76.6%のTop-1精度を実現し、検索アルゴリズムの優れた性能を示した。

Neural architecture search (NAS) has been an active direction of automatic machine learning (Auto-ML), aiming to explore efficient network structures. The searched architecture is evaluated by training on datasets with fixed data augmentation policies. However, recent works on auto-augmentation show that the suited augmentation policies can vary over different structures. Therefore, this work considers the possible coupling between neural architectures and data augmentation and proposes an effective algorithm jointly searching for them. Specifically, 1) for the NAS task, we adopt a single-path based differentiable method with Gumbel-softmax reparameterization strategy due to its memory efficiency; 2) for the auto-augmentation task, we introduce a novel search method based on policy gradient algorithm, which can significantly reduce the computation complexity. Our approach achieves 97.91% accuracy on CIFAR-10 and 76.6% Top-1 accuracy on ImageNet dataset, showing the outstanding performance of our search algorithm.
翻訳日:2021-10-01 15:01:39 公開日:2021-09-30
# グラフスペクトルクラスタリングによるイベントベース視覚の移動物体検出

Moving Object Detection for Event-based vision using Graph Spectral Clustering ( http://arxiv.org/abs/2109.14979v1 )

ライセンス: Link先を確認
Anindya Mondal, Shashant R, Jhony H. Giraldo, Thierry Bouwmans, Ananda S. Chowdhury(参考訳) 移動物体検出(moving object detection)は、自動運転車やビデオ監視、セキュリティ、執行など、幅広い応用分野におけるコンピュータビジョンの中心的な話題である。 ニューロモルフィック・ビジョン・センサー(nvs)は、人間の目の動きを模倣するバイオインスパイアされたセンサーである。 従来のフレームベースのカメラとは異なり、これらのセンサーは非同期の「イベント」の流れを捉え、ダイナミックレンジ、低レイテンシ、低消費電力、モーションボケの低減など、前者よりも多くの利点をもたらす。 しかし、イベントカメラのデータはノイズが多く、解像度が低いため、これらの利点は高いコストで得られる。 さらに、イベントベースのカメラはシーンの明るさの相対的な変化しか捉えられないため、通常のカメラからの映像データでは、イベントデータは通常の視覚情報(テクスチャや色など)を含まない。 そのため、イベントベースのカメラで物体を検出するのは非常に難しい作業になる。 本稿では,イベントベースデータ(GSCEventMOD)における移動物体検出のための教師なしグラフスペクトルクラスタリング手法を提案する。 さらに,移動物体の最適個数を自動決定する方法について述べる。 公開データセットの実験的比較により、提案したGSCEventMODアルゴリズムは、最先端技術の最大マージンを30%上回る性能を示した。

Moving object detection has been a central topic of discussion in computer vision for its wide range of applications like in self-driving cars, video surveillance, security, and enforcement. Neuromorphic Vision Sensors (NVS) are bio-inspired sensors that mimic the working of the human eye. Unlike conventional frame-based cameras, these sensors capture a stream of asynchronous 'events' that pose multiple advantages over the former, like high dynamic range, low latency, low power consumption, and reduced motion blur. However, these advantages come at a high cost, as the event camera data typically contains more noise and has low resolution. Moreover, as event-based cameras can only capture the relative changes in brightness of a scene, event data do not contain usual visual information (like texture and color) as available in video data from normal cameras. So, moving object detection in event-based cameras becomes an extremely challenging task. In this paper, we present an unsupervised Graph Spectral Clustering technique for Moving Object Detection in Event-based data (GSCEventMOD). We additionally show how the optimum number of moving objects can be automatically determined. Experimental comparisons on publicly available datasets show that the proposed GSCEventMOD algorithm outperforms a number of state-of-the-art techniques by a maximum margin of 30%.
翻訳日:2021-10-01 15:01:22 公開日:2021-09-30
# 事前学習トランスフォーマーを用いた意味解析における合成一般化

Compositional generalization in semantic parsing with pretrained transformers ( http://arxiv.org/abs/2109.15101v1 )

ライセンス: Link先を確認
A. Emin Orhan(参考訳) 大規模事前学習はディープニューラルネットワークに大量の知識を注ぎ込む。 これにより、下流タスクにおけるこれらのモデルの一般化挙動が改善される。 大規模事前トレーニングの一般化のメリットには,どのような制限があるのでしょう? 本稿では,自然言語,スキャン,コグを含む2つの意味的構文解析タスクの文脈において,この問題に対処するためのいくつかの簡単な実験から得られた知見を報告する。 両ベンチマークが英語ベースであっても,非英語コーパスやプログラミング言語コーパスにのみ事前訓練された言語モデルは,スクラッチからトレーニングしたモデルと比較して,これらのベンチマークにおける分布外一般化を著しく改善することを示す。 これは、事前訓練された表現と知識の驚くほど広い伝達可能性を示している。 一方、大規模なタンパク質配列予測タスクによる事前訓練は、主にスキャンおよびcogsの一般化性能を低下させ、事前訓練された表現は普遍的に転送されず、前訓練ドメインと下流ドメインとの類似性に制約があることを示唆する。 最後に,比較的小さなSCANデータセットとCOGSデータセットに収束するまでのトレーニングでは,スクラッチからのトレーニングが困難であり,一般化精度が低下することが示されるが,大規模事前学習の利点はより大きなモデルでより明確になる。

Large-scale pretraining instills large amounts of knowledge in deep neural networks. This, in turn, improves the generalization behavior of these models in downstream tasks. What exactly are the limits to the generalization benefits of large-scale pretraining? Here, we report observations from some simple experiments aimed at addressing this question in the context of two semantic parsing tasks involving natural language, SCAN and COGS. We show that language models pretrained exclusively with non-English corpora, or even with programming language corpora, significantly improve out-of-distribution generalization in these benchmarks, compared with models trained from scratch, even though both benchmarks are English-based. This demonstrates the surprisingly broad transferability of pretrained representations and knowledge. Pretraining with a large-scale protein sequence prediction task, on the other hand, mostly deteriorates the generalization performance in SCAN and COGS, suggesting that pretrained representations do not transfer universally and that there are constraints on the similarity between the pretraining and downstream domains for successful transfer. Finally, we show that larger models are harder to train from scratch and their generalization accuracy is lower when trained up to convergence on the relatively small SCAN and COGS datasets, but the benefits of large-scale pretraining become much clearer with larger models.
翻訳日:2021-10-01 15:01:01 公開日:2021-09-30
# 衝突回避のための多エージェント強化学習による自動運転車と歩行者の相互作用のモデル化

Modeling Interactions of Autonomous Vehicles and Pedestrians with Deep Multi-Agent Reinforcement Learning for Collision Avoidance ( http://arxiv.org/abs/2109.15266v1 )

ライセンス: Link先を確認
Raphael Trumpp, Harald Bayerlein and David Gesbert(参考訳) 安全自動運転車(AV)の重要な構成要素は、信頼性の高い歩行者衝突回避システム(PCAM)である。 車両と歩行者の相互作用のシーケンシャルな性質、すなわち一方のエージェントの即時決定が他方のエージェントの次の決定に直接影響を与える場合、しばしば無視されるが重要な側面である。 本研究は,PCAMシステムのポリシーを定義するために,深部強化学習(DRL)アルゴリズムによって解決されるマルコフ決定過程(MDP)として対応する相互作用列をモデル化する。 シミュレーションされた運転シナリオは、都市通りを走行するDRLエージェントとして働くAVに基づいており、横断歩道で歩行者に面している。 歩行者の現実的な横断行動のモデル化は困難であるため,我々は2段階の知的歩行者行動を導入する。ベースラインモデルが事前定義された戦略に従う一方で,歩行者を第2のdrlエージェントとして定義することで,人間の行動に固有の不確実性と連続学習を捉えている。 知的歩行者行動の異なるPCAMシステムは,エージェントの衝突速度と結果の交通流効率に応じてベンチマークを行う。 本分析では,観測騒音がエージェントの意思決定に与える影響を評価することに重点を置いている。 その結果,AVは調査対象のほとんどの条件下での衝突を完全に軽減し,DRLに基づく歩行者モデルにより,より人間らしい横断行動が学べることが示唆された。

Reliable pedestrian crash avoidance mitigation (PCAM) systems are crucial components of safe autonomous vehicles (AVs). The sequential nature of the vehicle-pedestrian interaction, i.e., where immediate decisions of one agent directly influence the following decisions of the other agent, is an often neglected but important aspect. In this work, we model the corresponding interaction sequence as a Markov decision process (MDP) that is solved by deep reinforcement learning (DRL) algorithms to define the PCAM system's policy. The simulated driving scenario is based on an AV acting as a DRL agent driving along an urban street, facing a pedestrian at an unmarked crosswalk who tries to cross. Since modeling realistic crossing behavior of the pedestrian is challenging, we introduce two levels of intelligent pedestrian behavior: While the baseline model follows a predefined strategy, our advanced model captures continuous learning and the inherent uncertainty in human behavior by defining the pedestrian as a second DRL agent, i.e., we introduce a deep multi-agent reinforcement learning (DMARL) problem. The presented PCAM system with different levels of intelligent pedestrian behavior is benchmarked according to the agents' collision rate and the resulting traffic flow efficiency. In this analysis, our focus lies on evaluating the influence of observation noise on the decision making of the agents. The results show that the AV is able to completely mitigate collisions under the majority of the investigated conditions and that the DRL-based pedestrian model indeed learns a more human-like crossing behavior.
翻訳日:2021-10-01 14:59:56 公開日:2021-09-30
# データからの$\alpha$-stable L\'evy雑音による確率力学系抽出

Extracting stochastic dynamical systems with $\alpha$-stable L\'evy noise from data ( http://arxiv.org/abs/2109.14881v1 )

ライセンス: Link先を確認
Yang Li, Yubin Lu, Shengyuan Xu, Jinqiao Duan(参考訳) 複雑なシステムに対する価値ある観測、実験、シミュレーションデータの増加に伴い、これらのシステムの進化の根底にある法則の特定に多くの努力が注がれている。 多くの物理現象における非ガウシアンゆらぎの幅広い応用にもかかわらず、(ガウシアンでない)l\'evyノイズを持つ確率力学系を抽出するデータ駆動アプローチは、今のところ比較的少ない。 本研究では,$\alpha$-stable分布の性質に基づいて,短いバーストデータから$\alpha$-stable l\'evyノイズを持つ確率力学系を抽出するデータ駆動方式を提案する。 より具体的には、サンプルパスのインクリメントの振幅の平均と分散を計算することにより、まずl\'evy jump測度とノイズ強度を推定する。 次に,非局所クラマース・モヤル公式と正規化流れを組み合わせることでドリフト係数を近似する。 1次元および2次元の原型例に対する数値実験は,本手法の精度と有効性を示す。 このアプローチは、複素現象の確率的支配則を発見し、非ガウス変動の下での動的挙動を理解するための効果的な科学的ツールとなる。

With the rapid increase of valuable observational, experimental and simulated data for complex systems, much efforts have been devoted to identifying governing laws underlying the evolution of these systems. Despite the wide applications of non-Gaussian fluctuations in numerous physical phenomena, the data-driven approaches to extract stochastic dynamical systems with (non-Gaussian) L\'evy noise are relatively few so far. In this work, we propose a data-driven method to extract stochastic dynamical systems with $\alpha$-stable L\'evy noise from short burst data based on the properties of $\alpha$-stable distributions. More specifically, we first estimate the L\'evy jump measure and noise intensity via computing mean and variance of the amplitude of the increment of the sample paths. Then we approximate the drift coefficient by combining nonlocal Kramers-Moyal formulas with normalizing flows. Numerical experiments on one- and two-dimensional prototypical examples illustrate the accuracy and effectiveness of our method. This approach will become an effective scientific tool in discovering stochastic governing laws of complex phenomena and understanding dynamical behaviors under non-Gaussian fluctuations.
翻訳日:2021-10-01 14:58:37 公開日:2021-09-30
# 深部同定モデルによる因果効果推定の原理化に向けて

Towards Principled Causal Effect Estimation by Deep Identifiable Models ( http://arxiv.org/abs/2109.15062v1 )

ライセンス: Link先を確認
Pengzhou Wu and Kenji Fukumizu(参考訳) 因果推論の重要な問題として,未観測の条件下での治療効果(TE)の推定について議論する。 共同創設者を潜在変数として表現し,tesの同定に十分な予後スコアに動機づけられた変分オートエンコーダ(vae)の新しい変種であるalt-vaeを提案する。 当社のVAEは、治療グループのためのバランスの取れた表現も自然に提供しています。 半)合成データセットの実験は、様々な設定で最先端のパフォーマンスを示す。 また,モデルの同定可能性に基づいて,同定と一貫した推定に関するさらなる理論的発展についても論じる。 これはディープニューラルネットワークによる因果効果の原理的推定への道を開く。

As an important problem of causal inference, we discuss the estimation of treatment effects (TEs) under unobserved confounding. Representing the confounder as a latent variable, we propose Intact-VAE, a new variant of variational autoencoder (VAE), motivated by the prognostic score that is sufficient for identifying TEs. Our VAE also naturally gives representation balanced for treatment groups, using its prior. Experiments on (semi-)synthetic datasets show state-of-the-art performance under diverse settings. Based on the identifiability of our model, further theoretical developments on identification and consistent estimation are also discussed. This paves the way towards principled causal effect estimation by deep neural networks.
翻訳日:2021-10-01 14:58:18 公開日:2021-09-30
# 非同期ロックフリー最適化における摂動確率反復の高速化

Accelerating Perturbed Stochastic Iterates in Asynchronous Lock-Free Optimization ( http://arxiv.org/abs/2109.15292v1 )

ライセンス: Link先を確認
Kaiwen Zhou, Anthony Man-Cho So, James Cheng(参考訳) 確率的加速は,並列ロックフリー最適化において摂動イテレートフレームワーク (mania et al., 2017) で実現され,有限サム目標に対する最適漸進的勾配複雑性をもたらす。 提案手法は,既存の非加速法と同じ線形速度アップ条件を必要とすることを実証する。 我々の中心となるアルゴリズム発見は、スパース更新を伴う新しい加速SVRG変種である。 理論的結果を検証するために実証実験を行った。

We show that stochastic acceleration can be achieved under the perturbed iterate framework (Mania et al., 2017) in asynchronous lock-free optimization, which leads to the optimal incremental gradient complexity for finite-sum objectives. We prove that our new accelerated method requires the same linear speed-up condition as the existing non-accelerated methods. Our core algorithmic discovery is a new accelerated SVRG variant with sparse updates. Empirical results are presented to verify our theoretical findings.
翻訳日:2021-10-01 14:58:09 公開日:2021-09-30
# グラフィカル構造学習による自動気道セグメンテーション

Automated airway segmentation by learning graphical structure ( http://arxiv.org/abs/2109.14792v1 )

ライセンス: Link先を確認
Yihua Yang(参考訳) 本研究では,既存の畳み込みニューラルネットワーク(CNN)とグラフニューラルネットワーク(GNN)に基づく気道セグメンテーションの高度な手法を提案する。 本手法は血管のセグメンテーションから導かれるものであるが,本手法を改良し,CT(Computerd tomography)スキャンによるデータセットの精度向上を実現する。 現在のエアウェイセグメンテーションの方法は、正規格子のみを考慮している。 詳細なモデルが何であっても、3次元のcnnや2次元のcnnを含め、全体のグラフ構造は考慮されていない。 本モデルでは, 従来のCNN手法と比較して, 気道近傍を考慮し, グラフ構造を取り入れ, 気道のセグメンテーションを改善した。 我々は胸部CTスキャンで実験を行い、そこでは地上の真理セグメンテーションラベルを手動で作成する。 提案モデルにより,CNN法とGNN法を併用した場合,胸部CTスキャンで気管支を検出できた場合が多く,CNN法とGNN法の併用が良好な性能を示した。 さらに、我々が提案するモデルは、アーキテクチャが他のデータセットで同様の目的を達成するのに役立っているため、幅広い拡張がある。 したがって、最先端のモデルは非常に重要であり、私たちの日常生活に非常に当てはまります。 キーワード:エアウェイセグメンテーション、畳み込みニューラルネットワーク、グラフニューラルネットワーク

In this research project, we put forward an advanced method for airway segmentation based on the existent convolutional neural network (CNN) and graph neural network (GNN). The method is originated from the vessel segmentation, but we ameliorate it and enable the novel model to perform better for datasets from computed tomography (CT) scans. Current methods for airway segmentation are considering the regular grid only. No matter what the detailed model is, including the 3-dimensional CNN or 2-dimensional CNN in three directions, the overall graph structures are not taken into consideration. In our model, with the neighbourhoods of airway taken into account, the graph structure is incorporated and the segmentation of airways are improved compared with the traditional CNN methods. We perform experiments on the chest CT scans, where the ground truth segmentation labels are produced manually. The proposed model shows that compared with the CNN-only method, the combination of CNN and GNN has a better performance in that the bronchi in the chest CT scans can be detected in most cases. In addition, the model we propose has a wide extension since the architecture is also utilitarian in fulfilling similar aims in other datasets. Hence, the state-of-the-art model is of great significance and highly applicable in our daily lives. Keywords: Airway segmentation, Convolutional neural network, Graph neural network
翻訳日:2021-10-01 14:58:00 公開日:2021-09-30
# HeiCholeベンチマークによる手術ワークフローとスキル分析のための機械学習アルゴリズムの比較検証

Comparative Validation of Machine Learning Algorithms for Surgical Workflow and Skill Analysis with the HeiChole Benchmark ( http://arxiv.org/abs/2109.14956v1 )

ライセンス: Link先を確認
Martin Wagner, Beat-Peter M\"uller-Stich, Anna Kisilenko, Duc Tran, Patrick Heger, Lars M\"undermann, David M Lubotsky, Benjamin M\"uller, Tornike Davitashvili, Manuela Capek, Annika Reinke, Tong Yu, Armine Vardazaryan, Chinedu Innocent Nwoye, Nicolas Padoy, Xinyang Liu, Eung-Joo Lee, Constantin Disch, Hans Meine, Tong Xia, Fucang Jia, Satoshi Kondo, Wolfgang Reiter, Yueming Jin, Yonghao Long, Meirui Jiang, Qi Dou, Pheng Ann Heng, Isabell Twick, Kadir Kirtac, Enes Hosgor, Jon Lindstr\"om Bolmgren, Michael Stenzel, Bj\"orn von Siemens, Hannes G. Kenngott, Felix Nickel, Moritz von Frankenberg, Franziska Mathis-Ullrich, Lena Maier-Hein, Stefanie Speidel, Sebastian Bodenstedt(参考訳) 目的: 次世代認知外科支援システムにおいて,手術ワークフローとスキル分析が重要な技術である。 これらのシステムは、文脈に敏感な警告や半自律的なロボット支援を通じて手術の安全性を高め、データ駆動フィードバックによる外科医の訓練を改善する。 手術ワークフロー分析では、オープンデータ単一センターデータセットでの位相認識について、最大91%の精度が報告されている。 本研究では,手術動作や手術スキルなどのより難しい認識タスクを含む多施設における位相認識アルゴリズムの一般化可能性について検討した。 方法: この目的を達成するために, 腹腔鏡下胆嚢摘出33例を3手術センターから採取し, 総手術時間は22時間であった。 ラベルには、250の位相遷移を持つ7つの手術段階のアノテーション、4つの手術行動の5514の出現、7つの器具カテゴリーからの21の手術器具の6980の出現、5つのスキル次元の495のスキル分類が含まれる。 このデータセットは、2019年の内視鏡ビジョンチャレンジ、外科的ワークフローとスキル分析のためのサブチャレンジで使用された。 ここでは12チームが、フェーズ、アクション、計器、スキルアセスメントの認識のための機械学習アルゴリズムを提出した。 結果:f1-スコアは23.9%から67.7%(n=9チーム)、計器存在検出は38.5%から63.8%(n=8チーム)、アクション認識は21.8%から23.3%(n=5チーム)であった。 スキルアセスメントの平均絶対誤差は0.78(n=1チーム)である。 ConCLUSION: 手術のワークフローとスキル分析は,手術チームを支援する上で有望な技術だが,アルゴリズムの比較で示すように,まだ解決されていない。 この新しいベンチマークは、将来の作業に対する比較評価と検証に使用できる。

PURPOSE: Surgical workflow and skill analysis are key technologies for the next generation of cognitive surgical assistance systems. These systems could increase the safety of the operation through context-sensitive warnings and semi-autonomous robotic assistance or improve training of surgeons via data-driven feedback. In surgical workflow analysis up to 91% average precision has been reported for phase recognition on an open data single-center dataset. In this work we investigated the generalizability of phase recognition algorithms in a multi-center setting including more difficult recognition tasks such as surgical action and surgical skill. METHODS: To achieve this goal, a dataset with 33 laparoscopic cholecystectomy videos from three surgical centers with a total operation time of 22 hours was created. Labels included annotation of seven surgical phases with 250 phase transitions, 5514 occurences of four surgical actions, 6980 occurences of 21 surgical instruments from seven instrument categories and 495 skill classifications in five skill dimensions. The dataset was used in the 2019 Endoscopic Vision challenge, sub-challenge for surgical workflow and skill analysis. Here, 12 teams submitted their machine learning algorithms for recognition of phase, action, instrument and/or skill assessment. RESULTS: F1-scores were achieved for phase recognition between 23.9% and 67.7% (n=9 teams), for instrument presence detection between 38.5% and 63.8% (n=8 teams), but for action recognition only between 21.8% and 23.3% (n=5 teams). The average absolute error for skill assessment was 0.78 (n=1 team). CONCLUSION: Surgical workflow and skill analysis are promising technologies to support the surgical team, but are not solved yet, as shown by our comparison of algorithms. This novel benchmark can be used for comparable evaluation and validation of future work.
翻訳日:2021-10-01 14:57:37 公開日:2021-09-30
# Bend-Net: 病理画像における核分割のための正規化マルチタスク学習ネットワーク

Bend-Net: Bending Loss Regularized Multitask Learning Network for Nuclei Segmentation in Histopathology Images ( http://arxiv.org/abs/2109.15283v1 )

ライセンス: Link先を確認
Haotian Wang, Aleksandar Vakanski, Changfa Shi, Min Xian(参考訳) 重なり合う核の分離は病理組織学的画像解析において大きな課題である。 最近発表されたアプローチでは、核のセグメンテーションにおける全体的な性能が期待できるが、重なり合う核を分離する性能は極めて限られている。 そこで本研究では,重なり核を正確に分離する曲げ損失調整器を備えたマルチタスク学習ネットワークを提案する。 新しく提案されたマルチタスク学習アーキテクチャは、インスタンスセグメンテーション、核距離マップ予測、重なり合う核距離マップ予測という3つのタスクから共有表現を学習することで一般化を促進する。 提案する曲げ損失は,凹凸点を大曲率で対流する高いペナルティを定義し,小曲率の凸凸点に対して小さいペナルティを適用する。 曲げ損失の最小化は、複数の核を含む輪郭の生成を避ける。 さらに, 重なり核のjaccard index (ajio) と重なり核の精度 (acco) という2つの新しい定量的指標を用いて, 重なり核のセグメンテーションの評価を行った。 consep と monusegv1 データセットに対する提案手法を7つの定量的指標(アグリゲート jaccard index, dice, segmentation quality, recognition quality, panoptic quality, ajio, acco)を用いて検証した。 広範な実験により、ベンドネットは最先端の8つのアプローチよりも優れていることが示されている。

Separating overlapped nuclei is a major challenge in histopathology image analysis. Recently published approaches have achieved promising overall performance on nuclei segmentation; however, their performance on separating overlapped nuclei is quite limited. To address the issue, we propose a novel multitask learning network with a bending loss regularizer to separate overlapped nuclei accurately. The newly proposed multitask learning architecture enhances the generalization by learning shared representation from three tasks: instance segmentation, nuclei distance map prediction, and overlapped nuclei distance map prediction. The proposed bending loss defines high penalties to concave contour points with large curvatures, and applies small penalties to convex contour points with small curvatures. Minimizing the bending loss avoids generating contours that encompass multiple nuclei. In addition, two new quantitative metrics, Aggregated Jaccard Index of overlapped nuclei (AJIO) and Accuracy of overlapped nuclei (ACCO), are designed for the evaluation of overlapped nuclei segmentation. We validate the proposed approach on the CoNSeP and MoNuSegv1 datasets using seven quantitative metrics: Aggregate Jaccard Index, Dice, Segmentation Quality, Recognition Quality, Panoptic Quality, AJIO, and ACCO. Extensive experiments demonstrate that the proposed Bend-Net outperforms eight state-of-the-art approaches.
翻訳日:2021-10-01 14:57:06 公開日:2021-09-30
# 因果行列の完成

Causal Matrix Completion ( http://arxiv.org/abs/2109.15154v1 )

ライセンス: Link先を確認
Anish Agarwal, Munther Dahleh, Devavrat Shah, Dennis Shen(参考訳) 行列完成(matrix completion)は、ノイズの少ない観測のサブセットから基礎となる行列を回復する研究である。 伝統的に、行列のエントリは「完全にランダム(mcar)」であり、すなわち各エントリはランダムに、他の全てとは無関係に、一様確率で明らかにされる。 これはおそらく「相対的共同設立者」、すなわち観測された行列の要素と欠落パターンの両方を決定する観測されていない要因の存在によって非現実的である。 例えば、映画レコメンデーションシステム(マトリックス完成のための標準的な応用)の文脈では、ホラー映画を熱心に嫌うユーザーはホラー映画を見ることはありそうにない。 一般的に、これらの共同設立者は「ランダムでないミス」(MNAR)データを生成し、このバイアスに対して正しくない推論手順に深刻な影響を与える可能性がある。 我々は、潜在的な結果の言語を通して行列完備のための形式的因果モデルを開発し、関心のある様々な因果推定に対して新しい識別引数を提供する。 我々は、これらの因果推定を推定するために、"synthetic Near neighbors"(SNN)と呼ばれる手順を設計する。 有限サンプル一貫性と漸近正規性が証明される。 また, 解析結果から, 行列完成文献の新たな理論的結果が得られた。 特に、MNARデータを用いた行列補完のためのエントリーワイド、すなわち、最大ノルム、有限サンプル整合および漸近正規化結果を確立する。 特別な場合として、これはMCARデータによる行列補完のエントリワイド境界も提供する。 シミュレーションおよび実データ全体で,提案した推定器の有効性を実証する。

Matrix completion is the study of recovering an underlying matrix from a sparse subset of noisy observations. Traditionally, it is assumed that the entries of the matrix are "missing completely at random" (MCAR), i.e., each entry is revealed at random, independent of everything else, with uniform probability. This is likely unrealistic due to the presence of "latent confounders", i.e., unobserved factors that determine both the entries of the underlying matrix and the missingness pattern in the observed matrix. For example, in the context of movie recommender systems -- a canonical application for matrix completion -- a user who vehemently dislikes horror films is unlikely to ever watch horror films. In general, these confounders yield "missing not at random" (MNAR) data, which can severely impact any inference procedure that does not correct for this bias. We develop a formal causal model for matrix completion through the language of potential outcomes, and provide novel identification arguments for a variety of causal estimands of interest. We design a procedure, which we call "synthetic nearest neighbors" (SNN), to estimate these causal estimands. We prove finite-sample consistency and asymptotic normality of our estimator. Our analysis also leads to new theoretical results for the matrix completion literature. In particular, we establish entry-wise, i.e., max-norm, finite-sample consistency and asymptotic normality results for matrix completion with MNAR data. As a special case, this also provides entry-wise bounds for matrix completion with MCAR data. Across simulated and real data, we demonstrate the efficacy of our proposed estimator.
翻訳日:2021-10-01 14:56:39 公開日:2021-09-30
# dicoe@finsim-3:拡張項と距離に基づく特徴を用いた金融ハイパーニム検出

DICoE@FinSim-3: Financial Hypernym Detection using Augmented Terms and Distance-based Features ( http://arxiv.org/abs/2109.14906v1 )

ライセンス: Link先を確認
Lefteris Loukas, Konstantinos Bougiatiotis, Manos Fergadiotis, Dimitris Mavroeidis, Elias Zavitsanos(参考訳) 金融分野における意味的類似を学習する第3の共有タスクであるFinSim-3に、チームDICoEを提出する。 このタスクは金融ドメイン内の一連の用語を提供し、金融オントロジーから最も関連するハイパーニムに分類する必要があります。 Investopediaの定義で用語を拡大した後、我々のシステムは、財務用語の埋め込みと手作りと距離に基づく特徴の混合に対してロジスティック回帰分類器を使用する。 また、このタスクで初めて、語彙外用語に異なる置換手法が採用され、性能が向上した。 最後に,様々な財務コーパスから生成された単語表現についても実験を行った。 我々の最高成績はタスクのリーダーボードで4位だった。

We present the submission of team DICoE for FinSim-3, the 3rd Shared Task on Learning Semantic Similarities for the Financial Domain. The task provides a set of terms in the financial domain and requires to classify them into the most relevant hypernym from a financial ontology. After augmenting the terms with their Investopedia definitions, our system employs a Logistic Regression classifier over financial word embeddings and a mix of hand-crafted and distance-based features. Also, for the first time in this task, we employ different replacement methods for out-of-vocabulary terms, leading to improved performance. Finally, we have also experimented with word representations generated from various financial corpora. Our best-performing submission ranked 4th on the task's leaderboard.
翻訳日:2021-10-01 14:56:01 公開日:2021-09-30
# 世界の言語間および言語内における代用的-代用的トレードオフ

A surprisal--duration trade-off across and within the world's languages ( http://arxiv.org/abs/2109.15000v1 )

ライセンス: Link先を確認
Tiago Pimentel, Clara Meister, Elizabeth Salesky, Simone Teufel, Dami\'an Blasi, Ryan Cotterell(参考訳) 自然言語のスコアは存在し、それぞれに固有の特徴と慣用性があるが、それらは共通のテーマを共有している。 したがって、人間の認識がこれらの言語の進化や利用の仕方を合理的に予測することができる。 情報処理能力が人口全体にわたってほぼ一定であると仮定すると、言語間および言語内において超越的トレードオフが発生することを期待する。 このトレードオフを600の言語からなるコーパスで分析し、いくつかの潜在的なコンファクトを制御した後、両方の設定で強力な支持証拠を見つける。 具体的には、平均して、携帯電話は驚きの少ない言語でより速く生産され、その逆であることがわかった。 さらに私たちは、600言語中319言語で、平均して驚くべきスマートフォンがより長いことを確認しました。 したがって、世界の言語全体と言語内部の両方において、運用上の超越的なトレードオフの強い証拠が存在すると結論づける。

While there exist scores of natural languages, each with its unique features and idiosyncrasies, they all share a unifying theme: enabling human communication. We may thus reasonably predict that human cognition shapes how these languages evolve and are used. Assuming that the capacity to process information is roughly constant across human populations, we expect a surprisal--duration trade-off to arise both across and within languages. We analyse this trade-off using a corpus of 600 languages and, after controlling for several potential confounds, we find strong supporting evidence in both settings. Specifically, we find that, on average, phones are produced faster in languages where they are less surprising, and vice versa. Further, we confirm that more surprising phones are longer, on average, in 319 languages out of the 600. We thus conclude that there is strong evidence of a surprisal--duration trade-off in operation, both across and within the world's languages.
翻訳日:2021-10-01 14:55:48 公開日:2021-09-30
# 事前学習言語モデルの学習後効率的な量子化に向けて

Towards Efficient Post-training Quantization of Pre-trained Language Models ( http://arxiv.org/abs/2109.15082v1 )

ライセンス: Link先を確認
Haoli Bai, Lu Hou, Lifeng Shang, Xin Jiang, Irwin King, Michael R. Lyu(参考訳) ネットワーク量子化は、大規模事前学習言語モデル(PLM)の急速な成長に伴い注目されている。 しかしながら、PLMの既存の量子化手法のほとんどは、データセット全体への完全なアクセスを伴うエンドツーエンドのトレーニングを必要とする量子化対応トレーニング~(QAT)に従っている。 そのため、トレーニングの遅さ、大きなメモリオーバヘッド、データセキュリティの問題に苦しむ。 本稿では,PLMの学習後の量子化〜(PTQ)について検討し,モジュール単位の量子化誤差最小化〜(MREM)を提案する。 PLMを複数のモジュールに分割することにより、各モジュールの量子化による再構成誤差を最小限に抑える。 さらに,先行するモジュールを待たずに,各モジュールを個別のコンピュータデバイス上でローカルにトレーニングできるように,新たなモデル並列トレーニング戦略を設計した(例えば,4ドルのgpuで$4\times$)。 実験の結果,提案するptqソリューションはqatに近い性能を示すだけでなく,トレーニング時間,メモリオーバーヘッド,データ消費の大幅な削減が期待できることがわかった。

Network quantization has gained increasing attention with the rapid growth of large pre-trained language models~(PLMs). However, most existing quantization methods for PLMs follow quantization-aware training~(QAT) that requires end-to-end training with full access to the entire dataset. Therefore, they suffer from slow training, large memory overhead, and data security issues. In this paper, we study post-training quantization~(PTQ) of PLMs, and propose module-wise quantization error minimization~(MREM), an efficient solution to mitigate these issues. By partitioning the PLM into multiple modules, we minimize the reconstruction error incurred by quantization for each module. In addition, we design a new model parallel training strategy such that each module can be trained locally on separate computing devices without waiting for preceding modules, which brings nearly the theoretical training speed-up (e.g., $4\times$ on $4$ GPUs). Experiments on GLUE and SQuAD benchmarks show that our proposed PTQ solution not only performs close to QAT, but also enjoys significant reductions in training time, memory overhead, and data consumption.
翻訳日:2021-10-01 14:55:31 公開日:2021-09-30
# 自己事前学習による半監督テキスト分類

Semi-Supervised Text Classification via Self-Pretraining ( http://arxiv.org/abs/2109.15300v1 )

ライセンス: Link先を確認
Payam Karisani, Negin Karisani(参考訳) 本稿では,自己学習と呼ばれる半教師付き学習モデルを提案する。 我々のモデルは古典的な自己学習アルゴリズムにインスパイアされている。 しかし、自己学習とは対照的に、自己予習はしきい値フリーであり、以前のラベル付きドキュメントに対する信念を更新でき、意味的ドリフト問題に対処することができる。 自己訓練は反復的であり、2つの分類器から構成される。 各イテレーションでは、ひとつの分類器がラベルのないドキュメントのランダムなセットを描画し、ラベル付けする。 このセットは第2の分類器を初期化するために使用され、ラベル付き文書のセットによってさらに訓練される。 アルゴリズムは次のイテレーションに進み、分類器の役割は逆になる。 イテレーション間の情報の流れを改善し、かつ、セマンティックドリフト問題に対処するために、自己予習は反復蒸留プロセスを使用し、イテレーション間で仮説を転送し、2段階のトレーニングモデルを使用し、効率的な学習率スケジュールを使用し、擬似ラベル変換ヒューリスティックを用いる。 我々はこのモデルを3つの公開ソーシャルメディアデータセットで評価した。 実験により, 自己事前学習は, 既存の半教師付き分類器を複数の設定で上回ることを示した。 私たちのコードはhttps://github.com/p -karisani/self_pretr ainingで利用可能です。

We present a neural semi-supervised learning model termed Self-Pretraining. Our model is inspired by the classic self-training algorithm. However, as opposed to self-training, Self-Pretraining is threshold-free, it can potentially update its belief about previously labeled documents, and can cope with the semantic drift problem. Self-Pretraining is iterative and consists of two classifiers. In each iteration, one classifier draws a random set of unlabeled documents and labels them. This set is used to initialize the second classifier, to be further trained by the set of labeled documents. The algorithm proceeds to the next iteration and the classifiers' roles are reversed. To improve the flow of information across the iterations and also to cope with the semantic drift problem, Self-Pretraining employs an iterative distillation process, transfers hypotheses across the iterations, utilizes a two-stage training model, uses an efficient learning rate schedule, and employs a pseudo-label transformation heuristic. We have evaluated our model in three publicly available social media datasets. Our experiments show that Self-Pretraining outperforms the existing state-of-the-art semi-supervised classifiers across multiple settings. Our code is available at https://github.com/p -karisani/self_pretr aining.
翻訳日:2021-10-01 14:55:11 公開日:2021-09-30
# IntentVizor: Slow-Fast Graph Convolutional Networksを用いたジェネリッククエリガイドによるインタラクティブビデオ要約

IntentVizor: Towards Generic Query Guided Interactive Video Summarization Using Slow-Fast Graph Convolutional Networks ( http://arxiv.org/abs/2109.14834v1 )

ライセンス: Link先を確認
Guande Wu and Jianzhe Lin and Claudio T. Silva(参考訳) 自動要約の目標は、主要なコンテンツ/イベントを保存しながら、元の長ビデオの短いスキムを作成することである。 ユーザのクエリをビデオ要約やクエリ駆動のビデオ要約に統合することへの関心が高まっている。 このビデオ要約方法は、入力テキストで一般的に表現されるユーザクエリに基づいて、元のビデオの簡潔な合成を予測する。 しかし、このクエリ駆動方式には2つの固有の問題がある。 まず、クエリテキストは、ユーザの正確で多様なニーズを記述するのに十分ではないかもしれない。 第2に,要約が生成された時点では編集できないため,この要約手法の実用的価値が制限される。 ユーザのニーズは微妙で、対話的に調整する必要があると仮定します。 この2つの問題を解決するために,genric multi-modality queryによるインタラクティブビデオ要約フレームワークであるintentvizorフレームワークを提案する。 ユーザのニーズを記述した入力クエリは、テキストだけでなく、ビデオスニペットにも制限される。 さらに,本論文で新たに提案する概念であるユーザ ‘intent’ として,マルチモダリティのきめ細かなクエリを結論づける。 このインテントは解釈可能で、対話可能で、ユーザの要求を定量化/記述しやすくします。 より具体的に言うと、ユーザの入力を表現するために一連のインテントを使用して、インタラクティブなビジュアル分析インターフェースを設計します。 ユーザは、これらの混合開始意図をインタラクティブに制御し、調整することで、この新しく提案されたインターフェースのより満足な要約を得ることができる。 また,ビデオ理解による要約目標を達成するためのアルゴリズムとして,提案手法を用いた2つの新しいインテント/スコーリングネットワークを提案する。 我々は2つのベンチマークデータセットで実験を行う。 提案手法との比較により,提案手法の有効性が検証された。

The target of automatic Video summarization is to create a short skim of the original long video while preserving the major content/events. There is a growing interest in the integration of user's queries into video summarization, or query-driven video summarization. This video summarization method predicts a concise synopsis of the original video based on the user query, which is commonly represented by the input text. However, two inherent problems exist in this query-driven way. First, the query text might not be enough to describe the exact and diverse needs of the user. Second, the user cannot edit once the summaries are produced, limiting this summarization technique's practical value. We assume the needs of the user should be subtle and need to be adjusted interactively. To solve these two problems, we propose a novel IntentVizor framework, which is an interactive video summarization framework guided by genric multi-modality queries. The input query that describes the user's needs is not limited to text but also the video snippets. We further conclude these multi-modality finer-grained queries as user `intent', which is a newly proposed concept in this paper. This intent is interpretable, interactable, and better quantifies/describes the user's needs. To be more specific, We use a set of intents to represent the inputs of users to design our new interactive visual analytic interface. Users can interactively control and adjust these mixed-initiative intents to obtain a more satisfying summary of this newly proposed interface. Also, as algorithms help users achieve their summarization goal via video understanding, we propose two novel intent/scoring networks based on the slow-fast feature for our algorithm part. We conduct our experiments on two benchmark datasets. The comparison with the state-of-the-art methods verifies the effectiveness of the proposed framework.
翻訳日:2021-10-01 14:52:31 公開日:2021-09-30
# 視覚補綴のための拡張現実ナビゲーションシステム

Augmented reality navigation system for visual prosthesis ( http://arxiv.org/abs/2109.14957v1 )

ライセンス: Link先を確認
Melani Sanchez-Garcia, Alejandro Perez-Yus, Ruben Martinez-Cantin, Jose J. Guerrero(参考訳) 視野、解像度、ダイナミックレンジなどの視覚的補綴物の視覚機能は、未知の環境でナビゲートする人の能力を著しく制限する。 インプラント患者は、ある場所から別の場所への移動に常に補助を必要としている。 したがって、旅行中に安全に彼らを支援できるシステムが必要である。 本研究では,視覚補綴物のための拡張現実ナビゲーションシステムを提案する。このシステムには,簡便で障害物のない経路を案内する,リアクティブナビゲーションと経路計画のソフトウェアが組み込まれている。 地図上の対象の特定、対象の軌道計画、対象への表示、障害物のない再計画の4つのステップから成り立っている。 また,ナビゲーション性能をシミュレートした人工視覚環境も設計した。 12人が実験に参加した。 被験者は拡張現実ナビゲーションシステムによって誘導され、その指示は、2つの目標に達するまで異なる環境をナビゲートし、ドアを渡り、できるだけ速く正確に物体(ビン)を見つけることであった。 その結果,目標達成までの時間と距離を削減し,他のベースライン手法と比較して障害物の衝突数を著しく削減し,ナビゲーション性能を向上させることができた。

The visual functions of visual prostheses such as field of view, resolution and dynamic range, seriously restrict the person's ability to navigate in unknown environments. Implanted patients still require constant assistance for navigating from one location to another. Hence, there is a need for a system that is able to assist them safely during their journey. In this work, we propose an augmented reality navigation system for visual prosthesis that incorporates a software of reactive navigation and path planning which guides the subject through convenient, obstacle-free route. It consists on four steps: locating the subject on a map, planning the subject trajectory, showing it to the subject and re-planning without obstacles. We have also designed a simulated prosthetic vision environment which allows us to systematically study navigation performance. Twelve subjects participated in the experiment. Subjects were guided by the augmented reality navigation system and their instruction was to navigate through different environments until they reached two goals, cross the door and find an object (bin), as fast and accurately as possible. Results show how our augmented navigation system help navigation performance by reducing the time and distance to reach the goals, even significantly reducing the number of obstacles collisions, compared to other baseline methods.
翻訳日:2021-10-01 14:52:03 公開日:2021-09-30
# 物体検出のための逆意味輪郭

Adversarial Semantic Contour for Object Detection ( http://arxiv.org/abs/2109.15009v1 )

ライセンス: Link先を確認
Yichi Zhang, Zijian Zhu, Xiao Yang and Jun Zhu(参考訳) 現代の物体検出器は敵の例に弱いため、例えば自動運転車のような多くのアプリケーションに潜在的なリスクをもたらす。 通常の$\ell_p$で正規化された攻撃の中で、$\ell_0$-attackはできるだけ少数のピクセルを変更することを目指している。 しかしながら、この問題は一般にNPハード問題であるテクスチャと同時に形状を最適化する必要があるため、簡単ではない。 この問題に対処するために,オブジェクトの輪郭によって案内されるASC(Adversarial Semantic Contour)の新たな手法を提案する。 この事前で、$\ell_0$最適化を加速するために探索空間を縮小し、さらに検出器に影響を及ぼすであろう意味情報も導入する。 輪郭に基づいて、サンプリングによる修正画素の選択と、勾配降下を交互に行う色を最適化する。 広範な実験により,提案するascが,最も一般的な手作業で設計されたパターン(正方形パッチやグリッドなど)よりも消滅のタスクにおいて優れていることが証明された。 対象領域の 5 % と 3.5 % をそれぞれ修正することにより,提案した ASC は SSD512,Yolov4,Mask RCNN,Faster RCNN などの主流対象検出器を誤認することができる。

Modern object detectors are vulnerable to adversarial examples, which brings potential risks to numerous applications, e.g., self-driving car. Among attacks regularized by $\ell_p$ norm, $\ell_0$-attack aims to modify as few pixels as possible. Nevertheless, the problem is nontrivial since it generally requires to optimize the shape along with the texture simultaneously, which is an NP-hard problem. To address this issue, we propose a novel method of Adversarial Semantic Contour (ASC) guided by object contour as prior. With this prior, we reduce the searching space to accelerate the $\ell_0$ optimization, and also introduce more semantic information which should affect the detectors more. Based on the contour, we optimize the selection of modified pixels via sampling and their colors with gradient descent alternately. Extensive experiments demonstrate that our proposed ASC outperforms the most commonly manually designed patterns (e.g., square patches and grids) on task of disappearing. By modifying no more than 5\% and 3.5\% of the object area respectively, our proposed ASC can successfully mislead the mainstream object detectors including the SSD512, Yolov4, Mask RCNN, Faster RCNN, etc.
翻訳日:2021-10-01 14:51:43 公開日:2021-09-30
# 対応学習とメッシュリファインメントによる3次元ポス転送

3D Pose Transfer with Correspondence Learning and Mesh Refinement ( http://arxiv.org/abs/2109.15025v1 )

ライセンス: Link先を確認
Chaoyue Song, Jiacheng Wei, Ruibo Li, Fayao Liu and Guosheng Lin(参考訳) 3dポーズ転送は、最も難しい3d生成タスクの1つだ。 これは、ソースメッシュのポーズをターゲットメッシュに転送し、ターゲットメッシュのアイデンティティ(例えば、ボディシェイプ)を保持することを目的としている。 以前の作業では、ソースとターゲットメッシュ間の信頼できる対応を構築するためにキーポイントアノテーションが必要だったが、他の方法はソースとターゲット間の形状対応を考慮せず、生成品質が制限される。 本研究では,人間と動物のメッシュの3次元ポーズ伝達を支援するための通信抑制ネットワークを提案する。 ソースとターゲットメッシュの対応は、まず最適なトランスポート問題を解決することによって確立される。 そして、その密度の高い対応に従ってソースメッシュをワープし、粗いワープメッシュを得る。 これは条件付き正規化層であり、高品質のメッシュを生成するのに役立つ。 広範な実験結果から,提案するアーキテクチャは,ソースからターゲットメッシュへのポーズを効果的に移動でき,最先端の手法よりも良好な視覚性能が得られることがわかった。

3D pose transfer is one of the most challenging 3D generation tasks. It aims to transfer the pose of a source mesh to a target mesh and keep the identity (e.g., body shape) of the target mesh. Some previous works require key point annotations to build reliable correspondence between the source and target meshes, while other methods do not consider any shape correspondence between sources and targets, which leads to limited generation quality. In this work, we propose a correspondence-refin ement network to help the 3D pose transfer for both human and animal meshes. The correspondence between source and target meshes is first established by solving an optimal transport problem. Then, we warp the source mesh according to the dense correspondence and obtain a coarse warped mesh. The warped mesh will be better refined with our proposed \textit{Elastic Instance Normalization}, which is a conditional normalization layer and can help to generate high-quality meshes. Extensive experimental results show that the proposed architecture can effectively transfer the poses from source to target meshes and produce better results with satisfied visual performance than state-of-the-art methods.
翻訳日:2021-10-01 14:51:19 公開日:2021-09-30
# 作り出すまで偽物:合成データだけで野生の顔分析

Fake It Till You Make It: Face analysis in the wild using synthetic data alone ( http://arxiv.org/abs/2109.15102v1 )

ライセンス: Link先を確認
Erroll Wood, Tadas Baltru\v{s}aitis, Charlie Hewitt, Sebastian Dziadzio, Matthew Johnson, Virginia Estellers, Thomas J. Cashman, Jamie Shotton(参考訳) 本研究では,合成データだけで顔関連コンピュータビジョンを野生で実行できることを実証する。 コミュニティは長年、トレーニングデータをグラフィックで合成するメリットを享受してきたが、リアルデータと合成データのドメイン間ギャップは、特に人間の顔では問題となっている。 研究者は、このギャップをデータ混合、ドメイン適応、ドメイン敵訓練で橋渡ししようとしたが、最小のドメインギャップでデータを合成することは可能であり、合成データで訓練されたモデルは実際のインザワイルドデータセットに一般化できることを示した。 本稿では、手続き的に生成されたパラメトリックな3次元顔モデルと手作り資産の包括的ライブラリを組み合わせることで、前例のないリアリズムと多様性を持つトレーニング画像をレンダリングする方法について述べる。 我々は、ランドマークのローカライゼーションや顔解析などの顔関連タスクのための機械学習システムを訓練し、合成データが実際のデータと精度で一致できることと、手動ラベリングが不可能な新しいアプローチを開放できることを示します。

We demonstrate that it is possible to perform face-related computer vision in the wild using synthetic data alone. The community has long enjoyed the benefits of synthesizing training data with graphics, but the domain gap between real and synthetic data has remained a problem, especially for human faces. Researchers have tried to bridge this gap with data mixing, domain adaptation, and domain-adversarial training, but we show that it is possible to synthesize data with minimal domain gap, so that models trained on synthetic data generalize to real in-the-wild datasets. We describe how to combine a procedurally-generat ed parametric 3D face model with a comprehensive library of hand-crafted assets to render training images with unprecedented realism and diversity. We train machine learning systems for face-related tasks such as landmark localization and face parsing, showing that synthetic data can both match real data in accuracy as well as open up new approaches where manual labelling would be impossible.
翻訳日:2021-10-01 14:50:57 公開日:2021-09-30
# フォアグラウンド・バックグラウンドマージによるモーションアウェア自己教師付き映像表現学習

Motion-aware Self-supervised Video Representation Learning via Foreground-backgroun d Merging ( http://arxiv.org/abs/2109.15130v1 )

ライセンス: Link先を確認
Shuangrui Ding, Maomao Li, Tianyu Yang, Rui Qian, Haohang Xu, Qingyi Chen, Jue Wang(参考訳) 画像領域におけるコントラスト学習の成功を踏まえ、現在の自己教師付き映像表現学習法は、通常、コントラスト損失を用いて映像表現学習を容易にする。 ビデオの2つの拡張ビューを鼻で引っ張る場合、このモデルは一般的な静的背景をショートカットとして学習する傾向にあるが、背景バイアスと呼ばれる動き情報を捉えることができない。 このバイアスにより、モデルは弱い一般化能力に苦しめられ、アクション認識のような下流タスクのパフォーマンスが低下する。 このようなバイアスを緩和するため,我々は,選択した映像のフォアグラウンド領域を他者の背景に意図的に構成するフォアグラウンドバックグラウンドマージ(fame)を提案する。 具体的には、既設の検知器を使わずに、フレーム差と色統計を用いて前景と背景領域を抽出し、ビデオ中の背景領域をシャッフルする。 元のクリップと融合したクリップのセマンティック一貫性を活用することで、モデルは前景の動きパターンをより重視し、背景コンテキストに対してより堅牢になる。 大規模な実験により、FAMEは様々なバックボーンで異なる下流タスクのパフォーマンスを大幅に向上させることができる。 MoCoと統合されると、FAMEはUCF101とHMDB51でそれぞれ84.8%と53.5%の精度に達し、最先端の性能を達成した。

In light of the success of contrastive learning in the image domain, current self-supervised video representation learning methods usually employ contrastive loss to facilitate video representation learning. When naively pulling two augmented views of a video closer, the model however tends to learn the common static background as a shortcut but fails to capture the motion information, a phenomenon dubbed as background bias. This bias makes the model suffer from weak generalization ability, leading to worse performance on downstream tasks such as action recognition. To alleviate such bias, we propose Foreground-backgroun d Merging (FAME) to deliberately compose the foreground region of the selected video onto the background of others. Specifically, without any off-the-shelf detector, we extract the foreground and background regions via the frame difference and color statistics, and shuffle the background regions among the videos. By leveraging the semantic consistency between the original clips and the fused ones, the model focuses more on the foreground motion pattern and is thus more robust to the background context. Extensive experiments demonstrate that FAME can significantly boost the performance in different downstream tasks with various backbones. When integrated with MoCo, FAME reaches 84.8% and 53.5% accuracy on UCF101 and HMDB51, respectively, achieving the state-of-the-art performance.
翻訳日:2021-10-01 14:50:37 公開日:2021-09-30
# 自然合成異常(NSA)による自己監視アウトオブディストリビューション検出と局所化

Self-Supervised Out-of-Distribution Detection and Localization with Natural Synthetic Anomalies (NSA) ( http://arxiv.org/abs/2109.15222v1 )

ライセンス: Link先を確認
Hannah M. Schl\"uter, Jeremy Tan, Benjamin Hou, Bernhard Kainz(参考訳) 正規データのみを用いた異常検出とローカライズのためのエンドツーエンドモデルをトレーニングするための,新たな自己監視タスクであるnsaを導入する。 nsaはpoisson画像編集を使用して、さまざまなサイズのスケールされたパッチを別々の画像からシームレスにブレンドする。 これにより、自己教師付き異常検出のための従来のデータ拡張戦略よりも、自然のサブイメージの不規則性に近い幅広い合成異常が生じる。 提案手法は,自然画像と医用画像を用いて評価する。 MVTec ADデータセットを用いた実験により、NSA異常のローカライズを訓練したモデルが、実世界の未知の製造欠陥の検出に有効であることが示された。 本手法は,データセットを事前学習することなく,スクラッチから学習する従来の手法よりも,97.2のAUROCを総合的に検出する。

We introduce a new self-supervised task, NSA, for training an end-to-end model for anomaly detection and localization using only normal data. NSA uses Poisson image editing to seamlessly blend scaled patches of various sizes from separate images. This creates a wide range of synthetic anomalies which are more similar to natural sub-image irregularities than previous data-augmentation strategies for self-supervised anomaly detection. We evaluate the proposed method using natural and medical images. Our experiments with the MVTec AD dataset show that a model trained to localize NSA anomalies generalizes well to detecting real-world a priori unknown types of manufacturing defects. Our method achieves an overall detection AUROC of 97.2 outperforming all previous methods that learn from scratch without pre-training datasets.
翻訳日:2021-10-01 14:50:13 公開日:2021-09-30
# セマンティックセグメンテーションタスクの伝達可能性推定

Transferability Estimation for Semantic Segmentation Task ( http://arxiv.org/abs/2109.15242v1 )

ライセンス: Link先を確認
Yang Tan, Yang Li, Shao-Lun Huang(参考訳) 伝達可能性推定は、対象タスクにソースモデル(またはソースタスク)を転送する際のパフォーマンスがどの程度良いかを予測するために、転送学習において基本的な問題である。 転送可能性スコアのガイダンスにより、実際の転送を行うことなく、高転送可能なソースモデルを効率的に選択できる。 近年, 画像分類のための分析可能性指標が主に設計されており, 自律運転や医用画像解析などにおいて重要な課題であるセマンティックセグメンテーションタスクの伝達可能性推定に関する具体的な調査は行われていない。 その結果,最近の分析伝達可能性指標OTCE(Optimal Transport based Conditional Entropy)のスコアをセマンティックセグメンテーションタスクに拡張した。 otceスコアを適用する際の課題は、高次元のセグメンテーション出力であり、許容可能な計算コストの下で、非常に多くの画素間の最適な結合を見つけるのが困難である。 そこで我々は,n画素をランダムにサンプリングしてotceスコアを算出し,k繰り返しの期待値を最終転送可能性スコアとする。 Cityscapes、BDD100K、GTA5データセットの実験的評価により、OTCEスコアが転送性能と高い相関性を示す。

Transferability estimation is a fundamental problem in transfer learning to predict how good the performance is when transferring a source model (or source task) to a target task. With the guidance of transferability score, we can efficiently select the highly transferable source models without performing the real transfer in practice. Recent analytical transferability metrics are mainly designed for image classification, and currently there is no specific investigation for the transferability estimation of semantic segmentation task, which is an essential problem in autonomous driving, medical image analysis, etc. Consequently, we further extend the recent analytical transferability metric OTCE (Optimal Transport based Conditional Entropy) score to the semantic segmentation task. The challenge in applying the OTCE score is the high dimensional segmentation output, which is difficult to find the optimal coupling between so many pixels under an acceptable computation cost. Thus we propose to randomly sample N pixels for computing OTCE score and take the expectation over K repetitions as the final transferability score. Experimental evaluation on Cityscapes, BDD100K and GTA5 datasets demonstrates that the OTCE score highly correlates with the transfer performance.
翻訳日:2021-10-01 14:50:00 公開日:2021-09-30
# 動的メッシュに対する同一距離ニューラル変形モデル

Identity-Disentangle d Neural Deformation Model for Dynamic Meshes ( http://arxiv.org/abs/2109.15299v1 )

ライセンス: Link先を確認
Binbin Xu, Lingni Ma, Yuting Ye, Tanner Schmidt, Christopher D. Twigg, Steven Lovegrove(参考訳) ニューラル形状モデルは、コンパクトな潜在空間を持つ複雑な3次元形状を表現することができる。 しかし、人間の手のような動的に変形する形状に適用する場合は、変形の時間的コヒーレンスと本質的な同一性を保持する必要がある。 これらの特性は手動で設計した損失関数では正規化が難しい。 本稿では,暗黙的ニューラル関数を用いたポーズ依存的変形から同一性による形状変化をアンタングルするニューラル変形モデルを学習する。 対象物間のメッシュ対応や意味対応のない3Dスキャンでテンプレートなしの教師なし学習を行う。 そして、学習モデルを用いて、未知の動作を行う新規被験者の部分的動的4Dスキャンを再構築する。 神経変形モデルとグローバルポーズアライメントを統合する2つの方法を提案する。 身元とポーズのゆがみに対する本手法の有効性を示す実験を行った。 また,固定されたテンプレートから制約なく,手のひら印字や腱などの表面詳細を再構成する手法は,従来のスケルトン駆動モデルよりも優れている。

Neural shape models can represent complex 3D shapes with a compact latent space. When applied to dynamically deforming shapes such as the human hands, however, they would need to preserve temporal coherence of the deformation as well as the intrinsic identity of the subject. These properties are difficult to regularize with manually designed loss functions. In this paper, we learn a neural deformation model that disentangles the identity-induced shape variations from pose-dependent deformations using implicit neural functions. We perform template-free unsupervised learning on 3D scans without explicit mesh correspondence or semantic correspondences of shapes across subjects. We can then apply the learned model to reconstruct partial dynamic 4D scans of novel subjects performing unseen actions. We propose two methods to integrate global pose alignment with our neural deformation model. Experiments demonstrate the efficacy of our method in the disentanglement of identities and pose. Our method also outperforms traditional skeleton-driven models in reconstructing surface details such as palm prints or tendons without limitations from a fixed template.
翻訳日:2021-10-01 14:49:40 公開日:2021-09-30
# センサ誘導光流れ

Sensor-Guided Optical Flow ( http://arxiv.org/abs/2109.15321v1 )

ライセンス: Link先を確認
Matteo Poggi, Filippo Aleotti, Stefano Mattoccia(参考訳) 本稿では, 既知領域と未発見領域の両方において優れた精度を達成するために, 光フローネットワークの外部手がかりを導出する枠組みを提案する。 外部ソースからのスパースで正確な光フローヒントが利用可能であることを考えると、これらは最先端の光フローネットワークによって計算された相関スコアを変調し、より正確な予測へと導くために注入される。 実際のセンサはスパースフローのヒントを提供できないが、アクティブセンサーからの深さ測定と幾何学と手作り光学フローのアルゴリズムを組み合わせることで、我々の目的に十分なヒントが得られることを示す。 標準ベンチマークにおける最先端フローネットワークを用いた実験結果は,シミュレーションと実環境の両方において,フレームワークの有効性を裏付けるものである。

This paper proposes a framework to guide an optical flow network with external cues to achieve superior accuracy either on known or unseen domains. Given the availability of sparse yet accurate optical flow hints from an external source, these are injected to modulate the correlation scores computed by a state-of-the-art optical flow network and guide it towards more accurate predictions. Although no real sensor can provide sparse flow hints, we show how these can be obtained by combining depth measurements from active sensors with geometry and hand-crafted optical flow algorithms, leading to accurate enough hints for our purpose. Experimental results with a state-of-the-art flow network on standard benchmarks support the effectiveness of our framework, both in simulated and real conditions.
翻訳日:2021-10-01 14:49:22 公開日:2021-09-30
# calda: コントラスト型逆学習によるマルチソース時系列ドメイン適応の改善

CALDA: Improving Multi-Source Time Series Domain Adaptation with Contrastive Adversarial Learning ( http://arxiv.org/abs/2109.14778v1 )

ライセンス: Link先を確認
Garrett Wilson, Janardhan Rao Doppa, Diane J. Cook(参考訳) unsupervised domain adaptation (uda)は、基盤となる真理ラベルがアクセスできないが関連する(ソース)ドメインで見られるデータ豊富な(ターゲット)ドメインにおける機械学習のパフォーマンスを改善する戦略を提供する。 ラベル分布のようなメタドメイン情報を利用できる場合、弱い監督はパフォーマンスをさらに向上させる。 これら2つの問題に対処するための新しいフレームワークであるCALDAを提案する。 CALDAは、時系列データに対するマルチソースUDA(MS-UDA)を強力にサポートするために、コントラスト学習と逆学習の原則を相乗的に組み合わせている。 従来の手法と同様に、CALDAは逆学習を利用して、ソースとターゲットの特徴表現を整列させる。 以前のアプローチとは異なり、caldaはドメイン間のクロスソースラベル情報を活用する。 caldaは、同じラベルを持つ例を互いに近くで引き寄せ、異なるラベルで例を押して、コントラスト学習を通じて空間を再形成する。 従来のコントラスト適応法とは異なり、CALDAはデータ拡張も擬似ラベリングも必要としない。 提案したアプローチを実証的に検証する。 人間の活動認識、筋電図、合成データセットの結果から、クロスソース情報を利用することで、過去の時系列やコントラスト法よりも性能が向上することがわかった。 CALDA は,MS-UDA に対して一般化可能な戦略を提供することができるため,ノイズの存在下でも性能が向上する。 コードは、https://github.com/f loft/calda.comで入手できる。

Unsupervised domain adaptation (UDA) provides a strategy for improving machine learning performance in data-rich (target) domains where ground truth labels are inaccessible but can be found in related (source) domains. In cases where meta-domain information such as label distributions is available, weak supervision can further boost performance. We propose a novel framework, CALDA, to tackle these two problems. CALDA synergistically combines the principles of contrastive learning and adversarial learning to robustly support multi-source UDA (MS-UDA) for time series data. Similar to prior methods, CALDA utilizes adversarial learning to align source and target feature representations. Unlike prior approaches, CALDA additionally leverages cross-source label information across domains. CALDA pulls examples with the same label close to each other, while pushing apart examples with different labels, reshaping the space through contrastive learning. Unlike prior contrastive adaptation methods, CALDA requires neither data augmentation nor pseudo labeling, which may be more challenging for time series. We empirically validate our proposed approach. Based on results from human activity recognition, electromyography, and synthetic datasets, we find utilizing cross-source information improves performance over prior time series and contrastive methods. Weak supervision further improves performance, even in the presence of noise, allowing CALDA to offer generalizable strategies for MS-UDA. Code is available at: https://github.com/f loft/calda
翻訳日:2021-10-01 14:48:19 公開日:2021-09-30
# 超パラメータ最適化のための系譜的集団ベーストレーニング

Genealogical Population-Based Training for Hyperparameter Optimization ( http://arxiv.org/abs/2109.14925v1 )

ライセンス: Link先を確認
Scardigli Antoine and Fournier Paul and Vilucchio Matteo and Naccache David(参考訳) ハイパーパラメータ最適化は、ニューラルネットワークのような学習モデルの最良のハイパーパラメータ(hps)をより迅速かつ効率的に見つけることを目的としている。 In this work, we present a new approach called GPBT (Genealogical Population-Based Training), which shares many points with Population-Based Training: our approach outputs a schedule of HPs and updates both weights and HPs in a single run, but brings several novel contributions: the choice of new HPs is made by a modular search algorithm, the search algorithm can search HPs independently for models with different weights and can exploit separately the maximum amount of meaningful information (genealogically-rela ted) from previous HPs evaluations instead of exploiting together all previous HPs evaluations, a variation of early stopping allows a 2-3 fold acceleration at small performance cost. GPBTは、速度と性能の点で試験された全ての教師あり学習実験において、HP Optimizationの他の全てのアプローチよりも大幅に優れている。 HPのチューニングは、ディープラーニングの分野だけでなく、反復最適化に基づく全プロセスに対しても、我々のアプローチにより、計算コストが低下する。

Hyperparameter optimization aims at finding more rapidly and efficiently the best hyperparameters (HPs) of learning models such as neural networks. In this work, we present a new approach called GPBT (Genealogical Population-Based Training), which shares many points with Population-Based Training: our approach outputs a schedule of HPs and updates both weights and HPs in a single run, but brings several novel contributions: the choice of new HPs is made by a modular search algorithm, the search algorithm can search HPs independently for models with different weights and can exploit separately the maximum amount of meaningful information (genealogically-rela ted) from previous HPs evaluations instead of exploiting together all previous HPs evaluations, a variation of early stopping allows a 2-3 fold acceleration at small performance cost. GPBT significantly outperforms all other approaches of HP Optimization, on all supervised learning experiments tested in terms of speed and performances. HPs tuning will become less computationally expensive using our approach, not only in the deep learning field, but potentially for all processes based on iterative optimization.
翻訳日:2021-10-01 14:47:53 公開日:2021-09-30
# コミュニティ検出における一貫した推定を学ぶための有用な基準

A useful criterion on studying consistent estimation in community detection ( http://arxiv.org/abs/2109.14950v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) ネットワーク分析において、異なるモデルの下でメソッドを比較できる統一理論フレームワークを開発することは興味深い問題である。 本稿では,この問題に対する部分解を提案する。 本稿では,標準ネットワークの分離条件とerd\"os-r\'enyi確率グラフの鋭いしきい値を用いて一貫した推定を行い,確率的ブロックモデルに縮退可能なモデルの下でのスペクトル法のネットワークスパーシティに関する理論的誤差率と要件を比較する。 SCSTCを用いて,分離条件とコミュニティ検出のしきい値に矛盾する現象を発見した。 特に,混合会員確率ブロックモデルに基づくネットワークメンバシップを推定するために導入されたSPACLアルゴリズムの本来の理論的結果は準最適であった。 不整合の形成機構を見いだすため,近年の行方向固有ベクトル偏差の手法を応用し,このアルゴリズムの理論的収束率を再確立する。 結果は、補正された混合会員モデルにさらに拡張される。 比較対象として, エラー率の低減, コミュニティ数への依存性の低減, ネットワークの分散性に対する要件の弱化などを挙げる。 さらに,理論結果から得られた分離条件と鋭い閾値は古典的な結果と一致し,この基準が一貫した推定の研究に有用であることを示す。

In network analysis, developing a unified theoretical framework that can compare methods under different models is an interesting problem. This paper proposes a partial solution to this problem. We summarize the idea of using separation condition for a standard network and sharp threshold of Erd\"os-R\'enyi random graph to study consistent estimation, compare theoretical error rates and requirements on network sparsity of spectral methods under models that can degenerate to stochastic block model as a four-step criterion SCSTC. Using SCSTC, we find some inconsistent phenomena on separation condition and sharp threshold in community detection. Especially, we find original theoretical results of the SPACL algorithm introduced to estimate network memberships under the mixed membership stochastic blockmodel were sub-optimal. To find the formation mechanism of inconsistencies, we re-establish theoretical convergence rates of this algorithm by applying recent techniques on row-wise eigenvector deviation. The results are further extended to the degree corrected mixed membership model. By comparison, our results enjoy smaller error rates, lesser dependence on the number of communities, weaker requirements on network sparsity, and so forth. Furthermore, separation condition and sharp threshold obtained from our theoretical results match classical results, which shows the usefulness of this criterion on studying consistent estimation.
翻訳日:2021-10-01 14:47:39 公開日:2021-09-30
# 蒸留する前にモデルを刈り取る

Prune Your Model Before Distill It ( http://arxiv.org/abs/2109.14960v1 )

ライセンス: Link先を確認
Jinhyuk Park, Albert No(参考訳) 非構造化プルーニングは、ニューラルネットワークのかなりの重量を減らす。 しかし、非構造化プルーニングは、元のネットワークと同じネットワークアーキテクチャを持つスパースネットワークを提供する。 一方で、構造化プルーニングはチャネルを削除することで効率的なネットワークアーキテクチャを提供するが、パラメータの削減は重要ではない。 本稿では,非構造化プルーニングから効率的なアーキテクチャ(チャネルが少ない)のネットワークへ知識を伝達することを検討する。 特に,教師ネットワークがスパースネットワーク(非構造化プルーニングを含まない)であり,学生ネットワークが効率的なアーキテクチャを持つ知識蒸留(kd)を適用する。 我々は,未熟教師の学習よりも,未熟教師の学習の方が効果的であることを観察する。 さらに,非構造化プルーニングが一般の知識蒸留の性能を向上させる有望な実験結果を得る。

Unstructured pruning reduces a significant amount of weights of neural networks. However, unstructured pruning provides a sparse network with the same network architecture as the original network. On the other hand, structured pruning provides an efficient network architecture by removing channels, but the parameter reduction is not significant. In this paper, we consider transferring knowledge from unstructured pruning to a network with efficient architecture (with fewer channels). In particular, we apply the knowledge distillation (KD), where the teacher network is a sparse network (obtained from unstructured pruning), and the student network has an efficient architecture. We observe that learning from the pruned teacher is more effective than learning from the unpruned teacher. We further achieve the promising experimental results that unstructured pruning can improve the performance of knowledge distillation in general.
翻訳日:2021-10-01 14:47:14 公開日:2021-09-30
# プログレッシブ近傍近似を用いたテキスト分類のためのxproax-local explanations

XPROAX-Local explanations for text classification with progressive neighborhood approximation ( http://arxiv.org/abs/2109.15004v1 )

ライセンス: Link先を確認
Yi Cai, Arthur Zimek, Eirini Ntoutsi(参考訳) ブラックボックス分類器の局所的決定境界を近似するための局所代理モデルの訓練における地区の重要性は既に文献で強調されている。 生成オートエンコーダを用いてテキストのような高次元データのためのより良い近傍を構築する試みがいくつか行われた。 しかし、既存のアプローチは主に潜在空間から純粋にランダムに選択し、良い局所決定境界を学ぶために次元の呪いの下で苦労することで隣人を生成する。 そこで本研究では, 初期ランドマークとして反実例を用いた周辺地域の漸進的近似と, 適切な2段階サンプリング手法を用いて, 提案する入力事例の近傍の事実を抽出する手法を提案する。 本研究はテキストデータに焦点をあて,本論文では,原文(内在的)と近隣(外在的)の単語レベルの説明と,近隣生成プロセス中に発見された事実的・反実的事象の両方から,入力テキストの特定の部分を変更する効果を明らかにする。 実世界のデータセットを用いた実験により,本手法は,有用性と安定性(定性部分),完全性,コンパクト性,正確性(量的部分)において,競合より優れることを示した。

The importance of the neighborhood for training a local surrogate model to approximate the local decision boundary of a black box classifier has been already highlighted in the literature. Several attempts have been made to construct a better neighborhood for high dimensional data, like texts, by using generative autoencoders. However, existing approaches mainly generate neighbors by selecting purely at random from the latent space and struggle under the curse of dimensionality to learn a good local decision boundary. To overcome this problem, we propose a progressive approximation of the neighborhood using counterfactual instances as initial landmarks and a careful 2-stage sampling approach to refine counterfactuals and generate factuals in the neighborhood of the input instance to be explained. Our work focuses on textual data and our explanations consist of both word-level explanations from the original instance (intrinsic) and the neighborhood (extrinsic) and factual- and counterfactual-insta nces discovered during the neighborhood generation process that further reveal the effect of altering certain parts in the input text. Our experiments on real-world datasets demonstrate that our method outperforms the competitors in terms of usefulness and stability (for the qualitative part) and completeness, compactness and correctness (for the quantitative part).
翻訳日:2021-10-01 14:47:01 公開日:2021-09-30
# ニューラルネットワーク圧縮のための半テンソル積に基づくテンソル分解

Semi-tensor Product-based TensorDecomposition for Neural Network Compression ( http://arxiv.org/abs/2109.15200v1 )

ライセンス: Link先を確認
Hengling Zhao, Yipeng Liu, Xiaolin Huang and Ce Zhu(参考訳) 既存のテンソルネットワークは接続に従来の行列積を採用する。 古典的行列積は、要素間の厳密な次元整合性を必要とし、データ表現の冗長性をもたらす。 本稿では,このセミテンソル積を用いて,古典行列生成物に基づくモード積をセミテンソル生成物に一般化する。 次元の異なる2つの因子の接続が許されるので、より柔軟でコンパクトなテンソル分解はより小さな因子で得ることができる。 タッカー分解、TT(Tensor Train)、TR(Tensor Ring)は、ディープニューラルネットワークの低階圧縮のための一般的な分解である。 セミテンソル積はこれらのテンソル分解に適用され、それらの一般化されたバージョン、すなわちセミテンソル・タッカー分解(STTu)、セミテンソル・トレイン(STT)、セミテンソル・リング(STR)を得る。 実験の結果、STTu, STT, STRは従来のテンソル分解よりも高い圧縮係数を達成できたが、ResNetおよびWideResNet圧縮のトレーニング時間が短縮された。 精度が2%低下すると、TT-RN (rank = 14) とTR-WRN (rank = 16) は3倍、TR-WRN (rank = 14) とSTR-WRN (rank = 16) はそれぞれ9倍、TR-WRN (rank = 16) は179倍となる。

The existing tensor networks adopt conventional matrix product for connection. The classical matrix product requires strict dimensionality consistency between factors, which can result in redundancy in data representation. In this paper, the semi-tensor product is used to generalize classical matrix product-based mode product to semi-tensor mode product. As it permits the connection of two factors with different dimensionality, more flexible and compact tensor decompositions can be obtained with smaller sizes of factors. Tucker decomposition, Tensor Train (TT) and Tensor Ring (TR) are common decomposition for low rank compression of deep neural networks. The semi-tensor product is applied to these tensor decompositions to obtained their generalized versions, i.e., semi-tensor Tucker decomposition (STTu), semi-tensor train(STT) and semi-tensor ring (STR). Experimental results show the STTu, STT and STR achieve higher compression factors than the conventional tensor decompositions with the same accuracy but less training times in ResNet and WideResNetcompressio n. With 2% accuracy degradation, the TT-RN (rank = 14) and the TR-WRN (rank = 16) only obtain 3 times and99t times compression factors while the STT-RN (rank = 14) and the STR-WRN (rank = 16) achieve 9 times and 179 times compression factors, respectively.
翻訳日:2021-10-01 14:46:34 公開日:2021-09-30
# 順次利用可能なアーム設定のための帯域幅アルゴリズムの適用

Adapting Bandit Algorithms for Settings with Sequentially Available Arms ( http://arxiv.org/abs/2109.15228v1 )

ライセンス: Link先を確認
Marco Gabrielli, Francesco Trov\`o, Manuela Antonelli(参考訳) マルチアーマッド・バンドイット(MAB)フレームワークの古典的なバージョンは、いくつかの実践的な問題にうまく適用されているが、現実の多くのアプリケーションでは、インターネットのキャンペーン管理や環境監視設定のように、学習者に同時に実行可能なアクションは提示されない。 代わりに、そのようなアプリケーションでは、一連のオプションが時間内に学習者にシーケンシャルに提示され、このプロセスは時間軸を通して繰り返される。 毎回、学習者は提案された選択肢を選択するかどうかを尋ねられる。 我々は,このシナリオを逐次プル・ノープル・バンディット設定として定義し,後悔の最小化問題と最善のアーム識別問題の両方に対して,任意の古典的なmabポリシーを適合させるために,逐次プル・ノープル・フォー・mab (seq) のメタアルゴリズムを提案する。 提案するメタアルゴリズムは、ラウンド内の複数のアームの選択を可能にすることで、特に第1ラウンドにおいて、アーム推定値の不確実性が特徴のより多くの情報を収集する。 同時に、適応アルゴリズムは、採用される古典的なポリシーと同じ理論的保証を提供する。 Seqメタアルゴリズムは、広告や環境モニタリングアプリケーションからの合成および実世界のデータセットに関する古典的なMABポリシーと比較され、その優れた経験的パフォーマンスを強調した。

Although the classical version of the Multi-Armed Bandits (MAB) framework has been applied successfully to several practical problems, in many real-world applications, the possible actions are not presented to the learner simultaneously, such as in the Internet campaign management and environmental monitoring settings. Instead, in such applications, a set of options is presented sequentially to the learner within a time span, and this process is repeated throughout a time horizon. At each time, the learner is asked whether to select the proposed option or not. We define this scenario as the Sequential Pull/No-pull Bandit setting, and we propose a meta-algorithm, namely Sequential Pull/No-pull for MAB (Seq), to adapt any classical MAB policy to better suit this setting for both the regret minimization and best-arm identification problems. By allowing the selection of multiple arms within a round, the proposed meta-algorithm gathers more information, especially in the first rounds, characterized by a high uncertainty in the arms estimate value. At the same time, the adapted algorithms provide the same theoretical guarantees as the classical policy employed. The Seq meta-algorithm was extensively tested and compared with classical MAB policies on synthetic and real-world datasets from advertising and environmental monitoring applications, highlighting its good empirical performances.
翻訳日:2021-10-01 14:46:05 公開日:2021-09-30
# まず、彼の統計を所有する:表データに対するデータフリーなモデル抽出攻撃

First to Possess His Statistics: Data-Free Model Extraction Attack on Tabular Data ( http://arxiv.org/abs/2109.14857v1 )

ライセンス: Link先を確認
Masataka Tasumi, Kazuki Iwahana, Naoto Yanai, Katsunari Shishido, Toshiya Shimizu, Yuji Higuchi, Ikuya Morikawa, Jun Yajima(参考訳) モデル抽出攻撃(英: model extraction attack)とは、敵がクエリとその結果を通じて被害者モデルに匹敵するパフォーマンスを持つ機械学習モデルを取得する攻撃の一種である。 本稿では,実用的なデータフリー設定下で,表データに適用可能な新しいモデル抽出攻撃である tempest を提案する。 正規化による表データの抽出がより困難であるのに対して、TEMPESTは以前の攻撃に必要な初期サンプルを必要としない。 実験により、我々の攻撃は以前の攻撃と同等のパフォーマンスを達成できることが示された。 さらに,クエリ生成の統計として平均と分散を用いることと,被害者モデルと同じ正規化プロセスを使用することにより,攻撃性能が向上することを示す。 また,医療診断データセットを用いてTEMPESTを実世界で実施する可能性についても論じる。 再現性とその後の作業への参照のためにソースコードをリリースする予定です。

Model extraction attacks are a kind of attacks where an adversary obtains a machine learning model whose performance is comparable with one of the victim model through queries and their results. This paper presents a novel model extraction attack, named TEMPEST, applicable on tabular data under a practical data-free setting. Whereas model extraction is more challenging on tabular data due to normalization, TEMPEST no longer needs initial samples that previous attacks require; instead, it makes use of publicly available statistics to generate query samples. Experiments show that our attack can achieve the same level of performance as the previous attacks. Moreover, we identify that the use of mean and variance as statistics for query generation and the use of the same normalization process as the victim model can improve the performance of our attack. We also discuss a possibility whereby TEMPEST is executed in the real world through an experiment with a medical diagnosis dataset. We plan to release the source code for reproducibility and a reference to subsequent works.
翻訳日:2021-10-01 14:45:09 公開日:2021-09-30
# 光ネットワークオンチップ(onoc)による完全接続型ニューラルネットワークの高速化

Accelerating Fully Connected Neural Network on Optical Network-on-Chip (ONoC) ( http://arxiv.org/abs/2109.14878v1 )

ライセンス: Link先を確認
Fei Dai, Yawen Chen, Haibo Zhang, and Zhiyi Huang(参考訳) FCNN(Fully Connected Neural Network)は、コンピュータサイエンスとエンジニアリングで広く使われているニューラルネットワークのクラスである。 チップスケールの光配線技術である光ネットワークオンチップ(ONoC)は、低伝送遅延、低消費電力、高スループットでFCNNのトレーニングを加速する大きな可能性を秘めている。 しかし、ONoCのユニークな特性のため、Electronic Network-on-Chip (ENoC) に基づく既存の手法はONoCには適合しない。 本稿では, fcnn トレーニングを高速化し, 実行段階ごとに最適なコア数を導出するための細粒度並列計算モデルを提案する。 各実行段階で最適なコア数を割り当てるために、3つのマッピング戦略を示し、ホットスポットレベル、メモリ要件、状態遷移の観点からそれらの利点とデメリットを比較する。 シミュレーションの結果,NNベンチマークにおけるコア数の平均予測誤差は2.3%以内であることが示唆された。 さらに,提案手法を用いてfcnnのトレーニング時間を平均22.28%,4.91%削減できることを実証する大規模なシミュレーションを行った。 enocと比較して、シミュレーションの結果、バッチサイズ64と128では、平均onocはトレーニング時間の47.85%と節約エネルギー39.27%で21.02%と12.95%を達成した。

Fully Connected Neural Network (FCNN) is a class of Artificial Neural Networks widely used in computer science and engineering, whereas the training process can take a long time with large datasets in existing many-core systems. Optical Network-on-Chip (ONoC), an emerging chip-scale optical interconnection technology, has great potential to accelerate the training of FCNN with low transmission delay, low power consumption, and high throughput. However, existing methods based on Electrical Network-on-Chip (ENoC) cannot fit in ONoC because of the unique properties of ONoC. In this paper, we propose a fine-grained parallel computing model for accelerating FCNN training on ONoC and derive the optimal number of cores for each execution stage with the objective of minimizing the total amount of time to complete one epoch of FCNN training. To allocate the optimal number of cores for each execution stage, we present three mapping strategies and compare their advantages and disadvantages in terms of hotspot level, memory requirement, and state transitions. Simulation results show that the average prediction error for the optimal number of cores in NN benchmarks is within 2.3%. We further carry out extensive simulations which demonstrate that FCNN training time can be reduced by 22.28% and 4.91% on average using our proposed scheme, compared with traditional parallel computing methods that either allocate a fixed number of cores or allocate as many cores as possible, respectively. Compared with ENoC, simulation results show that under batch sizes of 64 and 128, on average ONoC can achieve 21.02% and 12.95% on reducing training time with 47.85% and 39.27% on saving energy, respectively.
翻訳日:2021-10-01 14:44:54 公開日:2021-09-30
# USER:統合行動系列に基づく統合情報検索と勧告モデル

USER: A Unified Information Search and Recommendation Model based on Integrated Behavior Sequence ( http://arxiv.org/abs/2109.15012v1 )

ライセンス: Link先を確認
Jing Yao, Zhicheng Dou, Ruobing Xie, Yanxiong Lu, Zhiping Wang, Ji-Rong Wen(参考訳) 検索とレコメンデーションは、人々が情報を得るために使う2つの最も一般的なアプローチである。 彼らは同じ目標 – ユーザの情報ニーズを適切なタイミングで満たす – を共有している。インターネットプラットフォームやアプリがすでに数多く存在する。検索とレコメンデーションの両方サービスを提供しており,両方のタスクを同時に処理する需要と機会を示している。しかしながら,ほとんどのプラットフォームでは,これら2つのタスクを独立して検討している – 検索モデルとレコメンデーションモデルを別々にトレーニングする傾向にあり,それらの関連性や依存性を活用できない。 本稿では,これら2つのタスクを共同でモデル化することで,両者のメリットを享受し,ユーザ満足度を向上する。 特定情報コンテンツサービス領域におけるこれらの2つのタスク間の相互作用について検討する。 まず,検索とレコメンデーションにおけるユーザの振る舞いを不均質な振る舞いシーケンスに統合し,統合されたシーケンスに基づくタスクの両タスクを協調モデルを用いて処理する。 より具体的には、統合されたシーケンスからユーザの興味を抽出し、2つのタスクを統一的に達成する統一情報検索・勧告モデル(USER)を設計する。

Search and recommendation are the two most common approaches used by people to obtain information. They share the same goal -- satisfying the user's information need at the right time. There are already a lot of Internet platforms and Apps providing both search and recommendation services, showing us the demand and opportunity to simultaneously handle both tasks. However, most platforms consider these two tasks independently -- they tend to train separate search model and recommendation model, without exploiting the relatedness and dependency between them. In this paper, we argue that jointly modeling these two tasks will benefit both of them and finally improve overall user satisfaction. We investigate the interactions between these two tasks in the specific information content service domain. We propose first integrating the user's behaviors in search and recommendation into a heterogeneous behavior sequence, then utilizing a joint model for handling both tasks based on the unified sequence. More specifically, we design the Unified Information Search and Recommendation model (USER), which mines user interests from the integrated sequence and accomplish the two tasks in a unified way.
翻訳日:2021-10-01 14:44:24 公開日:2021-09-30
# 科学コミュニケーションにおける文レベルとアスペクトレベル(不確かさ)の測定

Measuring Sentence-Level and Aspect-Level (Un)certainty in Science Communications ( http://arxiv.org/abs/2109.14776v1 )

ライセンス: Link先を確認
Jiaxin Pei, David Jurgens(参考訳) 確実性と不確実性は科学コミュニケーションの基本である。 ヘッジは不確実性のプロキシとして広く使われている。 しかし、確実性は複雑な構成であり、著者は、読者に既知の印象を与えるために、程度だけでなく、不確実性のタイプや側面を表現している。 本稿では,科学的発見における確実性のレベルと側面の両方をモデル化する,確実性の新しい研究を紹介する。 2167の注釈付き科学的発見のデータセットを用いて、ヘッジだけでは確実性の部分的な説明しかできないことを示した。 著者の意図したコミュニケーションをより完全な図示として,事前学習した言語モデルを用いて,全体的確実性と個人的側面の両方を予測可能であることを示す。 ニュースや科学の要約による431Kの科学的発見の下流分析は、文レベルのモデリングとアスペクトレベルの確実性は、科学コミュニケーションのような分野において有意義であることを示している。 この論文で使用されるモデルとデータセットはいずれもhttps://blablab.si.u mich.edu/projects/ce rtainty/でリリースされています。

Certainty and uncertainty are fundamental to science communication. Hedges have widely been used as proxies for uncertainty. However, certainty is a complex construct, with authors expressing not only the degree but the type and aspects of uncertainty in order to give the reader a certain impression of what is known. Here, we introduce a new study of certainty that models both the level and the aspects of certainty in scientific findings. Using a new dataset of 2167 annotated scientific findings, we demonstrate that hedges alone account for only a partial explanation of certainty. We show that both the overall certainty and individual aspects can be predicted with pre-trained language models, providing a more complete picture of the author's intended communication. Downstream analyses on 431K scientific findings from news and scientific abstracts demonstrate that modeling sentence-level and aspect-level certainty is meaningful for areas like science communication. Both the model and datasets used in this paper are released at https://blablablab.s i.umich.edu/projects /certainty/.
翻訳日:2021-10-01 14:43:58 公開日:2021-09-30
# 契約と時間論理に基づく台帳管理システムの形式モデル

A formal model for ledger management systems based on contracts and temporal logic ( http://arxiv.org/abs/2109.15212v1 )

ライセンス: Link先を確認
Paolo Bottoni, Anna Labella, Remo Pareschi(参考訳) ブロックチェーン技術の鍵となるコンポーネントは台帳のviz.であり、標準のデータベースとは異なり、将来のテストの恩恵のために、ノイズアーカイブのような過去のトランザクションの完全な履歴を記憶するデータベースである。 Ethereumのような第2世代のブロックチェーンでは、台帳はスマートコントラクトと結合され、金融あるいは商業的な性質の当事者間の合意に関連するトランザクションの自動化を可能にする。 スマートコントラクトと台帳の結合は、分散型自律組織(DAO)やICO(Initial Coin Offerings)、DeFi(Decentralized Finance)など、非常に革新的なアプリケーション分野の技術的背景を提供する。 しかし、スマートコントラクトを任意のプログラミング構成要素として現在使われている実装は、悪質に悪用され、法的契約からセマンティクスを遠ざける危険なバグに影響を受けやすくしている。 本稿では,有限状態オートマトンとしてモデル化された契約の概念を,資源をアクタに割り当てることから得られる計算特性を,プログラミングに基づくアプローチの代替として定式化し,データベースの分割と信頼性の回復を提案する。 作業の完了には、台帳に格納された情報の歴史的性質に効果的に適合する抽象的なクエリ言語の基礎として、時間論理を用いる。

A key component of blockchain technology is the ledger, viz., a database that, unlike standard databases, keeps in memory the complete history of past transactions as in a notarial archive for the benefit of any future test. In second-generation blockchains such as Ethereum the ledger is coupled with smart contracts, which enable the automation of transactions associated with agreements between the parties of a financial or commercial nature. The coupling of smart contracts and ledgers provides the technological background for very innovative application areas, such as Decentralized Autonomous Organizations (DAOs), Initial Coin Offerings (ICOs) and Decentralized Finance (DeFi), which propelled blockchains beyond cryptocurrencies that were the only focus of first generation blockchains such as the Bitcoin. However, the currently used implementation of smart contracts as arbitrary programming constructs has made them susceptible to dangerous bugs that can be exploited maliciously and has moved their semantics away from that of legal contracts. We propose here to recompose the split and recover the reliability of databases by formalizing a notion of contract modelled as a finite-state automaton with well-defined computational characteristics derived from an encoding in terms of allocations of resources to actors, as an alternative to the approach based on programming. To complete the work, we use temporal logic as the basis for an abstract query language that is effectively suited to the historical nature of the information kept in the ledger.
翻訳日:2021-10-01 14:43:40 公開日:2021-09-30
# 教師なしランドマーク検出による4次元動画像の時空間運動推定

Unsupervised Landmark Detection Based Spatiotemporal Motion Estimation for 4D Dynamic Medical Images ( http://arxiv.org/abs/2109.14805v1 )

ライセンス: Link先を確認
Yuyu Guo, Lei Bi, Dongming Wei, Liyun Chen, Zhengbin Zhu, Dagan Feng, Ruiyan Zhang, Qian Wang and Jinman Kim(参考訳) 運動推定は、対象臓器解剖と機能を評価するためのダイナミックな医療画像処理の基本的なステップである。 しかし, 局所的な画像類似性を評価することで運動場を最適化する既存の画像に基づく動き推定手法は, 特に大きな動きの存在下では, 目立たない推定を生じやすい。 本研究では,2段階からなるDense-Sparse-Dense(D SD)の新たな動き推定フレームワークを提案する。 第1段階では、生の高密度画像を処理して、ターゲットの臓器解剖学的トポロジーを表すスパースランドマークを抽出し、動作推定に不要な冗長な情報を破棄する。 そこで本研究では,対象臓器の動き推定のための空間的に疎いが代表的ランドマークを抽出する,教師なし3次元ランドマーク検出ネットワークを提案する。 第2段階では、異なる時間点の2つの画像の抽出されたスパースランドマークからスパース運動変位を導出する。 次に,画像領域にばらばらなランドマークの変位を投影し,動き場を構築する動き再構成ネットワークを提案する。 さらに,2段階dsdフレームワークから推定された動き場を初期化として活用し,軽量かつ効果的な反復最適化における動き推定品質を高める。 心臓運動と肺呼吸運動をそれぞれモデル化する2つの動的医用イメージングタスクについて検討した。 本手法は, 既存の比較手法と比較して, 運動推定精度が優れる。 さらに, 広範な実験結果から, 手動アノテーションを必要とせず, 適切に代表された解剖学的ランドマークを抽出できることを示した。 私たちのコードはオンラインで公開されている。

Motion estimation is a fundamental step in dynamic medical image processing for the assessment of target organ anatomy and function. However, existing image-based motion estimation methods, which optimize the motion field by evaluating the local image similarity, are prone to produce implausible estimation, especially in the presence of large motion. In this study, we provide a novel motion estimation framework of Dense-Sparse-Dense (DSD), which comprises two stages. In the first stage, we process the raw dense image to extract sparse landmarks to represent the target organ anatomical topology and discard the redundant information that is unnecessary for motion estimation. For this purpose, we introduce an unsupervised 3D landmark detection network to extract spatially sparse but representative landmarks for the target organ motion estimation. In the second stage, we derive the sparse motion displacement from the extracted sparse landmarks of two images of different time points. Then, we present a motion reconstruction network to construct the motion field by projecting the sparse landmarks displacement back into the dense image domain. Furthermore, we employ the estimated motion field from our two-stage DSD framework as initialization and boost the motion estimation quality in light-weight yet effective iterative optimization. We evaluate our method on two dynamic medical imaging tasks to model cardiac motion and lung respiratory motion, respectively. Our method has produced superior motion estimation accuracy compared to existing comparative methods. Besides, the extensive experimental results demonstrate that our solution can extract well representative anatomical landmarks without any requirement of manual annotation. Our code is publicly available online.
翻訳日:2021-10-01 14:42:55 公開日:2021-09-30
# spark in the dark:covid-19 ctの意味セグメンテーションのためのエンコーダ・デコーダペアの評価

Spark in the Dark: Evaluating Encoder-Decoder Pairs for COVID-19 CT's Semantic Segmentation ( http://arxiv.org/abs/2109.14818v1 )

ライセンス: Link先を確認
Bruno A. Krinski, Daniel V. Ruiz, and Eduardo Todt(参考訳) 新型コロナウイルス(COVID-19)の世界的なパンデミックにより、コンピュータ支援された医療画像の診断が注目され、CT(Computed Tomography)のセマンティックセグメンテーション(Semantic Segmentation)の堅牢な方法が非常に望ましいものになった。 CTのセマンティックセグメンテーションは、Covid-19の自動検出の多くの研究分野の1つであり、Covid19の流行以来広く研究されてきた。 ロボット分野では,臓器とctのセグメンテーションが手術作業用に開発されたロボットで広く用いられている。 新しいメソッドと新しいデータセットが迅速に提案されると、これらのメソッドを広範囲に評価する必要性が明らかになる。 本稿では,最近提案された複数のデータセットにわたる異なるアーキテクチャの標準化比較を行うため,複数のエンコーダとデコーダについて,合計120のアーキテクチャを5つのデータセットで評価し,各データセットを5倍のクロスバリデーション戦略で検証し,合計30000の実験を行った。 我々の知る限り、これはCovid-19 CTセグメンテーションの分野で提案されているエンコーダ、デコーダ、データセットの数で最大の評価である。

With the COVID-19 global pandemic, computerassisted diagnoses of medical images have gained a lot of attention, and robust methods of Semantic Segmentation of Computed Tomography (CT) turned highly desirable. Semantic Segmentation of CT is one of many research fields of automatic detection of Covid-19 and was widely explored since the Covid19 outbreak. In the robotic field, Semantic Segmentation of organs and CTs are widely used in robots developed for surgery tasks. As new methods and new datasets are proposed quickly, it becomes apparent the necessity of providing an extensive evaluation of those methods. To provide a standardized comparison of different architectures across multiple recently proposed datasets, we propose in this paper an extensive benchmark of multiple encoders and decoders with a total of 120 architectures evaluated in five datasets, with each dataset being validated through a five-fold cross-validation strategy, totaling 3.000 experiments. To the best of our knowledge, this is the largest evaluation in number of encoders, decoders, and datasets proposed in the field of Covid-19 CT segmentation.
翻訳日:2021-10-01 14:42:30 公開日:2021-09-30
# 確率的復号化によるエンドツーエンド画像圧縮

End-to-End Image Compression with Probabilistic Decoding ( http://arxiv.org/abs/2109.14837v1 )

ライセンス: Link先を確認
Haichuan Ma, Dong Liu, Cunhui Dong, Li Li and Feng Wu(参考訳) ロスシー画像圧縮は多対一のプロセスであるため、1ビットストリームは、特に低ビットレートで、複数の元の画像に対応する。 しかし、この性質は、画像圧縮に関する以前の研究ではほとんど考えられなかった。 本稿では,確率的復号化をネイティブにサポートする学習画像圧縮フレームワークを提案する。 圧縮されたビットストリームは、プリチョセン分布をインスタンス化する一連のパラメータにデコードされ、デコーダによって画像のサンプリングと再構成に使用される。 復号器は異なるサンプリング戦略を採用し、様々な再構成を行うことができ、そのうちのいくつかは高い信号忠実度を持ち、他のいくつかはより良い視覚的品質を持つ。 提案手法は、画素を可能な限りプレチョン分布に従う係数に変換するための可逆ニューラルネットワークに基づく変換に依存する。 私たちのコードとモデルは公開されます。

Lossy image compression is a many-to-one process, thus one bitstream corresponds to multiple possible original images, especially at low bit rates. However, this nature was seldom considered in previous studies on image compression, which usually chose one possible image as reconstruction, e.g. the one with the maximal a posteriori probability. We propose a learned image compression framework to natively support probabilistic decoding. The compressed bitstream is decoded into a series of parameters that instantiate a pre-chosen distribution; then the distribution is used by the decoder to sample and reconstruct images. The decoder may adopt different sampling strategies and produce diverse reconstructions, among which some have higher signal fidelity and some others have better visual quality. The proposed framework is dependent on a revertible neural network-based transform to convert pixels into coefficients that obey the pre-chosen distribution as much as possible. Our code and models will be made publicly available.
翻訳日:2021-10-01 14:42:08 公開日:2021-09-30
# 神経ロボティクスによる視覚位置認識のためのスパース表現の形成

Forming a sparse representation for visual place recognition using a neurorobotic approach ( http://arxiv.org/abs/2109.14916v1 )

ライセンス: Link先を確認
Sylvain Colomer, Nicolas Cuperlier, Guillaume Bresson, Olivier Romain(参考訳) 本稿では,視覚情報符号化のための教師なしニューラルネットワークモデルを提案する。 視覚野の構造にインスパイアされたモデル(HSD)は、よりコンパクトな視覚情報コードを構築するために、トポロジカルスパースコーディングとプールの層を交互に置き換える。 局所記述子を用いた視覚的位置認識(VPR)システムにおいて,自己局在化(LPMP)のためのバイオインスピレーションモデルへの統合の影響を評価する。 KITTIデータセットを用いた実験の結果,HSDはLPMPのランタイム速度を少なくとも2倍改善し,ローカライゼーション精度は10%向上した。 最先端のVPR手法であるCoHogとの比較により,本手法の精度は若干向上した。

This paper introduces a novel unsupervised neural network model for visual information encoding which aims to address the problem of large-scale visual localization. Inspired by the structure of the visual cortex, the model (namely HSD) alternates layers of topologic sparse coding and pooling to build a more compact code of visual information. Intended for visual place recognition (VPR) systems that use local descriptors, the impact of its integration in a bio-inpired model for self-localization (LPMP) is evaluated. Our experimental results on the KITTI dataset show that HSD improves the runtime speed of LPMP by a factor of at least 2 and its localization accuracy by 10%. A comparison with CoHog, a state-of-the-art VPR approach, showed that our method achieves slightly better results.
翻訳日:2021-10-01 14:41:53 公開日:2021-09-30
# 腹腔鏡下カメラモーション抽出のための動的手術シーンにおける深部ホログラフィー推定

Deep Homography Estimation in Dynamic Surgical Scenes for Laparoscopic Camera Motion Extraction ( http://arxiv.org/abs/2109.15098v1 )

ライセンス: Link先を確認
Martin Huber, S\'ebastien Ourselin, Christos Bergeles, Tom Vercauteren(参考訳) 現在の腹腔鏡カメラのモーションオートメーションは、ルールベースのアプローチに依存している。 模倣学習(il)メソッドは、これらの欠点を軽減することができるが、これまでのところ、過度に単純化されたセットアップに適用されている。 本研究は,単純すぎるセットアップからアクションを抽出する代わりに,腹腔鏡による介入映像から腹腔鏡ホルダのアクションを抽出する方法を提案する。 新たなホモグラフィ生成アルゴリズムの導入により,新たに取得したカメラ動作フリーda vinci手術画像系列のデータセットにカメラ動作を合成的に付加する。 合成カメラモーションは、物体と工具の動きに不変なカメラモーション推定のための監視信号として機能する。 我々は,複数の計算領域にわたる最先端(sota)深層ニューラルネットワーク(dnn)の広範な評価を行い,カメラモーションフリーda vinci手術データセットから腹腔鏡下手術ビデオへの移動,古典的ホモグラフィ推定手法の両手法における性能向上,精度41%,cpu上での実行時間43%の転送を行った。

Current laparoscopic camera motion automation relies on rule-based approaches or only focuses on surgical tools. Imitation Learning (IL) methods could alleviate these shortcomings, but have so far been applied to oversimplified setups. Instead of extracting actions from oversimplified setups, in this work we introduce a method that allows to extract a laparoscope holder's actions from videos of laparoscopic interventions. We synthetically add camera motion to a newly acquired dataset of camera motion free da Vinci surgery image sequences through the introduction of a novel homography generation algorithm. The synthetic camera motion serves as a supervisory signal for camera motion estimation that is invariant to object and tool motion. We perform an extensive evaluation of state-of-the-art (SOTA) Deep Neural Networks (DNNs) across multiple compute regimes, finding our method transfers from our camera motion free da Vinci surgery dataset to videos of laparoscopic interventions, outperforming classical homography estimation approaches in both, precision by 41%, and runtime on a CPU by 43%.
翻訳日:2021-10-01 14:41:36 公開日:2021-09-30
# 深層ニューラルネットワークを用いたフィンガーネイルイメージングによるリアルタイム触覚把持力センシング

Real-Time Tactile Grasp Force Sensing Using Fingernail Imaging via Deep Neural Networks ( http://arxiv.org/abs/2109.15231v1 )

ライセンス: Link先を確認
Navid Fallahinia, Stephen Mascaro(参考訳) 本稿では,人間の指先による視覚のみによる3次元触覚力のリアルタイム推定のための新しいアプローチを提案する。 導入されたアプローチは完全に単眼視覚ベースで、物理的な力センサーを必要としない。 したがって、これはスケーラブルで非侵襲的で、ボディポーズ推定などの他の知覚システムと容易に融合し、力覚を必要とするHRIアプリケーションに最適である。 提案手法は,各指の検出・追跡のための指追跡,画像内の空間情報を保存するための画像アライメント,画像内の着色パターンから3次元力を推定する力モデル,の3つの主要モジュールから構成される。 このモデルは実験的に実装されており、結果は3つの方向に沿って最大rms誤差が8.4%(全力レベル)であることを示した。 推定精度はeignenailのような文献のオフラインモデルに匹敵するが、このモデルは毎秒30フレームの力推定を行うことができる。

This paper has introduced a novel approach for the real-time estimation of 3D tactile forces exerted by human fingertips via vision only. The introduced approach is entirely monocular vision-based and does not require any physical force sensor. Therefore, it is scalable, non-intrusive, and easily fused with other perception systems such as body pose estimation, making it ideal for HRI applications where force sensing is necessary. The introduced approach consists of three main modules: finger tracking for detection and tracking of each individual finger, image alignment for preserving the spatial information in the images, and the force model for estimating the 3D forces from coloration patterns in the images. The model has been implemented experimentally, and the results have shown a maximum RMS error of 8.4% (for the entire range of force levels) along all three directions. The estimation accuracy is comparable to the offline models in the literature, such as EigneNail, while, this model is capable of performing force estimation at 30 frames per second.
翻訳日:2021-10-01 14:41:13 公開日:2021-09-30
# LiDARパノプティブセグメンテーションのための教師なしドメイン適応

Unsupervised Domain Adaptation for LiDAR Panoptic Segmentation ( http://arxiv.org/abs/2109.15286v1 )

ライセンス: Link先を確認
Borna Be\v{s}i\'c, Nikhil Gosala, Daniele Cattaneo, and Abhinav Valada(参考訳) シーン理解は、自動運転車が安全に環境をナビゲートするための重要なタスクである。 ディープラーニングの最近の進歩は、LiDARデータから環境の正確なセマンティック再構築を可能にする。 しかし、これらのモデルは、異なるLiDARセットアップを備えた車両に配置しながら大きなドメインギャップに直面するため、性能が劇的に低下する。 新しい設定ごとにモデルを微調整することは、新しいデータを記録し手動でラベル付けする、高価で面倒なプロセスのために実現できない。 したがって、このドメインギャップを埋め、追加のデータラベリングを必要とせずに、新しいセンサー設定でモデルの性能を維持するために、教師なしのドメイン適応(UDA)技術が不可欠である。 本稿では,タスク固有の知識を活用し,スキャンライン数,取付位置,強度分布,環境条件の変動を考慮した,LiDARパン光学セグメンテーションのための新しいUDAアプローチであるAdaptLPSを提案する。 データベースとモデルベースという2つの補完的なドメイン適応戦略を採用することで、UDAタスクに取り組む。 データベースの適応は、生のLiDARスキャンを対象ドメインのスキャンに類似させることによってドメインギャップを減らすが、モデルベースの手法は、両方のドメインに代表される特徴を抽出するネットワークを導く。 3組の現実の自律走行データセットに対する大規模な評価は、AdaptLPSがPQスコアの点で既存のUDAアプローチより6.41ppも優れていることを示している。

Scene understanding is a pivotal task for autonomous vehicles to safely navigate in the environment. Recent advances in deep learning enable accurate semantic reconstruction of the surroundings from LiDAR data. However, these models encounter a large domain gap while deploying them on vehicles equipped with different LiDAR setups which drastically decreases their performance. Fine-tuning the model for every new setup is infeasible due to the expensive and cumbersome process of recording and manually labeling new data. Unsupervised Domain Adaptation (UDA) techniques are thus essential to fill this domain gap and retain the performance of models on new sensor setups without the need for additional data labeling. In this paper, we propose AdaptLPS, a novel UDA approach for LiDAR panoptic segmentation that leverages task-specific knowledge and accounts for variation in the number of scan lines, mounting position, intensity distribution, and environmental conditions. We tackle the UDA task by employing two complementary domain adaptation strategies, data-based and model-based. While data-based adaptations reduce the domain gap by processing the raw LiDAR scans to resemble the scans in the target domain, model-based techniques guide the network in extracting features that are representative for both domains. Extensive evaluations on three pairs of real-world autonomous driving datasets demonstrate that AdaptLPS outperforms existing UDA approaches by up to 6.41 pp in terms of the PQ score.
翻訳日:2021-10-01 14:40:57 公開日:2021-09-30
# 認知機会ネットワークによるクラウドソーシング

Crowdsourcing through Cognitive Opportunistic Networks ( http://arxiv.org/abs/2109.14946v1 )

ライセンス: Link先を確認
M. Mordacchini, A. Passarella, M. Conti, S.M. Allen, M.J. Chorley, G.B. Colombo, V. Tanasescu and R.M. Whitaker(参考訳) 最近までクラウドソーシングは、主に問題解決にリソースを活用するオンライン活動として考えられてきた。 しかし,Opportunistic Network(ON)の出現により,クラウドソーシングが空間領域に開放された。 本稿では,スマートシティ環境におけるクラウドソーシングのためのONモデルを提案する。 我々は,ユーザのモバイルデバイスが周囲の物理的環境を認識することを可能にする認知機能をオンに導入する。 具体的には,動的な記憶構造や認知的ヒューリスティックスに関する認知心理学研究,すなわち,人間の脳が複雑かつリアルタイムな刺激の中で意思決定をどう扱うかを記述するメンタルモデルを利用する。 これらの認知機能はONと組み合わせることで、デバイスがユーザのサイバーワールドのプロキシとして機能し、知識を交換することで、都市環境における場所の認識を提供する。 これはロケーションに関連付けられたタグを通じて行われる。 場所に関する人間によって知覚される特徴を表す。 我々は,この知識が参加者に利用可能になる程度を,場所や他のノードとのインタラクションを用いて検討する。 これは幅広い認知的パラメータを考慮して評価される。 この機能は従来のネットワーク形式に依存しない新しいタイプのレコメンデーションシステムをサポートする可能性があるため、成果は重要である。

Untile recently crowdsourcing has been primarily conceived as an online activity to harness resources for problem solving. However the emergence of opportunistic networking (ON) has opened up crowdsourcing to the spatial domain. In this paper we bring the ON model for potential crowdsourcing in the smart city environment. We introduce cognitive features to the ON that allow users' mobile devices to become aware of the surrounding physical environment. Specifically, we exploit cognitive psychology studies on dynamic memory structures and cognitive heuristics, i.e. mental models that describe how the human brain handle decision-making amongst complex and real-time stimuli. Combined with ON, these cognitive features allow devices to act as proxies in the cyber-world of their users and exchange knowledge to deliver awareness of places in an urban environment. This is done through tags associated with locations. They represent features that are perceived by humans about a place. We consider the extent to which this knowledge becomes available to participants, using interactions with locations and other nodes. This is assessed taking into account a wide range of cognitive parameters. Outcomes are important because this functionality could support a new type of recommendation system that is independent of the traditional forms of networking.
翻訳日:2021-10-01 14:40:31 公開日:2021-09-30
# スパースデータ解析による走査型電子顕微鏡の自動化

An Automated Scanning Transmission Electron Microscope Guided by Sparse Data Analytics ( http://arxiv.org/abs/2109.14772v1 )

ライセンス: Link先を確認
Matthew Olszta, Derek Hopkins, Kevin R. Fiedler, Marjolein Oostrom, Sarah Akers, Steven R. Spurgeon(参考訳) ai(artificial intelligence)は、科学調査を再構築し、エネルギー貯蔵、量子コンピューティング、バイオメディシンといった分野における画期的な発見を可能にすることを約束している。 化学・材料システム研究の基盤となる走査透過電子顕微鏡(STEM)は、AIによる自動化の恩恵を受けている。 しかし、低レベルの機器制御への障壁と、一般化し、解釈可能な特徴検出は、真に自動化された顕微鏡を実用的でないものにする。 本稿では,新しいsparseデータ分析によって導かれる閉ループ型インスツルメンテーション制御プラットフォームの設計について述べる。 機械学習によって学習される集中型コントローラが、知識とタスクベースの識別を制限して、オンザフライで実験的な意思決定を駆動する方法を実証する。 このプラットフォームは、様々な素材の特徴を実用的で自動で分析し、新しい高スループットおよび統計的研究を可能にする。

Artificial intelligence (AI) promises to reshape scientific inquiry and enable breakthrough discoveries in areas such as energy storage, quantum computing, and biomedicine. Scanning transmission electron microscopy (STEM), a cornerstone of the study of chemical and materials systems, stands to benefit greatly from AI-driven automation. However, present barriers to low-level instrument control, as well as generalizable and interpretable feature detection, make truly automated microscopy impractical. Here, we discuss the design of a closed-loop instrument control platform guided by emerging sparse data analytics. We demonstrate how a centralized controller, informed by machine learning combining limited $a$ $priori$ knowledge and task-based discrimination, can drive on-the-fly experimental decision-making. This platform unlocks practical, automated analysis of a variety of material features, enabling new high-throughput and statistical studies.
翻訳日:2021-10-01 14:38:42 公開日:2021-09-30
# ベイズ強化学習による監視回避

Surveillance Evasion Through Bayesian Reinforcement Learning ( http://arxiv.org/abs/2109.14811v1 )

ライセンス: Link先を確認
Dongping Qi, David Bindel, Alexander Vladimirsky(参考訳) 我々は,無作為終了の強さが全く不明な2次元連続経路計画問題を考える。回避者は,敵オブザーバによる検出(ターミネーション)の累積リスクを最小化しつつ,ドメインを脱出しようとする。 観測者の監視力は未熟であり、繰り返し経路計画を通じて学ぶ必要がある。 ガウス過程回帰(gaussian process regression)を用いて未知の監視強度をモデル化する新しいアルゴリズムを提案し,戦略探索を促進するための信頼結合手法に依拠する。 本手法をいくつかの例から説明し,平均的な後悔の収束を実験的に確認する。

We consider a 2D continuous path planning problem with a completely unknown intensity of random termination: an Evader is trying to escape a domain while minimizing the cumulative risk of detection (termination) by adversarial Observers. Those Observers' surveillance intensity is a priori unknown and has to be learned through repetitive path planning. We propose a new algorithm that utilizes Gaussian process regression to model the unknown surveillance intensity and relies on a confidence bound technique to promote strategic exploration. We illustrate our method through several examples and confirm the convergence of averaged regret experimentally.
翻訳日:2021-10-01 14:38:26 公開日:2021-09-30
# FPGAを用いたSVM分類器を用いたメラノーマ検出システム

A system on chip for melanoma detection using FPGA-based SVM classifier ( http://arxiv.org/abs/2109.14840v1 )

ライセンス: Link先を確認
Shereen Afifi, Hamid GholamHosseini, and Roopak Sinha(参考訳) Support Vector Machine (SVM)は、さまざまな分類問題で高精度な機械学習モデルであり、様々な組み込みアプリケーションに広く利用されている。 しかし,複雑な計算を必要とするため,組込みSVM分類器の実装は困難である。 これにより、ハードウェアプラットフォーム上でSVMを実装し、低コストで高性能なコンピューティングを実現できる。 メラノーマは皮膚がんの最も攻撃的な形態であり、死亡率を増加させる。 医療現場でメラノーマを早期に検出するための,低コストハンドヘルドデバイス専用の組込みSVM分類器の開発を目指している。 本稿では,SVM分類器をFPGA上に実装し,チップ上でメラノーマ検出を実現するハードウェア/ソフトウェア共同設計を提案する。 最新のUltraFast High-Level Synthesis設計手法を利用した最近のFPGA(Zynq)プラットフォーム上で実装されたSVMは、チップ上で効率的なメラノーマ分類を実現する。 ハードウェア実装の結果、分類精度は97.9%、ハードウェアアクセラレーション速度は21で、リソース利用は3%、消費電力は1.69wであった。 以上の結果から,チップ上に実装されたシステムは,高性能かつ低資源利用,消費電力,コストといった重要な組込みシステムの制約を満たしつつ,高い分類精度で効率的な分類を実現する。

Support Vector Machine (SVM) is a robust machine learning model that shows high accuracy with different classification problems, and is widely used for various embedded applications. However , implementation of embedded SVM classifiers is challenging, due to the inherent complicated computations required. This motivates implementing the SVM on hardware platforms for achieving high performance computing at low cost and power consumption. Melanoma is the most aggressive form of skin cancer that increases the mortality rate. We aim to develop an optimized embedded SVM classifier dedicated for a low-cost handheld device for early detection of melanoma at the primary healthcare. In this paper, we propose a hardware/software co-design for implementing the SVM classifier onto FPGA to realize melanoma detection on a chip. The implemented SVM on a recent hybrid FPGA (Zynq) platform utilizing the modern UltraFast High-Level Synthesis design methodology achieves efficient melanoma classification on chip. The hardware implementation results demonstrate classification accuracy of 97.9%, and a significant hardware acceleration rate of 21 with only 3% resources utilization and 1.69W for power consumption. These results show that the implemented system on chip meets crucial embedded system constraints of high performance and low resources utilization, power consumption, and cost, while achieving efficient classification with high classification accuracy.
翻訳日:2021-10-01 14:38:16 公開日:2021-09-30
# 異なるシミュレーションによるソフトロボット魚の学習材料パラメータと流体力学

Learning Material Parameters and Hydrodynamics of Soft Robotic Fish via Differentiable Simulation ( http://arxiv.org/abs/2109.14855v1 )

ライセンス: Link先を確認
John Z. Zhang, Yu Zhang, Pingchuan Ma, Elvis Nava, Tao Du, Philip Arm, Wojciech Matusik, Robert K. Katzschmann(参考訳) ソフトメカニズムの高次元性と流体-構造相互作用の複雑な物理は、ソフトロボットにとって特に困難である。 本フレームワークは, 実ハードウェアにおける複合バイモルフ曲げ構造の動的挙動を高精度に予測し, 測定の不確実性に近い精度を実現する。 我々は,ロボットの材料パラメータと流体力学を学習することで,このギャップに対処する。 準静的および動的データから物質パラメータと流体力学を微分可能シミュレーションにより学習するための,実験的に検証された高速な最適化パイプラインを示す。 3種類の魚ロボットの設計に用いた各種軟質シリコーンエラストマーおよび硬質アセタール共重合体の物理的に有理なヤングモジュラーを同定した。 これらのロボットに対して、解析モデルよりもスラスト力の微分可能でより堅牢な推定を行い、様々なアクチュエータ信号の下での動的実験においてミリ精度の変形を予測することに成功した。 我々は水中ソフトロボットの特定の応用に焦点をあてるが、このフレームワークは、任意のpneumatally actuated soft mechanismに適用できる。 本研究は,高次元パラメータ推論,学習制御ポリシ,微分可能性によって実現可能な計算設計に容易に拡張可能な,我々のフレームワークを用いたプロトタイプハードウェアとシミュレーション問題を提示する。

The high dimensionality of soft mechanisms and the complex physics of fluid-structure interactions render the sim2real gap for soft robots particularly challenging. Our framework allows high fidelity prediction of dynamic behavior for composite bi-morph bending structures in real hardware to accuracy near measurement uncertainty. We address this gap with our differentiable simulation tool by learning the material parameters and hydrodynamics of our robots. We demonstrate an experimentally-verif ied, fast optimization pipeline for learning the material parameters and hydrodynamics from quasi-static and dynamic data via differentiable simulation. Our method identifies physically plausible Young's moduli for various soft silicone elastomers and stiff acetal copolymers used in creation of our three different fish robot designs. For these robots we provide a differentiable and more robust estimate of the thrust force than analytical models and we successfully predict deformation to millimeter accuracy in dynamic experiments under various actuation signals. Although we focus on a specific application for underwater soft robots, our framework is applicable to any pneumatically actuated soft mechanism. This work presents a prototypical hardware and simulation problem solved using our framework that can be extended straightforwardly to higher dimensional parameter inference, learning control policies, and computational design enabled by its differentiability.
翻訳日:2021-10-01 14:37:56 公開日:2021-09-30
# セマンティックKNNアルゴリズムを用いた友人推薦システム

A Friend Recommendation System using Semantic Based KNN Algorithm ( http://arxiv.org/abs/2109.14970v1 )

ライセンス: Link先を確認
Srikantaiah K C, Salony Mewara, Sneha Goyal, Subhiksha S(参考訳) ソーシャルネットワークは私たちの生活の大部分を占めており、私たちは日々の目的に依存しています。 世界最小の町でも、世界中の人々が使用する媒体である。 主な目的は、人とのコミュニケーションの促進と支援である。 FacebookやTwitterなどのソーシャルネットワークは、個人が互いに何かについてコミュニケーションするための唯一の目的のために作られた。 これらのネットワークは、世界中のあらゆる場所から友達を作るための重要かつ現代的な方法になりつつある。 これらの新しい友達はどんなソーシャルメディアでもコミュニケーションできる。 レコメンデーションシステムはすべてのソーシャルネットワークに存在し、ユーザーが新しい友達を見つけ、より多くの人々と団結し、人とのつながりや同盟を形成するのを助ける。

Social networking has become a major part of all our lives and we depend on it for day to day purposes. It is a medium that is used by people all around the world even in the smallest of towns. Its main purpose is to promote and aid communication between people. Social networks, such as Facebook, Twitter etc. were created for the sole purpose of helping individuals communicate about anything with each other. These networks are becoming an important and also contemporary method to make friends from any part of this world. These new friends can communicate through any form of social media. Recommendation systems exist in all the social networks which aid users to find new friends and unite to more people and form associations and alliances with people.
翻訳日:2021-10-01 14:37:33 公開日:2021-09-30
# 深層強化学習による視覚慣性校正のための統一データ収集

Unified Data Collection for Visual-Inertial Calibration via Deep Reinforcement Learning ( http://arxiv.org/abs/2109.14974v1 )

ライセンス: Link先を確認
Yunke Ao, Le Chen, Florian Tschopp, Michel Breyer, Andrei Cramariuc, Roland Siegwart(参考訳) 視覚慣性センサーは、ロボット工学に幅広い応用がある。 しかし、優れたパフォーマンスは、カメラ内在とセンサー間外在を正確に調整するために、異なる高度な動作ルーチンを必要とすることが多い。 本研究は,ロボットアーム上で実行される動作ポリシーを学習し,内在・外在を共同で校正するための自動データ収集方法である。 提案手法は, モデルレス深部強化学習を用いてコンパクトにキャリブレーション過程をモデル化し, センサを有するロボットアームの動作を誘導し, カメラ内装キャリブレーションとカメラ外装キャリブレーションの両方に使用できる測定値を効率的に収集する。 現在のポーズと収集された測定値から、学習されたポリシーは、センサーの校正精度を最適化するその後の変換を生成する。 シミュレーションと実際のロボットシステムによる評価は,学習方針が良好な運動軌跡を生成できることを示し,所望の内在・外因論を短い経路長で効率よく収集することを示した。 シミュレーションでは、手作りのポリシーの10倍の速さでキャリブレーションを実行できます。

Visual-inertial sensors have a wide range of applications in robotics. However, good performance often requires different sophisticated motion routines to accurately calibrate camera intrinsics and inter-sensor extrinsics. This work presents a novel formulation to learn a motion policy to be executed on a robot arm for automatic data collection for calibrating intrinsics and extrinsics jointly. Our approach models the calibration process compactly using model-free deep reinforcement learning to derive a policy that guides the motions of a robotic arm holding the sensor to efficiently collect measurements that can be used for both camera intrinsic calibration and camera-IMU extrinsic calibration. Given the current pose and collected measurements, the learned policy generates the subsequent transformation that optimizes sensor calibration accuracy. The evaluations in simulation and on a real robotic system show that our learned policy generates favorable motion trajectories and collects enough measurements efficiently that yield the desired intrinsics and extrinsics with short path lengths. In simulation we are able to perform calibrations 10 times faster than hand-crafted policies, which transfers to a real-world speed up of 3 times over a human expert.
翻訳日:2021-10-01 14:37:23 公開日:2021-09-30
# 深層学習のための物理勾配

Physical Gradients for Deep Learning ( http://arxiv.org/abs/2109.15048v1 )

ライセンス: Link先を確認
Philipp Holl, Vladlen Koltun, Nils Thuerey(参考訳) パラメータ推定や最適制御といった逆問題を解くことは科学の重要な部分である。 多くの実験は繰り返しデータを収集し、機械学習アルゴリズムを用いて関連する逆問題に対する解を素早く推論する。 グラデーションの大きさや方向が強く変化するため、最先端のトレーニング技術は物理プロセスに関わる多くの問題に適していないことが判明した。 本稿では,高次最適化手法と機械学習手法を組み合わせた新しいハイブリッドトレーニング手法を提案する。 我々は、物理過程の勾配を、物理勾配と呼ばれる新しい構造に置き換える。 これにより、ソリューション空間に関する事前知識を勾配に組み込むことで、トレーニングにドメイン知識を導入することもできます。 本手法は,様々な物理系において有効であることを実証し,様々な最適化や学習問題に対して,物理的勾配が大幅な改善をもたらすことを示した。

Solving inverse problems, such as parameter estimation and optimal control, is a vital part of science. Many experiments repeatedly collect data and employ machine learning algorithms to quickly infer solutions to the associated inverse problems. We find that state-of-the-art training techniques are not well-suited to many problems that involve physical processes since the magnitude and direction of the gradients can vary strongly. We propose a novel hybrid training approach that combines higher-order optimization methods with machine learning techniques. We replace the gradient of the physical process by a new construct, referred to as the physical gradient. This also allows us to introduce domain knowledge into training by incorporating priors about the solution space into the gradients. We demonstrate the capabilities of our method on a variety of canonical physical systems, showing that physical gradients yield significant improvements on a wide range of optimization and learning problems.
翻訳日:2021-10-01 14:36:05 公開日:2021-09-30
# 現代のコードレビューにおけるコードレビュー完了時間の予測

Predicting Code Review Completion Time in Modern Code Review ( http://arxiv.org/abs/2109.15141v1 )

ライセンス: Link先を確認
Moataz Chouchen, Jefferson Olongo, Ali Ouni, Mohamed Wiem Mkaouer(参考訳) コンテキスト。 Modern Code Review (MCR)は、オープンソースと商用の両方で共通のプラクティスとして採用されている。 MCRは品質保証のプラクティスとして広く知られており、欠陥の早期発見とコーディングの実践が貧弱である。 知識共有やチーム意識,コラボレーションなど,他にもいくつかのメリットがあります。 問題よ 実際には、コードレビューはプロジェクトの品質やコストに影響を及ぼす様々な社会技術的要因のために、かなりの遅延を経験することがある。 レビュープロセスが成功するためには、ピアレビュアがレビュータスクをタイムリーに実行し、レビューされるコード変更に関する適切なフィードバックを提供する必要がある。 しかし、レビュー要求を受け入れるか拒否する前に、開発者がコードレビューを完了するのに必要な時間を見積もるのに役立つツールが不足している。 目的。 私たちの目標は、MCRのコンテキストでコードレビュー完了時間を予測し、開発者がコードレビュータスクをよりよく管理し優先順位付けするための効果的なアプローチを構築し、検証することにあります。 方法。 コードレビュー完了時間の予測を学習問題として定式化する。 特に回帰モデルに基づくフレームワークを提案する。 (i)コードのレビュー完了時間を効果的に見積もる (ii)コードレビューの完了に影響を及ぼす主な要因を理解する。

Context. Modern Code Review (MCR) is being adopted in both open source and commercial projects as a common practice. MCR is a widely acknowledged quality assurance practice that allows early detection of defects as well as poor coding practices. It also brings several other benefits such as knowledge sharing, team awareness, and collaboration. Problem. In practice, code reviews can experience significant delays to be completed due to various socio-technical factors which can affect the project quality and cost. For a successful review process, peer reviewers should perform their review tasks in a timely manner while providing relevant feedback about the code change being reviewed. However, there is a lack of tool support to help developers estimating the time required to complete a code review prior to accepting or declining a review request. Objective. Our objective is to build and validate an effective approach to predict the code review completion time in the context of MCR and help developers better manage and prioritize their code review tasks. Method. We formulate the prediction of the code review completion time as a learning problem. In particular, we propose a framework based on regression models to (i) effectively estimate the code review completion time, and (ii) understand the main factors influencing code review completion time.
翻訳日:2021-10-01 14:35:50 公開日:2021-09-30
# モバイルネットワーク最適化のための協調強化学習

Coordinated Reinforcement Learning for Optimizing Mobile Networks ( http://arxiv.org/abs/2109.15175v1 )

ライセンス: Link先を確認
Maxime Bouton, Hasan Farooq, Julien Forgeat, Shruti Bothe, Meral Shirazipour, Per Karlsson(参考訳) モバイルネットワークは多くの基地局で構成されており、それぞれに優れたサービスを提供するために多くのパラメータを最適化する必要がある。 これらのエンティティを自動的かつ動的に最適化することは、環境の変化に敏感であり、干渉によって互いに影響しあうため、難しい。 強化学習(rl)アルゴリズムは、入力データからベースステーションの構成戦略を自動的に学習する良い候補であるが、多くのエージェントにスケールするのは難しい。 本研究では、数百の協調エージェントを含む複雑なアプリケーションにおいて、協調グラフと強化学習の使い方を示す。 協調グラフを用いてモバイルネットワークをモデル化し、マルチエージェント強化学習を用いてネットワーク最適化問題を効率的に解く方法を示す。 グラフ構造は、ネットワークに関する専門家の知識から自然に発生し、ニューラルネットワークで表されるエッジ値関数を通じてアンテナ間の振舞いを明示的に学習することができる。 協調強化学習は他の手法よりも優れていることを示す。 ローカルなRL更新とパラメータ共有を使用することで、調整を犠牲にすることなく多数のエージェントを処理できるため、5G以上の高密度ネットワークを最適化するのに適している。

Mobile networks are composed of many base stations and for each of them many parameters must be optimized to provide good services. Automatically and dynamically optimizing all these entities is challenging as they are sensitive to variations in the environment and can affect each other through interferences. Reinforcement learning (RL) algorithms are good candidates to automatically learn base station configuration strategies from incoming data but they are often hard to scale to many agents. In this work, we demonstrate how to use coordination graphs and reinforcement learning in a complex application involving hundreds of cooperating agents. We show how mobile networks can be modeled using coordination graphs and how network optimization problems can be solved efficiently using multi- agent reinforcement learning. The graph structure occurs naturally from expert knowledge about the network and allows to explicitly learn coordinating behaviors between the antennas through edge value functions represented by neural networks. We show empirically that coordinated reinforcement learning outperforms other methods. The use of local RL updates and parameter sharing can handle a large number of agents without sacrificing coordination which makes it well suited to optimize the ever denser networks brought by 5G and beyond.
翻訳日:2021-10-01 14:35:30 公開日:2021-09-30
# 逆オートエンコーダによる潜在ネットワーク埋め込み

Latent Network Embedding via Adversarial Auto-encoders ( http://arxiv.org/abs/2109.15257v1 )

ライセンス: Link先を確認
Minglong Lei and Yong Shi and Lingfeng Niu(参考訳) グラフの自動エンコーダは、ネットワーク埋め込みタスクで有用であることが証明されている。 しかし、現在のモデルは明示的な構造のみを考慮し、ネットワークに密着した情報的潜在構造を探索することができない。 この問題に対処するために,逆グラフ自動エンコーダに基づく潜在ネットワーク埋め込みモデルを提案する。 この枠組みの下では、潜在構造の発見問題は部分的観測から潜在結合を推測するものとして定式化されている。 ネットワーク上の拡散過程をシミュレートしてサンプリングした影響カスケードに基づいて,既存のエッジと潜伏結合の強度を記述する潜伏伝達行列を導出する。 また, 推定処理によって余分なノイズが生じる可能性があるため, ノイズを除去し, モデルロバスト性を向上させるために, 正則化として機能する対向訓練を導入する。 リンク予測とノード分類タスクに関する広範囲な実験により,提案モデルがベースラインモデルよりも優れた結果が得られることが示された。

Graph auto-encoders have proved to be useful in network embedding task. However, current models only consider explicit structures and fail to explore the informative latent structures cohered in networks. To address this issue, we propose a latent network embedding model based on adversarial graph auto-encoders. Under this framework, the problem of discovering latent structures is formulated as inferring the latent ties from partial observations. A latent transmission matrix that describes the strengths of existing edges and latent ties is derived based on influence cascades sampled by simulating diffusion processes over networks. Besides, since the inference process may bring extra noises, we introduce an adversarial training that works as regularization to dislodge noises and improve the model robustness. Extensive experiments on link prediction and node classification tasks show that the proposed model achieves superior results compared with baseline models.
翻訳日:2021-10-01 14:35:10 公開日:2021-09-30
# ディープコンテクストビデオ圧縮

Deep Contextual Video Compression ( http://arxiv.org/abs/2109.15047v1 )

ライセンス: Link先を確認
Jiahao Li, Bin Li, Yan Lu(参考訳) 既存のニューラルビデオ圧縮手法の多くは予測符号化フレームワークを採用しており、予測されたフレームを最初に生成し、その残差を現在のフレームでエンコードする。 しかし、圧縮比については、フレーム間の冗長性を取り除くために単純な減算演算を用いるため、予測符号化は副最適解に過ぎない。 本稿では,予測符号化から条件符号化へのパラダイムシフトを可能にする深層映像圧縮フレームワークを提案する。 特に、ディープビデオ圧縮フレームワークの下で条件をどのように定義、使用、学習するか、という疑問に答えようとしている。 条件付きコーディングの可能性を活用するために,特徴領域コンテキストを条件として使用することを提案する。 これにより、高次元のコンテキストを利用してエンコーダとデコーダの両方にリッチな情報を運ぶことができ、高周波数コンテンツを高画質に再構成するのに役立つ。 私たちのフレームワークも拡張可能で、条件を柔軟に設計することができます。 実験により,本手法は,従来のsota (state-of-the-art) 深部映像圧縮法を大きく上回ることを示した。 非常に遅いプリセットを使用したx265と比較すると、1080P標準テストビデオのビットレートを26.0%削減できる。

Most of the existing neural video compression methods adopt the predictive coding framework, which first generates the predicted frame and then encodes its residue with the current frame. However, as for compression ratio, predictive coding is only a sub-optimal solution as it uses simple subtraction operation to remove the redundancy across frames. In this paper, we propose a deep contextual video compression framework to enable a paradigm shift from predictive coding to conditional coding. In particular, we try to answer the following questions: how to define, use, and learn condition under a deep video compression framework. To tap the potential of conditional coding, we propose using feature domain context as condition. This enables us to leverage the high dimension context to carry rich information to both the encoder and the decoder, which helps reconstruct the high-frequency contents for higher video quality. Our framework is also extensible, in which the condition can be flexibly designed. Experiments show that our method can significantly outperform the previous state-of-the-art (SOTA) deep video compression methods. When compared with x265 using veryslow preset, we can achieve 26.0% bitrate saving for 1080P standard test videos.
翻訳日:2021-10-01 14:34:54 公開日:2021-09-30
# 係数しきい値付きロバストな高次元回帰とイメージングデータ解析への応用

Robust High-Dimensional Regression with Coefficient Thresholding and its Application to Imaging Data Analysis ( http://arxiv.org/abs/2109.14856v1 )

ライセンス: Link先を確認
Bingyuan Liu, Qi Zhang, Lingzhou Xue, Peter X.K. Song, and Jian Kang(参考訳) 画像データ解析などの実世界の応用において、複雑な依存と可能な外れ値の両方が存在する場合、高次元データを解析する統計手法を開発することが重要である。 そこで本研究では, しきい値関数とロバストなフーバー損失を用いて, 効率の良い非凸推定法を提案する。 提案手法は予測器の複雑な依存構造を考慮し,結果の外れ値に対して頑健である。 理論的には,提案手法の人口分布と経験的リスク関数を厳密に分析する。 微妙なランドスケープにより,高次元環境下での統計的一貫性と計算収束の両立が可能である。 提案手法の有限サンプル特性を広範囲なシミュレーションにより検討した。 実世界の応用の図は、精神病理学の一般因子によって測定された精神障害と、青年期脳認知発達研究におけるタスク機能的磁気共鳴画像データから抽出された特徴の関連に関するスカラー・オン・イメージ回帰分析に関するものである。

It is of importance to develop statistical techniques to analyze high-dimensional data in the presence of both complex dependence and possible outliers in real-world applications such as imaging data analyses. We propose a new robust high-dimensional regression with coefficient thresholding, in which an efficient nonconvex estimation procedure is proposed through a thresholding function and the robust Huber loss. The proposed regularization method accounts for complex dependence structures in predictors and is robust against outliers in outcomes. Theoretically, we analyze rigorously the landscape of the population and empirical risk functions for the proposed method. The fine landscape enables us to establish both {statistical consistency and computational convergence} under the high-dimensional setting. The finite-sample properties of the proposed method are examined by extensive simulation studies. An illustration of real-world application concerns a scalar-on-image regression analysis for an association of psychiatric disorder measured by the general factor of psychopathology with features extracted from the task functional magnetic resonance imaging data in the Adolescent Brain Cognitive Development study.
翻訳日:2021-10-01 14:34:36 公開日:2021-09-30
# 深層強化学習に基づくビットコイン取引戦略構築

Bitcoin Transaction Strategy Construction Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2109.14789v1 )

ライセンス: Link先を確認
Fengrui Liu, Yang Li, Baitong Li, Jiaxin Li, Huiyang Xie(参考訳) 新興通貨市場は近年、分散化の独自性により資産配分に大きな注目を集めている。 しかし、そのボラティリティと新しいトレーディングモードは、許容可能な自動生成戦略を考案することを困難にしている。 本研究では,PPO(Deep reinforcement learning algorithm-proximal Policy Optimization)に基づく,高速ビットコイン取引の自動処理フレームワークを提案する。 この枠組みは、トランザクションプロセスを行動とみなし、強化学習の考え方と整合する国家として賞と価格として返却する。 サポートベクタマシン(SVM)、多層パーセプトロン(MLP)、長期記憶(LSTM)、時間畳み込みネットワーク(TCN)、Transformerなど、静的価格予測のための高度な機械学習ベースのモデルを比較し、リアルタイムbitcoin価格に適用することでLSTMのパフォーマンスが向上することを示した。 次に、ポリシー構築の基盤としてLSTMを用いてPPO上に自動生成トランザクション戦略を構築する。 大規模な実証研究により,提案手法は単一金融商品の様々な共通取引戦略ベンチマークよりも優れた性能を示した。 このアプローチは、同期データでシミュレーション環境でbitcoinを交換することができ、最高のベンチマークよりも31.67%高いリターンを獲得し、ベンチマークを12.75%改善する。 提案したフレームワークは、ボラティリティと急上昇の期間を通じて過剰なリターンを得ることができるため、ディープラーニングに基づく単一暗号通貨取引戦略を構築するための扉を開くことができる。 プロセスの可視化は、モデルが高周波トランザクションをどのように扱うかを示し、インスピレーションを与え、他の金融製品に拡張できることを示す。

The emerging cryptocurrency market has lately received great attention for asset allocation due to its decentralization uniqueness. However, its volatility and brand new trading mode have made it challenging to devising an acceptable automatically-genera ting strategy. This study proposes a framework for automatic high-frequency bitcoin transactions based on a deep reinforcement learning algorithm-proximal policy optimization (PPO). The framework creatively regards the transaction process as actions, returns as awards and prices as states to align with the idea of reinforcement learning. It compares advanced machine learning-based models for static price predictions including support vector machine (SVM), multi-layer perceptron (MLP), long short-term memory (LSTM), temporal convolutional network (TCN), and Transformer by applying them to the real-time bitcoin price and the experimental results demonstrate that LSTM outperforms. Then an automatically-genera ting transaction strategy is constructed building on PPO with LSTM as the basis to construct the policy. Extensive empirical studies validate that the proposed method performs superiorly to various common trading strategy benchmarks for a single financial product. The approach is able to trade bitcoins in a simulated environment with synchronous data and obtains a 31.67% more return than that of the best benchmark, improving the benchmark by 12.75%. The proposed framework can earn excess returns through both the period of volatility and surge, which opens the door to research on building a single cryptocurrency trading strategy based on deep learning. Visualizations of trading the process show how the model handles high-frequency transactions to provide inspiration and demonstrate that it can be expanded to other financial products.
翻訳日:2021-10-01 14:34:00 公開日:2021-09-30
# SCIMAT:科学と数学のデータセット

SCIMAT: Science and Mathematics Dataset ( http://arxiv.org/abs/2109.15005v1 )

ライセンス: Link先を確認
Neeraj Kollepara, Snehith Kumar Chatakonda, Pawan Kumar(参考訳) 本研究は,数学と科学における大学レベルの問題に対する数百万のサンプルを用いた,包括的かつ精巧なオープンソースデータセットを公表する。 文字と文字をエンコーディングするトランスアーキテクチャを用いた予備的な結果セットを示す。 データセットはいくつかの困難な問題を特定し、アーキテクチャの検索を改善する研究を招待する

In this work, we announce a comprehensive well curated and opensource dataset with millions of samples for pre-college and college level problems in mathematicsand science. A preliminary set of results using transformer architecture with character to character encoding is shown. The dataset identifies some challenging problem and invites research on better architecture search
翻訳日:2021-10-01 14:33:30 公開日:2021-09-30
# 多様性制約を伴うロバストな配置

Robust Allocations with Diversity Constraints ( http://arxiv.org/abs/2109.15015v1 )

ライセンス: Link先を確認
Zeyu Shen and Lodewijk Gelauff and Ashish Goel and Aleksandra Korolova and Kamesh Munagala(参考訳) 我々は,複数のエージェント間で分割可能なアイテムを割り当てる問題を考えるとともに,エージェントが割り当てられたアイテムに多様性の制約を導入することを許容する設定を検討する。 我々は、アイテム自体がユーザー広告スロットやタスクワーカーと競合やジェンダーなどの属性で対応し、プリンシパルが人口比率を達成しようとする設定を通じてこれを動機付けている。 エージェントがアロケーションルールに多様性の制約を表現した場合、他のエージェントのアロケーションは著しく痛むか? このような制約を導入するコストは、多様性の恩恵を受けないエージェントによって不当に負担される。 強靭性を捉えた2つのデシラタを用いてこれを符号化する。 これらは負の外部性ではなく、他のエージェントが傷つかない -- モノトニック性 -- 制約を強制するエージェントは、値が大きく増加することはない。 エージェント価値の積を最大化するnashの福祉規則は、多様性の制約が導入されると一意に強固に位置づけられるが、他のほぼ全ての自然割当規則はこの基準を満たさない。 また,ナッシュウェルズによる保証は,広く研究されているアロケーションルールのクラスにおいてほぼ最適であることを示す。 最後に,実世界のデータに対する経験的シミュレーションを行い,広告アロケーションをモデル化することで,ナッシュ福祉と他のルールとのギャップが野放しのままであることを示す。

We consider the problem of allocating divisible items among multiple agents, and consider the setting where any agent is allowed to introduce diversity constraints on the items they are allocated. We motivate this via settings where the items themselves correspond to user ad slots or task workers with attributes such as race and gender on which the principal seeks to achieve demographic parity. We consider the following question: When an agent expresses diversity constraints into an allocation rule, is the allocation of other agents hurt significantly? If this happens, the cost of introducing such constraints is disproportionately borne by agents who do not benefit from diversity. We codify this via two desiderata capturing robustness. These are no negative externality -- other agents are not hurt -- and monotonicity -- the agent enforcing the constraint does not see a large increase in value. We show in a formal sense that the Nash Welfare rule that maximizes product of agent values is uniquely positioned to be robust when diversity constraints are introduced, while almost all other natural allocation rules fail this criterion. We also show that the guarantees achieved by Nash Welfare are nearly optimal within a widely studied class of allocation rules. We finally perform an empirical simulation on real-world data that models ad allocations to show that this gap between Nash Welfare and other rules persists in the wild.
翻訳日:2021-10-01 14:33:26 公開日:2021-09-30
# 極限分類問題における制約付き最適化モデルのリーマン的アプローチについて

On Riemannian Approach for Constrained Optimization Model in Extreme Classification Problems ( http://arxiv.org/abs/2109.15021v1 )

ライセンス: Link先を確認
Jayadev Naram, Tanmay Kumar Sinha, Pawan Kumar(参考訳) 疎低次元局所埋め込みモデルの幾何学的構造を利用する極端に多重ラベル分類問題を解くための新しいリーマン的手法を提案する。 制約付き最適化問題は行列多様体上の最適化問題として定式化し、リーマン最適化法を用いて解く。 提案手法は,実世界の大規模マルチラベルデータセット上でテストされ,数値実験により有用性が実証された。 数値実験により,本手法は学習速度が速く,モデルサイズが最小であることが示唆された。 提案されたリーマン最適化法に対する収束の証明の概要も述べられている。

We propose a novel Riemannian method for solving the Extreme multi-label classification problem that exploits the geometric structure of the sparse low-dimensional local embedding models. A constrained optimization problem is formulated as an optimization problem on matrix manifold and solved using a Riemannian optimization method. The proposed approach is tested on several real world large scale multi-label datasets and its usefulness is demonstrated through numerical experiments. The numerical experiments suggest that the proposed method is fastest to train and has least model size among the embedding-based methods. An outline of the proof of convergence for the proposed Riemannian optimization method is also stated.
翻訳日:2021-10-01 14:33:00 公開日:2021-09-30
# 深層ネットワークにおける自己指導型学習のための生物プラウジブルトレーニング機構

Biologically Plausible Training Mechanisms for Self-Supervised Learning in Deep Networks ( http://arxiv.org/abs/2109.15089v1 )

ライセンス: Link先を確認
Mufeng Tang, Yibo Yang, Yali Amit(参考訳) 我々は,深層ネットワークにおける自己教師付き学習(SSL)のための生物学的に妥当なトレーニング機構を開発する。 SSLは、ラベル付きデータを必要とせず、摂動に対する堅牢性がより適応可能な埋め込みをもたらすため、対照的な損失がある。 さらに、動作中の物体を観察し、時間とともに変動した照明で、SSLの正のペアを作成するために必要なデータの摂動を自然環境において容易に生成する。 本稿では,本論文で採用されている標準的なコントラスト的損失とは対照的に,単純な局所計算を伴う逆ヒンジに基づく損失を,比と内積を含む複雑な計算によるネットワークアーキテクチャの実装に容易には適用できないことを示す。 さらに,バックプロパゲーションの2つの選択肢の1つを用いて学習を行うことができることを示す。 1つ目は差動目標伝播(DTP)であり、これは標的に基づく局所的損失を用いてネットワークパラメータを訓練し、ヘビアン学習規則を用いて、逆伝播において生物学的に不確実な対称重み問題に打ち勝つ。 2つ目は単にレイヤ学習であり、各レイヤは損失エラーを計算するレイヤに直接接続される。 それぞれのトレーニングステージは、単一の隠れレイヤネットワークを含む、グリーディなスタイル(gll)またはランダム順序(rll)で順次更新される。 それぞれのネットワークに必要な1ステップのバックプロパゲーションは、lillicrap et al. (2016) で提案されたように、固定されたランダムなフィードバック重みで変更するか、あるいは amit (2019) で更新されたランダムフィードバックを使用して変更することができる。 どちらの方法も、バックプロパゲーションの対称重み問題に代わるものである。 SSL, DTP, GLL, RLLによる畳み込みニューラルネットワーク(CNN)のトレーニングにより, 提案するフレームワークは, 線形評価と伝達学習の両タスクにおいて, 予測できないような性能を達成できることがわかった。

We develop biologically plausible training mechanisms for self-supervised learning (SSL) in deep networks. SSL, with a contrastive loss, is more natural as it does not require labelled data and its robustness to perturbations yields more adaptable embeddings. Moreover the perturbation of data required to create positive pairs for SSL is easily produced in a natural environment by observing objects in motion and with variable lighting over time. We propose a contrastive hinge based loss whose error involves simple local computations as opposed to the standard contrastive losses employed in the literature, which do not lend themselves easily to implementation in a network architecture due to complex computations involving ratios and inner products. Furthermore we show that learning can be performed with one of two more plausible alternatives to backpropagation. The first is difference target propagation (DTP), which trains network parameters using target-based local losses and employs a Hebbian learning rule, thus overcoming the biologically implausible symmetric weight problem in backpropagation. The second is simply layer-wise learning, where each layer is directly connected to a layer computing the loss error. The layers are either updated sequentially in a greedy fashion (GLL) or in random order (RLL), and each training stage involves a single hidden layer network. The one step backpropagation needed for each such network can either be altered with fixed random feedback weights as proposed in Lillicrap et al. (2016), or using updated random feedback as in Amit (2019). Both methods represent alternatives to the symmetric weight issue of backpropagation. By training convolutional neural networks (CNNs) with SSL and DTP, GLL or RLL, we find that our proposed framework achieves comparable performance to its implausible counterparts in both linear evaluation and transfer learning tasks.
翻訳日:2021-10-01 14:32:31 公開日:2021-09-30
# 移動学習に基づく動的複雑ネットワークのコミュニティ検出のための多目的進化アルゴリズム

Transfer Learning Based Multi-Objective Evolutionary Algorithm for Community Detection of Dynamic Complex Networks ( http://arxiv.org/abs/2109.15136v1 )

ライセンス: Link先を確認
Jungang Zou, Fan Lin, Beizhan Wang, Siyu Gao, Gaoshan Deng, Wenhua Zeng, Gil Alterovitz(参考訳) 動的コミュニティ検出は、近年の複雑なネットワークと人工知能研究のホットスポットであり、基本的な問題である。 ネットワーク構造の変化に伴うクラスタリングの精度を最大化するとともに,2つの結果の2つの連続的なクラスタリング差を最小化する必要がある。 この2つの目的にはトレードオフがある。 本稿では,伝達学習と従来の多目的進化アルゴリズムに基づく特徴伝達に基づく多目的最適化遺伝的アルゴリズム(TMOGA)を提案する。 主なアイデアは、過去のコミュニティ構造から安定した特徴を抽出し、価値ある特徴情報を保持し、この特徴情報を現在の最適化プロセスに統合し、進化アルゴリズムを改善することである。 さらに,情報理論に基づくコミュニティ検出問題を解析するための新たな理論的枠組みを提案する。 そして,この枠組みを利用してTMOGAの合理性を証明する。 最後に,本アルゴリズムは,様々なテスト問題において,最先端の動的ネットワークコミュニティ検出アルゴリズムと比較して,より優れたクラスタリング効果を実現できることを示す。

Dynamic community detection is the hotspot and basic problem of complex network and artificial intelligence research in recent years. It is necessary to maximize the accuracy of clustering as the network structure changes, but also to minimize the two consecutive clustering differences between the two results. There is a trade-off relationship between these two objectives. In this paper, we propose a Feature Transfer Based Multi-Objective Optimization Genetic Algorithm (TMOGA) based on transfer learning and traditional multi-objective evolutionary algorithm framework. The main idea is to extract stable features from past community structures, retain valuable feature information, and integrate this feature information into current optimization processes to improve the evolutionary algorithms. Additionally, a new theoretical framework is proposed in this paper to analyze community detection problem based on information theory. Then, we exploit this framework to prove the rationality of TMOGA. Finally, the experimental results show that our algorithm can achieve better clustering effects compared with the state-of-the-art dynamic network community detection algorithms in diverse test problems.
翻訳日:2021-10-01 14:31:18 公開日:2021-09-30
# フェデレーション学習におけるストラグラー緩和のためのコーディング

Coding for Straggler Mitigation in Federated Learning ( http://arxiv.org/abs/2109.15226v1 )

ライセンス: Link先を確認
Siddhartha Kumar, Reent Schlegel, Eirik Rosnes, Alexandre Graell i Amat(参考訳) 本稿では,従来のFLのプライバシレベルを維持しつつ,ストラグリングデバイスの効果を緩和する線形回帰のための新しい符号化されたフェデレーション学習手法を提案する。 提案手法は,プライバシと勾配コードを保存するために1回のパディングを組み合わせることで,ストラグラーに対する回復力を得る。 第1フェーズでは、デバイスは他のデバイスのサブセットと、ローカルデータのワンタイムパッド付きバージョンを共有する。 第2フェーズでは,デバイスと中央サーバが協調的かつ反復的に,ワンタイムパッドドローカルデータの勾配コードを用いてグローバル線形モデルを訓練する。 実データにワンタイムパディングを適用するため,本方式ではデータの固定点算術表現を利用する。 prakashらが最近導入したcoded flスキームとは異なり、提案されたスキームは従来のflと同じレベルのプライバシを維持しながら、同様のトレーニング時間を達成する。 従来のFLと比較して,提案手法はMNISTデータセットとFashion-MNISTデータセットにおいて,それぞれ9,5\%と8,5\%の精度で6.6$と9.2$のトレーニングスピードアップ係数を達成した。

We present a novel coded federated learning (FL) scheme for linear regression that mitigates the effect of straggling devices while retaining the privacy level of conventional FL. The proposed scheme combines one-time padding to preserve privacy and gradient codes to yield resiliency against stragglers and consists of two phases. In the first phase, the devices share a one-time padded version of their local data with a subset of other devices. In the second phase, the devices and the central server collaboratively and iteratively train a global linear model using gradient codes on the one-time padded local data. To apply one-time padding to real data, our scheme exploits a fixed-point arithmetic representation of the data. Unlike the coded FL scheme recently introduced by Prakash et al., the proposed scheme maintains the same level of privacy as conventional FL while achieving a similar training time. Compared to conventional FL, we show that the proposed scheme achieves a training speed-up factor of $6.6$ and $9.2$ on the MNIST and Fashion-MNIST datasets for an accuracy of $95\%$ and $85\%$, respectively.
翻訳日:2021-10-01 14:31:02 公開日:2021-09-30
# Federated Dropout - リソース制約デバイス上でのフェデレーション学習を実現するための簡単なアプローチ

Federated Dropout -- A Simple Approach for Enabling Federated Learning on Resource Constrained Devices ( http://arxiv.org/abs/2109.15258v1 )

ライセンス: Link先を確認
Dingzhu Wen, Ki-Jun Jeon, and Kaibin Huang(参考訳) Federated Learning(FL)は、分散モバイルデータを使用したAIモデルを無線ネットワークでトレーニングするための一般的なフレームワークである。 ローカルデータプライバシを維持しながら、複数のエッジデバイスに学習タスクを分散することで、データ並列性を実現している。 実用的なflに直面する大きな課題のひとつは、リソース制約のあるデバイスが、ディープニューラルネットワークモデルの更新という計算集約的なタスクに苦しむことだ。 この課題に対処するために,ランダムモデルプルーニングのための古典的なドロップアウト方式に基づいて,フェデレートされたドロップアウト(FedDrop)方式を提案する。 具体的には、FLアルゴリズムの各イテレーションにおいて、複数のサブネットがドロップアウトを使用してサーバのグローバルモデルから独立して生成されるが、それぞれが割り当てられたチャネルの状態に適応する不均一なドロップアウト率(パラメータ実行確率)を持つ。 サブセットはアップデートのために関連するデバイスにダウンロードされる。 これにより、fdedropは通信オーバーヘッドとデバイスの計算負荷の両方を従来のflと比較して削減し、オーバーフィッティングの場合は後者を上回り、均一なドロップアウト(すなわち同一サブセット)を持つflスキームを上回らせる。

Federated learning (FL) is a popular framework for training an AI model using distributed mobile data in a wireless network. It features data parallelism by distributing the learning task to multiple edge devices while attempting to preserve their local-data privacy. One main challenge confronting practical FL is that resource constrained devices struggle with the computation intensive task of updating of a deep-neural network model. To tackle the challenge, in this paper, a federated dropout (FedDrop) scheme is proposed building on the classic dropout scheme for random model pruning. Specifically, in each iteration of the FL algorithm, several subnets are independently generated from the global model at the server using dropout but with heterogeneous dropout rates (i.e., parameter-pruning probabilities), each of which is adapted to the state of an assigned channel. The subsets are downloaded to associated devices for updating. Thereby, FdeDrop reduces both the communication overhead and devices' computation loads compared with the conventional FL while outperforming the latter in the case of overfitting and also the FL scheme with uniform dropout (i.e., identical subsets).
翻訳日:2021-10-01 14:30:40 公開日:2021-09-30
# (参考訳) 宇宙採掘のためのロボットビジョン [全文訳有]

Robotic Vision for Space Mining ( http://arxiv.org/abs/2109.12109v2 )

ライセンス: CC BY 4.0
Ragav Sachdeva, Ravi Hammond, James Bockman, Alec Arthur, Brandon Smart, Dustin Craggs, Anh-Dzung Doan, Thomas Rowntree, Elijah Schutz, Adrian Orenstein, Andy Yu, Tat-Jun Chin, Ian Reid(参考訳) 将来の月面基地は、月の表面から採掘された資源を用いて構築される可能性が高い。 月での人間の労働力の維持が困難で、地球との通信が遅れているため、高度な自律性を持つ協調ロボットを使って採掘を行う必要がある。 本稿では,衛星測位装置の欠如,危険地形の航行,微妙なロボットの相互作用など,月面環境における自律地雷の課題に対するロボットビジョンの有用性について検討する。 具体的には、月面採掘のための自律的な共同作業ロボットの文脈で、NASA宇宙ロボティクスチャレンジの第2フェーズのために開発したロボットビジョンアルゴリズムの結果を記述し報告する。 コンペティションは、上述の複雑さを示すシミュレートされた月環境を提供した。 月面環境がもたらす課題を軽減するために、機械学習による視覚がいかに役立つかを示す。 ロボット間の長期的な操作と効果的な協調を実現するために、堅牢なマルチロボットコーディネータも開発された。

Future Moon bases will likely be constructed using resources mined from the surface of the Moon. The difficulty of maintaining a human workforce on the Moon and communications lag with Earth means that mining will need to be conducted using collaborative robots with a high degree of autonomy. In this paper, we explore the utility of robotic vision towards addressing several major challenges in autonomous mining in the lunar environment: lack of satellite positioning systems, navigation in hazardous terrain, and delicate robot interactions. Specifically, we describe and report the results of robotic vision algorithms that we developed for Phase 2 of the NASA Space Robotics Challenge, which was framed in the context of autonomous collaborative robots for mining on the Moon. The competition provided a simulated lunar environment that exhibits the complexities alluded to above. We show how machine learning-enabled vision could help alleviate the challenges posed by the lunar environment. A robust multi-robot coordinator was also developed to achieve long-term operation and effective collaboration between robots.
翻訳日:2021-10-01 12:09:23 公開日:2021-09-30
# 自然言語処理(nlp)による学術教育における単語問題の自動生成

Automatic Generation of Word Problems for Academic Education via Natural Language Processing (NLP) ( http://arxiv.org/abs/2109.13123v3 )

ライセンス: Link先を確認
Stanley Uros Keller(参考訳) デジタル学習プラットフォームは、学生が柔軟で個別のスケジュールで学習できると同時に、即時フィードバックメカニズムを提供する。 STEM教育の分野は、学生が基礎となる概念を理解するために、多くの訓練演習を解く必要がある。 現在のオンライン教育には、運動の多様性と個性に関して制限があることは明らかである。 多くのエクササイズは、構成と内容のばらつきがほとんどなく、学生による抽象能力の採用を妨げる。 この論文は、多様で文脈に富んだ単語問題を生成するアプローチを提案する。 生成した言語が文法的に正しいことを要求することに加えて、単語問題の性質は内容の妥当性に関する追加の制約を示唆している。 提案手法は数学統計学において有効な単語問題を生成するのに有効であることが証明されている。 実験結果は, 生成時間と運動効率のトレードオフを示す。 システムは、特定のユースケースの要求に応じて、このトレードオフを処理するために容易にパラメータ化できる。

Digital learning platforms enable students to learn on a flexible and individual schedule as well as providing instant feedback mechanisms. The field of STEM education requires students to solve numerous training exercises to grasp underlying concepts. It is apparent that there are restrictions in current online education in terms of exercise diversity and individuality. Many exercises show little variance in structure and content, hindering the adoption of abstraction capabilities by students. This thesis proposes an approach to generate diverse, context rich word problems. In addition to requiring the generated language to be grammatically correct, the nature of word problems implies additional constraints on the validity of contents. The proposed approach is proven to be effective in generating valid word problems for mathematical statistics. The experimental results present a tradeoff between generation time and exercise validity. The system can easily be parametrized to handle this tradeoff according to the requirements of specific use cases.
翻訳日:2021-10-01 11:17:11 公開日:2021-09-30
# ヘビーメイクアップ転送のための詳細領域適応正規化

Detailed Region-Adaptive Normalization for Heavy Makeup Transfer ( http://arxiv.org/abs/2109.14525v2 )

ライセンス: Link先を確認
Yueming Lyu, Peibin Chen, Jingna Sun, Xu Wang, Jing Dong, Tieniu Tan(参考訳) 近年、顔のメイクスタイルを異なる顔間で転送する際の効率と柔軟性から、顔のメイクスタイルの移動が注目されている。 近年の作品は現実的な成果を上げているが、多くは複数の色と微妙な詳細で重厚なメイクスタイルを扱わなかった。 そこで我々は,異なるポーズや表現に対するロバスト性を維持しつつ,重い化粧品の移動を処理する新しいGANモデルを提案する。 まず,複数の層から地域別メイクアップ特徴を学習するために,メークアップマルチ抽出ネットワークを導入する。 そこで, 精密領域適応正規化(Detailed Region-Adaptive Normalization)と呼ばれるキー転送モジュールを提案し, 異なるレベルのメイクスタイルを適応的に融合させ, ヘビーメイク転送の品質を大幅に向上させる。 2つのコンポーネントからの出力により、メイクアップ転送ネットワークはメイクアップ転送を行う。 提案手法の有効性を評価するため,多種多様なヘビースタイルを含む新しいメイクアップデータセットを収集した。 実験により,本手法は化粧スタイルの軽さと重厚さを両立させ,ポーズや表現に頑健であることがわかった。

In recent years, facial makeup transfer has attracted growing attention due to its efficiency and flexibility in transferring makeup styles between different faces. Although recent works have achieved realistic results, most of them fail to handle heavy makeup styles with multiple colors and subtle details. Hence we propose a novel GAN model to handle heavy makeup transfer, while maintaining the robustness to different poses and expressions. Firstly, a Makeup Multi-Extraction Network is introduced to learn region-wise makeup features from multiple layers. Then, a key transferring module called Detailed Region-Adaptive Normalization is proposed to fuse different levels of makeup styles in an adaptive way, making great improvement to the quality of heavy makeup transfer. With the outputs from the two components, Makeup Transfer Network is used to perform makeup transfer. To evaluate the efficacy of our proposed method, we collected a new makeup dataset containing a wide range of heavy styles. Experiments show that our method achieves state-of-the-art results both on light and heavy makeup styles, and is robust to different poses and expressions.
翻訳日:2021-10-01 11:16:55 公開日:2021-09-30