このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210906となっている論文です。

PDF登録状況(公開日: 20210906)

TitleAuthorsAbstract論文公表日・翻訳日
# 単純二重エージェントviterbiアルゴリズムにおける外部知識伝達の展開

External knowledge transfer deployment inside a simple double agent Viterbi algorithm ( http://arxiv.org/abs/2110.00433v1 )

ライセンス: Link先を確認
Zied Baklouti (ENIT, UP)(参考訳) 本稿では,著者がレシピテキストから成分を抽出するためのhidden markov based mathematical model (hidden markov based mathematical model dedicated to extract materials from recipe text) という序文で最初に紹介したアルゴリズムである,単純な二重エージェントビタビアルゴリズムの中に外部知識伝達を展開する。 この研究の重要な課題は、未知の単語の成分状態の推定に直面すると、古いモデルがパフォーマンスが悪い理由を発見し、外部の知識を計算された状態行列に直接配置することが、バック伝播ステップのみにデプロイする代わりに解決策になるかどうかを確認することです。

We consider in this paper deploying external knowledge transfer inside a simple double agent Viterbi algorithm which is an algorithm firstly introduced by the author in his preprint "Hidden Markov Based Mathematical Model dedicated to Extract Ingredients from Recipe Text". The key challenge of this work lies in discovering the reason why our old model does have bad performances when it is confronted with estimating ingredient state for unknown words and see if deploying external knowledge transfer directly on calculating state matrix could be the solution instead of deploying it only on back propagating step.
翻訳日:2021-10-10 11:42:39 公開日:2021-09-06
# (参考訳) SPARQLシルエット生成による知識グラフ質問応答 [全文訳有]

Knowledge Graph Question Answering via SPARQL Silhouette Generation ( http://arxiv.org/abs/2109.09475v1 )

ライセンス: CC BY 4.0
Sukannya Purkayastha, Saswati Dana, Dinesh Garg, Dinesh Khandelwal, G P Shrivatsa Bhargav(参考訳) 知識グラフ質問回答(KGQA)は,大規模知識グラフ(KG)の出現により,自然言語処理において顕著な領域となっている。 近年,自然言語クエリを構造化クエリ言語に翻訳することで,KGQAタスクを解くニューラル機械翻訳に基づくアプローチが勢いを増している。 しかし、これらの手法のほとんどは、訓練期間中にテストエンティティや関係が見られない語彙外単語に苦しむ。 本研究では,kgqa課題を解決するために,モジュール型2段階ニューラルアーキテクチャを提案する。 最初のステージでは、入力された質問に対してSPARQLシルエットと呼ばれるターゲットSPARQLのスケッチを生成する。 1) 語彙外単語を容易にするためのノイズシミュレータと、SPARQLシルエット生成へのテキスト用語彙サイズ(2)Seq2seqモデルからなる。 2番目のステージはNeural Graph Search Moduleである。 第1段階で発生するSPARQLシルエットは、予測された構造に正確な関係を置換することにより第2段階で蒸留される。 騒音シミュレータの設計により,理想的かつ現実的なシナリオをシミュレートする。 実験の結果, 生成したSPARQLシルエットの品質は理想的なシナリオには優れるが, 現実的なシナリオ(ノイズリンカー)には優れており, SPARQLシルエットの品質は劇的に低下することがわかった。 しかし,我々のニューラルグラフ探索モジュールではかなり回復する。 本手法はLC-QuAD-1データセットに対して3.72%のF1のマージンで最先端性を向上させることができることを示す。 提案手法は新規であり,実用化に適した動的KGQAソリューションの実現が期待できる。

Knowledge Graph Question Answering (KGQA) has become a prominent area in natural language processing due to the emergence of large-scale Knowledge Graphs (KGs). Recently Neural Machine Translation based approaches are gaining momentum that translates natural language queries to structured query languages thereby solving the KGQA task. However, most of these methods struggle with out-of-vocabulary words where test entities and relations are not seen during training time. In this work, we propose a modular two-stage neural architecture to solve the KGQA task. The first stage generates a sketch of the target SPARQL called SPARQL silhouette for the input question. This comprises of (1) Noise simulator to facilitate out-of-vocabulary words and to reduce vocabulary size (2) seq2seq model for text to SPARQL silhouette generation. The second stage is a Neural Graph Search Module. SPARQL silhouette generated in the first stage is distilled in the second stage by substituting precise relation in the predicted structure. We simulate ideal and realistic scenarios by designing a noise simulator. Experimental results show that the quality of generated SPARQL silhouette in the first stage is outstanding for the ideal scenarios but for realistic scenarios (i.e. noisy linker), the quality of the resulting SPARQL silhouette drops drastically. However, our neural graph search module recovers it considerably. We show that our method can achieve reasonable performance improving the state-of-art by a margin of 3.72% F1 for the LC-QuAD-1 dataset. We believe, our proposed approach is novel and will lead to dynamic KGQA solutions that are suited for practical applications.
翻訳日:2021-09-26 23:31:01 公開日:2021-09-06
# 熱画像を用いた日常生活の室内活動のモニタリング

Monitoring Indoor Activity of Daily Living Using Thermal Imaging: A Case Study ( http://arxiv.org/abs/2109.08672v1 )

ライセンス: Link先を確認
Hassan M. Ahmed, Bessam Abdulrazak (AMI-Lab Faculte des sciences, Universite de Sherbrooke)(参考訳) 人の日常生活(adl)の屋内活動を監視することは簡単でも正確なプロセスでもない。 センサタイプ、電源安定性、接続安定性に、本人が導入したアーティファクトに言及することなく依存する。 この分野では、人の正確な空間的位置の監視、個人の平均温度のようなバイタルサインの推定など、複数の課題を克服する必要がある。 プライバシーは、注意して考えるべき問題の別の領域である。 カメラなしで姿勢を判断することは別の課題です。 姿勢識別は、被験者の転倒検出を支援する。 サーマルイメージングは、上記の課題のほとんどに対して適切な解決策になり得る。 プライバシーを維持しながら、平均気温と空間的位置の両方を監視します。 本研究では,熱センサアレイ(TSA)を用いた室内ADLモニタリングのためのIoTシステムを提案する。 3種類のadlが導入されており、それぞれ日常生活活動、睡眠活動、無活動である。 TSAを用いた人体平均温度の推定も本論文で紹介する。 その結果,3つの活動クラスは昼夜の平均気温と同一視できることがわかった。 個人の空間的位置は、プライバシーが維持されている間も決定できる。

Monitoring indoor activities of daily living (ADLs) of a person is neither an easy nor an accurate process. It is subjected to dependency on sensor type, power supply stability, and connectivity stability without mentioning artifacts introduced by the person himself. Multiple challenges have to be overcome in this field, such as; monitoring the precise spatial location of the person, and estimating vital signs like an individuals average temperature. Privacy is another domain of the problem to be thought of with care. Identifying the persons posture without a camera is another challenge. Posture identification assists in the persons fall detection. Thermal imaging could be a proper solution for most of the mentioned challenges. It provides monitoring both the persons average temperature and spatial location while maintaining privacy. In this research, we propose an IoT system for monitoring an indoor ADL using thermal sensor array (TSA). Three classes of ADLs are introduced, which are daily activity, sleeping activity and no-activity respectively. Estimating person average temperature using TSAs is introduced as well in this paper. Results have shown that the three activity classes can be identified as well as the persons average temperature during day and night. The persons spatial location can be determined while his/her privacy is maintained as well.
翻訳日:2021-09-26 22:31:08 公開日:2021-09-06
# アルミニウム-シリコン合金の人工組織形成のための深い畳み込み生成モデル

Deep Convolutional Generative Modeling for Artificial Microstructure Development of Aluminum-Silicon Alloy ( http://arxiv.org/abs/2109.06635v1 )

ライセンス: Link先を確認
Akshansh Mishra and Tarushi Pathak(参考訳) 人工知能のサブドメインである機械学習は、製造分野や材料科学分野に様々な応用を見出している。 本研究では, アルミニウム-シリコン合金の人工組織を構築するために, 教師なし機械学習技術を用いた深部生成モデルを構築した。 Deep Generative Adversarial Networksは、与えられた微細構造画像データセットの人工的微細構造の開発に使用されている。 その結果, 構築したモデルでは, 微細構造の特定の像の近傍のライニングを再現できることが判明した。

Machine learning which is a sub-domain of an Artificial Intelligence which is finding various applications in manufacturing and material science sectors. In the present study, Deep Generative Modeling which a type of unsupervised machine learning technique has been adapted for the constructing the artificial microstructure of Aluminium-Silicon alloy. Deep Generative Adversarial Networks has been used for developing the artificial microstructure of the given microstructure image dataset. The results obtained showed that the developed models had learnt to replicate the lining near the certain images of the microstructures.
翻訳日:2021-09-19 13:44:32 公開日:2021-09-06
# anfis分類器,オートエンコーダ,ファジィエントロピーを用いた脳波信号のてんかん発作の検出

Detection of Epileptic Seizures on EEG Signals Using ANFIS Classifier, Autoencoders and Fuzzy Entropies ( http://arxiv.org/abs/2109.04364v1 )

ライセンス: Link先を確認
Afshin Shoeibi, Navid Ghassemi, Marjane Khodatars, Parisa Moridian, Roohallah Alizadehsani, Assef Zare, Abbas Khosravi, Abdulhamit Subasi, U. Rajendra Acharya, J. Manuel Gorriz(参考訳) てんかんは最も重要な神経疾患の1つで、その早期診断は臨床医が患者に正確な治療を提供するのに役立つ。 脳波(EEG)信号はてんかん発作の検出に広く使われており、脳の機能に関する重要な情報を提供する。 本稿ではファジィ理論と深層学習技術を用いた新しい診断手法を提案する。 提案手法はボン大学データセットとフライブルクデータセットの6つの分類組み合わせを用いて評価した。 チューナブルQウェーブレット変換(TQWT)は、脳波信号を異なるサブバンドに分解するために用いられる。 特徴抽出ステップでは、TQWTの異なるサブバンドから13種類のファジィエントロピーを算出し、それらの計算複雑性を計算し、研究者が最適な特徴セットを選択するのに役立つ。 以下の例では、6層からなるオートエンコーダ(ae)を用いて次元を縮小する。 最後に、標準適応型ニューロファジィ推論システム(ANFIS)と、そのバリエーションとして、草のホッパー最適化アルゴリズム(ANFIS-GOA)、粒子群最適化(ANFIS-PSO)、繁殖群最適化(ANFIS-BS)が用いられる。 提案手法を用いて、ANFIS-BS法は2つのクラスに分類する際の99.74%の精度と、ボンデータセットの3次分類における99.46%の精度、フライブルクデータセットにおける99.28%の精度を得て、両者の最先端性能を達成した。

Epilepsy is one of the most crucial neurological disorders, and its early diagnosis will help the clinicians to provide accurate treatment for the patients. The electroencephalogram (EEG) signals are widely used for epileptic seizures detection, which provides specialists with substantial information about the functioning of the brain. In this paper, a novel diagnostic procedure using fuzzy theory and deep learning techniques are introduced. The proposed method is evaluated on the Bonn University dataset with six classification combinations and also on the Freiburg dataset. The tunable-Q wavelet transform (TQWT) is employed to decompose the EEG signals into different sub-bands. In the feature extraction step, 13 different fuzzy entropies are calculated from different sub-bands of TQWT, and their computational complexities are calculated to help researchers choose the best feature sets. In the following, an autoencoder (AE) with six layers is employed for dimensionality reduction. Finally, the standard adaptive neuro-fuzzy inference system (ANFIS), and also its variants with grasshopper optimization algorithm (ANFIS-GOA), particle swarm optimization (ANFIS-PSO), and breeding swarm optimization (ANFIS-BS) methods are used for classification. Using our proposed method, ANFIS-BS method has obtained an accuracy of 99.74% in classifying into two classes and an accuracy of 99.46% in ternary classification on the Bonn dataset and 99.28% on the Freiburg dataset, reaching state-of-the-art performances on both of them.
翻訳日:2021-09-10 13:59:41 公開日:2021-09-06
# (参考訳) fabian: 胎児の脳の磁気共鳴取得の数値ファントム [全文訳有]

FaBiAN: A Fetal Brain magnetic resonance Acquisition Numerical phantom ( http://arxiv.org/abs/2109.03624v1 )

ライセンス: CC BY-SA 4.0
H\'el\`ene Lajous (1 and 2), Christopher W. Roy (1, +), Tom Hilbert (1 and 3 and 4, +), Priscille de Dumast (1 and 2), S\'ebastien Tourbier (1), Yasser Alem\'an-G\'omez (1), J\'er\^ome Yerly (1 and 2), Thomas Yu (4), Hamza Kebiri (1 and 2), Kelly Payette (5 and 6), Jean-Baptiste Ledoux (1 and 2), Reto Meuli (1), Patric Hagmann (1), Andras Jakab (5 and 6), Vincent Dunet (1), M\'eriam Koob (1), Tobias Kober (1 and 3 and 4, {\S}), Matthias Stuber (1 and 2, {\S}), Meritxell Bach Cuadra (2 and 1) ((1) Department of Radiology, Lausanne University Hospital (CHUV) and University of Lausanne (UNIL), Lausanne, Switzerland, (2) CIBM Center for Biomedical Imaging, Switzerland, (3) Advanced Clinical Imaging Technology (ACIT), Siemens Healthcare, Lausanne, Switzerland, (4) Signal Processing Laboratory 5 (LTS5), Ecole Polytechnique F\'ed\'erale de Lausanne (EPFL), Lausanne, Switzerland, (5) Center for MR Research, University Children's Hospital Zurich, University of Zurich, Zurich, Switzerland, (6) Neuroscience Center Zurich, University of Zurich, Zurich, Switzerland, (+, {\S}) These authors contributed equally to this work.)(参考訳) 子宮内でのヒトの脳の成熟の正確な特徴は、複雑な構造的および機能的プロセスが人生の後半に健康に影響を及ぼすため、重要である。 磁気共鳴イメージングは胎児発生時の同種神経学的パターンを調べる強力なツールである。 しかし、このセンシティブな対象のコホートで得られる良好な品質の獲得数は少ないままであり、高度な画像処理技術の検証を妨げている。 数値ファントムは、既知の基底真理を持つ制御された環境を提供することによって、これらの制限を緩和することができる。 本稿では、胎児脳のT2強調高速スピンエコー配列をシミュレートするオープンソースのFetal Brain Magnetic resonance Acquisition Numerical phantomであるFaBiANについて述べる。 このユニークなツールは、胎児の確率的運動を含む一般的で柔軟で現実的な設定に基づいており、これにより、臨床的な獲得に匹敵する成熟期を通じて胎児の脳のイメージを提供する。 本研究では, 合成高分解能基準ボリュームと比較して, 超分解能胎児脳磁気共鳴イメージングのためのアルゴリズムのロバスト性を評価し, 精度を最適化するための有用性を示す。 また、生成された画像が臨床データセットを補完し、胎児脳組織分割のためのデータ集約型深層学習法をサポートすることができることを示した。

Accurate characterization of in utero human brain maturation is critical as it involves complex and interconnected structural and functional processes that may influence health later in life. Magnetic resonance imaging is a powerful tool to investigate equivocal neurological patterns during fetal development. However, the number of acquisitions of satisfactory quality available in this cohort of sensitive subjects remains scarce, thus hindering the validation of advanced image processing techniques. Numerical phantoms can mitigate these limitations by providing a controlled environment with a known ground truth. In this work, we present FaBiAN, an open-source Fetal Brain magnetic resonance Acquisition Numerical phantom that simulates clinical T2-weighted fast spin echo sequences of the fetal brain. This unique tool is based on a general, flexible and realistic setup that includes stochastic fetal movements, thus providing images of the fetal brain throughout maturation comparable to clinical acquisitions. We demonstrate its value to evaluate the robustness and optimize the accuracy of an algorithm for super-resolution fetal brain magnetic resonance imaging from simulated motion-corrupted 2D low-resolution series as compared to a synthetic high-resolution reference volume. We also show that the images generated can complement clinical datasets to support data-intensive deep learning methods for fetal brain tissue segmentation.
翻訳日:2021-09-10 09:30:23 公開日:2021-09-06
# 物理誘導ニューラルネットワークを用いた高分解能乱流の再構成

Reconstructing High-resolution Turbulent Flows Using Physics-Guided Neural Networks ( http://arxiv.org/abs/2109.03327v1 )

ライセンス: Link先を確認
Shengyu Chen, Shervin Sammak, Peyman Givi, Joseph P.Yurko1, Xiaowei Jia(参考訳) 乱流の直接数値シミュレーション(DNS)は計算コストが高く、レイノルズ数が大きい流れには適用できない。 大規模渦シミュレーション(英語版)(les)は、計算上より要求の少ない代替手段であるが、乱流輸送の全てのスケールを正確に捉えることができない。 本研究の目的は,LES予測からDNSデータを再構成する超解像技術に基づく新しいデータ駆動手法を構築することである。 基礎となる物理的関係を利用して、異なる物理変数間の関係を規則化する。 また,DNSデータとLESデータの対応性について検討するために,階層的生成プロセスと逆分解プロセスを導入する。 単発実験とクロスタイム実験により,本手法の有効性を実証した。 その結果,高分解能DNSデータの空間的・時間的再構成は,画素単位の再構成誤差や構造的類似性から行うことができることを確認した。 視覚的比較により,本手法はより微細な流れのダイナミックスを捉えるのに優れていることが示された。

Direct numerical simulation (DNS) of turbulent flows is computationally expensive and cannot be applied to flows with large Reynolds numbers. Large eddy simulation (LES) is an alternative that is computationally less demanding, but is unable to capture all of the scales of turbulent transport accurately. Our goal in this work is to build a new data-driven methodology based on super-resolution techniques to reconstruct DNS data from LES predictions. We leverage the underlying physical relationships to regularize the relationships amongst different physical variables. We also introduce a hierarchical generative process and a reverse degradation process to fully explore the correspondence between DNS and LES data. We demonstrate the effectiveness of our method through a single-snapshot experiment and a cross-time experiment. The results confirm that our method can better reconstruct high-resolution DNS data over space and over time in terms of pixel-wise reconstruction error and structural similarity. Visual comparisons show that our method performs much better in capturing fine-level flow dynamics.
翻訳日:2021-09-09 13:54:45 公開日:2021-09-06
# (参考訳) Fruit-CoV:記録カフ音によるSARS-CoV-2感染の迅速検出と診断のための高能率視覚ベースフレームワーク [全文訳有]

Fruit-CoV: An Efficient Vision-based Framework for Speedy Detection and Diagnosis of SARS-CoV-2 Infections Through Recorded Cough Sounds ( http://arxiv.org/abs/2109.03219v1 )

ライセンス: CC BY 4.0
Long H. Nguyen, Nhat Truong Pham, Van Huong Do, Liu Tai Nguyen, Thanh Tin Nguyen, Van Dung Do, Hai Nguyen, Ngoc Duy Nguyen(参考訳) SARS-CoV-2は、2019年12月に発生した新型コロナウイルスとして知られている。 新型コロナウイルスは世界中に広がり、2020年3月以降、世界的なパンデミック(パンデミック)の流行に関与している。 さらに、最近のSARS-CoV-2はデルタと呼ばれており、世界中で400万人以上の死者を負っている。 そのため、家庭でSARS-CoV-2のセルフテストサービスを持つことが不可欠である。 本研究では,sars-cov-2感染の検出を可能にする2段階視覚フレームワークであるfruit-covについて紹介する。 具体的には、音をLog-Mel Spectrogramに変換し、EfficientNet-V2ネットワークを用いて第1段階で視覚的特徴を抽出する。 第2段階では、大規模事前学習音声ニューラルネットワーク(PANN)とWavegram-Log-Mel-CNN から抽出した14の畳み込み層を用いて、ログメルスペクトルの特徴表現を集約する。 最後に、組み合わせた機能を使ってバイナリ分類器を訓練します。 本研究では,aicovidvn 115mチャレンジの提供するデータセットを用いて,ベトナム,インド,スイス全域で収集された,7371個のカウ音を収録した。 実験の結果,提案モデルがAUCスコア92.8%を達成し,AICovidVN Challengeの1位となった。 さらに重要なことは,提案フレームワークをコールセンタやVoIPシステムに統合することで,オンライン/記録コークス音によるSARS-CoV-2感染の検出を高速化することができる。

SARS-CoV-2 is colloquially known as COVID-19 that had an initial outbreak in December 2019. The deadly virus has spread across the world, taking part in the global pandemic disease since March 2020. In addition, a recent variant of SARS-CoV-2 named Delta is intractably contagious and responsible for more than four million deaths over the world. Therefore, it is vital to possess a self-testing service of SARS-CoV-2 at home. In this study, we introduce Fruit-CoV, a two-stage vision framework, which is capable of detecting SARS-CoV-2 infections through recorded cough sounds. Specifically, we convert sounds into Log-Mel Spectrograms and use the EfficientNet-V2 network to extract its visual features in the first stage. In the second stage, we use 14 convolutional layers extracted from the large-scale Pretrained Audio Neural Networks for audio pattern recognition (PANNs) and the Wavegram-Log-Mel-CNN to aggregate feature representations of the Log-Mel Spectrograms. Finally, we use the combined features to train a binary classifier. In this study, we use a dataset provided by the AICovidVN 115M Challenge, which includes a total of 7371 recorded cough sounds collected throughout Vietnam, India, and Switzerland. Experimental results show that our proposed model achieves an AUC score of 92.8% and ranks the 1st place on the leaderboard of the AICovidVN Challenge. More importantly, our proposed framework can be integrated into a call center or a VoIP system to speed up detecting SARS-CoV-2 infections through online/recorded cough sounds.
翻訳日:2021-09-09 03:37:56 公開日:2021-09-06
# (参考訳) Covid-19パンデミックにおける血液供給連鎖問題解消のためのバックプロパゲーションとファジィアルゴリズム [全文訳有]

Backpropagation and fuzzy algorithm Modelling to Resolve Blood Supply Chain Issues in the Covid-19 Pandemic ( http://arxiv.org/abs/2109.02645v1 )

ライセンス: CC BY 4.0
Aan Erlansari, Rusdi Effendi, Funny Farady C, Andang Wijanarko, Boko Susilo, Reza Hardiansyah(参考訳) 畜産不足と不確実な需要は世界中のすべての国で大きな問題となっている。 そこで本研究では,インドネシアのベングクルで発生したCovid-19パンデミックにおける血液分布問題の解決を目的とした。 バックプロパゲーションアルゴリズムは、利用可能なドナーや潜在的ドナーを発見する可能性を改善するために用いられた。 さらに、必要な時に献血する適切な人を得るために、献血距離、年齢、長さを測定した。 バックプロパゲーションは3つの入力層を使用して、年齢、身体、体重、偏見などのドナーを分類する。 さらに、そのクエリによるシステムは、Fuzzy Tahaniを介して変数を自動的にカウントし、同時に巨大なデータベースにアクセスする。

Bloodstock shortages and its uncertain demand has become a major problem for all countries worldwide. Therefore, this study aims to provide solution to the issues of blood distribution during the Covid-19 Pandemic at Bengkulu, Indonesia. The Backpropagation algorithm was used to improve the possibility of discovering available and potential donors. Furthermore, the distances, age, and length of donation were measured to obtain the right person to donate blood when it needed. The Backpropagation uses three input layers to classify eligible donors, namely age, body, weight, and bias. In addition, the system through its query automatically counts the variables via the Fuzzy Tahani and simultaneously access the vast database.
翻訳日:2021-09-09 03:32:04 公開日:2021-09-06
# (参考訳) 機械学習:オーディオ復元プロセスの課題、限界、互換性 [全文訳有]

Machine Learning: Challenges, Limitations, and Compatibility for Audio Restoration Processes ( http://arxiv.org/abs/2109.02692v1 )

ライセンス: CC BY 4.0
Owen Casey, Rushit Dave, Naeem Seliya, Evelyn R Sowells Boone(参考訳) 本稿では,劣化音声と圧縮音声の復元に用いる機械学習ネットワークについて検討する。 プロジェクトの目的は、SEGANで提示された既存のアルゴリズムにより、データ損失と解像度損失から生じる圧縮アーチファクト歪みの特徴を学ぶために、音声データから新しい訓練されたモデルを構築することである。 モデルから得られた生成物は、劣化した音声を復元するために使用される。 本稿では、非推奨コードを扱うことで生じる互換性と運用上の課題について検討し、トレーニングされたモデルの開発が成功するのを妨げた。 本稿ではさらに,機械学習の現状における課題,限界,互換性について検討する。

In this paper machine learning networks are explored for their use in restoring degraded and compressed speech audio. The project intent is to build a new trained model from voice data to learn features of compression artifacting distortion introduced by data loss from lossy compression and resolution loss with an existing algorithm presented in SEGAN: Speech Enhancement Generative Adversarial Network. The resulting generator from the model was then to be used to restore degraded speech audio. This paper details an examination of the subsequent compatibility and operational issues presented by working with deprecated code, which obstructed the trained model from successfully being developed. This paper further serves as an examination of the challenges, limitations, and compatibility in the current state of machine learning.
翻訳日:2021-09-09 03:27:16 公開日:2021-09-06
# (参考訳) 障害物回避型費用対物追従型移動ロボットシステムの知的運動計画 [全文訳有]

Intelligent Motion Planning for a Cost-effective Object Follower Mobile Robotic System with Obstacle Avoidance ( http://arxiv.org/abs/2109.02700v1 )

ライセンス: CC BY 4.0
Sai Nikhil Gona, Prithvi Raj Bandhakavi(参考訳) 材料を運ぶために手動で制御されたロボットを使用する産業はほとんどなく、あらゆる場所で常に使用することはできない。 したがって、その人の持つユニークな色の物体を追従することで、特定の人間を追従できるロボットを持つことは、非常に静かである。 そこで本研究では,ロボットビジョンと深層学習を用いて,それぞれに必要となる直線速度と角速度を求めるロボットシステムを提案する。 これによってロボットは、人間が保持するユニークな色の物体に従えば、障害物を避けることができる。 提案する新しい手法は,任意の照明における独特の色付けされた物体の位置を検知し,ロボットが存在する水平画素値を伝えるとともに,物体がロボットに近づいたり近づいたりしているかどうかを知らせるものである。 さらに,我々がこの問題に用いた人工ニューラルネットワークは,線形および角速度予測における単純な誤差と,線形および角速度を制御するために使用されるpiコントローラを与え,ロボットの位置を制御することにより,印象的な結果を得た。

There are few industries which use manually controlled robots for carrying material and this cannot be used all the time in all the places. So, it is very tranquil to have robots which can follow a specific human by following the unique coloured object held by that person. So, we propose a robotic system which uses robot vision and deep learning to get the required linear and angular velocities which are {\nu} and {\omega}, respectively. Which in turn makes the robot to avoid obstacles when following the unique coloured object held by the human. The novel methodology that we are proposing is accurate in detecting the position of the unique coloured object in any kind of lighting and tells us the horizontal pixel value where the robot is present and also tells if the object is close to or far from the robot. Moreover, the artificial neural networks that we have used in this problem gave us a meagre error in linear and angular velocity prediction and the PI controller which was used to control the linear and angular velocities, which in turn controls the position of the robot gave us impressive results and this methodology outperforms all other methodologies.
翻訳日:2021-09-09 03:20:43 公開日:2021-09-06
# (参考訳) ランダム化SVDを用いた大規模システム同定 [全文訳有]

Large-Scale System Identification Using a Randomized SVD ( http://arxiv.org/abs/2109.02703v1 )

ライセンス: CC BY 4.0
Han Wang and James Anderson(参考訳) 入出力データから動的システムを学ぶことは、制御設計パイプラインの基本課題である。 部分的に観察された設定では、マルコフパラメータを学習するためのパラメータ推定と状態空間モデルを得るためのシステム実現の2つのコンポーネントが識別される。 両方のサブプロブレムにおいて、特異値分解(SVD)のような標準的な数値アルゴリズムは容易にかつ確実に計算できると暗黙的に仮定する。 例えばサイバー物理システムの設定では、高次元のモデルをデータに適用しようとすると、SVDの計算も難解である。 本研究では,従来の手法の非漸近的(データセットサイズ)性能とロバスト性保証を維持しつつ,ランダム化手法を用いて得られた近似行列分解により,実現アルゴリズムの標準SVDを置き換えることができることを示す。 数値例は、大規模システムモデルでは、モデルを生成する唯一の方法であることを示している。

Learning a dynamical system from input/output data is a fundamental task in the control design pipeline. In the partially observed setting there are two components to identification: parameter estimation to learn the Markov parameters, and system realization to obtain a state space model. In both sub-problems it is implicitly assumed that standard numerical algorithms such as the singular value decomposition (SVD) can be easily and reliably computed. When trying to fit a high-dimensional model to data, for example in the cyber-physical system setting, even computing an SVD is intractable. In this work we show that an approximate matrix factorization obtained using randomized methods can replace the standard SVD in the realization algorithm while maintaining the non-asymptotic (in data-set size) performance and robustness guarantees of classical methods. Numerical examples illustrate that for large system models, this is the only method capable of producing a model.
翻訳日:2021-09-09 03:07:32 公開日:2021-09-06
# (参考訳) Text-to-Table:新しい情報抽出方法 [全文訳有]

Text-to-Table: A New Way of Information Extraction ( http://arxiv.org/abs/2109.02707v1 )

ライセンス: CC BY 4.0
Xueqing Wu, Jiacheng Zhang, and Hang Li(参考訳) 本稿では,テキスト・トゥ・テーブル(text-to-table)と呼ばれる,情報抽出(IE)の新たな問題設定について検討する。 テキスト対テーブル(text-to-table)では、与えられたテキストに対して、モデルがテキスト対ペアデータから学習される間、テキストの主コンテンツを表すテーブルまたは複数のテーブルを作成する。 問題設定はIEの既存の方法とは異なる。 まず、長いテキストから複雑な構造を持つ大きなテーブルへの抽出を行うことができる。 第二に、抽出は完全にデータ駆動であり、スキーマを明示的に定義する必要はない。 私たちの知る限り、この問題を研究する以前の研究はありませんでした。 本研究では,テキスト・ツー・テーブルをシーケンス・ツー・シーケンス(seq2seq)問題として定式化する。 まず,事前学習した言語モデルから微調整したseq2seqモデルを用いてタスクを実行する。 また,テーブル生成においてテーブル制約とテーブル関係埋め込みという2つの技法を活用し,seq2seqアプローチにおける新しい手法を開発した。 既存の4つのテーブル・ツー・テキストデータセットをtext-to-table実験で使用しました。 実験結果から,バニラSeq2seqモデルは,関係抽出と名前付き実体抽出のベースライン手法よりも優れていることがわかった。 また,本手法はバニラseq2seqモデルの性能をさらに向上させることができることを示した。 さらに,提案課題の主な課題について考察する。 コードとデータは公開される予定だ。

We study a new problem setting of information extraction (IE), referred to as text-to-table, which can be viewed as an inverse problem of the well-studied table-to-text. In text-to-table, given a text, one creates a table or several tables expressing the main content of the text, while the model is learned from text-table pair data. The problem setting differs from those of the existing methods for IE. First, the extraction can be carried out from long texts to large tables with complex structures. Second, the extraction is entirely data-driven, and there is no need to explicitly define the schemas. As far as we know, there has been no previous work that studies the problem. In this work, we formalize text-to-table as a sequence-to-sequence (seq2seq) problem. We first employ a seq2seq model fine-tuned from a pre-trained language model to perform the task. We also develop a new method within the seq2seq approach, exploiting two additional techniques in table generation: table constraint and table relation embeddings. We make use of four existing table-to-text datasets in our experiments on text-to-table. Experimental results show that the vanilla seq2seq model can outperform the baseline methods of using relation extraction and named entity extraction. The results also show that our method can further boost the performances of the vanilla seq2seq model. We further discuss the main challenges of the proposed task. The code and data will be made publicly available.
翻訳日:2021-09-09 02:45:57 公開日:2021-09-06
# (参考訳) Crash Report Data Analysis for Creating Scenario-Wise, Spatio-Temporal Attention Guidance to Support Computer Vision-based Perception of Fatal Crash Risks [全文訳有]

Crash Report Data Analysis for Creating Scenario-Wise, Spatio-Temporal Attention Guidance to Support Computer Vision-based Perception of Fatal Crash Risks ( http://arxiv.org/abs/2109.02710v1 )

ライセンス: CC BY 4.0
Yu Li, Muhammad Monjurul Karim, Ruwen Qin(参考訳) 交通事故による死者数の減少と重傷は、アメリカ運輸省の最優先事項である。 コンピュータビジョン(cv)ベースのクラッシュ予測(crash-crash phase)が注目されている。 事故予測の信頼性を向上させるため、早期に致命的な事故リスクを認識できる能力も重要である。 しかし、事故リスクを早期に認識するための信頼性の高いAIモデルをトレーニングするための注釈付き画像データは豊富ではない。 Fatality Analysis Reporting Systemには、致命的なクラッシュのビッグデータが含まれている。 CVの限界を補うために運転シーン特性と死亡事故の関係を学習するための信頼性の高いデータソースである。 そこで本研究では,検出対象が環境から致命的クラッシュとの関連性や状況情報から推定可能な致命的クラッシュ報告データから,シナリオ的,時空間的注意誘導というデータ分析モデルを開発した。 まず,5年間の致命的なクラッシュデータセットを分解し,シナリオワイドアテンションガイダンスを開発することができる5つのスパース変数を同定する。 そして、クラッシュレポートデータの位置情報および時間関連変数の探索分析は、致命的なクラッシュを空間的に定義されたグループに減らすことを示唆する。 グループの時間的パターンは、グループ内の致命的なクラッシュの類似性の指標である。 階層的クラスタリングとK平均クラスタリングは、空間的に定義された群を時間パターンの類似性に応じて6つのクラスタにマージする。 その後、アソシエーションルールマイニングは、各クラスタの運転シーンの時間的情報とクラッシュの特徴の間の統計的関係を発見する。 本研究は,環境や文脈情報から致命的な事故に遭遇する可能性のある物体を識別できる予備CVモデルの設計と実装を支援する手法について述べる。

Reducing traffic fatalities and serious injuries is a top priority of the US Department of Transportation. The computer vision (CV)-based crash anticipation in the near-crash phase is receiving growing attention. The ability to perceive fatal crash risks earlier is also critical because it will improve the reliability of crash anticipation. Yet, annotated image data for training a reliable AI model for the early visual perception of crash risks are not abundant. The Fatality Analysis Reporting System contains big data of fatal crashes. It is a reliable data source for learning the relationship between driving scene characteristics and fatal crashes to compensate for the limitation of CV. Therefore, this paper develops a data analytics model, named scenario-wise, Spatio-temporal attention guidance, from fatal crash report data, which can estimate the relevance of detected objects to fatal crashes from their environment and context information. First, the paper identifies five sparse variables that allow for decomposing the 5-year fatal crash dataset to develop scenario-wise attention guidance. Then, exploratory analysis of location- and time-related variables of the crash report data suggests reducing fatal crashes to spatially defined groups. The group's temporal pattern is an indicator of the similarity of fatal crashes in the group. Hierarchical clustering and K-means clustering merge the spatially defined groups into six clusters according to the similarity of their temporal patterns. After that, association rule mining discovers the statistical relationship between the temporal information of driving scenes with crash features, for each cluster. The paper shows how the developed attention guidance supports the design and implementation of a preliminary CV model that can identify objects of a possibility to involve in fatal crashes from their environment and context information.
翻訳日:2021-09-09 02:28:08 公開日:2021-09-06
# (参考訳) 高分解能uav画像の雑草・作物分類のための視覚トランスフォーマー [全文訳有]

Vision Transformers For Weeds and Crops Classification Of High Resolution UAV Images ( http://arxiv.org/abs/2109.02716v1 )

ライセンス: CC BY 4.0
Reenul Reedha, Eric Dericquebourg, Raphael Canals, Adel Hafiane(参考訳) 作物と雑草のモニタリングは、近年農業と食料生産にとって重要な課題である。 近年のデータ取得と計算技術の発展により、農業はよりスマートで精密な農業へと進化し、高い収量と高品質の作物生産に対応している。 無人航空機(uav)画像の分類と認識は作物モニタリングの重要な段階である。 畳み込みニューラルネットワーク(cnn)に基づくディープラーニングモデルの進歩は、農業領域における画像分類において高いパフォーマンスを達成している。 このアーキテクチャの成功にもかかわらず、CNNは高い計算コスト、大きなラベル付きデータセットの必要性といった多くの課題に直面している。 自己注意パラダイムを利用することで、ViT(Vision Transformer)モデルは、畳み込み操作を適用することなく、競争またはより良い結果を得ることができる。 本稿では,雑草および作物の植物分類における植物分類のViTモデルによる自己保持機構(赤ビート,オフタイプビート(緑葉),パセリ,ホウレンソウ)を採用した。 実験の結果、ラベル付きトレーニングデータの小さなセットでは、vitモデルが最先端のcnnベースのモデルよりも優れたパフォーマンスを示し、vitモデルによる最高精度は99.8\%であった。

Crop and weed monitoring is an important challenge for agriculture and food production nowadays. Thanks to recent advances in data acquisition and computation technologies, agriculture is evolving to a more smart and precision farming to meet with the high yield and high quality crop production. Classification and recognition in Unmanned Aerial Vehicles (UAV) images are important phases for crop monitoring. Advances in deep learning models relying on Convolutional Neural Network (CNN) have achieved high performances in image classification in the agricultural domain. Despite the success of this architecture, CNN still faces many challenges such as high computation cost, the need of large labelled datasets, ... Natural language processing's transformer architecture can be an alternative approach to deal with CNN's limitations. Making use of the self-attention paradigm, Vision Transformer (ViT) models can achieve competitive or better results without applying any convolution operations. In this paper, we adopt the self-attention mechanism via the ViT models for plant classification of weeds and crops: red beet, off-type beet (green leaves), parsley and spinach. Our experiments show that with small set of labelled training data, ViT models perform better compared to state-of-the-art CNN-based models EfficientNet and ResNet, with a top accuracy of 99.8\% achieved by the ViT model.
翻訳日:2021-09-09 02:09:46 公開日:2021-09-06
# (参考訳) BERTは人間として学ぶか? レキシカによる言語スタイルの理解 [全文訳有]

Does BERT Learn as Humans Perceive? Understanding Linguistic Styles through Lexica ( http://arxiv.org/abs/2109.02738v1 )

ライセンス: CC BY 4.0
Shirley Anugrah Hayati, Dongyeop Kang, Lyle Ungar(参考訳) 人々は、書いたテキストの言語スタイルを通じて、自分の意図と態度を伝えます。 本研究では,人間の知覚と機械語の重要性という2つのレンズをまたいだスタイル間の語彙使用について検討する。 人間の知覚のラベルを収集するために、ベンチマークスタイルのデータセットの上に新しいデータセットhummingbirdをキュレーションします。 群衆の労働者はテキストで代表的な言葉を強調し、テキストには丁寧さ、感情、攻撃性、そして5つの感情タイプがあると考えている。 次に、これらの単語ラベルと、BERTのような人気の高い微調整スタイル分類器からの単語重要度を比較する。 以上の結果から, BERTは, 対象のスタイルに関連のない内容語を, スタイル予測において重要な単語とみなすことが多いが, 人間のスタイル(肯定的な感情や喜び) や人間や機械で特定された単語は, 何らかのスタイルにおいて顕著に重複しているにもかかわらず, 人間は同じように認識しないことがわかった。

People convey their intention and attitude through linguistic styles of the text that they write. In this study, we investigate lexicon usages across styles throughout two lenses: human perception and machine word importance, since words differ in the strength of the stylistic cues that they provide. To collect labels of human perception, we curate a new dataset, Hummingbird, on top of benchmarking style datasets. We have crowd workers highlight the representative words in the text that makes them think the text has the following styles: politeness, sentiment, offensiveness, and five emotion types. We then compare these human word labels with word importance derived from a popular fine-tuned style classifier like BERT. Our results show that the BERT often finds content words not relevant to the target style as important words used in style prediction, but humans do not perceive the same way even though for some styles (e.g., positive sentiment and joy) human- and machine-identified words share significant overlap for some styles.
翻訳日:2021-09-09 01:53:24 公開日:2021-09-06
# (参考訳) エンドツーエンドのニューラル情報ステータス分類 [全文訳有]

End-to-end Neural Information Status Classification ( http://arxiv.org/abs/2109.02753v1 )

ライセンス: CC BY 4.0
Yufang Hou(参考訳) 情報ステータス(IS)分類とブリッジング・アナフォラ認識に関するこれまでの研究は、金の言及や統語木に関する情報が与えられると推定している(Hou et al., 2013; Roesiger et al., 2018; Hou, 2020; Yu and Poesio, 2020)。 本稿では,情報ステータス分類のためのエンドツーエンドニューラルネットワークを提案する。 提案手法は,参照抽出コンポーネントと情報ステータス割り当てコンポーネントから構成される。 推測時間中,システムは生のテキストを入力として,情報ステータスとともに参照を生成する。 The ISNotes corpus (Markert et al., 2012), we show that our information status assignment component is a new-of-the-art results on fine-fine IS classification based on Gold mentions。 さらに,エンド・ツー・エンドの設定では,参照抽出と細粒度is分類の両方において,他のベースラインよりも有意に優れた性能を示す。 最後に,Bashi (Roesiger, 2018) とSciCorp (Roesiger, 2016) に本システムを適用し, 参照点検アナフォラを認識する。 我々は,ISNotesでトレーニングしたエンドツーエンドシステムは,構文情報に依存し,ドメイン内のデータセット(Yu and Poesio, 2020)に基づいてトレーニングされた従来の最先端システムと比較して,アナフォラ認識のブリッジングに関する競争的な結果が得られることを発見した。

Most previous studies on information status (IS) classification and bridging anaphora recognition assume that the gold mention or syntactic tree information is given (Hou et al., 2013; Roesiger et al., 2018; Hou, 2020; Yu and Poesio, 2020). In this paper, we propose an end-to-end neural approach for information status classification. Our approach consists of a mention extraction component and an information status assignment component. During the inference time, our system takes a raw text as the input and generates mentions together with their information status. On the ISNotes corpus (Markert et al., 2012), we show that our information status assignment component achieves new state-of-the-art results on fine-grained IS classification based on gold mentions. Furthermore, our system performs significantly better than other baselines for both mention extraction and fine-grained IS classification in the end-to-end setting. Finally, we apply our system on BASHI (Roesiger, 2018) and SciCorp (Roesiger, 2016) to recognize referential bridging anaphora. We find that our end-to-end system trained on ISNotes achieves competitive results on bridging anaphora recognition compared to the previous state-of-the-art system that relies on syntactic information and is trained on the in-domain datasets (Yu and Poesio, 2020).
翻訳日:2021-09-09 01:43:25 公開日:2021-09-06
# (参考訳) 生成的敵意訓練によるロバスト性と一般化 [全文訳有]

Robustness and Generalization via Generative Adversarial Training ( http://arxiv.org/abs/2109.02765v1 )

ライセンス: CC BY 4.0
Omid Poursaeed, Tianxing Jiang, Harry Yang, Serge Belongie, SerNam Lim(参考訳) ディープニューラルネットワークは様々なコンピュータビジョンタスクで顕著な成功を収めているが、それらはしばしば新しい領域への一般化や入力画像の微妙なバリエーションに失敗している。 これらの変動に対する堅牢性を改善するために、いくつかの防衛策が提案されている。 しかし、現在の防御は訓練で使用される特定の攻撃にしか耐えられず、モデルは他の入力のバリエーションに弱いままであることが多い。 さらに、これらの手法はクリーンな画像上でのモデルの性能を劣化させ、ドメイン外のサンプルに一般化しないことが多い。 本稿では,テストセットとドメイン外サンプルへのモデルの一般化と,その非認識逆攻撃に対する頑健性を同時に改善する手法であるジェネレーティブ・アドバーサリートレーニングを提案する。 画像の低レベルな事前定義された側面を変更する代わりに、非絡み付き潜在空間を持つ生成モデルを用いて、低レベル、中レベル、高レベルな変化のスペクトルを生成する。 これらの例を用いた敵対的トレーニングにより、トレーニング中の様々な入力変更を観察することで、モデルが幅広い攻撃に耐えることができる。 提案手法は,クリーンイメージやドメイン外サンプルのモデル性能を向上させるだけでなく,予期せぬ攻撃や先行作業よりも頑健であることを示す。 本手法の有効性を検証するために, 分類, セグメンテーション, オブジェクト検出などの様々なタスクの結果を示す。

While deep neural networks have achieved remarkable success in various computer vision tasks, they often fail to generalize to new domains and subtle variations of input images. Several defenses have been proposed to improve the robustness against these variations. However, current defenses can only withstand the specific attack used in training, and the models often remain vulnerable to other input variations. Moreover, these methods often degrade performance of the model on clean images and do not generalize to out-of-domain samples. In this paper we present Generative Adversarial Training, an approach to simultaneously improve the model's generalization to the test set and out-of-domain samples as well as its robustness to unseen adversarial attacks. Instead of altering a low-level pre-defined aspect of images, we generate a spectrum of low-level, mid-level and high-level changes using generative models with a disentangled latent space. Adversarial training with these examples enable the model to withstand a wide range of attacks by observing a variety of input alterations during training. We show that our approach not only improves performance of the model on clean images and out-of-domain samples but also makes it robust against unforeseen attacks and outperforms prior work. We validate effectiveness of our method by demonstrating results on various tasks such as classification, segmentation and object detection.
翻訳日:2021-09-09 01:25:41 公開日:2021-09-06
# (参考訳) deep simbad: ランキングに基づくシーン記述子を用いたアクティブランドマークベースのセルフローカライズ [全文訳有]

Deep SIMBAD: Active Landmark-based Self-localization Using Ranking -based Scene Descriptor ( http://arxiv.org/abs/2109.02786v1 )

ライセンス: CC BY 4.0
Tanaka Kanji(参考訳) ランドマークに基づくロボットの自己ローカライゼーションは、最近、ドメイン間で視覚的位置認識(VPR)を行うための、非常に圧縮性の高いドメイン不変のアプローチとして関心を集めている(例えば、日時、天気、季節)。 しかし、ランドマークベースの自己局所化は受動的オブザーバ(例えば手動ロボット制御)にとって不適切な問題であり、多くの視点が効果的なランドマークビューを提供しない可能性がある。 本研究では,アクティブ・オブザーバによるアクティブ・セルフローカライズ・タスクについて検討し,新しい強化学習(RL)に基づくNBVプランナを提案する。 私たちの貢献は以下の通りです。 1) SIMBADに基づくVPR: SIMBAD(Similarity-ba sed pattern recognition)としてランドマークに基づくコンパクトなシーン記述の問題を定式化し,さらに深層学習の拡張を示す。 2) VPRからNBVへの知識伝達:VPRの状態認識能力をNBVに伝達することで,不確実性(アクティブな自己ローカライゼーション)下でのRLの課題に対処する。 (3) NNQLベースのNBV: 利用可能なVPRを、Q-learning(NNQL)の最も近い近似を適用することで、エクスペリエンスデータベースとみなす。 結果は、VPRとNBVの両方を1つのインクリメンタルな逆インデックスに圧縮する非常にコンパクトなデータ構造を示す。 NCLTデータセットを用いた実験により,提案手法の有効性が検証された。

Landmark-based robot self-localization has recently garnered interest as a highly-compressive domain-invariant approach for performing visual place recognition (VPR) across domains (e.g., time of day, weather, and season). However, landmark-based self-localization can be an ill-posed problem for a passive observer (e.g., manual robot control), as many viewpoints may not provide an effective landmark view. In this study, we consider an active self-localization task by an active observer and present a novel reinforcement learning (RL)-based next-best-view (NBV) planner. Our contributions are as follows. (1) SIMBAD-based VPR: We formulate the problem of landmark-based compact scene description as SIMBAD (similarity-based pattern recognition) and further present its deep learning extension. (2) VPR-to-NBV knowledge transfer: We address the challenge of RL under uncertainty (i.e., active self-localization) by transferring the state recognition ability of VPR to the NBV. (3) NNQL-based NBV: We regard the available VPR as the experience database by adapting nearest-neighbor approximation of Q-learning (NNQL). The result shows an extremely compact data structure that compresses both the VPR and NBV into a single incremental inverted index. Experiments using the public NCLT dataset validated the effectiveness of the proposed approach.
翻訳日:2021-09-09 01:09:48 公開日:2021-09-06
# 道路電位検出のためのセマンティックセグメンテーションを伴うグラフ注意層:ベンチマークとアルゴリズム

Graph Attention Layer Evolves Semantic Segmentation for Road Pothole Detection: A Benchmark and Algorithms ( http://arxiv.org/abs/2109.02711v1 )

ライセンス: Link先を確認
Rui Fan, Hengli Wang, Yuan Wang, Ming Liu, Ioannis Pitas(参考訳) 既存の道路穴検出アプローチは、コンピュータビジョンベースまたは機械学習ベースに分類される。 従来のアプローチでは、視覚センサデータから道路の穴を検出するために、2次元画像解析/理解または3次元ポイントクラウドモデリングとセグメンテーションアルゴリズムが使用される。 後者のアプローチは一般に畳み込みニューラルネットワーク(cnns)を用いた道路ポットホール検出をエンドツーエンドで扱う。 しかし,道路の穴は必ずしもユビキタスではないため,CNNトレーニングのための大規模な注釈付きデータセットの作成は困難である。 この点において、コンピュータビジョンに基づく手法が過去10年間の主流の研究トレンドであったのに対し、機械学習に基づく手法は単に議論されただけである。 近年,損傷や損傷のない道路エリアを高度に区別できる,立体視による道路穴検出データセットと,新しい異質度変換アルゴリズムを公表した。 しかし、現状(SoTA)のCNNには現在、異質な画像または変換異質な画像を使用してトレーニングされたベンチマークはない。 そこで本稿では,まずセマンティックセグメンテーション用に設計されたSoTA CNNについて論じ,その性能を広範囲な実験により評価する。 さらに,グラフニューラルネットワーク(GNN)にインスパイアされた新しいCNN層を提案する。グラフアテンション層(GAL)は,既存のCNNに容易に展開でき,セマンティックセグメンテーションのための画像特徴表現を最適化することができる。 GAL-DeepLabv3+と、RGB画像、不均質画像、変換異質画像という3つのトレーニングデータに対する9つのSoTA CNNを比較した。 実験の結果,提案したGAL-DeepLabv3+は,全てのトレーニングデータに対して,最高のポットホール検出精度を実現することが示唆された。

Existing road pothole detection approaches can be classified as computer vision-based or machine learning-based. The former approaches typically employ 2-D image analysis/understandi ng or 3-D point cloud modeling and segmentation algorithms to detect road potholes from vision sensor data. The latter approaches generally address road pothole detection using convolutional neural networks (CNNs) in an end-to-end manner. However, road potholes are not necessarily ubiquitous and it is challenging to prepare a large well-annotated dataset for CNN training. In this regard, while computer vision-based methods were the mainstream research trend in the past decade, machine learning-based methods were merely discussed. Recently, we published the first stereo vision-based road pothole detection dataset and a novel disparity transformation algorithm, whereby the damaged and undamaged road areas can be highly distinguished. However, there are no benchmarks currently available for state-of-the-art (SoTA) CNNs trained using either disparity images or transformed disparity images. Therefore, in this paper, we first discuss the SoTA CNNs designed for semantic segmentation and evaluate their performance for road pothole detection with extensive experiments. Additionally, inspired by graph neural network (GNN), we propose a novel CNN layer, referred to as graph attention layer (GAL), which can be easily deployed in any existing CNN to optimize image feature representations for semantic segmentation. Our experiments compare GAL-DeepLabv3+, our best-performing implementation, with nine SoTA CNNs on three modalities of training data: RGB images, disparity images, and transformed disparity images. The experimental results suggest that our proposed GAL-DeepLabv3+ achieves the best overall pothole detection accuracy on all training data modalities.
翻訳日:2021-09-08 14:53:38 公開日:2021-09-06
# whyact: ライフスタイルvlogにおける行動理由の特定

WhyAct: Identifying Action Reasons in Lifestyle Vlogs ( http://arxiv.org/abs/2109.02747v1 )

ライセンス: Link先を確認
Oana Ignat, Santiago Castro, Hanwen Miao, Weiji Li, Rada Mihalcea(参考訳) オンラインビデオで人間の行動の理由を自動的に特定することを目指している。 我々は、人々が言葉で記述しながら行動するライフスタイルのvlogの幅広いジャンルに焦点を当てる。 1,077のビジュアルアクションを手作業でアノテートしたデータセットである {\sc whyact} を紹介し,公開する。 ビデオに提示されたアクションに対応する理由を自動的に推測するために,視覚情報とテキスト情報を活用するマルチモーダルモデルについて述べる。

We aim to automatically identify human action reasons in online videos. We focus on the widespread genre of lifestyle vlogs, in which people perform actions while verbally describing them. We introduce and make publicly available the {\sc WhyAct} dataset, consisting of 1,077 visual actions manually annotated with their reasons. We describe a multimodal model that leverages visual and textual information to automatically infer the reasons corresponding to an action presented in the video.
翻訳日:2021-09-08 14:51:11 公開日:2021-09-06
# SS-BERT:「主観性」と「同一性」の表記を用いた有害コメント分類におけるアイデンティティ用語のバイアスの軽減

SS-BERT: Mitigating Identity Terms Bias in Toxic Comment Classification by Utilising the Notion of "Subjectivity" and "Identity Terms" ( http://arxiv.org/abs/2109.02691v1 )

ライセンス: Link先を確認
Zhixue Zhao, Ziqi Zhang, Frank Hopfgartner(参考訳) 有毒なコメント分類モデルは、しばしば「ムスリム」や「黒人」のような特定の集団を特徴づける用語であるアイデンティティ用語に偏っている。 このようなバイアスは、偽陽性の予測、すなわち、一般的に反映される。 アイデンティティ用語による非有毒なコメント。 本研究では,コメントの主観性レベルの概念と同一項の存在を活かして,有毒なコメント分類におけるそのようなバイアスに対処する新しいアプローチを提案する。 同一性用語を特徴とするグループについてコメントが作成されると、そのコメントが有毒である可能性は、コメントの主観性レベル、すなわち、そのコメントに関連付けられると仮定する。 コメントが個人的な感情や意見を伝える範囲。 BERTモデルに基づいて,これらの特徴を活用可能な新しい構造を提案し,異なるサイズの4つのデータセットと異なるソーシャルメディアプラットフォームを網羅的に評価する。 その結果,本モデルでは,識別項バイアスに対処するために考案されたBERTモデルとSOTAモデルに対して,それぞれ2.43%,1.91%の最大改善を達成できた。

Toxic comment classification models are often found biased toward identity terms which are terms characterizing a specific group of people such as "Muslim" and "black". Such bias is commonly reflected in false-positive predictions, i.e. non-toxic comments with identity terms. In this work, we propose a novel approach to tackle such bias in toxic comment classification, leveraging the notion of subjectivity level of a comment and the presence of identity terms. We hypothesize that when a comment is made about a group of people that is characterized by an identity term, the likelihood of that comment being toxic is associated with the subjectivity level of the comment, i.e. the extent to which the comment conveys personal feelings and opinions. Building upon the BERT model, we propose a new structure that is able to leverage these features, and thoroughly evaluate our model on 4 datasets of varying sizes and representing different social media platforms. The results show that our model can consistently outperform BERT and a SOTA model devised to address identity term bias in a different way, with a maximum improvement in F1 of 2.43% and 1.91% respectively.
翻訳日:2021-09-08 14:50:45 公開日:2021-09-06
# CLIPの拡張によるゼロショットオープンセット検出

Zero-Shot Open Set Detection by Extending CLIP ( http://arxiv.org/abs/2109.02748v1 )

ライセンス: Link先を確認
Sepideh Esmaeilpour, Bing Liu, Eric Robertson, Lei Shu(参考訳) 通常の開集合検出問題では、既知のクラス(閉集合クラスとも呼ばれる)のサンプルを使って特別な分類器を訓練する。 テストでは、分類器は(1)既知のクラスのテストサンプルをそれぞれのクラスに分類でき、(2)既知のクラスのどれにも属さないサンプルも検出できる。 本稿では,テストにおいて同じ2つのタスクを実行するが,既知のクラス名以外はトレーニングを行わないゼロショットオープンセット検出の問題について検討する。 本稿では,ZO-CLIP(ZO-CLIP)と呼ばれる新しい手法を提案する。 ZO-CLIPは、マルチモーダル表現学習によるゼロショット分類の最近の進歩の上に構築されている。 これはまず、CLIP上にテキストベースの画像記述ジェネレータをトレーニングすることで、トレーニング済みのマルチモーダルモデルCLIPを拡張する。 テストでは、拡張モデルを使用してテストサンプル毎に未知のクラス名候補を生成し、既知のクラス名と未知のクラス名の両方に基づいて信頼度スコアを計算し、ゼロショットのオープンセット検出を行う。 オープンセット検出のための5つのベンチマークデータセットの実験結果から、ZO-CLIPがベースラインを大きなマージンで上回ることを確認した。

In a regular open set detection problem, samples of known classes (also called closed set classes) are used to train a special classifier. In testing, the classifier can (1) classify the test samples of known classes to their respective classes and (2) also detect samples that do not belong to any of the known classes (we say they belong to some unknown or open set classes). This paper studies the problem of zero-shot open-set detection, which still performs the same two tasks in testing but has no training except using the given known class names. This paper proposes a novel and yet simple method (called ZO-CLIP) to solve the problem. ZO-CLIP builds on top of the recent advances in zero-shot classification through multi-modal representation learning. It first extends the pre-trained multi-modal model CLIP by training a text-based image description generator on top of CLIP. In testing, it uses the extended model to generate some candidate unknown class names for each test sample and computes a confidence score based on both the known class names and candidate unknown class names for zero-shot open set detection. Experimental results on 5 benchmark datasets for open set detection confirm that ZO-CLIP outperforms the baselines by a large margin.
翻訳日:2021-09-08 14:48:09 公開日:2021-09-06
# Pano3D:360^o$深さ推定のためのホロスティックベンチマークとソリッドベースライン

Pano3D: A Holistic Benchmark and a Solid Baseline for $360^o$ Depth Estimation ( http://arxiv.org/abs/2109.02749v1 )

ライセンス: Link先を確認
Georgios Albanis and Nikolaos Zioulis and Petros Drakoulis and Vasileios Gkitsas and Vladimiros Sterzentsenko and Federico Alvarez and Dimitrios Zarpalas and Petros Daras(参考訳) Pano3Dは球状パノラマから深度を推定するための新しいベンチマークである。 本研究の目的は,すべての深度推定特性,精度と精度を目標とした一次直接深度推定性能,および二次特性,境界保存,滑らかさを評価することである。 さらに、pano3dは、典型的なデータセット内評価からデータセット間パフォーマンス評価に移行する。 データを異なるテスト分割に一般化する能力を排除することで、pano3dは360^o$の深さ推定のための総合ベンチマークを表している。 奥行き推定のための古典的選択に対する洞察を提供するために、拡張分析の基盤として使用しています。 これにより、パノラマ深度のための固いベースラインが構築され、後続の作業が将来の進歩を支えます。

Pano3D is a new benchmark for depth estimation from spherical panoramas. It aims to assess performance across all depth estimation traits, the primary direct depth estimation performance targeting precision and accuracy, and also the secondary traits, boundary preservation, and smoothness. Moreover, Pano3D moves beyond typical intra-dataset evaluation to inter-dataset performance assessment. By disentangling the capacity to generalize to unseen data into different test splits, Pano3D represents a holistic benchmark for $360^o$ depth estimation. We use it as a basis for an extended analysis seeking to offer insights into classical choices for depth estimation. This results in a solid baseline for panoramic depth that follow-up works can build upon to steer future progress.
翻訳日:2021-09-08 14:47:50 公開日:2021-09-06
# zeroからheroへのディープネットワークのトレーニング - 落とし穴の回避と回避

Training Deep Networks from Zero to Hero: avoiding pitfalls and going beyond ( http://arxiv.org/abs/2109.02752v1 )

ライセンス: Link先を確認
Moacir Antonelli Ponti, Fernando Pereira dos Santos, Leo Sampaio Ferraz Ribeiro, and Gabriel Biscaro Cavallari(参考訳) 深層ニューラルネットワークのトレーニングは、現実世界のデータでは難しいかもしれない。 モデルをブラックボックスとして使用する場合、転送学習であっても、小さなデータセットや特定のアプリケーションに関して、一般化や決定性の悪い結果をもたらす可能性がある。 このチュートリアルでは、基本的なステップと、より最近のモデルを改善するためのオプション、特に教師付き学習に制限されないものを取り上げます。 これは特に、課題のデータセットほど準備が不十分で、アノテーションや小さなデータが少ないデータセットで有用である。 データ準備、最適化、転送学習といった基本的な手順だけでなく、トランスフォーマーモジュール、代替畳み込み層、アクティベーション関数、ワイドネットワーク、ディープネットワーク、カリキュラム、コントラスト、自己教師付き学習などのトレーニング手順など、最近のアーキテクチャ上の選択についても述べる。

Training deep neural networks may be challenging in real world data. Using models as black-boxes, even with transfer learning, can result in poor generalization or inconclusive results when it comes to small datasets or specific applications. This tutorial covers the basic steps as well as more recent options to improve models, in particular, but not restricted to, supervised learning. It can be particularly useful in datasets that are not as well-prepared as those in challenges, and also under scarce annotation and/or small data. We describe basic procedures: as data preparation, optimization and transfer learning, but also recent architectural choices such as use of transformer modules, alternative convolutional layers, activation functions, wide and deep networks, as well as training procedures including as curriculum, contrastive and self-supervised learning.
翻訳日:2021-09-08 14:47:38 公開日:2021-09-06
# ソーシャルメディアにおけるインスピレーションコンテンツの検出

Detecting Inspiring Content on Social Media ( http://arxiv.org/abs/2109.02734v1 )

ライセンス: Link先を確認
Oana Ignat, Y-Lan Boureau, Jane A. Yu, Alon Halevy(参考訳) インスピレーションは、新しい可能性を見るために人を動かし、自身の可能性を認識する方法を変えます。 吸気は心理学にはほとんど関心がなく、NLPコミュニティではこれまで研究されていない。 私たちの知る限りでは、この研究は機械学習の手法でインスピレーションを研究する最初の方法です。 ソーシャルメディアデータからインスパイアされたコンテンツを自動的に検出することを目指している。 この目的のために、ソーシャルメディアの投稿を分析して、投稿にインスピレーションを与えるものや、どんな話題がインスピレーションを与えているかをティーズする。 Redditの公開投稿から収集された5800件のインスピレーションと5800件のインスピレーションを受けていない英語の公開投稿のデータセットを公開し、言語ヒューリスティックスを使用して、どのソーシャルメディアの英語投稿がインスピレーションを受けているかを自動的に検出します。

Inspiration moves a person to see new possibilities and transforms the way they perceive their own potential. Inspiration has received little attention in psychology, and has not been researched before in the NLP community. To the best of our knowledge, this work is the first to study inspiration through machine learning methods. We aim to automatically detect inspiring content from social media data. To this end, we analyze social media posts to tease out what makes a post inspiring and what topics are inspiring. We release a dataset of 5,800 inspiring and 5,800 non-inspiring English-language public post unique ids collected from a dump of Reddit public posts made available by a third party and use linguistic heuristics to automatically detect which social media English-language posts are inspiring.
翻訳日:2021-09-08 14:43:58 公開日:2021-09-06
# 事前学習型言語モデルのためのFew-shot Knowledge Probingに関する実証的研究

An Empirical Study on Few-shot Knowledge Probing for Pretrained Language Models ( http://arxiv.org/abs/2109.02772v1 )

ライセンス: Link先を確認
Tianxing He, Kyunghyun Cho, James Glass(参考訳) 1-hop関係のプロンプトベースの知識探索は、事前訓練された言語モデルにどれだけの知識が格納されているかを測定するために用いられてきた。 既存の作業では、パフォーマンス向上のためにプロンプトをチューニングするために大量のデータを使用します。 本研究では,少数の三重項(例:10または20)しか利用できないような,数ショットの知識探索環境下での様々なアプローチを比較する。 さらに,2ホップ関係を含むTREx-2pという新しいデータセットを作成する。 我々は,1-hop関係と2-hop関係の両方の探索性能を,少数のサンプルで強く向上させることができることを報告した。 特に、モデル内のバイアスベクトルを微調整する単純なyet効果のアプローチは、既存のプロンプトエンジニアリング手法よりも優れている。 データセットとコードは \url{https://github.com/c loudygoose/fewshot_l ama} で利用可能です。

Prompt-based knowledge probing for 1-hop relations has been used to measure how much world knowledge is stored in pretrained language models. Existing work uses considerable amounts of data to tune the prompts for better performance. In this work, we compare a variety of approaches under a few-shot knowledge probing setting, where only a small number (e.g., 10 or 20) of example triples are available. In addition, we create a new dataset named TREx-2p, which contains 2-hop relations. We report that few-shot examples can strongly boost the probing performance for both 1-hop and 2-hop relations. In particular, we find that a simple-yet-effective approach of finetuning the bias vectors in the model outperforms existing prompt-engineering methods. Our dataset and code are available at \url{https://github.com/c loudygoose/fewshot_l ama}.
翻訳日:2021-09-08 14:41:40 公開日:2021-09-06
# クラウドソーシングアノテーションの再考:複数ラベル画像分類のための有能ラベル付き部分アノテーション

Rethinking Crowdsourcing Annotation: Partial Annotation with Salient Labels for Multi-Label Image Classification ( http://arxiv.org/abs/2109.02688v1 )

ライセンス: Link先を確認
Jianzhe Lin, Tianze Yu, Z. Jane Wang(参考訳) 教師付きモデルトレーニングと画像分類の評価には注釈付き画像が必要である。 手動でアノテートする画像は、特にマルチラベル画像の場合、困難で高価である。 クラウドソーシングでは、オンラインのボランティアや有料労働者(例えばamazon mechanical turkの労働者)が画像をスクラッチから注釈付けする。 しかし、画像アノテーションのクラウドソーシングの品質は保証できず、不完全さと不正確さは、クラウドソーシングアノテーションの2つの大きな懸念事項である。 私たちの単純な仮説は、アノテータが自信のあるラベルを持つ複数のラベルイメージに部分的にアノテートするだけで、アノテーションエラーが少なくなり、アノテータが不確実なラベルに費やす時間が少なくなるというものです。 幸いなことに、同じアノテーション予算で、有能なアノテーションを持つ画像で教師されるマルチラベル画像分類器が、完全に注釈付けされた画像で教師されるモデルより優れていることを示す。 提案手法は,複数ラベル画像の高度ラベルを取得するためのアクティブラーニング手法を提案し,多ラベル画像分類のための部分的アノテーションを用いた新しい適応温度関連モデル (atam) を提案する。 我々は,実際のクラウドソーシングデータ,open street map(osm)データセット,benchmark dataset coco 2014の実験を行う。 完全注釈付き画像で訓練された最先端の分類法と比較すると,提案手法は精度が高い。 提案するアイデアは,データアノテーションのクラウドソーシングに有望である。 私たちのコードは公開されます。

Annotated images are required for both supervised model training and evaluation in image classification. Manually annotating images is arduous and expensive, especially for multi-labeled images. A recent trend for conducting such laboursome annotation tasks is through crowdsourcing, where images are annotated by volunteers or paid workers online (e.g., workers of Amazon Mechanical Turk) from scratch. However, the quality of crowdsourcing image annotations cannot be guaranteed, and incompleteness and incorrectness are two major concerns for crowdsourcing annotations. To address such concerns, we have a rethinking of crowdsourcing annotations: Our simple hypothesis is that if the annotators only partially annotate multi-label images with salient labels they are confident in, there will be fewer annotation errors and annotators will spend less time on uncertain labels. As a pleasant surprise, with the same annotation budget, we show a multi-label image classifier supervised by images with salient annotations can outperform models supervised by fully annotated images. Our method contributions are 2-fold: An active learning way is proposed to acquire salient labels for multi-label images; and a novel Adaptive Temperature Associated Model (ATAM) specifically using partial annotations is proposed for multi-label image classification. We conduct experiments on practical crowdsourcing data, the Open Street Map (OSM) dataset and benchmark dataset COCO 2014. When compared with state-of-the-art classification methods trained on fully annotated images, the proposed ATAM can achieve higher accuracy. The proposed idea is promising for crowdsourcing data annotation. Our code will be publicly available.
翻訳日:2021-09-08 14:40:21 公開日:2021-09-06
# ドメインアライメント層によるドメイン適応ネットワークの転送性の向上

Improving Transferability of Domain Adaptation Networks Through Domain Alignment Layers ( http://arxiv.org/abs/2109.02693v1 )

ライセンス: Link先を確認
Lucas Fernando Alvarenga e Silva, Daniel Carlos Guimar\~aes Pedronette, F\'abio Augusto Faria, Jo\~ao Paulo Papa, Jurandy Almeida(参考訳) 深層学習(DL)は、様々なコンピュータビジョンタスクにおいて、多くのタスクで達成された関連する結果のため、主要なアプローチである。 しかし、ラベル付きデータの一部あるいは全く持たない実世界のシナリオでは、DLメソッドはよく知られたドメインシフトの問題にもなりがちである。 マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。 しかし、ほとんどの研究は抽出した特徴のみを活用するドメイン適応を行い、損失関数設計の観点からドメインシフトを減らす。 本稿では,ドメインレベルの特徴に基づくドメインシフトを扱うだけでは十分ではなく,そのような情報を特徴空間上で整列させることが不可欠である,と論じる。 従来の作業とは異なり,ネットワーク設計に重点を置いて,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。 これらの層は異なるドメイン間の特徴分布に適合するように設計されており、様々なmsda法に容易に適用することができる。 提案手法のロバスト性を示すために,2つの難解なシナリオであるデジット認識とオブジェクト分類を考慮した広範囲な実験評価を行った。 実験の結果,本手法は最先端msda法を改良でき,分類精度が最大で30.64%向上できることがわかった。

Deep learning (DL) has been the primary approach used in various computer vision tasks due to its relevant results achieved on many tasks. However, on real-world scenarios with partially or no labeled data, DL methods are also prone to the well-known domain shift problem. Multi-source unsupervised domain adaptation (MSDA) aims at learning a predictor for an unlabeled domain by assigning weak knowledge from a bag of source models. However, most works conduct domain adaptation leveraging only the extracted features and reducing their domain shift from the perspective of loss function designs. In this paper, we argue that it is not sufficient to handle domain shift only based on domain-level features, but it is also essential to align such information on the feature space. Unlike previous works, we focus on the network design and propose to embed Multi-Source version of DomaIn Alignment Layers (MS-DIAL) at different levels of the predictor. These layers are designed to match the feature distributions between different domains and can be easily applied to various MSDA methods. To show the robustness of our approach, we conducted an extensive experimental evaluation considering two challenging scenarios: digit recognition and object classification. The experimental results indicated that our approach can improve state-of-the-art MSDA methods, yielding relative gains of up to +30.64% on their classification accuracies.
翻訳日:2021-09-08 14:39:54 公開日:2021-09-06
# 医用画像の自動ランドマーク対応検出と変形可能な画像登録への応用

Automatic Landmarks Correspondence Detection in Medical Images with an Application to Deformable Image Registration ( http://arxiv.org/abs/2109.02722v1 )

ライセンス: Link先を確認
Monika Grewal, Jan Wiersma, Henrike Westerveld, Peter A. N. Bosman, Tanja Alderliesten(参考訳) 変形可能なイメージ登録(DIR)は、画像内の対応するランドマークを使用して追加のガイダンスの恩恵を受けることができる。 しかし,特に3次元医用画像における対応するランドマークの自動検出方法が欠如していることから,そのメリットはほとんど考慮されていない。 本研究では,DCNN-Matchと呼ばれるディープ畳み込みニューラルネットワーク(Deep Convolutional Neural Network, DCNN)を提案する。 我々は、異なる損失関数を使用するDCNN-Matchの5つの変種を調査し、DCNN-Matchを個別にテストし、オープンソース登録ソフトウェアであるElastixと組み合わせて、共通のDIRアプローチへの影響を評価する。 子宮頸癌患者から下腹部ct検査を施行した。骨盤ctスキャンは121例で弾性変形をシミュレーションし,11例で臨床変化を認めた。 以上の結果より,DCNN-Match が予測するランドマーク対応をシミュレートおよび臨床変形に用いた場合のDIR性能は有意に向上した。 また,自動識別されたランドマークの空間分布とそれに伴う一致誤差は,dirの改善度に影響を及ぼすことがわかった。 最後に、DCNN-Matchは、リトレーニングを必要とせずにMRIスキャンをうまく一般化し、他のデータセットに容易に適用できることが判明した。

Deformable Image Registration (DIR) can benefit from additional guidance using corresponding landmarks in the images. However, the benefits thereof are largely understudied, especially due to the lack of automatic detection methods for corresponding landmarks in three-dimensional (3D) medical images. In this work, we present a Deep Convolutional Neural Network (DCNN), called DCNN-Match, that learns to predict landmark correspondences in 3D images in a self-supervised manner. We explored five variants of DCNN-Match that use different loss functions and tested DCNN-Match separately as well as in combination with the open-source registration software Elastix to assess its impact on a common DIR approach. We employed lower-abdominal Computed Tomography (CT) scans from cervical cancer patients: 121 pelvic CT scan pairs containing simulated elastic transformations and 11 pairs demonstrating clinical deformations. Our results show significant improvement in DIR performance when landmark correspondences predicted by DCNN-Match were used in case of simulated as well as clinical deformations. We also observed that the spatial distribution of the automatically identified landmarks and the associated matching errors affect the extent of improvement in DIR. Finally, DCNN-Match was found to generalize well to Magnetic Resonance Imaging (MRI) scans without requiring retraining, indicating easy applicability to other datasets.
翻訳日:2021-09-08 14:39:34 公開日:2021-09-06
# 階層的食品分類による食事アセスメントの改善

Improving Dietary Assessment Via Integrated Hierarchy Food Classification ( http://arxiv.org/abs/2109.02736v1 )

ライセンス: Link先を確認
Runyu Mao, Jiangpeng He, Luotao Lin, Zeman Shao, Heather A. Eicher-Miller and Fengqing Zhu(参考訳) イメージベースの食事アセスメント(英: image-based dietary assessment)とは、何を食べるか、どれだけのエネルギーと栄養が視覚データから消費されているかを決定するプロセスを指す。 食品の分類は、最初のかつ最も重要なステップである。 既存の手法は、視覚情報のみに基づく正しい分類率によって測定される精度の向上に重点を置いており、食品の複雑さとクラス間類似性が高いため、非常に難しい。 さらに、食品分類の精度は、食品の記述を常に改善できるため概念的である。 本研究では,分類精度を維持しつつ,複数の領域の情報を統合することにより,予測の質を向上させるための新しい食品分類フレームワークを提案する。 我々は,視覚情報と栄養情報の両方を用いて類似食品をクラスタ化する階層構造に基づくマルチタスクネットワークを適用する。 本手法は,vfn(modified viper-foodnet)食品画像データセット上で,関連するエネルギー情報と栄養情報を用いて検証する。 視覚情報のみを使用する既存の手法と同等の分類精度を達成し,誤った予測に対するエネルギーと栄養価の誤差を低減した。

Image-based dietary assessment refers to the process of determining what someone eats and how much energy and nutrients are consumed from visual data. Food classification is the first and most crucial step. Existing methods focus on improving accuracy measured by the rate of correct classification based on visual information alone, which is very challenging due to the high complexity and inter-class similarity of foods. Further, accuracy in food classification is conceptual as description of a food can always be improved. In this work, we introduce a new food classification framework to improve the quality of predictions by integrating the information from multiple domains while maintaining the classification accuracy. We apply a multi-task network based on a hierarchical structure that uses both visual and nutrition domain specific information to cluster similar foods. Our method is validated on the modified VIPER-FoodNet (VFN) food image dataset by including associated energy and nutrient information. We achieve comparable classification accuracy with existing methods that use visual information only, but with less error in terms of energy and nutrient values for the wrong predictions.
翻訳日:2021-09-08 14:39:13 公開日:2021-09-06
# 複合現実臨床応用のための単眼3dヘッドフィッティング

Single-Camera 3D Head Fitting for Mixed Reality Clinical Applications ( http://arxiv.org/abs/2109.02740v1 )

ライセンス: Link先を確認
Tejas Mane, Aylar Bayramova, Kostas Daniilidis, Philippos Mordohai, Elena Bernardis(参考訳) 本研究では,全頭部形状として定義される頭部形状を,単一の移動カメラで撮影した映像から推定し,人のポーズに関わらず,すべての映像フレームに対して装着した3Dヘッドのアライメントを決定するという課題に対処する。 3次元頭部再建は一般的に顔の復元に焦点を合わせ、頭皮を統計的に近似する傾向にある。 私たちの目標は、将来の複合現実アプリケーションを可能にするために、各人の頭部モデルを再構築することです。 そこで我々は,立体構造と多視点ステレオを用いて,高密度な3次元再構成とカメラ情報を復元する。 次に、従来の顔のランドマークと頭部セグメンテーションマスクから抽出した頭皮の特徴の両方を用いて、頭部の3次元形態モデルと高次空間の密な再構成を反復的に組み合わせて、頭部の3次元形状を復元する新たな2段階フィッティングプロセスでこれらが使用される。 提案手法は,異なる人物が撮影したビデオ,異なるスマートフォン,リビングルームから屋外空間までさまざまな環境から,様々な頭部形状に対する一貫した形状を復元する。

We address the problem of estimating the shape of a person's head, defined as the geometry of the complete head surface, from a video taken with a single moving camera, and determining the alignment of the fitted 3D head for all video frames, irrespective of the person's pose. 3D head reconstructions commonly tend to focus on perfecting the face reconstruction, leaving the scalp to a statistical approximation. Our goal is to reconstruct the head model of each person to enable future mixed reality applications. To do this, we recover a dense 3D reconstruction and camera information via structure-from-motio n and multi-view stereo. These are then used in a new two-stage fitting process to recover the 3D head shape by iteratively fitting a 3D morphable model of the head with the dense reconstruction in canonical space and fitting it to each person's head, using both traditional facial landmarks and scalp features extracted from the head's segmentation mask. Our approach recovers consistent geometry for varying head shapes, from videos taken by different people, with different smartphones, and in a variety of environments from living rooms to outdoor spaces.
翻訳日:2021-09-08 14:38:57 公開日:2021-09-06
# STRIVE:ビデオのシーンテキストのリプレース

STRIVE: Scene Text Replacement In Videos ( http://arxiv.org/abs/2109.02762v1 )

ライセンス: Link先を確認
Vijay Kumar B G, Jeyasri Subramanian, Varnith Chordia, Eugene Bart, Shaobo Fang, Kelly Guan and Raja Bala(参考訳) We propose replacing scene text in videos using deep style transfer and learned photometric transformations.Buil ding on recent progress on still image text replacement,we present extensions that alter text while preserving the appearance and motion characteristics of the original video.Compared to the problem of still image text replacement,our method addresses additional challenges introduced by video, namely effects induced by changing lighting, motion blur, diverse variations in camera-object pose over time,and preservation of temporal consistency. 私たちは問題を3つのステップに分ける。 まず、全フレームのテキストを時空間トランスフォーマネットワークを用いて前面ポーズに正規化する。 第2に、テキストは、最先端の静止画像テキスト置換法を用いて、単一の参照フレームに置き換えられる。 最後に、新しいテキストは、時間的に一貫した方法で光とぼかし効果をキャプチャする新しい学習画像変換ネットワークを用いて、残りのフレームへの参照から転送される。 合成および挑戦的な実ビデオの結果は、現実的なテキストトランスフェール、競争力のある量的および質的なパフォーマンス、代替品と比較して優れた推論速度を示している。 テキストオブジェクトをペア化した合成および実世界のデータセットを導入する。 私たちの知る限りでは、これはディープビデオテキスト置換の最初の試みです。

We propose replacing scene text in videos using deep style transfer and learned photometric transformations.Buil ding on recent progress on still image text replacement,we present extensions that alter text while preserving the appearance and motion characteristics of the original video.Compared to the problem of still image text replacement,our method addresses additional challenges introduced by video, namely effects induced by changing lighting, motion blur, diverse variations in camera-object pose over time,and preservation of temporal consistency. We parse the problem into three steps. First, the text in all frames is normalized to a frontal pose using a spatio-temporal trans-former network. Second, the text is replaced in a single reference frame using a state-of-art still-image text replacement method. Finally, the new text is transferred from the reference to remaining frames using a novel learned image transformation network that captures lighting and blur effects in a temporally consistent manner. Results on synthetic and challenging real videos show realistic text trans-fer, competitive quantitative and qualitative performance,and superior inference speed relative to alternatives. We introduce new synthetic and real-world datasets with paired text objects. To the best of our knowledge this is the first attempt at deep video text replacement.
翻訳日:2021-09-08 14:38:36 公開日:2021-09-06
# gen2out: 一般的な異常の検出とランキング

gen2Out: Detecting and Ranking Generalized Anomalies ( http://arxiv.org/abs/2109.02704v1 )

ライセンス: Link先を確認
Meng-Chieh Lee, Shubhranshu Shekhar, Christos Faloutsos, T. Noah Hutson, Leon Iasemidis(参考訳) m次元のデータポイントの雲では、どのようにして、単一点とグループ異常の両方のランクを見つけるのか? 我々は最初に2次元で異常検出を一般化した: 第一の次元は、統一されたビューの下で、ポイント・アノマリーとグループ・アノマリーの両方を扱うことである。 第2の次元は、gen2Outは不審な順序で検出するだけでなく、ランク、異常も検出する。 例えば、てんかん患者の脳波記録では、異常は発作を示す可能性がある;コンピュータネットワークのトラフィックデータでは、電源障害またはDoS/DDoS攻撃を意味する。 まずは妥当な公理を設定することから始めます — 驚くべきことに、以前のどのメソッドもすべての公理をパスしません。 主な貢献はgen2outアルゴリズムで、次のような望ましい特性を備えています。 (a) 検出器の公理に従う、原則と音の異常スコア、 (b) 検出する2倍の一般、そして一般的な異常のランク -- ポイントとグループの両方の異常、 (c) スケーラブルで、高速でスケーラブルで、入力サイズに線形です。 (d)実世界のてんかん記録(200gb)の実験は臨床医が確認したようにgen2outの有効性を示す。 27の実世界のベンチマークデータセットによる実験によると、gen2Outは、ストレートマシン上の100万のデータポイントに対して約2分を要せず、精度で地上の真理グループ、マッチ、またはアウトパフォーマンスのポイントアノマリーベースラインアルゴリズムを検出する。

In a cloud of m-dimensional data points, how would we spot, as well as rank, both single-point- as well as group- anomalies? We are the first to generalize anomaly detection in two dimensions: The first dimension is that we handle both point-anomalies, as well as group-anomalies, under a unified view -- we shall refer to them as generalized anomalies. The second dimension is that gen2Out not only detects, but also ranks, anomalies in suspiciousness order. Detection, and ranking, of anomalies has numerous applications: For example, in EEG recordings of an epileptic patient, an anomaly may indicate a seizure; in computer network traffic data, it may signify a power failure, or a DoS/DDoS attack. We start by setting some reasonable axioms; surprisingly, none of the earlier methods pass all the axioms. Our main contribution is the gen2Out algorithm, that has the following desirable properties: (a) Principled and Sound anomaly scoring that obeys the axioms for detectors, (b) Doubly-general in that it detects, as well as ranks generalized anomaly -- both point- and group-anomalies, (c) Scalable, it is fast and scalable, linear on input size. (d) Effective, experiments on real-world epileptic recordings (200GB) demonstrate effectiveness of gen2Out as confirmed by clinicians. Experiments on 27 real-world benchmark datasets show that gen2Out detects ground truth groups, matches or outperforms point-anomaly baseline algorithms on accuracy, with no competition for group-anomalies and requires about 2 minutes for 1 million data points on a stock machine.
翻訳日:2021-09-08 14:34:05 公開日:2021-09-06
# 注意マーク付き時間点プロセスによる個人移動予測

Individual Mobility Prediction via Attentive Marked Temporal Point Processes ( http://arxiv.org/abs/2109.02715v1 )

ライセンス: Link先を確認
Yuankai Wu, Zhanhong Cheng, Lijun Sun(参考訳) 個人移動予測は交通需要管理と交通システム運用にとって重要な課題である。 ロケーションシーケンスをモデル化し、ユーザの次のロケーションを予測する作業は多数存在するが、旅行開始時間$t$、オリジン$o$、宛先$d$など、さまざまな属性間の時間的強い依存関係によって管理される次のトリップの予測には、ほとんど注目されていない。 このギャップを埋めるために,本論文では,人間の移動性をモデル化し,旅行コスト(t,o,d)を共同で予測する,新しい点点プロセスベースモデル - Attentive Marked temporal point process (AMTPP) を提案する。 歴史旅行の影響をエンコードするために、AMTPPは、個別の旅行行動における日・週ごとの周期性と規則性を捉えるために、慎重に設計された位置埋め込みを備えた自己注意機構を採用している。 人間の行動におけるイベント間時間のユニークなピーク特性を考えると、トリップ開始時刻の分布を正確にモデル化するために、非対称なログラプラス混合分布を用いる。 さらに、オリジンと目的地のペアの関係をモデル化するために、オリジン・デスティネーション(OD)行列学習ブロックを開発した。 2つの大規模メトロトリップデータセットの実験結果は、amtppの優れた性能を示している。

Individual mobility prediction is an essential task for transportation demand management and traffic system operation. There exist a large body of works on modeling location sequence and predicting the next location of users; however, little attention is paid to the prediction of the next trip, which is governed by the strong spatiotemporal dependencies between diverse attributes, including trip start time $t$, origin $o$, and destination $d$. To fill this gap, in this paper we propose a novel point process-based model -- Attentive Marked temporal point processes (AMTPP) -- to model human mobility and predict the whole trip $(t,o,d)$ in a joint manner. To encode the influence of history trips, AMTPP employs the self-attention mechanism with a carefully designed positional embedding to capture the daily/weekly periodicity and regularity in individual travel behavior. Given the unique peaked nature of inter-event time in human behavior, we use an asymmetric log-Laplace mixture distribution to precisely model the distribution of trip start time $t$. Furthermore, an origin-destination (OD) matrix learning block is developed to model the relationship between every origin and destination pair. Experimental results on two large metro trip datasets demonstrate the superior performance of AMTPP.
翻訳日:2021-09-08 14:33:35 公開日:2021-09-06
# 深部アノテーションと信頼に基づくサンプリングによる反復擬似ラベル作成

Iterative Pseudo-Labeling with Deep Feature Annotation and Confidence-Based Sampling ( http://arxiv.org/abs/2109.02717v1 )

ライセンス: Link先を確認
Barbara C Benato and Alexandru C Telea and Alexandre X Falc\~ao(参考訳) 大規模で注釈付きデータセットが利用できない場合には、ディープニューラルネットワークのトレーニングは難しい。 データサンプルの広範な手動アノテーションは、特に専門家が行う必要がある場合に、時間がかかり、コストがかかり、エラーが発生しやすい。 この問題に対処するため、不確定なラベル(擬似ラベルとも呼ばれる)を大量の教師なしサンプルに伝播させ、モデルのトレーニングに使用する技術に注目が集まっている。 しかしながら、これらのテクニックは、トレーニングセット内のクラスごとに数百の教師付きサンプルと、モデルをチューニングするために余分に教師付きサンプルを備えた検証セットが必要です。 我々は、最も確実な教師なしサンプルを選択して、深層ニューラルネットワークを反復的に訓練することにより、最近の反復的擬似ラベル手法であるDeep Feature Annotation(DeepFA)を改善した。 信頼性に基づくサンプリング戦略は、検証セットのないクラス毎の数十のアノテーション付きトレーニングサンプルのみに依存しており、データアノテーションのユーザの労力を大幅に削減しています。 まず、ベースライン - 自己学習したディープニューラルネットワーク -- の最良の構成を確認し、信頼度を異なる信頼しきい値で評価します。 6つのデータセットの実験によると、DeepFAは自己学習ベースラインをすでに上回っているが、DeepFAの信頼性はオリジナルのDeepFAとベースラインを大きく上回っている。

Training deep neural networks is challenging when large and annotated datasets are unavailable. Extensive manual annotation of data samples is time-consuming, expensive, and error-prone, notably when it needs to be done by experts. To address this issue, increased attention has been devoted to techniques that propagate uncertain labels (also called pseudo labels) to large amounts of unsupervised samples and use them for training the model. However, these techniques still need hundreds of supervised samples per class in the training set and a validation set with extra supervised samples to tune the model. We improve a recent iterative pseudo-labeling technique, Deep Feature Annotation (DeepFA), by selecting the most confident unsupervised samples to iteratively train a deep neural network. Our confidence-based sampling strategy relies on only dozens of annotated training samples per class with no validation set, considerably reducing user effort in data annotation. We first ascertain the best configuration for the baseline -- a self-trained deep neural network -- and then evaluate our confidence DeepFA for different confidence thresholds. Experiments on six datasets show that DeepFA already outperforms the self-trained baseline, but confidence DeepFA can considerably outperform the original DeepFA and the baseline.
翻訳日:2021-09-08 14:33:13 公開日:2021-09-06
# ブラックボックスにルールを組み込む:個々の条件付き期待パターンから特徴的影響を明らかにする

Bringing a Ruler Into the Black Box: Uncovering Feature Impact from Individual Conditional Expectation Plots ( http://arxiv.org/abs/2109.02724v1 )

ライセンス: Link先を確認
Andrew Yeh, Anhthy Ngo(参考訳) 機械学習システムがよりユビキタスになると、これらのモデルの理解と解釈の方法がますます重要になる。 特に、実践者は、モデルが依存する機能とモデルがどのようにそれらに依存しているかの両方に関心を持っている。 部分依存プロット(pdp)や個別条件期待プロット(ice)を含む機能影響に関する先行研究は、機能影響の視覚的解釈に焦点を当ててきた。 本稿では,ICEプロットから抽出したモデル非依存・性能非依存の特徴的影響指標であるICE特徴インパクトを用いたICEプロットの自然な拡張を提案し,線形回帰係数の近似として解釈できる。 さらに,その特徴を特徴付けるための不均一性や非線形性の測定値だけでなく,分布外点の影響も変化させるため,ICE機能の影響の分布内変種を導入する。 最後に、実世界のデータを用いて、ICE機能の効果をいくつかのタスクで実証する。

As machine learning systems become more ubiquitous, methods for understanding and interpreting these models become increasingly important. In particular, practitioners are often interested both in what features the model relies on and how the model relies on them--the feature's impact on model predictions. Prior work on feature impact including partial dependence plots (PDPs) and Individual Conditional Expectation (ICE) plots has focused on a visual interpretation of feature impact. We propose a natural extension to ICE plots with ICE feature impact, a model-agnostic, performance-agnostic feature impact metric drawn out from ICE plots that can be interpreted as a close analogy to linear regression coefficients. Additionally, we introduce an in-distribution variant of ICE feature impact to vary the influence of out-of-distribution points as well as heterogeneity and non-linearity measures to characterize feature impact. Lastly, we demonstrate ICE feature impact's utility in several tasks using real-world data.
翻訳日:2021-09-08 14:32:51 公開日:2021-09-06
# 呼吸不全の早期ICU死亡率予測と生存分析

Early ICU Mortality Prediction and Survival Analysis for Respiratory Failure ( http://arxiv.org/abs/2109.03048v1 )

ライセンス: Link先を確認
Yilin Yin and Chun-An Chou(参考訳) 呼吸不全は、重症心身障害の主要な死因の1つである。 新型コロナウイルス(COVID-19)の感染拡大に伴い、呼吸器不全に関連する症候群のため、重度に機械的換気が不足していた。 これを助けるために、呼吸不全患者の早期死亡リスク予測は、臨床治療と資源管理をタイムリーに支援することができる。 本研究は,最初の24時間ICU生理学的データに基づく呼吸不全患者の早期死亡リスク予測のための動的モデリング手法を提案する。 提案モデルはeicuコラボレーションデータベース上で検証される。 ICU導入後5日目のAUROC高成績(80~83%)とAUCPR4%の有意な改善が得られた。 さらに, 生存曲線は早期ICU入院生存分析のための時間変化情報を含むことを示した。

Respiratory failure is the one of major causes of death in critical care unit. During the outbreak of COVID-19, critical care units experienced an extreme shortage of mechanical ventilation because of respiratory failure related syndromes. To help this, the early mortality risk prediction in patients who suffer respiratory failure can provide timely support for clinical treatment and resource management. In the study, we propose a dynamic modeling approach for early mortality risk prediction of the respiratory failure patients based on the first 24 hours ICU physiological data. Our proposed model is validated on the eICU collaborate database. We achieved a high AUROC performance (80-83%) and significantly improved AUCPR 4% on Day 5 since ICU admission, compared to the state-of-art prediction models. In addition, we illustrated that the survival curve includes the time-varying information for the early ICU admission survival analysis.
翻訳日:2021-09-08 14:31:32 公開日:2021-09-06
# 独立な非同分布列を持つランダム行列から生じるサンプル共分散行列のスペクトル特性

Spectral properties of sample covariance matrices arising from random matrices with independent non identically distributed columns ( http://arxiv.org/abs/2109.02644v1 )

ライセンス: Link先を確認
Cosme Louart and Romain Couillet(参考訳) ランダム行列 $X= (x_1,\ldots, x_n)\in \mathcal M_{p,n}$ が独立な列を持ち、測度仮説の濃度を満足するパラメータ $z$ が$\frac{1}{n} XX^T$ のスペクトルまでの距離が $p,n$ に依存しないことを与えられたとき、関数 $\text{tr}(AR(z))$, for $R(z) = (\frac{1}{n}XX^T-zI_p)^{-1}$ と $A\in \mathcal M_{p}$ の標準偏差が $O(\|A|\|*\sq \rt$)$ であることを示した。 ここでは、$\|\mathbb E[R(z)] - \tilde R(z)\|_F \leq O(1/\sqrt n)$, ここで、$\tilde R(z)$ は $z$ にのみ依存する決定論的行列であり、列ベクトル $x_1,\ldots, x_n$ の手段と共分散に依存する。 この推定は、$X$の関数の正確なゆらぎ率(主にスペクトル特性に関連する)を提供する鍵であり、複素エントリと正の虚部を持ち、すべての$D,D' \in \mathcal D_n(\mathbb H)$: $d_s(D,D') = \max_{i\in[n]} |D_iD_i'|/(\Im(D_i) \Im(D_i)^{1/2}$で定義される半計量の$d_s$の導入によって証明される。 おそらく最も重要なのは、$X$の列上の測度仮定の根底にある濃度は、非線形リプシッツ写像と多くのクラスが基本成分となる現代の統計機械学習アルゴリズムに適用するための非常に自然な基盤を見つけることである。

Given a random matrix $X= (x_1,\ldots, x_n)\in \mathcal M_{p,n}$ with independent columns and satisfying concentration of measure hypotheses and a parameter $z$ whose distance to the spectrum of $\frac{1}{n} XX^T$ should not depend on $p,n$, it was previously shown that the functionals $\text{tr}(AR(z))$, for $R(z) = (\frac{1}{n}XX^T- zI_p)^{-1}$ and $A\in \mathcal M_{p}$ deterministic, have a standard deviation of order $O(\|A\|_* / \sqrt n)$. Here, we show that $\|\mathbb E[R(z)] - \tilde R(z)\|_F \leq O(1/\sqrt n)$, where $\tilde R(z)$ is a deterministic matrix depending only on $z$ and on the means and covariances of the column vectors $x_1,\ldots, x_n$ (that do not have to be identically distributed). This estimation is key to providing accurate fluctuation rates of functionals of $X$ of interest (mostly related to its spectral properties) and is proved thanks to the introduction of a semi-metric $d_s$ defined on the set $\mathcal D_n(\mathbb H)$ of diagonal matrices with complex entries and positive imaginary part and satisfying, for all $D,D' \in \mathcal D_n(\mathbb H)$: $d_s(D,D') = \max_{i\in[n]} |D_i - D_i'|/ (\Im(D_i) \Im(D_i'))^{1/2}$. Possibly most importantly, the underlying concentration of measure assumption on the columns of $X$ finds an extremely natural ground for application in modern statistical machine learning algorithms where non-linear Lipschitz mappings and high number of classes form the base ingredients.
翻訳日:2021-09-08 14:30:30 公開日:2021-09-06
# 信頼できる信号選択のためのフォトプレチモグラフィにおける運動アーチファクトの低減

Motion Artifact Reduction In Photoplethysmography For Reliable Signal Selection ( http://arxiv.org/abs/2109.02755v1 )

ライセンス: Link先を確認
Runyu Mao, Mackenzie Tweardy, Stephan W. Wegerich, Craig J. Goergen, George R. Wodicka and Fengqing Zhu(参考訳) photoplethysmography (ppg)は、人体の生命徴候を抽出する非侵襲的、経済的手法である。 消費者や研究用手首装置でユーザーの生理状態を追跡するために広く用いられているが、PSG信号は信号の品質を損なうような動作に非常に敏感である。 既存の動きアーチファクト(MA)低減技術は、高強度活動中に収集された合成ノイズ信号または信号を用いて開発され、評価されている。 したがって、日常生活活動(adl)を行いながら、現実的なppg信号を収集し、実用的な信号評価・分析方法を開発することは重要である。 本研究では,信頼性の高いPPG信号選択のための疑似クリーンPPG生成プロセスを提案する。 各ノイズPPGセグメントに対して、対応する擬似クリーンPGGはMAを減少させ、心臓の特徴を描写した豊富な時間的詳細を含む。 以上の結果から,ADLから収集した擬似クリーンPSGの71%は,それぞれ1.46 BPMおよび3.93 BrPMの導出率のMAEが高品質なセグメントであると考えられた。 そこで,提案手法は,対応する疑似クリーンPPG信号の品質を考慮し,生ノイズPPGの信頼性を判定する。

Photoplethysmography (PPG) is a non-invasive and economical technique to extract vital signs of the human body. Although it has been widely used in consumer and research grade wrist devices to track a user's physiology, the PPG signal is very sensitive to motion which can corrupt the signal's quality. Existing Motion Artifact (MA) reduction techniques have been developed and evaluated using either synthetic noisy signals or signals collected during high-intensity activities - both of which are difficult to generalize for real-life scenarios. Therefore, it is valuable to collect realistic PPG signals while performing Activities of Daily Living (ADL) to develop practical signal denoising and analysis methods. In this work, we propose an automatic pseudo clean PPG generation process for reliable PPG signal selection. For each noisy PPG segment, the corresponding pseudo clean PPG reduces the MAs and contains rich temporal details depicting cardiac features. Our experimental results show that 71% of the pseudo clean PPG collected from ADL can be considered as high quality segment where the derived MAE of heart rate and respiration rate are 1.46 BPM and 3.93 BrPM, respectively. Therefore, our proposed method can determine the reliability of the raw noisy PPG by considering quality of the corresponding pseudo clean PPG signal.
翻訳日:2021-09-08 14:27:58 公開日:2021-09-06
# 符号化圧縮イメージングプロセスを用いた端から端までハイパースペクトルイメージングシステム

End to end hyperspectral imaging system with coded compression imaging process ( http://arxiv.org/abs/2109.02643v1 )

ライセンス: Link先を確認
Hui Xie, Zhuang Zhao, Jing Han, Yi Zhang, Lianfa Bai, Jun Lu(参考訳) ハイパースペクトル画像(HSI)は、広い応用可能性を持つ豊富な空間およびスペクトル情報を提供することができる。 近年, 畳み込みニューラルネットワーク(CNN)を用いてHSIを再構築する手法が開発されている。 しかし,ほとんどの深層学習法は圧縮HSIと標準HSIのブルートフォースマッピング関係に適合する。 したがって、観測データがトレーニングデータから逸脱した場合、学習されたマッピングは無効となる。 2次元圧縮画像から3次元のHSIを復元するために,符号化開口スペクトル撮像システムに基づく物理インフォームド自己監督CNN方式のデュアルカメラ装置を提案する。 本手法は, 符号化スペクトル情報からの空間スペクトル相対化を効果的に活用し, カメラ量子効果モデルに基づく自己教師ありシステムを構築する。 実験の結果,本手法は広い撮像環境に適応でき,良好な性能が得られることがわかった。 さらに,ネットワークベース手法のほとんどと比較して,事前学習のための専用データセットは不要である。 したがって、シナリオ適応性が向上し、一般化能力が向上する。 一方,本システムは実生活シナリオにおいて常に微調整や自己改善が可能である。

Hyperspectral images (HSIs) can provide rich spatial and spectral information with extensive application prospects. Recently, several methods using convolutional neural networks (CNNs) to reconstruct HSIs have been developed. However, most deep learning methods fit a brute-force mapping relationship between the compressive and standard HSIs. Thus, the learned mapping would be invalid when the observation data deviate from the training data. To recover the three-dimensional HSIs from two-dimensional compressive images, we present dual-camera equipment with a physics-informed self-supervising CNN method based on a coded aperture snapshot spectral imaging system. Our method effectively exploits the spatial-spectral relativization from the coded spectral information and forms a self-supervising system based on the camera quantum effect model. The experimental results show that our method can be adapted to a wide imaging environment with good performance. In addition, compared with most of the network-based methods, our system does not require a dedicated dataset for pre-training. Therefore, it has greater scenario adaptability and better generalization ability. Meanwhile, our system can be constantly fine-tuned and self-improved in real-life scenarios.
翻訳日:2021-09-08 14:25:44 公開日:2021-09-06
# バイノーラル・サウンドネット:バイノーラル・サウンドによる意味・深さ・動きの予測

Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural Sounds ( http://arxiv.org/abs/2109.02763v1 )

ライセンス: Link先を確認
Dengxin Dai, Arun Balajee Vasudevan, Jiri Matas, and Luc Van Gool(参考訳) 人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを強く認識し、ローカライズすることができる。 機械は、すでに視覚データで同じことができるが、音で行う作業は少ない。 本研究は,バイノーラル音に基づくシーン理解手法の開発である。 検討された課題は、音生成対象のセマンティックマスクの予測、音生成対象の動作、シーンの深さマップなどである。 そこで本研究では,8つのプロ用バイノーラルマイクと360度カメラを備えた,新たな視覚的ストリートシーンデータセットを提案する。 視覚と音声の手がかりの共存は監督の伝達に利用される。 特に,複数の視覚教師法と音響学生法から構成されるクロスモーダル蒸留フレームワークを用いて,教師法と同じ結果を生み出すように学生法を訓練した。 このように、人間のアノテーションを使わずに聴覚システムを訓練することができる。 音の方向分解能を高めるために,空間音響超解法(Spatial Sound Super-Resolution)という新しい補助課題を提案する。 次に、4つのタスクをエンドツーエンドのトレーニング可能なマルチタスクネットワークに定式化し、全体的なパフォーマンス向上を目指しています。 実験の結果,(1)4つのタスクすべてにおいて良好な結果が得られること,(2)4つのタスクが相互に有益であること,(3)マイクロホンの数と向きがともに重要であること,4)標準スペクトログラムから得られた特徴と古典的な信号処理パイプラインによって得られた特徴が聴覚知覚タスクに相補的であること,などが示されている。 データとコードはリリースされます。

Humans can robustly recognize and localize objects by using visual and/or auditory cues. While machines are able to do the same with visual data already, less work has been done with sounds. This work develops an approach for scene understanding purely based on binaural sounds. The considered tasks include predicting the semantic masks of sound-making objects, the motion of sound-making objects, and the depth map of the scene. To this aim, we propose a novel sensor setup and record a new audio-visual dataset of street scenes with eight professional binaural microphones and a 360-degree camera. The co-existence of visual and audio cues is leveraged for supervision transfer. In particular, we employ a cross-modal distillation framework that consists of multiple vision teacher methods and a sound student method -- the student method is trained to generate the same results as the teacher methods do. This way, the auditory system can be trained without using human annotations. To further boost the performance, we propose another novel auxiliary task, coined Spatial Sound Super-Resolution, to increase the directional resolution of sounds. We then formulate the four tasks into one end-to-end trainable multi-tasking network aiming to boost the overall performance. Experimental results show that 1) our method achieves good results for all four tasks, 2) the four tasks are mutually beneficial -- training them together achieves the best performance, 3) the number and orientation of microphones are both important, and 4) features learned from the standard spectrogram and features obtained by the classic signal processing pipeline are complementary for auditory perception tasks. The data and code are released.
翻訳日:2021-09-08 14:25:29 公開日:2021-09-06
# OKSP:コスタリカにおける地震観測のための深層学習自動イベント検出パイプライン

OKSP: A Novel Deep Learning Automatic Event Detection Pipeline for Seismic Monitoringin Costa Rica ( http://arxiv.org/abs/2109.02723v1 )

ライセンス: Link先を確認
Leonardo van der Laat, Ronald J.L. Baldares, Esteban J. Chaves, Esteban Meneses(参考訳) マグニチュードの地震は最も多いが、その低振幅と高周波数が不均一なノイズ源によって隠蔽されるため、頑丈かつよく位置を見つけることが最も困難である。 地震周期における応力状態と断層系の時空間的挙動について重要な情報を強調しており、その完全な特徴は地震被害評価を改善するために重要である。 現代のDLアルゴリズムは、計算能力の増大とともに、継続的に増加する地震データベースを利用して、地震カタログの完全性を改善し、小規模な地震を体系的に検出し、主に人間の介入によって引き起こされるエラーを減らすことができる。 本研究は,コスタリカにおける地震モニタリングのための新しい自動地震検出パイプラインであるOKSPを紹介する。 コスタリカ高技術センター(Costa Rica High Technology Center)のKabreスーパーコンピュータを用いて、2019年6月26日に発生したプエルトリコ・アルメニア地震(M6.5)の前後5日間にOKSPを適用し、以前コスタリカ火山・地震観測所(Volcanological and Seismological Observatory of Costa Rica)によって特定されていなかった1100以上の地震を発見した。 これらの出来事から、マグニチュード1.0以下の合計23の地震がメインショックの1日から数時間前に発生し、破壊開始と地震の相互作用に関する光を遮蔽し、この生産的な地震シーケンスが生じた。 以上の結果から, 研究期間において, 100%排他的, 82%の精度でF1スコアが0.90であった。 この試みは、深層学習手法を用いてコスタリカの地震を自動的に検出する最初の試みであり、近い将来、地震監視ルーチンがAIアルゴリズムによって完全に実行されることを実証する。

Small magnitude earthquakes are the most abundant but the most difficult to locate robustly and well due to their low amplitudes and high frequencies usually obscured by heterogeneous noise sources. They highlight crucial information about the stress state and the spatio-temporal behavior of fault systems during the earthquake cycle, therefore, its full characterization is then crucial for improving earthquake hazard assessment. Modern DL algorithms along with the increasing computational power are exploiting the continuously growing seismological databases, allowing scientists to improve the completeness for earthquake catalogs, systematically detecting smaller magnitude earthquakes and reducing the errors introduced mainly by human intervention. In this work, we introduce OKSP, a novel automatic earthquake detection pipeline for seismic monitoring in Costa Rica. Using Kabre supercomputer from the Costa Rica High Technology Center, we applied OKSP to the day before and the first 5 days following the Puerto Armuelles, M6.5, earthquake that occurred on 26 June, 2019, along the Costa Rica-Panama border and found 1100 more earthquakes previously unidentified by the Volcanological and Seismological Observatory of Costa Rica. From these events, a total of 23 earthquakes with magnitudes below 1.0 occurred a day to hours prior to the mainshock, shedding light about the rupture initiation and earthquake interaction leading to the occurrence of this productive seismic sequence. Our observations show that for the study period, the model was 100% exhaustive and 82% precise, resulting in an F1 score of 0.90. This effort represents the very first attempt for automatically detecting earthquakes in Costa Rica using deep learning methods and demonstrates that, in the near future, earthquake monitoring routines will be carried out entirely by AI algorithms.
翻訳日:2021-09-08 14:24:37 公開日:2021-09-06
# 軽量補助モデルを用いた生波形による手作り特徴の補足

Complementing Handcrafted Features with Raw Waveform Using a Light-weight Auxiliary Model ( http://arxiv.org/abs/2109.02773v1 )

ライセンス: Link先を確認
Zhongwei Teng, Quchen Fu, Jules White, Maria Powell, Douglas C. Schmidt(参考訳) 音声処理における新たなトレンドは、生波形から低レベル音声表現をキャプチャすることである。 これらの表現は、音声認識や音声分離など、様々なタスクで有望な結果を示している。 手作りの機能と比較して、バックプロパゲーションによる音声特徴の学習は、異なるタスクのデータを理論的に表現する方法において、モデルにより大きな柔軟性を与える。 しかし、経験的研究の結果、音声スプーフ検出などのタスクでは、手作りの特徴は学習した特徴よりも競争力が高いことが示されている。 本稿では,手作り特徴と生波形を独立に評価する代わりに,手作り特徴と生波形から学習した特徴を補完する補助Rawnetモデルを提案する。 このアプローチの重要な利点は、比較的低い計算コストで精度を向上させることができることである。 提案する補助rawnetモデルはasvspoof 2019データセットを用いてテストされ、このデータセットの結果、軽量波形エンコーダは少量の計算作業と引き換えに、手作りのフィーチャベースのエンコーダの性能を向上させる可能性があることを示している。

An emerging trend in audio processing is capturing low-level speech representations from raw waveforms. These representations have shown promising results on a variety of tasks, such as speech recognition and speech separation. Compared to handcrafted features, learning speech features via backpropagation provides the model greater flexibility in how it represents data for different tasks theoretically. However, results from empirical study shows that, in some tasks, such as voice spoof detection, handcrafted features are more competitive than learned features. Instead of evaluating handcrafted features and raw waveforms independently, this paper proposes an Auxiliary Rawnet model to complement handcrafted features with features learned from raw waveforms. A key benefit of the approach is that it can improve accuracy at a relatively low computational cost. The proposed Auxiliary Rawnet model is tested using the ASVspoof 2019 dataset and the results from this dataset indicate that a light-weight waveform encoder can potentially boost the performance of handcrafted-features -based encoders in exchange for a small amount of additional computational work.
翻訳日:2021-09-08 14:24:07 公開日:2021-09-06
# FastAudio:音声検出のための学習可能なフロントエンド

FastAudio: A Learnable Audio Front-End for Spoof Speech Detection ( http://arxiv.org/abs/2109.02774v1 )

ライセンス: Link先を確認
Quchen Fu, Zhongwei Teng, Jules White, Maria Powell, and Douglas C. Schmidt(参考訳) スマートスピーカーのような音声アシスタントは、人気を博している。 現在、米国の成人人口でスマートスピーカーの採用率は35%を超えていると推定されている。 メーカーは話者識別技術を統合し、話し手の身元を判断し、同じ家族の異なるメンバーにパーソナライズされたサービスを提供する。 話者識別は、スマートスピーカーの使用方法を制御する上でも重要な役割を果たす。 例えば、音楽を演奏する際に正しくユーザを識別することは重要ではない。 しかし,ユーザのメールを大声で読む際には,要求が承認されたユーザであることを話者が正しく検証することが重要である。 それゆえ、話者のアイデンティティを認証する話者認証システムは、登録ユーザを偽装することを目的とした様々なスプーフィング攻撃から保護するためのゲートキーパーとして必要である。 本稿では,下流タスク(End-to-End)と共同学習による音声表現を学習可能なフロントエンドと比較する。 2つの汎用アーキテクチャを定義してフロントエンドを分類し、学習制約の観点から両タイプのフィルタリング段階を分析する。 そこで我々は,固定フィルタバンクをアンチスプーフィングタスクに適応可能な学習可能な層に置き換える手法を提案する。 提案されたFastAudioフロントエンドは、ASVspoof 2019データセットのLAトラックのパフォーマンスを測定するために、2つの人気のあるバックエンドでテストされる。 FastAudioフロントエンドは、固定されたフロントエンドと比較して相対的に27%改善し、このタスクで他の学習可能なフロントエンドよりも優れています。

Voice assistants, such as smart speakers, have exploded in popularity. It is currently estimated that the smart speaker adoption rate has exceeded 35% in the US adult population. Manufacturers have integrated speaker identification technology, which attempts to determine the identity of the person speaking, to provide personalized services to different members of the same family. Speaker identification can also play an important role in controlling how the smart speaker is used. For example, it is not critical to correctly identify the user when playing music. However, when reading the user's email out loud, it is critical to correctly verify the speaker that making the request is the authorized user. Speaker verification systems, which authenticate the speaker identity, are therefore needed as a gatekeeper to protect against various spoofing attacks that aim to impersonate the enrolled user. This paper compares popular learnable front-ends which learn the representations of audio by joint training with downstream tasks (End-to-End). We categorize the front-ends by defining two generic architectures and then analyze the filtering stages of both types in terms of learning constraints. We propose replacing fixed filterbanks with a learnable layer that can better adapt to anti-spoofing tasks. The proposed FastAudio front-end is then tested with two popular back-ends to measure the performance on the LA track of the ASVspoof 2019 dataset. The FastAudio front-end achieves a relative improvement of 27% when compared with fixed front-ends, outperforming all other learnable front-ends on this task.
翻訳日:2021-09-08 14:23:46 公開日:2021-09-06
# (参考訳) 野生におけるテーブル構造解析 [全文訳有]

Parsing Table Structures in the Wild ( http://arxiv.org/abs/2109.02199v1 )

ライセンス: CC BY 4.0
Rujiao Long and Wen Wang and Nan Xue and Feiyu Gao and Zhibo Yang and Yongpan Wang and Gui-Song Xia(参考訳) 本稿では,野生の画像からテーブル構造解析(TSP)の問題に取り組む。 スキャンしたPDF文書から簡単なレイアウトで整列した表像を解析する従来の研究とは対照的に,本研究では,表像を重度な変形,曲げ,閉塞で撮影・スキャンする実世界のシナリオを対象としたテーブル構造解析システムの構築を目的とする。 このようなシステムを設計するために, 表型セルを同時検出・グループ化する新しいサイクルペアリングモジュールを centernet の上部に設けた cycle-centernet という手法を提案する。 サイクルペアリングモジュールでは,ネットワークトレーニングのための新たなペアリング損失関数が提案されている。 当社のcycle-centernetに加えて,wired table in the wild(wtw)という,写真やスキャニングファイル,webページ,\emph{etc.}など,複数のスタイルテーブルを十分に注釈付きで解析する大規模なデータセットも提示しています。 実験では,我々のCycle-CenterNetが新しいWTWデータセット上でのテーブル構造解析の精度を,TEDS測定値による絶対改善率24.6%で一貫して達成することを示した。 より包括的な実験分析により,提案手法のtspタスクに対する利点を検証した。

This paper tackles the problem of table structure parsing (TSP) from images in the wild. In contrast to existing studies that mainly focus on parsing well-aligned tabular images with simple layouts from scanned PDF documents, we aim to establish a practical table structure parsing system for real-world scenarios where tabular input images are taken or scanned with severe deformation, bending or occlusions. For designing such a system, we propose an approach named Cycle-CenterNet on the top of CenterNet with a novel cycle-pairing module to simultaneously detect and group tabular cells into structured tables. In the cycle-pairing module, a new pairing loss function is proposed for the network training. Alongside with our Cycle-CenterNet, we also present a large-scale dataset, named Wired Table in the Wild (WTW), which includes well-annotated structure parsing of multiple style tables in several scenes like the photo, scanning files, web pages, \emph{etc.}. In experiments, we demonstrate that our Cycle-CenterNet consistently achieves the best accuracy of table structure parsing on the new WTW dataset by 24.6\% absolute improvement evaluated by the TEDS metric. A more comprehensive experimental analysis also validates the advantages of our proposed methods for the TSP task.
翻訳日:2021-09-08 03:07:48 公開日:2021-09-06
# (参考訳) AIによる公正:医療情報のバイアス低減 [全文訳有]

Fairness via AI: Bias Reduction in Medical Information ( http://arxiv.org/abs/2109.02202v1 )

ライセンス: CC BY-SA 4.0
Shiri Dori-Hacohen, Roberto Montenegro, Fabricio Murai, Scott A. Hale, Keen Sung, Michela Blain, Jennifer Edwards-Johnson(参考訳) AI研究の最も公平性は、AIシステムのバイアスを露呈することに焦点を当てている。 公平性に関するより広いレンズは、AIがより大きな願望に役立てることを明らかにしている。 具体的には、健康情報の不平等に焦点を当て、AIを用いてその領域のバイアスを減らすことを目的としている。 検索エンジンやソーシャルメディアの傘下にあるAIアルゴリズムは、リコメンデーターシステムに基づくものが多く、オンラインの医療情報や健康情報の品質に大きな影響を与えている。 したがって、オンラインの医療・健康コンテンツを提供するレコメンデーターシステムにバイアス検出と還元を組み込むことは、患者の結果と幸福感に大きな影響を与える可能性がある。 In this position paper, we offer the following contributions: (1) we propose a novel framework of Fairness via AI, inspired by insights from medical education, sociology and antiracism; (2) we define a new term, bisinformation, which is related to, but distinct from, misinformation, and encourage researchers to study it; (3) we propose using AI to study, detect and mitigate biased, harmful, and/or false health information that disproportionately hurts minority groups in society; and (4) we suggest several pillars and pose several open problems in order to seed inquiry in this new space. この研究のパート3は、特に健康分野に焦点を当てているが、偏見の低減とAIによる公正性の研究から生じる基礎的なコンピュータサイエンスの進歩と貢献は、社会のあらゆる領域に幅広い影響を及ぼす。

Most Fairness in AI research focuses on exposing biases in AI systems. A broader lens on fairness reveals that AI can serve a greater aspiration: rooting out societal inequities from their source. Specifically, we focus on inequities in health information, and aim to reduce bias in that domain using AI. The AI algorithms under the hood of search engines and social media, many of which are based on recommender systems, have an outsized impact on the quality of medical and health information online. Therefore, embedding bias detection and reduction into these recommender systems serving up medical and health content online could have an outsized positive impact on patient outcomes and wellbeing. In this position paper, we offer the following contributions: (1) we propose a novel framework of Fairness via AI, inspired by insights from medical education, sociology and antiracism; (2) we define a new term, bisinformation, which is related to, but distinct from, misinformation, and encourage researchers to study it; (3) we propose using AI to study, detect and mitigate biased, harmful, and/or false health information that disproportionately hurts minority groups in society; and (4) we suggest several pillars and pose several open problems in order to seed inquiry in this new space. While part (3) of this work specifically focuses on the health domain, the fundamental computer science advances and contributions stemming from research efforts in bias reduction and Fairness via AI have broad implications in all areas of society.
翻訳日:2021-09-08 02:55:05 公開日:2021-09-06
# (参考訳) 従属データと重機データによる経験的リスク最小化について

On Empirical Risk Minimization with Dependent and Heavy-Tailed Data ( http://arxiv.org/abs/2109.02224v1 )

ライセンス: CC BY 4.0
Abhishek Roy, Krishnakumar Balasubramanian, Murat A. Erdogdu(参考訳) 本研究では,データ生成過程と重み付きデータ生成プロセスの両方において,経験的リスク最小化(erm)のリスク境界を確立する。 メンデルソン [Men15, Men18] の、重尾を持つが独立かつ同一に分布する観察によるERMの分析を、厳密な指数関数的に$\beta$-mixing のケースに拡張することで行う。 本分析は,入力に対する雑音と関数評価との相互作用から生じる乗算過程を明示的に制御することに基づく。 これにより、相互作用は多項式的に重く、学習理論の文献で解析される以上の非常に大きな重尾モデルのクラスをカバーすることができる。 重み付きデータを含む高次元線形回帰問題に対する収束率を導出することにより,結果を示す。

In this work, we establish risk bounds for the Empirical Risk Minimization (ERM) with both dependent and heavy-tailed data-generating processes. We do so by extending the seminal works of Mendelson [Men15, Men18] on the analysis of ERM with heavy-tailed but independent and identically distributed observations, to the strictly stationary exponentially $\beta$-mixing case. Our analysis is based on explicitly controlling the multiplier process arising from the interaction between the noise and the function evaluations on inputs. It allows for the interaction to be even polynomially heavy-tailed, which covers a significantly large class of heavy-tailed models beyond what is analyzed in the learning theory literature. We illustrate our results by deriving rates of convergence for the high-dimensional linear regression problem with dependent and heavy-tailed data.
翻訳日:2021-09-08 02:49:29 公開日:2021-09-06
# (参考訳) 単語レベルのテキスト攻撃に対する効果的な組合せ最適化 [全文訳有]

Efficient Combinatorial Optimization for Word-level Adversarial Textual Attack ( http://arxiv.org/abs/2109.02229v1 )

ライセンス: CC BY 4.0
Shengcai Liu, Ning Lu, Cheng Chen, Ke Tang(参考訳) 過去数年間、自然言語処理に使用されるディープニューラルネットワークの脆弱性を明らかにするために、様々な単語レベルのテキスト攻撃手法が提案されている。 通常、これらのアプローチは、元の入力で各単語に使用する代用語を決定する重要な最適化ステップを含む。 しかし、この段階に関する現在の研究は、問題理解と問題解決の両方の観点から、かなり限定されている。 本稿では,問題の理論的性質を明らかにし,その解法として効率的な局所探索アルゴリズム(LS)を提案する。 一般のケースで問題を解くための最初の証明可能な近似保証を確立する。 特に、敵対的なテキスト攻撃の場合、特別な場合にのみ保持される以前の境界よりも優れている。 5つのNLPタスク、6つのデータセット、11のNLPモデルを含む大規模な実験により、LSは高い攻撃成功率を達成するために通常1桁のクエリ数を大幅に削減できることが示された。 さらなる実験により、lsが作成した敵の例は、通常、より高い品質を持ち、転送性を示し、敵の訓練によって被害者モデルにより堅牢な改善をもたらすことが示されている。

Over the past few years, various word-level textual attack approaches have been proposed to reveal the vulnerability of deep neural networks used in natural language processing. Typically, these approaches involve an important optimization step to determine which substitute to be used for each word in the original input. However, current research on this step is still rather limited, from the perspectives of both problem-understandin g and problem-solving. In this paper, we address these issues by uncovering the theoretical properties of the problem and proposing an efficient local search algorithm (LS) to solve it. We establish the first provable approximation guarantee on solving the problem in general cases. Notably, for adversarial textual attack, it is even better than the previous bound which only holds in special case. Extensive experiments involving five NLP tasks, six datasets and eleven NLP models show that LS can largely reduce the number of queries usually by an order of magnitude to achieve high attack success rates. Further experiments show that the adversarial examples crafted by LS usually have higher quality, exhibit better transferability, and can bring more robustness improvement to victim models by adversarial training.
翻訳日:2021-09-08 02:48:19 公開日:2021-09-06
# (参考訳) 多物体形状における関節変動の非ユークリッド解析 [全文訳有]

Non-Euclidean Analysis of Joint Variations in Multi-Object Shapes ( http://arxiv.org/abs/2109.02230v1 )

ライセンス: CC BY 4.0
Zhiyuan Liu and J\"orn Schulz and Mohsen Taheri and Martin Styner and James Damon and Stephen Pizer and J. S. Marron(参考訳) 分類タスクにおける複数の機能関連構造の連成解析について考察する。 特に本手法は,機能的に相関した脳の構造が自閉症と対照群でどのように異なるかに起因している。 そこで本研究では,(1)ユークリッド空間における非ユークリッドデータを忠実に表現できる非ユークリッド統計と,(2)複数ブロックユークリッドデータを結合構造,個人構造,残留構造に分解可能な非パラメトリック積分解析との組み合わせを考案した。 その結果, 多ブロック非ユークリッドデータの結合変動のパターンを認識する上で, 結合構造は有効で, 堅牢であり, 解釈可能であることがわかった。 自閉症スペクトラム障害 (asd) に発展しなかった症例から収集した構造形状データを分類する方法を検証した。

This paper considers joint analysis of multiple functionally related structures in classification tasks. In particular, our method developed is driven by how functionally correlated brain structures vary together between autism and control groups. To do so, we devised a method based on a novel combination of (1) non-Euclidean statistics that can faithfully represent non-Euclidean data in Euclidean spaces and (2) a non-parametric integrative analysis method that can decompose multi-block Euclidean data into joint, individual, and residual structures. We find that the resulting joint structure is effective, robust, and interpretable in recognizing the underlying patterns of the joint variation of multi-block non-Euclidean data. We verified the method in classifying the structural shape data collected from cases that developed and did not develop into Autistic Spectrum Disorder (ASD).
翻訳日:2021-09-08 02:15:12 公開日:2021-09-06
# (参考訳) オフラインシステム同定のための画像付きDKRC [全文訳有]

Supervised DKRC with Images for Offline System Identification ( http://arxiv.org/abs/2109.02241v1 )

ライセンス: CC BY 4.0
Alexander Krolicki and Pierre-Yves Lavertu(参考訳) クープマンスペクトル理論は近年、力学系の分野における新しい視点を提供している。 現代の力学系は非線形で複雑になりつつあり、予測と制御のためのコンパクトで包括的な表現でこれらの系をモデル化するフレームワークが必要である。 関心の体系にクープマン理論を適用する上での中心的な問題は、有限次元基底関数の選択は、システムダイナミクスの専門知識を用いて一般的に apriori で行われることである。 本手法は,任意のシステムの基底関数を自動エンコーダとディープニューラルネットワークの組み合わせで学習する教師付き学習手法を用いて,これらの基底関数を学習する。 この手法は,非線形系の線形表現を導出し,初期条件が与えられた将来の状態軌跡を予測できる単純な振り子例に対して実証する。 また、動的システムの時系列データの入力表現の変更が学習基底関数の品質に与える影響についても検討する。 この代替表現は、従来の生の時系列データアプローチと比較され、システムの真の非線形ダイナミクスの復元と予測誤差を低下させる方法を決定する。

Koopman spectral theory has provided a new perspective in the field of dynamical systems in recent years. Modern dynamical systems are becoming increasingly non-linear and complex, and there is a need for a framework to model these systems in a compact and comprehensive representation for prediction and control. The central problem in applying Koopman theory to a system of interest is that the choice of finite-dimensional basis functions is typically done apriori, using expert knowledge of the systems dynamics. Our approach learns these basis functions using a supervised learning approach where a combination of autoencoders and deep neural networks learn the basis functions for any given system. We demonstrate this approach on a simple pendulum example in which we obtain a linear representation of the non-linear system and then predict the future state trajectories given some initial conditions. We also explore how changing the input representation of the dynamic systems time series data can impact the quality of learned basis functions. This alternative representation is compared to the traditional raw time series data approach to determine which method results in lower reconstruction and prediction error of the true non-linear dynamics of the system.
翻訳日:2021-09-08 01:50:02 公開日:2021-09-06
# (参考訳) 深部教師なし画像検索のための自己教師付き製品量子化

Self-supervised Product Quantization for Deep Unsupervised Image Retrieval ( http://arxiv.org/abs/2109.02244v1 )

ライセンス: CC BY 4.0
Young Kyun Jang and Nam Ik Cho(参考訳) 教師付きディープラーニングベースのハッシュとベクトル量子化により、高速かつ大規模の画像検索システムを実現する。 ラベルアノテーションを十分に活用することで,従来の手法に比べて優れた検索性能を達成している。 しかし、大量のトレーニングデータに対してラベルを正確に割り当てることは困難であり、アノテーションプロセスはエラーを起こしやすい。 これらの課題に対処するために,自己教師付き製品量子化ネットワーク (SPQ) と呼ばれる,ラベルフリーで,自己教師型で訓練された画像検索手法を提案する。 個別に変換された画像(ビュー)を比較することで、コードワードとディープビジュアル記述子を共同で学習するクロス量子化コントラスト学習戦略を設計する。 本手法は,画像内容を分析し,記述的特徴を抽出し,正確な検索のための画像表現の理解を可能にする。 ベンチマーク実験により, 教師付き事前学習を行なわずとも, 提案手法が最先端の結果をもたらすことを示した。

Supervised deep learning-based hash and vector quantization are enabling fast and large-scale image retrieval systems. By fully exploiting label annotations, they are achieving outstanding retrieval performances compared to the conventional methods. However, it is painstaking to assign labels precisely for a vast amount of training data, and also, the annotation process is error-prone. To tackle these issues, we propose the first deep unsupervised image retrieval method dubbed Self-supervised Product Quantization (SPQ) network, which is label-free and trained in a self-supervised manner. We design a Cross Quantized Contrastive learning strategy that jointly learns codewords and deep visual descriptors by comparing individually transformed images (views). Our method analyzes the image contents to extract descriptive features, allowing us to understand image representations for accurate retrieval. By conducting extensive experiments on benchmarks, we demonstrate that the proposed method yields state-of-the-art results even without supervised pretraining.
翻訳日:2021-09-08 01:38:10 公開日:2021-09-06
# (参考訳) STaCK: テンポラルコモンセンス知識による文順付け [全文訳有]

STaCK: Sentence Ordering with Temporal Commonsense Knowledge ( http://arxiv.org/abs/2109.02247v1 )

ライセンス: CC BY-SA 4.0
Deepanway Ghosal, Navonil Majumder, Rada Mihalcea, Soujanya Poria(参考訳) 文順予測は、ランダムに順序付けられた文書中の文の正しい順序を見つけるタスクである。 正しく文章を順序づけるには、テキストに記述された出来事の時系列に関する一貫性の理解が必要である。 これらの出来事を中心とした文書レベルの文脈理解と常識知識は、しばしばこの一貫性を解明し、正確な年代順を予測するのに不可欠である。 本稿では,グラフニューラルネットワークと時間的コモンセンス知識に基づくフレームワークであるSTaCKを導入し,グローバルな情報をモデル化し,文の相対順序を予測する。 グラフネットワークは,'past' と 'future' の知識を用いて時間的証拠を蓄積し,制約付きエッジ分類問題として文の順序付けを定式化する。 5つの異なるデータセットについて結果を報告するとともに,提案手法が順序予測に自然に適していることを実証的に示す。 この実装はhttps://github.com/d eclare-lab/sentence- orderingで公開されている。

Sentence order prediction is the task of finding the correct order of sentences in a randomly ordered document. Correctly ordering the sentences requires an understanding of coherence with respect to the chronological sequence of events described in the text. Document-level contextual understanding and commonsense knowledge centered around these events are often essential in uncovering this coherence and predicting the exact chronological order. In this paper, we introduce STaCK -- a framework based on graph neural networks and temporal commonsense knowledge to model global information and predict the relative order of sentences. Our graph network accumulates temporal evidence using knowledge of `past' and `future' and formulates sentence ordering as a constrained edge classification problem. We report results on five different datasets, and empirically show that the proposed method is naturally suitable for order prediction. The implementation of this work is publicly available at: https://github.com/d eclare-lab/sentence- ordering.
翻訳日:2021-09-08 01:37:13 公開日:2021-09-06
# (参考訳) リモートセンシングハイパースペクトルデータを用いた葉水含量の推定 [全文訳有]

Estimating Leaf Water Content using Remotely Sensed Hyperspectral Data ( http://arxiv.org/abs/2109.02250v1 )

ライセンス: CC BY-SA 4.0
Vishal Vinod, Rahul Raj, Rohit Pingale, Adinarayana Jagarlapudi(参考訳) 植物の水ストレスは、根/土壌への水の供給が限られているか、または蒸散が増加するために起こる。 これらの因子は植物生理学および光合成能力に悪影響を及ぼし、成長と収量の両方に阻害効果があることが示されている[18]。 植物水ストレス状態の早期同定により、所望の収量を得るために適切な補正措置が適用できる。 さらに、精密農業手法による収量向上は、気候変動政策と国連持続可能な開発目標の鍵となる要素である[1]。 葉水含量(LWC)は、水分含量を推定し、ストレスのある植物を特定するために用いられる指標である。 作物の初期生育期におけるLWCは、植物の生産性と収量の重要な指標である。 水ストレスの影響は即時[15]であり、ガス交換や長期に影響を及ぼし、[9, 18, 22] が著しく減少する。 したがって,[15]の生育初期における植物性水ストレスを同定し, 修正灌水の導入とストレス緩和が必要である。 lwcはまた、人工的な水ストレス下でもlwcの安定性を測定することにより、水ストレスや塩分に耐性のある植物遺伝子型を同定するのにも有用である[18,25]。 このような実験は通常、時間消費と労働集約のlwcを得るために破壊的な手順を用いる。 そこで本研究では,超スペクトルデータからlwcを推定する非破壊手法を開発した。

Plant water stress may occur due to the limited availability of water to the roots/soil or due to increased transpiration. These factors adversely affect plant physiology and photosynthetic ability to the extent that it has been shown to have inhibitory effects in both growth and yield [18]. Early identification of plant water stress status enables suitable corrective measures to be applied to obtain the expected crop yield. Further, improving crop yield through precision agriculture methods is a key component of climate policy and the UN sustainable development goals [1]. Leaf water content (LWC) is a measure that can be used to estimate water content and identify stressed plants. LWC during the early crop growth stages is an important indicator of plant productivity and yield. The effect of water stress can be instantaneous [15], affecting gaseous exchange or long-term, significantly reducing [9, 18, 22]. It is thus necessary to identify potential plant water stress during the early stages of growth [15] to introduce corrective irrigation and alleviate stress. LWC is also useful for identifying plant genotypes that are tolerant to water stress and salinity by measuring the stability of LWC even under artificially induced water stress [18, 25]. Such experiments generally employ destructive procedures to obtain the LWC, which is time-consuming and labor intensive. Accordingly, this research has developed a non-destructive method to estimate LWC from UAV-based hyperspectral data.
翻訳日:2021-09-08 01:23:03 公開日:2021-09-06
# (参考訳) 異なるタスクと異なるデータセットにおける放射能性能向上のための生成モデル:実験的検討 [全文訳有]

Generative Models Improve Radiomics Performance in Different Tasks and Different Datasets: An Experimental Study ( http://arxiv.org/abs/2109.02252v1 )

ライセンス: CC BY 4.0
Junhua Chen, Inigo Bermejo, Andre Dekker, Leonard Wee(参考訳) 放射線学(radiomics)は医学画像からの高スループット特徴抽出に焦点を当てた活発な研究分野であり、腫瘍学における臨床決定支援など、臨床実践に幅広く応用されている。 しかし,低線量CTスキャンのノイズは放射線学的特徴の正確な抽出を損なう可能性がある。 本稿では,低線量CTを用いた深層学習生成モデルによる放射能向上の可能性について検討する。 低線量CTスキャン(NSCLC Radiogenomics)とLIDC-IDRI(LIDC-IDRI) の2つのデータセットを用いた。 従来,低線量CT像をフル線量CT画像に変換するために,エンコーダ・デコーダ・ネットワークと条件付き生成逆数ネットワーク(CGAN)を生成モデルとして用いた。 元のCTスキャンと改良されたCTスキャンから抽出した放射線学的特徴を用いて,生存予測と肺がん診断のための2つの分類器 – サポートベクターマシン(SVM)とディープアテンションベースマルチインスタンス学習モデル – を構築した。 最後に, 原型と改良型ctスキャンから得られたモデルの性能を比較した。 エンコーダデコーダネットワークとCGANは生存予測曲線(AUC)の面積を0.52から0.57(p-value<0.01)に改善した。 一方、Encoder-decoderネットワークとCGANは、それぞれ0.84から0.88および0.89の肺がん診断のAUCを改善することができる(p値<0.01)。 さらに、エンコーダデコーダネットワークとCGAN(p-value=0.34)を用いて75および100エポックのネットワークをトレーニングすることで、AUCの改善に統計的に有意な差はない。 生成モデルは、異なるタスクにおける低線量CTベースの放射能の性能を改善することができる。 したがって、低線量ctから放射能の特徴を計算するには、生成モデルを用いた雑音除去が必須な前処理であると考えられる。

Radiomics is an active area of research focusing on high throughput feature extraction from medical images with a wide array of applications in clinical practice, such as clinical decision support in oncology. However, noise in low dose computed tomography (CT) scans can impair the accurate extraction of radiomic features. In this article, we investigate the possibility of using deep learning generative models to improve the performance of radiomics from low dose CTs. We used two datasets of low dose CT scans -NSCLC Radiogenomics and LIDC-IDRI - as test datasets for two tasks - pre-treatment survival prediction and lung cancer diagnosis. We used encoder-decoder networks and conditional generative adversarial networks (CGANs) trained in a previous study as generative models to transform low dose CT images into full dose CT images. Radiomic features extracted from the original and improved CT scans were used to build two classifiers - a support vector machine (SVM) and a deep attention based multiple instance learning model - for survival prediction and lung cancer diagnosis respectively. Finally, we compared the performance of the models derived from the original and improved CT scans. Encoder-decoder networks and CGANs improved the area under the curve (AUC) of survival prediction from 0.52 to 0.57 (p-value<0.01). On the other hand, Encoder-decoder network and CGAN can improve the AUC of lung cancer diagnosis from 0.84 to 0.88 and 0.89 respectively (p-value<0.01). Moreover, there are no statistically significant differences in improving AUC by using encoder-decoder network and CGAN (p-value=0.34) when networks trained at 75 and 100 epochs. Generative models can improve the performance of low dose CT-based radiomics in different tasks. Hence, denoising using generative models seems to be a necessary pre-processing step for calculating radiomic features from low dose CTs.
翻訳日:2021-09-08 01:17:08 公開日:2021-09-06
# (参考訳) 微細構造表現としての3点相関関数のデータ駆動学習 [全文訳有]

Data-Driven Learning of 3-Point Correlation Functions as Microstructure Representations ( http://arxiv.org/abs/2109.02255v1 )

ライセンス: CC BY 4.0
Sheng Cheng, Yang Jiao, Yi Ren(参考訳) 本稿では,不均一な材料システムに対する完全かつ簡潔かつ説明可能な定量的ミクロ構造表現の同定というオープンな課題について考察する。 完全性と簡潔さは、例えば深層生成モデルのような既存のデータ駆動手法によって達成されているが、数学的に説明可能な潜在表現は提供していない。 本研究では,空間畳み込みの特別なタイプである3点相関関数からなる表現について検討する。 様々なミクロ構造が3点相関の簡潔な部分集合によって特徴づけられ、それらの部分集合の同定はベイズ最適化によって達成できることを示す。 最後に,提案した表現は,有効媒質理論に基づく材料特性の計算に利用することができることを示す。

This paper considers the open challenge of identifying complete, concise, and explainable quantitative microstructure representations for disordered heterogeneous material systems. Completeness and conciseness have been achieved through existing data-driven methods, e.g., deep generative models, which, however, do not provide mathematically explainable latent representations. This study investigates representations composed of three-point correlation functions, which are a special type of spatial convolutions. We show that a variety of microstructures can be characterized by a concise subset of three-point correlations, and the identification of such subsets can be achieved by Bayesian optimization. Lastly, we show that the proposed representation can directly be used to compute material properties based on the effective medium theory.
翻訳日:2021-09-08 01:09:31 公開日:2021-09-06
# (参考訳) メラニア・トランプは自動顔認証の観点から体を2倍にするか? [全文訳有]

Does Melania Trump have a body double from the perspective of automatic face recognition? ( http://arxiv.org/abs/2109.02283v1 )

ライセンス: CC BY 4.0
Khawla Mallat, Fabiola Becerra-Riera, Annette Morales-Gonz\'alez, Heydi M\'endez-V\'azquez and Jean-Luc Dugelay(参考訳) 本稿では,自動顔認識がソーシャルメディア上での広範にわたる誤情報の検証に有用かどうか,特に身体二重体の存在に基づく陰謀論について検討する。 本論文で提示された陰謀論はメラニア・トランプのボディダブルのケースである。 共謀説の主張の完全性を検証するために,顔認識のために4種類の最先端記述子を用いた。 さらに,画像品質指標の違いが顔認識結果の変動に与える影響について検討した。 画像品質指標には, 獲得関連指標と主題関連指標の2種類が検討された。

In this paper, we explore whether automatic face recognition can help in verifying widespread misinformation on social media, particularly conspiracy theories that are based on the existence of body doubles. The conspiracy theory addressed in this paper is the case of the Melania Trump body double. We employed four different state-of-the-art descriptors for face recognition to verify the integrity of the claim of the studied conspiracy theory. In addition, we assessed the impact of different image quality metrics on the variation of face recognition results. Two sets of image quality metrics were considered: acquisition-related metrics and subject-related metrics.
翻訳日:2021-09-08 00:57:50 公開日:2021-09-06
# (参考訳) 低ランク近似に基づく高速ハイパーグラフ正規化非負テンソルリング因子化 [全文訳有]

Fast Hypergraph Regularized Nonnegative Tensor Ring Factorization Based on Low-Rank Approximation ( http://arxiv.org/abs/2109.02314v1 )

ライセンス: CC BY 4.0
Xinhai Zhao, Yuyuan Yu, Guoxu Zhou, Qibin Zhao, Weijun Sun(参考訳) 高次元データ表現のために、多様体学習を備えた非負テンソルリング(NTR)分解は、多次元構造を利用してテンソルデータから特徴を抽出する有望なモデルとなっている。 しかし、グラフ正規化テンソル環分解(GNTR)のような既存の手法は、オブジェクトのペアワイズ類似性のみをモデル化する。 複素多様体構造を持つテンソルデータに対して、グラフは正確に類似性関係を構成することはできない。 本稿では,物体間の高次元および複雑な類似性を効果的に活用するために,NTRの枠組みにハイパーグラフを導入して特徴抽出をさらに強化し,ハイパーグラフ正規化非負テンソルリング分解法(HGNTR)を開発した。 計算複雑性を低減し雑音を抑制するため,低ランク近似手法を用いてhgntr (lrahgntr) を高速化する。 実験の結果,提案したHGNTRとLraHGNTRは,他の最先端アルゴリズムと比較してクラスタリングタスクにおいて高い性能を達成でき,LraHGNTRは精度を低下させることなく実行時間を劇的に短縮できることがわかった。

For the high dimensional data representation, nonnegative tensor ring (NTR) decomposition equipped with manifold learning has become a promising model to exploit the multi-dimensional structure and extract the feature from tensor data. However, the existing methods such as graph regularized tensor ring decomposition (GNTR) only models the pair-wise similarities of objects. For tensor data with complex manifold structure, the graph can not exactly construct similarity relationships. In this paper, in order to effectively utilize the higher-dimensional and complicated similarities among objects, we introduce hypergraph to the framework of NTR to further enhance the feature extraction, upon which a hypergraph regularized nonnegative tensor ring decomposition (HGNTR) method is developed. To reduce the computational complexity and suppress the noise, we apply the low-rank approximation trick to accelerate HGNTR (called LraHGNTR). Our experimental results show that compared with other state-of-the-art algorithms, the proposed HGNTR and LraHGNTR can achieve higher performance in clustering tasks, in addition, LraHGNTR can greatly reduce running time without decreasing accuracy.
翻訳日:2021-09-08 00:49:56 公開日:2021-09-06
# (参考訳) Hocalarim:トルコの学生のレビューをマイニング [全文訳有]

Hocalarim: Mining Turkish Student Reviews ( http://arxiv.org/abs/2109.02325v1 )

ライセンス: CC BY 4.0
Ibrahim Faruk Ceylan, Necmettin Bera Calik, Mert Yapucuoglu and Ahmet Yavuz Uluslu(参考訳) トルコ語で利用可能な最大の学生レビューデータセットであるhocalarim(myprofesso rs)を紹介する。 学生がオンラインで残した5000以上の教授のレビューから成り、教育のさまざまな側面が1から5の星で評価されている。 データセットの特性を調査し,その統計値を示す。 学生の施設タイプが評価と学生のバイアスの相関性に及ぼす影響を,肯定的あるいは否定的なフィードバックを与えるために検討した。

We introduce Hocalarim (MyProfessors), the largest student review dataset available for the Turkish language. It consists of over 5000 professor reviews left online by students, with different aspects of education rated on a scale of 1 to 5 stars. We investigate the properties of the dataset and present its statistics. We examine the impact of students' institution type on their ratings and the correlation of students' bias to give positive or negative feedback.
翻訳日:2021-09-08 00:27:14 公開日:2021-09-06
# (参考訳) 不均一顔データのためのフェアフェデレーション学習 [全文訳有]

Fair Federated Learning for Heterogeneous Face Data ( http://arxiv.org/abs/2109.02351v1 )

ライセンス: CC BY 4.0
Samhita Kanaparthy, Manisha Padala, Sankarshan Damle, Sujit Gujar(参考訳) フェデレートラーニング(FL)において、データの不均一性の下で公平に分類する問題を考える。 公平な分類のために提案されたアプローチの多くは、関連する異なる人口集団を表す多様なデータを必要とする。 対照的に、各クライアントは単一の人口グループのみを表すデータを所有することが一般的である。 したがって、既存のアプローチはクライアントレベルで公正な分類モデルには適用できない。 この課題を解決するために,いくつかのアグリゲーション手法を提案する。 これらの手法を,CelebA,UTK,FairFace のデータセット上で,結果の公平度と精度を比較して実証的に検証する。

We consider the problem of achieving fair classification in Federated Learning (FL) under data heterogeneity. Most of the approaches proposed for fair classification require diverse data that represent the different demographic groups involved. In contrast, it is common for each client to own data that represents only a single demographic group. Hence the existing approaches cannot be adopted for fair classification models at the client level. To resolve this challenge, we propose several aggregation techniques. We empirically validate these techniques by comparing the resulting fairness metrics and accuracy on CelebA, UTK, and FairFace datasets.
翻訳日:2021-09-08 00:24:06 公開日:2021-09-06
# (参考訳) 直観的ファジィ数と強化学習を組み合わせた戦争ゲームにおける多属性決定法

Method for making multi-attribute decisions in wargames by combining intuitionistic fuzzy numbers with reinforcement learning ( http://arxiv.org/abs/2109.02354v1 )

ライセンス: CC BY 4.0
Yuxiang Sun, Bo Yuan, Yufan Xue, Jiawei Zhou, Xiaoyu Zhang and Xianzhong Zhou(参考訳) Researchers are increasingly focusing on intelligent games as a hot research area.The article proposes an algorithm that combines the multi-attribute management and reinforcement learning methods, and that combined their effect on wargaming, it solves the problem of the agent's low rate of winning against specific rules and its inability to quickly converge during intelligent wargame training.At the same time, this paper studied a multi-attribute decision making and reinforcement learning algorithm in a wargame simulation environment, and obtained data on red and blue conflict.Calculate the weight of each attribute based on the intuitionistic fuzzy number weight calculations. そして、各相手のチェス駒が与える脅威を判定し、レッドサイド強化学習報酬関数を用いて、報酬関数に基づいて交流フレームワークを訓練し、多属性意思決定と強化学習を組み合わせたアルゴリズムを得る。 シミュレーション実験により,本論文で提示された強化学習と組み合わせたマルチ属性意思決定のアルゴリズムが,純粋強化学習アルゴリズムよりも有意にインテリジェントであることを確認し,エージェントのニューラルネットワークの欠点を解決し,大地図戦闘ゲームにおけるスパース報酬と組み合わせることにより,この頑健なアルゴリズムは,収束の困難を効果的に低減する。 また、知的ウォーゲームの設計や強化学習アルゴリズムの改善といった学術分野における学際的相互革新の回避は、知的ウォーゲームのためのアルゴリズム設計と強化学習とを組み合わせることが、この分野で初めてである。

Researchers are increasingly focusing on intelligent games as a hot research area.The article proposes an algorithm that combines the multi-attribute management and reinforcement learning methods, and that combined their effect on wargaming, it solves the problem of the agent's low rate of winning against specific rules and its inability to quickly converge during intelligent wargame training.At the same time, this paper studied a multi-attribute decision making and reinforcement learning algorithm in a wargame simulation environment, and obtained data on red and blue conflict.Calculate the weight of each attribute based on the intuitionistic fuzzy number weight calculations. Then determine the threat posed by each opponent's chess pieces.Using the red side reinforcement learning reward function, the AC framework is trained on the reward function, and an algorithm combining multi-attribute decision-making with reinforcement learning is obtained. A simulation experiment confirms that the algorithm of multi-attribute decision-making combined with reinforcement learning presented in this paper is significantly more intelligent than the pure reinforcement learning algorithm.By resolving the shortcomings of the agent's neural network, coupled with sparse rewards in large-map combat games, this robust algorithm effectively reduces the difficulties of convergence. It is also the first time in this field that an algorithm design for intelligent wargaming combines multi-attribute decision making with reinforcement learning.Attempt interdisciplinary cross-innovation in the academic field, like designing intelligent wargames and improving reinforcement learning algorithms.
翻訳日:2021-09-08 00:11:00 公開日:2021-09-06
# (参考訳) Pointspectrum: 等価性はグラフ表現学習のためのラプラシアンフィルタと出会う [全文訳有]

Pointspectrum: Equivariance Meets Laplacian Filtering for Graph Representation Learning ( http://arxiv.org/abs/2109.02358v1 )

ライセンス: CC BY 4.0
Marinos Poiitis, Pavlos Sermpezis, Athena Vakali(参考訳) グラフ表現学習(GRL)は、現代のグラフデータマイニングおよび学習タスクに欠かせないものとなっている。 GRLはグラフの構造情報を取り込み、ノードやエッジ属性と組み合わせて低次元表現を計算することを目的としている。 グラフニューラルネットワーク(GNN)は最先端のGRLアーキテクチャで使用されているが、多くのGNN層を積み重ねる必要がある場合、過度なスムース化に悩まされていることが示されている。 別のgrlアプローチでは、グラフフィルタリングに基づくスペクトル手法がスムース化に対処しているが、これまではグラフデータの構造を効率的に活用できない従来のニューラルネットワークを採用している。 そこで我々は, グラフの構造を考慮に入れた, 集合同変ネットワークを組み込んだスペクトル法であるPointSpectrumを提案する。 PointSpectrumはスペクトル法の効率性と表現性を向上し、最先端のGRL法よりも優れ、競合する。 全体として、ポイントスペクトラムはグラフフィルタを用いて平滑化を克服し、gnnとスペクトル法の交点にある集合同分散を通じてグラフの構造をキャプチャする。 本研究の成果は,スペクトル法とGRLのアーキテクチャシフトのメリットと適用性を示すものである。

Graph Representation Learning (GRL) has become essential for modern graph data mining and learning tasks. GRL aims to capture the graph's structural information and exploit it in combination with node and edge attributes to compute low-dimensional representations. While Graph Neural Networks (GNNs) have been used in state-of-the-art GRL architectures, they have been shown to suffer from over smoothing when many GNN layers need to be stacked. In a different GRL approach, spectral methods based on graph filtering have emerged addressing over smoothing; however, up to now, they employ traditional neural networks that cannot efficiently exploit the structure of graph data. Motivated by this, we propose PointSpectrum, a spectral method that incorporates a set equivariant network to account for a graph's structure. PointSpectrum enhances the efficiency and expressiveness of spectral methods, while it outperforms or competes with state-of-the-art GRL methods. Overall, PointSpectrum addresses over smoothing by employing a graph filter and captures a graph's structure through set equivariance, lying on the intersection of GNNs and spectral methods. Our findings are promising for the benefits and applicability of this architectural shift for spectral methods and GRL.
翻訳日:2021-09-08 00:08:45 公開日:2021-09-06
# (参考訳) ビュー毎の最適化によるポイントベースニューラルレンダリング [全文訳有]

Point-Based Neural Rendering with Per-View Optimization ( http://arxiv.org/abs/2109.02369v1 )

ライセンス: CC BY 4.0
Georgios Kopanas, Julien Philip, Thomas Leimk\"uhler, George Drettakis(参考訳) 最近、ニューラルレンダリング手法に大きな関心が寄せられている。 いくつかのアプローチでは、Multi-View Stereo (MVS) で再構成された3次元幾何学を用いているが、このプロセスの誤りから回復することはできない。 我々はmvsで初期化される一般的なアプローチを導入するが、奥行きや再計画された機能を含む入力ビューの空間におけるシーンプロパティのさらなる最適化が可能となり、その結果、ノベルビュー合成が改善された。 我々のアプローチの重要な要素は、双方向楕円重み付き平均スプラッティング、確率的深さテスト、効果的なカメラ選択に基づく、新しい微分可能な点ベースパイプラインである。 私たちはこれらの要素をneural rendererで一緒に使用し、テストしたほぼすべてのシーンで、以前のすべてのメソッドを品質と速度の両方で上回っています。 当社のパイプラインは,新規なビュー合成に加えて,マルチビューの調和とスタイライゼーションにも適用できる。

There has recently been great interest in neural rendering methods. Some approaches use 3D geometry reconstructed with Multi-View Stereo (MVS) but cannot recover from the errors of this process, while others directly learn a volumetric neural representation, but suffer from expensive training and inference. We introduce a general approach that is initialized with MVS, but allows further optimization of scene properties in the space of input views, including depth and reprojected features, resulting in improved novel-view synthesis. A key element of our approach is our new differentiable point-based pipeline, based on bi-directional Elliptical Weighted Average splatting, a probabilistic depth test and effective camera selection. We use these elements together in our neural renderer, that outperforms all previous methods both in quality and speed in almost all scenes we tested. Our pipeline can be applied to multi-view harmonization and stylization in addition to novel-view synthesis.
翻訳日:2021-09-07 23:51:16 公開日:2021-09-06
# (参考訳) ramenの改善: ビジュアル質問応答のためのドメインの一般化に向けて [全文訳有]

Improved RAMEN: Towards Domain Generalization for Visual Question Answering ( http://arxiv.org/abs/2109.02370v1 )

ライセンス: CC BY 4.0
Bhanuka Manesha Samarasekara Vitharana Gamage, Lim Chern Hong(参考訳) 現在人間レベルのパフォーマンスに近づいているVisual Question Answering(VQA)は、人工知能の新興分野である。 機械学習の多分野分野として構築され、コンピュータビジョンと自然言語処理のコミュニティが協力して最先端(SOTA)のパフォーマンスを実現している。 しかし、SOTAの結果と現実世界の応用の間にはギャップがある。 これはモデル一般化の欠如によるものである。 RAMENモデル \cite{Shrestha2019}は、2つの主要なVQAデータセットの最高スコアを取得することでドメインの一般化を実現することを目的としている。 本研究は,RAMENアーキテクチャのアーリー・ラト融合モジュールとアグリゲーションモジュールに2つの大きな改良を加え,ドメインの一般化をさらに強化することを目的とする。 融合モジュールにはベクトル演算に基づく融合戦略が導入され、集約モジュールにはトランスフォーマーアーキテクチャが導入される。 実験による最大5つのVQAデータセットの改善は明らかである。 その結果, 2つの改善が領域一般化問題に与える影響について検討した。 コードはgithubで入手できるが、次のリンクはurl{https://github.com/b hanukamanesha/ramen}である。

Currently nearing human-level performance, Visual Question Answering (VQA) is an emerging area in artificial intelligence. Established as a multi-disciplinary field in machine learning, both computer vision and natural language processing communities are working together to achieve state-of-the-art (SOTA) performance. However, there is a gap between the SOTA results and real world applications. This is due to the lack of model generalisation. The RAMEN model \cite{Shrestha2019} aimed to achieve domain generalization by obtaining the highest score across two main types of VQA datasets. This study provides two major improvements to the early/late fusion module and aggregation module of the RAMEN architecture, with the objective of further strengthening domain generalization. Vector operations based fusion strategies are introduced for the fusion module and the transformer architecture is introduced for the aggregation module. Improvements of up to five VQA datasets from the experiments conducted are evident. Following the results, this study analyses the effects of both the improvements on the domain generalization problem. The code is available on GitHub though the following link \url{https://github.com/b hanukaManesha/ramen}.
翻訳日:2021-09-07 23:26:42 公開日:2021-09-06
# (参考訳) germeval 2021のデータサイエンスキッチン: オーブンから生鮮に届けられた手選りの良い特徴の選び方 [全文訳有]

Data Science Kitchen at GermEval 2021: A Fine Selection of Hand-Picked Features, Delivered Fresh from the Oven ( http://arxiv.org/abs/2109.02383v1 )

ライセンス: CC BY 4.0
Niclas Hildebrandt and Benedikt Boenninghoff and Dennis Orth and Christopher Schymura(参考訳) 本稿では,gengeval 2021におけるデータサイエンス・キッチンにおける有害性,関与性,事実を訴えるコメントの識別に関する共通タスクの貢献について述べる。 このタスクは、モデレーターやコミュニティマネージャがファクトチェックに優先すべきコメントを識別する追加のサブタスクを含め、攻撃的な言語の識別を拡張することを目的としている。 私たちのコントリビューションは,従来の分類バックエンドを備えた機能エンジニアリングアプローチに重点を置いています。 我々は、事前学習されたディープニューラルネットワークから派生した意味的および文章的埋め込みと、このタスク用に特別に設計された追加の数値的特徴を組み合わせる。 ロジスティック回帰分類器とサポートベクトルマシンのアンサンブルは、多数決による各サブタスクの予測を導出するために使用される。 我々のベストセプションは、毒性、エンゲージメント、事実を主張するコメントの識別に対して66.8%、69.9%、72.5%のマクロ平均F1スコアを達成した。

This paper presents the contribution of the Data Science Kitchen at GermEval 2021 shared task on the identification of toxic, engaging, and fact-claiming comments. The task aims at extending the identification of offensive language, by including additional subtasks that identify comments which should be prioritized for fact-checking by moderators and community managers. Our contribution focuses on a feature-engineering approach with a conventional classification backend. We combine semantic and writing style embeddings derived from pre-trained deep neural networks with additional numerical features, specifically designed for this task. Ensembles of Logistic Regression classifiers and Support Vector Machines are used to derive predictions for each subtask via a majority voting scheme. Our best submission achieved macro-averaged F1-scores of 66.8%, 69.9% and 72.5% for the identification of toxic, engaging, and fact-claiming comments.
翻訳日:2021-09-07 23:08:02 公開日:2021-09-06
# (参考訳) LTIシステムにおける計測可能出力の最適出力予測 [全文訳有]

Optimal Prediction of Unmeasured Output from Measurable Outputs In LTI Systems ( http://arxiv.org/abs/2109.02384v1 )

ライセンス: CC BY 4.0
Deividas Eringis, John Leth, Zheng-Hua Tan, Rafal Wisniewski, Mihaly Petreczky(参考訳) 本稿では,システム出力の1つの部分が測定されていないが,計測されたシステムの他の出力から予測可能な場合に,最適予測器の導出を示す。 著者の知識によれば、同様の導出は以前に行われたが、状態空間の表現では行われていない。

In this short article, we showcase the derivation of an optimal predictor, when one part of system's output is not measured but is able to be predicted from the rest of the system's output which is measured. According to author's knowledge, similar derivations have been done before but not in state-space representation.
翻訳日:2021-09-07 22:58:15 公開日:2021-09-06
# (参考訳) マルチモーダル抽象要約のための視覚誘導生成事前学習言語モデル [全文訳有]

Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization ( http://arxiv.org/abs/2109.02401v1 )

ライセンス: CC BY 4.0
Tiezheng Yu, Wenliang Dai, Zihan Liu, Pascale Fung(参考訳) multimodal abstractive summarization (mas) モデルは、ビデオ(視覚モダリティ)とその対応するトランスクリプト(テキストモダリティ)を要約し、インターネット上の膨大なマルチモーダルデータから本質的な情報を抽出することができる。 近年,大規模な生成事前学習言語モデル (GPLM) がテキスト生成に有効であることが示されている。 しかし、既存のMASモデルはGPLMの強力な生成能力を活用できない。 この研究のギャップを埋めるために,1) 生成能力を損なうことなく gplms に視覚情報を注入する方法,2) 視覚情報を注入するのに gplms の最適位置は何か,という2つの研究課題を考察する。 本稿では,視覚情報を付加し,本来のテキスト生成能力を維持しつつ,注意型アドオンレイヤを用いて視覚誘導(VG) GPLMsをMASタスクに構築する,シンプルで効果的な方法を提案する。 結果から,本モデルが従来モデルより5.7 ROUGE-1,5.3 ROUGE-2,5.1 ROUGE-Lのスコアを大きく上回り,視覚指導手法が全体の改善の83.6%に寄与していることがわかった。 さらに,様々なモード性融合法と核融合位置の有効性を分析するため,徹底的なアブレーション研究を行った。

Multimodal abstractive summarization (MAS) models that summarize videos (vision modality) and their corresponding transcripts (text modality) are able to extract the essential information from massive multimodal data on the Internet. Recently, large-scale generative pre-trained language models (GPLMs) have been shown to be effective in text generation tasks. However, existing MAS models cannot leverage GPLMs' powerful generation ability. To fill this research gap, we aim to study two research questions: 1) how to inject visual information into GPLMs without hurting their generation ability; and 2) where is the optimal place in GPLMs to inject the visual information? In this paper, we present a simple yet effective method to construct vision guided (VG) GPLMs for the MAS task using attention-based add-on layers to incorporate visual information while maintaining their original text generation ability. Results show that our best model significantly surpasses the prior state-of-the-art model by 5.7 ROUGE-1, 5.3 ROUGE-2, and 5.1 ROUGE-L scores on the How2 dataset, and our visual guidance method contributes 83.6% of the overall improvement. Furthermore, we conduct thorough ablation studies to analyze the effectiveness of various modality fusion methods and fusion locations.
翻訳日:2021-09-07 22:49:34 公開日:2021-09-06
# (参考訳) 教師なしオピニオン抽出によるアスペクトレベル感性分類のための知覚バイアスの除去 [全文訳有]

Eliminating Sentiment Bias for Aspect-Level Sentiment Classification with Unsupervised Opinion Extraction ( http://arxiv.org/abs/2109.02403v1 )

ライセンス: CC BY 4.0
Bo Wang, Tao Shen, Guodong Long, Tianyi Zhou, Yi Chang(参考訳) アスペクトレベルの感情分類(ALSC)は、文中の特定の側面の感情極性を特定することを目的としている。 ALSCは、意見用語のラベル付けが不要なため、アスペクトベースの感情分析の実践的な設定であるが、なぜその側面に対して感情の極性が導出されるのかを理解できない。 この問題に対処するために,alsc の微調整プリトレーニングトランスエンコーダを用いて,意見の単語を識別可能なアスペクト中心の依存性木を抽出した。 しかし、誘導された意見語は人間レベルの解釈可能性よりはるかに低い直感的な手がかりを与えるだけである。 さらに、事前訓練されたエンコーダは、アスペクトの本質的な感情を内部化し、感情バイアスを引き起こし、モデルパフォーマンスに影響を与える傾向がある。 本稿では,スパンベースのアンチバイアスアスペクト表現学習フレームワークを提案する。 まず、前向きの感情に対する敵対的学習によって埋め込まれた側面の感情バイアスを除去する。 そして、スパンベースの依存性モデリングによって、蒸留された意見候補をアスペクトに合わせ、解釈可能な意見用語を強調する。 提案手法は,教師なし意見抽出機能を備えた5つのベンチマークにおいて,最先端性能を実現する。

Aspect-level sentiment classification (ALSC) aims at identifying the sentiment polarity of a specified aspect in a sentence. ALSC is a practical setting in aspect-based sentiment analysis due to no opinion term labeling needed, but it fails to interpret why a sentiment polarity is derived for the aspect. To address this problem, recent works fine-tune pre-trained Transformer encoders for ALSC to extract an aspect-centric dependency tree that can locate the opinion words. However, the induced opinion words only provide an intuitive cue far below human-level interpretability. Besides, the pre-trained encoder tends to internalize an aspect's intrinsic sentiment, causing sentiment bias and thus affecting model performance. In this paper, we propose a span-based anti-bias aspect representation learning framework. It first eliminates the sentiment bias in the aspect embedding by adversarial learning against aspects' prior sentiment. Then, it aligns the distilled opinion candidates with the aspect by span-based dependency modeling to highlight the interpretable opinion terms. Our method achieves new state-of-the-art performance on five benchmarks, with the capability of unsupervised opinion extraction.
翻訳日:2021-09-07 22:29:50 公開日:2021-09-06
# (参考訳) 医療コード予測のためのマルチタスクバランス・リカバリネットワーク [全文訳有]

Multi-task Balanced and Recalibrated Network for Medical Code Prediction ( http://arxiv.org/abs/2109.02418v1 )

ライセンス: CC BY 4.0
Wei Sun and Shaoxiong Ji and Erik Cambria and Pekka Marttinen(参考訳) 人間のコーダーは、患者が入院中に発生する医療文書に標準化された医療コードを割り当てる。 ディープニューラルネットワークなどの機械学習手法を用いて、自動医療コーディング手法が開発されている。 それでも、不均衡なクラス問題、複雑なコードアソシエーション、長いドキュメントのノイズなど、自動化された医療コーディングは依然として難しい。 これらの課題を解決するために,マルチタスクバランスとリカリデーションニューラルネットワークという新しいニューラルネットワークを提案する。 重要なことに、マルチタスク学習方式は、コードアソシエーションを捉えるために、異なるコードブランチ間の関係知識を共有する。 文書中のノイズの影響を緩和する高レベルな意味的特徴を抽出するために、畳み込みブロックをカスケードして再校正集約モジュールを開発する。 また、再調整されたモジュールのカスケード構造は、長いメモから学ぶのに役立つ。 クラス不均衡問題を解決するために,焦点損失を配置し,低頻度・高頻度の医療コードに注意を向ける。 実験結果から,本モデルが実世界の臨床データセットMIMIC-IIIの競争ベースラインより優れていることが示された。

Human coders assign standardized medical codes to clinical documents generated during patients' hospitalization, which is error-prone and labor-intensive. Automated medical coding approaches have been developed using machine learning methods such as deep neural networks. Nevertheless, automated medical coding is still challenging because of the imbalanced class problem, complex code association, and noise in lengthy documents. To solve these difficulties, we propose a novel neural network called Multi-task Balanced and Recalibrated Neural Network. Significantly, the multi-task learning scheme shares the relationship knowledge between different code branches to capture the code association. A recalibrated aggregation module is developed by cascading convolutional blocks to extract high-level semantic features that mitigate the impact of noise in documents. Also, the cascaded structure of the recalibrated module can benefit the learning from lengthy notes. To solve the class imbalanced problem, we deploy the focal loss to redistribute the attention of low and high-frequency medical codes. Experimental results show that our proposed model outperforms competitive baselines on a real-world clinical dataset MIMIC-III.
翻訳日:2021-09-07 22:07:50 公開日:2021-09-06
# (参考訳) テキストマッチングモデルの長発散バイアスの露呈 [全文訳有]

Exposing Length Divergence Bias of Textual Matching Models ( http://arxiv.org/abs/2109.02431v1 )

ライセンス: CC BY 4.0
Lan Jiang, Tianshu Lyu, Chong Meng, Xiaoyong Lyu, Dawei Yin(参考訳) ディープモデルがテキストマッチング(tm)で達成した驚くべき成功にもかかわらず、その堅牢性問題は依然として関心の対象となっている。 本稿では,TMモデルの長偏差バイアスを通じて,この問題を研究するための新しい視点を提案する。 このバイアスは、既存のTMデータセットのラベルバイアスと、表面情報に対するTMモデルの感度の2つの部分に由来すると結論付けている。 我々は広く使われているTMデータセットを批判的に検討し、それらすべてがラベルによる特定の長さの分散分布に従っており、予測のための直接的な手がかりを提供する。 tmモデルについて,本モデルの性能評価を行った結果,本モデルが構築する分散型テストセットでは,すべてのモデルのパフォーマンスが低下し,偏りのあるトレーニングセットによって誤認されることが示された。 これは \textit{sentlen} probingタスクでも確認されており、トレーニング中にすべてのモデルが、パフォーマンスを容易にするために、豊富な長さ情報をキャプチャする。 最後に,TMモデルの長偏差バイアスを軽減するために,バイアスのないトレーニングデータを用いた現実的な対角トレーニング手法を提案する。 実験の結果,モデルの堅牢性と一般化能力は同時に向上することが示唆された。

Despite the remarkable success deep models have achieved in Textual Matching (TM), their robustness issue is still a topic of concern. In this work, we propose a new perspective to study this issue -- via the length divergence bias of TM models. We conclude that this bias stems from two parts: the label bias of existing TM datasets and the sensitivity of TM models to superficial information. We critically examine widely used TM datasets, and find that all of them follow specific length divergence distributions by labels, providing direct cues for predictions. As for the TM models, we conduct adversarial evaluation and show that all models' performances drop on the out-of-distribution adversarial test sets we construct, which demonstrates that they are all misled by biased training sets. This is also confirmed by the \textit{SentLen} probing task that all models capture rich length information during training to facilitate their performances. Finally, to alleviate the length divergence bias in TM models, we propose a practical adversarial training method using bias-free training data. Our experiments indicate that we successfully improve the robustness and generalization ability of models at the same time.
翻訳日:2021-09-07 21:49:25 公開日:2021-09-06
# (参考訳) 機械学習前処理技術の統計的プライバシー保証 [全文訳有]

Statistical Privacy Guarantees of Machine Learning Preprocessing Techniques ( http://arxiv.org/abs/2109.02496v1 )

ライセンス: CC BY-SA 4.0
Ashly Lau and Jonathan Passerat-Palmbach(参考訳) 差分プライバシーは、機械学習アプリケーションに対して強力なプライバシー保証を提供する。 最近の研究は、微分プライベートモデルの開発に重点を置いているが、機械学習パイプラインの他のステージ、特に前処理フェーズではギャップがあった。 統計的手法に基づいたプライバシ侵害検出フレームワークを採用して、マシンラーニングパイプラインのプライバシレベルを実証的に測定し、新たに作成されたフレームワークを適用して、不均衡なデータセットを扱う際に使用されるサンプルテクニックが、結果としてプライバシを漏洩させることを示したのです。 これらの結果は、プライベートな前処理技術を開発する必要性を強調している。

Differential privacy provides strong privacy guarantees for machine learning applications. Much recent work has been focused on developing differentially private models, however there has been a gap in other stages of the machine learning pipeline, in particular during the preprocessing phase. Our contributions are twofold: we adapt a privacy violation detection framework based on statistical methods to empirically measure privacy levels of machine learning pipelines, and apply the newly created framework to show that resampling techniques used when dealing with imbalanced datasets cause the resultant model to leak more privacy. These results highlight the need for developing private preprocessing techniques.
翻訳日:2021-09-07 21:41:26 公開日:2021-09-06
# (参考訳) 3次元物体検出のためのVoxel Transformer [全文訳有]

Voxel Transformer for 3D Object Detection ( http://arxiv.org/abs/2109.02497v1 )

ライセンス: CC BY-SA 4.0
Jiageng Mao and Yujing Xue and Minzhe Niu and Haoyue Bai and Jiashi Feng and Xiaodan Liang and Hang Xu and Chunjing Xu(参考訳) voxel transformer (votr) は, 点群から物体を3次元的に検出する, 新規かつ効果的なvoxelベースのトランスフォーマーバックボーンである。 ボクセルをベースとした3D検出器の従来の3D畳み込みバックボーンは、物体認識や局所化において重要な大きなコンテキスト情報を効率的に取得できない。 本稿では,ボクセル間の長距離関係を実現するトランスフォーマティブアーキテクチャを導入することで,この問題を解決する。 空でないボクセルは自然に希少だが数が多いという事実を考えると、ボクセルに標準トランスフォーマーを直接適用することは非自明である。 この目的のために,空かつ空でないボクセル位置を効果的に操作できる疎ボクセルモジュールと部分多様体ボクセルモジュールを提案する。 さらに, 畳み込みに対して同等の計算オーバーヘッドを維持しつつ, 注意範囲をさらに拡大するために, 局所注意と拡張注意という2つのマルチヘッド注意のための注意機構を提案し, さらに, マルチヘッド注意におけるクエリ処理を高速化するために, 高速なvoxelクエリを提案する。 VoTrは一連のスパースとサブマニフォールドのボクセルモジュールを含み、ほとんどのボクセル検出器に適用できる。 提案するvotrは,kittiデータセットとwaymoオープンデータセットの計算効率を維持しつつ,畳み込みベースラインに対して一貫した改善を示す。

We present Voxel Transformer (VoTr), a novel and effective voxel-based Transformer backbone for 3D object detection from point clouds. Conventional 3D convolutional backbones in voxel-based 3D detectors cannot efficiently capture large context information, which is crucial for object recognition and localization, owing to the limited receptive fields. In this paper, we resolve the problem by introducing a Transformer-based architecture that enables long-range relationships between voxels by self-attention. Given the fact that non-empty voxels are naturally sparse but numerous, directly applying standard Transformer on voxels is non-trivial. To this end, we propose the sparse voxel module and the submanifold voxel module, which can operate on the empty and non-empty voxel positions effectively. To further enlarge the attention range while maintaining comparable computational overhead to the convolutional counterparts, we propose two attention mechanisms for multi-head attention in those two modules: Local Attention and Dilated Attention, and we further propose Fast Voxel Query to accelerate the querying process in multi-head attention. VoTr contains a series of sparse and submanifold voxel modules and can be applied in most voxel-based detectors. Our proposed VoTr shows consistent improvement over the convolutional baselines while maintaining computational efficiency on the KITTI dataset and the Waymo Open dataset.
翻訳日:2021-09-07 21:19:09 公開日:2021-09-06
# (参考訳) ピラミッドR-CNN:3次元物体検出の性能と適応性向上に向けて [全文訳有]

Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object Detection ( http://arxiv.org/abs/2109.02499v1 )

ライセンス: CC BY-SA 4.0
Jiageng Mao and Minzhe Niu and Haoyue Bai and Xiaodan Liang and Hang Xu and Chunjing Xu(参考訳) 点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。 現在のアプローチは一般に第2段階におけるRoI特徴抽出の関心点やボクセルに依存しているが、これらの点の空間分布や非一様分布を効果的に扱えないため、遠くにある物体を検出するのに失敗する可能性がある。 この問題を解決するために,ピラミッドRoIヘッドと呼ばれる新しい第2段モジュールを提案し,興味の疎い点から特徴を適応的に学習する。 ピラミッドRoIヘッドは3つのキーコンポーネントで構成されている。 まず,ピラミッド方式で各RoIの関心点を広範囲に集めることで,空間問題を緩和するRoIグリッドピラミッドを提案する。 第2に,従来の注目型およびグラフベースの点演算子を統一的な定式化に組み込むことで,スパースポイントからリッチな情報をエンコードできる新しい操作であるRoI-grid Attentionを提案する。 第3に,roisの集束範囲を動的に調整することにより,異なる点密度レベルに適応可能な密度認識半径予測(darp)モジュールを提案する。 3つのコンポーネントを組み合わせることで、ピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、さまざまな3Dバックボーンに適用することで、検出性能を継続的に向上させることができる。 大規模な実験によると、Praamid R-CNNは、KITTIデータセットとWaymo Openデータセットの両方で最先端の3D検出モデルよりも大きなマージンで優れている。

We present a flexible and high-performance framework, named Pyramid R-CNN, for two-stage 3D object detection from point clouds. Current approaches generally rely on the points or voxels of interest for RoI feature extraction on the second stage, but cannot effectively handle the sparsity and non-uniform distribution of those points, and this may result in failures in detecting objects that are far away. To resolve the problems, we propose a novel second-stage module, named pyramid RoI head, to adaptively learn the features from the sparse points of interest. The pyramid RoI head consists of three key components. Firstly, we propose the RoI-grid Pyramid, which mitigates the sparsity problem by extensively collecting points of interest for each RoI in a pyramid manner. Secondly, we propose RoI-grid Attention, a new operation that can encode richer information from sparse points by incorporating conventional attention-based and graph-based point operators into a unified formulation. Thirdly, we propose the Density-Aware Radius Prediction (DARP) module, which can adapt to different point density levels by dynamically adjusting the focusing range of RoIs. Combining the three components, our pyramid RoI head is robust to the sparse and imbalanced circumstances, and can be applied upon various 3D backbones to consistently boost the detection performance. Extensive experiments show that Pyramid R-CNN outperforms the state-of-the-art 3D detection models by a large margin on both the KITTI dataset and the Waymo Open dataset.
翻訳日:2021-09-07 20:59:27 公開日:2021-09-06
# (参考訳) 第9回ソフトウェア科学における記号計算国際シンポジウムの開催報告

Proceedings of the 9th International Symposium on Symbolic Computation in Software Science ( http://arxiv.org/abs/2109.02501v1 )

ライセンス: CC BY 4.0
Temur Kutsia(参考訳) この巻には、SCSS 2021のシンボル計算に関する第9回国際シンポジウムで発表された論文が含まれている。 記号計算(英: Symbolic Computation)は、記号的対象(項、公式、プログラム、代数的対象の表現など)による計算の科学である。 強力なアルゴリズムは、コンピュータ代数と計算論理という、記号計算の主要なサブ領域のために、過去数十年の間に開発されてきた。 これらのアルゴリズムと手法はソフトウェアサイエンスを含む様々な分野でうまく適用され、ソフトウェアの構築と分析に関する幅広いトピックをカバーしている。 一方、人工知能手法や機械学習アルゴリズムは、近年、様々な領域、特に記号計算と組み合わせて広く使われている。 いくつかのアプローチは、人工知能と象徴的な方法とツールを混合し、認知システムとして知られるものを作成する。 認知コンピューティングは、推論によって自然に人間と対話するシステムを構築することに焦点を当てている。 SCSSの目的は、ソフトウェア科学における記号計算の理論的および実践的な側面と、現代の人工知能技術を組み合わせた研究を促進することである。 これらの手続きにはBruno Buchberger氏による基調講演と10の論文が含まれている。 さらに、カンファレンスプログラムには3つの招待講演、9つの短い論文と進行中の論文、コンピュータ代数と計算論理に関する特別セッションが含まれていた。 新型コロナウイルスのパンデミックのため、シンポジウムは完全にオンラインで開催された。 2021年9月8日から10日にかけて、ヨハネス・ケプラー大学のシンボリック計算研究所(RISC)によって組織された。

This volume contains papers presented at the Ninth International Symposium on Symbolic Computation in Software Science, SCSS 2021. Symbolic Computation is the science of computing with symbolic objects (terms, formulae, programs, representations of algebraic objects, etc.). Powerful algorithms have been developed during the past decades for the major subareas of symbolic computation: computer algebra and computational logic. These algorithms and methods are successfully applied in various fields, including software science, which covers a broad range of topics about software construction and analysis. Meanwhile, artificial intelligence methods and machine learning algorithms are widely used nowadays in various domains and, in particular, combined with symbolic computation. Several approaches mix artificial intelligence and symbolic methods and tools deployed over large corpora to create what is known as cognitive systems. Cognitive computing focuses on building systems that interact with humans naturally by reasoning, aiming at learning at scale. The purpose of SCSS is to promote research on theoretical and practical aspects of symbolic computation in software science, combined with modern artificial intelligence techniques. These proceedings contain the keynote paper by Bruno Buchberger and ten contributed papers. Besides, the conference program included three invited talks, nine short and work-in-progress papers, and a special session on computer algebra and computational logic. Due to the COVID-19 pandemic, the symposium was held completely online. It was organized by the Research Institute for Symbolic Computation (RISC) of the Johannes Kepler University Linz on September 8--10, 2021.
翻訳日:2021-09-07 20:41:29 公開日:2021-09-06
# (参考訳) Proto: アピール会話を生成するニューラルコクテル [全文訳有]

Proto: A Neural Cocktail for Generating Appealing Conversations ( http://arxiv.org/abs/2109.02513v1 )

ライセンス: CC BY 4.0
Sougata Saha, Souvik Das, Elizabeth Soper, Erin Pacquetet, Rohini K. Srihari(参考訳) 本稿では,Alexa Prize Grand Challenge 4 Socialbot: Protoを紹介する。 さまざまな世界知識のソースを活用し、ニューラルネットワークとルールベースの自然言語理解モジュールのスイート、最先端のニューラルジェネレータ、新しいステートベースの決定論的ジェネレータ、ニューラルリランカのアンサンブル、堅牢な後処理アルゴリズム、そして効率的な全体的な会話戦略を活用して、Protoは、人間に対するさまざまな関心事に関する一貫性のある会話を可能にし、ユーザに対して記憶に残る体験を提供することを目指している。 本稿では,私たちのsocialbotが実装するさまざまなコンポーネントと会話戦略を分析し,分析することで,対話的,共感的,熱意的,自己認識的,事実的に正しい,オントピックな反応を生成できる。

In this paper, we present our Alexa Prize Grand Challenge 4 socialbot: Proto. Leveraging diverse sources of world knowledge, and powered by a suite of neural and rule-based natural language understanding modules, state-of-the-art neural generators, novel state-based deterministic generators, an ensemble of neural re-rankers, a robust post-processing algorithm, and an efficient overall conversation strategy, Proto strives to be able to converse coherently about a diverse range of topics of interest to humans, and provide a memorable experience to the user. In this paper we dissect and analyze the different components and conversation strategies implemented by our socialbot, which enables us to generate colloquial, empathetic, engaging, self-rectifying, factually correct, and on-topic response, which has helped us achieve consistent scores throughout the competition.
翻訳日:2021-09-07 20:40:24 公開日:2021-09-06
# (参考訳) 確率的機械学習によるデータ駆動風車ウェイクモデリング [全文訳有]

Data-Driven Wind Turbine Wake Modeling via Probabilistic Machine Learning ( http://arxiv.org/abs/2109.02411v1 )

ライセンス: CC BY 4.0
S. Ashwin Renganathan, Romit Maulik, Stefano Letizia, and Giacomo Valerio Iungo(参考訳) 風力発電の設計は、主に風力タービンの流路が大気の風条件に流れることの変動と、流路間の相互作用に依存する。 高忠実度でウェイクフローフィールドをキャプチャする物理モデルでは、風力発電所のレイアウト最適化を行うのに非常に費用がかかります。 本研究では,風車ウェイクのリアルタイム光検出・測光(LiDAR)を用いて,機械学習を用いて予測代理モデルを構築する。 具体的には、まずディープオートエンコーダを用いて低次元の \emph{latent} 空間を探索し、ウェイクLiDAR測定の計算可能近似を与える。 そして,深部ニューラルネットワークを用いて,パラメータ空間と(相対空間)ウェイクフロー場のマッピングを学習する。 さらに,確率論的機械学習手法,すなわちガウス過程モデリングを用いてパラメータ空間-ラテント空間マッピングを学習し,そのデータにエピステマ性やアレタリックな不確実性があることを示す。 最後に,大規模データセットのトレーニングに対処すべく,従来のガウス処理モデルの代替手段を提供する変分ガウス処理モデルの利用を実証する。 さらに,従来のガウス過程モデル予測能力を適応的に構築し,改良するために,能動的学習を導入する。 全体として,本手法は,高忠実度物理シミュレーションで生成したものよりも安価で高精度にクエリできる風速流場の正確な近似を提供する。

Wind farm design primarily depends on the variability of the wind turbine wake flows to the atmospheric wind conditions, and the interaction between wakes. Physics-based models that capture the wake flow-field with high-fidelity are computationally very expensive to perform layout optimization of wind farms, and, thus, data-driven reduced order models can represent an efficient alternative for simulating wind farms. In this work, we use real-world light detection and ranging (LiDAR) measurements of wind-turbine wakes to construct predictive surrogate models using machine learning. Specifically, we first demonstrate the use of deep autoencoders to find a low-dimensional \emph{latent} space that gives a computationally tractable approximation of the wake LiDAR measurements. Then, we learn the mapping between the parameter space and the (latent space) wake flow-fields using a deep neural network. Additionally, we also demonstrate the use of a probabilistic machine learning technique, namely, Gaussian process modeling, to learn the parameter-space-late nt-space mapping in addition to the epistemic and aleatoric uncertainty in the data. Finally, to cope with training large datasets, we demonstrate the use of variational Gaussian process models that provide a tractable alternative to the conventional Gaussian process models for large datasets. Furthermore, we introduce the use of active learning to adaptively build and improve a conventional Gaussian process model predictive capability. Overall, we find that our approach provides accurate approximations of the wind-turbine wake flow field that can be queried at an orders-of-magnitude cheaper cost than those generated with high-fidelity physics-based simulations.
翻訳日:2021-09-07 20:18:48 公開日:2021-09-06
# (参考訳) 処理後ステップとしての敵対的トレーニングによるロバストネスの自動化 [全文訳有]

Automated Robustness with Adversarial Training as a Post-Processing Step ( http://arxiv.org/abs/2109.02532v1 )

ライセンス: CC BY 4.0
Ambrish Rawat, Mathieu Sinn, Beat Buesser(参考訳) 敵対的トレーニングは計算コストの高いタスクであり、基準として頑健なニューラルネットワークアーキテクチャを探索することは困難である。 本研究は,実践的自動化に向けたステップとして,堅牢なディープラーニングモデルを実現するための単純なポストプロセッシングステップの有効性を検討する。 これを実現するために、ニューラルネットワーク探索アルゴリズムから得られる最適化ネットワークアーキテクチャの処理後ステップとして、逆トレーニングを採用する。 異なるステップのハイパーパラメータをチューニングするために、特定のポリシが採用されているため、対向的に堅牢なディープラーニングモデルを生成するための、完全に自動化されたパイプラインが実現される。 提案するパイプラインの有用性を実証し,11の画像分類と9のテキスト分類タスクにわたる広範な実験を行った。

Adversarial training is a computationally expensive task and hence searching for neural network architectures with robustness as the criterion can be challenging. As a step towards practical automation, this work explores the efficacy of a simple post processing step in yielding robust deep learning model. To achieve this, we adopt adversarial training as a post-processing step for optimised network architectures obtained from a neural architecture search algorithm. Specific policies are adopted for tuning the hyperparameters of the different steps, resulting in a fully automated pipeline for generating adversarially robust deep learning models. We evidence the usefulness of the proposed pipeline with extensive experimentation across 11 image classification and 9 text classification tasks.
翻訳日:2021-09-07 20:00:43 公開日:2021-09-06
# (参考訳) エッシャーの印刷ギャラリーに描かれた絵画のイメージ [全文訳有]

Image In painting Applied to Art Completing Escher's Print Gallery ( http://arxiv.org/abs/2109.02536v1 )

ライセンス: CC BY 4.0
Lucia Cipolina-Kun, Simone Caenazzo, Gaston Mazzei, Aditya Srinivas Menon(参考訳) この拡張抽象概念は、芸術再建に適したインペイントの研究の第1段階を提示する。 ユースケースとしてM.C Eschers Print Galleryリソグラフィを紹介する。 このアートワークは、その中心に空白を呈し、さらに、塗装法で保存する必要がある挑戦的な数学的構造に従う。 我々はこれまでに研究成果と今後の研究成果を提示する。

This extended abstract presents the first stages of a research on in-painting suited for art reconstruction. We introduce M.C Eschers Print Gallery lithography as a use case example. This artwork presents a void on its center and additionally, it follows a challenging mathematical structure that needs to be preserved by the in-painting method. We present our work so far and our future line of research.
翻訳日:2021-09-07 19:53:45 公開日:2021-09-06
# (参考訳) フェデレートGANを用いた合成電子健康記録の作成 [全文訳有]

Generation of Synthetic Electronic Health Records Using a Federated GAN ( http://arxiv.org/abs/2109.02543v1 )

ライセンス: CC BY 4.0
John Weldon, Tomas Ward, Eoin Brophy(参考訳) 敏感な医療データは、しばしば厳格な使用制限を受ける。 本稿では,現実の電子健康記録(EHR)に基づいてGAN(Generative Adversarial Network)を訓練した。 その後、使用制限を回避するために合成データ生成(SDG)を通じて「フェイク」患者のデータセットを作成するために使用された。 この実世界のデータは、表型、バイナリ、集中治療ユニット(ICU)の患者診断データであった。 データセット全体を別々のデータサイロに分割して、異なる病院にまたがる複数のICUユニットが、組織内でも同様に構造化されたデータセットを持つが、互いにデータセットにアクセスできない、現実のシナリオを模倣した。 私たちは、各組織で独自のデータサイロを使用して、各組織で個別のGANをトレーニングし、単一の中心的なGANにGANを結合するために、FL(Federated Learning)を実装しました。 このグローバルな中心的なGANは、合成患者のデータセットを生成するために使用される。 統計学的尺度を用いてこれらの合成患者の評価を行い, 医療専門家グループによる構造化レビューを行った。 その結果,1つの中心モデルのトレーニングと,個別のモデルと個別のデータサイロのトレーニングの間を移動し,それらを中心モデルに組み合わせた場合,合成EHRの品質は著しく低下しないことがわかった。 これは、統計学的評価(単一ソースで0.0154、二重ソースで0.0169、RMSEで0.0154)と、医療専門家による評価(単一ソースで生成されたEHRと複数のソースで生成されたEHRとの品質差はない)の両方に当てはまる。

Sensitive medical data is often subject to strict usage constraints. In this paper, we trained a generative adversarial network (GAN) on real-world electronic health records (EHR). It was then used to create a data-set of "fake" patients through synthetic data generation (SDG) to circumvent usage constraints. This real-world data was tabular, binary, intensive care unit (ICU) patient diagnosis data. The entire data-set was split into separate data silos to mimic real-world scenarios where multiple ICU units across different hospitals may have similarly structured data-sets within their own organisations but do not have access to each other's data-sets. We implemented federated learning (FL) to train separate GANs locally at each organisation, using their unique data silo and then combining the GANs into a single central GAN, without any siloed data ever being exposed. This global, central GAN was then used to generate the synthetic patients data-set. We performed an evaluation of these synthetic patients with statistical measures and through a structured review by a group of medical professionals. It was shown that there was no significant reduction in the quality of the synthetic EHR when we moved between training a single central model and training on separate data silos with individual models before combining them into a central model. This was true for both the statistical evaluation (Root Mean Square Error (RMSE) of 0.0154 for single-source vs. RMSE of 0.0169 for dual-source federated) and also for the medical professionals' evaluation (no quality difference between EHR generated from a single source and EHR generated from multiple sources).
翻訳日:2021-09-07 19:48:33 公開日:2021-09-06
# (参考訳) 限界可能性の過大評価で言語モデルを評価するべきだ [全文訳有]

You should evaluate your language model on marginal likelihood overtokenisations ( http://arxiv.org/abs/2109.02550v1 )

ライセンス: CC BY 4.0
Kris Cao and Laura Rimell(参考訳) ニューラルネットワークモデルは通常、入力テキストをサブワード単位にトークン化し、オープンな語彙を達成する。 標準的なアプローチは、列車とテストの両方で単一の標準トークンを使用することである。 このアプローチは不満足であり,言語モデルの性能評価のボトルネックとなる可能性がある。 唯一のベストトークン化だけを使用することで、代替トークン化に対するトークンの不確実性を無視する。 本稿では,言語モデルがトークン化よりも限界的な可能性に基づいて評価されるべきである,と論じる。 サンプルの残差確率を比較検討した結果, 限界確率を管理可能なサンプル数で推定することが可能であることが示唆された。 次に, 事前学習した英語とドイツ語のモデルについて, 最良知識と限界パープレキシティの両方で評価し, 特にドメイン外データにおいて, 限界パープレキシティが最良であることを示す。 この差分をトークンサエントロピーによって測定されたトークンサの不確実性と関連付ける。 本稿では,言語モデルの学習と評価,特にトークン化の堅牢性に関する結果の意義について考察する。

Neural language models typically tokenise input text into sub-word units to achieve an open vocabulary. The standard approach is to use a single canonical tokenisation at both train and test time. We suggest that this approach is unsatisfactory and may bottleneck our evaluation of language model performance. Using only the one-best tokenisation ignores tokeniser uncertainty over alternative tokenisations, which may hurt model out-of-domain performance. In this paper, we argue that instead, language models should be evaluated on their marginal likelihood over tokenisations. We compare different estimators for the marginal likelihood based on sampling, and show that it is feasible to estimate the marginal likelihood with a manageable number of samples. We then evaluate pretrained English and German language models on both the one-best-tokenisatio n and marginal perplexities, and show that the marginal perplexity can be significantly better than the one best, especially on out-of-domain data. We link this difference in perplexity to the tokeniser uncertainty as measured by tokeniser entropy. We discuss some implications of our results for language model training and evaluation, particularly with regard to tokenisation robustness.
翻訳日:2021-09-07 19:39:58 公開日:2021-09-06
# (参考訳) ヘテロセダスティック・ミス特定処理自由効果モデルのための最適個別化処理規則の効率的な学習

Efficient Learning of Optimal Individualized Treatment Rules for Heteroscedastic or Misspecified Treatment-Free Effect Models ( http://arxiv.org/abs/2109.02570v1 )

ライセンス: CC BY-SA 4.0
Weibin Mo and Yufeng Liu(参考訳) データ駆動型意思決定科学の最近の発展は、個別化意思決定において大きな進歩を見せている。 個々の共変量、治療課題、結果のデータを与えられた研究者は、期待される結果を最大化する最適な個別化治療規則(ITR)を探索することができる。 既存の手法は通常、いくつかのニュアサンスモデルの初期推定を必要とする。 治療自由効果または適合度スコアの誤特定から保護できる二重頑健性特性が広く提唱されている。 しかし、モデル誤特定が存在する場合、二重ロバストな推定は一貫性があるが、劣化した効率に苦しむ可能性がある。 潜在的な不特定のニュアサンスモデルを除いて、既存の手法の多くは、結果のばらつきが共変量と処理の間で異質である場合の潜在的な問題を考慮しない。 このような不均一性は最適ITRの推定効率に大きな影響を与える。 本稿では,非特異な処理効果と不均一性の結果を共変量依存的残基の分散として統一できることを実証する。 推定ITRの効率を向上させるために,マルチアーム処理環境における最適ITRを見つけるための効率的な学習(Eラーニング)フレームワークを提案する。 提案したE-Learningは,非治療効果の誤特定を許容する半パラメトリック推定の正規クラスの中で最適であることを示す。 シミュレーション研究により,不特定な治療フリー効果と異種性が存在する場合,その効果が実証された。 また,T2DM(Type 2 Diabetes Mellitus)の観察結果から,E-Learningの有効性が示唆された。

Recent development in data-driven decision science has seen great advances in individualized decision making. Given data with individual covariates, treatment assignments and outcomes, researchers can search for the optimal individualized treatment rule (ITR) that maximizes the expected outcome. Existing methods typically require initial estimation of some nuisance models. The double robustness property that can protect from misspecification of either the treatment-free effect or the propensity score has been widely advocated. However, when model misspecification exists, a doubly robust estimate can be consistent but may suffer from downgraded efficiency. Other than potential misspecified nuisance models, most existing methods do not account for the potential problem when the variance of outcome is heterogeneous among covariates and treatment. We observe that such heteroscedasticity can greatly affect the estimation efficiency of the optimal ITR. In this paper, we demonstrate that the consequences of misspecified treatment-free effect and heteroscedasticity can be unified as a covariate-treatment dependent variance of residuals. To improve efficiency of the estimated ITR, we propose an Efficient Learning (E-Learning) framework for finding an optimal ITR in the multi-armed treatment setting. We show that the proposed E-Learning is optimal among a regular class of semiparametric estimates that can allow treatment-free effect misspecification. In our simulation study, E-Learning demonstrates its effectiveness if one of or both misspecified treatment-free effect and heteroscedasticity exist. Our analysis of a Type 2 Diabetes Mellitus (T2DM) observational study also suggests the improved efficiency of E-Learning.
翻訳日:2021-09-07 19:24:35 公開日:2021-09-06
# (参考訳) 文脈から局所へ:局所性を考慮した文脈相関による超高分解能画像分割 [全文訳有]

From Contexts to Locality: Ultra-high Resolution Image Segmentation via Locality-aware Contextual Correlation ( http://arxiv.org/abs/2109.02580v1 )

ライセンス: CC BY 4.0
Qi Li, Weixiang Yang, Wenxi Liu, Yuanlong Yu, Shengfeng He(参考訳) 超高解像度画像セグメンテーションは、その現実的な応用により近年、関心が高まっている。 本稿では,超高分解能画像を局所分割のための正規パッチに分割し,局所結果を高分解能セマンティックマスクにマージする,広範に使用される高分解能画像セグメンテーションパイプラインを革新する。 特に,局所パッチとその様々なコンテキスト間の関連性を協調的に利用し,大きなバリエーションを持つ意味領域を処理し,局所パッチを処理するための新しい局所性認識コンテキスト相関に基づくセグメンテーションモデルを提案する。 さらに,局所的なセグメンテーション結果とその文脈的セマンティクスを関連付ける文脈的セマンティクス改善ネットワークを提案する。 さらに,包括的実験により,本モデルが公開ベンチマークにおいて他の最先端手法よりも優れていることを示す。 リリースされたコードはhttps://github.com/l iqiokkk/fctlで利用可能です。

Ultra-high resolution image segmentation has raised increasing interests in recent years due to its realistic applications. In this paper, we innovate the widely used high-resolution image segmentation pipeline, in which an ultra-high resolution image is partitioned into regular patches for local segmentation and then the local results are merged into a high-resolution semantic mask. In particular, we introduce a novel locality-aware contextual correlation based segmentation model to process local patches, where the relevance between local patch and its various contexts are jointly and complementarily utilized to handle the semantic regions with large variations. Additionally, we present a contextual semantics refinement network that associates the local segmentation result with its contextual semantics, and thus is endowed with the ability of reducing boundary artifacts and refining mask contours during the generation of final high-resolution mask. Furthermore, in comprehensive experiments, we demonstrate that our model outperforms other state-of-the-art methods in public benchmarks. Our released codes are available at https://github.com/l iqiokkk/FCtL.
翻訳日:2021-09-07 19:22:52 公開日:2021-09-06
# (参考訳) macawを用いた汎用質問応答 [全文訳有]

General-Purpose Question-Answering with Macaw ( http://arxiv.org/abs/2109.02593v1 )

ライセンス: CC BY 4.0
Oyvind Tafjord and Peter Clark(参考訳) 事前訓練された言語モデルの成功にもかかわらず、高品質で汎用的なQAシステムはまだ少ない。 これに応えて、我々はコミュニティに提供しようとしている多種多様なQAシステムであるMacawを紹介した。 macawはunifiedqa上に構築されており、それ自体はt5上に構築されており、gpt-3を10パーセント以上(絶対的)に上回り、300のチャレンジ質問のスイートであるchallenge300では、桁違いに小さいにもかかわらず(100億と175億のパラメータ)、幅広いトピックにおいて、ゼロショットという強力なパフォーマンスを示している。 さらに、マッコーは入力と出力の異なる置換(アングル)を許可し、例えば、マコーは質問をし、答えを出し、答えを出し、質問を出し、答えと質問を出し、複数の選択肢を生成することができる。 システムを記述し、トレーニング設定外において驚くほど優れた回答を得られる様々な質問タイプについて説明する。 また、まだ苦労しているように見える質問クラスを特定し、事前訓練された言語モデルの制限に関する洞察を提供する。 Macawは無償で利用可能であり、コミュニティにとって有益であることが証明できればと思っています。 Macawはhttps://github.com/a llenai/macawで入手できる。

Despite the successes of pretrained language models, there are still few high-quality, general-purpose QA systems that are freely available. In response, we present Macaw, a versatile, generative question-answering (QA) system that we are making available to the community. Macaw is built on UnifiedQA, itself built on T5, and exhibits strong performance, zero-shot, on a wide variety of topics, including outperforming GPT-3 by over 10% (absolute) on Challenge300, a suite of 300 challenge questions, despite being an order of magnitude smaller (11 billion vs. 175 billion parameters). In addition, Macaw allows different permutations ("angles") of its inputs and outputs to be used, for example Macaw can take a question and produce an answer; or take an answer and produce a question; or take an answer and question, and produce multiple-choice options. We describe the system, and illustrate a variety of question types where it produces surprisingly good answers, well outside the training setup. We also identify question classes where it still appears to struggle, offering insights into the limitations of pretrained language models. Macaw is freely available, and we hope that it proves useful to the community. Macaw is available at https://github.com/a llenai/macaw
翻訳日:2021-09-07 19:09:27 公開日:2021-09-06
# (参考訳) 平面曲線の形状および形状多様体上の汎関数加法的回帰 [全文訳有]

Functional additive regression on shape and form manifolds of planar curves ( http://arxiv.org/abs/2109.02624v1 )

ライセンス: CC BY 4.0
Almond St\"ocker, Sonja Greven(参考訳) 変換、回転、および -- 形状の同値類として形状と形状を定義することもスケールし、平面曲線やランドマーク構成の形状や形状のモデルに一般化加法回帰を拡張する。 モデルは応答の商幾何学を尊重し、二乗測地距離を損失関数とし、加法予測器を形状/形状空間にマッピングする測地応答関数を用いる。 このモデルに適合させるために, パラメータ集約型モデル項が多種多種多様であり, 自動モデル選択にも適するRiemannian $L_2$-Boostingアルゴリズムを提案する。 適切なテンソルに基づく因子分解による形状・形状空間における(非線形な)共変量効果に対する、直感的に解釈可能な新しい可視化を提供する。 提案手法の有用性は,1)野生および家畜のヒツジのアストラガラス形状,2)生物物理モデルで生成した細胞形態,および3)ペットボトルアウトラインのデータセットから動機付けられた応答形状と形状を用いた現実的なシミュレーション研究において示される。

Defining shape and form as equivalence classes under translation, rotation and -- for shapes -- also scale, we extend generalized additive regression to models for the shape/form of planar curves or landmark configurations. The model respects the resulting quotient geometry of the response, employing the squared geodesic distance as loss function and a geodesic response function mapping the additive predictor to the shape/form space. For fitting the model, we propose a Riemannian $L_2$-Boosting algorithm well-suited for a potentially large number of possibly parameter-intensive model terms, which also yiels automated model selection. We provide novel intuitively interpretable visualizations for (even non-linear) covariate effects in the shape/form space via suitable tensor based factorizations. The usefulness of the proposed framework is illustrated in an analysis of 1) astragalus shapes of wild and domesticated sheep and 2) cell forms generated in a biophysical model, as well as 3) in a realistic simulation study with response shapes and forms motivated from a dataset on bottle outlines.
翻訳日:2021-09-07 18:52:56 公開日:2021-09-06
# (参考訳) 強化学習によるグローバルプレースメントの指導 [全文訳有]

Guiding Global Placement With Reinforcement Learning ( http://arxiv.org/abs/2109.02631v1 )

ライセンス: CC BY 4.0
Robert Kirby, Kolby Nottingham, Rajarshi Roy, Saad Godil, Bryan Catanzaro(参考訳) gpuアクセラレーショングローバルおよびディテール配置の最近の進歩により、ソリューションに要する時間が1桁削減されている。 この進歩により、配置結果の最終品質を改善するために、データ駆動最適化(強化学習など)を活用することができます。 本研究では,半周線長 (hpwl) の細部を改良した強化学習エージェントを用いて,最新の力ずくで力ずくのグローバル配置ソルバを補強する。 配置プロセスのグローバルあるいはローカライズされた制御を行う新しい制御方式を提案する。 次に、強化学習エージェントをトレーニングして、これらのコントロールを使用して、配置を改良したソリューションに導く。 どちらの場合も、拡張オプティマイザは配置ソリューションを改善する。 トレーニングされたエージェントは、さまざまな学術ベンチマークでHPWLを平均1%改善し、実業界設計ではHPWLを1%以上利用しています。

Recent advances in GPU accelerated global and detail placement have reduced the time to solution by an order of magnitude. This advancement allows us to leverage data driven optimization (such as Reinforcement Learning) in an effort to improve the final quality of placement results. In this work we augment state-of-the-art, force-based global placement solvers with a reinforcement learning agent trained to improve the final detail placed Half Perimeter Wire Length (HPWL). We propose novel control schemes with either global or localized control of the placement process. We then train reinforcement learning agents to use these controls to guide placement to improved solutions. In both cases, the augmented optimizer finds improved placement solutions. Our trained agents achieve an average 1% improvement in final detail place HPWL across a range of academic benchmarks and more than 1% in global place HPWL on real industry designs.
翻訳日:2021-09-07 18:11:44 公開日:2021-09-06
# (参考訳) Scikit-dimension: 固有次元推定のためのPythonパッケージ [全文訳有]

Scikit-dimension: a Python package for intrinsic dimension estimation ( http://arxiv.org/abs/2109.02596v1 )

ライセンス: CC BY 4.0
Jonathan Bac, Evgeny M. Mirkes, Alexander N. Gorban, Ivan Tyukin and Andrei Zinovyev(参考訳) 機械学習の実際のデータへの適用における不確実性への対処は、本質的な次元性(ID)の知識に依存する。 IDを推定するためにいくつかのメソッドが提案されているが、それらを1つずつ簡単に適用するための標準パッケージはPythonで実装されていない。 この技術ノートは、内在的な次元推定のためのオープンソースのpythonパッケージである \texttt{scikit-dimension} を紹介している。 \texttt{scikit-dimension} パッケージは、Scikit-learn アプリケーションプログラミングインタフェースに基づく既知の ID 推定器の大部分を均一に実装し、グローバルおよびローカル固有の次元を評価する。 このパッケージは、コード品質、カバレッジ、ユニットテスト、継続的インテグレーションを評価するツールで開発されている。 パッケージを簡潔に記述し、実生活と合成データにおけるID推定手法の大規模(500以上のデータセット)ベンチマークで使用を実証する。 ソースコードはhttps://github.com/j -bac/scikit-dimensio n から入手できる。

Dealing with uncertainty in applications of machine learning to real-life data critically depends on the knowledge of intrinsic dimensionality (ID). A number of methods have been suggested for the purpose of estimating ID, but no standard package to easily apply them one by one or all at once has been implemented in Python. This technical note introduces \texttt{scikit-dimension}, an open-source Python package for intrinsic dimension estimation. \texttt{scikit-dimension} package provides a uniform implementation of most of the known ID estimators based on scikit-learn application programming interface to evaluate global and local intrinsic dimension, as well as generators of synthetic toy and benchmark datasets widespread in the literature. The package is developed with tools assessing the code quality, coverage, unit testing and continuous integration. We briefly describe the package and demonstrate its use in a large-scale (more than 500 datasets) benchmarking of methods for ID estimation in real-life and synthetic data. The source code is available from https://github.com/j -bac/scikit-dimensio n , the documentation is available from https://scikit-dimen sion.readthedocs.io .
翻訳日:2021-09-07 17:45:48 公開日:2021-09-06
# MRI分割品質推定のための非結合不確かさモデル

A Decoupled Uncertainty Model for MRI Segmentation Quality Estimation ( http://arxiv.org/abs/2109.02413v1 )

ライセンス: Link先を確認
Richard Shaw and Carole H. Sudre and Sebastien Ourselin and M. Jorge Cardoso and Hugh G. Pemberton(参考訳) セグメント化などの下流解析を成功させるためには,MR画像の品質管理(QC)が不可欠である。 現在、qcは主に視覚的および主観的に、かなりの時間と操作コストで実行される。 我々は,ヘテロシデスティックノイズモデルを用いてセグメンテーションの不確かさを推定する確率的ネットワークを用いて,タスク固有の品質の測定を行い,プロセスを自動化することを目的とする。 k-空間アーティファクトによる訓練画像の強化により、タスクと異なるk-空間アーティファクトに関連する不確かさの源を自己監督的に分離する新しいcnnアーキテクチャを提案する。 これにより、異なる種類のデータ劣化に対して別々の不確実性を予測することができる。 不確実性予測はアーティファクトの存在と重大さを反映するが、ネットワークはデータの品質からより堅牢で一般化可能なセグメンテーション予測を提供する。 人工物増補法により訓練されたモデルは, 擬似人工物と人間のレーダが同定した問題現実画像の両方に対して, 体積測定における誤差バーの形で定性的かつ定量的に不確実性を示す。 セグメンテーションDiceスコアと比較すると,我々の不確実性予測は,信号-ノイズ比 (SNR) やコントラスト-ノイズ比 (CNR) など,一般的に使用されている品質指標と比較して,タスク(グレーマターセグメンテーション)の観点からMRI品質の指標として優れていることが分かる。

Quality control (QC) of MR images is essential to ensure that downstream analyses such as segmentation can be performed successfully. Currently, QC is predominantly performed visually and subjectively, at significant time and operator cost. We aim to automate the process using a probabilistic network that estimates segmentation uncertainty through a heteroscedastic noise model, providing a measure of task-specific quality. By augmenting training images with k-space artefacts, we propose a novel CNN architecture to decouple sources of uncertainty related to the task and different k-space artefacts in a self-supervised manner. This enables the prediction of separate uncertainties for different types of data degradation. While the uncertainty predictions reflect the presence and severity of artefacts, the network provides more robust and generalisable segmentation predictions given the quality of the data. We show that models trained with artefact augmentation provide informative measures of uncertainty on both simulated artefacts and problematic real-world images identified by human raters, both qualitatively and quantitatively in the form of error bars on volume measurements. Relating artefact uncertainty to segmentation Dice scores, we observe that our uncertainty predictions provide a better estimate of MRI quality from the point of view of the task (gray matter segmentation) compared to commonly used metrics of quality including signal-to-noise ratio (SNR) and contrast-to-noise ratio (CNR), hence providing a real-time quality metric indicative of segmentation quality.
翻訳日:2021-09-07 17:31:40 公開日:2021-09-06
# 胸部x線によるcovid-19分類のための畳み込みニューラルネットワークの評価

Evaluation of Convolutional Neural Networks for COVID-19 Classification on Chest X-Rays ( http://arxiv.org/abs/2109.02415v1 )

ライセンス: Link先を確認
Felipe Andr\'e Zeiser, Cristiano Andr\'e da Costa, Gabriel de Oliveira Ramos, Henrique Bohn, Ismael Santos, Rodrigo da Rosa Righi(参考訳) 新型コロナウイルス(covid-19)の早期診断は、適切な治療を可能にし、医療システムの負担を軽減するために不可欠である。 新型コロナウイルス検出のゴールドスタンダードはRT-PCR検査である。 しかし、テストの需要が高いため、ブラジルの一部地域では数日から数週間かかることもある。 したがって、covid-19検出の代替として、デジタル胸部x線(xr)の分析がある。 新型コロナウイルスによる変化はXRや無症状患者でも検出できる。 この文脈では、ディープラーニングに基づくモデルは、診断支援システムやスクリーニングツールとして使われる可能性がある。 本稿では,XR における COVID-19 による肺炎の同定のための畳み込みニューラルネットワークの評価を提案する。 提案手法は、XRの前処理ステップ、データ拡張、および画像Netデータセットで事前訓練された畳み込みアーキテクチャDenseNet121、InceptionResNetV2、InceptionV3、MovileNetV2、ResNet50、VGG16による分類からなる。 得られた結果は,本論文で提案した手法を用いて評価指標の分類において,VGG16アーキテクチャが優れた性能を示した。 その結果,VGG16アーキテクチャは,85.11%の精度,85.25%の感度,85.16%の特異性,85.03%のF1スコア,0.9758のAUC,XRの分類において優れた性能を示した。

Early identification of patients with COVID-19 is essential to enable adequate treatment and to reduce the burden on the health system. The gold standard for COVID-19 detection is the use of RT-PCR tests. However, due to the high demand for tests, these can take days or even weeks in some regions of Brazil. Thus, an alternative for detecting COVID-19 is the analysis of Digital Chest X-rays (XR). Changes due to COVID-19 can be detected in XR, even in asymptomatic patients. In this context, models based on deep learning have great potential to be used as support systems for diagnosis or as screening tools. In this paper, we propose the evaluation of convolutional neural networks to identify pneumonia due to COVID-19 in XR. The proposed methodology consists of a preprocessing step of the XR, data augmentation, and classification by the convolutional architectures DenseNet121, InceptionResNetV2, InceptionV3, MovileNetV2, ResNet50, and VGG16 pre-trained with the ImageNet dataset. The obtained results demonstrate that the VGG16 architecture obtained superior performance in the classification of XR for the evaluation metrics using the methodology proposed in this article. The obtained results for our methodology demonstrate that the VGG16 architecture presented a superior performance in the classification of XR, with an Accuracy of 85.11%, Sensitivity of 85.25%, Specificity of $85.16%, F1-score of $85.03%, and an AUC of 0.9758.
翻訳日:2021-09-07 17:31:10 公開日:2021-09-06
# MONITOR: ソーシャルネットワークにおけるメッセージの正確性を評価するマルチモーダルフュージョンフレームワーク

MONITOR: A Multimodal Fusion Framework to Assess Message Veracity in Social Networks ( http://arxiv.org/abs/2109.02271v1 )

ライセンス: Link先を確認
Abderrazek Azri (ERIC), C\'ecile Favre (ERIC), Nouria Harbi (ERIC), J\'er\^ome Darmont (ERIC), Camille No\^us(参考訳) ソーシャルネットワークのユーザーは、コンテンツの投稿や共有をほとんど抑制しない傾向がある。 そのため、噂や偽ニュースが急速に広まる可能性がある。 これはソーシャルメディアの信頼性に脅威をもたらし、現実に深刻な影響をもたらす可能性がある。 そのため,噂の検出と検証が極めて重要になっている。 ソーシャルメディアメッセージ(例えばファクトチェッカーによる)の正確性を評価するには、メッセージのテキスト、そのコンテキスト、およびあらゆるマルチメディアアタッチメントを分析する必要がある。 これは非常に時間がかかるタスクで、機械学習によって大いに助けられます。 文献では、ほとんどのメッセージ検証手法は、テキストの内容とメタデータのみを利用する。 テキストコンテンツとビジュアルコンテンツ、特に画像の両方を考慮に入れているものはほとんどない。 本稿では,ソーシャルメディアの投稿のすべての要素を活用すれば,誤検出の精度が向上する,という仮説を次々に述べる。 そこで本研究では,まず,画像品質評価の分野に触発された一連の高度な画像特徴を用いて,うわさ検出に効果的に寄与する手法を提案する。 これらの指標は、gans(generative adversarial networks)のような高度な技術によって生成されたものであっても、偽画像の検出に適した指標である。 次に,テキスト,ソーシャルコンテキスト,画像特徴などのすべてのメッセージ特徴を教師付き機械学習によって活用する,ソーシャルneTworks(MONITOR)におけるメッセージの妥当性を評価するためのMultimodal fusiONフレームワークを導入する。 このようなアルゴリズムは, 疑わしい検証の文脈において特に重要であると考えられる意思決定において, 解釈可能性と説明可能性を提供する。 実験の結果,mediaevalベンチマークとfakenewsnetデータセットでは,モニタが96%,89%の精度で噂を検出できることがわかった。 これらの結果は、最先端の機械学習ベースラインよりも大幅に優れている。

Users of social networks tend to post and share content with little restraint. Hence, rumors and fake news can quickly spread on a huge scale. This may pose a threat to the credibility of social media and can cause serious consequences in real life. Therefore, the task of rumor detection and verification has become extremely important. Assessing the veracity of a social media message (e.g., by fact checkers) involves analyzing the text of the message, its context and any multimedia attachment. This is a very time-consuming task that can be much helped by machine learning. In the literature, most message veracity verification methods only exploit textual contents and metadata. Very few take both textual and visual contents, and more particularly images, into account. In this paper, we second the hypothesis that exploiting all of the components of a social media post enhances the accuracy of veracity detection. To further the state of the art, we first propose using a set of advanced image features that are inspired from the field of image quality assessment, which effectively contributes to rumor detection. These metrics are good indicators for the detection of fake images, even for those generated by advanced techniques like generative adversarial networks (GANs). Then, we introduce the Multimodal fusiON framework to assess message veracIty in social neTwORks (MONITOR), which exploits all message features (i.e., text, social context, and image features) by supervised machine learning. Such algorithms provide interpretability and explainability in the decisions taken, which we believe is particularly important in the context of rumor verification. Experimental results show that MONITOR can detect rumors with an accuracy of 96% and 89% on the MediaEval benchmark and the FakeNewsNet dataset, respectively. These results are significantly better than those of state-of-the-art machine learning baselines.
翻訳日:2021-09-07 17:30:47 公開日:2021-09-06
# 大規模MIMOシステムにおけるダウンリンクチャネル推定の学習

Learning to Perform Downlink Channel Estimation in Massive MIMO Systems ( http://arxiv.org/abs/2109.02463v1 )

ライセンス: Link先を確認
Amin Ghazanfari, Trinh Van Chien, Emil Bj\"ornson, Erik G. Larsson(参考訳) 時間分割デュプレックスで動作するマルチセルMassive Multi-Input Multi-output (MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。 受信したDLデータ信号を復号するために、ユーザは効果的なチャネルゲインを知る必要がある。 チャネル硬化を動機とする推定値として平均値を用いるのが一般的な手法であるが、これは非等方散乱環境におけるかなりの性能損失と関連している。 我々は2つの新しい推定手法を提案する。 第1の方法はモデル支援であり、コヒーレンスブロック中の有効チャネル利得と平均受信電力との接続を識別するために漸近的引数を利用する。 2つ目は、ニューラルネットワークを使って利用可能な情報と効果的なチャネルゲインの間のマッピングを識別するディープラーニングベースのアプローチである。 提案手法を,正規化平均二乗誤差とスペクトル効率(SE)の観点から比較した。 提案手法は,学習に基づく解が最適であるとともに,大幅な改善をもたらす。

We study downlink (DL) channel estimation in a multi-cell Massive multiple-input multiple-output (MIMO) system operating in a time-division duplex. The users must know their effective channel gains to decode their received DL data signals. A common approach is to use the mean value as the estimate, motivated by channel hardening, but this is associated with a substantial performance loss in non-isotropic scattering environments. We propose two novel estimation methods. The first method is model-aided and utilizes asymptotic arguments to identify a connection between the effective channel gain and the average received power during a coherence block. The second one is a deep-learning-based approach that uses a neural network to identify a mapping between the available information and the effective channel gain. We compare the proposed methods against other benchmarks in terms of normalized mean-squared error and spectral efficiency (SE). The proposed methods provide substantial improvements, with the learning-based solution being the best of the considered estimators.
翻訳日:2021-09-07 17:30:21 公開日:2021-09-06
# クラウドとエッジ間のAPIテストに向けて

Towards API Testing Across Cloud and Edge ( http://arxiv.org/abs/2109.02540v1 )

ライセンス: Link先を確認
Samuel Ackerman, Sanjib Choudhury, Nirmit Desai, Eitan Farchi, Dan Gisolfi, Andrew Hicks, Saritha Route, Diptikalyan Saha(参考訳) APIエコノミーは、ハイブリッドクラウドとエッジ環境におけるビジネスアプリケーションのデジタルトランスフォーメーションを推進している。 このような変換が成功するためには、アプリケーションAPI構成のエンドツーエンドテストが必要である。 中央集権的なクラウド環境でさえ、APIコンポジションのテストは、機能や信頼性要件のカバレッジを必要とするため、難しい。 シナリオの組合せ空間は、例えば、API入力パラメータ、API実行の順序、ネットワーク障害など、巨大である。 ハイブリッドクラウドとエッジ環境は、動的広域ネットワーク、おそらくネットワーク境界を越えたテスト実行を調整する必要があるため、APIテストの課題をさらに悪化させる。 この課題に対処するため、Distributed Software Test Kit(DSTK)というテストフレームワークを構想しています。 dstkはコンビネートアルテスト設計(ctd)を活用して機能要件をカバーし、テスト実行フィードバックとaiベースの検索アルゴリズム間のクローズドループを通じて、信頼性要件を自動的にカバーする。 クローズドループの各イテレーションにおいて、検索アルゴリズムは次に実行されるより信頼性の高いテストシナリオを生成する。 具体的には、APIのアウトオブオーダー実行、ネットワーク遅延と障害、APIパフォーマンスとスループット、APIコールグラフパターンの変更、アプリケーショントポロジの変更の5つの信頼性テストが想定されている。

API economy is driving the digital transformation of business applications across the hybrid Cloud and edge environments. For such transformations to succeed, end-to-end testing of the application API composition is required. Testing of API compositions, even in centralized Cloud environments, is challenging as it requires coverage of functional as well as reliability requirements. The combinatorial space of scenarios is huge, e.g., API input parameters, order of API execution, and network faults. Hybrid Cloud and edge environments exacerbate the challenge of API testing due to the need to coordinate test execution across dynamic wide-area networks, possibly across network boundaries. To handle this challenge, we envision a test framework named Distributed Software Test Kit (DSTK). The DSTK leverages Combinatorial Test Design (CTD) to cover the functional requirements and then automatically covers the reliability requirements via under-the-hood closed loop between test execution feedback and AI based search algorithms. In each iteration of the closed loop, the search algorithms generate more reliability test scenarios to be executed next. Specifically, five kinds of reliability tests are envisioned: out-of-order execution of APIs, network delays and faults, API performance and throughput, changes in API call graph patterns, and changes in application topology.
翻訳日:2021-09-07 17:30:06 公開日:2021-09-06
# 深い回帰に対するバックドア攻撃と防御

Backdoor Attack and Defense for Deep Regression ( http://arxiv.org/abs/2109.02381v1 )

ライセンス: Link先を確認
Xi Li and George Kesidis and David J. Miller and Vladimir Lucic(参考訳) 回帰に使用されるディープニューラルネットワークに対するバックドア攻撃を示す。 バックドア攻撃はトレーニングセットのデータ中毒に基づいてローカライズされる。 このようなローカライゼーションが攻撃の成功にいかに必要かを示す。 また,局所誤差最大化器の勾配に基づく発見によるバックドアディフェンスの性能評価を行った。 重要な(補間)エラーと関連し、多くのトレーニングサンプルに近縁な局所的エラー最大化器は疑わしい。 この方法は、サンプルに実価値の監督(回帰対象)を提供できる"oracle"を活用したアクティブな(深い)学習によって、そもそも深い回帰を正確にトレーニングするためにも用いられる。 有限差分やモンテカルロ近似を用いたPDEやSDEの伝統的な数値解法を含むようなオラクルは、深い回帰よりもはるかに計算に費用がかかる。

We demonstrate a backdoor attack on a deep neural network used for regression. The backdoor attack is localized based on training-set data poisoning wherein the mislabeled samples are surrounded by correctly labeled ones. We demonstrate how such localization is necessary for attack success. We also study the performance of a backdoor defense using gradient-based discovery of local error maximizers. Local error maximizers which are associated with significant (interpolation) error, and are proximal to many training samples, are suspicious. This method is also used to accurately train for deep regression in the first place by active (deep) learning leveraging an "oracle" capable of providing real-valued supervision (a regression target) for samples. Such oracles, including traditional numerical solvers of PDEs or SDEs using finite difference or Monte Carlo approximations, are far more computationally costly compared to deep regression.
翻訳日:2021-09-07 17:26:51 公開日:2021-09-06
# 非iidデータの信頼性評価によるビザンチンロバストフェデレート学習

Byzantine-Robust Federated Learning via Credibility Assessment on Non-IID Data ( http://arxiv.org/abs/2109.02396v1 )

ライセンス: Link先を確認
Kun Zhai and Qiang Ren and Junli Wang and Chungang Yan(参考訳) フェデレーション学習(federated learning)は、リソース制約のあるエッジデバイスが共同でモデルを学ぶことを可能にする、新しいフレームワークである。 しかし、標準的な連合学習はビザンツ攻撃に弱いため、グローバルモデルが攻撃者によって操作されるか、収束に失敗する。 非iidデータでは、現在の手法はビザンチン攻撃に対する防御には有効ではない。 本稿では,非IDデータ(BRCA)の信頼性評価を通じて,連携学習のためのビザンチン・ロバストフレームワークを提案する。 適応的異常検出モデルとデータ検証を組み合わせることで、ビザンチン攻撃を検出するように設計されている。 特に、モデルのトレーニングと予測のための異常検出モデルに適応的なメカニズムが組み込まれている。 同時に、グローバルモデルが一貫した方向を持つことを保証するために統一更新アルゴリズムが与えられる。 非イドデータでは、BRCAは従来の方法に比べてビザンチン攻撃に対して堅牢であることを示した。

Federated learning is a novel framework that enables resource-constrained edge devices to jointly learn a model, which solves the problem of data protection and data islands. However, standard federated learning is vulnerable to Byzantine attacks, which will cause the global model to be manipulated by the attacker or fail to converge. On non-iid data, the current methods are not effective in defensing against Byzantine attacks. In this paper, we propose a Byzantine-robust framework for federated learning via credibility assessment on non-iid data (BRCA). Credibility assessment is designed to detect Byzantine attacks by combing adaptive anomaly detection model and data verification. Specially, an adaptive mechanism is incorporated into the anomaly detection model for the training and prediction of the model. Simultaneously, a unified update algorithm is given to guarantee that the global model has a consistent direction. On non-iid data, our experiments demonstrate that the BRCA is more robust to Byzantine attacks compared with conventional methods
翻訳日:2021-09-07 17:26:36 公開日:2021-09-06
# 深部生成モデルを用いた量子光学実験における絡み合いの学習解釈表現

Learning Interpretable Representations of Entanglement in Quantum Optics Experiments using Deep Generative Models ( http://arxiv.org/abs/2109.02490v1 )

ライセンス: Link先を確認
Daniel Flam-Shepherd, Tony Wu, Xuemei Gu, Alba Cervera-Lierta, Mario Krenn and Alan Aspuru-Guzik(参考訳) 量子物理学の実験は、多くの未来の量子技術のコア特性である干渉や絡み合いのような興味深い現象を生み出す。 量子実験の構造と絡み合いの性質の複雑な関係は、量子光学の基礎研究には不可欠であるが、直感的に理解することは難しい。 本稿では,量子光学実験の最初の深層生成モデルとして,変分オートエンコーダ(qovae)を実験セットアップのデータセットで学習する。 一連の計算実験において,量子光学界におけるqovaeの学習表現とその内部理解について検討した。 量子光学実験の予測不能な表現と実験構造と絡み合いの関係をqovaeが学習できることを実証する。 実験結果から,qovaeはトレーニングデータに適合する特定の分布を持つ高エンタングル量子状態に対して新たな実験を生成できることを示した。 重要なことに、qovaeが潜在空間をどのように構成しているかを完全に解釈することができ、量子物理学の観点から完全に説明できる興味深いパターンを見つけることができる。 その結果、複雑な科学的領域における深層生成モデルの内部表現をうまく利用し、理解できることが示される。 QOVAEと我々の調査からの洞察は、基礎科学研究を通じて、他の物理システムにも即座に適用できます。

Quantum physics experiments produce interesting phenomena such as interference or entanglement, which is a core property of numerous future quantum technologies. The complex relationship between a quantum experiment's structure and its entanglement properties is essential to fundamental research in quantum optics but is difficult to intuitively understand. We present the first deep generative model of quantum optics experiments where a variational autoencoder (QOVAE) is trained on a dataset of experimental setups. In a series of computational experiments, we investigate the learned representation of the QOVAE and its internal understanding of the quantum optics world. We demonstrate that the QOVAE learns an intrepretable representation of quantum optics experiments and the relationship between experiment structure and entanglement. We show the QOVAE is able to generate novel experiments for highly entangled quantum states with specific distributions that match its training data. Importantly, we are able to fully interpret how the QOVAE structures its latent space, finding curious patterns that we can entirely explain in terms of quantum physics. The results demonstrate how we can successfully use and understand the internal representations of deep generative models in a complex scientific domain. The QOVAE and the insights from our investigations can be immediately applied to other physical systems throughout fundamental scientific research.
翻訳日:2021-09-07 17:26:21 公開日:2021-09-06
# 光コヒーレンス・トモグラフィにおける視神経頭部領域の自動分離法

Automatic Segmentation of the Optic Nerve Head Region in Optical Coherence Tomography: A Methodological Review ( http://arxiv.org/abs/2109.02322v1 )

ライセンス: Link先を確認
Rita Marques, Danilo Andrade De Jesus, Jo\~ao Barbosa Breda, Jan Van Eijgen, Ingeborg Stalmans, Theo van Walsum and Stefan Klein and Pedro G. Vaz and Luisa S\'anchez Brea(参考訳) 視神経頭は、眼圧によって損傷を受けやすい視神経(ONH)の眼内部分を表す。 光コヒーレンストモグラフィー(OCT)の出現により、新しい視神経頭部パラメーター、すなわちラミナ・クリブロサ(LC)の深さと曲率の評価が可能となった。 最小縁幅を開口するBruch膜とともに、緑内障などの網膜疾患の診断とモニタリングのために、視神経頭部パラメーターが期待できる。 それにもかかわらず、これらの光学コヒーレンストモグラフィー由来のバイオマーカーは、主に手動のセグメンテーションによって抽出される。 OCTスキャンにおける視神経頭の自動分画は、緑内障や他の疾患の現在の臨床管理をさらに改善させる可能性がある。 プブメドとスコプスが組織的レビューを行うために用いられた10月のonhの自動セグメント化の現状を概説する。 他のデータベース(IEEE、Google Scholar、ARVO IOVS)からの追加の作業も含まれており、合計27のレビュー研究が行われた。 各アルゴリズムについて,検証に使用するデータセットのサイズと種類,および各結果について慎重に分析した。 その結果, 深層学習に基づくアルゴリズムは, LCを含むONHの異なる構造を分割する上で, 高い精度, 感度, 特異性を提供することがわかった。 しかし, 分割領域の定義, 抽出パラメータ, 検証手法に関する合意の欠如が観察され, ONHセグメンテーションにおける標準化手法の重要性と必要性が強調されている。

The optic nerve head represents the intraocular section of the optic nerve (ONH), which is prone to damage by intraocular pressure. The advent of optical coherence tomography (OCT) has enabled the evaluation of novel optic nerve head parameters, namely the depth and curvature of the lamina cribrosa (LC). Together with the Bruch's membrane opening minimum-rim-width, these seem to be promising optic nerve head parameters for diagnosis and monitoring of retinal diseases such as glaucoma. Nonetheless, these optical coherence tomography derived biomarkers are mostly extracted through manual segmentation, which is time-consuming and prone to bias, thus limiting their usability in clinical practice. The automatic segmentation of optic nerve head in OCT scans could further improve the current clinical management of glaucoma and other diseases. This review summarizes the current state-of-the-art in automatic segmentation of the ONH in OCT. PubMed and Scopus were used to perform a systematic review. Additional works from other databases (IEEE, Google Scholar and ARVO IOVS) were also included, resulting in a total of 27 reviewed studies. For each algorithm, the methods, the size and type of dataset used for validation, and the respective results were carefully analyzed. The results show that deep learning-based algorithms provide the highest accuracy, sensitivity and specificity for segmenting the different structures of the ONH including the LC. However, a lack of consensus regarding the definition of segmented regions, extracted parameters and validation approaches has been observed, highlighting the importance and need of standardized methodologies for ONH segmentation.
翻訳日:2021-09-07 17:25:11 公開日:2021-09-06
# 右冠状動脈を標的とした心停止位相の自動検出

Automated Cardiac Resting Phase Detection Targeted on the Right Coronary Artery ( http://arxiv.org/abs/2109.02342v1 )

ライセンス: Link先を確認
Seung Su Yoon, Elisabeth Preuhs, Michaela Schmidt, Christoph Forman, Teodora Chitiboi, Puneet Sharma, Juliano Lara Fernandes, Christoph Tillmanns, Jens Wetzl, Andreas Maier(参考訳) 目的: 後期ガドリニウム造影, マッピング, 3次元冠動脈造影などの静的心臓イメージングには, 運動最小の心臓周期中の位相, 安静期(rp)などの事前情報が必要である。 本研究の目的は,cineシリーズ内で右冠状動脈(rca)rpを検出するための完全自動化フレームワークを提案することである。 方法: 提案するプロトタイプシステムは3つの主要なステップからなる。 まず、関心領域(ROI)の局所化を行う。 第二に、CINE系列は時間分解されるので、すべての時間点上の収穫ROI系列を定量的に追跡する。 第3に、出力動作値を用いてrpsを分類する。 本研究では,RCA断面の外縁部を対象とする領域の検出に焦点を当てた。 提案フレームワークは,1.5tおよび3tで臨床的に獲得したデータセット102で評価した。 自動的に分類されたRPは、フレームワークの堅牢性と実現可能性をテストするために、医療専門家によって手動で注釈付けされた真実のRPと比較された。 結果: 予測されたRCA RPは,92.7%の精度,90.5%の感度,95.0%の特異性で注釈付きRPと高い一致を示した。 開始と終了の平均絶対差は検証研究データセット (n=102) で13.6${\pm}$ 18.6msであった。 結論:本研究では,提案フレームワークによって自動RP検出を導入し,多様な静的画像取得の実現可能性,堅牢性,適用性を示した。

Purpose: Static cardiac imaging such as late gadolinium enhancement, mapping, or 3-D coronary angiography require prior information, e.g., the phase during a cardiac cycle with least motion, called resting phase (RP). The purpose of this work is to propose a fully automated framework that allows the detection of the right coronary artery (RCA) RP within CINE series. Methods: The proposed prototype system consists of three main steps. First, the localization of the regions of interest (ROI) is performed. Second, as CINE series are time-resolved, the cropped ROI series over all time points are taken for tracking motions quantitatively. Third, the output motion values are used to classify RPs. In this work, we focused on the detection of the area with the outer edge of the cross-section of the RCA as our target. The proposed framework was evaluated on 102 clinically acquired dataset at 1.5T and 3T. The automatically classified RPs were compared with the ground truth RPs annotated manually by a medical expert for testing the robustness and feasibility of the framework. Results: The predicted RCA RPs showed high agreement with the experts annotated RPs with 92.7% accuracy, 90.5% sensitivity and 95.0% specificity for the unseen study dataset. The mean absolute difference of the start and end RP was 13.6 ${\pm}$ 18.6 ms for the validation study dataset (n=102). Conclusion: In this work, automated RP detection has been introduced by the proposed framework and demonstrated feasibility, robustness, and applicability for diverse static imaging acquisitions.
翻訳日:2021-09-07 17:24:41 公開日:2021-09-06
# 新たな異常検出手法による外惑星のハビタビリティの仮定

Postulating Exoplanetary Habitability via a Novel Anomaly Detection Method ( http://arxiv.org/abs/2109.02273v1 )

ライセンス: Link先を確認
Jyotirmoy Sarkar, Kartik Bhatia, Snehanshu Saha, Margarita Safonova and Santonu Sarkar(参考訳) 宇宙論の研究における大きな変化は、何千もの太陽系外惑星の発見と、銀河に数十億もの惑星が存在する可能性によってもたらされた。 これらの探索の最大の目標は、他の生命を害する惑星が存在するかどうかだ。 しかし、これらの検出された惑星のどれが居住可能か、潜在的に居住可能か、あるいは居住可能かは、まだ答えられていない。 いくつかの潜在的に居住可能な太陽系外惑星は仮説化されているが、地球は唯一の居住可能な惑星であるため、居住性の測定は地球を基準として決定される。 いくつかの最近の研究は、最適化手法に基づいた新しい居住性指標を導入した。 教師付き学習による居住可能な太陽系外惑星の分類も新たな研究分野である。 しかし、モデリングと教師付き学習のアプローチには欠点がある。 本研究では,異常を検知し,非教師付きクラスタリングアルゴリズムmsmvmcaに拡張し,居住可能な太陽系外惑星を異常として検出する多段階memetic algorithm(msma)を提案する。 このアルゴリズムは、地球は異常であり、何千ものデータポイントに他の異常が存在する可能性があるという仮定に基づいている。 居住可能な候補を(地球を含む)異常として検出するための,新しい距離関数を持つMSMAベースのクラスタリング手法について述べる。 この結果は、プラネタリー・ハビタビリティ研究所 (PHL) の居住可能な太陽系外惑星カタログ (PHL-HEC) と交差する。

A profound shift in the study of cosmology came with the discovery of thousands of exoplanets and the possibility of the existence of billions of them in our Galaxy. The biggest goal in these searches is whether there are other life-harbouring planets. However, the question which of these detected planets are habitable, potentially-habitabl e, or maybe even inhabited, is still not answered. Some potentially habitable exoplanets have been hypothesized, but since Earth is the only known habitable planet, measures of habitability are necessarily determined with Earth as the reference. Several recent works introduced new habitability metrics based on optimization methods. Classification of potentially habitable exoplanets using supervised learning is another emerging area of study. However, both modeling and supervised learning approaches suffer from drawbacks. We propose an anomaly detection method, the Multi-Stage Memetic Algorithm (MSMA), to detect anomalies and extend it to an unsupervised clustering algorithm MSMVMCA to use it to detect potentially habitable exoplanets as anomalies. The algorithm is based on the postulate that Earth is an anomaly, with the possibility of existence of few other anomalies among thousands of data points. We describe an MSMA-based clustering approach with a novel distance function to detect habitable candidates as anomalies (including Earth). The results are cross-matched with the habitable exoplanet catalog (PHL-HEC) of the Planetary Habitability Laboratory (PHL) with both optimistic and conservative lists of potentially habitable exoplanets.
翻訳日:2021-09-07 17:23:12 公開日:2021-09-06
# 安全クリティカル応用のための未知ハイパーパラメータを持つガウス過程一様誤差境界

Gaussian Process Uniform Error Bounds with Unknown Hyperparameters for Safety-Critical Applications ( http://arxiv.org/abs/2109.02606v1 )

ライセンス: Link先を確認
Alexandre Capone, Armin Lederer, Sandra Hirche(参考訳) ガウス過程は, モデル誤差を直接推定し, リスクを定量化するために, 様々な安全クリティカルな設定において有望なツールとなっている。 しかし、カーネルハイパーパラメータが知られているという仮定に基づいて、安全クリティカル設定のための最先端技術は一般的には適用されない。 これを緩和するために、未知のハイパーパラメータの設定における堅牢なガウス過程の均一なエラー境界を導入する。 この手法はハイパーパラメータの空間における信頼領域を計算し、任意のハイパーパラメータを持つガウス過程のモデル誤差に対する確率的上限を求めることができる。 我々は、関連する研究でよく見られる仮定である a priori のハイパーパラメータの境界を知る必要はない。 代わりに、直感的な方法でデータから境界を導き出すことができます。 さらに,提案手法を用いて,学習に基づく制御問題のクラスの性能保証を導出する。 実験により、境界はバニラおよび完全ベイズガウス過程よりも著しく優れた効果を示す。

Gaussian processes have become a promising tool for various safety-critical settings, since the posterior variance can be used to directly estimate the model error and quantify risk. However, state-of-the-art techniques for safety-critical settings hinge on the assumption that the kernel hyperparameters are known, which does not apply in general. To mitigate this, we introduce robust Gaussian process uniform error bounds in settings with unknown hyperparameters. Our approach computes a confidence region in the space of hyperparameters, which enables us to obtain a probabilistic upper bound for the model error of a Gaussian process with arbitrary hyperparameters. We do not require to know any bounds for the hyperparameters a priori, which is an assumption commonly found in related work. Instead, we are able to derive bounds from data in an intuitive fashion. We additionally employ the proposed technique to derive performance guarantees for a class of learning-based control problems. Experiments show that the bound performs significantly better than vanilla and fully Bayesian Gaussian processes.
翻訳日:2021-09-07 17:22:48 公開日:2021-09-06
# 空中フェデレートエッジラーニングによる再構成可能なインテリジェントサーフェス

Reconfigurable Intelligent Surface Empowered Over-the-Air Federated Edge Learning ( http://arxiv.org/abs/2109.02353v1 )

ライセンス: Link先を確認
Hang Liu, Zehong Lin, Xiaojun Yuan, and Ying-Jun Angela Zhang(参考訳) フェデレーション・エッジ・ラーニング(FEEL)は、6G無線ネットワークのエッジでAIサービスを開発するための革命的なパラダイムとして登場した。 しかし、特にFEELのアップリンクモデルアップロードにおいて、無線チャネル上のモデル通信は、FEELの効率を著しく制限するボトルネックとして広く認識されている。 感触モデルのアップロードにおける無線リソースの過大なコストを軽減することができるが、過大なストラグラー問題、大きな通信オーバーヘッド、潜在的なプライバシー漏洩といったいくつかの課題はまだ残っている。 本稿では,これらの課題を遠隔操作で検討し,将来の無線システムのキーイネーブラである再構成可能なインテリジェントサーフェス(ris)を活用して解決する。 RISを組み込んだFEELの最先端ソリューションについて検討し、FEELの性能向上にRISを採用するための有望な研究機会を探る。

Federated edge learning (FEEL) has emerged as a revolutionary paradigm to develop AI services at the edge of 6G wireless networks as it supports collaborative model training at a massive number of mobile devices. However, model communication over wireless channels, especially in uplink model uploading of FEEL, has been widely recognized as a bottleneck that critically limits the efficiency of FEEL. Although over-the-air computation can alleviate the excessive cost of radio resources in FEEL model uploading, practical implementations of over-the-air FEEL still suffer from several challenges, including strong straggler issues, large communication overheads, and potential privacy leakage. In this article, we study these challenges in over-the-air FEEL and leverage reconfigurable intelligent surface (RIS), a key enabler of future wireless systems, to address these challenges. We study the state-of-the-art solutions on RIS-empowered FEEL and explore the promising research opportunities for adopting RIS to enhance FEEL performance.
翻訳日:2021-09-07 17:22:06 公開日:2021-09-06
# gpt-3モデルは生体医学領域における少数ショット学習者である

GPT-3 Models are Poor Few-Shot Learners in the Biomedical Domain ( http://arxiv.org/abs/2109.02555v1 )

ライセンス: Link先を確認
Milad Moradi, Kathrin Blagec, Florian Haberl, Matthias Samwald(参考訳) ディープラーニングモデルは、自然言語処理(NLP)の多くのタスクにおいて、新たなブレークスルーを生み出している。 近年の研究では、深層トランスフォーマー言語モデル(大量のテキストで事前学習されている)が最先端のモデルに匹敵するタスク固有の少数ショット性能を達成できることが示されている。 しかし、これらの大規模言語モデルのわずかな転送学習における能力は、まだ生物医学領域では研究されていない。 2つの強力なトランスフォーマー言語モデルの性能について検討した。 GPT-3とBioBERTは、様々なバイオメディカルNLPタスクを数ショットで設定する。 実験結果から, 両モデルとも, 完全な学習データに基づいて, 言語モデルに微調整を施した結果が得られた。 GPT-3は、オープンドメインのNLPタスクにおける数発の知識伝達で既に最先端に近い結果を得たが、GPT-3より桁違いに小さいBioBERTほど効果的に動作できなかった。 BioBERTがすでに大規模なバイオメディカルテキストコーパスで事前訓練されていたことに関して,本研究は,タスク固有の少数ショット学習において,言語モデルがドメイン内事前学習の恩恵が大きいことを示唆している。 しかし, バイオメディカルNLPドメインでは, 新規プレトレーニングや少数ショット学習が必要であるため, ドメイン内プレトレーニングは不十分である。

Deep neural language models have set new breakthroughs in many tasks of Natural Language Processing (NLP). Recent work has shown that deep transformer language models (pretrained on large amounts of texts) can achieve high levels of task-specific few-shot performance comparable to state-of-the-art models. However, the ability of these large language models in few-shot transfer learning has not yet been explored in the biomedical domain. We investigated the performance of two powerful transformer language models, i.e. GPT-3 and BioBERT, in few-shot settings on various biomedical NLP tasks. The experimental results showed that, to a great extent, both the models underperform a language model fine-tuned on the full training data. Although GPT-3 had already achieved near state-of-the-art results in few-shot knowledge transfer on open-domain NLP tasks, it could not perform as effectively as BioBERT, which is orders of magnitude smaller than GPT-3. Regarding that BioBERT was already pretrained on large biomedical text corpora, our study suggests that language models may largely benefit from in-domain pretraining in task-specific few-shot learning. However, in-domain pretraining seems not to be sufficient; novel pretraining and few-shot learning strategies are required in the biomedical NLP domain.
翻訳日:2021-09-07 17:03:52 公開日:2021-09-06
# 正規化流のパラメトリフット下における変分ガウス過程回帰による二変量構造因果モデルの推定

Estimation of Bivariate Structural Causal Models by Variational Gaussian Process Regression Under Likelihoods Parametrised by Normalising Flows ( http://arxiv.org/abs/2109.02521v1 )

ライセンス: Link先を確認
Nico Reick, Felix Wiewel, Alexander Bartler and Bin Yang(参考訳) 最先端の人工知能の大きな欠点は、その説明可能性の欠如である。 この問題を解決する一つのアプローチは因果関係を考慮に入れることである。 因果機構は構造因果モデルによって記述できる。 本研究では,密度推定に応用した正規化フローと非線型モデルに対する変分ガウス過程回帰を組み合わせた二変量構造因果モデルを推定する手法を提案する。 因果的な発見が促進されます 原因と効果を区別する、原因の独立と残留または可能性比テストによって。 非線型モデルから推定する手法は, 単純な付加雑音モデルよりも, 実世界の様々な因果効果対をよりよく説明できる。 T\'ubingenベンチマークデータベースから得られる全てのペアについて、この利点を利用するのは難しいが、付加的なノイズモデルアプローチと本手法を組み合わせることで因果発見が著しく向上することを示す。

One major drawback of state-of-the-art artificial intelligence is its lack of explainability. One approach to solve the problem is taking causality into account. Causal mechanisms can be described by structural causal models. In this work, we propose a method for estimating bivariate structural causal models using a combination of normalising flows applied to density estimation and variational Gaussian process regression for post-nonlinear models. It facilitates causal discovery, i.e. distinguishing cause and effect, by either the independence of cause and residual or a likelihood ratio test. Our method which estimates post-nonlinear models can better explain a variety of real-world cause-effect pairs than a simple additive noise model. Though it remains difficult to exploit this benefit regarding all pairs from the T\"ubingen benchmark database, we demonstrate that combining the additive noise model approach with our method significantly enhances causal discovery.
翻訳日:2021-09-07 17:02:52 公開日:2021-09-06
# 情報理論に基づくヒューリスティック・プログレッシブ・マルチビュー符号化

Information Theory-Guided Heuristic Progressive Multi-View Coding ( http://arxiv.org/abs/2109.02344v1 )

ライセンス: Link先を確認
Jiangmeng Li, Wenwen Qiang, Hang Gao, Bing Su, Farid Razzak, Jie Hu, Changwen Zheng, Hui Xiong(参考訳) マルチビュー表現学習は、共有コンテキストの複数のビューから包括的な情報をキャプチャする。 近年の著作では、対立学習(con contrastive learning, cl)を適用して、ペアワイズな方法で表現を学習するが、これはまだスケーラブルである: ビュー固有のノイズは、ビュー共有表現を学ぶ際にフィルタされない; 負の項が実際には正と同じクラス内にあり、実際の負のペアが等しく扱われる偽の負のペア; そして、用語間の類似性を測定することは、最適化に支障をきたすかもしれない。 特に2つ以上の視点で、一般化された自己教師型多視点学習の理論的枠組みを研究する研究はほとんどない。 この目的のために,情報理論的な視点から既存の多視点学習パラダイムを再考し,一般化多視点学習のための新しい情報理論的枠組みを提案する。 そこで我々は,3階層のプログレッシブアーキテクチャ,すなわち情報理論に基づくヒューリスティックなプログレッシブ・マルチビュー符号化(IPMC)を用いたマルチビュー符号化手法を構築した。 分散層では、IPMCはビュー間の分散を調整し、ビュー固有のノイズを減らす。 セット層では、IPMCはコントラストのための自己調整型プールを構築し、ビューフィルタを使用してプールを適応的に修正する。 最後に、インスタンス層では、識別表現を学習し、勾配干渉を減らすために、設計された統一損失を採用する。 理論上,実証的に,ipmcが最先端手法よりも優れていることを示す。

Multi-view representation learning captures comprehensive information from multiple views of a shared context. Recent works intuitively apply contrastive learning (CL) to learn representations, regarded as a pairwise manner, which is still scalable: view-specific noise is not filtered in learning view-shared representations; the fake negative pairs, where the negative terms are actually within the same class as the positive, and the real negative pairs are coequally treated; and evenly measuring the similarities between terms might interfere with optimization. Importantly, few works research the theoretical framework of generalized self-supervised multi-view learning, especially for more than two views. To this end, we rethink the existing multi-view learning paradigm from the information theoretical perspective and then propose a novel information theoretical framework for generalized multi-view learning. Guided by it, we build a multi-view coding method with a three-tier progressive architecture, namely Information theory-guided heuristic Progressive Multi-view Coding (IPMC). In the distribution-tier, IPMC aligns the distribution between views to reduce view-specific noise. In the set-tier, IPMC builds self-adjusted pools for contrasting, which utilizes a view filter to adaptively modify the pools. Lastly, in the instance-tier, we adopt a designed unified loss to learn discriminative representations and reduce the gradient interference. Theoretically and empirically, we demonstrate the superiority of IPMC over state-of-the-art methods.
翻訳日:2021-09-07 17:01:58 公開日:2021-09-06
# 生産品の自動視覚検査のためのアクティブラーニング

Active Learning for Automated Visual Inspection of Manufactured Products ( http://arxiv.org/abs/2109.02469v1 )

ライセンス: Link先を確認
Elena Trajkova, Jo\v{z}e M. Ro\v{z}anec, Paulien Dam, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 品質管理は、製品が品質基準を満たし、ブランドの評判に潜在的なダメージを避けるために、製造業が行う重要な活動である。 センサーと接続のコストの削減により、製造のデジタル化が進んだ。 さらに、人工知能はより高度な自動化を可能にし、欠陥検査に必要な全体的なコストと時間を削減する。 本研究では,3つのアクティブラーニング手法と5つの機械学習アルゴリズムを,philips consumer lifestyle bvによる実世界データと比較した。 その結果,アクティブラーニングはモデルの性能を損なうことなくデータラベリングの労力を削減できることがわかった。

Quality control is a key activity performed by manufacturing enterprises to ensure products meet quality standards and avoid potential damage to the brand's reputation. The decreased cost of sensors and connectivity enabled an increasing digitalization of manufacturing. In addition, artificial intelligence enables higher degrees of automation, reducing overall costs and time required for defect inspection. In this research, we compare three active learning approaches and five machine learning algorithms applied to visual defect inspection with real-world data provided by Philips Consumer Lifestyle BV. Our results show that active learning reduces the data labeling effort without detriment to the models' performance.
翻訳日:2021-09-07 17:01:30 公開日:2021-09-06
# バイアス画像データセットからの深層学習による視覚認識

Visual Recognition with Deep Learning from Biased Image Datasets ( http://arxiv.org/abs/2109.02357v1 )

ライセンス: Link先を確認
Robin Vogel, Stephan Cl\'emen\c{c}on, Pierre Laforgue(参考訳) 実際には、特にディープニューラルネットワークのトレーニングでは、様々な情報ソースに基づいて視覚認識規則がしばしば学習される。 一方,近年,異なる個体群に不均一な予測性能を有する顔認識システムの開発では,画像データセットのナイーブな集約によって引き起こされる可能性のある代表性の問題が浮き彫りになっている。 実際、サンプリングバイアスは、単により大きなデータセットを考慮すれば消滅せず、その影響を無視して、学習した予測ルールの一般化能力を完全に損なう可能性がある。 本稿では,非パラメトリック推定(gill et al., 1988)で導入され,最近,統計的学習理論(laforgue and cl\'emen\c{c}on, 2019)の観点から再検討されたバイアスモデルを用いて,これらの問題を視覚認識の文脈で解決できることを示す。 作業中のバイアス機構の(近似的な)知識に基づいて、我々のアプローチは観測を再重み付けすることで、目標分布のほとんど偏りのない推定器を形成する。 提案手法が理論的に有効であることの1つの重要な条件は, 処理時に偏りのあるデータセットを生成する分布の支持が重なり, 対象分布の支持をカバーすることである。 この要件を実際に満たすために,画像データベース間で共有される低次元画像表現を使うことを提案する。 最後に,バイアス関数が適切に選択された場合のアプローチの妥当性を強調する数値実験を行った。

In practice, and more especially when training deep neural networks, visual recognition rules are often learned based on various sources of information. On the other hand, the recent deployment of facial recognition systems with uneven predictive performances on different population segments highlights the representativeness issues possibly induced by a naive aggregation of image datasets. Indeed, sampling bias does not vanish simply by considering larger datasets, and ignoring its impact may completely jeopardize the generalization capacity of the learned prediction rules. In this paper, we show how biasing models, originally introduced for nonparametric estimation in (Gill et al., 1988), and recently revisited from the perspective of statistical learning theory in (Laforgue and Cl\'emen\c{c}on, 2019), can be applied to remedy these problems in the context of visual recognition. Based on the (approximate) knowledge of the biasing mechanisms at work, our approach consists in reweighting the observations, so as to form a nearly debiased estimator of the target distribution. One key condition for our method to be theoretically valid is that the supports of the distributions generating the biased datasets at disposal must overlap, and cover the support of the target distribution. In order to meet this requirement in practice, we propose to use a low dimensional image representation, shared across the image databases. Finally, we provide numerical experiments highlighting the relevance of our approach whenever the biasing functions are appropriately chosen.
翻訳日:2021-09-07 17:01:20 公開日:2021-09-06
# 変圧器を用いた単一画像からの3次元人体テクスチャ推定

3D Human Texture Estimation from a Single Image with Transformers ( http://arxiv.org/abs/2109.02563v1 )

ライセンス: Link先を確認
Xiangyu Xu, Chen Change Loy(参考訳) 単一画像からの3次元人間のテクスチャ推定のためのトランスフォーマーベースのフレームワークを提案する。 提案したTransformerは,畳み込みニューラルネットワークのみに基づく既存の手法の限界を克服して,入力画像のグローバルな情報を効果的に活用することができる。 さらに,RGBモデルとテクスチャフローモデルを組み合わせたマスク融合方式を提案する。 さらに、不愉快なアーティファクトを導入することなく、高忠実な色を再現する部分的な損失を導入する。 大規模実験により, 定量的および定性的に, 最先端の3次元人体テクスチャ推定手法に対する提案手法の有効性が実証された。

We propose a Transformer-based framework for 3D human texture estimation from a single image. The proposed Transformer is able to effectively exploit the global information of the input image, overcoming the limitations of existing methods that are solely based on convolutional neural networks. In addition, we also propose a mask-fusion strategy to combine the advantages of the RGB-based and texture-flow-based models. We further introduce a part-style loss to help reconstruct high-fidelity colors without introducing unpleasant artifacts. Extensive experiments demonstrate the effectiveness of the proposed method against state-of-the-art 3D human texture estimation approaches both quantitatively and qualitatively.
翻訳日:2021-09-07 17:00:33 公開日:2021-09-06
# BERTがオーバースキルになるかもしれない:残差畳み込みニューラルネットワークに基づく、わずかながら効果的なバイオメディカルエンティティリンカー

BERT might be Overkill: A Tiny but Effective Biomedical Entity Linker based on Residual Convolutional Neural Networks ( http://arxiv.org/abs/2109.02237v1 )

ライセンス: Link先を確認
Tuan Lai, Heng Ji, and ChengXiang Zhai(参考訳) 生物医学的実体リンク(英語: biomedical entity link)は、生物医学的文書におけるエンティティ言及と知識ベースにおける参照エンティティをリンクするタスクである。 近年,BERTベースのモデルが多く導入されている。 これらのモデルは多くのデータセットで競合する結果を得たが、計算コストが高く、約110万のパラメータを含んでいる。 パフォーマンスに寄与する要因や、オーバーパラメータ化が必要かどうかについては、ほとんど分かっていない。 本研究では,これらの大きなBERTモデルの内部動作機構に光を当てる。 調査実験の結果,入力語順がシャッフルされた場合や注意範囲が固定されたウィンドウサイズに制限された場合のみ,エンティティリンク性能がわずかに変化することがわかった。 そこで本研究では,生体エンティティリンクのための残差接続を有する効率的な畳み込みニューラルネットワークを提案する。 疎結合性と重み共有特性のため,モデルには少数のパラメータと高い効率性がある。 5つの公開データセットにおいて、我々のモデルは最先端のBERTベースモデルと同等またはそれ以上のリンク精度を達成し、パラメータの約60倍も少ない。

Biomedical entity linking is the task of linking entity mentions in a biomedical document to referent entities in a knowledge base. Recently, many BERT-based models have been introduced for the task. While these models have achieved competitive results on many datasets, they are computationally expensive and contain about 110M parameters. Little is known about the factors contributing to their impressive performance and whether the over-parameterizatio n is needed. In this work, we shed some light on the inner working mechanisms of these large BERT-based models. Through a set of probing experiments, we have found that the entity linking performance only changes slightly when the input word order is shuffled or when the attention scope is limited to a fixed window size. From these observations, we propose an efficient convolutional neural network with residual connections for biomedical entity linking. Because of the sparse connectivity and weight sharing properties, our model has a small number of parameters and is highly efficient. On five public datasets, our model achieves comparable or even better linking accuracy than the state-of-the-art BERT-based models while having about 60 times fewer parameters.
翻訳日:2021-09-07 16:59:56 公開日:2021-09-06
# テキストによる複雑な質問応答に対するモジュラーアプローチにおける数値推論スキルの向上

Improving Numerical Reasoning Skills in the Modular Approach for Complex Question Answering on Text ( http://arxiv.org/abs/2109.02289v1 )

ライセンス: Link先を確認
Xiao-Yu Guo, Yuan-Fang Li and Gholamreza Haffari(参考訳) 複雑な質問応答(CQA)には,数値推論技術が不可欠である。 カウント、比較、加算、減算などの操作が必要である。 テキスト上でCQAに成功しているNeural Module Networks (NMNs)は、プログラマ-解釈パラダイムに従い、特殊モジュールを活用して合成推論を行う。 しかし、NMNsフレームワークは、質問と段落の数字と実体の関係を考慮していない。 本研究では,NMNの数値推論能力を向上させるための効果的な手法を提案する。 テキスト上のCQA用DROPデータセットのサブセットでは、実験結果により、F1スコア全体に対して元のNMNを3.0ポイント上回る結果が得られた。

Numerical reasoning skills are essential for complex question answering (CQA) over text. It requires opertaions including counting, comparison, addition and subtraction. A successful approach to CQA on text, Neural Module Networks (NMNs), follows the programmer-interpret er paradigm and leverages specialised modules to perform compositional reasoning. However, the NMNs framework does not consider the relationship between numbers and entities in both questions and paragraphs. We propose effective techniques to improve NMNs' numerical reasoning capabilities by making the interpreter question-aware and capturing the relationship between entities and numbers. On the same subset of the DROP dataset for CQA on text, experimental results show that our additions outperform the original NMNs by 3.0 points for the overall F1 score.
翻訳日:2021-09-07 16:59:37 公開日:2021-09-06
# エンティティベースの戦略学習と拡張ガイダンスによるビジュアルダイアログ質問の強化

Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented Guesser ( http://arxiv.org/abs/2109.02297v1 )

ライセンス: Link先を確認
Duo Zheng, Zipeng Xu, Fandong Meng, Xiaojie Wang, Jiaan Wang, Jie Zhou(参考訳) 優れたVisual Dialog (VD) Questionerを構築することの重要性を考えると、多くの研究者がこのトピックをQ-Bot-A-Botイメージゲスティングゲーム設定の下で研究している。 SL (Supervised Learning) や強化学習 (Reinforcement Learning, RL) にも進展があるが, 問題はまだ残っている。 第一に、従来の方法は、視覚的に関連し、情報的な質問を生成するために、質問者に明示的かつ効果的なガイダンスを提供していない。 第二に、RLの効果は、生成したダイアログに基づいて画像予測を行い、それに応じて報酬を割り当てる、非能率成分であるギーザーによって妨げられる。 1)関連エンティティの指導の下で質問を生成し,人間の対話からエンティティベースの質問戦略を学ぶ関連エンティティ拡張質問者(reeq)を提案し,2)強力なvd設定に最適化された拡張推測者(augg)を提案する。 VisDial v1.0データセットによる実験結果から,本手法は画像認識タスクと問合せ多様性の両方において最先端の性能を実現する。 人間の研究は、我々のモデルがより視覚的に関連があり、情報的かつ一貫性のある質問を生成することを証明している。

Considering the importance of building a good Visual Dialog (VD) Questioner, many researchers study the topic under a Q-Bot-A-Bot image-guessing game setting, where the Questioner needs to raise a series of questions to collect information of an undisclosed image. Despite progress has been made in Supervised Learning (SL) and Reinforcement Learning (RL), issues still exist. Firstly, previous methods do not provide explicit and effective guidance for Questioner to generate visually related and informative questions. Secondly, the effect of RL is hampered by an incompetent component, i.e., the Guesser, who makes image predictions based on the generated dialogs and assigns rewards accordingly. To enhance VD Questioner: 1) we propose a Related entity enhanced Questioner (ReeQ) that generates questions under the guidance of related entities and learns entity-based questioning strategy from human dialogs; 2) we propose an Augmented Guesser (AugG) that is strong and is optimized for the VD setting especially. Experimental results on the VisDial v1.0 dataset show that our approach achieves state-of-theart performance on both image-guessing task and question diversity. Human study further proves that our model generates more visually related, informative and coherent questions.
翻訳日:2021-09-07 16:59:23 公開日:2021-09-06
# LightTag: テキストアノテーションプラットフォーム

LightTag: Text Annotation Platform ( http://arxiv.org/abs/2109.02320v1 )

ライセンス: Link先を確認
Tal Perry(参考訳) テキストアノテーションツールは、ユーザの目標はラベル付きコーパスを作成することだと仮定する。 しかし、ユーザはアノテーションをnlpを通じてビジネス価値を提供する上で必要悪と捉えています。 したがってアノテーションツールは、個々のアノテーションの生産性だけでなく、グローバルnlpプロセスのスループットを最適化する必要がある。 LightTagは、その原則に基づいて設計、構築されたテキストアノテーションツールである。 本稿では、設計の理論的根拠、データモデリングの選択、ユーザーインターフェースの決定について紹介し、それらの選択が完全なnlpライフサイクルにどのように役立つかを説明します。

Text annotation tools assume that their user's goal is to create a labeled corpus. However, users view annotation as a necessary evil on the way to deliver business value through NLP. Thus an annotation tool should optimize for the throughput of the global NLP process, not only the productivity of individual annotators. LightTag is a text annotation tool designed and built on that principle. This paper shares our design rationale, data modeling choices, and user interface decisions then illustrates how those choices serve the full NLP lifecycle.
翻訳日:2021-09-07 16:58:59 公開日:2021-09-06
# アライメントからアライメントへ:イライラするほど単純で教師なしのエンティティアライメント

From Alignment to Assignment: Frustratingly Simple Unsupervised Entity Alignment ( http://arxiv.org/abs/2109.02363v1 )

ライセンス: Link先を確認
Xin Mao, Wenting Wang, Yuanbin Wu, Man Lan(参考訳) 言語間エンティティアライメント(EA)は、言語間KG間の等価なエンティティを見つけることを目的としている。 近年、多くのgnnベースのea手法が提案され、いくつかの公開データセットでまともなパフォーマンス改善が示されている。 一方、既存のGNNベースのEAメソッドは、ニューラルネットワークから低い解釈可能性と低い効率を必然的に継承する。 GNNに基づく手法の同型仮定により、言語間EA問題を代入問題に変換することに成功した。 そこで本研究では,ニューラルネットワークを使わずに,単純かつ効果的なエンティティアライメント手法(seu)を提案する。 広範な実験により,提案手法は,すべての公開データセットで高度な教師あり手法を上回っており,高い効率,解釈性,安定性を有することが示された。

Cross-lingual entity alignment (EA) aims to find the equivalent entities between crosslingual KGs, which is a crucial step for integrating KGs. Recently, many GNN-based EA methods are proposed and show decent performance improvements on several public datasets. Meanwhile, existing GNN-based EA methods inevitably inherit poor interpretability and low efficiency from neural networks. Motivated by the isomorphic assumption of GNNbased methods, we successfully transform the cross-lingual EA problem into the assignment problem. Based on this finding, we propose a frustratingly Simple but Effective Unsupervised entity alignment method (SEU) without neural networks. Extensive experiments show that our proposed unsupervised method even beats advanced supervised methods across all public datasets and has high efficiency, interpretability, and stability.
翻訳日:2021-09-07 16:58:52 公開日:2021-09-06
# PermuteFormer:ロングシーケンスのための効率的な相対位置符号化

PermuteFormer: Efficient Relative Position Encoding for Long Sequences ( http://arxiv.org/abs/2109.02377v1 )

ライセンス: Link先を確認
Peng Chen(参考訳) Transformerの最近のバリエーションであるPerformerは、線形アテンション機構でTransformerを長いシーケンスにスケールする。 しかし、絶対位置符号化よりも有利な相対位置符号化とは互換性がない。 本稿では,Performerに相対位置エンコーディングを追加する可能性について論じる。 解析に基づいて,長い列に線形にスケールする相対的位置符号化を持つ演奏者に基づくモデルであるpermuteformerを提案する。 permuteformerはクエリとキーに位置依存変換を適用し、位置情報をアテンションモジュールにエンコードする。 この変換は、自己アテンションの最終出力がトークンの絶対位置に影響されないよう慎重に作成される。 PermuteFormerはPerformerと同じくらい高速に動作するように設計されている。 長いシーケンスのデータセットであるLong-Range ArenaのPermuteFormerと、言語モデリングデータセットであるWikiText-103を評価した。 実験の結果、PermuteFormerは計算オーバーヘッドがほとんどなく、Performerのパフォーマンスを均一に改善し、ほとんどのタスクでバニラトランスフォーマーを上回っていることがわかった。

A recent variation of Transformer, Performer, scales Transformer to longer sequences with a linear attention mechanism. However, it is not compatible with relative position encoding, which has advantages over absolute position encoding. In this paper, we discuss possible ways to add relative position encoding to Performer. Based on the analysis, we propose PermuteFormer, a Performer-based model with relative position encoding that scales linearly on long sequences. PermuteFormer applies position-dependent transformation on queries and keys to encode positional information into the attention module. This transformation is carefully crafted so that the final output of self-attention is not affected by absolute positions of tokens. PermuteFormer introduces negligible computational overhead by design that it runs as fast as Performer. We evaluate PermuteFormer on Long-Range Arena, a dataset for long sequences, as well as WikiText-103, a language modeling dataset. The experiments show that PermuteFormer uniformly improves the performance of Performer with almost no computational overhead and outperforms vanilla Transformer on most of the tasks.
翻訳日:2021-09-07 16:56:58 公開日:2021-09-06
# 条件付き深層強化学習による後天的報酬調整

Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning ( http://arxiv.org/abs/2109.02332v1 )

ライセンス: Link先を確認
Ning Wei, Jiahua Liang, Di Xie and Shiliang Pu(参考訳) 最適報酬関数の設計は望ましいが、強化学習(rl)では極めて困難である。 現代の複雑なタスクでは、ポリシー学習をシンプルにするために洗練された報酬関数が広く使われていますが、トレーニングのコストが劇的に増加するため、わずかな調整でさえコストがかかります。 そこで本研究では,最近空間における報酬関数の影響をモデル化するために,深層強化学習のための新しいパラダイムを設計し,後見報酬調整手法を提案する。 実環境報酬パラメータと線形に相関する条件ベクトルを用いて入力観察を単純に拡張し、ランダム化報酬構成以外の従来の方法でモデルを訓練し、その条件空間上で特性が敏感に制御される超ポリシーを得る。 このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。

Designing optimal reward functions has been desired but extremely difficult in reinforcement learning (RL). When it comes to modern complex tasks, sophisticated reward functions are widely used to simplify policy learning yet even a tiny adjustment on them is expensive to evaluate due to the drastically increasing cost of training. To this end, we propose a hindsight reward tweaking approach by designing a novel paradigm for deep reinforcement learning to model the influences of reward functions within a near-optimal space. We simply extend the input observation with a condition vector linearly correlated with the effective environment reward parameters and train the model in a conventional manner except for randomizing reward configurations, obtaining a hyper-policy whose characteristics are sensitively regulated over the condition space. We demonstrate the feasibility of this approach and study one of its potential application in policy performance boosting with multiple MuJoCo tasks.
翻訳日:2021-09-07 16:55:30 公開日:2021-09-06
# 強化学習によるマクロ配置への埋め込み

Delving into Macro Placement with Reinforcement Learning ( http://arxiv.org/abs/2109.02587v1 )

ライセンス: Link先を確認
Zixuan Jiang, Ebrahim Songhori, Shen Wang, Anna Goldie, Azalia Mirhoseini, Joe Jiang, Young-Joon Lee, David Z. Pan(参考訳) 物理的設計において、人間設計者は、通常、試行錯誤によってマクロを配置する。 強化学習(RL)法はマクロ配置において超人的性能を示す。 本稿では,この先行研究への拡張を提案する(mirhoseini et al., 2020)。 まず、ポリシーとバリューネットワークアーキテクチャの詳細を説明します。 本手法は,標準セルをrl環境に配置するためのドリームプレイスに置き換える。 また,提案手法を他の学術的指標と比較した。

In physical design, human designers typically place macros via trial and error, which is a Markov decision process. Reinforcement learning (RL) methods have demonstrated superhuman performance on the macro placement. In this paper, we propose an extension to this prior work (Mirhoseini et al., 2020). We first describe the details of the policy and value network architecture. We replace the force-directed method with DREAMPlace for placing standard cells in the RL environment. We also compare our improved method with other academic placers on public benchmarks.
翻訳日:2021-09-07 16:54:50 公開日:2021-09-06
# Bias-Varianceのトレードオフへの不満? 過パラメータ機械学習の理論の概要

A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of Overparameterized Machine Learning ( http://arxiv.org/abs/2109.02355v1 )

ライセンス: Link先を確認
Yehuda Dar, Vidya Muthukumar, Richard G. Baraniuk(参考訳) 機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する多くの科学的疑問を提起している。 最も重要な解法の一つは、過パラメータ化モデルの優れた経験的一般化である。 過パラメータモデルは、トレーニングデータセットのサイズに関して過度に複雑であり、結果として、通常騒がしいトレーニングデータに完全に適合する(つまり補間する)。 このようなノイズデータの補間は伝統的に有害な過剰フィッティングに関連しているが、単純な線形モデルからディープニューラルネットワークまで、幅広い補間モデルによって、新しいテストデータで非常によく一般化することが最近観測されている。 実際、最近発見された二重降下現象は、高いパラメータ化モデルがテスト性能の最良のパラメータ化モデルよりも良くなることを示した。 この超パラメタ化された方法での学習を理解するには、線形モデルの最も単純な場合でさえも、新しい理論と基礎的な実証研究が必要である。 この理解の基礎は、超パラメータ線形回帰と関連する統計学習タスクの非常に最近の分析に置かれており、二重降下の正確な解析的特徴付けが得られた。 本稿では,この過パラメータ化ML(以下TOPMLと略す)の新たな理論を簡潔に概説し,最近の知見を統計的信号処理の観点から解説する。 我々は、TOPML研究領域を現代のML理論のサブフィールドとして定義するユニークな側面を強調し、残る興味深いオープンな疑問を概説する。

The rapid recent progress in machine learning (ML) has raised a number of scientific questions that challenge the longstanding dogma of the field. One of the most important riddles is the good empirical generalization of overparameterized models. Overparameterized models are excessively complex with respect to the size of the training dataset, which results in them perfectly fitting (i.e., interpolating) the training data, which is usually noisy. Such interpolation of noisy data is traditionally associated with detrimental overfitting, and yet a wide range of interpolating models -- from simple linear models to deep neural networks -- have recently been observed to generalize extremely well on fresh test data. Indeed, the recently discovered double descent phenomenon has revealed that highly overparameterized models often improve over the best underparameterized model in test performance. Understanding learning in this overparameterized regime requires new theory and foundational empirical studies, even for the simplest case of the linear model. The underpinnings of this understanding have been laid in very recent analyses of overparameterized linear regression and related statistical learning tasks, which resulted in precise analytic characterizations of double descent. This paper provides a succinct overview of this emerging theory of overparameterized ML (henceforth abbreviated as TOPML) that explains these recent findings through a statistical signal processing perspective. We emphasize the unique aspects that define the TOPML research area as a subfield of modern ML theory and outline interesting open questions that remain.
翻訳日:2021-09-07 16:53:35 公開日:2021-09-06
# アクティブインターベンションを用いたニューラル因果モデル学習

Learning Neural Causal Models with Active Interventions ( http://arxiv.org/abs/2109.02429v1 )

ライセンス: Link先を確認
Nino Scherrer, Olexa Bilaniuk, Yashas Annadani, Anirudh Goyal, Patrick Schwab, Bernhard Sch\"olkopf, Michael C. Mozer, Yoshua Bengio, Stefan Bauer, Nan Rosemary Ke(参考訳) データから因果構造を発見することは、科学のあらゆる領域において基本的な重要性を推測する難しい問題である。 ニューラルネットワークの魅力的なスケーリング特性は、最近、データから因果構造を学ぶための微分可能なニューラルネットワークベースの方法への関心が高まっている。 これまでのところ、異なる因果発見は観測または介入の起源の静的なデータセットに焦点を当ててきた。 本研究では,データ生成プロセスの根本的な原因構造を迅速に特定できるアクティブな介入・ターゲティング機構を提案する。 本手法はランダム介入目標と比較して必要なインタラクション数を大幅に削減し,データから有向非循環グラフ(dag)を学習するための離散最適化と連続最適化の定式化に適用できる。 提案手法を多種多様な設定で検討し,シミュレーションから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。

Discovering causal structures from data is a challenging inference problem of fundamental importance in all areas of science. The appealing scaling properties of neural networks have recently led to a surge of interest in differentiable neural network-based methods for learning causal structures from data. So far differentiable causal discovery has focused on static datasets of observational or interventional origin. In this work, we introduce an active intervention-targeti ng mechanism which enables a quick identification of the underlying causal structure of the data-generating process. Our method significantly reduces the required number of interactions compared with random intervention targeting and is applicable for both discrete and continuous optimization formulations of learning the underlying directed acyclic graph (DAG) from data. We examine the proposed method across a wide range of settings and demonstrate superior performance on multiple benchmarks from simulated to real-world data.
翻訳日:2021-09-07 16:53:11 公開日:2021-09-06
# テンソル正規化とフルディストリビューショントレーニング

Tensor Normalization and Full Distribution Training ( http://arxiv.org/abs/2109.02345v1 )

ライセンス: Link先を確認
Wolfgang Fuhl(参考訳) 本研究では,整流器線形ユニットの後に挿入され,バッチ正規化とともに,現代のディープニューラルネットワークの精度を大幅に向上させる画素ワイドテンソル正規化を提案する。 さらに、この作業はネットワークの堅牢性を扱う。 トレーニングセットからの画像の分解重ね合わせとマルチクラス問題のマルチラベル問題への再構成により,ネットワークの堅牢性が著しく向上することを示す。 マルチクラスログ損失の修正と調整は、ラベルとして1つのクラスしか持たないオーバーレイと比較しても改善される。 https://atreus.infor matik.uni-tuebingen. de/seafile/d/8e2ab8c 3fdd444e1a135/?p=%2FTNandFDT&mode=list

In this work, we introduce pixel wise tensor normalization, which is inserted after rectifier linear units and, together with batch normalization, provides a significant improvement in the accuracy of modern deep neural networks. In addition, this work deals with the robustness of networks. We show that the factorized superposition of images from the training set and the reformulation of the multi class problem into a multi-label problem yields significantly more robust networks. The reformulation and the adjustment of the multi class log loss also improves the results compared to the overlay with only one class as label. https://atreus.infor matik.uni-tuebingen. de/seafile/d/8e2ab8c 3fdd444e1a135/?p=%2FTNandFDT&mode=list
翻訳日:2021-09-07 16:51:44 公開日:2021-09-06
# オーストリアとドイツにおける交通標識ピクトグラムの機械可読性の比較

Comparing the Machine Readability of Traffic Sign Pictograms in Austria and Germany ( http://arxiv.org/abs/2109.02362v1 )

ライセンス: Link先を確認
Alexander Maletzky, Stefan Thumfart, Christoph Wru{\ss}(参考訳) オーストリアとドイツの交通標識に見られるピクトグラムの機械可読性を比較した。 そこで本研究では,合成データセットの分類モデルを訓練し,その分類精度を制御された環境で評価する。 特に、現在2カ国で展開されているピクトグラムと、人間の可読性を高めるために設計された一連の新しいピクトグラムの違いに焦点を当てています。 他の結果に加え、機械学習モデルは、訓練されていないピクトグラムデザインのデータセットによく一般化されている。 先進型運転支援システム(ADAS)のメーカーは、現在および新たに設計された交通標識のピクトグラムと、各国のピクトグラムの小さな視覚的差異に適切に対処するために、特別な注意が必要であると結論付けている。

We compare the machine readability of pictograms found on Austrian and German traffic signs. To that end, we train classification models on synthetic data sets and evaluate their classification accuracy in a controlled setting. In particular, we focus on differences between currently deployed pictograms in the two countries, and a set of new pictograms designed to increase human readability. Besides other results, we find that machine-learning models generalize poorly to data sets with pictogram designs they have not been trained on. We conclude that manufacturers of advanced driver-assistance systems (ADAS) must take special care to properly address small visual differences between current and newly designed traffic sign pictograms, as well as between pictograms from different countries.
翻訳日:2021-09-07 16:51:33 公開日:2021-09-06
# less is more: トマト葉病分類のためのより軽量で高速なディープニューラルアーキテクチャ

Less is More: Lighter and Faster Deep Neural Architecture for Tomato Leaf Disease Classification ( http://arxiv.org/abs/2109.02394v1 )

ライセンス: Link先を確認
Sabbir Ahmed, Md. Bakhtiar Hasan, Tasnim Ahmed, Redwan Karim Sony, and Md. Hasanul Kabir(参考訳) グローバルな食料安全保障と利害関係者の全体的な利益を確保するため、植物病を正しく検出・分類することが重要である。 この関係において、深層学習に基づく画像分類の出現は、かなりの数のソリューションを導入している。 しかし、これらのソリューションをローエンドデバイスに適用するには、高速で正確で計算コストのかかるシステムが必要である。 本研究は,トマト葉から疾患を検出するための軽量なトランスファー学習手法を提案する。 効果的な前処理手法を用いて、照度補正による葉画像の高精細化を行い、分類を改良する。 本システムは,事前学習したMobileNetV2アーキテクチャと,効果的な予測のための分類器ネットワークを組み合わせたモデルを用いて特徴を抽出する。 従来の拡張アプローチは、データ漏洩を避け、クラス不均衡の問題に対処するため、実行時拡張に置き換えられる。 plantvillageデータセットからのトマト葉画像の評価により、提案アーキテクチャはモデルサイズ9.60mbと4.87mの浮動小数点演算で99.30%の精度を達成でき、ローエンドデバイスでの実際のアプリケーションに適した選択となっている。 私たちのコードとモデルは出版時に利用可能になります。

To ensure global food security and the overall profit of stakeholders, the importance of correctly detecting and classifying plant diseases is paramount. In this connection, the emergence of deep learning-based image classification has introduced a substantial number of solutions. However, the applicability of these solutions in low-end devices requires fast, accurate, and computationally inexpensive systems. This work proposes a lightweight transfer learning-based approach for detecting diseases from tomato leaves. It utilizes an effective preprocessing method to enhance the leaf images with illumination correction for improved classification. Our system extracts features using a combined model consisting of a pretrained MobileNetV2 architecture and a classifier network for effective prediction. Traditional augmentation approaches are replaced by runtime augmentation to avoid data leakage and address the class imbalance issue. Evaluation on tomato leaf images from the PlantVillage dataset shows that the proposed architecture achieves 99.30% accuracy with a model size of 9.60MB and 4.87M floating-point operations, making it a suitable choice for real-life applications in low-end devices. Our codes and models will be made available upon publication.
翻訳日:2021-09-07 16:51:19 公開日:2021-09-06
# アニメーション変換器:セグメントマッチングによる視覚対応

The Animation Transformer: Visual Correspondence via Segment Matching ( http://arxiv.org/abs/2109.02614v1 )

ライセンス: Link先を確認
Evan Casey, V\'ictor P\'erez, Zhuoru Li, Harry Teitelman, Nick Boyajian, Tim Pulver, Mike Manh, and William Grisaitis(参考訳) 視覚対応は手書きアニメーションの補助ツールを構築するための基本的なビルディングブロックである。 しかし、多数の作品がピクセルレベルで視覚対応を学習することに焦点を当てているが、手描きアニメーションで自然に発生する線囲い(セグメント)のレベルで対応を学ぶアプローチはほとんど現れていない。 この構造をアニメーションで展開することは、高解像度画像における個々のピクセルへの参加の難易度なメモリ複雑さを回避し、セグメントごとのカラーレベルの対応情報を含む実世界のアニメーションデータセットの使用を可能にする。 そこで我々は,画像列間のセグメント間の空間的および視覚的関係を学習するために,トランスフォーマに基づくアーキテクチャを用いたアニメーショントランス (AnT) を提案する。 AnTは、プロのアニメーションワークフローのための実践的で最先端のAI支援カラー化を可能にし、Cadmiumのクリエイティブツールとして一般公開されている。

Visual correspondence is a fundamental building block on the way to building assistive tools for hand-drawn animation. However, while a large body of work has focused on learning visual correspondences at the pixel-level, few approaches have emerged to learn correspondence at the level of line enclosures (segments) that naturally occur in hand-drawn animation. Exploiting this structure in animation has numerous benefits: it avoids the intractable memory complexity of attending to individual pixels in high resolution images and enables the use of real-world animation datasets that contain correspondence information at the level of per-segment colors. To that end, we propose the Animation Transformer (AnT) which uses a transformer-based architecture to learn the spatial and visual relationships between segments across a sequence of images. AnT enables practical, state-of-art AI-assisted colorization for professional animation workflows and is publicly accessible as a creative tool in Cadmium.
翻訳日:2021-09-07 16:50:44 公開日:2021-09-06
# 財務文書における知識グラフ強化イベント抽出

Knowledge Graph Enhanced Event Extraction in Financial Documents ( http://arxiv.org/abs/2109.02592v1 )

ライセンス: Link先を確認
Kaihao Guo, Tianpei Jiang, Haipeng Zhang(参考訳) イベント抽出は自然言語処理における古典的なタスクであり、急速に成長している金融、法律、医療、政府文書を扱うために広く使われている。 抽出すべきイベント要素間の基礎的な関係は有用なコンテキスト情報を提供するが、以前の研究では見過ごされている。 本稿では、エンティティの関係や属性をキャプチャする知識グラフを活用することにより、このタスクの強化を示す。 本稿では,知識グラフをグラフニューラルネットワークに埋め込んだ最初のイベント抽出フレームワークを提案する。 具体的には、中国の金融発表からイベントを抽出するため、f1-scoreの最先端手法を5.3%上回っている。

Event extraction is a classic task in natural language processing with wide use in handling large amount of yet rapidly growing financial, legal, medical, and government documents which often contain multiple events with their elements scattered and mixed across the documents, making the problem much more difficult. Though the underlying relations between event elements to be extracted provide helpful contextual information, they are somehow overlooked in prior studies. We showcase the enhancement to this task brought by utilizing the knowledge graph that captures entity relations and their attributes. We propose a first event extraction framework that embeds a knowledge graph through a Graph Neural Network and integrates the embedding with regular features, all at document-level. Specifically, for extracting events from Chinese financial announcements, our method outperforms the state-of-the-art method by 5.3% in F1-score.
翻訳日:2021-09-07 16:50:29 公開日:2021-09-06
# 言語横断分類のための近近近距離Few-Shot学習

Nearest Neighbour Few-Shot Learning for Cross-lingual Classification ( http://arxiv.org/abs/2109.02221v1 )

ライセンス: Link先を確認
M Saiful Bari, Batool Haider, Saab Mansour(参考訳) 大規模な事前訓練された多言語モデル(例)にもかかわらず。 mBERT, XLM-R) は、幅広い言語間 NLP タスクにおいて大きなパフォーマンス向上をもたらしたが、多くの下流タスクにおける成功は、十分な注釈付きデータの可用性に依存している。 少数のターゲットサンプルのみを使用したトレーニング済みモデルの従来の微調整は、過剰フィッティングを引き起こす可能性がある。 世界中のほとんどの言語がリソース不足のため、これは非常に制限される可能性がある。 そこで本研究では, 簡単な近傍の複数ショット(<15サンプル) 推論手法を用いて, 言語間の適応について検討する。 我々は2つのNLPタスク(XNLIとPAWS-X)で合計16の異なる言語を用いて実験を行った。 提案手法は,少数のラベル付きサンプルのみを対象とする従来の微調整を継続的に改善する。 また,タスク間の一般化能力を示す。

Even though large pre-trained multilingual models (e.g. mBERT, XLM-R) have led to significant performance gains on a wide range of cross-lingual NLP tasks, success on many downstream tasks still relies on the availability of sufficient annotated data. Traditional fine-tuning of pre-trained models using only a few target samples can cause over-fitting. This can be quite limiting as most languages in the world are under-resourced. In this work, we investigate cross-lingual adaptation using a simple nearest neighbor few-shot (<15 samples) inference technique for classification tasks. We experiment using a total of 16 distinct languages across two NLP tasks- XNLI and PAWS-X. Our approach consistently improves traditional fine-tuning using only a handful of labeled samples in target locales. We also demonstrate its generalization capability across tasks.
翻訳日:2021-09-07 16:44:13 公開日:2021-09-06
# Sent2Span: SpanアノテーションのないバイオメディカルテキストにおけるPICO抽出のためのスパン検出

Sent2Span: Span Detection for PICO Extraction in the Biomedical Text without Span Annotations ( http://arxiv.org/abs/2109.02254v1 )

ライセンス: Link先を確認
Shifeng Liu, Yifang Sun, Bing Li, Wei Wang, Florence T. Bourgeois, Adam G. Dunn(参考訳) 公表された臨床試験の急速な増加は、最新の体系的なレビューを維持するのを困難にしている。 これは、利用可能な臨床証拠の、時代遅れ、不完全、偏見に基づく政策と実践の決定につながる。 臨床試験の記事から人口、介入、比較、結果(pico)情報を抽出して正常化することは、組織的なレビューに試行を自動的に割り当て、検索とスクリーニングを避ける効果的な方法になり得る。 PICOスパン検出に対する新しいアプローチを提案する。 提案手法と従来手法の主な違いは,注釈付きスパンデータを必要としないスパンの検出と,クラウドソースによる文レベルのアノテーションの使用である。 2つのデータセットの実験により、PICOの文検出が人間のアノテーションに匹敵するような完全教師付き手法と比較して、PICOのスパン検出結果の方がはるかに高いリコール結果が得られることが示された。 スパン検出のための専門家アノテーションへの依存を取り除くことで、この研究は、低品質のクラウドソースと文レベルのPICOアノテーションを、関連する体系的なレビューに迅速にトライアルを割り当てることのできる構造化情報に変換するために、ヒューマンマシンパイプラインで使用できる。

The rapid growth in published clinical trials makes it difficult to maintain up-to-date systematic reviews, which requires finding all relevant trials. This leads to policy and practice decisions based on out-of-date, incomplete, and biased subsets of available clinical evidence. Extracting and then normalising Population, Intervention, Comparator, and Outcome (PICO) information from clinical trial articles may be an effective way to automatically assign trials to systematic reviews and avoid searching and screening - the two most time-consuming systematic review processes. We propose and test a novel approach to PICO span detection. The major difference between our proposed method and previous approaches comes from detecting spans without needing annotated span data and using only crowdsourced sentence-level annotations. Experiments on two datasets show that PICO span detection results achieve much higher results for recall when compared to fully supervised methods with PICO sentence detection at least as good as human annotations. By removing the reliance on expert annotations for span detection, this work could be used in human-machine pipeline for turning low-quality crowdsourced, and sentence-level PICO annotations into structured information that can be used to quickly assign trials to relevant systematic reviews.
翻訳日:2021-09-07 16:44:00 公開日:2021-09-06
# 多言語・多領域ニューラルマシン翻訳トレーニングのための不確実性認識バランス

Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural Machine Translation Training ( http://arxiv.org/abs/2109.02284v1 )

ライセンス: Link先を確認
Minghao Wu, Yitong Li, Meng Zhang, Liangyou Li, Gholamreza Haffari, Qun Liu(参考訳) 多言語・多ドメイン翻訳モデルの学習は、異種・不均衡なデータが実世界の異なるコーパスに無矛盾に収束させるため、困難である。 トレーニングにおける各コーパスの共有を調整し、学習プロセスのバランスを保ち、低リソースのケースは高いリソースの恩恵を受けることができる。 しかし、自動バランス手法は通常、データセット内およびデータセット間の特性に依存する。 本研究では,マルチコーパス機械翻訳のための,少量の信頼されたクリーンデータに対して,モデルの不確実性に基づいて動的にトレーニングデータ使用量を調整する手法であるmultiuatを提案する。 我々は、多言語(16言語で4つの設定)と多言語設定(2言語で4言語、英蘭翻訳で2言語)の2つの不確実性尺度を実験し、我々のアプローチであるMultiUATは、静的戦略と動的戦略の両方を含むベースラインを大幅に上回っていることを実証した。 クロスドメイン転送を解析し,静的および類似性に基づく手法の欠如を示す。

Learning multilingual and multi-domain translation model is challenging as the heterogeneous and imbalanced data make the model converge inconsistently over different corpora in real world. One common practice is to adjust the share of each corpus in the training, so that the learning process is balanced and low-resource cases can benefit from the high resource ones. However, automatic balancing methods usually depend on the intra- and inter-dataset characteristics, which is usually agnostic or requires human priors. In this work, we propose an approach, MultiUAT, that dynamically adjusts the training data usage based on the model's uncertainty on a small set of trusted clean data for multi-corpus machine translation. We experiments with two classes of uncertainty measures on multilingual (16 languages with 4 settings) and multi-domain settings (4 for in-domain and 2 for out-of-domain on English-German translation) and demonstrate our approach MultiUAT substantially outperforms its baselines, including both static and dynamic strategies. We analyze the cross-domain transfer and show the deficiency of static and similarity based methods.
翻訳日:2021-09-07 16:43:36 公開日:2021-09-06
# シーケンストグラフと強化グラフによる効率的なマインドマップ生成

Efficient Mind-Map Generation via Sequence-to-Graph and Reinforced Graph Refinement ( http://arxiv.org/abs/2109.02457v1 )

ライセンス: Link先を確認
Mengting Hu, Honglei Guo, Shiwan Zhao, Hang Gao, Zhong Su(参考訳) マインドマップ(mind-map)は、中心的な概念と主要なアイデアを階層的に表現した図である。 プレーンテキストをマインドマップに変換することで、重要なセマンティック構造が明らかになり、理解しやすくなる。 文書が与えられた場合、既存のマインドマップ生成手法は、各文対の関係を抽出し、この文書の有向意味グラフを生成する。 計算複雑性は文書の長さとともに指数関数的に増加する。 さらに、全体的な意味を捉えることは困難である。 上記の課題に対処するために,文書をグラフに変換する効率的なマインドマップ生成ネットワークを提案する。 有意義なマインドマップを保証するために,関係グラフを強化学習方式で調整するグラフリファインメントモジュールを設計した。 広範な実験結果から,提案手法は従来の手法よりも効率的かつ効率的であることが判明した。 既存のメソッドと比較して、推論時間は何千倍も短縮される。 ケーススタディでは、生成されたマインドマップがドキュメントの基盤となるセマンティック構造を明らかにする。

A mind-map is a diagram that represents the central concept and key ideas in a hierarchical way. Converting plain text into a mind-map will reveal its key semantic structure and be easier to understand. Given a document, the existing automatic mind-map generation method extracts the relationships of every sentence pair to generate the directed semantic graph for this document. The computation complexity increases exponentially with the length of the document. Moreover, it is difficult to capture the overall semantics. To deal with the above challenges, we propose an efficient mind-map generation network that converts a document into a graph via sequence-to-graph. To guarantee a meaningful mind-map, we design a graph refinement module to adjust the relation graph in a reinforcement learning manner. Extensive experimental results demonstrate that the proposed approach is more effective and efficient than the existing methods. The inference time is reduced by thousands of times compared with the existing methods. The case studies verify that the generated mind-maps better reveal the underlying semantic structures of the document.
翻訳日:2021-09-07 16:43:16 公開日:2021-09-06
# DialogLM:Long Dialogue Understanding and Summarizationのための事前学習モデル

DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization ( http://arxiv.org/abs/2109.02492v1 )

ライセンス: Link先を確認
Ming Zhong, Yang Liu, Yichong Xu, Chenguang Zhu, Michael Zeng(参考訳) 対話は人間のコミュニケーションと協力の重要な部分である。 既存の研究は主に1対1で短い対話シナリオに焦点を当てている。 しかし、ミーティングやインタビューのような現実世界における多人数の対話はしばしば数千語以上である。 そのような長い対話を理解し、処理するための、対応する研究と強力なツールがまだ欠けている。 そこで本研究では,長い対話理解と要約のための事前学習フレームワークを提案する。 長文会話の性質を考慮し,生成前学習のためのウィンドウに基づく弁別手法を提案する。 対話の場合、対話に触発された雑音を伴うテキストのウィンドウを腐敗させ、残りの会話の内容に基づいてこのウィンドウを再構築するようにモデルを誘導する。 さらに、より長い入力を処理するために、従来の注意とハイブリッドな方法で組み合わされた、少ない注意でモデルを補強する。 長い対話の5つのデータセットについて広範な実験を行い,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする。 実験では,事前学習したモデルダイアログが,データセットとタスクをまたいだ最先端モデルを大幅に上回っていることを示す。

Dialogue is an essential part of human communication and cooperation. Existing research mainly focuses on short dialogue scenarios in a one-on-one fashion. However, multi-person interactions in the real world, such as meetings or interviews, are frequently over a few thousand words. There is still a lack of corresponding research and powerful tools to understand and process such long dialogues. Therefore, in this work, we present a pre-training framework for long dialogue understanding and summarization. Considering the nature of long conversations, we propose a window-based denoising approach for generative pre-training. For a dialogue, it corrupts a window of text with dialogue-inspired noise, and guides the model to reconstruct this window based on the content of the remaining conversation. Furthermore, to process longer input, we augment the model with sparse attention which is combined with conventional attention in a hybrid manner. We conduct extensive experiments on five datasets of long dialogues, covering tasks of dialogue summarization, abstractive question answering and topic segmentation. Experimentally, we show that our pre-trained model DialogLM significantly surpasses the state-of-the-art models across datasets and tasks.
翻訳日:2021-09-07 16:42:58 公開日:2021-09-06
# プラグアンドプレイによる大規模コモンセンスによる言語モデルの拡張

Enhancing Language Models with Plug-and-Play Large-Scale Commonsense ( http://arxiv.org/abs/2109.02572v1 )

ライセンス: Link先を確認
Wanyun Cui, Xingran Chen(参考訳) 言語モデル(lms)のテキスト常識知識による拡張方法について検討する。 これまでの作業(例えば KnowBERT)は、知識グラフからのエンティティ知識の統合に焦点を当ててきた。 外部エンティティ埋め込みを導入するために、大規模なコーパスで事前学習することで、元の文と外部知識を共同で表現することを学ぶ。 しかし、ライトエンティティの埋め込みとは異なり、テキストコモンセンスに切り替える場合、コモンセンスの記述の符号化は重い。 したがって、対象の文と外部のコモンセンス記述を共同で表現するための事前学習は困難である。 一方,目標文のみを表現するための事前学習したlmsは容易に利用できるため,下流タスクに共通知識を導入することは,微調整だけで可能か? 本稿では,事前学習を行わない大規模コモンセンス統合のためのプラグアンドプレイ方式を提案する。 本手法は,外部知識のない下流タスクの定期的微調整において,言語モデルのパラメータのばらつきが小さいという観測結果から着想を得たものである。 我々の方法は、目標文のみを表す事前訓練されたLM(例えばBERT)から始まる。 共同表現がLMの開始に対するパラメータの影響を減少させる場合、共同表現学習の事前学習は避けられると考えられる。 KnowBERTのような以前の手法は、外部知識を導入するためにバニラLMに複雑な修正を提案した。 一方、我々のモデル(Cook-Transformer, COmmOnsense Knowledge-enhanced Transformer)は、各トランスフォーマー層に知識トークンを追加する以外、バニラLMを変更することはほとんどありません。 様々な実験において、CoOK-TransformerをベースとしたBERT/RoBERTaは事前学習なしで効果を向上させる。

We study how to enhance language models (LMs) with textual commonsense knowledge. Previous work (e.g., KnowBERT) has focused on the integrating entity knowledge from knowledge graphs. In order to introduce the external entity embeddings, they learn to jointly represent the original sentences and external knowledge by pre-training on a large scale corpus. However, when switching to textual commonsense, unlike the light entity embeddings, the encoding of commonsense descriptions is heavy. Therefore, the pre-training for learning to jointly represent the target sentence and external commonsense descriptions is unaffordable. On the other hand, since pre-trained LMs for representing the target sentences alone are readily available, is it feasible to introduce commonsense knowledge in downstream tasks by fine-tuning them only? In this paper, we propose a plug-and-play method for large-scale commonsense integration without pre-training. Our method is inspired by the observation that in the regular fine-tuning for downstream tasks where no external knowledge was introduced, the variation in the parameters of the language model was minor. Our method starts from a pre-trained LM that represents the target sentences only (e.g., BERT). We think that the pre-training for joint representation learning can be avoided, if the joint representation reduces the impact of parameters on the starting LM. Previous methods such as KnowBERT proposed complex modifications to the vanilla LM to introduce external knowledge. Our model (Cook-Transformer, COmmOnsense Knowledge-enhanced Transformer), on the other hand, hardly changes the vanilla LM except adding a knowledge token in each Transformer layer. In a variety of experiments, COOK-Transformer-bas ed BERT/RoBERTa improve their effect without any pre-training.
翻訳日:2021-09-07 16:42:43 公開日:2021-09-06
# 干し草の針を見つける:構成一般化のための合成データから構造的多変量トレーニングセットをサンプリングする

Finding needles in a haystack: Sampling Structurally-diverse Training Sets from Synthetic Data for Compositional Generalization ( http://arxiv.org/abs/2109.02575v1 )

ライセンス: Link先を確認
Inbar Oren, Jonathan Herzig and Jonathan Berant(参考訳) 現代のセマンティックパーサには2つの大きな制限がある。 まず、トレーニングには高価な発話プログラムペアのコレクションが必要です。 第二に、セマンティックパーザはテスト時にトレーニング中に観察されていない新しい構成や構造に一般化できない。 近年の研究では、合成発話プログラムペアの自動生成が第1問題を緩和できることが示されているが、第2言語への可能性はまだ未定である。 本研究では,構文解析における合成発話・プログラムペアの自動生成について検討する。 注釈付き例の小さな訓練セットと合成例の「無限の」プールが与えられたとき、構造的に多様性のある合成例のサブセットを選択し、それらを用いて合成の一般化を改善する。 我々は,スキーマ2QAデータセットの新たな分割に対するアプローチを評価し,それが構成一般化の劇的な改善と従来のi.i.dセットアップの適度な改善をもたらすことを示す。 さらに、構造的に拡張されたサンプリングは、ランダムにサンプリングする場合の1m例に比べて、わずか5kの例でこれらの改善を達成している。

Modern semantic parsers suffer from two principal limitations. First, training requires expensive collection of utterance-program pairs. Second, semantic parsers fail to generalize at test time to new compositions/structu res that have not been observed during training. Recent research has shown that automatic generation of synthetic utterance-program pairs can alleviate the first problem, but its potential for the second has thus far been under-explored. In this work, we investigate automatic generation of synthetic utterance-program pairs for improving compositional generalization in semantic parsing. Given a small training set of annotated examples and an "infinite" pool of synthetic examples, we select a subset of synthetic examples that are structurally-diverse and use them to improve compositional generalization. We evaluate our approach on a new split of the schema2QA dataset, and show that it leads to dramatic improvements in compositional generalization as well as moderate improvements in the traditional i.i.d setup. Moreover, structurally-diverse sampling achieves these improvements with as few as 5K examples, compared to 1M examples when sampling uniformly at random -- a 200x improvement in data efficiency.
翻訳日:2021-09-07 16:42:15 公開日:2021-09-06
# ランドスケープアニメーションのためのきめ細かい動き埋め込みの学習

Learning Fine-Grained Motion Embedding for Landscape Animation ( http://arxiv.org/abs/2109.02216v1 )

ライセンス: Link先を確認
Hongwei Xue, Bei Liu, Huan Yang, Jianlong Fu, Houqiang Li, Jiebo Luo(参考訳) 本稿では,風景画像からタイムラプス映像を生成するランドスケープアニメーションに焦点を当てた。 動きは、動画の中のオブジェクトの動きを決定するため、ランドスケープアニメーションにとって重要です。 既存の方法は、リアルタイムラプス動画から動きを学習することで、魅力的なビデオを生成することができる。 しかし、現在の手法は不正確な動き生成に苦しむため、非現実的なビデオ結果に繋がる。 ランドスケープアニメーションのためのファイングラインドモーション埋め込みを学習し,高品質でリアルな映像を生成するFGLAモデルを提案する。 本モデルは,(1)タイムラプス動作を微細な方法で埋め込むモーションエンコーダである。 2)アニメート入力画像に対して現実的な動きを生成するモーションジェネレータ。 さまざまなタイムラプスビデオを訓練し、評価するために、我々は、1000万フレームを超える16,874ビデオクリップを含む、さまざまなシーンを含む、最大の高解像度タイムラプスビデオデータセットを構築します。 定量的および定性的な実験結果から,本手法の優位性を示した。 特に,リピスでは19%,fvdでは5.6%改善した。 700人の被験者を対象に実施したユーザスタディでは,我々のアプローチが既存の手法よりも視覚的に優れていることが示された。

In this paper we focus on landscape animation, which aims to generate time-lapse videos from a single landscape image. Motion is crucial for landscape animation as it determines how objects move in videos. Existing methods are able to generate appealing videos by learning motion from real time-lapse videos. However, current methods suffer from inaccurate motion generation, which leads to unrealistic video results. To tackle this problem, we propose a model named FGLA to generate high-quality and realistic videos by learning Fine-Grained motion embedding for Landscape Animation. Our model consists of two parts: (1) a motion encoder which embeds time-lapse motion in a fine-grained way. (2) a motion generator which generates realistic motion to animate input images. To train and evaluate on diverse time-lapse videos, we build the largest high-resolution Time-lapse video dataset with Diverse scenes, namely Time-lapse-D, which includes 16,874 video clips with over 10 million frames. Quantitative and qualitative experimental results demonstrate the superiority of our method. In particular, our method achieves relative improvements by 19% on LIPIS and 5.6% on FVD compared with state-of-the-art methods on our dataset. A user study carried out with 700 human subjects shows that our approach visually outperforms existing methods by a large margin.
翻訳日:2021-09-07 16:36:43 公開日:2021-09-06
# 関係検証のためのグラフネットワークの推論:星型から階層型へ

Reasoning Graph Networks for Kinship Verification: from Star-shaped to Hierarchical ( http://arxiv.org/abs/2109.02219v1 )

ライセンス: Link先を確認
Wanhua Li, Jiwen Lu, Abudukelimu Wuerkaixi, Jianjiang Feng, and Jie Zhou(参考訳) 本稿では,階層的推論グラフネットワークを学習することにより,顔関係の検証の問題を検討する。 従来の方法は、ペアのサンプルの各顔画像の識別特徴を学習することに集中し、得られた2つの顔画像の特徴とそれらの関係の理由との融合を無視する。 そこで本研究では,星型推論グラフネットワーク(S-RGN)を提案する。 s-rgnはまず,各ノードが特徴量で比較情報をエンコードし,中心ノードが周辺ノード間の相互作用のブリッジとして利用される星型グラフを構築する。 次に、このスターグラフ上でリレーショナル推論を行い、反復メッセージパッシングを行う。 提案したS-RGNは1つの中央ノードのみを使用して、周囲のすべてのノードからの情報を分析し処理する。 さらに、より強力で柔軟なキャパシティを利用する階層型推論グラフネットワーク(H-RGN)を開発します。 より具体的には、我々のH-RGNは遅延推論ノードのセットを導入し、それらと階層グラフを構築します。 そして、階層グラフ上でボトムアップ比較情報抽象化とトップダウン総合信号伝搬を反復してノード特徴を更新する。 広範に使用される4つのkinshipデータベースの広範な実験結果から,提案手法が非常に競争力のある結果が得られることが示された。

In this paper, we investigate the problem of facial kinship verification by learning hierarchical reasoning graph networks. Conventional methods usually focus on learning discriminative features for each facial image of a paired sample and neglect how to fuse the obtained two facial image features and reason about the relations between them. To address this, we propose a Star-shaped Reasoning Graph Network (S-RGN). Our S-RGN first constructs a star-shaped graph where each surrounding node encodes the information of comparisons in a feature dimension and the central node is employed as the bridge for the interaction of surrounding nodes. Then we perform relational reasoning on this star graph with iterative message passing. The proposed S-RGN uses only one central node to analyze and process information from all surrounding nodes, which limits its reasoning capacity. We further develop a Hierarchical Reasoning Graph Network (H-RGN) to exploit more powerful and flexible capacity. More specifically, our H-RGN introduces a set of latent reasoning nodes and constructs a hierarchical graph with them. Then bottom-up comparative information abstraction and top-down comprehensive signal propagation are iteratively performed on the hierarchical graph to update the node features. Extensive experimental results on four widely used kinship databases show that the proposed methods achieve very competitive results.
翻訳日:2021-09-07 16:36:21 公開日:2021-09-06
# GDP: 異なる偏光を持つゲート経由の安定化ニューラルネットワークプルーニング

GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarization ( http://arxiv.org/abs/2109.02220v1 )

ライセンス: Link先を確認
Yi Guo, Huan Yuan, Jianchao Tan, Zhangyang Wang, Sen Yang, Ji Liu(参考訳) モデル圧縮技術は最近、様々なリアルタイムアプリケーションのための効率的なAIモデルを得るために爆発的な注目を集めている。 チャネルプルーニングは重要な圧縮戦略の一つであり、様々なDNNのスリム化に広く利用されている。 従来のゲートベースあるいは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としていた。 しかし、チャンネルの重要性を計測する基準は定かでないため、様々なチャンネル選択ヒューリスティックスに繋がる。 他のサンプリングベースのプルーニング手法では、サブネットをトレーニングするためのサンプリング戦略が展開され、トレーニングの不安定性や圧縮モデルの性能低下の原因となることが多い。 研究ギャップの観点からは,原理化された最適化アイデアに触発されたGates with Differentiable Polarization (GDP)と呼ばれる新しいモジュールを提案する。 gdpは、ベルやホイッスルなしで畳み込み層の前に差し込むことができ、各チャネルまたは全層ブロックのオン・オフを制御することができる。 トレーニングの過程では、偏極効果によってゲートのサブセットが滑らかにゼロに減少し、他のゲートは徐々に大きなマージンでゼロから遠ざかる。 トレーニングが終了すると、これらのゼロゲートチャネルは痛みなく除去され、他のゼロゲートは後続の畳み込みカーネルに吸収され、トレーニングの中断もトレーニングモデルの損傷も全く生じない。 CIFAR-10とImageNetデータセットを用いて行った実験により,提案したGDPアルゴリズムは,様々なベンチマークDNNにおいて,幅広いプルーニング比で最先端の性能を達成することが示された。 また、DeepLabV3Plus-ResNet 50では、テストパフォーマンスが60%以上のFLOPを節約した(わずかに改善した)Pascal VOCセグメンテーションタスクに対してGDPを適用しています。

Model compression techniques are recently gaining explosive attention for obtaining efficient AI models for various real-time applications. Channel pruning is one important compression strategy and is widely used in slimming various DNNs. Previous gate-based or importance-based pruning methods aim to remove channels whose importance is smallest. However, it remains unclear what criteria the channel importance should be measured on, leading to various channel selection heuristics. Some other sampling-based pruning methods deploy sampling strategies to train sub-nets, which often causes the training instability and the compressed model's degraded performance. In view of the research gaps, we present a new module named Gates with Differentiable Polarization (GDP), inspired by principled optimization ideas. GDP can be plugged before convolutional layers without bells and whistles, to control the on-and-off of each channel or whole layer block. During the training process, the polarization effect will drive a subset of gates to smoothly decrease to exact zero, while other gates gradually stay away from zero by a large margin. When training terminates, those zero-gated channels can be painlessly removed, while other non-zero gates can be absorbed into the succeeding convolution kernel, causing completely no interruption to training nor damage to the trained model. Experiments conducted over CIFAR-10 and ImageNet datasets show that the proposed GDP algorithm achieves the state-of-the-art performance on various benchmark DNNs at a broad range of pruning ratios. We also apply GDP to DeepLabV3Plus-ResNet 50 on the challenging Pascal VOC segmentation task, whose test performance sees no drop (even slightly improved) with over 60% FLOPs saving.
翻訳日:2021-09-07 16:36:01 公開日:2021-09-06
# GeneAnnotator:ビジュアルシーングラフのための半自動アノテーションツール

GeneAnnotator: A Semi-automatic Annotation Tool for Visual Scene Graph ( http://arxiv.org/abs/2109.02226v1 )

ライセンス: Link先を確認
Zhixuan Zhang, Chi Zhang, Zhenning Niu, Le Wang, Yuehu Liu(参考訳) 本稿では,画像のための半自動シーングラフアノテーションツールGeneAnnotatorを紹介する。 このソフトウェアは、人間のアノテータが視覚的シーンにおける参加者間の既存の関係を有向グラフ形式で記述し、画像キャプション、VQA、シーングラフ生成などの視覚的関係の学習と推論を可能にする。 特定の画像データセットに対するアノテーションは、シーングラフ学習のほとんどの既存モデルをサポートする単一のvg150データフォーマットファイルにマージするか、個々の画像に対して分離したアノテーションファイルに変換して、カスタマイズされたデータセットを構築することができる。 さらにGeneAnnotatorは、重いアノテーションのワークロードを減らすためのルールベースのリレーションシップ推奨アルゴリズムを提供する。 そこでgeneannotatorでは,1,000種類のトラヒック画像を含む総合的なシーングラフデータセットであるtraffic genomeを提案する。 使用例とサンプルデータを備えたプロジェクトのソースコードは、Apacheオープンソースライセンス下でhttps://github.com/M ilomilo0320/A-Semi-a utomatic-Annotation- for-Scene-Graphで公開されている。

In this manuscript, we introduce a semi-automatic scene graph annotation tool for images, the GeneAnnotator. This software allows human annotators to describe the existing relationships between participators in the visual scene in the form of directed graphs, hence enabling the learning and reasoning on visual relationships, e.g., image captioning, VQA and scene graph generation, etc. The annotations for certain image datasets could either be merged in a single VG150 data-format file to support most existing models for scene graph learning or transformed into a separated annotation file for each single image to build customized datasets. Moreover, GeneAnnotator provides a rule-based relationship recommending algorithm to reduce the heavy annotation workload. With GeneAnnotator, we propose Traffic Genome, a comprehensive scene graph dataset with 1000 diverse traffic images, which in return validates the effectiveness of the proposed software for scene graph annotation. The project source code, with usage examples and sample data is available at https://github.com/M ilomilo0320/A-Semi-a utomatic-Annotation- Software-for-Scene-G raph, under the Apache open-source license.
翻訳日:2021-09-07 16:35:31 公開日:2021-09-06
# 自然言語スーパービジョンからシーングラフを生成する学習

Learning to Generate Scene Graph from Natural Language Supervision ( http://arxiv.org/abs/2109.02227v1 )

ライセンス: Link先を確認
Yiwu Zhong, Jing Shi, Jianwei Yang, Chenliang Xu, Yin Li(参考訳) 画像テキストデータからの学習は多くの認識タスクで最近成功したが、現在は視覚機能やオブジェクトのような個々の視覚概念に限定されている。 本稿では,画像と文のペアから学習した最初の手法の1つとして,画像内の局所化オブジェクトとその関係性(シーングラフ)を抽出する手法を提案する。 画像とテキストのギャップを埋めるために,市販のオブジェクト検出器を利用してオブジェクトインスタンスを識別・ローカライズし,検出された領域のラベルをキャプションから解析した概念にマッチさせ,シーングラフを学習するための"pseudo"ラベルを作成する。 さらに,これらの「擬似」ラベルをマスク付きトークン予測タスクにより予測するトランスフォーマーモデルの設計を行う。 画像とシーンのペアのみから学習し,人間にアノテーションを付けないシーングラフで学習した最新の手法に対して,30%の相対利得を達成した。 また, 弱く, 完全に教師付されたシーングラフ生成の強い結果を示す。 さらに,シーングラフ検出のためのオープンボキャブラリー設定を探索し,オープンセットシーングラフ生成のための第1の結果を示す。 私たちのコードはhttps://github.com/Y iwuZhong/SGG_from_NL Sで利用可能です。

Learning from image-text data has demonstrated recent success for many recognition tasks, yet is currently limited to visual features or individual visual concepts such as objects. In this paper, we propose one of the first methods that learn from image-sentence pairs to extract a graphical representation of localized objects and their relationships within an image, known as scene graph. To bridge the gap between images and texts, we leverage an off-the-shelf object detector to identify and localize object instances, match labels of detected regions to concepts parsed from captions, and thus create "pseudo" labels for learning scene graph. Further, we design a Transformer-based model to predict these "pseudo" labels via a masked token prediction task. Learning from only image-sentence pairs, our model achieves 30% relative gain over a latest method trained with human-annotated unlocalized scene graphs. Our model also shows strong results for weakly and fully supervised scene graph generation. In addition, we explore an open-vocabulary setting for detecting scene graphs, and present the first result for open-set scene graph generation. Our code is available at https://github.com/Y iwuZhong/SGG_from_NL S.
翻訳日:2021-09-07 16:35:09 公開日:2021-09-06
# Vietoris-Rips複合体による画像認識

Image recognition via Vietoris-Rips complex ( http://arxiv.org/abs/2109.02231v1 )

ライセンス: Link先を確認
Yasuhiko Asao, Jumpei Nagase, Ryotaro Sakamoto, and Shiro Takagi(参考訳) 画像から情報的特徴を抽出することはコンピュータビジョンにおいて重要である。 本稿では,代数的トポロジに基づく手法により,画像からそのような特徴を抽出する方法を提案する。 そこで,画像の局所的な情報を抽出する重み付きグラフを画像から構築する。 この重み付きグラフを擬計量空間として考えることにより、代数トポロジーのよく知られたプロセスによりパラメータ $\varepsilon$ を持つビエトリス・リップス複体を構築する。 画像の複雑さに関する情報を抽出し,このVietoris-Rips複合体から比較的高い濃度の情報でサブイメージを検出する。 パラメータ $\varepsilon$ of the Vietoris-Rips complex は雑音に対するロバスト性をもたらす。 抽出した特徴が画像の特徴を捉えることを実証的に示す。

Extracting informative features from images has been of capital importance in computer vision. In this paper, we propose a way to extract such features from images by a method based on algebraic topology. To that end, we construct a weighted graph from an image, which extracts local information of an image. By considering this weighted graph as a pseudo-metric space, we construct a Vietoris-Rips complex with a parameter $\varepsilon$ by a well-known process of algebraic topology. We can extract information of complexity of the image and can detect a sub-image with a relatively high concentration of information from this Vietoris-Rips complex. The parameter $\varepsilon$ of the Vietoris-Rips complex produces robustness to noise. We empirically show that the extracted feature captures well images' characteristics.
翻訳日:2021-09-07 16:34:48 公開日:2021-09-06
# CTRL-C:線分別カメラキャリブレーションTRansformer

CTRL-C: Camera calibration TRansformer with Line-Classification ( http://arxiv.org/abs/2109.02259v1 )

ライセンス: Link先を確認
Jinwoo Lee and Hyunsung Go and Hyunjoon Lee and Sunghyun Cho and Minhyuk Sung and Junho Kim(参考訳) 単一画像カメラのキャリブレーション(single image camera calibration)は、消失点、焦点距離、地平線などの単一の入力画像からカメラパラメータを推定するタスクである。 本研究では,CTRL-Cを用いたカメラキャリブレーションTRansformerを提案する。これは,画像と線分からカメラパラメータを直接推定する,単一画像カメラキャリブレーションに対するエンドツーエンドのニューラルネットワークによるアプローチである。 本ネットワークは,マルチモーダル入力を用いた画像の全体構造をエンドツーエンドで捉えるためにトランスフォーマティブアーキテクチャを採用している。 また,回線からグローバルな幾何学的情報を効果的に抽出するために,ネットワークを訓練するためのライン分類の補助的タスクを提案する。 実験の結果,CTRL-CはGoogle Street ViewとSUN360ベンチマークのベンチマークデータにおいて,従来の最先端手法よりも優れていた。

Single image camera calibration is the task of estimating the camera parameters from a single input image, such as the vanishing points, focal length, and horizon line. In this work, we propose Camera calibration TRansformer with Line-Classification (CTRL-C), an end-to-end neural network-based approach to single image camera calibration, which directly estimates the camera parameters from an image and a set of line segments. Our network adopts the transformer architecture to capture the global structure of an image with multi-modal inputs in an end-to-end manner. We also propose an auxiliary task of line classification to train the network to extract the global geometric information from lines effectively. Our experiments demonstrate that CTRL-C outperforms the previous state-of-the-art methods on the Google Street View and SUN360 benchmark datasets.
翻訳日:2021-09-07 16:34:35 公開日:2021-09-06
# 映像シーン解析のための空間的意味的一貫性の爆発的展開

Exploiting Spatial-Temporal Semantic Consistency for Video Scene Parsing ( http://arxiv.org/abs/2109.02281v1 )

ライセンス: Link先を確認
Xingjian He, Weining Wang, Zhiyong Xu, Hao Wang, Jie Jiang, Jing Liu(参考訳) 画像シーン解析と比較すると,映像シーン解析は時間的情報を導入し,予測の一貫性と精度を効果的に向上させる。 本稿では,クラス排他的コンテキスト情報をキャプチャする空間時間意味一貫性手法を提案する。 具体的には,空間的および時間的次元における意味的一貫性を制約する空間的時間的一貫性損失を設計する。 さらに,トレーニングデータセットを充実させるために擬似ラベル戦略を採用する。 59.84%と58.85%のmIoUをそれぞれ開発(テストパート1)とVSPWのテストセットで取得した。 また,本手法はICCV2021でVSPWチャレンジで1位を獲得した。

Compared with image scene parsing, video scene parsing introduces temporal information, which can effectively improve the consistency and accuracy of prediction. In this paper, we propose a Spatial-Temporal Semantic Consistency method to capture class-exclusive context information. Specifically, we design a spatial-temporal consistency loss to constrain the semantic consistency in spatial and temporal dimensions. In addition, we adopt an pseudo-labeling strategy to enrich the training dataset. We obtain the scores of 59.84% and 58.85% mIoU on development (test part 1) and testing set of VSPW, respectively. And our method wins the 1st place on VSPW challenge at ICCV2021.
翻訳日:2021-09-07 16:34:22 公開日:2021-09-06
# 複数の画像から教師なし学習を施した写実的3次元物体再構成

Toward Realistic Single-View 3D Object Reconstructionwith Unsupervised Learning from Multiple Images ( http://arxiv.org/abs/2109.02288v1 )

ライセンス: Link先を確認
Long-Nhat Ho, Anh Tuan Tran, Quynh Phung, Minh Hoai(参考訳) 一つの画像から物体の3d構造を復元することは、その不適切な性質から難しい課題である。 1つのアプローチは、同じオブジェクトカテゴリの豊富な写真を利用して、オブジェクトの前に強い3D形状を学ぶことである。 このアプローチは、Wu et al の最近の研究によって実証された。 (2020) は教師なし学習による印象的な3次元再構成ネットワークを得た。 しかし、それらのアルゴリズムは対称対象のみに適用できる。 本稿では,マルチイメージデータセットから3次元再構成ネットワークを学習できる新しい教師なしアルゴリズムにより,対称性の要求を解消する。 我々のアルゴリズムはより一般的であり、特別な場合として対称性が要求されるシナリオをカバーする。 さらに、再建された細部と現実性を改善する新しいアルベド損失を用いる。 提案手法は,シングルビュー,マルチビュー,イメージコレクション,ビデオセットなど,さまざまな構造のデータセットを用いた実験で示されたように,品質とロバスト性の両方において従来の作業を超えている。

Recovering the 3D structure of an object from a single image is a challenging task due to its ill-posed nature. One approach is to utilize the plentiful photos of the same object category to learn a strong 3D shape prior for the object. This approach has successfully been demonstrated by a recent work of Wu et al. (2020), which obtained impressive 3D reconstruction networks with unsupervised learning. However, their algorithm is only applicable to symmetric objects. In this paper, we eliminate the symmetry requirement with a novel unsupervised algorithm that can learn a 3D reconstruction network from a multi-image dataset. Our algorithm is more general and covers the symmetry-required scenario as a special case. Besides, we employ a novel albedo loss that improves the reconstructed details and realisticity. Our method surpasses the previous work in both quality and robustness, as shown in experiments on datasets of various structures, including single-view, multi-view, image-collection, and video sets.
翻訳日:2021-09-07 16:34:11 公開日:2021-09-06
# マルチレベル注意型エンコーダデコーダによる3次元形状と姿勢推定

Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose Estimation ( http://arxiv.org/abs/2109.02303v1 )

ライセンス: Link先を確認
Ziniu Wan, Zhengjia Li, Maoqing Tian, Jianbo Liu, Shuai Yi, Hongsheng Li(参考訳) 3d人間の形状とポーズ推定は、多くの3dアプリケーションで広く使われている人間の動き分析に不可欠なタスクである。 しかし、既存の手法では、空間的時間的レベルと人間の関節レベルを含む複数のレベルの関係を同時に捉えることはできない。 そのため、乱雑な背景、閉塞、極端なポーズがある場合、いくつかの厳しいシナリオで正確な予測を行うことができない。 そこで本研究では,STE(Spatial-Tempora l Encoder)とKTD(Kinematic Topology Decoder)を含むマルチレベルアテンション・デコーダネットワーク(MAED)を提案する。 STEはマルチヘッド自己認識に基づく一連のカスケードブロックで構成され、各ブロックは2つの並列分岐を用いてそれぞれ空間的および時間的注意を学習する。 一方、ktdはジョイントレベルの注意をモデル化することを目指している。 ポーズ推定は、smplキネマティックツリーに似たトップダウン階層プロセスである。 3DPWのトレーニングセットにより、MAEDは3つの広く使用されているベンチマークである3DPW、MPI-INF-3DHP、Human3.6Mにおいて、PA-MPJPEの6.2、7.2、2.4mmの最先端の手法より優れている。 私たちのコードはhttps://github.com/z iniuwan/maedで入手できる。

3D human shape and pose estimation is the essential task for human motion analysis, which is widely used in many 3D applications. However, existing methods cannot simultaneously capture the relations at multiple levels, including spatial-temporal level and human joint level. Therefore they fail to make accurate predictions in some hard scenarios when there is cluttered background, occlusion, or extreme pose. To this end, we propose Multi-level Attention Encoder-Decoder Network (MAED), including a Spatial-Temporal Encoder (STE) and a Kinematic Topology Decoder (KTD) to model multi-level attentions in a unified framework. STE consists of a series of cascaded blocks based on Multi-Head Self-Attention, and each block uses two parallel branches to learn spatial and temporal attention respectively. Meanwhile, KTD aims at modeling the joint level attention. It regards pose estimation as a top-down hierarchical process similar to SMPL kinematic tree. With the training set of 3DPW, MAED outperforms previous state-of-the-art methods by 6.2, 7.2, and 2.4 mm of PA-MPJPE on the three widely used benchmarks 3DPW, MPI-INF-3DHP, and Human3.6M respectively. Our code is available at https://github.com/z iniuwan/maed.
翻訳日:2021-09-07 16:33:57 公開日:2021-09-06
# 行動検出のためのクラスセマンティクスに基づく注意

Class Semantics-based Attention for Action Detection ( http://arxiv.org/abs/2109.02613v1 )

ライセンス: Link先を確認
Deepak Sridhar, Niamul Quader, Srikanth Muralidharan, Yaoxin Li, Peng Dai, Juwei Lu(参考訳) アクションローカライズネットワークは、しばしば、機能エンコーダサブネットワークとローカライズサブネットワークとして構成され、機能エンコーダは、入力されたビデオを、信頼できるアクションプロポーザルを生成するために、ローカライズサブネットワークに有用な機能に変換することを学ぶ。 符号化された機能のいくつかはアクションプロポーザルを生成するのに有用であるが、事前のアクションローカライゼーションアプローチには、ローカライゼーションサブネットワークがより重要な機能にもっと参加できるような注意機構が一切含まれていない。 本稿では、入力ビデオに存在するアクションクラスの意味論の時間的分布から学習し、符号化された特徴の重要点を見つけるための新しい注意機構であるクラスセマンティックス・アテンション(CSA)を提案する。 我々は、我々の新しい注意機構を取り入れた2つの一般的なアクション検出データセットについて、競合するアクション検出モデル(例えば、BMNアクション検出ベースラインを約6.2%改善してTHUMOS-14データセットで47.5% mAPを得る)と、ActivityNet v1.3データセットで36.25% mAPの新たな最先端技術を提供する。 さらに、BMN-CSAを含むCSAローカライゼーションモデルファミリは、2021年のActivityNetアクションローカライゼーションチャレンジで第2位となった。 注意機構は、動作検出タスクにおける押し出し・押出しなどの自己着脱モジュールよりも優れる。 また,これらの自己着脱モジュールを補完する機構として,両者が併用された際に性能改善が見られることを確認した。

Action localization networks are often structured as a feature encoder sub-network and a localization sub-network, where the feature encoder learns to transform an input video to features that are useful for the localization sub-network to generate reliable action proposals. While some of the encoded features may be more useful for generating action proposals, prior action localization approaches do not include any attention mechanism that enables the localization sub-network to attend more to the more important features. In this paper, we propose a novel attention mechanism, the Class Semantics-based Attention (CSA), that learns from the temporal distribution of semantics of action classes present in an input video to find the importance scores of the encoded features, which are used to provide attention to the more useful encoded features. We demonstrate on two popular action detection datasets that incorporating our novel attention mechanism provides considerable performance gains on competitive action detection models (e.g., around 6.2% improvement over BMN action detection baseline to obtain 47.5% mAP on the THUMOS-14 dataset), and a new state-of-the-art of 36.25% mAP on the ActivityNet v1.3 dataset. Further, the CSA localization model family which includes BMN-CSA, was part of the second-placed submission at the 2021 ActivityNet action localization challenge. Our attention mechanism outperforms prior self-attention modules such as the squeeze-and-excitati on in action detection task. We also observe that our attention mechanism is complementary to such self-attention modules in that performance improvements are seen when both are used together.
翻訳日:2021-09-07 16:33:32 公開日:2021-09-06
# 教師なしドメイン適応によるイベントとフレーム間のギャップの橋渡し

Bridging the Gap between Events and Frames through Unsupervised Domain Adaptation ( http://arxiv.org/abs/2109.02618v1 )

ライセンス: Link先を確認
Nico Messikommer, Daniel Gehrig, Mathias Gehrig, Davide Scaramuzza(参考訳) イベントカメラは、高時間分解能や高ダイナミックレンジといった優れた特性を持つ新しいセンサーである。 これらの特徴にもかかわらず、イベントベースのビジョンは、イベントカメラの新規性によるラベル付きデータセットの不足によって後退してきた。 この欠点を克服するために,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。 従来の手法と比較して, (i) 高フレームレートビデオではなく, 単一画像からイベントへ転送する手法であり, (ii) 対のセンサデータに依存しない。 これを実現するために、生成イベントモデルを用いて、イベント特徴をコンテンツとモーション特徴に分割する。 この機能分割は、タスク転送の成功に不可欠であるイベントやイメージの遅延スペースを効率的にマッチングすることを可能にする。 これにより、既存の膨大な画像データセットを解き放ち、イベントベースのニューラルネットワークのトレーニングを行う。 タスク転送法は,オブジェクト検出のための教師なし領域適応設定に適用できる手法を0.26map (93%増加) と2.7%精度で分類した。

Event cameras are novel sensors with outstanding properties such as high temporal resolution and high dynamic range. Despite these characteristics, event-based vision has been held back by the shortage of labeled datasets due to the novelty of event cameras. To overcome this drawback, we propose a task transfer method that allows models to be trained directly with labeled images and unlabeled event data. Compared to previous approaches, (i) our method transfers from single images to events instead of high frame rate videos, and (ii) does not rely on paired sensor data. To achieve this, we leverage the generative event model to split event features into content and motion features. This feature split enables to efficiently match the latent space for events and images, which is crucial for a successful task transfer. Thus, our approach unlocks the vast amount of existing image datasets for the training of event-based neural networks. Our task transfer method consistently outperforms methods applicable in the Unsupervised Domain Adaptation setting for object detection by 0.26 mAP (increase by 93%) and classification by 2.7% accuracy.
翻訳日:2021-09-07 16:33:01 公開日:2021-09-06
# ERA: Wasserstein GAN によるビデオ要約を意識したエンティティ関係

ERA: Entity Relationship Aware Video Summarization with Wasserstein GAN ( http://arxiv.org/abs/2109.02625v1 )

ライセンス: Link先を確認
Guande Wu, Jianzhe Lin, Claudio T. Silva(参考訳) ビデオ要約は、オリジナルビデオから分岐するがうまく表現される簡潔で短い要約を生成することによって、大規模なビデオブラウジングを単純化することを目的としている。 ビデオアノテーションの不足により、ビデオ要約の最近の進歩は教師なし手法に集中しており、中でもGANに基づく手法が最も一般的である。 この種の方法は要約器と判別器を含む。 要約器からの要約映像を最終出力とみなすが、この要約から再構成された映像を判別器で原ビデオと判別できない場合のみである。 この GAN ベースの手法の主な問題は 2 つの折り畳みである。 まず、要約されたビデオは、冗長性の低いオリジナルビデオのサブセットであり、優先度の高いイベント/エンティティを含んでいる。 この要約基準は不十分である。 第二に、GANフレームワークのトレーニングは安定していない。 本稿では、上記の問題に対処する新しいエンティティ関係対応ビデオ要約手法(ERA)を提案する。 より具体的には、エンティティ間の関係を構築するためのAdversarial Spatio Temporal Networkを導入する。 GANトレーニング問題は、Wasserstein GANと、新たに提案された2つのビデオパッチ/スコア和損失を導入することで解決される。 さらに、スコアの総和損失は、現在のほとんどのビデオ分析タスクに固有の問題である様々なビデオ長に対するモデルの感度を和らげることもできる。 本手法は,目標とするベンチマークデータセットの性能を大幅に向上させ,CSNetの現在のリーダボードランク1の状態を上回り,TVSumでは2.1%,SumMeでは3.1%)。 直感的で効果的なアプローチが、教師なしのビデオ要約の将来の研究に光を当てることを願っています。

Video summarization aims to simplify large scale video browsing by generating concise, short summaries that diver from but well represent the original video. Due to the scarcity of video annotations, recent progress for video summarization concentrates on unsupervised methods, among which the GAN based methods are most prevalent. This type of methods includes a summarizer and a discriminator. The summarized video from the summarizer will be assumed as the final output, only if the video reconstructed from this summary cannot be discriminated from the original one by the discriminator. The primary problems of this GAN based methods are two folds. First, the summarized video in this way is a subset of original video with low redundancy and contains high priority events/entities. This summarization criterion is not enough. Second, the training of the GAN framework is not stable. This paper proposes a novel Entity relationship Aware video summarization method (ERA) to address the above problems. To be more specific, we introduce an Adversarial Spatio Temporal network to construct the relationship among entities, which we think should also be given high priority in the summarization. The GAN training problem is solved by introducing the Wasserstein GAN and two newly proposed video patch/score sum losses. In addition, the score sum loss can also relieve the model sensitivity to the varying video lengths, which is an inherent problem for most current video analysis tasks. Our method substantially lifts the performance on the target benchmark datasets and exceeds the current leaderboard Rank 1 state of the art CSNet (2.1% F1 score increase on TVSum and 3.1% F1 score increase on SumMe). We hope our straightforward yet effective approach will shed some light on the future research of unsupervised video summarization.
翻訳日:2021-09-07 16:32:42 公開日:2021-09-06
# クラスタアームを用いたバンドのトンプソンサンプリング

Thompson Sampling for Bandits with Clustered Arms ( http://arxiv.org/abs/2109.01656v1 )

ライセンス: Link先を確認
Emil Carlsson, Devdatt Dubhashi, Fredrik D. Johansson(参考訳) そこで本研究では,多段階トンプソンサンプリングスキームに基づくアルゴリズムを提案する。 理論上および実証的に、与えられたクラスター構造を利用すると、標準のトンプソンサンプリングを用いた場合と比較して、後悔や計算コストが著しく向上することを示した。 確率的多腕バンディットの場合、我々は、クラスタの質にどのように依存するかを示す期待累積後悔の上限を与える。 最後に,前述した群腕付きバンディットのアルゴリズムと比較して,アルゴリズムの性能が良好であることを示す経験的評価を行った。

We propose algorithms based on a multi-level Thompson sampling scheme, for the stochastic multi-armed bandit and its contextual variant with linear expected rewards, in the setting where arms are clustered. We show, both theoretically and empirically, how exploiting a given cluster structure can significantly improve the regret and computational cost compared to using standard Thompson sampling. In the case of the stochastic multi-armed bandit we give upper bounds on the expected cumulative regret showing how it depends on the quality of the clustering. Finally, we perform an empirical evaluation showing that our algorithms perform well compared to previously proposed algorithms for bandits with clustered arms.
翻訳日:2021-09-07 16:32:16 公開日:2021-09-06
# 生成逆ネットワークの勾配正規化

Gradient Normalization for Generative Adversarial Networks ( http://arxiv.org/abs/2109.02235v1 )

ライセンス: Link先を確認
Yi-Lun Wu, Hong-Han Shuai, Zhi-Rui Tam, Hong-Yu Chiu(参考訳) 本稿では,鋭い勾配空間に起因する生成逆ネットワーク(gans)のトレーニング不安定性に取り組むために,勾配正規化(gn)と呼ばれる新しい正規化法を提案する。 勾配のペナルティやスペクトル正規化のような既存の研究とは異なり、提案されたGNは判別器関数にハード1-Lipschitz制約を課すだけで、判別器の容量が増加する。 さらに,提案する勾配正規化は,変更の少ない異なるganアーキテクチャに適用できる。 4つのデータセットに対する大規模な実験により、GANが勾配正規化で訓練された場合、Frechet Inception DistanceとInception Scoreの両方の観点から既存の手法よりも優れていることが示された。

In this paper, we propose a novel normalization method called gradient normalization (GN) to tackle the training instability of Generative Adversarial Networks (GANs) caused by the sharp gradient space. Unlike existing work such as gradient penalty and spectral normalization, the proposed GN only imposes a hard 1-Lipschitz constraint on the discriminator function, which increases the capacity of the discriminator. Moreover, the proposed gradient normalization can be applied to different GAN architectures with little modification. Extensive experiments on four datasets show that GANs trained with gradient normalization outperform existing methods in terms of both Frechet Inception Distance and Inception Score.
翻訳日:2021-09-07 16:30:01 公開日:2021-09-06
# マルチグラフ脳データを用いたグラフニューラルネットワークの再現性の定量化

Quantifying the Reproducibility of Graph Neural Networks using Multigraph Brain Data ( http://arxiv.org/abs/2109.02248v1 )

ライセンス: Link先を確認
Mohammed Amine Gharsallaoui and Islem Rekik(参考訳) グラフニューラルネットワーク(GNN)は、コンピュータビジョン、コンピュータ支援診断、および関連分野におけるいくつかの問題に取り組む際に、前例のない増殖を目撃している。 従来の研究はモデルの正確性の向上に重点を置いてきたが、gnnによって特定された最も識別可能な特徴の再現性を定量化することは、特に臨床応用における信頼性に関する懸念を生じさせる未解決の問題である。 特に、臨床データセットをまたいだ生物学的マーカーの再現性や、クラス(例えば、健康な脳や障害のある脳)間での分布シフトは、疾患の根底にあるメカニズムを明らかにし、パーソナライズされた治療の開発を促進する上で重要である。 これらの課題に動機づけられ、まず、異なるモデル間で共有される最も識別的な特徴(バイオマーカー)の定量化による、gnn再現性評価のためのフレームワークである、再現性に基づくgnn選択(rg-select)を提案する。 枠組みの健全性を確認するため,再現性評価では,トレーニング戦略やデータの摂動といったさまざまな要因が取り入れられている。 これらの課題にもかかわらず、我々のフレームワークは様々なトレーニング戦略と様々な臨床データセットで再現可能な結論を得ることに成功した。 その結果,コンピュータ支援診断および予後診断のためのバイオマーカー信頼性および信頼性評価手法の開発への道を開くことができた。 RG-SelectコードはGitHubでhttps://github.com/b asiralab/RG-Selectで公開されている。

Graph neural networks (GNNs) have witnessed an unprecedented proliferation in tackling several problems in computer vision, computer-aided diagnosis, and related fields. While prior studies have focused on boosting the model accuracy, quantifying the reproducibility of the most discriminative features identified by GNNs is still an intact problem that yields concerns about their reliability in clinical applications in particular. Specifically, the reproducibility of biological markers across clinical datasets and distribution shifts across classes (e.g., healthy and disordered brains) is of paramount importance in revealing the underpinning mechanisms of diseases as well as propelling the development of personalized treatment. Motivated by these issues, we propose, for the first time, reproducibility-base d GNN selection (RG-Select), a framework for GNN reproducibility assessment via the quantification of the most discriminative features (i.e., biomarkers) shared between different models. To ascertain the soundness of our framework, the reproducibility assessment embraces variations of different factors such as training strategies and data perturbations. Despite these challenges, our framework successfully yielded replicable conclusions across different training strategies and various clinical datasets. Our findings could thus pave the way for the development of biomarker trustworthiness and reliability assessment methods for computer-aided diagnosis and prognosis tasks. RG-Select code is available on GitHub at https://github.com/b asiralab/RG-Select.
翻訳日:2021-09-07 16:29:46 公開日:2021-09-06
# フェデレーション学習における2次最適化法について

On Second-order Optimization Methods for Federated Learning ( http://arxiv.org/abs/2109.02388v1 )

ライセンス: Link先を確認
Sebastian Bischoff, Stephan G\"unnemann, Martin Jaggi, Sebastian U. Stich(参考訳) フェデレーション学習 (federated learning, fl) を考えると,トレーニングデータは多数のクライアントに分散する。 この設定における標準的な最適化方法はフェデレーション平均化(FedAvg)であり、通信ラウンド間で複数の局所的な一階最適化ステップを実行する。 そこで本研究では,コンバージェンス特性を持つことを約束するFL設定において,局所的なステップを持つ2階分散手法の性能を評価する。 我々は,FedAvgが,前回の結果とは対照的に,公正な測定値(局所計算量)で評価した場合,2次競合に対して驚くほど高い性能を示すことを示す。 そこで本研究では,第2次局所情報を更新に利用し,その結果の局所的特異性に対抗すべく,グローバルライン探索を行う新しい手法を提案する。

We consider federated learning (FL), where the training data is distributed across a large number of clients. The standard optimization method in this setting is Federated Averaging (FedAvg), which performs multiple local first-order optimization steps between communication rounds. In this work, we evaluate the performance of several second-order distributed methods with local steps in the FL setting which promise to have favorable convergence properties. We (i) show that FedAvg performs surprisingly well against its second-order competitors when evaluated under fair metrics (equal amount of local computations)-in contrast to the results of previous work. Based on our numerical study, we propose (ii) a novel variant that uses second-order local information for updates and a global line search to counteract the resulting local specificity.
翻訳日:2021-09-07 16:29:22 公開日:2021-09-06
# エラー制御アクタ臨界

Error Controlled Actor-Critic ( http://arxiv.org/abs/2109.02517v1 )

ライセンス: Link先を確認
Xingen Gao, Fei Chao, Changle Zhou, Zhen Ge, Chih-Min Lin, Longzhi Yang, Xiang Chang, and Changjing Shang(参考訳) 値関数の誤差は必然的に過大評価現象を引き起こし、アルゴリズムの収束に悪影響を及ぼす。 近似誤差の負の効果を緩和するために,値関数の近似誤差を封じ込めた誤差制御アクタ-クリティックを提案する。 本稿では,アクター-批判的手法の最適化過程において近似誤差がどのように影響するかを分析するとともに,q関数近似器の近似誤差の上界を導出し,方針を訓練する際にkl-divergenceを制約することにより誤差を低減できることを示す。 一連の連続制御タスクにおける実験の結果,提案手法は近似誤差を低減し,他のモデルフリーなrlアルゴリズムを著しく上回ることがわかった。

On error of value function inevitably causes an overestimation phenomenon and has a negative impact on the convergence of the algorithms. To mitigate the negative effects of the approximation error, we propose Error Controlled Actor-critic which ensures confining the approximation error in value function. We present an analysis of how the approximation error can hinder the optimization process of actor-critic methods.Then, we derive an upper boundary of the approximation error of Q function approximator and find that the error can be lowered by restricting on the KL-divergence between every two consecutive policies when training the policy. The results of experiments on a range of continuous control tasks demonstrate that the proposed actor-critic algorithm apparently reduces the approximation error and significantly outperforms other model-free RL algorithms.
翻訳日:2021-09-07 16:28:49 公開日:2021-09-06
# サンプリングに基づくニューラルネットワークアンサンブル検索によるニューラルネットワークの探索

Going Beyond Neural Architecture Search with Sampling-based Neural Ensemble Search ( http://arxiv.org/abs/2109.02533v1 )

ライセンス: Link先を確認
Yao Shu, Yizhou Chen, Zhongxiang Dai, Bryan Kian Hsiang Low(参考訳) 近年、ディープニューラルネットワークの設計を自動化するために、NAS(Neural Architecture Search)が広く採用されている。 探索コストを削減し、最終選択アーキテクチャの一般化性能を向上させるため、様々なNASアルゴリズムが提案されている。 しかしながら、これらのNASアルゴリズムは、探索空間から1つのニューラルネットワークアーキテクチャのみを選択することを目的としており、最終的な選択アーキテクチャの性能向上に寄与する他の候補アーキテクチャの能力を見落としている。 この目的のために我々は,NAS検索空間からニューラルネットワークのアンサンブルを効果的かつ効率的に選択できる,Neural Ensemble Search via Smpling (NESS) フレームワークの2つの新しいサンプリングアルゴリズムを提案する。 最新のNASアルゴリズムや他のよく知られたアンサンブル検索ベースラインと比較して、NESSアルゴリズムは、これらのNASアルゴリズムに匹敵する検索コストを発生させながら、様々なベンチマークデータセット上の分類タスクと対角防御タスクの両方において、改善されたパフォーマンスを実現することができる。

Recently, Neural Architecture Search (NAS) has been widely applied to automate the design of deep neural networks. Various NAS algorithms have been proposed to reduce the search cost and improve the generalization performance of those final selected architectures. However, these NAS algorithms aim to select only a single neural architecture from the search spaces and thus have overlooked the capability of other candidate architectures in helping improve the performance of their final selected architecture. To this end, we present two novel sampling algorithms under our Neural Ensemble Search via Sampling (NESS) framework that can effectively and efficiently select a well-performing ensemble of neural architectures from NAS search space. Compared with state-of-the-art NAS algorithms and other well-known ensemble search baselines, our NESS algorithms are shown to be able to achieve improved performance in both classification and adversarial defense tasks on various benchmark datasets while incurring a comparable search cost to these NAS algorithms.
翻訳日:2021-09-07 16:28:36 公開日:2021-09-06
# esmamds: より多様な例外的サバイバルモデルマイニングアプローチ

EsmamDS: A more diverse exceptional survival model mining approach ( http://arxiv.org/abs/2109.02610v1 )

ライセンス: Link先を確認
Juliana Barcellos Mattos, Paulo S. G. de Mattos Neto, Renato Vimieiro(参考訳) 文学における様々な研究は、生存行動に関連する要因を解明しようと試みている。 しかし、そのような情報を提供するための計算ツールは、(生存)事象が起こるかどうかを予測するために設計されたグローバルモデルである。 生存行動の違いを説明する問題にアプローチする場合、これらのアプローチはリスク階層化に続く予測的特徴(推定)に依存する。 言い換えれば、生存に関連する要因に関する新しい情報を見つける能力がないということだ。 対照的に,このような問題を記述的教師付きパターンマイニングの観点からアプローチし,生存行動の異なる局所パターンを探索する。 そこで,我々はesmamdsアルゴリズムを紹介する。これは,カプラン・マイアー推定によって与えられた,異常生存モデルを示す部分群の簡単な特徴付けを提供する,例外的なモデルマイニングフレームワークである。 この研究はEsmamアルゴリズムに基づいてパターン冗長性の問題に対処し、生存行動のより情報的で多様な特徴付けを提供する。

A variety of works in the literature strive to uncover the factors associated with survival behaviour. However, the computational tools to provide such information are global models designed to predict if or when a (survival) event will occur. When approaching the problem of explaining differences in survival behaviour, those approaches rely on (assumptions of) predictive features followed by risk stratification. In other words, they lack the ability to discover new information on factors related to survival. In contrast, we approach such a problem from the perspective of descriptive supervised pattern mining to discover local patterns associated with different survival behaviours. Hence, we introduce the EsmamDS algorithm: an Exceptional Model Mining framework to provide straightforward characterisations of subgroups presenting unusual survival models -- given by the Kaplan-Meier estimates. This work builds on the Esmam algorithm to address the problem of pattern redundancy and provide a more informative and diverse characterisation of survival behaviour.
翻訳日:2021-09-07 16:28:17 公開日:2021-09-06
# 認知症者のための発達モデルに基づくロボット支援想起療法の学習に基づく戦略設計

Learning-Based Strategy Design for Robot-Assisted Reminiscence Therapy Based on a Developed Model for People with Dementia ( http://arxiv.org/abs/2109.02194v1 )

ライセンス: Link先を確認
Fengpei Yuan, Ran Zhang, Dania Bilal and Xiaopeng Zhao(参考訳) 本稿では,認知症(PwDs)患者に対する心理社会的介入として,ロボット支援型反省療法(RT)について検討する。 本研究では,PwDを刺激する強化学習によるロボットの会話戦略を提案する。 具体的には、ロボットの動作に対するPwDの確率的反応を特徴付けるために、応答関係、感情レベル、混乱状態からなる異なるPwD状態間の遷移確率を特徴付けるPwDのシミュレーションモデルを開発した。 そして、ロボットの最適な会話戦略を達成するためにq-learning(ql)アルゴリズムが設計される。 目的は、PwDの状態をできるだけ肯定的に保ちながら、PwDができるだけ話すように刺激することである。 ある条件下では、達成された戦略は、PwDがトピックを継続または変更するか、あるいは会話を止めるかの選択を与えるので、PwDは会話のストレスを軽減するための制御の感覚を持つ。 これを実現するため、標準のQLアルゴリズムが改訂され、PwDの選択の影響をQ値更新に意図的に統合する。 最後に,シミュレーションにより,学習の収束を実証し,達成した戦略の有効性を検証する。 テストの結果、PwDの状態に応じてプロンプトの難易度を的確に調整し、悪い状態からPwDを助けるためのアクション(例えば、プロンプトの繰り返しや説明、快適さ)を採り、悪い状態が続くときにPwDが会話の傾向を制御できるようにする。

In this paper, the robot-assisted Reminiscence Therapy (RT) is studied as a psychosocial intervention to persons with dementia (PwDs). We aim at a conversation strategy for the robot by reinforcement learning to stimulate the PwD to talk. Specifically, to characterize the stochastic reactions of a PwD to the robot's actions, a simulation model of a PwD is developed which features the transition probabilities among different PwD states consisting of the response relevance, emotion levels and confusion conditions. A Q-learning (QL) algorithm is then designed to achieve the best conversation strategy for the robot. The objective is to stimulate the PwD to talk as much as possible while keeping the PwD's states as positive as possible. In certain conditions, the achieved strategy gives the PwD choices to continue or change the topic, or stop the conversation, so that the PwD has a sense of control to mitigate the conversation stress. To achieve this, the standard QL algorithm is revised to deliberately integrate the impact of PwD's choices into the Q-value updates. Finally, the simulation results demonstrate the learning convergence and validate the efficacy of the achieved strategy. Tests show that the strategy is capable to duly adjust the difficulty level of prompt according to the PwD's states, take actions (e.g., repeat or explain the prompt, or comfort) to help the PwD out of bad states, and allow the PwD to control the conversation tendency when bad states continue.
翻訳日:2021-09-07 16:26:07 公開日:2021-09-06
# 人工知能と可視化によるインサイダー脅威の検出

Detection of Insider Threats using Artificial Intelligence and Visualisation ( http://arxiv.org/abs/2109.02417v1 )

ライセンス: Link先を確認
Vasileios Koutsouvelis, Stavros Shiaeles, Bogdan Ghita, Gueltoum Bendiab(参考訳) インサイダー脅威は、企業や組織のITシステムやインフラにとって最も有害なリスク要因の1つであり、インサイダー脅威の特定が世界学術研究コミュニティの関心を喚起し、その潜在的な影響を軽減するためのいくつかのソリューションが提案されている。 本研究で記述された実験ステージの実装のために、畳み込みニューラルネットワーク(convolutional neural network, cnn)アルゴリズムは、利用可能なデータセットから生成されたイメージから潜在的な脅威を特定するようにトレーニングされたgoogle tensorflowプログラムを通じて使用され、実装された。 生成された画像と機械学習の助けを借りて、情報システムに対して、各ユーザのアクティビティが悪意あるものとして分類されているかどうかという疑問に答えた。

Insider threats are one of the most damaging risk factors for the IT systems and infrastructure of a company or an organization; identification of insider threats has prompted the interest of the world academic research community, with several solutions having been proposed to alleviate their potential impact. For the implementation of the experimental stage described in this study, the Convolutional Neural Network (from now on CNN) algorithm was used and implemented via the Google TensorFlow program, which was trained to identify potential threats from images produced by the available dataset. From the examination of the images that were produced and with the help of Machine Learning, the question of whether the activity of each user is classified as malicious or not for the Information System was answered.
翻訳日:2021-09-07 16:25:40 公開日:2021-09-06
# ViSTA: 仮想シナリオに基づく自動運転車のテストフレームワーク

ViSTA: a Framework for Virtual Scenario-based Testing of Autonomous Vehicles ( http://arxiv.org/abs/2109.02529v1 )

ライセンス: Link先を確認
Andrea Piazzoni, Jim Cherian, Mohamed Azhar, Jing Yew Yap, James Lee Wei Shung, Roshan Vijay(参考訳) 本稿では,2021年のIEEE Autonomous Test Driving AI Test Challengeの一環として開発された,仮想シナリオベースの自律走行テスト(AV)フレームワークであるViSTAを紹介する。 シナリオベースの仮想テストは、現実の世界に必ずしも似ていない仮想テスト環境では、AVが克服すべき特定の課題を構築することを目的としている。 このアプローチは、道路へのavの実際の配備前に、安全上の懸念を引き起こす特定の問題を特定することを目的としている。 本稿では,テストケースを自動と手動の両方で構成し,両者の強みと弱みを生かして,有意義なパラメータを持つ専用シナリオの設計を容易にする総合的なテストケース生成手法について述べる。 さらに、テストケースの実行を自動化する方法を説明し、これらのテストケースにおけるavの性能を分析する。

In this paper, we present ViSTA, a framework for Virtual Scenario-based Testing of Autonomous Vehicles (AV), developed as part of the 2021 IEEE Autonomous Test Driving AI Test Challenge. Scenario-based virtual testing aims to construct specific challenges posed for the AV to overcome, albeit in virtual test environments that may not necessarily resemble the real world. This approach is aimed at identifying specific issues that arise safety concerns before an actual deployment of the AV on the road. In this paper, we describe a comprehensive test case generation approach that facilitates the design of special-purpose scenarios with meaningful parameters to form test cases, both in automated and manual ways, leveraging the strength and weaknesses of either. Furthermore, we describe how to automate the execution of test cases, and analyze the performance of the AV under these test cases.
翻訳日:2021-09-07 16:24:59 公開日:2021-09-06
# IoTのためのネットワークトラフィックプロファイリングと機械学習を用いた侵入検出

Intrusion Detection using Network Traffic Profiling and Machine Learning for IoT ( http://arxiv.org/abs/2109.02544v1 )

ライセンス: Link先を確認
Joseph Rose, Matthew Swann, Gueltoum Bendiab, Stavros Shiaeles, Nicholas Kolokotronis(参考訳) IoTデバイスの使用の急速な増加は、効率の改善から生産性の向上に至るまで、デジタル社会に多くのメリットをもたらします。 しかし、限られたリソースとこれらのデバイスのオープンな性質は、様々なサイバー脅威に対して脆弱である。 単一のデバイスがネットワーク全体に影響を与え、セキュリティと物理的ダメージを与える可能性がある。 本稿では,ネットワークプロファイリングと機械学習によるiotのサイバー攻撃対策の可能性について検討する。 提案手法は,iotデバイスの改ざんや不審なネットワークトランザクションを検出するために,ネットワークデバイスをすべて動的かつアクティブにプロファイルし,監視するものである。 定義されたプロファイルからの逸脱は攻撃と見なされ、さらなる分析の対象となる。 生トラフィックは、潜在的攻撃の検査と識別のために機械学習分類器に渡される。 提案手法の性能評価は,通常のネットワークトラフィックと悪意のあるネットワークトラフィックを用いたサイバートラストテストで実施する。 実験の結果, 提案手法は, 98.35%, 0.98%の誤検出率で有望な結果が得られることがわかった。

The rapid increase in the use of IoT devices brings many benefits to the digital society, ranging from improved efficiency to higher productivity. However, the limited resources and the open nature of these devices make them vulnerable to various cyber threats. A single compromised device can have an impact on the whole network and lead to major security and physical damages. This paper explores the potential of using network profiling and machine learning to secure IoT against cyber-attacks. The proposed anomaly-based intrusion detection solution dynamically and actively profiles and monitors all networked devices for the detection of IoT device tampering attempts as well as suspicious network transactions. Any deviation from the defined profile is considered to be an attack and is subject to further analysis. Raw traffic is also passed on to the machine learning classifier for examination and identification of potential attacks. Performance assessment of the proposed methodology is conducted on the Cyber-Trust testbed using normal and malicious network traffic. The experimental results show that the proposed anomaly detection system delivers promising results with an overall accuracy of 98.35% and 0.98% of false-positive alarms.
翻訳日:2021-09-07 16:24:45 公開日:2021-09-06
# ディープオートエンコーダと変分オートエンコーダニューラルネットワークを用いたインサイダー検出

Insider Detection using Deep Autoencoder and Variational Autoencoder Neural Networks ( http://arxiv.org/abs/2109.02568v1 )

ライセンス: Link先を確認
Efthimios Pantelidis, Gueltoum Bendiab, Stavros Shiaeles, Nicholas Kolokotronis(参考訳) インサイダー攻撃は、企業、企業、そして重要なインフラにとって最も困難なサイバーセキュリティ問題の一つだ。 実施された防御にもかかわらず、この種の攻撃のリスクは依然として非常に高い。 実際、インサイダー攻撃の検出は非常に複雑なセキュリティタスクであり、研究コミュニティにとって深刻な課題となっている。 本稿では,ディープラーニングアルゴリズムのオートエンコーダと変分オートエンコーダのdeepを用いてこの問題に対処する。 特に、人間の介入なしに、内部の脅威を自動的に防ぐためにこれらのアルゴリズムを適用することの有用性について検討する。 これら2つのモデルの有効性は、CERTデータセット(CERT r4.2)で評価される。 このバージョンのCERT Insider Threat Testデータセットには、1000のシミュレーションユーザから生成される良性および悪意のあるアクティビティが含まれている。 他のモデルとの比較結果から、変分オートエンコーダニューラルネットワークは、より検出精度が高く、妥当な偽陽性率で最高の全体的な性能を提供することが示された。

Insider attacks are one of the most challenging cybersecurity issues for companies, businesses and critical infrastructures. Despite the implemented perimeter defences, the risk of this kind of attack is still very high. In fact, the detection of insider attacks is a very complicated security task and presents a serious challenge to the research community. In this paper, we aim to address this issue by using deep learning algorithms Autoencoder and Variational Autoencoder deep. We will especially investigate the usefulness of applying these algorithms to automatically defend against potential internal threats, without human intervention. The effectiveness of these two models is evaluated on the public dataset CERT dataset (CERT r4.2). This version of the CERT Insider Threat Test dataset includes both benign and malicious activities generated from 1000 simulated users. The comparison results with other models show that the Variational Autoencoder neural network provides the best overall performance with a greater detection accuracy and a reasonable false positive rate
翻訳日:2021-09-07 16:24:28 公開日:2021-09-06
# 最小化器に収束するジェネリック定義可能な関数上の確率的下勾配

Stochastic Subgradient Descent on a Generic Definable Function Converges to a Minimizer ( http://arxiv.org/abs/2109.02455v1 )

ライセンス: Link先を確認
Sholom Schechtman(参考訳) Davis と Drusvyatskiy は以前、一般半代数的(そしてより一般には O-極小構造で定義できる)クラークのすべての臨界点は、弱凸函数が活性多様体上にあり、局所最小あるいは活性厳密なサドルであることを示した。 この研究の最初の部分では、弱い凸性の仮定が失敗したとき、第三のタイプの点が現れる:鋭く反発的な臨界点である。 さらに、対応する活性多様体は、我々の以前の研究で導入されたヴェルディエおよび角度条件を満たすことを示す。 本研究の第2部では,摂動列の密度的仮定の下で,確率的劣次降下 (sgd) が確率1で鋭く反発する臨界点を回避できることを示す。 このような密度のような仮定は、小さな乱数摂動(例えば)を加えることで得られる。 アルゴリズムの各イテレーションにおける非退化ガウス型)。 これらの結果は、アクティブな厳密なサドルの回避に関するこれまでの研究と組み合わさって、SGDが一般的な定義可能な(例えば)ものであることを示す。 半代数)関数は局所最小値に収束する。

It was previously shown by Davis and Drusvyatskiy that every Clarke critical point of a generic, semialgebraic (and more generally definable in an o-minimal structure), weakly convex function is lying on an active manifold and is either a local minimum or an active strict saddle. In the first part of this work, we show that when the weak convexity assumption fails a third type of point appears: a sharply repulsive critical point. Moreover, we show that the corresponding active manifolds satisfy the Verdier and the angle conditions which were introduced by us in our previous work. In the second part of this work, we show that, under a density-like assumption on the perturbation sequence, the stochastic subgradient descent (SGD) avoids sharply repulsive critical points with probability one. We show that such a density-like assumption could be obtained upon adding a small random perturbation (e.g. a nondegenerate Gaussian) at each iteration of the algorithm. These results, combined with our previous work on the avoidance of active strict saddles, show that the SGD on a generic definable (e.g. semialgebraic) function converges to a local minimum.
翻訳日:2021-09-07 16:24:14 公開日:2021-09-06
# ノードレベルフィードバックを用いた独立カスケードモデルのオンライン学習

Online Learning of Independent Cascade Models with Node-level Feedback ( http://arxiv.org/abs/2109.02519v1 )

ライセンス: Link先を確認
Shuoguang Yang, Van-Anh Truong(参考訳) 本稿では,ノードレベルのフィードバック下での独立カスケードモデルに対するオンライン学習問題の最初の解析法を提案する。 これらのモデルは現代のソーシャルネットワークに広く応用されている。 既存のICモデルの作業は、エージェントが観測されたすべてのエッジの明確な結果を知っているエッジレベルのフィードバックモデルにのみ光を当てている。 ノードレベルのフィードバックモデルについてはほとんど知られていないが、エッジの集合に対する結果の組み合わせのみが観察される。 この検閲された情報は、集約された影響確率の非線形形式とともに、パラメータ推定とアルゴリズム設計の両方を困難にする。 この設定で、信頼領域の最初の結果を確立する。 また,ICモデルに対する理論的後悔境界とエッジレベルのフィードバックとを一致させて,$\mathcal{O}( \sqrt{T})$の累積後悔を実現するオンラインアルゴリズムを開発した。

We propose the first analysis of the online-learning problem for Independent Cascade (IC) models under node-level feedback. These models have widespread applications in modern social networks. Existing works for IC models have only shed light on edge-level feedback models, where the agent knows the explicit outcome of every observed edge. Little is known about node-level feedback models, where only combined outcomes for sets of edges are observed; in other words, the realization of each edge is censored. This censored information, together with the nonlinear form of the aggregated influence probability, make both parameter estimation and algorithm design challenging. We establish the first confidence-region result under this setting. We also develop an online algorithm achieving a cumulative regret of $\mathcal{O}( \sqrt{T})$, matching the theoretical regret bound for IC models with edge-level feedback.
翻訳日:2021-09-07 16:23:50 公開日:2021-09-06
# 骨格情報を用いた時空間潜在行動単位に基づくロバスト事象検出

Robust Event Detection based on Spatio-Temporal Latent Action Unit using Skeletal Information ( http://arxiv.org/abs/2109.02376v1 )

ライセンス: Link先を確認
Hao Xing, Yuxuan Xue, Mingchuan Zhou and Darius Burschka(参考訳) 本稿では,rgbdビデオから抽出した骨格情報を用いてイベント行動を検出する新しい辞書学習手法を提案する。 イベントアクションはいくつかの潜時原子として表され、潜時空間特性と時間特性から構成される。 本手法は,秋の事象検出の例で実施する。 骨格フレームは初期K平均法によりクラスタリングされる。 各骨格フレームには様々な重みパラメータが割り当てられており、我々のGradual Online Dictionary Learning (GODL)アルゴリズムに入力される。 トレーニングプロセスでは、コストに逆比例する重量を減らすことで、アウトリアーフレームは徐々にフィルタリングされる。 イベントアクションを類似のアクションと厳密に区別し、そのアクションユニットを堅牢に取得するために、各サブアクションに対して潜在単位時間構造を構築します。 提案手法をNTURGB+Dデータセットの一部で評価し,209件の落下動画,405件のグラウンドリフトビデオ,420件のシットダウンビデオ,46件の異動の280件の動画を含む。 得られた精度,リコール,精度を実験的に検証した。 提案手法は,従来の辞書学習法と比較して,人間の転倒事象検出の精度と精度を向上する。 ノイズ比の増加に伴い,本手法は高い精度と低分散性を維持している。

This paper propose a novel dictionary learning approach to detect event action using skeletal information extracted from RGBD video. The event action is represented as several latent atoms and composed of latent spatial and temporal attributes. We perform the method at the example of fall event detection. The skeleton frames are clustered by an initial K-means method. Each skeleton frame is assigned with a varying weight parameter and fed into our Gradual Online Dictionary Learning (GODL) algorithm. During the training process, outlier frames will be gradually filtered by reducing the weight that is inversely proportional to a cost. In order to strictly distinguish the event action from similar actions and robustly acquire its action unit, we build a latent unit temporal structure for each sub-action. We evaluate the proposed method on parts of the NTURGB+D dataset, which includes 209 fall videos, 405 ground-lift videos, 420 sit-down videos, and 280 videos of 46 otheractions. We present the experimental validation of the achieved accuracy, recall and precision. Our approach achieves the bestperformance on precision and accuracy of human fall event detection, compared with other existing dictionary learning methods. With increasing noise ratio, our method remains the highest accuracy and the lowest variance.
翻訳日:2021-09-07 16:22:37 公開日:2021-09-06
# (参考訳) CX-ToM:画像認識モデルにおける人間信頼の促進のための人間理論による事実説明 [全文訳有]

CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing Human Trust in Image Recognition Models ( http://arxiv.org/abs/2109.01401v2 )

ライセンス: CC BY 4.0
Arjun R. Akula, Keze Wang, Changsong Liu, Sari Saba-Sadiya, Hongjing Lu, Sinisa Todorovic, Joyce Chai, and Song-Chun Zhu(参考訳) 我々は,CX-ToMを提案する。CX-ToMは,深層畳み込みニューラルネットワーク(CNN)による決定を記述するための,新たな説明可能なAI(XAI)フレームワークである。 単発応答として説明を生成するXAIの現在の手法とは対照的に,我々は反復的な通信プロセスとして説明を行う。 ダイアログ マシンと人間のユーザーの間で より具体的には、我々のCX-ToMフレームワークは、機械と人間の心の相違を媒介し、ダイアログ中の一連の説明を生成する。 そのために、人間の意図、機械が推論する機械の心、そして機械によって推論される人間の心を明示的にモデル化するのに役立つ、心の理論(tom)を使用します。 さらに、最先端のXAIフレームワークの多くは注意(ヒートマップ)に基づく説明を提供している。 本研究では,これらの注意に基づく説明がCNNモデルに対する人間の信頼を高めるには不十分であることを示す。 cx-tomでは、cnn分類モデルmがクラスc_predを予測する入力画像iが与えられると、説明可能な概念として説明可能な最小の意味レベルの特徴(例えばゼブラのストライプ、犬の尖った耳)が識別され、i から m の分類カテゴリを別の特定のクラス c_alt に変更するために、i から追加または削除される必要がある。 我々は,CX-ToMの説明の反復的,概念的,反実的な性質から,複雑なディープラーニングモデルの内部動作を理解するために,専門家と非専門家の双方にとって,我々のフレームワークは実用的かつ自然なものである,と論じる。 広範な定量的・定性的な実験によって仮説が検証され、cx-tomが最先端のaiモデルを大きく上回っていることが証明された。

We propose CX-ToM, short for counterfactual explanations with theory-of mind, a new explainable AI (XAI) framework for explaining decisions made by a deep convolutional neural network (CNN). In contrast to the current methods in XAI that generate explanations as a single shot response, we pose explanation as an iterative communication process, i.e. dialog, between the machine and human user. More concretely, our CX-ToM framework generates sequence of explanations in a dialog by mediating the differences between the minds of machine and human user. To do this, we use Theory of Mind (ToM) which helps us in explicitly modeling human's intention, machine's mind as inferred by the human as well as human's mind as inferred by the machine. Moreover, most state-of-the-art XAI frameworks provide attention (or heat map) based explanations. In our work, we show that these attention based explanations are not sufficient for increasing human trust in the underlying CNN model. In CX-ToM, we instead use counterfactual explanations called fault-lines which we define as follows: given an input image I for which a CNN classification model M predicts class c_pred, a fault-line identifies the minimal semantic-level features (e.g., stripes on zebra, pointed ears of dog), referred to as explainable concepts, that need to be added to or deleted from I in order to alter the classification category of I by M to another specified class c_alt. We argue that, due to the iterative, conceptual and counterfactual nature of CX-ToM explanations, our framework is practical and more natural for both expert and non-expert users to understand the internal workings of complex deep learning models. Extensive quantitative and qualitative experiments verify our hypotheses, demonstrating that our CX-ToM significantly outperforms the state-of-the-art explainable AI models.
翻訳日:2021-09-07 12:35:20 公開日:2021-09-06
# マルチエージェント分散Q-Learningにおけるイベントベースコミュニケーション

Event-Based Communication in Multi-Agent Distributed Q-Learning ( http://arxiv.org/abs/2109.01417v2 )

ライセンス: Link先を確認
Daniel Jarne Ornia, Manuel Mazo Jr(参考訳) 本稿では,イベントトリガ制御(etc)技術に触発されたマルチエージェント学習システムに必要な情報通信量を削減する手法を提案する。 我々は,マルコフ決定過程(mdp)における分散q学習問題のベースラインシナリオを考える。 イベントベースのアプローチの後、NエージェントはMDPを探索し、必要に応じて中央学習者と経験を伝達し、アクターQ機能の更新を行う。 本稿では,通常のq-learningアルゴリズムに対して保持される収束保証を分析し,そのような分散システムにおいて,イベントベースの通信によりデータ伝送速度が大幅に低下することを示す実験結果を示す。 さらに、これらのイベントベースアプローチが学習プロセスに与える影響(望ましくない、望ましくない)と、より複雑なマルチエージェント学習システムに適用できる方法について論じる。

We present in this work an approach to reduce the communication of information needed on a multi-agent learning system inspired by Event Triggered Control (ETC) techniques. We consider a baseline scenario of a distributed Q-learning problem on a Markov Decision Process (MDP). Following an event-based approach, N agents explore the MDP and communicate experiences to a central learner only when necessary, which performs updates of the actor Q functions. We analyse the convergence guarantees retained with respect to a regular Q-learning algorithm, and present experimental results showing that event-based communication results in a substantial reduction of data transmission rates in such distributed systems. Additionally, we discuss what effects (desired and undesired) these event-based approaches have on the learning processes studied, and how they can be applied to more complex multi-agent learning systems.
翻訳日:2021-09-07 11:51:23 公開日:2021-09-06
# 高次元データにおける不確実性を考慮した特徴推定

Inferring feature importance with uncertainties in high-dimensional data ( http://arxiv.org/abs/2109.00855v2 )

ライセンス: Link先を確認
P{\aa}l Vegard Johnsen, Inga Str\"umke, Signe Riemer-S{\o}rensen, Andrew Thomas DeWan, Mette Langaas(参考訳) 特徴量の推定は、データベースモデルを説明する上で重要な側面である。 モデル自体を説明することに加えて、どの機能が基盤となるデータ生成プロセスにおいて重要なのか、等しく関連する疑問がある。 推定器における不確実性を含む個々の特徴の重要性を推定するためのShapley値に基づくフレームワークを提案する。 我々は最近発表されたSAGE(Shapley additive global importance)の機能重要度尺度に基づいて構築し、木モデルの再サンプリングなしに推定できるサブSAGEを導入する。 我々は,ブートストラップ法から不確かさを推定し,ツリーアンサンブル法へのアプローチを示す。 この枠組みは、合成データと高次元ゲノミクスデータに基づいて例証されている。

Estimating feature importance is a significant aspect of explaining data-based models. Besides explaining the model itself, an equally relevant question is which features are important in the underlying data generating process. We present a Shapley value based framework for inferring the importance of individual features, including uncertainty in the estimator. We build upon the recently published feature importance measure of SAGE (Shapley additive global importance) and introduce sub-SAGE which can be estimated without resampling for tree-based models. We argue that the uncertainties can be estimated from bootstrapping and demonstrate the approach for tree ensemble methods. The framework is exemplified on synthetic data as well as high-dimensional genomics data.
翻訳日:2021-09-07 11:51:10 公開日:2021-09-06
# コンテキスト型埋め込みに基づく畳み込みニューラルネットワークによる重複質問同定

Contextualized Embeddings based Convolutional Neural Networks for Duplicate Question Identification ( http://arxiv.org/abs/2109.01560v2 )

ライセンス: Link先を確認
Harsh Sakhrani, Saloni Parekh and Pratik Ratadiya(参考訳) 質問パラフレーズ識別(QPI)は,大規模質問回答フォーラムにとって重要な課題である。 QPIの目的は、与えられた質問のペアが意味的に同一かどうかを決定することである。 このタスクに対する以前のアプローチは有望な結果をもたらしたが、多くの場合、高価で時間を要する複雑なリピートメカニズムに依存している。 本稿では,QPIタスクのための双方向トランスフォーマーエンコーダと畳み込みニューラルネットワークを組み合わせた新しいアーキテクチャを提案する。 提案したアーキテクチャから,SiameseとMatched Aggregationという2つの異なる推論設定を用いて予測を行う。 実験の結果,quora question pairsデータセット上での最先端性能が得られた。 モデルアーキテクチャに畳み込み層を追加することで、両方の推論設定の結果が改善されることを実証的に証明します。 また,部分的および完全的微調整の影響を調査し,計算能力と精度のトレードオフを分析した。 得られた結果から,マッチング集約設定はシアーム設定を一貫して上回っていると結論づけた。 私たちの作業は、アーキテクチャの組み合わせとセットアップがQPIタスクにより良い結果をもたらす可能性についての洞察を提供します。

Question Paraphrase Identification (QPI) is a critical task for large-scale Question-Answering forums. The purpose of QPI is to determine whether a given pair of questions are semantically identical or not. Previous approaches for this task have yielded promising results, but have often relied on complex recurrence mechanisms that are expensive and time-consuming in nature. In this paper, we propose a novel architecture combining a Bidirectional Transformer Encoder with Convolutional Neural Networks for the QPI task. We produce the predictions from the proposed architecture using two different inference setups: Siamese and Matched Aggregation. Experimental results demonstrate that our model achieves state-of-the-art performance on the Quora Question Pairs dataset. We empirically prove that the addition of convolution layers to the model architecture improves the results in both inference setups. We also investigate the impact of partial and complete fine-tuning and analyze the trade-off between computational power and accuracy in the process. Based on the obtained results, we conclude that the Matched-Aggregation setup consistently outperforms the Siamese setup. Our work provides insights into what architecture combinations and setups are likely to produce better results for the QPI task.
翻訳日:2021-09-07 11:50:59 公開日:2021-09-06
# 配向アテンションモジュールを用いたデュアルカメラ超解像

Dual-Camera Super-Resolution with Aligned Attention Modules ( http://arxiv.org/abs/2109.01349v2 )

ライセンス: Link先を確認
Tengfei Wang, Jiaxin Xie, Wenxiu Sun, Qiong Yan, Qifeng Chen(参考訳) 本稿では,高画質・高精細な結果に参照画像を利用するデュアルカメラ超解像(DCSR)に着目した参照ベース超解像(RefSR)に対する新しいアプローチを提案する。 提案手法は,空間アライメント操作とパッチに基づく標準特徴マッチングを一般化する。 さらに、RefSRの有望な応用であるデュアルカメラの超解像を探求し、スマートフォンのメインカメラと望遠カメラから146枚の画像対からなるデータセットを構築する。 実世界画像とトレーニング画像との領域ギャップを埋めるため,実世界画像に対する自己教師付きドメイン適応戦略を提案する。 私たちのデータセットと公開ベンチマークに関する広範囲な実験は、定量的評価と視覚的比較の両方において、最先端の手法によって明らかに改善されていることを示している。

We present a novel approach to reference-based super-resolution (RefSR) with the focus on dual-camera super-resolution (DCSR), which utilizes reference images for high-quality and high-fidelity results. Our proposed method generalizes the standard patch-based feature matching with spatial alignment operations. We further explore the dual-camera super-resolution that is one promising application of RefSR, and build a dataset that consists of 146 image pairs from the main and telephoto cameras in a smartphone. To bridge the domain gaps between real-world images and the training images, we propose a self-supervised domain adaptation strategy for real-world images. Extensive experiments on our dataset and a public benchmark demonstrate clear improvement achieved by our method over state of the art in both quantitative evaluation and visual comparisons.
翻訳日:2021-09-07 11:50:41 公開日:2021-09-06
# LiDARポーズ推定のための最適ターゲット形状

Optimal Target Shape for LiDAR Pose Estimation ( http://arxiv.org/abs/2109.01181v2 )

ライセンス: Link先を確認
Jiunn-Kai Huang, William Clark, and Jessy W. Grizzle(参考訳) ターゲットは、乱雑な環境や無テクスチャ環境での物体追跡、カメラ(およびマルチセンサー)キャリブレーションタスク、同時局所化とマッピング(SLAM)といった問題に不可欠である。 これらのタスクのターゲット形状は対称(四角形、長方形、円形)であり、ピクセルアレイ(画像)のような構造化された密度の高いセンサーデータに対してうまく機能する。 しかし、対称形状は、LiDAR点雲のようなスパースセンサーデータを使用することであいまいになり、LiDARの量子化の不確実性に悩まされる。 本稿では,LiDAR点雲のポーズあいまいさを除去するためにターゲット形状を最適化するという概念を紹介する。 ターゲットは、LiDARに対して回転・翻訳中のエッジポイントにおける大きな勾配を誘導し、点雲スパースネスに関連する量子化の不確実性を改善するように設計されている。 さらに,対象形状を与えられた場合,対象の形状を利用して対象の頂点を推定し,そのポーズをグローバルに推定する手法を提案する。 シミュレーションと実験結果(モーションキャプチャシステムによって検証された)は、最適形状と大域的解法を用いて、部分的に照らされた目標が30メートル離れた場合でも、翻訳におけるセンチメートル誤差と回転数度を達成することを確認している。 すべての実装とデータセットはhttps://github.com/U Mich-BipedLab/optima l_shape_global_pose_ estimationで公開されている。

Targets are essential in problems such as object tracking in cluttered or textureless environments, camera (and multi-sensor) calibration tasks, and simultaneous localization and mapping (SLAM). Target shapes for these tasks typically are symmetric (square, rectangular, or circular) and work well for structured, dense sensor data such as pixel arrays (i.e., image). However, symmetric shapes lead to pose ambiguity when using sparse sensor data such as LiDAR point clouds and suffer from the quantization uncertainty of the LiDAR. This paper introduces the concept of optimizing target shape to remove pose ambiguity for LiDAR point clouds. A target is designed to induce large gradients at edge points under rotation and translation relative to the LiDAR to ameliorate the quantization uncertainty associated with point cloud sparseness. Moreover, given a target shape, we present a means that leverages the target's geometry to estimate the target's vertices while globally estimating the pose. Both the simulation and the experimental results (verified by a motion capture system) confirm that by using the optimal shape and the global solver, we achieve centimeter error in translation and a few degrees in rotation even when a partially illuminated target is placed 30 meters away. All the implementations and datasets are available at https://github.com/U Mich-BipedLab/optima l_shape_global_pose_ estimation.
翻訳日:2021-09-07 11:50:27 公開日:2021-09-06
# 大規模GPUデータセンターにおけるディープラーニングワークロードの特性と予測

Characterization and Prediction of Deep Learning Workloads in Large-Scale GPU Datacenters ( http://arxiv.org/abs/2109.01313v2 )

ライセンス: Link先を確認
Qinghao Hu, Peng Sun, Shengen Yan, Yonggang Wen, Tianwei Zhang(参考訳) 現代のGPUデータセンタは、Deep Learning(DL)モデルとサービスを研究コミュニティと業界の両方で提供する上で、極めて重要です。 データセンターを運用する場合、リソーススケジューリングと管理の最適化は、大きな経済的利益をもたらす可能性がある。 この目標を達成するには、ジョブ機能とユーザの振る舞いを深く理解する必要がある。 本稿では,DLジョブの特性と資源管理に関する総合的研究について述べる。 まず,SenseTimeから得られた実世界のジョブトレースを大規模に分析する。 クラスタシステムの設計を容易にするクラスタ,ジョブ,ユーザの観点から,興味深い結論がいくつか出ています。 第2に,歴史データに基づいて資源を管理する汎用フレームワークを提案する。 ケーススタディとして,クラスタ全体の平均ジョブ完了時間を最大6.5倍に抑える準短サービスファーストスケジューリングサービスと,クラスタ全体の利用率を最大13%向上させるクラスタ省エネサービスを設計した。

Modern GPU datacenters are critical for delivering Deep Learning (DL) models and services in both the research community and industry. When operating a datacenter, optimization of resource scheduling and management can bring significant financial benefits. Achieving this goal requires a deep understanding of the job features and user behaviors. We present a comprehensive study about the characteristics of DL jobs and resource management. First, we perform a large-scale analysis of real-world job traces from SenseTime. We uncover some interesting conclusions from the perspectives of clusters, jobs and users, which can facilitate the cluster system designs. Second, we introduce a general-purpose framework, which manages resources based on historical data. As case studies, we design: a Quasi-Shortest-Servi ce-First scheduling service, which can minimize the cluster-wide average job completion time by up to 6.5x; and a Cluster Energy Saving service, which improves overall cluster utilization by up to 13%.
翻訳日:2021-09-07 11:50:02 公開日:2021-09-06