このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210902となっている論文です。

PDF登録状況(公開日: 20210902)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) Argument Miningのための木制約グラフニューラルネットワーク [全文訳有]

Tree-Constrained Graph Neural Networks For Argument Mining ( http://arxiv.org/abs/2110.00124v1 )

ライセンス: CC BY-SA 4.0
Federico Ruggeri, Marco Lippi, Paolo Torroni(参考訳) 本稿では,グラフニューラルネットワークのための新しいアーキテクチャを提案する。木核の背後にある概念に触発され,それらの共通部分構造であるフラグメントを考慮に入れて,木間の類似度を測定する。 学習問題に対して一連の正規化制約を課すことで、埋め込みを生成するノードソフト代入関数にそのようなフラグメントの概念を組み込んだプール機構を利用する。 本稿では,いくつかの引数マイニングコーパス上で行った文分類タスクの収集に関する広範囲な実験評価を行い,提案手法が最先端技術に対して有効であることを示す。

We propose a novel architecture for Graph Neural Networks that is inspired by the idea behind Tree Kernels of measuring similarity between trees by taking into account their common substructures, named fragments. By imposing a series of regularization constraints to the learning problem, we exploit a pooling mechanism that incorporates such notion of fragments within the node soft assignment function that produces the embeddings. We present an extensive experimental evaluation on a collection of sentence classification tasks conducted on several argument mining corpora, showing that the proposed approach performs well with respect to state-of-the-art techniques.
翻訳日:2021-10-10 17:28:11 公開日:2021-09-02
# (参考訳) MemBERT:非構造化知識をBERTに注入する [全文訳有]

MemBERT: Injecting Unstructured Knowledge into BERT ( http://arxiv.org/abs/2110.00125v1 )

ライセンス: CC BY-SA 4.0
Federico Ruggeri, Marco Lippi, Paolo Torroni(参考訳) トランスフォーマーは様々な方法で現代のnlpを変えた。 しかし、ドメインの知識をほとんど活用できず、他のブラックボックスモデルと同様に解釈性に欠ける。 残念ながら、構造化された知識注入は、長期的には、知識獲得のボトルネックに苦しむリスクがあります。 そこで本稿では,非構造化領域知識を自然言語で表現したトランスフォーマーモデルのメモリ拡張を提案する。 2つの難解なnlpタスクを実験的に評価した結果、本手法はベースライントランスフォーマティブベースのアーキテクチャよりも優れた性能とモデル解釈性をもたらすことが示された。

Transformers changed modern NLP in many ways. However, they can hardly exploit domain knowledge, and like other blackbox models, they lack interpretability. Unfortunately, structured knowledge injection, in the long run, risks to suffer from a knowledge acquisition bottleneck. We thus propose a memory enhancement of transformer models that makes use of unstructured domain knowledge expressed in plain natural language. An experimental evaluation conducted on two challenging NLP tasks demonstrates that our approach yields better performance and model interpretability than baseline transformer-based architectures.
翻訳日:2021-10-10 17:13:00 公開日:2021-09-02
# (参考訳) IoTセンサのドリフトに対処する機械学習アプローチの評価 [全文訳有]

Assessing Machine Learning Approaches to Address IoT Sensor Drift ( http://arxiv.org/abs/2109.04356v1 )

ライセンス: CC BY 4.0
Haining Zheng and Antonio Paiva(参考訳) IoTセンサの普及と、さまざまな産業やアプリケーションへの展開は、このビッグデータ時代に多くの分析機会をもたらしました。 しかし、これらのセンサ測定のドリフトは、データ分析の自動化と、モデルを効果的にトレーニングし、継続的にデプロイする能力に大きな課題をもたらす。 本稿では,現実的な条件下でのセンサドリフトに対処し,適応する能力について,文献からのいくつかのアプローチを研究・検証する。 これらのアプローチのほとんどは最近のものであり、現在の最先端の代表である。 テストは、時間とともに漂流するガスセンサーのデータセットで実施された。 その結果,センサドリフトによるセンシング性能の低下がみられた。 次に, 今後の研究に向けた今後の課題と今後の課題について概説する。

The proliferation of IoT sensors and their deployment in various industries and applications has brought about numerous analysis opportunities in this Big Data era. However, drift of those sensor measurements poses major challenges to automate data analysis and the ability to effectively train and deploy models on a continuous basis. In this paper we study and test several approaches from the literature with regard to their ability to cope with and adapt to sensor drift under realistic conditions. Most of these approaches are recent and thus are representative of the current state-of-the-art. The testing was performed on a publicly available gas sensor dataset exhibiting drift over time. The results show substantial drops in sensing performance due to sensor drift in spite of the approaches. We then discuss several issues identified with current approaches and outline directions for future research to tackle them.
翻訳日:2021-09-12 11:27:29 公開日:2021-09-02
# mutualgraphnet:運動画像分類のための新しいモデル

MutualGraphNet: A novel model for motor imagery classification ( http://arxiv.org/abs/2109.04361v1 )

ライセンス: Link先を確認
Yan Li, Ning Zhong, David Taniar, Haolan Zhang(参考訳) 運動画像分類は、運動障害を持つヒトにとって非常に重要であり、運動画像脳波(EEG)チャネルから効果的特徴を抽出し、活用する方法が常に注目されている。 運動画像分類には様々な方法があるが、人間の脳に対する限られた理解は脳波データの特徴を抽出するより効果的な方法を必要とする。 グラフニューラルネットワーク(gnns)は、グラフ構造の分類においてその効果を実証しており、gnnの使用は、脳構造接続特徴抽出に新たな可能性を提供する。 本稿では,MutualGraphNetと呼ばれる生の脳波チャネルの相互情報に基づく新しいグラフニューラルネットワークを提案する。 この相互情報を,空間時間グラフ畳み込みネットワーク(ST-GCN)と組み合わせることで,運動画像脳波(EEG)チャネルデータの遷移規則をより効率的に抽出することができる。 運動画像脳波データセットを用いて実験を行い、現在の最先端手法と比較し、MutualGraphNetは解釈可能な特徴を学習し、現在の最先端手法よりも優れていることを示す。

Motor imagery classification is of great significance to humans with mobility impairments, and how to extract and utilize the effective features from motor imagery electroencephalogram (EEG) channels has always been the focus of attention. There are many different methods for the motor imagery classification, but the limited understanding on human brain requires more effective methods for extracting the features of EEG data. Graph neural networks(GNNs) have demonstrated its effectiveness in classifying graph structures; and the use of GNN provides new possibilities for brain structure connection feature extraction. In this paper we propose a novel graph neural network based on the mutual information of the raw EEG channels called MutualGraphNet. We use the mutual information as the adjacency matrix combined with the spatial temporal graph convolution network(ST-GCN) could extract the transition rules of the motor imagery electroencephalogram (EEG) channels data more effectively. Experiments are conducted on motor imagery EEG data set and we compare our model with the current state-of-the-art approaches and the results suggest that MutualGraphNet is robust enough to learn the interpretable features and outperforms the current state-of-the-art methods.
翻訳日:2021-09-12 10:55:48 公開日:2021-09-02
# (参考訳) 多変量時系列予測のためのマルチビューマルチタスク学習フレームワーク [全文訳有]

A Multi-view Multi-task Learning Framework for Multi-variate Time Series Forecasting ( http://arxiv.org/abs/2109.01657v1 )

ライセンス: CC BY 4.0
Jinliang Deng, Xiusi Chen, Renhe Jiang, Xuan Song, Ivor W. Tsang(参考訳) MTS(Multi-variate Time Series)データは、現実世界におけるデータ抽象化のユビキタスクラスである。 MTSの任意のインスタンスはハイブリッド力学系から生成され、その特定のダイナミクスは通常不明である。 このような力学系のハイブリッドな性質は、地理的な位置や日時といった複雑な外的属性の結果であり、それぞれの属性は空間的属性または時間的属性に分類できる。 したがって、MSSデータ、すなわち空間ビューと時間ビューを分析するために使用できる2つの基本的なビューがある。 さらに,これら2つのビューのそれぞれから,MSSのデータサンプルの集合を,それらの属性値に応じて不整合予測タスクに分割することができる。 そして、同じタスクのサンプルが、同じパターンを示す。これは、元のシングルビュー設定と比較して予測されるほど洗練されていない。 そこで本研究では,MTS予測のための新しいマルチビューマルチタスク(MVMT)学習フレームワークを提案する。 ほとんどのシナリオで明示的に提示される代わりに、mvmt情報はmtsデータに深く隠蔽され、モデルがそれを自然に捉えるのを著しく妨げます。 この目的のために,タスクワイドアフィン変換とタスクワイド正規化という2種類の基本演算を開発した。 これら2つの操作と事前知識を空間的および時間的視点に適用することにより、予測中にMVMT情報を適応的に抽出することができる。 3つのデータセットの大規模な実験を行い、MVMT学習フレームワークにより、有効性と効率の両面において、標準的アーキテクチャが大幅に向上可能であることを示す。 さらに,予測手順全体の異なるフェーズで生成される表現の特性を明らかにするために,リッチケーススタディを設計した。

Multi-variate time series (MTS) data is a ubiquitous class of data abstraction in the real world. Any instance of MTS is generated from a hybrid dynamical system and their specific dynamics are usually unknown. The hybrid nature of such a dynamical system is a result of complex external attributes, such as geographic location and time of day, each of which can be categorized into either spatial attributes or temporal attributes. Therefore, there are two fundamental views which can be used to analyze MTS data, namely the spatial view and the temporal view. Moreover, from each of these two views, we can partition the set of data samples of MTS into disjoint forecasting tasks in accordance with their associated attribute values. Then, samples of the same task will manifest similar forthcoming pattern, which is less sophisticated to be predicted in comparison with the original single-view setting. Considering this insight, we propose a novel multi-view multi-task (MVMT) learning framework for MTS forecasting. Instead of being explicitly presented in most scenarios, MVMT information is deeply concealed in the MTS data, which severely hinders the model from capturing it naturally. To this end, we develop two kinds of basic operations, namely task-wise affine transformation and task-wise normalization, respectively. Applying these two operations with prior knowledge on the spatial and temporal view allows the model to adaptively extract MVMT information while predicting. Extensive experiments on three datasets are conducted to illustrate that canonical architectures can be greatly enhanced by the MVMT learning framework in terms of both effectiveness and efficiency. In addition, we design rich case studies to reveal the properties of representations produced at different phases in the entire prediction procedure.
翻訳日:2021-09-09 05:36:28 公開日:2021-09-02
# (参考訳) インド人COVID-19患者の重症度と死亡率予測モデル

Severity and Mortality Prediction Models to Triage Indian COVID-19 Patients ( http://arxiv.org/abs/2109.02485v1 )

ライセンス: CC BY 4.0
Samarth Bhatia (1), Yukti Makhija (1), Shalendra Singh (2), Ishaan Gupta (1) ((1) Indian Institute of Technology, Delhi, (2) Armed Forces Medical College, Pune)(参考訳) インド第2波が緩和する中、新型コロナウイルスは全国で約2900万人の患者に感染し、350万人以上の死者を出した。 感染が急増すると、国内の医療インフラの負担が顕著になった。 国が人口を予防接種する一方で、経済の開放は感染率の上昇につながる可能性がある。 このシナリオでは、臨床パラメーターに基づいたインフォームド患者トリージングシステムにより、限られた病院資源を効果的に活用することが不可欠である。 そこで本研究では,インド人の入院日における血液パラメータの非侵襲的サーベイランスに基づいて,患者の予後,重症度,死亡率を予測する2つの解釈可能な機械学習モデルを提案する。 患者の重症度と死亡率予測モデルはそれぞれ86.3%と88.06%に達し、AUC-ROCは0.91と0.92である。 どちらのモデルもユーザフレンドリーなWebアプリ電卓 https://triage-COVID -19.herokuapp.com/ に統合して、そのような取り組みを大規模に展開する可能性を示している。

As the second wave in India mitigates, COVID-19 has now infected about 29 million patients countrywide, leading to more than 350 thousand people dead. As the infections surged, the strain on the medical infrastructure in the country became apparent. While the country vaccinates its population, opening up the economy may lead to an increase in infection rates. In this scenario, it is essential to effectively utilize the limited hospital resources by an informed patient triaging system based on clinical parameters. Here, we present two interpretable machine learning models predicting the clinical outcomes, severity, and mortality, of the patients based on routine non-invasive surveillance of blood parameters from one of the largest cohorts of Indian patients at the day of admission. Patient severity and mortality prediction models achieved 86.3% and 88.06% accuracy, respectively, with an AUC-ROC of 0.91 and 0.92. We have integrated both the models in a user-friendly web app calculator, https://triage-COVID -19.herokuapp.com/, to showcase the potential deployment of such efforts at scale.
翻訳日:2021-09-09 05:11:54 公開日:2021-09-02
# 糖尿病患者の血糖値予測のためのディープニューラルネットワークの現状に関する批判的レビュー

A Critical Review of the state-of-the-art on Deep Neural Networks for Blood Glucose Prediction in Patients with Diabetes ( http://arxiv.org/abs/2109.02178v1 )

ライセンス: Link先を確認
Felix Tena, Oscar Garnica, Juan Lanchares and J. Ignacio Hidalgo(参考訳) 本稿では,最近提案された10種類のニューラルネットワークを比較し,血糖値予測のためのアンサンブルニューラルネットワークモデルを提案する。 これらはすべて、同じデータセット、前処理ワークフロー、OttoT1DMデータセットを使用して、30,60,120分という3つの異なる予測地平線でテストされる。 我々は、血糖予測における最も一般的な指標を用いて、その性能を比較し、複数のアルゴリズムのパフォーマンスの統計的比較のために考案された3つの手法を用いて、最高のパフォーマンスを示す。 本分析では, 最高の予測因子となる確率が最も高いモデルに注目し, 最良のモデルに対して, より粗悪な性能を示すモデルの誤差の増加を推定し, 臨床実習におけるそれらの使用指針を提供する。

This article compares ten recently proposed neural networks and proposes two ensemble neural network-based models for blood glucose prediction. All of them are tested under the same dataset, preprocessing workflow, and tools using the OhioT1DM Dataset at three different prediction horizons: 30, 60, and 120 minutes. We compare their performance using the most common metrics in blood glucose prediction and rank the best-performing ones using three methods devised for the statistical comparison of the performance of multiple algorithms: scmamp, model confidence set, and superior predictive ability. Our analysis highlights those models with the highest probability of being the best predictors, estimates the increase in error of the models that perform more poorly with respect to the best ones, and provides a guide for their use in clinical practice.
翻訳日:2021-09-07 17:27:25 公開日:2021-09-02
# クラウドにおけるデータサイエンスと機械学習: 未来への展望

Data science and Machine learning in the Clouds: A Perspective for the Future ( http://arxiv.org/abs/2109.01661v1 )

ライセンス: Link先を確認
Hrishav Bakul Barua(参考訳) 科学分野におけるパラダイムシフトの始まりが急速に近づいている中、データ駆動科学(いわゆる第四科学パラダイム)は、研究とイノベーションの原動力となるでしょう。 医学から生物多様性、天文学、地質学まで、これらの用語は何らかの形でこのパラダイムシフトに影響されるでしょう。 この新たなパラダイムの下で処理される大量のデータは、将来大きな懸念事項であり、これらの計算のすべての側面(ストレージから計算、その他のサービス)において、クラウドベースのサービスを必要とする。 もう一つの側面は、計算の見方を変える科学的パラダイムの中での予測ジョブとタスクのエネルギー消費とパフォーマンスである。 データサイエンスは機械学習、信号/画像/画像処理関連アルゴリズム、人工知能、ロボティクス、健康情報学、ジオインフォマティクス、その他多くの分野に多大な影響を与えている。 したがって、私たちは、既存のクラウドベースのプラットフォームとサービスの助けを借りて、データサイエンスが約束を果たすことができる時代を思い起こします。 本稿では、データ駆動科学と機械学習について、今後どのようにクラウドベースのサービスを通じてリンクされるのかについて論じる。 さらに氏は、最近の近似コンピューティングや量子コンピューティングなどのパラダイムの台頭や、ビッグデータ処理、データサイエンス、分析、予測、クラウド環境における機械学習の適用性についても論じている。

As we are fast approaching the beginning of a paradigm shift in the field of science, Data driven science (the so called fourth science paradigm) is going to be the driving force in research and innovation. From medicine to biodiversity and astronomy to geology, all these terms are somehow going to be affected by this paradigm shift. The huge amount of data to be processed under this new paradigm will be a major concern in the future and one will strongly require cloud based services in all the aspects of these computations (from storage to compute and other services). Another aspect will be energy consumption and performance of prediction jobs and tasks within such a scientific paradigm which will change the way one sees computation. Data science has heavily impacted or rather triggered the emergence of Machine Learning, Signal/Image/Video processing related algorithms, Artificial intelligence, Robotics, health informatics, geoinformatics, and many more such areas of interest. Hence, we envisage an era where Data science can deliver its promises with the help of the existing cloud based platforms and services with the addition of new services. In this article, we discuss about data driven science and Machine learning and how they are going to be linked through cloud based services in the future. It also discusses the rise of paradigms like approximate computing, quantum computing and many more in recent times and their applicability in big data processing, data science, analytics, prediction and machine learning in the cloud environments.
翻訳日:2021-09-07 17:24:18 公開日:2021-09-02
# 解釈可能なインターバルタイプ2ニューロファジーシステムによる歩行周期解析に基づくパーキンソン病の診断

Parkinson's Disease Diagnosis based on Gait Cycle Analysis Through an Interpretable Interval Type-2 Neuro-Fuzzy System ( http://arxiv.org/abs/2109.02442v1 )

ライセンス: Link先を確認
Armin Salimi-Badr, Mohammad Hashemi, Hamidreza Saffari(参考訳) 本稿では,歩行周期の分析に基づいてパーキンソン病(pd)患者を検出するためのインターバルタイプ2ファジィニューラルネットワークを用いた解釈可能な分類器を提案する。 提案手法は, 垂直地中反応力(vGRF)から抽出した臨床特徴を利用して, 被験者の靴底に16個のウェアラブルセンサを設置し, ファジィ規則を解釈する。 そこで専門家は,解釈可能なファジィ規則の発火強度を調査し,提案手法による決定を検証できる。 さらに専門家は、抽出したファジィルールを患者の知識に基づいて診断や調整に利用することができる。 不確かさとノイズセンサ測定に対する提案手法のロバスト性を向上させるために,区間タイプ2ファジィ論理を適用した。 ファジィルールを学ぶために、1- 利用可能なサンプルのクラスタリングに基づくバッチ学習アプローチを適用して最初のファジィルールを抽出する2- 新たなラベル付きサンプルに遭遇するルールベースを改善するために、補完的なオンライン学習を提案する。 本手法の性能は、騒音の有無や新しい症例を観察するなど、異なる条件下で患者と健常者を分類するために評価される。 さらに、モデルの性能は、以前の教師なしと教師なしの機械学習アプローチと比較される。 提案手法の最終精度、精度、リコール、f1スコアは88.74%、89.41%、95.10%、92.16%である。 最後に、各特徴に対する抽出されたファジィ集合を報告する。

In this paper, an interpretable classifier using an interval type-2 fuzzy neural network for detecting patients suffering from Parkinson's Disease (PD) based on analyzing the gait cycle is presented. The proposed method utilizes clinical features extracted from the vertical Ground Reaction Force (vGRF), measured by 16 wearable sensors placed in the soles of subjects' shoes and learns interpretable fuzzy rules. Therefore, experts can verify the decision made by the proposed method based on investigating the firing strength of interpretable fuzzy rules. Moreover, experts can utilize the extracted fuzzy rules for patient diagnosing or adjust them based on their knowledge. To improve the robustness of the proposed method against uncertainty and noisy sensor measurements, Interval Type-2 Fuzzy Logic is applied. To learn fuzzy rules, two paradigms are proposed: 1- A batch learning approach based on clustering available samples is applied to extract initial fuzzy rules, 2- A complementary online learning is proposed to improve the rule base encountering new labeled samples. The performance of the method is evaluated for classifying patients and healthy subjects in different conditions including the presence of noise or observing new instances. Moreover, the performance of the model is compared to some previous supervised and unsupervised machine learning approaches. The final Accuracy, Precision, Recall, and F1 Score of the proposed method are 88.74%, 89.41%, 95.10%, and 92.16%. Finally, the extracted fuzzy sets for each feature are reported.
翻訳日:2021-09-07 16:55:15 公開日:2021-09-02
# ドライアイ病における人工知能

Artificial Intelligence in Dry Eye Disease ( http://arxiv.org/abs/2109.01658v1 )

ライセンス: Link先を確認
Andrea M. Stor{\aa}s, Inga Str\"umke, Michael A. Riegler, Jakob Grauslund, Hugo L. Hammer, Anis Yazidi, P{\aa}l Halvorsen, Kjell G. Gundersen, Tor P. Utheim, Catherine Jackson(参考訳) ドライアイ病 (dry eye disease, ded) は、診断基準と研究対象の人口に応じて、5〜50\%の有病率を持つ。 しかし、眼科における最も診断や治療の少ない疾患の1つである。 DEDの診断に使用される多くの検査は、経験豊富な観察者による画像解釈に依存しており、それは主観的であり、診断のバリエーションをもたらす可能性がある。 人工知能(AI)システムは高度な問題解決が可能であるため、そのような技術を使用することでより客観的な診断につながる可能性がある。 一般的に「AI」という言葉が用いられるが、近年の医学への応用は、画像の自動分類や医療結果の予測に使用されている機械学習のサブ分野の進歩が主な原因である。 患者データと医療画像のニュアンスを理解するために、強力な機械学習技術が活用され、病気の重症度の一貫した診断と成層化を目指している。 これは、DEDにおけるAIの使用に関する最初の文献レビューである。 我々は,AIの簡単な紹介,DED研究における利用状況と臨床応用の可能性について報告する。 我々のレビューでは、AIは幅広いDED臨床検査や研究応用に使われており、主に干渉計、スリットランプ、メボグラフィー画像の解釈に使われている。 最初の結果は有望だが、モデル開発、臨床テスト、標準化にはまだ多くの作業が必要である。

Dry eye disease (DED) has a prevalence of between 5 and 50\%, depending on the diagnostic criteria used and population under study. However, it remains one of the most underdiagnosed and undertreated conditions in ophthalmology. Many tests used in the diagnosis of DED rely on an experienced observer for image interpretation, which may be considered subjective and result in variation in diagnosis. Since artificial intelligence (AI) systems are capable of advanced problem solving, use of such techniques could lead to more objective diagnosis. Although the term `AI' is commonly used, recent success in its applications to medicine is mainly due to advancements in the sub-field of machine learning, which has been used to automatically classify images and predict medical outcomes. Powerful machine learning techniques have been harnessed to understand nuances in patient data and medical images, aiming for consistent diagnosis and stratification of disease severity. This is the first literature review on the use of AI in DED. We provide a brief introduction to AI, report its current use in DED research and its potential for application in the clinic. Our review found that AI has been employed in a wide range of DED clinical tests and research applications, primarily for interpretation of interferometry, slit-lamp and meibography images. While initial results are promising, much work is still needed on model development, clinical testing and standardisation.
翻訳日:2021-09-07 16:50:16 公開日:2021-09-02
# モデルベースオプティマイザを付加した蓄電池用蓄電池の強化学習

Reinforcement Learning for Battery Energy Storage Dispatch augmented with Model-based Optimizer ( http://arxiv.org/abs/2109.01659v1 )

ライセンス: Link先を確認
Gayathri Krishnamoorthy and Anamika Dubey(参考訳) 電力配電系統における最適潮流問題(OPF)の解決には強化学習が有用である。 しかし,電力グリッドの物理モデルを完全に無視するモデルフリー強化学習アルゴリズムを用いることで,最適化性能が損なわれ,スケーラビリティの課題が生じる。 本稿では,物理モデルと模倣学習を用いた学習アルゴリズムを相乗的に組み合わせて分布レベルのOPF問題を解決する手法を提案する。 具体的には,電力配電系統における蓄電池ディスパッチの特定の事例に対するOPF問題を解決するために,深部強化学習法(DRL)の模倣学習に基づく改善を提案する。 提案した模倣学習アルゴリズムは、線形化モデルベースOPFソルバから得られる近似最適解を用いて、訓練効率を向上しながらDRLアルゴリズムに優れた初期ポリシーを提供する。 提案手法の有効性をIEEE 34-bus と 123-bus の配電システムを用いて実証した。

Reinforcement learning has been found useful in solving optimal power flow (OPF) problems in electric power distribution systems. However, the use of largely model-free reinforcement learning algorithms that completely ignore the physics-based modeling of the power grid compromises the optimizer performance and poses scalability challenges. This paper proposes a novel approach to synergistically combine the physics-based models with learning-based algorithms using imitation learning to solve distribution-level OPF problems. Specifically, we propose imitation learning based improvements in deep reinforcement learning (DRL) methods to solve the OPF problem for a specific case of battery storage dispatch in the power distribution systems. The proposed imitation learning algorithm uses the approximate optimal solutions obtained from a linearized model-based OPF solver to provide a good initial policy for the DRL algorithms while improving the training efficiency. The effectiveness of the proposed approach is demonstrated using IEEE 34-bus and 123-bus distribution feeders with numerous distribution-level battery storage systems.
翻訳日:2021-09-07 16:49:54 公開日:2021-09-02
# モンテカルロ確率最適化(MOST)のディープラーニングへの応用

Application of Monte Carlo Stochastic Optimization (MOST) to Deep Learning ( http://arxiv.org/abs/2109.02441v1 )

ライセンス: Link先を確認
Sin-ichi Inage, Hana Hebishima(参考訳) 本稿では,著者らが提案したモンテカルロ確率最適化(MOST)をXORゲートの深層学習に適用し,その有効性を検証する。 ニューラルネットワークに基づくディープラーニングは、今日の高度情報社会におけるイノベーションを駆動する最も重要なキーワードの1つである。 そのため、大規模・高速・高精度のシステムの研究が盛んである。 目的関数の最適値を効率的に探索するために、著者は目的関数を構成する多変数パラメータの探索領域をパラメータ毎に2つに分割し、モンテカルロ法による2つの領域の統合を数値的に発見し、積分値の大きさを比較し、小さな領域に最適点が存在すると判断する。 本稿では,最適化手法におけるベンチマークの問題点について検討した。 この手法はxorゲートのニューラルネットワークに適用され、adamとgenetic algorithmによる重み係数最適化の結果と比較される。 その結果,既存の方法よりも早く収束することが確認された。

In this paper, we apply the Monte Carlo stochastic optimization (MOST) proposed by the authors to a deep learning of XOR gate and verify its effectiveness. Deep machine learning based on neural networks is one of the most important keywords driving innovation in today's highly advanced information society. Therefore, there has been active research on large-scale, high-speed, and high-precision systems. For the purpose of efficiently searching the optimum value of the objective function, the author divides the search region of a multivariable parameter constituting the objective function into two by each parameter, numerically finds the integration of the two regions by the Monte Carlo method, compares the magnitude of the integration value, and judges that there is an optimum point in a small region. In the previous paper, we examined the problem of the benchmark in the optimization method. This method is applied to neural networks of XOR gate, and compared with the results of weight factor optimization by Adam and genetic algorithm. As a result, it was confirmed that it converged faster than the existing method.
翻訳日:2021-09-07 16:29:06 公開日:2021-09-02
# 擬似ユーザ嗜好シミュレーションを用いたトップN勧告

Top-N Recommendation with Counterfactual User Preference Simulation ( http://arxiv.org/abs/2109.02444v1 )

ライセンス: Link先を確認
Mengyue Yang, Quanyu Dai, Zhenhua Dong, Xu Chen, Xiuqiang He, Jun Wang(参考訳) ユーザーのランキングに基づく好みを学習することを目的としたtop-nレコメンデーションは、幅広いアプリケーションにおいて、長い間根本的な問題であった。 伝統的なモデルは、通常、異なる仮定に基づいて複雑または調整されたアーキテクチャを設計することで、自らを動機付けます。 しかし,レコメンダシステムのトレーニングデータは非常に疎結合であり,レコメンデーション性能を向上させる上で大きな課題となっている。 この問題を軽減するため、本論文では、因果推論フレームワーク内の推薦タスクを再構築し、データ不足問題に対処するために、ユーザのランキングに基づく選好を非現実的にシミュレートすることを提案する。 私たちのモデルの中核は、反事実的な質問である:“推奨項目が異なる場合、ユーザの判断は何か? この問題に対処するために、まず、観測データに基づいてパラメータを最適化した一連の構造方程式モデル(SEM)を用いて推奨プロセスを定式化する。 次に,データセットに記録されていない推薦リスト(因果推論用語への介入と呼ばれる)を積極的に提示し,学習したsemに従ってユーザフィードバックをシミュレートし,新たなトレーニングサンプルを生成する。 推薦リストにランダムに介入する代わりに、より情報のあるトレーニングサンプルを見つけるための学習ベースの手法を設計する。 学習したSEMが完璧でないことを考えると、我々は最終的に、生成したサンプル数とモデル予測誤差の関係を理論的に分析し、予測誤差による負の効果を制御するためにヒューリスティックな手法を設計する。 本フレームワークの有効性を実証するために,合成データと実世界データの両方に基づいて広範な実験を行った。

Top-N recommendation, which aims to learn user ranking-based preference, has long been a fundamental problem in a wide range of applications. Traditional models usually motivate themselves by designing complex or tailored architectures based on different assumptions. However, the training data of recommender system can be extremely sparse and imbalanced, which poses great challenges for boosting the recommendation performance. To alleviate this problem, in this paper, we propose to reformulate the recommendation task within the causal inference framework, which enables us to counterfactually simulate user ranking-based preferences to handle the data scarce problem. The core of our model lies in the counterfactual question: "what would be the user's decision if the recommended items had been different?". To answer this question, we firstly formulate the recommendation process with a series of structural equation models (SEMs), whose parameters are optimized based on the observed data. Then, we actively indicate many recommendation lists (called intervention in the causal inference terminology) which are not recorded in the dataset, and simulate user feedback according to the learned SEMs for generating new training samples. Instead of randomly intervening on the recommendation list, we design a learning-based method to discover more informative training samples. Considering that the learned SEMs can be not perfect, we, at last, theoretically analyze the relation between the number of generated samples and the model prediction error, based on which a heuristic method is designed to control the negative effect brought by the prediction error. Extensive experiments are conducted based on both synthetic and real-world datasets to demonstrate the effectiveness of our framework.
翻訳日:2021-09-07 16:25:26 公開日:2021-09-02
# (参考訳) 医用画像解析における自己注意の効果の検討 [全文訳有]

Studying the Effects of Self-Attention for Medical Image Analysis ( http://arxiv.org/abs/2109.01486v1 )

ライセンス: CC0 1.0
Adrit Rao, Jongchan Park, Sanghyun Woo, Joon-Young Lee, Oliver Aalami(参考訳) 訓練医が医用画像の解釈を行うと、視覚的特徴の臨床的重要性を理解する。 認知的注意を加えることで、不要な特徴を無視しながら、臨床的に関係のある領域により多くの焦点をあてる。 医用画像の自動分類におけるコンピュータビジョンの利用について検討した。 しかし、標準畳み込みニューラルネットワーク(CNN)は、訓練された医療専門家と同様の意識的特徴関連性評価技術を採用し、より一般的に特徴を評価する必要はない。 セルフアテンション機構により、cnnは、意味的に重要な領域や、長距離の依存関係を持つ関連するコンテキストを集約することに集中することができる。 注意力を利用することで、より重要な臨床特徴領域に焦点を当てることで、医療画像分析システムはより堅牢になる可能性がある。 本稿では,複数の医用画像解析タスクに対して,最先端の自己認識機構を包括的に比較する。 定量的・質的評価と臨床ユーザ中心の調査を通じて,医療用コンピュータビジョンタスクにおけるセルフ・アテンションの効果をより深く理解することを目的としている。

When the trained physician interprets medical images, they understand the clinical importance of visual features. By applying cognitive attention, they apply greater focus onto clinically relevant regions while disregarding unnecessary features. The use of computer vision to automate the classification of medical images is widely studied. However, the standard convolutional neural network (CNN) does not necessarily employ subconscious feature relevancy evaluation techniques similar to the trained medical specialist and evaluates features more generally. Self-attention mechanisms enable CNNs to focus more on semantically important regions or aggregated relevant context with long-range dependencies. By using attention, medical image analysis systems can potentially become more robust by focusing on more important clinical feature regions. In this paper, we provide a comprehensive comparison of various state-of-the-art self-attention mechanisms across multiple medical image analysis tasks. Through both quantitative and qualitative evaluations along with a clinical user-centric survey study, we aim to provide a deeper understanding of the effects of self-attention in medical computer vision tasks.
翻訳日:2021-09-06 23:32:53 公開日:2021-09-02
# (参考訳) 多言語モデルにおけるインターリングアの確立 [全文訳有]

Establishing Interlingua in Multilingual Language Models ( http://arxiv.org/abs/2109.01207v1 )

ライセンス: CC BY 4.0
Maksym Del, Mark Fishel(参考訳) 大規模多言語言語モデルでは,タスクの多言語間転送性能が顕著である。 フォローアップは、これらのモデルが異なる言語の内部表現を共通の言語間空間に投影することを仮定している。 しかし、結果は矛盾していた。 本稿では、従来の著作のうち「BERTはインターリングアではない」という主張を正すとともに、文表現の適切な選択によって、異なる言語が実際にそのような言語モデルにおいて共有空間に収束することを示す。 さらに, この収束パターンは, 4つの相関類似度と6つのmBERT様モデルに対して頑健であることを示す。 分析を28の多様な言語に拡張し、言語間空間が言語の言語関連性に類似した特定の構造を示すことを見出した。 また、共有空間に収束しないように見えるいくつかの不適切な言語も強調します。 結果を複製するコードは、以下のURLで利用可能である。

Large multilingual language models show remarkable zero-shot cross-lingual transfer performance on a range of tasks. Follow-up works hypothesized that these models internally project representations of different languages into a shared interlingual space. However, they produced contradictory results. In this paper, we correct %one of the previous works the famous prior work claiming that "BERT is not an Interlingua" and show that with the proper choice of sentence representation different languages actually do converge to a shared space in such language models. Furthermore, we demonstrate that this convergence pattern is robust across four measures of correlation similarity and six mBERT-like models. We then extend our analysis to 28 diverse languages and find that the interlingual space exhibits a particular structure similar to the linguistic relatedness of languages. We also highlight a few outlier languages that seem to fail to converge to the shared space. The code for replicating our results is available at the following URL: https://github.com/m aksym-del/interlingu a.
翻訳日:2021-09-06 23:18:54 公開日:2021-09-02
# (参考訳) NLPとMLにおける再現性の定量化 [全文訳有]

Quantifying Reproducibility in NLP and ML ( http://arxiv.org/abs/2109.01211v1 )

ライセンス: CC BY-SA 4.0
Anya Belz(参考訳) 近年、NLPやMLでは再現性に関する議論が盛んに行われているが、再現性を評価する方法が一般に受け入れられていない。 科学的な再現可能性の用語や定義はNLP/MLには適用できないという仮定があり、結果として多くの異なる用語や定義が提案された。 本稿では,標準用語と定義をメタロロジーから取り出して,NLP/MLに直接適用することで,この仮定をテストする。 我々は,再現性を評価するための実践的な枠組みを,異なる再現性研究に匹敵する定量的な再現性が得られるという望ましい性質を,直接的に導出できることを見出した。

Reproducibility has become an intensely debated topic in NLP and ML over recent years, but no commonly accepted way of assessing reproducibility, let alone quantifying it, has so far emerged. The assumption has been that wider scientific reproducibility terminology and definitions are not applicable to NLP/ML, with the result that many different terms and definitions have been proposed, some diametrically opposed. In this paper, we test this assumption, by taking the standard terminology and definitions from metrology and applying them directly to NLP/ML. We find that we are able to straightforwardly derive a practical framework for assessing reproducibility which has the desirable property of yielding a quantified degree of reproducibility that is comparable across different reproduction studies.
翻訳日:2021-09-06 23:09:32 公開日:2021-09-02
# (参考訳) リアプノフ最適化による信頼・自己適応顔識別フレームワーク [全文訳有]

A Reliable, Self-Adaptive Face Identification Framework via Lyapunov Optimization ( http://arxiv.org/abs/2109.01212v1 )

ライセンス: CC BY 4.0
Dohyeon Kim, Joongheon Kim, Jae young Bang(参考訳) ビデオフィードからのリアルタイム顔識別(FID)は非常に計算集約的であり、限られたリソース(例えばモバイルデバイス)のデバイスで実行された場合、計算リソースを消費することがある。 一般的に、FIDは、画像がより高いレートでサンプリングされると、偽陰性を最小限に抑えられる。 しかし、圧倒的に高いレートで実行すると、システムの信頼性を損なうキューオーバーフローのリスクにシステムがさらされる。 本稿では、Lyapunov最適化を実装してキューオーバーフローを回避しつつ、サンプリングレートに適応してFID性能を最大化する、新しいキュー対応FIDフレームワークを提案する。 トレースベースのシミュレーションによる予備評価は、フレームワークの有効性を確認する。

Realtime face identification (FID) from a video feed is highly computation-intensiv e, and may exhaust computation resources if performed on a device with a limited amount of resources (e.g., a mobile device). In general, FID performs better when images are sampled at a higher rate, minimizing false negatives. However, performing it at an overwhelmingly high rate exposes the system to the risk of a queue overflow that hampers the system's reliability. This paper proposes a novel, queue-aware FID framework that adapts the sampling rate to maximize the FID performance while avoiding a queue overflow by implementing the Lyapunov optimization. A preliminary evaluation via a trace-based simulation confirms the effectiveness of the framework.
翻訳日:2021-09-06 22:53:34 公開日:2021-09-02
# (参考訳) DeepTracks:移動プラットフォームから取得したビデオで海中車両を測位する [全文訳有]

DeepTracks: Geopositioning Maritime Vehicles in Video Acquired from a Moving Platform ( http://arxiv.org/abs/2109.01235v1 )

ライセンス: CC BY 4.0
Jianli Wei, Guanyu Xu, Alper Yilmaz(参考訳) 海上での移動船の測位と追跡は非常に難しい問題であり、一般的な特徴のない画像からボートの検出、マッチング、GPS位置の推定が必要となる。 既知のgps位置を唯一の有効なセンサとして移動プラットフォームに搭載されたカメラからの画像を考慮すれば、画像で見えるターゲットボートの位置を予測できる。 我々のソリューションは、最近のMLアルゴリズム、カメラシーン幾何とベイズフィルタを使用する。 提案するパイプラインは,まず画像中の目標船舶の位置を検出・追跡し,検出による追跡を行う。 この画像の位置は、平面射影幾何学を用いて、カメラgpsの位置を参照する局所海座標に変換される。 最後に、ターゲットボートの局所座標を地球規模のGPS座標に変換して位置を推定する。 スムーズなジオトラックを実現するために、パイプラインの初期段階で小さな検出誤差を暗黙的に克服する無人カルマンフィルタ(UKF)を適用した。 提案手法の性能をGPS地中真理を用いて検証し, 推定した測地位置の精度と速度を示した。 私たちのコードはhttps://github.com/J ianliWei1995/AI-Trac k-at-Sea.comで公開されています。

Geopositioning and tracking a moving boat at sea is a very challenging problem, requiring boat detection, matching and estimating its GPS location from imagery with no common features. The problem can be stated as follows: given imagery from a camera mounted on a moving platform with known GPS location as the only valid sensor, we predict the geoposition of a target boat visible in images. Our solution uses recent ML algorithms, the camera-scene geometry and Bayesian filtering. The proposed pipeline first detects and tracks the target boat's location in the image with the strategy of tracking by detection. This image location is then converted to geoposition to the local sea coordinates referenced to the camera GPS location using plane projective geometry. Finally, target boat local coordinates are transformed to global GPS coordinates to estimate the geoposition. To achieve a smooth geotrajectory, we apply unscented Kalman filter (UKF) which implicitly overcomes small detection errors in the early stages of the pipeline. We tested the performance of our approach using GPS ground truth and show the accuracy and speed of the estimated geopositions. Our code is publicly available at https://github.com/J ianliWei1995/AI-Trac k-at-Sea.
翻訳日:2021-09-06 22:48:42 公開日:2021-09-02
# (参考訳) ターゲット指向オピニオン単語抽出のためのレバレッジ位置埋め込みに関する実証的研究 [全文訳有]

An Empirical Study on Leveraging Position Embeddings for Target-oriented Opinion Words Extraction ( http://arxiv.org/abs/2109.01238v1 )

ライセンス: CC BY 4.0
Samuel Mensah, Kai Sun, Nikolaos Aletras(参考訳) The Target-oriented opinion words extract (TOWE) (Fan et al., 2019b) is a new subtask of target-oriented sentiment analysis that aim to extract opinion words for a given aspects in text。 現在の最先端手法では、位置埋め込みを利用して単語の相対的な位置をターゲットに捉えている。 しかし,これらの手法の性能は,これらの情報を単語表現に組み込む能力に依存する。 本稿では,toweにおける各コンポーネントの実際の貢献度を検討するために,事前学習された単語埋め込みや位置埋め込みを利用した言語モデルに基づいて,様々なテキストエンコーダを探索する。 また,構文情報を組み込んだグラフ畳み込みネットワーク(GCN)を用いて,単語表現の強化を行う。 実験の結果,位置情報を単語表現に効果的にエンコードできるのに対して,GCNは限界ゲインしか達成できないことがわかった。 興味深いことに、我々の単純な手法はいくつかの最先端の複雑な神経構造より優れている。

Target-oriented opinion words extraction (TOWE) (Fan et al., 2019b) is a new subtask of target-oriented sentiment analysis that aims to extract opinion words for a given aspect in text. Current state-of-the-art methods leverage position embeddings to capture the relative position of a word to the target. However, the performance of these methods depends on the ability to incorporate this information into word representations. In this paper, we explore a variety of text encoders based on pretrained word embeddings or language models that leverage part-of-speech and position embeddings, aiming to examine the actual contribution of each component in TOWE. We also adapt a graph convolutional network (GCN) to enhance word representations by incorporating syntactic information. Our experimental results demonstrate that BiLSTM-based models can effectively encode position information into word representations while using a GCN only achieves marginal gains. Interestingly, our simple methods outperform several state-of-the-art complex neural structures.
翻訳日:2021-09-06 22:41:13 公開日:2021-09-02
# N400振幅は人間の予測可能性判定より分布情報の方が優れている

So Cloze yet so Far: N400 Amplitude is Better Predicted by Distributional Information than Human Predictability Judgements ( http://arxiv.org/abs/2109.01226v1 )

ライセンス: Link先を確認
James A. Michaelov and Seana Coulson and Benjamin K. Bergen(参考訳) より予測可能な単語は処理が容易であり、より速く読み上げられ、処理困難に関連するより小さな神経信号、特にイベント関連脳電位のn400成分を誘発する。 したがって、今後の単語の予測は言語理解の重要な要素であり、N400の振幅を研究することは、我々が行う予測を調査するための貴重な方法である、と論じられている。 本研究では,自然言語刺激がN400の振幅を変調する方法を,計算言語モデルや人間の言語予測がよく反映するかどうかを検討する。 人間の言語モデルと計算言語モデルの言語予測における重要な違いの1つは、言語モデルは以前の言語コンテキストのみに基づくが、人間は他の要因に依存する可能性があることである。 GPT-3、RoBERTa、ALBERTの3つの最上位の現代言語モデルの予測は、人間の予測よりもN400と密接に一致している。 これは、N400の下の予測過程が以前考えられていたよりも言語の表面レベル統計に敏感であることを示している。

More predictable words are easier to process - they are read faster and elicit smaller neural signals associated with processing difficulty, most notably, the N400 component of the event-related brain potential. Thus, it has been argued that prediction of upcoming words is a key component of language comprehension, and that studying the amplitude of the N400 is a valuable way to investigate the predictions that we make. In this study, we investigate whether the linguistic predictions of computational language models or humans better reflect the way in which natural language stimuli modulate the amplitude of the N400. One important difference in the linguistic predictions of humans versus computational language models is that while language models base their predictions exclusively on the preceding linguistic context, humans may rely on other factors. We find that the predictions of three top-of-the-line contemporary language models - GPT-3, RoBERTa, and ALBERT - match the N400 more closely than human predictions. This suggests that the predictive processes underlying the N400 may be more sensitive to the surface-level statistics of language than previously thought.
翻訳日:2021-09-06 14:07:55 公開日:2021-09-02
# オープンドメイン質問応答における一般化の課題

Challenges in Generalization in Open Domain Question Answering ( http://arxiv.org/abs/2109.01156v1 )

ライセンス: Link先を確認
Linqing Liu, Patrick Lewis, Sebastian Riedel, Pontus Stenetorp(参考訳) Open Domain Question Answeringに関する最近の研究は、新しいテストの質問とトレーニングの質問と大きく重なり合うものの間に、モデルパフォーマンスに大きな違いがあることを示しています。 しかし、これらの新しい疑問のどの側面が困難であるかはまだ不明である。 体系的一般化の研究に基づいて,学習セットのオーバーラップ,構成的一般化(comp-gen),新しい実体一般化(novel-entity)という,異なるレベルと種類の一般化を計測する3つのカテゴリによる質問を紹介し,注釈する。 6つの一般的なパラメトリックモデルと非パラメトリックモデルを評価する際、確立されたNatural QuestionsとTriviaQAデータセットでは、comp-gen/novel-entit yのモデルパフォーマンスが13.1/5.4%、9.6/1.5%も、テストセット全体のモデルよりも低い。 さらに、非パラメトリックモデルは、新しい実体を含む問題を扱うことができるが、構成の一般化を必要とする問題に苦しむことを示す。 網羅的な分析により,検索要素からの誤りのカスケード,質問パターンの頻度,エンティティの頻度といった問題難易度要因が明らかになった。

Recent work on Open Domain Question Answering has shown that there is a large discrepancy in model performance between novel test questions and those that largely overlap with training questions. However, it is as of yet unclear which aspects of novel questions that make them challenging. Drawing upon studies on systematic generalization, we introduce and annotate questions according to three categories that measure different levels and kinds of generalization: training set overlap, compositional generalization (comp-gen), and novel entity generalization (novel-entity). When evaluating six popular parametric and non-parametric models, we find that for the established Natural Questions and TriviaQA datasets, even the strongest model performance for comp-gen/novel-entit y is 13.1/5.4% and 9.6/1.5% lower compared to that for the full test set -- indicating the challenge posed by these types of questions. Furthermore, we show that whilst non-parametric models can handle questions containing novel entities, they struggle with those requiring compositional generalization. Through thorough analysis we find that key question difficulty factors are: cascading errors from the retrieval component, frequency of question pattern, and frequency of the entity.
翻訳日:2021-09-06 14:07:38 公開日:2021-09-02
# 自然言語生成のためのマルチモーダル条件

Multimodal Conditionality for Natural Language Generation ( http://arxiv.org/abs/2109.01229v1 )

ライセンス: Link先を確認
Michael Sollami and Aashish Jain(参考訳) 大規模事前訓練型言語モデルは、言語理解タスクにおける最先端のパフォーマンスを示す。 彼らのアプリケーションは、最近マルチモーダリティ学習へと拡張され、視覚と言語を組み合わせた表現が改善された。 しかしながら、条件付き自然言語生成(NLG)への言語モデルの適用の進展は、一般的にはテキストという単一のモダリティに制限されている。 変換器ベースNLGモデルにおけるマルチモーダル条件の一般的なアプローチである、テキスト合成のためのマルチモーダル適応MAnTiSを提案する。 本手法では,各モダリティからの入力をモダリティ固有のエンコーダに渡し,テキストトークン空間に投影し,最後に条件付きプレフィックスを形成する。 我々は、事前訓練された言語モデルとエンコーダを、生成を導く条件付きプレフィックスで微調整する。 我々は、製品記述生成タスクにMAnTiSを適用し、製品イメージとタイトルの両方にネットワークを条件付け、記述テキストを生成する。 我々は,MAnTiSが標準NLGスコアリング指標の強いベースラインアプローチより優れていることを示す。 さらに,MAnTiSが与えられたマルチモーダル入力と一致した品質記述を生成できることを示す。

Large scale pretrained language models have demonstrated state-of-the-art performance in language understanding tasks. Their application has recently expanded into multimodality learning, leading to improved representations combining vision and language. However, progress in adapting language models towards conditional Natural Language Generation (NLG) has been limited to a single modality, generally text. We propose MAnTiS, Multimodal Adaptation for Text Synthesis, a general approach for multimodal conditionality in transformer-based NLG models. In this method, we pass inputs from each modality through modality-specific encoders, project to textual token space, and finally join to form a conditionality prefix. We fine-tune the pretrained language model and encoders with the conditionality prefix guiding the generation. We apply MAnTiS to the task of product description generation, conditioning a network on both product images and titles to generate descriptive text. We demonstrate that MAnTiS outperforms strong baseline approaches on standard NLG scoring metrics. Furthermore, qualitative assessments demonstrate that MAnTiS can generate human quality descriptions consistent with given multimodal inputs.
翻訳日:2021-09-06 14:06:38 公開日:2021-09-02
# Arborescence-based Supervised Clusteringによるエンティティリンクとディスカバリ

Entity Linking and Discovery via Arborescence-based Supervised Clustering ( http://arxiv.org/abs/2109.01242v1 )

ライセンス: Link先を確認
Dhruv Agarwal, Rico Angell, Nicholas Monath, Andrew McCallum(参考訳) 従来の研究は、言及と実体間の親和性だけでなく、言及間の親和性も測定することで、エンティティリンクを行う上で有望な結果を示している。 本稿では,文書間の言及や実体を最小限のアーボラッセンス(すなわち,木に散らばった指示)を構築することで,参照親和性を完全に活用する新たなトレーニングと推論手法を提案する。 また,本手法はエンティティ発見に優雅に拡張され,知識ベースに関連エンティティを持たない参照のクラスタリングが可能となった。 我々はZero-Shot Entity Linking データセットとMedMentionsのアプローチを評価し、同一パラメータ化モデルと比較して、エンティティリンクと発見の両方のパフォーマンスが大幅に向上したことを示す。 さらに, 計算コストの高いモデルを用いて, 従来よりも精度を低下させることなく, 大幅な効率向上を図った。

Previous work has shown promising results in performing entity linking by measuring not only the affinities between mentions and entities but also those amongst mentions. In this paper, we present novel training and inference procedures that fully utilize mention-to-mention affinities by building minimum arborescences (i.e., directed spanning trees) over mentions and entities across documents in order to make linking decisions. We also show that this method gracefully extends to entity discovery, enabling the clustering of mentions that do not have an associated entity in the knowledge base. We evaluate our approach on the Zero-Shot Entity Linking dataset and MedMentions, the largest publicly available biomedical dataset, and show significant improvements in performance for both entity linking and discovery compared to identically parameterized models. We further show significant efficiency improvements with only a small loss in accuracy over previous work, which use more computationally expensive models.
翻訳日:2021-09-06 14:06:21 公開日:2021-09-02
# 多エージェント逆強化学習--準最適デモと代替解の概念

Multi-Agent Inverse Reinforcement Learning: Suboptimal Demonstrations and Alternative Solution Concepts ( http://arxiv.org/abs/2109.01178v1 )

ライセンス: Link先を確認
Sage Bergerson(参考訳) マルチエージェント逆強化学習(MIRL)は、社会的環境におけるエージェントから報酬関数を学習するために用いられる。 現実的な社会的ダイナミクスをモデル化するには、MIRL法は最適な人間の推論と行動を考慮する必要がある。 ゲーム理論の伝統的な形式主義は、計算的に抽出可能な行動モデルを提供するが、エージェントは非現実的な認知能力を持つと仮定する。 本研究は, (a) エージェント決定におけるノイズ, バイアス, ヒューリスティックスを扱うMIRL法におけるメカニズムと, (b) 現実的平衡解の概念をモデル化し, 比較する。 MIRL研究はこれらの課題に対する解決策を特定するために体系的にレビューされている。 本研究の方法と結果は, 性能の正確性, 効率性, 記述的品質などの要因に基づいて分析し, 比較した。 MIRLのノイズ,バイアス,ヒューリスティックスを扱う主要な方法は,最大エントロピー(MaxEnt)IRLをマルチエージェント設定に拡張することであった。 また、多くの解の概念が従来のナッシュ平衡(NE)の一般化であることも見出した。 これらの解には相関平衡、ロジスティック確率的最適応答平衡、エントロピー正則平均場NEが含まれる。 再帰的推論や更新を用いる手法もよく機能し、フィードバックNEやマルチエージェント逆IRLをアーカイブする。 単一エージェントIRLにおける特定のバイアスとヒューリスティックのモデリングの成功と、MIRLにおけるマインド理論を用いた有望な結果は、特定のバイアスとヒューリスティックのモデリングが有用であることを示している。 同定された代替解の概念の柔軟性と偏りのない推論は、再帰的かつ一般化された特徴を持つ解の概念が現実的な社会的相互作用をモデル化する上でうまく機能する可能性を示唆している。

Multi-agent inverse reinforcement learning (MIRL) can be used to learn reward functions from agents in social environments. To model realistic social dynamics, MIRL methods must account for suboptimal human reasoning and behavior. Traditional formalisms of game theory provide computationally tractable behavioral models, but assume agents have unrealistic cognitive capabilities. This research identifies and compares mechanisms in MIRL methods which a) handle noise, biases and heuristics in agent decision making and b) model realistic equilibrium solution concepts. MIRL research is systematically reviewed to identify solutions for these challenges. The methods and results of these studies are analyzed and compared based on factors including performance accuracy, efficiency, and descriptive quality. We found that the primary methods for handling noise, biases and heuristics in MIRL were extensions of Maximum Entropy (MaxEnt) IRL to multi-agent settings. We also found that many successful solution concepts are generalizations of the traditional Nash Equilibrium (NE). These solutions include the correlated equilibrium, logistic stochastic best response equilibrium and entropy regularized mean field NE. Methods which use recursive reasoning or updating also perform well, including the feedback NE and archive multi-agent adversarial IRL. Success in modeling specific biases and heuristics in single-agent IRL and promising results using a Theory of Mind approach in MIRL imply that modeling specific biases and heuristics may be useful. Flexibility and unbiased inference in the identified alternative solution concepts suggest that a solution concept which has both recursive and generalized characteristics may perform well at modeling realistic social interactions.
翻訳日:2021-09-06 14:04:54 公開日:2021-09-02
# エッジストリーム上のグラフ記述子

Computing Graph Descriptors on Edge Streams ( http://arxiv.org/abs/2109.01494v1 )

ライセンス: Link先を確認
Zohair Raza Hassan, Imdadullah Khan, Mudassir Shabbir, Waseem Abbas(参考訳) グラフ機能抽出は、グラフ分析の基本的なタスクである。 特徴ベクトル(グラフ記述子)とユークリッドデータを操作するデータマイニングアルゴリズムを組み合わせることで、グラフ構造化データにおける分類、クラスタリング、異常検出などの問題を解決することができる。 このアイデアは過去に実りあると証明され、スペクトルベースのグラフ記述子はベンチマークデータセットで最先端の分類精度を提供する。 しかし、これらのアルゴリズムは大きなグラフにスケールしない: 1) グラフ全体をメモリに保存する必要がある、2) エンドユーザはアルゴリズムのランタイムを制御できない。 本稿では,グラフの構造的特徴を近似するシングルパスストリーミングアルゴリズムを提案する(位数$k \geq 4$のサブグラフの数)。 エッジストリームを運用することで、グラフ全体のメモリ保持を回避することができ、サンプルサイズを制御することで、アルゴリズムが処理する時間を制御できます。 大規模グラフに対する近似誤差,分類精度,スケーラビリティを解析することにより,記述子の有効性を実証する。 実験では,サンプルサイズが近似誤差および予測精度に及ぼす影響を示した。 提案した記述子は、数分で数百万のエッジを持つグラフに適用でき、分類精度において最先端の記述子より優れている。

Graph feature extraction is a fundamental task in graphs analytics. Using feature vectors (graph descriptors) in tandem with data mining algorithms that operate on Euclidean data, one can solve problems such as classification, clustering, and anomaly detection on graph-structured data. This idea has proved fruitful in the past, with spectral-based graph descriptors providing state-of-the-art classification accuracy on benchmark datasets. However, these algorithms do not scale to large graphs since: 1) they require storing the entire graph in memory, and 2) the end-user has no control over the algorithm's runtime. In this paper, we present single-pass streaming algorithms to approximate structural features of graphs (counts of subgraphs of order $k \geq 4$). Operating on edge streams allows us to avoid keeping the entire graph in memory, and controlling the sample size enables us to control the time taken by the algorithm. We demonstrate the efficacy of our descriptors by analyzing the approximation error, classification accuracy, and scalability to massive graphs. Our experiments showcase the effect of the sample size on approximation error and predictive accuracy. The proposed descriptors are applicable on graphs with millions of edges within minutes and outperform the state-of-the-art descriptors in classification accuracy.
翻訳日:2021-09-06 14:03:55 公開日:2021-09-02
# 作物マッピングの2つの変化:新地域の衛星地図改善のための集積作物統計の活用

Two Shifts for Crop Mapping: Leveraging Aggregate Crop Statistics to Improve Satellite-based Maps in New Regions ( http://arxiv.org/abs/2109.01246v1 )

ライセンス: Link先を確認
Dan M. Kluger, Sherrie Wang, David B. Lobell(参考訳) 畑レベルの作物タイプマッピングは農業モニタリングにおける様々な応用に不可欠であり、衛星画像は作物タイプマップを作成するためにますます豊富で有用な原画像となっている。 しかし、多くの地域では、衛星データによる作物タイプのマッピングは、教師付き分類モデルの訓練のためのフィールドレベルの作物ラベルの不足によって制約されている。 ある地域では訓練データが入手できない場合には、類似地域で訓練された分類器を転送することができるが、作物の種類や地域間の特徴の変換は、分類精度の低下につながる。 本稿では,これら2種類の変遷を考慮し,収量レベルの作物統計を用いて分類器を補正する手法を提案する。 作物型組成の変化を調整するため,分類器によって出力される各クラスの後方確率を適切に重み付けする手法を提案する。 特徴量の変化を調整するために,平均特徴量ベクトルの線形シフトを推定し除去する手法を提案する。 本手法は,フランス・オクシタニーおよびケニア西部の作物タイプをLDA(Linear Discriminant Analysis)を用いて地図化することにより,分類精度を大幅に向上させることを示した。 LDAを基本分類法として使用すると、フランスでは11の訓練部署で2.8%から42.2%(平均21.9%)の誤分類が減少し、ケニアでは3つの訓練部署で6.6%、28.4%、42.7%の誤分類が減少した。 我々の手法はLDA分類器によって統計的に動機付けられたが、あらゆる種類の分類器に適用できる。 一例として、ランダムフォレスト分類器の改良に成功例を挙げる。

Crop type mapping at the field level is critical for a variety of applications in agricultural monitoring, and satellite imagery is becoming an increasingly abundant and useful raw input from which to create crop type maps. Still, in many regions crop type mapping with satellite data remains constrained by a scarcity of field-level crop labels for training supervised classification models. When training data is not available in one region, classifiers trained in similar regions can be transferred, but shifts in the distribution of crop types as well as transformations of the features between regions lead to reduced classification accuracy. We present a methodology that uses aggregate-level crop statistics to correct the classifier by accounting for these two types of shifts. To adjust for shifts in the crop type composition we present a scheme for properly reweighting the posterior probabilities of each class that are output by the classifier. To adjust for shifts in features we propose a method to estimate and remove linear shifts in the mean feature vector. We demonstrate that this methodology leads to substantial improvements in overall classification accuracy when using Linear Discriminant Analysis (LDA) to map crop types in Occitanie, France and in Western Province, Kenya. When using LDA as our base classifier, we found that in France our methodology led to percent reductions in misclassifications ranging from 2.8% to 42.2% (mean = 21.9%) over eleven different training departments, and in Kenya the percent reductions in misclassification were 6.6%, 28.4%, and 42.7% for three training regions. While our methodology was statistically motivated by the LDA classifier, it can be applied to any type of classifier. As an example, we demonstrate its successful application to improve a Random Forest classifier.
翻訳日:2021-09-06 14:03:35 公開日:2021-09-02
# 選好学習を用いた科学論文のランク付け

Ranking Scientific Papers Using Preference Learning ( http://arxiv.org/abs/2109.01190v1 )

ライセンス: Link先を確認
Nils Dycke, Edwin Simpson, Ilia Kuznetsov, Iryna Gurevych(参考訳) 学界の主要な品質管理機構はピアレビューである。 科学的な仕事の質には多くの次元があり、レビュー作業の主観的な性質と相まって、レビューとスコアに基づく最終的な意思決定は非常に困難で時間がかかります。 この課題を支援するために,ピアレビューテキストとレビュー者のスコアに基づいて,紙のランキング問題として位置づけた。 評価システムの有効性,効率,公平性を考慮し,ピアレビューに基づく最終決定を行うための,新しい多面的総合評価フレームワークを提案する。 本稿では,GPPL(Gaussian Process Preference Learning)に基づく論文ランキングの新たなアプローチを提案し,ACL-2018カンファレンスのピアレビューデータに基づいて評価する。 本実験は, GPPL による先行作業に対するアプローチの優位性を実証し, ピアレビューアグリゲーションにおいて, テキストとレビュースコアの両方を使用することの重要性を強調した。

Peer review is the main quality control mechanism in academia. Quality of scientific work has many dimensions; coupled with the subjective nature of the reviewing task, this makes final decision making based on the reviews and scores therein very difficult and time-consuming. To assist with this important task, we cast it as a paper ranking problem based on peer review texts and reviewer scores. We introduce a novel, multi-faceted generic evaluation framework for making final decisions based on peer reviews that takes into account effectiveness, efficiency and fairness of the evaluated system. We propose a novel approach to paper ranking based on Gaussian Process Preference Learning (GPPL) and evaluate it on peer review data from the ACL-2018 conference. Our experiments demonstrate the superiority of our GPPL-based approach over prior work, while highlighting the importance of using both texts and review scores for paper ranking during peer review aggregation.
翻訳日:2021-09-06 14:02:39 公開日:2021-09-02
# プロンプトに基づくモデルは、プロンプトの意味を本当に理解しているか?

Do Prompt-Based Models Really Understand the Meaning of their Prompts? ( http://arxiv.org/abs/2109.01247v1 )

ライセンス: Link先を確認
Albert Webson, Ellie Pavlick(参考訳) 近年,様々なプロンプトベースモデルを用いた数ショット学習が急激な進歩を見せている。 このような成功は、自然言語で表現されたタスク命令が与えられたときと同じように、モデルがより速く学習できるように促す印象を与える。 本研究では,自然言語推論(NLI)のために手書きの30以上のプロンプトを用いて実験を行った。 モデルが学習する速度は、故意に無関係なプロンプトや、指示的に"良い"プロンプトのように病的な誤解を招く多くのプロンプトと同等である、ということが分かりました。 さらに、モデル性能は、LM対象語(例えば、a.a.)の選択に依存することが判明した。 lm語彙の予測をクラスラベルに変換する"verbalizer"は、プロンプト自体のテキストよりも多い。 まとめると、既存のプロンプトベースのモデルが与えられたプロンプトの意味を真に理解していることを示す証拠はほとんど見つからない。

Recently, a boom of papers have shown extraordinary progress in few-shot learning with various prompt-based models. Such success can give the impression that prompts help models to learn faster in the same way that humans learn faster when provided with task instructions expressed in natural language. In this study, we experiment with over 30 prompts manually written for natural language inference (NLI). We find that models learn just as fast with many prompts that are intentionally irrelevant or even pathologically misleading as they do with instructively "good" prompts. Additionally, we find that model performance is more dependent on the choice of the LM target words (a.k.a. the "verbalizer" that converts LM vocabulary prediction to class labels) than on the text of the prompt itself. In sum, we find little evidence that suggests existing prompt-based models truly understand the meaning of their given prompts.
翻訳日:2021-09-06 14:02:23 公開日:2021-09-02
# OracleとOpenAI Gym/ALE高速道路環境の観測

An Oracle and Observations for the OpenAI Gym / ALE Freeway Environment ( http://arxiv.org/abs/2109.01220v1 )

ライセンス: Link先を確認
James S. Plank, Catherine D. Schuman and Robert M. Patton(参考訳) OpenAI Gymプロジェクトには、強化学習アルゴリズムのテストベッドを提供することを目標とする数百のコントロール問題が含まれている。 そのような問題のひとつはFreeway-ram-v0であり、エージェントに提示される観察は128バイトのRAMである。 プロジェクトのゴールは、一般のトレーニングで制御問題を解く非専門家のAIエージェントであるが、本研究では、この問題についてより深く学び、より良いソリューションを評価することを目指している。 特に、私たちはオラクルでゲームをするために開発し、成功のベースラインを持てるかもしれません。 AIエージェントのトレーニングやテストに使用できる,託宣の詳細に加えて,最適なゲームプレイング状況も提示する。

The OpenAI Gym project contains hundreds of control problems whose goal is to provide a testbed for reinforcement learning algorithms. One such problem is Freeway-ram-v0, where the observations presented to the agent are 128 bytes of RAM. While the goals of the project are for non-expert AI agents to solve the control problems with general training, in this work, we seek to learn more about the problem, so that we can better evaluate solutions. In particular, we develop on oracle to play the game, so that we may have baselines for success. We present details of the oracle, plus optimal game-playing situations that can be used for training and testing AI agents.
翻訳日:2021-09-06 14:00:20 公開日:2021-09-02
# roadscene2vec:道路シーングラフの抽出と埋め込みのためのツール

roadscene2vec: A Tool for Extracting and Embedding Road Scene-Graphs ( http://arxiv.org/abs/2109.01183v1 )

ライセンス: Link先を確認
Arnav Vaibhav Malawade, Shih-Yuan Yu, Brandon Hsu, Harsimrat Kaeley, Anurag Karra, Mohammad Abdullah Al Faruque(参考訳) 近年,行動分類,リスク評価,衝突予測などのタスクにおいて,グラフ学習技術と併用した道路シーングラフ表現が最先端の深層学習技術を上回ることが示されている。 本研究では,道路シーングラフの検索と埋め込みを行うためのオープンソースツールであるroadscene2vecを紹介する。 roadscene2vecの目標は、シーングラフを生成するツール、時空間的なシーングラフ埋め込みを生成するグラフ学習モデル、シーングラフベースの方法論を視覚化し分析するツールを提供することで、道路シーングラフの応用と能力の研究を可能にすることである。 The capabilities of roadscene2vec include (i) customized scene-graph generation from either video clips or data from the CARLA simulator, (ii) multiple configurable spatio-temporal graph embedding models and baseline CNN-based models, (iii) built-in functionality for using graph and sequence embeddings for risk assessment and collision prediction applications, (iv) tools for evaluating transfer learning, and (v) utilities for visualizing scene-graphs and analyzing the explainability of graph learning models. 実験結果とグラフ学習モデルとCNNモデルの両方に対する定性評価を併用した,これらのユースケースに対する Roadcene2vec の有用性を実証する。 roadscene2vecはhttps://github.com/a icps/roadscene2vecで入手できる。

Recently, road scene-graph representations used in conjunction with graph learning techniques have been shown to outperform state-of-the-art deep learning techniques in tasks including action classification, risk assessment, and collision prediction. To enable the exploration of applications of road scene-graph representations, we introduce roadscene2vec: an open-source tool for extracting and embedding road scene-graphs. The goal of roadscene2vec is to enable research into the applications and capabilities of road scene-graphs by providing tools for generating scene-graphs, graph learning models to generate spatio-temporal scene-graph embeddings, and tools for visualizing and analyzing scene-graph-based methodologies. The capabilities of roadscene2vec include (i) customized scene-graph generation from either video clips or data from the CARLA simulator, (ii) multiple configurable spatio-temporal graph embedding models and baseline CNN-based models, (iii) built-in functionality for using graph and sequence embeddings for risk assessment and collision prediction applications, (iv) tools for evaluating transfer learning, and (v) utilities for visualizing scene-graphs and analyzing the explainability of graph learning models. We demonstrate the utility of roadscene2vec for these use cases with experimental results and qualitative evaluations for both graph learning models and CNN-based models. roadscene2vec is available at https://github.com/A ICPS/roadscene2vec.
翻訳日:2021-09-06 13:59:48 公開日:2021-09-02
# macest: 信頼できる信頼できるモデル非依存の信頼評価者

MACEst: The reliable and trustworthy Model Agnostic Confidence Estimator ( http://arxiv.org/abs/2109.01531v1 )

ライセンス: Link先を確認
Rhys Green, Matthew Rowe, Alberto Polleri(参考訳) 信頼できる信頼度推定は、どんな機械学習モデルでも本当に役に立つことがとても重要です。 本稿では、標準機械学習ポイント予測アルゴリズムに基づく信頼度推定は、基本的に欠陥があり、認識の不確実性が多すぎる状況下では、信頼性に欠ける可能性が高いと論じる。 これらの問題に対処するために、信頼性と信頼性の高い信頼度推定を提供するモデル非依存信頼度推定器であるMACEstを紹介する。 このアルゴリズムは、局所的な量として独立に信頼度を推定することで現在の方法とは異なる。 この手法は、信頼度推定の出発点としてグローバルポイント予測モデルを使用する標準校正法とは異なる。

Reliable Confidence Estimates are hugely important for any machine learning model to be truly useful. In this paper, we argue that any confidence estimates based upon standard machine learning point prediction algorithms are fundamentally flawed and under situations with a large amount of epistemic uncertainty are likely to be untrustworthy. To address these issues, we present MACEst, a Model Agnostic Confidence Estimator, which provides reliable and trustworthy confidence estimates. The algorithm differs from current methods by estimating confidence independently as a local quantity which explicitly accounts for both aleatoric and epistemic uncertainty. This approach differs from standard calibration methods that use a global point prediction model as a starting point for the confidence estimate.
翻訳日:2021-09-06 13:55:45 公開日:2021-09-02
# LiDARポーズ推定のための最適ターゲット形状

Optimal Target Shape for LiDAR Pose Estimation ( http://arxiv.org/abs/2109.01181v1 )

ライセンス: Link先を確認
Jiunn-Kai Huang, William Clark, and Jessy W. Grizzle(参考訳) ターゲットは、乱雑な環境や無テクスチャ環境での物体追跡、カメラ(およびマルチセンサー)キャリブレーションタスク、同時局所化とマッピング(SLAM)といった問題に不可欠である。 これらのタスクのターゲット形状は対称(四角形、長方形、円形)であり、ピクセルアレイ(画像)のような構造化された密度の高いセンサーデータに対してうまく機能する。 しかし、対称形状は、LiDAR点雲のようなスパースセンサーデータを使用することであいまいになり、LiDARの量子化の不確実性に悩まされる。 本稿では,LiDAR点雲のポーズあいまいさを除去するためにターゲット形状を最適化するという概念を紹介する。 ターゲットは、LiDARに対して回転・翻訳中のエッジポイントにおける大きな勾配を誘導し、点雲スパースネスに関連する量子化の不確実性を改善するように設計されている。 さらに,対象形状を与えられた場合,対象の形状を利用して対象の頂点を推定し,そのポーズをグローバルに推定する手法を提案する。 シミュレーションと実験結果(モーションキャプチャシステムによって検証された)は、最適形状と大域的解法を用いて、部分的に照らされた目標が30メートル離れた場合でも、翻訳におけるセンチメートル誤差と回転数度を達成することを確認している。 すべての実装とデータセットはhttps://github.com/U Mich-BipedLab/optima l_shape_global_pose_ estimationで公開されている。

Targets are essential in problems such as object tracking in cluttered or textureless environments, camera (and multi-sensor) calibration tasks, and simultaneous localization and mapping (SLAM). Target shapes for these tasks typically are symmetric (square, rectangular, or circular) and work well for structured, dense sensor data such as pixel arrays (i.e., image). However, symmetric shapes lead to pose ambiguity when using sparse sensor data such as LiDAR point clouds and suffer from the quantization uncertainty of the LiDAR. This paper introduces the concept of optimizing target shape to remove pose ambiguity for LiDAR point clouds. A target is designed to induce large gradients at edge points under rotation and translation relative to the LiDAR to ameliorate the quantization uncertainty associated with point cloud sparseness. Moreover, given a target shape, we present a means that leverages the target's geometry to estimate the target's vertices while globally estimating the pose. Both the simulation and the experimental results (verified by a motion capture system) confirm that by using the optimal shape and the global solver, we achieve centimeter error in translation and a few degrees in rotation even when a partially illuminated target is placed 30 meters away. All the implementations and datasets are available at https://github.com/U Mich-BipedLab/optima l_shape_global_pose_ estimation.
翻訳日:2021-09-06 13:54:09 公開日:2021-09-02
# 適応圧縮を用いたリモートマルチ線形圧縮学習

Remote Multilinear Compressive Learning with Adaptive Compression ( http://arxiv.org/abs/2109.01184v1 )

ライセンス: Link先を確認
Dat Thanh Tran, Moncef Gabbouj, Alexandros Iosifidis(参考訳) MCL(Multilinear Compressive Learning)は,多次元信号の効率的な取得・学習パラダイムである。 信号圧縮のレベルは、mclモデルの検出または分類性能に影響し、高い圧縮率はしばしば低い推論精度と関連付けられる。 しかし、より広い範囲のアプリケーション、特にIoT(Internet-of-Thin gs)アプリケーションのような低動作帯域と最小のエネルギー消費を必要とするアプリケーションでは、より高い圧縮速度がより有効である。 多くの通信プロトコルは、スループットを最大化しエネルギー消費を最小化するために適応データ伝送をサポートする。 適応圧縮速度で動作可能な圧縮センシングおよび学習モデルを開発することにより、アプリケーション全体の情報コンテンツスループットを最大化することができる。 本稿では,このような機能をmclモデルに適用可能な新しい最適化手法を提案する。 本提案では,適応圧縮信号取得と推論システムの実装を実現する。 実験の結果,提案手法は,遠隔学習システムの学習段階で必要な計算量を大幅に削減できるだけでなく,適応レートセンシングによる情報コンテンツのスループットも向上できることがわかった。

Multilinear Compressive Learning (MCL) is an efficient signal acquisition and learning paradigm for multidimensional signals. The level of signal compression affects the detection or classification performance of a MCL model, with higher compression rates often associated with lower inference accuracy. However, higher compression rates are more amenable to a wider range of applications, especially those that require low operating bandwidth and minimal energy consumption such as Internet-of-Things (IoT) applications. Many communication protocols provide support for adaptive data transmission to maximize the throughput and minimize energy consumption. By developing compressive sensing and learning models that can operate with an adaptive compression rate, we can maximize the informational content throughput of the whole application. In this paper, we propose a novel optimization scheme that enables such a feature for MCL models. Our proposal enables practical implementation of adaptive compressive signal acquisition and inference systems. Experimental results demonstrated that the proposed approach can significantly reduce the amount of computations required during the training phase of remote learning systems but also improve the informational content throughput via adaptive-rate sensing.
翻訳日:2021-09-06 13:53:43 公開日:2021-09-02
# MitoDet: 単純で堅牢なミトーシス検出

MitoDet: Simple and robust mitosis detection ( http://arxiv.org/abs/2109.01485v1 )

ライセンス: Link先を確認
Jakob Dexl, Michaela Benz, Volker Bruns, Petr Kuritcyn, Thomas Wittenberg(参考訳) mitotic figure detectionは、デジタル病理学における困難な課題であり、治療的決定に直接影響を与える。 自動的な方法は検査条件下では許容できる結果が得られることが多いが、臨床展開段階ではしばしば失敗する。 この問題は、主にドメインシフトと呼ばれる現象に起因する。 ドメインシフトの重要なソースは、異なる顕微鏡とそのカメラシステムによって導入され、デジタル画像の色表現が顕著に変化する。 本手法の記述では,強いデータ拡張でトレーニングされたRetinaNetを用いて,予備テストセットで0.7138のF1スコアを達成している。

Mitotic figure detection is a challenging task in digital pathology that has a direct impact on therapeutic decisions. While automated methods often achieve acceptable results under laboratory conditions, they frequently fail in the clinical deployment phase. This problem can be mainly attributed to a phenomenon called domain shift. An important source of a domain shift is introduced by different microscopes and their camera systems, which noticeably change the color representation of digitized images. In this method description we present our submitted algorithm for the Mitosis Domain Generalization Challenge, which employs a RetinaNet trained with strong data augmentation and achieves an F1 score of 0.7138 on the preliminary test set.
翻訳日:2021-09-06 13:51:58 公開日:2021-09-02
# (参考訳) 階層的音楽構造表現による制御可能な深層メロディ生成 [全文訳有]

Controllable deep melody generation via hierarchical music structure representation ( http://arxiv.org/abs/2109.00663v1 )

ライセンス: CC BY 4.0
Shuqi Dai, Zeyu Jin, Celso Gomes, Roger B. Dannenberg(参考訳) ディープラーニングの最近の進歩は、音楽を生成する可能性を広げてきたが、一貫性のある長期構造を持つカスタマイズ可能な全曲の生成は依然として課題である。 本稿では, 長期繰り返し構造, コード, 旋律輪郭, リズム制約によってガイドされる完全長旋律を生成するための, 階層的な音楽構造表現と多段階生成プロセスであるMusicFrameworksを紹介する。 まず、セクションとフレーズレベルの構造を持つ全旋律を整理する。 各フレーズでメロディを生成するために、2つの異なるトランスフォーマーベースネットワークを用いてリズムとベーシックメロディを生成し、その後、基本メロディ、リズム、コードに基づいて自動回帰的にメロディを生成する。 音楽生成をサブプロブレムに分解することで、よりシンプルなモデルを可能にし、少ないデータを必要とする。 さまざまな曲をカスタマイズまたは追加するために、音楽フレームワークのコード、基本的なメロディ、リズム構造を変更することができる。 さらに,音楽領域の知識に基づいた位置情報,リズムパターン,旋律輪郭を符号化する新たな特徴を導入する。 リスニングテストでは,pop909データセットで生成したメロディが,人間の作曲した音楽とほぼ同程度に評価されていることが明らかとなった。

Recent advances in deep learning have expanded possibilities to generate music, but generating a customizable full piece of music with consistent long-term structure remains a challenge. This paper introduces MusicFrameworks, a hierarchical music structure representation and a multi-step generative process to create a full-length melody guided by long-term repetitive structure, chord, melodic contour, and rhythm constraints. We first organize the full melody with section and phrase-level structure. To generate melody in each phrase, we generate rhythm and basic melody using two separate transformer-based networks, and then generate the melody conditioned on the basic melody, rhythm and chords in an auto-regressive manner. By factoring music generation into sub-problems, our approach allows simpler models and requires less data. To customize or add variety, one can alter chords, basic melody, and rhythm structure in the music frameworks, letting our networks generate the melody accordingly. Additionally, we introduce new features to encode musical positional information, rhythm patterns, and melodic contours based on musical domain knowledge. A listening test reveals that melodies generated by our method are rated as good as or better than human-composed music in the POP909 dataset about half the time.
翻訳日:2021-09-04 02:25:11 公開日:2021-09-02
# (参考訳) FLASHE: クロスサイトフェデレーション学習のための付加対称同型暗号化 [全文訳有]

FLASHE: Additively Symmetric Homomorphic Encryption for Cross-Silo Federated Learning ( http://arxiv.org/abs/2109.00675v1 )

ライセンス: CC BY 4.0
Zhifeng Jiang, Wei Wang, Yang Liu(参考訳) 準同型暗号化(homomorphic encryption, he)は、組織が分散データ上で協調的なモデルトレーニングを行うクロスサイロ連合学習(fl)のための、有望なプライバシー保護技術である。 強いプライバシー保証にもかかわらず、一般的なHEスキームは計算と通信のオーバーヘッドをもたらす。 以前の作業では、この問題に対処するためにバッチ暗号化を採用しているが、通信オーバーヘッドの軽減には至らず、スパーシフィケーション技術と互換性がない。 本稿では,クロスサイロFLに適したHE方式であるFLASHEを提案する。 セキュリティと機能の最小限の要件を捉えるため、FLASHEは非対称キー設計を廃止し、乱数を持つモジュラー加算操作のみを含む。 スパシフィケーション技術に適合するかどうかによって、FLASHEは異なるアプローチで計算効率を最適化する。 クロスサイロFLの産業プラットフォームであるFATE上にFLASHEをプラグ可能なモジュールとして実装した。 プレーンテキストのトレーニングと比較すると、FLASHEは通信オーバーヘッドを伴わずに、トレーニング時間を$\leq6\%$にわずかに向上する。

Homomorphic encryption (HE) is a promising privacy-preserving technique for cross-silo federated learning (FL), where organizations perform collaborative model training on decentralized data. Despite the strong privacy guarantee, general HE schemes result in significant computation and communication overhead. Prior works employ batch encryption to address this problem, but it is still suboptimal in mitigating communication overhead and is incompatible with sparsification techniques. In this paper, we propose FLASHE, an HE scheme tailored for cross-silo FL. To capture the minimum requirements of security and functionality, FLASHE drops the asymmetric-key design and only involves modular addition operations with random numbers. Depending on whether to accommodate sparsification techniques, FLASHE is optimized in computation efficiency with different approaches. We have implemented FLASHE as a pluggable module atop FATE, an industrial platform for cross-silo FL. Compared to plaintext training, FLASHE slightly increases the training time by $\leq6\%$, with no communication overhead.
翻訳日:2021-09-04 02:10:28 公開日:2021-09-02
# (参考訳) グローバル畳み込みニューラルプロセス [全文訳有]

Global Convolutional Neural Processes ( http://arxiv.org/abs/2109.00691v1 )

ライセンス: CC0 1.0
Xuesong Wang, Lina Yao, Xianzhi Wang, Hye-young Paik, and Sen Wang(参考訳) 機械学習モデルの不確実性に対処する能力は、その予測能力自体にとって、それ以上に重要なものとなっている。 例えば、パンデミックの間、政府の政策や個人的決定は不確実性を中心に常に行われる。 これをターゲットにしたNPF(Neural Process Families)は先頃,ガウスのプロセスとニューラルネットワークをブリッジすることで,不確実性による予測に光を当てた。 NPFのメンバーである潜在神経過程は、特定の点(局所的な不確実性)と一般関数の先行性(グローバル不確実性)をモデル化できると考えられている。 それでも、グローバル不確実性の形式的定義、グローバル不確実性の背景にある因果性、生成モデルに対するグローバル不確実性の操作など、いくつかの重要な疑問は未解決のままである。 これに関して、我々は、潜伏NPFにおけるSOTAログ類似化を実現するGloBal Convolutional Neural Process(GBCoNP)を構築する。 離散化された入力空間上の集合である大域的不確実性表現 p(z) を設計する。 グローバル不確実性の度合いとタスク内多様性の因果関係について論じる。 学習した先行データは、1D、2D、新たに提案された時空間のCOVIDデータセットなど、さまざまなシナリオで分析される。 我々の大域的不確実性の操作は、望まれるサンプルを生成して数発の学習に取り組むだけでなく、機能的事前の確率評価を可能にします。

The ability to deal with uncertainty in machine learning models has become equally, if not more, crucial to their predictive ability itself. For instance, during the pandemic, governmental policies and personal decisions are constantly made around uncertainties. Targeting this, Neural Process Families (NPFs) have recently shone a light on prediction with uncertainties by bridging Gaussian processes and neural networks. Latent neural process, a member of NPF, is believed to be capable of modelling the uncertainty on certain points (local uncertainty) as well as the general function priors (global uncertainties). Nonetheless, some critical questions remain unresolved, such as a formal definition of global uncertainties, the causality behind global uncertainties, and the manipulation of global uncertainties for generative models. Regarding this, we build a member GloBal Convolutional Neural Process(GBCoNP) that achieves the SOTA log-likelihood in latent NPFs. It designs a global uncertainty representation p(z), which is an aggregation on a discretized input space. The causal effect between the degree of global uncertainty and the intra-task diversity is discussed. The learnt prior is analyzed on a variety of scenarios, including 1D, 2D, and a newly proposed spatial-temporal COVID dataset. Our manipulation of the global uncertainty not only achieves generating the desired samples to tackle few-shot learning, but also enables the probability evaluation on the functional priors.
翻訳日:2021-09-04 01:41:47 公開日:2021-09-02
# (参考訳) テキストデータの品質フィルタリングにおける実証的探索 [全文訳有]

An Empirical Exploration in Quality Filtering of Text Data ( http://arxiv.org/abs/2109.00698v1 )

ライセンス: CC BY 4.0
Leo Gao(参考訳) 従来の知見では、コモンクロールのような低品質ソースからのデータをより積極的にフィルタリングすることはトレーニングデータの品質を常に単調に改善することを示唆しているが、アグレッシブフィルタリングはgptライクな言語モデルのための幅広い下流タスクのモデル品質を低下させる可能性がある。 これは、プロキシメトリックを十分に強く最適化することが、真の目的の性能を損なうためであり、より積極的にフィルタリングしようとする際に、より堅牢なフィルタリング目的の必要性が示唆されるためである。 この作業が、今後の作業におけるダウンストリームモデルパフォーマンスに対するデータセットフィルタリング設計選択の影響の詳細な分析につながることを願っている。

While conventional wisdom suggests that more aggressively filtering data from low-quality sources like Common Crawl always monotonically improves the quality of training data, we find that aggressive filtering can in fact lead to a decrease in model quality on a wide array of downstream tasks for a GPT-like language model. We speculate that this is because optimizing sufficiently strongly for a proxy metric harms performance on the true objective, suggesting a need for more robust filtering objectives when attempting to filter more aggressively. We hope this work leads to detailed analysis of the effects of dataset filtering design choices on downstream model performance in future work.
翻訳日:2021-09-04 01:26:08 公開日:2021-09-02
# (参考訳) 放射移動方程式の機械学習モーメント閉包モデルIII:双曲性と物理特性速度を強制する

Machine learning moment closure models for the radiative transfer equation III: enforcing hyperbolicity and physical characteristic speeds ( http://arxiv.org/abs/2109.00700v1 )

ライセンス: CC BY 4.0
Juntao Huang, Yingda Cheng, Andrew J. Christlieb, Luke F. Roberts(参考訳) 本稿では,放射移動方程式(RTE)のための機械学習(ML)モーメントクロージャモデルを開発するシリーズ3番目の論文である。 先行研究である「cite{huang2021gradient}」では、未閉高次モーメントの勾配を学習するためのアプローチを提案し、モーメント自体と従来の$P_N$クロージャを学習するよりもはるかに優れた性能を示した。 しかし、MLモーメントクロージャは精度が良いが、双曲性を保証することができず、長期間の安定性に問題がある。 第2の論文 \cite{huang2021hyperbolic} では、勾配に基づくML閉包が対称性を持つ双曲型で長期にわたって安定であるという条件を導いたシンメトリエーザを特定した。 このアプローチの限界は、実際には最も高いモーメントは4つまたはより少ないモーメントにのみ関連付けられることである。 本稿では,ML閉鎖モデルの双曲性を強制する新しい手法を提案する。 閉包系の係数行列がより低いヘッセンベルク行列であるという観測に動機づけられ、その固有値を関連する多項式の根に関連付ける。 この関係に基づいて2つの新しいニューラルネットワークアーキテクチャを設計する。 第1のニューラルネットワークから生じるMLクロージャモデルは、弱い双曲性であり、物理的特性速度、すなわち固有値は光の速度によって制限される。 2つ目のモデルは厳密に双曲的であり、固有値の有界性を保証するものではない。 gaussian source problemやtwo-material problemを含むいくつかのベンチマークテストでは、双曲型mlクロージャモデルの精度、安定性、一般化性が示された。

This is the third paper in a series in which we develop machine learning (ML) moment closure models for the radiative transfer equation (RTE). In our previous work \cite{huang2021gradient}, we proposed an approach to learn the gradient of the unclosed high order moment, which performs much better than learning the moment itself and the conventional $P_N$ closure. However, while the ML moment closure has better accuracy, it is not able to guarantee hyperbolicity and has issues with long time stability. In our second paper \cite{huang2021hyperbolic}, we identified a symmetrizer which leads to conditions that enforce that the gradient based ML closure is symmetrizable hyperbolic and stable over long time. The limitation of this approach is that in practice the highest moment can only be related to four, or fewer, lower moments. In this paper, we propose a new method to enforce the hyperbolicity of the ML closure model. Motivated by the observation that the coefficient matrix of the closure system is a lower Hessenberg matrix, we relate its eigenvalues to the roots of an associated polynomial. We design two new neural network architectures based on this relation. The ML closure model resulting from the first neural network is weakly hyperbolic and guarantees the physical characteristic speeds, i.e., the eigenvalues are bounded by the speed of light. The second model is strictly hyperbolic and does not guarantee the boundedness of the eigenvalues. Several benchmark tests including the Gaussian source problem and the two-material problem show the good accuracy, stability and generalizability of our hyperbolic ML closure model.
翻訳日:2021-09-04 01:11:35 公開日:2021-09-02
# (参考訳) 自然言語処理における因果推論--推定・予測・解釈・超越 [全文訳有]

Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond ( http://arxiv.org/abs/2109.00725v1 )

ライセンス: CC BY 4.0
Amir Feder, Katherine A. Keith, Emaad Manzoor, Reid Pryzant, Dhanya Sridhar, Zach Wood-Doughty, Jacob Eisenstein, Justin Grimmer, Roi Reichart, Margaret E. Roberts, Brandon M. Stewart, Victor Veitch, Diyi Yang(参考訳) 科学的研究の基本的な目標は因果関係について学ぶことである。 しかし、生命科学や社会科学において重要な役割を担っているにもかかわらず、因果関係は自然言語処理(NLP)においてそれほど重要ではない。 この区別は薄れ始めており、因果推論と言語処理の収束における学際研究の新たな領域が生まれている。 それでも、NLPの因果関係の研究は、統一された定義やベンチマークデータセット、残りの課題を明確に記述することなく、ドメインに分散している。 本調査では,学術領域にまたがる研究を集約し,より広いNLPランドスケープに配置する。 本稿では,因果効果を推定する統計的課題,テキストを結果,治療,あるいは共起に対処する手段として用いる設定について紹介する。 さらに, nlpモデルの性能, 頑健性, 公平性, 解釈性を改善するための因果推論の可能性について検討する。 そこで我々は,計算言語学コミュニティにおける因果推論の統一的な概要を提供する。

A fundamental goal of scientific research is to learn about causal relationships. However, despite its critical role in the life and social sciences, causality has not had the same importance in Natural Language Processing (NLP), which has traditionally placed more emphasis on predictive tasks. This distinction is beginning to fade, with an emerging area of interdisciplinary research at the convergence of causal inference and language processing. Still, research on causality in NLP remains scattered across domains without unified definitions, benchmark datasets and clear articulations of the remaining challenges. In this survey, we consolidate research across academic areas and situate it in the broader NLP landscape. We introduce the statistical challenge of estimating causal effects, encompassing settings where text is used as an outcome, treatment, or as a means to address confounding. In addition, we explore potential uses of causal inference to improve the performance, robustness, fairness, and interpretability of NLP models. We thus provide a unified overview of causal inference for the computational linguistics community.
翻訳日:2021-09-04 01:09:41 公開日:2021-09-02
# (参考訳) conqx:条件付きテキスト生成に基づく意図検出のための音声クエリの意味拡張 [全文訳有]

ConQX: Semantic Expansion of Spoken Queries for Intent Detection based on Conditioned Text Generation ( http://arxiv.org/abs/2109.00729v1 )

ライセンス: CC BY 4.0
Eyup Halit Yilmaz and Cagri Toraman(参考訳) 音声クエリの意図検出は、そのノイズ構造と短い長さのため、難しい課題である。 そこで本研究では,自動回帰言語モデルgpt-2のテキスト生成能力を活用した音声クエリの意味拡張手法であるconqxを提案する。 トピック外のテキスト生成を避けるため、入力クエリをプロンプトマイニングによって構造化されたコンテキストに条件付けする。 そしてゼロショット、ワンショット、そして少数ショットの学習を適用します。 最後に、拡張クエリを使用して、インテント検出のためにBERTとRoBERTaを微調整します。 実験結果から,意味展開法により意図検出の性能を向上できることが示唆された。

Intent detection of spoken queries is a challenging task due to their noisy structure and short length. To provide additional information regarding the query and enhance the performance of intent detection, we propose a method for semantic expansion of spoken queries, called ConQX, which utilizes the text generation ability of an auto-regressive language model, GPT-2. To avoid off-topic text generation, we condition the input query to a structured context with prompt mining. We then apply zero-shot, one-shot, and few-shot learning. We lastly use the expanded queries to fine-tune BERT and RoBERTa for intent detection. The experimental results show that the performance of intent detection can be improved by our semantic expansion method.
翻訳日:2021-09-04 00:47:41 公開日:2021-09-02
# (参考訳) 共分離非負行列分解 [全文訳有]

Co-Separable Nonnegative Matrix Factorization ( http://arxiv.org/abs/2109.00749v1 )

ライセンス: CC BY 4.0
Junjun Pan and Michael K. Ng(参考訳) 非負行列分解(NMF)はパターン認識の分野で人気があるモデルである。 2つの非負行列 W と H の積による非負データ M の低階近似を求めることを目的としており、一般に NMF は NP-ハードであり、これは分離性仮定の下で効率的に解けるが、これは入力行列の列が入力行列の列に等しいことを要求する。 本稿では,3因子nmf m=p_1sp_2に基づく分離可能性仮定を一般化し,s を入力行列のサブ行列とする。 このNMFをCoS-NMF(Co-Separable NMF)と呼ぶ。 我々はCoS-NMFの数学的性質について論じ、CUR分解、一般化可分NMF(GS-NMF)、双直交三要素化(BiOR-NM3F)など他の関連する行列分解との関係を示す。 CoS-NMFの最適化モデルを提案し,その解法に置換高速勾配法を適用した。 CoS-NMFモデルの有効性を検証するために, 合成データセット, 文書データセット, 顔データベースの数値実験を行った。 最先端の手法と比較して、CoS-NMFモデルは協調クラスタリングタスクにおいて非常によく機能し、入力データ行列にも良い近似を保持する。

Nonnegative matrix factorization (NMF) is a popular model in the field of pattern recognition. It aims to find a low rank approximation for nonnegative data M by a product of two nonnegative matrices W and H. In general, NMF is NP-hard to solve while it can be solved efficiently under separability assumption, which requires the columns of factor matrix are equal to columns of the input matrix. In this paper, we generalize separability assumption based on 3-factor NMF M=P_1SP_2, and require that S is a sub-matrix of the input matrix. We refer to this NMF as a Co-Separable NMF (CoS-NMF). We discuss some mathematics properties of CoS-NMF, and present the relationships with other related matrix factorizations such as CUR decomposition, generalized separable NMF(GS-NMF), and bi-orthogonal tri-factorization (BiOR-NM3F). An optimization model for CoS-NMF is proposed and alternated fast gradient method is employed to solve the model. Numerical experiments on synthetic datasets, document datasets and facial databases are conducted to verify the effectiveness of our CoS-NMF model. Compared to state-of-the-art methods, CoS-NMF model performs very well in co-clustering task, and preserves a good approximation to the input data matrix as well.
翻訳日:2021-09-04 00:41:21 公開日:2021-09-02
# (参考訳) 協調型ニュースエンコーディングと構造的ユーザエンコーディングを用いたニューラルニューズレコメンデーション [全文訳有]

Neural News Recommendation with Collaborative News Encoding and Structural User Encoding ( http://arxiv.org/abs/2109.00750v1 )

ライセンス: CC BY 4.0
Zhiming Mao, Xingshan Zeng, Kam-Fai Wong(参考訳) 自動ニュースレコメンデーションは、学術コミュニティや業界から多くの注目を集めている。 最近の研究により、このタスクの鍵はニュースとユーザーの効果的な表現学習にあることが判明した。 既存の作品は通常、ニュースタイトルとコンテンツを別々にエンコードするが、意味的な相互作用は無視する。 さらに、以前のモデルでは、ユーザーが閲覧したニュースの構造的相関を利用してユーザーの興味を明示的に反映することなく、ユーザーのブラウジング履歴をエンコードしている。 本研究では,協調ニュース符号化(CNE)と構造化ユーザ符号化(SUE)を組み合わせたニュース推薦フレームワークを提案する。 双方向LSTMを備えたCNEは、ニュースタイトルとコンテンツを横断選択モジュールと協調的に符号化し、セマンティック・インタラクティブなニュース表現を学習する。 SUEは、グラフ畳み込みネットワークを用いて、ユーザ履歴のクラスタ構造の特徴を抽出し、続いてクラスタ内およびクラスタ間アテンションモジュールを使用して階層的なユーザ関心表現を学習する。 MINDデータセットの実験結果から,提案モデルの有効性を検証し,ニュースレコメンデーションの性能を向上させる。 私たちのコードはhttps://github.com/v eason-silverbullet/n nrでリリースしています。

Automatic news recommendation has gained much attention from the academic community and industry. Recent studies reveal that the key to this task lies within the effective representation learning of both news and users. Existing works typically encode news title and content separately while neglecting their semantic interaction, which is inadequate for news text comprehension. Besides, previous models encode user browsing history without leveraging the structural correlation of user browsed news to reflect user interests explicitly. In this work, we propose a news recommendation framework consisting of collaborative news encoding (CNE) and structural user encoding (SUE) to enhance news and user representation learning. CNE equipped with bidirectional LSTMs encodes news title and content collaboratively with cross-selection and cross-attention modules to learn semantic-interactive news representations. SUE utilizes graph convolutional networks to extract cluster-structural features of user history, followed by intra-cluster and inter-cluster attention modules to learn hierarchical user interest representations. Experiment results on the MIND dataset validate the effectiveness of our model to improve the performance of news recommendation. Our code is released at https://github.com/V eason-silverbullet/N NR.
翻訳日:2021-09-03 23:42:36 公開日:2021-09-02
# (参考訳) 畳み込みニューラルネットワークを用いた3次元地質モデルからの3次元鉱物探査:構造制御型熱水鉱床への応用

Learning 3D Mineral Prospectivity from 3D Geological Models with Convolutional Neural Networks: Application to a Structure-controlled Hydrothermal Gold Deposit ( http://arxiv.org/abs/2109.00756v1 )

ライセンス: CC BY 4.0
Hao Deng, Yang Zheng, Jin Chen, Shuyan Yu, Keyan Xiao, Xiancheng Mao(参考訳) 3次元(3次元)地質モデルは、3次元鉱物多種体モデリングの典型的かつ重要なデータ源である。 3次元地質モデルから確率非形式予測変数を同定することは困難で面倒な作業である。 本稿では,畳み込みニューラルネットワーク(cnns)が本質的特徴を学習する能力に動機づけられ,cnnを用いて3次元地質モデルから3次元鉱物探査を学習する新しい手法を提案する。 提案手法は, CNNの学習能力を活用することにより, 鉱物化との複雑な相関関係を解消し, 予測変数設計の面倒な作業を回避するための扉を開く。 具体的には、入力を構造化すべきCNNを用いて非構造的な3次元地質モデルを探究するため、地質境界の幾何学をコンパイルし、マルチチャネル画像に再構成し、CNNに入力する2次元CNNフレームワークを開発する。 これにより、予測モデルは鉱石形成過程を近似しながら、CNNを効果的かつ効率的に訓練することができる。 提案手法は, 代表的な構造制御型熱水鉱床である中国東部のdaingezhuang金鉱床に適用され, 手設計の予測変数を用いた予測モデリング手法と比較された。 その結果, 提案手法は3次元確率モデルの性能向上に寄与し, 作業負荷の低減, 深部生検予測におけるリスクの予測を可能にした。

The three-dimensional (3D) geological models are the typical and key data source in the 3D mineral prospecitivity modeling. Identifying prospectivity-inform ative predictor variables from the 3D geological models is a challenging and tedious task. Motivated by the ability of convolutional neural networks (CNNs) to learn the intrinsic features, in this paper, we present a novel method that leverages CNNs to learn 3D mineral prospectivity from the 3D geological models. By exploiting the learning ability of CNNs, the presented method allows for disentangling complex correlation to the mineralization and thus opens a door to circumvent the tedious work for designing the predictor variables. Specifically, to explore the unstructured 3D geological models with the CNNs whose input should be structured, we develop a 2D CNN framework in which the geometry of geological boundary is compiled and reorganized into multi-channel images and fed into the CNN. This ensures an effective and efficient training of CNNs while allowing the prospective model to approximate the ore-forming process. The presented method is applied to a typical structure-controlled hydrothermal deposit, the Dayingezhuang gold deposit, eastern China, in which the presented method was compared with the prospectivity modeling methods using hand-designed predictor variables. The results demonstrate the presented method capacitates a performance boost of the 3D prospectivity modeling and empowers us to decrease work-load and prospecting risk in prediction of deep-seated orebodies.
翻訳日:2021-09-03 23:13:26 公開日:2021-09-02
# (参考訳) 自己監督による画像分類のためのより良い自己学習 [全文訳有]

Better Self-training for Image Classification through Self-supervision ( http://arxiv.org/abs/2109.00778v1 )

ライセンス: CC BY 4.0
Attaullah Sahito, Eibe Frank, and Bernhard Pfahringer(参考訳) 自己学習は単純な半教師付き学習アプローチである: 高信頼の予測を惹きつける未学習例は、予測と共にラベル付けされ、トレーニングセットに追加され、このプロセスは何度も繰り返される。 近年,手動による教師なしの学習が深層学習において注目されている。 本稿では,自己視を自己訓練に取り入れ,画像分類の精度を向上させる3つの方法を検討した。 SVHN, CIFAR-10, PlantVillageのデータセットをスクラッチからトレーニングし, Imagenetで事前トレーニングした重みを併用した実験結果から, 自己学習の第1イテレーションにのみセルフスーパービジョンを適用することにより, 計算時間がわずかに向上することを示す。

Self-training is a simple semi-supervised learning approach: Unlabelled examples that attract high-confidence predictions are labelled with their predictions and added to the training set, with this process being repeated multiple times. Recently, self-supervision -- learning without manual supervision by solving an automatically-genera ted pretext task -- has gained prominence in deep learning. This paper investigates three different ways of incorporating self-supervision into self-training to improve accuracy in image classification: self-supervision as pretraining only, self-supervision performed exclusively in the first iteration of self-training, and self-supervision added to every iteration of self-training. Empirical results on the SVHN, CIFAR-10, and PlantVillage datasets, using both training from scratch, and Imagenet-pretrained weights, show that applying self-supervision only in the first iteration of self-training can greatly improve accuracy, for a modest increase in computation time.
翻訳日:2021-09-03 23:11:59 公開日:2021-09-02
# (参考訳) 事前学習モデル重みの伝達は半教師付き画像分類を実質的に改善する [全文訳有]

Transfer of Pretrained Model Weights Substantially Improves Semi-Supervised Image Classification ( http://arxiv.org/abs/2109.00788v1 )

ライセンス: CC BY 4.0
Attaullah Sahito, Eibe Frank, and Bernhard Pfahringer(参考訳) ディープニューラルネットワークは、多数のラベル付きサンプルをトレーニングする際に最先端の結果を生成するが、少数のラベル付きサンプルをトレーニングに使用すると過度に適合する傾向がある。 多数のラベル付き例を作成するには、かなりのリソース、時間、労力が必要です。 新しいデータのラベル付けが実現不可能な場合、ラベル付きインスタンスとラベル付きインスタンスを併用することにより、いわゆる半教師付き学習が純粋に教師付き学習よりも優れた一般化を実現することができる。 本論文は,移動学習が,類似した領域で事前学習されたモデルを活用することによって,潜在的にパフォーマンスを向上させる機会を提供するという観察に動機づけられる。 具体的には,自己学習を用いた半教師付き学習における転校学習の利用について検討する。 主な貢献は、半教師付き学習における類似度メトリック学習法とラベル伝播アルゴリズムの異なる組み合わせを用いた伝達学習の実証的評価である。 ニューラルネットワークのトレーニングに使用する損失の種類に関係なく,ラベル付きサンプルが少ない場合,転送学習によってモデルの精度が大幅に向上することがわかった。 この発見はSVHN, CIFAR10, Plant Villageの画像分類データセットに関する広範な実験を行い,Imagenetから事前訓練した重みを適用して得られた。

Deep neural networks produce state-of-the-art results when trained on a large number of labeled examples but tend to overfit when small amounts of labeled examples are used for training. Creating a large number of labeled examples requires considerable resources, time, and effort. If labeling new data is not feasible, so-called semi-supervised learning can achieve better generalisation than purely supervised learning by employing unlabeled instances as well as labeled ones. The work presented in this paper is motivated by the observation that transfer learning provides the opportunity to potentially further improve performance by exploiting models pretrained on a similar domain. More specifically, we explore the use of transfer learning when performing semi-supervised learning using self-learning. The main contribution is an empirical evaluation of transfer learning using different combinations of similarity metric learning methods and label propagation algorithms in semi-supervised learning. We find that transfer learning always substantially improves the model's accuracy when few labeled examples are available, regardless of the type of loss used for training the neural network. This finding is obtained by performing extensive experiments on the SVHN, CIFAR10, and Plant Village image classification datasets and applying pretrained weights from Imagenet for transfer learning.
翻訳日:2021-09-03 23:01:02 公開日:2021-09-02
# (参考訳) シームズネットワークを用いた半教師付き学習 [全文訳有]

Semi-Supervised Learning using Siamese Networks ( http://arxiv.org/abs/2109.00794v1 )

ライセンス: CC BY 4.0
Attaullah Sahito, Eibe Frank, and Bernhard Pfahringer(参考訳) ニューラルネットワークは、多数のラベル付きサンプルをトレーニングする際に、最先端の結果をもたらす分類モデルとしてうまく使われている。 しかし、ラベル付きインスタンスが少量であり、ラベル付けされていないインスタンスが多数存在する半教師付き問題に対して、これらのモデルは、うまくトレーニングすることがより困難である。 本研究は,シームズネットワークを用いた類似度関数学習に基づく半教師付き学習の新しい学習手法を探索し,適切な埋め込みを得る。 学習された表現はユークリッド空間において判別可能であり、従ってラベルなしのインスタンスを最も近いneighbor分類器を使ってラベル付けするのに使うことができる。 拡張トレーニングセット上で,Siameseネットワークを再トレーニングするための真のラベルとして,ラベル付きインスタンスの信頼性予測が使用される。 このプロセスは反復的に適用される。 この反復的自己学習アルゴリズムの実証的研究を行う。 ラベルなし予測を改善するために,グローバル一貫性を用いた局所学習 [22] も評価した。

Neural networks have been successfully used as classification models yielding state-of-the-art results when trained on a large number of labeled samples. These models, however, are more difficult to train successfully for semi-supervised problems where small amounts of labeled instances are available along with a large number of unlabeled instances. This work explores a new training method for semi-supervised learning that is based on similarity function learning using a Siamese network to obtain a suitable embedding. The learned representations are discriminative in Euclidean space, and hence can be used for labeling unlabeled instances using a nearest-neighbor classifier. Confident predictions of unlabeled instances are used as true labels for retraining the Siamese network on the expanded training set. This process is applied iteratively. We perform an empirical study of this iterative self-training algorithm. For improving unlabeled predictions, local learning with global consistency [22] is also evaluated.
翻訳日:2021-09-03 22:51:44 公開日:2021-09-02
# (参考訳) MWPToolkit: ディープラーニングに基づく数学語問題解決のためのオープンソースフレームワーク [全文訳有]

MWPToolkit: An Open-Source Framework for Deep Learning-Based Math Word Problem Solvers ( http://arxiv.org/abs/2109.00799v1 )

ライセンス: CC BY 4.0
Yihuai Lan, Lei Wang, Qiyuan Zhang, Yunshi Lan, Bing Tian Dai, Yan Wang, Dongxiang Zhang, Ee-Peng Lim(参考訳) 自動数学語問題(mwp)解法の開発は1960年代からnlp研究者の関心を集めている。 ここ数年、MWPを効果的に解決するためのデータセットやディープラーニングベースの手法が増えている。 しかし、既存のほとんどのメソッドは、1つか2つのデータセットでベンチマークされ、異なる構成で異なるため、メソッド間の統一、標準化、公正、包括的な比較が欠如している。 本稿では,MWP を解くための最初のオープンソースフレームワークである MWPToolkit について述べる。 MWPToolkitでは、既存のMWPソルバの手順を複数のコアコンポーネントに分解し、それらのモデルを再利用性の高いモジュールに分解する。 また,性能向上のためのハイパーパラメータ検索機能も提供する。 総じて、17 MWPソルバを4つの広く使われている1つの方程式生成ベンチマークと2つの複数の方程式生成ベンチマークで実装・比較する。 これらの特徴により、我々のMWPToolkitは、先進的なベースラインモデルを再現し、新しいMWPソルバを迅速に開発するのに適している。 コードとドキュメントはhttps://github.com/L YH-YF/MWPToolkit.com で入手できる。

Developing automatic Math Word Problem (MWP) solvers has been an interest of NLP researchers since the 1960s. Over the last few years, there are a growing number of datasets and deep learning-based methods proposed for effectively solving MWPs. However, most existing methods are benchmarked soly on one or two datasets, varying in different configurations, which leads to a lack of unified, standardized, fair, and comprehensive comparison between methods. This paper presents MWPToolkit, the first open-source framework for solving MWPs. In MWPToolkit, we decompose the procedure of existing MWP solvers into multiple core components and decouple their models into highly reusable modules. We also provide a hyper-parameter search function to boost the performance. In total, we implement and compare 17 MWP solvers on 4 widely-used single equation generation benchmarks and 2 multiple equations generation benchmarks. These features enable our MWPToolkit to be suitable for researchers to reproduce advanced baseline models and develop new MWP solvers quickly. Code and documents are available at https://github.com/L YH-YF/MWPToolkit.
翻訳日:2021-09-03 22:41:26 公開日:2021-09-02
# (参考訳) 温室におけるトマト検出のための単発マルチボックス検出器とヨーロ深層学習モデルの評価 [全文訳有]

Evaluating the Single-Shot MultiBox Detector and YOLO Deep Learning Models for the Detection of Tomatoes in a Greenhouse ( http://arxiv.org/abs/2109.00810v1 )

ライセンス: CC BY 4.0
Sandro A. Magalh\~aes, Lu\'is Castro, Germano Moreira, Filipe N. Santos, m\'ario Cunha, Jorge Dias and Ant\'onio P. Moreira(参考訳) 農業のためのロボットソリューションの開発には、どの作物でも確実に機能する高度な認識能力が必要である。 例えば、温室におけるトマト収穫プロセスを自動化するためには、視覚認識システムは、あらゆるライフサイクル段階(熟したトマトへの花)でトマトを検出する必要がある。 視覚トマト検出の最先端は、主に背景から特徴的な色を持つ熟したトマトに焦点を当てている。 本稿では、緑と赤のトマトの注釈付きビジュアルデータセットに寄与する。 この種のデータセットは珍しく、研究目的には利用できない。 これにより、最先端人工知能のさらなる発展と、収穫ロボットの開発に必要なリアルタイムな視覚トマト検出が可能になる。 このデータセットを考慮すると、温室で栽培されている緑と赤みがかったトマトを検出するために、5つのディープラーニングモデルが選択、訓練、ベンチマークされた。 ロボットプラットフォーム仕様を考えると、シングルショットマルチボックス検出器(SSD)とYOLOアーキテクチャのみを考慮した。 その結果,葉に混ざったトマトでも,緑や赤みがかったトマトを検出できることがわかった。 ssd mobilenet v2は、ssd inception v2、ssd resnet 50、ssd resnet 101、yolov4 tinyと比較して最高のパフォーマンスを示し、f1-scoreは66.15%、マップは51.46%、推論時間は16.44ms、nvidia turing architecture platform(nvidia tesla t4)は12gbであった。 YOLOv4 Tinyは、主に約5ミリ秒の推測時間に関する素晴らしい結果を得た。

The development of robotic solutions for agriculture requires advanced perception capabilities that can work reliably in any crop stage. For example, to automatise the tomato harvesting process in greenhouses, the visual perception system needs to detect the tomato in any life cycle stage (flower to the ripe tomato). The state-of-the-art for visual tomato detection focuses mainly on ripe tomato, which has a distinctive colour from the background. This paper contributes with an annotated visual dataset of green and reddish tomatoes. This kind of dataset is uncommon and not available for research purposes. This will enable further developments in edge artificial intelligence for in situ and in real-time visual tomato detection required for the development of harvesting robots. Considering this dataset, five deep learning models were selected, trained and benchmarked to detect green and reddish tomatoes grown in greenhouses. Considering our robotic platform specifications, only the Single-Shot MultiBox Detector (SSD) and YOLO architectures were considered. The results proved that the system can detect green and reddish tomatoes, even those occluded by leaves. SSD MobileNet v2 had the best performance when compared against SSD Inception v2, SSD ResNet 50, SSD ResNet 101 and YOLOv4 Tiny, reaching an F1-score of 66.15%, an mAP of 51.46% and an inference time of 16.44 ms with the NVIDIA Turing Architecture platform, an NVIDIA Tesla T4, with 12 GB. YOLOv4 Tiny also had impressive results, mainly concerning inferring times of about 5 ms.
翻訳日:2021-09-03 22:28:02 公開日:2021-09-02
# (参考訳) 異種ラベルを用いた仏顔からの建年予測 [全文訳有]

Built Year Prediction from Buddha Face with Heterogeneous Labels ( http://arxiv.org/abs/2109.00812v1 )

ライセンス: CC BY 4.0
Yiming Qian, Cheikh Brahim El Vaigh, Yuta Nakashima, Benjamin Renoust, Hajime Nagahara, Yutaka Fujioka(参考訳) 仏像は、特にアジア地域の文化の一部であり、2000年以上にわたって人類の文明と並んでいる。 歴史が進むにつれ、戦乱、自然災害、その他の理由により、建立された仏像の年代を示す記録が欠落し、歴史学者が築造年数を推定する大きな仕事となった。 本稿では,その顔画像のみに基づいて構築された仏像の年数を自動的に推定するニューラルネットワークモデルの構築を追求する。 本モデルは、3つの項からなる損失関数を用いる: 構築年推定の基礎を提供するmse損失; 正確な構築年と、歴史家が推定する可能性のある構築年(王朝や世紀)の両方でサンプルを処理するkl分岐に基づく損失; 最後に、多様体の仮定に基づいてラベル付きサンプルとラベル付きサンプルの両方を利用する正規化。 学習過程におけるこれら3つの条件を組み合わせることで,テストセットに平均絶対誤差を37.5年有する画像の構築年を推定できることを示した。

Buddha statues are a part of human culture, especially of the Asia area, and they have been alongside human civilisation for more than 2,000 years. As history goes by, due to wars, natural disasters, and other reasons, the records that show the built years of Buddha statues went missing, which makes it an immense work for historians to estimate the built years. In this paper, we pursue the idea of building a neural network model that automatically estimates the built years of Buddha statues based only on their face images. Our model uses a loss function that consists of three terms: an MSE loss that provides the basis for built year estimation; a KL divergence-based loss that handles the samples with both an exact built year and a possible range of built years (e.g., dynasty or centuries) estimated by historians; finally a regularisation that utilises both labelled and unlabelled samples based on manifold assumption. By combining those three terms in the training process, we show that our method is able to estimate built years for given images with 37.5 years of a mean absolute error on the test set.
翻訳日:2021-09-03 21:58:02 公開日:2021-09-02
# (参考訳) mitosis domain generalization challengeにおけるstet-robust mitotic figure detection [全文訳有]

Stain-Robust Mitotic Figure Detection for the Mitosis Domain Generalization Challenge ( http://arxiv.org/abs/2109.00853v1 )

ライセンス: CC BY 4.0
Mostafa Jahanifar, Adam Shephard, Neda Zamani Tajeddin, R.M. Saad Bashir, Mohsin Bilal, Syed Ali Khurram, Fayyaz Minhas, and Nasir Rajpoot(参考訳) 異なるスキャナー/サイトからの僧帽弁像の検出は,臨床医の腫瘍診断支援の可能性から,重要な研究課題である。 Mitosis DOmain Generalization (MIDOG)の課題は、複数のスキャナーから見えないデータに対する検出モデルの堅牢性をテストすることである。 この課題に対処するために,TAAセンターチームが採用したアプローチの概要を紹介する。 提案手法は, 深層学習分類器によって洗練される前に, 染色正規化画像に基づいて有糸分裂候補を分割するハイブリッド検出モデルに基づく。 トレーニング画像のクロスバリデーションは予備テストセットで0.786と0.765のf1スコアを達成し,新しいスキャナからデータを取得するための汎用性を示した。

The detection of mitotic figures from different scanners/sites remains an important topic of research, owing to its potential in assisting clinicians with tumour grading. The MItosis DOmain Generalization (MIDOG) challenge aims to test the robustness of detection models on unseen data from multiple scanners for this task. We present a short summary of the approach employed by the TIA Centre team to address this challenge. Our approach is based on a hybrid detection model, where mitotic candidates are segmented on stain normalised images, before being refined by a deep learning classifier. Cross-validation on the training images achieved the F1-score of 0.786 and 0.765 on the preliminary test set, demonstrating the generalizability of our model to unseen data from new scanners.
翻訳日:2021-09-03 21:44:51 公開日:2021-09-02
# (参考訳) VORRT-COLREGs:自律型表面容器用ハイブリッド速度障害物とRTRベースのCOLREGs整合パスプランナ [全文訳有]

VORRT-COLREGs: A Hybrid Velocity Obstacles and RRT Based COLREGs-Compliant Path Planner for Autonomous Surface Vessels ( http://arxiv.org/abs/2109.00862v1 )

ライセンス: CC BY 4.0
Rahul Dubey and Sushil J Louis(参考訳) 本稿では,速度障害物 (VO) と高速探索ランダムツリー (RRT) を組み合わせたハイブリッド手法であるVORRT-COLREGsを提案する。 RRTは一連の経路点を生成し、速度障害物法は経路点間の安全な移動を保証する。 ASVの行動が海上衝突ガイドラインに違反していないことも保証します。 以前の作業では、ASVのパスを生成するためにRRTとVOを別々に使用していた。 しかし、RRTは高度に動的に扱えないため、VOはローカルパスプランナとして最も適していると思われる。 両方のアプローチを組み合わせることで、VORRT-COLREGはグローバルパスプランナであり、状況が変化するにつれて生成されたパスが有効で衝突しないよう、共同フォワードシミュレーションを使用する。 異なる種類の衝突シナリオと異なる数のASVを用いて実験を行った。 その結果, VORRT-COLREGS はオープンオーシャンシナリオにおける衝突規制 (COLREG) の苦情経路を作成した。 さらに、VORRT-COLREGSは、トラフィック分離方式におけるコンプライアンスパスの生成に成功した。 これらの結果は,異なる衝突シナリオにおけるASVの経路生成に適用可能であることを示す。 私たちの知る限りでは、これはvelocity obstaclesとrrtを組み合わせることで、asvの安全かつコレーグな苦情パスを作り出す最初の作業です。

This paper presents VORRT-COLREGs, a hybrid technique that combines velocity obstacles (VO) and rapidly-exploring random trees (RRT) to generate safe trajectories for autonomous surface vessels (ASVs) while following nautical rules of the road. RRT generates a set of way points and the velocity obstacles method ensures safe travel between way points. We also ensure that the actions of ASVs do not violate maritime collision guidelines. Earlier work has used RRT and VO separately to generate paths for ASVs. However, RRT does not handle highly dynamic situations well and and VO seems most suitable as a local path planner. Combining both approaches, VORRT-COLREGs is a global path planner that uses a joint forward simulation to ensure that generated paths remain valid and collision free as the situation changes. Experiments were conducted in different types of collision scenarios and with different numbers of ASVs. Results show that VORRT-COLREGS generated collision regulations (COLREGs) complaint paths in open ocean scenarios. Furthermore, VORRT-COLREGS successfully generated compliant paths within traffic separation schemes. These results show the applicability of our technique for generating paths for ASVs in different collision scenarios. To the best of our knowledge, this is the first work that combines velocity obstacles and RRT to produce safe and COLREGs complaint path for ASVs.
翻訳日:2021-09-03 21:38:44 公開日:2021-09-02
# (参考訳) 多色照明色の生成モデル [全文訳有]

Generative Models for Multi-Illumination Color Constancy ( http://arxiv.org/abs/2109.00863v1 )

ライセンス: CC BY 4.0
Partha Das, Yang Liu, Sezer Karaoglu and Theo Gevers(参考訳) 本稿では,マルチイルミネーション色濃度を目的とする。 しかし、既存の色濃度法のほとんどは単一光源用に設計されている。 さらに、複数の照明色を学習するためのデータセットがほとんど失われている。 本稿では,種(物理駆動)をベースとする多色コンステンシー法を提案する。 GANを用いて照明推定問題を画像から画像への翻訳問題としてモデル化する。 また,新しい多重照度データ拡張法を提案する。 単照度および多照度データセットを用いた実験により,本手法がソタ法より優れていることが示された。

In this paper, the aim is multi-illumination color constancy. However, most of the existing color constancy methods are designed for single light sources. Furthermore, datasets for learning multiple illumination color constancy are largely missing. We propose a seed (physics driven) based multi-illumination color constancy method. GANs are exploited to model the illumination estimation problem as an image-to-image domain translation problem. Additionally, a novel multi-illumination data augmentation method is proposed. Experiments on single and multi-illumination datasets show that our methods outperform sota methods.
翻訳日:2021-09-03 21:26:17 公開日:2021-09-02
# (参考訳) 騒音による実世界のロバスト性 [全文訳有]

Real World Robustness from Systematic Noise ( http://arxiv.org/abs/2109.00864v1 )

ライセンス: CC BY 4.0
Yan Wang, Yuhang Li, Ruihao Gong(参考訳) 偶然によって決定されない系統的誤りは、しばしばシステムに固有の不正確さ(観測過程または測定過程の両方を誘発する)を指す。 本稿では,系統的誤りによる長期的かつ頻繁な敵対例を示す。 より具体的には、トレーニングされたニューラルネットワーク分類器は、画像デコーディングとリサイズの不整合実装によって騙される可能性がある。 これらの実装間の小さな違いは、トレーニングからデプロイメントへの精度低下を引き起こすことが多い。 実世界の逆の例をベンチマークするために、研究者は分類器の頑健さを系統的エラーに測定できるImageNet-Sデータセットを提案する。 例えば、ImageNetでトレーニングされた通常のResNet-50は、システムエラーにより1%-5%の精度差がある。 我々の評価とデータセットは、実世界の堅牢性と実用的な一般化に向けた将来の作業に役立つかもしれない。

Systematic error, which is not determined by chance, often refers to the inaccuracy (involving either the observation or measurement process) inherent to a system. In this paper, we exhibit some long-neglected but frequent-happening adversarial examples caused by systematic error. More specifically, we find the trained neural network classifier can be fooled by inconsistent implementations of image decoding and resize. This tiny difference between these implementations often causes an accuracy drop from training to deployment. To benchmark these real-world adversarial examples, we propose ImageNet-S dataset, which enables researchers to measure a classifier's robustness to systematic error. For example, we find a normal ResNet-50 trained on ImageNet can have 1%-5% accuracy difference due to the systematic error. Together our evaluation and dataset may aid future work toward real-world robustness and practical generalization.
翻訳日:2021-09-03 21:14:09 公開日:2021-09-02
# (参考訳) MACRPO:マルチエージェント協調並行ポリシー最適化 [全文訳有]

MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization ( http://arxiv.org/abs/2109.00882v1 )

ライセンス: CC BY 4.0
Eshagh Kargar, Ville Kyrki(参考訳) 本研究は,通信チャネルのない部分可観測環境と非定常環境のマルチエージェント環境における協調政策の学習の問題について考察する。 本稿では,エージェント間の情報共有の改善に焦点をあて,新しいマルチエージェントアクター批判手法である<textit{Multi-Agent Cooperative Recurrent Proximal Policy Optimization} (MACRPO)を提案する。 そこで我々は,MACRPOにおけるエージェント間の情報統合と時間統合の2つの新しい手法を提案する。まず,批判者のネットワークアーキテクチャにおいて再帰層を用いて,再帰層をトレーニングするためにメタ軌道を使用する新しいフレームワークを提案する。 これにより、ネットワークはエージェント間の相互作用の協調とダイナミクスを学び、部分的可観測性も扱うことができる。 第2に,他のエージェントの報酬と価値関数を組み込んだ新たなアドバンテージ関数を提案する。 本研究では,連続的および離散的動作空間,deepdrive-zero,mult i-walker,および粒子環境を有する3つの挑戦的マルチエージェント環境においてアルゴリズムを評価する。 結果と,QMIXやMADDPGなどの最先端マルチエージェントアルゴリズムと,IMPALAやAPEXなどのエージェント間でパラメータを共有する単一エージェント手法との比較を行った。 その結果、他のアルゴリズムよりも優れた性能を示す。 コードはhttps://github.com/k argarisaac/macrpoで入手できる。

This work considers the problem of learning cooperative policies in multi-agent settings with partially observable and non-stationary environments without a communication channel. We focus on improving information sharing between agents and propose a new multi-agent actor-critic method called \textit{Multi-Agent Cooperative Recurrent Proximal Policy Optimization} (MACRPO). We propose two novel ways of integrating information across agents and time in MACRPO: First, we use a recurrent layer in critic's network architecture and propose a new framework to use a meta-trajectory to train the recurrent layer. This allows the network to learn the cooperation and dynamics of interactions between agents, and also handle partial observability. Second, we propose a new advantage function that incorporates other agents' rewards and value functions. We evaluate our algorithm on three challenging multi-agent environments with continuous and discrete action spaces, Deepdrive-Zero, Multi-Walker, and Particle environment. We compare the results with several ablations and state-of-the-art multi-agent algorithms such as QMIX and MADDPG and also single-agent methods with shared parameters between agents such as IMPALA and APEX. The results show superior performance against other algorithms. The code is available online at https://github.com/k argarisaac/macrpo.
翻訳日:2021-09-03 20:59:19 公開日:2021-09-02
# (参考訳) 医用画像分割における出力活性化関数が確率と誤差に及ぼす影響 [全文訳有]

Effect of the output activation function on the probabilities and errors in medical image segmentation ( http://arxiv.org/abs/2109.00903v1 )

ライセンス: CC BY-SA 4.0
Lars Nieradzik and Gerik Scheuermann and Dorothee Saur and Christina Gillmann(参考訳) シグモイド活性化は、二項分類とニューラルネットワークとのセグメンテーションにおける標準出力活性化関数である。 それでも、さまざまな潜在的な出力活性化機能があり、医療画像のセグメンテーションの結果が改善される可能性がある。 本研究では,出力の活性化と損失関数の漸近的挙動が予測確率と対応するセグメンテーション誤差に与える影響を考察する。 クロスエントロピーでは,アクティベーション関数の変化の速さはより良い予測と相関し,変化の遅さは確率のキャリブレーションを改善することを示した。 dice損失の場合、アルクタンジェント活性化関数はsgmoid関数より優れていることが判明した。 さらに,医療画像分割領域における任意の出力活性化機能のためのテスト空間を提供する。 4つの医用画像分割タスクにおいて、7つのアクティベーション関数と3つの損失関数を組み合わせてテストを行い,このシナリオに最も適した機能を分類した。

The sigmoid activation is the standard output activation function in binary classification and segmentation with neural networks. Still, there exist a variety of other potential output activation functions, which may lead to improved results in medical image segmentation. In this work, we consider how the asymptotic behavior of different output activation and loss functions affects the prediction probabilities and the corresponding segmentation errors. For cross entropy, we show that a faster rate of change of the activation function correlates with better predictions, while a slower rate of change can improve the calibration of probabilities. For dice loss, we found that the arctangent activation function is superior to the sigmoid function. Furthermore, we provide a test space for arbitrary output activation functions in the area of medical image segmentation. We tested seven activation functions in combination with three loss functions on four different medical image segmentation tasks to provide a classification of which function is best suited in this application scenario.
翻訳日:2021-09-03 20:43:57 公開日:2021-09-02
# (参考訳) MultiEURLEX -- ゼロショット言語間転送のための多言語および多言語法的文書分類データセット [全文訳有]

MultiEURLEX -- A multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer ( http://arxiv.org/abs/2109.00904v1 )

ライセンス: CC BY 4.0
Ilias Chalkidis, Manos Fergadiotis, Ion Androutsopoulos(参考訳) 法律文書のトピック分類のための多言語データセットである Multi-EURLEX を紹介する。 データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。 時間的概念ドリフトの効果と時系列の重要性を,ランダムな分割ではなく強調する。 私たちはこのデータセットをゼロショットクロスリンガルトランスファーのテストベッドとして使用し、ある言語(ソース)でアノテーション付きトレーニングドキュメントを活用して、別の言語(ターゲット)でドキュメントを分類します。 多言語事前学習モデル(XLM-ROBERTA, MT5)を単一ソース言語で微調整すると、多言語知識が壊滅的に忘れられ、その結果、他言語へのゼロショット転送が貧弱になる。 適応戦略、すなわち部分的な微調整、アダプタ、BITFIT、LNFITは、当初、新しいエンドタスクの微調整を加速するために提案され、事前訓練から多言語知識の維持を助け、ゼロショットのクロスリンガル転送を大幅に改善するが、それらの影響は、使用する事前訓練モデルとラベルセットのサイズにも依存する。

We introduce MULTI-EURLEX, a new multilingual dataset for topic classification of legal documents. The dataset comprises 65k European Union (EU) laws, officially translated in 23 languages, annotated with multiple labels from the EUROVOC taxonomy. We highlight the effect of temporal concept drift and the importance of chronological, instead of random splits. We use the dataset as a testbed for zero-shot cross-lingual transfer, where we exploit annotated training documents in one language (source) to classify documents in another language (target). We find that fine-tuning a multilingually pretrained model (XLM-ROBERTA, MT5) in a single source language leads to catastrophic forgetting of multilingual knowledge and, consequently, poor zero-shot transfer to other languages. Adaptation strategies, namely partial fine-tuning, adapters, BITFIT, LNFIT, originally proposed to accelerate fine-tuning for new end-tasks, help retain multilingual knowledge from pretraining, substantially improving zero-shot cross-lingual transfer, but their impact also depends on the pretrained model used and the size of the label set.
翻訳日:2021-09-03 20:06:49 公開日:2021-09-02
# (参考訳) 粗大化と直交型ASR転送 [全文訳有]

Coarse-To-Fine And Cross-Lingual ASR Transfer ( http://arxiv.org/abs/2109.00916v1 )

ライセンス: CC BY 4.0
Peter Pol\'ak and Ond\v{r}ej Bojar(参考訳) エンドツーエンドのニューラルネットワーク自動音声認識システムは、最近最先端の結果を達成したが、大規模なデータセットと広範な計算資源が必要である。 トランスファーラーニングは、英語モデルから訓練されたドイツ語 ASR など、言語を越えてもこれらの困難を克服するために提案されている。 チェコ語ASRの英語モデルを再利用して、より少ない関連言語で実験する。 移動を簡略化するために,アクセントのないチェコ語中間アルファベットを用いることを提案し,それが極めて効果的な戦略であることを示す。 この技術は、チェコのデータだけでは、粗大な訓練のスタイルでも有用である。 学習時間と単語誤り率(WER)において,かなりのエダクションを実現している。

End-to-end neural automatic speech recognition systems achieved recently state-of-the-art results, but they require large datasets and extensive computing resources. Transfer learning has been proposed to overcome these difficulties even across languages, e.g., German ASR trained from an English model. We experiment with much less related languages, reusing an English model for Czech ASR. To simplify the transfer, we propose to use an intermediate alphabet, Czech without accents, and document that it is a highly effective strategy. The technique is also useful on Czech data alone, in the style of coarse-to-fine training. We achieve substantial eductions in training time as well as word error rate (WER).
翻訳日:2021-09-03 18:32:56 公開日:2021-09-02
# (参考訳) 画像分類モデルの逆ロバスト性に及ぼす注意の影響 [全文訳有]

Impact of Attention on Adversarial Robustness of Image Classification Models ( http://arxiv.org/abs/2109.00936v1 )

ライセンス: CC BY 4.0
Prachi Agrawal, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) ディープラーニングモデルに対する敵意攻撃は大きな注目を集めており、近年の研究では、これらの攻撃からモデルを守るための敵意的例とテクニックの存在に関する説明が提案されている。 コンピュータビジョンにおける注意は重要な特徴の集中学習を取り入れるために使われ、精度が向上した。 近年,対向ロバスト性を高めるために注意機構を持つモデルが提案されている。 この文脈に従って、この研究は、敵の強靭性に対する注意の影響の一般的な理解を目的としている。 本研究は、CIFAR-10, CIFAR-100, Fashion MNISTデータセットでトレーニングされた非注意および注意に基づく画像分類モデルの、一般的なホワイトボックスとブラックボックス攻撃下での対角的堅牢性の比較研究である。 実験の結果,注意に基づくモデルのロバスト性は,使用するデータセットに依存する可能性がある。 分類に関わるクラスの数です クラス数が少ないデータセットとは対照的に、注意に基づくモデルは分類に対してより堅牢性を示す。

Adversarial attacks against deep learning models have gained significant attention and recent works have proposed explanations for the existence of adversarial examples and techniques to defend the models against these attacks. Attention in computer vision has been used to incorporate focused learning of important features and has led to improved accuracy. Recently, models with attention mechanisms have been proposed to enhance adversarial robustness. Following this context, this work aims at a general understanding of the impact of attention on adversarial robustness. This work presents a comparative study of adversarial robustness of non-attention and attention based image classification models trained on CIFAR-10, CIFAR-100 and Fashion MNIST datasets under the popular white box and black box attacks. The experimental results show that the robustness of attention based models may be dependent on the datasets used i.e. the number of classes involved in the classification. In contrast to the datasets with less number of classes, attention based models are observed to show better robustness towards classification.
翻訳日:2021-09-03 18:23:48 公開日:2021-09-02
# (参考訳) 語りのコーディネートとパラーにおける議事堂暴動 [全文訳有]

Coordinating Narratives and the Capitol Riots on Parler ( http://arxiv.org/abs/2109.00945v1 )

ライセンス: CC BY 4.0
Lynnette Hui Xian Ng, Iain Cruickshank, Kathleen M. Carley(参考訳) コーディネートされた偽情報キャンペーンはソーシャルメディアユーザーに影響を与えるために使用され、おそらくはオフライン暴力につながる。 本研究では,Parler上でのユーザパーリーの分析を通じて協調メッセージを明らかにする手法を提案する。 提案手法は,ユーザ対テキストグラフとテキスト対テキスト類似度グラフによって誘導されるユーザ対ユーザ協調ネットワークグラフを構築する。 テキスト対テキストグラフは、パーラーポストのテキストの類似性に基づいて構築される。 2020年1月6日の議会議事堂暴動で影響力のある3つのグループを調査し、2020年アメリカ合衆国大統領選挙に関するさまざまな偽情報を裏付けるために、同様のテキストコンテンツを投稿している協調ユーザクラスタのネットワークを検出した。

Coordinated disinformation campaigns are used to influence social media users, potentially leading to offline violence. In this study, we introduce a general methodology to uncover coordinated messaging through analysis of user parleys on Parler. The proposed method constructs a user-to-user coordination network graph induced by a user-to-text graph and a text-to-text similarity graph. The text-to-text graph is constructed based on the textual similarity of Parler posts. We study three influential groups of users in the 6 January 2020 Capitol riots and detect networks of coordinated user clusters that are all posting similar textual content in support of different disinformation narratives related to the U.S. 2020 elections.
翻訳日:2021-09-03 18:12:22 公開日:2021-09-02
# (参考訳) GAM: グラディエントアクティベーションマップによる説明可能な視覚的類似性と分類 [全文訳有]

GAM: Explainable Visual Similarity and Classification via Gradient Activation Maps ( http://arxiv.org/abs/2109.00951v1 )

ライセンス: CC BY-SA 4.0
Oren Barkan, Omri Armstrong, Amir Hertz, Avi Caciularu, Ori Katz, Itzik Malkiel, Noam Koenigstein(参考訳) 勾配活性化マップ (gam) - 視覚的類似性と分類モデルによる予測を説明する機械である。 ローカライズされた勾配と複数のネットワーク層からのアクティベーション情報を収集することで、GAMは既存の代替手段と比較して視覚的説明を改善する。 GAMのアルゴリズム上の利点は詳細に説明され、実証的に検証され、GAMは様々なタスクやデータセットでその代替品よりも優れていることが示されている。

We present Gradient Activation Maps (GAM) - a machinery for explaining predictions made by visual similarity and classification models. By gleaning localized gradient and activation information from multiple network layers, GAM offers improved visual explanations, when compared to existing alternatives. The algorithmic advantages of GAM are explained in detail, and validated empirically, where it is shown that GAM outperforms its alternatives across various tasks and datasets.
翻訳日:2021-09-03 18:03:03 公開日:2021-09-02
# (参考訳) trouspi-net: 歩行者横断予測のための平行畳み込みとu-grusの時空間的注意 [全文訳有]

TrouSPI-Net: Spatio-temporal attention on parallel atrous convolutions and U-GRUs for skeletal pedestrian crossing prediction ( http://arxiv.org/abs/2109.00953v1 )

ライセンス: CC BY 4.0
Joseph Gesnouin, Steve Pechberti, Bogdan Stanciulescu and Fabien Moutarde(参考訳) 歩行者の行動や意図を理解することは、車両の安全と運転の快適性を保証するため、自動車の自律性にとって依然として大きな課題の1つである。 本稿では,歩行者の骨格の動態を二元交差意図にリンクすることで,都市交通環境における歩行者の横断予測に対処する。 trouspi-net: コンテキストフリー、軽量、マルチブランチの予測ツール。 trouspi-netは、骨格関節の位置の擬似画像配列をエンコードして、様々な時間分解のための時空間的特徴を抽出する。 提案手法は, 骨格関節の相対距離, バウンディングボックス位置, u-grus による ego-vehicle speed などの処理により強化される。 JAAD と PIE の2つの大規模公共自然科学データセットの評価手法を用いて,TrouSPI-Net の評価を行い,その性能解析を行った。 実験の結果, trouspi-net は jaad で 0.76 f1 得点, pie で 0.80 f1 得点を達成した。

Understanding the behaviors and intentions of pedestrians is still one of the main challenges for vehicle autonomy, as accurate predictions of their intentions can guarantee their safety and driving comfort of vehicles. In this paper, we address pedestrian crossing prediction in urban traffic environments by linking the dynamics of a pedestrian's skeleton to a binary crossing intention. We introduce TrouSPI-Net: a context-free, lightweight, multi-branch predictor. TrouSPI-Net extracts spatio-temporal features for different time resolutions by encoding pseudo-images sequences of skeletal joints' positions and processes them with parallel attention modules and atrous convolutions. The proposed approach is then enhanced by processing features such as relative distances of skeletal joints, bounding box positions, or ego-vehicle speed with U-GRUs. Using the newly proposed evaluation procedures for two large public naturalistic data sets for studying pedestrian behavior in traffic: JAAD and PIE, we evaluate TrouSPI-Net and analyze its performance. Experimental results show that TrouSPI-Net achieved 0.76 F1 score on JAAD and 0.80 F1 score on PIE, therefore outperforming current state-of-the-art while being lightweight and context-free.
翻訳日:2021-09-03 17:43:34 公開日:2021-09-02
# (参考訳) toeplitz行列を用いたコンパクトでロバストなディープニューラルネットワークの構築

Building Compact and Robust Deep Neural Networks with Toeplitz Matrices ( http://arxiv.org/abs/2109.00959v1 )

ライセンス: CC BY 4.0
Alexandre Araujo(参考訳) ディープニューラルネットワークは、さまざまなタスクにおいて最先端にあるが、現実のアプリケーションでの使用とデプロイを妨げる重要な制限がある。 ニューラルネットワークの開発とトレーニングを行う場合、精度が唯一の関心事であるだけでなく、ニューラルネットワークはコスト効率と信頼性も必要である。 正確ではあるが、大きなニューラルネットワークはしばしばこれらの特性を欠いている。 この論文は、精度だけでなく、コンパクトで、訓練が容易で、信頼性が高く、逆の例にロバストなニューラルネットワークを訓練する問題に焦点を当てている。 これらの問題に対処するために、Toeplitzファミリーの構造化行列の特性を活用し、コンパクトでセキュアなニューラルネットワークを構築する。

Deep neural networks are state-of-the-art in a wide variety of tasks, however, they exhibit important limitations which hinder their use and deployment in real-world applications. When developing and training neural networks, the accuracy should not be the only concern, neural networks must also be cost-effective and reliable. Although accurate, large neural networks often lack these properties. This thesis focuses on the problem of training neural networks which are not only accurate but also compact, easy to train, reliable and robust to adversarial examples. To tackle these problems, we leverage the properties of structured matrices from the Toeplitz family to build compact and secure neural networks.
翻訳日:2021-09-03 17:28:04 公開日:2021-09-02
# (参考訳) 不均一畳み込みWGANによる赤外画像超解像 [全文訳有]

Infrared Image Super-Resolution via Heterogeneous Convolutional WGAN ( http://arxiv.org/abs/2109.00960v1 )

ライセンス: CC BY 4.0
Yongsong Huang, Zetao Jiang, Qingzhong Wang, Qi Jiang and Guoming Pang(参考訳) 画像超解像は、監視やリモートセンシングなど、多くの分野で重要である。 しかし、赤外線(IR)画像は通常、光学機器が比較的高価であるため解像度が低い。 近年,深層学習は画像の超高解像度化に大きく貢献し,可視画像上での顕著な性能を実現している。 IR画像はパターンが少ないため、ディープニューラルネットワーク(DNN)がIR画像から多様な特徴を学習することは困難である。 本稿では,不均一なコンボリューションと,不均一なカーネルベースの超解像Wasserstein GAN(HetSRWGAN)をIR画像の超解像に適用するフレームワークを提案する。 HetSRWGANアルゴリズムは、プラグアンドプレイの異種カーネルベースの残差ブロックを適用した軽量なGANアーキテクチャである。 さらに、画像勾配を用いた新たな損失関数を採用し、任意のモデルに適用することができる。 提案したHetSRWGANは定性評価と定量的評価の両面で一貫して性能が向上する。 実験結果によると、トレーニングプロセス全体がより安定している。

Image super-resolution is important in many fields, such as surveillance and remote sensing. However, infrared (IR) images normally have low resolution since the optical equipment is relatively expensive. Recently, deep learning methods have dominated image super-resolution and achieved remarkable performance on visible images; however, IR images have received less attention. IR images have fewer patterns, and hence, it is difficult for deep neural networks (DNNs) to learn diverse features from IR images. In this paper, we present a framework that employs heterogeneous convolution and adversarial training, namely, heterogeneous kernel-based super-resolution Wasserstein GAN (HetSRWGAN), for IR image super-resolution. The HetSRWGAN algorithm is a lightweight GAN architecture that applies a plug-and-play heterogeneous kernel-based residual block. Moreover, a novel loss function that employs image gradients is adopted, which can be applied to an arbitrary model. The proposed HetSRWGAN achieves consistently better performance in both qualitative and quantitative evaluations. According to the experimental results, the whole training process is more stable.
翻訳日:2021-09-03 17:26:52 公開日:2021-09-02
# (参考訳) deferred spatio-temporal consistencyによる動的シーン新規ビュー合成 [全文訳有]

Dynamic Scene Novel View Synthesis via Deferred Spatio-temporal Consistency ( http://arxiv.org/abs/2109.01018v1 )

ライセンス: CC BY 4.0
Beatrix-Em\H{o}ke F\"ul\"op-Balogh and Eleanor Tursman and James Tompkin and Julie Digne and Nicolas Bonneel(参考訳) SfM(Structument from Motion)は,異なる視点でカメラからカジュアルなキャプチャによってシーンを再構築し,新しいビュー合成(NVS)により新たな視点からシーンを描画することができる。 どちらもカジュアルなキャプチャとダイナミックなシーンでは難しい: SfMはノイズと時空間的にスパースに再構成された点雲を生成し、時空間的に矛盾する効果を持つNVSとなる。 SfMとNVSの部品を一緒に検討して、課題を緩和します。 まず、SfMの場合、安定なカメラポーズを復元し、シーン全体にわたる時間的に一貫性のある点の要求を推論し、時空のノイズの多い時間ステップごとに小さな点雲のみを再構成する。 第2に,nvsでは,入力ビューから導かれる画素毎の再投影重みによる時空間的一貫性を強制することにより,雑音に対して頑健に対処できる深さと色彩の変動拡散式を提案する。 この延期されたアプローチは、時空間的に一貫性のあるレコンストラクションや大規模データセットの複雑なモデルのトレーニングを必要とせずに、動的シーンの新しいビューを生成する。 本研究では,より新しい学習ベースラインアプローチに対して,実世界の動的シーンでアルゴリズムを実演する。

Structure from motion (SfM) enables us to reconstruct a scene via casual capture from cameras at different viewpoints, and novel view synthesis (NVS) allows us to render a captured scene from a new viewpoint. Both are hard with casual capture and dynamic scenes: SfM produces noisy and spatio-temporally sparse reconstructed point clouds, resulting in NVS with spatio-temporally inconsistent effects. We consider SfM and NVS parts together to ease the challenge. First, for SfM, we recover stable camera poses, then we defer the requirement for temporally-consisten t points across the scene and reconstruct only a sparse point cloud per timestep that is noisy in space-time. Second, for NVS, we present a variational diffusion formulation on depths and colors that lets us robustly cope with the noise by enforcing spatio-temporal consistency via per-pixel reprojection weights derived from the input views. Together, this deferred approach generates novel views for dynamic scenes without requiring challenging spatio-temporally consistent reconstructions nor training complex models on large datasets. We demonstrate our algorithm on real-world dynamic scenes against classic and more recent learning-based baseline approaches.
翻訳日:2021-09-03 17:15:22 公開日:2021-09-02
# (参考訳) PHDフィルタを用いた軌跡集合を用いた拡張物体追跡 [全文訳有]

Extended Object Tracking Using Sets Of Trajectories with a PHD Filter ( http://arxiv.org/abs/2109.01019v1 )

ライセンス: CC BY 4.0
Jakob Sjudin, Martin Marcusson, Lennart Svensson, Lars Hammarstrand(参考訳) PHDフィルタリング(英: PHD filtering)は、オブジェクトの数とその状態が不明なシナリオで使用される、共通かつ効果的な多重オブジェクト追跡(MOT)アルゴリズムである。 各オブジェクトがスキャン毎に複数の測定値を生成することができるシナリオでは、いくつかのphdフィルタはオブジェクトの範囲と運動特性を推定できる。 しかしながら、これらのアプローチの多くは本質的に軌道を推定することができず、状態推定から軌道を構築するために異なるラベル付けスキームのようなアドホックな手法に依存している。 本稿では,ガンマガウシアン逆ウィッシュアート混合型phdフィルタを提案する。これは,拡張対象を扱う点対象対象の軌道集合の追跡に関するこれまでの研究を拡張することにより,拡張対象の軌道の集合を直接推定することができる。 新しいフィルタは, 既存の拡張PHDフィルタと比較され, トラジェクトリを構築するためのラベル付け方式を用いて, オブジェクトトラジェクトリをより確実に推定できることが示されている。

PHD filtering is a common and effective multiple object tracking (MOT) algorithm used in scenarios where the number of objects and their states are unknown. In scenarios where each object can generate multiple measurements per scan, some PHD filters can estimate the extent of the objects as well as their kinematic properties. Most of these approaches are, however, not able to inherently estimate trajectories and rely on ad-hoc methods, such as different labeling schemes, to build trajectories from the state estimates. This paper presents a Gamma Gaussian inverse Wishart mixture PHD filter that can directly estimate sets of trajectories of extended targets by expanding previous research on tracking sets of trajectories for point source objects to handle extended objects. The new filter is compared to an existing extended PHD filter that uses a labeling scheme to build trajectories, and it is shown that the new filter can estimate object trajectories more reliably.
翻訳日:2021-09-03 16:58:00 公開日:2021-09-02
# (参考訳) travelbert: ドメイン固有の異種知識を統一表現に組み込んだ事前学習言語モデル [全文訳有]

TravelBERT: Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation ( http://arxiv.org/abs/2109.01048v1 )

ライセンス: CC BY 4.0
Hongyin Zhu, Hao Peng, Zhiheng Lv, Lei Hou, Juanzi Li, Jinghui Xiao(参考訳) 既存の技術は様々な観点からBERTを拡張している。 異なる事前トレーニングタスク、異なるセマンティックな粒度、異なるモデルアーキテクチャを設計する。 BERTを異なるテキストフォーマットから拡張することを検討するモデルは少ない。 本稿では,非構造化テキスト,半構造化テキスト,よく構造化されたテキストを含む,すべての形式のテキストに対する統合事前学習言語モデル(plm)であるヘテロジニアス知識言語モデル(hklm)を提案する。 これら多形式的知識の対応関係を捉えるために,単語知識の学習にはマスキング言語モデル目的,エンティティ知識とトピック知識の学習には3つの分類目標とタイトルマッチング目標を用いる。 上記の多形式テキストを得るため,観光領域にコーパスを構築し,観光NLPデータセット5種について実験を行った。 その結果,本手法はデータの1/4のみを用いて,プレーンテキストの事前学習よりも優れていた。 コード、データセット、コーパス、ナレッジグラフがリリースされる。

Existing technologies expand BERT from different perspectives, e.g. designing different pre-training tasks, different semantic granularities and different model architectures. Few models consider expanding BERT from different text formats. In this paper, we propose a heterogeneous knowledge language model (HKLM), a unified pre-trained language model (PLM) for all forms of text, including unstructured text, semi-structured text and well-structured text. To capture the corresponding relations among these multi-format knowledge, our approach uses masked language model objective to learn word knowledge, uses triple classification objective and title matching objective to learn entity knowledge and topic knowledge respectively. To obtain the aforementioned multi-format text, we construct a corpus in the tourism domain and conduct experiments on 5 tourism NLP datasets. The results show that our approach outperforms the pre-training of plain text using only 1/4 of the data. The code, datasets, corpus and knowledge graph will be released.
翻訳日:2021-09-03 16:42:45 公開日:2021-09-02
# (参考訳) 胸部x線疾患対応画像編集に向けて [全文訳有]

Towards disease-aware image editing of chest X-rays ( http://arxiv.org/abs/2109.01071v1 )

ライセンス: CC BY-SA 4.0
Sai Niranjan Ramachandran, Aakash Saboo, Kai Dierkes, Hacer Yalim Keles(参考訳) GAN(Generative Adversarial Network)による疾患対応画像編集は、医療分野におけるAIの利用を促進するための有望な道となっている。 ここでは、この概念の実証について述べる。 GANベースの技術は自然画像の生成と操作に成功しているが、医療分野への応用はまだ初期段階にある。 CheXpertデータセットを用いて、StyleGANは現実的な胸部X線を生成することができることを示す。 サイクリックリバースジェネレータ(CRG)フレームワークにインスパイアされた私たちは,合成X線で生成体を忠実に反転させるエンコーダを訓練し,実物の臓器レベルの再構築を行う。 潜在コードの誘導的な操作を用いて、健康な患者からの実際のx線に心電図(心臓サイズの増加)の医療状態を推定する。 この研究は、カナダのバンクーバーで開催された34th Conference on Neural Information Processing Systems (NeurIPS 2020)の一部として開催された、メディカルイメージングミート・ニューリプス・ワークショップ2020で発表された。

Disease-aware image editing by means of generative adversarial networks (GANs) constitutes a promising avenue for advancing the use of AI in the healthcare sector. Here, we present a proof of concept of this idea. While GAN-based techniques have been successful in generating and manipulating natural images, their application to the medical domain, however, is still in its infancy. Working with the CheXpert data set, we show that StyleGAN can be trained to generate realistic chest X-rays. Inspired by the Cyclic Reverse Generator (CRG) framework, we train an encoder that allows for faithfully inverting the generator on synthetic X-rays and provides organ-level reconstructions of real ones. Employing a guided manipulation of latent codes, we confer the medical condition of cardiomegaly (increased heart size) onto real X-rays from healthy patients. This work was presented in the Medical Imaging meets Neurips Workshop 2020, which was held as part of the 34th Conference on Neural Information Processing Systems (NeurIPS 2020) in Vancouver, Canada
翻訳日:2021-09-03 16:25:38 公開日:2021-09-02
# (参考訳) 最適部分群選択

Optimal subgroup selection ( http://arxiv.org/abs/2109.01077v1 )

ライセンス: CC BY 4.0
Henry W. J. Reeve, Timothy I. Cannings, Richard J. Samworth(参考訳) 臨床試験やその他の応用では、興味深い行動を示す特徴空間の領域がしばしば見られるが、これらの現象が集団レベルで反映されているかどうかは不明である。 回帰設定に着目し,回帰関数が予め決定された閾値を超える特徴空間の領域を識別する部分群選択課題を考える。 我々は、この問題を制約付き最適化の1つとして定式化し、そこでは低複雑さでデータ依存の選択セットを求め、その確率が保証された場合、回帰関数はしきい値の少なくとも一様大となる。 これは自然に後悔の念をもたらすものであり、我々の主な貢献は、サンプルサイズとタイプIエラー確率の両方において、この後悔に対する最小値の最適率を決定することである。 このレートは、回帰関数の滑らかさを制御するパラメータ間の微妙な相互作用と、集団レベルでの最適選択セットが十分に整備された部分集合の族によって近似できる程度を定量化する指数を含んでいる。 最後に, 治療・制御環境への一般化を図示し, これまでの結果の範囲を拡大し, 異種処理効果の利害関係を明らかにした。

In clinical trials and other applications, we often see regions of the feature space that appear to exhibit interesting behaviour, but it is unclear whether these observed phenomena are reflected at the population level. Focusing on a regression setting, we consider the subgroup selection challenge of identifying a region of the feature space on which the regression function exceeds a pre-determined threshold. We formulate the problem as one of constrained optimisation, where we seek a low-complexity, data-dependent selection set on which, with a guaranteed probability, the regression function is uniformly at least as large as the threshold; subject to this constraint, we would like the region to contain as much mass under the marginal feature distribution as possible. This leads to a natural notion of regret, and our main contribution is to determine the minimax optimal rate for this regret in both the sample size and the Type I error probability. The rate involves a delicate interplay between parameters that control the smoothness of the regression function, as well as exponents that quantify the extent to which the optimal selection set at the population level can be approximated by families of well-behaved subsets. Finally, we expand the scope of our previous results by illustrating how they may be generalised to a treatment and control setting, where interest lies in the heterogeneous treatment effect.
翻訳日:2021-09-03 16:20:56 公開日:2021-09-02
# (参考訳) 身体活動認識のためのデータ拡張のためのトランスフォーマーネットワーク [全文訳有]

Transformer Networks for Data Augmentation of Human Physical Activity Recognition ( http://arxiv.org/abs/2109.01081v1 )

ライセンス: CC BY 4.0
Sandeep Ramachandra, Alexander Hoelzemann and Kristof Van Laerhoven(参考訳) データ拡張は、トレーニングで使用されるデータを増やすために、分類において広く使用されるテクニックである。 一般化を改善し、トレーニングに必要なアノテートされたヒューマンアクティビティデータ量を減らし、データセットに必要な労力と時間を削減する。 センサ時系列データは、画像とは異なり、計算学的に単純な変換アルゴリズムでは拡張できない。 Recurrent Generative Adversarial Networks (RGAN)のような最先端技術モデルは、現実的な合成データを生成するために使用される。 本稿では,データにグローバルな注意を払っているトランスフォーマーベースの生成敵ネットワークを,PAMAP2とリアルワールドヒューマンアクティビティ認識データセットでRGANと比較する。 新しいアプローチは、以前のアプローチよりもデータ拡張に必要な計算リソースの時間と節約を改善する。

Data augmentation is a widely used technique in classification to increase data used in training. It improves generalization and reduces amount of annotated human activity data needed for training which reduces labour and time needed with the dataset. Sensor time-series data, unlike images, cannot be augmented by computationally simple transformation algorithms. State of the art models like Recurrent Generative Adversarial Networks (RGAN) are used to generate realistic synthetic data. In this paper, transformer based generative adversarial networks which have global attention on data, are compared on PAMAP2 and Real World Human Activity Recognition data sets with RGAN. The newer approach provides improvements in time and savings in computational resources needed for data augmentation than previous approach.
翻訳日:2021-09-03 16:19:45 公開日:2021-09-02
# (参考訳) MIDOGチャレンジのためのカスケードRCNN [全文訳有]

Cascade RCNN for MIDOG Challenge ( http://arxiv.org/abs/2109.01085v1 )

ライセンス: CC BY 4.0
Salar Razavi, Fariba Dambandkhameneh, Dimitri Androutsos, Susan Done, April Khademi(参考訳) 有糸分裂数は乳癌の予後の鍵となる指標の1つである。 しかし、正確な分裂細胞の計数はまだ難しい問題であり、手間がかかる。 このタスクでは、自動化手法が提案されているが、通常はトレーニング画像に依存しており、見当たらないドメインのパフォーマンスが低い。 本研究では,偽陽性に対して逐次より選択的なカスケードrcnnを用いた多段階僧帽弁閉鎖症検出法を提案する。 予備テストセットでは、アルゴリズムはF1スコアが0.7492である。

Mitotic counts are one of the key indicators of breast cancer prognosis. However, accurate mitotic cell counting is still a difficult problem and is labourious. Automated methods have been proposed for this task, but are usually dependent on the training images and show poor performance on unseen domains. In this work, we present a multi-stage mitosis detection method based on a Cascade RCNN developed to be sequentially more selective against false positives. On the preliminary test set, the algorithm scores an F1-score of 0.7492.
翻訳日:2021-09-03 16:13:04 公開日:2021-09-02
# (参考訳) オンターゲット適応 [全文訳有]

On-target Adaptation ( http://arxiv.org/abs/2109.01087v1 )

ライセンス: CC BY 4.0
Dequan Wang, Shaoteng Liu, Sayna Ebrahimi, Evan Shelhamer, Trevor Darrell(参考訳) ドメイン適応は、 \emph{source} ドメインのトレーニングと \emph{target} ドメインのテストの間のシフトを緩和しようとするものである。 ほとんどの適応法は、ソースデータとターゲットデータに対する共同最適化によるソースデータに依存している。 ソースフリーメソッドはソースデータをターゲットに微調整することでソースモデルに置き換える。 いずれにしても、モデル表現と分類器のパラメータ更新の大部分はソースからであり、ターゲットではない。 しかし、目標精度が目標であるため、ターゲットデータ上で可能な限り最適化することを議論する。 対象データから純粋に表現を学習し、ソース予測のみを監督対象とするオンターゲット適応による大幅な改善を示す。 長期的分類設定では、対象データからクラス(im)バランスを学習するオンターゲットクラス分布学習により、さらなる改善が示される。

Domain adaptation seeks to mitigate the shift between training on the \emph{source} domain and testing on the \emph{target} domain. Most adaptation methods rely on the source data by joint optimization over source data and target data. Source-free methods replace the source data with a source model by fine-tuning it on target. Either way, the majority of the parameter updates for the model representation and the classifier are derived from the source, and not the target. However, target accuracy is the goal, and so we argue for optimizing as much as possible on the target data. We show significant improvement by on-target adaptation, which learns the representation purely from target data while taking only the source predictions for supervision. In the long-tailed classification setting, we show further improvement by on-target class distribution learning, which learns the (im)balance of classes from target data.
翻訳日:2021-09-03 16:08:37 公開日:2021-09-02
# (参考訳) 機能対応問題 [全文訳有]

The Functional Correspondence Problem ( http://arxiv.org/abs/2109.01097v1 )

ライセンス: CC BY 4.0
Zihang Lai, Senthil Purushwalkam, Abhinav Gupta(参考訳) 視覚データ中の対応を見つける能力は、ほとんどのコンピュータビジョンタスクの本質である。 しかし、正しい対応とは何か? 視覚的対応のタスクは、同じオブジェクトインスタンスの2つの異なるイメージに対してよく定義されます。 同じカテゴリに属する2つのオブジェクトのイメージの場合、視覚対応はたいていの場合合理的に定義されます。 しかし、全く異なるカテゴリーの2つのオブジェクト、例えば靴とボトルの対応についてはどうだろう? 通信は存在するか? a) 意味圏を超えて一般化し, (b) 機能的余裕を推定する能力に触発されて, 本論文では機能的対応の問題を紹介する。 2つのオブジェクトのイメージが与えられた場合、与えられたタスクに対して、これらの2つのイメージ間の対応のセットは何か、という単純な質問をします。 例えば、打つ作業や注ぐ作業において、ボトルと靴の対応はどのようなものか。 FunKPointは10のタスクと20のオブジェクトカテゴリに対して、基礎的な真理対応を持ちます。 また,この問題を攻撃するためのモジュール型タスク駆動表現を導入し,学習した表現がこのタスクに有効であることを示す。 しかし、最も重要なことは、我々の監視信号は意味論に縛られないため、学習した表現が、数発の分類問題においてより一般化できることである。 この論文は、私たちのコミュニティにセマンティクスを超えて考えることを刺激し、ロボットタスクのクロスカテゴリの一般化と学習表現にもっと焦点をあてることを願っている。

The ability to find correspondences in visual data is the essence of most computer vision tasks. But what are the right correspondences? The task of visual correspondence is well defined for two different images of same object instance. In case of two images of objects belonging to same category, visual correspondence is reasonably well-defined in most cases. But what about correspondence between two objects of completely different category -- e.g., a shoe and a bottle? Does there exist any correspondence? Inspired by humans' ability to: (a) generalize beyond semantic categories and; (b) infer functional affordances, we introduce the problem of functional correspondences in this paper. Given images of two objects, we ask a simple question: what is the set of correspondences between these two images for a given task? For example, what are the correspondences between a bottle and shoe for the task of pounding or the task of pouring. We introduce a new dataset: FunKPoint that has ground truth correspondences for 10 tasks and 20 object categories. We also introduce a modular task-driven representation for attacking this problem and demonstrate that our learned representation is effective for this task. But most importantly, because our supervision signal is not bound by semantics, we show that our learned representation can generalize better on few-shot classification problem. We hope this paper will inspire our community to think beyond semantics and focus more on cross-category generalization and learning representations for robotics tasks.
翻訳日:2021-09-03 15:51:21 公開日:2021-09-02
# (参考訳) 非連結形態素の翻訳にサブワードセグメンテーションはどの程度適しているか? [全文訳有]

How Suitable Are Subword Segmentation Strategies for Translating Non-Concatenative Morphology? ( http://arxiv.org/abs/2109.01100v1 )

ライセンス: CC BY 4.0
Chantal Amrhein and Rico Sennrich(参考訳) データ駆動サブワードセグメンテーションは、オープンボキャブラリー機械翻訳や他のnlpタスクのデフォルト戦略となっているが、非結合形態の最適学習には不十分である。 制御された半合成環境で形態素現象の異なる種類のセグメンテーション戦略を評価するためのテストスイートを設計する。 実験では、サブワードとキャラクタレベルで訓練された機械翻訳モデルが、これらの形態的現象をいかに翻訳できるかを比較した。 形態学的に複雑な表面表現を解析・生成する学習は,特に重複や母音調和などの非連結形態素現象や稀な語幹において,依然として困難であることがわかった。 本研究の結果から,特定の言語に不利な戦略を採用するリスクを最小限に抑えるため,多種多様な言語で新たなテキスト表現戦略をテストすることを推奨する。

Data-driven subword segmentation has become the default strategy for open-vocabulary machine translation and other NLP tasks, but may not be sufficiently generic for optimal learning of non-concatenative morphology. We design a test suite to evaluate segmentation strategies on different types of morphological phenomena in a controlled, semi-synthetic setting. In our experiments, we compare how well machine translation models trained on subword- and character-level can translate these morphological phenomena. We find that learning to analyse and generate morphologically complex surface representations is still challenging, especially for non-concatenative morphological phenomena like reduplication or vowel harmony and for rare word stems. Based on our results, we recommend that novel text representation strategies be tested on a range of typologically diverse languages to minimise the risk of adopting a strategy that inadvertently disadvantages certain languages.
翻訳日:2021-09-03 15:37:25 公開日:2021-09-02
# (参考訳) 経時的3次元心エコー図法における左室容積分割のための新しい半自動アルゴリズム [全文訳有]

A New Semi-Automated Algorithm for Volumetric Segmentation of the Left Ventricle in Temporal 3D Echocardiography Sequences ( http://arxiv.org/abs/2109.01132v1 )

ライセンス: CC BY 4.0
Deepa Krishnaswamy (1 and 2), Abhilash R. Hareendranathan (1 and 2), Tan Suwatanaviroj (4), Pierre Boulanger (1 and 2 and 3), Harald Becher (4), Michelle Noga (1 and 2), Kumaradevan Punithakumar (1 and 2 and 3) ((1) Department of Radiology and Diagnostic Imaging, University of Alberta, Edmonton, AB, Canada, (2) Servier Virtual Cardiac Centre, Mazankowski Alberta Heart Institute, Edmonton, AB, Canada, (3) Department of Computing Science, University of Alberta, Edmonton, AB, Canada, (4) ABACUS, Mazankowski Alberta Heart Institute, Edmonton, AB, Canada)(参考訳) 目的: 心エコー検査は心機能評価のための非侵襲的イメージングツールとして一般的に用いられる。 しかし,左室のデライン化はスペックルノイズの存在や低信号対雑音比などの超音波画像の特徴から困難である。 方法: 経時的3次元心エコー法による左心室の描出のための半自動セグメンテーションアルゴリズムを提案する。 この方法は、ユーザインタラクションを最小にし、二相性登録アプローチに依存する。 この手法の利点は、事前の幾何学的情報、トレーニングデータ、アトラスからの登録に依存しない。 結果: カナダのエドモントンにあるマザンコフスキー・アルバータ・ハート研究所(Mazankowski Alberta Heart Institute)の18例の3次元超音波スキャンを用いて, 専門医と4例の登録アルゴリズムによる手動記述と比較した。 セグメンテーション法では, 平均絶対差1.01mm(0.21)mm, ハウスドルフ距離4.41mm(1.43)mm, Diceオーバーラップスコア0.93(0.02)が心循環で得られた。 結論: この手法は他の4つの登録アルゴリズムと比較して良好に動作した。

Purpose: Echocardiography is commonly used as a non-invasive imaging tool in clinical practice for the assessment of cardiac function. However, delineation of the left ventricle is challenging due to the inherent properties of ultrasound imaging, such as the presence of speckle noise and the low signal-to-noise ratio. Methods: We propose a semi-automated segmentation algorithm for the delineation of the left ventricle in temporal 3D echocardiography sequences. The method requires minimal user interaction and relies on a diffeomorphic registration approach. Advantages of the method include no dependence on prior geometrical information, training data, or registration from an atlas. Results: The method was evaluated using three-dimensional ultrasound scan sequences from 18 patients from the Mazankowski Alberta Heart Institute, Edmonton, Canada, and compared to manual delineations provided by an expert cardiologist and four other registration algorithms. The segmentation approach yielded the following results over the cardiac cycle: a mean absolute difference of 1.01 (0.21) mm, a Hausdorff distance of 4.41 (1.43) mm, and a Dice overlap score of 0.93 (0.02). Conclusions: The method performed well compared to the four other registration algorithms.
翻訳日:2021-09-03 15:15:04 公開日:2021-09-02
# (参考訳) インスタンスセグメンテーションモデルのロバスト性ベンチマーク [全文訳有]

Benchmarking the Robustness of Instance Segmentation Models ( http://arxiv.org/abs/2109.01123v1 )

ライセンス: CC BY 4.0
Said Fahri Altindis, Yusuf Dalva, and Aysegul Dundar(参考訳) 本稿では,実世界の画像破損やドメイン外画像収集に関して,インスタンスセグメンテーションモデルの包括的評価を行う。 データセットは、学習したモデルのトレーニングデータセットとは異なる設定で収集される。 領域外画像評価は、モデルの一般化能力、実世界のアプリケーションの本質的な側面、及びドメイン適応に関する広範囲に研究されたトピックを示す。 これらのロバスト性および一般化評価は、実世界のアプリケーション向けにインスタンスセグメンテーションモデルを設計し、手元のタスクに直接使用するための既訓練モデルを選択する際に重要である。 具体的には、最先端のネットワークアーキテクチャ、ネットワークバックボーン、正規化レイヤ、スクラッチからトレーニングされたモデル、ImageNet事前トレーニングネットワーク、堅牢性と一般化に対するマルチタスクトレーニングの効果について述べる。 この研究を通じて、いくつかの洞察を得る。 正規化層はロバスト性において必須であり,imagenetプリトレーニングはモデルのロバスト性や一般化に役立たず,jpegの腐敗を除外し,ネットワークバックボーンとコピーペースト拡張がロバスト性に大きく影響することがわかった。

This paper presents a comprehensive evaluation of instance segmentation models with respect to real-world image corruptions and out-of-domain image collections, e.g. datasets collected with different set-ups than the training datasets the models learned from. The out-of-domain image evaluation shows the generalization capability of models, an essential aspect of real-world applications, and an extensively studied topic of domain adaptation. These presented robustness and generalization evaluations are important when designing instance segmentation models for real-world applications and picking an off-the-shelf pretrained model to directly use for the task at hand. Specifically, this benchmark study includes state-of-the-art network architectures, network backbones, normalization layers, models trained starting from scratch or ImageNet pretrained networks, and the effect of multi-task training on robustness and generalization. Through this study, we gain several insights e.g. we find that normalization layers play an essential role in robustness, ImageNet pretraining does not help the robustness and the generalization of models, excluding JPEG corruption, and network backbones and copy-paste augmentations affect robustness significantly.
翻訳日:2021-09-03 14:45:56 公開日:2021-09-02
# VIbCReg: 時系列における自己教師付き学習のための変数不変・ベタ共分散規則化

VIbCReg: Variance-Invariance- better-Covariance Regularization for Self-Supervised Learning on Time Series ( http://arxiv.org/abs/2109.00783v1 )

ライセンス: Link先を確認
Daesoo Lee (1), Erlend Aune (1 and 2) ((1) Norwegian University of Science and Technology, (2) BI Norwegian Business School)(参考訳) 画像表現のための自己教師型学習は近年,線形評価や微調整評価に関して多くのブレークスルーを経験している。 これらのアプローチは、機能崩壊問題を避けるために巧妙に作られた損失関数とトレーニングセットアップの両方に依存している。 本稿では,最近提案されたVICReg論文を改良し,有用な表現に収束するために,特別な学習ループに依存しない損失関数を導入した。 提案手法は,VICReg で提案した共分散項を改良し,モデルの収束を大幅に加速する IterNorm 層によりアーキテクチャのヘッドを増強する。 本モデルは,UCR時系列分類アーカイブとTB-XL ECGデータセットのサブセットに対して,線形評価と微調整評価に優れる。

Self-supervised learning for image representations has recently had many breakthroughs with respect to linear evaluation and fine-tuning evaluation. These approaches rely on both cleverly crafted loss functions and training setups to avoid the feature collapse problem. In this paper, we improve on the recently proposed VICReg paper, which introduced a loss function that does not rely on specialized training loops to converge to useful representations. Our method improves on a covariance term proposed in VICReg, and in addition we augment the head of the architecture by an IterNorm layer that greatly accelerates convergence of the model. Our model achieves superior performance on linear evaluation and fine-tuning evaluation on a subset of the UCR time series classification archive and the PTB-XL ECG dataset.
翻訳日:2021-09-03 14:11:47 公開日:2021-09-02
# エゴセントリックビデオにおけるスローファストロールロール型LSTMの動作予測

SlowFast Rolling-Unrolling LSTMs for Action Anticipation in Egocentric Videos ( http://arxiv.org/abs/2109.00829v1 )

ライセンス: Link先を確認
Nada Osman, Guglielmo Camporese, Pasquale Coscia, Lamberto Ballan(参考訳) エゴセントリックビデオにおける行動予測は、本質的に人間の行動のマルチモーダルな性質のため、難しい課題である。 さらに、アクションによっては、アクタや周囲のコンテキストによって、それぞれが異なり、予測が異なる可能性がある場合もあります。 この考え方に基づいて,人間の行動を予測するために特別に設計されたRULSTMアーキテクチャを構築し,RGB,光フロー,抽出対象の3つの異なるモードから抽出された特徴を,同時に,遅くかつ高速に評価・評価する,新しいアテンションベース手法を提案する。 2つのブランチは異なる時間スケール、すなわちフレームレートで情報を処理し、いくつかの融合スキームは予測精度を向上させる。 EpicKitchens-55 と EGTEA Gaze+ のデータセットに対する広範な実験を行い、予測時刻の異なるTop-5 精度測定のためのRULSTM アーキテクチャの結果を体系的に改善することを示した。

Action anticipation in egocentric videos is a difficult task due to the inherently multi-modal nature of human actions. Additionally, some actions happen faster or slower than others depending on the actor or surrounding context which could vary each time and lead to different predictions. Based on this idea, we build upon RULSTM architecture, which is specifically designed for anticipating human actions, and propose a novel attention-based technique to evaluate, simultaneously, slow and fast features extracted from three different modalities, namely RGB, optical flow, and extracted objects. Two branches process information at different time scales, i.e., frame-rates, and several fusion schemes are considered to improve prediction accuracy. We perform extensive experiments on EpicKitchens-55 and EGTEA Gaze+ datasets, and demonstrate that our technique systematically improves the results of RULSTM architecture for Top-5 accuracy metric at different anticipation times.
翻訳日:2021-09-03 14:11:33 公開日:2021-09-02
# 視覚言語モデルのための学習

Learning to Prompt for Vision-Language Models ( http://arxiv.org/abs/2109.01134v1 )

ライセンス: Link先を確認
Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu(参考訳) 視覚言語事前学習は、最近、表現学習の有望な代替手段として登場した。 画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。 このようなパラダイムは、より広範な監督源の恩恵を受け、視覚概念を自然言語からダイメトリック的に生成できるため、下流タスクへのゼロショット転送を可能にする。 本稿では,そのようなモデルを実際に展開する上で大きな課題は,プロンプトエンジニアリングであることを示す。 これは、特にクラス名を取り巻く文脈語のために適切なプロンプトを設計する場合、ドメインの専門知識が必要であり、ワードの微妙な変更がパフォーマンスに大きな影響を与える可能性があるため、通常、単語チューニングにかなりの時間を要するためである。 さらに、異なる下流タスクは特定の設計を必要とし、デプロイメントの効率をさらに妨げます。 そこで本研究では,文脈最適化(CoOp)という新しい手法を提案する。 主なアイデアは、連続表現を使ってコンテキストをモデル化し、事前訓練されたパラメータを固定しつつ、データからエンドツーエンドの学習を実行することである。 このようにタスク関連プロンプトの設計を完全に自動化することができる。 11のデータセットでの実験では、coopは事前訓練済みの視覚言語モデルをデータ効率の良い視覚学習者に効果的に変換し、手作りのプロンプトを適度なマージンで打ち負かし、より多くのショット(例えば16ショットの場合、平均利得は17%程度で50%以上に達する)で大幅に改善することができる。 CoOpはまた、分散シフトに対して強い堅牢性を示す。

Vision-language pre-training has recently emerged as a promising alternative for representation learning. It shifts from the tradition of using images and discrete labels for learning a fixed set of weights, seen as visual concepts, to aligning images and raw text for two separate encoders. Such a paradigm benefits from a broader source of supervision and allows zero-shot transfer to downstream tasks since visual concepts can be diametrically generated from natural language, known as prompt. In this paper, we identify that a major challenge of deploying such models in practice is prompt engineering. This is because designing a proper prompt, especially for context words surrounding a class name, requires domain expertise and typically takes a significant amount of time for words tuning since a slight change in wording could have a huge impact on performance. Moreover, different downstream tasks require specific designs, further hampering the efficiency of deployment. To overcome this challenge, we propose a novel approach named context optimization (CoOp). The main idea is to model context in prompts using continuous representations and perform end-to-end learning from data while keeping the pre-trained parameters fixed. In this way, the design of task-relevant prompts can be fully automated. Experiments on 11 datasets show that CoOp effectively turns pre-trained vision-language models into data-efficient visual learners, requiring as few as one or two shots to beat hand-crafted prompts with a decent margin and able to gain significant improvements when using more shots (e.g., at 16 shots the average gain is around 17% with the highest reaching over 50%). CoOp also exhibits strong robustness to distribution shift.
翻訳日:2021-09-03 14:11:14 公開日:2021-09-02
# コントラスト学習を用いた言語モデル埋め込みにおける関係構造の導入

Imposing Relation Structure in Language-Model EmbeddingsUsing Contrastive Learning ( http://arxiv.org/abs/2109.00840v1 )

ライセンス: Link先を確認
Christos Theodoropoulos, James Henderson, Andrei C. Coman, Marie-Francine Moens(参考訳) 言語モデルテキスト埋め込みはNLP研究に革命をもたらしたが、テキスト内のエンティティ間の関係のような高度な意味情報をキャプチャする能力は限られている。 本稿では,グラフ構造における関係を符号化するために文埋め込みを訓練する,新しいコントラスト学習フレームワークを提案する。 文(非構造化テキスト)とそのグラフが与えられたとき、比較学習を用いて、文字ベール(el boukkouri et al.,2020)モデルで得られた文のトークンレベルの表現に関係関係構造を課す。 得られた関係認識文の埋め込みは、単純なKNN分類器のみを用いて、関係抽出タスクにおける最先端の処理結果を達成し、提案手法の成功を実証する。 tsne解析によるさらなる可視化は、ベースラインと比較して学習表現空間の有効性を示している。 さらに, 比較学習目的を用いて, 名前付きエンティティ認識のための異なる空間を学習できることを示し, 両方の表現空間をエンティティ関係タスクでうまく結合する方法を実証する。

Though language model text embeddings have revolutionized NLP research, their ability to capture high-level semantic information, such as relations between entities in text, is limited. In this paper, we propose a novel contrastive learning framework that trains sentence embeddings to encode the relations in a graph structure. Given a sentence (unstructured text) and its graph, we use contrastive learning to impose relation-related structure on the token-level representations of the sentence obtained with a CharacterBERT (El Boukkouri et al.,2020) model. The resulting relation-aware sentence embeddings achieve state-of-the-art results on the relation extraction task using only a simple KNN classifier, thereby demonstrating the success of the proposed method. Additional visualization by a tSNE analysis shows the effectiveness of the learned representation space compared to baselines. Furthermore, we show that we can learn a different space for named entity recognition, again using a contrastive learning objective, and demonstrate how to successfully combine both representation spaces in an entity-relation task.
翻訳日:2021-09-03 14:10:31 公開日:2021-09-02
# AnANet:クロスモーダル相関分類のためのモデリングアソシエーションとアライメント

AnANet: Modeling Association and Alignment for Cross-modal Correlation Classification ( http://arxiv.org/abs/2109.00693v1 )

ライセンス: Link先を確認
Nan Xu, Junyan Wang, Yuan Tian, Ruike Zhang, and Wenji Mao(参考訳) マルチモーダルデータの爆発的な増加は、厳密な事前仮定に従う多くのクロスモーダルアプリケーションにおいて大きな需要をもたらす。 そこで研究者らは,クロスモーダル相関カテゴリの定義を調査し,様々な分類システムと予測モデルを構築した。 しかしながら、これらのシステムは、しばしば無関係な型に分けられる暗黙の関連データの多くを無視して、細かな関連したクロスモーダル相関のタイプに注意を払っている。 さらに悪いことに、モデリングの段階での定義に従って、過去の予測モデルが相互モーダル相関の本質を示さないことです。 本稿では,画像テキスト相関の包括的解析を行い,暗黙的関連と明示的なアライメントに基づく新しい分類体系を再定義する。 画像とテキストの相互関係のタイプを予測するために,提案する定義(ananet)に基づき,画像とテキスト間の大域的不一致と共通性を暗黙的に表現し,クロスモーダルな局所的関連性を明示的に捉えたアライメントネットワークを提案する。 新たに構築した画像・テキスト相関データセットにおける実験結果から,本モデルの有効性を示す。

The explosive increase of multimodal data makes a great demand in many cross-modal applications that follow the strict prior related assumption. Thus researchers study the definition of cross-modal correlation category and construct various classification systems and predictive models. However, those systems pay more attention to the fine-grained relevant types of cross-modal correlation, ignoring lots of implicit relevant data which are often divided into irrelevant types. What's worse is that none of previous predictive models manifest the essence of cross-modal correlation according to their definition at the modeling stage. In this paper, we present a comprehensive analysis of the image-text correlation and redefine a new classification system based on implicit association and explicit alignment. To predict the type of image-text correlation, we propose the Association and Alignment Network according to our proposed definition (namely AnANet) which implicitly represents the global discrepancy and commonality between image and text and explicitly captures the cross-modal local relevance. The experimental results on our constructed new image-text correlation dataset show the effectiveness of our model.
翻訳日:2021-09-03 14:10:14 公開日:2021-09-02
# 潜在性ニューラル文法を用いたシーケンスからシーケンスへの学習

Sequence-to-Sequence Learning with Latent Neural Grammars ( http://arxiv.org/abs/2109.01135v1 )

ライセンス: Link先を確認
Yoon Kim(参考訳) ニューラルネットワークを用いたシーケンス間学習は、シーケンス予測タスクのデファクトスタンダードとなっている。 このアプローチは通常、任意の文脈で条件付け可能な強力なニューラルネットワークで次の単語の局所分布をモデル化する。 柔軟性とパフォーマンスは高いが、これらのモデルはトレーニングのために大きなデータセットを必要とすることが多く、構成の一般化をテストするために設計されたベンチマークで著しく失敗する可能性がある。 本稿では,準同期文法を用いたシーケンス列列学習に対する階層的アプローチについて検討する。対象木の各ノードはソース木のノードによって変換される。 ソースツリーとターゲットツリーは、トレーニング中に遅延処理され、誘導される。 手動の特徴工学を必要とせずに、派生規則の組合せ空間上でパラメータ共有が可能な文法のニューラルパラメータ化を開発する。 この潜性ニューラル文法を様々なドメインに適用し、コンポジション一般化(SCAN)、スタイル転送、および小規模機械翻訳のテスト用に設計された診断言語ナビゲーションタスクを行い、標準ベースラインと同等に動作することを発見した。

Sequence-to-sequence learning with neural networks has become the de facto standard for sequence prediction tasks. This approach typically models the local distribution over the next word with a powerful neural network that can condition on arbitrary context. While flexible and performant, these models often require large datasets for training and can fail spectacularly on benchmarks designed to test for compositional generalization. This work explores an alternative, hierarchical approach to sequence-to-sequence learning with quasi-synchronous grammars, where each node in the target tree is transduced by a node in the source tree. Both the source and target trees are treated as latent and induced during training. We develop a neural parameterization of the grammar which enables parameter sharing over the combinatorial space of derivation rules without the need for manual feature engineering. We apply this latent neural grammar to various domains -- a diagnostic language navigation task designed to test for compositional generalization (SCAN), style transfer, and small-scale machine translation -- and find that it performs respectably compared to standard baselines.
翻訳日:2021-09-03 14:09:33 公開日:2021-09-02
# tabfairgan: 生成型adversarial networkによる公正な表型データ生成

TabFairGAN: Fair Tabular Data Generation with Generative Adversarial Networks ( http://arxiv.org/abs/2109.00666v1 )

ライセンス: Link先を確認
Amirarsalan Rajabi, Ozlem Ozmen Garibay(参考訳) 自動意思決定への依存が高まるにつれて、アルゴリズム的公平性の問題の重要性が高まっている。 本稿では,表データ生成のための生成型adversarial networkを提案する。 モデルは2段階のトレーニングを含む。 第1フェーズでは、モデルがトレーニングされ、参照データセットに似た合成データを正確に生成する。 第2フェーズでは、フェアネス制約を加えるために値関数を変更し、正確かつ公正なデータを生成するためにネットワークをトレーニングし続けます。 私たちは、制約のない、公平なデータ生成の両方のケースで結果をテストします。 拘束されていない場合、すなわち、 このモデルが第1フェーズでのみ訓練され、実データの同一の確率分布に追従して正確なデータを生成することを意図した場合には、文献に提示された最先端のganを上回って合成表データを生成する。 また、トレーニングの第1フェーズと第2フェーズが続く制約された場合、ネットワークをトレーニングし、フェアネス文献で研究した4つのデータセット上でテストし、その結果を他の最先端の事前処理手法と比較し、その実現に期待できる結果を示す。 公平なデータ生成にGANを利用する他の研究と比較して、我々のモデルは1つの批評家のみを用いることで、また、Wasserstein GANを実装することで、モードドロップや非収束といった元のGANモデルの大きな問題を回避することで、より安定している。

With the increasing reliance on automated decision making, the issue of algorithmic fairness has gained increasing importance. In this paper, we propose a Generative Adversarial Network for tabular data generation. The model includes two phases of training. In the first phase, the model is trained to accurately generate synthetic data similar to the reference dataset. In the second phase we modify the value function to add fairness constraint, and continue training the network to generate data that is both accurate and fair. We test our results in both cases of unconstrained, and constrained fair data generation. In the unconstrained case, i.e. when the model is only trained in the first phase and is only meant to generate accurate data following the same joint probability distribution of the real data, the results show that the model beats state-of-the-art GANs proposed in the literature to produce synthetic tabular data. Also, in the constrained case in which the first phase of training is followed by the second phase, we train the network and test it on four datasets studied in the fairness literature and compare our results with another state-of-the-art pre-processing method, and present the promising results that it achieves. Comparing to other studies utilizing GANs for fair data generation, our model is comparably more stable by using only one critic, and also by avoiding major problems of original GAN model, such as mode-dropping and non-convergence, by implementing a Wasserstein GAN.
翻訳日:2021-09-03 14:08:18 公開日:2021-09-02
# フェアネス概念を用いたフェアクラスタリングの効率的なアルゴリズム

Efficient Algorithms For Fair Clustering with a New Fairness Notion ( http://arxiv.org/abs/2109.00708v1 )

ライセンス: Link先を確認
Shivam Gupta, Ganesh Ghalme, Narayanan C. Krishnan and Shweta Jain(参考訳) 我々は、まずChierichettiらによって導入されたフェアクラスタリングの問題を再考し、各保護属性が各クラスタにほぼ等しい表現、すなわちバランス特性を持つことを要求する。 既存のクラスタリングのソリューションはスケーラビリティが低いか、クラスタリングの目的と公平性のトレードオフが最適でないかのいずれかです。 本稿では,バランス特性を厳密に一般化し,細粒度効率とフェアネストレードオフの両立を可能にする,$tau$-fair Fairnessという新しいフェアネスの概念を提案する。 さらに, 単純なグリーディラウンドロビンベースアルゴリズムにより, このトレードオフを効率的に実現できることを示す。 多値保護属性のより一般的な設定の下で、我々はアルゴリズムの理論的特性を厳密に分析する。 実験結果から,提案手法はすべての最先端アルゴリズムより優れており,多数のクラスタに対しても極めて良好に動作することが示唆された。

We revisit the problem of fair clustering, first introduced by Chierichetti et al., that requires each protected attribute to have approximately equal representation in every cluster; i.e., a balance property. Existing solutions to fair clustering are either not scalable or do not achieve an optimal trade-off between clustering objective and fairness. In this paper, we propose a new notion of fairness, which we call $tau$-fair fairness, that strictly generalizes the balance property and enables a fine-grained efficiency vs. fairness trade-off. Furthermore, we show that simple greedy round-robin based algorithms achieve this trade-off efficiently. Under a more general setting of multi-valued protected attributes, we rigorously analyze the theoretical properties of the our algorithms. Our experimental results suggest that the proposed solution outperforms all the state-of-the-art algorithms and works exceptionally well even for a large number of clusters.
翻訳日:2021-09-03 14:07:52 公開日:2021-09-02
# RF-LighGBM:地域電子商取引における顧客の再購入行動を予測する確率的アンサンブル手法

RF-LighGBM: A probabilistic ensemble way to predict customer repurchase behaviour in community e-commerce ( http://arxiv.org/abs/2109.00724v1 )

ライセンス: Link先を確認
Liping Yang, Xiaxia Niu, Jun Wu(参考訳) 中国のオンライン決済ユーザー数は8億4400万人に達したと報告されており、コミュニティのeコマースプラットフォームが出現するにつれて、eコマースとソーシャルアプリケーションの統合の傾向がますます強まっている。 コミュニティeコマースは成熟したものではなく、より少ないカテゴリーと低いブランド価値を持つ包括的eコマースである。 コミュニティユーザを効果的に維持し、顧客価値を十分に探求することは、コミュニティEコマース運営者にとって重要な課題となっている。 上記の課題を考慮し,データ駆動手法を用いてコミュニティの電子商取引顧客による再購入行動の予測を行う。 主な研究内容は1。 機能工学の複雑な問題を考えると、顧客関係管理の分野での古典的なモデルrfmが改善され、5つの指標を含む顧客購買行動の特徴を記述するための改良モデルが提案されている。 2. SMOTE-ENNにおける機械学習トレーニングサンプルの不均衡を考慮して,SMOTE-ENNを用いたトレーニングサンプルバランスを提案する。 実験の結果、機械学習モデルはバランスのとれたサンプルに基づいてより効果的にトレーニングできることがわかった。 3. パラメータ調整プロセスの複雑さを考慮し,TPE法に基づく自動ハイパーパラメータ最適化手法を提案する。 他の手法と比較して、モデルの予測性能が向上し、トレーニング時間が450%以上短縮される。 4. 単一モデルの弱い予測能力に着目し,ソフト投票に基づくRF-LightgBMモデルを提案した。 本論文で提案したRF-LighTGBMモデルは,顧客の再購入行動の予測を効果的に行うことができ,F1値が0.859であり,単一モデルよりも優れていることを示す。

It is reported that the number of online payment users in China has reached 854 million; with the emergence of community e-commerce platforms, the trend of integration of e-commerce and social applications is increasingly intense. Community e-commerce is not a mature and sound comprehensive e-commerce with fewer categories and low brand value. To effectively retain community users and fully explore customer value has become an important challenge for community e-commerce operators. Given the above problems, this paper uses the data-driven method to study the prediction of community e-commerce customers' repurchase behaviour. The main research contents include 1. Given the complex problem of feature engineering, the classic model RFM in the field of customer relationship management is improved, and an improved model is proposed to describe the characteristics of customer buying behaviour, which includes five indicators. 2. In view of the imbalance of machine learning training samples in SMOTE-ENN, a training sample balance using SMOTE-ENN is proposed. The experimental results show that the machine learning model can be trained more effectively on balanced samples. 3. Aiming at the complexity of the parameter adjustment process, an automatic hyperparameter optimization method based on the TPE method was proposed. Compared with other methods, the model's prediction performance is improved, and the training time is reduced by more than 450%. 4. Aiming at the weak prediction ability of a single model, the soft voting based RF-LightgBM model was proposed. The experimental results show that the RF-LighTGBM model proposed in this paper can effectively predict customer repurchase behaviour, and the F1 value is 0.859, which is better than the single model and previous research results.
翻訳日:2021-09-03 14:07:39 公開日:2021-09-02
# nasi: 初期化時のラベルとデータ非依存のニューラルアーキテクチャ検索

NASI: Label- and Data-agnostic Neural Architecture Search at Initialization ( http://arxiv.org/abs/2109.00817v1 )

ライセンス: Link先を確認
Yao Shu, Shaofeng Cai, Zhongxiang Dai, Beng Chin Ooi, Bryan Kian Hsiang Low(参考訳) 近年、Neural Architecture Search(NAS)への関心が高まっている。 NASの探索効率と有効性、すなわち探索コストを削減し、選択したアーキテクチャの一般化性能を改善するために、様々なアルゴリズムが提案されている。 しかし,これらのアルゴリズムの探索効率は,探索過程におけるモデルトレーニングの必要性により著しく制限されている。 この制限を克服するために,nasi(nas at initialization)と呼ばれる新しいnasアルゴリズムを提案する。これはニューラルネットワークの接点カーネルの機能を利用して,初期化時の候補アーキテクチャの収束性能を特徴付けることで,モデルトレーニングを完全に回避して探索効率を高めることができる。 検索効率の改善に加えて、NASIはCIFAR-10/100やImageNetといった様々なデータセットで競合する検索効率を実現している。 さらに、穏やかな条件下では、nasiはラベルやデータに依存せず、異なるデータセット上でnasiによって選択されたアーキテクチャの転送可能性を保証することが示されています。

Recent years have witnessed a surging interest in Neural Architecture Search (NAS). Various algorithms have been proposed to improve the search efficiency and effectiveness of NAS, i.e., to reduce the search cost and improve the generalization performance of the selected architectures, respectively. However, the search efficiency of these algorithms is severely limited by the need for model training during the search process. To overcome this limitation, we propose a novel NAS algorithm called NAS at Initialization (NASI) that exploits the capability of a Neural Tangent Kernel in being able to characterize the converged performance of candidate architectures at initialization, hence allowing model training to be completely avoided to boost the search efficiency. Besides the improved search efficiency, NASI also achieves competitive search effectiveness on various datasets like CIFAR-10/100 and ImageNet. Further, NASI is shown to be label- and data-agnostic under mild conditions, which guarantees the transferability of architectures selected by our NASI over different datasets.
翻訳日:2021-09-03 14:07:09 公開日:2021-09-02
# インテリジェント交通信号制御のためのアルゴリズムの比較検討

A Comparative Study of Algorithms for Intelligent Traffic Signal Control ( http://arxiv.org/abs/2109.00937v1 )

ライセンス: Link先を確認
Hrishit Chaudhuri, Vibha Masti, Vishruth Veerendranath and Dr. S Natarajan(参考訳) 本稿では,待ち時間と待ち時間を最小限に抑えるために,交通信号制御を効果的に最適化する手法を提案する。 交通交差点は最初にマルコフ決定プロセスとして定義され、状態表現、行動、報酬が選択された。 交差点をシミュレートし,ラウンドロビンスケジューラ,フィードバック制御機構,強化学習手法であるディープqネットワーク(dqn)とアドバンテージアクタ-クリティック(a2c)を,異なるシナリオでのシミュレーションにおけるトラヒック信号のポリシとして比較した。 最後に、インドのベンガルの現実世界の交差点のシミュレーションで実験を行った。

In this paper, methods have been explored to effectively optimise traffic signal control to minimise waiting times and queue lengths, thereby increasing traffic flow. The traffic intersection was first defined as a Markov Decision Process, and a state representation, actions and rewards were chosen. Simulation of Urban MObility (SUMO) was used to simulate an intersection and then compare a Round Robin Scheduler, a Feedback Control mechanism and two Reinforcement Learning techniques - Deep Q Network (DQN) and Advantage Actor-Critic (A2C), as the policy for the traffic signal in the simulation under different scenarios. Finally, the methods were tested on a simulation of a real-world intersection in Bengaluru, India.
翻訳日:2021-09-03 14:06:53 公開日:2021-09-02
# 多レベル製品カテゴリー予測のためのテキスト分類

Text Classification for Predicting Multi-level Product Categories ( http://arxiv.org/abs/2109.01084v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Ozan Ozyegen, Mucahit Cevik, Beste Bulut, Deniz Yigit, Fahrettin F. Gonen, Ay\c{s}e Ba\c{s}ar(参考訳) オンラインショッピングプラットフォームでは、製品の詳細な分類がユーザナビゲーションを促進する。 また、オンライン小売業者は特定の業界における価格変動や、特定の商品カテゴリーの特別割引を追跡できる。 さらに、自動分類システムは、オペレータが提案する誤ったカテゴリや主観的なカテゴリをピンポイントするのに役立つ。 本研究では,食料品の商品名分類に焦点をあてた。 従来の機械学習法と最近の機械学習法の両方をテストするための強力なベースラインを確立するため、6つの異なるテキスト分類モデルを包括的に比較した。 実験では,オンライン小売業者の製品に対するトレーニングモデルの一般化可能性,事前学習された言語モデルで実現不可能なサブカテゴリの動的マスキング,複数の言語に製品タイトルを組み込むことによるメリットについて検討した。 その結果,サブカテゴリの動的マスキングは予測精度の向上に有効であることがわかった。 さらに,バイリンガルな製品タイトルの使用は一般的に有益であり,ニューラルネットワークベースのモデルの方がsvmやxgboostモデルよりもはるかに優れた性能を示す。 最後に,誤分類製品の理由を調査し,予測モデルをさらに強化するための今後の研究方向を提案する。

In an online shopping platform, a detailed classification of the products facilitates user navigation. It also helps online retailers keep track of the price fluctuations in a certain industry or special discounts on a specific product category. Moreover, an automated classification system may help to pinpoint incorrect or subjective categories suggested by an operator. In this study, we focus on product title classification of the grocery products. We perform a comprehensive comparison of six different text classification models to establish a strong baseline for this task, which involves testing both traditional and recent machine learning methods. In our experiments, we investigate the generalizability of the trained models to the products of other online retailers, the dynamic masking of infeasible subcategories for pretrained language models, and the benefits of incorporating product titles in multiple languages. Our numerical results indicate that dynamic masking of subcategories is effective in improving prediction accuracy. In addition, we observe that using bilingual product titles is generally beneficial, and neural network-based models perform significantly better than SVM and XGBoost models. Lastly, we investigate the reasons for the misclassified products and propose future research directions to further enhance the prediction models.
翻訳日:2021-09-03 14:06:38 公開日:2021-09-02
# 可逆モダリティ合成融合のための可変拡張ネットワーク

Variable Augmented Network for Invertible Modality Synthesis-Fusion ( http://arxiv.org/abs/2109.00670v1 )

ライセンス: Link先を確認
Yuhao Wang, Ruirui Liu, Zihao Li, Cailian Yang, Qiegen Liu(参考訳) 複数の医用画像に含まれる情報を異なるモダリティで統合する有効な方法として、疾患診断や治療計画などの様々な臨床応用に医療用画像合成と融合が出現している。 本稿では,医療画像の合成と融合のために,iVAN(invertible and variable augmented network)を提案する。 iVANでは、ネットワーク入力と出力のチャネル番号は可変拡張技術により同一であり、データ関連性が向上し、キャラクタリゼーション情報の生成に寄与する。 一方、可逆ネットワークは双方向推論プロセスを達成するために使用される。 可逆および可変拡張スキームのため、ivanはマルチインプットからワンアウトプット、マルチインプットからマルチアウトプットへのマッピングに適用できるだけでなく、ワンインプットからマルチアウトプットへのマッピングにも適用できる。 実験により,提案手法は医用画像合成法や融合法と比較して,競争力や優れた性能が得られることが示された。

As an effective way to integrate the information contained in multiple medical images under different modalities, medical image synthesis and fusion have emerged in various clinical applications such as disease diagnosis and treatment planning. In this paper, an invertible and variable augmented network (iVAN) is proposed for medical image synthesis and fusion. In iVAN, the channel number of the network input and output is the same through variable augmentation technology, and data relevance is enhanced, which is conducive to the generation of characterization information. Meanwhile, the invertible network is used to achieve the bidirectional inference processes. Due to the invertible and variable augmentation schemes, iVAN can not only be applied to the mappings of multi-input to one-output and multi-input to multi-output, but also be applied to one-input to multi-output. Experimental results demonstrated that the proposed method can obtain competitive or superior performance in comparison to representative medical image synthesis and fusion methods.
翻訳日:2021-09-03 14:04:37 公開日:2021-09-02
# 強固な一般化のための地域対応訓練

Regional Adversarial Training for Better Robust Generalization ( http://arxiv.org/abs/2109.00678v1 )

ライセンス: Link先を確認
Chuanbiao Song, Yanbo Fan, Yicheng Yang, Baoyuan Wu, Yiming Li, Zhifeng Li, Kun He(参考訳) 対戦訓練(AT)は、様々な敵攻撃に対する最も有望な防御方法の1つとして実証されている。 我々の知る限り、既存のATベースの手法は、通常、最も敵対的な摂動点を訓練し、全ての摂動点を等しく扱う。 本研究では,その多様性と,良性サンプル近傍の摂動点の特性を考察した,新たな対角トレーニングフレームワークを提案する。 この枠組みを実現するために,本手法では,まず,典型的な射影勾配降下法(pgd)による攻撃経路を活用し,攻撃経路に基づく攻撃領域を構築する地域敵訓練(rat)防御手法を提案する。 次に、RATは、この領域内で様々な摂動トレーニングポイントを効率的にサンプリングし、距離対応ラベル平滑化機構を用いて、異なる場所の摂動ポイントがモデル性能に異なる影響を与えるであろう直感を捉える。 いくつかのベンチマークデータセットの大規模な実験により、RATは標準対人訓練(SAT)を一貫して改善し、より堅牢な一般化を示す。

Adversarial training (AT) has been demonstrated as one of the most promising defense methods against various adversarial attacks. To our knowledge, existing AT-based methods usually train with the locally most adversarial perturbed points and treat all the perturbed points equally, which may lead to considerably weaker adversarial robust generalization on test data. In this work, we introduce a new adversarial training framework that considers the diversity as well as characteristics of the perturbed points in the vicinity of benign samples. To realize the framework, we propose a Regional Adversarial Training (RAT) defense method that first utilizes the attack path generated by the typical iterative attack method of projected gradient descent (PGD), and constructs an adversarial region based on the attack path. Then, RAT samples diverse perturbed training points efficiently inside this region, and utilizes a distance-aware label smoothing mechanism to capture our intuition that perturbed points at different locations should have different impact on the model performance. Extensive experiments on several benchmark datasets show that RAT consistently makes significant improvement on standard adversarial training (SAT), and exhibits better robust generalization.
翻訳日:2021-09-03 14:04:18 公開日:2021-09-02
# 乳癌組織標本における深層学習によるミトーシスの検出

Deep Learning-based mitosis detection in breast cancer histologic samples ( http://arxiv.org/abs/2109.00816v1 )

ライセンス: Link先を確認
Michel Halmes, Hippolyte Heuberger, Sylvain Berlemont(参考訳) これはMIDOG 2021チャレンジの文脈におけるミトーシス検出の提出である。 これは、ニューラルネットワークアーキテクチャのバックボーンとして、より高速なrcnnとdrknetの2段階の反対モデルに基づいている。 予備試験段階のリーダーボード上では、f1-scoreが 0.6645 となる。

This is the submission for mitosis detection in the context of the MIDOG 2021 challenge. It is based on the two-stage objection model Faster RCNN as well as DenseNet as a backbone for the neural network architecture. It achieves a F1-score of 0.6645 on the Preliminary Test Phase Leaderboard.
翻訳日:2021-09-03 14:03:56 公開日:2021-09-02
# 教師なし領域適応のための対向ロバスト性

Adversarial Robustness for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2109.00946v1 )

ライセンス: Link先を確認
Muhammad Awais, Fengwei Zhou, Hang Xu, Lanqing Hong, Ping Luo, Sung-Ho Bae, Zhenguo Li(参考訳) 広範囲なUnsupervised Domain Adaptation (UDA) 研究は、ラベル付きソースドメインとラベルなしターゲットドメインに深いモデルで変換可能な表現を学習することで、実践的に大きな成功を収めている。 しかし, 従来の研究は, 現実の応用において重要な敵対的堅牢性を考慮せずに, クリーンな例による UDA モデルの一般化能力の向上に重点を置いている。 従来のadversarial training法は、教師付き損失関数によって生成された敵の例を用いてモデルを訓練するため、udaのラベルなし目標領域における敵のロバスト性には適していない。 本研究では、複数の堅牢なImageNetモデルから学習した中間表現を活用し、UDAモデルの堅牢性を改善する。 提案手法は,UCAモデルの特徴と,ImageNet事前学習モデルで学習した頑健な特徴とを整合させて,ドメイン適応トレーニングを行う。 ラベル付きドメインとラベルなしドメインの両方を使用し、ドメイン適応トレーニング中に敵の介入やラベルの要求なしに堅牢性を注入する。 実験結果から,UDAベンチマークの精度を高く保ちながら,本手法はベースラインに比べて対向ロバスト性を著しく向上することが示された。

Extensive Unsupervised Domain Adaptation (UDA) studies have shown great success in practice by learning transferable representations across a labeled source domain and an unlabeled target domain with deep models. However, previous works focus on improving the generalization ability of UDA models on clean examples without considering the adversarial robustness, which is crucial in real-world applications. Conventional adversarial training methods are not suitable for the adversarial robustness on the unlabeled target domain of UDA since they train models with adversarial examples generated by the supervised loss function. In this work, we leverage intermediate representations learned by multiple robust ImageNet models to improve the robustness of UDA models. Our method works by aligning the features of the UDA model with the robust features learned by ImageNet pre-trained models along with domain adaptation training. It utilizes both labeled and unlabeled domains and instills robustness without any adversarial intervention or label requirement during domain adaptation training. Experimental results show that our method significantly improves adversarial robustness compared to the baseline while keeping clean accuracy on various UDA benchmarks.
翻訳日:2021-09-03 14:03:53 公開日:2021-09-02
# MAP推論と指数決定点過程の不適合性

Some Inapproximability Results of MAP Inference and Exponentiated Determinantal Point Processes ( http://arxiv.org/abs/2109.00727v1 )

ライセンス: Link先を確認
Naoto Ohsaka(参考訳) 決定点過程(DPP)における2つの難解問題の計算複雑性について検討する。 1つは、最大決定基を持つ主部分行列を見つけるために、最大後続(MAP)推論である。 もう1つは指数パラメータ$p$で DPPs の多様性の選好を鋭くまたは弱めることができる指数 DPPs (E-DPPs) に関する確率的推論である。 E-DPPのMAP推論と正規化定数の近似の難しさを説明した複雑性理論的難易度の結果を以下に示す。 1. $n \times n$Matrix に対する非制約MAP推論は、NPハードで$2^{\beta n}$ の係数で近似し、$\beta = 10^{-10^{13}} $ となる。 この結果は、Kulesza と Taskar (2012) によって与えられる $(\frac{9}{8}-\epsilon)$-factor inapproximability によって改善される。 2. 対数行列の最大化は、非制約の場合の$\frac{5}{4}$とサイズ制約のモノトンの場合の$+10^{-10^{13}}$に近似するNPハードである。 3. 固定された)定数指数 $p \geq \beta^{-1} = 10^{10^{13}}$ の E-DPP の正規化定数は、NP-ハードで、2^{\beta pn}$ の係数で近似する。 これは Kulesza と Taskar (2012)、Ohsaka と Matsuoka (2020) によるオープンな質問に対する否定的な回答を与える。

We study the computational complexity of two hard problems on determinantal point processes (DPPs). One is maximum a posteriori (MAP) inference, i.e., to find a principal submatrix having the maximum determinant. The other is probabilistic inference on exponentiated DPPs (E-DPPs), which can sharpen or weaken the diversity preference of DPPs with an exponent parameter $p$. We prove the following complexity-theoretic hardness results that explain the difficulty in approximating MAP inference and the normalizing constant for E-DPPs. 1. Unconstrained MAP inference for an $n \times n$ matrix is NP-hard to approximate within a factor of $2^{\beta n}$, where $\beta = 10^{-10^{13}} $. This result improves upon a $(\frac{9}{8}-\epsilon)$-factor inapproximability given by Kulesza and Taskar (2012). 2. Log-determinant maximization is NP-hard to approximate within a factor of $\frac{5}{4}$ for the unconstrained case and within a factor of $1+10^{-10^{13}}$ for the size-constrained monotone case. 3. The normalizing constant for E-DPPs of any (fixed) constant exponent $p \geq \beta^{-1} = 10^{10^{13}}$ is NP-hard to approximate within a factor of $2^{\beta pn}$. This gives a(nother) negative answer to open questions posed by Kulesza and Taskar (2012); Ohsaka and Matsuoka (2020).
翻訳日:2021-09-03 14:02:58 公開日:2021-09-02
# エネルギー効率の良いマルチオーケストレータモバイルエッジ学習

Energy-Efficient Multi-Orchestrator Mobile Edge Learning ( http://arxiv.org/abs/2109.00757v1 )

ライセンス: Link先を確認
Mhd Saria Allahham, Sameh Sorour, Amr Mohamed, Aiman Erbad, Mohsen Guizani(参考訳) Mobile Edge Learning(MEL)は、エッジデバイス(IoTデバイスなど)上で機械学習(ML)モデルの分散トレーニングを特徴とする、協調学習パラダイムである。 MELでは、異なるデータセットで複数の学習タスクが共存する可能性がある。 エッジデバイスの能力の多様性は、学習者とオーケストレータのアソシエーションとタスク割り当てを共同で最適化する必要がある。 そこで本研究では,学習者・学習者連携と学習課題割り当てのためのエネルギー効率の高いフレームワークを開発し,各オーケストレータが,コミュニケーションチャネルの質と計算資源に基づいて,同じ学習課題を持つ学習者グループに関連付け,タスクの割り当てを行う。 そこで,多目的最適化問題を定式化し,全エネルギー消費を最小化し,学習タスクの精度を最大化する。 しかし,このような最適化問題の解決には,大規模システムでは現実的ではない単一エンティティにおける環境情報全体の集中化と存在感が必要である。 解の複雑性を低減し、解の分散化を可能にするために、エネルギー消費、精度、解の複雑さの間のトレードオフを容易にし、ほぼ最適性能を実現する軽量なヒューリスティックアルゴリズムを提案する。 シミュレーションの結果,提案手法は,最近の最先端手法と比較して,複数の学習タスクを実行しながらエネルギー消費を大幅に削減できることがわかった。

Mobile Edge Learning (MEL) is a collaborative learning paradigm that features distributed training of Machine Learning (ML) models over edge devices (e.g., IoT devices). In MEL, possible coexistence of multiple learning tasks with different datasets may arise. The heterogeneity in edge devices' capabilities will require the joint optimization of the learners-orchestrato r association and task allocation. To this end, we aim to develop an energy-efficient framework for learners-orchestrato r association and learning task allocation, in which each orchestrator gets associated with a group of learners with the same learning task based on their communication channel qualities and computational resources, and allocate the tasks accordingly. Therein, a multi objective optimization problem is formulated to minimize the total energy consumption and maximize the learning tasks' accuracy. However, solving such optimization problem requires centralization and the presence of the whole environment information at a single entity, which becomes impractical in large-scale systems. To reduce the solution complexity and to enable solution decentralization, we propose lightweight heuristic algorithms that can achieve near-optimal performance and facilitate the trade-offs between energy consumption, accuracy, and solution complexity. Simulation results show that the proposed approaches reduce the energy consumption significantly while executing multiple learning tasks compared to recent state-of-the-art methods.
翻訳日:2021-09-03 14:02:31 公開日:2021-09-02
# グラフニューラルネットワークにおける更新ステップのスパース化

Sparsifying the Update Step in Graph Neural Networks ( http://arxiv.org/abs/2109.00909v1 )

ライセンス: Link先を確認
Johannes F. Lutzeyer, Changmin Wu, Michalis Vazirgiannis(参考訳) 最も著名なグラフニューラルネットワーク(GNN)フレームワークであるMessage-Passing Neural Networks(MPNN)は、グラフ構造化データの解析において大きな成功を祝っている。 同時に、ニューラルネットワークモデルのスパーシフィケーションは、多くの学術的および産業的な関心を惹きつけます。 本稿では,更新ステップとして知られるmpnnの学習可能な部分に対するスパーシフィケーションの効果に関する構造化研究を行う。 この目的のために,更新ステップで線形変換を逐次スパース化するために,一連のモデルを設計する。 具体的には、調整可能なスペーシングレートを持つExpanderGNNモデルと、更新ステップに線形変換を持たないActivation-Only GNNを提案する。 文献の傾向と一致して、スパース化のパラダイムは、トレーニング済みのアーキテクチャを高価なスパース化するのではなく、スパースニューラルネットワークアーキテクチャを初期化することで変化している。 提案するベンチマークモデルは,更新ステップがモデル性能に与える影響をよりよく理解し,単純なグラフ畳み込みのような既存の簡易ベンチマークモデルよりも優れている。 アクティベーションのみのモデルであるexpandergnnは、いくつかの下流タスクのバニラと同等のパフォーマンスを達成し、トレーニング可能なパラメータをかなり少なくする。 パラメータ数に一致する実験では、我々のベンチマークモデルは最先端のGNNモデルよりも優れている。 私たちのコードは、https://github.com/C hangminWu/ExpanderGN Nで公開されています。

Message-Passing Neural Networks (MPNNs), the most prominent Graph Neural Network (GNN) framework, celebrate much success in the analysis of graph-structured data. Concurrently, the sparsification of Neural Network models attracts a great amount of academic and industrial interest. In this paper, we conduct a structured study of the effect of sparsification on the trainable part of MPNNs known as the Update step. To this end, we design a series of models to successively sparsify the linear transform in the Update step. Specifically, we propose the ExpanderGNN model with a tuneable sparsification rate and the Activation-Only GNN, which has no linear transform in the Update step. In agreement with a growing trend in the literature, the sparsification paradigm is changed by initialising sparse neural network architectures rather than expensively sparsifying already trained architectures. Our novel benchmark models enable a better understanding of the influence of the Update step on model performance and outperform existing simplified benchmark models such as the Simple Graph Convolution. The ExpanderGNNs, and in some cases the Activation-Only models, achieve performance on par with their vanilla counterparts on several downstream tasks while containing significantly fewer trainable parameters. In experiments with matching parameter numbers, our benchmark models outperform the state-of-the-art GNN models. Our code is publicly available at: https://github.com/C hangminWu/ExpanderGN N.
翻訳日:2021-09-03 14:02:07 公開日:2021-09-02
# オフラインデータとクラウドソースアノテーションによる言語条件付きロボット行動の学習

Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation ( http://arxiv.org/abs/2109.01115v1 )

ライセンス: Link先を確認
Suraj Nair, Eric Mitchell, Kevin Chen, Brian Ichter, Silvio Savarese, Chelsea Finn(参考訳) 本研究では,ロボットインタラクションの大規模オフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。 これを実現するには、ロボットにタスクを指定するための簡単で効果的な方法が必要である。 ゴールイメージは、ロボットの観察空間にすでに置かれているため、タスク仕様の一般的な形式である。 しかし、目標画像には多くの欠点がある: 人間には提供が不便であり、スパース報酬信号につながる望ましい振る舞いを過度に特定したり、非ゴール到達タスクの場合のタスク情報を過度に特定したりできる。 自然言語はタスク仕様の便利で柔軟な代替手段を提供するが、ロボットの観察空間における言語の基礎となるという課題が伴う。 クラウドソースの自然言語ラベルを用いて、オフラインのロボットデータセット(高度に最適化された、自律的に収集されたデータを含む)を活用することを提案する。 このデータを用いて、状態の変化が言語命令を完了するかどうかを予測する単純な分類器を学習する。 これにより言語条件付き報酬関数が提供され、オフラインマルチタスク RL に使用できる。 私たちの実験では、言語条件付き操作タスクでは、我々のアプローチは目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っており、フランカ・エミカ・パンダロボット上で「正しい引き出し」や「ステープラーを移動」といった自然言語からのバイスモータタスクを実行できることがわかった。

We study the problem of learning a range of vision-based manipulation tasks from a large offline dataset of robot interaction. In order to accomplish this, humans need easy and effective ways of specifying tasks to the robot. Goal images are one popular form of task specification, as they are already grounded in the robot's observation space. However, goal images also have a number of drawbacks: they are inconvenient for humans to provide, they can over-specify the desired behavior leading to a sparse reward signal, or under-specify task information in the case of non-goal reaching tasks. Natural language provides a convenient and flexible alternative for task specification, but comes with the challenge of grounding language in the robot's observation space. To scalably learn this grounding we propose to leverage offline robot datasets (including highly sub-optimal, autonomously collected data) with crowd-sourced natural language labels. With this data, we learn a simple classifier which predicts if a change in state completes a language instruction. This provides a language-conditioned reward function that can then be used for offline multi-task RL. In our experiments, we find that on language-conditioned manipulation tasks our approach outperforms both goal-image specifications and language conditioned imitation techniques by more than 25%, and is able to perform visuomotor tasks from natural language, such as "open the right drawer" and "move the stapler", on a Franka Emika Panda robot.
翻訳日:2021-09-03 14:01:45 公開日:2021-09-02
# 過剰容量とバックドア中毒

Excess Capacity and Backdoor Poisoning ( http://arxiv.org/abs/2109.00685v1 )

ライセンス: Link先を確認
Naren Sarayu Manoj and Avrim Blum(参考訳) バックドアデータ中毒攻撃は、攻撃者がいくつかの透かし、ラベルのついたトレーニング例をトレーニングセットに注入する敵攻撃である。 透かしは、典型的なデータに対するモデルの試験時間性能には影響しないが、透かしの例に確実に従うモデルである。 バックドアデータ中毒攻撃に関する基礎的理解を深めるために,分類問題に対するバックドアデータ中毒攻撃を議論できる形式的理論的枠組みを提案する。 次に、これらの攻撃を取り巻く重要な統計および計算上の問題を分析する。 統計的には、学習問題の本質的な脆弱性をバックドア攻撃に捉えた記憶能力と呼ばれるパラメータを識別する。 これにより、バックドア攻撃に対するいくつかの自然学習問題の堅牢性について議論できる。 本研究の結果は, バックドア攻撃の明示的な構築が関与しており, その堅牢性は, バックドア攻撃を成功させることが不可能であることを示すものである。 計算学的観点からは、ある仮定の下では、敵対的訓練はトレーニングセットにおけるバックドアの存在を検知できることを示す。 次に、同様の仮定の下で、バックドアフィルタリングとロバスト一般化と呼ばれる2つの密接に関連する問題がほぼ同値であることを示す。 これは、トレーニングセットの透かしのある例を識別できるアルゴリズムを設計するのに漸近的に必要であり、また、見当たらないデータによく一般化し、バックドアにロバストな学習アルゴリズムを得るのに十分であることを意味する。

A backdoor data poisoning attack is an adversarial attack wherein the attacker injects several watermarked, mislabeled training examples into a training set. The watermark does not impact the test-time performance of the model on typical data; however, the model reliably errs on watermarked examples. To gain a better foundational understanding of backdoor data poisoning attacks, we present a formal theoretical framework within which one can discuss backdoor data poisoning attacks for classification problems. We then use this to analyze important statistical and computational issues surrounding these attacks. On the statistical front, we identify a parameter we call the memorization capacity that captures the intrinsic vulnerability of a learning problem to a backdoor attack. This allows us to argue about the robustness of several natural learning problems to backdoor attacks. Our results favoring the attacker involve presenting explicit constructions of backdoor attacks, and our robustness results show that some natural problem settings cannot yield successful backdoor attacks. From a computational standpoint, we show that under certain assumptions, adversarial training can detect the presence of backdoors in a training set. We then show that under similar assumptions, two closely related problems we call backdoor filtering and robust generalization are nearly equivalent. This implies that it is both asymptotically necessary and sufficient to design algorithms that can identify watermarked examples in the training set in order to obtain a learning algorithm that both generalizes well to unseen data and is robust to backdoors.
翻訳日:2021-09-03 14:00:03 公開日:2021-09-02
# 高次元データにおける不確実性を考慮した特徴推定

Inferring feature importance with uncertainties in high-dimensional data ( http://arxiv.org/abs/2109.00855v1 )

ライセンス: Link先を確認
P{\aa}l Vegard Johnsen, Inga Str\"umke, Signe Riemer-S{\o}rensen, Andrew Thomas DeWand, Mette Langaas(参考訳) 特徴量の推定は、データベースモデルを説明する上で重要な側面である。 モデル自体を説明することに加えて、どの機能が基盤となるデータ生成プロセスにおいて重要なのか、等しく関連する疑問がある。 推定器における不確実性を含む個々の特徴の重要性を推定するためのShapley値に基づくフレームワークを提案する。 我々は最近発表されたSAGE(Shapley additive global importance)の機能重要度尺度に基づいて構築し、木モデルの再サンプリングなしに推定できるサブSAGEを導入する。 我々は,ブートストラップ法から不確かさを推定し,ツリーアンサンブル法へのアプローチを示す。 この枠組みは、合成データと高次元ゲノミクスデータに基づいて例証されている。

Estimating feature importance is a significant aspect of explaining data-based models. Besides explaining the model itself, an equally relevant question is which features are important in the underlying data generating process. We present a Shapley value based framework for inferring the importance of individual features, including uncertainty in the estimator. We build upon the recently published feature importance measure of SAGE (Shapley additive global importance) and introduce sub-SAGE which can be estimated without resampling for tree-based models. We argue that the uncertainties can be estimated from bootstrapping and demonstrate the approach for tree ensemble methods. The framework is exemplified on synthetic data as well as high-dimensional genomics data.
翻訳日:2021-09-03 13:59:37 公開日:2021-09-02
# 深部画像を用いたPET画像の直接再構成と前方投影モデル

Direct PET Image Reconstruction Incorporating Deep Image Prior and a Forward Projection Model ( http://arxiv.org/abs/2109.00768v1 )

ライセンス: Link先を確認
Fumio Hashimoto, Kibo Ote(参考訳) 畳み込みニューラルネットワーク(CNN)は近年,PET画像再構成において顕著な性能を発揮している。 特に、CNNをベースとした直接PET画像再構成は、シングラムから直接再構成画像を生成するが、画像再構成アルゴリズムを必要としないため、PET画像の強化にも適用可能である。 しかし、これらの深層学習に基づく直接PET画像再構成アルゴリズムは、多くの高品質なトレーニングデータセットを必要とするという欠点がある。 本研究では,深層画像前処理を組み込んだ非教師なし直接PET画像再構成手法を提案する。 提案手法は,非教師なしPET画像再構成を実現するために,損失関数付き前方投影モデルを組み込んだ。 提案手法をフィルタバックプロジェクション (FBP) と最大予測最大化 (ML-EM) アルゴリズムと比較するために, モンテカルロシミュレーションデータによる脳 [$^{18}$F]FDG PETスキャンを用いて評価を行った。 その結果,提案手法はFBPおよびML-EMアルゴリズムをピーク信号対雑音比と構造類似度指数に対して定量的かつ定性的に上回っていることがわかった。

Convolutional neural networks (CNNs) have recently achieved remarkable performance in positron emission tomography (PET) image reconstruction. In particular, CNN-based direct PET image reconstruction, which directly generates the reconstructed image from the sinogram, has potential applicability to PET image enhancements because it does not require image reconstruction algorithms, which often produce some artifacts. However, these deep learning-based, direct PET image reconstruction algorithms have the disadvantage that they require a large number of high-quality training datasets. In this study, we propose an unsupervised direct PET image reconstruction method that incorporates a deep image prior framework. Our proposed method incorporates a forward projection model with a loss function to achieve unsupervised direct PET image reconstruction from sinograms. To compare our proposed direct reconstruction method with the filtered back projection (FBP) and maximum likelihood expectation maximization (ML-EM) algorithms, we evaluated using Monte Carlo simulation data of brain [$^{18}$F]FDG PET scans. The results demonstrate that our proposed direct reconstruction quantitatively and qualitatively outperforms the FBP and ML-EM algorithms with respect to peak signal-to-noise ratio and structural similarity index.
翻訳日:2021-09-03 13:59:25 公開日:2021-09-02
# anatomical-Guided Attention は教師なしPET画像認識性能を高める

Anatomical-Guided Attention Enhances Unsupervised PET Image Denoising Performance ( http://arxiv.org/abs/2109.00802v1 )

ライセンス: Link先を確認
Yuya Onishi, Fumio Hashimoto, Kibo Ote, Hiroyuki Ohba, Ryosuke Ota, Etsuji Yoshikawa, Yasuomi Ouchi(参考訳) 教師付き畳み込みニューラルネットワーク(CNN)は、ポジトロン・エミッション・トモグラフィ(PET)画像のノイズ化において、従来の代替手段よりも優れていることが多いが、低品質かつ高品質のPET画像対を必要とする。 本稿では,解剖情報誘導型注意機構に基づく非教師なし3次元PET画像復調手法を提案する。 磁気共鳴誘導型ディープデコーダ(MR-GDD)は,エンコーダデコーダとディープデコーダサブネットワークを導入することにより,MR誘導画像の空間的詳細と意味的特徴をより効果的に活用する。 また、誘導画像は注意ゲートを介してネットワークに入力されるため、誘導画像の特定の形状やパターンが識別PET画像に影響を与えることはない。 The Monte Carlo Simulation using the [$^{18}$F]fluoro-2-deoxy-D-glu cose (FDG) shows that this proposed improves other denoising algorithm with the highest peak signal-to-noise ratio and structure similarity (28.33 dB/0.886)。 さらに, 教師なしcnnに基づく復元問題ではよく知られていない最適化プロセスの挙動を実験的に可視化した。 プリクリニカル ([$^{18}$F]FDG と [$^{11}$C]raclopride を用いた) および臨床 ([$^{18}$F]florbetapir を用いた) 研究に対して, 提案手法は, 各種ノイズPET画像の1/10のアーキテクチャのみを使用しながら, 空間分解能と定量的精度を維持しながら, 最先端のノイズ発生性能を示す。 以上の結果から,MR-GDDは患者に影響を与えずにPETスキャン時間とPETトレーサー線量を大幅に減少させる可能性が示唆された。

Although supervised convolutional neural networks (CNNs) often outperform conventional alternatives for denoising positron emission tomography (PET) images, they require many low- and high-quality reference PET image pairs. Herein, we propose an unsupervised 3D PET image denoising method based on anatomical information-guided attention mechanism. Our proposed magnetic resonance-guided deep decoder (MR-GDD) utilizes the spatial details and semantic features of MR-guidance image more effectively by introducing encoder-decoder and deep decoder subnetworks. Moreover, the specific shapes and patterns of the guidance image do not affect the denoised PET image, because the guidance image is input to the network through an attention gate. Monte Carlo simulation using the [$^{18}$F]fluoro-2-deoxy-D-glu cose (FDG) shows that the proposed method outperforms other denoising algorithms in terms of the highest peak signal-to-noise ratio and structural similarity (28.33 dB/0.886). Furthermore, we experimentally visualized the behavior of the optimization process, which is often unknown in unsupervised CNN-based restoration problems. For preclinical (using [$^{18}$F]FDG and [$^{11}$C]raclopride) and clinical (using [$^{18}$F]florbetapir) studies, the proposed method demonstrates state-of-the-art denoising performance while retaining spatial resolution and quantitative accuracy, despite using only a single architecture for various noisy PET images with 1/10th of the full counts. These results suggest that the proposed MR-GDD can reduce PET scan times and PET tracer doses considerably without impacting patients.
翻訳日:2021-09-03 13:59:04 公開日:2021-09-02
# 物理インフォームドニューラルネットワークにおける障害モードのキャラクタリゼーション

Characterizing possible failure modes in physics-informed neural networks ( http://arxiv.org/abs/2109.01050v1 )

ライセンス: Link先を確認
Aditi S. Krishnapriyan, Amir Gholami, Shandian Zhe, Robert M. Kirby, Michael W. Mahoney(参考訳) 科学機械学習における最近の研究は、いわゆる物理情報ニューラルネットワーク(PINN)モデルを開発した。 典型的なアプローチは、物理領域の知識を経験的損失関数のソフト制約として組み込んで、既存の機械学習手法を使ってモデルを訓練する。 既存のpinn手法は,比較的自明な問題に対してよいモデルを学ぶことができるが,単純なpdesであっても,関連する物理現象は容易に学習できないことを実証する。 特に, 対流, 反応, 拡散演算子を用いた微分方程式の学習など, 広範な物理的関心の異なるいくつかの状況を分析した。 微分作用素を含むピンのソフト正則化は,問題を悪条件にすることを含め,多くの微妙な問題を引き起こすことができることを示す。 重要なことは、これらの障害モードはNNアーキテクチャにおける表現力の欠如によるものではなく、PINNのセットアップによって損失状況の最適化が極めて困難であることが示される。 次に、これらの障害モードに対処する2つの有望なソリューションを説明します。 最初のアプローチはカリキュラムの正規化であり、PINNの損失項は単純なPDE正規化から始まり、NNが訓練されるにつれて徐々に複雑になる。 第2のアプローチは、時空全体を一度に予測することではなく、シーケンスからシーケンスへの学習タスクとして問題を提起することだ。 拡張テストの結果,これらの手法では,通常のPINN訓練と比較して最大1~2桁の誤差を達成できることがわかった。

Recent work in scientific machine learning has developed so-called physics-informed neural network (PINN) models. The typical approach is to incorporate physical domain knowledge as soft constraints on an empirical loss function and use existing machine learning methodologies to train the model. We demonstrate that, while existing PINN methodologies can learn good models for relatively trivial problems, they can easily fail to learn relevant physical phenomena even for simple PDEs. In particular, we analyze several distinct situations of widespread physical interest, including learning differential equations with convection, reaction, and diffusion operators. We provide evidence that the soft regularization in PINNs, which involves differential operators, can introduce a number of subtle problems, including making the problem ill-conditioned. Importantly, we show that these possible failure modes are not due to the lack of expressivity in the NN architecture, but that the PINN's setup makes the loss landscape very hard to optimize. We then describe two promising solutions to address these failure modes. The first approach is to use curriculum regularization, where the PINN's loss term starts from a simple PDE regularization, and becomes progressively more complex as the NN gets trained. The second approach is to pose the problem as a sequence-to-sequence learning task, rather than learning to predict the entire space-time at once. Extensive testing shows that we can achieve up to 1-2 orders of magnitude lower error with these methods as compared to regular PINN training.
翻訳日:2021-09-03 13:58:06 公開日:2021-09-02
# 高速ネットワーク計画グラディエントDescenceによる条件GAN前の逆問題の解法

Solving Inverse Problems with Conditional-GAN Prior via Fast Network-Projected Gradient Descent ( http://arxiv.org/abs/2109.01105v1 )

ライセンス: Link先を確認
Muhammad Fadli Damara, Gregor Kornhardt, Peter Jung(参考訳) 予測勾配降下 (pgd) 法は, 生成モデル,すなわちデータ分布を学習した生成器によって, データ駆動方式で記述された圧縮信号の復元に有効であることが示されている。 このような逆問題に対する更なる再構築は、発生器を測定に条件付けすることで達成できる。 境界平衡生成逆数ネットワーク(BEGAN)は、平衡に基づく損失関数と自己符号化判別器を実装し、発電機と判別器の性能のバランスを良くする。 本研究では,実測条件生成モデルに対するネットワークベース射影勾配降下(NPGD)アルゴリズムについて検討し,逆問題を通常のPGDよりも高速に解く。 我々は,NPGDと条件付きGAN/BEGANを組み合わせることで,圧縮センシング型問題の解法の有効性を評価する。 MNIST と CelebA データセットを用いた実験により,NPGD と測定条件モデルの組み合わせは,圧縮信号の回復に有効であり,類似あるいは場合によっては,より高速な再構成と性能向上が期待できる。 我々の実験で達成された復元速度は140-175である。

The projected gradient descent (PGD) method has shown to be effective in recovering compressed signals described in a data-driven way by a generative model, i.e., a generator which has learned the data distribution. Further reconstruction improvements for such inverse problems can be achieved by conditioning the generator on the measurement. The boundary equilibrium generative adversarial network (BEGAN) implements an equilibrium based loss function and an auto-encoding discriminator to better balance the performance of the generator and the discriminator. In this work we investigate a network-based projected gradient descent (NPGD) algorithm for measurement-conditio nal generative models to solve the inverse problem much faster than regular PGD. We combine the NPGD with conditional GAN/BEGAN to evaluate their effectiveness in solving compressed sensing type problems. Our experiments on the MNIST and CelebA datasets show that the combination of measurement conditional model with NPGD works well in recovering the compressed signal while achieving similar or in some cases even better performance along with a much faster reconstruction. The achieved reconstruction speed-up in our experiments is up to 140-175.
翻訳日:2021-09-03 13:57:42 公開日:2021-09-02
# ニューラルチャット翻訳における対話特性の活用に向けて

Towards Making the Most of Dialogue Characteristics for Neural Chat Translation ( http://arxiv.org/abs/2109.00668v1 )

ライセンス: Link先を確認
Yunlong Liang, Chulun Zhou, Fandong Meng, Jinan Xu, Yufeng Chen, Jinsong Su and Jie Zhou(参考訳) neural chat translation (nct)は、異なる言語の話者間で会話テキストを翻訳することを目的としている。 文レベルおよび文脈対応ニューラルマシン翻訳モデルの有望な性能にもかかわらず、対話コヒーレンスや話者パーソナリティといったチャット固有の対話特性が無視されるため、現在のnctモデルにはまだ限界がある。 本稿では,NCTモデルに対話特性のモデル化を導入することにより,チャット翻訳を促進することを提案する。 この目的のために, 単言語応答生成, 言語間応答生成, 次の発話識別, 話者識別の4つの補助タスクを設計する。 主チャット翻訳タスクと合わせて,これらのタスクのトレーニング目標を通じてnctモデルを最適化する。 これにより、固有の対話特性を捉えて、よりコヒーレントで話者関係の翻訳を生成することで、nctモデルを強化することができる。 4つの言語方向(ドイツ語と中国語)に関する総合実験により,提案手法の有効性と優位性を検証した。

Neural Chat Translation (NCT) aims to translate conversational text between speakers of different languages. Despite the promising performance of sentence-level and context-aware neural machine translation models, there still remain limitations in current NCT models because the inherent dialogue characteristics of chat, such as dialogue coherence and speaker personality, are neglected. In this paper, we propose to promote the chat translation by introducing the modeling of dialogue characteristics into the NCT model. To this end, we design four auxiliary tasks including monolingual response generation, cross-lingual response generation, next utterance discrimination, and speaker identification. Together with the main chat translation task, we optimize the NCT model through the training objectives of all these tasks. By this means, the NCT model can be enhanced by capturing the inherent dialogue characteristics, thus generating more coherent and speaker-relevant translations. Comprehensive experiments on four language directions (English-German and English-Chinese) verify the effectiveness and superiority of the proposed approach.
翻訳日:2021-09-03 13:56:42 公開日:2021-09-02
# ShopTalk: 会話型顔検索システム

ShopTalk: A System for Conversational Faceted Search ( http://arxiv.org/abs/2109.00702v1 )

ライセンス: Link先を確認
Gurmeet Manku, James Lee-Thorp, Bhargav Kanagal, Joshua Ainslie, Jingchen Feng, Zach Pearson, Ebenezer Anjorin, Sudeep Gandhe, Ilya Eckstein, Jim Rosswog, Sumit Sanghai, Michael Pohl, Larry Adams, D. Sivakumar(参考訳) ショッピングのための多ターン対話型顔検索システムであるShopTalkは,アートスロット充填システムの範囲を超えて,大規模かつ複雑なスキーマを扱うように設計されている。 shoptalkはダイアログ管理をフルフィルメントから分離するので、ダイアログ理解システムはドメインに依存しず、特定のショッピングアプリケーションと結びつかない。 ダイアログ理解システムは、ユーザ発話を解釈する深く学習されたコンテキスト言語理解モジュールと、ダイアログ状態を更新し、フルフィルメントエンジンが意図する検索要求を定式化するDST(Dialog-State Tracker)から構成される。 2つのモジュール間のインターフェースはドメインに依存しない最小限の"入出力演算子"で構成されており、DSTにダイアログ状態を更新する方法を指示する。 ShopTalkは2020年にGoogle Assistant for Shopping検索にデプロイされた。

We present ShopTalk, a multi-turn conversational faceted search system for shopping that is designed to handle large and complex schemas that are beyond the scope of state of the art slot-filling systems. ShopTalk decouples dialog management from fulfillment, thereby allowing the dialog understanding system to be domain-agnostic and not tied to the particular shopping application. The dialog understanding system consists of a deep-learned Contextual Language Understanding module, which interprets user utterances, and a primarily rules-based Dialog-State Tracker (DST), which updates the dialog state and formulates search requests intended for the fulfillment engine. The interface between the two modules consists of a minimal set of domain-agnostic "intent operators," which instruct the DST on how to update the dialog state. ShopTalk was deployed in 2020 on the Google Assistant for Shopping searches.
翻訳日:2021-09-03 13:56:26 公開日:2021-09-02
# LegaLMFiT:LSTM言語モデルの事前学習による効率的な短い法律テキスト分類

LegaLMFiT: Efficient Short Legal Text Classification with LSTM Language Model Pre-Training ( http://arxiv.org/abs/2109.00993v1 )

ライセンス: Link先を確認
Benjamin Clavi\'e, Akshita Gheewala, Paul Briton, Marc Alphonsus, Rym Labiyaad, Francesco Piccoli(参考訳) BERTのようなトランスフォーマーベースの大規模言語モデルは、多くのNLPタスクにおいて広範なパフォーマンス改善をもたらした。 これらのモデルのドメイン固有の変種は、様々な特殊タスクにおいて優れた性能を示した。 法的なNLPでは、BERTベースのモデルが複数のタスクに対して新たな最先端の結果をもたらしている。 これらのモデルの探索は、法的言語とその語彙の特異性を捉えることの重要性を証明した。 しかし、そのようなアプローチは高い計算コストに悩まされ、生態学的に高い影響とアクセシビリティーが低下する。 英語の法的テキストに着目した結果,軽量なlstmベースの言語モデルでは,小型の法定テキスト事前学習コーパスから十分な情報を取得でき,短い法定テキスト分類タスクにおいて優れた性能が得られることがわかった。 これはBERTベースのモデルに比べて計算オーバーヘッドが大幅に削減されている。 しかし,提案手法は,より複雑なタスク,より長い文書のマルチラベル分類における性能低下を示し,この軽量アプローチの限界を浮き彫りにした。

Large Transformer-based language models such as BERT have led to broad performance improvements on many NLP tasks. Domain-specific variants of these models have demonstrated excellent performance on a variety of specialised tasks. In legal NLP, BERT-based models have led to new state-of-the-art results on multiple tasks. The exploration of these models has demonstrated the importance of capturing the specificity of the legal language and its vocabulary. However, such approaches suffer from high computational costs, leading to a higher ecological impact and lower accessibility. Our findings, focusing on English language legal text, show that lightweight LSTM-based Language Models are able to capture enough information from a small legal text pretraining corpus and achieve excellent performance on short legal text classification tasks. This is achieved with a significantly reduced computational overhead compared to BERT-based models. However, our method also shows degraded performance on a more complex task, multi-label classification of longer documents, highlighting the limitations of this lightweight approach.
翻訳日:2021-09-03 13:55:46 公開日:2021-09-02
# Skim-Attention: ドキュメントレイアウトによる集中学習

Skim-Attention: Learning to Focus via Document Layout ( http://arxiv.org/abs/2109.01078v1 )

ライセンス: Link先を確認
Laura Nguyen, Thomas Scialom, Jacopo Staiano, Benjamin Piwowarski(参考訳) トランスフォーマーによるテキストとレイアウトの事前学習技術は多くの文書理解タスクで有効であることが証明されている。 この成功にもかかわらず、マルチモーダル事前学習モデルは計算とメモリのコストが非常に高い。 本稿では,人間の読書戦略に動機づけられ,文書の構造とレイアウトを生かした新たな注意機構であるskim-attentionを提案する。 Skim-Attention は文書内の単語の2次元位置にのみ参加する。 実験の結果,Skim-Attentionは従来の作業よりも難易度が低く,計算効率も高いことがわかった。 スキムアテンションはさらに長距離トランスフォーマーと組み合わせて、長い文書を効率的に処理することができる。 また,事前学習型言語モデルのマスクとしてSkim-Attentionをオフザシェルフで使用し,注意を抑えながら性能を向上させる方法を示す。 最後に,スキムアテンションにおける文書構造表現の出現を示す。

Transformer-based pre-training techniques of text and layout have proven effective in a number of document understanding tasks. Despite this success, multimodal pre-training models suffer from very high computational and memory costs. Motivated by human reading strategies, this paper presents Skim-Attention, a new attention mechanism that takes advantage of the structure of the document and its layout. Skim-Attention only attends to the 2-dimensional position of the words in a document. Our experiments show that Skim-Attention obtains a lower perplexity than prior works, while being more computationally efficient. Skim-Attention can be further combined with long-range Transformers to efficiently process long documents. We also show how Skim-Attention can be used off-the-shelf as a mask for any Pre-trained Language Model, allowing to improve their performance while restricting attention. Finally, we show the emergence of a document structure representation in Skim-Attention.
翻訳日:2021-09-03 13:55:30 公開日:2021-09-02
# 分散mimoコンテキストにおけるデータガバランスルールコンプライアンス支援のための自動化フレームワーク

An Automated Framework for Supporting Data-Governance Rule Compliance in Decentralized MIMO Contexts ( http://arxiv.org/abs/2109.00838v1 )

ライセンス: Link先を確認
Rui Zhao(参考訳) データフローグラフ上のデータガバナンスルールの自動コンプライアンスチェックのためのロジックベースのAIフレームワークであるDr.Aidを提案する。 これらのルールは状況計算に基づく形式言語を用いてモデル化され、マルチインプットマルチアウトプット(mimo)プロセスを持つ分散コンテキストに適している。 Dr.Aidはデータ・ルールとフロー・ルールをモデル化し、データ・フロー・グラフ上でのデータ・ルールの伝播、組み合わせ、修正、適用について推論することでコンプライアンスをチェックする。 我々のアプローチは、データ集約的な研究の成果グラフを用いて、実世界のデータセットによって駆動され、評価される。

We propose Dr.Aid, a logic-based AI framework for automated compliance checking of data governance rules over data-flow graphs. The rules are modelled using a formal language based on situation calculus and are suitable for decentralized contexts with multi-input-multi-ou tput (MIMO) processes. Dr.Aid models data rules and flow rules and checks compliance by reasoning about the propagation, combination, modification and application of data rules over the data flow graphs. Our approach is driven and evaluated by real-world datasets using provenance graphs from data-intensive research.
翻訳日:2021-09-03 13:55:16 公開日:2021-09-02
# PBソルバーの専用CDCL戦略について

On Dedicated CDCL Strategies for PB Solvers ( http://arxiv.org/abs/2109.01013v1 )

ライセンス: Link先を確認
Daniel Le Berre and Romain Wallon(参考訳) ネイティブPB制約に係わる疑似ブール解法(PB)の現在の実装は、高効率な現代的なSAT解法を実現するCDCLアーキテクチャに基づいている。 特に、このようなpbソルバは(カットプレーンに基づく)競合解析手順を実装するだけでなく、cdclの効率に不可欠なコンポーネント、すなわち分岐ヒューリスティック、学習された制約削除と再起動のための補完的な戦略も実装している。 しかし、これらの戦略はPBソルバが扱うPB制約の特定の形態を考慮せずに再利用することが多い。 本稿では,CDCL戦略を適応させ,PB制約の特異性を考慮し,その動作を包括的に保ちながら,CDCL戦略を適応させる方法について検討する。 これらの戦略をsat4j (3つの構成を考える) と roundingsat という2つの異なる解法で実装した。 我々の実験は、これらの専用戦略が、決定問題と最適化問題の両方において、これらの解法の性能を改善できることを示している。

Current implementations of pseudo-Boolean (PB) solvers working on native PB constraints are based on the CDCL architecture which empowers highly efficient modern SAT solvers. In particular, such PB solvers not only implement a (cutting-planes-base d) conflict analysis procedure, but also complementary strategies for components that are crucial for the efficiency of CDCL, namely branching heuristics, learned constraint deletion and restarts. However, these strategies are mostly reused by PB solvers without considering the particular form of the PB constraints they deal with. In this paper, we present and evaluate different ways of adapting CDCL strategies to take the specificities of PB constraints into account while preserving the behavior they have in the clausal setting. We implemented these strategies in two different solvers, namely Sat4j (for which we consider three configurations) and RoundingSat. Our experiments show that these dedicated strategies allow to improve, sometimes significantly, the performance of these solvers, both on decision and optimization problems.
翻訳日:2021-09-03 13:55:07 公開日:2021-09-02
# 紫外線マッピングによるディープフェイス映像の塗布

Deep Face Video Inpainting via UV Mapping ( http://arxiv.org/abs/2109.00681v1 )

ライセンス: Link先を確認
Wenqi Yang, Zhenfang Chen, Chaofeng Chen, Guanying Chen, and Kwan-Yee K. Wong(参考訳) 本稿では,フェースビデオの塗装問題に対処する。 既存の映像塗装法は、主に繰り返しパターンを持つ自然の場面を対象とする。 彼らは、腐敗した顔の対応を取り出すのに、顔の事前の知識を一切利用しない。 したがって、特に大きなポーズの顔と表現のバリエーションにおいて、顔成分がフレーム間で非常に異なる形で現れる場合にのみ、準最適結果が得られる。 本稿では,顔画像の塗装における2段階の深層学習手法を提案する。 画像空間とuv(texture)空間の間で顔を変換する前に、3dmmを3d顔として使用します。 ステージIでは,UV空間で顔の塗り絵を行う。 これにより、顔のポーズや表現の影響を大きく取り除き、適切に整列された顔機能で学習作業がより簡単になる。 本稿では,隣り合うフレームの対応を十分に活用し,塗装作業を支援するフレームアテンションモジュールを提案する。 第2段階では、被塗面領域を画像空間に変換し、第1段階にカバーされていない背景領域を被写体化し、被塗面領域を洗練させる顔映像補正を行う。 提案手法は,2d情報のみに基づいて,特に大きなポーズや表情変化の面に対して,手法を著しく上回ることができることを示す,広範な実験が行われている。

This paper addresses the problem of face video inpainting. Existing video inpainting methods target primarily at natural scenes with repetitive patterns. They do not make use of any prior knowledge of the face to help retrieve correspondences for the corrupted face. They therefore only achieve sub-optimal results, particularly for faces under large pose and expression variations where face components appear very differently across frames. In this paper, we propose a two-stage deep learning method for face video inpainting. We employ 3DMM as our 3D face prior to transform a face between the image space and the UV (texture) space. In Stage I, we perform face inpainting in the UV space. This helps to largely remove the influence of face poses and expressions and makes the learning task much easier with well aligned face features. We introduce a frame-wise attention module to fully exploit correspondences in neighboring frames to assist the inpainting task. In Stage II, we transform the inpainted face regions back to the image space and perform face video refinement that inpaints any background regions not covered in Stage I and also refines the inpainted face regions. Extensive experiments have been carried out which show our method can significantly outperform methods based merely on 2D information, especially for faces under large pose and expression variations.
翻訳日:2021-09-03 13:54:39 公開日:2021-09-02
# FBSNet:リアルタイムセマンティックセグメンテーションのための高速双方向対称ネットワーク

FBSNet: A Fast Bilateral Symmetrical Network for Real-Time Semantic Segmentation ( http://arxiv.org/abs/2109.00699v1 )

ライセンス: Link先を確認
Guangwei Gao, Guoan Xu, Juncheng Li, Yi Yu, Huimin Lu, and Jian Yang(参考訳) 入力画像のピクセルレベル分類タスクとして視覚的に理解できるリアルタイムセマンティックセグメンテーションは、現在、特に自動運転とドローンナビゲーションの高速開発の分野で、幅広い応用可能性を持っている。 しかし、冗長なパラメータと計算の重荷は、まだその技術開発における障害である。 本稿では,上記の課題を解決するために,FBSNet(Fast Bilateral Symmetrical Network)を提案する。 具体的には、FBSNetは対称エンコーダデコーダ構造を用いており、2つの分岐、意味情報分岐、空間詳細分岐がある。 意味情報分岐(semantic information branch)は、入力画像の文脈情報を取得し、一方、十分な受容領域を取得するディープネットワークアーキテクチャのメインブランチである。 空間的細部ブランチは、細部を保存するために各ピクセルの局所的な依存関係を確立するために使用される浅くシンプルなネットワークである。 一方、機能集約モジュール(FAM)は、2つのブランチの出力特徴を効果的に組み合わせるように設計されている。 CityscapesとCamVidの実験結果から、提案したFBSNetは精度と効率のバランスが良いことを示している。 具体的には、70.9\%と68.9\% mIoUの2つのテストデータセットでそれぞれ90fpsと120fpsの推論速度が得られ、1つのRTX 2080Ti GPU上でのパラメータはわずか0.62万である。

Real-time semantic segmentation, which can be visually understood as the pixel-level classification task on the input image, currently has broad application prospects, especially in the fast-developing fields of autonomous driving and drone navigation. However, the huge burden of calculation together with redundant parameters are still the obstacles to its technological development. In this paper, we propose a Fast Bilateral Symmetrical Network (FBSNet) to alleviate the above challenges. Specifically, FBSNet employs a symmetrical encoder-decoder structure with two branches, semantic information branch, and spatial detail branch. The semantic information branch is the main branch with deep network architecture to acquire the contextual information of the input image and meanwhile acquire sufficient receptive field. While spatial detail branch is a shallow and simple network used to establish local dependencies of each pixel for preserving details, which is essential for restoring the original resolution during the decoding phase. Meanwhile, a feature aggregation module (FAM) is designed to effectively combine the output features of the two branches. The experimental results of Cityscapes and CamVid show that the proposed FBSNet can strike a good balance between accuracy and efficiency. Specifically, it obtains 70.9\% and 68.9\% mIoU along with the inference speed of 90 fps and 120 fps on these two test datasets, respectively, with only 0.62 million parameters on a single RTX 2080Ti GPU.
翻訳日:2021-09-03 13:54:19 公開日:2021-09-02
# マルチモーダルゼロショット手話認識

Multi-Modal Zero-Shot Sign Language Recognition ( http://arxiv.org/abs/2109.00796v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, Sergio Escalera, Mohammad Sabokrou(参考訳) ゼロショット学習(ZSL)は近年急速に進歩している。 署名言語認識(SLR)におけるアノテーションのボトルネックを克服するために,注釈付き視覚例のないゼロショット手話認識(ZS-SLR)の考え方を,テキスト記述を活用して検討する。 そこで本稿では, 骨格をベースとした深部特徴の補完機能を利用した多モードゼロショット手話認識(ZS-SLR)モデルを提案する。 C3Dモデルとともにトランスフォーマーベースのモデルを使用して手検出と深部特徴抽出を行う。 スケルトンベースの次元と深い特徴のトレードオフを実現するため、Long Short Term Memory(LSTM)ネットワーク上にオートエンコーダ(AE)を使用する。 最後に、意味空間は、トランスフォーマー(bert)モデルからの双方向エンコーダ表現によって達成されるクラスラベルのリンガル埋め込みに視覚特徴をマッピングするために使用される。 4つの大規模データセット、RKS-PERSIANSIGN, First-Person, ASLVID, isoGDの結果は、ZS-SLRの最先端の代替モデルと比較して提案モデルの優位性を示している。

Zero-Shot Learning (ZSL) has rapidly advanced in recent years. Towards overcoming the annotation bottleneck in the Sign Language Recognition (SLR), we explore the idea of Zero-Shot Sign Language Recognition (ZS-SLR) with no annotated visual examples, by leveraging their textual descriptions. In this way, we propose a multi-modal Zero-Shot Sign Language Recognition (ZS-SLR) model harnessing from the complementary capabilities of deep features fused with the skeleton-based ones. A Transformer-based model along with a C3D model is used for hand detection and deep features extraction, respectively. To make a trade-off between the dimensionality of the skeletonbased and deep features, we use an Auto-Encoder (AE) on top of the Long Short Term Memory (LSTM) network. Finally, a semantic space is used to map the visual features to the lingual embedding of the class labels, achieved via the Bidirectional Encoder Representations from Transformers (BERT) model. Results on four large-scale datasets, RKS-PERSIANSIGN, First-Person, ASLVID, and isoGD, show the superiority of the proposed model compared to state-of-the-art alternatives in ZS-SLR.
翻訳日:2021-09-03 13:53:51 公開日:2021-09-02
# 回転不変性と広範囲データ拡張:mitosis domain generalization (midog)チャレンジのための戦略

Rotation Invariance and Extensive Data Augmentation: a strategy for the Mitosis Domain Generalization (MIDOG) Challenge ( http://arxiv.org/abs/2109.00823v1 )

ライセンス: Link先を確認
Maxime W. Lafarge and Viktor H. Koelzer(参考訳) 病理組織像における有糸分裂像の自動検出は難しい課題である。ここでは、MIDOG 2021コンペティションに応用した戦略を説明する様々な手順を示す。 このコンペティションの目的は、4つの独立したソーススキャナの限られたセットからトレーニングデータを使用するという制約の下で、未確認のターゲットスキャナーで取得した画像に対する解の一般化を評価することである。 この目標と制約を踏まえて,最先端のディープラーニング手法と,可能なスキャナ関連分布シフトに対する堅牢性の実現を目的とした,ストレートフォワードソリューションを提案することで,課題に参画した。 提案手法は, 硬負のマイニング, 広範なデータ増大, 回転不変の畳み込みネットワークなど, 放射能検出に有効な方法を組み合わせる。 提供されたデータセットの分割が異なる5つのモデルをトレーニングしました。 その後の分類器はテストスプリットで平均と標準偏差0.747+/-0.032のF1スコアを生成する。 その結果得られたアンサンブルは、我々の候補アルゴリズムを構成する: チャレンジの予備テストセットに対する自動評価は0.6828のF1スコアを返す。

Automated detection of mitotic figures in histopathology images is a challenging task: here, we present the different steps that describe the strategy we applied to participate in the MIDOG 2021 competition. The purpose of the competition was to evaluate the generalization of solutions to images acquired with unseen target scanners (hidden for the participants) under the constraint of using training data from a limited set of four independent source scanners. Given this goal and constraints, we joined the challenge by proposing a straight-forward solution based on a combination of state-of-the-art deep learning methods with the aim of yielding robustness to possible scanner-related distributional shifts at inference time. Our solution combines methods that were previously shown to be efficient for mitosis detection: hard negative mining, extensive data augmentation, rotation-invariant convolutional networks. We trained five models with different splits of the provided dataset. The subsequent classifiers produced F1-scores with a mean and standard deviation of 0.747+/-0.032 on the test splits. The resulting ensemble constitutes our candidate algorithm: its automated evaluation on the preliminary test set of the challenge returned a F1-score of 0.6828.
翻訳日:2021-09-03 13:53:28 公開日:2021-09-02
# FA-GAN:テキストから画像合成のための特徴認識型GAN

FA-GAN: Feature-Aware GAN for Text to Image Synthesis ( http://arxiv.org/abs/2109.00907v1 )

ライセンス: Link先を確認
Eunyeong Jeon, Kunhee Kim, Daijin Kim(参考訳) テキストから画像への合成は、与えられた自然言語記述からフォトリアリスティックな画像を生成することを目的としている。 これまでの成果はGAN(Generative Adversarial Networks)で大きく進歩している。 それでも、無傷な物体や透明なテクスチャを生成するのは難しい(図1)。 この問題に対処するため,我々は,自己教師付き判別器と特徴認識損失という2つの手法を統合し,高品質画像合成のための特徴認識生成逆ネットワーク(fa-gan)を提案する。 まず, 自己教師付き判別器を補助デコーダで設計し, 判別器がより良い表現を抽出できるようにする。 第2に, 自己教師付き判別器の特徴表現を用いて, ジェネレータをより直接的に監視するために, 特徴認識損失を導入する。 MS-COCOデータセットを用いた実験の結果,提案手法は最先端のFIDスコアを28.92から24.58に大幅に向上させることがわかった。

Text-to-image synthesis aims to generate a photo-realistic image from a given natural language description. Previous works have made significant progress with Generative Adversarial Networks (GANs). Nonetheless, it is still hard to generate intact objects or clear textures (Fig 1). To address this issue, we propose Feature-Aware Generative Adversarial Network (FA-GAN) to synthesize a high-quality image by integrating two techniques: a self-supervised discriminator and a feature-aware loss. First, we design a self-supervised discriminator with an auxiliary decoder so that the discriminator can extract better representation. Secondly, we introduce a feature-aware loss to provide the generator more direct supervision by employing the feature representation from the self-supervised discriminator. Experiments on the MS-COCO dataset show that our proposed method significantly advances the state-of-the-art FID score from 28.92 to 24.58.
翻訳日:2021-09-03 13:53:04 公開日:2021-09-02
# 円パッキング解釈を用いた深部キーストロークバイオメトリックスへのsetmargin lossの適用

SetMargin Loss applied to Deep Keystroke Biometrics with Circle Packing Interpretation ( http://arxiv.org/abs/2109.00938v1 )

ライセンス: Link先を確認
Aythami Morales and Julian Fierrez and Alejandro Acien and Ruben Tolosana and Ignacio Serna(参考訳) 本稿では,新しい距離メトリック学習法(dml)に基づくキーストロークバイオメトリックスのための新しい深層学習手法を提案する。 dmlは入力データを学習表現空間にマッピングし、距離に基づいた「意味的」な構造を明らかにする。 本研究では,学習と推論に使用されるクラスが結合しない自由テキストキーストローク識別に関わる課題に対処する新しいDML手法を提案する。 提案されたSetMargin Loss (SM-L)は、従来のDMLアプローチを拡張し、従来のようにサンプルのペアではなくセットのペアによってガイドされる学習プロセスを提供する。 提案手法では,キーストロークダイナミクスのクラス内構造を維持しつつクラス間距離を拡張できる。 円充填 (circle packing) と呼ばれる数学的問題を用いて生成した表現空間を解析し, 近傍構造に最大クラス間距離を与える。 提案手法の有効性を, 78,000人の被験者を対象に, キーストローク生体認証という課題に対して実験的に検証した。 提案手法は,既存手法と比較して最先端の精度を実現する。

This work presents a new deep learning approach for keystroke biometrics based on a novel Distance Metric Learning method (DML). DML maps input data into a learned representation space that reveals a "semantic" structure based on distances. In this work, we propose a novel DML method specifically designed to address the challenges associated to free-text keystroke identification where the classes used in learning and inference are disjoint. The proposed SetMargin Loss (SM-L) extends traditional DML approaches with a learning process guided by pairs of sets instead of pairs of samples, as done traditionally. The proposed learning strategy allows to enlarge inter-class distances while maintaining the intra-class structure of keystroke dynamics. We analyze the resulting representation space using the mathematical problem known as Circle Packing, which provides neighbourhood structures with a theoretical maximum inter-class distance. We finally prove experimentally the effectiveness of the proposed approach on a challenging task: keystroke biometric identification over a large set of 78,000 subjects. Our method achieves state-of-the-art accuracy on a comparison performed with the best existing approaches.
翻訳日:2021-09-03 13:52:50 公開日:2021-09-02
# 新しい広範囲データセットと混合特徴に基づくショット境界検出法

Shot boundary detection method based on a new extensive dataset and mixed features ( http://arxiv.org/abs/2109.01057v1 )

ライセンス: Link先を確認
Alexander Gushchin, Anastasia Antsiferova and Dmitriy Vatolin(参考訳) ビデオにおけるショット境界検出は、ビデオデータ処理の重要な段階の1つである。 カラーヒストグラムや物体境界などの映像特徴に基づくショット境界検出法が提案されている。 開発したアルゴリズムは、オープンbbcのplanet earth [1]とrai [2]データセットでテストされ、msuで実施したビデオコーデック比較で使用されたビデオとibmのセットのビデオを基にしたmsu ccデータセットもプロットされた。 アルゴリズムの開発とテストのための全データセットは、既知のTRECVIDデータセットを上回った。 実験結果から, シーン変化検出アルゴリズムは, 最終的なFスコア0.9794よりも優れていた。

Shot boundary detection in video is one of the key stages of video data processing. A new method for shot boundary detection based on several video features, such as color histograms and object boundaries, has been proposed. The developed algorithm was tested on the open BBC Planet Earth [1] and RAI [2] datasets, and the MSU CC datasets, based on videos used in the video codec comparison conducted at MSU, as well as videos from the IBM set, were also plotted. The total dataset for algorithm development and testing exceeded the known TRECVID datasets. Based on the test results, the proposed algorithm for scene change detection outperformed its counterparts with a final F-score of 0.9794.
翻訳日:2021-09-03 13:52:30 公開日:2021-09-02
# 学習型マルチモーダルアライメントのための4D-Net

4D-Net for Learned Multi-Modal Alignment ( http://arxiv.org/abs/2109.01066v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Vincent Casser and Michael S. Ryoo and Anelia Angelova(参考訳) 3DポイントクラウドとRGBセンシング情報を利用した3Dオブジェクト検出手法である4D-Netを提案する。 様々な特徴表現や抽象化レベルにまたがる新しい動的接続学習を行い、幾何学的制約を観察することで、4D情報を組み込むことができる。 我々のアプローチはWaymo Open Datasetの最先端と強力なベースラインを上回っています。 4d-netは、動きの手がかりと密度の高い画像情報を使って、遠くの物体をよりうまく検出できる。

We present 4D-Net, a 3D object detection approach, which utilizes 3D Point Cloud and RGB sensing information, both in time. We are able to incorporate the 4D information by performing a novel dynamic connection learning across various feature representations and levels of abstraction, as well as by observing geometric constraints. Our approach outperforms the state-of-the-art and strong baselines on the Waymo Open Dataset. 4D-Net is better able to use motion cues and dense image information to detect distant objects more successfully.
翻訳日:2021-09-03 13:52:18 公開日:2021-09-02
# styleganを用いたドメインロバストmitotic figure検出

Domain-Robust Mitotic Figure Detection with StyleGAN ( http://arxiv.org/abs/2109.01124v1 )

ライセンス: Link先を確認
Youjin Chung, Jihoon Cho, and Jinah Park(参考訳) 有糸分裂型図形検出における領域一般化のための新しいトレーニング手法を提案する。 異なるスキャナタイプによる画像のばらつきを異なるイメージスタイルとして考慮し,スキャナタイプに頑健な検出ネットワークを訓練した。 画像分散を拡大するため、トレーニング画像の領域を任意の領域に転送する。 提案するスタイル転送モジュールは、ランダムなコードで入力画像から異なるスタイル画像を生成し、最終的に様々なスタイル画像を生成する。 提案手法を用いたモデルでは,MIDOGプリミティブテストセットには,これまで見たことのないスキャナが組み込まれている。

We propose a new training scheme for domain generalization in mitotic figure detection. By considering the image variance due to different scanner types as different image styles, we have trained our detection network to be robust on scanner types. To expand the image variance, domain of training image is transferred into arbitrary domain. The proposed style transfer module generates different styled images from an input image with random code, eventually generating variously styled images. Our model with the proposed training scheme shows good performance on MIDOG Preliminary Test-Set containing scanners never seen before.
翻訳日:2021-09-03 13:52:09 公開日:2021-09-02
# nerfingmvs: 屋内多視点ステレオのための神経放射場の最適化

NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo ( http://arxiv.org/abs/2109.01129v1 )

ライセンス: Link先を確認
Yi Wei, Shaohui Liu, Yongming Rao, Wang Zhao, Jiwen Lu, Jie Zhou(参考訳) 本研究では,最近提案されたニューラルラディアンス場(NeRF)に対して,従来のSfM再構成と学習に基づく事前推定を併用した多視点深度推定手法を提案する。 推定対応に依存する既存のニューラルネットワークベースの最適化手法とは異なり、本手法は暗黙のボリュームを直接最適化し、屋内シーンにおける画素マッチングの難易度を除去する。 このアプローチの鍵は、学習に基づく事前学習を利用して、nrfの最適化プロセスを導くことです。 本システムはまず,SfM再構成を微調整することにより,ターゲットシーン上の単眼深度ネットワークに適応する。 そこで我々は,NeRFの形状のあいまいさを室内環境に残しており,ボリュームレンダリングのサンプリングプロセスを監視するために,適応した深度を用いてこの問題に対処することを提案する。 最後に、レンダリング画像上の誤差計算によって得られた画素ごとの信頼マップを用いて、深度品質をさらに向上することができる。 実験の結果,提案手法は室内環境における最先端の手法よりも優れており,対応性に基づく最適化とNeRFに基づく最適化の有効性が示唆された。 さらに, 誘導最適化方式は, ニューラルラディアンスフィールドのオリジナル合成能力を犠牲にすることなく, 目視と新鮮視のレンダリング品質を向上することを示した。 コードはhttps://github.com/w eiyithu/nerfingmvsで入手できる。

In this work, we present a new multi-view depth estimation method that utilizes both conventional SfM reconstruction and learning-based priors over the recently proposed neural radiance fields (NeRF). Unlike existing neural network based optimization method that relies on estimated correspondences, our method directly optimizes over implicit volumes, eliminating the challenging step of matching pixels in indoor scenes. The key to our approach is to utilize the learning-based priors to guide the optimization process of NeRF. Our system firstly adapts a monocular depth network over the target scene by finetuning on its sparse SfM reconstruction. Then, we show that the shape-radiance ambiguity of NeRF still exists in indoor environments and propose to address the issue by employing the adapted depth priors to monitor the sampling process of volume rendering. Finally, a per-pixel confidence map acquired by error computation on the rendered image can be used to further improve the depth quality. Experiments show that our proposed framework significantly outperforms state-of-the-art methods on indoor scenes, with surprising findings presented on the effectiveness of correspondence-based optimization and NeRF-based optimization over the adapted depth priors. In addition, we show that the guided optimization scheme does not sacrifice the original synthesis capability of neural radiance fields, improving the rendering quality on both seen and novel views. Code is available at https://github.com/w eiyithu/NerfingMVS.
翻訳日:2021-09-03 13:52:00 公開日:2021-09-02
# CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation

CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation ( http://arxiv.org/abs/2109.00859v1 )

ライセンス: Link先を確認
Yue Wang, Weishi Wang, Shafiq Joty, and Steven C.H. Hoi(参考訳) BERTやGPTのような学習済みの自然言語用モデル(NL)は、最近、プログラミング言語(PL)にうまく移行し、幅広いコード関連タスクの恩恵を受けていることが示されている。 その成功にもかかわらず、現在のほとんどのメソッドは、生成(resp)に最適なエンコーダのみ(またはデコーダのみ)の事前トレーニングに依存している。 理解) タスクまたはコードスニペットをNLと同じ方法で処理し、トークン型のようなPLの特別な特性を無視します。 我々は、開発者割り当て識別子から伝達されるコードセマンティクスをよりよく活用する、事前学習されたエンコーダ-デコーダトランスフォーマモデルであるcodet5を提案する。 私たちのモデルは、コード理解と生成タスクの両方をシームレスにサポートする統一フレームワークを採用し、マルチタスク学習を可能にしています。 さらに,モデルがどのコードトークンが識別子であるかを識別し,マスキング時にそれらを復元できる新しい識別子対応事前学習タスクを提案する。 さらに、NL-PLアライメントを改善するために、バイモーダル二重生成タスクでユーザ記述のコードコメントを活用することを提案する。 CodeT5は、コード欠陥検出やクローン検出といったタスクの理解や、PL-NL、NL-PL、PL-PLなどの様々な方向における生成タスクにおいて、従来の方法よりも大幅に優れていた。 さらなる分析により、我々のモデルはコードから意味情報をよりよくキャプチャできることがわかった。 私たちのコードと事前トレーニングされたモデルは、https: //github.com/salesfo rce/codet5でリリースされます。

Pre-trained models for Natural Languages (NL) like BERT and GPT have been recently shown to transfer well to Programming Languages (PL) and largely benefit a broad set of code-related tasks. Despite their success, most current methods either rely on an encoder-only (or decoder-only) pre-training that is suboptimal for generation (resp. understanding) tasks or process the code snippet in the same way as NL, neglecting the special characteristics of PL such as token types. We present CodeT5, a unified pre-trained encoder-decoder Transformer model that better leverages the code semantics conveyed from the developer-assigned identifiers. Our model employs a unified framework to seamlessly support both code understanding and generation tasks and allows for multi-task learning. Besides, we propose a novel identifier-aware pre-training task that enables the model to distinguish which code tokens are identifiers and to recover them when they are masked. Furthermore, we propose to exploit the user-written code comments with a bimodal dual generation task for better NL-PL alignment. Comprehensive experiments show that CodeT5 significantly outperforms prior methods on understanding tasks such as code defect detection and clone detection, and generation tasks across various directions including PL-NL, NL-PL, and PL-PL. Further analysis reveals that our model can better capture semantic information from code. Our code and pre-trained models are released at https: //github.com/salesfo rce/CodeT5 .
翻訳日:2021-09-03 13:51:15 公開日:2021-09-02
# 画像分類モデルにおける説明と超越のクロスモデル合意--実証的研究

Cross-Model Consensus of Explanations and Beyond for Image Classification Models: An Empirical Study ( http://arxiv.org/abs/2109.00707v1 )

ライセンス: Link先を確認
Xuhong Li, Haoyi Xiong, Siyu Huang, Shilei Ji, Dejing Dou(参考訳) 既存の解釈アルゴリズムでは、深いモデルでさえ同じ画像上で同じと正しい予測をするが、分類のために異なる入力特徴セットに依存する可能性がある。 しかし、これらの機能セットのうち、いくつかの共通機能は、多くのモデルで使用される可能性がある。 本稿では,様々なモデルが分類に使用する共通機能と,優れた性能を持つモデルがそれらの共通機能を好むかどうかを疑問視する。 この目的のために,本研究では,特徴(画素やスーパーピクセルなど)の重要性を説明として解釈アルゴリズムを用い,共通特徴を捉えるための説明のクロスモデルコンセンサスを提案する。 具体的には、まず委員会として深層モデルのセットを準備し、次にすべてのモデルの説明を推論し、投票を通じて委員会全体の説明の合意を得る。 5つのデータセット/タスク上で80以上のモデルを用いた広範囲な実験を行う。 1) 画像分類モデルから得られたコンセンサスは, 意味セグメンテーションの基礎的真理と一致している, (2) 委員会における各モデルの説明結果とコンセンサス(すなわちコンセンサススコア)との類似度を測定し, コンセンサススコアとモデルパフォーマンスの正の相関を見出す, (3) コンセンサススコアは解釈可能性と一致している。

Existing interpretation algorithms have found that, even deep models make the same and right predictions on the same image, they might rely on different sets of input features for classification. However, among these sets of features, some common features might be used by the majority of models. In this paper, we are wondering what are the common features used by various models for classification and whether the models with better performance may favor those common features. For this purpose, our works uses an interpretation algorithm to attribute the importance of features (e.g., pixels or superpixels) as explanations, and proposes the cross-model consensus of explanations to capture the common features. Specifically, we first prepare a set of deep models as a committee, then deduce the explanation for every model, and obtain the consensus of explanations across the entire committee through voting. With the cross-model consensus of explanations, we conduct extensive experiments using 80+ models on 5 datasets/tasks. We find three interesting phenomena as follows: (1) the consensus obtained from image classification models is aligned with the ground truth of semantic segmentation; (2) we measure the similarity of the explanation result of each model in the committee to the consensus (namely consensus score), and find positive correlations between the consensus score and model performance; and (3) the consensus score coincidentally correlates to the interpretability.
翻訳日:2021-09-03 13:49:41 公開日:2021-09-02
# MrSQM:記号表現を用いた高速時系列分類

MrSQM: Fast Time Series Classification with Symbolic Representations ( http://arxiv.org/abs/2109.01036v1 )

ライセンス: Link先を確認
Thach Le Nguyen and Georgiana Ifrim(参考訳) 時系列の記号表現は、SAX-VSM、BOSS、WEASEL、MMSSEQLなど、最近の多くのアプローチで時系列分類に有効であることが証明されている。 鍵となるアイデアは、数値時系列を時間領域や周波数領域、すなわち記号列の記号表現に変換し、それらの列から特徴を抽出することである。 精度は高いが、既存の記号分類器は計算コストが高い。 本稿では,複数のシンボル表現と効率的なシーケンスマイニングを用いた新しい時系列分類器MrSQMを提案する。 本研究は, 完全教師付きから非教師付き, ハイブリッドまで, 記号列の4つの特徴選択手法について検討する。 識別パターンマイニングのために開発されたchi-squaredバウンドを時系列に適応させることにより,全列空間における最適教師付きシンボリック特徴選択法を提案する。 UEA/UCRベンチマークの112データセットに関する広範な実験により、MrSQMは有用な特徴を素早く抽出し、古典的ロジスティック回帰アルゴリズムを用いて正確な分類法を学習できることを示した。 興味深いことに、非常にシンプルで高速な機能選択戦略は、より高度で高価な方法と比較して非常に効果的である。 MrSQMはシンボリック時系列分類器の最先端化を推進し、高速な実行で高精度を実現する効果的な方法である。

Symbolic representations of time series have proven to be effective for time series classification, with many recent approaches including SAX-VSM, BOSS, WEASEL, and MrSEQL. The key idea is to transform numerical time series to symbolic representations in the time or frequency domain, i.e., sequences of symbols, and then extract features from these sequences. While achieving high accuracy, existing symbolic classifiers are computationally expensive. In this paper we present MrSQM, a new time series classifier which uses multiple symbolic representations and efficient sequence mining, to extract important time series features. We study four feature selection approaches on symbolic sequences, ranging from fully supervised, to unsupervised and hybrids. We propose a new approach for optimal supervised symbolic feature selection in all-subsequence space, by adapting a Chi-squared bound developed for discriminative pattern mining, to time series. Our extensive experiments on 112 datasets of the UEA/UCR benchmark demonstrate that MrSQM can quickly extract useful features and learn accurate classifiers with the classic logistic regression algorithm. Interestingly, we find that a very simple and fast feature selection strategy can be highly effective as compared with more sophisticated and expensive methods. MrSQM advances the state-of-the-art for symbolic time series classifiers and it is an effective method to achieve high accuracy, with fast runtime.
翻訳日:2021-09-03 13:48:52 公開日:2021-09-02
# 脳波信号とCNN-LSTMモデルを用いた統合失調症の自動診断

Automatic Diagnosis of Schizophrenia using EEG Signals and CNN-LSTM Models ( http://arxiv.org/abs/2109.01120v1 )

ライセンス: Link先を確認
Afshin Shoeibi, Delaram Sadeghi, Parisa Moridian, Navid Ghassemi, Jonathan Heras, Roohallah Alizadehsani, Ali Khadem, Yinan Kong, Saeid Nahavandi, Juan M. Gorriz(参考訳) 統合失調症(英: Schizophrenia、SZ)は、脳内の特定の化学物質の分泌により、一部の脳領域の機能のバランスが取れなくなり、思考、行動、感情の協調が欠如する精神疾患である。 本研究は、脳波信号によるsz自動診断のための様々な知的深層学習(dl)に基づく手法を提供する。 得られた結果を従来の知的手法と比較する。 提案手法を実現するためにポーランドのワルシャワにある精神医学神経学研究所のデータセットが使用されている。 まず、EEG信号を25秒の時間フレームに分割し、次にzスコアまたは標準L2で正規化する。 分類段階において、脳波信号によるSZ診断には2つの異なるアプローチが考えられる。 この段階において、脳波信号の分類は、KNN、DT、SVM、ベイズ、バッグング、RF、ETといった従来のDL手法によって最初に行われる。 LSTM, 1D-CNN, 1D-CNN-LSTMなど, 様々なDLモデルについて述べる。 このステップでは、DLモデルを実装し、異なるアクティベーション関数と比較した。 提案されたDLモデルの中で、CNN-LSTMアーキテクチャは最高の性能を持っていた。 このアーキテクチャでは、ReLU活性化関数とzスコアとL2の組み合わせ正規化を用いる。 提案したCNN-LSTMモデルは99.25\%の精度を達成している。 すべてのシミュレーションを実行するために、k=5の k-fold クロスバリデーション法が用いられていることに注意する必要がある。

Schizophrenia (SZ) is a mental disorder whereby due to the secretion of specific chemicals in the brain, the function of some brain regions is out of balance, leading to the lack of coordination between thoughts, actions, and emotions. This study provides various intelligent Deep Learning (DL)-based methods for automated SZ diagnosis via EEG signals. The obtained results are compared with those of conventional intelligent methods. In order to implement the proposed methods, the dataset of the Institute of Psychiatry and Neurology in Warsaw, Poland, has been used. First, EEG signals are divided into 25-seconds time frames and then were normalized by z-score or norm L2. In the classification step, two different approaches are considered for SZ diagnosis via EEG signals. In this step, the classification of EEG signals is first carried out by conventional DL methods, e.g., KNN, DT, SVM, Bayes, bagging, RF, and ET. Various proposed DL models, including LSTMs, 1D-CNNs, and 1D-CNN-LSTMs, are used in the following. In this step, the DL models were implemented and compared with different activation functions. Among the proposed DL models, the CNN-LSTM architecture has had the best performance. In this architecture, the ReLU activation function and the z-score and L2 combined normalization are used. The proposed CNN-LSTM model has achieved an accuracy percentage of 99.25\%, better than the results of most former studies in this field. It is worth mentioning that in order to perform all simulations, the k-fold cross-validation method with k=5 has been used.
翻訳日:2021-09-03 13:48:28 公開日:2021-09-02
# 確率的動的環境におけるGPU加速最適経路計画

GPU-accelerated Optimal Path Planning in Stochastic Dynamic Environments ( http://arxiv.org/abs/2109.00857v1 )

ライセンス: Link先を確認
Rohit Chowdhury, Deepak Subramani(参考訳) 自律的な海洋車両は多くの海洋科学と工学の応用において重要な役割を担っている。 これらの車両が確率的な動的海洋環境を航行するための計画時間とエネルギーの最適経路は、運用コストの削減に不可欠である。 いくつかのミッションでは、太陽、風または波のエネルギー(確率的スカラー場としてモデル化)を収穫し、純エネルギー消費を最小化する最適な経路を移動する必要がある。 マルコフ決定プロセス(MDP)は、そのような環境でロボットエージェントのシーケンシャルな意思決定のための自然なフレームワークを提供する。 しかし、現実的なモデルを構築し、モデル化されたMDPを解くことは、大規模リアルタイムアプリケーションでは計算コストが高くなり、並列アルゴリズムと効率的な実装の必要性が保証される。 本研究では, MDPモデル(遷移確率と期待される1ステップの報奨を計算)を構築し, (ii) 最適ポリシーを計算するためにMDPを解く,効率的なエンドツーエンドGPU高速化アルゴリズムを提案する。 We develop methodical and algorithmic solutions to overcome the limited global memory of GPUs by (i) using a dynamic reduced-order representation of the ocean flows, (ii) leveraging the sparse nature of the state transition probability matrix, (iii) introducing a neighbouring sub-grid concept and (iv) proving that it is sufficient to use only the stochastic scalar field's mean to compute the expected one-step rewards for missions involving energy harvesting from the environment; thereby saving memory and reducing the computational effort. MDPモデルを構築し,従来のCPU実装よりも600-1000倍高速に最適ポリシを計算し,リアルタイム利用に適したアルゴリズムであることを示す。

Autonomous marine vehicles play an essential role in many ocean science and engineering applications. Planning time and energy optimal paths for these vehicles to navigate in stochastic dynamic ocean environments is essential to reduce operational costs. In some missions, they must also harvest solar, wind, or wave energy (modeled as a stochastic scalar field) and move in optimal paths that minimize net energy consumption. Markov Decision Processes (MDPs) provide a natural framework for sequential decision-making for robotic agents in such environments. However, building a realistic model and solving the modeled MDP becomes computationally expensive in large-scale real-time applications, warranting the need for parallel algorithms and efficient implementation. In the present work, we introduce an efficient end-to-end GPU-accelerated algorithm that (i) builds the MDP model (computing transition probabilities and expected one-step rewards); and (ii) solves the MDP to compute an optimal policy. We develop methodical and algorithmic solutions to overcome the limited global memory of GPUs by (i) using a dynamic reduced-order representation of the ocean flows, (ii) leveraging the sparse nature of the state transition probability matrix, (iii) introducing a neighbouring sub-grid concept and (iv) proving that it is sufficient to use only the stochastic scalar field's mean to compute the expected one-step rewards for missions involving energy harvesting from the environment; thereby saving memory and reducing the computational effort. We demonstrate the algorithm on a simulated stochastic dynamic environment and highlight that it builds the MDP model and computes the optimal policy 600-1000x faster than conventional CPU implementations, making it suitable for real-time use.
翻訳日:2021-09-03 13:48:05 公開日:2021-09-02
# 階層型予測符号化における軌道制御と反射制御

Habitual and Reflective Control in Hierarchical Predictive Coding ( http://arxiv.org/abs/2109.00866v1 )

ライセンス: Link先を確認
Paul F. Kinghorn, Beren Millidge and Christopher L. Buckley(参考訳) 認知科学では、行動はしばしば2つのタイプに分けられる。 反射性制御は習慣的かつ即時であり、反射性は熟考的であり、時間を要する。 階層型予測符号化(HPC)は多層ネットワーク上で動作する連続体として両方の動作を説明でき、脳内の別々の回路の必要性を排除できるという議論を考察する。 この見方では、"高速"アクションはhpcスキーマの下層のみを使用して起動されるが、より慎重なアクションはより高い層を必要とする。 hpcが階層構造全体に学習を分散できることを実証し,高層層が必要に応じてのみ使用されることを実証した。

In cognitive science, behaviour is often separated into two types. Reflexive control is habitual and immediate, whereas reflective is deliberative and time consuming. We examine the argument that Hierarchical Predictive Coding (HPC) can explain both types of behaviour as a continuum operating across a multi-layered network, removing the need for separate circuits in the brain. On this view, "fast" actions may be triggered using only the lower layers of the HPC schema, whereas more deliberative actions need higher layers. We demonstrate that HPC can distribute learning throughout its hierarchy, with higher layers called into use only as required.
翻訳日:2021-09-03 13:47:38 公開日:2021-09-02
# 層状材料の非フォトリアリスティックレンダリング:マルチスペクトルアプローチ

Non-Photorealistic Rendering of Layered Materials: A Multispectral Approach ( http://arxiv.org/abs/2109.00780v1 )

ライセンス: Link先を確認
Corey Toler-Franklin and Shashank Ranjan(参考訳) 生体試料中の層状物質を可視化するマルチスペクトルレンダリング技術を提案する。 非フォトリアリスティックレンダリング(NPR)において、近赤外および紫外線スペクトルから取得したデータを初めて利用する。 いくつかの植物や動物は多スペクトル分析によりより包括的に理解されている。 しかし、従来のNPR技術は可視スペクトル外のユニークな情報を無視する。 波長依存表面正規化と反射率の処理アルゴリズムと原理を導入する。 我々の登録および特徴検出法は、現在のNPR法では考慮されていないスタイリング効果を定式化するために用いられる: 特定の波長における形状特徴を複数のスケールで分離し強調するスペクトルバンドシェーディング。 本研究のエキスパートは,生体科学への応用におけるシステムの有効性を実証する。

We present multispectral rendering techniques for visualizing layered materials found in biological specimens. We are the first to use acquired data from the near-infrared and ultraviolet spectra for non-photorealistic rendering (NPR). Several plant and animal species are more comprehensively understood by multispectral analysis. However, traditional NPR techniques ignore unique information outside the visible spectrum. We introduce algorithms and principles for processing wavelength dependent surface normals and reflectance. Our registration and feature detection methods are used to formulate stylization effects not considered by current NPR methods including: Spectral Band Shading which isolates and emphasizes shape features at specific wavelengths at multiple scales. Experts in our user study demonstrate the effectiveness of our system for applications in the biological sciences.
翻訳日:2021-09-03 13:47:28 公開日:2021-09-02
# slide: ソフトレイヤーと奥行き認識による1枚の3d写真

SLIDE: Single Image 3D Photography with Soft Layering and Depth-aware Inpainting ( http://arxiv.org/abs/2109.01068v1 )

ライセンス: Link先を確認
Varun Jampani, Huiwen Chang, Kyle Sargent, Abhishek Kar, Richard Tucker, Michael Krainin, Dominik Kaeser, William T. Freeman, David Salesin, Brian Curless, Ce Liu(参考訳) 単一の3d写真では、新しい視点から静止画を見ることができる。 最近のアプローチでは、単眼深度ネットワークとインペインティングネットワークを組み合わせることで、説得力のある結果が得られる。 これらの技法の欠点は、硬い深さ層を用いることで、細い毛髪のような複雑な外観をモデル化できないことである。 本稿では,単一画像3d撮影のためのモジュール型統一システムであるslideについて紹介する。 さらに,3次元撮影作業に適した塗装モジュールのための新しい深度対応トレーニング戦略を提案する。 結果として生じるSLIDEアプローチはモジュール化されており、セグメンテーションやマッティングといった他のコンポーネントを階層化の改善に利用することができる。 同時に、SLIDEは、高品質な3D写真を作成するために、コンポーネントネットワークをただ1つの前方通過しか必要としない効率的な層状深度定式化を使用する。 3つの画像合成データセットの広範な実験分析と,既存の強力なベースラインと比較した場合,概念的にはるかにシンプルでありながら,本手法の優れた性能を示す。 プロジェクトページ: https://varunjampani .github.io/slide

Single image 3D photography enables viewers to view a still image from novel viewpoints. Recent approaches combine monocular depth networks with inpainting networks to achieve compelling results. A drawback of these techniques is the use of hard depth layering, making them unable to model intricate appearance details such as thin hair-like structures. We present SLIDE, a modular and unified system for single image 3D photography that uses a simple yet effective soft layering strategy to better preserve appearance details in novel views. In addition, we propose a novel depth-aware training strategy for our inpainting module, better suited for the 3D photography task. The resulting SLIDE approach is modular, enabling the use of other components such as segmentation and matting for improved layering. At the same time, SLIDE uses an efficient layered depth formulation that only requires a single forward pass through the component networks to produce high quality 3D photos. Extensive experimental analysis on three view-synthesis datasets, in combination with user studies on in-the-wild image collections, demonstrate superior performance of our technique in comparison to existing strong baselines while being conceptually much simpler. Project page: https://varunjampani .github.io/slide
翻訳日:2021-09-03 13:46:43 公開日:2021-09-02
# 衣服における人体モデリングのためのポイントの力

The Power of Points for Modeling Humans in Clothing ( http://arxiv.org/abs/2109.01137v1 )

ライセンス: Link先を確認
Qianli Ma and Jinlong Yang and Siyu Tang and Michael J. Black(参考訳) 現在、アーティストはリアルな衣服で自然に動く3Dアバターを作る必要がある。 人体の3dスキャンやモデリングの進歩にもかかわらず、静的スキャンをアニメーション可能なアバターに簡単に変換できる技術はまだない。 このようなアバターの作成を自動化することで、ゲーム、ソーシャルネットワーキング、アニメーション、ar/vrの多くのアプリケーションが名前をつけることができるだろう。 鍵となる問題は表現の1つです。 標準の3Dメッシュは、最小限の衣服をモデル化するのに広く用いられているが、衣服の複雑なトポロジーを容易に捉えることはできない。 最近の関心は、このタスクの暗黙的な表面モデルに移行しているが、計算的に重く、既存の3Dツールとの互換性がない。 必要なのは、様々なトポロジーを高解像度で捉え、データから学ぶことができる3d表現である。 私たちは、この表現はずっと私たちと共にいた、と論じています -- ポイントクラウドです。 点雲は暗黙の表現と明示的な表現の両方の性質を持ち、人間の体に3Dの幾何学をモデル化するために利用します。 我々は,新しい局所的衣服幾何学的特徴を用いてニューラルネットワークを訓練し,異なる衣装の形状を表現する。 ネットワークは、様々な種類の衣服の3dポイント雲から多くのポーズで訓練され、ポーズ依存の衣服変形をモデル化することを学ぶ。 幾何学的特徴は、以前に見つからなかった被服者のスキャンに適合するように最適化することができ、スキャンを現実的に再現することができる。 本モデルでは,マルチアウトフィット・モデリングと不明瞭な衣料アニメーションの両方において,定量的,質的な結果が優れていることを示す。 コードは研究目的に利用できる。

Currently it requires an artist to create 3D human avatars with realistic clothing that can move naturally. Despite progress on 3D scanning and modeling of human bodies, there is still no technology that can easily turn a static scan into an animatable avatar. Automating the creation of such avatars would enable many applications in games, social networking, animation, and AR/VR to name a few. The key problem is one of representation. Standard 3D meshes are widely used in modeling the minimally-clothed body but do not readily capture the complex topology of clothing. Recent interest has shifted to implicit surface models for this task but they are computationally heavy and lack compatibility with existing 3D tools. What is needed is a 3D representation that can capture varied topology at high resolution and that can be learned from data. We argue that this representation has been with us all along -- the point cloud. Point clouds have properties of both implicit and explicit representations that we exploit to model 3D garment geometry on a human body. We train a neural network with a novel local clothing geometric feature to represent the shape of different outfits. The network is trained from 3D point clouds of many types of clothing, on many bodies, in many poses, and learns to model pose-dependent clothing deformations. The geometry feature can be optimized to fit a previously unseen scan of a person in clothing, enabling the scan to be reposed realistically. Our model demonstrates superior quantitative and qualitative results in both multi-outfit modeling and unseen outfit animation. The code is available for research purposes.
翻訳日:2021-09-03 13:46:22 公開日:2021-09-02
# 結び目不変量とその関係:位相的観点から

Knot invariants and their relations: a topological perspective ( http://arxiv.org/abs/2109.00831v1 )

ライセンス: Link先を確認
D{\l}otko Pawe{\l}, Davide Gurnari, Radmila Sazdanovic(参考訳) この研究は、トポロジカルデータ解析の手法を結び目理論に持ち込み、このアプリケーションに触発された新しいデータ解析ツールを開発する。 我々は,Mapper と Ball Mapper のアルゴリズムを用いて,結び目不変量の膨大なコレクションと関係を探索する。 特に,データ内に対称性やその他の関係を組み込んだBall Mapperアルゴリズムを開発し,結び目不変量などの異なる記述子から生じるデータを比較する方法を提供する。 さらに、マッパー構成を、レンズ関数の範囲が1次元空間よりも高次元である場合に拡張し、高次元空間間の関数を可視化する方法を提供する。 結び目理論データにこれらの手法を応用し、結び目理論における我々の発見の潜在的影響に注意を向ける。

This work brings methods from topological data analysis to knot theory and develops new data analysis tools inspired by this application. We explore a vast collection of knot invariants and relations between then using Mapper and Ball Mapper algorithms. In particular, we develop versions of the Ball Mapper algorithm that incorporate symmetries and other relations within the data, and provide ways to compare data arising from different descriptors, such as knot invariants. Additionally, we extend the Mapper construction to the case where the range of the lens function is high dimensional rather than a 1-dimensional space, that also provides ways of visualizing functions between high-dimensional spaces. We illustrate the use of these techniques on knot theory data and draw attention to potential implications of our findings in knot theory.
翻訳日:2021-09-03 13:45:57 公開日:2021-09-02
# ループ不変発見のゲーミフィケーションのための推論エンジン

A Reasoning Engine for the Gamification of Loop-Invariant Discovery ( http://arxiv.org/abs/2109.01121v1 )

ライセンス: Link先を確認
Andrew Walter and Seth Cooper and Panagiotis Manolios(参考訳) 本稿では,ループ不変発見のゲーミフィケーションを容易にする推論エンジンの設計と実装について述べる。 私たちの推論エンジンは、学生、計算エージェント、正規のソフトウェアエンジニアが、ブラウザベースのオンラインゲームを使って、単純なプログラムに関する興味深い定理を協調的に証明することを可能にする。 1時間以内に、完全に自動化されたツールの能力を超えたプログラムの特性を特定し検証することができる。 時間制限には、システムのセットアップ時間、ゲームプレイを説明する簡単なチュートリアルの完了、単純な命令的プログラムの推論が含まれる。 プレイヤーは形式的な証明を理解する必要はなく、不変量を提案することでのみ洞察を与える。 推論エンジンは提案された不変量を管理し評価し、実用的なフィードバックを生成する。

We describe the design and implementation of a reasoning engine that facilitates the gamification of loop-invariant discovery. Our reasoning engine enables students, computational agents and regular software engineers with no formal methods expertise to collaboratively prove interesting theorems about simple programs using browser-based, online games. Within an hour, players are able to specify and verify properties of programs that are beyond the capabilities of fully-automated tools. The hour limit includes the time for setting up the system, completing a short tutorial explaining game play and reasoning about simple imperative programs. Players are never required to understand formal proofs; they only provide insights by proposing invariants. The reasoning engine is responsible for managing and evaluating the proposed invariants, as well as generating actionable feedback.
翻訳日:2021-09-03 13:45:45 公開日:2021-09-02
# 分子動力学シミュレーションのためのヘテロジニアスメッセージパッシングネットワーク

Heterogeneous relational message passing networks for molecular dynamics simulations ( http://arxiv.org/abs/2109.00711v1 )

ライセンス: Link先を確認
Zun Wang, Chong Wang, Sibo Zhao, Yong Xu, Shaogang Hao, Chang Yu Hsieh, Bing-Lin Gu and Wenhui Duan(参考訳) 分子特性とバルク特性を予測するために提案されたメッセージパッシングニューラルネットワークに基づく多くのフレームワークにより、機械学習手法は物理学、物質科学、化学、生物学を支える計算科学のパラダイムを大きく変えた。 既存の機械学習モデルは、しばしば優れた性能を得るが、そのほとんどは、多種多様な相互作用を表現するための表現力を大幅に制限する均質なグラフで分子システムをモデル化し、処理している。 実際には、複数のノードとエッジタイプを持つグラフデータはユビキタスであり、分子システムに適している。 そこで本稿では, エンドツーエンドのヘテロジニアスグラフニューラルネットワークであるヘムネット(HermNet)を提案する。 HermNetは、分子と拡張システムの両方において、多くのトップパフォーマンスモデルに対して素晴らしいパフォーマンスを発揮する。 具体的には、hermnetは、md17、qm9、拡張システムデータセットの75\%、83\%、94\%のタスクで、他のテストモデルよりも優れています。 最後に、密度汎関数論の観点からhermnetの設計が量子力学とどのように適合するかを解明する。 さらに、hermnetはユニバーサルフレームワークであり、サブネットワークを他の高度なモデルに置き換えることができる。

With many frameworks based on message passing neural networks proposed to predict molecular and bulk properties, machine learning methods have tremendously shifted the paradigms of computational sciences underpinning physics, material science, chemistry, and biology. While existing machine learning models have yielded superior performances in many occasions, most of them model and process molecular systems in terms of homogeneous graph, which severely limits the expressive power for representing diverse interactions. In practice, graph data with multiple node and edge types is ubiquitous and more appropriate for molecular systems. Thus, we propose the heterogeneous relational message passing network (HermNet), an end-to-end heterogeneous graph neural networks, to efficiently express multiple interactions in a single model with {\it ab initio} accuracy. HermNet performs impressively against many top-performing models on both molecular and extended systems. Specifically, HermNet outperforms other tested models in nearly 75\%, 83\% and 94\% of tasks on MD17, QM9 and extended systems datasets, respectively. Finally, we elucidate how the design of HermNet is compatible with quantum mechanics from the perspective of the density functional theory. Besides, HermNet is a universal framework, whose sub-networks could be replaced by other advanced models.
翻訳日:2021-09-03 13:44:30 公開日:2021-09-02
# 最新のAndroidセキュリティ問題とアプローチに関する簡単な見解と分析

Brief View and Analysis to Latest Android Security Issues and Approaches ( http://arxiv.org/abs/2109.00805v1 )

ライセンス: Link先を確認
Ruicong Huang(参考訳) パフォーマンスと機能の継続的な改善により、Androidは今日でも携帯電話で最も人気のあるオペレーティングシステムである。 しかし、様々な悪意あるアプリケーションがシステムに大きな脅威をもたらす。 過去数年間、マルウェアと対策の両方で重大な変化が起こった。 具体的には、マルウェアは継続的に進化しており、より正確な検出のために高度なアプローチが採用されている。 最新の状況に対応するため,本稿では,最新のマルウェア,androidセキュリティ機能,アプローチなど,幅広い分析を行う。 また,情報収集や実験の実施が今後の研究に有用で,これまでの研究で言及されていないものもいくつか紹介する。

Due to the continuous improvement of performance and functions, Android remains the most popular operating system on mobile phone today. However, various malicious applications bring great threats to the system. Over the past few years, significant changes occured in both malwares and counter measures. Specifically, malwares are continuously evolving, and advanced approaches are adopted for more accurate detection. To keep up with the latest situation, in this paper, we conduct a wide range of analysis, including latest malwares, Android security features, and approaches. We also provide some finding when we are gathering information and carrying on experiments, which we think is useful for further researches and has not been mentioned in previous works.
翻訳日:2021-09-03 13:44:11 公開日:2021-09-02
# Tsetlin マシンを用いた自己時間強化学習

Self-timed Reinforcement Learning using Tsetlin Machine ( http://arxiv.org/abs/2109.00846v1 )

ライセンス: Link先を確認
Adrian Wheeldon, Alex Yakovlev, Rishad Shafik(参考訳) 本稿では、推論データパスの遅延解析とともに、Tsetlinマシンアルゴリズムの学習データパスのためのハードウェア設計を提案する。 広汎な人工知能アプリケーションに適した低エネルギーハードウェアを生成するために,ペトリネット,信号遷移グラフ,デュアルレール,バンドルデータなどの非同期設計手法を混在させる。 この作業は、推論ハードウェアの以前の設計に基づいており、オートマトンフィードバック、確率生成、tsetlin automataの詳細な説明が含まれている。 結果として、パーソナライズされたヘルスケアやバッテリ駆動のモノのインターネットといったアプリケーションにおける非同期設計の利点が示されている。 非同期回路における静的タイミング解析の課題にも対処する。

We present a hardware design for the learning datapath of the Tsetlin machine algorithm, along with a latency analysis of the inference datapath. In order to generate a low energy hardware which is suitable for pervasive artificial intelligence applications, we use a mixture of asynchronous design techniques - including Petri nets, signal transition graphs, dual-rail and bundled-data. The work builds on previous design of the inference hardware, and includes an in-depth breakdown of the automaton feedback, probability generation and Tsetlin automata. Results illustrate the advantages of asynchronous design in applications such as personalized healthcare and battery-powered internet of things devices, where energy is limited and latency is an important figure of merit. Challenges of static timing analysis in asynchronous circuits are also addressed.
翻訳日:2021-09-03 13:44:03 公開日:2021-09-02
# CrypTen: セキュアなマルチパーティ計算と機械学習

CrypTen: Secure Multi-Party Computation Meets Machine Learning ( http://arxiv.org/abs/2109.00984v1 )

ライセンス: Link先を確認
Brian Knott and Shobha Venkataraman and Awni Hannun and Shubho Sengupta and Mark Ibrahim and Laurens van der Maaten(参考訳) セキュアなマルチパーティ計算(mpc)は、データをプライベートに保ちながら、データ上での計算を可能にする。 この機能は機械学習アプリケーションにとって大きな可能性を秘めている。異なるパーティが所有するプライベートデータセット上での機械学習モデルのトレーニングや、他のパーティのプライベートデータを用いた個人のプライベートモデルの評価などだ。 多くの研究がセキュアなMPCを介して機械学習モデルを実装しているが、そのような実装はまだ主流ではない。 セキュアなmpcの採用は、機械学習の研究者やエンジニアの"言語を話す"フレキシブルなソフトウェアフレームワークの欠如によって妨げられている。 CrypTenは、機械学習におけるセキュアなMPCの採用を促進するために、テンソル計算、自動微分、モジュール型ニューラルネットワークといった現代の機械学習フレームワークで一般的な抽象化を通じて、人気のあるセキュアなMPCプリミティブを公開するソフトウェアフレームワークである。 本稿では,テキスト分類,音声認識,画像分類の最先端モデルにおける暗号の設計と性能評価について述べる。 我々のベンチマークでは、CrypTenのGPUサポートと、(任意の数の)パーティ間の高速通信により、半正直な脅威モデルの下で、現代の機械学習モデルの効率的なプライベート評価を行うことができることを示している。 例えば、CrypTenを使用する2つのパーティは、リアルタイムよりも高速にWav2Letterを使用して音声録音の音素を安全に予測することができる。 CrypTenが機械学習コミュニティでセキュアなMPCの採用を促進することを期待しています。

Secure multi-party computation (MPC) allows parties to perform computations on data while keeping that data private. This capability has great potential for machine-learning applications: it facilitates training of machine-learning models on private data sets owned by different parties, evaluation of one party's private model using another party's private data, etc. Although a range of studies implement machine-learning models via secure MPC, such implementations are not yet mainstream. Adoption of secure MPC is hampered by the absence of flexible software frameworks that "speak the language" of machine-learning researchers and engineers. To foster adoption of secure MPC in machine learning, we present CrypTen: a software framework that exposes popular secure MPC primitives via abstractions that are common in modern machine-learning frameworks, such as tensor computations, automatic differentiation, and modular neural networks. This paper describes the design of CrypTen and measure its performance on state-of-the-art models for text classification, speech recognition, and image classification. Our benchmarks show that CrypTen's GPU support and high-performance communication between (an arbitrary number of) parties allows it to perform efficient private evaluation of modern machine-learning models under a semi-honest threat model. For example, two parties using CrypTen can securely predict phonemes in speech recordings using Wav2Letter faster than real-time. We hope that CrypTen will spur adoption of secure MPC in the machine-learning community.
翻訳日:2021-09-03 13:43:28 公開日:2021-09-02
# 誤差緩和は雑音変動量子アルゴリズムのトレーサビリティを向上させるか?

Can Error Mitigation Improve Trainability of Noisy Variational Quantum Algorithms? ( http://arxiv.org/abs/2109.01051v1 )

ライセンス: Link先を確認
Samson Wang, Piotr Czarnik, Andrew Arrasmith, M. Cerezo, Lukasz Cincio, Patrick J. Coles(参考訳) 変分量子アルゴリズム(VQA)は、短期量子優位の最良の希望として広く見なされている。 しかし、近年の研究では、ノイズはコストランドスケープを指数関数的に平坦化し、コスト勾配のマグニチュードを抑えることで、VQAのトレーニング可能性を大幅に制限することができることが示されている。 Error Mitigation (EM)は、ノイズが短期デバイスに与える影響を減らすことを約束している。 したがって、EMがVQAのトレーニング性を向上させることができるかどうかを問うことは自然である。 本研究では,広範囲のEM戦略において,指数的資源を他の場所でコミットすることなく指数的コスト集中を解決できないことを示す。 この種の戦略には、ゼロノイズ外挿、仮想蒸留、確率的エラーキャンセル、クリフォードデータ回帰などが含まれる。 第二に、これらのEMプロトコルの分析および数値解析を行い、それらのいくつか(例えば、仮想蒸留)は、EMを全く実行しないよりもコスト関数の値の解決が困難になる。 その結果,Clifford Data Regression (CDR) が,コスト集中度が高すぎる特定の環境でのトレーニングプロセスに有効であることを示す数値的証拠が得られた。 この結果から,EMプロトコルの適用には注意が必要であることが示唆された。 一方,CDRに対する肯定的な結果は,工学的誤り軽減手法がトレーニング性を向上させる可能性を強調している。

Variational Quantum Algorithms (VQAs) are widely viewed as the best hope for near-term quantum advantage. However, recent studies have shown that noise can severely limit the trainability of VQAs, e.g., by exponentially flattening the cost landscape and suppressing the magnitudes of cost gradients. Error Mitigation (EM) shows promise in reducing the impact of noise on near-term devices. Thus, it is natural to ask whether EM can improve the trainability of VQAs. In this work, we first show that, for a broad class of EM strategies, exponential cost concentration cannot be resolved without committing exponential resources elsewhere. This class of strategies includes as special cases Zero Noise Extrapolation, Virtual Distillation, Probabilistic Error Cancellation, and Clifford Data Regression. Second, we perform analytical and numerical analysis of these EM protocols, and we find that some of them (e.g., Virtual Distillation) can make it harder to resolve cost function values compared to running no EM at all. As a positive result, we do find numerical evidence that Clifford Data Regression (CDR) can aid the training process in certain settings where cost concentration is not too severe. Our results show that care should be taken in applying EM protocols as they can either worsen or not improve trainability. On the other hand, our positive results for CDR highlight the possibility of engineering error mitigation methods to improve trainability.
翻訳日:2021-09-03 13:43:04 公開日:2021-09-02
# ユーザーは何が欲しいか? warhol:レコメンデーションのための生成モデル

What Users Want? WARHOL: A Generative Model for Recommendation ( http://arxiv.org/abs/2109.01093v1 )

ライセンス: Link先を確認
Jules Samaran, Ugo Tanielian, Romain Beaumont, Flavian Vasile(参考訳) 現在のレコメンデーションアプローチは、訪問するユーザーごとに、既存の製品のどのサブセットが最も関連があるかを予測するのに役立つ。 しかし、利用者と既存製品とのマッチングに関心があるだけでなく、利用者の嗜好を理解することにも興味がある。 これは、将来、より良いマッチング製品を生産したり、買収したりするのに役立ちます。 我々は、既存のレコメンデーションモデルは、新しい製品がターゲットのオーディエンスのニーズをより良くするであろう機能の最適な組み合わせを予測するために直接使用できないと主張している。 これに対処するために、生成モデルに目を向け、テキストと視覚空間の両方で製品機能の組み合わせよりも明示的に分布を学習できる。 我々は,ユーザショッピング活動の入力として利用し,新規製品のテキストおよび視覚的記述を生成する製品生成・レコメンデーションアーキテクチャであるWARHOLを開発した。 我々は、WARHOLが、与えられたユーザプロファイルに関連する全く新しい製品を生成すると同時に、最先端のレコメンデーションモデルの性能にアプローチできることを示します。

Current recommendation approaches help online merchants predict, for each visiting user, which subset of their existing products is the most relevant. However, besides being interested in matching users with existing products, merchants are also interested in understanding their users' underlying preferences. This could indeed help them produce or acquire better matching products in the future. We argue that existing recommendation models cannot directly be used to predict the optimal combination of features that will make new products serve better the needs of the target audience. To tackle this, we turn to generative models, which allow us to learn explicitly distributions over product feature combinations both in text and visual space. We develop WARHOL, a product generation and recommendation architecture that takes as input past user shopping activity and generates relevant textual and visual descriptions of novel products. We show that WARHOL can approach the performance of state-of-the-art recommendation models, while being able to generate entirely new products that are relevant to the given user profiles.
翻訳日:2021-09-03 13:42:42 公開日:2021-09-02
# グラフコントラスト学習に関する実証的研究

An Empirical Study of Graph Contrastive Learning ( http://arxiv.org/abs/2109.01116v1 )

ライセンス: Link先を確認
Yanqiao Zhu, Yichen Xu, Qiang Liu, Shu Wu(参考訳) グラフコントラスト学習(GCL)は、人間のアノテーションなしでグラフ表現を学習するための新しいパラダイムを確立する。 最近は目覚ましい進歩が見られたが、GCLの成功はいまだに謎のままである。 本研究では,まず,拡張関数,コントラストモード,コントラスト目標,負のマイニング手法など,一般のgclパラダイムにおける重要な設計上の考慮事項を明らかにする。 そして、異なるGCLコンポーネントの相互作用を理解するために、さまざまなドメインにわたるデータセットのベンチマークタスクのセットに対して、広範囲に制御された実験を行う。 我々の実証的研究は、例えば、スパースグラフビューを生成する単純なトポロジ拡張のような、効果的なGCLのための一般的なレシートセットが、有望なパフォーマンス改善をもたらすことを示唆している。 さらに,今後の研究の促進とGCLアルゴリズムの実装を容易にするため,モジュール化されたCLコンポーネント,標準化された評価,実験管理を備えた,使い易いライブラリPyGCLを開発した。 本研究は,有効なGCLアルゴリズムの実証的証拠を提供するとともに,今後の研究にいくつかの洞察を与えるものである。

Graph Contrastive Learning (GCL) establishes a new paradigm for learning graph representations without human annotations. Although remarkable progress has been witnessed recently, the success behind GCL is still left somewhat mysterious. In this work, we first identify several critical design considerations within a general GCL paradigm, including augmentation functions, contrasting modes, contrastive objectives, and negative mining techniques. Then, to understand the interplay of different GCL components, we conduct extensive, controlled experiments over a set of benchmark tasks on datasets across various domains. Our empirical studies suggest a set of general receipts for effective GCL, e.g., simple topology augmentations that produce sparse graph views bring promising performance improvements; contrasting modes should be aligned with the granularities of end tasks. In addition, to foster future research and ease the implementation of GCL algorithms, we develop an easy-to-use library PyGCL, featuring modularized CL components, standardized evaluation, and experiment management. We envision this work to provide useful empirical evidence of effective GCL algorithms and offer several insights for future research.
翻訳日:2021-09-03 13:42:23 公開日:2021-09-02
# 動的時間ワープによる時系列の正確な形状と位相平均化

Accurate shape and phase averaging of time series through Dynamic Time Warping ( http://arxiv.org/abs/2109.00978v1 )

ライセンス: Link先を確認
George Sioros and Kristian Nymoen(参考訳) 本稿では,動的時間ゆがみ(dtw)に基づく新しい時系列平均化手法を提案する。 従来の手法とは対照的に,DTWの出力を時間列に簡単な変換とイノベーティブな反復的平均化処理により,シーケンスの持続的情報と特異な持続的特徴を保存する。 合成および実世界のデータセットにおけるランドマークの平均的順序と時間的位置を正確に推定し、最先端の手法より優れていることを示す。

We propose a novel time series averaging method based on Dynamic Time Warping (DTW). In contrast to previous methods, our algorithm preserves durational information and the distinctive durational features of the sequences due to a simple conversion of the output of DTW into a time sequence and an innovative iterative averaging process. We show that it accurately estimates the ground truth mean sequences and mean temporal location of landmarks in synthetic and real-world datasets and outperforms state-of-the-art methods.
翻訳日:2021-09-03 13:42:05 公開日:2021-09-02
# ディープラーニングを用いたエンドツーエンド需要応答モデル同定とベースライン推定

End-to-End Demand Response Model Identification and Baseline Estimation with Deep Learning ( http://arxiv.org/abs/2109.00741v1 )

ライセンス: Link先を確認
Yuanyuan Shi, Bolun Xu(参考訳) 本稿では,需要ベースラインとインセンティブに基づくエージェント需要応答モデルを同時に識別する,エンド・ツー・エンドのディープラーニングフレームワークを提案する。 本学習フレームワークは,1)要求応答参加者の決定過程を,インセンティブ信号を入力として,ユーザの応答を予測する,微分可能な最適化層として表現し,2)基準要求予測を,関連する特徴を取り入れ,ユーザのベースライン要求を予測する,標準ニューラルネットワークモデルとして表現する。 これら2つの中間予測は統合され、純需要予測を形成する。 次に,エージェントモデルの重み付けとベースライン需要予測の重み付けを共に更新するために,純需要予測誤差をバックプロパゲーションする勾配-重み付け手法を提案する。 提案手法の有効性を,合成需要応答トレースと大規模実世界の需要応答データセットを用いた計算実験により実証する。 その結果,ベースライン需要に関する事前知識がなくても,要求応答モデルを正確に識別できることがわかった。

This paper proposes a novel end-to-end deep learning framework that simultaneously identifies demand baselines and the incentive-based agent demand response model, from the net demand measurements and incentive signals. This learning framework is modularized as two modules: 1) the decision making process of a demand response participant is represented as a differentiable optimization layer, which takes the incentive signal as input and predicts user's response; 2) the baseline demand forecast is represented as a standard neural network model, which takes relevant features and predicts user's baseline demand. These two intermediate predictions are integrated, to form the net demand forecast. We then propose a gradient-descent approach that backpropagates the net demand forecast errors to update the weights of the agent model and the weights of baseline demand forecast, jointly. We demonstrate the effectiveness of our approach through computation experiments with synthetic demand response traces and a large-scale real world demand response dataset. Our results show that the approach accurately identifies the demand response model, even without any prior knowledge about the baseline demand.
翻訳日:2021-09-03 13:41:26 公開日:2021-09-02
# 次世代無線通信システムの波形学習

Waveform Learning for Next-Generation Wireless Communication Systems ( http://arxiv.org/abs/2109.00998v1 )

ライセンス: Link先を確認
Fay\c{c}al Ait Aoudia and Jakob Hoydis(参考訳) 本稿では,送信受信フィルタ,星座形状,それに付随するビットラベリング,およびニューラルネットワーク(NN)ベースの検出器の結合設計のための学習に基づく手法を提案する。 隣接チャネルリーク率(aclr)とピーク平均電力比(papr)の制約を同時に満たしながら、実現可能な情報レートを最大化する。 これにより、スペクトル封じ込め、ピーク電力、通信速度の間のトレードオフを制御できる。 付加的な白色ガウスノイズ(AWGN)チャネルの評価では,情報伝達速度を著しく低下させることなく,二次振幅変調 (QAM) とルート誘導コサイン (RRC) に依存する従来のベースラインと比較して,ACLRとPAPRの顕著な減少が見られた。 第3世代パートナーシッププロジェクト(3GPP)マルチパスチャネルを考慮すると、学習波形とニューラル受信機は、直交周波数分割多重化(OFDM)ベースラインよりも競争力または高いレートを実現し、ACLRを10dB、PAPRを2dB削減する。 提案手法は送信側で余分な複雑さを伴わず,5G以上の波形設計のための魅力的なツールとなる可能性がある。

We propose a learning-based method for the joint design of a transmit and receive filter, the constellation geometry and associated bit labeling, as well as a neural network (NN)-based detector. The method maximizes an achievable information rate, while simultaneously satisfying constraints on the adjacent channel leakage ratio (ACLR) and peak-to-average power ratio (PAPR). This allows control of the tradeoff between spectral containment, peak power, and communication rate. Evaluation on an additive white Gaussian noise (AWGN) channel shows significant reduction of ACLR and PAPR compared to a conventional baseline relying on quadrature amplitude modulation (QAM) and root-raised-cosine (RRC), without significant loss of information rate. When considering a 3rd Generation Partnership Project (3GPP) multipath channel, the learned waveform and neural receiver enable competitive or higher rates than an orthogonal frequency division multiplexing (OFDM) baseline, while reducing the ACLR by 10 dB and the PAPR by 2 dB. The proposed method incurs no additional complexity on the transmitter side and might be an attractive tool for waveform design of beyond-5G systems.
翻訳日:2021-09-03 13:40:49 公開日:2021-09-02
# 連続対称性による最適化とサンプリング:例とリー理論

Optimization and Sampling Under Continuous Symmetry: Examples and Lie Theory ( http://arxiv.org/abs/2109.01080v1 )

ライセンス: Link先を確認
Jonathan Leake and Nisheeth K. Vishnoi(参考訳) ここ数年、対称性の概念は、理論計算機科学、統計学、機械学習、量子推論、プライバシといった領域で発生するいくつかの最適化やサンプリング問題を見るために強力で不可欠なレンズを提供してきた。 本稿では,非凸問題に対する最適化とサンプリングの2つの例を示し,連続対称性が効率的アルゴリズムの開発において重要な役割を担っていることを示す。 これらの例は、非凸対称多様体と凸多面体の間の深いおよび隠れた接続に依存し、非常に一般化可能である。 これらの一般化を定式化し、理解するために、連続対称性を捉え、扱うのに必要な数学的ツールキットであるリー理論を紹介します。 まず、リー群、リー代数、それに付随する随伴作用の基本を提示し、リー代数の分類定理についても言及する。 その後、コスタントの凸性定理を示し、リー群の軌道上の線形最適化問題をポリトープ上の線形最適化問題に還元する方法を示す。 最後に、リー群上の分割関数(積分)を対応する(離散)ワイル群上の和に変換し、効率的なサンプリングアルゴリズムを実現するハリシュ・チャンドラ式とハリシュ・チャンドラ-イジークソン-ズーバー式(HCIZ)を示す。

In the last few years, the notion of symmetry has provided a powerful and essential lens to view several optimization or sampling problems that arise in areas such as theoretical computer science, statistics, machine learning, quantum inference, and privacy. Here, we present two examples of nonconvex problems in optimization and sampling where continuous symmetries play -- implicitly or explicitly -- a key role in the development of efficient algorithms. These examples rely on deep and hidden connections between nonconvex symmetric manifolds and convex polytopes, and are heavily generalizable. To formulate and understand these generalizations, we then present an introduction to Lie theory -- an indispensable mathematical toolkit for capturing and working with continuous symmetries. We first present the basics of Lie groups, Lie algebras, and the adjoint actions associated with them, and we also mention the classification theorem for Lie algebras. Subsequently, we present Kostant's convexity theorem and show how it allows us to reduce linear optimization problems over orbits of Lie groups to linear optimization problems over polytopes. Finally, we present the Harish-Chandra and the Harish-Chandra--Itzy kson--Zuber (HCIZ) formulas, which convert partition functions (integrals) over Lie groups into sums over the corresponding (discrete) Weyl groups, enabling efficient sampling algorithms.
翻訳日:2021-09-03 13:40:26 公開日:2021-09-02
# 2つのガウスの混合点間の全変動距離に関する下界

Lower Bounds on the Total Variation Distance Between Mixtures of Two Gaussians ( http://arxiv.org/abs/2109.01064v1 )

ライセンス: Link先を確認
Sami Davies, Arya Mazumdar, Soumyabrata Pal, Cyrus Rashtchian(参考訳) 高次元ガウス分布の混合は統計学と学習理論で広く研究されている。 分布学習では,全変動距離が自然に現れるが,混合物の厳密な下界を得るのは解析的に困難である。 混合物の総変動距離と特性関数の接続を爆発させることにより, かなり厳密な関数近似を与える。 これにより共有共分散行列を持つ2成分ガウス混合の対間の全変動距離の新たな下界を導出することができる。

Mixtures of high dimensional Gaussian distributions have been studied extensively in statistics and learning theory. While the total variation distance appears naturally in the sample complexity of distribution learning, it is analytically difficult to obtain tight lower bounds for mixtures. Exploiting a connection between total variation distance and the characteristic function of the mixture, we provide fairly tight functional approximations. This enables us to derive new lower bounds on the total variation distance between pairs of two-component Gaussian mixtures that have a shared covariance matrix.
翻訳日:2021-09-03 13:40:01 公開日:2021-09-02
# (参考訳) 自己調整型神経放射場

Self-Calibrating Neural Radiance Fields ( http://arxiv.org/abs/2108.13826v2 )

ライセンス: CC BY-SA 4.0
Yoonwoo Jeong, Seokjun Ahn, Christopher Choy, Animashree Anandkumar, Minsu Cho, Jaesik Park(参考訳) 本研究では,任意の非線形歪みを有する汎用カメラのためのカメラ自己校正アルゴリズムを提案する。 キャリブレーション対象を必要とせず,シーンの形状と正確なカメラパラメータを共同で学習する。 我々のカメラモデルは、ピンホールモデル、第4次半径歪み、および任意の非線形カメラ歪みを学習可能な汎用ノイズモデルで構成されている。 従来の自己校正アルゴリズムは、主に幾何学的制約に依存するが、光度整合性も含んでいる。 これはシーンの幾何学を学習し、Neural Radiance Fields(NeRF)を使用します。 また, 複素非線形カメラモデルに幾何学的一貫性を組み込むために, 射影線距離損失関数vizを提案する。 我々は、標準的な実画像データセットにアプローチを検証し、COLMAP初期化なしでカメラの内在性や外在性(目的)をゼロから学習できることを実証する。 また,異なる方法で正確なカメラモデルを学習することで,ベースラインよりもPSNRを向上できることを示す。 私たちのモジュールは簡単に使えるプラグインで、パフォーマンスを改善するためにnerfの変種に適用できます。 コードとデータはhttps://github.com/P OSTECH-CVLab/SCNeRFで公開されている。

In this work, we propose a camera self-calibration algorithm for generic cameras with arbitrary non-linear distortions. We jointly learn the geometry of the scene and the accurate camera parameters without any calibration objects. Our camera model consists of a pinhole model, a fourth order radial distortion, and a generic noise model that can learn arbitrary non-linear camera distortions. While traditional self-calibration algorithms mostly rely on geometric constraints, we additionally incorporate photometric consistency. This requires learning the geometry of the scene, and we use Neural Radiance Fields (NeRF). We also propose a new geometric loss function, viz., projected ray distance loss, to incorporate geometric consistency for complex non-linear camera models. We validate our approach on standard real image datasets and demonstrate that our model can learn the camera intrinsics and extrinsics (pose) from scratch without COLMAP initialization. Also, we show that learning accurate camera models in a differentiable manner allows us to improve PSNR over baselines. Our module is an easy-to-use plugin that can be applied to NeRF variants to improve performance. The code and data are currently available at https://github.com/P OSTECH-CVLab/SCNeRF.
翻訳日:2021-09-03 10:31:49 公開日:2021-09-02
# 強化学習における探索手法の検討

A Survey of Exploration Methods in Reinforcement Learning ( http://arxiv.org/abs/2109.00157v2 )

ライセンス: Link先を確認
Susan Amin, Maziar Gomrokchi, Harsh Satija, Herke van Hoof, Doina Precup(参考訳) 探索は強化学習アルゴリズムの重要な要素であり、エージェントは未知の、しばしば確率的な環境を予測し、制御する方法を学ぶ必要がある。 強化学習エージェントは、十分な情報がないことが効果的な学習を妨げる可能性があるため、学習プロセスのための情報を得るための探索に大きく依存する。 本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。

Exploration is an essential component of reinforcement learning algorithms, where agents need to learn how to predict and control unknown and often stochastic environments. Reinforcement learning agents depend crucially on exploration to obtain informative data for the learning process as the lack of enough information could hinder effective learning. In this article, we provide a survey of modern exploration methods in (Sequential) reinforcement learning, as well as a taxonomy of exploration methods.
翻訳日:2021-09-03 10:30:07 公開日:2021-09-02
# 知覚に最適化された高ダイナミックレンジ画像トーンマッピング

Perceptually Optimized Deep High-Dynamic-Range Image Tone Mapping ( http://arxiv.org/abs/2109.00180v2 )

ライセンス: Link先を確認
Chenyang Le and Jiebin Yan and Yuming Fang and Kede Ma(参考訳) 本稿では,計算効率が高く知覚的に最適化された高ダイナミックレンジ(hdr)画像トーンマッピング演算子について述べる。 まず、hdr画像を正規化されたラプラシアピラミッドに分解し、2つのディープニューラルネットワーク(dnn)を用いて、所望のトーンマップ画像のラプラシアピラミッドを正規化表現から推定する。 次に,最近提案する知覚指標である正規化ラプラシアンピラミッド距離(nlpd)を最小化することにより,hdr画像のデータベース上での方法全体の最適化を行う。 質的かつ定量的な実験により,既存の局所トーンマッピングアルゴリズムの中で最も高速に映像を生成できることを示した。

We describe a deep high-dynamic-range (HDR) image tone mapping operator that is computationally efficient and perceptually optimized. We first decompose an HDR image into a normalized Laplacian pyramid, and use two deep neural networks (DNNs) to estimate the Laplacian pyramid of the desired tone-mapped image from the normalized representation. We then end-to-end optimize the entire method over a database of HDR images by minimizing the normalized Laplacian pyramid distance (NLPD), a recently proposed perceptual metric. Qualitative and quantitative experiments demonstrate that our method produces images with better visual quality, and runs the fastest among existing local tone mapping algorithms.
翻訳日:2021-09-03 10:29:59 公開日:2021-09-02
# kdd 2021 workshop on data-driven humanitarian mapping: using human-machine intelligence for high-stake public policy and resilience planning (特集 ヒューマン・マシン・インテリジェンス)

Proceedings of KDD 2021 Workshop on Data-driven Humanitarian Mapping: Harnessing Human-Machine Intelligence for High-Stake Public Policy and Resilience Planning ( http://arxiv.org/abs/2109.00100v2 )

ライセンス: Link先を確認
Snehalkumar (Neil) S. Gaikwad, Shankar Iyer, Dalton Lunga, Elizabeth Bondi(参考訳) 自然災害、食料不足、気候変動、人種と性別の暴力、環境危機、新型コロナウイルス(COVID-19)のパンデミック、人権侵害、強制移住などの人道的課題は、世界中の脆弱なコミュニティに不当に影響を及ぼす。 OCHAによると、20211年には2億3500万人が人道支援を必要としている。 これらの増加にもかかわらず、リスクの高い人口の生活を改善するための公平な公共政策決定を科学的に伝えるために、データサイエンス研究の顕著なパキュリティが残っている。 散在するデータサイエンスの努力はこれらの課題に対処するために存在するが、プライバシー、公正性、解釈性、説明責任、透明性、倫理の欠如に関するアルゴリズム的な危害を招きやすい。 データ駆動方式のバイアスは、何百万人もの人々の生活に影響を及ぼす高リスク政策決定の不平等を増幅するリスクを負う。 その結果、人道的行動とグローバルな発展の核心にある政策立案者、実践者、辺境化コミュニティには、データ駆動型イノベーションの利点が依然としてアクセス不可能である。 このギャップを埋めるために、我々は、人間のマシンインテリジェンスを利用した新しいデータサイエンス方法論の開発に焦点をあてた、データ駆動型人道マッピング研究プログラムを提案する。

Humanitarian challenges, including natural disasters, food insecurity, climate change, racial and gender violence, environmental crises, the COVID-19 coronavirus pandemic, human rights violations, and forced displacements, disproportionately impact vulnerable communities worldwide. According to UN OCHA, 235 million people will require humanitarian assistance in 20211 . Despite these growing perils, there remains a notable paucity of data science research to scientifically inform equitable public policy decisions for improving the livelihood of at-risk populations. Scattered data science efforts exist to address these challenges, but they remain isolated from practice and prone to algorithmic harms concerning lack of privacy, fairness, interpretability, accountability, transparency, and ethics. Biases in data-driven methods carry the risk of amplifying inequalities in high-stakes policy decisions that impact the livelihood of millions of people. Consequently, proclaimed benefits of data-driven innovations remain inaccessible to policymakers, practitioners, and marginalized communities at the core of humanitarian actions and global development. To help fill this gap, we propose the Data-driven Humanitarian Mapping Research Program, which focuses on developing novel data science methodologies that harness human-machine intelligence for high-stakes public policy and resilience planning.
翻訳日:2021-09-03 10:29:46 公開日:2021-09-02
# kdd 2020ワークショップ「データ駆動人道マッピング」開催報告 : ヒューマン・マシン・インテリジェンスを活用した公共政策とレジリエンス計画

Proceedings of KDD 2020 Workshop on Data-driven Humanitarian Mapping: Harnessing Human-Machine Intelligence for High-Stake Public Policy and Resilience Planning ( http://arxiv.org/abs/2109.00435v2 )

ライセンス: Link先を確認
Snehalkumar (Neil) S. Gaikwad, Shankar Iyer, Dalton Lunga, Yu-Ru Lin(参考訳) 自然災害、食料不足、気候変動、人種と性別の暴力、環境危機、新型コロナウイルス(COVID-19)のパンデミック、人権侵害、強制移住などの人道的課題は、世界中の脆弱なコミュニティに不当に影響を及ぼす。 OCHAによると、20211年には2億3500万人が人道支援を必要としている。 これらの増加にもかかわらず、リスクの高い人口の生活を改善するための公平な公共政策決定を科学的に伝えるために、データサイエンス研究の顕著なパキュリティが残っている。 散在するデータサイエンスの努力はこれらの課題に対処するために存在するが、プライバシー、公正性、解釈性、説明責任、透明性、倫理の欠如に関するアルゴリズム的な危害を招きやすい。 データ駆動方式のバイアスは、何百万人もの人々の生活に影響を及ぼす高リスク政策決定の不平等を増幅するリスクを負う。 その結果、人道的行動とグローバルな発展の核心にある政策立案者、実践者、辺境化コミュニティには、データ駆動型イノベーションの利点が依然としてアクセス不可能である。 このギャップを埋めるために、我々は、人間のマシンインテリジェンスを利用した新しいデータサイエンス方法論の開発に焦点をあてた、データ駆動型人道マッピング研究プログラムを提案する。

Humanitarian challenges, including natural disasters, food insecurity, climate change, racial and gender violence, environmental crises, the COVID-19 coronavirus pandemic, human rights violations, and forced displacements, disproportionately impact vulnerable communities worldwide. According to UN OCHA, 235 million people will require humanitarian assistance in 20211 . Despite these growing perils, there remains a notable paucity of data science research to scientifically inform equitable public policy decisions for improving the livelihood of at-risk populations. Scattered data science efforts exist to address these challenges, but they remain isolated from practice and prone to algorithmic harms concerning lack of privacy, fairness, interpretability, accountability, transparency, and ethics. Biases in data-driven methods carry the risk of amplifying inequalities in high-stakes policy decisions that impact the livelihood of millions of people. Consequently, proclaimed benefits of data-driven innovations remain inaccessible to policymakers, practitioners, and marginalized communities at the core of humanitarian actions and global development. To help fill this gap, we propose the Data-driven Humanitarian Mapping Research Program, which focuses on developing novel data science methodologies that harness human-machine intelligence for high-stakes public policy and resilience planning.
翻訳日:2021-09-03 10:29:19 公開日:2021-09-02
# EG-Booster: MLエクスポーテーションアタックの解説ガイド付きブースター

EG-Booster: Explanation-Guided Booster of ML Evasion Attacks ( http://arxiv.org/abs/2108.13930v2 )

ライセンス: Link先を確認
Abderrahmen Amich and Birhanu Eshete(参考訳) 多数のドメインで機械学習(ML)が広く使用されていることで、セキュリティクリティカルな環境における信頼性に関する疑問が持ち上がっている。 信頼できるMLの探求の1つは、テストタイムの敵例に対するMLモデルの堅牢性評価である。 信頼に値するml目標に沿って、堅牢性評価に役立つ有用なインプットは、モデル予測の機能ベースの説明である。 本稿では,EG-Boosterと呼ばれる新しい手法を提案する。この手法は,MLモデルのロバスト性評価を改善するために,説明可能なMLのテクニックを活用して,セキュリティクリティカルな設定にデプロイする。 EG-Boosterにおける重要な洞察は、モデル予測の特徴に基づく説明を用いて、モデル回避につながる可能性のある連続的な摂動を追加し、非連続的な予測が回避に寄与しそうにないことを避けることで、敵のサンプル作成を導くことである。 EG-Boosterはアーキテクチャや脅威モデルをモデル化しておらず、以前文献で使われていた様々な距離メトリクスをサポートする。 画像分類ベンチマークデータセットMNISTとCIFAR10を用いてEG-Boosterを評価する。 以上の結果から,EG-Boosterは回避率を著しく向上し,摂動回数の減少が示唆された。 4つのホワイトボックスと3つのブラックボックス攻撃をカバーする広範な実験を通じて、MNISTとCIFAR10でトレーニングされた2つの未防御ニューラルネットワークと、CIFAR10でトレーニングされた別の逆トレーニングされたResNetモデルに対するEG-Boosterの有効性を実証する。 さらに,安定度評価尺度を導入し,EG-Boosterの複数回にわたるモデル分類出力の類似性を観察することにより,説明に基づくアプローチの信頼性を評価する。

The widespread usage of machine learning (ML) in a myriad of domains has raised questions about its trustworthiness in security-critical environments. Part of the quest for trustworthy ML is robustness evaluation of ML models to test-time adversarial examples. Inline with the trustworthy ML goal, a useful input to potentially aid robustness evaluation is feature-based explanations of model predictions. In this paper, we present a novel approach called EG-Booster that leverages techniques from explainable ML to guide adversarial example crafting for improved robustness evaluation of ML models before deploying them in security-critical settings. The key insight in EG-Booster is the use of feature-based explanations of model predictions to guide adversarial example crafting by adding consequential perturbations likely to result in model evasion and avoiding non-consequential ones unlikely to contribute to evasion. EG-Booster is agnostic to model architecture, threat model, and supports diverse distance metrics used previously in the literature. We evaluate EG-Booster using image classification benchmark datasets, MNIST and CIFAR10. Our findings suggest that EG-Booster significantly improves evasion rate of state-of-the-art attacks while performing less number of perturbations. Through extensive experiments that covers four white-box and three black-box attacks, we demonstrate the effectiveness of EG-Booster against two undefended neural networks trained on MNIST and CIFAR10, and another adversarially-traine d ResNet model trained on CIFAR10. Furthermore, we introduce a stability assessment metric and evaluate the reliability of our explanation-based approach by observing the similarity between the model's classification outputs across multiple runs of EG-Booster.
翻訳日:2021-09-03 10:28:55 公開日:2021-09-02
# Morphence: 敵の事例に対する標的防御の移動

Morphence: Moving Target Defense Against Adversarial Examples ( http://arxiv.org/abs/2108.13952v2 )

ライセンス: Link先を確認
Abderrahmen Amich and Birhanu Eshete(参考訳) 機械学習モデルの敵対的な例に対する堅牢性は、いまだ研究のオープントピックである。 攻撃はしばしば、それを騙すために意図的に作られた敵の例で固定されたターゲットモデルを何度も探すことで成功する。 本稿では,モデルを敵の例に対して移動目標にすることで,防御景観を変える手法であるMorphenceを紹介する。 モデルの決定関数を定期的に移動させることで、Morphenceは繰り返しまたは関連する攻撃が成功するのを著しく困難にする。 Morphenceはベースモデルから生成されたモデルのプールを、予測クエリに応答するときに十分なランダム性をもたらす方法で展開する。 繰り返しまたは相関攻撃が失敗することを保証するため、クエリ予算に達した後、モデルのデプロイプールが自動的に終了し、モデルプールが予め生成された新しいモデルプールにシームレスに置き換えられる。 ベンチマーク画像分類データセット(MNISTとCIFAR10)を5つの参照攻撃(2つのホワイトボックスと3つのブラックボックス)に対してMorphenceを評価する。 あらゆるケースにおいて、Morphenceは、クリーンなデータに対する正確さを維持しながら、強力なホワイトボックス攻撃に直面した場合でも、より長期的な効果的な防御、敵の訓練を一貫して上回ります。

Robustness to adversarial examples of machine learning models remains an open topic of research. Attacks often succeed by repeatedly probing a fixed target model with adversarial examples purposely crafted to fool it. In this paper, we introduce Morphence, an approach that shifts the defense landscape by making a model a moving target against adversarial examples. By regularly moving the decision function of a model, Morphence makes it significantly challenging for repeated or correlated attacks to succeed. Morphence deploys a pool of models generated from a base model in a manner that introduces sufficient randomness when it responds to prediction queries. To ensure repeated or correlated attacks fail, the deployed pool of models automatically expires after a query budget is reached and the model pool is seamlessly replaced by a new model pool generated in advance. We evaluate Morphence on two benchmark image classification datasets (MNIST and CIFAR10) against five reference attacks (2 white-box and 3 black-box). In all cases, Morphence consistently outperforms the thus-far effective defense, adversarial training, even in the face of strong white-box attacks, while preserving accuracy on clean data.
翻訳日:2021-09-03 10:28:27 公開日:2021-09-02