このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211004となっている論文です。

PDF登録状況(公開日: 20211004)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) マルチタスク学習における最適化戦略:平均損失か独立損失か? [全文訳有]

Optimization Strategies in Multi-Task Learning: Averaged or Independent Losses? ( http://arxiv.org/abs/2109.11678v2 )

ライセンス: CC0 1.0
Lucas Pascal and Pietro Michiardi and Xavier Bost and Benoit Huet and Maria A. Zuluaga(参考訳) マルチタスク学習(MTL)では,タスク固有の目的関数の重み付け平均である目的関数を最適化することにより,マルチタスクネットワークのトレーニングを行うのが一般的である。 この戦略の計算上の利点は明らかであるが、結果として生じる損失景観の複雑さは文献では研究されていない。 おそらく、その最適化は、タスク固有の目的を構成する別の最適化よりも難しいかもしれない。 本研究では,異なるタスク固有の目的関数に対して,独立な勾配降下ステップを交互に行うことで,このような代替手段の利点を検証し,このアプローチを最先端最適化器と組み合わせる新しい方法を考案する。 タスク固有の目的の分離は計算時間の増加によるコストがかかるため,より優れた最適化と計算効率のトレードオフとしてランダムなタスクグループ化を提案する。 3つのよく知られた視覚的MTLデータセットに対する実験結果から、平均的目的関数や他の最先端のMTL手法と比較して、損失と標準指標に対する全体的な絶対的パフォーマンスが向上した。 特に本手法は,異なる性質のタスクを扱う場合の最大の利点を示し,共有パラメータ空間のより広い探索を可能にする。 また、ランダムなグループ化戦略は、これらの利点と計算効率のトレードオフを可能にすることを示す。

In Multi-Task Learning (MTL), it is a common practice to train multi-task networks by optimizing an objective function, which is a weighted average of the task-specific objective functions. Although the computational advantages of this strategy are clear, the complexity of the resulting loss landscape has not been studied in the literature. Arguably, its optimization may be more difficult than a separate optimization of the constituting task-specific objectives. In this work, we investigate the benefits of such an alternative, by alternating independent gradient descent steps on the different task-specific objective functions and we formulate a novel way to combine this approach with state-of-the-art optimizers. As the separation of task-specific objectives comes at the cost of increased computational time, we propose a random task grouping as a trade-off between better optimization and computational efficiency. Experimental results over three well-known visual MTL datasets show better overall absolute performance on losses and standard metrics compared to an averaged objective function and other state-of-the-art MTL methods. In particular, our method shows the most benefits when dealing with tasks of different nature and it enables a wider exploration of the shared parameter space. We also show that our random grouping strategy allows to trade-off between these benefits and computational efficiency.
翻訳日:2021-10-10 15:59:38 公開日:2021-10-04
# ニューラルネットワークによるマルチモーダル核融合

Neural Dependency Coding inspired Multimodal Fusion ( http://arxiv.org/abs/2110.00385v2 )

ライセンス: Link先を確認
Shiv Shankar(参考訳) 異なるモダリティからの情報統合は研究の活発な領域である。 人間および一般に、生物学的神経系は、環境と相互に相互作用するために、異なる知覚野からの様々な信号を使用するのに非常に適している。 近年のニューラルネットワークによる深層融合モデルの研究は、音声認識、感情認識と分析、キャプション、画像記述といった分野における一助的なアプローチよりも大幅に改善されている。 しかし、このような研究は主に、モデルの複雑さを管理しつつ、異なるモダリティの融合を可能にするアーキテクチャの変更に焦点を当てている。 近年の多感覚統合と処理に関する神経科学の考え方に触発され,シナジー最大化損失関数の効果について検討した。 CMU-MOSIとCMU-MOSEIの異なるモデルを用いたマルチモーダル感情分析実験は、我々のアプローチが一貫した性能向上をもたらすことを示している。

Information integration from different modalities is an active area of research. Human beings and, in general, biological neural systems are quite adept at using a multitude of signals from different sensory perceptive fields to interact with the environment and each other. Recent work in deep fusion models via neural networks has led to substantial improvements over unimodal approaches in areas like speech recognition, emotion recognition and analysis, captioning and image description. However, such research has mostly focused on architectural changes allowing for fusion of different modalities while keeping the model complexity manageable. Inspired by recent neuroscience ideas about multisensory integration and processing, we investigate the effect of synergy maximizing loss functions. Experiments on multimodal sentiment analysis tasks: CMU-MOSI and CMU-MOSEI with different models show that our approach provides a consistent performance boost.
翻訳日:2021-10-10 09:16:07 公開日:2021-10-04
# (参考訳) ソーシャルメディアにおける自殺傾向の定量化:調査 [全文訳有]

Quantifying the Suicidal Tendency on Social Media: A Survey ( http://arxiv.org/abs/2110.03663v1 )

ライセンス: CC BY 4.0
Muskan Garg(参考訳) ロックダウン期間中、第3位の閉鎖によるソーシャルメディアプラットフォームに対する感情の表現が増加し、学術研究者はメンタルヘルスとソーシャルメディア投稿の強い結びつきを目撃している。 短期間のストレスは臨床うつ病につながる可能性があり、うつ病の長期的特徴は自殺的な考えによって生命を脅かす可能性がある。 自殺件数の増加に対する懸念が高まっているのは、早産だが予防可能な死亡の原因の1つであるためである。 近年の研究では、ソーシャルメディアデータのマイニングがユーザーの自殺傾向の定量化に寄与していることが示されている。 この潜在的原稿は、メンタルヘルスの分類を解明し、ソーシャルメディアデータにおける自殺傾向の定量化の可能性を調べるための最近の試みを強調している。 本稿では,ソーシャルメディアデータからの異種特徴の分類と特徴ベクトル表現の扱いについて述べる。 機械学習(ML)とディープラーニング(DL)ベースのモデルの開発における新たな研究の方向性と進歩を明らかにするため,2013年から2021年にかけて,ストレス,うつ,自殺リスクに関する77以上の研究論文のコーパスを用いて定量的合成と質的レビューを行った。

Amid lockdown period more people express their feelings over social media platforms due to closed third-place and academic researchers have witnessed strong associations between the mental healthcare and social media posts. The stress for a brief period may lead to clinical depressions and the long-lasting traits of prevailing depressions can be life threatening with suicidal ideation as the possible outcome. The increasing concern towards the rise in number of suicide cases is because it is one of the leading cause of premature but preventable death. Recent studies have shown that mining social media data has helped in quantifying the suicidal tendency of users at risk. This potential manuscript elucidates the taxonomy of mental healthcare and highlights some recent attempts in examining the potential of quantifying suicidal tendency on social media data. This manuscript presents the classification of heterogeneous features from social media data and handling feature vector representation. Aiming to identify the new research directions and advances in the development of Machine Learning (ML) and Deep Learning (DL) based models, a quantitative synthesis and a qualitative review was carried out with corpus of over 77 potential research articles related to stress, depression and suicide risk from 2013 to 2021.
翻訳日:2021-10-09 15:19:22 公開日:2021-10-04
# (参考訳) 脳波を用いた感情的単語処理における意味的類似性の追跡 [全文訳有]

Using Single-Trial Representational Similarity Analysis with EEG to track semantic similarity in emotional word processing ( http://arxiv.org/abs/2110.03529v1 )

ライセンス: CC BY 4.0
Feng Cheng(参考訳) 脳波(EEG)は、高時間分解能の強力な非侵襲脳イメージング技術であり、認知科学研究の様々な領域で広く利用されている。 この論文は、表現的類似性分析(RSA)を単一の脳波データセットに適用し、その原理を多変量解析に精通していない脳波研究者に導入する。 2つの目的があります 1. 脳波データセットに対する単検体RSAの有効性について検討する。 2) 情緒的単語処理における意味的意味論の役割を考察するために, 単審理RSAと計算意味論モデルを利用したい。 2つの主要な発見を報告します 1. 単一の脳波データセット上のRSAは、多量の臨床試験及び主題から有意義かつ解釈可能な結果を得ることができる。 2. 単検体RSAは500~800msの時間窓における情動処理が追加の意味解析と関連していることを明らかにした。

Electroencephalograp hy (EEG) is a powerful non-invasive brain imaging technique with a high temporal resolution that has seen extensive use across multiple areas of cognitive science research. This thesis adapts representational similarity analysis (RSA) to single-trial EEG datasets and introduces its principles to EEG researchers unfamiliar with multivariate analyses. We have two separate aims: 1. we want to explore the effectiveness of single-trial RSA on EEG datasets; 2. we want to utilize single-trial RSA and computational semantic models to investigate the role of semantic meaning in emotional word processing. We report two primary findings: 1. single-trial RSA on EEG datasets can produce meaningful and interpretable results given a high number of trials and subjects; 2. single-trial RSA reveals that emotional processing in the 500-800ms time window is associated with additional semantic analysis.
翻訳日:2021-10-09 14:48:03 公開日:2021-10-04
# SEIRモデルと機械学習を用いたインドコビッドウイルス感染に対するロックダウンその他の影響のモデル化

Modeling Effect of Lockdowns and Other Effects on India Covid-19 Infections Using SEIR Model and Machine Learning ( http://arxiv.org/abs/2110.03422v1 )

ライセンス: Link先を確認
Sathiyanarayanan Sampath, Joy Bose(参考訳) SEIRモデルは感染拡大を予測するために広く用いられている疫学モデルである。 このモデルは、さまざまな国でCovid-19の感染者数を予測するために広く利用されている。 しかし、オリジナルのSEIRモデルは、ロックダウン、ワクチン、再感染などの要因の影響を考慮していない。 インドでは2020年3月に第1波、2021年4月に第2波が始まりました。 本稿では, ロックダウンやその他のインフルエンサーの影響をモデル化するためにSEIRモデル式を変更し, 曲線フィッティングの最小2乗最小化のためのピソンライブラリlmfitを用いて, インドにおける毎日のCovid-19感染データに適合する。 ロックダウンの影響を考慮し,標準SEIRモデルのR0パラメータを矩形として修正する。 修正SEIRモデルは感染の可利用データに正確に適合する。

The SEIR model is a widely used epidemiological model used to predict the rise in infections. This model has been widely used in different countries to predict the number of Covid-19 cases. But the original SEIR model does not take into account the effect of factors such as lockdowns, vaccines, and re-infections. In India the first wave of Covid started in March 2020 and the second wave in April 2021. In this paper, we modify the SEIR model equations to model the effect of lockdowns and other influencers, and fit the model on data of the daily Covid-19 infections in India using lmfit, a python library for least squares minimization for curve fitting. We modify R0 parameter in the standard SEIR model as a rectangle in order to account for the effect of lockdowns. Our modified SEIR model accurately fits the available data of infections.
翻訳日:2021-10-08 16:06:26 公開日:2021-10-04
# tbcov: 感情、実体、地理、性別のラベルが付いた20億の多言語ツイート

TBCOV: Two Billion Multilingual COVID-19 Tweets with Sentiment, Entity, Geo, and Gender Labels ( http://arxiv.org/abs/2110.03664v1 )

ライセンス: Link先を確認
Muhammad Imran, Umair Qazi, Ferda Ofli(参考訳) 公衆の意見、感情、緊急の要求、状況報告に関する豊富な情報を運ぶ市民が生成したデータに即座にアクセスすることができる。 このような情報は、当局が緊急状況を理解し、それに応じて反応するのに役立つ。 さらに、ソーシャルメディアは、誤情報や偽情報に取り組む上で重要な役割を担っている。 tbcovは、新型コロナウイルス(covid-19)パンデミックに関連する20億以上の多言語ツイートを1年以上かけて収集した大規模なtwitterデータセットだ。 さらに重要なことに、いくつかの最先端のディープラーニングモデルは、感情ラベル、名前付きエンティティ(人、組織、場所の言及など)、ユーザータイプ、性別情報など、重要な属性でデータを豊かにするために使用される。 最後に、国、州、郡、都市情報をつぶやきに割り当てるジオタグ方式が提案され、多くのデータ分析タスクが現実世界の問題を理解することができる。 私たちの感情とトレンド分析は興味深い洞察を示し、tbcovの幅広い重要なトピックをカバーしています。

The widespread usage of social networks during mass convergence events, such as health emergencies and disease outbreaks, provides instant access to citizen-generated data that carry rich information about public opinions, sentiments, urgent needs, and situational reports. Such information can help authorities understand the emergent situation and react accordingly. Moreover, social media plays a vital role in tackling misinformation and disinformation. This work presents TBCOV, a large-scale Twitter dataset comprising more than two billion multilingual tweets related to the COVID-19 pandemic collected worldwide over a continuous period of more than one year. More importantly, several state-of-the-art deep learning models are used to enrich the data with important attributes, including sentiment labels, named-entities (e.g., mentions of persons, organizations, locations), user types, and gender information. Last but not least, a geotagging method is proposed to assign country, state, county, and city information to tweets, enabling a myriad of data analysis tasks to understand real-world issues. Our sentiment and trend analyses reveal interesting insights and confirm TBCOV's broad coverage of important topics.
翻訳日:2021-10-08 15:37:11 公開日:2021-10-04
# 分散のための量子生成逆ネットワーク

A Quantum Generative Adversarial Network for distributions ( http://arxiv.org/abs/2110.02742v1 )

ライセンス: Link先を確認
Amine Assouel, Antoine Jacquier, Alexei Kondratyev(参考訳) 生成型adversarial networkは、特にディープニューラルネットワークの安定性向上のコンテキストにおいて、機械学習の基本的なツールになりつつある。 同時に、量子コンピューティングの最近の進歩は、フォールトトレラントな量子コンピュータが存在しないにもかかわらず、量子技術は古典的手法よりも指数関数的に有利であることを示している。 我々は、完全連結量子生成逆ネットワークを開発し、それを数学的ファイナンスに適用する方法を示し、特にボラティリティモデリングに焦点をあてる。

Generative Adversarial Networks are becoming a fundamental tool in Machine Learning, in particular in the context of improving the stability of deep neural networks. At the same time, recent advances in Quantum Computing have shown that, despite the absence of a fault-tolerant quantum computer so far, quantum techniques are providing exponential advantage over their classical counterparts. We develop a fully connected Quantum Generative Adversarial network and show how it can be applied in Mathematical Finance, with a particular focus on volatility modelling.
翻訳日:2021-10-07 14:15:01 公開日:2021-10-04
# 生体インスパイアニューラルネットワークを用いたエンドツーエンド音声認識の効率化

Towards efficient end-to-end speech recognition with biologically-inspire d neural networks ( http://arxiv.org/abs/2110.02743v1 )

ライセンス: Link先を確認
Thomas Bohnstingl, Ayush Garg, Stanis{\l}aw Wo\'zniak, George Saon, Evangelos Eleftheriou and Angeliki Pantazi(参考訳) 自動音声認識(automatic speech recognition, asr)は、プログラムが人間の音声を書体に処理できる能力である。 人工知能(AI)の最近の進歩は、リカレントニューラルネットワークトランスデューサ(RNN-T)のようなディープニューラルネットワークに基づく高精度なASRシステムを生み出している。 しかし、これらのアプローチのコアコンポーネントと実行された操作は、強力な生物学的機能、すなわち人間の脳から離れる。 一方、スパイクニューラルネットワーク(SNN)に基づく生物学的にインスパイアされたASRモデルにおける現在の発展は、精度の面で遅れており、主に小規模アプリケーションに焦点を当てている。 本研究は,脳内の様々な神経・シナプス力学からインスピレーションを得て,生物学的に解明可能なモデルの深層学習への組み入れを再考し,その能力を大幅に向上させるものである。 特に, axo-somatic と axo-axonic synapses を模倣したニューラルコネクティビティ概念を導入する。 そこで本研究では,神経シナプスダイナミクスを豊かにする新しい深層学習ユニットを提案し,それをrnn-tアーキテクチャに統合する。 大規模ASRモデルの生物学的に現実的な実装によって,既存のディープラーニングモデルと比較して,競争性能が向上することを示す。 具体的には、このような実装は、音声認識アプリケーションにとって重要な計算コストの低減やレイテンシの低減など、いくつかの利点があることを示す。

Automatic speech recognition (ASR) is a capability which enables a program to process human speech into a written form. Recent developments in artificial intelligence (AI) have led to high-accuracy ASR systems based on deep neural networks, such as the recurrent neural network transducer (RNN-T). However, the core components and the performed operations of these approaches depart from the powerful biological counterpart, i.e., the human brain. On the other hand, the current developments in biologically-inspire d ASR models, based on spiking neural networks (SNNs), lag behind in terms of accuracy and focus primarily on small scale applications. In this work, we revisit the incorporation of biologically-plausib le models into deep learning and we substantially enhance their capabilities, by taking inspiration from the diverse neural and synaptic dynamics found in the brain. In particular, we introduce neural connectivity concepts emulating the axo-somatic and the axo-axonic synapses. Based on this, we propose novel deep learning units with enriched neuro-synaptic dynamics and integrate them into the RNN-T architecture. We demonstrate for the first time, that a biologically realistic implementation of a large-scale ASR model can yield competitive performance levels compared to the existing deep learning models. Specifically, we show that such an implementation bears several advantages, such as a reduced computational cost and a lower latency, which are critical for speech recognition applications.
翻訳日:2021-10-07 14:07:43 公開日:2021-10-04
# ウェアラブルデバイスを用いたクリティカルケアにおける姿勢認識

Posture Recognition in the Critical Care Settings using Wearable Devices ( http://arxiv.org/abs/2110.02768v1 )

ライセンス: Link先を確認
Anis Davoudi, Patrick J. Tighe, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療室(ICU)患者の身体活動の低下は、臨床的に有害な結果と関連している。 したがって、身体活動と患者の結果との関係を定量化するために、ICUにおける身体活動の連続的かつ客観的な測定が必要である。 この測定は、リハビリテーションや理学療法が身体活動を改善する効果を評価するのにも役立つ。 本研究では、ウェアラブルセンサのデータを用いて、ICU集団における姿勢認識の可能性を検討した。

Low physical activity levels in the intensive care units (ICU) patients have been linked to adverse clinical outcomes. Therefore, there is a need for continuous and objective measurement of physical activity in the ICU to quantify the association between physical activity and patient outcomes. This measurement would also help clinicians evaluate the efficacy of proposed rehabilitation and physical therapy regimens in improving physical activity. In this study, we examined the feasibility of posture recognition in an ICU population using data from wearable sensors.
翻訳日:2021-10-07 14:07:20 公開日:2021-10-04
# (参考訳) 自己学習と半教師あり学習を用いた大規模ASRドメイン適応 [全文訳有]

Large-scale ASR Domain Adaptation using Self- and Semi-supervised Learning ( http://arxiv.org/abs/2110.00165v2 )

ライセンス: CC BY 4.0
Dongseong Hwang, Ananya Misra, Zhouyuan Huo, Nikhil Siddhartha, Shefali Garg, David Qiu, Khe Chai Sim, Trevor Strohman, Fran\c{c}oise Beaufays, Yanzhang He(参考訳) ラベル付きトレーニングデータの削減やモデルパフォーマンスの向上を目的として,自己教師付き学習手法と半教師付き学習手法が積極的に研究されている。 しかしこのアプローチは主に、パブリックデータセットのドメイン内パフォーマンスに重点を置いている。 本研究では,オンラインASRモデルのための大規模生産環境において,自己学習と半教師あり学習を組み合わせることで,未確認領域適応問題を解決する。 このアプローチは、ターゲットドメインデータのごく一部(3%)のソースドメインデータを使用することで、完全なデータベースラインと比較してパフォーマンスギャップを回復できることを示しています。

Self- and semi-supervised learning methods have been actively investigated to reduce labeled training data or enhance the model performance. However, the approach mostly focus on in-domain performance for public datasets. In this study, we utilize the combination of self- and semi-supervised learning methods to solve unseen domain adaptation problem in a large-scale production setting for online ASR model. This approach demonstrates that using the source domain data with a small fraction of the target domain data (3%) can recover the performance gap compared to a full data baseline: relative 13.5% WER improvement for target domain data.
翻訳日:2021-10-07 08:00:44 公開日:2021-10-04
# (参考訳) ディファレンシャルプライバシとフェデレーションラーニングを用いたプライバシ対応ファイナンシャルテキスト分類 [全文訳有]

Privacy enabled Financial Text Classification using Differential Privacy and Federated Learning ( http://arxiv.org/abs/2110.01643v1 )

ライセンス: CC BY 4.0
Priyam Basu, Tiasa Singha Roy, Rakshit Naidu, Zumrut Muftuoglu(参考訳) このようなデータは極めて機密で機密性の高いので、金融ドメインを考えると、プライバシは重要です。 自然言語処理(nlp)の技術は、顧客フィードバックの感情分析、請求書のエンティティ検出、財務文書のタイプ別分類など、金融ドメインにおけるテキスト分類やエンティティ検出に応用することができる。 このようなデータの機密性から,大規模モデルの処理やトレーニングには,プライバシ対策を講じる必要がある。 そこで本研究では,差分プライバシー (DP) やフェデレート学習 (FL) などのプライバシー機能と統合された文脈変換変換器 (BERT と RoBERTa) ベースのテキスト分類モデルを提案する。 本稿では,nlpモデルとプライバシ利用の望ましいトレードオフをプライベートにトレーニングし,金融フレーズバンクデータセットで評価する方法を提案する。

Privacy is important considering the financial Domain as such data is highly confidential and sensitive. Natural Language Processing (NLP) techniques can be applied for text classification and entity detection purposes in financial domains such as customer feedback sentiment analysis, invoice entity detection, categorisation of financial documents by type etc. Due to the sensitive nature of such data, privacy measures need to be taken for handling and training large models with such data. In this work, we propose a contextualized transformer (BERT and RoBERTa) based text classification model integrated with privacy features such as Differential Privacy (DP) and Federated Learning (FL). We present how to privately train NLP models and desirable privacy-utility tradeoffs and evaluate them on the Financial Phrase Bank dataset.
翻訳日:2021-10-07 02:59:24 公開日:2021-10-04
# (参考訳) HDR-cGAN:条件付きガンを用いた単一LDRからHDR画像への変換 [全文訳有]

HDR-cGAN: Single LDR to HDR Image Translation using Conditional GAN ( http://arxiv.org/abs/2110.01660v1 )

ライセンス: CC BY 4.0
Prarabdh Raipurkar, Rohil Pal and Shanmuganathan Raman(参考訳) デジタルイメージング技術の最大の目標は、シーンのリアルな外観を再現することである。 低ダイナミックレンジ(LDR)カメラは現実世界のシーンの広いダイナミックレンジを表現することができない。 撮影された画像は暗すぎる(露光)か明るい(露光)かのどちらかであることが判明した。 特に、過剰露出領域での飽和は、単一のldr画像からハイダイナミックレンジ(hdr)画像を再構成する作業に挑戦する。 本稿では,HDR画像の再構成を行いながら,飽和領域の詳細を復元する深層学習手法を提案する。 この問題をイメージ・ツー・イメージ(i2i)翻訳タスクとして定式化する。 この目的のために,HDR-REALおよびHDR-SYNTHデータセットに対して,エンドツーエンドでトレーニングされた新しい条件付きGAN(cGAN)ベースのフレームワークを提案する。 本フレームワークは,事前学習したセグメンテーションモデルから得られた過剰露出マスクを用いて,飽和領域に詳細を追加する幻覚作業を容易にする。 提案手法の有効性を, 現状のHDR再構成技術と比較し, 定量的, 質的な比較を行った。

The prime goal of digital imaging techniques is to reproduce the realistic appearance of a scene. Low Dynamic Range (LDR) cameras are incapable of representing the wide dynamic range of the real-world scene. The captured images turn out to be either too dark (underexposed) or too bright (overexposed). Specifically, saturation in overexposed regions makes the task of reconstructing a High Dynamic Range (HDR) image from single LDR image challenging. In this paper, we propose a deep learning based approach to recover details in the saturated areas while reconstructing the HDR image. We formulate this problem as an image-to-image (I2I) translation task. To this end, we present a novel conditional GAN (cGAN) based framework trained in an end-to-end fashion over the HDR-REAL and HDR-SYNTH datasets. Our framework uses an overexposed mask obtained from a pre-trained segmentation model to facilitate the hallucination task of adding details in the saturated regions. We demonstrate the effectiveness of the proposed method by performing an extensive quantitative and qualitative comparison with several state-of-the-art single-image HDR reconstruction techniques.
翻訳日:2021-10-07 02:51:25 公開日:2021-10-04
# (参考訳) リランニングOCR - 品質評価と改善予測のための機械学習アプローチ [全文訳有]

Rerunning OCR -- A Machine Learning Approach to Quality Assessment and Enhancement Prediction ( http://arxiv.org/abs/2110.01661v1 )

ライセンス: CC BY 4.0
Pit Schneider(参考訳) 新しい改善されたOCRソリューションの反復は、適切な再処理候補をターゲットとする決定を強制する。 これは特に、基礎となるデータ収集のサイズがかなり大きく、フォント、言語、出版期間、その結果ocr品質の観点からかなり多様である場合に適用される。 本稿はルクセンブルク国立図書館の取り組みを捉え、これらの決定を裏付けるものである。 計算オーバーヘッドの低減と品質劣化のリスクの低減と、より定量化されたOCRの改善を両立させるためには、これらが不可欠である。 特に本研究では,テキストブロックレベルの品質評価に関して,図書館の方法論を説明する。 この技術の延長として、新しいocrエンジンの拡張可能性を考慮した回帰モデルという形で、別の貢献がある。 どちらも、特に品質の低い歴史的データを扱う文化機関にとって有望なアプローチである。

Iterating with new and improved OCR solutions enforces decisions to be taken when it comes to targeting the right reprocessing candidates. This especially applies when the underlying data collection is of considerable size and rather diverse in terms of fonts, languages, periods of publication and consequently OCR quality. This article captures the efforts of the National Library of Luxembourg to support those exact decisions. They are crucial in order to guarantee low computational overhead and reduced quality degradation risks, combined with a more quantifiable OCR improvement. In particular, this work explains the methodology of the library with respect to text block level quality assessment. As an extension of this technique, another contribution comes in the form of a regression model that takes the enhancement potential of a new OCR engine into account. They both mark promising approaches, especially for cultural institutions dealing with historic data of lower quality.
翻訳日:2021-10-07 02:38:07 公開日:2021-10-04
# (参考訳) インテリジェントIoT環境における学習、コンピューティング、信頼性:パフォーマンス-エネルギートレードオフ

Learning, Computing, and Trustworthiness in Intelligent IoT Environments: Performance-Energy Tradeoffs ( http://arxiv.org/abs/2110.01686v1 )

ライセンス: CC BY 4.0
Beatriz Soret, Lam D. Nguyen, Jan Seeger, Arne Br\"oring, Chaouki Ben Issaid, Sumudu Samarakoon, Anis El Gabli, Vivek Kulkarni, Mehdi Bennis, and Petar Popovski(参考訳) Intelligent IoT Environment(iIoTe)は、半自律IoTアプリケーションを共同実行可能な異種デバイスで構成されている。 エネルギー効率は、電子トラクタ、ドローン、自動誘導車両(AGV)、ロボットなど、無線およびバッテリー駆動のデバイスで構成されるインフラに基づいているため、このようなエッジ環境では鍵となる。 総エネルギー消費量は、エッジコンピューティングとコミュニケーション、分散学習、分散台帳とスマートコントラクトを可能にする複数のiioteテクノロジから貢献を得ている。 本稿では,これらの技術の現状を概観し,その機能と性能,特にリソース,レイテンシ,プライバシ,エネルギー消費のトレードオフに注目した。 最後に、エネルギー効率の良いiIoTeにこれらの実現可能な技術を統合するためのビジョンと、オープンな研究課題に取り組むロードマップを提供する。

An Intelligent IoT Environment (iIoTe) is comprised of heterogeneous devices that can collaboratively execute semi-autonomous IoT applications, examples of which include highly automated manufacturing cells or autonomously interacting harvesting machines. Energy efficiency is key in such edge environments, since they are often based on an infrastructure that consists of wireless and battery-run devices, e.g., e-tractors, drones, Automated Guided Vehicle (AGV)s and robots. The total energy consumption draws contributions from multipleiIoTe technologies that enable edge computing and communication, distributed learning, as well as distributed ledgers and smart contracts. This paper provides a state-of-the-art overview of these technologies and illustrates their functionality and performance, with special attention to the tradeoff among resources, latency, privacy and energy consumption. Finally, the paper provides a vision for integrating these enabling technologies in energy-efficient iIoTe and a roadmap to address the open research challenges
翻訳日:2021-10-07 02:29:37 公開日:2021-10-04
# (参考訳) AI Chains: 大規模言語モデルの分岐による透明で制御可能な人間-AIインタラクション [全文訳有]

AI Chains: Transparent and Controllable Human-AI Interaction by Chaining Large Language Model Prompts ( http://arxiv.org/abs/2110.01691v1 )

ライセンス: CC BY 4.0
Tongshuang Wu, Michael Terry, Carrie J. Cai(参考訳) 大きな言語モデル(LLM)は、単純なタスクにおいて印象的なポテンシャルを示してきたが、その範囲の広さ、透明性の欠如、制御性の欠如により、より複雑なタスクで人間を支援する際には効果が低下する。 そこで我々は,次のステップの出力が次のステップの入力となり,ステップごとのゲインを集約するという,LLMステップの連鎖という概念を紹介した。 まず、連鎖構築に有用な一連のllmプリミティブオペレーションを定義し、次に、ユーザがそれらのチェーンを、中間の結果とともにモジュラーな方法で変更できるインタラクティブなシステムを示す。 20人のユーザスタディにおいて、チェインはタスクの結果の質を向上するだけでなく、システムの透明性、制御可能性、コラボレーションの感覚を大幅に向上させた。 サブタスクを利用してモデルの期待を調整し、並列的な下流効果を観察することで代替戦略を比較し、対比し、チェインの「単体テスト」サブコンポーネントによる予期せぬモデルの出力をデバッグする。 2つのケーススタディにおいて,LLMチェインが今後の応用にどのように使われるかをさらに検討する。

Although large language models (LLMs) have demonstrated impressive potential on simple tasks, their breadth of scope, lack of transparency, and insufficient controllability can make them less effective when assisting humans on more complex tasks. In response, we introduce the concept of Chaining LLM steps together, where the output of one step becomes the input for the next, thus aggregating the gains per step. We first define a set of LLM primitive operations useful for Chain construction, then present an interactive system where users can modify these Chains, along with their intermediate results, in a modular way. In a 20-person user study, we found that Chaining not only improved the quality of task outcomes, but also significantly enhanced system transparency, controllability, and sense of collaboration. Additionally, we saw that users developed new ways of interacting with LLMs through Chains: they leveraged sub-tasks to calibrate model expectations, compared and contrasted alternative strategies by observing parallel downstream effects, and debugged unexpected model outputs by "unit-testing" sub-components of a Chain. In two case studies, we further explore how LLM Chains may be used in future applications.
翻訳日:2021-10-07 02:28:36 公開日:2021-10-04
# (参考訳) ビーチに時計を置きましょう:画像キャプチャーにおける物体の幻覚を減らす [全文訳有]

Let there be a clock on the beach: Reducing Object Hallucination in Image Captioning ( http://arxiv.org/abs/2110.01705v1 )

ライセンス: CC BY 4.0
Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas(参考訳) 画像キャプションにおいて、存在しない、または存在しないオブジェクトで画像を記述することは、オブジェクトバイアス(hallucination)として知られている。 この行動は、人間には望ましいものではない最先端のキャプションモデルで非常に一般的である。 キャプションにおける物体の幻覚を低減するために,新たな訓練データやモデルサイズの増大を必要としない文に対する3つの簡易かつ効率的な訓練拡張法を提案する。 広範に分析した結果,提案手法は幻覚測定値に対するモデル対象バイアスを著しく低減できることがわかった。 さらに,本手法が視覚特性への依存性を減少させることを示す。 すべてのコード、構成ファイル、モデルの重み付けが公開されます。

Explaining an image with missing or non-existent objects is known as object bias (hallucination) in image captioning. This behaviour is quite common in the state-of-the-art captioning models which is not desirable by humans. To decrease the object hallucination in captioning, we propose three simple yet efficient training augmentation method for sentences which requires no new training data or increase in the model size. By extensive analysis, we show that the proposed methods can significantly diminish our models' object bias on hallucination metrics. Moreover, we experimentally demonstrate that our methods decrease the dependency on the visual features. All of our code, configuration files and model weights will be made public.
翻訳日:2021-10-07 01:49:59 公開日:2021-10-04
# (参考訳) 共同ファウンダーによる多視点オンラインレビューの効果:推定と含意 [全文訳有]

Effects of Multi-Aspect Online Reviews with Unobserved Confounders: Estimation and Implication ( http://arxiv.org/abs/2110.01746v1 )

ライセンス: CC BY 4.0
Lu Cheng, Ruocheng Guo, Kasim Selcuk Candan, Huan Liu(参考訳) オンラインレビューシステムは、多くの企業がブランドを構築し、メッセージを広めるための主要な手段だ。 オンラインレビューの効果を研究する以前の研究は、主に評価や感情スコアなど、単一の数値的な原因に焦点を当てていた。 単に単一の数値的原因の影響を考慮し、テキストレビューに埋め込まれた複数の側面(食物、サービスなど)の異なる効果を無視すること、観察研究において隠れた共同創設者がいないこと、例えば消費者の個人的嗜好を仮定すること、そして、テキスト的レビューがビジネス収益に与える影響をキャンセルする可能性のある数値的原因の間接的影響を無視することである。 隠れた共同設立者の存在下では、多面的なテキストレビュー、特にビジネス収益と数値的原因による直接的な影響(評価)が仲介者であることを考慮し、オンラインレビューの単一原因に基づく効果評価の代替的な視点を提案する。 機械学習と因果推論の最近の進歩に基づき、隠れた共同創設者と因果効果を一緒に見積もる。 本稿では,実例を用いた実証評価を行い,経営戦略における多面的効果の差別化の重要性と意義について論じる。

Online review systems are the primary means through which many businesses seek to build the brand and spread their messages. Prior research studying the effects of online reviews has been mainly focused on a single numerical cause, e.g., ratings or sentiment scores. We argue that such notions of causes entail three key limitations: they solely consider the effects of single numerical causes and ignore different effects of multiple aspects -- e.g., Food, Service -- embedded in the textual reviews; they assume the absence of hidden confounders in observational studies, e.g., consumers' personal preferences; and they overlook the indirect effects of numerical causes that can potentially cancel out the effect of textual reviews on business revenue. We thereby propose an alternative perspective to this single-cause-based effect estimation of online reviews: in the presence of hidden confounders, we consider multi-aspect textual reviews, particularly, their total effects on business revenue and direct effects with the numerical cause -- ratings -- being the mediator. We draw on recent advances in machine learning and causal inference to together estimate the hidden confounders and causal effects. We present empirical evaluations using real-world examples to discuss the importance and implications of differentiating the multi-aspect effects in strategizing business operations.
翻訳日:2021-10-07 01:36:29 公開日:2021-10-04
# 若年者・中高年者における眼バイオメトリックスの公平性の検討

Investigating Fairness of Ocular Biometrics Among Young, Middle-Aged, and Older Adults ( http://arxiv.org/abs/2110.01641v1 )

ライセンス: Link先を確認
Anoop Krishnan, Ali Almadan and Ajita Rattani(参考訳) いくつかの研究は、顔バイオメトリックス、すなわち、性別、人種、年齢グループにわたる顔認識とソフトバイオメトリック推定手法の偏りを示唆している。 公正で信頼できるバイオメトリックソリューションの展開に向けて、さまざまなバイオメトリックモダリティのバイアスを調査するという最近の取り組みがある。 眼バイオメトリックスは、高い精度、セキュリティ、プライバシ、およびモバイルデバイスでの使いやすさにより、学界や業界から注目を集めている。 2020ドルの最近の研究では、男性と女性間での眼ベースのユーザー認識の公平性も示唆された。 本研究の目的は,若年者,中高年者,高齢者の可視スペクトルにおける眼バイオメトリックスの公平性を評価することである。 大規模な2020 UFPRの生体計測データセットが利用可能になったことで、被験者は18歳から79歳で取得され、この研究を促進することができる。 実験の結果, 性別および年齢群間での眼バイオメトリックス全体の等価性が, ユーザ検証および性別分類において示唆された。 高齢者の誤マッチ率の低下と若年者におけるパフォーマンスの差は, ユーザ認証と年齢分類でそれぞれ報告された。 これは、特定のアプリケーションに影響を与えるこれらの年齢グループのバイオメトリックデータの固有の特性に起因しており、センサー技術とソフトウェアソリューションの進歩の必要性を示唆している。

A number of studies suggest bias of the face biometrics, i.e., face recognition and soft-biometric estimation methods, across gender, race, and age groups. There is a recent urge to investigate the bias of different biometric modalities toward the deployment of fair and trustworthy biometric solutions. Ocular biometrics has obtained increased attention from academia and industry due to its high accuracy, security, privacy, and ease of use in mobile devices. A recent study in $2020$ also suggested the fairness of ocular-based user recognition across males and females. This paper aims to evaluate the fairness of ocular biometrics in the visible spectrum among age groups; young, middle, and older adults. Thanks to the availability of the latest large-scale 2020 UFPR ocular biometric dataset, with subjects acquired in the age range 18 - 79 years, to facilitate this study. Experimental results suggest the overall equivalent performance of ocular biometrics across gender and age groups in user verification and gender classification. Performance difference for older adults at lower false match rate and young adults was noted at user verification and age classification, respectively. This could be attributed to inherent characteristics of the biometric data from these age groups impacting specific applications, which suggest a need for advancement in sensor technology and software solutions.
翻訳日:2021-10-06 14:27:33 公開日:2021-10-04
# AdjointBackMapV2: 随伴演算子による任意CNNユニットの活性化の精密再構築

AdjointBackMapV2: Precise Reconstruction of Arbitrary CNN Unit's Activation via Adjoint Operators ( http://arxiv.org/abs/2110.01736v1 )

ライセンス: Link先を確認
Qing Wan, Yoonsuck Choe(参考訳) 随伴演算子はcnnの内部動作の探索に有効であることが判明しています[1]。 しかし、以前の非バイアス仮定は一般化を制限した。 我々は,拡張入力空間の一部としてすべてのcnn層にバイアスを含む拡張ノルム空間に入力画像を埋め込むことにより制限を克服し,高レベル重みを拡張入力空間にマッピングして有効超曲面を再構築する随伴演算子ベースアルゴリズムを提案する。 このような超曲面は、cnn内の任意の単位に対して計算でき、この再構成された超曲面は、元の入力(内積を通して)に乗算すると、各単位の出力値を正確に再現することが証明される。 CIFAR-10データセットを用いて,提案手法が約0ドルの再構成誤差を達成できることを示す。

Adjoint operators have been found to be effective in the exploration of CNN's inner workings [1]. However, the previous no-bias assumption restricted its generalization. We overcome the restriction via embedding input images into an extended normed space that includes bias in all CNN layers as part of the extended input space and propose an adjoint-operator-bas ed algorithm that maps high-level weights back to the extended input space for reconstructing an effective hypersurface. Such hypersurface can be computed for an arbitrary unit in the CNN, and we prove that this reconstructed hypersurface, when multiplied by the original input (through an inner product), will precisely replicate the output value of each unit. We show experimental results based on the CIFAR-10 dataset that the proposed approach achieves near $0$ reconstruction error.
翻訳日:2021-10-06 14:27:13 公開日:2021-10-04
# ディープフェイス認識を用いたディープフェイク検出の実験的検討

An Experimental Evaluation on Deepfake Detection using Deep Face Recognition ( http://arxiv.org/abs/2110.01640v1 )

ライセンス: Link先を確認
Sreeraj Ramachandran, Aakash Varma Nadimpalli, Ajita Rattani(参考訳) ディープラーニングの顕著な進歩により、様々なコンピュータビジョン応用の目覚しい精度が得られた。 しかし、深層生成モデルの進歩は、ディープフェイク(deepfakes)として知られる非常に現実的な偽コンテンツを生み出し、プライバシー、民主主義、国家安全保障への脅威を引き起こしている。 現在のディープフェイク検出手法のほとんどは、2クラス畳み込みニューラルネットワーク(CNN)を用いた偽のイメージやビデオとを区別するバイナリ分類問題であると考えられている。 これらの手法は、深い生成モデルによって生成される視覚的アーティファクト、時間的または色的不整合を検出することに基づいている。 しかし、これらの手法はモデルトレーニングに大量の実データと偽データを必要とし、その性能低下は高度なディープフェイク生成技術を用いて生成されたサンプルを用いたクロスデータセット評価において顕著である。 本稿では,異なる損失関数とディープフェイク生成技術を用いて,ディープフェイク識別におけるディープフェイク認識の有効性を徹底的に評価する。 celeb-dfとfaceforensics++のdeepfakeデータセットへの挑戦に関する実験的研究は、2つのクラスcnnと眼のモダリティに対するディープフェイク同定におけるディープフェイク認識の有効性を示唆している。 以上の結果から,celeb-dfデータセット上での顔認識を用いたディープフェイク検出において,曲線下最大面積は0.08 %,誤り率(eer)は7.1%であった。 このEERは、2クラスCNNで得られたEERとCeleb-DFデータセットで得られた眼のモダリティと比較して16.6%低い。 さらにFaceForensics++データセットでは、AUCの0.99とEERの2.04%が得られた。 生体認証技術の使用は、モデルトレーニングのための大量の偽データの必要性を回避し、ディープフェイク生成技術の発展により良い一般化性を得るという利点がある。

Significant advances in deep learning have obtained hallmark accuracy rates for various computer vision applications. However, advances in deep generative models have also led to the generation of very realistic fake content, also known as deepfakes, causing a threat to privacy, democracy, and national security. Most of the current deepfake detection methods are deemed as a binary classification problem in distinguishing authentic images or videos from fake ones using two-class convolutional neural networks (CNNs). These methods are based on detecting visual artifacts, temporal or color inconsistencies produced by deep generative models. However, these methods require a large amount of real and fake data for model training and their performance drops significantly in cross dataset evaluation with samples generated using advanced deepfake generation techniques. In this paper, we thoroughly evaluate the efficacy of deep face recognition in identifying deepfakes, using different loss functions and deepfake generation techniques. Experimental investigations on challenging Celeb-DF and FaceForensics++ deepfake datasets suggest the efficacy of deep face recognition in identifying deepfakes over two-class CNNs and the ocular modality. Reported results suggest a maximum Area Under Curve (AUC) of 0.98 and an Equal Error Rate (EER) of 7.1% in detecting deepfakes using face recognition on the Celeb-DF dataset. This EER is lower by 16.6% compared to the EER obtained for the two-class CNN and the ocular modality on the Celeb-DF dataset. Further on the FaceForensics++ dataset, an AUC of 0.99 and EER of 2.04% were obtained. The use of biometric facial recognition technology has the advantage of bypassing the need for a large amount of fake data for model training and obtaining better generalizability to evolving deepfake creation techniques.
翻訳日:2021-10-06 14:26:33 公開日:2021-10-04
# ショートカットとショートリストのフルフィルメント決定の学習

Learning to shortcut and shortlist order fulfillment deciding ( http://arxiv.org/abs/2110.01668v1 )

ライセンス: Link先を確認
Brian Quanz, Ajay Deshpande, Dahai Xing, Xuan Liu(参考訳) 注文充足オプションの増加と決定プロセスで考慮されたビジネス目標により、注文充足決定はますます複雑になりつつある。 例えば、小売店からの出荷が出現したことにより、さらに多くのフルフィルメントノードが検討され、フルフィルメント決定を行う上で、さまざまなビジネス目標を考慮することが一般的になった。 複雑さが増すにつれ、決定プロセスの効率性は真の関心事となりうる。 全ての可能なものの中で最適な充足の割り当てを見つけるのは、特にピーク時に全ての順序で行うのにコストがかかりすぎる可能性がある。 本研究は, 充足決定プロセスにおける規則性を活用した意思決定システムの負担軽減の可能性を探るものである。 データマイニングを使用することで、過去の満足度決定のパターンを見つけ、将来の決定に対する最も可能性の高い課題を効率的に予測することを目指している。 本質的に、高い信頼性で予測可能な割り当ては、コストのかかる決定プロセスをショートカットしたりバイパスしたり、あるいは最も可能性の高い割り当てのセットをショートリストとして使用することができます。

With the increase of order fulfillment options and business objectives taken into consideration in the deciding process, order fulfillment deciding is becoming more and more complex. For example, with the advent of ship from store retailers now have many more fulfillment nodes to consider, and it is now common to take into account many and varied business goals in making fulfillment decisions. With increasing complexity, efficiency of the deciding process can become a real concern. Finding the optimal fulfillment assignments among all possible ones may be too costly to do for every order especially during peak times. In this work, we explore the possibility of exploiting regularity in the fulfillment decision process to reduce the burden on the deciding system. By using data mining we aim to find patterns in past fulfillment decisions that can be used to efficiently predict most likely assignments for future decisions. Essentially, those assignments that can be predicted with high confidence can be used to shortcut, or bypass, the expensive deciding process, or else a set of most likely assignments can be used for shortlisting -- sending a much smaller set of candidates for consideration by the fulfillment deciding system.
翻訳日:2021-10-06 14:23:54 公開日:2021-10-04
# 製品配置グラフ補完のための帰納学習

Inductive learning for product assortment graph completion ( http://arxiv.org/abs/2110.01677v1 )

ライセンス: Link先を確認
Haris Dukic, Georgios Deligiorgis, Pierpaolo Sepe, Davide Bacciu, Marco Trincavelli(参考訳) グローバル小売業者は、スタイルの互換性、"Bought together"、"Bought together"、"watched together"など、さまざまな種類の関係によってリンク可能な、何十万もの製品を含んでいる。 グラフはアソシエーションの自然な表現であり、製品はノード、関係はエッジである。 スタイル互換性のような関係はしばしば手動プロセスによって生成されるため、グラフ全体を一様にカバーしない。 本稿では,インダクティブ学習を用いて,テキスト記述と視覚データからなるリッチなノード情報を活用することにより,ファッションのスタイル互換性を高めることを提案する。 次に,提案するグラフ拡張が,グラフスパーシティに小さな影響を与えながら,トランスダクティブタスクの性能を大幅に向上させることを示す。

Global retailers have assortments that contain hundreds of thousands of products that can be linked by several types of relationships like style compatibility, "bought together", "watched together", etc. Graphs are a natural representation for assortments, where products are nodes and relations are edges. Relations like style compatibility are often produced by a manual process and therefore do not cover uniformly the whole graph. We propose to use inductive learning to enhance a graph encoding style compatibility of a fashion assortment, leveraging rich node information comprising textual descriptions and visual data. Then, we show how the proposed graph enhancement improves substantially the performance on transductive tasks with a minor impact on graph sparsity.
翻訳日:2021-10-06 14:23:35 公開日:2021-10-04
# 因果ネットワークの協調による潜在的結果分布の推定

Estimating Potential Outcome Distributions with Collaborating Causal Networks ( http://arxiv.org/abs/2110.01664v1 )

ライセンス: Link先を確認
Tianhui Zhou, David Carlson(参考訳) 多くの因果推論アプローチは、潜在的治療による個人の結果の変化、または個々の治療効果(ITE)を観察研究から特定することに焦点を当てている。 ITEを推定するだけでなく、完全な潜在的な結果分布を推定するために、CCN(Collaborating Causal Networks)を提案する。 この修正は、各治療の有用性を推定し、ユーティリティ機能の個々のバリエーション(例えば、リスク耐性の変動)を可能にする。 標準因果推論仮定の下で,ccnは漸近的に正しい結果分布を捉える分布を学習する。 さらに,観察研究における治療群間の試料不均衡の緩和に実証的に有効な新しい調整手法を開発した。 大規模な実験実験によりCCNを評価し,既存のベイジアン・ジェネレーティブ・ディバイサル・ネットワーク・ベース手法と比較して,分布推定の改善を実証した。 さらに、CCNは様々なユーティリティ機能に関する決定を経験的に改善する。

Many causal inference approaches have focused on identifying an individual's outcome change due to a potential treatment, or the individual treatment effect (ITE), from observational studies. Rather than only estimating the ITE, we propose Collaborating Causal Networks (CCN) to estimate the full potential outcome distributions. This modification facilitates estimating the utility of each treatment and allows for individual variation in utility functions (e.g., variability in risk tolerance). We show that CCN learns distributions that asymptotically capture the correct potential outcome distributions under standard causal inference assumptions. Furthermore, we develop a new adjustment approach that is empirically effective in alleviating sample imbalance between treatment groups in observational studies. We evaluate CCN by extensive empirical experiments and demonstrate improved distribution estimates compared to existing Bayesian and Generative Adversarial Network-based methods. Additionally, CCN empirically improves decisions over a variety of utility functions.
翻訳日:2021-10-06 14:22:54 公開日:2021-10-04
# 確率関数解析とロバスト機械学習への応用

Stochastic functional analysis with applications to robust machine learning ( http://arxiv.org/abs/2110.01729v1 )

ライセンス: Link先を確認
Julio Enrique Castrillon-Candas, Dingning Liu, Mark Kon(参考訳) 機械学習のプロトコルは通常、特徴ベクトルと関連するデータの確率分布に関する情報を過小に活用し、代わりに特徴ベクトルの回帰関数や分類関数を直接計算する。 本稿では,カルフネン-lo\'{e}ve (kl) 展開を用いて入力データの確率的挙動を同定する新しい特徴について紹介する。 これらの特徴は、異常検出のための最近の機能データ分析(FDA)理論から構築されている。 関連する信号分解は、有限次元函数空間を持つ確率過程(ランダム場)を近似するための既知の最適性を持つ正確な階層的テンソル積展開である。 原則として、これらの主低次元空間は与えられた名目クラスにおける'アンダーライジング信号'の確率的挙動のほとんどを捉え、確率的異常として代替クラスにおける信号を削除することができる。 名目クラスの階層的有限次元KL展開を用いて、異常信号成分を検出するために一連の直交ネスト付き部分空間を構築する。 これらの部分空間における入力データの投影係数はML分類器の訓練に使用される。 しかし、信号が名目および異常な射影成分に分割されるため、クラスのより明確な分離面が生じる。 実際、名目クラスの共分散構造を十分に正確に推定することで、鋭い分類が得られることを示す。 私たちはこの概念を慎重に定式化し、がん診断の多くの高次元データセットで示します。 この方法では,GCM(Global Cancer Map)遺伝子発現ネットワークデータセットの現在のトップベンチマークよりも精度と精度が大幅に向上する。

It is well-known that machine learning protocols typically under-utilize information on the probability distributions of feature vectors and related data, and instead directly compute regression or classification functions of feature vectors. In this paper we introduce a set of novel features for identifying underlying stochastic behavior of input data using the Karhunen-Lo\'{e}ve (KL) expansion, where classification is treated as detection of anomalies from a (nominal) signal class. These features are constructed from the recent Functional Data Analysis (FDA) theory for anomaly detection. The related signal decomposition is an exact hierarchical tensor product expansion with known optimality properties for approximating stochastic processes (random fields) with finite dimensional function spaces. In principle these primary low dimensional spaces can capture most of the stochastic behavior of `underlying signals' in a given nominal class, and can reject signals in alternative classes as stochastic anomalies. Using a hierarchical finite dimensional KL expansion of the nominal class, a series of orthogonal nested subspaces is constructed for detecting anomalous signal components. Projection coefficients of input data in these subspaces are then used to train an ML classifier. However, due to the split of the signal into nominal and anomalous projection components, clearer separation surfaces of the classes arise. In fact we show that with a sufficiently accurate estimation of the covariance structure of the nominal class, a sharp classification can be obtained. We carefully formulate this concept and demonstrate it on a number of high-dimensional datasets in cancer diagnostics. This method leads to a significant increase in precision and accuracy over the current top benchmarks for the Global Cancer Map (GCM) gene expression network dataset.
翻訳日:2021-10-06 14:22:40 公開日:2021-10-04
# 知識グラフを用いたニューロシンボリック推論のためのエネルギーモデル

An energy-based model for neuro-symbolic reasoning on knowledge graphs ( http://arxiv.org/abs/2110.01639v1 )

ライセンス: Link先を確認
Dominik Dold, Josep Soler Garrido(参考訳) グラフ構造化データの機械学習は、最近、産業や研究において主要なトピックとなり、レコメンダシステムや自動定理証明など多くのエキサイティングな応用を見出した。 本稿では,産業オートメーション,コミュニケーション,サイバーセキュリティといったさまざまな分野の知識を統合し,産業オートメーションシステムを特徴付けるエネルギーベースのグラフ埋め込みアルゴリズムを提案する。 学習モデルは、複数のドメインからの知識を組み合わせることで、新しいシステムイベントに関するコンテキスト認識予測を行うことができ、例えばサイバーセキュリティ違反を示す可能性のある異常の深刻さを評価するのに使用できる。 提示されたモデルは、生物学的にインスパイアされたニューラルアーキテクチャにマップ可能であり、グラフ埋め込みメソッドとニューロモルフィックコンピューティングの間の最初のブリッジとして機能する。

Machine learning on graph-structured data has recently become a major topic in industry and research, finding many exciting applications such as recommender systems and automated theorem proving. We propose an energy-based graph embedding algorithm to characterize industrial automation systems, integrating knowledge from different domains like industrial automation, communications and cybersecurity. By combining knowledge from multiple domains, the learned model is capable of making context-aware predictions regarding novel system events and can be used to evaluate the severity of anomalies that might be indicative of, e.g., cybersecurity breaches. The presented model is mappable to a biologically-inspire d neural architecture, serving as a first bridge between graph embedding methods and neuromorphic computing - uncovering a promising edge application for this upcoming technology.
翻訳日:2021-10-06 14:19:59 公開日:2021-10-04
# ディープオペレータネットワークのためのアーキテクチャとトレーニングアルゴリズムの改良

Improved architectures and training algorithms for deep operator networks ( http://arxiv.org/abs/2110.01654v1 )

ライセンス: Link先を確認
Sifan Wang, Hanwen Wang, Paris Perdikaris(参考訳) 演算子学習技術は,無限次元バナッハ空間間の写像を学習するための強力なツールとして最近登場した。 適切な制約の下で訓練され、偏微分方程式(pdes)の解作用素を完全に自己教師付きで学習するのに有効である。 本研究では,ニューラル・タンジェント・カーネル(ntk)理論のレンズを通して,ディープ・オペレータ・ネットワーク(deeponets)のトレーニングダイナミクスを分析し,大きな大きさの関数の近似を好むバイアスを明らかにする。 このバイアスを正すために,各トレーニング例の重要性を適応的に再重み付けし,勾配降下によるトレーニング中のバックプロパゲーション勾配の大きさを効果的にバランスさせる方法を提案する。 また,勾配病理の消失に対してよりレジリエントな新しいネットワークアーキテクチャを提案する。 本研究は、DeepONetsのトレーニングに関する新たな知見を提供し、10~50倍の精度で予測精度を継続的に向上させ、ペア・インプット・アウトプットの観測が欠如しているPDEソリューション演算子を学習することの難しさを実証した。 この原稿に付随するコードとデータは、 \url{https://github.com/P redictiveIntelligenc eLab/ImprovedDeepONe tsで公開されている。 }

Operator learning techniques have recently emerged as a powerful tool for learning maps between infinite-dimensional Banach spaces. Trained under appropriate constraints, they can also be effective in learning the solution operator of partial differential equations (PDEs) in an entirely self-supervised manner. In this work we analyze the training dynamics of deep operator networks (DeepONets) through the lens of Neural Tangent Kernel (NTK) theory, and reveal a bias that favors the approximation of functions with larger magnitudes. To correct this bias we propose to adaptively re-weight the importance of each training example, and demonstrate how this procedure can effectively balance the magnitude of back-propagated gradients during training via gradient descent. We also propose a novel network architecture that is more resilient to vanishing gradient pathologies. Taken together, our developments provide new insights into the training of DeepONets and consistently improve their predictive accuracy by a factor of 10-50x, demonstrated in the challenging setting of learning PDE solution operators in the absence of paired input-output observations. All code and data accompanying this manuscript are publicly available at \url{https://github.com/P redictiveIntelligenc eLab/ImprovedDeepONe ts.}
翻訳日:2021-10-06 14:17:00 公開日:2021-10-04
# グラフ表現学習による無線リンクスケジューリング:異なるスーパービジョンレベルの比較検討

Wireless Link Scheduling via Graph Representation Learning: A Comparative Study of Different Supervision Levels ( http://arxiv.org/abs/2110.01722v1 )

ライセンス: Link先を確認
Navid Naderializadeh(参考訳) 我々は,グラフ表現学習を用いて電力制御ポリシーを訓練する無線干渉ネットワークにおいて,バイナリ電力制御やリンクスケジューリングの問題を考える。 我々は、無線ネットワークの干渉グラフをグラフニューラルネットワーク(GNN)バックボーンの基盤トポロジーとして利用し、チャネル行列を送信者-受信者対すべてに対するノード埋め込みの集合に変換する。 ノードの埋め込みは,教師なし,教師なし,自己教師付き学習など,様々な方法で訓練できることを示すとともに,システムレベルのスループット,収束挙動,サンプル効率,一般化能力の観点から,これらの手法の性能に対する,さまざまな監督レベルの影響を比較する。

We consider the problem of binary power control, or link scheduling, in wireless interference networks, where the power control policy is trained using graph representation learning. We leverage the interference graph of the wireless network as an underlying topology for a graph neural network (GNN) backbone, which converts the channel matrix to a set of node embeddings for all transmitter-receiver pairs. We show how the node embeddings can be trained in several ways, including via supervised, unsupervised, and self-supervised learning, and we compare the impact of different supervision levels on the performance of these methods in terms of the system-level throughput, convergence behavior, sample efficiency, and generalization capability.
翻訳日:2021-10-06 14:16:37 公開日:2021-10-04
# ビデオオブジェクト分割のためのPixel-Level Bijective Matching

Pixel-Level Bijective Matching for Video Object Segmentation ( http://arxiv.org/abs/2110.01644v1 )

ライセンス: Link先を確認
Suhwan Cho, Heansung Lee, Minjung Kim, Sungjun Jang, Sangyoun Lee(参考訳) 半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオの初期フレームに存在する指定されたオブジェクトをピクセルレベルで追跡することを目的としている。 オブジェクトの外観情報をフル活用するために、VOSでは画素レベルの特徴マッチングが広く使われている。 従来の特徴マッチングは、探索的な方法で実行され、すなわち、クエリフレームから参照フレームへのベストマッチのみが考慮される。 クエリフレーム内の各位置は、参照フレーム内の各参照フレーム位置の頻度にかかわらず、参照フレーム内の最適な位置を参照する。 これはほとんどのケースでうまく動作し、迅速な外観変化に対して堅牢であるが、クエリフレームがターゲットオブジェクトに類似したバックグラウンドの邪魔者を含む場合、重大なエラーを引き起こす可能性がある。 この問題を緩和するために,クエリフレームから参照フレームへのベストマッチを見つけるためのビジェクティブマッチング機構を導入し,その逆も提案する。 クエリフレーム画素の最適なマッチングを見つける前に、まず、参照フレーム画素の最適なマッチングが、各参照フレーム画素が過度に参照されないように考慮される。 このメカニズムは厳格に動作し、つまりピクセルが互いに確実に一致している場合にのみ接続されるため、背景の邪魔を効果的に排除することができる。 さらに,既存のマスク伝搬法を改善するために,マスク埋め込みモジュールを提案する。 複数の履歴マスクを座標情報に埋め込むことで、対象物の位置情報を効果的に捕捉することができる。

Semi-supervised video object segmentation (VOS) aims to track the designated objects present in the initial frame of a video at the pixel level. To fully exploit the appearance information of an object, pixel-level feature matching is widely used in VOS. Conventional feature matching runs in a surjective manner, i.e., only the best matches from the query frame to the reference frame are considered. Each location in the query frame refers to the optimal location in the reference frame regardless of how often each reference frame location is referenced. This works well in most cases and is robust against rapid appearance variations, but may cause critical errors when the query frame contains background distractors that look similar to the target object. To mitigate this concern, we introduce a bijective matching mechanism to find the best matches from the query frame to the reference frame and vice versa. Before finding the best matches for the query frame pixels, the optimal matches for the reference frame pixels are first considered to prevent each reference frame pixel from being overly referenced. As this mechanism operates in a strict manner, i.e., pixels are connected if and only if they are the sure matches for each other, it can effectively eliminate background distractors. In addition, we propose a mask embedding module to improve the existing mask propagation method. By embedding multiple historic masks with coordinate information, it can effectively capture the position information of a target object.
翻訳日:2021-10-06 14:12:46 公開日:2021-10-04
# カメラベースクリティカルアプリケーションにおけるプライバシー保護のためのディープラーニングアプローチ

Deep Learning Approach Protecting Privacy in Camera-Based Critical Applications ( http://arxiv.org/abs/2110.01676v1 )

ライセンス: Link先を確認
Gautham Ramajayam, Tao Sun, Chiu C. Tan, Lannan Luo, Haibin Ling(参考訳) 多くの重要な応用は、分析目的の映像を撮影するためにカメラに依存している。 これは、これらのカメラが誤って必要以上に多くの情報を捉えているという懸念につながった。 本稿では,カメラシステムにおけるプライバシー保護のための深層学習手法を提案する。 特定のオブジェクト(例えば顔)を特定することがプライバシーに敏感である代わりに、我々の手法は、アプリケーションで必要とされない直感に基づいて、健全な(視覚的に顕著な)オブジェクトと非塩分オブジェクトを区別する。

Many critical applications rely on cameras to capture video footage for analytical purposes. This has led to concerns about these cameras accidentally capturing more information than is necessary. In this paper, we propose a deep learning approach towards protecting privacy in camera-based systems. Instead of specifying specific objects (e.g. faces) are privacy sensitive, our technique distinguishes between salient (visually prominent) and non-salient objects based on the intuition that the latter is unlikely to be needed by the application.
翻訳日:2021-10-06 14:12:25 公開日:2021-10-04
# エゴセントリックカメラとIMUセンサーを用いた自己教師型ビデオ表現学習

How You Move Your Head Tells What You Do: Self-supervised Video Representation Learning with Egocentric Cameras and IMU Sensors ( http://arxiv.org/abs/2110.01680v1 )

ライセンス: Link先を確認
Satoshi Tsutsui, Ruta Desai, Karl Ridgeway(参考訳) ヘッドマウントカメラからユーザのアクティビティを理解することは、拡張現実(AR/VR)アプリケーションの基本課題である。 典型的なアプローチは、人間がラベル付けしたデータを使って分類器を教師付きで訓練することである。 このアプローチには、高価なアノテーションコストとアクティビティラベルのクローズドカバレッジによる制限がある。 これらの制限に対処する潜在的な方法は、自己教師付き学習(SSL)を使用することである。 SSLは人間のアノテーションに頼る代わりに、データ固有の特性を活用して表現を学習する。 我々は,AR/VRデバイスに埋め込まれたIMUセンサから容易に得ることができる,ユーザの日常活動によって生じる頭の動きから得られるエゴセントリックな映像表現の学習に興味を持っている。 そこで本研究では,ビデオクリップとヘッドモーションのペアを学習することで,映像表現を学習するための単純かつ効果的な手法を提案する。 人や犬の自我中心的な活動を認識するための学習表現の有効性を実証する。

Understanding users' activities from head-mounted cameras is a fundamental task for Augmented and Virtual Reality (AR/VR) applications. A typical approach is to train a classifier in a supervised manner using data labeled by humans. This approach has limitations due to the expensive annotation cost and the closed coverage of activity labels. A potential way to address these limitations is to use self-supervised learning (SSL). Instead of relying on human annotations, SSL leverages intrinsic properties of data to learn representations. We are particularly interested in learning egocentric video representations benefiting from the head-motion generated by users' daily activities, which can be easily obtained from IMU sensors embedded in AR/VR devices. Towards this goal, we propose a simple but effective approach to learn video representation by learning to tell the corresponding pairs of video clip and head-motion. We demonstrate the effectiveness of our learned representation for recognizing egocentric activities of people and dogs.
翻訳日:2021-10-06 14:12:16 公開日:2021-10-04
# 限定訓練データからのロバスト線形分類

Robust Linear Classification from Limited Training Data ( http://arxiv.org/abs/2110.01648v1 )

ライセンス: Link先を確認
Deepayan Chakrabarti(参考訳) 制限データ設定における一般損失関数の下での線形分類の問題を考える。 オーバーフィッティングは一般的な問題です。 オーバーフィッティングを防ぐための標準的なアプローチは次元減少と正規化である。 しかし、次元の減少は情報を失う一方、正規化では、ユーザーはノルム、前者、距離メートル法を選択する必要がある。 ユーザ選択を必要とせず,多数の損失関数に適用可能なアルゴリズムRoLinを提案する。 RoLinは、主要なコンポーネントから信頼できる情報と堅牢な最適化を組み合わせて、信頼できない部分空間から有用な情報を抽出する。 また、リミテッドデータ設定で既存のクロスバリデーションメソッドよりも優れた、新しいロバストなクロスバリデーションも含まれている。 実世界のデータセット25ドルと3つの標準損失関数の実験は、RoLinが次元の縮小と正規化の両方に大きく勝っていることを示している。 次元の減少はRoLinと比較して平均して14\%-40\%$悪いテスト損失である。 l_1$と$l_2$正規化に対して、rolinはロジスティック損失の最大3倍、二乗ヒンジ損失の12倍も良い。 RoLinは競合するメソッドよりも2倍から3倍多くのデータセットで最大の損失を達成している。 一部のデータセットでは、15ドルのトレーニングサンプルを持つRoLinは、1500ドルのサンプルを持つ最高の標準ベースの正規化よりも優れている。

We consider the problem of linear classification under general loss functions in the limited-data setting. Overfitting is a common problem here. The standard approaches to prevent overfitting are dimensionality reduction and regularization. But dimensionality reduction loses information, while regularization requires the user to choose a norm, or a prior, or a distance metric. We propose an algorithm called RoLin that needs no user choice and applies to a large class of loss functions. RoLin combines reliable information from the top principal components with a robust optimization to extract any useful information from unreliable subspaces. It also includes a new robust cross-validation that is better than existing cross-validation methods in the limited-data setting. Experiments on $25$ real-world datasets and three standard loss functions show that RoLin broadly outperforms both dimensionality reduction and regularization. Dimensionality reduction has $14\%-40\%$ worse test loss on average as compared to RoLin. Against $L_1$ and $L_2$ regularization, RoLin can be up to 3x better for logistic loss and 12x better for squared hinge loss. The differences are greatest for small sample sizes, where RoLin achieves the best loss on 2x to 3x more datasets than any competing method. For some datasets, RoLin with $15$ training samples is better than the best norm-based regularization with $1500$ samples.
翻訳日:2021-10-06 14:08:36 公開日:2021-10-04
# 燃焼不安定モニタリングのためのクロスモーダル仮想センシング

Cross-Modal Virtual Sensing for Combustion Instability Monitoring ( http://arxiv.org/abs/2110.01659v1 )

ライセンス: Link先を確認
Tryambak Gangopadhyay, Vikram Ramanan, Satyanarayanan R Chakravarthy, Soumik Sarkar(参考訳) 多くのサイバー物理システムでは、イメージングは重要だが費用がかかるか、感覚のモダリティの展開が困難である。 そのような例として、深層学習フレームワークが最先端の性能を実証した火炎画像による燃焼不安定の検出がある。 提案されたフレームワークは、ドメインの専門家がこれらのモデルを実際のシステムで使用して、望ましくないインシデントを防ぐために十分な信頼を得られるように、非常に信頼できる。 しかし、現在のエンジン燃焼器では、火炎画像は一般的な感知モダリティではない。 したがって、現在の道路ブロックは、高体積火炎画像の取得と処理に関してハードウェア側に存在する。 一方, 実燃焼器のデータ収集において, 音圧時系列はより実現可能なモダリティである。 音響時系列をセンシングモダリティとして利用するために,燃焼系における音響圧時系列からクロスモーダルな視覚特徴を再構築できる新しいクロスモーダルエンコーダ・デコーダアーキテクチャを提案する。 クロスモーダルな特徴の「蒸留」により,仮想的な視覚知覚モータリティを用いて検出精度を向上できることを示した。 クロスモーダルな再構築の利点を生かして、当社の枠組みは、発電・輸送産業を超えた分野において有用であることが証明できる。

In many cyber-physical systems, imaging can be an important but expensive or 'difficult to deploy' sensing modality. One such example is detecting combustion instability using flame images, where deep learning frameworks have demonstrated state-of-the-art performance. The proposed frameworks are also shown to be quite trustworthy such that domain experts can have sufficient confidence to use these models in real systems to prevent unwanted incidents. However, flame imaging is not a common sensing modality in engine combustors today. Therefore, the current roadblock exists on the hardware side regarding the acquisition and processing of high-volume flame images. On the other hand, the acoustic pressure time series is a more feasible modality for data collection in real combustors. To utilize acoustic time series as a sensing modality, we propose a novel cross-modal encoder-decoder architecture that can reconstruct cross-modal visual features from acoustic pressure time series in combustion systems. With the "distillation" of cross-modal features, the results demonstrate that the detection accuracy can be enhanced using the virtual visual sensing modality. By providing the benefit of cross-modal reconstruction, our framework can prove to be useful in different domains well beyond the power generation and transportation industries.
翻訳日:2021-10-06 14:08:14 公開日:2021-10-04
# トレースレス遺伝的プログラミングを用いた均等問題の解法

Solving even-parity problems using traceless genetic programming ( http://arxiv.org/abs/2110.02014v1 )

ライセンス: Link先を確認
Mihai Oltean(参考訳) 本稿では,tgp(traceless genetic programming)と呼ばれる遺伝的プログラミング(gp)の変種を提案する。 TGPは個人を構築する技術と個人を表現する技術を組み合わせたハイブリッド手法である。 TGPと他のGP技術の主な違いは、TGPが進化したコンピュータプログラムを明示的に記憶していないことである。 TGPと組み合わせて2つの遺伝子操作子(クロスオーバーと挿入)が使用される。 tgpは均等性問題に対するデジタル回路の進化に適用される。 数値実験により、TGPは数桁のオーダーで標準GPより優れていることが示された。

A genetic programming (GP) variant called traceless genetic programming (TGP) is proposed in this paper. TGP is a hybrid method combining a technique for building individuals and a technique for representing individuals. The main difference between TGP and other GP techniques is that TGP does not explicitly store the evolved computer programs. Two genetic operators are used in conjunction with TGP: crossover and insertion. TGP is applied for evolving digital circuits for the even-parity problem. Numerical experiments show that TGP outperforms standard GP with several orders of magnitude.
翻訳日:2021-10-06 14:05:37 公開日:2021-10-04
# VTAMIQ: 注意変調画像品質評価用変換器

VTAMIQ: Transformers for Attention Modulated Image Quality Assessment ( http://arxiv.org/abs/2110.01655v1 )

ライセンス: Link先を確認
Andrei Chubarau, James Clark(参考訳) 画像解析における自己注意とトランスフォーマーの大きな成功に続いて、画像品質評価(iqa)の文脈における注意機構の利用を調査し、注意変調画像品質のための視覚トランスフォーマ(vtamiq)を提案する。 提案手法は既存のIQAデータセット上での競合性や最先端性能を実現し,データベース間評価において従来の指標よりも大幅に優れていた。 ほとんどのパッチワイドIQAメソッドは各パッチを個別に扱うが、これは部分的にグローバル情報を破棄し、長距離通信をモデル化する能力を制限する。 我々は、パッチのシーケンスを単一のグローバル表現としてエンコードするトランスフォーマーを用いて、パッチ間の相互依存性を設計することで、この問題を完全に回避する。 まずはトランスフォーマー内での自己注意、次に差分変調ネットワーク内でのチャネルの注意、特にアーキテクチャ全体のより健全な機能を明らかにするために、様々な注意機構に依存しています。 分類とiqaタスクの両方の大規模事前トレーニングにより、vtamiqは目に見えない画像と歪みのセットにうまく一般化し、さらに視覚モデリングのためのトランスフォーマーベースのネットワークの強みを実証する。

Following the major successes of self-attention and Transformers for image analysis, we investigate the use of such attention mechanisms in the context of Image Quality Assessment (IQA) and propose a novel full-reference IQA method, Vision Transformer for Attention Modulated Image Quality (VTAMIQ). Our method achieves competitive or state-of-the-art performance on the existing IQA datasets and significantly outperforms previous metrics in cross-database evaluations. Most patch-wise IQA methods treat each patch independently; this partially discards global information and limits the ability to model long-distance interactions. We avoid this problem altogether by employing a transformer to encode a sequence of patches as a single global representation, which by design considers interdependencies between patches. We rely on various attention mechanisms -- first with self-attention within the Transformer, and second with channel attention within our difference modulation network -- specifically to reveal and enhance the more salient features throughout our architecture. With large-scale pre-training for both classification and IQA tasks, VTAMIQ generalizes well to unseen sets of images and distortions, further demonstrating the strength of transformer-based networks for vision modelling.
翻訳日:2021-10-06 14:04:21 公開日:2021-10-04
# 確率勾配降下のグローバル収束と安定性

Global Convergence and Stability of Stochastic Gradient Descent ( http://arxiv.org/abs/2110.01663v1 )

ライセンス: Link先を確認
Vivak Patel, Bowen Tian, Shushu Zhang(参考訳) 機械学習において、確率勾配降下(SGD)は、同じ複雑なノイズモデルを持つ高い非凸目標を用いてモデルを訓練するために広く展開される。 残念なことに、SGD理論は実問題の非凸性を捉えることができず、実際に存在する複雑なノイズモデルをほとんど完全に無視する制限的な仮定をしばしば行う。 この作業では、この欠点に対して実質的な進歩を遂げます。 まず、SGDのイテレートが世界中に定常点に収束するか、ほぼ任意の非凸性およびノイズモデルの下で分岐することを示す。 文献中の現在の仮定を一般化する非凸性および雑音モデルの結合挙動に関するもう少し制限的な仮定の下では、反復が分岐しても目的関数が分岐できないことを示す。 その結果,sgdはより広い範囲の確率的最適化問題に適用でき,大域収束挙動と安定性に自信を持つことができた。

In machine learning, stochastic gradient descent (SGD) is widely deployed to train models using highly non-convex objectives with equally complex noise models. Unfortunately, SGD theory often makes restrictive assumptions that fail to capture the non-convexity of real problems, and almost entirely ignore the complex noise models that exist in practice. In this work, we make substantial progress on this shortcoming. First, we establish that SGD's iterates will either globally converge to a stationary point or diverge under nearly arbitrary nonconvexity and noise models. Under a slightly more restrictive assumption on the joint behavior of the non-convexity and noise model that generalizes current assumptions in the literature, we show that the objective function cannot diverge, even if the iterates diverge. As a consequence of our results, SGD can be applied to a greater range of stochastic optimization problems with confidence about its global convergence behavior and stability.
翻訳日:2021-10-06 14:00:55 公開日:2021-10-04
# HYPPO:ハイパーパラメータ最適化のためのサロゲートベースのマルチレベル並列化ツール

HYPPO: A Surrogate-Based Multi-Level Parallelism Tool for Hyperparameter Optimization ( http://arxiv.org/abs/2110.01698v1 )

ライセンス: Link先を確認
Vincent Dumont, Casey Garner, Anuradha Trivedi, Chelsea Jones, Vidya Ganapati, Juliane Mueller, Talita Perciano, Mariam Kiran, and Marc Day(参考訳) 本稿では,様々なディープラーニング(DL)モデルのハイパーパラメータの自動チューニングを可能にする新しいソフトウェアHYPPOを提案する。 他のハイパーパラメータ最適化(HPO)法とは異なり、HYPPOは適応的な代理モデルを使用し、モデル予測の不確実性を直接考慮し、堅牢な予測を行う正確で信頼性の高いモデルを見つける。 非同期ネスト並列処理を用いることで、複雑なアーキテクチャのトレーニングと不確かさの定量化の計算負荷を大幅に軽減することができる。 HYPPOはPythonで実装されており、TensorFlowとPyTorchライブラリの両方で使用することができる。 時系列予測と画像分類問題に関する様々なソフトウェア特徴と,ct画像再構成における科学的応用について述べる。 最後に、(1)超パラメータ空間において最適な領域を見つけるために必要な評価回数を1桁減らすことができ、(2)そのようなhpoプロセスが完了するまでのスループットを2桁減らすことができることを示す。

We present a new software, HYPPO, that enables the automatic tuning of hyperparameters of various deep learning (DL) models. Unlike other hyperparameter optimization (HPO) methods, HYPPO uses adaptive surrogate models and directly accounts for uncertainty in model predictions to find accurate and reliable models that make robust predictions. Using asynchronous nested parallelism, we are able to significantly alleviate the computational burden of training complex architectures and quantifying the uncertainty. HYPPO is implemented in Python and can be used with both TensorFlow and PyTorch libraries. We demonstrate various software features on time-series prediction and image classification problems as well as a scientific application in computed tomography image reconstruction. Finally, we show that (1) we can reduce by an order of magnitude the number of evaluations necessary to find the most optimal region in the hyperparameter space and (2) we can reduce by two orders of magnitude the throughput for such HPO process to complete.
翻訳日:2021-10-06 14:00:40 公開日:2021-10-04
# ONNXで符号化されたハードウェア/ソフトウェア共同設計が可能な事前量子化ディープラーニングモデル

Pre-Quantized Deep Learning Models Codified in ONNX to Enable Hardware/Software Co-Design ( http://arxiv.org/abs/2110.01730v1 )

ライセンス: Link先を確認
Ulf Hanebutte, Andrew Baldwin, Senad Durakovic, Igor Filipovich, Chien-Chun (Joe) Chou, Damian Adamowicz, Derek Chickles, and David Hawkes(参考訳) 本稿では,ハードウェア固有のモデルコンパイル段階から,標準NNXフォーマットでの事前量子化深層学習モデル記述を通じて量子化過程を分離する手法を提案する。 量子化プロセスをモデルコンパイル段階から分離することで、独立した開発が可能になる。 この手法は、ハードウェア固有の操作を伝達し、ハードウェア/ソフトウェアの共同設計を可能にするONNXモデルにキー量子化パラメータを埋め込む。 詳細な例は、mlpとcnnベースのネットワークの両方に与えられ、単純な方法で他のネットワークに拡張することができる。

This paper presents a methodology to separate the quantization process from the hardware-specific model compilation stage via a pre-quantized deep learning model description in standard ONNX format. Separating the quantization process from the model compilation stage enables independent development. The methodology is expressive to convey hardware-specific operations and to embed key quantization parameters into a ONNX model which enables hardware/software co-design. Detailed examples are given for both MLP and CNN based networks, which can be extended to other networks in a straightforward fashion.
翻訳日:2021-10-06 14:00:23 公開日:2021-10-04
# パワースペクトルを超えたアストロメトリーレンズによる暗黒物質サブ構造の推定

Inferring dark matter substructure with astrometric lensing beyond the power spectrum ( http://arxiv.org/abs/2110.01620v1 )

ライセンス: Link先を確認
Siddharth Mishra-Sharma(参考訳) 天体の位置と動きを正確に測定するアストロメトリーは、我々の銀河の暗黒物質集団を特徴づける有望な道として登場した。 シミュレーションに基づく推論とニューラルネットワークアーキテクチャの最近の進歩を活かし、アストロメトリデータセットにおける大域的暗黒物質誘起重力レンズのシグネチャを探索する新しい手法を提案する。 提案手法は, 2点相関統計に基づく既存手法と比較して, 冷暗黒物質集団に対する感度を著しく向上させ, 測定ノイズによるスケーリングを良好に行い, 観測データを用いて暗黒物質を特徴付ける強力なツールとして機械学習を確立した。

Astrometry -- the precise measurement of positions and motions of celestial objects -- has emerged as a promising avenue for characterizing the dark matter population in our Galaxy. By leveraging recent advances in simulation-based inference and neural network architectures, we introduce a novel method to search for global dark matter-induced gravitational lensing signatures in astrometric datasets. Our method based on neural likelihood-ratio estimation shows significantly enhanced sensitivity to a cold dark matter population and more favorable scaling with measurement noise compared to existing approaches based on two-point correlation statistics, establishing machine learning as a powerful tool for characterizing dark matter using astrometric data.
翻訳日:2021-10-06 13:58:26 公開日:2021-10-04
# ラグランジアンアプローチによる交流最適潮流解の学習

Learning to Solve the AC Optimal Power Flow via a Lagrangian Approach ( http://arxiv.org/abs/2110.01653v1 )

ライセンス: Link先を確認
Ling Zhang, Baosen Zhang(参考訳) 深層ニューラルネットワークを用いて交流最適電力流(ACOPF)問題の解を予測することは、研究の活発な方向である。 しかし、ACOPFは非凸であるため、大半がグローバルな最適解を含む良いデータセットを構築することは困難である。 学習データに最適解を含むという課題を克服するため,ラグランジアンに基づくアプローチを提案する。 まず、ニューラルネットワークを用いてACOPF問題の双対変数を学習する。 次に,第2のニューラルネットワークを用いて,予測された双対変数から部分的ラグランジアンの解を予測する。 部分ラグランジアンはより優れた最適化ランドスケープを持つため、ニューラルネットワークからの予測された解をACOPF問題のウォームスタートとして使用する。 IEEE 22-bus, 39-bus, 118-busネットワークの標準および修正により, トレーニングデータが大半が最適でない場合であっても, グローバルな最適コストを得ることができることを示す。

Using deep neural networks to predict the solutions of AC optimal power flow (ACOPF) problems has been an active direction of research. However, because the ACOPF is nonconvex, it is difficult to construct a good data set that contains mostly globally optimal solutions. To overcome the challenge that the training data may contain suboptimal solutions, we propose a Lagrangian-based approach. First, we use a neural network to learn the dual variables of the ACOPF problem. Then we use a second neural network to predict solutions of the partial Lagrangian from the predicted dual variables. Since the partial Lagrangian has a much better optimization landscape, we use the predicted solutions from the neural network as a warm start for the ACOPF problem. Using standard and modified IEEE 22-bus, 39-bus, and 118-bus networks, we show that our approach is able to obtain the globally optimal cost even when the training data is mostly comprised of suboptimal solutions.
翻訳日:2021-10-06 13:58:14 公開日:2021-10-04
# マイクロドップラーレーダ計測によるジェスチャー識別のための多様体学習手法

A manifold learning approach for gesture identification from micro-Doppler radar measurements ( http://arxiv.org/abs/2110.01670v1 )

ライセンス: Link先を確認
Eric Mason, Hrushikesh Mhaskar, Adam Guo(参考訳) 最近の論文 (Neural Networks, {\bf 132} (2020), 253-268) では、その次元以外の何の知識も必要としない多様体学習のための単純で単純なカーネルベースの近似が紹介されている。 本稿では,このカーネルに基づく最小二乗最適化を用いて近似のポイントワイズ誤差を考察し,特に,学習データから外れた場合の誤差がデータ特性にどのように依存するかについて検討する。 この理論は抽象的局所化カーネルで示され、既知の多様体の未知の部分多様体上にあるデータに関する事前知識を利用することができる。 本研究では,異なる前処理方法,カーネル,多様体次元を用いたマイクロドップラーデータセットを用いて,提案手法の性能を実証する。 具体的には、上述の論文で導入されたガウスカーネルは、ディープニューラルネットワークにほぼ競合的な性能をもたらし、速度とメモリ要求を大幅に改善することを示した。 同様に、特徴空間をグラスマン多様体の部分多様体として扱うカーネルは、従来の手作りの特徴よりも優れている。 提案手法がドメイン知識に無依存であることを示すために,簡単なビデオデータセットで分類問題を検証した。

A recent paper (Neural Networks, {\bf 132} (2020), 253-268) introduces a straightforward and simple kernel based approximation for manifold learning that does not require the knowledge of anything about the manifold, except for its dimension. In this paper, we examine the pointwise error in approximation using least squares optimization based on this kernel, in particular, how the error depends upon the data characteristics and deteriorates as one goes away from the training data. The theory is presented with an abstract localized kernel, which can utilize any prior knowledge about the data being located on an unknown sub-manifold of a known manifold. We demonstrate the performance of our approach using a publicly available micro-Doppler data set investigating the use of different pre-processing measures, kernels, and manifold dimension. Specifically, it is shown that the Gaussian kernel introduced in the above mentioned paper leads to a near-competitive performance to deep neural networks, and offers significant improvements in speed and memory requirements. Similarly, a kernel based on treating the feature space as a submanifold of the Grassman manifold outperforms conventional hand-crafted features. To demonstrate the fact that our methods are agnostic to the domain knowledge, we examine the classification problem in a simple video data set.
翻訳日:2021-10-06 13:57:55 公開日:2021-10-04
# 並列遺伝的ベイズ分類器を用いた発作分類

Seizure Classification Using Parallel Genetic Naive Bayes Classifiers ( http://arxiv.org/abs/2110.01742v1 )

ライセンス: Link先を確認
Scot Davidson and Niamh McCallan and Kok Yew Ng and Pardis Biglarbeigi and Dewar Finlay and Boon Leong Lan and James McLaughlin(参考訳) てんかんは世界中で5000万人に影響を及ぼし、脳疾患の中でも最も多い。 発作の検出と分類は、状態を維持するための貴重なツールである。 自動検出アルゴリズムは正確な診断を可能にする。 本研究では,遺伝的アルゴリズムを用いた新しい並列分類器を用いた特徴量を用いた手法を提案する。 EEGのイクタル状態は1.8秒の窓に区分され、エポックは最初のIMFから13の異なる特徴に分解される。 すべての特徴は遺伝的アルゴリズム(Binary Grey Wolf Optimisation Option 1)に入力され、Naive Bayes分類器が使用される。 単純部分発作と複雑部分発作の組み合わせは、テストされた全てのモデルの最高精度を提供する。

Epilepsy affects 50 million people worldwide and is one of the most common serious brain disorders. Seizure detection and classification is a valuable tool for maintaining the condition. An automated detection algorithm will allow for accurate diagnosis. This study proposes a method using unique features with a novel parallel classifier trained using a genetic algorithm. Ictal states from the EEG are segmented into 1.8 s windows, where the epochs are then further decomposed into 13 different features from the first IMF. All of the features are fed into a genetic algorithm (Binary Grey Wolf Optimisation Option 1) with a Naive Bayes classifier. Combining the simple-partial and complex-partial seizures provides the highest accuracy of all the models tested.
翻訳日:2021-10-06 13:57:34 公開日:2021-10-04
# (参考訳) 文脈における構造化省略拡張 [全文訳有]

Structured abbreviation expansion in context ( http://arxiv.org/abs/2110.01140v1 )

ライセンス: CC BY 4.0
Kyle Gorman, Christo Kirov, Brian Roark, and Richard Sproat(参考訳) アドホックな略語は、短いメッセージを好む非公式なコミュニケーションチャネルでよく見られる。 本研究は, 短縮メッセージの正規化, 拡張バージョンを回復するために, 文脈内でこれらの略語を逆転させる作業を検討する。 この問題は、アドホックな略語が意図的であり、元の単語と実質的な違いがあるという点で、綴りの修正とは関係があるが、異なる。 アドホックな略語は生産的にオンザフライで生成されるので、辞書検索だけでは解決できない。 アドホックな略語からなる大規模でオープンソースのデータセットを生成します。 このデータは、短縮戦略の研究と、短縮拡大のための2つの強力なベースラインの開発に使用される。

Ad hoc abbreviations are commonly found in informal communication channels that favor shorter messages. We consider the task of reversing these abbreviations in context to recover normalized, expanded versions of abbreviated messages. The problem is related to, but distinct from, spelling correction, in that ad hoc abbreviations are intentional and may involve substantial differences from the original words. Ad hoc abbreviations are productively generated on-the-fly, so they cannot be resolved solely by dictionary lookup. We generate a large, open-source data set of ad hoc abbreviations. This data is used to study abbreviation strategies and to develop two strong baselines for abbreviation expansion
翻訳日:2021-10-06 01:29:17 公開日:2021-10-04
# (参考訳) 非商業的ピアツーピアライドシェアリングの効率性、公正性、安定性 [全文訳有]

Efficiency, Fairness, and Stability in Non-Commercial Peer-to-Peer Ridesharing ( http://arxiv.org/abs/2110.01152v1 )

ライセンス: CC BY 4.0
Hoon Oh, Yanhan Tang, Zong Zhang, Alexandre Jacquillat, Fei Fang(参考訳) 商業的ライドシェアリングとは異なり、非商業的ピアツーピア(p2p)ライドシェアリングは限定的な研究の対象となっている。 本稿は、P2Pライドシェアリングにおける中核的な問題である、ライダーとドライバーのマッチングに焦点を当てる。 我々は,P2Pライドシェアリングにおける利用者の嗜好を優先的に高め,公平性と安定性という新たな概念を導入する。 ユーザの好む出発時間,公平性,安定性など,ユーザ中心の要因を考慮した効率的なマッチングアルゴリズムを提案する。 その結果, 妥当かつ安定な解は妥当な計算時間で得られることが示唆され, システム全体の効率性に基づくベースライン結果の改善が期待できる。

Unlike commercial ridesharing, non-commercial peer-to-peer (P2P) ridesharing has been subject to limited research -- although it can promote viable solutions in non-urban communities. This paper focuses on the core problem in P2P ridesharing: the matching of riders and drivers. We elevate users' preferences as a first-order concern and introduce novel notions of fairness and stability in P2P ridesharing. We propose algorithms for efficient matching while considering user-centric factors, including users' preferred departure time, fairness, and stability. Results suggest that fair and stable solutions can be obtained in reasonable computational times and can improve baseline outcomes based on system-wide efficiency exclusively.
翻訳日:2021-10-06 01:16:19 公開日:2021-10-04
# (参考訳) 軽量NASにおける超ネットヒューリスティックスの解析 [全文訳有]

An Analysis of Super-Net Heuristics in Weight-Sharing NAS ( http://arxiv.org/abs/2110.01154v1 )

ライセンス: CC BY-SA 4.0
Kaicheng Yu, Ren\'e Ranftl, Mathieu Salzmann(参考訳) 重み共有は、コモディティハードウェア上でもneural architecture search(nas)を扱いやすくすることを約束している。 既存の手法は、共有重み付きバックボーンネットワーク、すなわちスーパーネットを設計し、訓練するための多様なヒューリスティックに依存している。 ヒューリスティックスは様々な手法で大きく異なり、慎重に研究されていないため、それがスーパーネットトレーニングや重み付けNASアルゴリズムにどの程度影響するかは定かではない。 本稿では,スーパーネットのトレーニングを検索アルゴリズムから分離し,14のトレーニングヒューリスティックを分離し,それらを3つのベンチマーク検索空間で評価する。 分析の結果,スーパーネットとスタンドアローンのパフォーマンスの相関性は,いくつかの一般的なヒューリスティックスが負の影響を与えることが判明した。 この知識を応用して,スーパーネットを適切にトレーニングした場合,単純なランダム検索は複雑なNASアルゴリズムと競合する性能を発揮することを示す。

Weight sharing promises to make neural architecture search (NAS) tractable even on commodity hardware. Existing methods in this space rely on a diverse set of heuristics to design and train the shared-weight backbone network, a.k.a. the super-net. Since heuristics substantially vary across different methods and have not been carefully studied, it is unclear to which extent they impact super-net training and hence the weight-sharing NAS algorithms. In this paper, we disentangle super-net training from the search algorithm, isolate 14 frequently-used training heuristics, and evaluate them over three benchmark search spaces. Our analysis uncovers that several commonly-used heuristics negatively impact the correlation between super-net and stand-alone performance, whereas simple, but often overlooked factors, such as proper hyper-parameter settings, are key to achieve strong performance. Equipped with this knowledge, we show that simple random search achieves competitive performance to complex state-of-the-art NAS algorithms when the super-net is properly trained.
翻訳日:2021-10-06 00:48:27 公開日:2021-10-04
# (参考訳) DESTRESS: 計算最適化と通信効率の最適化 [全文訳有]

DESTRESS: Computation-Optimal and Communication-Effici ent Decentralized Nonconvex Finite-Sum Optimization ( http://arxiv.org/abs/2110.01165v1 )

ライセンス: CC BY 4.0
Boyue Li, Zhize Li, Yuejie Chi(参考訳) インターネット・オブ・シング、ネットワークセンシング、自律システム、フェデレーション学習といったマルチエージェント環境における新興アプリケーションは、計算と通信の両面で資源効率のよい有限サム最適化のための分散アルゴリズムを要求する。 本稿では,エージェントがネットワークトポロジー上で隣人とのみ通信することにより,局所損失関数の和を最小化するために協調的に作業する原型的設定を考える。 我々は,非凸有限サム最適化のための分散確率的再帰的勾配法(destress)と呼ばれる新しいアルゴリズムを開発した。 より詳細な理論的および数値的な比較は、DeSTRESSの資源効率が、幅広いパラメータ・レシエーションにおける事前の分散化アルゴリズムを改善することを裏付ける。 DESTRESSは、局所計算のためのミニバッチによる確率的再帰的勾配更新、解答間通信のための追加混合(複数のゴシップラウンド)による勾配追跡、ハイパーパラメータの慎重な選択、新しい分析フレームワークなど、いくつかの重要なアルゴリズム設計のアイデアを利用している。

Emerging applications in multi-agent environments such as internet-of-things, networked sensing, autonomous systems and federated learning, call for decentralized algorithms for finite-sum optimizations that are resource-efficient in terms of both computation and communication. In this paper, we consider the prototypical setting where the agents work collaboratively to minimize the sum of local loss functions by only communicating with their neighbors over a predetermined network topology. We develop a new algorithm, called DEcentralized STochastic REcurSive gradient methodS (DESTRESS) for nonconvex finite-sum optimization, which matches the optimal incremental first-order oracle (IFO) complexity of centralized algorithms for finding first-order stationary points, while maintaining communication efficiency. Detailed theoretical and numerical comparisons corroborate that the resource efficiencies of DESTRESS improve upon prior decentralized algorithms over a wide range of parameter regimes. DESTRESS leverages several key algorithm design ideas including stochastic recursive gradient updates with mini-batches for local computation, gradient tracking with extra mixing (i.e., multiple gossiping rounds) for per-iteration communication, together with careful choices of hyper-parameters and new analysis frameworks to provably achieve a desirable computation-communic ation trade-off.
翻訳日:2021-10-06 00:25:19 公開日:2021-10-04
# (参考訳) 信頼できるAI: 原則から実践へ

Trustworthy AI: From Principles to Practices ( http://arxiv.org/abs/2110.01167v1 )

ライセンス: CC BY 4.0
Bo Li, Peng Qi, Bo Liu, Shuai Di, Jingen Liu, Jiquan Pei, Jinfeng Yi, Bowen Zhou(参考訳) 高速開発人工知能(AI)技術により、現実世界に展開された様々な応用システムが人々の日常生活に影響を与えている。 しかし、現在のAIシステムの多くは、認識不能な攻撃に弱いことが判明し、未表現のグループに偏り、ユーザのプライバシ保護が欠如しているなど、すべてのAIシステムに対する社会の信頼が損なわれている。 このレビューでは、信頼できるAIシステムを構築するための包括的なガイドとして、AI実践者に提供したいと思っています。 まず、ロバスト性、一般化、説明可能性、透明性、再現性、公平性、プライバシー保護、人間価値との整合、説明責任など、ai信頼性の重要な側面に関する理論的枠組みを紹介する。 そして、業界におけるこれらの側面における主要なアプローチを調査します。 信頼に値するAIに対する現在の断片化されたアプローチを統合するために、私たちは、データ取得からモデル開発、開発とデプロイメント、最後に継続的監視とガバナンスまで、AIシステムのライフサイクル全体を考える体系的なアプローチを提案する。 このフレームワークでは、実践者や社会利害関係者(例えば研究者や規制当局)に具体的なアクションアイテムを提供し、AIの信頼性を向上させる。 最後に、信頼に値するAIシステムの開発における重要な機会と課題を特定し、信頼に値するAIシステムへのパラダイムシフトの必要性を特定します。

Fast developing artificial intelligence (AI) technology has enabled various applied systems deployed in the real world, impacting people's everyday lives. However, many current AI systems were found vulnerable to imperceptible attacks, biased against underrepresented groups, lacking in user privacy protection, etc., which not only degrades user experience but erodes the society's trust in all AI systems. In this review, we strive to provide AI practitioners a comprehensive guide towards building trustworthy AI systems. We first introduce the theoretical framework of important aspects of AI trustworthiness, including robustness, generalization, explainability, transparency, reproducibility, fairness, privacy preservation, alignment with human values, and accountability. We then survey leading approaches in these aspects in the industry. To unify the current fragmented approaches towards trustworthy AI, we propose a systematic approach that considers the entire lifecycle of AI systems, ranging from data acquisition to model development, to development and deployment, finally to continuous monitoring and governance. In this framework, we offer concrete action items to practitioners and societal stakeholders (e.g., researchers and regulators) to improve AI trustworthiness. Finally, we identify key opportunities and challenges in the future development of trustworthy AI systems, where we identify the need for paradigm shift towards comprehensive trustworthy AI systems.
翻訳日:2021-10-05 23:09:39 公開日:2021-10-04
# (参考訳) 非帰属グラフによる深い不正検出 [全文訳有]

Deep Fraud Detection on Non-attributed Graph ( http://arxiv.org/abs/2110.01171v1 )

ライセンス: CC BY 4.0
Chen Wang, Yingtong Dou, Min Chen, Jia Chen, Zhiwei Liu, Philip S. Yu(参考訳) 不正検出問題は通常、グラフ上の機械学習問題として定式化される。 近年,グラフニューラルネットワーク(GNN)の不正検出性能が向上している。 以前のほとんどの方法の成功は、リッチノード機能と高忠実度ラベルに大きく依存している。 しかし、ラベル付きデータは大規模な産業問題、特に新しいパターンが時々出現する不正検出には不十分である。 一方、ノード機能はプライバシーやその他の制約のために制限されている。 本稿では,二つの改良点を提案する。 1)非分散不正グラフ上のGNNを容易にするための構造情報を取得するグラフ変換法を設計する。 2) コントラスト学習によるラベルなしデータを活用するための新しいグラフ事前学習戦略を提案する。 大規模産業データセットにおける実験により,提案手法の有効性が実証された。

Fraud detection problems are usually formulated as a machine learning problem on a graph. Recently, Graph Neural Networks (GNNs) have shown solid performance on fraud detection. The successes of most previous methods heavily rely on rich node features and high-fidelity labels. However, labeled data is scarce in large-scale industrial problems, especially for fraud detection where new patterns emerge from time to time. Meanwhile, node features are also limited due to privacy and other constraints. In this paper, two improvements are proposed: 1) We design a graph transformation method capturing the structural information to facilitate GNNs on non-attributed fraud graphs. 2) We propose a novel graph pre-training strategy to leverage more unlabeled data via contrastive learning. Experiments on a large-scale industrial dataset demonstrate the effectiveness of the proposed framework for fraud detection.
翻訳日:2021-10-05 23:08:30 公開日:2021-10-04
# (参考訳) ニューラルネットワークにおける最大及び衝突ニューロン [全文訳有]

Max and Coincidence Neurons in Neural Networks ( http://arxiv.org/abs/2110.01218v1 )

ライセンス: CC BY 4.0
Albert Lee, Kang L. Wang(参考訳) ネットワーク設計は機械学習の中心的なトピックである。 手作業による探索と自動ニューラルネットワーク検索を通じて、効率的なアーキテクチャ構築に多くの努力が注がれている。 しかし、今日のアーキテクチャは、ニューロンの多様性と特定の処理機能を持つニューロンの存在をまだ考慮していない。 本研究では,ニューラル・アーキテクチャ・サーチを用いて,最大および一致ニューロンのモデルを含むネットワークを最適化し,最適化されたネットワークの構造,動作,ニューロンを分析し,信号処理再ネットを構築する。 開発されたネットワークは、精度が平均2%向上し、さまざまなデータセットにわたるネットワークサイズが25%向上し、コンパクトで効率的なネットワークを作成する上での神経機能の重要性が示される。

Network design has been a central topic in machine learning. Large amounts of effort have been devoted towards creating efficient architectures through manual exploration as well as automated neural architecture search. However, todays architectures have yet to consider the diversity of neurons and the existence of neurons with specific processing functions. In this work, we optimize networks containing models of the max and coincidence neurons using neural architecture search, and analyze the structure, operations, and neurons of optimized networks to develop a signal-processing ResNet. The developed network achieves an average of 2% improvement in accuracy and a 25% improvement in network size across a variety of datasets, demonstrating the importance of neuronal functions in creating compact, efficient networks.
翻訳日:2021-10-05 22:59:52 公開日:2021-10-04
# (参考訳) 探索的RLとフラグメントに基づく分子生成によるヒット・リード発見 [全文訳有]

Hit and Lead Discovery with Explorative RL and Fragment-based Molecule Generation ( http://arxiv.org/abs/2110.01219v1 )

ライセンス: CC BY 4.0
Soojung Yang and Doyeong Hwang and Seul Lee and Seongok Ryu and Sung Ju Hwang(参考訳) 近年, 強化学習(RL)を用いて, 望ましい性質を持つ分子を生成することが, 医薬品設計の有望な戦略として注目されている。 分子ドッキングプログラム(タンパク質-小分子結合親和性を推定する物理シミュレーション)は、治療電位の直接的なプロキシであるため、RLにとって理想的な報酬スコアリング機能である。 しかし、この課題には2つの課題が存在する。 第一に、モデルはしばしば化学的に現実的で薬理学的に許容される分子を生成できない。 第二に、ドッキングスコアの最適化は、分子構造に関して多くの局所最適かつより滑らかな表面を含む難しい探索問題である。 これらの課題に対処するために,ドッキングスコアが大きい薬理学的に許容される分子を生成する新しいRLフレームワークを提案する。 創薬経験リプレイ(freed: fragment-based generative rl with explorative experience replay for drug design) - 生成した分子をリアルで適格な化学空間に制限し、フラグメントベースの生成法と新しいエラー優先体験リプレイ(per)を結合して薬物発見の空間を効果的に探索する。 また,本モデルがデノボと足場に基づくスキームの両方で良好に動作することを示す。 本モデルでは, 既存の手法と比較して高い品質の分子を生成でき, 生成した分子のドッキングスコアの観点から, 3つの目標のうち2つにおいて最先端の性能を実現する。 さらに,提案手法である予測誤差PER(FREED(PE))がモデル性能を大幅に向上することを示す。

Recently, utilizing reinforcement learning (RL) to generate molecules with desired properties has been highlighted as a promising strategy for drug design. A molecular docking program - a physical simulation that estimates protein-small molecule binding affinity - can be an ideal reward scoring function for RL, as it is a straightforward proxy of the therapeutic potential. Still, two imminent challenges exist for this task. First, the models often fail to generate chemically realistic and pharmacochemically acceptable molecules. Second, the docking score optimization is a difficult exploration problem that involves many local optima and less smooth surfaces with respect to molecular structure. To tackle these challenges, we propose a novel RL framework that generates pharmacochemically acceptable molecules with large docking scores. Our method - Fragment-based generative RL with Explorative Experience replay for Drug design (FREED) - constrains the generated molecules to a realistic and qualified chemical space and effectively explores the space to find drugs by coupling our fragment-based generation method and a novel error-prioritized experience replay (PER). We also show that our model performs well on both de novo and scaffold-based schemes. Our model produces molecules of higher quality compared to existing methods while achieving state-of-the-art performance on two of three targets in terms of the docking scores of the generated molecules. We further show with ablation studies that our method, predictive error-PER (FREED(PE)), significantly improves the model performance.
翻訳日:2021-10-05 22:43:53 公開日:2021-10-04
# (参考訳) DenDrift:ホストプロファイリングのためのドリフト認識アルゴリズム [全文訳有]

DenDrift: A Drift-Aware Algorithm for Host Profiling ( http://arxiv.org/abs/2110.01221v1 )

ライセンス: CC BY 4.0
Ali Sedaghatbaf, Sima Sinaei, Perttu Ranta-aho, Marko Koskinen(参考訳) 不正行為の検出と対応は、セキュリティ監視において不可欠である。 このタスクを難しくしているのは、監視するホストとプロセスの数とさまざまなカテゴリです。 これらに、各カテゴリの正常な振る舞いの正確な定義の欠如を追加するべきである。 ストリームクラスタリングアルゴリズムを用いたホストプロファイリングは、ホストの振る舞いを分析し、それらを分類し、非典型的なものを識別する効果的な手段である。 しかし、予期せぬ行動データの変化(すなわち概念ドリフト)によって、得られたプロファイルは信頼できない。 DenStreamはよく知られたストリームクラスタリングアルゴリズムで、ホストプロファイリングに効果的に使用できる。 このアルゴリズムは、現実世界のクラスタリングアプリケーションで広く使われている非パラメトリックアルゴリズムであるDBSCANの拡張である。 最近の研究では、DenStreamはコンセプトドリフトに対して堅牢ではないことが示されている。 本稿では,DenStreamに基づくドリフト対応ホストプロファイリングアルゴリズムとしてDenDriftを提案する。 DenDrift は次元減少のための非負行列分解とドリフト検出のための Page-Hinckley 試験に依存している。 我々は, 合成データと産業データの両方について実験を行い, 突発的, 漸進的および漸進的ドリフトに対するデンドリフトのロバスト性を確認した。

Detecting and reacting to unauthorized actions is an essential task in security monitoring. What make this task challenging are the large number and various categories of hosts and processes to monitor. To these we should add the lack of an exact definition of normal behavior for each category. Host profiling using stream clustering algorithms is an effective means of analyzing hosts' behaviors, categorizing them, and identifying atypical ones. However, unforeseen changes in behavioral data (i.e. concept drift) make the obtained profiles unreliable. DenStream is a well-known stream clustering algorithm, which can be effectively used for host profiling. This algorithm is an incremental extension of DBSCAN which is a non-parametric algorithm widely used in real-world clustering applications. Recent experimental studies indicate that DenStream is not robust against concept drift. In this paper, we present DenDrift as a drift-aware host profiling algorithm based on DenStream. DenDrift relies on non-negative matrix factorization for dimensionality reduction and Page-Hinckley test for drift detection. We have done experiments on both synthetic and industrial datasets and the results affirm the robustness of DenDrift against abrupt, gradual and incremental drifts.
翻訳日:2021-10-05 22:23:38 公開日:2021-10-04
# (参考訳) 逆学習に基づくAelf制御チベット-チン語語彙アライメント法 [全文訳有]

A Aelf-supervised Tibetan-chinese Vocabulary Alignment Method Based On Adversarial Learning ( http://arxiv.org/abs/2110.01258v1 )

ライセンス: CC BY 4.0
Enshuai Hou and Jie zhu(参考訳) チベット語は低資源言語である。 チベット語と中国語の並列コーパスの不足を緩和するために,2つの単言語コーパスと少数の種辞書を用いて,種辞書と自己教師付き副学習法とを組込み空間内の単語集合の類似度計算によって学習し,チベット語と中国語の単言語データアライメントのみを用いた自己教師付き副学習法を前進させる。 実験結果は以下の通りである。 第1に,チベット語の音節と漢字の意味的相関が弱いこと,第2に,単語の精度が66.5(チベット語 - 中国語)と74.8(チベット語 - チベット語)と予測される単語の精度が66.5(チベット語 - 中国語 - チベット語)で予測される半教師方式のシード辞書が,両言語方向の自己監督法の改善に寄与した。

Tibetan is a low-resource language. In order to alleviate the shortage of parallel corpus between Tibetan and Chinese, this paper uses two monolingual corpora and a small number of seed dictionaries to learn the semi-supervised method with seed dictionaries and self-supervised adversarial training method through the similarity calculation of word clusters in different embedded spaces and puts forward an improved self-supervised adversarial learning method of Tibetan and Chinese monolingual data alignment only. The experimental results are as follows. First, the experimental results of Tibetan syllables Chinese characters are not good, which reflects the weak semantic correlation between Tibetan syllables and Chinese characters; second, the seed dictionary of semi-supervised method made before 10 predicted word accuracy of 66.5 (Tibetan - Chinese) and 74.8 (Chinese - Tibetan) results, to improve the self-supervision methods in both language directions have reached 53.5 accuracy.
翻訳日:2021-10-05 22:08:39 公開日:2021-10-04
# (参考訳) グラフベースのディープラーニングモデルを大規模ネットワークに拡張 [全文訳有]

Scaling Graph-based Deep Learning models to larger networks ( http://arxiv.org/abs/2110.01261v1 )

ライセンス: CC BY 4.0
Miquel Ferriol-Galm\'es, Jos\'e Su\'arez-Varela, Krzysztof Rusek, Pere Barlet-Ros, Albert Cabellos-Aparicio(参考訳) Graph Neural Networks (GNN)は、ネットワーク制御と管理のために商用製品に統合される可能性を示している。 GNNを使った初期の研究は、トポロジ、ルーティング構成、ネットワーク内の一連のノードに沿って流れるトラフィックなど、基本的にグラフとして表される異なるネットワーク特性から学習する前例のない能力を示した。 機械学習(ML)に基づく以前のソリューションとは対照的に、GNNはトレーニングフェーズ中に見えない他のネットワークでも正確な予測を生成することができる。 現在、GNNは機械学習分野においてホットなトピックであり、多くの分野(化学、物理学、ソーシャルネットワークなど)でそのポテンシャルを活用するための大きな努力を目の当たりにしています。 この文脈では、グラフニューラルネットワークの課題2021は、ネットワークに対する既存のGNNベースのソリューションの実践的な制限をもたらしている。 本稿では,リンク容量の増大やリンクトラフィックの集約など,大規模ネットワークに効果的にスケール可能なGNNベースのソリューションを提案することにより,スケーラビリティの問題に対処する。

Graph Neural Networks (GNN) have shown a strong potential to be integrated into commercial products for network control and management. Early works using GNN have demonstrated an unprecedented capability to learn from different network characteristics that are fundamentally represented as graphs, such as the topology, the routing configuration, or the traffic that flows along a series of nodes in the network. In contrast to previous solutions based on Machine Learning (ML), GNN enables to produce accurate predictions even in other networks unseen during the training phase. Nowadays, GNN is a hot topic in the Machine Learning field and, as such, we are witnessing great efforts to leverage its potential in many different fields (e.g., chemistry, physics, social networks). In this context, the Graph Neural Networking challenge 2021 brings a practical limitation of existing GNN-based solutions for networking: the lack of generalization to larger networks. This paper approaches the scalability problem by presenting a GNN-based solution that can effectively scale to larger networks including higher link capacities and aggregated traffic on links.
翻訳日:2021-10-05 22:00:49 公開日:2021-10-04
# (参考訳) 協調強化学習タスクのための行動条件ポリシー [全文訳有]

Behaviour-conditione d policies for cooperative reinforcement learning tasks ( http://arxiv.org/abs/2110.01266v1 )

ライセンス: CC BY 4.0
Antti Keurulainen (1 and 3), Isak Westerlund (3), Ariel Kwiatkowski (3), Samuel Kaski (1 and 2) and Alexander Ilin (1) ((1) Helsinki Institute for Information Technology HIIT, Department of Computer Science, Aalto University, (2) Department of Computer Science, University of Manchester, (3) Bitville Oy, Espoo, Finland)(参考訳) AIシステム間の協力、そしてAIシステムと人間間の協力はますます重要になりつつある。 現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。 これにより、協力作業中のパートナーエージェントの行動を評価し、協力を支援するための独自のポリシーを調整する必要がある。 深層強化学習モデルは必要な機能を提供するために訓練することができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。 しかし、進行中のタスク中にパートナーエージェントの動作に適応するには、パートナーエージェントのタイプを素早く評価する能力が必要である。 本稿では,行動パターンの異なるエージェントの集団を,行動の真実データとともに合成的に生成し,このデータをメタラーナーの訓練に用いる方法を提案する。 さらに,生成されたデータを効率的に利用し,メタラーニング能力を得るエージェントアーキテクチャを提案する。 エージェントがそのようなメタリアナーを備えている場合、未知のパートナーエージェントタイプとの連携に新しい状況で迅速に対応することができる。 この手法は、例えばセルフプレイによって生じる出現する振る舞いからメタトレーニングのためのタスク分布を自動生成するために使用することができる。

The cooperation among AI systems, and between AI systems and humans is becoming increasingly important. In various real-world tasks, an agent needs to cooperate with unknown partner agent types. This requires the agent to assess the behaviour of the partner agent during a cooperative task and to adjust its own policy to support the cooperation. Deep reinforcement learning models can be trained to deliver the required functionality but are known to suffer from sample inefficiency and slow learning. However, adapting to a partner agent behaviour during the ongoing task requires ability to assess the partner agent type quickly. We suggest a method, where we synthetically produce populations of agents with different behavioural patterns together with ground truth data of their behaviour, and use this data for training a meta-learner. We additionally suggest an agent architecture, which can efficiently use the generated data and gain the meta-learning capability. When an agent is equipped with such a meta-learner, it is capable of quickly adapting to cooperation with unknown partner agent types in new situations. This method can be used to automatically form a task distribution for meta-training from emerging behaviours that arise, for example, through self-play.
翻訳日:2021-10-05 21:48:30 公開日:2021-10-04
# (参考訳) spar.txt - 規制テキストに対する安価で浅いパースアプローチ [全文訳有]

SPaR.txt, a cheap Shallow Parsing approach for Regulatory texts ( http://arxiv.org/abs/2110.01295v1 )

ライセンス: CC BY 4.0
Ruben Kruiper, Ioannis Konstas, Alasdair Gray, Farhad Sadeghineko, Richard Watson and Bimal Kumar(参考訳) ACC (Automated Compliance Checking) システムは、一連のルールに規則を意味的に解析することを目的としている。 しかし、意味解析は困難であることが知られ、大量のトレーニングデータを必要とする。 このようなトレーニングデータの作成の複雑さは、浅いパースや限定されたルールのサブセットの抽出など、小さなサブタスクに焦点を当てた研究につながった。 本研究では,ACCの辞書を学習するために,比較的安価に学習データを作成できる浅層解析タスクを提案する。 私たちは200文の小さなドメイン固有データセットspar.txtをアノテーションし、テストセットで79,93 f1-scoreを達成するシーケンスタガーをトレーニングします。 次に,本モデルが構築規則文書の集合において最も定義された用語 (89,84%) を識別し,連続的かつ不連続な多語表現 (MWE) が妥当な精度 (70,3%) で発見されることを示す。

Automated Compliance Checking (ACC) systems aim to semantically parse building regulations to a set of rules. However, semantic parsing is known to be hard and requires large amounts of training data. The complexity of creating such training data has led to research that focuses on small sub-tasks, such as shallow parsing or the extraction of a limited subset of rules. This study introduces a shallow parsing task for which training data is relatively cheap to create, with the aim of learning a lexicon for ACC. We annotate a small domain-specific dataset of 200 sentences, SPaR.txt, and train a sequence tagger that achieves 79,93 F1-score on the test set. We then show through manual evaluation that the model identifies most (89,84%) defined terms in a set of building regulation documents, and that both contiguous and discontiguous Multi-Word Expressions (MWE) are discovered with reasonable accuracy (70,3%).
翻訳日:2021-10-05 21:39:28 公開日:2021-10-04
# (参考訳) 集合的eXplainable AI:共有価値を用いたマルチエージェント強化学習における協調戦略とエージェント貢献の解説 [全文訳有]

Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values ( http://arxiv.org/abs/2110.01307v1 )

ライセンス: CC BY 4.0
Alexandre Heuillet, Fabien Couthouis and Natalia D\'iaz-Rodr\'iguez(参考訳) 説明可能な人工知能(XAI)はアプリケーション領域を拡大しつつあるが、深層強化学習(RL)をより理解しやすいものにするためにはほとんど適用されていない。 RLがユビキタスになり、批判的、一般の用途に使用されるようになると、より理解し、解釈しやすい手法を開発することが不可欠である。 本研究は,機械学習アルゴリズムによる意思決定の背後にある理性を説明するゲーム理論であるShapley値を用いて,マルチエージェントRLにおける協調戦略を説明する新しい手法を提案する。 この手法の一般的な前提を2つの協調中心型多エージェント環境環境でテストすることにより、シャプリーの値は協調多エージェントrlコンテキストにおけるプレイヤーの貢献を評価するための関連する方法であると主張する。 この手法のオーバーヘッドを緩和するために、モンテカルロサンプリングを用いてShapley値を近似する。 マルチエージェント粒子および逐次社会ジレンマ実験の結果,シャプリー値が各エージェントの寄与度を推定することに成功した。 これらの結果は、経済学(非差別的な意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定など)のゲームを超えた意味を持つ可能性がある。 また、Shapleyの値はモデルに関する一般的な説明しか与えず、単一の実行、エピソードの説明やエージェントによる正確なアクションの正当化はできない。 今後の作業は、これらの重要な側面に取り組むことに集中すべきである。

While Explainable Artificial Intelligence (XAI) is increasingly expanding more areas of application, little has been applied to make deep Reinforcement Learning (RL) more comprehensible. As RL becomes ubiquitous and used in critical and general public applications, it is essential to develop methods that make it better understood and more interpretable. This study proposes a novel approach to explain cooperative strategies in multiagent RL using Shapley values, a game theory concept used in XAI that successfully explains the rationale behind decisions taken by Machine Learning algorithms. Through testing common assumptions of this technique in two cooperation-centered socially challenging multi-agent environments environments, this article argues that Shapley values are a pertinent way to evaluate the contribution of players in a cooperative multi-agent RL context. To palliate the high overhead of this method, Shapley values are approximated using Monte Carlo sampling. Experimental results on Multiagent Particle and Sequential Social Dilemmas show that Shapley values succeed at estimating the contribution of each agent. These results could have implications that go beyond games in economics, (e.g., for non-discriminatory decision making, ethical and responsible AI-derived decisions or policy making under fairness constraints). They also expose how Shapley values only give general explanations about a model and cannot explain a single run, episode nor justify precise actions taken by agents. Future work should focus on addressing these critical aspects.
翻訳日:2021-10-05 21:19:31 公開日:2021-10-04
# (参考訳) エージェントを観察して支援する学習 [全文訳有]

Learning to Assist Agents by Observing Them ( http://arxiv.org/abs/2110.01311v1 )

ライセンス: CC BY 4.0
Antti Keurulainen (1 and 3), Isak Westerlund (3), Samuel Kaski (1 and 2), and Alexander Ilin (1) ((1) Helsinki Institute for Information Technology HIIT, Department of Computer Science, Aalto University, (2) Department of Computer Science, University of Manchester, (3) Bitville Oy, Espoo, Finland)(参考訳) aiエージェントが人間のような他のエージェントを助ける能力は重要で挑戦的な目標であり、補助エージェントが行動について判断し、支援エージェントの目標を推測する必要がある。 強化学習による訓練は、通常、大量のオンライントレーニングを必要とするが、これは困難で費用がかかる。 一方で、補助エージェントの動作に関するオフラインデータは利用可能かもしれないが、オフライン強化学習のような手法で活用するのは簡単ではない。 提案手法では,まずオフラインデータを用いて行動の表現を事前学習し,その後,補助方針を学習するために少量の対話データしか必要としない手法を提案する。 我々は,補助エージェントが補助エージェントの環境を操作できるグリッドワールドにおける設定を検証し,補助エージェントの性能が大幅に向上する3つのシナリオを紹介した。

The ability of an AI agent to assist other agents, such as humans, is an important and challenging goal, which requires the assisting agent to reason about the behavior and infer the goals of the assisted agent. Training such an ability by using reinforcement learning usually requires large amounts of online training, which is difficult and costly. On the other hand, offline data about the behavior of the assisted agent might be available, but is non-trivial to take advantage of by methods such as offline reinforcement learning. We introduce methods where the capability to create a representation of the behavior is first pre-trained with offline data, after which only a small amount of interaction data is needed to learn an assisting policy. We test the setting in a gridworld where the helper agent has the capability to manipulate the environment of the assisted artificial agents, and introduce three different scenarios where the assistance considerably improves the performance of the assisted agents.
翻訳日:2021-10-05 20:54:44 公開日:2021-10-04
# (参考訳) 科学データ保護のための総合的基盤を目指して [全文訳有]

Towards General-purpose Infrastructure for Protecting Scientific Data Under Study ( http://arxiv.org/abs/2110.01315v1 )

ライセンス: CC0 1.0
Andrew Trask, Kritika Prakash(参考訳) 科学的手法は、クレームをサポートするために多くのサンプルを必要とするため、プライバシーにとって重要な課題である。 サンプルが商業的に価値があり、プライバシーに敏感な場合、その所有者は科学的研究のためにサンプルを公開しない強い理由がある。 プライバシー技術は、この緊張を軽減するために、研究対象のサンプルを二次目的に使用する能力に制限を加える。 最近の研究は、これらのテクニックをデータ保護のためのエンドツーエンドシステムに組み入れ始めている。 そこで本研究では,インフラが自動的にプライバシーリークを禁止している間に,親しみやすいツールを使ってプライベートデータを実験できるような,最初の組み合わせを組み立てる。 我々はこの理論システムを、pytorchフレームワークを使用したsyft privacy platformのプロトタイプでサポートする。

The scientific method presents a key challenge to privacy because it requires many samples to support a claim. When samples are commercially valuable or privacy-sensitive enough, their owners have strong reasons to avoid releasing them for scientific study. Privacy techniques seek to mitigate this tension by enforcing limits on one's ability to use studied samples for secondary purposes. Recent work has begun combining these techniques into end-to-end systems for protecting data. In this work, we assemble the first such combination which is sufficient for a privacy-layman to use familiar tools to experiment over private data while the infrastructure automatically prohibits privacy leakage. We support this theoretical system with a prototype within the Syft privacy platform using the PyTorch framework.
翻訳日:2021-10-05 20:44:23 公開日:2021-10-04
# (参考訳) ベイズネットワークの説明で何が理解できるか? [全文訳有]

What is understandable in Bayesian network explanations? ( http://arxiv.org/abs/2110.01322v1 )

ライセンス: CC BY 4.0
Raphaela Butz, Ren\'ee Schulz, Arjen Hommersom, Marko van Eekelen(参考訳) 例えば、ベイズネットワークからの予測を医師に説明するのは簡単ではない。 ベイズネットワーク推論の様々な説明法が文献に現れ、基礎となる推論の異なる側面に焦点を当てている。 技術的な研究は数多く行われてきたが、人間がこれらの説明を実際にどのように理解しているかは、ほとんど分かっていない。 本稿では, 被験者グループに説明の解釈を依頼し, 調査を通じて4つの異なる説明手法を比較した。

Explaining predictions from Bayesian networks, for example to physicians, is non-trivial. Various explanation methods for Bayesian network inference have appeared in literature, focusing on different aspects of the underlying reasoning. While there has been a lot of technical research, there is very little known about how well humans actually understand these explanations. In this paper, we present ongoing research in which four different explanation approaches were compared through a survey by asking a group of human participants to interpret the explanations.
翻訳日:2021-10-05 20:27:40 公開日:2021-10-04
# (参考訳) ACDC: オンラインの教師なしクロスドメイン適応 [全文訳有]

ACDC: Online Unsupervised Cross-Domain Adaptation ( http://arxiv.org/abs/2110.01326v1 )

ライセンス: CC BY 4.0
Marcus de Carvalho, Mahardhika Pratama, Jie Zhang, Edward Yapp(参考訳) 我々は、異なる特徴空間を持つ独立だが関連のある2つのデータストリーム(完全なラベル付きソースストリームとラベルなしのターゲットストリーム)が一緒に学習されるオンライン非教師なしのクロスドメイン適応の問題を考える。 共変量シフト、非同期概念ドリフト、データスループットの対比といったユニークな特徴と課題が発生する。 ACDCは、複数のデータストリームを、これらの欠陥に反応する完全な自己進化型ニューラルネットワーク構造で処理する、対向的で教師なしのドメイン適応フレームワークである。 ACDCは3つのモジュールを単一のモデルにカプセル化している。特徴を抽出する自動エンコーダ、ドメイン変換を実行する対向モジュール、ソースストリームを学習してターゲットストリームを予測する推定器。 ACDCは柔軟で拡張可能なフレームワークであり、ハイパーパラメータのチューニング性はほとんどない。 先行試験-then-trainプロトコルによる実験では,ベースライン法よりも目標精度が向上し,場合によっては10%以上向上した。

We consider the problem of online unsupervised cross-domain adaptation, where two independent but related data streams with different feature spaces -- a fully labeled source stream and an unlabeled target stream -- are learned together. Unique characteristics and challenges such as covariate shift, asynchronous concept drifts, and contrasting data throughput arises. We propose ACDC, an adversarial unsupervised domain adaptation framework that handles multiple data streams with a complete self-evolving neural network structure that reacts to these defiances. ACDC encapsulates three modules into a single model: A denoising autoencoder that extracts features, an adversarial module that performs domain conversion, and an estimator that learns the source stream and predicts the target stream. ACDC is a flexible and expandable framework with little hyper-parameter tunability. Our experimental results under the prequential test-then-train protocol indicate an improvement in target accuracy over the baseline methods, achieving more than a 10\% increase in some cases.
翻訳日:2021-10-05 20:23:24 公開日:2021-10-04
# (参考訳) InfiniteForm:フィットネスアプリケーションのための合成最小限のバイアスデータセット [全文訳有]

InfiniteForm: A synthetic, minimal bias dataset for fitness applications ( http://arxiv.org/abs/2110.01330v1 )

ライセンス: CC BY 4.0
Andrew Weitz, Lina Colucci, Sidney Primas, Brinnae Bent(参考訳) リモートフィットネスの人気が高まり、人間のポーズを追跡する高精度なコンピュータビジョンモデルへの需要が高まっている。 しかし、最良の方法は依然として多くの現実世界のフィットネスシナリオで失敗し、現在のデータセットと現実世界のフィットネスデータの間にドメインのギャップがあることを示唆している。 さまざまなフィットネスポーズ(15のカテゴリ)を持つ60k画像のオープンソース合成データセットであるfiniteformと、シングル・パーソン・シーンとマルチパーソン・シーンの両方、照明、カメラアングル、オクルージョンのリアルなバリエーションを作成しました。 合成データセットとして、infiniteformは体形と皮膚のトーンのバイアスを最小限にし、2dキーポイントのような標準的なアノテーションや、人間が奥行きや咬合のように生成しにくい、あるいは不可能である、ピクセル完全ラベルを提供する。 さらに,運動カテゴリーから多種多様な合成ポーズを作成するための新しい生成手順を提案する。 この生成プロセスは、堅牢なコンピュータビジョンモデルをトレーニングするためにポーズの多様性が必要なアプリケーションに拡張することができる。

The growing popularity of remote fitness has increased the demand for highly accurate computer vision models that track human poses. However, the best methods still fail in many real-world fitness scenarios, suggesting that there is a domain gap between current datasets and real-world fitness data. To enable the field to address fitness-specific vision problems, we created InfiniteForm, an open-source synthetic dataset of 60k images with diverse fitness poses (15 categories), both single- and multi-person scenes, and realistic variation in lighting, camera angles, and occlusions. As a synthetic dataset, InfiniteForm offers minimal bias in body shape and skin tone, and provides pixel-perfect labels for standard annotations like 2D keypoints, as well as those that are difficult or impossible for humans to produce like depth and occlusion. In addition, we introduce a novel generative procedure for creating diverse synthetic poses from predefined exercise categories. This generative process can be extended to any application where pose diversity is needed to train robust computer vision models.
翻訳日:2021-10-05 20:03:55 公開日:2021-10-04
# (参考訳) blindness (countable かつ uncountable, 複数形 blindnesss) [全文訳有]

Blindness (Diabetic Retinopathy) Severity Scale Detection ( http://arxiv.org/abs/2110.01333v1 )

ライセンス: CC0 1.0
Ramya Bygari, Rachita Naik, Uday Kumar P(参考訳) 糖尿病網膜症(英: Diabetic retinopathy, DR)は、糖尿病の重篤な合併症である。 DRのタイムリーな診断と治療は、視力の喪失を避けるために重要である。 手動診断は時間がかかり、エラーが発生しやすい。 本稿では,網膜基底画像の自動スクリーニングのための新しい深層学習手法を提案し,その重大度に基づいてDRを検出し分類する。 この方法は、ディープニューラルネットワークのデュアルパス構成を使用して目的を達成する。 最初のステップでは、修正されたUNet++ベースの網膜血管のセグメンテーションを使用して、出血、綿毛の斑点、DRステージを特定するのに不可欠である排出物などの要素を強調する基礎画像を生成する。 その後、2つの畳み込みニューラルネットワーク(CNN)分類器は、それぞれ原画像と新たに作成された基礎画像を入力として取り、0から4のスケールでDRの重症度を特定する。 これら2つのスコアは、最後のDRステージを予測するために、浅いニューラルネットワーク分類器(ANN)に渡される。 トレーニングと評価には、パブリックデータセットSTARE、DRIVE、CHASE DB1、APTOSが使用される。 本手法は94.80%の精度と準重み付きカッパ(QWK)スコア0.9254を達成し,多くの最先端手法より優れる。

Diabetic retinopathy (DR) is a severe complication of diabetes that can cause permanent blindness. Timely diagnosis and treatment of DR are critical to avoid total loss of vision. Manual diagnosis is time consuming and error-prone. In this paper, we propose a novel deep learning based method for automatic screening of retinal fundus images to detect and classify DR based on the severity. The method uses a dual-path configuration of deep neural networks to achieve the objective. In the first step, a modified UNet++ based retinal vessel segmentation is used to create a fundus image that emphasises elements like haemorrhages, cotton wool spots, and exudates that are vital to identify the DR stages. Subsequently, two convolutional neural networks (CNN) classifiers take the original image and the newly created fundus image respectively as inputs and identify the severity of DR on a scale of 0 to 4. These two scores are then passed through a shallow neural network classifier (ANN) to predict the final DR stage. The public datasets STARE, DRIVE, CHASE DB1, and APTOS are used for training and evaluation. Our method achieves an accuracy of 94.80% and Quadratic Weighted Kappa (QWK) score of 0.9254, and outperform many state-of-the-art methods.
翻訳日:2021-10-05 19:56:26 公開日:2021-10-04
# (参考訳) 因果性と一般化可能性:識別可能性と学習方法

Causality and Generalizability: Identifiability and Learning Methods ( http://arxiv.org/abs/2110.01430v1 )

ライセンス: CC BY 4.0
Martin Emil Jakobsen(参考訳) この博士論文は統計因果モデリングの分野へのいくつかの貢献を含んでいる。 統計的因果モデルは、外的操作(干渉)によって影響を受ける確率システムの振る舞いについて推論と推論を可能にする因果的仮定を組み込んだ統計モデルである。 この論文は、因果効果の推定、因果構造学習、および分布的に堅牢な(分布外一般化)予測法に関する研究領域に寄与する。 本研究では,データ依存平均二乗予測誤差正則化を用いたインストゥルメンタル変数設定における線形および非線形因果効果推定器を提案する。 提案した推定器は,正準および最先端の両推定器と比較して2乗誤差の改善率を示す。 分布にロバストな予測手法に関する最近の研究は、計量学からよく研究された推定器との関連性を示している。 この接続により、一般のKクラス推定器が分布的ロバスト性を持つことを示す。 さらに、介入誘起分布に関する分布ロバスト性に関する一般的な枠組みを提案する。 本研究では,分布的に堅牢な予測手法の同定に十分な条件を導出し,これらの条件のいくつかの必要性を示す不確実性結果を示す。 本稿では,有向木を因果グラフとする付加雑音モデルに適用可能な新しい構造学習法を提案する。 消去された識別可能性設定における一貫性を証明し、非漸近的な家族的エラー制御による部分構造仮説の検証方法を提供する。 最後に,非線形時系列モデルの要約グラフを学習するためのヒューリスティックなアイデアを提案する。

This PhD thesis contains several contributions to the field of statistical causal modeling. Statistical causal models are statistical models embedded with causal assumptions that allow for the inference and reasoning about the behavior of stochastic systems affected by external manipulation (interventions). This thesis contributes to the research areas concerning the estimation of causal effects, causal structure learning, and distributionally robust (out-of-distribution generalizing) prediction methods. We present novel and consistent linear and non-linear causal effects estimators in instrumental variable settings that employ data-dependent mean squared prediction error regularization. Our proposed estimators show, in certain settings, mean squared error improvements compared to both canonical and state-of-the-art estimators. We show that recent research on distributionally robust prediction methods has connections to well-studied estimators from econometrics. This connection leads us to prove that general K-class estimators possess distributional robustness properties. We, furthermore, propose a general framework for distributional robustness with respect to intervention-induced distributions. In this framework, we derive sufficient conditions for the identifiability of distributionally robust prediction methods and present impossibility results that show the necessity of several of these conditions. We present a new structure learning method applicable in additive noise models with directed trees as causal graphs. We prove consistency in a vanishing identifiability setup and provide a method for testing substructure hypotheses with asymptotic family-wise error control that remains valid post-selection. Finally, we present heuristic ideas for learning summary graphs of nonlinear time-series models.
翻訳日:2021-10-05 19:45:10 公開日:2021-10-04
# (参考訳) 人工知能タスクとベンチマークのキュレートされたオントロジーに基づく大規模知識グラフ [全文訳有]

A curated, ontology-based, large-scale knowledge graph of artificial intelligence tasks and benchmarks ( http://arxiv.org/abs/2110.01434v1 )

ライセンス: CC BY 4.0
Kathrin Blagec, Simon Ott, Adriano Barbosa da Silva, Matthias Samwald(参考訳) 人工知能(AI)の研究は、急速に増加するモデルや方法論を通じて、多くのタスクに対処している。 これにより、新しいAIメソッドがどこで(あるいはまだ成功していない)適用されたか、進捗の測定方法、進歩の相乗効果の方法、今後の研究の優先順位付け方法の追跡が困難になる。 これらの問題を解決するために、人工知能タスク、ベンチマーク結果、パフォーマンスメトリクスに関する包括的で、構造化され、手作業でキュレートされたリソースである、 intelligence task ontology and knowledge graph(ito)を作成しました。 現在のITOには、685,560エッジ、AIプロセスを表す1,100クラス、パフォーマンスメトリクスを表す1,995プロパティが含まれている。 ITOの目標は、AIタスクと能力のグローバルな状況の正確でネットワークベースの分析を可能にすることである。 ITOは、外部データとの統合や強化、自動推論、基礎となる存在論的モデルの継続的なエキスパートキュレーションを可能にする技術に基づいている。 ITOデータセットと、ITOを一般公開したJupyterノートブックのコレクションを作成します。

Research in artificial intelligence (AI) is addressing a growing number of tasks through a rapidly growing number of models and methodologies. This makes it difficult to keep track of where novel AI methods are successfully -- or still unsuccessfully -- applied, how progress is measured, how different advances might synergize with each other, and how future research should be prioritized. To help address these issues, we created the Intelligence Task Ontology and Knowledge Graph (ITO), a comprehensive, richly structured and manually curated resource on artificial intelligence tasks, benchmark results and performance metrics. The current version of ITO contain 685,560 edges, 1,100 classes representing AI processes and 1,995 properties representing performance metrics. The goal of ITO is to enable precise and network-based analyses of the global landscape of AI tasks and capabilities. ITO is based on technologies that allow for easy integration and enrichment with external data, automated inference and continuous, collaborative expert curation of underlying ontological models. We make the ITO dataset and a collection of Jupyter notebooks utilising ITO openly available.
翻訳日:2021-10-05 19:43:13 公開日:2021-10-04
# (参考訳) super-vised と self-supervised training による新規物体のオンライン視覚不変性学習

Learning Online Visual Invariances for Novel Objects via Super-vised and Self-Supervised Training ( http://arxiv.org/abs/2110.01476v1 )

ライセンス: CC BY-SA 4.0
Valerio Biscione and Jeffrey S. Bowers(参考訳) 人間は、スケールや視点といった様々な空間変換に従って物体を識別することができる。 これは、1つのポーズで1つのプレゼンテーションの後、しばしばオンライン不変性と呼ばれる新しいオブジェクトに拡張する。 cnnは人間の視覚の説得力のあるモデルとして提案されているが、変換を通してオブジェクトを識別する能力は通常、広範なデータ拡張の後、トレーニングされたカテゴリの保持されたサンプルでテストされる。 本稿では, 回転, スケーリング, 翻訳, 明るさ, コントラスト, 視点など, 様々な変換を行う合成3Dオブジェクトの画像を認識するためのトレーニングモデルにより, 標準的なCNNが人間のようなオンライン不変性をサポートできるかを評価する。 モデルの内部表現の分析を通して、変換されたオブジェクトにトレーニングされた標準教師付きcnnは、10クラスから50個のオブジェクトをトレーニングしても、新しいクラスで強い不変性を得ることができることを示した。 これは、実際のオブジェクトの写真の異なるデータセットに拡張された。 また、これらの不変性は、同じ/異なるタスクを解くことで、自己教師付きで取得できることを示す。 後者のアプローチは、人間が不変性を取得する方法と似ているかもしれない。

Humans can identify objects following various spatial transformations such as scale and viewpoint. This extends to novel objects, after a single presentation at a single pose, sometimes referred to as online invariance. CNNs have been proposed as a compelling model of human vision, but their ability to identify objects across transformations is typically tested on held-out samples of trained categories after extensive data augmentation. This paper assesses whether standard CNNs can support human-like online invariance by training models to recognize images of synthetic 3D objects that undergo several transformations: rotation, scaling, translation, brightness, contrast, and viewpoint. Through the analysis of models' internal representations, we show that standard supervised CNNs trained on transformed objects can acquire strong invariances on novel classes even when trained with as few as 50 objects taken from 10 classes. This extended to a different dataset of photographs of real objects. We also show that these invariances can be acquired in a self-supervised way, through solving the same/different task. We suggest that this latter approach may be similar to how humans acquire invariances.
翻訳日:2021-10-05 19:37:44 公開日:2021-10-04
# (参考訳) juribert: フランス語の法的テキストをマスクした言語モデル [全文訳有]

JuriBERT: A Masked-Language Model Adaptation for French Legal Text ( http://arxiv.org/abs/2110.01485v1 )

ライセンス: CC BY 4.0
Stella Douka, Hadi Abdine, Michalis Vazirgiannis, Rajaa El Hamdani, David Restrepo Amariles(参考訳) 言語モデルは特定のドメインに適応する際に非常に有用であることが証明されている。 それでも、フランス語におけるドメイン固有のBERTモデルの適応についてはほとんど研究されていない。 本稿では,法律専門家を支援することを目的として,フランス語法典に適合した言語モデルの作成に着目する。 いくつかの特定のタスクは、大量のデータに基づいて事前訓練された汎用言語モデルの恩恵を受けない。 ドメイン特化サブ言語におけるより小さなアーキテクチャの利用と、フランス語の法文に対するメリットについて検討する。 我々は、ドメイン固有の事前学習モデルが、法域における同等の一般化モデルよりも優れていることを証明した。 最後に、フランス法域に適合したBERTモデルの新しいセットであるJuriBERTをリリースする。

Language models have proven to be very useful when adapted to specific domains. Nonetheless, little research has been done on the adaptation of domain-specific BERT models in the French language. In this paper, we focus on creating a language model adapted to French legal text with the goal of helping law professionals. We conclude that some specific tasks do not benefit from generic language models pre-trained on large amounts of data. We explore the use of smaller architectures in domain-specific sub-languages and their benefits for French legal text. We prove that domain-specific pre-trained models can perform better than their equivalent generalised ones in the legal domain. Finally, we release JuriBERT, a new set of BERT models adapted to the French legal domain.
翻訳日:2021-10-05 19:35:48 公開日:2021-10-04
# (参考訳) 音響シーン分類におけるフェアネスとアンダー種別:分散評価の場合 [全文訳有]

Fairness and underspecification in acoustic scene classification: The case for disaggregated evaluations ( http://arxiv.org/abs/2110.01506v1 )

ライセンス: CC BY 4.0
Andreas Triantafyllopoulos, Manuel Milling, Konstantinos Drossos, Bj\"orn W. Schuller(参考訳) 機械学習(ML)アプリケーションにおける不明瞭さと公平さは、最近、MLコミュニティで2つの顕著な問題となっている。 音響シーン分類(ASC)の応用はいまだにこの議論の影響を受けていないが、現在、公正性と信頼性が重要視される現実のシステムでの利用が増えている。 本研究では,ASCモデルに対する非凝集評価によるより包括的な評価プロセスの必要性を論じる。 これは、都市、位置、記録装置など、いくつかの要因におけるパフォーマンスの差を考慮している。 これらの要因は、ASCモデルの性能においてよく理解されている役割を担っているが、ほとんどの研究は、特定のデータセットのすべての異なる層を考慮した単一の評価指標を報告している。 提案手法では,特定のサブ集団で計算されたメトリクスは,提案するシステムの実世界の振る舞いに関する貴重な情報を含んでおり,その報告によってシステムの透明性と信頼性が向上する可能性がある。 そこで本研究では,2つのascデータセット上でのトレーニングにおいて,複数の標準mlアーキテクチャが提示する下位分類と公平性問題の解明において,提案手法の有効性を実証する。 評価の結果, 調査対象のアーキテクチャは, 特に記録位置に関して, 考慮すべきすべての要因に大きく偏りがあることが判明した。 さらに、異なるアーキテクチャは、同じ実験的な構成でトレーニングされているにもかかわらず、異なるバイアスを示す。

Underspecification and fairness in machine learning (ML) applications have recently become two prominent issues in the ML community. Acoustic scene classification (ASC) applications have so far remained unaffected by this discussion, but are now becoming increasingly used in real-world systems where fairness and reliability are critical aspects. In this work, we argue for the need of a more holistic evaluation process for ASC models through disaggregated evaluations. This entails taking into account performance differences across several factors, such as city, location, and recording device. Although these factors play a well-understood role in the performance of ASC models, most works report single evaluation metrics taking into account all different strata of a particular dataset. We argue that metrics computed on specific sub-populations of the underlying data contain valuable information about the expected real-world behaviour of proposed systems, and their reporting could improve the transparency and trustability of such systems. We demonstrate the effectiveness of the proposed evaluation process in uncovering underspecification and fairness problems exhibited by several standard ML architectures when trained on two widely-used ASC datasets. Our evaluation shows that all examined architectures exhibit large biases across all factors taken into consideration, and in particular with respect to the recording location. Additionally, different architectures exhibit different biases even though they are trained with the same experimental configurations.
翻訳日:2021-10-05 19:27:56 公開日:2021-10-04
# (参考訳) 機械学習における離散確率性のためのGumbel-max Trickとその拡張 [全文訳有]

A Review of the Gumbel-max Trick and its Extensions for Discrete Stochasticity in Machine Learning ( http://arxiv.org/abs/2110.01515v1 )

ライセンス: CC BY 4.0
Iris A. M. Huijben, Wouter Kool, Max B. Paulus, Ruud J. G. van Sloun(参考訳) Gumbel-max トリック(Gumbel-max trick)は、その非正規化(log-)確率によって与えられるカテゴリ分布からサンプルを引き出す方法である。 過去数年間、機械学習コミュニティは、複数のサンプルの描画、構造化されたドメインからのサンプリング、ニューラルネットワーク最適化におけるエラーバックプロパゲーションの勾配推定など、このトリックのいくつかの拡張を提案した。 本研究の目的は,Gumbel-maxトリックの背景と,アルゴリズム選択を容易にするための拡張の構造化概要を提供することである。 さらに、Gumbelベースのアルゴリズムが活用され、一般的な設計選択をレビューし、将来の展望をスケッチする(機械学習)文献の概要を包括的に提示する。

The Gumbel-max trick is a method to draw a sample from a categorical distribution, given by its unnormalized (log-)probabilities. Over the past years, the machine learning community has proposed several extensions of this trick to facilitate, e.g., drawing multiple samples, sampling from structured domains, or gradient estimation for error backpropagation in neural network optimization. The goal of this survey article is to present background about the Gumbel-max trick, and to provide a structured overview of its extensions to ease algorithm selection. Moreover, it presents a comprehensive outline of (machine learning) literature in which Gumbel-based algorithms have been leveraged, reviews commonly-made design choices, and sketches a future perspective.
翻訳日:2021-10-05 19:15:14 公開日:2021-10-04
# (参考訳) 平衡マスクと標準顔認識 [全文訳有]

Balanced Masked and Standard Face Recognition ( http://arxiv.org/abs/2110.01521v1 )

ライセンス: CC BY 4.0
Delong Qi, Kangli Hu, Weijun Tan, Qi Yao, Jingfeng Liu(参考訳) ICCV2021のマスク付き顔認識チャレンジのWebfaceトラックとInsightface/Glint360 Kトラックのための改良されたネットワークアーキテクチャ、データ拡張、トレーニング戦略について述べる。 重要な目標のひとつは、マスキングと標準顔認識のバランスのとれたパフォーマンスを実現することだ。 マスク顔認証の過度な適合を防止するため,トレーニングデータセットにおける顔認識全体の10%以下でマスク顔の総数を制御する。 本稿では,新しいステムユニット,ドロップブロック,YOLO5Faceを用いた顔検出とアライメント,特徴連結,サイクルコサイン学習率など,顔認識ネットワークに対するいくつかの重要な変更を提案する。 この戦略により,マスクと標準顔認証の両面において,良好な,バランスの取れた性能が得られる。

We present the improved network architecture, data augmentation, and training strategies for the Webface track and Insightface/Glint360 K track of the masked face recognition challenge of ICCV2021. One of the key goals is to have a balanced performance of masked and standard face recognition. In order to prevent the overfitting for the masked face recognition, we control the total number of masked faces by not more than 10\% of the total face recognition in the training dataset. We propose a few key changes to the face recognition network including a new stem unit, drop block, face detection and alignment using YOLO5Face, feature concatenation, a cycle cosine learning rate, etc. With this strategy, we achieve good and balanced performance for both masked and standard face recognition.
翻訳日:2021-10-05 18:26:46 公開日:2021-10-04
# (参考訳) Deep Feature Consistent Variational Autoencoders を用いた網膜基底写真における緑内障の評価 [全文訳有]

Assessing glaucoma in retinal fundus photographs using Deep Feature Consistent Variational Autoencoders ( http://arxiv.org/abs/2110.01534v1 )

ライセンス: CC BY 4.0
Sayan Mandal, Alessandro A. Jammal and Felipe A. Medeiros(参考訳) 盲目の原因の1つは緑内障であり、症状が重くなるまで無症状のままでいるため、検出が困難である。 したがって、マーカーが容易に識別されるまで診断は可能であり、つまり、すでに損傷が発生している。 緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われる。 しかし、疾患の性質上、どのマーカーが一貫した緑内障の指標であるかはまだ議論されている。 このジレンマは、マーカー識別段階をバイパスし、高レベル情報を直接分析してデータを分類することで部分的に解決されている。 これらの手法は、モデル判別プロセスに関する洞察を得られないので、専門家による分析を困難にしている。 本稿では,複雑な高次元確率分布を学習する深層学習モデルである深層生成ネットワークを用いてこれを克服する。 我々は、光学ディスク画像の再構成のために、Deep Feature consistent Variational Autoencoder (DFC-VAE) を訓練する。 DFC-VAEから得られた小型潜伏空間は,高次元緑内障データ分布を学習し,正常眼と緑内障の鑑別的証拠を提供する。 また,本モデルでは,Support Vector Classifier を用いて学習した場合,受信機動作特性曲線の 0.885 領域を再現した。

One of the leading causes of blindness is glaucoma, which is challenging to detect since it remains asymptomatic until the symptoms are severe. Thus, diagnosis is usually possible until the markers are easy to identify, i.e., the damage has already occurred. Early identification of glaucoma is generally made based on functional, structural, and clinical assessments. However, due to the nature of the disease, researchers still debate which markers qualify as a consistent glaucoma metric. Deep learning methods have partially solved this dilemma by bypassing the marker identification stage and analyzing high-level information directly to classify the data. Although favorable, these methods make expert analysis difficult as they provide no insight into the model discrimination process. In this paper, we overcome this using deep generative networks, a deep learning model that learns complicated, high-dimensional probability distributions. We train a Deep Feature consistent Variational Autoencoder (DFC-VAE) to reconstruct optic disc images. We show that a small-sized latent space obtained from the DFC-VAE can learn the high-dimensional glaucoma data distribution and provide discriminatory evidence between normal and glaucoma eyes. Latent representations of size as low as 128 from our model got a 0.885 area under the receiver operating characteristic curve when trained with Support Vector Classifier.
翻訳日:2021-10-05 18:19:22 公開日:2021-10-04
# (参考訳) 個人金融問題におけるテーマ検出に向けて [全文訳有]

Towards Theme Detection in Personal Finance Questions ( http://arxiv.org/abs/2110.01550v1 )

ライセンス: CC BY 4.0
John Xi Qiu, Adam Faulkner, Aysu Ezen Can(参考訳) 銀行のコールセンターは毎年何百万回もコールを受け取り、これらのコールの情報は新規および新興のコールセンタートレンドを追跡することに関心のあるアナリストには利用できない。 そこで本研究では,StackExchangeの個人財務質問の公開コーパスを,トピックタグを持つユーザによってテストベッドとしてラベル付けすることで,複数のテーマの発生を検知するコールセンターテーマ検出手法を提案する。 一つの質問における複数のテーマの発生を捉えるために、このアプローチは質問レベルではなく、文中のクラスタをエンコードする。 また,文エンコーダのSBERTファミリを含む,最先端の文エンコーダモデルの比較を行った。 多クラス分類タスクとして評価を行い、原文テキスト、Universal Sentence Encoder、KMeansの単純な組み合わせにより、意味解析、SBERT- family model、HDBSCANを含むより高度な技術より優れていることを示す。 我々は,このタスクに対してマイクロF1を0.46で達成し,その結果,少しうるさい場合でも,クラスタに関連付けられたラベルとトポロジ的に一致した文を含むことを示す。

Banking call centers receive millions of calls annually, with much of the information in these calls unavailable to analysts interested in tracking new and emerging call center trends. In this study we present an approach to call center theme detection that captures the occurrence of multiple themes in a question, using a publicly available corpus of StackExchange personal finance questions, labeled by users with topic tags, as a testbed. To capture the occurrence of multiple themes in a single question, the approach encodes and clusters at the sentence- rather than question-level. We also present a comparison of state-of-the-art sentence encoding models, including the SBERT family of sentence encoders. We frame our evaluation as a multiclass classification task and show that a simple combination of the original sentence text, Universal Sentence Encoder, and KMeans outperforms more sophisticated techniques that involve semantic parsing, SBERT-family models, and HDBSCAN. Our highest performing approach achieves a Micro-F1 of 0.46 for this task and we show that the resulting clusters, even when slightly noisy, contain sentences that are topically consistent with the label associated with the cluster.
翻訳日:2021-10-05 18:06:00 公開日:2021-10-04
# (参考訳) 一般化カーネル薄片化 [全文訳有]

Generalized Kernel Thinning ( http://arxiv.org/abs/2110.01593v1 )

ライセンス: CC BY 4.0
Raaz Dwivedi, Lester Mackey(参考訳) Dwivedi と Mackey (2021) のカーネルシンニング (KT) アルゴリズムは、より滑らかでない平方根のカーネルを利用することで、ターゲットカーネル $\mathbf{k}$ に対するより優れたモンテカルト・カルロの最大平均誤差を、$\sqrt n$ポイントサマリに圧縮する。 ここでは4つの改善がある。 まず、KT をターゲットカーネルに直接適用すると、再生カーネルヒルベルト空間における各関数 $f$ に対して、より厳密な $\mathcal{O}(\sqrt{\log n/n})$積分誤差が生じることを示す。 この修正は、KT の到達範囲を任意のカーネルにまで拡大する -- 平方根を含まない非滑らかなカーネルでさえも、KT は重尾のターゲット分布にも適しており、指数次元依存性と標準平方根 KT の$(\log n)^{d/2}$因子を排除している。 第2に,gaussianやinverse multiquadricのような解析的カーネルでは,ターゲットカーネルktは,明示的な平方根カーネルを必要とせずに,正方根ktに匹敵する最大平均差(mmd)を保証する。 第3に、最小の$\alpha$-power カーネル $\mathbf{k}_{\alpha}$ for $\alpha > 1/2$ で kt を証明すれば、ラプラスや \matern のような正方根を持たない非スムースカーネルに対して、モンテカルロmmdよりも優れた保証が得られる。 第4に、KT が $\mathbf{k}$ と $\mathbf{k}_{\alpha}$ (KT+ と呼ぶ手順) の和に適用されたことが、改良された KT の MMD 保証と、ターゲットカーネル上の KT のより厳密な個々の関数保証を同時に継承することを確立する。 最後に,高次元独立サンプリング後の圧縮に対する標的ktとkt+の実用的効果を示し,マルコフ連鎖モンテカルロ後方推定に挑戦する。

The kernel thinning (KT) algorithm of Dwivedi and Mackey (2021) compresses an $n$ point distributional summary into a $\sqrt n$ point summary with better-than-Monte-Ca rlo maximum mean discrepancy for a target kernel $\mathbf{k}$ by leveraging a less smooth square-root kernel. Here we provide four improvements. First, we show that KT applied directly to the target kernel yields a tighter $\mathcal{O}(\sqrt{\log n/n})$ integration error bound for each function $f$ in the reproducing kernel Hilbert space. This modification extends the reach of KT to any kernel -- even non-smooth kernels that do not admit a square-root, demonstrates that KT is suitable even for heavy-tailed target distributions, and eliminates the exponential dimension-dependence and $(\log n)^{d/2}$ factors of standard square-root KT. Second, we show that, for analytic kernels, like Gaussian and inverse multiquadric, target kernel KT admits maximum mean discrepancy (MMD) guarantees comparable to square-root KT without the need for an explicit square-root kernel. Third, we prove KT with a fractional $\alpha$-power kernel $\mathbf{k}_{\alpha}$ for $\alpha > 1/2$ yields better-than-Monte-Ca rlo MMD guarantees for non-smooth kernels, like Laplace and \Matern, that do not have square-roots. Fourth, we establish that KT applied to a sum of $\mathbf{k}$ and $\mathbf{k}_{\alpha}$ (a procedure we call KT+) simultaneously inherits the improved MMD guarantees of power KT and the tighter individual function guarantees of KT on the target kernel. Finally, we illustrate the practical benefits of target KT and KT+ for compression after high-dimensional independent sampling and challenging Markov chain Monte Carlo posterior inference.
翻訳日:2021-10-05 17:55:27 公開日:2021-10-04
# (参考訳) 深部画像分類における最適化アルゴリズムの有効性 [全文訳有]

Effectiveness of Optimization Algorithms in Deep Image Classification ( http://arxiv.org/abs/2110.01598v1 )

ライセンス: CC BY 4.0
Zhaoyang Zhu, Haozhe Sun, Chi Zhang(参考訳) adamはニューラルネットワークのトレーニングに広く使われている。 異なる機能を持つ異なる種類のadamメソッドが登場します。 近年、AdaBeliefとPadamという2つの新しいダムオプティマイザがコミュニティに導入されている。 これら2つのadamオプティマイザを分析し,画像分類のシナリオにおいて,他の従来のオプティマイザ(adam,sgd + momentum)と比較する。 我々は,これらの最適化アルゴリズムの性能をAlexNet上で評価し,EMNISTデータセットを用いてVGGNet,ResNetの簡易バージョンを評価する。 (benchmarkアルゴリズムは \hyperref[https://github.com/c huiyunjun/projectcsc 413]{https://github.com/c huiyunjun/projectcsc 413})。

Adam is applied widely to train neural networks. Different kinds of Adam methods with different features pop out. Recently two new adam optimizers, AdaBelief and Padam are introduced among the community. We analyze these two adam optimizers and compare them with other conventional optimizers (Adam, SGD + Momentum) in the scenario of image classification. We evaluate the performance of these optimization algorithms on AlexNet and simplified versions of VGGNet, ResNet using the EMNIST dataset. (Benchmark algorithm is available at \hyperref[https://github.com/c huiyunjun/projectCSC 413]{https://github.com/c huiyunjun/projectCSC 413}).
翻訳日:2021-10-05 16:49:58 公開日:2021-10-04
# (参考訳) オープンドメイン質問応答のためのデンスパス検索のエンコーダ適応 [全文訳有]

Encoder Adaptation of Dense Passage Retrieval for Open-Domain Question Answering ( http://arxiv.org/abs/2110.01599v1 )

ライセンス: CC BY 4.0
Minghan Li, Jimmy Lin(参考訳) 密閉通路レトリバー(dpr)の1つの重要な特徴は、バイエンコーダの設計において別々の質問と通路エンコーダを使用することである。 DPRの一般化に関するこれまでの研究は、主にドメイン適応(Domain adapt)としても知られるOOD (Out-of-distriion) Question-Awering (QA) タスクのタンデムにおける両エンコーダのテストに重点を置いていた。 しかし、DPRの個別問合せエンコーダが一般化にどのように影響するかはいまだ不明である。 具体的には、他のドメインからのOODパス/問い合わせエンコーダと組み合わせた場合、IND/パスエンコーダがいかに一般化するかを知りたい。 この課題を \textit{encoder adaptation} と呼ぶ。 この質問に答えるために、ドメイン内およびドメイン外の問合せに関する5つのベンチマークQAデータセットから得られたDPRの問合せと通過エンコーダの異なる組み合わせを検査する。 その結果、パッセージエンコーダは一般化の下限により多くの影響を与え、クエスチョンエンコーダは一般に上界に影響を及ぼすように見える。 例えば、OODパスエンコーダの適用は通常、検索精度を損なうが、OOD質問エンコーダは時に精度を向上する。

One key feature of dense passage retrievers (DPR) is the use of separate question and passage encoder in a bi-encoder design. Previous work on generalization of DPR mainly focus on testing both encoders in tandem on out-of-distribution (OOD) question-answering (QA) tasks, which is also known as domain adaptation. However, it is still unknown how DPR's individual question/passage encoder affects generalization. Specifically, in this paper, we want to know how an in-distribution (IND) question/passage encoder would generalize if paired with an OOD passage/question encoder from another domain. We refer to this challenge as \textit{encoder adaptation}. To answer this question, we inspect different combinations of DPR's question and passage encoder learned from five benchmark QA datasets on both in-domain and out-of-domain questions. We find that the passage encoder has more influence on the lower bound of generalization while the question encoder seems to affect the upper bound in general. For example, applying an OOD passage encoder usually hurts the retrieval accuracy while an OOD question encoder sometimes even improves the accuracy.
翻訳日:2021-10-05 16:39:51 公開日:2021-10-04
# 潜在言語によるスキル誘導と計画

Skill Induction and Planning with Latent Language ( http://arxiv.org/abs/2110.01517v1 )

ライセンス: Link先を確認
Pratyusha Sharma, Antonio Torralba, Jacob Andreas(参考訳) 本稿では,分散自然言語アノテーションを用いて,自律的意思決定のための再利用可能なスキルの発見を指導し,実演から階層的ポリシを学ぶためのフレームワークを提案する。 我々は、目標が高レベルサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを作成し、これらの記述が低レベルアクションのシーケンスを生成する。 本論文では,実演を名前付きハイレベルなサブタスクのシーケンスに解析することで,主に無注釈のデモンストレーションを用いてモデルを訓練する方法について述べる。 訓練されたモデルでは、自然言語コマンドの空間はスキルの組合せライブラリをインデックス化しており、エージェントはこれらのスキルを使用して、新しい目標に合わせた高度な命令シーケンスを生成することができる。 実演の10%に自然言語アノテーションを提供するALFRED家庭シミュレーション環境において,本手法の評価を行った。 デモから学習する標準的な手法の2倍以上のタスクを完了し、訓練と評価の双方において、モデルに従う命令のパフォーマンスと地道的な計画へのアクセスとを一致させる。

We present a framework for learning hierarchical policies from demonstrations, using sparse natural language annotations to guide the discovery of reusable skills for autonomous decision-making. We formulate a generative model of action sequences in which goals generate sequences of high-level subtask descriptions, and these descriptions generate sequences of low-level actions. We describe how to train this model using primarily unannotated demonstrations by parsing demonstrations into sequences of named high-level subtasks, using only a small number of seed annotations to ground language in action. In trained models, the space of natural language commands indexes a combinatorial library of skills; agents can use these skills to plan by generating high-level instruction sequences tailored to novel goals. We evaluate this approach in the ALFRED household simulation environment, providing natural language annotations for only 10% of demonstrations. It completes more than twice as many tasks as a standard approach to learning from demonstrations, matching the performance of instruction following models with access to ground-truth plans during both training and evaluation.
翻訳日:2021-10-05 16:02:18 公開日:2021-10-04
# トピックを超えて:イベントシーケンスから潜在医療目標を発見する

Beyond Topics: Discovering Latent Healthcare Objectives from Event Sequences ( http://arxiv.org/abs/2110.01160v1 )

ライセンス: Link先を確認
Adrian Caruana, Madhushi Bandara, Daniel Catchpoole, Paul J Kennedy(参考訳) 臨床プロトコルと患者経路の有意義な理解は、医療結果の改善に役立つ。 電子健康記録(EHR)は、医療管理を強化するのに使用されるが、課題を提示する実際の治療行動を反映しており、プロトコルや経路はしばしば緩やかに定義され、要素はEHRに記録されず、拡張を複雑にしている。 この課題を解決するために、医療管理活動に関連する医療目的は、HRにおいて潜在トピックとして間接的に観察することができる。 Latent Dirichlet Allocation (LDA)のようなトピックモデルは、EHRデータの潜在パターンを特定するために使用される。 しかし、EHR配列の順序性や、個別の事象を個別に評価するわけではない。 我々の新しいアプローチであるCategorical Sequence Encoder (CaSE)はこれらの欠点に対処する。 EHRのシーケンシャルな性質は、CaSEのイベントレベルの表現によって捉えられ、潜伏する医療目的を明らかにする。 合成ERH配列では、CaSEは医療目的の特定においてLDAを最大37%上回っている。 現実世界のMIMIC-IIIデータセットでは、CaSEはプロトコルと経路開発を著しく強化する意味のある表現を識別する。

A meaningful understanding of clinical protocols and patient pathways helps improve healthcare outcomes. Electronic health records (EHR) reflect real-world treatment behaviours that are used to enhance healthcare management but present challenges; protocols and pathways are often loosely defined and with elements frequently not recorded in EHRs, complicating the enhancement. To solve this challenge, healthcare objectives associated with healthcare management activities can be indirectly observed in EHRs as latent topics. Topic models, such as Latent Dirichlet Allocation (LDA), are used to identify latent patterns in EHR data. However, they do not examine the ordered nature of EHR sequences, nor do they appraise individual events in isolation. Our novel approach, the Categorical Sequence Encoder (CaSE) addresses these shortcomings. The sequential nature of EHRs is captured by CaSE's event-level representations, revealing latent healthcare objectives. In synthetic EHR sequences, CaSE outperforms LDA by up to 37% at identifying healthcare objectives. In the real-world MIMIC-III dataset, CaSE identifies meaningful representations that could critically enhance protocol and pathway development.
翻訳日:2021-10-05 15:59:30 公開日:2021-10-04
# PTLMsは学校に行くべきだ - オープンブックとクローズドブックQAを評価するタスク

Perhaps PTLMs Should Go to School -- A Task to Assess Open Book and Closed Book QA ( http://arxiv.org/abs/2110.01552v1 )

ライセンス: Link先を確認
Manuel R. Ciosici, Joe Cecil, Alex Hedges, Dong-Ho Lee, Marjorie Freedman, Ralph Weischedel(参考訳) 私たちの目標は、質問応答と事前学習言語モデル(ptlms)に関する研究を刺激し、重要な教示文書(例えば、入門科目教科書やマニュアル)を理解するための新しいタスクとリーダーボードを提供することです。 PTLMは多くの質問応答タスクで大きな成功をおさめており、教師付きトレーニングがかなり行われた。 本稿では,社会科学(アメリカ政府2e)と人文科学(米国歴史学)の2つの大学レベルの導入テキスト,教科書作成者によるレビュー質問に基づく数百の真偽文,教科書の前半8章に基づく検証・開発試験,残りの教科書章に基づく盲検試験,最先端PTLMのベースライン結果を含む新しい課題を提案する。 質問はバランスが取れているため、ランダムなパフォーマンスは50%程度でなければならない。 BoolQで微調整されたT5は同じ性能を達成し、PTLMでは教科書の内容が事前に表現されていないことを示唆している。 教科書(すなわち、教科書をt5の事前学習に加えた)を受験すると、最も小さな改善(56%)が得られ、ptlmは教科書を「理解」していないかもしれない(あるいは、質問を誤解しているかもしれない)。 試験が開かれた場合(つまり、マシンが自動的に段落を取得してそれを使って質問に答えることができる)、パフォーマンスは(約60%)良くなります。

Our goal is to deliver a new task and leaderboard to stimulate research on question answering and pre-trained language models (PTLMs) to understand a significant instructional document, e.g., an introductory college textbook or a manual. PTLMs have shown great success in many question-answering tasks, given significant supervised training, but much less so in zero-shot settings. We propose a new task that includes two college-level introductory texts in the social sciences (American Government 2e) and humanities (U.S. History), hundreds of true/false statements based on review questions written by the textbook authors, validation/developme nt tests based on the first eight chapters of the textbooks, blind tests based on the remaining textbook chapters, and baseline results given state-of-the-art PTLMs. Since the questions are balanced, random performance should be ~50%. T5, fine-tuned with BoolQ achieves the same performance, suggesting that the textbook's content is not pre-represented in the PTLM. Taking the exam closed book, but having read the textbook (i.e., adding the textbook to T5's pre-training), yields at best minor improvement (56%), suggesting that the PTLM may not have "understood" the textbook (or perhaps misunderstood the questions). Performance is better (~60%) when the exam is taken open-book (i.e., allowing the machine to automatically retrieve a paragraph and use it to answer the question).
翻訳日:2021-10-05 15:59:13 公開日:2021-10-04
# 人物探索のためのコンテキストアウェア非教師付きクラスタリング

Context-Aware Unsupervised Clustering for Person Search ( http://arxiv.org/abs/2110.01341v1 )

ライセンス: Link先を確認
Byeong-Ju Han, Kuhyeun Ko, and Jae-Young Sim(参考訳) 既存の人物探索法は、人間識別の注釈付きラベルを使用して、人間のラベル付けに膨大な時間と労力を必要とする教師付き方法でディープネットワークを訓練する。 本稿では,まず,人物識別ラベルを使わずにネットワークをトレーニングできる新たな人物検索フレームワークを提案し,アノテートされた人物識別ラベルを用いた監視プロセスを代替する効率的な非教師付きクラスタリング手法を提案する。 具体的には,各画像中の特定の問合せ者に対して同一の同一性を持つ1人しか持たないという特異性特性に基づく,強い負のマイニング手法を提案する。 また,ある画像の隣人が他の画像に同時に現れる傾向にあることのコンテキスト情報を用いて,強烈な正のマイニング手法を提案する。 実験の結果,提案手法は最先端の教師付き人物探索法と同等の性能を示し,さらに,対象者探索データセットの非教師付き人物再同定法よりも優れていた。

The existing person search methods use the annotated labels of person identities to train deep networks in a supervised manner that requires a huge amount of time and effort for human labeling. In this paper, we first introduce a novel framework of person search that is able to train the network in the absence of the person identity labels, and propose efficient unsupervised clustering methods to substitute the supervision process using annotated person identity labels. Specifically, we propose a hard negative mining scheme based on the uniqueness property that only a single person has the same identity to a given query person in each image. We also propose a hard positive mining scheme by using the contextual information of co-appearance that neighboring persons in one image tend to appear simultaneously in other images. The experimental results show that the proposed method achieves comparable performance to that of the state-of-the-art supervised person search methods, and furthermore outperforms the extended unsupervised person re-identification methods on the benchmark person search datasets.
翻訳日:2021-10-05 15:57:26 公開日:2021-10-04
# マルチチャネルアテンションに基づく時空間グラフ畳み込みネットワークによる交通流予測

Traffic Flow Forecasting with Maintenance Downtime via Multi-Channel Attention-Based Spatio-Temporal Graph Convolutional Networks ( http://arxiv.org/abs/2110.01535v1 )

ライセンス: Link先を確認
Yuanjie Lu, Parastoo Kamranfar, David Lattanzi, Amarda Shehu(参考訳) 交通流の予測は、インテリジェント交通システム管理における中心的な課題である。 グラフ構造は、グラフ畳み込みニューラルネットワークによる時空間モデリングの最近の進歩、パフォーマンスの向上、トラフィックフローの予測地平線の拡張など、モデリングフレームワークとして期待されている。 しかしながら、最先端手法の重要な欠点は、メンテナンスダウンタイムがトラフィックフローに与える影響など、さまざまなモダリティの情報を考慮することができないことだ。 これは我々が本稿で取り上げている問題です。 具体的には,建設工事の影響を考慮した交通速度予測モデルを提案する。 このモデルは、強力な注目に基づく時空間グラフ畳み込みアーキテクチャに基づいているが、様々なチャネルを利用して異なる情報ソースを統合し、トラフィック状態間の時空間依存性を明確に構築し、異種道路網間の関係を捉え、メンテナンスダウンタイムイベントによるトラフィックフローの変化を予測する。 このモデルは、2つのベンチマークデータセットと、北バージニアのTysonのコーナーで収集した新しいデータセットで評価されている。 広汎な比較実験とアブレーション実験により,提案モデルが輸送路を横断する複雑で非線形な時空間的関係を捉えることができ,ベースラインモデルよりも優れていた。

Forecasting traffic flows is a central task in intelligent transportation system management. Graph structures have shown promise as a modeling framework, with recent advances in spatio-temporal modeling via graph convolution neural networks, improving the performance or extending the prediction horizon on traffic flows. However, a key shortcoming of state-of-the-art methods is their inability to take into account information of various modalities, for instance the impact of maintenance downtime on traffic flows. This is the issue we address in this paper. Specifically, we propose a novel model to predict traffic speed under the impact of construction work. The model is based on the powerful attention-based spatio-temporal graph convolution architecture but utilizes various channels to integrate different sources of information, explicitly builds spatio-temporal dependencies among traffic states, captures the relationships between heterogeneous roadway networks, and then predicts changes in traffic flow resulting from maintenance downtime events. The model is evaluated on two benchmark datasets and a novel dataset we have collected over the bustling Tyson's corner region in Northern Virginia. Extensive comparative experiments and ablation studies show that the proposed model can capture complex and nonlinear spatio-temporal relationships across a transportation corridor, outperforming baseline models.
翻訳日:2021-10-05 15:56:49 公開日:2021-10-04
# 一貫性規則化はラベルノイズに対するロバスト性を改善する

Consistency Regularization Can Improve Robustness to Label Noise ( http://arxiv.org/abs/2110.01242v1 )

ライセンス: Link先を確認
Erik Englesson, Hossein Azizpour(参考訳) 一貫性規則化(Consistency regularization)は、半教師あり自己教師あり学習のための一般的なテクニックである。 これは、観測されたトレーニングサンプルの近傍で類似したネットワークの予測を促進する補助的目的関数である。 Hendrycks et al. (2020) は、最近そのような正規化が自然に、破損したデータにテスト時の堅牢性をもたらし、校正に役立つことを示した。 本稿では,雑音ラベルに対するトレーニング時ロバスト性に対する整合正則化の関連を実験的に検討する。 まず,標準クロスエントロピー損失をトレーニングしたネットワークの一貫性について,以下の2つの興味深い,有用な観察を行う。 i)ノイズデータでトレーニングされたネットワークは、クリーンデータでトレーニングされたネットワークよりも一貫性が低い。 (ii)ノイズラベルトレーニングデータポイントの一貫性は、正しくラベルされたデータポイントよりも大幅に低下する。 そして, 整合性を促進する単純な損失関数により, 合成ノイズ(CIFAR-10, CIFAR-100)と実世界のノイズ(WebVision)の両方にラベル付けし, 異なるノイズ率と型を付与し, 最新の結果が得られることを示す。

Consistency regularization is a commonly-used technique for semi-supervised and self-supervised learning. It is an auxiliary objective function that encourages the prediction of the network to be similar in the vicinity of the observed training samples. Hendrycks et al. (2020) have recently shown such regularization naturally brings test-time robustness to corrupted data and helps with calibration. This paper empirically studies the relevance of consistency regularization for training-time robustness to noisy labels. First, we make two interesting and useful observations regarding the consistency of networks trained with the standard cross entropy loss on noisy datasets which are: (i) networks trained on noisy data have lower consistency than those trained on clean data, and(ii) the consistency reduces more significantly around noisy-labelled training data points than correctly-labelled ones. Then, we show that a simple loss function that encourages consistency improves the robustness of the models to label noise on both synthetic (CIFAR-10, CIFAR-100) and real-world (WebVision) noise as well as different noise rates and types and achieves state-of-the-art results.
翻訳日:2021-10-05 15:56:24 公開日:2021-10-04
# テキスト自動パーソナリティ予測における最新技術

The state-of-the-art in text-based automatic personality prediction ( http://arxiv.org/abs/2110.01186v1 )

ライセンス: Link先を確認
Ali-Reza Feizi-Derakhshi, Mohammad-Reza Feizi-Derakhshi, Majid Ramezani, Narjes Nikzad-Khasmakhi, Meysam Asgari-Chenaghlu, Taymaz Akan (Rahkar-Farshi), Mehrdad Ranjbar-Khadivi, Elnaz Zafarni-Moattar, Zoleikha Jahanbakhsh-Naghadeh (参考訳) パーソナリティ検出(Personality detection)は心理学における古い話題であり、自動パーソナリティ予測(Personality Prediction, APP)は、人間の生成/交換されたさまざまなコンテンツ(テキスト、音声、画像、ビデオなど)の人格を自動(計算的に)予測するものである。 本研究の主な目的は,2010年以降のAPPにおける自然言語処理アプローチの浅い(すべて)レビューを提供することである。 深層学習の出現とNLPにおける伝達学習および事前学習モデルの導入により、APP研究領域はホットな話題となり、本レビューでは、事前学習された独立した事前学習モデルに基づくマルチモーダルアプローチの3つに分類される。 また、総合的な比較を行うために、報告された結果をデータセットによって報知する。

Personality detection is an old topic in psychology and Automatic Personality Prediction (or Perception) (APP) is the automated (computationally) forecasting of the personality on different types of human generated/exchanged contents (such as text, speech, image, video). The principal objective of this study is to offer a shallow (overall) review of natural language processing approaches on APP since 2010. With the advent of deep learning and following it transfer-learning and pre-trained model in NLP, APP research area has been a hot topic, so in this review, methods are categorized into three; pre-trained independent, pre-trained model based, multimodal approaches. Also, to achieve a comprehensive comparison, reported results are informed by datasets.
翻訳日:2021-10-05 15:55:28 公開日:2021-10-04
# deepa2:ニューラルネットワークtext2text言語モデルによる深層引数解析のためのモジュラーフレームワーク

DeepA2: A Modular Framework for Deep Argument Analysis with Pretrained Neural Text2Text Language Models ( http://arxiv.org/abs/2110.01509v1 )

ライセンス: Link先を確認
Gregor Betz and Kyle Richardson(参考訳) 本稿では,現在の事前学習言語モデル(ptlms)を用いた深層引数解析(deepa2)を行うための多次元モジュール型フレームワークを提案する。 argumentanalyst - deepa2内で設定およびトレーニングされたt5モデル (raffel et al. 2020) -- は、非公式な議論を進める議論テキストを正当な引数として再構築する。 我々は、深層引数解析のための合成コーパスを作成し、この新しいデータセットと既存のデータ、特にentailmentbank(dalvi et al. 2021)に関する議論分析を行う。 我々の経験的発見は、全体の枠組みを肯定し、モジュラーデザインの利点、特に確立されたヒューリスティックス(hermeneutic cyclesなど)をエミュレートし、モデルの不確かさを探求し、複数の正しい解に対処し(不確定)、高次証拠を活用できる能力を強調している。

In this paper, we present and implement a multi-dimensional, modular framework for performing deep argument analysis (DeepA2) using current pre-trained language models (PTLMs). ArgumentAnalyst -- a T5 model (Raffel et al. 2020) set up and trained within DeepA2 -- reconstructs argumentative texts, which advance an informal argumentation, as valid arguments: It inserts, e.g., missing premises and conclusions, formalizes inferences, and coherently links the logical reconstruction to the source text. We create a synthetic corpus for deep argument analysis, and evaluate ArgumentAnalyst on this new dataset as well as on existing data, specifically EntailmentBank (Dalvi et al. 2021). Our empirical findings vindicate the overall framework and highlight the advantages of a modular design, in particular its ability to emulate established heuristics (such as hermeneutic cycles), to explore the model's uncertainty, to cope with the plurality of correct solutions (underdetermination) , and to exploit higher-order evidence.
翻訳日:2021-10-05 15:55:12 公開日:2021-10-04
# ローサム:インドの法律文書要約に関する弱い監督的アプローチ

LawSum: A weakly supervised approach for Indian Legal Document Summarization ( http://arxiv.org/abs/2110.01188v1 )

ライセンス: Link先を確認
Vedant Parikh, Vidit Mathur, Parth Metha, Nimita Mittal, Prasenjit Majumder(参考訳) 西側諸国の裁判所とは異なり、インド司法の公的な記録は完全に非構造的でうるさい。 インドの法律文書の注釈付きデータセットは、現在まで存在しない。 これは法的分析研究の範囲を制限する。 本研究では,インド最高裁判所とそれに対応する手書き要約による1万件以上の判決からなる新たなデータセットを提案する。 提案されたデータセットは、一般的な法的略語を標準化し、名前付きエンティティの綴りのバリエーションを扱い、悪い句読点を扱い、正確な文のトークン化を行う。 各文は修辞的役割でタグ付けされる。 また、判決には日付、原告の名前、被告人、その代表者、判決を提出した裁判官、引用される行為・法令、そして判決を引用する最も一般的な引用など、いくつかの属性を注釈付けします。 さらに,要約に値する情報を持つ文を識別する自動ラベリング手法を提案する。 この自動ラベル付きデータは、弱教師付き文抽出器を高精度に訓練するのに有効であることを示す。 このデータセットの法的な文書要約以外のいくつかの応用は、特定の裁判官による決定の検索、引用分析、予測に応用できる。

Unlike the courts in western countries, public records of Indian judiciary are completely unstructured and noisy. No large scale publicly available annotated datasets of Indian legal documents exist till date. This limits the scope for legal analytics research. In this work, we propose a new dataset consisting of over 10,000 judgements delivered by the supreme court of India and their corresponding hand written summaries. The proposed dataset is pre-processed by normalising common legal abbreviations, handling spelling variations in named entities, handling bad punctuations and accurate sentence tokenization. Each sentence is tagged with their rhetorical roles. We also annotate each judgement with several attributes like date, names of the plaintiffs, defendants and the people representing them, judges who delivered the judgement, acts/statutes that are cited and the most common citations used to refer the judgement. Further, we propose an automatic labelling technique for identifying sentences which have summary worthy information. We demonstrate that this auto labeled data can be used effectively to train a weakly supervised sentence extractor with high accuracy. Some possible applications of this dataset besides legal document summarization can be in retrieval, citation analysis and prediction of decisions by a particular judge.
翻訳日:2021-10-05 15:54:06 公開日:2021-10-04
# Git: インテンシティトポロジのグラフに基づくクラスタリング

Git: Clustering Based on Graph of Intensity Topology ( http://arxiv.org/abs/2110.01274v1 )

ライセンス: Link先を確認
Zhangyang Gao, Haitao Lin, Cheng Tan, Lirong Wu, Stan. Z Li(参考訳) ノイズとスケールに対する \textbf{R}obustness, \textbf{I}nterpretability, \textbf{S}peed, \textbf{E}asy to use (ARISE) は優れたクラスタリングアルゴリズムの重要な要件である。 しかし、これらの目標を同時に達成することは困難であり、ほとんどの先進的なアプローチはそれらの部分のみに焦点を当てている。 これらの側面を総合的に検討するために,git( \textbf{g}raph of \textbf{i}ntensity \textbf{t}opology)と呼ばれる新しいクラスタリングアルゴリズムを提案する。 GITは、まずサンプルの強度ピークに基づいて局所クラスタを形成し、次にこれらの局所クラスタ間のグローバルトポロジカルグラフ(トポグラフ)を推定する。 予測クラスと先行クラス間のワッサースタイン距離を用いて,トポグラフのノイズエッジを自動的に切断し,連結した局所クラスタを最終クラスタとしてマージする。 そして、GITを5つの合成データセットと9つの実世界のデータセットで競合する7つのアルゴリズムと比較する。 高速な局所クラスタ検出、堅牢なトポグラフの構築、エッジカットにより、GITは魅力的なARISE性能を示し、他の非凸クラスタリング手法を大幅に上回る。 例えば、GIT は MNIST と FashionMNIST で 10\%$ (F1-score) を上回ります。 コードはcolor{red}{https://github.com/g aozhangyang/git}で入手できる。

\textbf{A}ccuracy, \textbf{R}obustness to noises and scales, \textbf{I}nterpretability, \textbf{S}peed, and \textbf{E}asy to use (ARISE) are crucial requirements of a good clustering algorithm. However, achieving these goals simultaneously is challenging, and most advanced approaches only focus on parts of them. Towards an overall consideration of these aspects, we propose a novel clustering algorithm, namely GIT (Clustering Based on \textbf{G}raph of \textbf{I}ntensity \textbf{T}opology). GIT considers both local and global data structures: firstly forming local clusters based on intensity peaks of samples, and then estimating the global topological graph (topo-graph) between these local clusters. We use the Wasserstein Distance between the predicted and prior class proportions to automatically cut noisy edges in the topo-graph and merge connected local clusters as final clusters. Then, we compare GIT with seven competing algorithms on five synthetic datasets and nine real-world datasets. With fast local cluster detection, robust topo-graph construction and accurate edge-cutting, GIT shows attractive ARISE performance and significantly exceeds other non-convex clustering methods. For example, GIT outperforms its counterparts about $10\%$ (F1-score) on MNIST and FashionMNIST. Code is available at \color{red}{https://github.com/g aozhangyang/GIT}.
翻訳日:2021-10-05 15:52:11 公開日:2021-10-04
# 深層強化学習を用いたマルチエージェントパス計画

Multi-Agent Path Planning Using Deep Reinforcement Learning ( http://arxiv.org/abs/2110.01460v1 )

ライセンス: Link先を確認
Mert \c{C}etinkaya(参考訳) 本稿では,深層補強型マルチエージェント経路計画手法を提案する。 実験はシミュレーション環境で実現され、この環境では異なるマルチエージェント経路計画問題が発生する。 生成した問題は実際に車両経路問題と類似しており、多エージェント深部強化学習を用いて解かれる。 シミュレーション環境では、この方法で異なる連続問題に基づいてモデルを訓練し、時間経過とともに、その問題を解決するためのモデルの性能が増大することが観察される。 常に同じシミュレーション環境を使用し、訪問するエージェントのターゲットポイントの位置だけを変更する。 これは、エピソードが通過するにつれて、その環境と問題に対する正しい態度を学ぶモデルに寄与する。 最終的に、この環境で経路計画やルーティングの問題を解決するために既に多くのことを学んだモデルが得られ、このモデルは、トレーニングなしでも、与えられた未知の問題に対して、優しく即時に解決できる。 ルーティング問題では、標準的な数学的モデリングやヒューリスティックスは解を見つけるのに高い計算時間に悩まされ、また、即時解を見つけることも困難かつ重要である。 本稿では,これらの点に対する新しい解法を提案し,その効率を実験的に証明する。

In this paper a deep reinforcement based multi-agent path planning approach is introduced. The experiments are realized in a simulation environment and in this environment different multi-agent path planning problems are produced. The produced problems are actually similar to a vehicle routing problem and they are solved using multi-agent deep reinforcement learning. In the simulation environment, the model is trained on different consecutive problems in this way and, as the time passes, it is observed that the model's performance to solve a problem increases. Always the same simulation environment is used and only the location of target points for the agents to visit is changed. This contributes the model to learn its environment and the right attitude against a problem as the episodes pass. At the end, a model who has already learned a lot to solve a path planning or routing problem in this environment is obtained and this model can already find a nice and instant solution to a given unseen problem even without any training. In routing problems, standard mathematical modeling or heuristics seem to suffer from high computational time to find the solution and it is also difficult and critical to find an instant solution. In this paper a new solution method against these points is proposed and its efficiency is proven experimentally.
翻訳日:2021-10-05 15:50:58 公開日:2021-10-04
# 多様性Qアンサンブルを用いた不確実性に基づくオフライン強化学習

Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble ( http://arxiv.org/abs/2110.01548v1 )

ライセンス: Link先を確認
Gaon An, Seungyong Moon, Jang-Hyun Kim, Hyun Oh Song(参考訳) オフライン強化学習(オフラインRL)は、以前に収集した静的データセットから最適なポリシーを見つけることを目的としており、オフ・オブ・ディストリビューション(OOD)データポイントからの関数近似誤差によるアルゴリズム上の困難を伴っている。 この目的のために、オフラインrlアルゴリズムは、与えられたデータセットに近づくようにポリシーを明示的に指示する制約またはペナルティ用語を採用する。 しかし、従来の手法では、行動ポリシーの正確な推定やoodデータポイントからのサンプリングが必要であり、それ自体は非自明な問題である。 さらに、これらの手法はディープニューラルネットワークの一般化能力を過小評価し、しばしば与えられたデータセットに近すぎる最適なサブ最適解に陥る。 本研究では,q値予測の信頼性を考慮し,データ分布の推定やサンプリングを必要としない,不確実性に基づくオフラインrl手法を提案する。 オンラインRLで広く使われているクリッピングQ-ラーニングは,高い予測不確実性を伴うOODデータポイントのペナルティ化に有効であることを示す。 意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。 そこで本研究では,d4rlベンチマークのほとんどにおいて最先端性能を実現しつつ,必要なアンサンブルネットワーク数を10分の1まで削減するアンサンブル分散アクタ-クリティックアルゴリズムを提案する。

Offline reinforcement learning (offline RL), which aims to find an optimal policy from a previously collected static dataset, bears algorithmic difficulties due to function approximation errors from out-of-distribution (OOD) data points. To this end, offline RL algorithms adopt either a constraint or a penalty term that explicitly guides the policy to stay close to the given dataset. However, prior methods typically require accurate estimation of the behavior policy or sampling from OOD data points, which themselves can be a non-trivial problem. Moreover, these methods under-utilize the generalization ability of deep neural networks and often fall into suboptimal solutions too close to the given dataset. In this work, we propose an uncertainty-based offline RL method that takes into account the confidence of the Q-value prediction and does not require any estimation or sampling of the data distribution. We show that the clipped Q-learning, a technique widely used in online RL, can be leveraged to successfully penalize OOD data points with high prediction uncertainties. Surprisingly, we find that it is possible to substantially outperform existing offline RL methods on various tasks by simply increasing the number of Q-networks along with the clipped Q-learning. Based on this observation, we propose an ensemble-diversified actor-critic algorithm that reduces the number of required ensemble networks down to a tenth compared to the naive ensemble while achieving state-of-the-art performance on most of the D4RL benchmarks considered
翻訳日:2021-10-05 15:50:39 公開日:2021-10-04
# 暗黙のリーマン的凸ポテンシャル写像

Implicit Riemannian Concave Potential Maps ( http://arxiv.org/abs/2110.01288v1 )

ライセンス: Link先を確認
Danilo J. Rezende, S\'ebastien Racani\`ere(参考訳) 我々は、正規化フローを用いた既知の対称性群を持つリーマン多様体上のモデリング密度の問題に興味を持っている。 これは分子動力学や量子シミュレーションのような物理科学に多くの潜在的応用がある。 この研究では、暗黙のニューラルネットワーク層と最適輸送理論のアイデアを組み合わせて、指数写像フローに関する既存の研究の一般化を提案し、Implicit Riemannian Concave Potential Maps, IRCPMs。 ircpmは対称性を組み込むシンプルさのような優れた特性を持ち、odeフローよりも安価である。 安定な最適化のための特性とレイアウト条件に関する初期理論的解析を行う。 最後に, トリおよび球面上の密度推定実験によるIRCPMの特性について述べる。

We are interested in the challenging problem of modelling densities on Riemannian manifolds with a known symmetry group using normalising flows. This has many potential applications in physical sciences such as molecular dynamics and quantum simulations. In this work we combine ideas from implicit neural layers and optimal transport theory to propose a generalisation of existing work on exponential map flows, Implicit Riemannian Concave Potential Maps, IRCPMs. IRCPMs have some nice properties such as simplicity of incorporating symmetries and are less expensive than ODE-flows. We provide an initial theoretical analysis of its properties and layout sufficient conditions for stable optimisation. Finally, we illustrate the properties of IRCPMs with density estimation experiments on tori and spheres.
翻訳日:2021-10-05 15:49:22 公開日:2021-10-04
# 微分スプライン近似

Differentiable Spline Approximations ( http://arxiv.org/abs/2110.01532v1 )

ライセンス: Link先を確認
Minsu Cho, Aditya Balu, Ameya Joshi, Anjana Deva Prasad, Biswajit Khara, Soumik Sarkar, Baskar Ganapathysubramanian , Adarsh Krishnamurthy, Chinmay Hegde(参考訳) 微分可能プログラミングのパラダイムは、勾配に基づく最適化の司法的利用を通じて機械学習のスコープを大幅に強化した。 しかしながら、標準的な微分可能プログラミング手法(autodiffなど)では、通常、機械学習モデルは微分可能で、その適用性を制限する必要がある。 本論文の目的は,スプラインによってモデル化された関数に勾配に基づく最適化を拡張するための,新しい原理的アプローチを使用することである。 そのような関数の(弱)ヤコビアンの形を導出し、暗黙的かつ効率的に計算できるブロックスパース構造を示すことを示す。 全体として、この再設計されたヤコビアンを予測モデルにおける微分可能な「層」の形で活用することで、画像分割、3次元点雲再構成、有限要素解析などの多様なアプリケーションの性能が向上することを示す。

The paradigm of differentiable programming has significantly enhanced the scope of machine learning via the judicious use of gradient-based optimization. However, standard differentiable programming methods (such as autodiff) typically require that the machine learning models be differentiable, limiting their applicability. Our goal in this paper is to use a new, principled approach to extend gradient-based optimization to functions well modeled by splines, which encompass a large family of piecewise polynomial models. We derive the form of the (weak) Jacobian of such functions and show that it exhibits a block-sparse structure that can be computed implicitly and efficiently. Overall, we show that leveraging this redesigned Jacobian in the form of a differentiable "layer" in predictive models leads to improved performance in diverse applications such as image segmentation, 3D point cloud reconstruction, and finite element analysis.
翻訳日:2021-10-05 15:49:12 公開日:2021-10-04
# ブラックボックス学習アルゴリズムのための情報理論一般化境界

Information-theoreti c generalization bounds for black-box learning algorithms ( http://arxiv.org/abs/2110.01584v1 )

ライセンス: Link先を確認
Hrayr Harutyunyan, Maxim Raginsky, Greg Ver Steeg, Aram Galstyan(参考訳) 学習アルゴリズムの出力ではなく、予測に含まれる情報に基づいて教師付き学習アルゴリズムにおける情報理論的一般化境界を導出する。 これらの境界は、既存の情報理論境界よりも改善され、より広い範囲のアルゴリズムに適用でき、2つの重要な課題を解決する。 a)決定論的アルゴリズムに有意義な結果を与え (b)推定は極めて容易である。 深層学習における実用シナリオにおいて,提案する境界は一般化ギャップに密接に従っていることを実験的に示す。

We derive information-theoreti c generalization bounds for supervised learning algorithms based on the information contained in predictions rather than in the output of the training algorithm. These bounds improve over the existing information-theoreti c bounds, are applicable to a wider range of algorithms, and solve two key challenges: (a) they give meaningful results for deterministic algorithms and (b) they are significantly easier to estimate. We show experimentally that the proposed bounds closely follow the generalization gap in practical scenarios for deep learning.
翻訳日:2021-10-05 15:48:58 公開日:2021-10-04
# 分類のための注意ネットワークへの四元表現の追加

Adding Quaternion Representations to Attention Networks for Classification ( http://arxiv.org/abs/2110.01185v1 )

ライセンス: Link先を確認
Nazmul Shahadat and Anthony S. Maida(参考訳) 本稿では, 画像分類精度を向上させるために, 軸アテンションネットワークを改良した。 この修正は、画像分類精度を向上させるために、四元数入力表現で軸接続モジュールを補うことを含む。 我々は,2次元注意操作を2つの連続した1次元操作(分離可能な畳み込みに似ている)に分解し,非軸性注意ネットワークよりも資源集約性が低いため,軸性注意ネットワークを選択した。 4つの実数値入力チャネル間で重みを共有するため、四元エンコーダを選択しました。 我々は、これらの相互リンク表現を入力として、アテンションモジュールがより効果的であると仮定する。 本実験は, 標準軸アテンションネットワークと比較して, 分類精度の向上を反映したこの仮説を支持する。 注意モジュールは、より優れた入力表現を持つので、これは起こります。

This paper introduces a novel modification to axial-attention networks to improve their image classification accuracy. The modification involves supplementing axial-attention modules with quaternion input representations to improve image classification accuracy. We chose axial-attention networks because they factor 2D attention operations into two consecutive 1D operations (similar to separable convolution) and are thus less resource intensive than non-axial attention networks. We chose a quaternion encoder because of they share weights across four real-valued input channels and the weight-sharing has been shown to produce a more interlinked/interwov en output representation. We hypothesize that an attention module can be more effective using these interlinked representations as input. Our experiments support this hypothesis as reflected in the improved classification accuracy compared to standard axial-attention networks. We think this happens because the attention modules have better input representations to work with.
翻訳日:2021-10-05 15:47:36 公開日:2021-10-04
# 類似学習を用いた変分オートエンコーダを用いたインクリメンタルクラス学習

Incremental Class Learning using Variational Autoencoders with Similarity Learning ( http://arxiv.org/abs/2110.01303v1 )

ライセンス: Link先を確認
Jiahao Huo, Terence L. van Zyl(参考訳) インクリメンタル学習中のニューラルネットワークの破滅的な忘れ方はまだ難しい問題である。 以前の研究では、完全に接続されたネットワークにおける破滅的な忘れを調査し、アクティベーション機能や学習アルゴリズムを探求していた。 ニューラルネットワークの応用は、類似性とメトリック学習を含むように拡張されている。 計量学習損失関数が破滅的忘れによってどのように影響を受けるかを理解することは重要な関心事である。 本研究は,段階的な授業学習における4つの有名な計量に基づく損失関数の破滅的忘れについて検討する。 損失関数は、角、コントラスト、中心、三重項損失である。 その結果,複数データセットの損失関数間で壊滅的忘れる確率が異なることがわかった。 角損失はほとんど影響を受けず, 対照的に3重項損失, 中心損失は良好な鉱業技術であった。 既存のインクリメンタル学習技術であるiCARL, EWC, EBLLを実装した。 さらに,ネットワークの中間層を通過した表現を生成するために,VAEを用いた新しい手法を提案する。 本手法は既存の3つの手法を上回った。 類似性学習を伴う漸進学習において,記憶されたイメージを模範として必要としないことを示す。 生成された表現は、事前知識が使用する埋め込み空間の領域を保存するのに役立つため、新しい知識が事前知識を"上書き"しない。

Catastrophic forgetting in neural networks during incremental learning remains a challenging problem. Previous research investigated catastrophic forgetting in fully connected networks, with some earlier work exploring activation functions and learning algorithms. Applications of neural networks have been extended to include similarity and metric learning. It is of significant interest to understand how metric learning loss functions would be affected by catastrophic forgetting. Our research investigates catastrophic forgetting for four well-known metric-based loss functions during incremental class learning. The loss functions are angular, contrastive, centre, and triplet loss. Our results show that the rate of catastrophic forgetting is different across loss functions on multiple datasets. The angular loss was least affected, followed by contrastive, triplet loss, and centre loss with good mining techniques. We implemented three existing incremental learning techniques, iCARL, EWC, and EBLL. We further proposed our novel technique using VAEs to generate representation as exemplars that are passed through intermediate layers of the network. Our method outperformed the three existing techniques. We have shown that we do not require stored images as exemplars for incremental learning with similarity learning. The generated representations can help preserve regions of the embedding space used by prior knowledge so that new knowledge will not "overwrite" prior knowledge.
翻訳日:2021-10-05 15:47:20 公開日:2021-10-04
# 領域一般化のための楽器変数とのドメイン不変性学習

Learning Domain-Invariant Relationship with Instrumental Variable for Domain Generalization ( http://arxiv.org/abs/2110.01438v1 )

ライセンス: Link先を確認
Junkun Yuan, Xu Ma, Kun Kuang, Ruoxuan Xiong, Mingming Gong, Lanfen Lin(参考訳) ドメイン一般化(DG)は、複数のソースドメインから、見えないターゲットドメインをうまく一般化するモデルを学ぶことを目的としている。 既存の手法は主に不変辺分布を持つ入力特徴表現を学習するが、条件分布の不変性は未知領域一般化においてより不可欠である。 本稿では,条件分布に含まれる入力特徴とラベル間のドメイン不変関係を学習するための変数ベース手法を提案する。 興味深いことに、データ生成プロセスの因果的ビューでは、あるドメインの入力特徴が他のドメインに対して有効なインストゥルメンタル変数であることが分かる。 この発見に触発されて、我々は2段階IV法によるDomain-invariant Relationship with Instrumental VariablE (DRIVE)を学習するための、シンプルで効果的なフレームワークを設計した。 具体的には、まず、あるドメインの入力特徴の条件分布を学習し、次に学習された条件分布とラベルを予測することにより、ドメインと不変の関係を推定する。 シミュレーション実験により,提案手法がドメイン不変関係を正確に捉えることを示す。 いくつかのデータセットに対する大規模な実験は、DRIVEが最先端の結果をもたらすことを一貫して示している。

Domain generalization (DG) aims to learn from multiple source domains a model that generalizes well on unseen target domains. Existing methods mainly learn input feature representations with invariant marginal distribution, while the invariance of the conditional distribution is more essential for unknown domain generalization. This paper proposes an instrumental variable-based approach to learn the domain-invariant relationship between input features and labels contained in the conditional distribution. Interestingly, with a causal view on the data generating process, we find that the input features of one domain are valid instrumental variables for other domains. Inspired by this finding, we design a simple yet effective framework to learn the Domain-invariant Relationship with Instrumental VariablE (DRIVE) via a two-stage IV method. Specifically, it first learns the conditional distribution of input features of one domain given input features of another domain, and then it estimates the domain-invariant relationship by predicting labels with the learned conditional distribution. Simulation experiments show the proposed method accurately captures the domain-invariant relationship. Extensive experiments on several datasets consistently demonstrate that DRIVE yields state-of-the-art results.
翻訳日:2021-10-05 15:46:45 公開日:2021-10-04
# 予測情報を用いた入力特徴の同定によるきめ細かいニューラルネットワーク説明

Fine-Grained Neural Network Explanation by Identifying Input Features with Predictive Information ( http://arxiv.org/abs/2110.01471v1 )

ライセンス: Link先を確認
Yang Zhang, Ashkan Khakzar, Yawei Li, Azade Farshad, Seong Tae Kim, Nassir Navab(参考訳) ブラックボックスニューラルネットワークを照らす主要なアプローチの1つは、特徴属性、すなわち、ネットワークの予測に対する入力特徴の重要性を特定することである。 特徴の予測情報は近年,その重要性の指標として提案されている。 これまでのところ、予測情報は、ネットワーク内に情報ボトルネックを置くことで、潜在機能に対してのみ識別される。 入力領域における予測情報を用いて特徴を識別する手法を提案する。 本手法は入力特徴情報のきめ細かな識別を行い,ネットワークアーキテクチャに依存しない。 提案手法の核となる考え方は入力のボトルネックを生かして,予測潜在機能に関連する入力機能のみを通過させることである。 本手法は, 主観的特徴帰属評価実験を用いて, いくつかの特徴帰属法と比較した。 コードは公開されている。

One principal approach for illuminating a black-box neural network is feature attribution, i.e. identifying the importance of input features for the network's prediction. The predictive information of features is recently proposed as a proxy for the measure of their importance. So far, the predictive information is only identified for latent features by placing an information bottleneck within the network. We propose a method to identify features with predictive information in the input domain. The method results in fine-grained identification of input features' information and is agnostic to network architecture. The core idea of our method is leveraging a bottleneck on the input that only lets input features associated with predictive latent features pass through. We compare our method with several feature attribution methods using mainstream feature attribution evaluation experiments. The code is publicly available.
翻訳日:2021-10-05 15:46:26 公開日:2021-10-04
# 胸部X線自動診断のための分散学習手法

Distributed Learning Approaches for Automated Chest X-Ray Diagnosis ( http://arxiv.org/abs/2110.01474v1 )

ライセンス: Link先を確認
Edoardo Giacomello, Michele Cataldo, Daniele Loiacono, Pier Luca Lanzi(参考訳) ディープラーニングは近年,さまざまなタスクに対処するためのアプローチとして定着しています。 医療は、臨床医が患者のデータを分析し、診断を行うのに役立つため、ディープラーニングアプローチの最も有望な応用分野の1つです。 しかし、病院や他の臨床機関で毎年収集される膨大なデータにもかかわらず、健康に関連するデータなどの機密データに関するプライバシー規制は、これらの方法の適用に深刻な課題をもたらす。 本研究は,医療機関のコンソーシアムが特定の疾患を特定するための機械学習モデルをトレーニングする必要がある場合のプライバシ問題に対処する戦略に焦点を当て,最新の2つの分散学習アプローチであるフェデレートラーニングとスプリットラーニングのパフォーマンスを,自動胸部X線診断のタスクで比較する。 特に,本分析では,クライアントデータにおけるデータ分散の違いが,機関間のデータ交換頻度に与える影響について検討した。

Deep Learning has established in the latest years as a successful approach to address a great variety of tasks. Healthcare is one of the most promising field of application for Deep Learning approaches since it would allow to help clinicians to analyze patient data and perform diagnoses. However, despite the vast amount of data collected every year in hospitals and other clinical institutes, privacy regulations on sensitive data - such as those related to health - pose a serious challenge to the application of these methods. In this work, we focus on strategies to cope with privacy issues when a consortium of healthcare institutions needs to train machine learning models for identifying a particular disease, comparing the performances of two recent distributed learning approaches - Federated Learning and Split Learning - on the task of Automated Chest X-Ray Diagnosis. In particular, in our analysis we investigated the impact of different data distributions in client data and the possible policies on the frequency of data exchange between the institutions.
翻訳日:2021-10-05 15:46:14 公開日:2021-10-04
# AASIST:統合スペクトロテングラフアテンションネットワークを用いた音声アンチスプーフィング

AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks ( http://arxiv.org/abs/2110.01200v1 )

ライセンス: Link先を確認
Jee-weon Jung, Hee-Soo Heo, Hemlata Tak, Hye-jin Shim, Joon Son Chung, Bong-Jin Lee, Ha-Jin Yu, Nicholas Evans(参考訳) ボナフィド発話とスプーフを区別するアーティファクトは、スペクトル領域や時間領域に存在する。 信頼性の高い検出は通常、計算的に要求されるアンサンブルシステムに依存し、各サブシステムは特定のアーチファクトに調整される。 我々は,スコアレベルのアンサンブルを必要とせず,幅広い種類のスプーフィング攻撃を検出できる効率的な単一システムの開発を目指している。 異種時間領域とスペクトル領域にまたがるアーティファクトを異種注意機構とスタックノードでモデル化した新しい異種重ねグラフアテンション層を提案する。 競争機構と拡張された読み出しスキームを含む新たな最大グラフ演算により、AASISTと呼ばれる我々のアプローチは、現在の最先端技術よりも20%向上する。 85kのパラメータしか持たない軽量版であるaasist-lでさえ、競合システムよりも優れている。

Artefacts that differentiate spoofed from bona-fide utterances can reside in spectral or temporal domains. Their reliable detection usually depends upon computationally demanding ensemble systems where each subsystem is tuned to some specific artefacts. We seek to develop an efficient, single system that can detect a broad range of different spoofing attacks without score-level ensembles. We propose a novel heterogeneous stacking graph attention layer which models artefacts spanning heterogeneous temporal and spectral domains with a heterogeneous attention mechanism and a stack node. With a new max graph operation that involves a competitive mechanism and an extended readout scheme, our approach, named AASIST, outperforms the current state-of-the-art by 20% relative. Even a lightweight variant, AASIST-L, with only 85K parameters, outperforms all competing systems.
翻訳日:2021-10-05 15:45:03 公開日:2021-10-04
# ポイントプロセス評価マトリックスのロウクラスタリング

Row-clustering of a Point Process-valued Matrix ( http://arxiv.org/abs/2110.01207v1 )

ライセンス: Link先を確認
Lihao Yin and Ganggang Xu and Huiyan Sang and Yongtao Guan(参考訳) さまざまなプラットフォームから収集された構造化ポイントプロセスデータは、機械学習コミュニティに新たな課題をもたらす。 繰り返し観測されるマーク点過程に行列構造を付与することにより、観測データの潜在的な不均一性を特定するための多レベルマーク点過程の混合モデルを提案する。 具体的には,このような行列の対数ガウスコックス過程とクラスタ列をマークした行列について検討する。 点過程の関数主成分分析(FPCA)と組み合わせた半パラメトリック期待解(ES)アルゴリズムをモデル推定のために提案する。 提案手法の有効性をシミュレーション研究と実データ解析により実証した。

Structured point process data harvested from various platforms poses new challenges to the machine learning community. By imposing a matrix structure to repeatedly observed marked point processes, we propose a novel mixture model of multi-level marked point processes for identifying potential heterogeneity in the observed data. Specifically, we study a matrix whose entries are marked log-Gaussian Cox processes and cluster rows of such a matrix. An efficient semi-parametric Expectation-Solution (ES) algorithm combined with functional principal component analysis (FPCA) of point processes is proposed for model estimation. The effectiveness of the proposed framework is demonstrated through simulation studies and a real data analysis.
翻訳日:2021-10-05 15:42:53 公開日:2021-10-04
# 全モードにおけるPARAFAC2制約に対するAO-ADMMアプローチ

An AO-ADMM approach to constraining PARAFAC2 on all modes ( http://arxiv.org/abs/2110.01278v1 )

ライセンス: Link先を確認
Marie Roald, Carla Schenker, Rasmus Bro, Jeremy E. Cohen, Evrim Acar(参考訳) データマイニング、神経科学、ケモメトリックスといった様々な分野で、データセットの1つのモードにまたがるバリエーションでマルチウェイ計測を分析することは、課題である。 例えば、測定値は時間とともに進化するか、時間プロファイルが整っていない場合があります。 PARAFAC2モデルは、基礎となる因子行列を1つのモード(すなわち進化モード)でスライス間で変化させることによって、そのようなデータを分析するのに成功している。 PARAFAC2モデルに適合する従来のアプローチは、進化する因子行列を暗黙的に推定することで、PARAFAC2モデルの一定の積の制約を処理する、最小二乗アルゴリズムを交互に使用することである。 このアプローチはこれらの因子行列を正規化することを難しくする。 現在、一般のペナルティ関数や厳密な制約を柔軟に課すアルゴリズムは存在しない。 本稿では,この課題に対処し,暗黙的推定を避けるために,乗算器の交互方向法(AO-ADMM)との交互最適化に基づくPARAFAC2の組付けアルゴリズムを提案する。 シミュレーションデータに関する数値実験により,提案手法のPARAFAC2 AO-ADMMアプローチは柔軟な制約を実現し,基礎となるパターンを正確に復元し,最先端技術と比較して計算効率がよいことを示す。 また、実世界のクロマトグラフィーデータセットに適用し、進化モードの制約が抽出されたパターンの解釈可能性を向上させることを示す。

Analyzing multi-way measurements with variations across one mode of the dataset is a challenge in various fields including data mining, neuroscience and chemometrics. For example, measurements may evolve over time or have unaligned time profiles. The PARAFAC2 model has been successfully used to analyze such data by allowing the underlying factor matrices in one mode (i.e., the evolving mode) to change across slices. The traditional approach to fit a PARAFAC2 model is to use an alternating least squares-based algorithm, which handles the constant cross-product constraint of the PARAFAC2 model by implicitly estimating the evolving factor matrices. This approach makes imposing regularization on these factor matrices challenging. There is currently no algorithm to flexibly impose such regularization with general penalty functions and hard constraints. In order to address this challenge and to avoid the implicit estimation, in this paper, we propose an algorithm for fitting PARAFAC2 based on alternating optimization with the alternating direction method of multipliers (AO-ADMM). With numerical experiments on simulated data, we show that the proposed PARAFAC2 AO-ADMM approach allows for flexible constraints, recovers the underlying patterns accurately, and is computationally efficient compared to the state-of-the-art. We also apply our model to a real-world chromatography dataset, and show that constraining the evolving mode improves the interpretability of the extracted patterns.
翻訳日:2021-10-05 15:42:44 公開日:2021-10-04
# 空間分解能条件が変化する場合の自動空中動物検出

Automated Aerial Animal Detection When Spatial Resolution Conditions Are Varied ( http://arxiv.org/abs/2110.01329v1 )

ライセンス: Link先を確認
Jasper Brown, Yongliang Qiao, Cameron Clark, Sabrina Lomax, Khalid Rafique, Salah Sukkarieh(参考訳) 家畜がどこにあるかを知ることは、最適化された管理と調整を可能にする。 しかし、オーストラリアの農場は農業の利益、動物福祉、環境に影響を及ぼす家畜の多くが監視されていないという大きな意味を持つ。 衛星画像の解析による効果的な動物像定位と計数は、この管理ハードルを克服するが、高解像度衛星画像は高価である。 したがって、コストを最小限に抑えるために、正確な家畜検出を可能にする最低空間分解能データを選択する必要がある。 本研究では,牛,羊,犬における物体検出性能と空間劣化との関係について検討した。 精密な地中真理は、高解像度のドローン画像を用いて確立され、様々な地中サンプル距離(GSD)にダウンサンプリングされた。 各種光学特性に対応する点拡散関数 (PSF) を生成するために, 円形およびカセグリン開口光学の両方をシミュレーションした。 ガウシアンとして近似するのではなく、PSFをシミュレートすることで、衛星画像の空間分解能とぼやけた構造を正確に分解した。 既存の2つのデータセットを組み合わせて、YoloV5オブジェクト検出ネットワークをトレーニングし、テストした。 検出器性能は0.5m/pxのGSD付近で急降下し, このGSD領域のPSFマトリックス構造と関連していた。 直径0.5m/px gsdでカセグリンを用いた場合、検出器マップの性能は52%低下した。 全体的なぼやけたマグニチュードは、内部ネットワークの解像度と同様、gsdに匹敵する影響も小さかった。 本研究は,動物検出タスクにおけるリモートセンシングデータ要求の選択を通知し,農家や生態学者が安心して,よりアクセス可能な中分解能画像を利用できるようにした。

Knowing where livestock are located enables optimized management and mustering. However, Australian farms are large meaning that many of Australia's livestock are unmonitored which impacts farm profit, animal welfare and the environment. Effective animal localisation and counting by analysing satellite imagery overcomes this management hurdle however, high resolution satellite imagery is expensive. Thus, to minimise cost the lowest spatial resolution data that enables accurate livestock detection should be selected. In our work, we determine the association between object detector performance and spatial degradation for cattle, sheep and dogs. Accurate ground truth was established using high resolution drone images which were then downsampled to various ground sample distances (GSDs). Both circular and cassegrain aperture optics were simulated to generate point spread functions (PSFs) corresponding to various optical qualities. By simulating the PSF, rather than approximating it as a Gaussian, the images were accurately degraded to match the spatial resolution and blurring structure of satellite imagery. Two existing datasets were combined and used to train and test a YoloV5 object detection network. Detector performance was found to drop steeply around a GSD of 0.5m/px and was associated with PSF matrix structure within this GSD region. Detector mAP performance fell by 52 percent when a cassegrain, rather than circular, aperture was used at a 0.5m/px GSD. Overall blurring magnitude also had a small impact when matched to GSD, as did the internal network resolution. Our results here inform the selection of remote sensing data requirements for animal detection tasks, allowing farmers and ecologists to use more accessible medium resolution imagery with confidence.
翻訳日:2021-10-05 15:41:24 公開日:2021-10-04
# certainnet: オブジェクト検出のためのサンプリングフリー不確実性推定

CertainNet: Sampling-free Uncertainty Estimation for Object Detection ( http://arxiv.org/abs/2110.01604v1 )

ライセンス: Link先を確認
Stefano Gasperini, Jan Haug, Mohammad-Ali Nikouei Mahani, Alvaro Marcos-Ramiro, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) ニューラルネットワークの不確実性の推定は、安全クリティカルな設定において基本的な役割を果たす。 自律運転の認識において、不確実性を測定することは、経路計画などの下流タスクに、安全なナビゲーションに使用可能な追加の校正情報を提供することを意味する。 本研究では,物体検出のためのサンプリングフリー不確かさ推定手法を提案する。 私たちはそれを certainnet と呼び、オブジェクト、クラス、場所、サイズといった出力信号ごとに別々の不確実性を提供する最初の方法です。 そこで本研究では,不確実性を考慮したヒートマップを提案し,検出器が提供する隣接境界ボックスを推定時に活用する。 我々は、KITTIでトレーニングされたモデルを用いたBDD100KとnuImagesというドメイン外のサンプルを用いて、検出性能と異なる不確実性推定の品質を別々に評価した。 さらに,位置情報と大きさの不確実性を評価するための新しい指標を提案する。 目に見えないデータセットに転送する場合、CertainNetは、リアルタイムであり、高品質で包括的な不確実性推定を提供するとともに、従来の方法やアンサンブルよりも大幅に優れた一般化を行う。

Estimating the uncertainty of a neural network plays a fundamental role in safety-critical settings. In perception for autonomous driving, measuring the uncertainty means providing additional calibrated information to downstream tasks, such as path planning, that can use it towards safe navigation. In this work, we propose a novel sampling-free uncertainty estimation method for object detection. We call it CertainNet, and it is the first to provide separate uncertainties for each output signal: objectness, class, location and size. To achieve this, we propose an uncertainty-aware heatmap, and exploit the neighboring bounding boxes provided by the detector at inference time. We evaluate the detection performance and the quality of the different uncertainty estimates separately, also with challenging out-of-domain samples: BDD100K and nuImages with models trained on KITTI. Additionally, we propose a new metric to evaluate location and size uncertainties. When transferring to unseen datasets, CertainNet generalizes substantially better than previous methods and an ensemble, while being real-time and providing high quality and comprehensive uncertainty estimates.
翻訳日:2021-10-05 15:40:53 公開日:2021-10-04
# 未知共分散を持つガウス系混合物のクラスタリング

Clustering a Mixture of Gaussians with Unknown Covariance ( http://arxiv.org/abs/2110.01602v1 )

ライセンス: Link先を確認
Damek Davis, Mateo Diaz, Kaizheng Wang(参考訳) 本稿では,共通だが未知の共分散行列を持つガウスの混合データを用いたクラスタリング問題について検討する。 まず,2つの等大成分のガウス混合を考察し,最大確率推定に基づく最大カット整数プログラムを導出する。 我々は,その解が,標本数を次元で線形に増やすと,対数係数まで最適な誤分類率を達成することを証明した。 しかし、マックスカット問題の解法は計算的に難解である。 これを克服するために,最適速度を達成するが,二次的なサンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発した。 このサンプルの複雑さはマックスカット問題よりは悪いが、多項式時間法がうまく機能しないと推測する。 さらに,統計計算ギャップの存在を支持する数値的および理論的証拠を収集する。 最後に、max-cutプログラムをk$-meansプログラムに一般化し、多成分混合とおそらく不等重みを扱う。 輸送コストの不平等を満たす分布の混合に対して、ガウス分布と強い対数分布を含む同様の最適性を保証する。

We investigate a clustering problem with data from a mixture of Gaussians that share a common but unknown, and potentially ill-conditioned, covariance matrix. We start by considering Gaussian mixtures with two equally-sized components and derive a Max-Cut integer program based on maximum likelihood estimation. We prove its solutions achieve the optimal misclassification rate when the number of samples grows linearly in the dimension, up to a logarithmic factor. However, solving the Max-cut problem appears to be computationally intractable. To overcome this, we develop an efficient spectral algorithm that attains the optimal rate but requires a quadratic sample size. Although this sample complexity is worse than that of the Max-cut problem, we conjecture that no polynomial-time method can perform better. Furthermore, we gather numerical and theoretical evidence that supports the existence of a statistical-computat ional gap. Finally, we generalize the Max-Cut program to a $k$-means program that handles multi-component mixtures with possibly unequal weights. It enjoys similar optimality guarantees for mixtures of distributions that satisfy a transportation-cost inequality, encompassing Gaussian and strongly log-concave distributions.
翻訳日:2021-10-05 15:40:35 公開日:2021-10-04
# TLDR9+:ソーシャルメディア投稿の極端要約のための大規模リソース

TLDR9+: A Large Scale Resource for Extreme Summarization of Social Media Posts ( http://arxiv.org/abs/2110.01159v1 )

ライセンス: Link先を確認
Sajad Sotudeh, Hanieh Deilamsalehi, Franck Dernoncourt, Nazli Goharian(参考訳) 要約システムの開発における最近のモデルは、数百万のパラメータで構成されており、モデルの性能は、トレーニングデータの存在量に大きく依存している。 多くの既存の要約コーパスは数千万から100万のデータを格納しているが、大規模な要約データセットの生成は、まだ調査されていない。 実際、より多くのデータがトレーニングパターンを一般化し、見当たらないデータになる。 本稿では,reddit議論フォーラム(https://github.com/ sajastu/reddit_colle ctor)から抽出された900万以上のトレーニングインスタンスを含む,大規模な要約データセットであるtldr9+を紹介する。 このデータセットは、特に極端な要約を行うために収集され(例えば、高い圧縮と抽象化で1セント要約を生成する)、以前提案されたデータセットより2倍以上大きい。 さらに一歩進んで、人間のアノテーションの助けを借りて、TLDR9+からHigh-Qualityインスタンスをサンプリングし、TLDRHQデータセットと呼ぶことによって、よりきめ細かいデータセットを抽出します。 さらに,提案するデータセットに異なる最先端の要約モデルを示す。

Recent models in developing summarization systems consist of millions of parameters and the model performance is highly dependent on the abundance of training data. While most existing summarization corpora contain data in the order of thousands to one million, generation of large-scale summarization datasets in order of couple of millions is yet to be explored. Practically, more data is better at generalizing the training patterns to unseen data. In this paper, we introduce TLDR9+ -- a large-scale summarization dataset -- containing over 9 million training instances extracted from Reddit discussion forum (https://github.com/ sajastu/reddit_colle ctor). This dataset is specifically gathered to perform extreme summarization (i.e., generating one-sentence summary in high compression and abstraction) and is more than twice larger than the previously proposed dataset. We go one step further and with the help of human annotations, we distill a more fine-grained dataset by sampling High-Quality instances from TLDR9+ and call it TLDRHQ dataset. We further pinpoint different state-of-the-art summarization models on our proposed datasets.
翻訳日:2021-10-05 15:38:10 公開日:2021-10-04
# セマンティクスの保存性評価のための新しい指標

A Novel Metric for Evaluating Semantics Preservation ( http://arxiv.org/abs/2110.01176v1 )

ライセンス: Link先を確認
Letian Peng, Zuchao Li and Hai Zhao(参考訳) 本稿では,事前学習言語モデル(PLM)を活用し,文の編集過程のセマンティックス保存を正確に評価する。 筆者らの指標であるNDD(Neighbor Distribution Divergence)は,マスク言語モデル(MLM)による近隣語分布予測の障害を評価する。 NDDはテキスト類似性によって容易に無視される意味論の正確な変化を検出することができる。 NDDの特性を生かして,抽出文圧縮のための教師なしおよびトレーニング不要なアルゴリズムを実装した。 nddに基づくアルゴリズムは,従来のパープレキシティに基づく非教師なしアルゴリズムを大きなマージンで上回っている。 解釈可能性に関するさらなる検討のために,構文依存ツリーバンクをプルーニングすることでNDDを評価し,述語検出にもNDDを適用した。

In this paper, we leverage pre-trained language models (PLMs) to precisely evaluate the semantics preservation of edition process on sentences. Our metric, Neighbor Distribution Divergence (NDD), evaluates the disturbance on predicted distribution of neighboring words from mask language model (MLM). NDD is capable of detecting precise changes in semantics which are easily ignored by text similarity. By exploiting the property of NDD, we implement a unsupervised and even training-free algorithm for extractive sentence compression. We show that our NDD-based algorithm outperforms previous perplexity-based unsupervised algorithm by a large margin. For further exploration on interpretability, we evaluate NDD by pruning on syntactic dependency treebanks and apply NDD for predicate detection as well.
翻訳日:2021-10-05 15:37:54 公開日:2021-10-04
# 言語モデルのFew-Shot学習のための自己学習の再検討

Revisiting Self-Training for Few-Shot Learning of Language Model ( http://arxiv.org/abs/2110.01256v1 )

ライセンス: Link先を確認
Yiming Chen, Yan Zhang, Chen Zhang, Grandee Lee, Ran Cheng, and Haizhou Li(参考訳) ラベルなしデータにはタスク関連情報が豊富にあるため、言語モデルの素早い学習に有用であることが証明されている。 問題は、このようなデータを効果的に利用する方法だ。 本稿では,言語モデルの微調整のための自己学習手法を再検討し,最先端のプロンプトベースの少数ショット学習者sflmを提案する。 弱化と強化によるテキストサンプルの2つのビューが与えられた場合、SFLMは弱化バージョンに擬似ラベルを生成する。 そして、強強化バージョンで微調整された場合、モデルは同じ擬似ラベルを予測する。 この単純なアプローチは、6つの文分類と6つの文ペア分類ベンチマークタスクにおいて、他の最先端の教師付きおよび半教師付きの手法よりも優れている。 加えて、SFLMはいくつかのドメイン内のラベルなしデータのみに依存している。 我々は,拡張手法,モデルスケール,タスク間での知識伝達など,様々な条件下で提案手法の堅牢性を示すため,包括的な分析を行う。

As unlabeled data carry rich task-relevant information, they are proven useful for few-shot learning of language model. The question is how to effectively make use of such data. In this work, we revisit the self-training technique for language model fine-tuning and present a state-of-the-art prompt-based few-shot learner, SFLM. Given two views of a text sample via weak and strong augmentation techniques, SFLM generates a pseudo label on the weakly augmented version. Then, the model predicts the same pseudo label when fine-tuned with the strongly augmented version. This simple approach is shown to outperform other state-of-the-art supervised and semi-supervised counterparts on six sentence classification and six sentence-pair classification benchmarking tasks. In addition, SFLM only relies on a few in-domain unlabeled data. We conduct a comprehensive analysis to demonstrate the robustness of our proposed approach under various settings, including augmentation techniques, model scale, and few-shot knowledge transfer across tasks.
翻訳日:2021-10-05 15:37:41 公開日:2021-10-04
# 科学的文書要約のための情報基盤の活用

Leveraging Information Bottleneck for Scientific Document Summarization ( http://arxiv.org/abs/2110.01280v1 )

ライセンス: Link先を確認
Jiaxin Ju, Ming Liu, Huan Yee Koh, Yuan Jin, Lan Du and Shirui Pan(参考訳) 本稿では,情報ボトルネック原理に基づく科学的長文要約のための教師なし抽出手法を提案する。 文圧縮にInformation Bottleneck原則を用いた以前の研究に触発され、2つのステップで文書レベルの要約に拡張する。 最初のステップでは、signal(s)をクエリとして使用して、ソースドキュメントから重要なコンテンツを取得する。 そして、事前訓練された言語モデルにより、さらに文検索と編集を行い、最終的な抽出した要約を返す。 重要なことは、異なる信号で柔軟にマルチビューフレームワークに拡張できるということです。 3つの科学文書データセットの自動評価は、提案手法の有効性を検証する。 さらに人間による評価から,抽出された要約は,従来のシステムよりも多くの内容をカバーすることが示唆された。

This paper presents an unsupervised extractive approach to summarize scientific long documents based on the Information Bottleneck principle. Inspired by previous work which uses the Information Bottleneck principle for sentence compression, we extend it to document level summarization with two separate steps. In the first step, we use signal(s) as queries to retrieve the key content from the source document. Then, a pre-trained language model conducts further sentence search and edit to return the final extracted summaries. Importantly, our work can be flexibly extended to a multi-view framework by different signals. Automatic evaluation on three scientific document datasets verifies the effectiveness of the proposed framework. The further human evaluation suggests that the extracted summaries cover more content aspects than previous systems.
翻訳日:2021-10-05 15:37:24 公開日:2021-10-04
# 文学領域における主人公のタガー--新しいデータセットと人格関係の方法

Protagonists' Tagger in Literary Domain -- New Datasets and a Method for Person Entity Linkage ( http://arxiv.org/abs/2110.01349v1 )

ライセンス: Link先を確認
Weronika {\L}ajewska, Anna Wr\'oblewska(参考訳) 小説などの長文のセマンティックな注釈は、自然言語処理(NLP)において未解決の課題である。 本研究は、人物の実体を検知し、小説中の人物(特に主人公)を識別するユニークなアイデンティティを割り当てる問題を考察する。 我々は、個人エンティティリンク(エンティティ認識と曖昧さ)と新しいテストデータセットを作成する方法を準備した。 データセットは、小説読者が手動で注釈付けした13の古典小説から1,300の文章で構成されている。 本研究は,(1)人物の名前付き実体認識(NER),(2)名前付き実体曖昧化(NED)の2段階から構成される。 プロタゴニストのTaggerは、準備されたテストセットで83%以上の精度とリコールを達成している。 最後に,13冊の全文小説のコーパスを,3万5千点以上の文学的人物の言及を含む主人公タグ付きで収集した。

Semantic annotation of long texts, such as novels, remains an open challenge in Natural Language Processing (NLP). This research investigates the problem of detecting person entities and assigning them unique identities, i.e., recognizing people (especially main characters) in novels. We prepared a method for person entity linkage (named entity recognition and disambiguation) and new testing datasets. The datasets comprise 1,300 sentences from 13 classic novels of different genres that a novel reader had manually annotated. Our process of identifying literary characters in a text, implemented in protagonistTagger, comprises two stages: (1) named entity recognition (NER) of persons, (2) named entity disambiguation (NED) - matching each recognized person with the literary character's full name, based on approximate text matching. The protagonistTagger achieves both precision and recall of above 83% on the prepared testing sets. Finally, we gathered a corpus of 13 full-text novels tagged with protagonistTagger that comprises more than 35,000 mentions of literary characters.
翻訳日:2021-10-05 15:37:12 公開日:2021-10-04
# NLIの一般化:単純なヒューリスティックスを超える方法(ノー)

Generalization in NLI: Ways (Not) To Go Beyond Simple Heuristics ( http://arxiv.org/abs/2110.01518v1 )

ライセンス: Link先を確認
Prajjwal Bhargava, Aleksandr Drozd, Anna Rogers(参考訳) nluの最近の進歩の多くは、モデルの学習データセット固有のヒューリスティックによるものであることが示されている。 我々は, BERT ベースのアーキテクチャ(アダプタ, シームズ変換器, HEXデバイアス)における NLI (MNLI から HANS データセットまで) の一般化のケーススタディを行い, データをサブサンプリングし, モデルサイズを増大させた。 2つの成功戦略と3つの失敗戦略を報告し、トランスフォーマベースのモデルがどのように一般化するかについての洞察を提供する。

Much of recent progress in NLU was shown to be due to models' learning dataset-specific heuristics. We conduct a case study of generalization in NLI (from MNLI to the adversarially constructed HANS dataset) in a range of BERT-based architectures (adapters, Siamese Transformers, HEX debiasing), as well as with subsampling the data and increasing the model size. We report 2 successful and 3 unsuccessful strategies, all providing insights into how Transformer-based models learn to generalize.
翻訳日:2021-10-05 15:36:56 公開日:2021-10-04
# 機械学習を用いた画像分類器のベンチマーク安全モニタ

Benchmarking Safety Monitors for Image Classifiers with Machine Learning ( http://arxiv.org/abs/2110.01232v1 )

ライセンス: Link先を確認
Raul Sena Ferreira (LAAS), Jean Arlat (LAAS), Jeremie Guiochet (LAAS), H\'el\`ene Waeselynck (LAAS)(参考訳) 高精度機械学習(ML)画像分類器は、動作時に失敗しないことを保証できない。 したがって、自動運転車のような安全クリティカルなアプリケーションへの展開は、まだ未解決の問題である。 安全モニタなどのフォールトトレランス機構の使用は、ML分類器のエラーにもかかわらずシステムを安全な状態に保つ上で有望な方向である。 MLからの予測は安全性に直接影響を与えるコア情報であるため、MLモデル自体の監視に重点を置いている作業も多い。 したがって、安全クリティカルなアプリケーションの文脈でそのようなモニタの効率をチェックすることは、大きな課題である。 そこで本稿は,ml画像分類器のベンチマークモニタのためのベースラインフレームワークの構築を目的とする。 さらに,データ生成から評価まで,パイプライン全体をカバーするフレームワークを提案する。 本手法は通常文献で提案するよりも幅広い指標を用いて性能モニタリングを行う。 さらに,画像分類器のためのアウトオブディストリビューションデータの5つのカテゴリ(クラス新規性,ノイズ,異常,分布シフト,敵意攻撃)を含む79のベンチマークデータセットにおいて,3つの異なるモニタアプローチをベンチマークした。 その結果,このモニターはランダムなモニターほど正確ではないことがわかった。 再現性に関するすべての実験のコードも公開しています。

High-accurate machine learning (ML) image classifiers cannot guarantee that they will not fail at operation. Thus, their deployment in safety-critical applications such as autonomous vehicles is still an open issue. The use of fault tolerance mechanisms such as safety monitors is a promising direction to keep the system in a safe state despite errors of the ML classifier. As the prediction from the ML is the core information directly impacting safety, many works are focusing on monitoring the ML model itself. Checking the efficiency of such monitors in the context of safety-critical applications is thus a significant challenge. Therefore, this paper aims at establishing a baseline framework for benchmarking monitors for ML image classifiers. Furthermore, we propose a framework covering the entire pipeline, from data generation to evaluation. Our approach measures monitor performance with a broader set of metrics than usually proposed in the literature. Moreover, we benchmark three different monitor approaches in 79 benchmark datasets containing five categories of out-of-distribution data for image classifiers: class novelty, noise, anomalies, distributional shifts, and adversarial attacks. Our results indicate that these monitors are no more accurate than a random monitor. We also release the code of all experiments for reproducibility.
翻訳日:2021-10-05 15:35:56 公開日:2021-10-04
# BPFNet:バイモーダルパルププリントアライメントと融合のための統一フレームワーク

BPFNet: A Unified Framework for Bimodal Palmprint Alignment and Fusion ( http://arxiv.org/abs/2110.01179v1 )

ライセンス: Link先を確認
Zhaoqun Li, Xu Liang, Dandan Fan, Jinxing Li, David Zhang(参考訳) バイモーダルパームプリント認識は、パームプリントとパーム静脈画像を同時に活用し、多モデル情報融合による高精度化を実現し、強い反falsification特性を有する。 認識パイプラインでは,手のひらの検出と領域間一致(roi)のアライメントが2つの重要なステップである。 既存のほとんどの手法は、キーポイント検出アルゴリズムによってパームROIをローカライズするが、キーポイント検出タスクの本質的な困難により、結果は満足できない。 Besides, the ROI alignment and fusion algorithms at image-level are not fully investigaged.To bridge the gap, in this paper, we propose Bimodal Palmprint Fusion Network (BPFNet) which focuses on ROI localization, alignment and bimodal image fusion.BPFNet is an end-to-end framework containing two subnets: The detection network directly regresses the palmprint ROIs based on bounding box prediction and conducts alignment by translation estimation.In the downstream,the bimodal fusion network implements bimodal ROI image fusion leveraging a novel proposed cross-modal selection scheme. BPFNetの有効性を示すため,大規模なタッチレスパームプリントデータセットCUHKSZ-v1とTongJiについて実験を行い,提案手法は最先端の性能を実現する。

Bimodal palmprint recognition leverages palmprint and palm vein images simultaneously,which achieves high accuracy by multi-model information fusion and has strong anti-falsification property. In the recognition pipeline, the detection of palm and the alignment of region-of-interest (ROI) are two crucial steps for accurate matching. Most existing methods localize palm ROI by keypoint detection algorithms, however the intrinsic difficulties of keypoint detection tasks make the results unsatisfactory. Besides, the ROI alignment and fusion algorithms at image-level are not fully investigaged.To bridge the gap, in this paper, we propose Bimodal Palmprint Fusion Network (BPFNet) which focuses on ROI localization, alignment and bimodal image fusion.BPFNet is an end-to-end framework containing two subnets: The detection network directly regresses the palmprint ROIs based on bounding box prediction and conducts alignment by translation estimation.In the downstream,the bimodal fusion network implements bimodal ROI image fusion leveraging a novel proposed cross-modal selection scheme. To show the effectiveness of BPFNet,we carry out experiments on the large-scale touchless palmprint datasets CUHKSZ-v1 and TongJi and the proposed method achieves state-of-the-art performances.
翻訳日:2021-10-05 15:32:09 公開日:2021-10-04
# レシピ生成と食品検索のための構造表現の学習

Learning Structural Representations for Recipe Generation and Food Retrieval ( http://arxiv.org/abs/2110.01209v1 )

ライセンス: Link先を確認
Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao(参考訳) 食物は人間の日常生活にとって重要である。 本稿では,レシピ生成と食品検索タスクに資する長めのレシピの構造表現を学ぶことに関心を寄せる。 画像キャプションタスクに類似した食品画像や食材に基づいて調理指示を生成するオープン研究課題を主に検討した。 しかし、画像キャプションデータセットと比較すると、ターゲットのレシピは長い段落であり、構造情報のアノテーションを持たない。 以上の制限に対処するため、食品レシピ生成タスクに取り組むために、構造認識ネットワーク(SGN)の新たなフレームワークを提案する。 提案手法は,(1)学習前の文レベルの木構造ラベルを得るための教師なし学習アプローチ,(2)学習前の木構造ラベルを監督した画像からターゲットレシピのツリーを生成する,(3)推論された木構造をレシピ生成手順に統合する,という,新しい考え方を体系的な枠組みで取り入れたものである。 提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。 また,本研究の食品間モーダル検索作業における学習木構造の有用性を検証した。

Food is significant to human daily life. In this paper, we are interested in learning structural representations for lengthy recipes, that can benefit the recipe generation and food retrieval tasks. We mainly investigate an open research task of generating cooking instructions based on food images and ingredients, which is similar to the image captioning task. However, compared with image captioning datasets, the target recipes are lengthy paragraphs and do not have annotations on structure information. To address the above limitations, we propose a novel framework of Structure-aware Generation Network (SGN) to tackle the food recipe generation task. Our approach brings together several novel ideas in a systematic framework: (1) exploiting an unsupervised learning approach to obtain the sentence-level tree structure labels before training; (2) generating trees of target recipes from images with the supervision of tree structure labels learned from (1); and (3) integrating the inferred tree structures into the recipe generation procedure. Our proposed model can produce high-quality and coherent recipes, and achieve the state-of-the-art performance on the benchmark Recipe1M dataset. We also validate the usefulness of our learned tree structures in the food cross-modal retrieval task, where the proposed model with tree representations can outperform state-of-the-art benchmark results.
翻訳日:2021-10-05 15:31:49 公開日:2021-10-04
# 空間的アンサンブル:学生教師のための新しいモデル平滑化機構

Spatial Ensemble: a Novel Model Smoothing Mechanism for Student-Teacher Framework ( http://arxiv.org/abs/2110.01253v1 )

ライセンス: Link先を確認
Tengteng Huang, Yifan Sun, Xun Wang, Haotian Yao, Chi Zhang(参考訳) モデルスムーシングは、教師が教師の指導のために監視信号を生成する学生-教師の枠組みにおいて、信頼性の高い教師モデルを得る上で重要である。 一般的なモデル平滑化手法は時間移動平均(tma)であり、教師のパラメータと最新の生徒パラメータを連続的に平均する。 本稿では,新しいモデル平滑化機構であるSpatial EnsembleをTMAと並列に提案する。 空間的アンサンブルは、生徒モデルの小さな断片をランダムにピックアップして、対応する教師モデルの断片を直接置き換えます。 結果として、異なる歴史学生モデルの断片を統一に縫い付け、「空間的アンサンブル」効果をもたらす。 空間的アンサンブルは、それと同等の学生・教師の学習性能を獲得し、時間的移動平均と価値ある相補性を示す。 彼らの統合は、Spatial-Temporal Smoothingと名付けられ、様々な最先端の手法で学生の学習フレームワークに一般的な(時には重要な)改善をもたらす。 例えば、byolの自己教師ありメソッドに基づいてimagenetで+0.9% top-1精度が向上する一方で、半教師付きアプローチフィクスマッチに基づいて、わずかのトレーニングラベルが利用可能な場合、cifar-10でtop-1精度が約+6%向上する。 コードとモデルは、https://github.com/t engteng95/Spatial_En semble.comで入手できる。

Model smoothing is of central importance for obtaining a reliable teacher model in the student-teacher framework, where the teacher generates surrogate supervision signals to train the student. A popular model smoothing method is the Temporal Moving Average (TMA), which continuously averages the teacher parameters with the up-to-date student parameters. In this paper, we propose "Spatial Ensemble", a novel model smoothing mechanism in parallel with TMA. Spatial Ensemble randomly picks up a small fragment of the student model to directly replace the corresponding fragment of the teacher model. Consequentially, it stitches different fragments of historical student models into a unity, yielding the "Spatial Ensemble" effect. Spatial Ensemble obtains comparable student-teacher learning performance by itself and demonstrates valuable complementarity with temporal moving average. Their integration, named Spatial-Temporal Smoothing, brings general (sometimes significant) improvement to the student-teacher learning framework on a variety of state-of-the-art methods. For example, based on the self-supervised method BYOL, it yields +0.9% top-1 accuracy improvement on ImageNet, while based on the semi-supervised approach FixMatch, it increases the top-1 accuracy by around +6% on CIFAR-10 when only few training labels are available. Codes and models are available at: https://github.com/t engteng95/Spatial_En semble.
翻訳日:2021-10-05 15:31:25 公開日:2021-10-04
# genco:データ制限画像生成における生成的コトレーニング

GenCo: Generative Co-training on Data-Limited Image Generation ( http://arxiv.org/abs/2110.01254v1 )

ライセンス: Link先を確認
Kaiwen Cui, Jiaxing Huang, Zhipeng Luo, Gongjie Zhang, Fangneng Zhan, Shijian Lu(参考訳) 効果的な生成型adversarial network(gans)のトレーニングには大量のトレーニングデータが必要である。 いくつかの先行研究は、大規模および手作りのデータ拡張を通じて限られたトレーニングデータの分布を拡大することでこの問題に対処している。 非常に異なる視点からデータ制限された画像生成を処理します。 具体的には,複数の相補的識別器を導入することで,識別器過適合問題を緩和する生成的協調学習ネットワークGenCoを設計する。 我々はGenCoのアイデアを2つの方法でインスタンス化する。 第一の方法は、重量差別共訓練(weco:weight-discrep ancy co-training)である。 第二の方法はデータ分離共訓練(daco)であり、入力画像の異なるビュー(例えば、入力画像の周波数成分)で識別子を供給することにより共訓練を実現する。 複数のベンチマークに対する大規模な実験は、GenCoが限られたトレーニングデータで優れた世代を達成していることを示している。 さらにgencoは、一貫性と明確なパフォーマンス向上を組み合わせることで、拡張アプローチを補完する。

Training effective Generative Adversarial Networks (GANs) requires large amounts of training data, without which the trained models are usually sub-optimal with discriminator over-fitting. Several prior studies address this issue by expanding the distribution of the limited training data via massive and hand-crafted data augmentation. We handle data-limited image generation from a very different perspective. Specifically, we design GenCo, a Generative Co-training network that mitigates the discriminator over-fitting issue by introducing multiple complementary discriminators that provide diverse supervision from multiple distinctive views in training. We instantiate the idea of GenCo in two ways. The first way is Weight-Discrepancy Co-training (WeCo) which co-trains multiple distinctive discriminators by diversifying their parameters. The second way is Data-Discrepancy Co-training (DaCo) which achieves co-training by feeding discriminators with different views of the input images (e.g., different frequency components of the input images). Extensive experiments over multiple benchmarks show that GenCo achieves superior generation with limited training data. In addition, GenCo also complements the augmentation approach with consistent and clear performance gains when combined.
翻訳日:2021-10-05 15:30:57 公開日:2021-10-04
# PCAM: 点雲の剛性登録のためのクロスアテンション行列の製品

PCAM: Product of Cross-Attention Matrices for Rigid Registration of Point Clouds ( http://arxiv.org/abs/2110.01269v1 )

ライセンス: Link先を確認
Anh-Quan Cao and Gilles Puy and Alexandre Boulch and Renaud Marlet(参考訳) 部分重なりを持つ点雲の厳密な登録は通常2つのステップで解決される。 (a)点雲間の対応を見つけること (b)これらの対応をフィルタリングし、変換を推定するために最も信頼できるものだけを保持する。 近年,これらのステップを共同で解決するための深層網がいくつか提案されている。 我々はこれらの研究に基づいて、低レベルの幾何学的情報と高レベルの文脈情報の両方を混合してポイント対応を見つけることができる、クロスアテンション行列のポイントワイズな生成物であるニューラルネットワークPCAMを提案する。 これらのクロスアテンション行列はまた、各層におけるポイントクラウド間のコンテキスト情報の交換を可能にし、重なり合う領域内でより優れたマッチング機能を構築することができる。 実験の結果、PCAMは私たちのように、ステップを解く方法の最先端の結果を得ることがわかった。 (a)及び (b)ディープネットを介して共同で行う。 私たちのコードとトレーニングされたモデルは、https://github.com/v aleoai/pcamで利用可能です。

Rigid registration of point clouds with partial overlaps is a longstanding problem usually solved in two steps: (a) finding correspondences between the point clouds; (b) filtering these correspondences to keep only the most reliable ones to estimate the transformation. Recently, several deep nets have been proposed to solve these steps jointly. We built upon these works and propose PCAM: a neural network whose key element is a pointwise product of cross-attention matrices that permits to mix both low-level geometric and high-level contextual information to find point correspondences. These cross-attention matrices also permits the exchange of context information between the point clouds, at each layer, allowing the network construct better matching features within the overlapping regions. The experiments show that PCAM achieves state-of-the-art results among methods which, like us, solve steps (a) and (b) jointly via deepnets. Our code and trained models are available at https://github.com/v aleoai/PCAM.
翻訳日:2021-10-05 15:30:36 公開日:2021-10-04
# 水中ナビゲーションとマッピングのための3次元画像モザイク

3d sequential image mosaicing for underwater navigation and mapping ( http://arxiv.org/abs/2110.01382v1 )

ライセンス: Link先を確認
E. Nocerino (LIS), F. Menna (FBK), B. Chemisky (LIS), P. Drap (LIS)(参考訳) 完全な自律マッピング手法はますます一般的で信頼性が高くなっているが、人間のオペレーターは定期的に多くの3Dサーベイミッションで採用されている。 多くの水中アプリケーションでは、遠隔操作車両(rov)のダイバーやパイロットはいまだに置き換えられないと考えられており、地図化されたシーンをリアルタイムで可視化するためのツールは、ナビゲーションや測量作業のサポートと最大化に不可欠である。 水中探査において、画像モザイクは、しばしば自律型水中車両(AUV)やROV(英語版)と共に使用される大きな地図化された領域を視覚化する有効なアプローチであることが証明された。 そこで本研究では,画像に基づくリアルタイムナビゲーションとマッピングアルゴリズムを組み合わせた,画像モザイク修正アルゴリズムの利用を提案する。 1つは古典的なモザイクで、記録および処理された画像を段階的に追加し、2Dシーケンシャル画像モザイク (2DSIM) と呼ぶ。 2つ目は、画像を3d空間内の平面雲として投影するように幾何学的に変換し、3d逐次像面投影(3dsip)と呼ばれるインクリメンタルな点雲モザイクを提供する。 本論文では, 実施手順を詳述し, 様々な水中シナリオの実験を行い, 考察した。 計算作業、フレームレート能力、異なるよりコンパクトなアーキテクチャ(組込みシステム)への拡張性に関する技術的考察も提供される。

Although fully autonomous mapping methods are becoming more and more common and reliable, still the human operator is regularly employed in many 3D surveying missions. In a number of underwater applications, divers or pilots of remotely operated vehicles (ROVs) are still considered irreplaceable, and tools for real-time visualization of the mapped scene are essential to support and maximize the navigation and surveying efforts. For underwater exploration, image mosaicing has proved to be a valid and effective approach to visualize large mapped areas, often employed in conjunction with autonomous underwater vehicles (AUVs) and ROVs. In this work, we propose the use of a modified image mosaicing algorithm that coupled with image-based real-time navigation and mapping algorithms provides two visual navigation aids. The first is a classic image mosaic, where the recorded and processed images are incrementally added, named 2D sequential image mosaicing (2DSIM). The second one geometrically transform the images so that they are projected as planar point clouds in the 3D space providing an incremental point cloud mosaicing, named 3D sequential image plane projection (3DSIP). In the paper, the implemented procedure is detailed, and experiments in different underwater scenarios presented and discussed. Technical considerations about computational efforts, frame rate capabilities and scalability to different and more compact architectures (i.e. embedded systems) is also provided.
翻訳日:2021-10-05 15:30:18 公開日:2021-10-04
# 差よりも類似性を求める:適応物体検出のための類似性に基づくドメインアライメント

Seeking Similarities over Differences: Similarity-based Domain Alignment for Adaptive Object Detection ( http://arxiv.org/abs/2110.01428v1 )

ライセンス: Link先を確認
Farzaneh Rezaeianaran, Rakshith Shetty, Rahaf Aljundi, Daniel Olmeda Reino, Shanshan Zhang, Bernt Schiele(参考訳) 幅広いシナリオにわたってオブジェクト検出器を堅牢にデプロイするには、新しいデータを常にアノテートする必要なしに、入力分布のシフトに適応する必要がある。 これは、検出のためのUnsupervised Domain Adaptation (UDA)アルゴリズムの研究を動機付けている。 udaメソッドはラベル付きソースドメインからラベルなしのターゲットドメインへの適応を学習し、ソースドメインとターゲットドメインの検出器機能間のアライメントを誘導する。 しかし、どの機能をアライメントするか、どのようにアライメントを行うべきかについては合意がない。 本研究は,UDA設計空間の深部分析の基盤となるUDA法で一般的に使用される様々なコンポーネントを一般化するフレームワークを提案する。 具体的には、我々のフレームワークの直接実装である新しいUDAアルゴリズムViSGAを提案し、最適な設計選択を生かし、視覚的類似性に基づく特徴をインスタンスレベルで集約する簡易かつ効果的な手法を導入し、対角訓練によりグループアライメントを誘導する。 類似性に基づくグループ化と敵対的トレーニングの両方により、疎結合なドメインにまたがるすべてのインスタンスをマッチさせることなく、粗い機能グループに焦点を合わせることが可能になります。 最後に、ラベル付きデータを異なるソースから収集する設定に対するViSGAの適用性について検討する。 実験により,本手法は従来のSim2RealおよびAdverse Weatherのシングルソース手法よりも優れるだけでなく,マルチソース設定にも優れることが示された。

In order to robustly deploy object detectors across a wide range of scenarios, they should be adaptable to shifts in the input distribution without the need to constantly annotate new data. This has motivated research in Unsupervised Domain Adaptation (UDA) algorithms for detection. UDA methods learn to adapt from labeled source domains to unlabeled target domains, by inducing alignment between detector features from source and target domains. Yet, there is no consensus on what features to align and how to do the alignment. In our work, we propose a framework that generalizes the different components commonly used by UDA methods laying the ground for an in-depth analysis of the UDA design space. Specifically, we propose a novel UDA algorithm, ViSGA, a direct implementation of our framework, that leverages the best design choices and introduces a simple but effective method to aggregate features at instance-level based on visual similarity before inducing group alignment via adversarial training. We show that both similarity-based grouping and adversarial training allows our model to focus on coarsely aligning feature groups, without being forced to match all instances across loosely aligned domains. Finally, we examine the applicability of ViSGA to the setting where labeled data are gathered from different sources. Experiments show that not only our method outperforms previous single-source approaches on Sim2Real and Adverse Weather, but also generalizes well to the multi-source setting.
翻訳日:2021-10-05 15:29:50 公開日:2021-10-04
# ALSポイントクラウドセマンティックセグメンテーションのための新しい弱教師付きアプローチ

A new weakly supervised approach for ALS point cloud semantic segmentation ( http://arxiv.org/abs/2110.01462v1 )

ライセンス: Link先を確認
Puzuo Wang and Wei Yao(参考訳) 最先端の結果を継続的に上回る、新しいポイントクラウドセマンティックセグメンテーションスキームがあるが、効果的なモデルを学ぶ成功は通常、豊富なラベル付きデータの可用性に依存している。 しかしながら、データアノテーションは、特に都市部の複数のクラスを含む大規模空中レーザースキャニング(als)ポイント雲において、時間と労力のかかる作業である。 したがって、ラベリング作業を大幅に削減しながら、有望な結果を得る方法が不可欠である。 本研究では,ALSポイントクラウドのセマンティックセマンティックセグメンテーションのための,深層学習に基づく弱教師付きフレームワークを提案する。 クラスオーバーラップを予測確率でペナル化するためにエントロピー正則化を導入する。 さらに、電流とアンサンブル予測の違いを最小化して整合性制約を設計し、予測の堅牢性を改善する。 最後に,効率良く非パプラメトリックな方法で余分なスーパーバイザリーソースを作成するためのオンラインソフト擬似ラベル戦略を提案する。 3つのベンチマークデータセットを用いた広範囲な実験分析により,スパースポイントアノテーションの場合,提案手法は計算効率を損なうことなく分類性能を著しく向上させることを示した。 これは、現在の弱い監督手法を上回り、完全な監督競合に対して同等の結果を得る。 ISPRS 3D Labeling Vaihingenデータでは,ラベルの0.1%しか使用していないため,スパースラベル情報のみを訓練したモデルと比較して,平均F1スコアが6.9%,平均F1スコアが70.0%向上した。

While there are novel point cloud semantic segmentation schemes that continuously surpass state-of-the-art results, the success of learning an effective model usually rely on the availability of abundant labeled data. However, data annotation is a time-consuming and labor-intensive task, particularly for large-scale airborne laser scanning (ALS) point clouds involving multiple classes in urban areas. Thus, how to attain promising results while largely reducing labeling works become an essential issue. In this study, we propose a deep-learning based weakly supervised framework for semantic segmentation of ALS point clouds, exploiting potential information from unlabeled data subject to incomplete and sparse labels. Entropy regularization is introduced to penalize the class overlap in predictive probability. Additionally, a consistency constraint by minimizing difference between current and ensemble predictions is designed to improve the robustness of predictions. Finally, we propose an online soft pseudo-labeling strategy to create extra supervisory sources in an efficient and nonpaprametric way. Extensive experimental analysis using three benchmark datasets demonstrates that in case of sparse point annotations, our proposed method significantly boosts the classification performance without compromising the computational efficiency. It outperforms current weakly supervised methods and achieves a comparable result against full supervision competitors. For the ISPRS 3D Labeling Vaihingen data, by using only 0.1% of labels, our method achieves an overall accuracy of 83.0% and an average F1 score of 70.0%, which have increased by 6.9% and 12.8% respectively, compared to model trained by sparse label information only.
翻訳日:2021-10-05 15:29:23 公開日:2021-10-04
# 意味親和性と境界の移譲による弱ショットセマンティックセマンティックセグメンテーション

Weak-shot Semantic Segmentation by Transferring Semantic Affinity and Boundary ( http://arxiv.org/abs/2110.01519v1 )

ライセンス: Link先を確認
Siyuan Zhou and Li Niu and Jianlou Si and Chen Qian and Liqing Zhang(参考訳) 画像レベルのラベルを持つ弱教師付きセマンティックセグメンテーション(WSSS)は,従来のセグメンテーションタスクのアノテーション負担を軽減するために広く研究されている。 本稿では,既存の完全注釈付きベースカテゴリが,ベースカテゴリと新規カテゴリが重複しない場合でも,画像レベルラベルのみを用いた新規カテゴリのオブジェクトのセグメンテーションを支援することを示す。 私たちは、このタスクを弱いショットセマンティックセグメンテーションと呼び、補助的な完全アノテートカテゴリを持つwssとして扱うこともできる。 最近のWSSS法は、通常、クラスアクティベーションマップ(CAM)を取得し、親和性伝播によってそれらを洗練する。 セマンティック親和性と境界がクラスに依存しないという観察に基づいて,WSSSフレームワークに基づくセマンティック親和性と境界を基本カテゴリから新規なものに伝達する手法を提案する。 その結果,基本カテゴリの画素レベルのアノテーションは親和性学習や伝播を促進することができ,新たなカテゴリの高品質なCAMに繋がることがわかった。 PASCAL VOC 2012データセットの大規模な実験により,本手法は新たなカテゴリにおけるWSSSベースラインを大幅に上回っていることが示された。

Weakly-supervised semantic segmentation (WSSS) with image-level labels has been widely studied to relieve the annotation burden of the traditional segmentation task. In this paper, we show that existing fully-annotated base categories can help segment objects of novel categories with only image-level labels, even if base and novel categories have no overlap. We refer to this task as weak-shot semantic segmentation, which could also be treated as WSSS with auxiliary fully-annotated categories. Recent advanced WSSS methods usually obtain class activation maps (CAMs) and refine them by affinity propagation. Based on the observation that semantic affinity and boundary are class-agnostic, we propose a method under the WSSS framework to transfer semantic affinity and boundary from base categories to novel ones. As a result, we find that pixel-level annotation of base categories can facilitate affinity learning and propagation, leading to higher-quality CAMs of novel categories. Extensive experiments on PASCAL VOC 2012 dataset demonstrate that our method significantly outperforms WSSS baselines on novel categories.
翻訳日:2021-10-05 15:28:55 公開日:2021-10-04
# 全変動プリミティブと期待伝搬を用いた高速スケーラブル画像復元

Fast Scalable Image Restoration using Total Variation Priors and Expectation Propagation ( http://arxiv.org/abs/2110.01585v1 )

ライセンス: Link先を確認
Dan Yao, Stephen McLaughlin, Yoann Altmann(参考訳) 本稿では,全変動(TV)を用いた画像復元のためのスケーラブルなベイズ近似手法を提案する。 最大アフター推定に基づくほとんどの最適化手法とは対照的に、予測伝搬(EP)フレームワークを用いて最小平均二乗誤差(MMSE)推定器と限界(ピクセル単位)の分散をモンテカルロサンプリングに頼らずに近似する。 また,古典的異方性tvベースプリミティブに対して,期待最大化(em)により正規化パラメータを自動的に調整する反復スキームを提案する。 対角共分散行列による密度のガウス近似を用いることで、高並列化が可能となり、デノナイズ、デコンボリューション、圧縮センシング(CS)問題に対して大きな画像にスケールすることができる。 シミュレーション結果から,そのようなEP法は,サンプリング法で得られた手法と同等に,計算コストのごく一部で後続推定値を提供できることを示した。 さらに、EPは、変分ベイズの代替と対照的に、後方分散の強い過小評価を示さない。

This paper presents a scalable approximate Bayesian method for image restoration using total variation (TV) priors. In contrast to most optimization methods based on maximum a posteriori estimation, we use the expectation propagation (EP) framework to approximate minimum mean squared error (MMSE) estimators and marginal (pixel-wise) variances, without resorting to Monte Carlo sampling. For the classical anisotropic TV-based prior, we also propose an iterative scheme to automatically adjust the regularization parameter via expectation-maximiza tion (EM). Using Gaussian approximating densities with diagonal covariance matrices, the resulting method allows highly parallelizable steps and can scale to large images for denoising, deconvolution and compressive sensing (CS) problems. The simulation results illustrate that such EP methods can provide a posteriori estimates on par with those obtained via sampling methods but at a fraction of the computational cost. Moreover, EP does not exhibit strong underestimation of posteriori variances, in contrast to variational Bayes alternatives.
翻訳日:2021-10-05 15:28:32 公開日:2021-10-04
# バグレポートにおける非自然言語アーティファクトの同定

Identifying non-natural language artifacts in bug reports ( http://arxiv.org/abs/2110.01336v1 )

ライセンス: Link先を確認
Thomas Hirsch, Birgit Hofer(参考訳) バグレポートは自然言語処理(NLP)のターゲットとして人気がある。 しかしながら、バグレポートにはコードスニペット、ログ出力、スタックトレースなどのアーティファクトが含まれていることが多い。 これらのアーティファクトは、バグレポートにノイズを注入するだけでなく、手元にあるNLPアプローチの本当の問題となり、取り除かなければなりません。 本稿では,Pythonで実装されたラインレベルにおいて,コンテンツを自然言語とアーティファクトに分類する機械学習アプローチを提案する。 GitHubのイシュートラッカからのデータを自動トレーニングセット生成にどのように使用できるかを示し、バグレポートのカスタム前処理アプローチを示す。 我々のモデルは手動でアノテートした検証セットに対して0.95ROC-AUCと0.93F1でスコアし、10k行を0.72秒で分類する。 我々は、同じタスクに対して、外部データセットと外部rモデルに対して、このモデルを評価した。 私たちのモデルとデータセットのPython実装は、オープンソースライセンスの下で公開されています。

Bug reports are a popular target for natural language processing (NLP). However, bug reports often contain artifacts such as code snippets, log outputs and stack traces. These artifacts not only inflate the bug reports with noise, but often constitute a real problem for the NLP approach at hand and have to be removed. In this paper, we present a machine learning based approach to classify content into natural language and artifacts at line level implemented in Python. We show how data from GitHub issue trackers can be used for automated training set generation, and present a custom preprocessing approach for bug reports. Our model scores at 0.95 ROC-AUC and 0.93 F1 against our manually annotated validation set, and classifies 10k lines in 0.72 seconds. We cross evaluated our model against a foreign dataset and a foreign R model for the same task. The Python implementation of our model and our datasets are made publicly available under an open source license.
翻訳日:2021-10-05 15:28:11 公開日:2021-10-04
# 情報検索への表現的アプローチのための概念的枠組みの提案

A Proposed Conceptual Framework for a Representational Approach to Information Retrieval ( http://arxiv.org/abs/2110.01529v1 )

ライセンス: Link先を確認
Jimmy Lin(参考訳) 本稿では,情報検索と自然言語処理の最近の展開を理解するための概念的枠組みについて概説する。 本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。 スコアリングモデルは、クエリとドキュメントを表現空間にマッピングするエンコーダと、クエリ-ドキュメントスコアを計算する比較関数によって定義される。 物理検索モデルは、システムがクエリに対して任意に大きなコーパスからトップkスコアの文書を生成する方法を定義する。 スコアリングモデルは、密度対スパース表現と教師付き(学習)対教師なしアプローチの2次元でさらに分析することができる。 多段階のランキング設計を含む最近提案された多くの検索手法は、このフレームワークにおいて異なるパラメータ化と見なすことができ、統一されたビューは、多くのオープンリサーチの質問を示唆し、将来の作業のためのロードマップを提供する。 ボーナスとして、この概念的枠組みは、自然言語処理と情報アクセスの「技術」における文の類似性タスクとの接続を確立する。

This paper outlines a conceptual framework for understanding recent developments in information retrieval and natural language processing that attempts to integrate dense and sparse retrieval methods. I propose a representational approach that breaks the core text retrieval problem into a logical scoring model and a physical retrieval model. The scoring model is defined in terms of encoders, which map queries and documents into a representational space, and a comparison function that computes query-document scores. The physical retrieval model defines how a system produces the top-k scoring documents from an arbitrarily large corpus with respect to a query. The scoring model can be further analyzed along two dimensions: dense vs. sparse representations and supervised (learned) vs. unsupervised approaches. I show that many recently proposed retrieval methods, including multi-stage ranking designs, can be seen as different parameterizations in this framework, and that a unified view suggests a number of open research questions, providing a roadmap for future work. As a bonus, this conceptual framework establishes connections to sentence similarity tasks in natural language processing and information access "technologies" prior to the dawn of computing.
翻訳日:2021-10-05 15:27:55 公開日:2021-10-04
# 完全多層スパース行列分解における識別性

Identifiability in Exact Multilayer Sparse Matrix Factorization ( http://arxiv.org/abs/2110.01230v1 )

ライセンス: Link先を確認
L\'eon Zheng (LIP), R\'emi Gribonval (LIP), Elisa Riccietti (LIP)(参考訳) 多くのよく知られた行列 z は z = x^(l) 形式の分解に対応する高速変換に関連付けられている。 .. x^(1) では、各因子 x^(l) がスパースである。 共著の2つの因子を用いた場合の一般的な結果に基づき,これらの因子化の本質的一意性について検討する。 分割フーリエ変換, 離散コサイン変換, N = 2^L の離散正弦変換行列の2つの因子に対して, N/2-スパーシティを左因子に列で, 2-スパーシティを右因子に列で有するときに, スパース分解の識別可能性を示す。 また, 階層的因子分解法に基づき, 2つの因子を用いた解析を多層ケースに拡張できることを示した。 我々は、L因子の積である任意の行列が、まさにバタフライサポートであることを証明し、L因子への特異なスパース因子化を認める。 これは特に、サイズ 2^l のハダマールあるいは離散フーリエ変換行列に適用される。

Many well-known matrices Z are associated to fast transforms corresponding to factorizations of the form Z = X^(L). .. X^(1) , where each factor X^(l) is sparse. Based on general result for the case with two factors, established in a companion paper, we investigate essential uniqueness of such factorizations. We show some identifiability results for the sparse factorization into two factors of the discrete Fourier Transform, discrete cosine transform or discrete sine transform matrices of size N = 2^L , when enforcing N/2-sparsity by column on the left factor, and 2-sparsity by row on the right factor. We also show that the analysis with two factors can be extended to the multilayer case, based on a hierarchical factorization method. We prove that any matrix which is the product of L factors whose supports are exactly the so-called butterfly supports, admits a unique sparse factorization into L factors. This applies in particular to the Hadamard or the discrete Fourier transform matrix of size 2^L .
翻訳日:2021-10-05 15:25:40 公開日:2021-10-04
# 厳密な二層スパース行列分解における識別可能性

Identifiability in Exact Two-Layer Sparse Matrix Factorization ( http://arxiv.org/abs/2110.01235v1 )

ライセンス: Link先を確認
L\'eon Zheng (LIP), R\'emi Gribonval (LIP), Elisa Riccietti (LIP)(参考訳) スパース行列分解 (sparse matrix factorization) は、行列 Z を L スパース因子 X^(L) X^(L--1) の積で近似する問題である。 .. x^(1) である。 本稿では,この問題に現れる識別可能性の問題に焦点をあてる。 行列を2つのスパース因子に分解する問題は、避けられない置換とスケーリング同値まで、一意の解が認められる条件を与える。 一般的なフレームワークでは、所定のスパーシティパターンの任意のファミリーを考えることで、単に0でないエントリの数よりもスパーシティのより構造化された概念を捉えることができます。 これらの条件は、構造的なスパーシティ制約を持つ階数 1 の行列の和への完全行列分解の本質的な一意性に関連している。 アダマール行列や離散フーリエ変換行列のようなよく知られた行列の多層スパース行列分解において、これらの条件を更に活用して識別性特性を導出する。

Sparse matrix factorization is the problem of approximating a matrix Z by a product of L sparse factors X^(L) X^(L--1). .. X^(1). This paper focuses on identifiability issues that appear in this problem, in view of better understanding under which sparsity constraints the problem is well-posed. We give conditions under which the problem of factorizing a matrix into two sparse factors admits a unique solution, up to unavoidable permutation and scaling equivalences. Our general framework considers an arbitrary family of prescribed sparsity patterns, allowing us to capture more structured notions of sparsity than simply the count of nonzero entries. These conditions are shown to be related to essential uniqueness of exact matrix decomposition into a sum of rank-one matrices, with structured sparsity constraints. A companion paper further exploits these conditions to derive identifiability properties in multilayer sparse matrix factorization of some well-known matrices like the Hadamard or the discrete Fourier transform matrices.
翻訳日:2021-10-05 15:25:21 公開日:2021-10-04
# フェデレーション線形バンディットに対する非同期上信頼境界アルゴリズム

Asynchronous Upper Confidence Bound Algorithms for Federated Linear Bandits ( http://arxiv.org/abs/2110.01463v1 )

ライセンス: Link先を確認
Chuanhao Li and Hongning Wang(参考訳) 線形文脈帯域幅はオンライン学習の一般的な問題である。 主に集中学習環境で研究されている。 大規模分散モデル学習(例えばフェデレーション学習)の需要が急増する中、通信コストを削減しながら後悔を最小限に抑える方法が課題となっている。 本稿では,連合学習環境における線形文脈バンディットについて検討する。 本稿では,均質なクライアントと異質なクライアントの集合に対して,非同期モデル更新と通信を行う汎用フレームワークを提案する。 この分散学習フレームワークにおける後悔とコミュニケーションのコストについて,厳密な理論的分析を行い,提案手法の有効性を実証した。

Linear contextual bandit is a popular online learning problem. It has been mostly studied in centralized learning settings. With the surging demand of large-scale decentralized model learning, e.g., federated learning, how to retain regret minimization while reducing communication cost becomes an open challenge. In this paper, we study linear contextual bandit in a federated learning setting. We propose a general framework with asynchronous model update and communication for a collection of homogeneous clients and heterogeneous clients, respectively. Rigorous theoretical analysis is provided about the regret and communication cost under this distributed learning framework; and extensive empirical evaluations demonstrate the effectiveness of our solution.
翻訳日:2021-10-05 15:24:26 公開日:2021-10-04
# 大きなバッチ体験のリプレイ

Large Batch Experience Replay ( http://arxiv.org/abs/2110.01528v1 )

ライセンス: Link先を確認
Thibault Lahire, Matthieu Geist, Emmanuel Rachelson(参考訳) 深層強化学習(RL)エージェントの再生バッファを非均一にサンプリングして学習を高速化するアルゴリズムが提案されているが、これらのサンプリングスキームの理論的基礎はごくわずかである。 とりわけ、優先順位付けされたエクスペリエンス リプレイは、優れたパフォーマンスを提供できるにもかかわらず、ハイパーパラメータに敏感なヒューリスティックとして現れる。 本研究では,リプレイバッファサンプリング問題を,勾配を推定するための重要サンプリングとして用いた。 これにより、理論上最適なサンプリング分布が導出され、最良の理論収束速度が得られる。 理想的なサンプリングスキームの知識を生かし、優先順位付けされた体験再生の新たな理論基盤を示す。 最適なサンプリング分布を抽出可能とし,実例でよい結果が得られる近似法をいくつか作成し,リプレイバッファのサンプリング方法としてLaBER(Large Batch Experience Replay)を導入している。 laberは、深いq-ネットワーク、分散rlエージェント、アクタ-クリティックな方法と組み合わせることで、さまざまなatariゲームやpybullet環境において、実装されているベースエージェントや他の優先順位付けスキームと比較して、パフォーマンスが向上する。

Several algorithms have been proposed to sample non-uniformly the replay buffer of deep Reinforcement Learning (RL) agents to speed-up learning, but very few theoretical foundations of these sampling schemes have been provided. Among others, Prioritized Experience Replay appears as a hyperparameter sensitive heuristic, even though it can provide good performance. In this work, we cast the replay buffer sampling problem as an importance sampling one for estimating the gradient. This allows deriving the theoretically optimal sampling distribution, yielding the best theoretical convergence speed. Elaborating on the knowledge of the ideal sampling scheme, we exhibit new theoretical foundations of Prioritized Experience Replay. The optimal sampling distribution being intractable, we make several approximations providing good results in practice and introduce, among others, LaBER (Large Batch Experience Replay), an easy-to-code and efficient method for sampling the replay buffer. LaBER, which can be combined with Deep Q-Networks, distributional RL agents or actor-critic methods, yields improved performance over a diverse range of Atari games and PyBullet environments, compared to the base agent it is implemented on and to other prioritization schemes.
翻訳日:2021-10-05 15:24:15 公開日:2021-10-04
# 決定デッドライン」下における偽発見率のオンライン制御

Online Control of the False Discovery Rate under "Decision Deadlines" ( http://arxiv.org/abs/2110.01583v1 )

ライセンス: Link先を確認
Aaron Fisher(参考訳) オンラインテスト手順は、仮説テストのシーケンスにおける偽発見の程度を制御することを目的としており、早期テストの結果が後の段階における仮説の選択に影響を与える可能性がある。 通常、オンラインメソッドは、次のテストに進む前に、現在のテストに関する恒久的な決定をしなければならないと仮定する。 代わりに、各仮説は即時の予備決定を必要とするが、事前に決められた期限までその決定を更新できると仮定する。 大まかに言えば、これはベンジャミン・ホックバーグ型手順を仮説の移動窓の上に適用し、予備結果に基づいて次のテストのしきい値を決定することができる。 本手法は,テストの各段階での偽発見率(FDR)と,適応的に選択された停止時間を制御する。 これらの結果は任意のp値依存性構造でも適用できる。

Online testing procedures aim to control the extent of false discoveries over a sequence of hypothesis tests, allowing for the possibility that early-stage test results influence the choice of hypotheses to be tested in later stages. Typically, online methods assume that a permanent decision regarding the current test (reject or not reject) must be made before advancing to the next test. We instead assume that each hypothesis requires an immediate preliminary decision, but also allows us to update that decision until a preset deadline. Roughly speaking, this lets us apply a Benjamini-Hochberg-t ype procedure over a moving window of hypotheses, where the threshold parameters for upcoming tests can be determined based on preliminary results. Our method controls the false discovery rate (FDR) at every stage of testing, as well as at adaptively chosen stopping times. These results apply even under arbitrary p-value dependency structures.
翻訳日:2021-10-05 15:21:47 公開日:2021-10-04
# 音声合成におけるスパース性,自然性,知性,韻律の相互作用について

On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis ( http://arxiv.org/abs/2110.01147v1 )

ライセンス: Link先を確認
Cheng-I Jeff Lai, Erica Cooper, Yang Zhang, Shiyu Chang, Kaizhi Qian, Yi-Lun Liao, Yung-Sung Chuang, Alexander H. Liu, Junichi Yamagishi, David Cox, James Glass(参考訳) エンドツーエンドのテキスト音声(TTS)モデルは過度にパラメータ化されているか? これらのモデルはどの程度まで刈り取られるのか、そしてそれらの合成能力はどうなるのか? この研究は、スペクトログラム予測ネットワークとボコーダの両方を刈り取るための出発点となる。 我々は、スパルスティイとそれに続く合成音声に対する影響のトレードオフを徹底的に調査する。 さらに, 細粒度データ量と空隙量, 未発見テキストの活用のためのTS拡張, 知識蒸留とプルーニングの組み合わせなど, TTSプルーニングのいくつかの側面について検討した。 以上の結果から,TTSモデルは終末から終末までのモデルであるだけでなく,おそらく驚くべきことに,同じあるいは高い自然性や知性を持つ合成音声を生成できる可能性が示唆された。 私たちの実験はすべて公開モデルで行われ、本研究の知見は大規模な主観的テストと客観的な測定によって裏付けられています。 コードと200個のプルーニングされたモデルは、将来のTSの効率性の研究を促進するために利用可能である。

Are end-to-end text-to-speech (TTS) models over-parametrized? To what extent can these models be pruned, and what happens to their synthesis capabilities? This work serves as a starting point to explore pruning both spectrogram prediction networks and vocoders. We thoroughly investigate the tradeoffs between sparstiy and its subsequent effects on synthetic speech. Additionally, we explored several aspects of TTS pruning: amount of finetuning data versus sparsity, TTS-Augmentation to utilize unspoken text, and combining knowledge distillation and pruning. Our findings suggest that not only are end-to-end TTS models highly prunable, but also, perhaps surprisingly, pruned TTS models can produce synthetic speech with equal or higher naturalness and intelligibility, with similar prosody. All of our experiments are conducted on publicly available models, and findings in this work are backed by large-scale subjective tests and objective measures. Code and 200 pruned models are made available to facilitate future research on efficiency in TTS.
翻訳日:2021-10-05 15:20:54 公開日:2021-10-04
# 音声認識システムのための機械学習手法評価のためのノイズの多い音声データセットの構築

Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches for Automatic Speech Recognition Systems ( http://arxiv.org/abs/2110.01425v1 )

ライセンス: Link先を確認
Julio Cesar Duarte and S\'ergio Colcher(参考訳) 音声認識システムは、パーソナルアシスタントや携帯電話に埋め込まれた日常生活の一部であり、人間と機械のインタラクションのファシリテーターとして、実用的な直感的な方法で情報へのアクセスを可能にする。 このようなシステムは通常、機械学習技術、特にディープニューラルネットワークを使って実装される。 音声からテキストを翻訳するタスクにおける高いパフォーマンスにもかかわらず、ノイズの多い環境での認識の問題に対処する研究はほとんどなく、一般的に使用されるデータセットにはノイズの多い音声サンプルが含まれておらず、データ拡張技術を用いてこの問題を軽減している。 本研究の目的は、ノイズの多い音声のデータセットを構築する過程を、電波伝送において一般的に見られる干渉による劣化音声の特定の場合において提示することである。 さらに,このようなデータを評価に用いる分類器の初期結果を示し,このデータセットを認識者の学習プロセスで活用することのメリットを示す。 このような認識器はノイズ集合の文字誤り率(SNR = 30)で平均0.4116となる。

Automatic speech recognition systems are part of people's daily lives, embedded in personal assistants and mobile phones, helping as a facilitator for human-machine interaction while allowing access to information in a practically intuitive way. Such systems are usually implemented using machine learning techniques, especially with deep neural networks. Even with its high performance in the task of transcribing text from speech, few works address the issue of its recognition in noisy environments and, usually, the datasets used do not contain noisy audio examples, while only mitigating this issue using data augmentation techniques. This work aims to present the process of building a dataset of noisy audios, in a specific case of degenerated audios due to interference, commonly present in radio transmissions. Additionally, we present initial results of a classifier that uses such data for evaluation, indicating the benefits of using this dataset in the recognizer's training process. Such recognizer achieves an average result of 0.4116 in terms of character error rate in the noisy set (SNR = 30).
翻訳日:2021-10-05 15:20:36 公開日:2021-10-04
# 非ペア学習で好きなように画像を強化する

Enhance Images as You Like with Unpaired Learning ( http://arxiv.org/abs/2110.01161v1 )

ライセンス: Link先を確認
Xiaopeng Sun, Muxingzi Li, Tianyu He, Lubin Fan(参考訳) 低照度画像強調は、与えられた画像が多くの拡張バージョンを持つため、不適切な性質を示すが、最近の研究では、入力から拡張バージョンへの決定論的マッピングの構築に焦点を当てている。 これとは対照的に,低照度から通常照度までの1対多の関係を,対応のない低照度および通常照度トレーニング画像のみに限定して学習するための,軽量な1パス条件生成対向ネットワーク(cGAN)を提案する。 この不適切な問題を変調符号学習タスクとして定式化することにより、ネットワークは、様々な参照画像に対して与えられた入力条件から拡張画像の集合を生成する。 したがって,各ユーザの好適な写真をいくつか提供して,様々なユーザの好みに容易に適応できる推定モデルを構築した。 提案手法は,従来のGANの6倍から10倍の精度で,ノイズやクリーンなデータセットの完全教師付き手法と同等に競合する視覚的,定量的な結果が得られる。

Low-light image enhancement exhibits an ill-posed nature, as a given image may have many enhanced versions, yet recent studies focus on building a deterministic mapping from input to an enhanced version. In contrast, we propose a lightweight one-path conditional generative adversarial network (cGAN) to learn a one-to-many relation from low-light to normal-light image space, given only sets of low- and normal-light training images without any correspondence. By formulating this ill-posed problem as a modulation code learning task, our network learns to generate a collection of enhanced images from a given input conditioned on various reference images. Therefore our inference model easily adapts to various user preferences, provided with a few favorable photos from each user. Our model achieves competitive visual and quantitative results on par with fully supervised methods on both noisy and clean datasets, while being 6 to 10 times lighter than state-of-the-art generative adversarial networks (GANs) approaches.
翻訳日:2021-10-05 15:17:58 公開日:2021-10-04
# pet画像再構成のための深部カーネル表現

Deep Kernel Representation for Image Reconstruction in PET ( http://arxiv.org/abs/2110.01174v1 )

ライセンス: Link先を確認
Siqi Li and Guobao Wang(参考訳) ポジトロン・エミッション・トモグラフィー(PET)の画像再構成は,不条件のトモグラフィ問題と低いカウント統計のため困難である。 カーネル法は、カーネル表現を用いて、反復PET画像再構成のフォワードモデルに画像先行情報を組み込むことでこの問題に対処する。 既存のカーネルメソッドは経験的プロセスを使用してカーネルを構築する。 本稿では,カーネル表現と学習可能なニューラルネットワークモデルとの等価性について述べる。 最適化されたカーネルモデルの自動学習を可能にするために,ディープニューラルネットワークを活用するディープカーネル手法を提案する。 提案手法は単独の被験者に直接適用できる。 トレーニングプロセスは利用可能な画像先行データを利用して、経験的にではなく、最適な堅牢なカーネルセットを形成する最善の方法を探す。 計算機シミュレーションと実患者データセットの結果から,提案する深層カーネル法は,動的pet画像再構成のための既存のカーネル法やニューラルネットワーク法よりも優れることが示された。

Image reconstruction for positron emission tomography (PET) is challenging because of the ill-conditioned tomographic problem and low counting statistics. Kernel methods address this challenge by using kernel representation to incorporate image prior information in the forward model of iterative PET image reconstruction. Existing kernel methods construct the kernels commonly using an empirical process, which may lead to suboptimal performance. In this paper, we describe the equivalence between the kernel representation and a trainable neural network model. A deep kernel method is proposed by exploiting deep neural networks to enable an automated learning of an optimized kernel model. The proposed method is directly applicable to single subjects. The training process utilizes available image prior data to seek the best way to form a set of robust kernels optimally rather than empirically. The results from computer simulations and a real patient dataset demonstrate that the proposed deep kernel method can outperform existing kernel method and neural network method for dynamic PET image reconstruction.
翻訳日:2021-10-05 15:17:39 公開日:2021-10-04
# ViTからの無料ランチ:微粒な視覚認識のための適応注意型マルチスケールフュージョントランス

A free lunch from ViT: Adaptive Attention Multi-scale Fusion Transformer for Fine-grained Visual Recognition ( http://arxiv.org/abs/2110.01240v1 )

ライセンス: Link先を確認
Yuan Zhang, Jian Cao, Ling Zhang, Xiangcheng Liu, Zhiyi Wang, Feng Ling, Weiqian Chen(参考訳) オブジェクト部分の微妙な表現を学ぶことは、きめ細かい視覚認識(fgvr)の分野で重要な役割を果たす。 視覚トランスフォーマー(vit)は、その注意機構により、コンピュータビジョンの有望な結果を達成する。 それでも、vitのパッチのサイズが固定されているため、ディープレイヤのクラストークンはグローバルレセプティブフィールドにフォーカスしており、fgvrのマルチグラニュリティー機能は生成できない。 ボックスアノテーションを使わずに領域の注意を捉え、FGVRのViT欠点を補うために、Adaptive attention multi-scale Fusion Transformer (AFTrans) という新しい手法を提案する。 提案手法におけるSelective Attention Collection Module (SACM) は,ViTの注意重みを利用して,入力パッチの相対的重要性に適応的に相関する。 マルチスケール(グローバルおよびローカル)パイプラインは、重み共有エンコーダによって監視され、エンドツーエンドで簡単にトレーニングすることができます。 総合的な実験により、AFTransは、CUB-200-2011、Stanford Dogs、iNat2017の3つの詳細なベンチマークでSOTA性能を達成できることが示された。

Learning subtle representation about object parts plays a vital role in fine-grained visual recognition (FGVR) field. The vision transformer (ViT) achieves promising results on computer vision due to its attention mechanism. Nonetheless, with the fixed size of patches in ViT, the class token in deep layer focuses on the global receptive field and cannot generate multi-granularity features for FGVR. To capture region attention without box annotations and compensate for ViT shortcomings in FGVR, we propose a novel method named Adaptive attention multi-scale Fusion Transformer (AFTrans). The Selective Attention Collection Module (SACM) in our approach leverages attention weights in ViT and filters them adaptively to corre-spond with the relative importance of input patches. The multiple scales (global and local) pipeline is supervised by our weights sharing encoder and can be easily trained end-to-end. Comprehensive experiments demonstrate that AFTrans can achieve SOTA performance on three published fine-grained benchmarks: CUB-200-2011, Stanford Dogs and iNat2017.
翻訳日:2021-10-05 15:17:22 公開日:2021-10-04
# 蒸留知識を用いた逆学習による軽量変形型登録

Light-weight Deformable Registration using Adversarial Learning with Distilling Knowledge ( http://arxiv.org/abs/2110.01293v1 )

ライセンス: Link先を確認
Minh Q. Tran, Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh Nguyen(参考訳) 変形性登録は、画像誘導手術や放射線治療などの多くの医療処置において重要なステップである。 近年の学習手法は,入力画像間の非線形空間対応を最適化することにより精度の向上に重点を置いている。 したがって、これらの手法は計算コストが高く、リアルタイム展開には最新のグラフィックカードを必要とする。 本稿では,競争精度を向上しつつ,計算コストを大幅に削減する軽量変形型登録ネットワークを提案する。 特に,有効だが高価な教師ネットワークから学生ネットワークへの有意義な情報を活用した蒸留知識アルゴリズムを用いた新たな逆学習を提案する。 学生ネットワークは軽量で,典型的なCPU上での展開に適した設計をしている。 各種公開データセットに対する実験結果から,提案手法は最先端の精度を達成できる一方で,最近の手法よりもはるかに高速であることがわかった。 さらに、時間効率の変形可能な登録法には、逆学習アルゴリズムの使用が不可欠であることを示す。 最後に、ソースコードとトレーニングされたモデルは以下の通りである。

Deformable registration is a crucial step in many medical procedures such as image-guided surgery and radiation therapy. Most recent learning-based methods focus on improving the accuracy by optimizing the non-linear spatial correspondence between the input images. Therefore, these methods are computationally expensive and require modern graphic cards for real-time deployment. In this paper, we introduce a new Light-weight Deformable Registration network that significantly reduces the computational cost while achieving competitive accuracy. In particular, we propose a new adversarial learning with distilling knowledge algorithm that successfully leverages meaningful information from the effective but expensive teacher network to the student network. We design the student network such as it is light-weight and well suitable for deployment on a typical CPU. The extensively experimental results on different public datasets show that our proposed method achieves state-of-the-art accuracy while significantly faster than recent methods. We further show that the use of our adversarial learning algorithm is essential for a time-efficiency deformable registration method. Finally, our source code and trained models are available at: https://github.com/a ioz-ai/LDR_ALDK.
翻訳日:2021-10-05 15:17:01 公開日:2021-10-04
# 自動左室分画を併用した心筋mriの合成速度マッピング

Synthetic Velocity Mapping Cardiac MRI Coupled with Automated Left Ventricle Segmentation ( http://arxiv.org/abs/2110.01304v1 )

ライセンス: Link先を確認
Xiaodan Xing, Yinzhe Wu, David Firmin, Peter Gatehouse, Guang Yang(参考訳) 心臓運動の時間的パターンは心疾患の診断に重要な情報を提供する。 このパターンは3方向の左心室速度マッピング(3Dir MVM)によって得ることができ、同時に心筋運動の大きさと位相情報を提供する心臓MRI技術である。 しかし、長い取得時間は呼吸アーチファクトを引き起こすことによってこのテクニックの使用を制限する一方で、時間短縮は時間分解能を低くし、心臓運動の不正確な評価を与える可能性がある。 本研究では,3次元MVMデータの時間分解能を高めるためのフレーム合成アルゴリズムを提案する。 我々のアルゴリズムは特徴的である 1) インプットとしてマグニチュード画像,位相画像,心筋セグメンテーションマスクをそれぞれ受け入れる3つの注意に基づくエンコーダ 2 補間フレーム及び対応する心筋セグメンテーション結果を出力する3つの復号器 3)心筋のピクセルを強調する損失機能。 我々のアルゴリズムは、時間分解能3Dir MVMを増大させるだけでなく、同時に心筋セグメンテーション結果を生成することもできる。

Temporal patterns of cardiac motion provide important information for cardiac disease diagnosis. This pattern could be obtained by three-directional CINE multi-slice left ventricular myocardial velocity mapping (3Dir MVM), which is a cardiac MR technique providing magnitude and phase information of the myocardial motion simultaneously. However, long acquisition time limits the usage of this technique by causing breathing artifacts, while shortening the time causes low temporal resolution and may provide an inaccurate assessment of cardiac motion. In this study, we proposed a frame synthesis algorithm to increase the temporal resolution of 3Dir MVM data. Our algorithm is featured by 1) three attention-based encoders which accept magnitude images, phase images, and myocardium segmentation masks respectively as inputs; 2) three decoders that output the interpolated frames and corresponding myocardium segmentation results; and 3) loss functions highlighting myocardium pixels. Our algorithm can not only increase the temporal resolution 3Dir MVMs, but can also generates the myocardium segmentation results at the same time.
翻訳日:2021-10-05 15:16:45 公開日:2021-10-04
# 帰納的バイアス推定:アイデンティティ転送のための学習一般化

Inductive Biased Estimation: Learning Generalizations for Identity Transfer ( http://arxiv.org/abs/2110.01571v1 )

ライセンス: Link先を確認
Gege Gao, Huaibo Huang, Chaoyou Fu, Ran He(参考訳) アイデンティティー転送は、しばしば、ソースとターゲットの顔画像の間に大きなポーズと表現または背景ギャップが存在する新しい状況に一般化するという課題に直面します。 このような状況における一般化を改善するために、バイアスは重要な役割を果たす。 本稿では, 対象状況に関する事前知識に基づいて, 個人識別推定にバイアスを明示的に利用することにより, 適切な一般化の学習を誘導するErrors-in-Variables Adapter (EVA) モデルを提案する。 姿勢・表情・背景要因の観点で、ソースフェイスとターゲット状況とをよりよく一致させるため、ソースアイデンティティに対するターゲット状況の因果効果としてバイアスをモデル化し、制御された介入試行によりその効果を推定する。 同一性ギャップを越えたターゲット面のスムーズな移動を実現するため,複数のカーネル回帰によって対象面の特異性を除去する。 カーネルは、他の知覚情報に不変なまま、対象画像の内部表現におけるアイデンティティ情報のみを操作する回帰を制約するために使用される。 これらの回帰後の表現とアイデンティティのバイアス推定を組み合わせることで、EVAは大きなギャップがあっても印象的な性能を示し、アイデンティティ推定における帰納的バイアスの有用性を支持する実証的な証拠を提供する。

Identity transfer often faces the challenge of generalizing to new situations where large pose and expression or background gaps exist between source and target face images. To improve generalization in such situations, biases take a key role~\cite{mitchell_1980_bias}. This paper proposes an Errors-in-Variables Adapter (EVA) model to induce learning of proper generalizations by explicitly employing biases to identity estimation based on prior knowledge about the target situation. To better match the source face with the target situation in terms of pose, expression, and background factors, we model the bias as a causal effect of the target situation on source identity and estimate this effect through a controlled intervention trial. To achieve smoother transfer for the target face across the identity gap, we eliminate the target face specificity through multiple kernel regressions. The kernels are used to constrain the regressions to operate only on identity information in the internal representations of the target image, while leaving other perceptual information invariant. Combining these post-regression representations with the biased estimation for identity, EVA shows impressive performance even in the presence of large gaps, providing empirical evidence supporting the utility of the inductive biases in identity estimation.
翻訳日:2021-10-05 15:16:28 公開日:2021-10-04
# 自動車の安全確保に向けた道路側インフラセンサの最適配置

Optimal Placement of Roadside Infrastructure Sensors towards Safer Autonomous Vehicle Deployments ( http://arxiv.org/abs/2110.01251v1 )

ライセンス: Link先を確認
Roshan Vijay, Jim Cherian, Rachid Riah, Niels de Boer and Apratim Choudhury(参考訳) 自動運転車は、世界中に展開するためにますます開発されている。 しかし、このような自動または自律走行車(AV)の車載検知と認識能力は、あらゆるシナリオや状況下での安全性を確保するには不十分かもしれない。 道路インフラストラクチャーセンサを用いたインフラ拡張環境認識は,少なくとも都市道路交差点や湾曲道路など,AVに介在する特定の地域を対象として,有効なソリューションとみなすことができる。 しかし、調達、設置、維持にはかなりのコストがかかる。 したがって、これらのセンサは、道路利用者の全体的な安全の観点から最大限の利益を得るために、戦略的かつ最適に配置されなければならない。 本稿では,V2X(Vehicle-to-ever ything)インフラストラクチャセンサの最適配置を実現するための新しい手法を提案する。 我々は,レイキャスティングにおける最近の進歩と線形最適化文献を組み合わせることで,都市都市計画者,交通分析,av展開運用者のためのツールを提供する。 代表環境における実験的な評価を通じて,本手法の利点と実用性を証明する。

Vehicles with driving automation are increasingly being developed for deployment across the world. However, the onboard sensing and perception capabilities of such automated or autonomous vehicles (AV) may not be sufficient to ensure safety under all scenarios and contexts. Infrastructure-augme nted environment perception using roadside infrastructure sensors can be considered as an effective solution, at least for selected regions of interest such as urban road intersections or curved roads that present occlusions to the AV. However, they incur significant costs for procurement, installation and maintenance. Therefore these sensors must be placed strategically and optimally to yield maximum benefits in terms of the overall safety of road users. In this paper, we propose a novel methodology towards obtaining an optimal placement of V2X (Vehicle-to-everythi ng) infrastructure sensors, which is particularly attractive to urban AV deployments, with various considerations including costs, coverage and redundancy. We combine the latest advances made in raycasting and linear optimization literature to deliver a tool for urban city planners, traffic analysis and AV deployment operators. Through experimental evaluation in representative environments, we prove the benefits and practicality of our approach.
翻訳日:2021-10-05 15:15:41 公開日:2021-10-04
# インセンティブによる平衡誘導: デザインとプレイを同時に行うグローバルオプティマ

Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds Global Optima ( http://arxiv.org/abs/2110.01212v1 )

ライセンス: Link先を確認
Boyi Liu, Jiayang Li, Zhuoran Yang, Hoi-To Wai, Mingyi Hong, Yu Marco Nie, Zhaoran Wang(参考訳) 利害関係者からなる社会システムにおいて所望の均衡を誘導するために、非効率な成果を是正するために、経済的インセンティブ(税、料金、補助金など)がしばしば求められる。 このようなインセンティブ設計問題は、上層レベルの「設計者」が、非協力的なゲームを下層レベルでプレイするエージェントの応答を期待しながら、インセンティブ付きエージェントの報酬を改訂するバイレベル構造を自然に有する。 機械学習で開発された既存の二段階最適化アルゴリズムは、この問題に適用された場合、ジレンマを生じさせる: 均衡エージェントにどのようなインセンティブが影響するかを予測するには、平衡問題を繰り返し解決する必要があるが、これは計算的に非効率である。 そこで本研究では,デザイナーとエージェントの問題を同時に1ループで解決する効率的な手法を提案する。 各イテレーションで、デザイナーとエージェントは、一階の情報に基づいて1ステップだけ移動します。 提案手法では, 設計者は平衡問題を繰り返し解決しないが, 最適性を保証するエージェントに対するインセンティブの全体的な影響を予測できる。 このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域最適化に収束することを示す。

To induce a desired equilibrium in a social system comprised of self-interested agents, economic incentives (e.g., taxes, tolls, and subsidies) are often required to correct an inefficient outcome. Such an incentive design problem naturally possesses a bi-level structure, in which an upper-level "designer" revises the payoffs of the agents with incentives while anticipating the response of the agents, who play a non-cooperative game at the lower level. The existing bi-level optimization algorithms developed in machine learning raise a dilemma when applied to this problem: anticipating how incentives affect the agents at equilibrium requires solving the equilibrium problem repeatedly, which is computationally inefficient; bypassing the time-consuming step of equilibrium-finding can reduce the computational cost, but may lead to a sub-optimal solution. Therefore, we propose an efficient method that tackles the designer's and agents' problems simultaneously in a single loop. At each iteration, both the designer and the agents only move one step based on the first-order information. In the proposed scheme, although the designer does not solve the equilibrium problem repeatedly, it can anticipate the overall influence of the incentives on the agents, which guarantees optimality. We prove that the algorithm converges to the global optima at a sublinear rate for a broad class of games.
翻訳日:2021-10-05 15:13:33 公開日:2021-10-04
# 無線仮想ネットワーク埋め込みにおける入場制御のための強化学習

Reinforcement Learning for Admission Control in Wireless Virtual Network Embedding ( http://arxiv.org/abs/2110.01262v1 )

ライセンス: Link先を確認
Haitham Afifi, Fabian Sauer and Holger Karl(参考訳) 無線ネットワークにおけるサービス機能チェイン(SFC)の利用は、ネットワークやマルチメディアといった多くの領域で人気を博した。 ネットワークリソースを仮想ネットワーク埋め込み(VNE)アルゴリズムを介して受信するSFC要求に割り当てることにより、SFCの性能を最適化する。 受信するリクエストの負荷が(限られたネットワークリソースと競合する)増加すると、どのリクエストが承認され、どれが拒否されるかを決めるのが難しくなります。 本稿では,サービス寿命や着信要求の優先度など,さまざまな依存関係に対する受け入れポリシを学習可能な,深い強化学習(rl)ソリューションを提案する。 我々は、deep rlソリューションと、利用可能なリソースがあればいつでもリクエストを許可するfirst-come-first-ser veベースラインを比較します。 本稿では,RLがベースラインより優れており,リソースが十分ある場合でも低拒否率で高い受け入れ率が得られることを示す。

Using Service Function Chaining (SFC) in wireless networks became popular in many domains like networking and multimedia. It relies on allocating network resources to incoming SFCs requests, via a Virtual Network Embedding (VNE) algorithm, so that it optimizes the performance of the SFC. When the load of incoming requests -- competing for the limited network resources - increases, it becomes challenging to decide which requests should be admitted and which one should be rejected. In this work, we propose a deep Reinforcement learning (RL) solution that can learn the admission policy for different dependencies, such as the service lifetime and the priority of incoming requests. We compare the deep RL solution to a first-come-first-ser ve baseline that admits a request whenever there are available resources. We show that deep RL outperforms the baseline and provides higher acceptance rate with low rejections even when there are enough resources.
翻訳日:2021-10-05 15:13:10 公開日:2021-10-04
# 新型コロナウイルスパンデミック時のスマートフォン使用状況の変化とアプリ利用嗜好との関連性の解析

Analysis of the Correlation between smartphone usage changes during the COVID-19 pandemic and usage preferences on apps ( http://arxiv.org/abs/2110.01331v1 )

ライセンス: Link先を確認
Yuxuan Yang and Maiko Shigeno(参考訳) 世界保健機関(who)は2020年3月に新型コロナウイルス(covid-19)パンデミック(covid-19)を発表した。 人々の生活に多大な影響を与えた。 本稿では,スマートフォンのアプリケーション利用の変化を利用して,パンデミックが人々の生活に与える影響を観察し分析する。 まず、パンデミック中の全利用者の日次利用変化傾向を観察することにより、パンデミック時の制限措置や政策が人々の生活に与える影響を理解し、分析することができる。 また、将来的なパンデミックの場合には、政府や保健省がより適切な規制措置を取ることも有益である。 第2に,使用変化の特徴を定義した上で,パンデミック時の使用変化パターンを,クラスタ毎に9つに分類し,日常的利用変化の多様性を示す。 パンデミックの異なる影響を理解し分析し、異なるタイプの人々に対する制限的な措置をより詳細に分析するのに役立つ。 最後に, 予測モデルにより, 利用者の好みや人口統計情報から, 各利用変化タイプの主な関連要因を見出す。 今後パンデミックや他の制限措置が実施されれば、スマートフォンのアクティビティの変化を予測するのに役立ち、措置やイベントのリスクを判断し、管理する新たな指標となる可能性がある。

Since the World Health Organization announced the COVID-19 pandemic in March 2020, curbing the spread of the virus has become an international priority. It has greatly affected people's lifestyles. In this article, we observe and analyze the impact of the pandemic on people's lives using changes in smartphone application usage. First, through observing the daily usage change trends of all users during the pandemic, we can understand and analyze the effects of restrictive measures and policies during the pandemic on people's lives. In addition, it is also helpful for the government and health departments to take more appropriate restrictive measures in the case of future pandemics. Second, we defined the usage change features and found 9 different usage change patterns during the pandemic according to clusters of users and show the diversity of daily usage changes. It helps to understand and analyze the different impacts of the pandemic and restrictive measures on different types of people in more detail. Finally, according to prediction models, we discover the main related factors of each usage change type from user preferences and demographic information. It helps to predict changes in smartphone activity during future pandemics or when other restrictive measures are implemented, which may become a new indicator to judge and manage the risks of measures or events.
翻訳日:2021-10-05 15:12:54 公開日:2021-10-04
# Pharmacoprint -- コンピュータ支援ドラッグデザインのためのツールとして、薬薬用指紋と人工知能の組み合わせ

Pharmacoprint -- a combination of pharmacophore fingerprint and artificial intelligence as a tool for computer-aided drug design ( http://arxiv.org/abs/2110.01339v1 )

ライセンス: Link先を確認
Dawid Warszycki, {\L}ukasz Struski, Marek \'Smieja, Rafa{\l} Kafel, Rafa{\l} Kurczab(参考訳) 構造指紋と薬理泳動モデリングは、類似性検索から機械学習(ML)まで、様々な分野で20年以上にわたって用いられてきた手法である。 その結果、シリコ技法の進歩により、これらの手法を薬用指紋と呼ばれる新しいアプローチに組み合わせた。 そこで本研究では,分子の存在,型,関係を符号化した高分解能な医薬用指紋Pharmacoprintを提案する。 MLアルゴリズム(論理回帰、サポートベクターマシン、線形支持ベクターマシン、ニューラルネットワーク)を用いて分類実験を行い、他の一般的な分子指紋(Estate, MACCS, PubChem, Substructure, Klekotha-Roth, CDK, Extended, GraphOnly)とChemAxon Pharophoric Featuresの指紋より優れていた。 Pharmacoprintは39973ビットで構成されており、いくつかの手法が次元削減に適用され、最良のアルゴリズムはビット文字列の長さを削減しただけでなく、MLテストの効率も改善した。 さらなる最適化により、識別テストでPharmacoprintを使用することと統計パラメータの最大化に最適なパラメータ設定が定義できるようになった。 最後に、定義された水素を入力データとして3次元構造のために生成されたPharmacoprintは、最も重要なビットを選択するための教師付きオートエンコーダでニューラルネットワークに適用され、マシューズ相関係数を0.962まで最大化することができた。 その結果,Pharmacoprintがコンピュータ支援ドラッグデザインの新しい視点ツールとなる可能性が示された。

Structural fingerprints and pharmacophore modeling are methodologies that have been used for at least two decades in various fields of cheminformatics: from similarity searching to machine learning (ML). Advances in silico techniques consequently led to combining both these methodologies into a new approach known as pharmacophore fingerprint. Herein, we propose a high-resolution, pharmacophore fingerprint called Pharmacoprint that encodes the presence, types, and relationships between pharmacophore features of a molecule. Pharmacoprint was evaluated in classification experiments by using ML algorithms (logistic regression, support vector machines, linear support vector machines, and neural networks) and outperformed other popular molecular fingerprints (i.e., Estate, MACCS, PubChem, Substructure, Klekotha-Roth, CDK, Extended, and GraphOnly) and ChemAxon Pharmacophoric Features fingerprint. Pharmacoprint consisted of 39973 bits; several methods were applied for dimensionality reduction, and the best algorithm not only reduced the length of bit string but also improved the efficiency of ML tests. Further optimization allowed us to define the best parameter settings for using Pharmacoprint in discrimination tests and for maximizing statistical parameters. Finally, Pharmacoprint generated for 3D structures with defined hydrogens as input data was applied to neural networks with a supervised autoencoder for selecting the most important bits and allowed to maximize Matthews Correlation Coefficient up to 0.962. The results show the potential of Pharmacoprint as a new, perspective tool for computer-aided drug design.
翻訳日:2021-10-05 15:12:32 公開日:2021-10-04
# 深層強化学習によるプリビレージエスカレーションの自動化

Automating Privilege Escalation with Deep Reinforcement Learning ( http://arxiv.org/abs/2110.01362v1 )

ライセンス: Link先を確認
Kalle Kujanp\"a\"a, Willie Victor, Alexander Ilin(参考訳) AIベースの防御ソリューションは、ネットワークや情報資産をインテリジェントな自動攻撃から守るために必要である。 機械学習ベースの防御を訓練するための十分な現実的なデータを集めることは、重要な実践的課題である。 リアルアタックが可能なインテリジェントなレッドチームエージェントは、この問題を軽減することができる。 しかし、機械学習を用いた完全自動攻撃の可能性を示す科学的証拠はほとんどない。 本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。 本稿では,最先端強化学習アルゴリズムを用いて局所特権エスカレーションを行うエージェントを提案する。 以上の結果から, 自律エージェントはwindows 7環境において, 環境設定に応じて多様な手法を用いて権限をエスカレーションできることがわかった。 したがって, 本エージェントは, 侵入検知システムを訓練し評価するために, 現実的なアタックセンサデータを生成することができる。

AI-based defensive solutions are necessary to defend networks and information assets against intelligent automated attacks. Gathering enough realistic data for training machine learning-based defenses is a significant practical challenge. An intelligent red teaming agent capable of performing realistic attacks can alleviate this problem. However, there is little scientific evidence demonstrating the feasibility of fully automated attacks using machine learning. In this work, we exemplify the potential threat of malicious actors using deep reinforcement learning to train automated agents. We present an agent that uses a state-of-the-art reinforcement learning algorithm to perform local privilege escalation. Our results show that the autonomous agent can escalate privileges in a Windows 7 environment using a wide variety of different techniques depending on the environment configuration it encounters. Hence, our agent is usable for generating realistic attack sensor data for training and evaluating intrusion detection systems.
翻訳日:2021-10-05 15:12:01 公開日:2021-10-04
# ベイズ解析とスペクトル解析による表状データセットのグラフ構造解明

Unraveling the graph structure of tabular datasets through Bayesian and spectral analysis ( http://arxiv.org/abs/2110.01421v1 )

ライセンス: Link先を確認
Bruno Messias F. de Resende, Eric K. Tokuda, Luciano da Fontoura Costa(参考訳) ビッグデータ時代のグラフデータセットは、至る所で生成され分析されている。 その結果、これらのデータセットの特徴間の関係を見つけ、理解することは、非常に有益である。 そこで,これらの関係を包含するために,表型データセット全体や観測をシェープリー加法で重み付け有向グラフにマッピングする手法を提案する。 この関係のグラフを用いて,nested stochastic block model (nsbm) によって得られた階層的モジュラー構造の推論と磁気ラプラシアンのスペクトル空間の研究は,特徴のクラスを同定し,非自明な関係を解き放つのに役立つことを示す。 ブラジルの学生を対象に実施した社会経済調査: PeNSE 調査を事例として分析した。 カラムのスペクトル埋め込みは、物理的活動に関連する質問が別々のグループを形成することを示唆した。 nsbmアプローチの適用は、それと一致し、モジュラー構造の相補的な発見を可能にした: いくつかの質問群は、調査の設計者によって定性的に定義された分割との密着度が高いことを示した。 しかし、クラス \textit{Safety} からの質問は、クラス \textit{Drugs} のメソッドによって部分的にグループ化された。 驚いたことに、これらの質問を検査することで、これらの質問はどちらも関連しており、これらの質問の代替解釈が提案されている。 本手法は,表型データ解析のガイダンスと今後の調査の設計を提供することができる。

In the big-data age tabular datasets are being generated and analyzed everywhere. As a consequence, finding and understanding the relationships between the features of these datasets are of great relevance. Here, to encompass these relationships we propose a methodology that maps an entire tabular dataset or just an observation into a weighted directed graph using the Shapley additive explanations technique. With this graph of relationships, we show that the inference of the hierarchical modular structure obtained by the nested stochastic block model (nSBM) as well as the study of the spectral space of the magnetic Laplacian can help us identify the classes of features and unravel non-trivial relationships. As a case study, we analyzed a socioeconomic survey conducted with students in Brazil: the PeNSE survey. The spectral embedding of the columns suggested that questions related to physical activities form a separate group. The application of the nSBM approach, corroborated with that and allowed complementary findings about the modular structure: some groups of questions showed a high adherence with the divisions qualitatively defined by the designers of the survey. However, questions from the class \textit{Safety} were partly grouped by our method in the class \textit{Drugs}. Surprisingly, by inspecting these questions, we observed that they were related to both these topics, suggesting an alternative interpretation of these questions. Our method can provide guidance for tabular data analysis as well as the design of future surveys.
翻訳日:2021-10-05 15:11:21 公開日:2021-10-04
# HyperTeNet: 個人化リスト継続のためのハイパーグラフとトランスフォーマーベースニューラルネットワーク

HyperTeNet: Hypergraph and Transformer-based Neural Network for Personalized List Continuation ( http://arxiv.org/abs/2110.01467v1 )

ライセンス: Link先を確認
Vijaikumar M, Deepesh Hada, Shirish Shevade(参考訳) パーソナライズされたリスト継続(PLC)タスクは、パーソナライズされた方法で、次のアイテムをユーザ生成リスト(注文されたアイテムのシーケンス)にキュレートする。 このタスクの主な課題は、既存の作品が考慮していない相互作用するエンティティ(ユーザ、アイテム、リスト)間の三者関係を理解することである。 また、同一タイプのエンティティ間のマルチホップ関係を考慮に入れない。 さらに、リストにすでに存在するアイテムのシーケンシャルな情報を取得することも、キュレートされる次の関連するアイテムを決定する上で重要な役割を果たす。 本稿では,先述の課題を解決するために,リスト継続タスクをパーソナライズするためのハイパーグラフとトランスフォーマーベースのニューラルネットワークアーキテクチャであるhypertenetを提案する。 グラフ畳み込みを用いて、同一タイプのエンティティ間のマルチホップ関係を学習し、自己アテンションに基づくハイパーグラフニューラルネットワークを用いて、3ユニフォームハイパーグラフのハイパーリンク予測により相互作用するエンティティ間の3次関係を学習する。 さらに、エンティティ埋め込みはTransformerベースのアーキテクチャと共有され、交互最適化手順を通じて学習される。 結果として、このネットワークは、リストに追加される次の項目のキュレーションに必要なシーケンシャルな情報も学習する。 実験の結果,HyperTeNetは実世界のデータセット上で,他の最先端モデルよりも大幅に優れていた。 実装とデータセットはhttps://github.com/m vijaikumar/HyperTeNe t.comで公開しています。

The personalized list continuation (PLC) task is to curate the next items to user-generated lists (ordered sequence of items) in a personalized way. The main challenge in this task is understanding the ternary relationships among the interacting entities (users, items, and lists) that the existing works do not consider. Further, they do not take into account the multi-hop relationships among entities of the same type. In addition, capturing the sequential information amongst the items already present in the list also plays a vital role in determining the next relevant items that get curated. In this work, we propose HyperTeNet -- a self-attention hypergraph and Transformer-based neural network architecture for the personalized list continuation task to address the challenges mentioned above. We use graph convolutions to learn the multi-hop relationship among the entities of the same type and leverage a self-attention-based hypergraph neural network to learn the ternary relationships among the interacting entities via hyperlink prediction in a 3-uniform hypergraph. Further, the entity embeddings are shared with a Transformer-based architecture and are learned through an alternating optimization procedure. As a result, this network also learns the sequential information needed to curate the next items to be added to the list. Experimental results demonstrate that HyperTeNet significantly outperforms the other state-of-the-art models on real-world datasets. Our implementation and datasets are available at https://github.com/m vijaikumar/HyperTeNe t.
翻訳日:2021-10-05 15:10:55 公開日:2021-10-04
# 非凸確率最適化のための確率アンダーソン混合

Stochastic Anderson Mixing for Nonconvex Stochastic Optimization ( http://arxiv.org/abs/2110.01543v1 )

ライセンス: Link先を確認
Fuchao Wei, Chenglong Bao, Yang Liu(参考訳) Anderson Mixing (AM) は固定点反復の加速法である。 科学計算での成功と幅広い利用にもかかわらず、amの収束理論はいまだ不明であり、機械学習問題への応用は十分に検討されていない。 本稿では,従来のAMに減衰投影と適応正規化を導入することで,非凸確率最適化問題の解法として,Stochastic Anderson Mixing(SAM)方式を提案する。 軽度の仮定の下では、定常点へのほぼ確実な収束と最悪の反復複雑性を含むSAMの収束理論を確立する。 さらに、出力としてイテレートをランダムに選択すると、複雑性境界が向上する。 収束をさらに加速するため,提案したSAMに分散低減手法を組み込んだ。 また,より高速な収束やより優れた一般化能力を実証的に達成できるSAMの予条件混合戦略を提案する。 最後に、SAM法を用いて、バニラCNN、ResNets、WideResNet、ResNeXt、DenseNet、RNNなどの様々なニューラルネットワークをトレーニングする。 画像分類と言語モデルの実験結果から,本手法の利点が示された。

Anderson mixing (AM) is an acceleration method for fixed-point iterations. Despite its success and wide usage in scientific computing, the convergence theory of AM remains unclear, and its applications to machine learning problems are not well explored. In this paper, by introducing damped projection and adaptive regularization to classical AM, we propose a Stochastic Anderson Mixing (SAM) scheme to solve nonconvex stochastic optimization problems. Under mild assumptions, we establish the convergence theory of SAM, including the almost sure convergence to stationary points and the worst-case iteration complexity. Moreover, the complexity bound can be improved when randomly choosing an iterate as the output. To further accelerate the convergence, we incorporate a variance reduction technique into the proposed SAM. We also propose a preconditioned mixing strategy for SAM which can empirically achieve faster convergence or better generalization ability. Finally, we apply the SAM method to train various neural networks including the vanilla CNN, ResNets, WideResNet, ResNeXt, DenseNet and RNN. Experimental results on image classification and language model demonstrate the advantages of our method.
翻訳日:2021-10-05 15:10:31 公開日:2021-10-04
# バイアス付き毒性ラベルからの学習に関する実証的研究

An Empirical Investigation of Learning from Biased Toxicity Labels ( http://arxiv.org/abs/2110.01577v1 )

ライセンス: Link先を確認
Neel Nanda, Jonathan Uesato, Sven Gowal(参考訳) 人間のレーダからアノテーションを集めることは、収集したいラベルの量とそれらのラベルの品質のトレードオフをもたらすことが多い。 そのため、少量の高品質なラベルしか収集できないことが多い。 本稿では,オンラインコメントの有害性を予測するために,人間の注釈付きラベルの小さなデータセットと,合成されたラベル(アイデンティティグループに対するバイアスを示す)の大きなノイズの多いデータセットをどのように活用するかを検討する。 我々は,これらのアプローチの正確性と公平性,および両者のトレードオフを評価する。 すべてのデータに対する初期トレーニングとクリーンなデータの微調整によって、最高のAUCを持つモデルが生成されることは分かっていますが、すべてのフェアネス指標に対して、ひとつの戦略が最善を尽くすことはありませんでした。

Collecting annotations from human raters often results in a trade-off between the quantity of labels one wishes to gather and the quality of these labels. As such, it is often only possible to gather a small amount of high-quality labels. In this paper, we study how different training strategies can leverage a small dataset of human-annotated labels and a large but noisy dataset of synthetically generated labels (which exhibit bias against identity groups) for predicting toxicity of online comments. We evaluate the accuracy and fairness properties of these approaches, and trade-offs between the two. While we find that initial training on all of the data and fine-tuning on clean data produces models with the highest AUC, we find that no single strategy performs best across all fairness metrics.
翻訳日:2021-10-05 15:10:11 公開日:2021-10-04
# Solon: 冗長勾配によるコミュニケーション効率の良いビザンチン耐性分散トレーニング

Solon: Communication-effici ent Byzantine-resilient Distributed Training via Redundant Gradients ( http://arxiv.org/abs/2110.01595v1 )

ライセンス: Link先を確認
Lingjiao Chen, Leshang Chen, Hongyi Wang, Susan Davidson, Edgar Dobriban(参考訳) 分散モデルトレーニングにおいて、ビザンチンレジリエンスを提供する必要性が高まっている。 既存のロバスト分散学習アルゴリズムは,パラメータサーバにおける高度なロバストアグリゲータの開発に重点を置いているが,通信コストとロバストネスのバランスにあまり注意を払っていない。本論文では,勾配冗長性を利用して通信効率とビザンチン堅牢性を同時に提供するアルゴリズムフレームワークであるsolonを提案する。 理論解析の結果,計算負荷,通信コスト,ビザンチンのロバスト性との根本的なトレードオフが示された。 また,コーディング理論とスパースリカバリからアイデアを借りて,最適なトレードオフを実現するための具体的なアルゴリズムを開発した。 さまざまなデータセットに関する実証実験は、Solonが既存のメソッドよりも大幅にスピードアップして同じ精度を実現していることを示している。 また、慎重に設計されたビザンツの攻撃がシグヌムとブリャンを破り、ソロンの収束に影響を与えないことを示す。

There has been a growing need to provide Byzantine-resilience in distributed model training. Existing robust distributed learning algorithms focus on developing sophisticated robust aggregators at the parameter servers, but pay less attention to balancing the communication cost and robustness.In this paper, we propose Solon, an algorithmic framework that exploits gradient redundancy to provide communication efficiency and Byzantine robustness simultaneously. Our theoretical analysis shows a fundamental trade-off among computational load, communication cost, and Byzantine robustness. We also develop a concrete algorithm to achieve the optimal trade-off, borrowing ideas from coding theory and sparse recovery. Empirical experiments on various datasets demonstrate that Solon provides significant speedups over existing methods to achieve the same accuracy, over 10 times faster than Bulyan and 80% faster than Draco. We also show that carefully designed Byzantine attacks break Signum and Bulyan, but do not affect the successful convergence of Solon.
翻訳日:2021-10-05 15:09:56 公開日:2021-10-04
# モジュロ誘導測定によるスパイク共分散推定

Spiked Covariance Estimation from Modulo-Reduced Measurements ( http://arxiv.org/abs/2110.01150v1 )

ライセンス: Link先を確認
Elad Romanov, Or Ordentlich(参考訳) ランク1のスパイクモデルを考える: $\bf{x}=\sqrt{\nu}\xi \bf{u}+ \bf{z}$ ここで$\nu$はスパイク強度、$\bf{u}\in\mathbb{s}^{k-1}$は未知の方向、$\xi\sim \mathcal{n}(0,1),\bf{z}\sim \mathcal{n}(\bf{0},\bf{i})$ である。 アナログ-デジタル変換の最近の進歩に触発され、高次元のレジーム(k\gg 1$)に焦点をあてて、n$ i.d. modulo-reduced Measurement $\bf{Y}=[\bf{X}]\mod \Delta$ から $\bf{u}\in \mathbb{S}^{k-1} を回復する問題を研究する。 我々は、ほとんどの方向において、$\bf{u}$と$\nu=\mathrm{poly}(k)$に対して、$n=\mathrm{poly}(k)$測定を用いて、高い精度で$\bf{u}$を推定するアルゴリズムを開発し、分析する。 定数に対して、我々のアルゴリズムは、$\bf{u}$を(情報理論的な意味で)$\bf{X}$を$\bf{Y}$から回収できる最小の$\Delta$で正確に推定する。 解析における重要なステップは、ランダムな方向における長さ $\approx\sqrt{\nu}$ の線分が格子 $\delta \mathbb{z}^k$ の点近くを通過する確率を推定することである。 数値実験により, このアルゴリズムは非漸近的な環境でもよく機能することが示された。

Consider the rank-1 spiked model: $\bf{X}=\sqrt{\nu}\xi \bf{u}+ \bf{Z}$, where $\nu$ is the spike intensity, $\bf{u}\in\mathbb{S}^{k-1}$ is an unknown direction and $\xi\sim \mathcal{N}(0,1),\bf{Z}\sim \mathcal{N}(\bf{0},\bf{I})$. Motivated by recent advances in analog-to-digital conversion, we study the problem of recovering $\bf{u}\in \mathbb{S}^{k-1}$ from $n$ i.i.d. modulo-reduced measurements $\bf{Y}=[\bf{X}]\mod \Delta$, focusing on the high-dimensional regime ($k\gg 1$). We develop and analyze an algorithm that, for most directions $\bf{u}$ and $\nu=\mathrm{poly}(k)$, estimates $\bf{u}$ to high accuracy using $n=\mathrm{poly}(k)$ measurements, provided that $\Delta\gtrsim \sqrt{\log k}$. Up to constants, our algorithm accurately estimates $\bf{u}$ at the smallest possible $\Delta$ that allows (in an information-theoreti c sense) to recover $\bf{X}$ from $\bf{Y}$. A key step in our analysis involves estimating the probability that a line segment of length $\approx\sqrt{\nu}$ in a random direction $\bf{u}$ passes near a point in the lattice $\Delta \mathbb{Z}^k$. Numerical experiments show that the developed algorithm performs well even in a non-asymptotic setting.
翻訳日:2021-10-05 15:09:22 公開日:2021-10-04
# 音源フィルタネットワークにおける話者非依存感情の分離

Decoupling Speaker-Independent Emotions for Voice Conversion Via Source-Filter Networks ( http://arxiv.org/abs/2110.01164v1 )

ライセンス: Link先を確認
Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa and Ishiguro Hiroshi(参考訳) 感情音声変換(VC)は、言語情報と話者のアイデンティティを保持しながら、中立の声を感情的な(例えば幸福な)声に変換することを目的としている。 我々は、他の音声情報(話者、コンテンツなど)からの感情的特徴の分離が、目覚ましいパフォーマンスを達成するための鍵であることに注意する。 中性音声における音声表現の分離に関する最近の試みは、後者に含まれるより複雑な音響特性のため、感情的な音声ではうまく機能しない。 そこで本研究では,音色とピッチの特徴から,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。 我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成される。 すべてのエンコーダモジュールは、設計された情報ボトルネック自動エンコーダを採用する。 さらに、様々な感情の変換品質をさらに向上させるために、2次元ヴァレンス・オーラル(VA)空間に基づく新しい2段階トレーニング戦略を提案した。 実験結果から,SFEVCと2段階のトレーニング戦略は,非並列データを用いた話者非依存型感情VCにおいて,すべてのベースラインを上回り,最先端のパフォーマンスを達成することが示された。

Emotional voice conversion (VC) aims to convert a neutral voice to an emotional (e.g. happy) one while retaining the linguistic information and speaker identity. We note that the decoupling of emotional features from other speech information (such as speaker, content, etc.) is the key to achieving remarkable performance. Some recent attempts about speech representation decoupling on the neutral speech can not work well on the emotional speech, due to the more complex acoustic properties involved in the latter. To address this problem, here we propose a novel Source-Filter-based Emotional VC model (SFEVC) to achieve proper filtering of speaker-independent emotion features from both the timbre and pitch features. Our SFEVC model consists of multi-channel encoders, emotion separate encoders, and one decoder. Note that all encoder modules adopt a designed information bottlenecks auto-encoder. Additionally, to further improve the conversion quality for various emotions, a novel two-stage training strategy based on the 2D Valence-Arousal (VA) space was proposed. Experimental results show that the proposed SFEVC along with a two-stage training strategy outperforms all baselines and achieves the state-of-the-art performance in speaker-independent emotional VC with nonparallel data.
翻訳日:2021-10-05 15:05:20 公開日:2021-10-04
# 3d-transformer:3d空間におけるトランスフォーマによる分子表現

3D-Transformer: Molecular Representation with Transformer in 3D Space ( http://arxiv.org/abs/2110.01191v1 )

ライセンス: Link先を確認
Fang Wu, Qiang Zhang, Dragomir Radev, Jiyu Cui, Wen Zhang, Huabin Xing, Ningyu Zhang, Huajun Chen(参考訳) 3次元空間の空間構造は分子特性を決定するのに重要である。 近年の研究では、幾何学的深層学習を用いて分子を表現し、特性を予測する。 しかしながら、これらの論文は入力原子の長距離依存を捉えるのに計算コストが高く、原子間距離の非均一性は考慮されておらず、異なるスケールで文脈依存表現を学習できない。 このような問題に対処するため、3d空間情報を組み込んだ分子表現用トランスフォーマーの変種である3d-transformerを導入する。 3D-Transformerは原子間の直接接続を持つ完全連結グラフで動作する。 原子間距離の不均一性に対処するため,局所的な微細なパターンを利用したマルチスケール自己認識モジュールを開発した。 異なる大きさの分子が異なる空間的特徴に依存するため、小分子と大分子の異なる位置符号化方式を採用する適応的位置符号化モジュールを設計する。 最後に、原子の埋め込みから分子表現を得るため、注意スコア、仮想ノードのハンディキャップとそれ以前の距離支配的なダウンサンプリング法を克服し、原子の一部を選択できる注意深い遠点サンプリングアルゴリズムを提案する。 量子化学、物質科学、プロテオミクスという3つの重要な科学領域で3dトランスフォーマーを検証する。 本実験は, 結晶特性予測タスクおよびタンパク質-リガンド結合親和性予測タスクにおける最先端モデルに対する顕著な改善を示し, 量子化学分子データセットにおける優れた性能, 競合性能を示す。 この研究は、生化学的タスクが3次元分子表現から一貫した利益を得ることができるという明確な証拠を提供する。

Spatial structures in the 3D space are important to determine molecular properties. Recent papers use geometric deep learning to represent molecules and predict properties. These papers, however, are computationally expensive in capturing long-range dependencies of input atoms; and have not considered the non-uniformity of interatomic distances, thus failing to learn context-dependent representations at different scales. To deal with such issues, we introduce 3D-Transformer, a variant of the Transformer for molecular representations that incorporates 3D spatial information. 3D-Transformer operates on a fully-connected graph with direct connections between atoms. To cope with the non-uniformity of interatomic distances, we develop a multi-scale self-attention module that exploits local fine-grained patterns with increasing contextual scales. As molecules of different sizes rely on different kinds of spatial features, we design an adaptive position encoding module that adopts different position encoding methods for small and large molecules. Finally, to attain the molecular representation from atom embeddings, we propose an attentive farthest point sampling algorithm that selects a portion of atoms with the assistance of attention scores, overcoming handicaps of the virtual node and previous distance-dominant downsampling methods. We validate 3D-Transformer across three important scientific domains: quantum chemistry, material science, and proteomics. Our experiments show significant improvements over state-of-the-art models on the crystal property prediction task and the protein-ligand binding affinity prediction task, and show better or competitive performance in quantum chemistry molecular datasets. This work provides clear evidence that biochemical tasks can gain consistent benefits from 3D molecular representations and different tasks require different position encoding methods.
翻訳日:2021-10-05 15:04:59 公開日:2021-10-04
# 配電系統におけるスケーラブル電圧最適化のためのリスクアウェア学習

Risk-Aware Learning for Scalable Voltage Optimization in Distribution Grids ( http://arxiv.org/abs/2110.01490v1 )

ライセンス: Link先を確認
Shanny Lin, Shaohui Liu, and Hao Zhu(参考訳) 分散エネルギー資源(DER)のリアルタイム調整は配電系統における電圧分布の制御に不可欠である。 スケーラブルなニューラルネットワーク(NN)アーキテクチャを活用することで、マシンラーニングツールは、予測の平均損失を最小限に抑えて、分散化DER決定を達成できる。 本稿では,リアクティブ電力予測と電圧偏差に関する潜在的なリスクを考慮し,これらの学習可能なアプローチを改善することを目的とする。 具体的には,最悪のサンプルのみに基づいて,条件付きリスク損失(CVaR)を用いて,そのようなリスクを測定することを提案する。 そこで本研究では, CVaR損失目標に基づくトレーニングプロセスを加速するために, 最悪のサンプルを含む可能性が低いミニバッチを選択することを提案する。 ieee 123-busテストケースにおける実世界データを用いた数値実験により,分散der意思決定のためのリスクアウェア学習アルゴリズムの計算と安全性の向上が実証された。

Real-time coordination of distributed energy resources (DERs) is crucial for regulating the voltage profile in distribution grids. By capitalizing on a scalable neural network (NN) architecture, machine learning tools can attain decentralized DER decisions by minimizing the average loss of prediction. This paper aims to improve these learning-enabled approaches by accounting for the potential risks associated with reactive power prediction and voltage deviation. Specifically, we advocate to measure such risks using the conditional value-at-risk (CVaR) loss based on the worst-case samples only, which could lead to the learning efficiency issue. To tackle this issue, we propose to accelerate the training process under the CVaR loss objective by selecting the mini-batches that are more likely to contain the worst-case samples of interest. Numerical tests using real-world data on the IEEE 123-bus test case have demonstrated the computation and safety improvements of the proposed risk-aware learning algorithm for decentralized DER decision making in distribution systems.
翻訳日:2021-10-05 15:04:30 公開日:2021-10-04
# 分極調整畳み込み(PAC)符号のレートプロファイリングのための修正Q学習アルゴリズム

A Modified Q-Learning Algorithm for Rate-Profiling of Polarization Adjusted Convolutional (PAC) Codes ( http://arxiv.org/abs/2110.01563v1 )

ライセンス: Link先を確認
Samir Kumar Mishra, Digvijay Katyal and Sarvesha Anegundi Ganapathi(参考訳) 本稿では,arikanの分極支援畳み込み符号(pac)のレートプロファイル構築のための強化学習に基づくアルゴリズムを提案する。 この方法は、逐次キャンセルリスト(SCL)デコードおよび畳み込みプリコーディング多項式の任意のブロック長、レート、リストサイズに使用できる。 我々の知識を最大限に活用するために、我々は、強化学習エージェントが既存の文献よりもはるかに優れた利率を見出すのに役立つ新しい報酬と更新戦略を初めて提示する。 シミュレーションの結果,提案アルゴリズムを用いて構築したPAC符号は,様々なリスト長に対して,現代のレートプロファイリング設計で構築したPAC符号と比較して,フレーム消去率(FER)の点で優れていた。 さらに、(64, 32)のPAC符号を例として使用することにより、畳み込みプリコーディング多項式の選択がPAC符号のレートに顕著な影響があることが示されている。

In this paper, we propose a reinforcement learning based algorithm for rate-profile construction of Arikan's Polarization Assisted Convolutional (PAC) codes. This method can be used for any blocklength, rate, list size under successive cancellation list (SCL) decoding and convolutional precoding polynomial. To the best of our knowledge, we present, for the first time, a set of new reward and update strategies which help the reinforcement learning agent discover much better rate-profiles than those present in existing literature. Simulation results show that PAC codes constructed with the proposed algorithm perform better in terms of frame erasure rate (FER) compared to the PAC codes constructed with contemporary rate profiling designs for various list lengths. Further, by using a (64, 32) PAC code as an example, it is shown that the choice of convolutional precoding polynomial can have a significant impact on rate-profile construction of PAC codes.
翻訳日:2021-10-05 15:04:16 公開日:2021-10-04
# 微分ネット:パラメトリック偏微分方程式の神経場解

DiffNet: Neural Field Solutions of Parametric Partial Differential Equations ( http://arxiv.org/abs/2110.01601v1 )

ライセンス: Link先を確認
Biswajit Khara, Aditya Balu, Ameya Joshi, Soumik Sarkar, Chinmay Hegde, Adarsh Krishnamurthy, Baskar Ganapathysubramanian (参考訳) ニューラルネットワークをトレーニングするメッシュベースのアプローチでパラメトリック偏微分方程式(PDE)の解の場予測を行う。 このアプローチは、コロケーションに基づく手法を用いてPDEに対する解のポイントワイズ予測を行う「ニューラルPDEソルバ」に対する現在のアプローチとは対照的である。 このアプローチは、異なる境界条件を自然に強制するだけでなく、数値安定性と収束の解析を含むよく開発されたpde理論を、離散化された領域で提案するニューラルネットワークの容量境界を得るのを容易にするという利点がある。 我々は、パラメトリック楕円型PDE上の有限要素法(FEM)に基づく重み付きガレルキン損失関数を用いて、DiffNetと呼ばれるメッシュベースの戦略を探索する。 重み付きガレルキン損失(fem損失)は、改良された解を生み出し、 \textit{a priori}メッシュ収束を満たすエネルギー汎関数と似ており、ディリクレとノイマン境界条件をモデル化することができる。 我々は理論的に証明し,実験により,有限要素解に展開したメッシュ収束解析に類似した収束結果を示す。 これらの結果は、メッシュベースのニューラルネットワークアプローチがパラメトリックPDEを解決するための有望なアプローチであることを示している。

We consider a mesh-based approach for training a neural network to produce field predictions of solutions to parametric partial differential equations (PDEs). This approach contrasts current approaches for ``neural PDE solvers'' that employ collocation-based methods to make point-wise predictions of solutions to PDEs. This approach has the advantage of naturally enforcing different boundary conditions as well as ease of invoking well-developed PDE theory -- including analysis of numerical stability and convergence -- to obtain capacity bounds for our proposed neural networks in discretized domains. We explore our mesh-based strategy, called DiffNet, using a weighted Galerkin loss function based on the Finite Element Method (FEM) on a parametric elliptic PDE. The weighted Galerkin loss (FEM loss) is similar to an energy functional that produces improved solutions, satisfies \textit{a priori} mesh convergence, and can model Dirichlet and Neumann boundary conditions. We prove theoretically, and illustrate with experiments, convergence results analogous to mesh convergence analysis deployed in finite element solutions to PDEs. These results suggest that a mesh-based neural network approach serves as a promising approach for solving parametric PDEs.
翻訳日:2021-10-05 15:04:00 公開日:2021-10-04
# (参考訳) BERT、一時的なタグ付けにトランスフォーマーを導入 [全文訳有]

BERT got a Date: Introducing Transformers to Temporal Tagging ( http://arxiv.org/abs/2109.14927v2 )

ライセンス: CC BY 4.0
Satya Almasian, Dennis Aumiller, Michael Gertz(参考訳) テキスト中の時間表現は、言語理解において重要な役割を担い、それらを正しく識別することは、様々な検索や自然言語処理システムの基礎となる。 以前の研究は徐々にルールベースからニューラルネットワークアーキテクチャにシフトし、より精度の高い表現をタグ付けできるようになった。 しかし、ニューラルモデルは、ルールベースのモデルと同じレベルで異なる表現型を区別することはできない。 本研究は, 時空間タグ付けと型分類に最も適した変圧器アーキテクチャを特定し, 半教師付き訓練がシステムの性能に及ぼす影響について検討することを目的とする。 トークン分類の変種とエンコーダ-デコーダアーキテクチャを基礎として,roberta言語モデルを用いたトランスフォーマエンコーダ-デコーダモデルを提案する。 ルールベースシステムからの弱いラベル付きデータでトレーニングリソースを補足することで,従来の時間的タグ付けや型分類,特にレアクラスを超越したモデルを構築した。 私たちのコードと事前訓練済みの実験は、https://github.com/s atya77/Transformer_T emporal_Taggerで利用可能です。

Temporal expressions in text play a significant role in language understanding and correctly identifying them is fundamental to various retrieval and natural language processing systems. Previous works have slowly shifted from rule-based to neural architectures, capable of tagging expressions with higher accuracy. However, neural models can not yet distinguish between different expression types at the same level as their rule-based counterparts. In this work, we aim to identify the most suitable transformer architecture for joint temporal tagging and type classification, as well as, investigating the effect of semi-supervised training on the performance of these systems. Based on our study of token classification variants and encoder-decoder architectures, we present a transformer encoder-decoder model using the RoBERTa language model as our best performing system. By supplementing training resources with weakly labeled data from rule-based systems, our model surpasses previous works in temporal tagging and type classification, especially on rare classes. Our code and pre-trained experiments are available at: https://github.com/s atya77/Transformer_T emporal_Tagger
翻訳日:2021-10-05 11:11:56 公開日:2021-10-04
# 対応学習とメッシュリファインメントによる3次元ポス転送

3D Pose Transfer with Correspondence Learning and Mesh Refinement ( http://arxiv.org/abs/2109.15025v2 )

ライセンス: Link先を確認
Chaoyue Song, Jiacheng Wei, Ruibo Li, Fayao Liu and Guosheng Lin(参考訳) 3dポーズ転送は、最も難しい3d生成タスクの1つだ。 これは、ソースメッシュのポーズをターゲットメッシュに転送し、ターゲットメッシュのアイデンティティ(例えば、ボディシェイプ)を保持することを目的としている。 以前の作業では、ソースとターゲットメッシュ間の信頼できる対応を構築するためにキーポイントアノテーションが必要だったが、他の方法はソースとターゲット間の形状対応を考慮せず、生成品質が制限される。 本研究では,人間と動物のメッシュの3次元ポーズ伝達を支援するための通信抑制ネットワークを提案する。 ソースとターゲットメッシュの対応は、まず最適なトランスポート問題を解決することによって確立される。 そして、その密度の高い対応に従ってソースメッシュをワープし、粗いワープメッシュを得る。 これは条件付き正規化層であり、高品質のメッシュを生成するのに役立つ。 広範な実験結果から,提案するアーキテクチャは,ソースからターゲットメッシュへのポーズを効果的に移動でき,最先端の手法よりも良好な視覚性能が得られることがわかった。

3D pose transfer is one of the most challenging 3D generation tasks. It aims to transfer the pose of a source mesh to a target mesh and keep the identity (e.g., body shape) of the target mesh. Some previous works require key point annotations to build reliable correspondence between the source and target meshes, while other methods do not consider any shape correspondence between sources and targets, which leads to limited generation quality. In this work, we propose a correspondence-refin ement network to help the 3D pose transfer for both human and animal meshes. The correspondence between source and target meshes is first established by solving an optimal transport problem. Then, we warp the source mesh according to the dense correspondence and obtain a coarse warped mesh. The warped mesh will be better refined with our proposed Elastic Instance Normalization, which is a conditional normalization layer and can help to generate high-quality meshes. Extensive experimental results show that the proposed architecture can effectively transfer the poses from source to target meshes and produce better results with satisfied visual performance than state-of-the-art methods.
翻訳日:2021-10-05 10:47:33 公開日:2021-10-04