このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210720となっている論文です。

PDF登録状況(公開日: 20210720)

TitleAuthorsAbstract論文公表日・翻訳日
# グラウンドド言語獲得のためのニューラル変分学習

Neural Variational Learning for Grounded Language Acquisition ( http://arxiv.org/abs/2107.14593v1 )

ライセンス: Link先を確認
Nisha Pillai, Cynthia Matuszek, Francis Ferraro(参考訳) 本稿では,言語が特定の定義済みの用語を含まない視覚的知覚に基礎を置く学習システムを提案する。 本稿では,多種多様な実世界オブジェクトに関する言語学習を可能にする共有意味・視覚埋め込み獲得のための統一生成手法を提案する。 本研究では,オブジェクトの意味を予測し,神経入力と非神経入力との性能を比較することにより,学習の有効性を評価する。 この生成手法は,低リソース環境下での視覚的カテゴリを事前に指定することなく,言語接地において有望な結果を示すことを示す。 我々の実験は、このアプローチが多言語で非常に多様なデータセットに一般化できることを示しています。

We propose a learning system in which language is grounded in visual percepts without specific pre-defined categories of terms. We present a unified generative method to acquire a shared semantic/visual embedding that enables the learning of language about a wide range of real-world objects. We evaluate the efficacy of this learning by predicting the semantics of objects and comparing the performance with neural and non-neural inputs. We show that this generative approach exhibits promising results in language grounding without pre-specifying visual categories under low resource settings. Our experiments demonstrate that this approach is generalizable to multilingual, highly varied datasets.
翻訳日:2021-08-08 11:03:02 公開日:2021-07-20
# (参考訳) データ可視化のためのフィラメントプロット

Filament Plots for Data Visualization ( http://arxiv.org/abs/2107.10869v1 )

ライセンス: CC BY 4.0
Nate Strawn(参考訳) frenet-serret方程式によって生成される曲線を考慮し、最適に滑らかな2d andrewのプロットによって誘導される、計算量的に安価なアンドリュースプロットの3次元拡張を構築する。 ユークリッドデータ空間から2次元曲線の無限次元空間への線型等メトリーを考察し、与えられたデータセット上で(平均的に)最適に滑らかな曲線を生成する線形等メトリーをパラメータ化する。 この最適イソメトリーの集合は多くの自由度を認め、(一般化されたガウス和の最近の結果を用いて)この集合の特定のメンバーを同定し、漸近的射影的「トゥール」の性質を認める。 最後に、これらの2次元アンドリューのプロットによって引き起こされる単位長の3次元曲線(フィラメント)について、線形等尺性は距離を「相対的全正方曲率」として保存する。 この研究は、いくつかのデータセットのフィラメントプロットを図解することで結論づける。 コードはhttps://github.com/n 8epi/filamentsで入手できる。

We construct a computationally inexpensive 3D extension of Andrew's plots by considering curves generated by Frenet-Serret equations and induced by optimally smooth 2D Andrew's plots. We consider linear isometries from a Euclidean data space to infinite dimensional spaces of 2D curves, and parametrize the linear isometries that produce (on average) optimally smooth curves over a given dataset. This set of optimal isometries admits many degrees of freedom, and (using recent results on generalized Gauss sums) we identify a particular a member of this set which admits an asymptotic projective "tour" property. Finally, we consider the unit-length 3D curves (filaments) induced by these 2D Andrew's plots, where the linear isometry property preserves distances as "relative total square curvatures". This work concludes by illustrating filament plots for several datasets. Code is available at https://github.com/n 8epi/filaments
翻訳日:2021-08-01 12:25:11 公開日:2021-07-20
# 子ども向け対話型ストーリーテリング:倫理的会話型AIの設計と開発に関する事例研究

Interactive Storytelling for Children: A Case-study of Design and Development Considerations for Ethical Conversational AI ( http://arxiv.org/abs/2107.13076v1 )

ライセンス: Link先を確認
ennifer Chubba, Sondess Missaouib, Shauna Concannonc, Liam Maloneyb, James Alfred Walker(参考訳) 会話型人工知能(CAI)システムと、Alexa、Cortana、Google Home、Siriといった知能パーソナルアシスタント(IPA)は、子どもを含む私たちの生活の中でユビキタスになりつつある。 近年の進歩は、プライバシー、安全性、セキュリティ、アクセスに関するCAIの影響に対処している。 しかし、設計の倫理的側面と技術的な側面を結合し、組み込む必要がある。 子ども向けストーリーテリングにおけるcaiの利用に着目した研究開発プロジェクトの事例スタディを用いて,文献内の議論によって裏付けられ,支持される技術開発の特定のケースにおける社会的文脈を考察した。 本論では,創造的産業に採用する上での推奨事項の背後にある意思決定プロセスについて述べる。 CAIを通じたストーリーテリングの倫理に開発者やステークホルダーと関わるさらなる研究は、緊急性の問題として強調される。

Conversational Artificial Intelligence (CAI) systems and Intelligent Personal Assistants (IPA), such as Alexa, Cortana, Google Home and Siri are becoming ubiquitous in our lives, including those of children, the implications of which is receiving increased attention, specifically with respect to the effects of these systems on children's cognitive, social and linguistic development. Recent advances address the implications of CAI with respect to privacy, safety, security, and access. However, there is a need to connect and embed the ethical and technical aspects in the design. Using a case-study of a research and development project focused on the use of CAI in storytelling for children, this paper reflects on the social context within a specific case of technology development, as substantiated and supported by argumentation from within the literature. It describes the decision making process behind the recommendations made on this case for their adoption in the creative industries. Further research that engages with developers and stakeholders in the ethics of storytelling through CAI is highlighted as a matter of urgency.
翻訳日:2021-08-01 11:06:09 公開日:2021-07-20
# eXogenous Variables を用いた COVID-19 予測の改善

Improving COVID-19 Forecasting using eXogenous Variables ( http://arxiv.org/abs/2107.10397v1 )

ライセンス: Link先を確認
Mohammadhossein Toutiaee, Xiaochuan Li, Yogesh Chaudhari, Shophine Sivaraja, Aishwarya Venkataraj, Indrajeet Javeri, Yuan Ke, Ismailcem Arpinar, Nicole Lazar, John Miller(参考訳) 本研究では,米国におけるパンデミックの実態を全国レベルと州レベルのデータを用いて調査する。 補助変数を含む複数の時系列予測手法を提案し,比較する。 1つのアプローチは、ハイブリッドディープラーニングアーキテクチャと人間の移動データを利用してパンデミックコースを予測する時空間グラフニューラルネットワークに基づいている。 このグラフのノードは、COVID-19による国家レベルの死亡を表し、エッジは人間の移動傾向を表し、一時エッジは時間にわたってノード属性に対応する。 第2のアプローチは、SARIMAモデルとeXogenous variablesを使用する米国における新型コロナウイルス死亡率予測の統計技術に基づく。 これらの手法を米国における国家レベルと国家レベルの両方で評価し、eXogenous変数によって生成されたSARIMAモデルとMSPモデルが、それぞれの国家レベルと国家レベルのデータの複雑さを捉えるために基礎となるモデルを強化できると主張している。 我々は、国家レベルでのGCN-LSTMモデルよりも64.58%、59.18%(平均)の予測精度が最大で、州レベルでのGCN-LSTMモデルよりも58.79%、52.40%(平均)の予測精度が大幅に向上することを示した。 さらに,提案手法は,平均27.35%の精度向上率で並列研究(aug-nn)を上回っている。

In this work, we study the pandemic course in the United States by considering national and state levels data. We propose and compare multiple time-series prediction techniques which incorporate auxiliary variables. One type of approach is based on spatio-temporal graph neural networks which forecast the pandemic course by utilizing a hybrid deep learning architecture and human mobility data. Nodes in this graph represent the state-level deaths due to COVID-19, edges represent the human mobility trend and temporal edges correspond to node attributes across time. The second approach is based on a statistical technique for COVID-19 mortality prediction in the United States that uses the SARIMA model and eXogenous variables. We evaluate these techniques on both state and national levels COVID-19 data in the United States and claim that the SARIMA and MCP models generated forecast values by the eXogenous variables can enrich the underlying model to capture complexity in respectively national and state levels data. We demonstrate significant enhancement in the forecasting accuracy for a COVID-19 dataset, with a maximum improvement in forecasting accuracy by 64.58% and 59.18% (on average) over the GCN-LSTM model in the national level data, and 58.79% and 52.40% (on average) over the GCN-LSTM model in the state level data. Additionally, our proposed model outperforms a parallel study (AUG-NN) by 27.35% improvement of accuracy on average.
翻訳日:2021-07-23 15:24:31 公開日:2021-07-20
# $\beta$-Annealed Variational Autoencoder for glitches

$\beta$-Annealed Variational Autoencoder for glitches ( http://arxiv.org/abs/2107.10667v1 )

ライセンス: Link先を確認
Sivaramakrishnan Sankarapandian, Brian Kulis(参考訳) LIGOやVirgoのような重力波検出器は、重力波を隠蔽し模倣できるグリッチとして知られる様々な種類の機器や環境の障害の影響を受けやすい。 現在22種類の非ガウスノイズ勾配が同定されているが、これらの検出器が観測の間隔を経るにつれて、クラスの数は増加する可能性が高い。 新たなノイズ勾配の識別とラベル付けは困難で時間を要するため,教師なしの方法でスペクトルから表現を学習するための$\beta$-Annelead VAEを提案する。 情報理論のレンズを通して Bottleneck-VAEs~cite {burgess2018understan ding} を眺め、それらを $\beta$-VAEs~cite{higgins2017beta} に接続する。 この関係に動機づけられ、ハイパーパラメータ$\beta$ in $\beta$-vaes のアニーリングスケジュールを提案し、以下の利点を得た。

Gravitational wave detectors such as LIGO and Virgo are susceptible to various types of instrumental and environmental disturbances known as glitches which can mask and mimic gravitational waves. While there are 22 classes of non-Gaussian noise gradients currently identified, the number of classes is likely to increase as these detectors go through commissioning between observation runs. Since identification and labelling new noise gradients can be arduous and time-consuming, we propose $\beta$-Annelead VAEs to learn representations from spectograms in an unsupervised way. Using the same formulation as \cite{alemi2017fixing}, we view Bottleneck-VAEs~cite {burgess2018understan ding} through the lens of information theory and connect them to $\beta$-VAEs~cite{higgins2017beta}. Motivated by this connection, we propose an annealing schedule for the hyperparameter $\beta$ in $\beta$-VAEs which has advantages of: 1) One fewer hyperparameter to tune, 2) Better reconstruction quality, while producing similar levels of disentanglement.
翻訳日:2021-07-23 15:22:33 公開日:2021-07-20
# (参考訳) tla: twitterの言語分析 [全文訳有]

TLA: Twitter Linguistic Analysis ( http://arxiv.org/abs/2107.09710v1 )

ライセンス: CC BY 4.0
Tushar Sarkar, Nishant Rajadhyaksha(参考訳) 言語学は人間の本性をより深く理解するのに役立つ。 言葉は、人間の相互作用の思考、感情、目的をbequeathするために不可欠であり、これらの単語を批判的に分析することで、これらの社会動物の社会的、心理的行動と特性を解明することができる。 ソーシャルメディアは大規模にヒューマンインタラクションのプラットフォームとなり、我々の研究のためにそのデータを収集し利用するためのスコープを与えてくれました。 しかし、このデータの収集、ラベル付け、分析のプロセス全体が反復的に手順全体を複雑にします。 このプロセス全体を簡単かつ構造化するために、TLA(Twitter Linguistic Analysis)を紹介したいと思います。 本稿では,tlaについて述べるとともに,フレームワークの基本的な理解と,twitterから言語コーパスのためのデータ収集,ラベル付け,分析のプロセスについて議論するとともに,これらデータセット上でトレーニングされたすべての言語とモデルに対して詳細なラベル付きデータセットを提供する。 TLAが提供した分析はまた、異なる言語コミュニティの感情を理解するための長い道のりを歩み、その分析に基づいて問題に対する新しい革新的な解決策を思いつくだろう。

Linguistics has been instrumental in developing a deeper understanding of human nature. Words are indispensable to bequeath the thoughts, emotions, and purpose of any human interaction, and critically analyzing these words can elucidate the social and psychological behavior and characteristics of these social animals. Social media has become a platform for human interaction on a large scale and thus gives us scope for collecting and using that data for our study. However, this entire process of collecting, labeling, and analyzing this data iteratively makes the entire procedure cumbersome. To make this entire process easier and structured, we would like to introduce TLA(Twitter Linguistic Analysis). In this paper, we describe TLA and provide a basic understanding of the framework and discuss the process of collecting, labeling, and analyzing data from Twitter for a corpus of languages while providing detailed labeled datasets for all the languages and the models are trained on these datasets. The analysis provided by TLA will also go a long way in understanding the sentiments of different linguistic communities and come up with new and innovative solutions for their problems based on the analysis.
翻訳日:2021-07-23 00:25:31 公開日:2021-07-20
# (参考訳) 慢性リンパ性白血病のフローサイトメトリー自動診断への機械学習アプローチ [全文訳有]

Machine Learning Approaches to Automated Flow Cytometry Diagnosis of Chronic Lymphocytic Leukemia ( http://arxiv.org/abs/2107.09728v1 )

ライセンス: CC BY 4.0
Akum S. Kang, Loveleen C. Kang, Stephen M. Mastorides, Philip R. Foulis, Lauren A. DeLand, Robert P. Seifert, Andrew Borkowski(参考訳) フローサイトメトリー(英: Flow cytometry)は、励起光源を介して単一のファイルを流れる個々の細胞から複数の蛍光と光散乱関連パラメータを測定する技術である。 これらの細胞は様々な抗原を検出する抗体でラベル付けされ、蛍光信号は抗原の発現を反映する。 マルチパラメータフローサイトメトリーデータの解釈は、手間がかかり、時間がかかり、高価である。 高度に訓練された医療技術者や病理学者による2次元プロット上の細胞分布とパターン認識を手動で解釈する。 各種機械学習アルゴリズムを用いて,正常および慢性リンパ性白血病を自動分類する臨床フローサイトメトリー症例の自動解析法の開発を試みた。 Gradient Boostingで最高の成功を収めました。 XGBoost分類器は1.00の特異性と感度0.67の正の予測値0.75の正の予測値1.00の正の予測値0.83の総合的精度を達成した。

Flow cytometry is a technique that measures multiple fluorescence and light scatter-associated parameters from individual cells as they flow a single file through an excitation light source. These cells are labeled with antibodies to detect various antigens and the fluorescence signals reflect antigen expression. Interpretation of the multiparameter flow cytometry data is laborious, time-consuming, and expensive. It involves manual interpretation of cell distribution and pattern recognition on two-dimensional plots by highly trained medical technologists and pathologists. Using various machine learning algorithms, we attempted to develop an automated analysis for clinical flow cytometry cases that would automatically classify normal and chronic lymphocytic leukemia cases. We achieved the best success with the Gradient Boosting. The XGBoost classifier achieved a specificity of 1.00 and a sensitivity of 0.67, a negative predictive value of 0.75, a positive predictive value of 1.00, and an overall accuracy of 0.83 in prospectively classifying cases with malignancies.
翻訳日:2021-07-23 00:22:54 公開日:2021-07-20
# (参考訳) kNet:ラベルノイズを処理するディープkNNネットワーク [全文訳有]

kNet: A Deep kNN Network To Handle Label Noise ( http://arxiv.org/abs/2107.09735v1 )

ライセンス: CC BY 4.0
Itzik Mizrahi, Shai Avidan(参考訳) Deep Neural Networksはトレーニングのために大量のラベル付きデータを必要とする。 このデータを大規模に収集することは必然的にラベルノイズを引き起こし、ラベルノイズに頑健な学習アルゴリズムを開発する必要がある。 近年、k Nearest Neighbors (kNN) がこの問題の有効な解決策として浮上している。 この成功にもかかわらず、kNNには問題はない。 主に、トレーニングサンプルをすべて格納するために巨大なメモリフットプリントが必要で、クエリサンプルを考慮すれば、関連するサンプルの高速検索を可能にする高度なデータ構造が必要です。 我々は、knetと呼ばれるknの実行を学習するニューラルネットワークを提案する。 トレーニングが終わると、トレーニングデータを格納する必要がなくなり、クエリサンプルの処理は単純な推論の問題になります。 kNetを利用するには、まずデータセット上で予備ネットワークをトレーニングし、次に予備ネットワークの最後層上でkNetをトレーニングし、kNetはkNNの滑らかな近似を与えるが、kNNが提示できるサンプル間のシャープなラベル変更には対応できない。 現在、kNet は kNN をかなり大きな k で近似するのに最適であることを示している。 2 つのデータセットの実験では、kNN が最適であり、kNet に置き換えることができる。

Deep Neural Networks require large amounts of labeled data for their training. Collecting this data at scale inevitably causes label noise.Hence,the need to develop learning algorithms that are robust to label noise. In recent years, k Nearest Neighbors (kNN) emerged as a viable solution to this problem. Despite its success, kNN is not without its problems. Mainly, it requires a huge memory footprint to store all the training samples and it needs an advanced data structure to allow for fast retrieval of the relevant examples, given a query sample. We propose a neural network, termed kNet, that learns to perform kNN. Once trained, we no longer need to store the training data, and processing a query sample is a simple matter of inference. To use kNet, we first train a preliminary network on the data set, and then train kNet on the penultimate layer of the preliminary network.We find that kNet gives a smooth approximation of kNN,and cannot handle the sharp label changes between samples that kNN can exhibit. This indicates that currently kNet is best suited to approximate kNN with a fairly large k. Experiments on two data sets show that this is the regime in which kNN works best,and can therefore be replaced by kNet.In practice, kNet consistently improve the results of all preliminary networks, in all label noise regimes, by up to 3%.
翻訳日:2021-07-23 00:16:32 公開日:2021-07-20
# (参考訳) checkovid: ネットワークとコンテンツマイニングの視点を用いたtwitter上の偽情報検出システム [全文訳有]

Checkovid: A COVID-19 misinformation detection system on Twitter using network and content mining perspectives ( http://arxiv.org/abs/2107.09768v1 )

ライセンス: CC BY 4.0
Sajad Dadgar, Mehdi Ghatee(参考訳) 新型コロナウイルス(COVID-19)パンデミックの間、ソーシャルメディアプラットフォームは社会的孤立と隔離のためにコミュニケーションに最適だった。 また、これはインフォデミック(infodemic)と呼ばれる大規模な誤情報の拡散の主な原因であった。 したがって、自動削除の誤報は重要な問題である。 そこで本研究では,twitter上でcovid-19関連誤情報データセットを2つ提示し,機械学習アルゴリズムとnlp技術に基づくネットワークベースおよびコンテンツベースプロセスからなる誤情報検出システムを提案する。 ネットワークベースのプロセスでは、社会的特性、ネットワーク特性、ユーザーに焦点を当てます。 一方、テキスト分類モデル(パラグラフレベルと文レベル)と類似性モデルを含むコンテンツベースプロセスにおいて、つぶやきの内容を直接利用して誤情報を分類する。 ネットワークベースのプロセスにおける評価結果は、f1スコア88.68%のニューラルネットワークモデルの最良の結果を示す。 コンテンツベースプロセスでは、F1スコア90.26%の新たな類似性モデルを用いて、ネットワークベースモデルと比較して誤情報分類結果が改善された。 さらに、テキスト分類モデルでは、95.18%のF1スコアを得ることで、積み重ねアンサンブル学習モデルを用いて最良の結果を得た。 さらに、Constraint@AAAI2021データセットでコンテンツベースモデルをテストし、F1スコア94.38%を得ることで、ベースライン結果を改善する。 最後に、私たちはCheckovidというファクトチェックサイトを開発し、それぞれのプロセスを使用して、異なる視点から新型コロナウイルスの領域における誤報や情報的主張を検出する。

During the COVID-19 pandemic, social media platforms were ideal for communicating due to social isolation and quarantine. Also, it was the primary source of misinformation dissemination on a large scale, referred to as the infodemic. Therefore, automatic debunking misinformation is a crucial problem. To tackle this problem, we present two COVID-19 related misinformation datasets on Twitter and propose a misinformation detection system comprising network-based and content-based processes based on machine learning algorithms and NLP techniques. In the network-based process, we focus on social properties, network characteristics, and users. On the other hand, we classify misinformation using the content of the tweets directly in the content-based process, which contains text classification models (paragraph-level and sentence-level) and similarity models. The evaluation results on the network-based process show the best results for the artificial neural network model with an F1 score of 88.68%. In the content-based process, our novel similarity models, which obtained an F1 score of 90.26%, show an improvement in the misinformation classification results compared to the network-based models. In addition, in the text classification models, the best result was achieved using the stacking ensemble-learning model by obtaining an F1 score of 95.18%. Furthermore, we test our content-based models on the Constraint@AAAI2021 dataset, and by getting an F1 score of 94.38%, we improve the baseline results. Finally, we develop a fact-checking website called Checkovid that uses each process to detect misinformative and informative claims in the domain of COVID-19 from different perspectives.
翻訳日:2021-07-23 00:02:18 公開日:2021-07-20
# (参考訳) 学習デュアルによる高速マッチング [全文訳有]

Faster Matchings via Learned Duals ( http://arxiv.org/abs/2107.09770v1 )

ライセンス: CC BY 4.0
Michael Dinitz, Sungjin Im, Thomas Lavastida, Benjamin Moseley, Sergei Vassilvitskii(参考訳) 最近の研究では、アルゴリズムを機械学習予測で拡張して、最悪の場合の下位境界を克服する方法が研究されている。 この領域は、特に競合するオンラインアルゴリズムの設計において、問題に関する興味深いアルゴリズム上の洞察を明らかにしている。 しかし、予測でアルゴリズムの実行時間を改善するという問題は、ほとんど解明されていない。 機械学習予測のアイデアと「ウォームスタート」原始双対アルゴリズムのアイデアを組み合わせることで、この方向への第一歩を踏み出す。 我々は組合せ最適化において最も重要なプリミティブの1つを考える:重み付き二部マッチングとその一般化は$b$マッチングである。 学習した双対変数を原始双対アルゴリズムで使用する際の3つの課題を同定した。 まず、予測された双対は実現不可能かもしれないので、予測できない双対を近くの実現可能な解に効率的にマップするアルゴリズムを与える。 第二に、双対が実現可能であれば、それらは最適ではないかもしれないので、それらを素早く最適な解を見つけるために使用できることを示す。 最後に,このような予測は学習可能な場合にのみ有効であるため,マッチングのための双対学習の問題はサンプル複雑性が低いことを示す。 実データと合成データの両方に関する実験を通じて理論的知見を検証する。 その結果,二成分マッチングを計算するための厳密で実用的,実証的に有効な手法が得られた。

A recent line of research investigates how algorithms can be augmented with machine-learned predictions to overcome worst case lower bounds. This area has revealed interesting algorithmic insights into problems, with particular success in the design of competitive online algorithms. However, the question of improving algorithm running times with predictions has largely been unexplored. We take a first step in this direction by combining the idea of machine-learned predictions with the idea of "warm-starting" primal-dual algorithms. We consider one of the most important primitives in combinatorial optimization: weighted bipartite matching and its generalization to $b$-matching. We identify three key challenges when using learned dual variables in a primal-dual algorithm. First, predicted duals may be infeasible, so we give an algorithm that efficiently maps predicted infeasible duals to nearby feasible solutions. Second, once the duals are feasible, they may not be optimal, so we show that they can be used to quickly find an optimal solution. Finally, such predictions are useful only if they can be learned, so we show that the problem of learning duals for matching has low sample complexity. We validate our theoretical findings through experiments on both real and synthetic data. As a result we give a rigorous, practical, and empirically effective method to compute bipartite matchings.
翻訳日:2021-07-22 23:43:33 公開日:2021-07-20
# (参考訳) 従属データからの統計的推定

Statistical Estimation from Dependent Data ( http://arxiv.org/abs/2107.09773v1 )

ライセンス: CC BY 4.0
Yuval Dagan, Constantinos Daskalakis, Nishanth Dikkala, Surbhi Goel, Anthimos Vardis Kandiros(参考訳) 我々は,異なる観測値にまたがるバイナリラベルが特徴ベクトルに対して独立に条件付けされるのではなく,その特徴ベクトルに依存する一般統計量推定問題を考える。 これらの観測は、依存関係を誘発する空間領域、時間領域、あるいはソーシャルネットワーク上で収集される。 我々は、これらの依存関係をマルコフ確率場の言語でモデル化し、重要な点として、これらの依存関係が実質的なものであることを許容する。 私たちの大きな貢献として、このモデルにアルゴリズムと統計的に効率的な推定率を提供し、ロジスティック回帰、スパースロジスティック回帰、および依存データによるニューラルネットワーク設定の境界をいくつかのインスタンス化します。 提案手法は,パラメータを推定する新しい結果(すなわち,推定結果)から保証する。 Ising モデルの外部場と相互作用強度) {\displaystyle {\em single} サンプルから得られる。 筆者らは,実際のネットワークデータに対する推定手法を評価し,cora,citeseer,pubme dの3つのテキスト分類データセットにおいて,依存性を無視する標準的な回帰アプローチよりも優れていることを示した。

We consider a general statistical estimation problem wherein binary labels across different observations are not independent conditioned on their feature vectors, but dependent, capturing settings where e.g. these observations are collected on a spatial domain, a temporal domain, or a social network, which induce dependencies. We model these dependencies in the language of Markov Random Fields and, importantly, allow these dependencies to be substantial, i.e do not assume that the Markov Random Field capturing these dependencies is in high temperature. As our main contribution we provide algorithms and statistically efficient estimation rates for this model, giving several instantiations of our bounds in logistic regression, sparse logistic regression, and neural network settings with dependent data. Our estimation guarantees follow from novel results for estimating the parameters (i.e. external fields and interaction strengths) of Ising models from a {\em single} sample. {We evaluate our estimation approach on real networked data, showing that it outperforms standard regression approaches that ignore dependencies, across three text classification datasets: Cora, Citeseer and Pubmed.}
翻訳日:2021-07-22 23:02:19 公開日:2021-07-20
# (参考訳) quditsを用いた量子計測分類 [全文訳有]

Quantum Measurement Classification with Qudits ( http://arxiv.org/abs/2107.09781v1 )

ライセンス: CC BY 4.0
Diego H. Useche, Andres Giraldo-Carvajal, Hernan M. Zuluaga-Bucheli, Jose A. Jaramillo-Villegas, Fabio A. Gonz\'alez(参考訳) 本稿では,密度推定と教師付き分類のためのハイブリッド古典量子プログラムを提案する。 プログラムは高次元量子コンピュータシミュレータの量子回路として実装される。 提案した量子プロトコルは,確率密度関数を推定し,教師付き学習方式で予測できることを示す。 このモデルは高次元量子コンピュータにおける密度行列の期待値を求めるために一般化することができる。 様々なデータセットについて実験を行う。 提案手法は,高次元量子コンピュータにおける教師付き分類と密度推定を実現するための有効な手法であることを示す。

This paper presents a hybrid classical-quantum program for density estimation and supervised classification. The program is implemented as a quantum circuit in a high-dimensional quantum computer simulator. We show that the proposed quantum protocols allow to estimate probability density functions and to make predictions in a supervised learning manner. This model can be generalized to find expected values of density matrices in high-dimensional quantum computers. Experiments on various data sets are presented. Results show that the proposed method is a viable strategy to implement supervised classification and density estimation in a high-dimensional quantum computer.
翻訳日:2021-07-22 23:01:13 公開日:2021-07-20
# (参考訳) 非同期学習を用いた分割学習のためのコミュニケーションと計算の削減 [全文訳有]

Communication and Computation Reduction for Split Learning using Asynchronous Training ( http://arxiv.org/abs/2107.09786v1 )

ライセンス: CC BY 4.0
Xing Chen, Jingtao Li and Chaitali Chakrabarti(参考訳) 分割学習は、エッジデバイスでの計算要求が低いが、エッジデバイスとサーバ間の通信オーバーヘッドが高いという欠点がある、有望なプライバシー保護分散学習スキームである。 本稿では,クライアント側モデルの更新頻度を低くし,選択したエポックにおけるアクティベーション/グラディエントのみを送受信するロスベース非同期トレーニング手法を提案する。 さらに通信オーバーヘッドを低減するため、送信前に8ビット浮動小数点を用いてアクティベーション/グレードを量子化する。 提案手法の利点は,クライアントモデルの更新回数の削減により,クライアント側の計算量が削減されることである。 さらに,コミュニケーション削減に基づく分割学習手法のプライバシは,従来の分割学習とほぼ同等である。 CIFAR-10上でのVGG11, VGG13, ResNet18モデルのシミュレーション結果から, 通信コストが1.64x-106.7x削減され, クライアントの計算処理が2.86x-32.1x削減された。 5および10のクライアントの場合、通信コストはvgg11の11.9倍、11.3倍で、精度が0.5%低下する。

Split learning is a promising privacy-preserving distributed learning scheme that has low computation requirement at the edge device but has the disadvantage of high communication overhead between edge device and server. To reduce the communication overhead, this paper proposes a loss-based asynchronous training scheme that updates the client-side model less frequently and only sends/receives activations/gradient s in selected epochs. To further reduce the communication overhead, the activations/gradient s are quantized using 8-bit floating point prior to transmission. An added benefit of the proposed communication reduction method is that the computations at the client side are reduced due to reduction in the number of client model updates. Furthermore, the privacy of the proposed communication reduction based split learning method is almost the same as traditional split learning. Simulation results on VGG11, VGG13 and ResNet18 models on CIFAR-10 show that the communication cost is reduced by 1.64x-106.7x and the computations in the client are reduced by 2.86x-32.1x when the accuracy degradation is less than 0.5% for the single-client case. For 5 and 10-client cases, the communication cost reduction is 11.9x and 11.3x on VGG11 for 0.5% loss in accuracy.
翻訳日:2021-07-22 22:48:29 公開日:2021-07-20
# (参考訳) 敵対的機械学習攻撃に対するオンデバイス防御としてのアンダーボルティングの使用 [全文訳有]

Using Undervolting as an On-Device Defense Against Adversarial Machine Learning Attacks ( http://arxiv.org/abs/2107.09804v1 )

ライセンス: CC BY 4.0
Saikat Majumdar, Mohammad Hossein Samavatian, Kristin Barber, Radu Teodorescu(参考訳) deep neural network (dnn)分類器は、画像認識から自動運転車まで、幅広い重要な応用を駆動する強力なツールである。 残念ながら、DNNは事実上すべての最先端モデルに影響を与える敵攻撃に対して脆弱であることが知られている。 これらの攻撃は、DNNが間違った分類を生成するのに十分な入力に対して、小さな知覚不可能な修正を与える。 本稿では,低電圧(安全な限界をわずかに下回る電圧でチップを実行する)に依存する画像分類器に対して,新しい軽量な逆補正および/または検出機構を提案する。 我々は,限られた数の計算誤差を導入するために,推論プロセスを実行するチップの制御アンダーボイングを用いることを提案する。 これらの誤りは, 分類を訂正するか, 逆として検出するかのどちらかに使用可能な方法で, 敵の入力を乱すことを示した。 提案手法をFPGA設計およびソフトウェアシミュレーションにより評価する。 2つの人気DNNに対する10件の攻撃を評価し,平均検出率は80%から95%であった。

Deep neural network (DNN) classifiers are powerful tools that drive a broad spectrum of important applications, from image recognition to autonomous vehicles. Unfortunately, DNNs are known to be vulnerable to adversarial attacks that affect virtually all state-of-the-art models. These attacks make small imperceptible modifications to inputs that are sufficient to induce the DNNs to produce the wrong classification. In this paper we propose a novel, lightweight adversarial correction and/or detection mechanism for image classifiers that relies on undervolting (running a chip at a voltage that is slightly below its safe margin). We propose using controlled undervolting of the chip running the inference process in order to introduce a limited number of compute errors. We show that these errors disrupt the adversarial input in a way that can be used either to correct the classification or detect the input as adversarial. We evaluate the proposed solution in an FPGA design and through software simulation. We evaluate 10 attacks on two popular DNNs and show an average detection rate of 80% to 95%.
翻訳日:2021-07-22 22:36:22 公開日:2021-07-20
# Nucleus Smplingでビームサーチを横切るとどうなるか?

What Do You Get When You Cross Beam Search with Nucleus Sampling? ( http://arxiv.org/abs/2107.09729v1 )

ライセンス: Link先を確認
Uri Shaham and Omer Levy(参考訳) 我々は,ビームサーチと原子核サンプリングの確率論的プルーニング技術を組み合わせて,自然言語生成のための2つの決定論的核サーチアルゴリズムを作成する。 第1のアルゴリズムであるp-exact searchは、次の分布を局所的にプルーンし、残りの空間上の厳密な探索を行う。 第2のアルゴリズムである動的ビーム探索は、候補の確率分布のエントロピーに応じてビームサイズを縮小して拡大する。 核探索の背後にある確率論的直観にもかかわらず、機械翻訳と要約ベンチマークの実験は、両方のアルゴリズムが標準ビーム探索と同じ性能レベルに達することを示している。

We combine beam search with the probabilistic pruning technique of nucleus sampling to create two deterministic nucleus search algorithms for natural language generation. The first algorithm, p-exact search, locally prunes the next-token distribution and performs an exact search over the remaining space. The second algorithm, dynamic beam search, shrinks and expands the beam size according to the entropy of the candidate's probability distribution. Despite the probabilistic intuition behind nucleus search, experiments on machine translation and summarization benchmarks show that both algorithms reach the same performance levels as standard beam search.
翻訳日:2021-07-22 14:25:08 公開日:2021-07-20
# 反事実的説明のための不確実性推定と分散検出:落とし穴と解

Uncertainty Estimation and Out-of-Distribution Detection for Counterfactual Explanations: Pitfalls and Solutions ( http://arxiv.org/abs/2107.09734v1 )

ライセンス: Link先を確認
Eoin Delaney, Derek Greene and Mark T. Keane(参考訳) 最近、不透明なブラックボックスシステムの予測に対する反実的な説明を生成する技術が多数提案されているが、これらの説明の不確実性を探るためには、著しく注意が払われていない。 これは、不確実で誤解を招く説明がひどい結果をもたらす(医療診断や治療計画など)高リスクシナリオにおいて、重要な問題となる。 また,生成した説明が訓練データによく基づいていて,分布シフトに敏感であるかどうかを判断することが難しい場合が多い。 本稿では,説明可能性(信頼度など)と不確実性推定(モンテカルロ・ドロップアウトなど)における他の研究成果との新たなつながりを確立することで,これらの問題を解決するために活用できるいくつかの実用的な解決策を提案する。 提案手法の有効性を実証する2つの実験を行った。

Whilst an abundance of techniques have recently been proposed to generate counterfactual explanations for the predictions of opaque black-box systems, markedly less attention has been paid to exploring the uncertainty of these generated explanations. This becomes a critical issue in high-stakes scenarios, where uncertain and misleading explanations could have dire consequences (e.g., medical diagnosis and treatment planning). Moreover, it is often difficult to determine if the generated explanations are well grounded in the training data and sensitive to distributional shifts. This paper proposes several practical solutions that can be leveraged to solve these problems by establishing novel connections with other research works in explainability (e.g., trust scores) and uncertainty estimation (e.g., Monte Carlo Dropout). Two experiments demonstrate the utility of our proposed solutions.
翻訳日:2021-07-22 14:24:22 公開日:2021-07-20
# 知識伝達を用いた動的環境におけるマルチエージェント強化学習の改善

Multi-agent Reinforcement Learning Improvement in a Dynamic Environment Using Knowledge Transfer ( http://arxiv.org/abs/2107.09807v1 )

ライセンス: Link先を確認
Mahnoosh Mahdavimoghaddama, Amin Nikanjama, Monireh Abdoos(参考訳) 協調型マルチエージェントシステムは様々な領域で広く使われている。 エージェント間のインタラクションは、運用コストの削減、スケーラビリティの向上、並列処理の容易化といったメリットをもたらす。 これらのシステムは、大規模で未知の、動的環境を扱うための良い選択肢でもある。 しかし、これらの環境での学習は様々なアプリケーションにおいて非常に重要な課題となっている。 これらの課題には、学習時間に対する探索空間の大きさの影響、エージェント間の非効率な協調、エージェントの判断における適切な調整の欠如が含まれる。 さらに、強化学習アルゴリズムはこれらの問題において長い収束時間に悩まされる可能性がある。 本稿では,知識伝達の概念を用いたコミュニケーション・フレームワークを導入し,大規模状態空間のハーディング問題における課題に対処する。 収束の問題に対処するために,強化学習アルゴリズムの効率を著しく向上させる知識伝達が活用されている。 各エージェント群におけるヘッドエージェントとコーディネータエージェントとを介して、エージェント間の調整を行う。 その結果,このフレームワークは学習の速度を向上し,収束時間を短縮する可能性が示唆された。

Cooperative multi-agent systems are being widely used in different domains. Interaction among agents would bring benefits, including reducing operating costs, high scalability, and facilitating parallel processing. These systems are also a good option for handling large-scale, unknown, and dynamic environments. However, learning in these environments has become a very important challenge in various applications. These challenges include the effect of search space size on learning time, inefficient cooperation among agents, and the lack of proper coordination among agents' decisions. Moreover, reinforcement learning algorithms may suffer from long convergence time in these problems. In this paper, a communication framework using knowledge transfer concepts is introduced to address such challenges in the herding problem with large state space. To handle the problems of convergence, knowledge transfer has been utilized that can significantly increase the efficiency of reinforcement learning algorithms. Coordination between the agents is carried out through a head agent in each group of agents and a coordinator agent respectively. The results demonstrate that this framework could indeed enhance the speed of learning and reduce convergence time.
翻訳日:2021-07-22 14:21:04 公開日:2021-07-20
# 自家用リアストスクエア:タイターレートによる実用的プライベートマトリックスコンパートメント

Private Alternating Least Squares: Practical Private Matrix Completion with Tighter Rates ( http://arxiv.org/abs/2107.09802v1 )

ライセンス: Link先を確認
Steve Chien, Prateek Jain, Walid Krichene, Steffen Rendle, Shuang Song, Abhradeep Thakurta, Li Zhang(参考訳) ユーザレベルのプライバシー下での差分プライベート(DP)行列補完の問題について検討する。 i) 行列補完のための最適なサンプル複雑性(アイテム数、ユーザ数、およびii) 理論的には、最もよく知られているプライバシと有効性の両方のトレードオフ ベンチマークデータセット である。 特に, dp を保証するために導入された雑音をals に導入した最初の大域収束解析を行い, もっともよく知られた代替法 (jain らによる private frank-wolfe アルゴリズム) と比較した。 (2018)では,実際の問題において重要な項目数やユーザ数に対して,エラー境界のスケールが大幅に向上した。 標準ベンチマークの大規模な検証は、注意深く設計されたサンプリング手順と組み合わせて、アルゴリズムが既存の手法よりもはるかに正確であることを示し、最初の実用的なDP埋め込みモデルとなることを約束する。

We study the problem of differentially private (DP) matrix completion under user-level privacy. We design a joint differentially private variant of the popular Alternating-Least-Sq uares (ALS) method that achieves: i) (nearly) optimal sample complexity for matrix completion (in terms of number of items, users), and ii) the best known privacy/utility trade-off both theoretically, as well as on benchmark data sets. In particular, we provide the first global convergence analysis of ALS with noise introduced to ensure DP, and show that, in comparison to the best known alternative (the Private Frank-Wolfe algorithm by Jain et al. (2018)), our error bounds scale significantly better with respect to the number of items and users, which is critical in practical problems. Extensive validation on standard benchmarks demonstrate that the algorithm, in combination with carefully designed sampling procedures, is significantly more accurate than existing techniques, thus promising to be the first practical DP embedding model.
翻訳日:2021-07-22 14:20:00 公開日:2021-07-20
# 3D-StyleGAN:3次元医用画像の生成モデリングのためのスタイルベースジェネレータネットワーク

3D-StyleGAN: A Style-Based Generative Adversarial Network for Generative Modeling of Three-Dimensional Medical Images ( http://arxiv.org/abs/2107.09700v1 )

ライセンス: Link先を確認
Sungmin Hong, Razvan Marinescu, Adrian V. Dalca, Anna K. Bonkhoff, Martin Bretzner, Natalia S. Rost, Polina Golland(参考訳) 3次元医用画像のGAN(Generative Adversarial Networks)による画像合成は、画像強調や疾患進行モデリングといった多くの医療応用に拡張可能な大きな可能性を持っている。 しかし、3次元医用画像合成のための現在のGAN技術は、現実の医療問題に容易に適応できるように、大幅に改善する必要がある。 本稿では,2次元画像とネイティブに動作する最先端のスタイルGAN2モデルを拡張し,3次元画像合成を実現する。 画像合成に加えて, 医学的応用に適したオリジナルstylegan2を継承したスタイルベクトルによる3dスタイルのganの制御可能性と解釈可能性について検討した。 我々は3D-StyleGANの性能と実現性について,約12,000個の3次元フル脳MR T1画像で示す。 さらに,ハイパーパラメータの異なる構成を探索し,大規模ネットワークによる画像合成の潜在的な改善について検討する。 コードと事前訓練されたネットワークはオンラインで利用可能である。

Image synthesis via Generative Adversarial Networks (GANs) of three-dimensional (3D) medical images has great potential that can be extended to many medical applications, such as, image enhancement and disease progression modeling. However, current GAN technologies for 3D medical image synthesis need to be significantly improved to be readily adapted to real-world medical problems. In this paper, we extend the state-of-the-art StyleGAN2 model, which natively works with two-dimensional images, to enable 3D image synthesis. In addition to the image synthesis, we investigate the controllability and interpretability of the 3D-StyleGAN via style vectors inherited form the original StyleGAN2 that are highly suitable for medical applications: (i) the latent space projection and reconstruction of unseen real images, and (ii) style mixing. We demonstrate the 3D-StyleGAN's performance and feasibility with ~12,000 three-dimensional full brain MR T1 images, although it can be applied to any 3D volumetric images. Furthermore, we explore different configurations of hyperparameters to investigate potential improvement of the image synthesis with larger networks. The codes and pre-trained networks are available online: https://github.com/s h4174/3DStyleGAN.
翻訳日:2021-07-22 14:18:53 公開日:2021-07-20
# 非定常ファジィ時系列埋め込みを用いたIoTアプリケーションにおける高次元多変量時系列予測

High-dimensional Multivariate Time Series Forecasting in IoT Applications using Embedding Non-stationary Fuzzy Time Series ( http://arxiv.org/abs/2107.09785v1 )

ライセンス: Link先を確認
Hugo Vinicius Bitencourt and Frederico Gadelha Guimar\~aes(参考訳) モノのインターネット(IoT)では、異なるデータソースからデータが継続的に記録され、デバイスが組み込みエレクトロニクスに障害を負う可能性があるため、高次元データセットとコンセプトドリフトイベントが発生する。 したがって、高次元の非定常時系列の手法はIoTアプリケーションにおいて大きな価値を持つ。 Fuzzy Time Series (FTS) モデルは、実装が容易で高精度なデータ駆動非パラメトリックモデルとして際立っている。 残念ながら、FTSは、多くの変数やシナリオのデータセットをコンセプトドリフトで扱う際に困難に直面する。 本稿では,従来の高次元データを低次元埋め込み空間に投影し,FTSアプローチを用いて,高次元非定常時系列を扱う新しい手法を提案する。 これらの手法を組み合わせることで、非定常多変量時系列の複雑な内容の表現と正確な予測が可能になる。 本モデルでは,変動の98%を説明でき,RMSEの11.52%,MAEの2.68%,MAPEの2.91%に達する。

In Internet of things (IoT), data is continuously recorded from different data sources and devices can suffer faults in their embedded electronics, thus leading to a high-dimensional data sets and concept drift events. Therefore, methods that are capable of high-dimensional non-stationary time series are of great value in IoT applications. Fuzzy Time Series (FTS) models stand out as data-driven non-parametric models of easy implementation and high accuracy. Unfortunately, FTS encounters difficulties when dealing with data sets of many variables and scenarios with concept drift. We present a new approach to handle high-dimensional non-stationary time series, by projecting the original high-dimensional data into a low dimensional embedding space and using FTS approach. Combining these techniques enables a better representation of the complex content of non-stationary multivariate time series and accurate forecasts. Our model is able to explain 98% of the variance and reach 11.52% of RMSE, 2.68% of MAE and 2.91% of MAPE.
翻訳日:2021-07-22 14:17:49 公開日:2021-07-20
# correntropy similarity matrixを用いた3次元点集合の登録

Registration of 3D Point Sets Using Correntropy Similarity Matrix ( http://arxiv.org/abs/2107.09725v1 )

ライセンス: Link先を確認
Ashutosh Singandhupe, Hung La, Trung Dung Ngo, Van Ho(参考訳) この研究は、3Dポイントセットの登録やアライメントに焦点を当てている。 登録問題はよく確立された問題であり、反復閉点アルゴリズム(ICP)の複数の変種を用いて解かれるが、現在の最先端のアプローチの多くは、大きな回転と変換によって \textit{Source} と \textit{Target} の点集合が分離されるときに、いまだに不整合に悩まされている。 本稿では,標準icpアルゴリズムの変種を提案する。ここでは,\textit{source} と \textit{target} の点集合間の大きな回転・変換問題を解くために,回転・変換成分の計算におけるコレントロピー関係行列を導入する。 この行列は、反復ごとに更新されるコレントロピー基準によって生成される。 このアプローチで定義されるコレントロピーの基準は、 \textit{source} データセットと \textit{target} データセットの間の関係を維持する。 実験と検証を通じて,提案手法は,Point Cloud Library (PCL) およびオープンソースとして利用可能な他の手法と比較して,様々な回転および翻訳の下で良好に動作していることを確認した。 我々は、読者が我々のアプローチを検証するために、githubリポジトリにコードをアップロードした https://github.com/a ralab-unr/CoSM-ICP。

This work focuses on Registration or Alignment of 3D point sets. Although the Registration problem is a well established problem and it's solved using multiple variants of Iterative Closest Point (ICP) Algorithm, most of the approaches in the current state of the art still suffers from misalignment when the \textit{Source} and the \textit{Target} point sets are separated by large rotations and translation. In this work, we propose a variant of the Standard ICP algorithm, where we introduce a Correntropy Relationship Matrix in the computation of rotation and translation component which attempts to solve the large rotation and translation problem between \textit{Source} and \textit{Target} point sets. This matrix is created through correntropy criterion which is updated in every iteration. The correntropy criterion defined in this approach maintains the relationship between the points in the \textit{Source} dataset and the \textit{Target} dataset. Through our experiments and validation we verify that our approach has performed well under various rotation and translation in comparison to the other well-known state of the art methods available in the Point Cloud Library (PCL) as well as other methods available as open source. We have uploaded our code in the github repository for the readers to validate and verify our approach https://github.com/a ralab-unr/CoSM-ICP.
翻訳日:2021-07-22 14:16:26 公開日:2021-07-20
# 自己スーパービジョンとゲートアダプターを用いたlidar意味セグメンテーションにおける教師なし領域適応

Unsupervised Domain Adaptation in LiDAR Semantic Segmentation with Self-Supervision and Gated Adapters ( http://arxiv.org/abs/2107.09783v1 )

ライセンス: Link先を確認
Mrigank Rochan, Shubhra Aich, Eduardo R. Corral-Soto, Amir Nabatchian, Bingbing Liu(参考訳) 本稿では,LiDARセマンティックセマンティックセグメンテーションにおけるドメイン適応のより深く,より現実的で複雑な問題に焦点を当てる。 トレーニング(ソースドメイン)とテスト(ターゲットドメイン)データが異なるLiDARセンサから得られる場合、既存のセグメンテーションモデルのパフォーマンスは大幅に低下する。 この欠点を克服するために、自己スーパービジョンのためにラベルなしのターゲットドメインデータを活用する教師なしドメイン適応フレームワークと、ドメインシフトの影響を軽減するためのペアなしマスク転送戦略を提案する。 さらに,ネットワーク内に少数のパラメータを持つゲート型アダプタモジュールを導入して,対象ドメイン固有の情報について検討する。 実対実および合成対実のlidarセマンティクスセグメンテーションベンチマークの両方から適応した実験は、先行技術よりも大幅な改善を示している。

In this paper, we focus on a less explored, but more realistic and complex problem of domain adaptation in LiDAR semantic segmentation. There is a significant drop in performance of an existing segmentation model when training (source domain) and testing (target domain) data originate from different LiDAR sensors. To overcome this shortcoming, we propose an unsupervised domain adaptation framework that leverages unlabeled target domain data for self-supervision, coupled with an unpaired mask transfer strategy to mitigate the impact of domain shifts. Furthermore, we introduce gated adapter modules with a small number of parameters into the network to account for target domain-specific information. Experiments adapting from both real-to-real and synthetic-to-real LiDAR semantic segmentation benchmarks demonstrate the significant improvement over prior arts.
翻訳日:2021-07-22 14:16:00 公開日:2021-07-20
# グラフを用いたグループコントラスト型自己監督学習

Group Contrastive Self-Supervised Learning on Graphs ( http://arxiv.org/abs/2107.09787v1 )

ライセンス: Link先を確認
Xinyi Xu, Cheng Deng, Yaochen Xie, Shuiwang Ji(参考訳) グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。 先行手法の一般的なスキームは、入力グラフの2ビュー表現を最適化することである。 多くの研究において、単一のグラフレベル表現は対照的な目的の1つとして計算され、グラフの限られた特性を捉えている。 複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。 この目的のために,本研究におけるグループコントラスト学習フレームワークを提案する。 我々のフレームワークは与えられたグラフを複数の部分空間に埋め込み、各表現はグラフの特定の特徴をエンコードするように促される。 多様な情報表現を学習するために,グループ内の空間内表現と空間間表現の関係を捉えるための原則的目的を開発する。 提案するフレームワークでは,あるグラフの異なる部分構造をキャプチャする表現を演算するアテンションベースの表現関数をさらに発展させる。 当社のフレームワークを基盤として,提案する2つのメソッドをgroupclとgroupigに拡張した。 総合的な実験結果から,このフレームワークは様々なデータセットのパフォーマンス向上を期待できることがわかった。 さらに, 定性的な結果から, 表現子から生成された特徴が, グラフの様々な特性を捉えることに成功した。

We study self-supervised learning on graphs using contrastive methods. A general scheme of prior methods is to optimize two-view representations of input graphs. In many studies, a single graph-level representation is computed as one of the contrastive objectives, capturing limited characteristics of graphs. We argue that contrasting graphs in multiple subspaces enables graph encoders to capture more abundant characteristics. To this end, we propose a group contrastive learning framework in this work. Our framework embeds the given graph into multiple subspaces, of which each representation is prompted to encode specific characteristics of graphs. To learn diverse and informative representations, we develop principled objectives that enable us to capture the relations among both intra-space and inter-space representations in groups. Under the proposed framework, we further develop an attention-based representor function to compute representations that capture different substructures of a given graph. Built upon our framework, we extend two current methods into GroupCL and GroupIG, equipped with the proposed objective. Comprehensive experimental results show our framework achieves a promising boost in performance on a variety of datasets. In addition, our qualitative results show that features generated from our representor successfully capture various specific characteristics of graphs.
翻訳日:2021-07-22 14:11:26 公開日:2021-07-20
# 非単調データからmrソートモデルを学ぶ

Learning MR-Sort Models from Non-Monotone Data ( http://arxiv.org/abs/2107.09668v1 )

ライセンス: Link先を確認
Pegdwende Minoungou, Vincent Mousseau, Wassila Ouerdane, Paolo Scotton(参考訳) メジャールールソーティング(Majority Rule Sorting、MR-Sort)法は、複数の基準で評価された選択肢を事前定義された順序カテゴリーの1つに割り当てる。 Inv-MR-Sort問題(Inv-MR-Sort)は、データセットに一致するMR-Sortパラメータを計算する。 Inv-MR-Sortの既存の学習アルゴリズムは、基準に基づいて単調な選好を考える。 この問題を、基準に対する選好が必ずしも単調ではなく、おそらくは単音(または単音)である場合に拡張する。 本稿では,学習データから他のmrソートパラメータと条件の選好を学習する混合整数型プログラミングベースアルゴリズムを提案する。 数値実験を用いてアルゴリズムの性能について検討し,実世界のケーススタディでその利用について述べる。

The Majority Rule Sorting (MR-Sort) method assigns alternatives evaluated on multiple criteria to one of the predefined ordered categories. The Inverse MR-Sort problem (Inv-MR-Sort) computes MR-Sort parameters that match a dataset. Existing learning algorithms for Inv-MR-Sort consider monotone preferences on criteria. We extend this problem to the case where the preferences on criteria are not necessarily monotone, but possibly single-peaked (or single-valley). We propose a mixed-integer programming based algorithm that learns the preferences on criteria together with the other MR-Sort parameters from the training data. We investigate the performance of the algorithm using numerical experiments and we illustrate its use on a real-world case study.
翻訳日:2021-07-22 14:09:59 公開日:2021-07-20
# 音声ディープフェイクの人間知覚

Human Perception of Audio Deepfakes ( http://arxiv.org/abs/2107.09667v1 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Karla Markert, Konstantin B\"ottinger(参考訳) 近年のディープフェイク、コンピュータ化されたリアルなマルチメディアのフェイクは、操作されたコンテンツや生成されたコンテンツの検出を前面に押し出した。 ディープフェイク検出のための多くの機械学習モデルが提案されているが、人間の検出能力はまだ調査されていない。 人間の知覚は機械の知覚と異なり、ディープフェイクは一般に人間を騙すように設計されている。 これまでのところ、この問題は画像とビデオの領域でのみ解決されている。 音声深度検出における人間と機械の能力を比較するために,我々は,様々なアルゴリズムで生成されたスプーフ音声からボンダファイド音声サンプルを識別するオンラインゲーム化実験を行った。 200人のユーザが8976のゲームラウンドに出場し、オーディオディープフェイク検出のためにトレーニングされた人工知能(AI)アルゴリズムを使用した。 収集したデータから、このマシンはオーディオディープフェイクの検出において人間よりも優れていますが、その逆は人間の方が精度が高い特定の攻撃タイプを保っています。 さらに,若年者の方が高齢者よりオーディオディープフェイクの検出が優れているのに対して,IT専門家はレイメンに対して優位性はないことがわかった。 音声のディープフェイク検出を改善するためには,人間と機械の知識を組み合わせることが重要である。

The recent emergence of deepfakes, computerized realistic multimedia fakes, brought the detection of manipulated and generated content to the forefront. While many machine learning models for deepfakes detection have been proposed, the human detection capabilities have remained far less explored. This is of special importance as human perception differs from machine perception and deepfakes are generally designed to fool the human. So far, this issue has only been addressed in the area of images and video. To compare the ability of humans and machines in detecting audio deepfakes, we conducted an online gamified experiment in which we asked users to discern bonda-fide audio samples from spoofed audio, generated with a variety of algorithms. 200 users competed for 8976 game rounds with an artificial intelligence (AI) algorithm trained for audio deepfake detection. With the collected data we found that the machine generally outperforms the humans in detecting audio deepfakes, but that the converse holds for a certain attack type, for which humans are still more accurate. Furthermore, we found that younger participants are on average better at detecting audio deepfakes than older participants, while IT-professionals hold no advantage over laymen. We conclude that it is important to combine human and machine knowledge in order to improve audio deepfake detection.
翻訳日:2021-07-22 14:07:17 公開日:2021-07-20
# 水力発電プラントにおけるマルチ貯留層システムスケジューリングの効率化のための効率的な多目的進化的アプローチ

An Efficient Multi-objective Evolutionary Approach for Solving the Operation of Multi-Reservoir System Scheduling in Hydro-Power Plants ( http://arxiv.org/abs/2107.09718v1 )

ライセンス: Link先を確認
C.G. Marcelino, G.M.C. Leite, C.A.D.M Delgado, L.B. de Oliveira, E.F. Wanner, S. Jim\'enez-Fern\'andez, S. Salcedo-Sanz(参考訳) 本稿では,多貯留層システムにおける短期的水力単位コミットメント問題(カスケードに基づく運用シナリオ)に取り組む。 そこで本研究では,水力発電プラントの1日当たりの総エネルギー生産量を最大化し,同時に貯水池の総水量(容積)を最大化する数学モデルを提案する。 この問題を解決するために,我々は,最近提案されている多目的swarm知能に基づく最適化手法であるmulti-objective evolutionary swarm hybridization (mesh)アルゴリズムについて論じる。 MESH法は、水力発電所におけるタービンの可能な全ての組み合わせに対して、最適な水排出量と最大貯水量で発生する電力を求めるために応用されている。 MESHの性能は、ブラジルの2つのカスケード水力発電所を持つ水力発電システムからのデータを考慮した現実的な問題において、NSGA-II、NSGA-III、SPEA2、MOEA/Dのようなよく知られた進化的アプローチと比較された。 その結果,MESHは多目的アプローチよりも効率と精度で優れた性能を示し,プロジェクション分析では月に412,500ドル程度の利益が得られた。

This paper tackles the short-term hydro-power unit commitment problem in a multi-reservoir system - a cascade-based operation scenario. For this, we propose a new mathematical modelling in which the goal is to maximize the total energy production of the hydro-power plant in a sub-daily operation, and, simultaneously, to maximize the total water content (volume) of reservoirs. For solving the problem, we discuss the Multi-objective Evolutionary Swarm Hybridization (MESH) algorithm, a recently proposed multi-objective swarm intelligence-based optimization method which has obtained very competitive results when compared to existing evolutionary algorithms in specific applications. The MESH approach has been applied to find the optimal water discharge and the power produced at the maximum reservoir volume for all possible combinations of turbines in a hydro-power plant. The performance of MESH has been compared with that of well-known evolutionary approaches such as NSGA-II, NSGA-III, SPEA2, and MOEA/D in a realistic problem considering data from a hydro-power energy system with two cascaded hydro-power plants in Brazil. Results indicate that MESH showed a superior performance than alternative multi-objective approaches in terms of efficiency and accuracy, providing a profit of \$412,500 per month in a projection analysis carried out.
翻訳日:2021-07-22 14:06:56 公開日:2021-07-20
# 部分概念クラスにおけるPAC学習可能性の理論

A Theory of PAC Learnability of Partial Concept Classes ( http://arxiv.org/abs/2107.08444v2 )

ライセンス: Link先を確認
Noga Alon and Steve Hanneke and Ron Holzman and Shay Moran(参考訳) 我々は、PAC学習の理論を拡張して、学習プロセスを容易にする特別な特性をデータが満たすような、多様な学習タスクをモデル化する。 例えば、決定境界からのデータの距離がゼロから離れたタスクである。 基本的で単純な考え方は部分的概念を考えることである: これらは空間の特定の部分で定義できない関数である。 部分的概念を学習する際には、部分的概念が定義される点のみにソース分布がサポートされると仮定する。 このようにして、より低い次元の表面やマージン条件に横たわるようなデータ上の仮定を自然に表現することができる。 対照的に、そのような仮定が伝統的なpac理論によって表現できるかどうかは明確ではない。 実際、従来のPAC理論では達成できないような、容易に学習できる部分概念クラスを提示する。 これはまた、Attias、Kontorovich、Mansour 2019によって提起された問題も解決する。 部分概念クラスのPAC学習性を特徴付け,従来のものと根本的に異なるアルゴリズム的景観を明らかにする。 例えば、古典的なPACモデルでは、学習は経験的リスク最小化(Empirical Risk Minimization、ERM)へと導かれる。 対照的に、ERMの原理は部分概念クラスの学習可能性を説明するのに失敗する。 実際、非常に簡単に学習できるクラスを実証するが、それらを学ぶアルゴリズムは、無界なVC次元の仮説空間を使わなければならない。 また、この設定では、サンプル圧縮予想が失敗する。 したがって、この理論は従来の方法では表現できない問題や解決できない問題を特徴としている。 我々はこれを、古典理論が説明できない現実的なシナリオにおける学習可能性の性質に関する洞察を提供する証拠として捉えている。

We extend the theory of PAC learning in a way which allows to model a rich variety of learning tasks where the data satisfy special properties that ease the learning process. For example, tasks where the distance of the data from the decision boundary is bounded away from zero. The basic and simple idea is to consider partial concepts: these are functions that can be undefined on certain parts of the space. When learning a partial concept, we assume that the source distribution is supported only on points where the partial concept is defined. This way, one can naturally express assumptions on the data such as lying on a lower dimensional surface or margin conditions. In contrast, it is not at all clear that such assumptions can be expressed by the traditional PAC theory. In fact we exhibit easy-to-learn partial concept classes which provably cannot be captured by the traditional PAC theory. This also resolves a question posed by Attias, Kontorovich, and Mansour 2019. We characterize PAC learnability of partial concept classes and reveal an algorithmic landscape which is fundamentally different than the classical one. For example, in the classical PAC model, learning boils down to Empirical Risk Minimization (ERM). In stark contrast, we show that the ERM principle fails in explaining learnability of partial concept classes. In fact, we demonstrate classes that are incredibly easy to learn, but such that any algorithm that learns them must use an hypothesis space with unbounded VC dimension. We also find that the sample compression conjecture fails in this setting. Thus, this theory features problems that cannot be represented nor solved in the traditional way. We view this as evidence that it might provide insights on the nature of learnability in realistic scenarios which the classical theory fails to explain.
翻訳日:2021-07-22 11:19:17 公開日:2021-07-20
# (参考訳) 画像における異常検出のための教師あり・教師なし深層学習法の比較 [全文訳有]

A Comparison of Supervised and Unsupervised Deep Learning Methods for Anomaly Detection in Images ( http://arxiv.org/abs/2107.09204v1 )

ライセンス: CC BY 4.0
Vincent Wilmet, Sauraj Verma, Tabea Redl, H{\aa}kon Sandaker, Zhenning Li(参考訳) 画像における異常検出は、医療における疾患診断や製造における品質保証など、あらゆる産業において重要な役割を果たす。 手動による画像検査は、単調に反復する期間を延ばすと非常に時間がかかり、異常を見落とされてしまう可能性がある。 そこで本研究では,品質保証ユースケースに適用可能な異常検出のための教師付き学習と教師なし学習を含む,深層学習の異なる手法について検討する。 MVTec異常データセットを用いて,教師付き異常検出用CNN,オートエンコーダ異常検出用KD-CAE,ノイズ誘発異常検出用NI-CAE,再構成画像生成用DCGANの3種類のモデルを開発した。 実験の結果,KD-CAEはCNNやNI-CAEと比較して異常データセットでは優れており,NI-CAEはTransistorデータセットでは最高であることがわかった。 我々はまた、新しいトレーニングデータを作成するためにDCGANを実装したが、計算の制限とAnoGANの力学の補間が欠如しているため、GANベースの画像生成のみに限定した。 教師なし手法は画像の異常検出において,特に少量の異常データしか利用できない場合やラベルなしの場合において,より強力である。

Anomaly detection in images plays a significant role for many applications across all industries, such as disease diagnosis in healthcare or quality assurance in manufacturing. Manual inspection of images, when extended over a monotonously repetitive period of time is very time consuming and can lead to anomalies being overlooked.Artificia l neural networks have proven themselves very successful on simple, repetitive tasks, in some cases even outperforming humans. Therefore, in this paper we investigate different methods of deep learning, including supervised and unsupervised learning, for anomaly detection applied to a quality assurance use case. We utilize the MVTec anomaly dataset and develop three different models, a CNN for supervised anomaly detection, KD-CAE for autoencoder anomaly detection, NI-CAE for noise induced anomaly detection and a DCGAN for generating reconstructed images. By experiments, we found that KD-CAE performs better on the anomaly datasets compared to CNN and NI-CAE, with NI-CAE performing the best on the Transistor dataset. We also implemented a DCGAN for the creation of new training data but due to computational limitation and lack of extrapolating the mechanics of AnoGAN, we restricted ourselves just to the generation of GAN based images. We conclude that unsupervised methods are more powerful for anomaly detection in images, especially in a setting where only a small amount of anomalous data is available, or the data is unlabeled.
翻訳日:2021-07-21 22:49:59 公開日:2021-07-20
# (参考訳) 画像認識モデルにおける性差と人種差の理解 [全文訳有]

Understanding Gender and Racial Disparities in Image Recognition Models ( http://arxiv.org/abs/2107.09211v1 )

ライセンス: CC BY-SA 4.0
Rohan Mahadev, Anindya Chakravarti(参考訳) Imagenetのような一般的なデータセット上でトレーニングされた大規模な画像分類モデルでは、分布スキューが示されており、人口人口の異なる部分の予測精度に差が生じている。 モデル前、後、およびトレーニング中に変更する手法を用いて、この分散スキューを解決するための多くのアプローチが作成されている。 本研究では,openimages v6データセットのサブセットであるインクルーシブイメージデータセット上のマルチラベル分類問題に対するバイナリクロスエントロピーではなく,クロスエントロピーを伴うマルチラベルソフトマックスロスを損失関数として使用する手法について検討する。 MR2データセットは、自己識別された性別と人種特性を持つ人々の画像を含み、モデル結果の公平さを評価し、モデルのアクティベーションを見て誤りを解釈し、修正を提案する。

Large scale image classification models trained on top of popular datasets such as Imagenet have shown to have a distributional skew which leads to disparities in prediction accuracies across different subsections of population demographics. A lot of approaches have been made to solve for this distributional skew using methods that alter the model pre, post and during training. We investigate one such approach - which uses a multi-label softmax loss with cross-entropy as the loss function instead of a binary cross-entropy on a multi-label classification problem on the Inclusive Images dataset which is a subset of the OpenImages V6 dataset. We use the MR2 dataset, which contains images of people with self-identified gender and race attributes to evaluate the fairness in the model outcomes and try to interpret the mistakes by looking at model activations and suggest possible fixes.
翻訳日:2021-07-21 22:38:09 公開日:2021-07-20
# (参考訳) ディスクリミネータフリージェネレーション・アタック [全文訳有]

Discriminator-Free Generative Adversarial Attack ( http://arxiv.org/abs/2107.09225v1 )

ライセンス: CC BY 4.0
Shaohao Lu, Yuqiao Xian, Ke Yan, Yi Hu, Xing Sun, Xiaowei Guo, Feiyue Huang, Wei-Shi Zheng(参考訳) ディープニューラルネットワークは、脆弱な逆行性試験塔(図1)であるため、DNNベースのシステムは、画像に目立たない摂動を加えることで崩壊する。 敵の攻撃のための既存の作業のほとんどは、遅延効率とgpuメモリへの負荷から、勾配ベースとsuf-ferである。 生成ベースの敵攻撃はこの制限を取り除き、ganに基づくアプローチを提案する相対的な研究もあるが、ganの列車編成の収束の困難さに苦しむ一方で、敵の例には攻撃能力の悪さや視覚品質の悪さがある。 本研究では, 識別器は, 生成的対向攻撃には不要であることを示すとともに, Symmetric Saliency-based Auto-Encoder (SSAE) を用いて, サリエンシマップモジュールと機能モジュールの角度-ノルム歪みからなる摂動を生成する。 提案手法の利点は,判別器に依存しない点と,ラベル対応領域に対してより注意を払うために生成的給与マップを用いる点にある。 さまざまなタスク、データセット、モデル間の広範なエクスペラメントは、SSAEが生成した敵の例が、広く使用されているモデルを崩壊させるだけでなく、優れた視覚的品質を達成することを実証している。

The Deep Neural Networks are vulnerable toadversarial exam-ples(Figure 1), making the DNNs-based systems collapsed byadding the inconspicuous perturbations to the images. Most of the existing works for adversarial attack are gradient-based and suf-fer from the latency efficiencies and the load on GPU memory. Thegenerative-based adversarial attacks can get rid of this limitation,and some relative works propose the approaches based on GAN.However, suffering from the difficulty of the convergence of train-ing a GAN, the adversarial examples have either bad attack abilityor bad visual quality. In this work, we find that the discriminatorcould be not necessary for generative-based adversarial attack, andpropose theSymmetric Saliency-based Auto-Encoder (SSAE)to generate the perturbations, which is composed of the saliencymap module and the angle-norm disentanglement of the featuresmodule. The advantage of our proposed method lies in that it is notdepending on discriminator, and uses the generative saliency map to pay more attention to label-relevant regions. The extensive exper-iments among the various tasks, datasets, and models demonstratethat the adversarial examples generated by SSAE not only make thewidely-used models collapse, but also achieves good visual quality.The code is available at https://github.com/B ravoLu/SSAE.
翻訳日:2021-07-21 22:32:33 公開日:2021-07-20
# (参考訳) S2Looking: ビル変更検出のための衛星サイドルックデータセット [全文訳有]

S2Looking: A Satellite Side-Looking Dataset for Building Change Detection ( http://arxiv.org/abs/2107.09244v1 )

ライセンス: CC BY 4.0
Li Shen, Yao Lu, Hao Chen, Hao Wei, Donghai Xie, Jiabao Yue, Rui Chen, Yue Zhang, Ao Zhang, Shouye Lv, Bitao Jiang(参考訳) 大規模なアノテーション付き衛星画像データセットの収集は、ディープラーニングに基づくグローバルな建物変更監視に不可欠である。 特に、光学衛星のスクロールイメージングモードは、より広い観測範囲と短い再訪期間を可能にし、効率的なグローバル監視を容易にする。 しかし、最近の衛星変化検出データセットの画像は、主にnadirに近い角度で撮影される。 本稿では,S2Lookingについて紹介する。S2Lookingは大規模で横向きの衛星画像を含む建物変更検出データセットである。 我々のS2Lookingデータセットは、世界中の農村地域の5000のバイテンポラルイメージペア(1024*1024,0.5 ~0.8 m/ピクセル)と65,920以上の注釈付き変更インスタンスで構成されています。 データセットの各サンプルに対して,新たに構築され,取り壊された建物領域を別々に示すラベルマップを2つ提供します。 このデータセットに基づいたベンチマークタスク、すなわち、バイテンポラル画像におけるピクセルレベルのビルド変更を識別する。 我々は、s2lookデータセットと(near-nadir) levir-cd+データセットの両方で最先端のメソッドをテストした。 実験結果から,最近の変化検出手法はLEVIR-CD+よりもS2 Lookの方が性能が劣っていることがわかった。 提案したS2探索データセットは,1)大きな視角変化,2)大きな照度変化,3)農村部で発生する複雑な景観特性の3つの主な課題を示す。 提案するデータセットは,衛星画像変化検出・登録を行うアルゴリズムの開発を促進する可能性がある。 データセットはhttps://github.com/a nonymousforacmmm/で入手できる。

Collecting large-scale annotated satellite imagery datasets is essential for deep-learning-based global building change surveillance. In particular, the scroll imaging mode of optical satellites enables larger observation ranges and shorter revisit periods, facilitating efficient global surveillance. However, the images in recent satellite change detection datasets are mainly captured at near-nadir viewing angles. In this paper, we introduce S2Looking, a building change detection dataset that contains large-scale side-looking satellite images captured at varying off-nadir angles. Our S2Looking dataset consists of 5000 registered bitemporal image pairs (size of 1024*1024, 0.5 ~ 0.8 m/pixel) of rural areas throughout the world and more than 65,920 annotated change instances. We provide two label maps to separately indicate the newly built and demolished building regions for each sample in the dataset. We establish a benchmark task based on this dataset, i.e., identifying the pixel-level building changes in the bi-temporal images. We test several state-of-the-art methods on both the S2Looking dataset and the (near-nadir) LEVIR-CD+ dataset. The experimental results show that recent change detection methods exhibit much poorer performance on the S2Looking than on LEVIR-CD+. The proposed S2Looking dataset presents three main challenges: 1) large viewing angle changes, 2) large illumination variances and 3) various complex scene characteristics encountered in rural areas. Our proposed dataset may promote the development of algorithms for satellite image change detection and registration under conditions of large off-nadir angles. The dataset is available at https://github.com/A nonymousForACMMM/.
翻訳日:2021-07-21 22:18:47 公開日:2021-07-20
# (参考訳) テニスゲームの電子回線呼び出しのための単眼視覚解析 [全文訳有]

Monocular Visual Analysis for Electronic Line Calling of Tennis Games ( http://arxiv.org/abs/2107.09255v1 )

ライセンス: CC BY 4.0
Yuanzhou Chen, Shaobo Cai, Yuxin Wang, Junchi Yan(参考訳) エレクトロニックラインコール(Electronic Line Calling)は、双眼ビジョン技術に基づくテニスの試合に使用される補助審判システムである。 ELCは広く使われているが、複雑なインストールやメンテナンス、高コストなど、まだ多くの問題がある。 単眼視技術を用いたLC法を提案する。 この方法には以下の手順がある。 まず、テニスボールの軌跡を見つける。 背景サブトラクションと色領域フィルタリングを組み合わせた多段テニスボール位置決め手法を提案する。 そして,不確実点の嵌合損失を最小限に抑え,バウンス点予測手法を提案する。 最後に,ボールのバウンス点が2次元画像におけるバウンス点とコート側線との相対位置に応じて境界外であるか否かを明らかにする。 実験結果から,球が単眼でコート外にあるかどうかを判定し,両眼視によるelcシステムの複雑な設置とコストを大幅に削減できることがわかった。

Electronic Line Calling is an auxiliary referee system used for tennis matches based on binocular vision technology. While ELC has been widely used, there are still many problems, such as complex installation and maintenance, high cost and etc. We propose a monocular vision technology based ELC method. The method has the following steps. First, locate the tennis ball's trajectory. We propose a multistage tennis ball positioning approach combining background subtraction and color area filtering. Then we propose a bouncing point prediction method by minimizing the fitting loss of the uncertain point. Finally, we find out whether the bouncing point of the ball is out of bounds or not according to the relative position between the bouncing point and the court side line in the two dimensional image. We collected and tagged 394 samples with an accuracy rate of 99.4%, and 81.8% of the 11 samples with bouncing points.The experimental results show that our method is feasible to judge if a ball is out of the court with monocular vision and significantly reduce complex installation and costs of ELC system with binocular vision.
翻訳日:2021-07-21 22:02:19 公開日:2021-07-20
# (参考訳) foleygan:サイレントビデオにおける視覚誘導生成広告ネットワークに基づく同期音生成 [全文訳有]

FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos ( http://arxiv.org/abs/2107.09262v1 )

ライセンス: CC BY 4.0
Sanchita Ghose and John J. Prevost(参考訳) 深層学習に基づく視覚音声生成システムは、特に視覚的特徴と音声的特徴の時間的同期性を考慮して開発する必要がある。 本研究では,映像入力の時間的視覚情報を含むクラス条件付き生成逆ネットワークを,音声と視覚の同期性に適応した音声生成タスクに導く新しいタスクを提案する。 提案するフォレーガンモデルは、視覚イベントの動作シーケンスを条件付けし、視覚的に整列したリアルなサウンドトラックを生成することができる。 提案するfoleyデータセットを拡張して,foleyganとのトレーニングを行い,音声と視覚の同期性に有意な(平均81.%)性能を示すヒューマンサーベイによる合成音の評価を行った。 また,本手法は,他のベースラインモデルや視聴覚データセットと比較して,統計的実験よりも優れている。

Deep learning based visual to sound generation systems essentially need to be developed particularly considering the synchronicity aspects of visual and audio features with time. In this research we introduce a novel task of guiding a class conditioned generative adversarial network with the temporal visual information of a video input for visual to sound generation task adapting the synchronicity traits between audio-visual modalities. Our proposed FoleyGAN model is capable of conditioning action sequences of visual events leading towards generating visually aligned realistic sound tracks. We expand our previously proposed Automatic Foley dataset to train with FoleyGAN and evaluate our synthesized sound through human survey that shows noteworthy (on average 81\%) audio-visual synchronicity performance. Our approach also outperforms in statistical experiments compared with other baseline models and audio-visual datasets.
翻訳日:2021-07-21 21:56:06 公開日:2021-07-20
# (参考訳) 多くの候補のランク付けによるパラフレーズ化 [全文訳有]

Paraphrasing via Ranking Many Candidates ( http://arxiv.org/abs/2107.09274v1 )

ライセンス: CC BY 4.0
Joosung Lee(参考訳) 様々なパラフレーズを簡便かつ効果的に生成し,その中から高品質なパラフレーズを見出す方法を提案する。 これまでの研究ではそうであるように、一つの生成法が常に様々な領域で最高のパラフレーズを生成することは困難である。 したがって、生成モデルと復号化オプションの組み合わせが1つしかないと仮定するのではなく、複数の候補から最適な候補を見つけることに注力する。 提案手法は, 様々な領域に適用が容易であり, 従来の手法に比べて十分な性能を有することを示す。 さらに、我々のアプローチは、下流コーパスを拡張し、英語と韓国のデータセットのパフォーマンス向上に役立つことを示すデータアグメンテーションに使用することができる。

We present a simple and effective way to generate a variety of paraphrases and find a good quality paraphrase among them. As in previous studies, it is difficult to ensure that one generation method always generates the best paraphrase in various domains. Therefore, we focus on finding the best candidate from multiple candidates, rather than assuming that there is only one combination of generative models and decoding options. Our approach shows that it is easy to apply in various domains and has sufficiently good performance compared to previous methods. In addition, our approach can be used for data agumentation that extends the downstream corpus, showing that it can help improve performance in English and Korean datasets.
翻訳日:2021-07-21 21:35:43 公開日:2021-07-20
# (参考訳) neural abstructions: 基底的言語学習の構築を支援する抽象化 [全文訳有]

Neural Abstructions: Abstractions that Support Construction for Grounded Language Learning ( http://arxiv.org/abs/2107.09285v1 )

ライセンス: CC BY 4.0
Kaylee Burns, Christopher D. Manning, Li Fei-Fei(参考訳) 仮想エージェントは、自然言語が人間との相互作用の最も効果的な手段である環境にますます配置されているが、これらの交換は学習の機会として使われることは滅多にない。 固定されたオブジェクトカテゴリ上に構築されたセマンティックパーサは、正確だが柔軟性がなく、エンドツーエンドのモデルは、最大限に表現力があるが、軽快で不透明である。 我々のゴールは、各アプローチの強みをバランスさせて、一つの例から広く一般化するエージェントに新しい指示を教えるシステムを開発することである。 文脈におけるラベルの意味に影響を与える可能性のあるラベル条件付き生成モデルの推論手順に関する一連の制約について紹介する。 アブストラクション上のコアプログラミング言語から始まり、ユーザーは自然言語からアクションへのより複雑なマッピングを定義することができる。 この方法では,マインクラフトのオープンエンドハウス修正タスクのための意味的パーサをユーザが構築できることを示す。 結果のセマンティックパーサーは柔軟かつ表現力があり、再定義から発せられる発話の割合は191回の取引で着実に増加し、最終的な値は28%に達する。

Although virtual agents are increasingly situated in environments where natural language is the most effective mode of interaction with humans, these exchanges are rarely used as an opportunity for learning. Leveraging language interactions effectively requires addressing limitations in the two most common approaches to language grounding: semantic parsers built on top of fixed object categories are precise but inflexible and end-to-end models are maximally expressive, but fickle and opaque. Our goal is to develop a system that balances the strengths of each approach so that users can teach agents new instructions that generalize broadly from a single example. We introduce the idea of neural abstructions: a set of constraints on the inference procedure of a label-conditioned generative model that can affect the meaning of the label in context. Starting from a core programming language that operates over abstructions, users can define increasingly complex mappings from natural language to actions. We show that with this method a user population is able to build a semantic parser for an open-ended house modification task in Minecraft. The semantic parser that results is both flexible and expressive: the percentage of utterances sourced from redefinitions increases steadily over the course of 191 total exchanges, achieving a final value of 28%.
翻訳日:2021-07-21 21:29:00 公開日:2021-07-20
# (参考訳) あなたの道をたどる:知識蒸留の進歩的方法 [全文訳有]

Follow Your Path: a Progressive Method for Knowledge Distillation ( http://arxiv.org/abs/2107.09305v1 )

ライセンス: CC BY 4.0
Wenxian Shi, Yuxuan Song, Hao Zhou, Bohan Li, Lei Li(参考訳) ディープニューラルネットワークは、しばしば膨大な数のパラメータを持ち、メモリと計算能力に制限のあるアプリケーションシナリオのデプロイにおける課題を投稿する。 知識蒸留は、より大きいモデルからコンパクトモデルを引き出すためのアプローチである。 しかし、収束重大教師モデルは、コンパクトな学生ネットワークの学習に強く制約されており、その最適化をローカルな最適性に乏しくすることができることが観察されている。 本稿では,教師モデルの指導信号を学生のパラメータ空間に投影し,モデルに依存しない新しい手法であるProKTを提案する。 このようなプロジェクションは、トレーニング対象を近似ミラー降下法で局所的な中間目標に分解することで実現される。 提案手法は最適化時のクォークに対する感度が低くなり,局所最適性が向上する可能性がある。 画像とテキストの双方で実験した結果,提案したProKTは既存の知識蒸留法と比較して常に優れた性能を発揮することがわかった。

Deep neural networks often have a huge number of parameters, which posts challenges in deployment in application scenarios with limited memory and computation capacity. Knowledge distillation is one approach to derive compact models from bigger ones. However, it has been observed that a converged heavy teacher model is strongly constrained for learning a compact student network and could make the optimization subject to poor local optima. In this paper, we propose ProKT, a new model-agnostic method by projecting the supervision signals of a teacher model into the student's parameter space. Such projection is implemented by decomposing the training objective into local intermediate targets with an approximate mirror descent technique. The proposed method could be less sensitive with the quirks during optimization which could result in a better local optimum. Experiments on both image and text datasets show that our proposed ProKT consistently achieves superior performance compared to other existing knowledge distillation methods.
翻訳日:2021-07-21 21:12:58 公開日:2021-07-20
# (参考訳) 空間スペクトルに基づくリアルタイム話者ダイアリゼーションシステム [全文訳有]

A Real-time Speaker Diarization System Based on Spatial Spectrum ( http://arxiv.org/abs/2107.09321v1 )

ライセンス: CC BY 4.0
Siqi Zheng, Weilong Huang, Xianliang Wang, Hongbin Suo, Jinwei Feng, Zhijie Yan(参考訳) 本稿では,会話や会議におけるすべての話者の位置と識別を可能にする話者ダイアリゼーションシステムについて述べる。 話者ダイアリゼーション課題において,(1)話者から重複する発話を分割して分離する,(2)参加者が会話に参加したり離れたりする話者の数を推定する,(3)短いテキストに依存しない発話で正確な話者識別を行う,(4)会話中の話者の動きを追跡する,(5)話者変化をリアルタイムで検出する,という,長年にわたる課題に取り組むための新しい体系的アプローチを提案する。 まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。 第2に,話者位置追跡のためのオンライン話者配置クラスタリング手法を提案する。 第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。 その結果,本システムは空間情報を効果的に活用し,大きな利益をもたらすことが示唆された。

In this paper we describe a speaker diarization system that enables localization and identification of all speakers present in a conversation or meeting. We propose a novel systematic approach to tackle several long-standing challenges in speaker diarization tasks: (1) to segment and separate overlapping speech from two speakers; (2) to estimate the number of speakers when participants may enter or leave the conversation at any time; (3) to provide accurate speaker identification on short text-independent utterances; (4) to track down speakers movement during the conversation; (5) to detect speaker change incidence real-time. First, a differential directional microphone array-based approach is exploited to capture the target speakers' voice in far-field adverse environment. Second, an online speaker-location joint clustering approach is proposed to keep track of speaker location. Third, an instant speaker number detector is developed to trigger the mechanism that separates overlapped speech. The results suggest that our system effectively incorporates spatial information and achieves significant gains.
翻訳日:2021-07-21 21:00:57 公開日:2021-07-20
# (参考訳) クレジットカード不正検出のための伝達学習:研究から生産への旅 [全文訳有]

Transfer Learning for Credit Card Fraud Detection: A Journey from Research to Production ( http://arxiv.org/abs/2107.09323v1 )

ライセンス: CC BY 4.0
Wissam Siblini, Guillaume Coter, R\'emy Fabry, Liyun He-Guelton, Fr\'ed\'eric Obl\'e, Bertrand Lebichot, Yann-A\"el Le Borgne, Gianluca Bontempi(参考訳) デジタル商取引の一般化の暗黒面は詐欺未遂の増加である。 あらゆる種類の攻撃を防ぐため、アート不正検出システムの状態が機械学習(ML)モジュールを埋め込んでいる。 このようなモジュールの概念は研究のレベルでのみ伝達され、論文は主に独立したベンチマークデータセットとメトリクスの結果に焦点を当てている。 しかし、研究は旅の一部に過ぎず、ビジネス上の問題とデータ収集の適切な定式化が先行し、実践的な統合が行われる。 本稿では,不正検出のための転帰学習を事例として,ビジネスから研究,ビジネスへの復帰を事例として,プロセスのより広いビジョンを提供する。

The dark face of digital commerce generalization is the increase of fraud attempts. To prevent any type of attacks, state of the art fraud detection systems are now embedding Machine Learning (ML) modules. The conception of such modules is only communicated at the level of research and papers mostly focus on results for isolated benchmark datasets and metrics. But research is only a part of the journey, preceded by the right formulation of the business problem and collection of data, and followed by a practical integration. In this paper, we give a wider vision of the process, on a case study of transfer learning for fraud detection, from business to research, and back to business.
翻訳日:2021-07-21 20:50:45 公開日:2021-07-20
# (参考訳) カリキュラム学習による文レベル関係抽出の改善 [全文訳有]

Improving Sentence-Level Relation Extraction through Curriculum Learning ( http://arxiv.org/abs/2107.09332v1 )

ライセンス: CC BY 4.0
Seongsik Park, Harksoo Kim(参考訳) 文レベルの関係抽出は主に文中の2つの実体間の関係を分類することを目的としている。 文レベルの関係抽出コーパスは、モデルが推論またはノイズデータを得るのが困難であるデータを含むことが多い。 本稿では,難易度でデータを分割し,それを学習に活用するカリキュラム学習に基づく関係抽出モデルを提案する。 代表文レベルの関係抽出データセットであるTACREDとRe-TACREDを用いた実験では,提案手法は良好な性能を示した。

The sentence-level relation extraction mainly aims to classify the relation between two entities in a sentence. The sentence-level relation extraction corpus is often containing data of difficulty for the model to infer or noise data. In this paper, we propose a curriculum learning-based relation extraction model that split data by difficulty and utilize it for learning. In the experiments with the representative sentence-level relation extraction datasets, TACRED and Re-TACRED, the proposed method showed good performances.
翻訳日:2021-07-21 20:46:31 公開日:2021-07-20
# (参考訳) StreamBlocks: 異種データフローコンピューティングのためのコンパイラ(技術的レポート) [全文訳有]

StreamBlocks: A compiler for heterogeneous dataflow computing (technical report) ( http://arxiv.org/abs/2107.09333v1 )

ライセンス: CC BY 4.0
Endri Bezati, Mahyar Emami, J\"orn Janneck, James Larus(参考訳) 性能と効率を向上させるため、システムはFPGAを再構成可能なアクセラレータとして使用する。 これらのシステムを設計する上で重要な課題は、プロセッサとFPGAの間で計算を分割することである。 適切な分業は事前に予測することは困難であり、実験と測定が必要である。 調査がシステムの一部を新しい言語や新しいプログラミングモデルで書き直す必要がある場合、その高いコストは異なる構成の研究を遅らせる可能性がある。 両方のプラットフォームをターゲットにした適切なプログラミングモデルとコンパイラを備えた単一言語システムにより、新しいコンパイラディレクティブによる単純な再コンパイルが容易になる。 この作業では、CALデータフロー言語を使用したオープンソースのコンパイラとランタイムであるStreamBlocksを導入し、計算を異種(CPU/アクセラレータ)プラットフォーム間で分割する。 dataflowモデルのセマンティクスとcal言語のおかげで、ストリームブロックはマルチコアcpuのスレッド並列性とfpga固有の並列性の両方を活用できる。 streamblocksは、最高のハードウェアとソフトウェアのパーティションを特定するのに役立つプロファイルガイドツールで、デザインスペースの探索をサポートする。

To increase performance and efficiency, systems use FPGAs as reconfigurable accelerators. A key challenge in designing these systems is partitioning computation between processors and an FPGA. An appropriate division of labor may be difficult to predict in advance and require experiments and measurements. When an investigation requires rewriting part of the system in a new language or with a new programming model, its high cost can retard the study of different configurations. A single-language system with an appropriate programming model and compiler that targets both platforms simplifies this exploration to a simple recompile with new compiler directives. This work introduces StreamBlocks, an open-source compiler and runtime that uses the CAL dataflow programming language to partition computations across heterogeneous (CPU/accelerator) platforms. Because of the dataflow model's semantics and the CAL language, StreamBlocks can exploit both thread parallelism in multi-core CPUs and the inherent parallelism of FPGAs. StreamBlocks supports exploring the design space with a profile-guided tool that helps identify the best hardware-software partitions.
翻訳日:2021-07-21 20:40:49 公開日:2021-07-20
# (参考訳) abidesにおける異なる市場シナリオの類似度指標 [全文訳有]

Similarity metrics for Different Market Scenarios in Abides ( http://arxiv.org/abs/2107.09352v1 )

ライセンス: CC BY 4.0
Diego Pino, Javier Garc\'ia, Fernando Fern\'andez, Svitlana S Vyetrenko(参考訳) マルコフ決定プロセス(MDP)は、多くの機械学習問題を正式に記述する効果的な方法である。 事実、近年、MDPは金融取引タスクをモデル化する強力なフレームワークとして登場した。 例えば、金融MDPは異なる市場シナリオをモデル化することができる。 しかし、これらの金融MDPの(ほぼ)最適政策の学習は、特にその方針について何も分かっていない場合、非常に時間がかかる可能性がある。 もう一つのアプローチは、我々が既にその方針を学習した同様の金融MDPを見つけ、その上で、新たな金融MDPの新たな政策の学習に再利用することである。 このような市場シナリオ間の知識伝達は、いくつかの問題を引き起こす。 一方、金融mdp間の類似性を測定するには、どうすればよいか。 一方、この類似度測定を用いて、金融MDP間の知識を効果的に伝達する方法。 本稿ではこれらの問題に対処する。 本稿では,金融MDPの概念的,構造的,パフォーマンス的側面に基づく3つの類似度指標の活用について分析する。 第2に,本稿では,知識を再利用した従来の金融MDPの類似性に応じて,新たな金融MDPの学習における活用・探索のバランスをとるために,確率的政策再利用を利用する。

Markov Decision Processes (MDPs) are an effective way to formally describe many Machine Learning problems. In fact, recently MDPs have also emerged as a powerful framework to model financial trading tasks. For example, financial MDPs can model different market scenarios. However, the learning of a (near-)optimal policy for each of these financial MDPs can be a very time-consuming process, especially when nothing is known about the policy to begin with. An alternative approach is to find a similar financial MDP for which we have already learned its policy, and then reuse such policy in the learning of a new policy for a new financial MDP. Such a knowledge transfer between market scenarios raises several issues. On the one hand, how to measure the similarity between financial MDPs. On the other hand, how to use this similarity measurement to effectively transfer the knowledge between financial MDPs. This paper addresses both of these issues. Regarding the first one, this paper analyzes the use of three similarity metrics based on conceptual, structural and performance aspects of the financial MDPs. Regarding the second one, this paper uses Probabilistic Policy Reuse to balance the exploitation/explora tion in the learning of a new financial MDP according to the similarity of the previous financial MDPs whose knowledge is reused.
翻訳日:2021-07-21 20:13:51 公開日:2021-07-20
# (参考訳) 秘密鍵を用いたブロックワイズ画像暗号化によるセマンティックセグメンテーションモデル保護 [全文訳有]

Protecting Semantic Segmentation Models by Using Block-wise Image Encryption with Secret Key from Unauthorized Access ( http://arxiv.org/abs/2107.09362v1 )

ライセンス: CC BY 4.0
Hiroki Ito, MaungMaung AprilPyone, Hitoshi Kiya(参考訳) 製品レベルの訓練されたディープニューラルネットワーク(DNN)は大きなビジネス価値を持つため、著作権侵害や不正アクセスからDNNモデルを保護することが要求される。 しかし,従来のモデル保護手法は画像分類タスクのみに焦点を合わせており,これらの保護手法は意味的セグメンテーションには適用されなかった。 本稿では,秘密鍵を用いたブロックワイズ変換を初めて活用し,無許可アクセスから意味セグメンテーションモデルを保護することを提案する。 保護されたモデルは変換された画像を用いて訓練される。 実験の結果, 提案手法により, 正当なユーザに対して, モデルをフル容量でアクセスし, 不正ユーザの性能を低下させることができることがわかった。 しかし、保護されたモデルは保護されていないモデルに比べてセグメンテーション性能をわずかに低下させる。

Since production-level trained deep neural networks (DNNs) are of a great business value, protecting such DNN models against copyright infringement and unauthorized access is in a rising demand. However, conventional model protection methods focused only the image classification task, and these protection methods were never applied to semantic segmentation although it has an increasing number of applications. In this paper, we propose to protect semantic segmentation models from unauthorized access by utilizing block-wise transformation with a secret key for the first time. Protected models are trained by using transformed images. Experiment results show that the proposed protection method allows rightful users with the correct key to access the model to full capacity and deteriorate the performance for unauthorized users. However, protected models slightly drop the segmentation performance compared to non-protected models.
翻訳日:2021-07-21 20:00:59 公開日:2021-07-20
# (参考訳) ReLUネットワークの埋め込みとその識別可能性の解析

An Embedding of ReLU Networks and an Analysis of their Identifiability ( http://arxiv.org/abs/2107.09370v1 )

ライセンス: CC BY 4.0
Pierre Stock and R\'emi Gribonval(参考訳) Rectified Linear Unit (ReLU) 非線形性を持つニューラルネットワークはパラメータ $\theta$ のベクトルで記述され、断片線型連続関数 $R_{\theta}: x \in \mathbb R^{d} \mapsto R_{\theta}(x) \in \mathbb R^{k}$ として実現される。 パラメータ $\theta$ 上の自然スケーリングと置換操作は、その実現をそのままにして、同じ実現をもたらすパラメータの同値類を生み出す。 これらの考察は、その実現の唯一の知識である$r_{\theta}$から、(同値クラスの)$\theta$を回復する能力という、識別可能性の概念に繋がる。 本稿では,任意の深さのReLUニューラルネットワークに対して,スケールに不変な$\Phi(\theta)$を導入し,ネットワークの実現を局所的に線形パラメータ化する手法を提案する。 これら2つの重要な性質を利用すると、深いReLUネットワークが実際に局所的に特定できる条件は、サンプルの有限集合である$x_{i} \in \mathbb R^{d}$における実現の知識から導かれる。 浅層の場合をより深く研究し、有界部分集合 $\mathcal x \subseteq \mathbb r^{d}$ からネットワークを識別するための必要十分条件を確立する。

Neural networks with the Rectified Linear Unit (ReLU) nonlinearity are described by a vector of parameters $\theta$, and realized as a piecewise linear continuous function $R_{\theta}: x \in \mathbb R^{d} \mapsto R_{\theta}(x) \in \mathbb R^{k}$. Natural scalings and permutations operations on the parameters $\theta$ leave the realization unchanged, leading to equivalence classes of parameters that yield the same realization. These considerations in turn lead to the notion of identifiability -- the ability to recover (the equivalence class of) $\theta$ from the sole knowledge of its realization $R_{\theta}$. The overall objective of this paper is to introduce an embedding for ReLU neural networks of any depth, $\Phi(\theta)$, that is invariant to scalings and that provides a locally linear parameterization of the realization of the network. Leveraging these two key properties, we derive some conditions under which a deep ReLU network is indeed locally identifiable from the knowledge of the realization on a finite set of samples $x_{i} \in \mathbb R^{d}$. We study the shallow case in more depth, establishing necessary and sufficient conditions for the network to be identifiable from a bounded subset $\mathcal X \subseteq \mathbb R^{d}$.
翻訳日:2021-07-21 19:51:11 公開日:2021-07-20
# (参考訳) 血管画像再構成による糖尿病網膜症の自己改善ドメイン適応 [全文訳有]

Self-Supervised Domain Adaptation for Diabetic Retinopathy Grading using Vessel Image Reconstruction ( http://arxiv.org/abs/2107.09372v1 )

ライセンス: CC BY 4.0
Duy M. H. Nguyen, Truong T. N. Mai, Ngoc T. T. Than, Alexander Prange, Daniel Sonntag(参考訳) 本稿では,糖尿病網膜症(DR)グレーディングにおける領域適応の問題点について検討する。 医療領域知識に触発された網膜血管画像再構成に基づく新しい自己教師ありタスクを定義することで,不変な目標領域特徴を学習する。 そして、DR問題に対する最先端の教師なしドメイン適応手法のベンチマークを提供する。 私たちのアプローチは、既存のドメイン適応戦略よりも優れています。 さらに,対象領域内のトレーニングデータ全体を活用する場合,標準ネットワークアーキテクチャを適用し,画像レベルラベルを使用することで,最終的な分類精度において,いくつかの最先端手法と競合することができる。

This paper investigates the problem of domain adaptation for diabetic retinopathy (DR) grading. We learn invariant target-domain features by defining a novel self-supervised task based on retinal vessel image reconstructions, inspired by medical domain knowledge. Then, a benchmark of current state-of-the-art unsupervised domain adaptation methods on the DR problem is provided. It can be shown that our approach outperforms existing domain adaption strategies. Furthermore, when utilizing entire training data in the target domain, we are able to compete with several state-of-the-art approaches in final classification accuracy just by applying standard network architectures and using image-level labels.
翻訳日:2021-07-21 19:49:55 公開日:2021-07-20
# (参考訳) RankSRGAN: ランクを学習する超高分解能生成敵ネットワーク [全文訳有]

RankSRGAN: Super Resolution Generative Adversarial Networks with Learning to Rank ( http://arxiv.org/abs/2107.09427v1 )

ライセンス: CC BY 4.0
Wenlong Zhang, Yihao Liu, Chao Dong, Yu Qiao(参考訳) Generative Adversarial Networks (GAN)は、単一の画像超解像(SISR)の現実的な詳細を復元する可能性を実証している。 超解答結果の視覚的品質をさらに向上させるために、PIRM2018-SR Challengeでは、PI、NIQE、Maなどの知覚的品質を評価するために、知覚的指標を使用した。 しかし、既存の手法では、人間の評価と高い相関関係があることが示されるこれらの知覚的指標を直接最適化することはできない。 この問題に対処するために,RankSRGAN(RankSRGAN )を用いた超解法生成適応ネットワークを提案する。 具体的には、まず知覚指標の振る舞いを学習できるランチャーを訓練し、次に新しいランクコンテンツ損失を導入し、知覚品質を最適化する。 最も魅力的な点は、提案手法が異なるSR法の強度を組み合わせることでより良い結果が得られることである。 さらに,本手法を複数のランカに拡張して,ジェネレータの多次元制約を実現する。 広汎な実験により、RangSRGANは視覚的に満足な結果を達成し、知覚的指標と品質で最先端のパフォーマンスに達することが示されている。 プロジェクトページ:https://wenlongzhan g0517.github.io/Proj ects/RankSRGAN

Generative Adversarial Networks (GAN) have demonstrated the potential to recover realistic details for single image super-resolution (SISR). To further improve the visual quality of super-resolved results, PIRM2018-SR Challenge employed perceptual metrics to assess the perceptual quality, such as PI, NIQE, and Ma. However, existing methods cannot directly optimize these indifferentiable perceptual metrics, which are shown to be highly correlated with human ratings. To address the problem, we propose Super-Resolution Generative Adversarial Networks with Ranker (RankSRGAN) to optimize generator in the direction of different perceptual metrics. Specifically, we first train a Ranker which can learn the behaviour of perceptual metrics and then introduce a novel rank-content loss to optimize the perceptual quality. The most appealing part is that the proposed method can combine the strengths of different SR methods to generate better results. Furthermore, we extend our method to multiple Rankers to provide multi-dimension constraints for the generator. Extensive experiments show that RankSRGAN achieves visually pleasing results and reaches state-of-the-art performance in perceptual metrics and quality. Project page: https://wenlongzhang 0517.github.io/Proje cts/RankSRGAN
翻訳日:2021-07-21 19:38:32 公開日:2021-07-20
# (参考訳) ASR+TTS音声変換のための韻律モデルについて [全文訳有]

On Prosody Modeling for ASR+TTS based Voice Conversion ( http://arxiv.org/abs/2107.09477v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Tomoki Hayashi, Xinjian Li, Shinji Watanabe, Tomoki Toda(参考訳) 音声変換(VC)では、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチとして、まず、音声認識(ASR)モデルを使用して、元の音声を基礎となる言語内容に書き起こし、変換された音声を生成するためのテキスト音声合成(TTS)システムによって入力される。 このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。 一部の研究者はソース音声からの韻律的手がかりの伝達を検討したが、訓練と変換の間に話者の不一致が生じている。 この問題に対処するため,本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。 両手法をVCC2020ベンチマークで評価し,異なる言語表現を考察する。 その結果, 客観的および主観的評価におけるTTPの有効性が示された。

In voice conversion (VC), an approach showing promising results in the latest voice conversion challenge (VCC) 2020 is to first use an automatic speech recognition (ASR) model to transcribe the source speech into the underlying linguistic contents; these are then used as input by a text-to-speech (TTS) system to generate the converted speech. Such a paradigm, referred to as ASR+TTS, overlooks the modeling of prosody, which plays an important role in speech naturalness and conversion similarity. Although some researchers have considered transferring prosodic clues from the source speech, there arises a speaker mismatch during training and conversion. To address this issue, in this work, we propose to directly predict prosody from the linguistic representation in a target-speaker-depen dent manner, referred to as target text prediction (TTP). We evaluate both methods on the VCC2020 benchmark and consider different linguistic representations. The results demonstrate the effectiveness of TTP in both objective and subjective evaluations.
翻訳日:2021-07-21 18:57:13 公開日:2021-07-20
# (参考訳) ウェーブレットグラフニューラルネットワークによる有意な波高予測 [全文訳有]

Significant Wave Height Prediction based on Wavelet Graph Neural Network ( http://arxiv.org/abs/2107.09483v1 )

ライセンス: CC BY 4.0
Delong Chen, Fan Liu, Zheqi Zhang, Xiaomin Lu, Zewen Li(参考訳) 有意な波高(swh)予測のような計算知に基づく海洋特性予測応用は、沿岸都市における社会的・経済的損失の回避に不可欠である。 従来の経験に基づく予測モデルや数値ベースの予測モデルと比較すると、機械学習やディープラーニングモデルを含む「ソフトコンピューティング」アプローチは近年多くの成功を収めている。 本稿では、SWH予測のための短期的および長期的空間的依存関係の両方をディープラーニングモデルで学習可能にすることに焦点を当てる。 ウェーブレット変換とグラフニューラルネットワークの利点を統合するために、ウェーブレットグラフニューラルネットワーク(wgnn)アプローチが提案されている。 いくつかの並列グラフニューラルネットワークはウェーブレット分解データに基づいて個別に訓練され、各モデルの予測の再構築は最終的なSWH予測を形成する。 実験の結果,提案手法は数値モデル,機械学習モデル,深層学習モデルなど,他のモデルよりも優れていることがわかった。

Computational intelligence-based ocean characteristics forecasting applications, such as Significant Wave Height (SWH) prediction, are crucial for avoiding social and economic loss in coastal cities. Compared to the traditional empirical-based or numerical-based forecasting models, "soft computing" approaches, including machine learning and deep learning models, have shown numerous success in recent years. In this paper, we focus on enabling the deep learning model to learn both short-term and long-term spatial-temporal dependencies for SWH prediction. A Wavelet Graph Neural Network (WGNN) approach is proposed to integrate the advantages of wavelet transform and graph neural network. Several parallel graph neural networks are separately trained on wavelet decomposed data, and the reconstruction of each model's prediction forms the final SWH prediction. Experimental results show that the proposed WGNN approach outperforms other models, including the numerical models, the machine learning models, and several deep learning models.
翻訳日:2021-07-21 18:42:23 公開日:2021-07-20
# (参考訳) 初対人視点におけるリワード対象の批判的指導的セグメンテーション [全文訳有]

Critic Guided Segmentation of Rewarding Objects in First-Person Views ( http://arxiv.org/abs/2107.09540v1 )

ライセンス: CC BY 4.0
Andrew Melnik, Augustin Harter, Christian Limberg, Krishan Rana, Niko Suenderhauf, Helge Ritter(参考訳) 本研究は、模倣学習データセットからのスパース報奨信号を用いて画像中のオブジェクトをマスキングする学習手法について述べる。 そのため、批判モデルからのフィードバックのみを用いて、Hourglassネットワークをトレーニングする。 砂時計ネットワークは、この2つの画像間のマスク領域を交換することにより、高得点画像の批評家のスコアを下げ、低スコア画像の批評家のスコアを増加させるマスクの作成を学習する。 我々は、このモデルをNeurIPS 2020 MineRL Competition Trackから模擬学習データセットでトレーニングした。 このアプローチは、この競争で1位を獲得したソリューションのひとつでした。 ビデオデモとコード: https://rebrand.ly/c ritic-guided-segment ation

This work discusses a learning approach to mask rewarding objects in images using sparse reward signals from an imitation learning dataset. For that, we train an Hourglass network using only feedback from a critic model. The Hourglass network learns to produce a mask to decrease the critic's score of a high score image and increase the critic's score of a low score image by swapping the masked areas between these two images. We trained the model on an imitation learning dataset from the NeurIPS 2020 MineRL Competition Track, where our model learned to mask rewarding objects in a complex interactive 3D environment with a sparse reward signal. This approach was part of the 1st place winning solution in this competition. Video demonstration and code: https://rebrand.ly/c ritic-guided-segment ation
翻訳日:2021-07-21 18:32:00 公開日:2021-07-20
# (参考訳) 条件付き自動走行におけるドライバの乗っ取り時間予測 [全文訳有]

Predicting Driver Takeover Time in Conditionally Automated Driving ( http://arxiv.org/abs/2107.09545v1 )

ライセンス: CC BY 4.0
Jackie Ayoub, Na Du, X. Jessie Yang, Feng Zhou(参考訳) 条件付き自動運転において安全な乗っ取り遷移を確保することは極めて重要である。 安全な乗っ取り遷移を定量化する重要な要因の1つは、乗っ取り時間である。 これまでの研究では、乗っ取りリードタイム、非運転タスク、乗っ取り要求のモダリティ(tor)、シナリオ緊急性など、多くの要因が乗っ取り時間に与える影響が特定されている。 しかし、これらの要因を全て同時に考慮し、テイクオーバ時間を予測する研究は欠如している。 この目的に向けて,メタ分析研究から得られたデータセットを用いて,eXtreme Gradient Boosting (XGBoost) を用いてテイクオーバー時間の予測を行った。 さらに、SHAP(SHapley Additive exPlanation)を用いて、予測器が乗っ取り時間に与える影響を分析し、説明した。 最高の予測性能をもたらす7つの重要な予測因子を特定した。 テイクオーバー時間に対する主な効果と相互作用効果を検討した。 その結果,提案手法は優れた性能と説明可能性を示した。 本研究は,ドライバーと自動走行車とのインタラクションを促進するため,車内監視・警報システムの設計に影響を及ぼす。

It is extremely important to ensure a safe takeover transition in conditionally automated driving. One of the critical factors that quantifies the safe takeover transition is takeover time. Previous studies identified the effects of many factors on takeover time, such as takeover lead time, non-driving tasks, modalities of the takeover requests (TORs), and scenario urgency. However, there is a lack of research to predict takeover time by considering these factors all at the same time. Toward this end, we used eXtreme Gradient Boosting (XGBoost) to predict the takeover time using a dataset from a meta-analysis study [1]. In addition, we used SHAP (SHapley Additive exPlanation) to analyze and explain the effects of the predictors on takeover time. We identified seven most critical predictors that resulted in the best prediction performance. Their main effects and interaction effects on takeover time were examined. The results showed that the proposed approach provided both good performance and explainability. Our findings have implications on the design of in-vehicle monitoring and alert systems to facilitate the interaction between the drivers and the automated vehicle.
翻訳日:2021-07-21 18:22:28 公開日:2021-07-20
# (参考訳) 道路網におけるリカレント混雑のトポロジ的依存性 [全文訳有]

Mining Topological Dependencies of Recurrent Congestion in Road Networks ( http://arxiv.org/abs/2107.09554v1 )

ライセンス: CC BY 4.0
Nicolas Tempelmeier, Udo Feuerhake, Oskar Wage, Elena Demidova(参考訳) リカレント・コンジェクション(RC)パターンを引き起こす都市道路網内の時空間依存性の発見は、都市計画や公共交通サービスのスケジューリングなど、多くの現実の応用に不可欠である。 多くの既存研究はrc現象の時間的パターンを調査しているが、rcに対する道路網トポロジーの影響はしばしば見過ごされている。 本稿では,道路ネットワークのトポロジによって引き起こされるRC依存の効率的なデータ駆動的発見を容易にする,新しい教師なし時空間データマイニングアルゴリズムST-Discoveryを提案する。 我々は,時間外負荷の変動をモデル化し,系統的に利用することにより,ラッシュ時などの交通現象を昼行に起因させる。 本稿では,交通速度のアウトレイラに基づいて,まず道路網の連結部分グラフを構成するアルゴリズムを提案する。 第2に,トラヒックロード行動における時空間相関を示すサブグラフのペアを同定し,道路網内のトポロジカル依存性を同定する。 最後に,アルゴリズムによって決定される依存性スコアに基づいて,同定されたサブグラフペアをランク付けする。 実験の結果,ST-Discoveryは都市道路網のトポロジ的依存関係を効果的に明らかにできることがわかった。

The discovery of spatio-temporal dependencies within urban road networks that cause Recurrent Congestion (RC) patterns is crucial for numerous real-world applications, including urban planning and scheduling of public transportation services. While most existing studies investigate temporal patterns of RC phenomena, the influence of the road network topology on RC is often overlooked. This article proposes the ST-Discovery algorithm, a novel unsupervised spatio-temporal data mining algorithm that facilitates the effective data-driven discovery of RC dependencies induced by the road network topology using real-world traffic data. We factor out regularly reoccurring traffic phenomena, such as rush hours, mainly induced by the daytime, by modelling and systematically exploiting temporal traffic load outliers. We present an algorithm that first constructs connected subgraphs of the road network based on the traffic speed outliers. Second, the algorithm identifies pairs of subgraphs that indicate spatio-temporal correlations in their traffic load behaviour to identify topological dependencies within the road network. Finally, we rank the identified subgraph pairs based on the dependency score determined by our algorithm. Our experimental results demonstrate that ST-Discovery can effectively reveal topological dependencies in urban road networks.
翻訳日:2021-07-21 18:00:20 公開日:2021-07-20
# (参考訳) 微分可能なグラフ変換を用いた意味推論 [全文訳有]

Semantic Reasoning with Differentiable Graph Transformations ( http://arxiv.org/abs/2107.09579v1 )

ライセンス: CC BY 4.0
Alberto Cetoli(参考訳) 本稿では,ルールを関連するグラフ変換の集合として提示する,微分可能な意味推論を提案する。 これらのルールは手作業で記述したり、トレーニングセットとして提示される一連の事実や目標によって推測することができる。 内部表現は潜在空間への埋め込みを用いるが、各規則は記述論理のサブセットに準拠した述語の集合として表現することができる。

This paper introduces a differentiable semantic reasoner, where rules are presented as a relevant set of graph transformations. These rules can be written manually or inferred by a set of facts and goals presented as a training set. While the internal representation uses embeddings in a latent space, each rule can be expressed as a set of predicates conforming to a subset of Description Logic.
翻訳日:2021-07-21 17:42:39 公開日:2021-07-20
# (参考訳) 視覚・触覚からのアクティブ3次元形状復元 [全文訳有]

Active 3D Shape Reconstruction from Vision and Touch ( http://arxiv.org/abs/2107.09584v1 )

ライセンス: CC BY 4.0
Edward J. Smith and David Meger and Luis Pineda and Roberto Calandra and Jitendra Malik and Adriana Romero and Michal Drozdzal(参考訳) 人間は、視覚と触覚を融合して、活発な物体探索を通じて世界の3D理解を構築する。 しかし、3次元形状復元では、最新の進歩はRGB画像、深度マップ、触覚読影などの限られた感覚データの静的データセットに依存しており、形状の活発な探索はほとんど探索されていない。 3次元再構成のためのアクティブタッチセンシングでは,形状復元精度の向上を最大化する触覚読み取りを積極的に選択することが目的である。 しかし、深層学習に基づくアクティブタッチモデルの開発は、形状探索のためのフレームワークの欠如により、ほとんど制限されている。 本稿では,(1)高空間分解能視覚に基づく触覚センサを用いた3次元物体の能動接触を利用した触覚シミュレータ,2)触覚信号や振動信号に依存するメッシュ型3次元形状再構成モデル,3)触覚と振動のどちらかの先行したデータ駆動型解の組による形状探索を行うシステムについて紹介する。 私たちのフレームワークは、オブジェクト理解のための学習モデルの上に、アクティブタッチのための最初の完全なデータ駆動ソリューションの開発を可能にします。 実験では, モデルが自然なベースラインを常に上回る3次元形状理解の課題において, このような解の利点を示す。 この方向への今後の研究を促進するためのツールとして,我々のフレームワークを提供する。

Humans build 3D understandings of the world through active object exploration, using jointly their senses of vision and touch. However, in 3D shape reconstruction, most recent progress has relied on static datasets of limited sensory data such as RGB images, depth maps or haptic readings, leaving the active exploration of the shape largely unexplored. In active touch sensing for 3D reconstruction, the goal is to actively select the tactile readings that maximize the improvement in shape reconstruction accuracy. However, the development of deep learning-based active touch models is largely limited by the lack of frameworks for shape exploration. In this paper, we focus on this problem and introduce a system composed of: 1) a haptic simulator leveraging high spatial resolution vision-based tactile sensors for active touching of 3D objects; 2) a mesh-based 3D shape reconstruction model that relies on tactile or visuotactile signals; and 3) a set of data-driven solutions with either tactile or visuotactile priors to guide the shape exploration. Our framework enables the development of the first fully data-driven solutions to active touch on top of learned models for object understanding. Our experiments show the benefits of such solutions in the task of 3D shape understanding where our models consistently outperform natural baselines. We provide our framework as a tool to foster future research in this direction.
翻訳日:2021-07-21 17:36:00 公開日:2021-07-20
# (参考訳) 幾何パラメータを持つ乱流のハイブリッドニューラルネットワークによる減次モデリング [全文訳有]

Hybrid neural network reduced order modelling for turbulent flows with geometric parameters ( http://arxiv.org/abs/2107.09591v1 )

ライセンス: CC BY 4.0
Matteo Zancanaro, Markus Mrosek, Giovanni Stabile, Carsten Othmer, Gianluigi Rozza(参考訳) 幾何学的にパラメータ化された部分微分方程式は、例えば、形状最適化プロセスや患者固有の手術研究など、多くの異なる分野で広く使われている。 この研究の焦点は、このトピックのいくつかの進歩であり、高いコスト対効果比のパフォーマンスに依存しながら、以前のアプローチに対する精度を高めることができる。 本稿では,従来のガレルキン射影法とデータ駆動法を融合して,幾何学的にパラメトリ化された非圧縮性乱流ストークス問題の解法について,汎用的かつ高精度なアルゴリズムを提案する。 本手法の有効性は,古典的学術的バックステップ問題と形状変形ahmed本体応用という2つの異なるテストケースで実証された。 結果は、この作業の今後の展望を明らかにしながら、私たちが開発したアーキテクチャの特性を詳細に示しています。

Geometrically parametrized Partial Differential Equations are nowadays widely used in many different fields as, for example, shape optimization processes or patient specific surgery studies. The focus of this work is on some advances for this topic, capable of increasing the accuracy with respect to previous approaches while relying on a high cost-benefit ratio performance. The main scope of this paper is the introduction of a new technique mixing up a classical Galerkin-projection approach together with a data-driven method to obtain a versatile and accurate algorithm for the resolution of geometrically parametrized incompressible turbulent Navier-Stokes problems. The effectiveness of this procedure is demonstrated on two different test cases: a classical academic back step problem and a shape deformation Ahmed body application. The results show into details the properties of the architecture we developed while exposing possible future perspectives for this work.
翻訳日:2021-07-21 17:09:32 公開日:2021-07-20
# (参考訳) 外部負担を伴わない強化学習におけるAltruistic Behavioursの学習 [全文訳有]

Learning Altruistic Behaviours in Reinforcement Learning without External Rewards ( http://arxiv.org/abs/2107.09598v1 )

ライセンス: CC BY 4.0
Tim Franzmeyer, Mateusz Malinowski and Jo\~ao F. Henriques(参考訳) 人工エージェントは、その目標が何であるかを知らずに、他の人の目標達成を支援することができるのか? ジェネリック強化学習エージェントは、利他的な行動、すなわち与えられた状況において他のエージェントに利益を与えることで、他人に対して利他的な行動をとるように訓練することができる。 このようなアプローチは、他のエージェントの目標が知られ、利他的なエージェントがその目標を達成するために協力できると仮定する。 しかし、他のエージェントの目標を明確に把握することはしばしば困難である。 そのような知識が与えられたとしても、利他的エージェントの訓練は、新しい環境ごとに手動で調整された外部報酬を必要とする。 したがって、外部の監督に依存しず、タスク非依存の方法で利他的行動を学ぶことができるエージェントを開発することは有益である。 他のエージェントが合理的に目標を追求すると仮定すると、より多くの選択肢を与えることで、それらの目標をよりよく追求できると仮定します。 具体的な例としては、他人の扉を開けたり、干渉せずに目的を追求するために彼らを保護することが挙げられる。 我々は、この概念を定式化し、他のエージェントが将来到達できる状態の数を最大化することで、他のエージェントが持つ選択を増やすことを学ぶ利他的エージェントを提案する。 我々は,他エージェントの成功が利他的エージェントの行動に依存する3つの異なるマルチエージェント環境に対するアプローチを評価する。 最後に,監視されていないエージェントは,協調的に働くように明示的に訓練されたエージェントと互換性があることを示す。 エージェントが監督されたエージェントよりも優れている場合もあります。

Can artificial agents learn to assist others in achieving their goals without knowing what those goals are? Generic reinforcement learning agents could be trained to behave altruistically towards others by rewarding them for altruistic behaviour, i.e., rewarding them for benefiting other agents in a given situation. Such an approach assumes that other agents' goals are known so that the altruistic agent can cooperate in achieving those goals. However, explicit knowledge of other agents' goals is often difficult to acquire. Even assuming such knowledge to be given, training of altruistic agents would require manually-tuned external rewards for each new environment. Thus, it is beneficial to develop agents that do not depend on external supervision and can learn altruistic behaviour in a task-agnostic manner. Assuming that other agents rationally pursue their goals, we hypothesize that giving them more choices will allow them to pursue those goals better. Some concrete examples include opening a door for others or safeguarding them to pursue their objectives without interference. We formalize this concept and propose an altruistic agent that learns to increase the choices another agent has by maximizing the number of states that the other agent can reach in its future. We evaluate our approach on three different multi-agent environments where another agent's success depends on the altruistic agent's behaviour. Finally, we show that our unsupervised agents can perform comparably to agents explicitly trained to work cooperatively. In some cases, our agents can even outperform the supervised ones.
翻訳日:2021-07-21 16:51:18 公開日:2021-07-20
# (参考訳) パラメータは? ありがたい! [全文訳有]

More Parameters? No Thanks! ( http://arxiv.org/abs/2107.09622v1 )

ライセンス: CC BY 4.0
Zeeshan Khan, Kartheek Akella, Vinay P. Namboodiri, C V Jawahar(参考訳) 本研究では,多言語ニューラルマシン翻訳mnmtにおけるモデル容量と負の干渉の長期的問題について検討する。 ネットワークプルーニング手法を用いて,訓練したmnmtモデルから50~70%のパラメータをプルーニングした結果,bleuスコアが0.29-1.98に低下することを確認した。 MNMTモデルにも大きな冗長性が存在することを示唆する。 これらの観察は、冗長なパラメータを使用し、干渉問題に効率的に対処する動機となる。 我々は,MNMTの冗長パラメータを反復的に訓練し,多言語性を維持しながらバイリンガル表現を改善する新しい適応戦略を提案する。 負の干渉は高い資源言語に大きく影響し、我々の手法は追加のアダプタモジュールを使わずにそれを緩和する。 したがって、パラメータフリー適応戦略と呼び、MNMTの効率よく適応する方法を舗装する。 TEDトークで訓練した9言語 MNMT における本手法の有効性を実証し,高資源対における +1.36 BLEU の平均的改善を報告する。 コードはここでリリースされる。

This work studies the long-standing problems of model capacity and negative interference in multilingual neural machine translation MNMT. We use network pruning techniques and observe that pruning 50-70% of the parameters from a trained MNMT model results only in a 0.29-1.98 drop in the BLEU score. Suggesting that there exist large redundancies even in MNMT models. These observations motivate us to use the redundant parameters and counter the interference problem efficiently. We propose a novel adaptation strategy, where we iteratively prune and retrain the redundant parameters of an MNMT to improve bilingual representations while retaining the multilinguality. Negative interference severely affects high resource languages, and our method alleviates it without any additional adapter modules. Hence, we call it parameter-free adaptation strategy, paving way for the efficient adaptation of MNMT. We demonstrate the effectiveness of our method on a 9 language MNMT trained on TED talks, and report an average improvement of +1.36 BLEU on high resource pairs. Code will be released here.
翻訳日:2021-07-21 16:29:16 公開日:2021-07-20
# (参考訳) saliency for free: saliency prediction as a side- effects of object recognition (特集:人工知能) [全文訳有]

Saliency for free: Saliency prediction as a side-effect of object recognition ( http://arxiv.org/abs/2107.09628v1 )

ライセンス: CC BY 4.0
Carola Figueroa-Flores, David Berga, Joost van der Weijer and Bogdan Raducanu(参考訳) 正当性は視覚系の知覚能力であり、注意を集中する能力である。 関連する物体を見てください サリエンシ推定のためのニューラルネットワークは、通常、アイトラッキング実験によって達成されるトレーニングのための地上の真理サリエンシマップを必要とする。 本論文では,サリエンシマップが,サリエンシブランチを付与した物体認識深層ニューラルネットワークの学習の副作用として生成できることを実証する。 実データと合成データの両方で実施した大規模な実験により,本手法が真理データを必要とする手法と比較して,合成データと実データの両方で競合する結果が得られることが示された。

Saliency is the perceptual capacity of our visual system to focus our attention (i.e. gaze) on relevant objects. Neural networks for saliency estimation require ground truth saliency maps for training which are usually achieved via eyetracking experiments. In the current paper, we demonstrate that saliency maps can be generated as a side-effect of training an object recognition deep neural network that is endowed with a saliency branch. Such a network does not require any ground-truth saliency maps for training.Extensive experiments carried out on both real and synthetic saliency datasets demonstrate that our approach is able to generate accurate saliency maps, achieving competitive results on both synthetic and real datasets when compared to methods that do require ground truth data.
翻訳日:2021-07-21 16:19:08 公開日:2021-07-20
# (参考訳) なぜトランスフォーマーはN400振幅を予測するのにRNNより優れているのか? [全文訳有]

Different kinds of cognitive plausibility: why are transformers better than RNNs at predicting N400 amplitude? ( http://arxiv.org/abs/2107.09648v1 )

ライセンス: CC BY 4.0
James A. Michaelov, Megan D. Bardolph, Seana Coulson, Benjamin K. Bergen(参考訳) 認知的妥当性よりもパフォーマンスのために設計されたにもかかわらず、トランスフォーマー言語モデルは、リカレントニューラルネットワークのような他のアーキテクチャの言語モデルよりも、人間の言語理解を評価するのに使用されるメトリクスを予測するのに優れていることが判明した。 処理困難に関連する神経信号であるn400の予測の程度に基づいて,その予測は,人間の意味的ファシリテーションの効果に類似した方法で,先行する文脈によって影響を受けるという,一つの説明の証拠を提示し,提示する。

Despite being designed for performance rather than cognitive plausibility, transformer language models have been found to be better at predicting metrics used to assess human language comprehension than language models with other architectures, such as recurrent neural networks. Based on how well they predict the N400, a neural signal associated with processing difficulty, we propose and provide evidence for one possible explanation - their predictions are affected by the preceding context in a way analogous to the effect of semantic facilitation in humans.
翻訳日:2021-07-21 16:04:38 公開日:2021-07-20
# (参考訳) 重尾誤差の存在下でのランク1スパイクテンソルの推定について

On Estimating Rank-One Spiked Tensors in the Presence of Heavy Tailed Errors ( http://arxiv.org/abs/2107.09660v1 )

ライセンス: CC BY 4.0
Arnab Auddy and Ming Yuan(参考訳) 本稿では,重く尾部ノイズの存在下でのランク1スパイクテンソルの推定について検討する。 以上の結果から,重み付きおよびガウス雑音下での統計的および計算効率のトレードオフの基本的な類似点と相違点が明らかになった。 特に、$p$ th のテンソルに対して、ノイズが 4(p-1)$ th のモーメントで有限であるとき、トレードオフはガウスケースと同一の方法で現れることを示す。 信号強度の要件の差は、計算の制約の有無にかかわらず、特異ベクトルを最適速度で推定することであり、興味深いことに、ノイズが有限の4モーメントしか持たない場合、より重いテールのノイズは狭くなり消滅する。 さらに、ノイズが第4モーメント以下である場合、おそらく最も自然なアプローチであるテンソルsvdは、計算上難解であるにもかかわらず、準最適である。 本分析では,ランクワンスパイクの推定と,iidエントリを持つランダムテンソルのスペクトルノルムとの密接な関係を利用した。 特に、ランダムテンソルのスペクトルノルムの順序は、そのエントリのモーメントによって正確に特徴づけられ、ランダム行列に対する古典結果の一般化が示されている。 理論的な保証に加えて, 実装が容易で, 実行が容易な重尾構造の推定手順を提案する。 数値実験は,その実用性を示すものである。

In this paper, we study the estimation of a rank-one spiked tensor in the presence of heavy tailed noise. Our results highlight some of the fundamental similarities and differences in the tradeoff between statistical and computational efficiencies under heavy tailed and Gaussian noise. In particular, we show that, for $p$ th order tensors, the tradeoff manifests in an identical fashion as the Gaussian case when the noise has finite $4(p-1)$ th moment. The difference in signal strength requirements, with or without computational constraints, for us to estimate the singular vectors at the optimal rate, interestingly, narrows for noise with heavier tails and vanishes when the noise only has finite fourth moment. Moreover, if the noise has less than fourth moment, tensor SVD, perhaps the most natural approach, is suboptimal even though it is computationally intractable. Our analysis exploits a close connection between estimating the rank-one spikes and the spectral norm of a random tensor with iid entries. In particular, we show that the order of the spectral norm of a random tensor can be precisely characterized by the moment of its entries, generalizing classical results for random matrices. In addition to the theoretical guarantees, we propose estimation procedures for the heavy tailed regime, which are easy to implement and efficient to run. Numerical experiments are presented to demonstrate their practical merits.
翻訳日:2021-07-21 15:51:15 公開日:2021-07-20
# (参考訳) Learn2Hop: ラフランドスケープの最適化を学ぶ [全文訳有]

Learn2Hop: Learned Optimization on Rough Landscapes ( http://arxiv.org/abs/2107.09661v1 )

ライセンス: CC BY 4.0
Amil Merchant, Luke Metz, Sam Schoenholz, Ekin Dogus Cubuk(参考訳) 多くの局所ミニマを含む非凸損失面の最適化は、操作研究、情報学、材料設計を含む様々な領域において重要な問題である。 しかし、現在のテクニックは、非常に高いイテレーション数を必要とするか、良いパフォーマンスのために大量のランダムな再起動を必要とする。 本研究では,様々なロスランドスケープに対する最適化アルゴリズムを学習することにより,メタラーニングの最近の発展を,これらの多最小問題に適応させる手法を提案する。 重金属クラスターや不規則シリコンなどの広く研究されているモデルを含む多原子系の低エネルギー構成を探索する原子構造最適化の問題に焦点をあてる。 最適化器は効率的な探索を可能にし、低エネルギーのミニマディスカバリの速度を向上させる「ホッピング」挙動を学習する。 最後に、学習したオプティマイザは、前例のないタスク(例えば、)において、効率向上を伴う有望な一般化を示す。 新たな要素や構成)。 コードは間もなく利用可能になる。

Optimization of non-convex loss surfaces containing many local minima remains a critical problem in a variety of domains, including operations research, informatics, and material design. Yet, current techniques either require extremely high iteration counts or a large number of random restarts for good performance. In this work, we propose adapting recent developments in meta-learning to these many-minima problems by learning the optimization algorithm for various loss landscapes. We focus on problems from atomic structural optimization--findin g low energy configurations of many-atom systems--including widely studied models such as bimetallic clusters and disordered silicon. We find that our optimizer learns a 'hopping' behavior which enables efficient exploration and improves the rate of low energy minima discovery. Finally, our learned optimizers show promising generalization with efficiency gains on never before seen tasks (e.g. new elements or compositions). Code will be made available shortly.
翻訳日:2021-07-21 15:50:06 公開日:2021-07-20
# QVHighlights: 自然言語クエリによる動画のモーメントとハイライトの検出

QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries ( http://arxiv.org/abs/2107.09609v1 )

ライセンス: Link先を確認
Jie Lei, Tamara L. Berg, Mohit Bansal(参考訳) 自然言語(NL)ユーザクエリを指定したビデオから、カスタマイズされたモーメントとハイライトを検出することは、重要だが未調査のトピックである。 この方向を追求する上での課題のひとつは、注釈付きデータの欠如である。 この問題に対処するため、クエリベースのビデオハイライト(QVHighlights)データセットを提示する。 youtubeビデオは1万本以上あり、日常的な活動からライフスタイルvlogビデオでの旅行、ニュースビデオの社会的・政治的活動まで、幅広いトピックをカバーしている。 データセット内の各ビデオには、(1)人書きの自由形式のnlクエリ、(2)ビデオw.r.tの関連モーメントがアノテートされる。 クエリ、(3)全てのクエリ関連クリップに対する5ポイントスケールのサリエンシスコア。 この包括的なアノテーションにより、関連するモーメントを検知するシステムを開発し、評価し、多様なフレキシブルなユーザクエリに対して適切なハイライトを提供する。 また,モーメント検索を直接集合予測問題として捉え,抽出したビデオとクエリの表現を入力とし,モーメント座標とサリエンシースコアをエンドツーエンドで予測するトランスフォーマエンコーダ・デコーダモデルであるmoment-detrを提案する。 提案モデルでは, 先行技術は使用していないが, 優れたアーキテクチャと比較して, 競争力のある性能を示す。 ASRキャプションを用いた弱い教師付きプレトレーニングにより、Moment-DETRは従来の方法よりも大幅に優れていた。 最後に,Moment-DETRの短縮と可視化について述べる。 データとコードはhttps://github.com/j ayleicn/moment_detrで公開されている。

Detecting customized moments and highlights from videos given natural language (NL) user queries is an important but under-studied topic. One of the challenges in pursuing this direction is the lack of annotated data. To address this issue, we present the Query-based Video Highlights (QVHighlights) dataset. It consists of over 10,000 YouTube videos, covering a wide range of topics, from everyday activities and travel in lifestyle vlog videos to social and political activities in news videos. Each video in the dataset is annotated with: (1) a human-written free-form NL query, (2) relevant moments in the video w.r.t. the query, and (3) five-point scale saliency scores for all query-relevant clips. This comprehensive annotation enables us to develop and evaluate systems that detect relevant moments as well as salient highlights for diverse, flexible user queries. We also present a strong baseline for this task, Moment-DETR, a transformer encoder-decoder model that views moment retrieval as a direct set prediction problem, taking extracted video and query representations as inputs and predicting moment coordinates and saliency scores end-to-end. While our model does not utilize any human prior, we show that it performs competitively when compared to well-engineered architectures. With weakly supervised pretraining using ASR captions, Moment-DETR substantially outperforms previous methods. Lastly, we present several ablations and visualizations of Moment-DETR. Data and code is publicly available at https://github.com/j ayleicn/moment_detr
翻訳日:2021-07-21 15:13:24 公開日:2021-07-20
# 生成ビデオトランスフォーマー: オブジェクトは単語になるのか?

Generative Video Transformer: Can Objects be the Words? ( http://arxiv.org/abs/2107.09240v1 )

ライセンス: Link先を確認
Yi-Fu Wu, Jaesik Yoon, Sungjin Ahn(参考訳) トランスフォーマーは多くの自然言語処理タスクで成功している。 しかし,映像領域への変換器の適用は,計算の複雑さや自然なトークン化の欠如が原因で,長期的な映像生成やシーン理解といったタスクに引き続き適用されてきた。 本稿では、オブジェクト中心のアプローチを用いてシーンを生成ビデオ変換器に用いるのに適したトークンに分解するオブジェクト中心ビデオ変換器(OCVT)を提案する。 映像をオブジェクトに分解することで、シーン内の複数の対話オブジェクトの複雑な時空間ダイナミクスを学習し、将来のビデオフレームを生成することができる。 私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。 我々は、従来のRNNベースのアプローチや、他のビデオトランスフォーマーベースラインと比較する。 我々は,将来のフレーム生成におけるベースラインと比較して,OCVTの性能を実証する。 OCVTはビデオ推論に有用な表現も開発し、CATERタスクで最先端のパフォーマンスを実現する。

Transformers have been successful for many natural language processing tasks. However, applying transformers to the video domain for tasks such as long-term video generation and scene understanding has remained elusive due to the high computational complexity and the lack of natural tokenization. In this paper, we propose the Object-Centric Video Transformer (OCVT) which utilizes an object-centric approach for decomposing scenes into tokens suitable for use in a generative video transformer. By factoring the video into objects, our fully unsupervised model is able to learn complex spatio-temporal dynamics of multiple interacting objects in a scene and generate future frames of the video. Our model is also significantly more memory-efficient than pixel-based models and thus able to train on videos of length up to 70 frames with a single 48GB GPU. We compare our model with previous RNN-based approaches as well as other possible video transformer baselines. We demonstrate OCVT performs well when compared to baselines in generating future frames. OCVT also develops useful representations for video reasoning, achieving start-of-the-art performance on the CATER task.
翻訳日:2021-07-21 15:12:23 公開日:2021-07-20
# GNNと自己スーパービジョンを用いた大規模グラフ表現学習

Large-scale graph representation learning with very deep GNNs and self-supervision ( http://arxiv.org/abs/2107.09422v1 )

ライセンス: Link先を確認
Ravichandra Addanki, Peter W. Battaglia, David Budden, Andreea Deac, Jonathan Godwin, Thomas Keck, Wai Lok Sibon Li, Alvaro Sanchez-Gonzalez, Jacklynn Stott, Shantanu Thakoor, Petar Veli\v{c}kovi\'c(参考訳) グラフニューラルネットワーク(GNN)を大規模に効果的かつ効率的にデプロイすることは、グラフ表現学習の最も難しい側面の1つである。 多くの強力なソリューションは、比較的小さなデータセットでのみ検証されており、多くの場合、反直感的な結果を伴う。 OGB-LSCにはブートストレッピングを利用したディープトランスダクティブノード分類器と,デノベーション目的によって正規化された非常にディープ(最大50層)インダクティブグラフ回帰器の2つの大規模GNNが組み込まれている。 我々のモデルはMAG240MとPCQM4Mのベンチマークでアワードレベル(トップ3)のパフォーマンスを達成した。 そうすることで、スケーラブルな自己教師付きグラフ表現学習の証拠と、非常に深いGNNの有用性が示されます。 私たちのコードは、https://github.com/d eepmind/deepmind-res earch/tree/master/og b_lscで公開されています。

Effectively and efficiently deploying graph neural networks (GNNs) at scale remains one of the most challenging aspects of graph representation learning. Many powerful solutions have only ever been validated on comparatively small datasets, often with counter-intuitive outcomes -- a barrier which has been broken by the Open Graph Benchmark Large-Scale Challenge (OGB-LSC). We entered the OGB-LSC with two large-scale GNNs: a deep transductive node classifier powered by bootstrapping, and a very deep (up to 50-layer) inductive graph regressor regularised by denoising objectives. Our models achieved an award-level (top-3) performance on both the MAG240M and PCQM4M benchmarks. In doing so, we demonstrate evidence of scalable self-supervised graph representation learning, and utility of very deep GNNs -- both very important open issues. Our code is publicly available at: https://github.com/d eepmind/deepmind-res earch/tree/master/og b_lsc.
翻訳日:2021-07-21 15:12:05 公開日:2021-07-20
# ロバストネス向上のための組込み弾性変換

Built-in Elastic Transformations for Improved Robustness ( http://arxiv.org/abs/2107.09391v1 )

ライセンス: Link先を確認
Sadaf Gulshad, Ivan Sosnovik, Arnold Smeulders(参考訳) 神経視覚分類器の畳み込みにおける堅牢性の構築,特に弾性変形,閉塞,ガウス雑音などの自然摂動に対して着目する。 既存のCNNはクリーンな画像に優れた性能を示すが、自然に発生する摂動に対処することができない。 本稿では,物体の(局所的な)視点変化を近似した弾性摂動から始める。 固定弾性摂動基底関数とトレーニング可能な重みを組み合わせたパラメータ化フィルタを用いて,CNNにおける見知らぬ視点の統合を目的とした弾性増強畳み込み(EAConv)を提案する。 また,cifar-10およびstl-10データセットでは,不知覚咬合およびガウス摂動の一般的なロバスト性が向上し,データ拡張を行わずにクリーン画像の性能がわずかに向上することを示した。

We focus on building robustness in the convolutions of neural visual classifiers, especially against natural perturbations like elastic deformations, occlusions and Gaussian noise. Existing CNNs show outstanding performance on clean images, but fail to tackle naturally occurring perturbations. In this paper, we start from elastic perturbations, which approximate (local) view-point changes of the object. We present elastically-augmente d convolutions (EAConv) by parameterizing filters as a combination of fixed elastically-perturbe d bases functions and trainable weights for the purpose of integrating unseen viewpoints in the CNN. We show on CIFAR-10 and STL-10 datasets that the general robustness of our method on unseen occlusion and Gaussian perturbations improves, while even improving the performance on clean images slightly without performing any data augmentation.
翻訳日:2021-07-21 15:11:46 公開日:2021-07-20
# オープンな問題: オンライン学習がいつ可能かを学ぶオンライン学習アルゴリズムはあるか?

Open Problem: Is There an Online Learning Algorithm That Learns Whenever Online Learning Is Possible? ( http://arxiv.org/abs/2107.09542v1 )

ライセンス: Link先を確認
Steve Hanneke(参考訳) このオープン問題は、(おそらくランダムな)点 x の列がその列に対してそのような学習アルゴリズムが存在することを前提として、すべての対象概念に対して、誤りのサブ線形数を保証できるバイナリ分類のためのオンライン学習アルゴリズムが存在するかどうかを問うものである。 二次問題として、特定の簡潔な条件が、与えられた(おそらくランダムな)点 x の列が、すべての対象概念に対する部分線形誤り数を保証するオンライン学習アルゴリズムの存在を認めるかどうかを完全に決定するかどうかを問う。

This open problem asks whether there exists an online learning algorithm for binary classification that guarantees, for all target concepts, to make a sublinear number of mistakes, under only the assumption that the (possibly random) sequence of points X allows that such a learning algorithm can exist for that sequence. As a secondary problem, it also asks whether a specific concise condition completely determines whether a given (possibly random) sequence of points X admits the existence of online learning algorithms guaranteeing a sublinear number of mistakes for all target concepts.
翻訳日:2021-07-21 15:11:34 公開日:2021-07-20
# WikiGraphs:ウィキペディアのテキスト - 知識グラフペア付きデータセット

WikiGraphs: A Wikipedia Text - Knowledge Graph Paired Dataset ( http://arxiv.org/abs/2107.09556v1 )

ライセンス: Link先を確認
Luyu Wang, Yujia Li, Ozlem Aslan, Oriol Vinyals(参考訳) 本稿では,知識グラフと組み合わせたウィキペディア記事のデータセットを新たに提示し,条件付きテキスト生成,グラフ生成,グラフ表現学習の研究を容易にする。 既存のグラフテキストペアデータセットは、通常、小さなグラフと短いテキスト(1または少数の文)を含んでいるため、データで学習できるモデルの能力を制限することができる。 我々の新しいデータセットWikiGraphsは、確立されたWikiText-103ベンチマーク(Merity et al., 2016)の各Wikipedia記事とFreebaseナレッジグラフ(Bollacker et al., 2008)のサブグラフをペアリングすることによって収集される。 これにより、コヒーレントテキストの長い段落を生成することのできる、最先端のテキスト生成モデルに対するベンチマークが簡単になる。 グラフとテキストデータの両方は、以前のグラフテキストのペア化データセットに比べてかなり大きなスケールである。 本稿では,グラフ->テキスト生成,グラフ->テキスト検索,テキスト->グラフ検索の3つの課題について,データセット上のベースライングラフニューラルネットワークとトランスフォーマモデル結果を提案する。 グラフの条件付けの改善は、生成と検索の質の向上をもたらすが、改善の余地は大きい。

We present a new dataset of Wikipedia articles each paired with a knowledge graph, to facilitate the research in conditional text generation, graph generation and graph representation learning. Existing graph-text paired datasets typically contain small graphs and short text (1 or few sentences), thus limiting the capabilities of the models that can be learned on the data. Our new dataset WikiGraphs is collected by pairing each Wikipedia article from the established WikiText-103 benchmark (Merity et al., 2016) with a subgraph from the Freebase knowledge graph (Bollacker et al., 2008). This makes it easy to benchmark against other state-of-the-art text generative models that are capable of generating long paragraphs of coherent text. Both the graphs and the text data are of significantly larger scale compared to prior graph-text paired datasets. We present baseline graph neural network and transformer model results on our dataset for 3 tasks: graph -> text generation, graph -> text retrieval and text -> graph retrieval. We show that better conditioning on the graph provides gains in generation and retrieval quality but there is still large room for improvement.
翻訳日:2021-07-21 15:11:24 公開日:2021-07-20
# Audio2Head: 音声駆動のワンショットトーキングヘッドジェネレーション

Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion ( http://arxiv.org/abs/2107.09293v1 )

ライセンス: Link先を確認
Suzhen Wang, Lincheng Li, Yu Ding, Changjie Fan, Xin Yu(参考訳) そこで本研究では,単一の参照画像から実写的な発話頭映像を生成するための音声駆動対話頭方式を提案する。 本研究では, (i) 音声韻律にマッチする自然な頭部運動を生成すること, (ii) 顔以外の領域を安定化しつつ,大きな頭部運動における話者の出現を維持すること,の2つの課題に取り組む。 まず,動作認識型リカレントニューラルネットワーク(RNN)を用いて,剛体6次元頭部の動きをモデル化して頭部ポーズ予測器を設計する。 このように、予測された頭部ポーズは、トーキングヘッドの低周波全体運動として作用するので、後者のネットワークは、詳細な顔面運動生成に集中することができる。 音声から生じる画像の動き全体を表現するために,キーポイントに基づく高密度動き場表現を用いる。 そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。 このキーポイントに基づく表現は、顔領域、頭部、背景の動きを一体的にモデル化するので、生成したビデオの空間的および時間的一貫性をよりよく制約することができる。 最後に、推定キーポイントベースモーションフィールドと入力基準画像とから、画像リアリスティックなトーキングヘッド映像を描画するために、画像生成ネットワークを用いる。 広汎な実験により,本手法は頭の動き,表情の同期,背景の安定性を向上し,最先端の映像より優れることが示された。

We propose an audio-driven talking-head method to generate photo-realistic talking-head videos from a single reference image. In this work, we tackle two key challenges: (i) producing natural head motions that match speech prosody, and (ii) maintaining the appearance of a speaker in a large head motion while stabilizing the non-face regions. We first design a head pose predictor by modeling rigid 6D head movements with a motion-aware recurrent neural network (RNN). In this way, the predicted head poses act as the low-frequency holistic movements of a talking head, thus allowing our latter network to focus on detailed facial movement generation. To depict the entire image motions arising from audio, we exploit a keypoint based dense motion field representation. Then, we develop a motion field generator to produce the dense motion fields from input audio, head poses, and a reference image. As this keypoint based representation models the motions of facial regions, head, and backgrounds integrally, our method can better constrain the spatial and temporal consistency of the generated videos. Finally, an image generation network is employed to render photo-realistic talking-head videos from the estimated keypoint based motion fields and the input reference image. Extensive experiments demonstrate that our method produces videos with plausible head motions, synchronized facial expressions, and stable backgrounds and outperforms the state-of-the-art.
翻訳日:2021-07-21 15:11:04 公開日:2021-07-20
# DSP: Unsupervised Domain Adaptive Semantic Segmentation のためのデュアルソフトペースト

DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2107.09600v1 )

ライセンス: Link先を確認
Li Gao, Jing Zhang, Lefei Zhang, Dacheng Tao(参考訳) セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。 既存のメソッドは、特に初期トレーニングフェーズにおいて、不一致の特徴を正確に整えるのを困難にする大きなドメイン間ギャップに苦しめながら、ドメイン不変な特徴を学習しようとする。 この問題に対処するために,本稿では,新しいDual Soft-Paste (DSP)法を提案する。 具体的には、dspは、ロングテールクラスファーストサンプリング戦略を用いてソースドメインイメージからいくつかのクラスを選択し、対応するイメージパッチをソースとターゲットのトレーニングイメージの両方に、融合重みでソフトペーストする。 技術的には、平均教師フレームワークをドメイン適応に適用し、ペーストされたソースとターゲットイメージが生徒ネットワークを経由し、元のターゲットイメージが教師ネットワークを経由する。 重み付きクロスエントロピー損失を用いて、両方のネットワークからターゲット融合画像の確率マップを調整して出力レベルアライメントを行う。 さらに、重み付き最大平均誤差損失を用いて、学生ネットワークからソースとターゲット画像の特徴マップを整列させて特徴レベルのアライメントを行う。 DSPは、中間ドメインからモデル学習ドメイン不変の機能を促進し、より高速な収束とより良いパフォーマンスをもたらす。 2つの挑戦的なベンチマークの実験は、最先端の手法よりもDSPの方が優れていることを示した。 コードは \url{https://github.com/G aoLii/DSP} で入手できる。

Unsupervised domain adaptation (UDA) for semantic segmentation aims to adapt a segmentation model trained on the labeled source domain to the unlabeled target domain. Existing methods try to learn domain invariant features while suffering from large domain gaps that make it difficult to correctly align discrepant features, especially in the initial training phase. To address this issue, we propose a novel Dual Soft-Paste (DSP) method in this paper. Specifically, DSP selects some classes from a source domain image using a long-tail class first sampling strategy and softly pastes the corresponding image patch on both the source and target training images with a fusion weight. Technically, we adopt the mean teacher framework for domain adaptation, where the pasted source and target images go through the student network while the original target image goes through the teacher network. Output-level alignment is carried out by aligning the probability maps of the target fused image from both networks using a weighted cross-entropy loss. In addition, feature-level alignment is carried out by aligning the feature maps of the source and target images from student network using a weighted maximum mean discrepancy loss. DSP facilitates the model learning domain-invariant features from the intermediate domains, leading to faster convergence and better performance. Experiments on two challenging benchmarks demonstrate the superiority of DSP over state-of-the-art methods. Code is available at \url{https://github.com/G aoLii/DSP}.
翻訳日:2021-07-21 15:10:39 公開日:2021-07-20
# テキストベース自然言語を通してコミュニケーションする協調強化学習エージェントを目指して

Toward Collaborative Reinforcement Learning Agents that Communicate Through Text-Based Natural Language ( http://arxiv.org/abs/2107.09356v1 )

ライセンス: Link先を確認
Kevin Eloff, Herman Engelbrecht(参考訳) 協調的なマルチエージェント設定におけるエージェント間の通信は一般的に暗黙的あるいは直接データストリームである。 本稿では,テキストベースの自然言語を,強化学習で訓練された複数のエージェント間のコミュニケーションの新たな形態とみなす。 これは、限られた命令セットや人間とロボットの自然な協調を定義することなく、真に自律的なコミュニケーションへの第一歩と考えることができる。 ブラインドリードのゲームに触発されて,あるエージェントが自然言語命令を使って,別のエージェントを迷路で案内する環境を提案する。 強化学習エージェントが個別の単語レベルのシンボルを通して効果的にコミュニケーションできることをテストし、限られた語彙で自然言語を介して十分にコミュニケーションできることを示す。 コミュニケーションは常に完璧であるとは限らないが、エージェントは迷路をナビゲートすることができる。 BLEUスコアは0.85で、100%迷路完了率を維持しつつランダムに生成されたシーケンスよりも0.61向上している。 これは、基準セットを用いたランダムベースラインのパフォーマンスの3.5倍です。

Communication between agents in collaborative multi-agent settings is in general implicit or a direct data stream. This paper considers text-based natural language as a novel form of communication between multiple agents trained with reinforcement learning. This could be considered first steps toward a truly autonomous communication without the need to define a limited set of instructions, and natural collaboration between humans and robots. Inspired by the game of Blind Leads, we propose an environment where one agent uses natural language instructions to guide another through a maze. We test the ability of reinforcement learning agents to effectively communicate through discrete word-level symbols and show that the agents are able to sufficiently communicate through natural language with a limited vocabulary. Although the communication is not always perfect English, the agents are still able to navigate the maze. We achieve a BLEU score of 0.85, which is an improvement of 0.61 over randomly generated sequences while maintaining a 100% maze completion rate. This is a 3.5 times the performance of the random baseline using our reference set.
翻訳日:2021-07-21 15:10:03 公開日:2021-07-20
# 政策勾配に対する測定値誘導体の実証分析

An Empirical Analysis of Measure-Valued Derivatives for Policy Gradients ( http://arxiv.org/abs/2107.09359v1 )

ライセンス: Link先を確認
Jo\~ao Carvalho, Davide Tateo, Fabio Muratore, Jan Peters(参考訳) ロボット工学の強化学習法は、より良い方針勾配技術の開発が絶え間なく進んでいるため、ますます成功している。 複雑なタスクに直面するためには、正確な(低分散)と正確な(低バイアス)勾配推定器が不可欠である。 従来のポリシー勾配アルゴリズムは、偏りのないが分散度の高い推定を生成することで知られているラピス・レイショ・トリックを用いる。 より現代的なアプローチでは、分散勾配の推定は低いが微分可能値関数近似子を必要とする再パラメータ化トリックを利用する。 本研究では,異なる種類の確率勾配推定器,測定値導関数について検討する。 この推定器は偏りがなく、分散が低く、微分可能かつ微分不能な関数近似器で使用できる。 我々は,この推定器をアクタ・クリティック・ポリシー・グラデーションの設定において実験的に評価し,低次元と高次元の両方のアクション空間において,確率比や再パラメトリゼーションに基づく手法と同等の性能が得られることを示した。

Reinforcement learning methods for robotics are increasingly successful due to the constant development of better policy gradient techniques. A precise (low variance) and accurate (low bias) gradient estimator is crucial to face increasingly complex tasks. Traditional policy gradient algorithms use the likelihood-ratio trick, which is known to produce unbiased but high variance estimates. More modern approaches exploit the reparametrization trick, which gives lower variance gradient estimates but requires differentiable value function approximators. In this work, we study a different type of stochastic gradient estimator: the Measure-Valued Derivative. This estimator is unbiased, has low variance, and can be used with differentiable and non-differentiable function approximators. We empirically evaluate this estimator in the actor-critic policy gradient setting and show that it can reach comparable performance with methods based on the likelihood-ratio or reparametrization tricks, both in low and high-dimensional action spaces.
翻訳日:2021-07-21 15:09:32 公開日:2021-07-20
# メタレベルでのアルゴリズム選択

Algorithm Selection on a Meta Level ( http://arxiv.org/abs/2107.09414v1 )

ライセンス: Link先を確認
Alexander Tornede, Lukas Gehring, Tanja Tornede, Marcel Wever, Eyke H\"ullermeier(参考訳) ブール適合性問題などのアルゴリズム問題クラスの特定のインスタンスに最も適しているように見えるアルゴリズムを選択する問題は、インスタンス固有アルゴリズム選択と呼ばれる。 過去10年間、この問題にはかなりの関心が寄せられ、アルゴリズム選択のための様々な方法が生まれた。 これらの手法の多くは機械学習に基づいているが、驚くべきことにメタ学習では、既存のアルゴリズム選択手法の相補性を生かして、それらを1つの優れたアルゴリズムセレクタに組み合わせる作業はほとんど行われていない。 本稿では,与えられたアルゴリズムセレクタの集合を結合する最善の方法を求めるメタアルゴリズム選択の問題を紹介する。 本稿では,メタアルゴリズム選択のための一般的な方法論と,メタ学習とアンサンブル学習のアイデアを組み合わせたいくつかの具体的な学習手法を提案する。 本研究では,アルゴリズムセレクタのアンサンブルが単一アルゴリズムセレクタを著しく上回り,アルゴリズムセレクタの新たな状態を形成する可能性を実証する。

The problem of selecting an algorithm that appears most suitable for a specific instance of an algorithmic problem class, such as the Boolean satisfiability problem, is called instance-specific algorithm selection. Over the past decade, the problem has received considerable attention, resulting in a number of different methods for algorithm selection. Although most of these methods are based on machine learning, surprisingly little work has been done on meta learning, that is, on taking advantage of the complementarity of existing algorithm selection methods in order to combine them into a single superior algorithm selector. In this paper, we introduce the problem of meta algorithm selection, which essentially asks for the best way to combine a given set of algorithm selectors. We present a general methodological framework for meta algorithm selection as well as several concrete learning methods as instantiations of this framework, essentially combining ideas of meta learning and ensemble learning. In an extensive experimental evaluation, we demonstrate that ensembles of algorithm selectors can significantly outperform single algorithm selectors and have the potential to form the new state of the art in algorithm selection.
翻訳日:2021-07-21 15:09:17 公開日:2021-07-20
# 視覚的連続制御のマスタリング:データ提供強化学習の改善

Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning ( http://arxiv.org/abs/2107.09645v1 )

ライセンス: Link先を確認
Denis Yarats, Rob Fergus, Alessandro Lazaric, Lerrel Pinto(参考訳) 視覚連続制御のためのモデルフリー強化学習(RL)アルゴリズムであるDrQ-v2を提案する。 DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQに基づいている。 我々はDeepMind Control Suiteで最先端の成果をもたらすいくつかの改善点を紹介した。 特に、DrQ-v2は、以前はモデルのないRLで達成されていなかったピクセル観察から直接、複雑なヒューマノイド移動タスクを解くことができる。 DrQ-v2は概念的にはシンプルで実装が容易で、前処理よりも計算フットプリントが大幅に向上し、ほとんどのタスクは1つのGPUでトレーニングするのにたった8時間しかかからない。 最後に、RL実践者に強力な計算効率のベースラインを提供するため、DrQ-v2の実装を公開します。

We present DrQ-v2, a model-free reinforcement learning (RL) algorithm for visual continuous control. DrQ-v2 builds on DrQ, an off-policy actor-critic approach that uses data augmentation to learn directly from pixels. We introduce several improvements that yield state-of-the-art results on the DeepMind Control Suite. Notably, DrQ-v2 is able to solve complex humanoid locomotion tasks directly from pixel observations, previously unattained by model-free RL. DrQ-v2 is conceptually simple, easy to implement, and provides significantly better computational footprint compared to prior work, with the majority of tasks taking just 8 hours to train on a single GPU. Finally, we publicly release DrQ-v2's implementation to provide RL practitioners with a strong and computationally efficient baseline.
翻訳日:2021-07-21 15:09:00 公開日:2021-07-20
# 深層学習における確率論的推論の評価

Evaluating Probabilistic Inference in Deep Learning: Beyond Marginal Predictions ( http://arxiv.org/abs/2107.09224v1 )

ライセンス: Link先を確認
Xiuyuan Lu, Ian Osband, Benjamin Van Roy, Zheng Wen(参考訳) いくつかの入力が$X_1,.,X_\tau$であれば、Y_1,., Y_\tau$を予測できる。 kl divergence $\mathbf{d}_{\mathrm{kl}}$は、予測品質の自然な尺度を提供するが、ディープラーニングの研究の大部分は、入力当たりの限界予測にのみ目を向けている。 この技術的レポートでは、$\tau$入力での関節予測を同時に評価する$\tau \in \mathcal{N}$でパラメータ化されたスコアリングルール $\mathbf{d}_{\mathrm{KL}}^\tau$を提案する。 一般的に使われる$\tau=1$は、多くの関心のある場所で良い決定を下すには不十分であることを示す。 また、$\tau$ が成長するにつれて、$\mathbf{d}_{\mathrm{kl}}^\tau$ は任意の可能な決定に対して普遍的な保証を回復する。 最後に、我々のスコアが十分な性能保証を提供する$\tau$のスケールに関する問題依存的なガイダンスを提供する。

A fundamental challenge for any intelligent system is prediction: given some inputs $X_1,..,X_\tau$ can you predict outcomes $Y_1,.., Y_\tau$. The KL divergence $\mathbf{d}_{\mathrm{KL}}$ provides a natural measure of prediction quality, but the majority of deep learning research looks only at the marginal predictions per input $X_t$. In this technical report we propose a scoring rule $\mathbf{d}_{\mathrm{KL}}^\tau$, parameterized by $\tau \in \mathcal{N}$ that evaluates the joint predictions at $\tau$ inputs simultaneously. We show that the commonly-used $\tau=1$ can be insufficient to drive good decisions in many settings of interest. We also show that, as $\tau$ grows, performing well according to $\mathbf{d}_{\mathrm{KL}}^\tau$ recovers universal guarantees for any possible decision. Finally, we provide problem-dependent guidance on the scale of $\tau$ for which our score provides sufficient guarantees for good performance.
翻訳日:2021-07-21 15:08:13 公開日:2021-07-20
# 不変深層ニューラルネットワークへのベイズ的アプローチ

A Bayesian Approach to Invariant Deep Neural Networks ( http://arxiv.org/abs/2107.09301v1 )

ライセンス: Link先を確認
Nikolaos Mourdoukoutas, Marco Federici, Georges Pantalos, Mark van der Wilk and Vincent Fortuin(参考訳) 本稿では,異なる重み共有スキーム上の後方分布を推定することにより,データのみから不変性を学習できるベイズ型ニューラルネットワークアーキテクチャを提案する。 モデルは、特定の不変性を含むデータセットでトレーニングされた場合、他の非不変アーキテクチャよりも優れています。 データ拡張が行われない場合も同様である。

We propose a novel Bayesian neural network architecture that can learn invariances from data alone by inferring a posterior distribution over different weight-sharing schemes. We show that our model outperforms other non-invariant architectures, when trained on datasets that contain specific invariances. The same holds true when no data augmentation is performed.
翻訳日:2021-07-21 15:07:50 公開日:2021-07-20
# 定常変分勾配Descenceのためのカーネル選択

Kernel Selection for Stein Variational Gradient Descent ( http://arxiv.org/abs/2107.09338v1 )

ライセンス: Link先を確認
Qingzhong Ai, Shiyu Liu, Zenglin Xu(参考訳) スタイン変分勾配降下(svgd)とその変種は複素分布の近似推論において有望な成功を示している。 しかし、その経験的性能は最適なカーネルの選択に大きく依存する。 残念ながら、中央値ヒューリスティックスを持つRBFカーネルは、準最適であることが証明された以前のアプローチでは一般的な選択である。 マルチカーネル学習のパラダイムに触発されて、この問題に対する我々の解決策は、パフォーマンスと柔軟性を制限する単一のカーネルではなく、最適なカーネルを近似するために複数のカーネルの組み合わせを使用することです。 そのために、カーネル化スタイン離散(KSD)を、MKSD(Multiple Kernelized Stein Discrepancy)と呼ばれる複数のカーネルビューに拡張する。 さらに,MKSDを利用してSVGDをベースとした汎用アルゴリズムを構築し,これをMK-SVGD(Multiple Kernel SVGD)と呼ぶ。 さらに、各カーネルに他のパラメータなしで自動的に重みを割り当てます。 提案手法は最適なカーネル依存を除去するだけでなく,計算効率も維持する。 各種タスクおよびモデルの実験により,本手法の有効性が示された。

Stein variational gradient descent (SVGD) and its variants have shown promising successes in approximate inference for complex distributions. However, their empirical performance depends crucially on the choice of optimal kernel. Unfortunately, RBF kernel with median heuristics is a common choice in previous approaches which has been proved sub-optimal. Inspired by the paradigm of multiple kernel learning, our solution to this issue is using a combination of multiple kernels to approximate the optimal kernel instead of a single one which may limit the performance and flexibility. To do so, we extend Kernelized Stein Discrepancy (KSD) to its multiple kernel view called Multiple Kernelized Stein Discrepancy (MKSD). Further, we leverage MKSD to construct a general algorithm based on SVGD, which be called Multiple Kernel SVGD (MK-SVGD). Besides, we automatically assign a weight to each kernel without any other parameters. The proposed method not only gets rid of optimal kernel dependence but also maintains computational effectiveness. Experiments on various tasks and models show the effectiveness of our method.
翻訳日:2021-07-21 15:07:44 公開日:2021-07-20
# 時系列モデリングのための畳み込みアーキテクチャの近似理論

Approximation Theory of Convolutional Architectures for Time Series Modelling ( http://arxiv.org/abs/2107.09355v1 )

ライセンス: Link先を確認
Haotian Jiang, Zhong Li, Qianxiao Li(参考訳) 関数近似問題として数学的に定式化できる時系列モデリングに適用できる畳み込みアーキテクチャの近似特性について検討する。 近年の結果,データ生成プロセスにおける近似効率とメモリ構造との複雑な関係が明らかになった。 本稿では、WaveNetを主な例として、畳み込み型アーキテクチャの並列処理結果を導出する。 この新たな設定では、近似効率はメモリによって特徴づけられるだけでなく、ターゲット関係の微細構造も追加される。 これにより、畳み込み近似スキームの下で時間関係の複雑さを測定するスペクトルベースの正則性の新しい定義が導かれる。 これらの分析は、時系列モデリングにおけるアーキテクチャ選択の違いを理解する基盤を提供し、実用的な応用に関する理論的根拠を与える。

We study the approximation properties of convolutional architectures applied to time series modelling, which can be formulated mathematically as a functional approximation problem. In the recurrent setting, recent results reveal an intricate connection between approximation efficiency and memory structures in the data generation process. In this paper, we derive parallel results for convolutional architectures, with WaveNet being a prime example. Our results reveal that in this new setting, approximation efficiency is not only characterised by memory, but also additional fine structures in the target relationship. This leads to a novel definition of spectrum-based regularity that measures the complexity of temporal relationships under the convolutional approximation scheme. These analyses provide a foundation to understand the differences between architectural choices for time series modelling and can give theoretically grounded guidance for practical applications.
翻訳日:2021-07-21 15:07:28 公開日:2021-07-20
# ReSSL: 弱体化によるリレーショナル自己監視型学習

ReSSL: Relational Self-Supervised Learning with Weak Augmentation ( http://arxiv.org/abs/2107.09282v1 )

ライセンス: Link先を確認
Mingkai Zheng, Shan You, Fei Wang, Chen Qian, Changshui Zhang, Xiaogang Wang, Chang Xu(参考訳) 主流のコントラスト学習を含む自己教師あり学習(SSL)は、データアノテーションなしで視覚表現を学習することに成功した。 しかし、ほとんどのメソッドは、主にインスタンスレベルの情報に焦点を当てている(\ie、同じインスタンスの異なる拡張イメージは、同じフィーチャまたは同じクラスにクラスタを持つべきである)が、異なるインスタンス間の関係に注意が払われていない。 本稿では,異なるインスタンス間の関係をモデル化して表現を学習するリレーショナル自己教師型学習(Relational Self-supervised Learning, ReSSL)フレームワークを提案する。 特に,提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,異なる拡張の特徴埋め込みに適合させるために,‘textit{relation} metric’として用いた。 さらに, 性能向上のためには, より信頼性の高い関係を表現し, 実用効率にモーメント戦略を活用することが重要である。 実験の結果,提案したReSSLは,性能とトレーニング効率の両面で,従来の最先端アルゴリズムよりも大幅に優れていた。 コードは \url{https://github.com/K yleZheng1997/ReSSL} で入手できる。

Self-supervised Learning (SSL) including the mainstream contrastive learning has achieved great success in learning visual representations without data annotations. However, most of methods mainly focus on the instance level information (\ie, the different augmented images of the same instance should have the same feature or cluster into the same class), but there is a lack of attention on the relationships between different instances. In this paper, we introduced a novel SSL paradigm, which we term as relational self-supervised learning (ReSSL) framework that learns representations by modeling the relationship between different instances. Specifically, our proposed method employs sharpened distribution of pairwise similarities among different instances as \textit{relation} metric, which is thus utilized to match the feature embeddings of different augmentations. Moreover, to boost the performance, we argue that weak augmentations matter to represent a more reliable relation, and leverage momentum strategy for practical efficiency. Experimental results show that our proposed ReSSL significantly outperforms the previous state-of-the-art algorithms in terms of both performance and training efficiency. Code is available at \url{https://github.com/K yleZheng1997/ReSSL}.
翻訳日:2021-07-21 15:07:16 公開日:2021-07-20
# Deep Metric Learningにおける外部分布シフトに基づく一般化の特徴付け

Characterizing Generalization under Out-Of-Distribution Shifts in Deep Metric Learning ( http://arxiv.org/abs/2107.09562v1 )

ライセンス: Link先を確認
Timo Milbich, Karsten Roth, Samarth Sinha, Ludwig Schmidt, Marzyeh Ghassemi, Bj\"orn Ommer(参考訳) Deep Metric Learning (DML)は、未知のテストディストリビューションへのゼロショット転送に適した表現を見つけることを目的としている。 しかしながら、一般的な評価プロトコルは、トレーニングクラスとテストクラスがランダムに割り当てられる単一の固定データ分割のみをテストする。 より現実的な評価は、潜在的に異なる程度と難易度で幅広い分布シフトを考慮するべきである。 本研究では,DMLにおける配布外シフトの一般化を特徴付けるために,難易度を増大させる列車-試験分割を体系的に構築し,ooDMLベンチマークを示す。 ooDMLは、より困難で多様な列車間分散シフトにおいて、一般化性能を調査するために設計されている。 新しいベンチマークに基づいて、最先端のDML手法の徹底的な実験分析を行う。 一般化は難易度に常に低下する傾向にあるが, 分散シフトが増加するにつれて, 性能が向上する手法もある。 最後に、ooDMLで表される未知のテストシフトに応答して、最適化を継続的に改善する効率的な方法として、少数ショットDMLを提案する。 コードはhttps://github.com/c onfusezius/character izing_generalization _in_deepmetriclearni ng。

Deep Metric Learning (DML) aims to find representations suitable for zero-shot transfer to a priori unknown test distributions. However, common evaluation protocols only test a single, fixed data split in which train and test classes are assigned randomly. More realistic evaluations should consider a broad spectrum of distribution shifts with potentially varying degree and difficulty. In this work, we systematically construct train-test splits of increasing difficulty and present the ooDML benchmark to characterize generalization under out-of-distribution shifts in DML. ooDML is designed to probe the generalization performance on much more challenging, diverse train-to-test distribution shifts. Based on our new benchmark, we conduct a thorough empirical analysis of state-of-the-art DML methods. We find that while generalization tends to consistently degrade with difficulty, some methods are better at retaining performance as the distribution shift increases. Finally, we propose few-shot DML as an efficient way to consistently improve generalization in response to unknown test shifts presented in ooDML. Code available here: https://github.com/C onfusezius/Character izing_Generalization _in_DeepMetricLearni ng.
翻訳日:2021-07-21 15:06:56 公開日:2021-07-20
# ファイナンスにおけるAI - チャレンジ、テクニック、機会

AI in Finance: Challenges, Techniques and Opportunities ( http://arxiv.org/abs/2107.09051v1 )

ライセンス: Link先を確認
Longbing Cao(参考訳) 金融におけるAIは、金融ビジネスにおけるAI技術の応用を広く指している。 この領域は、金融、経済、社会のより広範な分野に適用される古典的および近代的なAI技術によって、何十年も続いている。 特定のAI技術、特にいくつかの新しい世代のAIとデータサイエンス(AIDS)分野から恩恵を受けた金融の課題、側面、機会について議論したり、特定の金融問題の解決に特定の技術を適用する進捗をレビューするのとは対照的に、このレビューは過去数十年にわたって金融におけるAI研究の圧倒的な課題、技術、および機会に関する包括的なロードマップを提供する。 金融ビジネスとデータの展望と課題は、まず最初に概説され、続いて包括的な分類と、金融における数十年にわたるAI研究の概要が述べられている。 そして、金融ビジネスとデータのデータ駆動分析と学習を構築し、説明します。 金融のための古典的対現代的AI技術の比較、批判、議論が続く。 最後に、オープンな問題と機会は、将来のAIを活用した金融と金融を動機とするAI研究に対処する。

AI in finance broadly refers to the applications of AI techniques in financial businesses. This area has been lasting for decades with both classic and modern AI techniques applied to increasingly broader areas of finance, economy and society. In contrast to either discussing the problems, aspects and opportunities of finance that have benefited from specific AI techniques and in particular some new-generation AI and data science (AIDS) areas or reviewing the progress of applying specific techniques to resolving certain financial problems, this review offers a comprehensive and dense roadmap of the overwhelming challenges, techniques and opportunities of AI research in finance over the past decades. The landscapes and challenges of financial businesses and data are firstly outlined, followed by a comprehensive categorization and a dense overview of the decades of AI research in finance. We then structure and illustrate the data-driven analytics and learning of financial businesses and data. The comparison, criticism and discussion of classic vs. modern AI techniques for finance are followed. Lastly, open issues and opportunities address future AI-empowered finance and finance-motivated AI research.
翻訳日:2021-07-21 15:06:40 公開日:2021-07-20
# グループミッションにおけるエージェントのエラー源を自律的に特定する強化学習

Reinforcement learning autonomously identifying the source of errors for agents in a group mission ( http://arxiv.org/abs/2107.09232v1 )

ライセンス: Link先を確認
Keishu Utimula, Ken-taro Hayaschi, Kousuke Nakano, Kenta Hongo, Ryo Maezono(参考訳) エージェントがミッションを実行するために群がっているとき、しばしばコマンドベースから観察されたエージェントのいくつかが突然失敗する。 一般に、故障はアクチュエータ(h_a$)またはセンサー(h_s$)によって引き起こされるか、コマンドベースと関連するエージェントとの通信のみによって引き起こされるかの区別が困難である。 エージェントを別のエージェントで衝突させることで、どの仮説が想定されるかを区別することができる: $h_a$ の場合、対応する変位を検出できるが、 $h_a$ の場合、そうはならない。 このような状況を把握するための群集戦略は、人工知能(AI)によって自律的に生成されることが好ましい。 区別のための好ましいアクション(例えば、衝突)は、各仮説に対する期待される振る舞いの違いを値関数として最大化するものである。 しかし、そのような行動は全可能性においてごくわずかしか存在せず、従来の勾配法に基づく探索は意味をなさない。 代わりに、そのようなスパース値関数の最大化を達成し、強化学習技術の適用に成功した。 機械学習は、仮説を識別するための衝突行動を自律的に結論づけました。 動作によってアクチュエータエラーのあるエージェントが認識されると、エージェントは、与えられたミッションを達成するために、故障しているエージェントを支援したいように振る舞う。

When agents are swarmed to carry out a mission, there is often a sudden failure of some of the agents observed from the command base. It is generally difficult to distinguish whether the failure is caused by actuators (hypothesis, $h_a$) or sensors (hypothesis, $h_s$) solely by the communication between the command base and the concerning agent. By making a collision to the agent by another, we would be able to distinguish which hypothesis is likely: For $h_a$, we expect to detect corresponding displacements while for $h_a$ we do not. Such swarm strategies to grasp the situation are preferably to be generated autonomously by artificial intelligence (AI). Preferable actions ($e.g.$, the collision) for the distinction would be those maximizing the difference between the expected behaviors for each hypothesis, as a value function. Such actions exist, however, only very sparsely in the whole possibilities, for which the conventional search based on gradient methods does not make sense. Instead, we have successfully applied the reinforcement learning technique, achieving the maximization of such a sparse value function. The machine learning actually concluded autonomously the colliding action to distinguish the hypothesises. Getting recognized an agent with actuator error by the action, the agents behave as if other ones want to assist the malfunctioning one to achieve a given mission.
翻訳日:2021-07-21 15:06:21 公開日:2021-07-20
# 現代ニューラルネットワークトレーニングの指導原理としてのカオスのエッジ

Edge of chaos as a guiding principle for modern neural network training ( http://arxiv.org/abs/2107.09437v1 )

ライセンス: Link先を確認
Lin Zhang, Ling Feng, Kan Chen and Choy Heng Lai(参考訳) 現実世界の問題におけるディープニューラルネットワークの成功は、トレーニングのダイナミクスと一般化のパフォーマンスを説明する多くの試みを引き起こしているが、ニューラルネットワークのトレーニングのためのより指導的な原則はまだ必要である。 ニューラルネットワークの最適性能の背後にあるカオス原理の端に触発され、秩序-カオス位相図を用いて、現代のニューラルネットワークトレーニングアルゴリズムにおける様々なハイパーパラメータの役割を研究する。 特に,広く採用されているファッション・ムニストデータセットでトレーニングされた完全解析型フィードフォワードニューラルネットワークについて検討し,トレーニング過程におけるバックプロパゲーションにおけるハイパーパラメータに関連するダイナミクスについて検討した。 運動量を持つ確率的勾配降下の基本的なアルゴリズムでは、一般的に用いられるハイパーパラメータ値の周辺では、位相図の順序付けフェーズのトレーニング時間に関して明確なスケーリング関係が存在し、カオスのエッジにおけるモデルの最適一般化力は、異なるトレーニングパラメータの組み合わせで類似している。 カオス的な段階では、同じスケーリングはもはや存在しない。 スケーリングによって、パフォーマンスを犠牲にすることなく、より高速なトレーニングを達成するためのトレーニングパラメータを選択できます。 さらに,一般的に用いられているモデル正規化手法である重み劣化は,モデルが順序相に向かって効果的に推し進め,より優れた性能を実現する。 この事実と他のハイパーパラメータのスケーリング関係を利用して、モデルがカオスの端で飽和させることで最適な性能が得られるように、ハイパーパラメータ決定の原則的ガイドラインを導出した。 この単純なニューラルネットワークモデルとトレーニングアルゴリズムを実証し、我々の研究はニューラルネットワークのトレーニングダイナミクスの理解を改善し、より複雑なモデルアーキテクチャとアルゴリズムの原則へと拡張できる可能性がある。

The success of deep neural networks in real-world problems has prompted many attempts to explain their training dynamics and generalization performance, but more guiding principles for the training of neural networks are still needed. Motivated by the edge of chaos principle behind the optimal performance of neural networks, we study the role of various hyperparameters in modern neural network training algorithms in terms of the order-chaos phase diagram. In particular, we study a fully analytical feedforward neural network trained on the widely adopted Fashion-MNIST dataset, and study the dynamics associated with the hyperparameters in back-propagation during the training process. We find that for the basic algorithm of stochastic gradient descent with momentum, in the range around the commonly used hyperparameter values, clear scaling relations are present with respect to the training time during the ordered phase in the phase diagram, and the model's optimal generalization power at the edge of chaos is similar across different training parameter combinations. In the chaotic phase, the same scaling no longer exists. The scaling allows us to choose the training parameters to achieve faster training without sacrificing performance. In addition, we find that the commonly used model regularization method - weight decay - effectively pushes the model towards the ordered phase to achieve better performance. Leveraging on this fact and the scaling relations in the other hyperparameters, we derived a principled guideline for hyperparameter determination, such that the model can achieve optimal performance by saturating it at the edge of chaos. Demonstrated on this simple neural network model and training algorithm, our work improves the understanding of neural network training dynamics, and can potentially be extended to guiding principles of more complex model architectures and algorithms.
翻訳日:2021-07-21 15:06:03 公開日:2021-07-20
# 機械故障検出のための正準多進分解とディープラーニング

Canonical Polyadic Decomposition and Deep Learning for Machine Fault Detection ( http://arxiv.org/abs/2107.09519v1 )

ライセンス: Link先を確認
Frusque Gaetan, Michau Gabriel and Fink Olga(参考訳) 機械故障検出のための音響モニタリングは、産業に有望な成果をもたらした最近の研究経路である。 しかし、マシンからあらゆる種類の障害を学ぶのに十分なデータを集めることは不可能である。 そこで、健康状態のみのデータを用いて訓練された新しいアルゴリズムを開発し、教師なし異常検出を行った。 これらのアルゴリズムの開発における重要な問題は、異常検出性能に影響を与える信号のノイズである。 本研究では、テンソル分解に基づくスペクトルデータに対して、非負カノニカルポリアディクス(CP)分解という強力なデータ駆動・準非パラメトリックDenoising戦略を提案する。 この方法は、特に定常音を発する機械に適応する。 本研究は, 故障型産業機械調査検査(mimii)のベースラインとして, 脱音戦略の活用が, 教師なし異常検出の賢明な改善につながることを示す。 このようなアプローチは、産業プロセスの音に基づく監視をより信頼性の高いものにする。

Acoustic monitoring for machine fault detection is a recent and expanding research path that has already provided promising results for industries. However, it is impossible to collect enough data to learn all types of faults from a machine. Thus, new algorithms, trained using data from healthy conditions only, were developed to perform unsupervised anomaly detection. A key issue in the development of these algorithms is the noise in the signals, as it impacts the anomaly detection performance. In this work, we propose a powerful data-driven and quasi non-parametric denoising strategy for spectral data based on a tensor decomposition: the Non-negative Canonical Polyadic (CP) decomposition. This method is particularly adapted for machine emitting stationary sound. We demonstrate in a case study, the Malfunctioning Industrial Machine Investigation and Inspection (MIMII) baseline, how the use of our denoising strategy leads to a sensible improvement of the unsupervised anomaly detection. Such approaches are capable to make sound-based monitoring of industrial processes more reliable.
翻訳日:2021-07-21 15:04:55 公開日:2021-07-20
# サブサンプリングによる正重カーネル四分法

Positively Weighted Kernel Quadrature via Subsampling ( http://arxiv.org/abs/2107.09597v1 )

ライセンス: Link先を確認
Satoshi Hayakawa, Harald Oberhauser, Terry Lyons(参考訳) 一般領域における確率測度に対する正重み付きカーネル二次規則について検討する。 我々の理論的解析は、カーネルのスペクトル特性とランダムな点のサンプリングを組み合わせる。 これにより、正重みと最小ケース誤差の少ないカーネル二次規則を効率的に構築するアルゴリズムが実現される。 さらなる頑健性に加えて、数値実験により、既知の例の最適境界に匹敵する高速な収束速度が達成できることが示されている。

We study kernel quadrature rules with positive weights for probability measures on general domains. Our theoretical analysis combines the spectral properties of the kernel with random sampling of points. This results in effective algorithms to construct kernel quadrature rules with positive weights and small worst-case error. Besides additional robustness, our numerical experiments indicate that this can achieve fast convergence rates that compete with the optimal bounds in well-known examples.
翻訳日:2021-07-21 15:04:40 公開日:2021-07-20
# 癌画像における生成的対立ネットワークの概観:新しい応用,新しい解決法

A Review of Generative Adversarial Networks in Cancer Imaging: New Applications, New Solutions ( http://arxiv.org/abs/2107.09543v1 )

ライセンス: Link先を確認
Richard Osuala, Kaisar Kushibar, Lidia Garrucho, Akis Linardos, Zuzanna Szafranowska, Stefan Klein, Ben Glocker, Oliver Diaz, Karim Lekadir(参考訳) 技術と医学の進歩にもかかわらず、画像データに基づくがんの検出、解釈、治療は依然として大きな課題となっている。 これには、オブザーバ間変動性の高さ、小病変検出の難しさ、結節の解釈と悪性度判定、腫瘍間および腫瘍内不均一性、クラス不均衡、セグメンテーションの不正確性、治療効果の不確実性などが含まれる。 コンピュータビジョンと医用画像におけるGAN(Generative Adversarial Networks)の最近の進歩は、がんの検出と解析の能力向上の基礎となるかもしれない。 本総説では,gansのがん画像化における重要な課題として,データ不足と不均衡,ドメインとデータセットのシフト,データアクセスとプライバシ,データアノテーションと定量化,がん検出,腫瘍プロファイリング,治療計画などについて検討する。 我々は,がん画像に適用されたgansの既存文献の批判的評価と,これらの課題に対処するための今後の研究方向性の提案を提供する。 我々は,がん画像の文脈で対人訓練技術を適用した163の論文を分析し,その方法論,利点,限界について詳しく検討する。 本研究は,臨床がん画像コミュニティのニーズと,人工知能コミュニティにおけるGANの現在および将来的な研究とのギャップを埋めることを目的としている。

Despite technological and medical advances, the detection, interpretation, and treatment of cancer based on imaging data continue to pose significant challenges. These include high inter-observer variability, difficulty of small-sized lesion detection, nodule interpretation and malignancy determination, inter- and intra-tumour heterogeneity, class imbalance, segmentation inaccuracies, and treatment effect uncertainty. The recent advancements in Generative Adversarial Networks (GANs) in computer vision as well as in medical imaging may provide a basis for enhanced capabilities in cancer detection and analysis. In this review, we assess the potential of GANs to address a number of key challenges of cancer imaging, including data scarcity and imbalance, domain and dataset shifts, data access and privacy, data annotation and quantification, as well as cancer detection, tumour profiling and treatment planning. We provide a critical appraisal of the existing literature of GANs applied to cancer imagery, together with suggestions on future research directions to address these challenges. We analyse and discuss 163 papers that apply adversarial training techniques in the context of cancer imaging and elaborate their methodologies, advantages and limitations. With this work, we strive to bridge the gap between the needs of the clinical cancer imaging community and the current and prospective research on GANs in the artificial intelligence community.
翻訳日:2021-07-21 15:04:18 公開日:2021-07-20
# 低ランク行列多様体上のスプリアス臨界点の漸近的脱却

Asymptotic Escape of Spurious Critical Points on the Low-rank Matrix Manifold ( http://arxiv.org/abs/2107.09207v1 )

ライセンス: Link先を確認
Thomas Y. Hou, Zhenzhen Li, and Ziyun Zhang(参考訳) 低ランク行列多様体上のリーマン勾配降下アルゴリズムは、多様体の境界上のいくつかの急激な臨界点をほぼ確実に逃がすことを示す。 低ランク行列多様体が不完全集合であることを考えると、この困難を克服し、多様体上のリーマン勾配降下を部分的に正当化する最初の結果となる。 突発的臨界点は、基底真理のSVD成分の一部のみを捉える階数不足行列である。 それらは非常に特異な振る舞いを示し、厳密な鞍点の古典的解析を回避している。 動的低ランク近似と再スケール勾配流を用いることで、いくつかの急激な臨界点を古典的な厳密なサドル点に変換し、所望の結果をもたらすことを示す。 理論的知見を裏付ける数値実験を行った。

We show that the Riemannian gradient descent algorithm on the low-rank matrix manifold almost surely escapes some spurious critical points on the boundary of the manifold. Given that the low-rank matrix manifold is an incomplete set, this result is the first to overcome this difficulty and partially justify the global use of the Riemannian gradient descent on the manifold. The spurious critical points are some rank-deficient matrices that capture only part of the SVD components of the ground truth. They exhibit very singular behavior and evade the classical analysis of strict saddle points. We show that using the dynamical low-rank approximation and a rescaled gradient flow, some of the spurious critical points can be converted to classical strict saddle points, which leads to the desired result. Numerical experiments are provided to support our theoretical findings.
翻訳日:2021-07-21 15:03:34 公開日:2021-07-20
# 行列記法におけるバックプロパゲーションアルゴリズムの帰納的証明

An induction proof of the backpropagation algorithm in matrix notation ( http://arxiv.org/abs/2107.09384v1 )

ライセンス: Link先を確認
Dirk Ostwald and Franziska Us\'ee(参考訳) バックプロパゲーション(BP)は、ニューラルネットワークの現代の深層学習のコアコンポーネントである。 簡単に言うと、BPはニューラルネットワークの計算アーキテクチャを利用して、ニューラルネットワークパラメータ最適化時のコスト関数の勾配を効率的に評価するアルゴリズムである。 BPの有効性は、ニューラルネットワークの計算アーキテクチャとその関連する目的関数への多変量連鎖則の適用にかかっている。 ディープラーニング理論の導入は、一般にニューラルネットワークの行列形式による計算アーキテクチャを提示するが、行列微分計算の枠組みにおいて、BPの並列的な定式化と正当化を行う。 これには、深層学習の理論と実践にいくつかの欠点が伴う。 本研究では,行列表記におけるBPアルゴリズムの完全な帰納証明を提供することにより,これらの制限を克服する。 具体的には,行列微分計算の枠組みにBPアルゴリズムを配置し,アフィン線形ポテンシャル関数を包含し,BPアルゴリズムの帰納形式の有効性を証明し,行列形式BPアルゴリズムの実装をコンピュータコードで実証する。

Backpropagation (BP) is a core component of the contemporary deep learning incarnation of neural networks. Briefly, BP is an algorithm that exploits the computational architecture of neural networks to efficiently evaluate the gradient of a cost function during neural network parameter optimization. The validity of BP rests on the application of a multivariate chain rule to the computational architecture of neural networks and their associated objective functions. Introductions to deep learning theory commonly present the computational architecture of neural networks in matrix form, but eschew a parallel formulation and justification of BP in the framework of matrix differential calculus. This entails several drawbacks for the theory and didactics of deep learning. In this work, we overcome these limitations by providing a full induction proof of the BP algorithm in matrix notation. Specifically, we situate the BP algorithm in the framework of matrix differential calculus, encompass affine-linear potential functions, prove the validity of the BP algorithm in inductive form, and exemplify the implementation of the matrix form BP algorithm in computer code.
翻訳日:2021-07-21 15:03:21 公開日:2021-07-20
# 高速音声文書分割のための自己適応スライディングウィンドウを用いたシーケンスモデル

Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation ( http://arxiv.org/abs/2107.09278v1 )

ライセンス: Link先を確認
Qinglin Zhang, Qian Chen, Yali Li, Jiaqing Liu, Wen Wang(参考訳) 音声文書の自動音声認識(ASR)システムによって生成された文書には,段落などの構造的アノテーションがなく,可読性を著しく低下させる。 音声文書における段落分割の自動予測は,要約や機械読解など,読みやすさと下流NLPの性能を向上させる可能性がある。 段落分割の正確かつ効率的な自己適応的スライディングウインドウを用いたシーケンスモデルを提案する。 また,asr誤りに対する音声文書セグメンテーションのロバスト性を大幅に向上させる音声情報活用手法を提案する。 評価は、英語のwiki-727kドキュメントセグメンテーションベンチマーク、中国語のwikipediaベースのドキュメントセグメンテーションデータセット、社内の中国語ドキュメントデータセットで行われます。 提案モデルは,同一のBERTベースに基づく最新技術(SOTA)モデルより優れ,英語ベンチマークでは4.2ポイント,中国語データセットでは4.3-10.1ポイント,推定時間は現在のSOTAの1/6未満に低下する。

Transcripts generated by automatic speech recognition (ASR) systems for spoken documents lack structural annotations such as paragraphs, significantly reducing their readability. Automatically predicting paragraph segmentation for spoken documents may both improve readability and downstream NLP performance such as summarization and machine reading comprehension. We propose a sequence model with self-adaptive sliding window for accurate and efficient paragraph segmentation. We also propose an approach to exploit phonetic information, which significantly improves robustness of spoken document segmentation to ASR errors. Evaluations are conducted on the English Wiki-727K document segmentation benchmark, a Chinese Wikipedia-based document segmentation dataset we created, and an in-house Chinese spoken document dataset. Our proposed model outperforms the state-of-the-art (SOTA) model based on the same BERT-Base, increasing segmentation F1 on the English benchmark by 4.2 points and on Chinese datasets by 4.3-10.1 points, while reducing inference time to less than 1/6 of inference time of the current SOTA.
翻訳日:2021-07-21 15:02:45 公開日:2021-07-20
# BoningKnife: 境界知識によるNested NERのジョイントエンティティ操作検出とタイピング

BoningKnife: Joint Entity Mention Detection and Typing for Nested NER via prior Boundary Knowledge ( http://arxiv.org/abs/2107.09429v1 )

ライセンス: Link先を確認
Huiqiang Jiang, Guoxin Wang, Weile Chen, Chengxi Zhang, B\"orje F. Karlsson(参考訳) 名前付きエンティティ認識(ner)は自然言語処理の重要なタスクであるが、ほとんどのアプローチはフラットエンティティのみを対象としており、多くのシナリオで一般的なネスト構造を無視している。 既存のネストnerメソッドの多くは、高価かつ非効率な全てのサブシーケンスをトラバースしており、ネストされたエンティティにとって重要な境界知識も考慮していない。 本稿では,ネストしたner抽出と認識タスクをよりうまく扱うために,先行境界知識(boningknife)を用いたエンティティ参照検出と型付けモデルを提案する。 BoningKnifeはMentionTaggerとTypeClassifierの2つのモジュールで構成されている。 mentiontaggerは、単なるエンティティの開始/終了以上の境界知識を活用して、ネストレベルと長いスパンの処理を改善し、高品質なレファレンス候補を生成する。 TypeClassifierは2レベルアテンションメカニズムを使用して、異なるネストレベルの表現を分離し、エンティティタイプをよりよく識別する。 共通の表現を共有するモジュールと、新しいデュアル情報アテンション層の両方を共同で訓練し、エンティティ関連情報への表現焦点の改善に繋がる。 異なるデータセットに対する実験により、我々の手法は従来の手法よりも優れており、ACE2004、ACE2005、NNEの86.41、85.46、94.2のF1スコアを達成した。

While named entity recognition (NER) is a key task in natural language processing, most approaches only target flat entities, ignoring nested structures which are common in many scenarios. Most existing nested NER methods traverse all sub-sequences which is both expensive and inefficient, and also don't well consider boundary knowledge which is significant for nested entities. In this paper, we propose a joint entity mention detection and typing model via prior boundary knowledge (BoningKnife) to better handle nested NER extraction and recognition tasks. BoningKnife consists of two modules, MentionTagger and TypeClassifier. MentionTagger better leverages boundary knowledge beyond just entity start/end to improve the handling of nesting levels and longer spans, while generating high quality mention candidates. TypeClassifier utilizes a two-level attention mechanism to decouple different nested level representations and better distinguish entity types. We jointly train both modules sharing a common representation and a new dual-info attention layer, which leads to improved representation focus on entity-related information. Experiments over different datasets show that our approach outperforms previous state of the art methods and achieves 86.41, 85.46, and 94.2 F1 scores on ACE2004, ACE2005, and NNE, respectively.
翻訳日:2021-07-21 15:02:24 公開日:2021-07-20
# 言語モデル適応のための種単語に基づくデータ選択

Seed Words Based Data Selection for Language Model Adaptation ( http://arxiv.org/abs/2107.09433v1 )

ライセンス: Link先を確認
Roberto Gretter, Marco Matassoni, Daniele Falavigna(参考訳) 我々は、ASRコンポーネントがドメイン固有の用語を管理する必要があるアプリケーションにおける言語モデルカスタマイズの問題に対処する。現在最先端の音声認識技術は汎用ドメインに優れた結果をもたらすが、専門辞書や用語集への適応は依然として未解決の問題である。 本稿では,テキストコーパスから,意味的にも形態的にも,ユーザによって提供された単語(単語や複合語)の用語集にマッチする文を自動的に選択する手法を提案する。 最終ゴールは、言語領域にうまく対処するために、限られたドメイン内テキストデータでハイブリッドASRシステムの言語モデルを迅速に適応することであり、ベースラインモデルの語彙を拡大調整し、OOVレートを低減させる。 浅い形態素の種と2vecによる意味的類似性に基づくデータ選択戦略を導入し議論し、3つの言語におけるASRがドメイン固有項(すなわち、ドメイン固有項)を認識するように設計された同時解釈シナリオからなる。 歯科医)。 異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。

We address the problem of language model customization in applications where the ASR component needs to manage domain-specific terminology; although current state-of-the-art speech recognition technology provides excellent results for generic domains, the adaptation to specialized dictionaries or glossaries is still an open issue. In this work we present an approach for automatically selecting sentences, from a text corpus, that match, both semantically and morphologically, a glossary of terms (words or composite words) furnished by the user. The final goal is to rapidly adapt the language model of an hybrid ASR system with a limited amount of in-domain text data in order to successfully cope with the linguistic domain at hand; the vocabulary of the baseline model is expanded and tailored, reducing the resulting OOV rate. Data selection strategies based on shallow morphological seeds and semantic similarity viaword2vec are introduced and discussed; the experimental setting consists in a simultaneous interpreting scenario, where ASRs in three languages are designed to recognize the domain-specific terms (i.e. dentistry). Results using different metrics (OOV rate, WER, precision and recall) show the effectiveness of the proposed techniques.
翻訳日:2021-07-21 15:02:00 公開日:2021-07-20
# 医療対話システムのためのキャリブレーションによる学習ulmfitと自己蒸留

Learning ULMFiT and Self-Distillation with Calibration for Medical Dialogue System ( http://arxiv.org/abs/2107.09625v1 )

ライセンス: Link先を確認
Shuang Ao, Xeno Acharya(参考訳) 医療サービスには医療対話システムが不可欠であり、主要な臨床アドバイスと診断を提供する。 NLPの進歩により、会話ボットという形で医療機関で徐々に採用され、実践されてきた。 近年,Universal Language Model Fine Tuning(ULMFiT)やKD(Knowledge Distillation)といった最先端のディープラーニングモデルの導入は,NLPタスクのパフォーマンスに大きく貢献している。 しかし、いくつかのディープニューラルネットワークは、不確かさを誤って推定している。 したがって、特に機密性の高い医療意思決定システムや安全タスクにおいて、モデルは信頼できない。 本稿では,医療対話システムにおけるUDMFiTと自己蒸留(SD)の校正モデルについて検討する。 校正されたulmfit (culmfit) は、よく調整されたモデルを達成するためによく使われる正規化技法であるラベル平滑化 (ls) を組み込んだものである。 さらに, 温度スケーリング (TS) と呼ばれる信頼性スコアをKDに補正し, ネットワークキャリブレーションとの相関性について検討した。 sdとキャリブレーションの関係をさらに理解するために,モデル全体を微調整するために,固定温度と最適温度の両方を用いる。 すべての実験は専門家が収集したコンサルテーションバックペインデータセットに基づいて行われ、さらに大規模な公開対話コーパスを用いて検証される。 提案手法が従来の手法よりも精度と堅牢性で優れていることを示す。

A medical dialogue system is essential for healthcare service as providing primary clinical advice and diagnoses. It has been gradually adopted and practiced in medical organizations in the form of a conversational bot, largely due to the advancement of NLP. In recent years, the introduction of state-of-the-art deep learning models and transfer learning techniques like Universal Language Model Fine Tuning (ULMFiT) and Knowledge Distillation (KD) largely contributes to the performance of NLP tasks. However, some deep neural networks are poorly calibrated and wrongly estimate the uncertainty. Hence the model is not trustworthy, especially in sensitive medical decision-making systems and safety tasks. In this paper, we investigate the well-calibrated model for ULMFiT and self-distillation (SD) in a medical dialogue system. The calibrated ULMFiT (CULMFiT) is obtained by incorporating label smoothing (LS), a commonly used regularization technique to achieve a well-calibrated model. Moreover, we apply the technique to recalibrate the confidence score called temperature scaling (TS) with KD to observe its correlation with network calibration. To further understand the relation between SD and calibration, we use both fixed and optimal temperatures to fine-tune the whole model. All experiments are conducted on the consultation backpain dataset collected by experts then further validated using a large publicly medial dialogue corpus. We empirically show that our proposed methodologies outperform conventional methods in terms of accuracy and robustness.
翻訳日:2021-07-21 15:01:41 公開日:2021-07-20
# MIMO:医療表象学習のための患者ガイドと医療オントロジーの相互統合

MIMO: Mutual Integration of Patient Journey and Medical Ontology for Healthcare Representation Learning ( http://arxiv.org/abs/2107.09288v1 )

ライセンス: Link先を確認
Xueping Peng and and Guodong Long and Tao Shen and Sen Wang and Zhendong Niu and Chengqi Zhang(参考訳) EHR(Electronic Health Record)における医療表現学習は、医療分野における予測分析に不可欠であると考えられている。 word2vec, RNN, self-attention などの自然言語処理技術は階層的および時間的にスタンプされた EHR データに適応しているが、汎用データやタスク固有のデータがない場合には失敗する。 そのため、医療オントロジー(a.k.a.)を取り入れて医療表現を訓練する最近の作品もある。 ナレッジグラフ)は, 診断予測などの自己監督タスクにより, (1) 小規模単調なオントロジーは頑健な学習には不十分であり, (2) 患者旅行の基礎となる重要な文脈や依存関係は, オントロジー学習を強化するために利用されない。 そこで本研究では,医療表現学習と予測分析のためのエンドツーエンドのロバストなトランスフォーマーソリューション,患者旅行と医療オントロジー(mimo)の相互統合を提案する。 具体的には、タスク固有の表現学習と、患者旅行と医療オントロジーの両方を対話的に学習するグラフ埋め込みモジュールから構成される。 これにより、医療表現学習と医療オントロジー埋め込みの両方に利益をもたらす相互統合が生まれます。 さらに,2つのモジュールの融合埋め込みに基づいて,タスク固有の予測型とオントロジーに基づく疾患タイピングタスクを共同でトレーニングすることで,そのような統合を実現する。 2つの実世界の診断予測データセットを用いて行った実験により、我々の医療表現モデルMIMOは、十分なトレーニングデータや不十分なトレーニングデータにかかわらず、過去の最先端アプローチよりも優れた予測結果を得るだけでなく、診断の解釈可能な埋め込みも導き出すことが示された。

Healthcare representation learning on the Electronic Health Record (EHR) is seen as crucial for predictive analytics in the medical field. Many natural language processing techniques, such as word2vec, RNN and self-attention, have been adapted for use in hierarchical and time stamped EHR data, but fail when they lack either general or task-specific data. Hence, some recent works train healthcare representations by incorporating medical ontology (a.k.a. knowledge graph), by self-supervised tasks like diagnosis prediction, but (1) the small-scale, monotonous ontology is insufficient for robust learning, and (2) critical contexts or dependencies underlying patient journeys are never exploited to enhance ontology learning. To address this, we propose an end-to-end robust Transformer-based solution, Mutual Integration of patient journey and Medical Ontology (MIMO) for healthcare representation learning and predictive analytics. Specifically, it consists of task-specific representation learning and graph-embedding modules to learn both patient journey and medical ontology interactively. Consequently, this creates a mutual integration to benefit both healthcare representation learning and medical ontology embedding. Moreover, such integration is achieved by a joint training of both task-specific predictive and ontology-based disease typing tasks based on fused embeddings of the two modules. Experiments conducted on two real-world diagnosis prediction datasets show that, our healthcare representation model MIMO not only achieves better predictive results than previous state-of-the-art approaches regardless of sufficient or insufficient training data, but also derives more interpretable embeddings of diagnoses.
翻訳日:2021-07-21 15:01:19 公開日:2021-07-20
# 意味とテクスチャの適応融合による注意誘導NIR画像のカラー化

Attention-Guided NIR Image Colorization via Adaptive Fusion of Semantic and Texture Clues ( http://arxiv.org/abs/2107.09237v1 )

ライセンス: Link先を確認
Xingxing Yang, Jie Chen, Zaifeng Yang, and Zhenghua Chen(参考訳) 近赤外(NIR)イメージングは、低照度イメージングのシナリオに広く応用されているが、人間やアルゴリズムが無色のNIR領域の実際のシーンを認識することは困難である。 様々な画像カラー化タスクにおいてgan(generative adversarial network)が広く採用されている一方で、正しい意味的推論、保存状態のよいテクスチャ、鮮やかな色の組み合わせでnirからrgbドメインへ画像を変換する従来のganのような直接マッピング機構が課題となっている。 そこで本研究では,セマンティクスとテクスチャのヒントを適応的に融合し,同じ枠組みでこれらの目標を達成することを目的とした,新しい注意に基づくnirイメージカラー化フレームワークを提案する。 テクスチャ転送と意味推論のタスクは、2つの別々のネットワークブロックで実行される。 具体的には、テクスチャ転送ブロック(TTB)は、NIR画像のラプラシアン成分からテクスチャの特徴を抽出し、色融合のためにそれらを転送することを目的としている。 セマンティック推論ブロック(SRB)は意味的手がかりを抽出し、NIRピクセル値をRGBドメインにマッピングする。 最後に、2つのブランチから特徴を適応的に融合させ、最適化された色付け結果を生成するために、Fusion Attention Block (FAB)を提案する。 セマンティック推論におけるネットワークの学習能力の向上とテクスチャ伝達におけるマッピング精度の向上を目的として,協調的注意を学習フレームワークに組み込んだResidual Coordinate Attention Block (RCAB)を提案し,ネットワークがチャネル方向に沿った長距離依存性を捕捉し,空間方向に沿って正確な位置情報を保存できるようにする。 RCABはFABにも組み込まれ、融合時の正確なテクスチャアライメントを容易にする。 定量評価と定性評価の両方で,提案手法は最先端のNIR画像のカラー化方法よりも優れていた。

Near infrared (NIR) imaging has been widely applied in low-light imaging scenarios; however, it is difficult for human and algorithms to perceive the real scene in the colorless NIR domain. While Generative Adversarial Network (GAN) has been widely employed in various image colorization tasks, it is challenging for a direct mapping mechanism, such as a conventional GAN, to transform an image from the NIR to the RGB domain with correct semantic reasoning, well-preserved textures, and vivid color combinations concurrently. In this work, we propose a novel Attention-based NIR image colorization framework via Adaptive Fusion of Semantic and Texture clues, aiming at achieving these goals within the same framework. The tasks of texture transfer and semantic reasoning are carried out in two separate network blocks. Specifically, the Texture Transfer Block (TTB) aims at extracting texture features from the NIR image's Laplacian component and transferring them for subsequent color fusion. The Semantic Reasoning Block (SRB) extracts semantic clues and maps the NIR pixel values to the RGB domain. Finally, a Fusion Attention Block (FAB) is proposed to adaptively fuse the features from the two branches and generate an optimized colorization result. In order to enhance the network's learning capacity in semantic reasoning as well as mapping precision in texture transfer, we have proposed the Residual Coordinate Attention Block (RCAB), which incorporates coordinate attention into a residual learning framework, enabling the network to capture long-range dependencies along the channel direction and meanwhile precise positional information can be preserved along spatial directions. RCAB is also incorporated into FAB to facilitate accurate texture alignment during fusion. Both quantitative and qualitative evaluations show that the proposed method outperforms state-of-the-art NIR image colorization methods.
翻訳日:2021-07-21 15:00:30 公開日:2021-07-20
# view-learnable contrastive learningによるマイナショット分類の促進

Boosting few-shot classification with view-learnable contrastive learning ( http://arxiv.org/abs/2107.09242v1 )

ライセンス: Link先を確認
Xu Luo, Yuxuan Chen, Liangjian Wen, Lili Pan, Zenglin Xu(参考訳) 少数ショット分類の目標は、各クラス内のラベル付き例の少ない新しいカテゴリを分類することである。 近年, メタラーニング手法を用いて, 数発の分類問題に対処する上で, 優れた性能を示す。 しかし,従来の手法では,細粒度ラベルを使わずに埋め込み空間内の細粒度サブカテゴリを判別することは困難である。 これは細粒度のサブカテゴリに対する不十分な一般化につながり、モデル解釈に影響を与える可能性がある。 この問題に対処するために,埋め込み空間の細粒度構造を学習するために,いくつかのショット分類に対照的な損失を導入する。 さらに、雑音や不正確な画像ペアを生成する際に、現在のコントラスト学習で使われるランダムな画像変換の欠点を克服するために、同じ画像の異なるビューを自動的に生成する学習-学習アルゴリズムを開発する。 標準のマイトショット学習ベンチマークに関する広範囲な実験により,本手法の優位性が示された。

The goal of few-shot classification is to classify new categories with few labeled examples within each class. Nowadays, the excellent performance in handling few-shot classification problems is shown by metric-based meta-learning methods. However, it is very hard for previous methods to discriminate the fine-grained sub-categories in the embedding space without fine-grained labels. This may lead to unsatisfactory generalization to fine-grained subcategories, and thus affects model interpretation. To tackle this problem, we introduce the contrastive loss into few-shot classification for learning latent fine-grained structure in the embedding space. Furthermore, to overcome the drawbacks of random image transformation used in current contrastive learning in producing noisy and inaccurate image pairs (i.e., views), we develop a learning-to-learn algorithm to automatically generate different views of the same image. Extensive experiments on standard few-shot learning benchmarks demonstrate the superiority of our method.
翻訳日:2021-07-21 14:59:55 公開日:2021-07-20
# 自己スーパービジョンを用いたテスト時間集約によるテスト非依存なロングテール認識

Test-Agnostic Long-Tailed Recognition by Test-Time Aggregating Diverse Experts with Self-Supervision ( http://arxiv.org/abs/2107.09249v1 )

ライセンス: Link先を確認
Yifan Zhang, Bryan Hooi, Lanqing Hong, Jiashi Feng(参考訳) 既存のロングテール認識法は、ロングテールデータからクラスバランスモデルを訓練することを目的としており、一般にモデルが一様テストクラス分布で評価されることを想定している。 しかし、実用的なテストクラス分布は、しばしばそのような仮定(例えば、ロングテールまたは逆ロングテール)に違反し、既存のメソッドが現実世界のアプリケーションで失敗する可能性がある。 本研究では,テストクラス分布が不明で任意に歪むことが可能な,より実用的なタスク設定であるテスト非依存ロングテール認識について検討する。 クラス不均衡の問題に加えて、このタスクには別の課題がある。トレーニングとテストサンプルの間のクラス分散シフトは、不明である。 この課題に対処するために,(1)ロングテールのトレーニング分布から異なるテスト分布を処理するために,多様な専門家を訓練する新しいスキル・ディバース・エキスパート学習戦略,(2)セルフスーパービジョンを利用して複数の専門家を集約して様々なテスト分布を処理する新しいテスト・タイム・エキスパート集約戦略,という2つの解決戦略を提案する。 さらに,本手法は未知のテストクラス分布をシミュレートできることを示す。 バニラとテスト非依存のロングテール認識の結果から,TADEの有効性が検証された。 コードはhttps://github.com/V anint/TADE-AgnosticL Tで入手できる。

Existing long-tailed recognition methods, aiming to train class-balance models from long-tailed data, generally assume the models would be evaluated on the uniform test class distribution. However, the practical test class distribution often violates such an assumption (e.g., being long-tailed or even inversely long-tailed), which would lead existing methods to fail in real-world applications. In this work, we study a more practical task setting, called test-agnostic long-tailed recognition, where the training class distribution is long-tailed while the test class distribution is unknown and can be skewed arbitrarily. In addition to the issue of class imbalance, this task poses another challenge: the class distribution shift between the training and test samples is unidentified. To address this task, we propose a new method, called Test-time Aggregating Diverse Experts (TADE), that presents two solution strategies: (1) a novel skill-diverse expert learning strategy that trains diverse experts to excel at handling different test distributions from a single long-tailed training distribution; (2) a novel test-time expert aggregation strategy that leverages self-supervision to aggregate multiple experts for handling various test distributions. Moreover, we theoretically show that our method has provable ability to simulate unknown test class distributions. Promising results on both vanilla and test-agnostic long-tailed recognition verify the effectiveness of TADE. Code is available at https://github.com/V anint/TADE-AgnosticL T.
翻訳日:2021-07-21 14:59:40 公開日:2021-07-20
# 画像認識のための位置認識型チャネルワイドドロップアウト

Locality-aware Channel-wise Dropout for Occluded Face Recognition ( http://arxiv.org/abs/2107.09270v1 )

ライセンス: Link先を確認
Mingjie He, Jie Zhang, Shiguang Shan, Xiao Liu, Zhongqin Wu, Xilin Chen(参考訳) 顔認識は、特に顔が部分的に隠されている場合、制約のないシナリオでは難しい課題である。 閉塞に対する堅牢性を向上させるため,人工閉塞によるトレーニング画像の増強が有用であることが証明された。 しかしながら、これらの人工閉塞は一般的に、現実的な閉塞を十分にシミュレートできない黒い長方形またはサングラス、スカーフ、電話を含むいくつかのオブジェクトテンプレートを追加することで生成される。 本稿では,神経細胞群を本質的に損傷させるという主張に基づいて,ニューロン群の活性化を精巧に選択したチャネルに落とすことによって,新規でエレガントなオクルージョンシミュレーション法を提案する。 具体的には、まず、各特徴チャネルが局所的および異なる顔領域に応答するように促すために、空間正規化を用いる。 このようにして、局所領域の閉塞によって影響を受ける活性化は、単一の特徴チャネルにある可能性が高い。 次に、局所性認識チャネルワイズドロップアウト(lcd)は、機能チャネル全体をドロップアウトして閉塞をシミュレートするように設計されている。 さらに,複数の特徴チャネルをランダムに削除することで,より広い領域の閉塞をシミュレートすることができる。 提案したLCDは, 閉塞によるクラス内特徴分散を最小限に抑え, 閉塞に対する堅牢性を向上させることができる。 さらに,特徴チャネルの重み付けを行うために,チャネル毎の注意ベクトルを学習することで補助空間的注意モジュールを設計し,非閉塞領域の寄与度を向上させる。 様々なベンチマーク実験により,提案手法は最先端の手法よりも優れた性能を発揮した。

Face recognition remains a challenging task in unconstrained scenarios, especially when faces are partially occluded. To improve the robustness against occlusion, augmenting the training images with artificial occlusions has been proved as a useful approach. However, these artificial occlusions are commonly generated by adding a black rectangle or several object templates including sunglasses, scarfs and phones, which cannot well simulate the realistic occlusions. In this paper, based on the argument that the occlusion essentially damages a group of neurons, we propose a novel and elegant occlusion-simulation method via dropping the activations of a group of neurons in some elaborately selected channel. Specifically, we first employ a spatial regularization to encourage each feature channel to respond to local and different face regions. In this way, the activations affected by an occlusion in a local region are more likely to be located in a single feature channel. Then, the locality-aware channel-wise dropout (LCD) is designed to simulate the occlusion by dropping out the entire feature channel. Furthermore, by randomly dropping out several feature channels, our method can well simulate the occlusion of larger area. The proposed LCD can encourage its succeeding layers to minimize the intra-class feature variance caused by occlusions, thus leading to improved robustness against occlusion. In addition, we design an auxiliary spatial attention module by learning a channel-wise attention vector to reweight the feature channels, which improves the contributions of non-occluded regions. Extensive experiments on various benchmarks show that the proposed method outperforms state-of-the-art methods with a remarkable improvement.
翻訳日:2021-07-21 14:59:12 公開日:2021-07-20
# ディープラーニングによるデータ隠蔽: デジタル透かしとステガノグラフィの統合調査

Data Hiding with Deep Learning: A Survey Unifying Digital Watermarking and Steganography ( http://arxiv.org/abs/2107.09287v1 )

ライセンス: Link先を確認
Olivia Byrnes, Wendy La, Hu Wang, Congbo Ma, Minhui Xue, Qi Wu(参考訳) データ隠蔽は、音声、ビデオ、画像などのノイズに耐性のある信号に情報を埋め込むプロセスである。 デジタル透かし(Digital watermarking)は、データの識別が堅牢に埋め込まれ、改ざんに抵抗し、元のメディア所有者を識別するために使用できるデータ隠蔽の一種である。 ステガノグラフィー(Steganography)は、セキュアで秘密のコミュニケーションを目的としたデータを埋め込みます。 この調査は、透かしとステガノグラフィーのための深層学習技術の最近の発展を要約し、それらをモデルアーキテクチャとノイズ注入法に基づいて分類する。 これらのデータ隠蔽モデルのトレーニングに使用される客観的関数、評価メトリクス、データセットは、包括的に要約される。 最後に,深層データ隠蔽技術の研究の今後の方向性について提案・検討する。

Data hiding is the process of embedding information into a noise-tolerant signal such as a piece of audio, video, or image. Digital watermarking is a form of data hiding where identifying data is robustly embedded so that it can resist tampering and be used to identify the original owners of the media. Steganography, another form of data hiding, embeds data for the purpose of secure and secret communication. This survey summarises recent developments in deep learning techniques for data hiding for the purposes of watermarking and steganography, categorising them based on model architectures and noise injection methods. The objective functions, evaluation metrics, and datasets used for training these data hiding models are comprehensively summarised. Finally, we propose and discuss possible future directions for research into deep data hiding techniques.
翻訳日:2021-07-21 14:58:43 公開日:2021-07-20
# P分類を用いた擬似ラベル選択による不完全アノテーションからの細胞検出

Cell Detection from Imperfect Annotation by Pseudo Label Selection Using P-classification ( http://arxiv.org/abs/2107.09289v1 )

ライセンス: Link先を確認
Kazuma Fujii, Suehiro Daiki, Nishimura Kazuya, Bise Ryoma(参考訳) 細胞検出は細胞画像解析において重要な課題である。 近年のディープラーニングに基づく検出手法は非常に有望な成果を上げている。 一般に、これらの方法は全画像中の細胞に徹底的にアノテートする必要がある。 細胞の一部に注釈が付かない場合(不完全アノテーション)、ノイズラベルによる検出性能は著しく低下する。 これはしばしば生物学者と実際のコラボレーションや、公開データセットでも発生する。 提案手法は,不完全なアノテートデータからの細胞検出に擬似ラベリング手法を用いる。 このようなラベル付きデータを用いてトレーニングされた検出畳み込みニューラルネットワーク(CNN)は、しばしば過剰検出を生成する。 部分標識細胞を正の試料とし, 検出された位置を未標識細胞として処理した。 次に,最近の機械学習手法であるp-unlabeled(pu)学習とp-classificationを用いて,ラベルなしデータから信頼できる擬似ラベルを選択する。 5つの異なる条件における顕微鏡画像を用いた実験により,提案手法の有効性が示された。

Cell detection is an essential task in cell image analysis. Recent deep learning-based detection methods have achieved very promising results. In general, these methods require exhaustively annotating the cells in an entire image. If some of the cells are not annotated (imperfect annotation), the detection performance significantly degrades due to noisy labels. This often occurs in real collaborations with biologists and even in public data-sets. Our proposed method takes a pseudo labeling approach for cell detection from imperfect annotated data. A detection convolutional neural network (CNN) trained using such missing labeled data often produces over-detection. We treat partially labeled cells as positive samples and the detected positions except for the labeled cell as unlabeled samples. Then we select reliable pseudo labels from unlabeled data using recent machine learning techniques; positive-and-unlabel ed (PU) learning and P-classification. Experiments using microscopy images for five different conditions demonstrate the effectiveness of the proposed method.
翻訳日:2021-07-21 14:58:27 公開日:2021-07-20
# SynthTIGER: より良いテキスト認識モデルに向けた合成テキストイメージGEneratoR

SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text Recognition Models ( http://arxiv.org/abs/2107.09313v1 )

ライセンス: Link先を確認
Moonbin Yim, Yoonsik Kim, Han-Cheol Cho and Sungrae Park(参考訳) シーンテキスト認識(STR)モデルの成功のために、合成テキスト画像生成装置は、実世界の注釈付きテキスト画像の欠如を緩和した。 具体的には、さまざまな背景、フォントスタイル、テキスト形状を持つ複数のテキストイメージを生成し、STRモデルが手動で注釈付けされたデータからアクセスできない可能性のある視覚パターンを学習できるようにする。 本稿では,テキスト画像合成のための技術を分析し,単一のアルゴリズムで有効なものを統合することで,新しい合成テキスト画像生成装置synthtigerを提案する。 さらに,トレーニングデータの長さと文字分布のロングテール問題を緩和する2つの手法を提案する。 我々の実験では、SynthTIGERは合成データセット、MJSynth(MJ)およびSynthText(ST)の組み合わせよりも優れたSTR性能を実現する。 本研究はsynthtigerのサブコンポーネントとstrモデルのための合成テキスト画像生成ガイドラインを用いることの利点を示す。 実装はhttps://github.com/c lovaai/synthtigerで公開しています。

For successful scene text recognition (STR) models, synthetic text image generators have alleviated the lack of annotated text images from the real world. Specifically, they generate multiple text images with diverse backgrounds, font styles, and text shapes and enable STR models to learn visual patterns that might not be accessible from manually annotated data. In this paper, we introduce a new synthetic text image generator, SynthTIGER, by analyzing techniques used for text image synthesis and integrating effective ones under a single algorithm. Moreover, we propose two techniques that alleviate the long-tail problem in length and character distributions of training data. In our experiments, SynthTIGER achieves better STR performance than the combination of synthetic datasets, MJSynth (MJ) and SynthText (ST). Our ablation study demonstrates the benefits of using sub-components of SynthTIGER and the guideline on generating synthetic text images for STR models. Our implementation is publicly available at https://github.com/c lovaai/synthtiger.
翻訳日:2021-07-21 14:58:16 公開日:2021-07-20
# 医療画像解析におけるプライバシー保護的説明に向けて

Towards Privacy-preserving Explanations in Medical Image Analysis ( http://arxiv.org/abs/2107.09652v1 )

ライセンス: Link先を確認
H. Montenegro, W. Silva, J. S. Cardoso(参考訳) 医学分野におけるDeep Learningの使用は、解釈可能性の欠如によって妨げられている。 ケースベースの解釈可能性戦略は、ディープラーニングモデルの決定を直感的に説明し、信頼を高める。 しかし、結果として得られた説明は患者のプライバシーを脅かし、医療データの仕様と互換性のあるプライバシー保存方法の開発を動機付ける。 本研究では,既存のプライバシ保護手法とその医療データの匿名化能力について,疾患関連セマンティックな特徴を保ちながら分析する。 PPRL-VGAN深層学習法は, 疾患関連セマンティックな特徴の保存に最適であり, 比較した最先端手法のプライバシの高さを保証できた。 それにもかかわらず、既存のすべてのプライバシ保存アプローチの欠点を特定するため、医療画像のプライバシ保存方法の改善の必要性を強調した。

The use of Deep Learning in the medical field is hindered by the lack of interpretability. Case-based interpretability strategies can provide intuitive explanations for deep learning models' decisions, thus, enhancing trust. However, the resulting explanations threaten patient privacy, motivating the development of privacy-preserving methods compatible with the specifics of medical data. In this work, we analyze existing privacy-preserving methods and their respective capacity to anonymize medical data while preserving disease-related semantic features. We find that the PPRL-VGAN deep learning method was the best at preserving the disease-related semantic features while guaranteeing a high level of privacy among the compared state-of-the-art methods. Nevertheless, we emphasize the need to improve privacy-preserving methods for medical imaging, as we identified relevant drawbacks in all existing privacy-preserving approaches.
翻訳日:2021-07-21 14:57:40 公開日:2021-07-20
# 共有関心:人間-AIアライメント測定によるモデル行動の大規模視覚分析

Shared Interest: Large-Scale Visual Analysis of Model Behavior by Measuring Human-AI Alignment ( http://arxiv.org/abs/2107.09234v1 )

ライセンス: Link先を確認
Angie Boggust, Benjamin Hoover, Arvind Satyanarayan, Hendrik Strobelt(参考訳) モデルのアウトプットにおける入力機能の重要性を識別するサリエンシーメソッドは、ニューラルネットワークの動作を理解するための一般的な第一歩です。 しかし, モデル行動のパターンを識別・集約するためには, 面倒な手作業による検査が必要である。 これらの懸念に対処するため、私たちは、人間の注釈付き真実と唾液度を比較するための指標であるShared Interestを紹介した。 定量的記述子を提供することで、Shared Interestは入力のランク付け、ソート、集約を可能にし、モデル行動の大規模な体系的解析を容易にする。 共有興味(Shared Interest)は、基礎となる真実の特徴の十分なサブセットに焦点を当てたり、文脈的特徴に気を取られたりするなど、モデル行動における8つの繰り返しパターンを特定するために使われます。 実世界の代表的なユーザと協力することで,モデルの信頼性に対する信頼を急速に発展あるいは失うこと,手作業による分析で見落としている問題を明らかにすること,モデルの振る舞いをインタラクティブに検出することを可能にすること,などが期待できる。

Saliency methods -- techniques to identify the importance of input features on a model's output -- are a common first step in understanding neural network behavior. However, interpreting saliency requires tedious manual inspection to identify and aggregate patterns in model behavior, resulting in ad hoc or cherry-picked analysis. To address these concerns, we present Shared Interest: a set of metrics for comparing saliency with human annotated ground truths. By providing quantitative descriptors, Shared Interest allows ranking, sorting, and aggregation of inputs thereby facilitating large-scale systematic analysis of model behavior. We use Shared Interest to identify eight recurring patterns in model behavior including focusing on a sufficient subset of ground truth features or being distracted by contextual features. Working with representative real-world users, we show how Shared Interest can be used to rapidly develop or lose trust in a model's reliability, uncover issues that are missed in manual analyses, and enable interactive probing of model behavior.
翻訳日:2021-07-21 14:56:35 公開日:2021-07-20
# OPAL:オフラインの嗜好に基づく承認学習

OPAL: Offline Preference-Based Apprenticeship Learning ( http://arxiv.org/abs/2107.09251v1 )

ライセンス: Link先を確認
Daniel Shin, Daniel S. Brown(参考訳) 我々は,(1)人間の意図を識別し,(2)自律システムの振る舞いを安全に最適化して,この推定意図を達成するために,自律システムが学習し,適応し,協力するために直面する2つの課題に,事前(おそらくランダムな)経験のオフラインデータセットを用いて対処する方法について検討する。 まず、オフラインデータセットを使用して、プールベースのアクティブな好み学習を通じて、人間の報酬関数を効率的に推測する。 第2に,この学習報酬関数により,推定された人間の意図に基づく方針を最適化するためにオフライン強化学習を行う。 重要なこととして,提案手法は,報酬学習と政策最適化のいずれにおいても,実際の物理的なロールアウトや正確なシミュレータを必要としない。 我々は、オフライン報酬学習に適した既存のオフラインRLベンチマークのサブセットに対するアプローチを特定し評価するとともに、よりオープンな振る舞いを可能にするこれらのベンチマークの拡張を評価する。 実験の結果,オフラインの嗜好に基づく報奨学習とオフラインの強化学習は,少数の嗜好クエリしか必要とせず,効率的かつ高パフォーマンスなポリシーを実現することがわかった。 ビデオはhttps://sites.google .com/view/offline-pr efsで閲覧できる。

We study how an offline dataset of prior (possibly random) experience can be used to address two challenges that autonomous systems face when they endeavor to learn from, adapt to, and collaborate with humans : (1) identifying the human's intent and (2) safely optimizing the autonomous system's behavior to achieve this inferred intent. First, we use the offline dataset to efficiently infer the human's reward function via pool-based active preference learning. Second, given this learned reward function, we perform offline reinforcement learning to optimize a policy based on the inferred human intent. Crucially, our proposed approach does not require actual physical rollouts or an accurate simulator for either the reward learning or policy optimization steps, enabling both safe and efficient apprenticeship learning. We identify and evaluate our approach on a subset of existing offline RL benchmarks that are well suited for offline reward learning and also evaluate extensions of these benchmarks which allow more open-ended behaviors. Our experiments show that offline preference-based reward learning followed by offline reinforcement learning enables efficient and high-performing policies, while only requiring small numbers of preference queries. Videos available at https://sites.google .com/view/offline-pr efs.
翻訳日:2021-07-21 14:56:16 公開日:2021-07-20
# ByPE-VAE:Bayesian Pseudocoresets Exemplar VAE

ByPE-VAE: Bayesian Pseudocoresets Exemplar VAE ( http://arxiv.org/abs/2107.09286v1 )

ライセンス: Link先を確認
Qingzhong Ai, Lirong He, Shiyu Liu, Zenglin Xu(参考訳) 近年の研究では、先進的な先行が深層発生モデルにおいて重要な役割を担っていることが示されている。 exemplar vaeは、exemplarベースの以前のvaeの変種として、素晴らしい結果を得た。 しかし、モデル設計の性質のため、模範的なモデルは通常、トレーニングに参加するのに大量のデータを必要とするため、計算が複雑になる。 この問題に対処するため,ベイジアン擬似コアセットに基づく新しいVAEの変種であるBayesian Pseudocoresets Exemplar VAE (ByPE-VAE)を提案する。 提案手法は,計算コストの低減とオーバーフィッティングの回避のために,データセット全体ではなく,小規模の擬似コアセットに条件付けされている。 同時に、擬似コアセットとデータセット全体に基づくKulback-Leibler分散の最小化を目的としたVAEトレーニング中に、確率最適化アルゴリズムを用いて最適な擬似コアセットを得る。 実験結果から,BYPE-VAEは,密度推定,表現学習,生成データ拡張といったタスクにおいて,最先端のVAEよりも競争力の向上を達成できることが示された。 特にベーシックなVAEアーキテクチャでは、ByPE-VAEはExemplar VAEの最大3倍の速度で性能を保っている。 コードは補足資料で利用可能です。

Recent studies show that advanced priors play a major role in deep generative models. Exemplar VAE, as a variant of VAE with an exemplar-based prior, has achieved impressive results. However, due to the nature of model design, an exemplar-based model usually requires vast amounts of data to participate in training, which leads to huge computational complexity. To address this issue, we propose Bayesian Pseudocoresets Exemplar VAE (ByPE-VAE), a new variant of VAE with a prior based on Bayesian pseudocoreset. The proposed prior is conditioned on a small-scale pseudocoreset rather than the whole dataset for reducing the computational cost and avoiding overfitting. Simultaneously, we obtain the optimal pseudocoreset via a stochastic optimization algorithm during VAE training aiming to minimize the Kullback-Leibler divergence between the prior based on the pseudocoreset and that based on the whole dataset. Experimental results show that ByPE-VAE can achieve competitive improvements over the state-of-the-art VAEs in the tasks of density estimation, representation learning, and generative data augmentation. Particularly, on a basic VAE architecture, ByPE-VAE is up to 3 times faster than Exemplar VAE while almost holding the performance. Code is available at our supplementary materials.
翻訳日:2021-07-21 14:55:54 公開日:2021-07-20
# フィードバックグラフを用いたオンライン学習のための世界ベストバウンド

Best-of-All-Worlds Bounds for Online Learning with Feedback Graphs ( http://arxiv.org/abs/2107.09572v1 )

ライセンス: Link先を確認
Liad Erez, Tomer Koren(参考訳) Mannor and Shamir (2011) が導入したフィードバックグラフフレームワークを用いてオンライン学習について検討し、オンライン学習者からのフィードバックを利用可能なアクションに対してグラフ$G$で指定する。 逆数損失を持つ$$\mathcal{O}(\theta(G)\operatorn ame{polylog}{T})$、確率的損失を持つ$\mathcal{O}(\theta(G)\operatorn ame{polylog}{T})$、確率的損失を持つ$\mathcal{O}(\theta(G)\operatorn ame{polylog}{T} + \smash{\sqrt{\theta(G)C})}$。 ここで、$\theta(G)$ はグラフ $G$ のclique被覆数である。 このアルゴリズムは, Tsallis エントロピー成分 (Zimmert and Seldin (2019) に触発された) と Shannon エントロピー成分 (Amir et al の劣化確率論的ケースで解析された) の積として見ることのできる, 新規な正規化によるFollow-the-Regulariz ed-Leader のインスタンス化である。 (2020) は2つのエントロピーの形式の間を微妙に補間する。 我々の重要な技術的貢献の1つは、複雑な積構造にもかかわらず、この正則化器の凸性を確立し、その逆 Hessian を制御することである。

We study the online learning with feedback graphs framework introduced by Mannor and Shamir (2011), in which the feedback received by the online learner is specified by a graph $G$ over the available actions. We develop an algorithm that simultaneously achieves regret bounds of the form: $\smash{\mathcal{O}(\sqrt{\theta(G) T})}$ with adversarial losses; $\mathcal{O}(\theta(G)\operatorn ame{polylog}{T})$ with stochastic losses; and $\mathcal{O}(\theta(G)\operatorn ame{polylog}{T} + \smash{\sqrt{\theta(G) C})}$ with stochastic losses subject to $C$ adversarial corruptions. Here, $\theta(G)$ is the clique covering number of the graph $G$. Our algorithm is an instantiation of Follow-the-Regulariz ed-Leader with a novel regularization that can be seen as a product of a Tsallis entropy component (inspired by Zimmert and Seldin (2019)) and a Shannon entropy component (analyzed in the corrupted stochastic case by Amir et al. (2020)), thus subtly interpolating between the two forms of entropies. One of our key technical contributions is in establishing the convexity of this regularizer and controlling its inverse Hessian, despite its complex product structure.
翻訳日:2021-07-21 14:55:00 公開日:2021-07-20
# 高精度フェデレーション学習

Precision-Weighted Federated Learning ( http://arxiv.org/abs/2107.09627v1 )

ライセンス: Link先を確認
Jonatan Reyes, Lisa Di Jorio, Cecile Low-Kam and Marta Kersten-Oertel(参考訳) federated averagingアルゴリズムを用いたフェデレーション学習は、特にプライバシの制約によってトレーニングデータが不均衡かアクセス不能かの場合に、協調学習に依存する大規模アプリケーションにおいて、大きなアドバンテージを示している。 我々は、フェデレート平均化がアグリゲーションの実行時のデータの完全均一性を過小評価していると仮定する。 本研究では,連立学習環境で訓練されたモデルのパラメータの重み付け平均を計算する際に確率勾配のばらつきを考慮した新しいアルゴリズムを提案する。 精度重み付きフェデレーション学習では,その構成に多彩な特徴がある場合,データの均一性を生かした,代替平均化スキームが提供される。 本手法は,2つの異なるデータ分割戦略(IID/Non-IID)を持つ標準画像分類データセットを用いて,モバイルやIoTデバイスなどの資源制約環境における手法の性能と速度を測定する。 精度重み付き連合学習による計算効率と収束率のバランスが良好であった。 評価の結果,MNISTは9%,Fashion-MNISTは18%,CIFAR-10は5%であった。 さらに信頼性評価を行い, iid分割で99%, 非iid分割で96%の信頼性指数を到達させることで, 安定性を検証した。 さらに,20倍の速さで10クライアント,最大37倍の速さで,コミュニケーションラウンド毎に100クライアントが同時にアグリゲーションに参加している。 その結果、精度重み付き連合学習は、特にデータが高度に異質な領域において、プライベートデータを集約するための効果的かつ高速な代替手法であることが示された。

Federated Learning using the Federated Averaging algorithm has shown great advantages for large-scale applications that rely on collaborative learning, especially when the training data is either unbalanced or inaccessible due to privacy constraints. We hypothesize that Federated Averaging underestimates the full extent of heterogeneity of data when the aggregation is performed. We propose Precision-weighted Federated Learning a novel algorithm that takes into account the variance of the stochastic gradients when computing the weighted average of the parameters of models trained in a Federated Learning setting. With Precision-weighted Federated Learning, we provide an alternate averaging scheme that leverages the heterogeneity of the data when it has a large diversity of features in its composition. Our method was evaluated using standard image classification datasets with two different data partitioning strategies (IID/non-IID) to measure the performance and speed of our method in resource-constrained environments, such as mobile and IoT devices. We obtained a good balance between computational efficiency and convergence rates with Precision-weighted Federated Learning. Our performance evaluations show 9% better predictions with MNIST, 18% with Fashion-MNIST, and 5% with CIFAR-10 in the non-IID setting. Further reliability evaluations ratify the stability in our method by reaching a 99% reliability index with IID partitions and 96% with non-IID partitions. In addition, we obtained a 20x speedup on Fashion-MNIST with only 10 clients and up to 37x with 100 clients participating in the aggregation concurrently per communication round. The results indicate that Precision-weighted Federated Learning is an effective and faster alternative approach for aggregating private data, especially in domains where data is highly heterogeneous.
翻訳日:2021-07-21 14:54:21 公開日:2021-07-20
# 統合センシングと通信によるエッジインテリジェンスの促進

Accelerating Edge Intelligence via Integrated Sensing and Communication ( http://arxiv.org/abs/2107.09574v1 )

ライセンス: Link先を確認
Tong Zhang, Shuai Wang, Guoliang Li, Fan Liu, Guangxu Zhu, and Rui Wang(参考訳) エッジインテリジェンスの実現は、センシング、コミュニケーション、トレーニング、推論段階で構成される。 従来、センシングと通信の段階は順次実行され、過剰なデータセットの生成とアップロード時間が発生する。 本稿では,統合センシング通信(ISAC)によるエッジインテリジェンスの向上を提案する。 これにより、センシングと通信の段階がマージされ、データセットの生成とアップロードの2つの目的のために無線信号を最大限に活用することができる。 しかし、isacはセンシングと通信機能の干渉も追加している。 本稿では,isacビームフォーミングと時間割当を設計するための分類誤差最小化定式化を提案する。 グローバル最適解はランク1保証半定緩和によって導出され、ISACゲインを定量化するために性能解析が行われる。 提案手法の有効性を検証するためのシミュレーション結果を提供する。 興味深いことに、センシング時間が通信時間を支配している場合、ISACは常に有益である。 しかし、通信時間が支配される場合、ISACと通信信号の間に有害な干渉をもたらすため、ISAC方式によるエッジインテリジェンスは従来の方式よりは良くない可能性がある。

Realizing edge intelligence consists of sensing, communication, training, and inference stages. Conventionally, the sensing and communication stages are executed sequentially, which results in excessive amount of dataset generation and uploading time. This paper proposes to accelerate edge intelligence via integrated sensing and communication (ISAC). As such, the sensing and communication stages are merged so as to make the best use of the wireless signals for the dual purpose of dataset generation and uploading. However, ISAC also introduces additional interference between sensing and communication functionalities. To address this challenge, this paper proposes a classification error minimization formulation to design the ISAC beamforming and time allocation. Globally optimal solution is derived via the rank-1 guaranteed semidefinite relaxation, and performance analysis is performed to quantify the ISAC gain. Simulation results are provided to verify the effectiveness of the proposed ISAC scheme. Interestingly, it is found that when the sensing time dominates the communication time, ISAC is always beneficial. However, when the communication time dominates, the edge intelligence with ISAC scheme may not be better than that with the conventional scheme, since ISAC introduces harmful interference between the sensing and communication signals.
翻訳日:2021-07-21 14:53:18 公開日:2021-07-20
# DeepSMILE: H&E全スライド画像から直接DNA損傷応答障害分類のための自己教師付き不均一性を考慮した多重学習

DeepSMILE: Self-supervised heterogeneity-aware multiple instance learning for DNA damage response defect classification directly from H&E whole-slide images ( http://arxiv.org/abs/2107.09405v1 )

ライセンス: Link先を確認
Yoni Schirris, Efstratios Gavves, Iris Nederlof, Hugo Mark Horlings, Jonas Teuwen(参考訳) 本稿では,Hematoxylin と Eosin (H&E) のスライディング画像全体 (WSIs) を解析するための深層学習に基づく弱いラベル学習手法を提案する。 We apply DeepSMILE to the task of Homologous recombination deficiency (HRD) and microsatellite instability (MSI) prediction。 対照的自己教師付き学習を用いて,癌組織の病理組織学タイルの特徴抽出装置を事前学習する。 さらに,腫瘍の多様性をモデル化しながら,可変性に着目したディープマルチインスタンス学習を用いてタイル特徴集合関数を学習する。 最先端のゲノムラベル分類法と比較して、DeepSMILEはHRDの分類性能を70.43\pm4.10\%$から8.79\pm1.25\%$AUCとMSIを78.56\pm6.24\%$から90.32\pm3.58\%$AUCに改善している。 これらの改善は、より大きなデータセットを収集することなくゲノムラベル分類性能を向上させることを示唆している。 将来的には、高価なゲノムシークエンシング技術の必要性を減らし、がん組織の広く利用可能なWSIに基づいてパーソナライズされた治療勧告を提供し、より迅速な治療決定で患者のケアを改善する可能性がある。

We propose a Deep learning-based weak label learning method for analysing whole slide images (WSIs) of Hematoxylin and Eosin (H&E) stained tumorcells not requiring pixel-level or tile-level annotations using Self-supervised pre-training and heterogeneity-aware deep Multiple Instance LEarning (DeepSMILE). We apply DeepSMILE to the task of Homologous recombination deficiency (HRD) and microsatellite instability (MSI) prediction. We utilize contrastive self-supervised learning to pre-train a feature extractor on histopathology tiles of cancer tissue. Additionally, we use variability-aware deep multiple instance learning to learn the tile feature aggregation function while modeling tumor heterogeneity. Compared to state-of-the-art genomic label classification methods, DeepSMILE improves classification performance for HRD from $70.43\pm4.10\%$ to $83.79\pm1.25\%$ AUC and MSI from $78.56\pm6.24\%$ to $90.32\pm3.58\%$ AUC in a multi-center breast and colorectal cancer dataset, respectively. These improvements suggest we can improve genomic label classification performance without collecting larger datasets. In the future, this may reduce the need for expensive genome sequencing techniques, provide personalized therapy recommendations based on widely available WSIs of cancer tissue, and improve patient care with quicker treatment decisions - also in medical centers without access to genome sequencing resources.
翻訳日:2021-07-21 14:52:16 公開日:2021-07-20
# 非造影CTによる頭蓋内頸動脈石灰化の自動化と体積測定

Automated Segmentation and Volume Measurement of Intracranial Carotid Artery Calcification on Non-Contrast CT ( http://arxiv.org/abs/2107.09442v1 )

ライセンス: Link先を確認
Gerda Bortsova, Daniel Bos, Florian Dubost, Meike W. Vernooij, M. Kamran Ikram, Gijs van Tulder, Marleen de Bruijne(参考訳) 目的:頭蓋内頸動脈石灰化(ICAC)の評価のための完全自動深層学習法を評価すること。 方法】2003年から2006年の間,ロッテルダム研究の被験者2,319名(平均年齢69歳,女性1154名)の非コントラストCTでICACを手動で分析した。 これらのデータを用いて,ICAC の自動記述とボリューム測定のための深層学習に基づく手法の開発と検証を行った。 本手法を評価するために,1) 独立オブザーバ評価(47スキャンのランダムサブセットで使用可能)との合意,2) 専門家による視覚比較によるicac評価の精度,3) スキャン日から2012年までの初回脳卒中発症との関連について,手作業と自動評価(10倍のクロスバリデーションを用いて算出)を比較した。 すべてのメソッドのパフォーマンス指標は10倍のクロスバリデーションで計算された。 結果: ICACの自動デライン化は83.8%, 正の予測値(PPV)は88%に達した。 自動的ICACボリューム測定と手動ICACボリューム測定のクラス内相関は0.98(95% CI: 0.97, 0.98)であった。 独立観測者の評価では、感度は73.9%、PVは89.5%、クラス内相関は0.91(95% CI: 0.84, 0.95、47-scanサブセットで計算)であった。 視覚的比較では、手動よりも自動的記述の方が正確であった(p-value = 0.01)。 ICACボリュームとインシデントストロークの関連は同様に、自動(ハザード比 1.38 (95% CI: 1.12, 1.75) と手動測定ボリューム (ハザード比 1.48 (95% CI: 1.20, 1.87)) の両方で強い。 結論: 開発したモデルでは,人的専門家に匹敵する精度でICACの自動セグメンテーションとボリューム定量化が可能であった。

Purpose: To evaluate a fully-automated deep-learning-based method for assessment of intracranial carotid artery calcification (ICAC). Methods: Two observers manually delineated ICAC in non-contrast CT scans of 2,319 participants (mean age 69 (SD 7) years; 1154 women) of the Rotterdam Study, prospectively collected between 2003 and 2006. These data were used to retrospectively develop and validate a deep-learning-based method for automated ICAC delineation and volume measurement. To evaluate the method, we compared manual and automatic assessment (computed using ten-fold cross-validation) with respect to 1) the agreement with an independent observer's assessment (available in a random subset of 47 scans); 2) the accuracy in delineating ICAC as judged via blinded visual comparison by an expert; 3) the association with first stroke incidence from the scan date until 2012. All method performance metrics were computed using 10-fold cross-validation. Results: The automated delineation of ICAC reached sensitivity of 83.8% and positive predictive value (PPV) of 88%. The intraclass correlation between automatic and manual ICAC volume measures was 0.98 (95% CI: 0.97, 0.98; computed in the entire dataset). Measured between the assessments of independent observers, sensitivity was 73.9%, PPV was 89.5%, and intraclass correlation was 0.91 (95% CI: 0.84, 0.95; computed in the 47-scan subset). In the blinded visual comparisons, automatic delineations were more accurate than manual ones (p-value = 0.01). The association of ICAC volume with incident stroke was similarly strong for both automated (hazard ratio, 1.38 (95% CI: 1.12, 1.75) and manually measured volumes (hazard ratio, 1.48 (95% CI: 1.20, 1.87)). Conclusions: The developed model was capable of automated segmentation and volume quantification of ICAC with accuracy comparable to human experts.
翻訳日:2021-07-21 14:51:45 公開日:2021-07-20
# synthseg: コントラストと解像度の脳mriスキャンのセグメンテーションのための領域ランダム化

SynthSeg: Domain Randomisation for Segmentation of Brain MRI Scans of any Contrast and Resolution ( http://arxiv.org/abs/2107.09559v1 )

ライセンス: Link先を確認
Benjamin Billot, Douglas N. Greve, Oula Puonti, Axel Thielscher, Koen Van Leemput, Bruce Fischl, Adrian V. Dalca, Juan Eugenio Iglesias(参考訳) データ拡張と転送学習の進歩にもかかわらず、畳み込みニューラルネットワーク(CNN)は、ターゲットドメインが見えないように一般化するのが困難である。 脳MRIスキャンのセグメンテーションに適用した場合、CNNは解像度とコントラストの変化に非常に敏感である。 コントラストや解像度の脳mriスキャンと無関係な最初のセグメンテーションcnnであるsynthsegを紹介する。 SynthSegはベイジアンセグメンテーションにインスパイアされた生成モデルからサンプリングされた合成データで訓練されている。 重要なことは、トレーニングデータの可変性を最大化するために生成パラメータを完全にランダム化する「textit{ domain randomisation}」戦略を採用する。 その結果、SynthSegは、任意の対象ドメインの事前処理および未処理の実スキャンを、再トレーニングや微調整なしにセグメント化することができる。 シンセグは(画像なし)訓練のみを必要とするため、異なる集団の既存のデータセット(例えば、萎縮症や病変)から自動的に得られるラベルマップから学習することができ、幅広い形態変化にロバスト性をもたらす。 5,500の6モード、10解像度のスキャンでsynthsegを実演し、教師付きcnn、テスト時間適応、ベイズセグメント化と比較した非並列一般化を示す。 コードとトレーニングされたモデルはhttps://github.com/b billot/synthsegで入手できる。

Despite advances in data augmentation and transfer learning, convolutional neural networks (CNNs) have difficulties generalising to unseen target domains. When applied to segmentation of brain MRI scans, CNNs are highly sensitive to changes in resolution and contrast: even within the same MR modality, decreases in performance can be observed across datasets. We introduce SynthSeg, the first segmentation CNN agnostic to brain MRI scans of any contrast and resolution. SynthSeg is trained with synthetic data sampled from a generative model inspired by Bayesian segmentation. Crucially, we adopt a \textit{domain randomisation} strategy where we fully randomise the generation parameters to maximise the variability of the training data. Consequently, SynthSeg can segment preprocessed and unpreprocessed real scans of any target domain, without retraining or fine-tuning. Because SynthSeg only requires segmentations to be trained (no images), it can learn from label maps obtained automatically from existing datasets of different populations (e.g., with atrophy and lesions), thus achieving robustness to a wide range of morphological variability. We demonstrate SynthSeg on 5,500 scans of 6 modalities and 10 resolutions, where it exhibits unparalleled generalisation compared to supervised CNNs, test time adaptation, and Bayesian segmentation. The code and trained model are available at https://github.com/B Billot/SynthSeg.
翻訳日:2021-07-21 14:51:05 公開日:2021-07-20
# 完全連結深層ニューラルネットワークによる多様体上の回帰関数の推定

Estimation of a regression function on a manifold by fully connected deep neural networks ( http://arxiv.org/abs/2107.09532v1 )

ライセンス: Link先を確認
Michael Kohler, Sophie Langer and Ulrich Reif(参考訳) 独立分布データと同一分布データから回帰関数を推定する。 誤差基準として、予測変数の分布に関して統合された$l_2$エラーを用いる。 ReLU活性化関数を持つディープニューラルネットワークの完全連結空間に基づく最小二乗推定の収束率をスムーズ回帰関数として解析した。 予測変数の分布が多様体に集中している場合、これらの推定値は多様体の次元に依存し、予測変数の成分の数に依存しない収束率を達成することが示されている。

Estimation of a regression function from independent and identically distributed data is considered. The $L_2$ error with integration with respect to the distribution of the predictor variable is used as the error criterion. The rate of convergence of least squares estimates based on fully connected spaces of deep neural networks with ReLU activation function is analyzed for smooth regression functions. It is shown that in case that the distribution of the predictor variable is concentrated on a manifold, these estimates achieve a rate of convergence which depends on the dimension of the manifold and not on the number of components of the predictor variable.
翻訳日:2021-07-21 14:50:04 公開日:2021-07-20
# ヘテロジニアスネットワークによるcovid-19対策

Heterogeneous network-based drug repurposing for COVID-19 ( http://arxiv.org/abs/2107.09217v1 )

ライセンス: Link先を確認
Shuting Jin, Xiangxiang Zeng, Wei Huang, Feng Xia, Changzhi Jiang, Xiangrong Liu and Shaoliang Peng(参考訳) コロナウイルス病2019(Corona Virus Disease 2019、COVID-19)は、世界中で急速に広がるヒトのウイルス(HCoV)である。 新しい医薬品開発と比べて、薬物の再利用は新型コロナウイルスの治療に最適な近道かもしれない。 そこで我々は,HCoVs関連標的タンパク質をベースとした包括的ヘテロジニアスネットワークを構築し,従来提案されていたディープDTnetを用いて,COVID-19の薬物候補を発見する。 我々は、covid-19関連タンパク質に有効な薬剤の予測において高い性能を得る。 要約すると、本研究は強力なヘテロジニアスネットワークベースの深層学習手法を用いており、covid-19の将来の臨床試験に向けて、候補再利用可能な薬物を迅速に特定するのに有用である。 コードとデータはhttps://github.com/s tjin-XMU/HnDR-COVIDで公開されている。

The Corona Virus Disease 2019 (COVID-19) belongs to human coronaviruses (HCoVs), which spreads rapidly around the world. Compared with new drug development, drug repurposing may be the best shortcut for treating COVID-19. Therefore, we constructed a comprehensive heterogeneous network based on the HCoVs-related target proteins and use the previously proposed deepDTnet, to discover potential drug candidates for COVID-19. We obtain high performance in predicting the possible drugs effective for COVID-19 related proteins. In summary, this work utilizes a powerful heterogeneous network-based deep learning method, which may be beneficial to quickly identify candidate repurposable drugs toward future clinical trials for COVID-19. The code and data are available at https://github.com/s tjin-XMU/HnDR-COVID.
翻訳日:2021-07-21 14:49:04 公開日:2021-07-20
# dnn加速器の正負近似乗算器

Positive/Negative Approximate Multipliers for DNN Accelerators ( http://arxiv.org/abs/2107.09366v1 )

ライセンス: Link先を確認
Ourania Spantidi, Georgios Zervakis, Iraklis Anagnostopoulos, Hussam Amrouch, J\"org Henkel(参考訳) 最近のDeep Neural Networks (DNN)は、多くのAIタスクで超人的精度のレベルを提供することができた。 いくつかのアプリケーションは高度なサービスを提供するためにDNNに依存しており、DNNアクセラレータは現代のシステムオンチップの不可欠なコンポーネントになりつつある。 DNNは推論毎に数百万の演算を実行し、DNNアクセラレータは数千の乗算累積ユニットを統合してエネルギー要求を増加させる。 近似計算の原理は、DNN加速器のエネルギー消費をある程度の精度の損失で大幅に低減するために用いられる。 しかし、最近の研究では、複雑なDNNは近似にますます敏感であることが示されている。 したがって、厳密な精度制約を狙う場合、得られる省エネは制限されることが多い。 本研究では,3つの動作モード,すなわち正の誤差,負の誤差をサポートする動的に構成可能な近似乗算器を提案する。 さらに,重みを近似乗算器の適切なモードにマッピングするフィルタ指向近似法を提案する。 このマッピングアルゴリズムは近似乗算による負の誤差と正のバランスをとり、全体の畳み込み誤差を最小化しながらエネルギー削減を最大化することを目指している。 提案手法は4つの異なるデータセット上の7つのnnで平均18.33%のエネルギー向上を達成し,最大精度はわずか1%の低下である。

Recent Deep Neural Networks (DNNs) managed to deliver superhuman accuracy levels on many AI tasks. Several applications rely more and more on DNNs to deliver sophisticated services and DNN accelerators are becoming integral components of modern systems-on-chips. DNNs perform millions of arithmetic operations per inference and DNN accelerators integrate thousands of multiply-accumulate units leading to increased energy requirements. Approximate computing principles are employed to significantly lower the energy consumption of DNN accelerators at the cost of some accuracy loss. Nevertheless, recent research demonstrated that complex DNNs are increasingly sensitive to approximation. Hence, the obtained energy savings are often limited when targeting tight accuracy constraints. In this work, we present a dynamically configurable approximate multiplier that supports three operation modes, i.e., exact, positive error, and negative error. In addition, we propose a filter-oriented approximation method to map the weights to the appropriate modes of the approximate multiplier. Our mapping algorithm balances the positive with the negative errors due to the approximate multiplications, aiming at maximizing the energy reduction while minimizing the overall convolution error. We evaluate our approach on multiple DNNs and datasets against state-of-the-art approaches, where our method achieves 18.33% energy gains on average across 7 NNs on 4 different datasets for a maximum accuracy drop of only 1%.
翻訳日:2021-07-21 14:48:51 公開日:2021-07-20
# 生成逆ネットワークを用いたプロセス構造リンクの構築

Establishing process-structure linkages using Generative Adversarial Networks ( http://arxiv.org/abs/2107.09402v1 )

ライセンス: Link先を確認
Mohammad Safiuddin, CH Likith Reddy, Ganesh Vasantada, CHJNS Harsha, Srinu Gangolu(参考訳) 材料のミクロ組織はその力学的性質に強く影響し, 組織自体が加工条件の影響を受けている。 したがって、プロセス構造とプロパティの関係を確立することは、マテリアルデザインにおいて重要なタスクであり、多くのエンジニアリングアプリケーションに興味を持っている。 与えられた処理条件に基づいて微細構造を合成するgan(generative adversarial network)を開発した。 このアプローチには機能エンジニアリングが欠如しており、ドメインの認識がほとんど必要とせず、幅広い素材システムに適用できる。 その結果,ganモデルは与えられた処理条件とよく相関する高忠実性多相組織を生成できることがわかった。

The microstructure of material strongly influences its mechanical properties and the microstructure itself is influenced by the processing conditions. Thus, establishing a Process-Structure-Pr operty relationship is a crucial task in material design and is of interest in many engineering applications. We develop a GAN (Generative Adversarial Network) to synthesize microstructures based on given processing conditions. This approach is devoid of feature engineering, needs little domain awareness, and can be applied to a wide variety of material systems. Results show that our GAN model can produce high-fidelity multi-phase microstructures which have a good correlation with the given processing conditions.
翻訳日:2021-07-21 14:48:27 公開日:2021-07-20
# CREW: ハードウェアアクセラレーション型MLPとRNNのための計算再利用と効率的な軽量化

CREW: Computation Reuse and Efficient Weight Storage for Hardware-accelerated MLPs and RNNs ( http://arxiv.org/abs/2107.09408v1 )

ライセンス: Link先を確認
Marc Riera, Jose-Maria Arnau, Antonio Gonzalez(参考訳) ディープニューラルネットワーク(DNN)は、認知アプリケーションにおいて大きな成功を収めています。 DNNのコア操作は、量子化された入力と重みの間のドット積である。 先行研究は、畳み込みニューラルネットワーク(cnns)における冗長な計算を避けるために量子化によって生じる重み/入力反復を利用する。 しかし,本稿では,最新のリカレントニューラルネットワーク(RNN)モデルやトランスフォーマーモデルのように,最先端のDNNで一般的に使用されているFC層に適用した場合,その有効性が著しく制限されていることを示す。 fc計算の省エネ性を向上させるために,計算再利用を実現するハードウェアアクセラレータcrewと,fc層で繰り返し発生する重みを活用できる効率的な重み記憶機構を提案する。 CREWはまず、各入力によるユニークな重みの乗算を行い、結果をオンチップバッファに格納する。 ストレージの要件は、少数のユニークな重みと、畳み込み層に比べて入力のサイズが比較的小さいため、控えめである。 次にCREWは、必要な製品をフェッチして追加することで、各出力を計算する。 この目的のために、各重みは、ユニークな製品のバッファ内のインデックスに置き換えられる。 インデックスは一般に量子化重みよりも小さく、各入力のユニークな重みの数は量子化重みの範囲よりもはるかに小さくなり、ストレージとメモリ帯域幅の要求が減少する。 全体として、CREWは乗算数を大幅に削減し、モデルメモリフットプリントとメモリ帯域幅使用量を大幅に削減する。 我々は, CREW を現代の DNN の多様な集合で評価する。 CREWは平均2.61倍のスピードアップと2.42倍の省エネを提供する。 最先端の計算再利用技術であるUCNNと比較して、CREWは平均で2.10倍のスピードアップと2.08倍の省エネを実現している。

Deep Neural Networks (DNNs) have achieved tremendous success for cognitive applications. The core operation in a DNN is the dot product between quantized inputs and weights. Prior works exploit the weight/input repetition that arises due to quantization to avoid redundant computations in Convolutional Neural Networks (CNNs). However, in this paper we show that their effectiveness is severely limited when applied to Fully-Connected (FC) layers, which are commonly used in state-of-the-art DNNs, as it is the case of modern Recurrent Neural Networks (RNNs) and Transformer models. To improve energy-efficiency of FC computation we present CREW, a hardware accelerator that implements Computation Reuse and an Efficient Weight Storage mechanism to exploit the large number of repeated weights in FC layers. CREW first performs the multiplications of the unique weights by their respective inputs and stores the results in an on-chip buffer. The storage requirements are modest due to the small number of unique weights and the relatively small size of the input compared to convolutional layers. Next, CREW computes each output by fetching and adding its required products. To this end, each weight is replaced offline by an index in the buffer of unique products. Indices are typically smaller than the quantized weights, since the number of unique weights for each input tends to be much lower than the range of quantized weights, which reduces storage and memory bandwidth requirements. Overall, CREW greatly reduces the number of multiplications and provides significant savings in model memory footprint and memory bandwidth usage. We evaluate CREW on a diverse set of modern DNNs. On average, CREW provides 2.61x speedup and 2.42x energy savings over a TPU-like accelerator. Compared to UCNN, a state-of-art computation reuse technique, CREW achieves 2.10x speedup and 2.08x energy savings on average.
翻訳日:2021-07-21 14:48:17 公開日:2021-07-20
# パラメトリック散乱ネットワーク

Parametric Scattering Networks ( http://arxiv.org/abs/2107.09539v1 )

ライセンス: Link先を確認
Shanel Gauthier, Benjamin Th\'erien, Laurent Als\`ene-Racicot, Irina Rish, Eugene Belilovsky, Michael Eickenberg and Guy Wolf(参考訳) ウェーブレット散乱変換は、初期構造信号から幾何学的不変性と変形安定性を生成する。 複数の信号領域において、他の非学習表現と比較してより識別的な表現が得られることが示されており、特定のタスク、特に制限されたラベル付きデータと高度に構造化された信号において学習された表現よりも優れる。 散乱変換に使用されるウェーブレットフィルタは通常、パラメータ化されたマザーウェーブレットを介してタイトなフレームを作成するために選択される。 モーレットウェーブレットに着目し,その代わりにフィルタのスケール,向き,傾斜を適応させ,散乱変換の問題を特異的にパラメトリゼーションする手法を提案する。 その結果,小標本分類において,散乱変換の学習したバージョンは標準散乱変換よりも有意な性能向上が得られ,また,実効的な表現を抽出するために散乱変換が必ずしも必要ではないことを示す実験結果が得られた。

The wavelet scattering transform creates geometric invariants and deformation stability from an initial structured signal. In multiple signal domains it has been shown to yield more discriminative representations compared to other non-learned representations, and to outperform learned representations in certain tasks, particularly on limited labeled data and highly structured signals. The wavelet filters used in the scattering transform are typically selected to create a tight frame via a parameterized mother wavelet. Focusing on Morlet wavelets, we propose to instead adapt the scales, orientations, and slants of the filters to produce problem-specific parametrizations of the scattering transform. We show that our learned versions of the scattering transform yield significant performance gains over the standard scattering transform in the small sample classification settings, and our empirical results suggest that tight frames may not always be necessary for scattering transforms to extract effective representations.
翻訳日:2021-07-21 14:47:05 公開日:2021-07-20
# 責任と規制は医療のための機械学習に適合する - 技術的課題と解決策の調査

Responsible and Regulatory Conform Machine Learning for Medicine: A Survey of Technical Challenges and Solutions ( http://arxiv.org/abs/2107.09546v1 )

ライセンス: Link先を確認
Eike Petersen, Yannik Potdevin, Esfandiar Mohammadi, Stephan Zidowitz, Sabrina Breyer, Dirk Nowotka, Sandra Henn, Ludwig Pechmann, Martin Leucker, Philipp Rostalski and Christian Herzog(参考訳) 機械学習は医療に大きな改善をもたらすことが期待されている。 有益性、人的自律性への敬意、害の予防、正義、プライバシー、透明性といった基本的な原則を尊重するために、医療用機械学習の応用が責任を持って開発されなければならない。 本稿では,医療機械学習システム構築に関わる技術的課題を,既存の規制に応答し,かつ,これらの課題に対処するための解決策として検討する。 まず、安全、堅牢性、信頼性、プライバシ、セキュリティ、透明性、説明可能性、非差別といった特性が、既存の法律や規則によってすでに要求されているが、多くの場合、不確実な程度に要求されていることを示す。 次に,基盤となる技術的課題,対処可能な方法,それぞれのメリットと欠点について論じる。 我々は,従来のブラックボックス深層ニューラルネットワークでは解決が難しい医療状況(その他)において,分布シフト,急激な相関,モデル過小評価,データ不足が深刻な課題となっていることに気付く。 これらの課題に対処するための重要な手段としては、大規模で代表的なデータセットの使用、その目的を達成する手段としてのフェデレーション付き学習、ドメイン知識の慎重に活用、本質的に透明なモデルの使用、包括的なモデルテストと検証、ステークホルダーの関与などが挙げられる。

Machine learning is expected to fuel significant improvements in medical care. To ensure that fundamental principles such as beneficence, respect for human autonomy, prevention of harm, justice, privacy, and transparency are respected, medical machine learning applications must be developed responsibly. In this paper, we survey the technical challenges involved in creating medical machine learning systems responsibly and in conformity with existing regulations, as well as possible solutions to address these challenges. We begin by providing a brief overview of existing regulations affecting medical machine learning, showing that properties such as safety, robustness, reliability, privacy, security, transparency, explainability, and nondiscrimination are all demanded already by existing law and regulations - albeit, in many cases, to an uncertain degree. Next, we discuss the underlying technical challenges, possible ways for addressing them, and their respective merits and drawbacks. We notice that distribution shift, spurious correlations, model underspecification, and data scarcity represent severe challenges in the medical context (and others) that are very difficult to solve with classical black-box deep neural networks. Important measures that may help to address these challenges include the use of large and representative datasets and federated learning as a means to that end, the careful exploitation of domain knowledge wherever feasible, the use of inherently transparent models, comprehensive model testing and verification, as well as stakeholder inclusion.
翻訳日:2021-07-21 14:46:49 公開日:2021-07-20
# プライバシー保護オンラインプロクタのための画像ハッシュに基づく異常検出

Image-Hashing-Based Anomaly Detection for Privacy-Preserving Online Proctoring ( http://arxiv.org/abs/2107.09373v1 )

ライセンス: Link先を確認
Waheeb Yaqub, Manoranjan Mohanty, Basem Suleiman(参考訳) オンライン・プロクタリングはオンライン教育において欠かせないものとなっている。 ビデオベースのクラウドソースオンラインプロクターソリューションが使用されており、受験生のビデオは第三者によって監視され、プライバシー上の懸念につながっている。 本稿では,プライバシ保護型オンラインプロクタシステムを提案する。 提案した画像ハッシュベースのシステムは,学生が試験で不正をしようとすると生じる過度な顔と身体の動き(つまり異常)を検出することができる。 この検出は、学生の顔がぼやけたり、ビデオフレームに隠されたりしても行うことができる。 社内データセットを用いた実験は,提案システムのユーザビリティを示す。

Online proctoring has become a necessity in online teaching. Video-based crowd-sourced online proctoring solutions are being used, where an exam-taking student's video is monitored by third parties, leading to privacy concerns. In this paper, we propose a privacy-preserving online proctoring system. The proposed image-hashing-based system can detect the student's excessive face and body movement (i.e., anomalies) that is resulted when the student tries to cheat in the exam. The detection can be done even if the student's face is blurred or masked in video frames. Experiment with an in-house dataset shows the usability of the proposed system.
翻訳日:2021-07-21 14:46:23 公開日:2021-07-20
# ニューラルネットワークによる音楽テンポ推定 -比較分析-

Music Tempo Estimation via Neural Networks -- A Comparative Analysis ( http://arxiv.org/abs/2107.09208v1 )

ライセンス: Link先を確認
Mila Soares de Oliveira de Souza and Pedro Nuno de Souza Moura and Jean-Pierre Briot(参考訳) 本稿では,2つのニューラルネットワーク(異なるアーキテクチャ)の比較分析を行い,テンポ推定の課題について述べる。 この目的のために、外部の補助モジュールを使用せずに楽曲のbpm(beats per minutes)におけるテンポを推定できるb-rnn(bidirectional recurrent neural network)モデルのモデリング、トレーニング、評価も提案している。 大規模なデータベース(合計12,550個)がキュレーションされ、実験の量的および質的な分析が行われた。 パーカッションのみのトラックもデータセットに含まれている。 B-RNNの性能は最先端のモデルと比較される。 さらに比較するために、最先端のCNNも、B-RNNトレーニングに使用される同じデータセットで再トレーニングされた。 各モデルとデータセットの評価結果が提示され、今後の研究のための観測とアイデアが議論される。 パーカッションのみのデータセットではテンポ推定の方が正確であり、パーカッションのみのトラックでは推定がより正確であることが示唆された。

This paper presents a comparative analysis on two artificial neural networks (with different architectures) for the task of tempo estimation. For this purpose, it also proposes the modeling, training and evaluation of a B-RNN (Bidirectional Recurrent Neural Network) model capable of estimating tempo in bpm (beats per minutes) of musical pieces, without using external auxiliary modules. An extensive database (12,550 pieces in total) was curated to conduct a quantitative and qualitative analysis over the experiment. Percussion-only tracks were also included in the dataset. The performance of the B-RNN is compared to that of state-of-the-art models. For further comparison, a state-of-the-art CNN was also retrained with the same datasets used for the B-RNN training. Evaluation results for each model and datasets are presented and discussed, as well as observations and ideas for future research. Tempo estimation was more accurate for the percussion only dataset, suggesting that the estimation can be more accurate for percussion-only tracks, although further experiments (with more of such datasets) should be made to gather stronger evidence.
翻訳日:2021-07-21 14:45:31 公開日:2021-07-20
# 雑音データを用いた低次元力学系モデルのアクティブ演算子推論

Active operator inference for learning low-dimensional dynamical-system models from noisy data ( http://arxiv.org/abs/2107.09256v1 )

ライセンス: Link先を確認
Wayne Isaac Tan Uy, Yuepeng Wang, Yuxiao Wen, Benjamin Peherstorfer(参考訳) ノイズは、軌道データによって記述される動力学を歪めることができるため、力学系のモデルを学ぶための課題となる。 この研究は、科学的機械学習からの演算子推論に基づいて、ノイズで汚染された高次元状態軌跡から低次元モデルを推定する。 提案した解析は、ある条件下では、推論された作用素は従来のモデル還元からよく研究された射影に基づく還元作用素の偏りのない推定子であることを示している。 さらに、演算子推論と射影に基づくモデル還元との関係により、従来の縮小モデルに対する学習モデルによる予測の平均二乗誤差を限定することができる。 この分析は、ノイズの影響を低減し、平均二乗誤差を低くすることを目的として、高次元軌道を任意にサンプリングするアクティブ演算子推論手法も動機付けている。 高次元線形および非線形状態ダイナミクスを用いた数値実験により、アクティブ演算子推論により得られた予測は、従来の等距離サンプル軌道データによる演算子推定よりも、桁違いに低い平均二乗誤差を有することが示された。

Noise poses a challenge for learning dynamical-system models because already small variations can distort the dynamics described by trajectory data. This work builds on operator inference from scientific machine learning to infer low-dimensional models from high-dimensional state trajectories polluted with noise. The presented analysis shows that, under certain conditions, the inferred operators are unbiased estimators of the well-studied projection-based reduced operators from traditional model reduction. Furthermore, the connection between operator inference and projection-based model reduction enables bounding the mean-squared errors of predictions made with the learned models with respect to traditional reduced models. The analysis also motivates an active operator inference approach that judiciously samples high-dimensional trajectories with the aim of achieving a low mean-squared error by reducing the effect of noise. Numerical experiments with high-dimensional linear and nonlinear state dynamics demonstrate that predictions obtained with active operator inference have orders of magnitude lower mean-squared errors than operator inference with traditional, equidistantly sampled trajectory data.
翻訳日:2021-07-21 14:45:13 公開日:2021-07-20
# lens: エッジクラウド階層でニューラルネットワークを検索可能にするレイヤ分散

LENS: Layer Distribution Enabled Neural Architecture Search in Edge-Cloud Hierarchies ( http://arxiv.org/abs/2107.09309v1 )

ライセンス: Link先を確認
Mohanad Odema, Nafiul Rashid, Berken Utku Demirel, Mohammad Abdullah Al Faruque(参考訳) ディープニューラルネットワーク(dnn)による知性を活用したエッジクラウド階層システムは、ワークロード分散のジレンマに耐える。 以前のソリューションでは、環境の状態に応じて実行時にワークロードを分散する方法が提案されていた。 しかし、そのような条件は通常設計時に見過ごされる。 本稿では,2階層システムを対象とした多目的ニューラルアーキテクチャサーチ(NAS)を運用する新しい手法であるLENSを提案することにより,DNNアーキテクチャ設計におけるこの問題に対処する。 実験的な検索空間から、lensは従来のソリューションのparetoを76.47%と75%改善することを示した。

Edge-Cloud hierarchical systems employing intelligence through Deep Neural Networks (DNNs) endure the dilemma of workload distribution within them. Previous solutions proposed to distribute workloads at runtime according to the state of the surroundings, like the wireless conditions. However, such conditions are usually overlooked at design time. This paper addresses this issue for DNN architectural design by presenting a novel methodology, LENS, which administers multi-objective Neural Architecture Search (NAS) for two-tiered systems, where the performance objectives are refashioned to consider the wireless communication parameters. From our experimental search space, we demonstrate that LENS improves upon the traditional solution's Pareto set by 76.47% and 75% with respect to the energy and latency metrics, respectively.
翻訳日:2021-07-21 14:44:58 公開日:2021-07-20
# SVSNet: エンドツーエンドの音声類似度評価モデル

SVSNet: An End-to-end Speaker Voice Similarity Assessment Model ( http://arxiv.org/abs/2107.09392v1 )

ライセンス: Link先を確認
Cheng-Hung Hu, Yu-Huai Peng, Junichi Yamagishi, Yu Tsao, Hsin-Min Wang(参考訳) 近年,多くの音声生成タスクに起因した神経評価指標が注目されている。 本稿では,自然言語と合成音声の話者音声類似性を評価するための,最初のエンドツーエンドニューラルネットワークモデルであるSVSNetを提案する。 手作りの機能を使用するほとんどの神経評価指標とは異なり、SVSNetは生の波形を直接入力とし、予測に音声情報をより完全に活用する。 SVSNetはエンコーダ、コアテンション、距離計算、予測モジュールで構成され、エンドツーエンドでトレーニングされている。 音声変換チャレンジ2018と2020(VCC2018とVCC2020)データセットの実験結果は、SVSNetが発話とシステムレベルでの話者類似性の評価において、よく知られたベースラインシステムよりも優れていることを示している。

Neural evaluation metrics derived for numerous speech generation tasks have recently attracted great attention. In this paper, we propose SVSNet, the first end-to-end neural network model to assess the speaker voice similarity between natural speech and synthesized speech. Unlike most neural evaluation metrics that use hand-crafted features, SVSNet directly takes the raw waveform as input to more completely utilize speech information for prediction. SVSNet consists of encoder, co-attention, distance calculation, and prediction modules and is trained in an end-to-end manner. The experimental results on the Voice Conversion Challenge 2018 and 2020 (VCC2018 and VCC2020) datasets show that SVSNet notably outperforms well-known baseline systems in the assessment of speaker similarity at the utterance and system levels.
翻訳日:2021-07-21 14:44:48 公開日:2021-07-20
# ブロックワイズ非回帰モデルに基づくエンドツーエンドASRのストリーミング

Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models ( http://arxiv.org/abs/2107.09428v1 )

ライセンス: Link先を確認
Tianzi Wang, Yuya Fujita, Xuankai Chang, Shinji Watanabe(参考訳) 非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。 近年の注目度に基づく自動音声認識(ASR)構造により,NARは自己回帰(AR)モデルと比較して精度の低下を小さく抑えて,有望なリアルタイム係数(RTF)改善を実現することができる。 しかし、認識推論は完全な音声発話が完了するのを待つ必要がある。 そこで我々は,ブロックワイズアテンションとコネクショナリズムの時間的分類とマスク予測(Mask-CTC)のNARを組み合わせることで,エンドツーエンドのNAR音声認識システムを提案する。 推論中、入力オーディオは小さなブロックに分割され、ブロック回りのストリーミング方法で処理される。 各ブロックの出力の端における挿入と削除の誤りに対処するため、より一貫性のある文を生成する動的マッピング手法を用いて重複復号戦略を適用する。 実験の結果,提案手法はバニラマスクCTCに比べて低レイテンシ条件下でのオンラインASR認識を改善することがわかった。 さらに、arの注意に基づくモデルよりもはるかに高速な推論速度を達成することができる。 すべてのコードはhttps://github.com/e spnet/espnetで公開されます。

Non-autoregressive (NAR) modeling has gained more and more attention in speech processing. With recent state-of-the-art attention-based automatic speech recognition (ASR) structure, NAR can realize promising real-time factor (RTF) improvement with only small degradation of accuracy compared to the autoregressive (AR) models. However, the recognition inference needs to wait for the completion of a full speech utterance, which limits their applications on low latency scenarios. To address this issue, we propose a novel end-to-end streaming NAR speech recognition system by combining blockwise-attention and connectionist temporal classification with mask-predict (Mask-CTC) NAR. During inference, the input audio is separated into small blocks and then processed in a blockwise streaming way. To address the insertion and deletion error at the edge of the output of each block, we apply an overlapping decoding strategy with a dynamic mapping trick that can produce more coherent sentences. Experimental results show that the proposed method improves online ASR recognition in low latency conditions compared to vanilla Mask-CTC. Moreover, it can achieve a much faster inference speed compared to the AR attention-based models. All of our codes will be publicly available at https://github.com/e spnet/espnet.
翻訳日:2021-07-21 14:44:33 公開日:2021-07-20
# CANITA:通信圧縮による分散凸最適化の高速化

CANITA: Faster Rates for Distributed Convex Optimization with Communication Compression ( http://arxiv.org/abs/2107.09461v1 )

ライセンス: Link先を確認
Zhize Li, Peter Richt\'arik(参考訳) 分散学習とフェデレーション学習の通信コストが高いことから, 圧縮通信に依存する手法が普及しつつある。 さらに、最も理論的かつ実用的な勾配型法は、通信数(より高速な収束)を減らすために、例えばネステロフの加速勾配降下(Nesterov, 2004)とアダム(Kingma and Ba, 2014)の何らかの形式に依存している。 通信圧縮と収束加速度の利点を組み合わせるために,分散最適化のための<emph{compressed andaccelerated}勾配法を提案し,これをcanitaと呼ぶ。 Our CANITA achieves the \emph{first accelerated rate} $O\bigg(\sqrt{\Big(1+\sqrt{\frac{\omega^3}{n}}\Big)\frac{L}{\epsilon}} + \omega\big(\frac{1}{\epsilon}\big)^{\frac{1}{3}}\bigg)$, which improves upon the state-of-the-art non-accelerated rate $O\left((1+\frac{\omega}{n})\frac{L}{\epsilon} + \frac{\omega^2+n}{\omega+n}\frac{1}{\epsilon}\right)$ of DIANA (Khaled et al., 2020b) for distributed general convex problems, where $\epsilon$ is the target error, $L$ is the smooth parameter of the objective, $n$ is the number of machines/devices, and $\omega$ is the compression parameter (larger $\omega$ means more compression can be applied, and no compression implies $\omega=0$). 我々の結果は、$n$のデバイス数が大きければ(分散/フェデレート学習においてしばしば真である)、あるいは$\omega$が大きすぎる場合、CANITAは、$O\Big(\sqrt {\frac{L}{\epsilon}}\Big)$、すなわち、通信ラウンドの数は$O\Big(\sqrt{\frac{L}{\epsilon}}\Big)$(vs.$O\big(\fr ac{L}{\epsilon}\big)$)$(vs.$O\big(\ frac{L}{\epsilon}\big)$であることを示す。 その結果、CANITAは圧縮(各ラウンドでの圧縮通信)と加速度(通信ラウンドが大幅に少ない)の両方の利点を享受できる。

Due to the high communication cost in distributed and federated learning, methods relying on compressed communication are becoming increasingly popular. Besides, the best theoretically and practically performing gradient-type methods invariably rely on some form of acceleration/momentu m to reduce the number of communications (faster convergence), e.g., Nesterov's accelerated gradient descent (Nesterov, 2004) and Adam (Kingma and Ba, 2014). In order to combine the benefits of communication compression and convergence acceleration, we propose a \emph{compressed and accelerated} gradient method for distributed optimization, which we call CANITA. Our CANITA achieves the \emph{first accelerated rate} $O\bigg(\sqrt{\Big(1+\sqrt{\frac{\omega^3}{n}}\Big)\frac{L}{\epsilon}} + \omega\big(\frac{1}{\epsilon}\big)^{\frac{1}{3}}\bigg)$, which improves upon the state-of-the-art non-accelerated rate $O\left((1+\frac{\omega}{n})\frac{L}{\epsilon} + \frac{\omega^2+n}{\omega+n}\frac{1}{\epsilon}\right)$ of DIANA (Khaled et al., 2020b) for distributed general convex problems, where $\epsilon$ is the target error, $L$ is the smooth parameter of the objective, $n$ is the number of machines/devices, and $\omega$ is the compression parameter (larger $\omega$ means more compression can be applied, and no compression implies $\omega=0$). Our results show that as long as the number of devices $n$ is large (often true in distributed/federate d learning), or the compression $\omega$ is not very high, CANITA achieves the faster convergence rate $O\Big(\sqrt{\frac{L}{\epsilon}}\Big)$, i.e., the number of communication rounds is $O\Big(\sqrt{\frac{L}{\epsilon}}\Big)$ (vs. $O\big(\frac{L}{\epsilon}\big)$ achieved by previous works). As a result, CANITA enjoys the advantages of both compression (compressed communication in each round) and acceleration (much fewer communication rounds).
翻訳日:2021-07-21 14:44:10 公開日:2021-07-20
# 細胞フリーのMIMOは、どのように複数のフェデレーション学習グループをサポートするか?

How Does Cell-Free Massive MIMO Support Multiple Federated Learning Groups? ( http://arxiv.org/abs/2107.09577v1 )

ライセンス: Link先を確認
Tung T. Vu, Hien Quoc Ngo, Thomas L. Marzetta, Michail Matthaiou(参考訳) フェデレーテッド・ラーニング(FL)は、プライバシー保護と通信効率のため、将来の機械学習システムにとって有望な学習フレームワークとみなされてきた。 beyond-5g/6gシステムでは、学習目的が異なる複数のflグループを持つ可能性が高い。 ワイヤレスネットワークは、複数のflグループをどのようにサポートするのか? まず,セルレス大規模マルチインプットマルチアウトプット(MIMO)ネットワークを用いて,これらのFLプロセスの繰り返しを大規模コヒーレンス時間内に一緒に実行させることで,複数のFLプロセスの安定した動作を保証することを提案する。 次に、マルチキャストダウンリンクおよび従来のアップリンク送信プロトコルの下でFLプロセスの繰り返しを非同期に実行する新しいスキームを開発する。 最後に,各FLプロセスの各イテレーションの実行時間を最小限に抑えるため,電力と計算資源を最適に選択する,単純/低複雑さリソース割り当てアルゴリズムを提案する。

Federated learning (FL) has been considered as a promising learning framework for future machine learning systems due to its privacy preservation and communication efficiency. In beyond-5G/6G systems, it is likely to have multiple FL groups with different learning purposes. This scenario leads to a question: How does a wireless network support multiple FL groups? As an answer, we first propose to use a cell-free massive multiple-input multiple-output (MIMO) network to guarantee the stable operation of multiple FL processes by letting the iterations of these FL processes be executed together within a large-scale coherence time. We then develop a novel scheme that asynchronously executes the iterations of FL processes under multicasting downlink and conventional uplink transmission protocols. Finally, we propose a simple/low-complexit y resource allocation algorithm which optimally chooses the power and computation resources to minimize the execution time of each iteration of each FL process.
翻訳日:2021-07-21 14:43:20 公開日:2021-07-20
# 統合センシングとコミュニケーションにおけるトレードオフの再考:認識精度と通信速度

Rethinking the Tradeoff in Integrated Sensing and Communication: Recognition Accuracy versus Communication Rate ( http://arxiv.org/abs/2107.09621v1 )

ライセンス: Link先を確認
Guoliang Li, Shuai Wang, Jie Li, Rui Wang, Fan Liu, Meihong Zhang, Xiaohui Peng, and Tony Xiao Han(参考訳) ISAC(Integrated Sensor and Communication)は、レーダーと通信システム間のスペクトル共有やハードウェア共有を通じて、バンド利用効率を向上させるための有望な技術である。 共通の無線資源予算は両方の機能によって共有されるため、センシングと通信性能の間にトレードオフが存在する。 しかし、このトレードオフ曲線は現在、深層学習に基づく人間の動作認識タスクを持つISACシステムでは未知である。 このギャップを埋めるために,認識精度と通信データレートを同時に最大化する多目的最適化問題を定式化し,解決する。 この新定式化の鍵となる要素は、無線リソースに対する非線形認識精度モデルであり、このモデルは、ディープスペクトログラムネットワークのシステム性能の電力関数回帰から導かれる。 費用対効果のあるデータ収集の手順を回避するため,仮想環境における人間の動作認識のためのデータセット生成の効率的なトレーニングとテストを容易にするプリミティブベース自己回帰ハイブリッド(PBAH)チャネルモデルを開発した。 その結果,提案する無線認識精度とpbahチャネルモデルが実際の実験データと非常によく一致することがわかった。 さらに, 高精度領域は, 通信飽和領域, センシング飽和領域, 通信感知対向領域からなり, 第三ゾーンはISACシステムに対して望ましいバランス性能を達成する。

Integrated sensing and communication (ISAC) is a promising technology to improve the band-utilization efficiency via spectrum sharing or hardware sharing between radar and communication systems. Since a common radio resource budget is shared by both functionalities, there exists a tradeoff between the sensing and communication performance. However, this tradeoff curve is currently unknown in ISAC systems with human motion recognition tasks based on deep learning. To fill this gap, this paper formulates and solves a multi-objective optimization problem which simultaneously maximizes the recognition accuracy and the communication data rate. The key ingredient of this new formulation is a nonlinear recognition accuracy model with respect to the wireless resources, where the model is derived from power function regression of the system performance of the deep spectrogram network. To avoid cost-expensive data collection procedures, a primitive-based autoregressive hybrid (PBAH) channel model is developed, which facilitates efficient training and testing dataset generation for human motion recognition in a virtual environment. Extensive results demonstrate that the proposed wireless recognition accuracy and PBAH channel models match the actual experimental data very well. Moreover, it is found that the accuracy-rate region consists of a communication saturation zone, a sensing saturation zone, and a communication-sensin g adversarial zone, of which the third zone achieves the desirable balanced performance for ISAC systems.
翻訳日:2021-07-21 14:43:04 公開日:2021-07-20
# 今後の基準情報に対する追従制御の最適化

Proximal Policy Optimization for Tracking Control Exploiting Future Reference Information ( http://arxiv.org/abs/2107.09647v1 )

ライセンス: Link先を確認
Jana Mayer, Johannes Westermann, Juan Pedro Guti\'errez H. Muriedas, Uwe Mettin, Alexander Lampe(参考訳) 近年、強化学習(RL)は制御工学において注目を集めている。 特に政策勾配法は広く用いられている。 本研究では,将来の参照値に関する情報を取り入れることで,任意の参照信号に対する近位ポリシー最適化(ppo)の追跡性能を向上させる。 将来的な参照値を考慮したアクターと批評家の議論を拡張する2つのバリエーションを示す。 第1の変種では、引数にグローバル未来参照値が追加される。 第2の変種では、モデルフリー強化学習に適用可能な将来の参照値を持つ新しい種類の残留空間が導入された。 本手法は、単純な駆動列車モデル上でPIコントローラに対して評価される。 提案手法は,実システム制御におけるRLの適用性に着目し,従来の手法よりも任意の参照への一般化を期待する。

In recent years, reinforcement learning (RL) has gained increasing attention in control engineering. Especially, policy gradient methods are widely used. In this work, we improve the tracking performance of proximal policy optimization (PPO) for arbitrary reference signals by incorporating information about future reference values. Two variants of extending the argument of the actor and the critic taking future reference values into account are presented. In the first variant, global future reference values are added to the argument. For the second variant, a novel kind of residual space with future reference values applicable to model-free reinforcement learning is introduced. Our approach is evaluated against a PI controller on a simple drive train model. We expect our method to generalize to arbitrary references better than previous approaches, pointing towards the applicability of RL to control real systems.
翻訳日:2021-07-21 14:42:42 公開日:2021-07-20
# Relay-Assisted Cooperative Federated Learning

Relay-Assisted Cooperative Federated Learning ( http://arxiv.org/abs/2107.09518v1 )

ライセンス: Link先を確認
Zehong Lin, Hang Liu, Ying-Jun Angela Zhang(参考訳) フェデレートラーニング(FL)は最近、エッジサーバの協調の下で、分散モバイルデバイスが共有AIモデルを協調的にトレーニングするネットワークエッジで人工知能(AI)を可能にする有望な技術として登場した。 FLの通信効率を大幅に向上させるため、無線マルチアクセスチャネルの重ね合わせ特性を利用して、多数のモバイルデバイスがローカルモデルを同時アップロードすることができる。 無線チャネルのフェージングのため、エッジサーバのモデル集約エラーは、すべてのデバイスの中で最も弱いチャネルに支配され、深刻なストラグラー問題を引き起こす。 本稿では,トラグラー問題に効果的に対処するリレー支援協調FL方式を提案する。 特に,複数の半二重リレーをデプロイして,エッジサーバへのローカルモデル更新のアップロードを協調的に支援する。 オーバー・ザ・エアの計算の性質は、従来の中継通信システムとは異なるシステムの目的や制約をもたらす。 さらに、設計変数間の強い結合により、このようなシステムの最適化が困難になる。 この問題に対処するため,トランスシーバとリレー操作を低複雑性で最適化する交互最適化アルゴリズムを提案する。 そして, 単一中継事例におけるモデル集約誤差を分析し, 中継電力と中継チャネルゲインが十分に大きいことを条件として, 中継支援方式が中継なし方式よりも小さい誤差を実現することを示す。 分析は、協調型flの実装におけるリレー配置に関する重要な洞察を提供する。 我々の設計は最先端のスキームに比べてより高速な収束を実現する。

Federated learning (FL) has recently emerged as a promising technology to enable artificial intelligence (AI) at the network edge, where distributed mobile devices collaboratively train a shared AI model under the coordination of an edge server. To significantly improve the communication efficiency of FL, over-the-air computation allows a large number of mobile devices to concurrently upload their local models by exploiting the superposition property of wireless multi-access channels. Due to wireless channel fading, the model aggregation error at the edge server is dominated by the weakest channel among all devices, causing severe straggler issues. In this paper, we propose a relay-assisted cooperative FL scheme to effectively address the straggler issue. In particular, we deploy multiple half-duplex relays to cooperatively assist the devices in uploading the local model updates to the edge server. The nature of the over-the-air computation poses system objectives and constraints that are distinct from those in traditional relay communication systems. Moreover, the strong coupling between the design variables renders the optimization of such a system challenging. To tackle the issue, we propose an alternating-optimiza tion-based algorithm to optimize the transceiver and relay operation with low complexity. Then, we analyze the model aggregation error in a single-relay case and show that our relay-assisted scheme achieves a smaller error than the one without relays provided that the relay transmit power and the relay channel gains are sufficiently large. The analysis provides critical insights on relay deployment in the implementation of cooperative FL. Extensive numerical results show that our design achieves faster convergence compared with state-of-the-art schemes.
翻訳日:2021-07-21 14:41:38 公開日:2021-07-20
# (参考訳) 非iidデータを用いたディープニューラルネットワークの分散連合学習 [全文訳有]

Decentralized federated learning of deep neural networks on non-iid data ( http://arxiv.org/abs/2107.08517v2 )

ライセンス: CC BY-SA 4.0
Noa Onoszko, Gustav Karlsson, Olof Mogren, Edvin Listo Zec(参考訳) 分散環境でパーソナライズされたディープラーニングモデルを学習する非凸問題に対処する。 より具体的には、分散化されたフェデレーション学習、多くのクライアント間でデータが分散され、トレーニングを編成する中央サーバーがないピアツーピア環境について研究する。 実世界のシナリオでは、データ分散はしばしばクライアント間で異質である。 そこで本研究では,非iidクライアントデータを用いたピアツーピアシステムにおいて,モデルを効率的に学習する方法について検討する。 本稿では,類似したデータ分布を持つクライアントが相互に検出し,相互に学習損失を評価し,局所的データ分布に適したモデルを学ぶ,パフォーマンスベースの隣人選択(pens)という手法を提案する。 ベンチマークデータセットを用いた実験により,提案手法は強いベースラインに比べて高い精度を実現できることを示した。

We tackle the non-convex problem of learning a personalized deep learning model in a decentralized setting. More specifically, we study decentralized federated learning, a peer-to-peer setting where data is distributed among many clients and where there is no central server to orchestrate the training. In real world scenarios, the data distributions are often heterogeneous between clients. Therefore, in this work we study the problem of how to efficiently learn a model in a peer-to-peer system with non-iid client data. We propose a method named Performance-Based Neighbor Selection (PENS) where clients with similar data distributions detect each other and cooperate by evaluating their training losses on each other's data to learn a model suitable for the local data distribution. Our experiments on benchmark datasets show that our proposed method is able to achieve higher accuracies as compared to strong baselines.
翻訳日:2021-07-21 13:24:40 公開日:2021-07-20
# (参考訳) Face.evoLVe:高性能顔認識ライブラリ [全文訳有]

Face.evoLVe: A High-Performance Face Recognition Library ( http://arxiv.org/abs/2107.08621v2 )

ライセンス: CC BY 4.0
Qingzhong Wang, Pengfei Zhang, Haoyi Xiong and Jian Zhao(参考訳) 本稿では,顔認識のための多種多様な深層学習手法を収集・実装する包括的ライブラリであるface.evoLVeを開発する。 まず、face.evoLVeは顔のアライメント、データ処理、様々なバックボーン、損失、代替品など、顔分析の全プロセスをカバーする重要なコンポーネントで構成されている。 その後、Face.evoLVeはPyTorchやPaddlePaddleなど、さまざまなディープラーニングプラットフォーム上でマルチGPUトレーニングをサポートする。 さらに重要なのは、face.evoLVeとともに、共通のベンチマークデータセットの前後のイメージにソースコードとトレーニングされたモデルが提供されることだ。 これらすべての取り組みは、既存の比較手法を再現する際の技術的負担を減らし、ライブラリのユーザは、より効率的に高度なアプローチを開発することに集中できる。 最後に、Face.evoLVeはよく設計され、活発に進化しているので、新しい顔認識アプローチを簡単にフレームワークにプラグインできる。 face.evoLVeを使って、多くの顔認識コンテストに参加し、第1位を確保しました。 PyTorchをサポートするバージョンはhttps://github.com/Z haoJ9014/face.evoLVe .PyTorchで、PaddlePaddleバージョンはhttps://github.com/Z haoJ9014/face.evoLVe .PyTorch/tree/master /paddleで公開されている。 Face.evoLVeは顔分析に広く使われ、2.4Kの恒星と622のフォークを受信している。

In this paper, we develop face.evoLVe -- a comprehensive library that collects and implements a wide range of popular deep learning-based methods for face recognition. First of all, face.evoLVe is composed of key components that cover the full process of face analytics, including face alignment, data processing, various backbones, losses, and alternatives with bags of tricks for improving performance. Later, face.evoLVe supports multi-GPU training on top of different deep learning platforms, such as PyTorch and PaddlePaddle, which facilitates researchers to work on both large-scale datasets with millions of images and low-shot counterparts with limited well-annotated data. More importantly, along with face.evoLVe, images before & after alignment in the common benchmark datasets are released with source codes and trained models provided. All these efforts lower the technical burdens in reproducing the existing methods for comparison, while users of our library could focus on developing advanced approaches more efficiently. Last but not least, face.evoLVe is well designed and vibrantly evolving, so that new face recognition approaches can be easily plugged into our framework. Note that we have used face.evoLVe to participate in a number of face recognition competitions and secured the first place. The version that supports PyTorch is publicly available at https://github.com/Z haoJ9014/face.evoLVe .PyTorch and the PaddlePaddle version is available at https://github.com/Z haoJ9014/face.evoLVe .PyTorch/tree/master /paddle. Face.evoLVe has been widely used for face analytics, receiving 2.4K stars and 622 forks.
翻訳日:2021-07-21 13:14:35 公開日:2021-07-20
# (参考訳) データ共有市場 [全文訳有]

Data Sharing Markets ( http://arxiv.org/abs/2107.08630v2 )

ライセンス: CC0 1.0
Mohammad Rasouli, Michael I. Jordan(参考訳) 分散機械学習技術の利用が拡大するにつれ、エージェントが互いにデータを共有することを可能にするデータ市場の必要性が高まっている。 それでもデータには、複製性、共有コスト、歪曲能力など、他の商品と区別するユニークな機能がある。 我々は、各エージェントがデータの買い手および売り手の両方になり得る設定を研究する。 このセットアップでは、双方向データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つのケースを考慮する。 本研究では,ネットワーク形成ゲームとしてのバイラテラル共有をモデル化し,下位エージェント特性下での強安定な結果の存在を限定的な相補性によって示す。 我々は,O(N^2)の安定な結果(Nはエージェント数)を得られる順序マッチングアルゴリズムを提案する。 一元的共有のために、付加的なコスト構造を前提として、社会福祉の最大化結果を実現できる競争価格を構築する。 最後に, エージェントがプライベート情報を持つ場合, 標準VCGメカニズムの正確な予算不均衡レベルに社会的に最適な結果を真に実装しつつ, 独立した影響でデータ共有のコストデータ歪みをゼロにする混合VCG機構を提案する。 Mixed-VCGはこの目的のためにデータお金としてデータ歪みを使用する。 さらに、歪み混合vcgの提案により、ゼロコストデータの歪み推定を緩和する。 モデルと結果も、インクリメンタルな問い合わせと差分プライバシーコストによるデータ共有に拡張しています。

With the growing use of distributed machine learning techniques, there is a growing need for data markets that allows agents to share data with each other. Nevertheless data has unique features that separates it from other commodities including replicability, cost of sharing, and ability to distort. We study a setup where each agent can be both buyer and seller of data. For this setup, we consider two cases: bilateral data exchange (trading data with data) and unilateral data exchange (trading data with money). We model bilateral sharing as a network formation game and show the existence of strongly stable outcome under the top agents property by allowing limited complementarity. We propose ordered match algorithm which can find the stable outcome in O(N^2) (N is the number of agents). For the unilateral sharing, under the assumption of additive cost structure, we construct competitive prices that can implement any social welfare maximizing outcome. Finally for this setup when agents have private information, we propose mixed-VCG mechanism which uses zero cost data distortion of data sharing with its isolated impact to achieve budget balance while truthfully implementing socially optimal outcomes to the exact level of budget imbalance of standard VCG mechanisms. Mixed-VCG uses data distortions as data money for this purpose. We further relax zero cost data distortion assumption by proposing distorted-mixed-VCG. We also extend our model and results to data sharing via incremental inquiries and differential privacy costs.
翻訳日:2021-07-21 12:58:12 公開日:2021-07-20
# (参考訳) 多領域海馬セグメンテーションのための相反連続学習 [全文訳有]

Adversarial Continual Learning for Multi-Domain Hippocampal Segmentation ( http://arxiv.org/abs/2107.08751v2 )

ライセンス: CC BY 4.0
Marius Memmel, Camila Gonzalez, Anirban Mukhopadhyay(参考訳) 医学画像のディープラーニングは、時間的およびプライバシーに関連したデータ可用性の制限に苦しむ。 まだ実行可能なモデルを得るために、連続学習は、データが利用可能でいつ、連続的にトレーニングすることを目的としている。 連続学習法が直面する主な課題は、破滅的な忘れ、すなわち、先に遭遇したデータの性能低下を防ぐことである。 この問題により,医療用セグメンテーションモデルの継続的トレーニングが極めて困難になる。 しかし、多くの場合、ドメイン固有の情報を無視した方法でモデルをトレーニングするために、少なくとも2つの異なるドメインからのデータが利用可能です。 本稿では,2つ以上のデータセットを同時利用して,コンテンツとドメインの絡み合いを対角的に学習するアーキテクチャを提案する。 ドメイン不変のコンテンツ表現は、連続的なセマンティックセグメンテーションの基盤を置く。 提案手法は,脳MRIにおける海馬セグメンテーションの連続学習と,ドメイン適応からインスピレーションを得たものである。 本手法は破滅的な忘れ込みを減らし,最先端の継続的学習方法より優れていることを示す。

Deep learning for medical imaging suffers from temporal and privacy-related restrictions on data availability. To still obtain viable models, continual learning aims to train in sequential order, as and when data is available. The main challenge that continual learning methods face is to prevent catastrophic forgetting, i.e., a decrease in performance on the data encountered earlier. This issue makes continuous training of segmentation models for medical applications extremely difficult. Yet, often, data from at least two different domains is available which we can exploit to train the model in a way that it disregards domain-specific information. We propose an architecture that leverages the simultaneous availability of two or more datasets to learn a disentanglement between the content and domain in an adversarial fashion. The domain-invariant content representation then lays the base for continual semantic segmentation. Our approach takes inspiration from domain adaptation and combines it with continual learning for hippocampal segmentation in brain MRI. We showcase that our method reduces catastrophic forgetting and outperforms state-of-the-art continual learning methods.
翻訳日:2021-07-21 12:39:34 公開日:2021-07-20
# (参考訳) モデル不確かさの帰属のための経路積分 [全文訳有]

Path Integrals for the Attribution of Model Uncertainties ( http://arxiv.org/abs/2107.08756v2 )

ライセンス: CC BY 4.0
Iker Perez, Piotr Skalski, Alec Barns-Graham, Jason Wong, David Sutton(参考訳) モデル不確実性の解釈がベイズ機械学習の応用において重要である。 多くの場合、これは予測の不確実性を画像、テキスト、カテゴリ配列のソース特徴に有意義に分類する必要がある。 しかし、一般的な帰属法は分類と回帰スコアのために特に設計されている。 不確実性を説明するために、アートオルタナティブの状況は、通常、反事実的特徴ベクトルを入手し、直接比較して進む。 本稿では,経路積分を利用してベイズ微分可能モデルの不確かさを推定する。 本稿では,特徴ベクトルと反事実ベクトルを接続する分布内曲線に依存する新しいアルゴリズムを提案し,解釈可能性法の望ましい性質を保持する。 様々な解像度で画像データセットのベンチマークを検証し、既存の代替よりも解釈可能性を大幅に単純化することを示す。

Enabling interpretations of model uncertainties is of key importance in Bayesian machine learning applications. Often, this requires to meaningfully attribute predictive uncertainties to source features in an image, text or categorical array. However, popular attribution methods are particularly designed for classification and regression scores. In order to explain uncertainties, state of the art alternatives commonly procure counterfactual feature vectors, and proceed by making direct comparisons. In this paper, we leverage path integrals to attribute uncertainties in Bayesian differentiable models. We present a novel algorithm that relies on in-distribution curves connecting a feature vector to some counterfactual counterpart, and we retain desirable properties of interpretability methods. We validate our approach on benchmark image data sets with varying resolution, and show that it significantly simplifies interpretability over the existing alternatives.
翻訳日:2021-07-21 12:25:23 公開日:2021-07-20
# (参考訳) グラフニューラルネットワークによる適応伝達学習 [全文訳有]

Adaptive Transfer Learning on Graph Neural Networks ( http://arxiv.org/abs/2107.08765v2 )

ライセンス: CC BY 4.0
Xueting Han, Zhenhuan Huang, Bang An, Jing Bai(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの強力な表現を学ぶために広く利用されている。 最近の研究は、自己教師型タスクから下流タスクへの知識伝達がグラフ表現をさらに改善することを示した。 しかし、最適化目標とトレーニングデータの観点からは、自己監督タスクと下流タスクの間には固有のギャップがある。 従来の事前学習方法は、下流のタスクに適応しないため、知識伝達に十分な効果が得られない。 そこで本研究では,gnn上での自己教師付きタスクを補助タスクとして効果的に活用し,対象タスクを支援する新しいトランスファー学習パラダイムを提案する。 提案手法は,微調整段階において,異なる補助タスクと目標タスクを適応的に選択・結合する。 補助タスクと対象タスクの整合性を定量化し,補助タスクの重み付けを学習するための適応補助損失重み付けモデルを設計する。 さらに,メタ学習を通じて重み付けモデルを学習する。 本手法は,多タスク学習だけでなく,事前学習や微調整にも有効である。 複数の下流タスクに対する総合的な実験により,提案手法は目標タスクと補助タスクを効果的に組み合わせ,最先端手法と比較して性能を著しく向上できることを示した。

Graph neural networks (GNNs) is widely used to learn a powerful representation of graph-structured data. Recent work demonstrates that transferring knowledge from self-supervised tasks to downstream tasks could further improve graph representation. However, there is an inherent gap between self-supervised tasks and downstream tasks in terms of optimization objective and training data. Conventional pre-training methods may be not effective enough on knowledge transfer since they do not make any adaptation for downstream tasks. To solve such problems, we propose a new transfer learning paradigm on GNNs which could effectively leverage self-supervised tasks as auxiliary tasks to help the target task. Our methods would adaptively select and combine different auxiliary tasks with the target task in the fine-tuning stage. We design an adaptive auxiliary loss weighting model to learn the weights of auxiliary tasks by quantifying the consistency between auxiliary tasks and the target task. In addition, we learn the weighting model through meta-learning. Our methods can be applied to various transfer learning approaches, it performs well not only in multi-task learning but also in pre-training and fine-tuning. Comprehensive experiments on multiple downstream tasks demonstrate that the proposed methods can effectively combine auxiliary tasks with the target task and significantly improve the performance compared to state-of-the-art methods.
翻訳日:2021-07-21 12:10:32 公開日:2021-07-20
# M2Lens: 知覚分析のためのマルチモーダルモデルの可視化と説明

M2Lens: Visualizing and Explaining Multimodal Models for Sentiment Analysis ( http://arxiv.org/abs/2107.08264v2 )

ライセンス: Link先を確認
Xingbo Wang, Jianben He, Zhihua Jin, Muqiao Yang, Yong Wang, Huamin Qu(参考訳) マルチモーダル感情分析は、言語内容(テキスト)、音声、表情など、複数のコミュニケーションチャネルから人々の態度を認識することを目的としている。 自然言語処理における活発で重要な研究テーマとなっている。 多くの研究は異なる通信チャネル間の複雑なモーダル内相互作用のモデル化に焦点を当てている。 しかし、現在のマルチモーダルモデルは、しばしばディープラーニングに基づく技術であり、ブラックボックスのように機能する。 モデルがどのように感情予測にマルチモーダル情報を利用するのかは明らかではない。 機械学習モデルの説明可能性を高める技術が近年進歩しているにもかかわらず、それらはしばしば単調なシナリオ(画像、文など)をターゲットにしており、マルチモーダルモデルを説明する研究はほとんど行われていない。 本稿では,感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。 M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。 具体的には、モデル予測に対する3つの典型的な相互作用タイプ(支配、補完、対立)の影響を要約する。 さらに、M2Lensは、頻繁で影響力のあるマルチモーダルの特徴を特定し、言語、音響、視覚的モダリティからモデル行動の多面的探索を支援する。 2つのケーススタディとエキスパートインタビューを通じて,本システムは感情分析のマルチモーダルモデルに対する深い洞察を得る上で有効であることを実証する。

Multimodal sentiment analysis aims to recognize people's attitudes from multiple communication channels such as verbal content (i.e., text), voice, and facial expressions. It has become a vibrant and important research topic in natural language processing. Much research focuses on modeling the complex intra- and inter-modal interactions between different communication channels. However, current multimodal models with strong performance are often deep-learning-based techniques and work like black boxes. It is not clear how models utilize multimodal information for sentiment predictions. Despite recent advances in techniques for enhancing the explainability of machine learning models, they often target unimodal scenarios (e.g., images, sentences), and little research has been done on explaining multimodal models. In this paper, we present an interactive visual analytics system, M2Lens, to visualize and explain multimodal models for sentiment analysis. M2Lens provides explanations on intra- and inter-modal interactions at the global, subset, and local levels. Specifically, it summarizes the influence of three typical interaction types (i.e., dominance, complement, and conflict) on the model predictions. Moreover, M2Lens identifies frequent and influential multimodal features and supports the multi-faceted exploration of model behaviors from language, acoustic, and visual modalities. Through two case studies and expert interviews, we demonstrate our system can help users gain deep insights into the multimodal models for sentiment analysis.
翻訳日:2021-07-21 11:54:51 公開日:2021-07-20
# ブラウン場とスパース格子による高次元シミュレーション最適化

High-Dimensional Simulation Optimization via Brownian Fields and Sparse Grids ( http://arxiv.org/abs/2107.08595v2 )

ライセンス: Link先を確認
Liang Ding, Rui Tuo, Xiaowei Zhang(参考訳) 高次元シミュレーション最適化は、非常に難しい。 本稿では,大域的最適解に収束し,次元の呪いを最小に抑える新しいサンプリングアルゴリズムを提案する。 アルゴリズムは2つの段階からなる。 まず、スパースグリッド実験設計に従ってサンプルを採取し、ブラウン場カーネルを用いたカーネルリッジ回帰により応答面を近似する。 第2に,スパースグリッドの次のレベルからの反復的なサンプリングに,アルゴリズムのサンプリング効率を高める重要な修正を加えて,期待される改善戦略に従う。 応答面の平滑さとシミュレーションノイズの穏やかな条件下において,無騒音および無騒音シミュレーション試料の収束率の上界を定式化する。 これらの上界は、実現可能な集合の次元においてわずかにしか悪化せず、目的関数が高次の滑らかさであることが分かっていれば改善することができる。 広範な数値実験により,提案手法が従来の代替案を劇的に上回っていることが示された。

High-dimensional simulation optimization is notoriously challenging. We propose a new sampling algorithm that converges to a global optimal solution and suffers minimally from the curse of dimensionality. The algorithm consists of two stages. First, we take samples following a sparse grid experimental design and approximate the response surface via kernel ridge regression with a Brownian field kernel. Second, we follow the expected improvement strategy -- with critical modifications that boost the algorithm's sample efficiency -- to iteratively sample from the next level of the sparse grid. Under mild conditions on the smoothness of the response surface and the simulation noise, we establish upper bounds on the convergence rate for both noise-free and noisy simulation samples. These upper bounds deteriorate only slightly in the dimension of the feasible set, and they can be improved if the objective function is known to be of a higher-order smoothness. Extensive numerical experiments demonstrate that the proposed algorithm dramatically outperforms typical alternatives in practice.
翻訳日:2021-07-21 11:54:29 公開日:2021-07-20
# ライブサブタイリングのための同時音声翻訳:遅延からディスプレイへ

Simultaneous Speech Translation for Live Subtitling: from Delay to Display ( http://arxiv.org/abs/2107.08807v2 )

ライセンス: Link先を確認
Alina Karakanta, Sara Papi, Matteo Negri, Marco Turchi(参考訳) コミュニケーションのオーディオヴィジュアル化の増大により、多言語イベントにおけるライブ字幕の必要性はこれまで以上に重要になっている。 プロセスの自動化を目的として,ライブサブタイピングのための同時音声翻訳(SimulST)の実現可能性を探究する。 しかし、SimulSTシステム生成のワード・フォー・ワード・レートは、理解しやすく読みやすい方法で字幕を表示するのに最適ではない。 そこで本研究では,SimulSTシステムを用いて字幕分割の予測を行う。 次に,字幕をスクロール行に表示することで,予測ブレーク構造を利用した表示モードを提案する。 提案手法は, 読み込み速度と遅延の点で, 1) ワードフォーワード, 2) ブロックの表示モードと比較した。 3つの言語対の実験(en$\rightarrow$it, de, fr)では、スクロールラインが許容される読み込み速度を達成する唯一のモードであり、遅延は4秒の閾値に近づいた。 読解可能な字幕の同時翻訳は依然として課題に直面しており,翻訳品質の低下が主な問題であり,今後の研究の方向性を提案する。

With the increased audiovisualisation of communication, the need for live subtitles in multilingual events is more relevant than ever. In an attempt to automatise the process, we aim at exploring the feasibility of simultaneous speech translation (SimulST) for live subtitling. However, the word-for-word rate of generation of SimulST systems is not optimal for displaying the subtitles in a comprehensible and readable way. In this work, we adapt SimulST systems to predict subtitle breaks along with the translation. We then propose a display mode that exploits the predicted break structure by presenting the subtitles in scrolling lines. We compare our proposed mode with a display 1) word-for-word and 2) in blocks, in terms of reading speed and delay. Experiments on three language pairs (en$\rightarrow$it, de, fr) show that scrolling lines is the only mode achieving an acceptable reading speed while keeping delay close to a 4-second threshold. We argue that simultaneous translation for readable live subtitles still faces challenges, the main one being poor translation quality, and propose directions for steering future research.
翻訳日:2021-07-21 11:54:14 公開日:2021-07-20
# マルチフォーカスgaussian neighbor attentionと大規模ベンチマークによる映像群像定位

Video Crowd Localization with Multi-focus Gaussian Neighbor Attention and a Large-Scale Benchmark ( http://arxiv.org/abs/2107.08645v2 )

ライセンス: Link先を確認
Haopeng Li, Lingbo Liu, Kunlin Yang, Shinan Liu, Junyu Gao, Bin Zhao, Rui Zhang, Jun Hou(参考訳) これは、混雑したビデオの中で人間の頭の位置を正確に推定することを目的としている。 本研究では,人間のモビリティの空間的-時間的依存性をモデル化するために,入力映像の空間トポロジ構造を維持しつつ,長距離対応を効果的に活用できるマルチフォーカスガウス近傍注意(gna)を提案する。 特に我々のGNAは、装備されたマルチフォーカス機構を用いて、人間の頭部のスケールの変動をうまく捉えることができる。 マルチフォーカスGNAをベースとして,シーンモデリングモジュールとコンテキストクロスアテンションモジュールを介して空間的情報を完全に集約することにより,映像クリップ内の頭部を正確に検出する,GNANetと呼ばれる統合ニューラルネットワークを開発した。 さらに,この分野での今後の研究を促進するために,様々な監視シナリオでキャプチャされた60K以上のフレームと2M以上のヘッドアノテーションからなる大規模ビデオベンチマーク「SenseCrowd」を導入する。 最後に,senseicrowdを含む3つのデータセットについて広範な実験を行い,実験結果から,提案手法が動画群集のローカライズとカウントの両方において最先端のパフォーマンスを実現することができることを示した。 コードとデータセットがリリースされます。

Video crowd localization is a crucial yet challenging task, which aims to estimate exact locations of human heads in the given crowded videos. To model spatial-temporal dependencies of human mobility, we propose a multi-focus Gaussian neighbor attention (GNA), which can effectively exploit long-range correspondences while maintaining the spatial topological structure of the input videos. In particular, our GNA can also capture the scale variation of human heads well using the equipped multi-focus mechanism. Based on the multi-focus GNA, we develop a unified neural network called GNANet to accurately locate head centers in video clips by fully aggregating spatial-temporal information via a scene modeling module and a context cross-attention module. Moreover, to facilitate future researches in this field, we introduce a large-scale crowded video benchmark named SenseCrowd, which consists of 60K+ frames captured in various surveillance scenarios and 2M+ head annotations. Finally, we conduct extensive experiments on three datasets including our SenseCrowd, and the experiment results show that the proposed method is capable to achieve state-of-the-art performance for both video crowd localization and counting. The code and the dataset will be released.
翻訳日:2021-07-21 11:53:55 公開日:2021-07-20
# InsPose:シングルステージマルチパーソンポーズ推定のためのインスタンス対応ネットワーク

InsPose: Instance-Aware Networks for Single-Stage Multi-Person Pose Estimation ( http://arxiv.org/abs/2107.08982v2 )

ライセンス: Link先を確認
Dahu Shi, Xing Wei, Xiaodong Yu, Wenming Tan, Ye Ren, Shiliang Pu(参考訳) 複数人のポーズ推定は魅力的で困難なタスクです。 既存のメソッドは主にトップダウンとボトムアップの2段階のフレームワークに基づいている。 2段階の方法は、追加の人物検出器に対する高い計算冗長性に苦しむか、インスタンスに依存しない全てのキーポイントを予測した後、ヒューリスティックにキーポイントをグループ化する必要がある。 シングルステージパラダイムは、多人数のポーズ推定パイプラインを単純化し、多くの注目を集めることを目的としている。 しかし,近年のシングルステージ手法では,特徴ベクトルから様々なフルボディポーズを退避させることが困難であるため,低性能の限界がある。 複雑なヒューリスティック設計を伴う以前のソリューションとは異なり、インスタンス対応動的ネットワークを使用することにより、シンプルで効果的なソリューションを提供する。 具体的には,各インスタンスのネットワークパラメータを適応的に調整(一部)するインスタンス対応モジュールを提案する。 我々のソリューションは、コンパクトなエンドツーエンドのトレーニングパイプラインを維持しながら、様々なポーズを認識するためのネットワークの容量と適応性を大幅に向上させることができる。 MS-COCOデータセットの大規模な実験により,本手法は既存の単段法よりも大幅に改善され,最先端の2段法と比較して精度と効率のバランスが良くなった。

Multi-person pose estimation is an attractive and challenging task. Existing methods are mostly based on two-stage frameworks, which include top-down and bottom-up methods. Two-stage methods either suffer from high computational redundancy for additional person detectors or they need to group keypoints heuristically after predicting all the instance-agnostic keypoints. The single-stage paradigm aims to simplify the multi-person pose estimation pipeline and receives a lot of attention. However, recent single-stage methods have the limitation of low performance due to the difficulty of regressing various full-body poses from a single feature vector. Different from previous solutions that involve complex heuristic designs, we present a simple yet effective solution by employing instance-aware dynamic networks. Specifically, we propose an instance-aware module to adaptively adjust (part of) the network parameters for each instance. Our solution can significantly increase the capacity and adaptive-ability of the network for recognizing various poses, while maintaining a compact end-to-end trainable pipeline. Extensive experiments on the MS-COCO dataset demonstrate that our method achieves significant improvement over existing single-stage methods, and makes a better balance of accuracy and efficiency compared to the state-of-the-art two-stage approaches.
翻訳日:2021-07-21 11:53:32 公開日:2021-07-20
# 画像融合変換器

Image Fusion Transformer ( http://arxiv.org/abs/2107.09011v2 )

ライセンス: Link先を確認
Vibashan VS, Jeya Maria Jose Valanarasu, Poojan Oza and Vishal M. Patel(参考訳) 画像融合では、異なるセンサから得られた画像が融合され、情報強化された単一の画像を生成する。 近年,画像融合に有効な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)を採用している。 具体的には,局所的な特徴を融合させて画像融合を行う。 しかし、画像に存在する長距離依存関係は考慮していない。 トランスフォーマーベースのモデルは、セルフアテンションメカニズムの助けを借りて、長距離依存をモデル化することで、これを克服するように設計されている。 そこで我々は,局所的・長期的情報(あるいはグローバルな文脈)に対応する,トランスフォーマーベースのマルチスケールフュージョン戦略を開発する新しいイメージフュージョントランスフォーマー (IFT) を提案する。 提案手法は2段階の訓練手法に従う。 最初の段階では、複数のスケールで深い特徴を抽出するオートエンコーダを訓練する。 第2段階では、スペーシ・トランスフォーマー(ST)融合戦略を用いてマルチスケール機能を融合する。 ST融合ブロックは、それぞれ局所特徴と長距離特徴をキャプチャするCNNと変圧器分岐から構成される。 複数のベンチマークデータセットに対する大規模な実験により,提案手法は多くの競合融合アルゴリズムよりも優れた性能を示した。 さらに,提案するst核融合戦略のアブレーション解析による有効性を示す。 ソースコードは、https://github.com/V ibashan/Image-Fusion -Transformer.comで入手できる。

In image fusion, images obtained from different sensors are fused to generate a single image with enhanced information. In recent years, state-of-the-art methods have adopted Convolution Neural Networks (CNNs) to encode meaningful features for image fusion. Specifically, CNN-based methods perform image fusion by fusing local features. However, they do not consider long-range dependencies that are present in the image. Transformer-based models are designed to overcome this by modeling the long-range dependencies with the help of self-attention mechanism. This motivates us to propose a novel Image Fusion Transformer (IFT) where we develop a transformer-based multi-scale fusion strategy that attends to both local and long-range information (or global context). The proposed method follows a two-stage training approach. In the first stage, we train an auto-encoder to extract deep features at multiple scales. In the second stage, multi-scale features are fused using a Spatio-Transformer (ST) fusion strategy. The ST fusion blocks are comprised of a CNN and a transformer branch which capture local and long-range features, respectively. Extensive experiments on multiple benchmark datasets show that the proposed method performs better than many competitive fusion algorithms. Furthermore, we show the effectiveness of the proposed ST fusion strategy with an ablation analysis. The source code is available at: https://github.com/V ibashan/Image-Fusion -Transformer.
翻訳日:2021-07-21 11:53:12 公開日:2021-07-20
# VolcanoML: スケーラブル検索空間分割によるエンドツーエンドAutoMLの高速化

VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space Decomposition ( http://arxiv.org/abs/2107.08861v2 )

ライセンス: Link先を確認
Yang Li, Yu Shen, Wentao Zhang, Jiawei Jiang, Bolin Ding, Yaliang Li, Jingren Zhou, Zhi Yang, Wentao Wu, Ce Zhang and Bin Cui(参考訳) エンドツーエンドのAutoMLは、機能エンジニアリング、アルゴリズム/モデル選択、ハイパーパラメータチューニングによって誘導される空間内のMLパイプラインを自動的に検索する学術と産業の両方から、大きな関心を集めている。 しかし、既存のAutoMLシステムは、大規模で高次元の検索空間を持つアプリケーションドメインに適用する際のスケーラビリティの問題に悩まされている。 本稿では,大規模AutoML検索空間の体系的な探索を容易にするスケーラブルで拡張可能なフレームワークであるVolcanoMLを提案する。 VolcanoMLは、大規模な検索スペースを小さなものに分解する基本的なビルディングブロックを導入し、実装している。 VolcanoMLはさらに、現在のデータベースシステムでサポートされているような、Volcanoスタイルの実行モデルをサポートし、構築された計画を実行する。 評価の結果,VolcanoMLは,AutoMLにおける検索空間分解の表現性を向上するだけでなく,Auto-sklearnのような最先端のAutoMLシステムで採用されているものよりもはるかに効率的な分解戦略の実際の発見につながることが示された。

End-to-end AutoML has attracted intensive interests from both academia and industry, which automatically searches for ML pipelines in a space induced by feature engineering, algorithm/model selection, and hyper-parameter tuning. Existing AutoML systems, however, suffer from scalability issues when applying to application domains with large, high-dimensional search spaces. We present VolcanoML, a scalable and extensible framework that facilitates systematic exploration of large AutoML search spaces. VolcanoML introduces and implements basic building blocks that decompose a large search space into smaller ones, and allows users to utilize these building blocks to compose an execution plan for the AutoML problem at hand. VolcanoML further supports a Volcano-style execution model - akin to the one supported by modern database systems - to execute the plan constructed. Our evaluation demonstrates that, not only does VolcanoML raise the level of expressiveness for search space decomposition in AutoML, it also leads to actual findings of decomposition strategies that are significantly more efficient than the ones employed by state-of-the-art AutoML systems such as auto-sklearn.
翻訳日:2021-07-21 11:52:52 公開日:2021-07-20
# 新型コロナウイルスの多次元カグル文学機関

COVID-19 Multidimensional Kaggle Literature Organization ( http://arxiv.org/abs/2107.08190v2 )

ライセンス: Link先を確認
Maksim E. Eren, Nick Solovyev, Chris Hamer, Renee McDonald, Boian S. Alexandrov, Charles Nicholas(参考訳) 重症急性呼吸症候群 コロナウイルス-2(SARS-CoV-2)の流行は、世界中で大きな問題となっている。 その結果、新型コロナウイルス(covid-19)関連の研究が急増している。 出版物の増加には、関連する情報を特定するための文書組織手法が必要である。 本稿では,CORD-19データセットのクラスタ化に関するこれまでの研究を多次元解析手法を用いて拡張する。 テンソル因子化は、文書コーパス内の隠れパターンを発見することができる強力な教師なし学習手法である。 コーパスの高次表現により,類似記事,関連雑誌,類似研究論文の執筆者,話題キーワードの同時グループ化が可能となることを示す。 これらのグルーピングはテンソル分解によって抽出された潜在成分の内外において同定される。 さらに,データセットのインタラクティブな可視化により,本手法の適用を実証する。

The unprecedented outbreak of Severe Acute Respiratory Syndrome Coronavirus-2 (SARS-CoV-2), or COVID-19, continues to be a significant worldwide problem. As a result, a surge of new COVID-19 related research has followed suit. The growing number of publications requires document organization methods to identify relevant information. In this paper, we expand upon our previous work with clustering the CORD-19 dataset by applying multi-dimensional analysis methods. Tensor factorization is a powerful unsupervised learning method capable of discovering hidden patterns in a document corpus. We show that a higher-order representation of the corpus allows for the simultaneous grouping of similar articles, relevant journals, authors with similar research interests, and topic keywords. These groupings are identified within and among the latent components extracted via tensor decomposition. We further demonstrate the application of this method with a publicly available interactive visualization of the dataset.
翻訳日:2021-07-21 11:52:31 公開日:2021-07-20
# 線形確率系の適応的最適定常制御のための強化学習

Reinforcement Learning for Adaptive Optimal Stationary Control of Linear Stochastic Systems ( http://arxiv.org/abs/2107.07788v2 )

ライセンス: Link先を確認
Bo Pang and Zhong-Ping Jiang(参考訳) 本稿では,連続時間線形確率系の加法的および乗法的雑音による最適定常制御について,強化学習手法を用いて検討する。 政策反復に基づいて、楽観的な最小二乗政策反復と呼ばれる新しい非政治強化学習アルゴリズムを提案し、適応的最適定常制御問題の準最適ポリシを、初期許容制御ポリシから始まるシステム行列を明示的に特定することなく、入力/状態データから直接見つけ出すことができる。 楽観的な最小二乗法に基づく政策反復によって与えられる解は、穏やかな条件下で最適解の小さな近傍に収束することが証明される。 三重反転振子例に対する提案アルゴリズムの適用は,その実現可能性と有効性を検証する。

This paper studies the adaptive optimal stationary control of continuous-time linear stochastic systems with both additive and multiplicative noises, using reinforcement learning techniques. Based on policy iteration, a novel off-policy reinforcement learning algorithm, named optimistic least-squares-based policy iteration, is proposed which is able to iteratively find near-optimal policies of the adaptive optimal stationary control problem directly from input/state data without explicitly identifying any system matrices, starting from an initial admissible control policy. The solutions given by the proposed optimistic least-squares-based policy iteration are proved to converge to a small neighborhood of the optimal solution with probability one, under mild conditions. The application of the proposed algorithm to a triple inverted pendulum example validates its feasibility and effectiveness.
翻訳日:2021-07-21 11:52:20 公開日:2021-07-20