このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210313となっている論文です。

PDF登録状況(公開日: 20210313)

TitleAuthorsAbstract論文公表日・翻訳日
# リスク分析によるエンティティ解決のための適応型ディープラーニング

Adaptive Deep Learning for Entity Resolution by Risk Analysis ( http://arxiv.org/abs/2012.03513v3 )

ライセンス: Link先を確認
Qun Chen, Zhaoqiang Chen, Youcef Nafa, Tianyi Duan, Zhanhuai Li(参考訳) 実体分解能(ER)の最先端性能は深層学習によって達成されている。 しかし、深層モデルは通常、正確にラベル付けされたトレーニングデータに基づいてトレーニングされ、ターゲットのワークロードに向けて簡単にチューニングできない。 残念ながら、実際のシナリオでは、十分なラベル付きトレーニングデータが存在しず、さらに悪いことに、同じドメインから来た場合でも、その分散は通常、ターゲットのワークロードと大きく、あるいはそれ以下が異なる。 この制約を緩和するため,本論文では,特定の特性により,対象ワークロードに対して深いモデルをチューニングするためのリスクベースアプローチを提案する。 ERのリスク分析の最近の進歩に基づき、提案手法はまずラベル付きトレーニングデータに基づいて深層モデルを訓練し、ラベルなしターゲットデータに対する推定誤予測リスクを最小限に抑えて微調整する。 理論分析の結果,リスクに基づく適応トレーニングは,誤った予測されたインスタンスのラベル状態をかなり良い確率で修正できることがわかった。 また,実ベンチマークデータに対する提案手法の有効性を比較検討により実証的に検証した。 広範な実験により,深層モデルの性能が大幅に向上することが示された。 さらに、分布不均衡のシナリオでは、転校学習の最先端の代替手段をかなりのマージンで上回ることができる。 ERをテストケースとして使用することにより、リスクベースの適応トレーニングが様々な課題の分類タスクに適用可能な有望なアプローチであることを実証する。

The state-of-the-art performance on entity resolution (ER) has been achieved by deep learning. However, deep models are usually trained on large quantities of accurately labeled training data, and can not be easily tuned towards a target workload. Unfortunately, in real scenarios, there may not be sufficient labeled training data, and even worse, their distribution is usually more or less different from the target workload even when they come from the same domain. To alleviate the said limitations, this paper proposes a novel risk-based approach to tune a deep model towards a target workload by its particular characteristics. Built on the recent advances on risk analysis for ER, the proposed approach first trains a deep model on labeled training data, and then fine-tunes it by minimizing its estimated misprediction risk on unlabeled target data. Our theoretical analysis shows that risk-based adaptive training can correct the label status of a mispredicted instance with a fairly good chance. We have also empirically validated the efficacy of the proposed approach on real benchmark data by a comparative study. Our extensive experiments show that it can considerably improve the performance of deep models. Furthermore, in the scenario of distribution misalignment, it can similarly outperform the state-of-the-art alternative of transfer learning by considerable margins. Using ER as a test case, we demonstrate that risk-based adaptive training is a promising approach potentially applicable to various challenging classification tasks.
翻訳日:2021-05-16 21:40:43 公開日:2021-03-13
# (参考訳) 多次元スケーリングと言語理論 [全文訳有]

Multidimensional scaling and linguistic theory ( http://arxiv.org/abs/2012.04946v2 )

ライセンス: CC BY 4.0
Martijn van der Klis and Jos Tellings(参考訳) 本稿では,多次元スケーリング(MDS)技術の言語研究における意味地図作成への応用について述べる。 MDSは、オブジェクト(語彙項目、言語コンテキスト、言語など)を表す統計技術を指す。 空間内の点として、オブジェクト間の密接な類似性は、表現中の対応する点間の近接距離に対応する。 言語横断的な視点から特定の言語現象を研究するために,MDSを並列コーパスデータに適用する最近の傾向に注目した。 まず,非専門家を対象としたMDSの数学的基礎を紹介し,「固有値」,「次元化」,「ストレス値」などの概念を読者が理解できるようにする。 言語 MDS の文章に現れる。 次に, 並列コーパスデータと組み合わせたMDS技術を用いた過去の研究の概要を概観し, 特定のMDSアプリケーションのキーパラメータを簡潔に記述するための用語セットを提案する。 我々はMDSマップの助けを借りて回答された様々な研究課題について検討し、この方法論が古典型学(例)から幅広い分野のトピックをカバーしていることを示す。 言語分類) 形式言語学(例えば、英語) 一つの言語における現象の研究)。 論文で紹介されたMDS研究の知見に基づいて、今後2つの研究の行を最終的に特定する。 まず, 並列コーパス研究にはまだアプローチされていない変分研究における重要な領域である構成構造の言語間差異の調査におけるMDSの利用を検討する。 第2に,これまでの言語領域ではほとんど使われていない他の次元縮小手法と比較して,mdsの補完方法について考察する。

This paper reports on the state-of-the-art in the application of multidimensional scaling (MDS) techniques to create semantic maps in linguistic research. MDS refers to a statistical technique that represents objects (lexical items, linguistic contexts, languages, etc.) as points in a space so that close similarity between the objects corresponds to close distances between the corresponding points in the representation. We focus on the recent trend to apply MDS to parallel corpus data in order to investigate a certain linguistic phenomenon from a cross-linguistic perspective. We first introduce the mathematical foundations of MDS, intended for non-experts, so that readers understand notions such as 'eigenvalues', 'dimensionality reduction', 'stress values', etc. as they appear in linguistic MDS writing. We then give an exhaustive overview of past research that employs MDS techniques in combination with parallel corpus data, and propose a set of terminology to succinctly describe the key parameters of a particular MDS application. We go over various research questions that have been answered with the aid of MDS maps, showing that the methodology covers topics in a spectrum ranging from classic typology (e.g. language classification) to formal linguistics (e.g. study of a phenomenon in a single language). We finally identify two lines of future research that build on the insights of earlier MDS research described in the paper. First, we envisage the use of MDS in the investigation of cross-linguistic variation of compositional structures, an important area in variation research that has not been approached by parallel corpus work yet. Second, we discuss how MDS can be complemented and compared with other dimensionality reduction techniques that have seen little use in the linguistic domain so far.
翻訳日:2021-05-16 11:28:28 公開日:2021-03-13
# 連合学習におけるタイムリーコミュニケーション

Timely Communication in Federated Learning ( http://arxiv.org/abs/2012.15831v2 )

ライセンス: Link先を確認
Baturalp Buyukates and Sennur Ulukus(参考訳) 我々は,パラメータサーバ(PS)が,クラウドサーバにクライアントデータを集中的に格納することなく,$n$クライアントを用いてグローバルモデルを訓練する,連合学習フレームワークを検討する。 クライアントのデータセットが急速に変化し、時間的特性が極めて高い設定に焦点をあて、モデル更新のタイムラインを調査し、新しいタイムリーな通信方式を提案する。 提案されたスキームでは、各イテレーションでPSは$m$のクライアントを待ち、現在のモデルを送信する。 その後、PSは、$m$クライアントの早期$k$のローカルアップデートを使用して、各イテレーションでグローバルモデルを更新する。 各クライアントが経験する情報の平均年齢を見つけ、与えられた$n$の年齢最適値である$m$と$k$を数値的に特徴付ける。 提案手法は,時間軸の確保に加えて,グローバル学習タスクの収束を損なうことなくランダムクライアント選択に比べて,平均的なイテレーション時間を大幅に削減できることを示す。

We consider a federated learning framework in which a parameter server (PS) trains a global model by using $n$ clients without actually storing the client data centrally at a cloud server. Focusing on a setting where the client datasets are fast changing and highly temporal in nature, we investigate the timeliness of model updates and propose a novel timely communication scheme. Under the proposed scheme, at each iteration, the PS waits for $m$ available clients and sends them the current model. Then, the PS uses the local updates of the earliest $k$ out of $m$ clients to update the global model at each iteration. We find the average age of information experienced by each client and numerically characterize the age-optimal $m$ and $k$ values for a given $n$. Our results indicate that, in addition to ensuring timeliness, the proposed communication scheme results in significantly smaller average iteration times compared to random client selection without hurting the convergence of the global learning task.
翻訳日:2021-04-17 16:54:16 公開日:2021-03-13
# (参考訳) 株価予測のための株価データのテキストマイニング [全文訳有]

Text Mining of Stocktwits Data for Predicting Stock Prices ( http://arxiv.org/abs/2103.16388v1 )

ライセンス: CC BY 4.0
Mukul Jaggi, Priyanka Mandal, Shreya Narang, Usman Naseem and Matloob Khushi(参考訳) 価格変動を考慮し、人々の感情を理解することで、株価予測をより効率的にすることができる。 限られた数のモデルが金融用語を理解したり、株価の変動に関するデータセットをラベル付けしている。 この課題を克服するために、株価変化に基づいてStocktwitsテキストデータをラベル付けすることで、財務分野のテキスト分類タスクを処理するために訓練されたALBERTベースのモデルであるFinALBERTを導入した。 当社は、主要な5つのFAANG(Facebook、Amazon、Apple、Netflix、Google)を含む25の企業を対象に、10年以上にわたってStocktwitsのデータを収集しました。 これらのデータセットは、株価変動に基づく3つのラベル付け技術でラベル付けされた。 提案するモデルFinALBERTは,これらのラベルを微調整して最適な結果を得る。 従来の機械学習、BERT、FinBERTモデルに基づいてラベル付きデータセットをトレーニングすることで、ラベルがさまざまなモデルアーキテクチャでどのように振る舞ったかを理解するのに役立ちました。 我々のラベル付け手法の利点は,過去のデータを効果的に分析することであり,数理関数はストック移動を予測するために容易にカスタマイズできる点である。

Stock price prediction can be made more efficient by considering the price fluctuations and understanding the sentiments of people. A limited number of models understand financial jargon or have labelled datasets concerning stock price change. To overcome this challenge, we introduced FinALBERT, an ALBERT based model trained to handle financial domain text classification tasks by labelling Stocktwits text data based on stock price change. We collected Stocktwits data for over ten years for 25 different companies, including the major five FAANG (Facebook, Amazon, Apple, Netflix, Google). These datasets were labelled with three labelling techniques based on stock price changes. Our proposed model FinALBERT is fine-tuned with these labels to achieve optimal results. We experimented with the labelled dataset by training it on traditional machine learning, BERT, and FinBERT models, which helped us understand how these labels behaved with different model architectures. Our labelling method competitive advantage is that it can help analyse the historical data effectively, and the mathematical function can be easily customised to predict stock movement.
翻訳日:2021-04-05 03:29:03 公開日:2021-03-13
# NLPトレーニングにおけるシンプソンのバイアス

Simpson's Bias in NLP Training ( http://arxiv.org/abs/2103.11795v1 )

ライセンス: Link先を確認
Fei Yuan, Longtu Zhang, Huang Bojun, Yaobo Liang(参考訳) 多くの機械学習タスクにおいて、人口レベルの指標である$F(S;M)$を測定して、与えられたデータ集団に対して$M$の評価を行う。 そのような評価基準の例としては、(バイナリ)認識の精度/リコール、マルチクラス分類のf1スコア、言語生成のためのbleuメトリックなどがある。 一方、モデル $m$ は、各学習ステップ $t$ でサンプルレベルの損失 $g(s_t;m)$ を最適化することで訓練される。 minibatch (複数形 minibatchs) G$の一般的な選択には、クロスエントロピー損失、Dice損失、文レベルのBLEUスコアがある。 このパラダイムの背後にある基本的な仮定は、サンプルレベルの損失の平均値は、すべての可能なサンプルの平均値であれば、そのタスクの集団レベルのメトリックであるf$(例えば、$\mathbb{e}[g(s_t;m) ] \approx f(s;m)$)を効果的に表すべきであるということである。 本稿では,いくつかのNLPタスクにおいて,上記の仮定を体系的に検討する。 理論的および実験的に、サンプルレベルの損失のいくつかの一般的な設計は、真の人口レベルのメートル法であるf$と矛盾する可能性があるため、前者を最適化するために訓練されたモデルが後者に実質的に最適ではないことが示されている、それは我々がシムプソンのバイアスと呼ぶ現象であり、それは、統計学と社会科学におけるシムプソンの逆転パラドックスとして知られる古典的なパラドックスと深い関係があるためである。

In most machine learning tasks, we evaluate a model $M$ on a given data population $S$ by measuring a population-level metric $F(S;M)$. Examples of such evaluation metric $F$ include precision/recall for (binary) recognition, the F1 score for multi-class classification, and the BLEU metric for language generation. On the other hand, the model $M$ is trained by optimizing a sample-level loss $G(S_t;M)$ at each learning step $t$, where $S_t$ is a subset of $S$ (a.k.a. the mini-batch). Popular choices of $G$ include cross-entropy loss, the Dice loss, and sentence-level BLEU scores. A fundamental assumption behind this paradigm is that the mean value of the sample-level loss $G$, if averaged over all possible samples, should effectively represent the population-level metric $F$ of the task, such as, that $\mathbb{E}[ G(S_t;M) ] \approx F(S;M)$. In this paper, we systematically investigate the above assumption in several NLP tasks. We show, both theoretically and experimentally, that some popular designs of the sample-level loss $G$ may be inconsistent with the true population-level metric $F$ of the task, so that models trained to optimize the former can be substantially sub-optimal to the latter, a phenomenon we call it, Simpson's bias, due to its deep connections with the classic paradox known as Simpson's reversal paradox in statistics and social sciences.
翻訳日:2021-04-05 01:04:39 公開日:2021-03-13
# マルチモーダル情報検出に関する調査研究

A Survey on Multimodal Disinformation Detection ( http://arxiv.org/abs/2103.12541v1 )

ライセンス: Link先を確認
Firoj Alam, Stefano Cresci, Tanmoy Chakraborty, Fabrizio Silvestri, Dimiter Dimitrov, Giovanni Da San Martino, Shaden Shaar, Hamed Firooz, Preslav Nakov(参考訳) 近年では、偽ニュース、プロパガンダ、偽情報、偽情報をオンラインで拡散している。 当初はテキストコンテンツが中心だったが、時間が経つにつれて画像やビデオの人気が高まり、利用が容易になり、より注目を集め、単純なテキストよりも広く普及した。 その結果、研究者は異なるモダリティと組み合わせを標的にし始めた。 異なるモダリティが異なる研究コミュニティで研究されているため、我々は、テキスト、画像、音声、ビデオ、ネットワーク構造、時間的情報といった様々なモダリティの組み合わせをカバーするマルチモダリティ情報検出に関する最先端の調査結果を提供する。 また、事実性に着目した研究もあるが、コンテンツの有害性について調査する研究もある。 偽情報の定義におけるこれら2つの要素 -- (i) 事実性、および (ii) 有害性は等しく重要であるが、通常は孤立して研究されている。 したがって、同一の枠組みにおいて、複数のモダリティを考慮し、事実と有害性の両方を考慮し、偽情報検出に取り組む必要性を論じる。 最後に,現在の課題と今後の研究方向性について論じる。

Recent years have witnessed the proliferation of fake news, propaganda, misinformation, and disinformation online. While initially this was mostly about textual content, over time images and videos gained popularity, as they are much easier to consume, attract much more attention, and spread further than simple text. As a result, researchers started targeting different modalities and combinations thereof. As different modalities are studied in different research communities, with insufficient interaction, here we offer a survey that explores the state-of-the-art on multimodal disinformation detection covering various combinations of modalities: text, images, audio, video, network structure, and temporal information. Moreover, while some studies focused on factuality, others investigated how harmful the content is. While these two components in the definition of disinformation -- (i) factuality and (ii) harmfulness, are equally important, they are typically studied in isolation. Thus, we argue for the need to tackle disinformation detection by taking into account multiple modalities as well as both factuality and harmfulness, in the same framework. Finally, we discuss current challenges and future research directions.
翻訳日:2021-04-05 01:04:11 公開日:2021-03-13
# 新型コロナウイルスの流行がイタリアの国の評価と株式市場のパフォーマンスに及ぼす影響--感情分析による分析

Impact of the COVID-19 outbreak on Italy's country reputation and stock market performance: a sentiment analysis approach ( http://arxiv.org/abs/2103.13871v1 )

ライセンス: Link先を確認
Gianpaolo Zammarchi, Francesco Mola, Claudio Conversano(参考訳) 最近のコロナウイルス感染症(COVID-19)の流行で、Twitterはイベントに対する意見や反応を共有するために広く利用されている。 イタリアは、感染拡大によって深刻な影響を受けた最初のヨーロッパ諸国の一つであり、ロックダウンと在宅勤務の命令を確立した。 われわれは、新型コロナウイルスの感染拡大前後にTwitterで報告されたイタリアの意見の変化を調べるために感情分析を利用する。 異なるレキシコンベースの手法を用いて、イタリアで最初に確立された新型コロナウイルスの症例の日付に対応するブレークポイントを見つけ、国の評判の代理として使用される感情スコアに関連性のある変化を引き起こす。 次に、イタリアのセンチメントスコアは、ftse-mibの値の変化の早期検出信号として機能するため、イタリア証券取引所主要株価指数であるftse-mib指数のレベルと強く関連していることを示す。 最後に、コンテンツに基づくツイートを肯定的・否定的に分類し、2つの機械学習分類器を用いて、発生前後に投稿されたツイートの割り当てられた極性を検証する。

During the recent Coronavirus disease 2019 (COVID-19) outbreak, the microblogging service Twitter has been widely used to share opinions and reactions to events. Italy was one of the first European countries to be severely affected by the outbreak and to establish lockdown and stay-at-home orders, potentially leading to country reputation damage. We resort to sentiment analysis to investigate changes in opinions about Italy reported on Twitter before and after the COVID-19 outbreak. Using different lexicons-based methods, we find a breakpoint corresponding to the date of the first established case of COVID-19 in Italy that causes a relevant change in sentiment scores used as proxy of the country reputation. Next, we demonstrate that sentiment scores about Italy are strongly associated with the levels of the FTSE-MIB index, the Italian Stock Exchange main index, as they serve as early detection signals of changes in the values of FTSE-MIB. Finally, we make a content-based classification of tweets into positive and negative and use two machine learning classifiers to validate the assigned polarity of tweets posted before and after the outbreak.
翻訳日:2021-04-05 01:03:19 公開日:2021-03-13
# 機械学習による同期予測

Anticipating synchronization with machine learning ( http://arxiv.org/abs/2103.13358v1 )

ライセンス: Link先を確認
Huawei Fan, Ling-Wei Kong, Ying-Cheng Lai, Xingang Wang(参考訳) 動的システムのアプリケーションでは、同期の開始を予測することが望まれる状況が発生する可能性がある。 実験と実環境では、システム方程式はしばしば未知であり、モデルフリーで完全にデータ駆動の予測フレームワークを開発する必要性が高まる。 この難しい問題は機械学習で解決できると考えています。 特に、貯水池計算やエコー状態ネットワークを利用して、同期の開始前のパラメータ状態において、非同期時系列を用いてニューラルマシンをトレーニングする"パラメータ認識"スキームを考案する。 適切に訓練されたマシンは、所定のパラメータドリフト量で同期遷移を予測する能力を持ち、システムが非同期のままなのか同期ダイナミクスを示すのかを正確に予測することができる。 代表的なカオスモデルと,連続的(第2次)あるいは突然(第1次)遷移を示す小さなネットワークシステムを用いて,機械学習ベースのフレームワークを実演する。 注目すべき特徴は、爆発的な(一階の)遷移とヒステリシスループを同期に示すネットワークシステムにおいて、機械学習スキームは、前方および後方の遷移経路に関連する遷移点の正確な位置を含むこれらの特徴を正確に予測することができることである。

In applications of dynamical systems, situations can arise where it is desired to predict the onset of synchronization as it can lead to characteristic and significant changes in the system performance and behaviors, for better or worse. In experimental and real settings, the system equations are often unknown, raising the need to develop a prediction framework that is model free and fully data driven. We contemplate that this challenging problem can be addressed with machine learning. In particular, exploiting reservoir computing or echo state networks, we devise a "parameter-aware" ; scheme to train the neural machine using asynchronous time series, i.e., in the parameter regime prior to the onset of synchronization. A properly trained machine will possess the power to predict the synchronization transition in that, with a given amount of parameter drift, whether the system would remain asynchronous or exhibit synchronous dynamics can be accurately anticipated. We demonstrate the machine-learning based framework using representative chaotic models and small network systems that exhibit continuous (second-order) or abrupt (first-order) transitions. A remarkable feature is that, for a network system exhibiting an explosive (first-order) transition and a hysteresis loop in synchronization, the machine learning scheme is capable of accurately predicting these features, including the precise locations of the transition points associated with the forward and backward transition paths.
翻訳日:2021-04-05 01:00:55 公開日:2021-03-13
# (参考訳) 分散学習と民主的埋め込み:通信制約下での分散グラディエントに最小限の低境界を達成できる多項式時間音源符号化方式 [全文訳有]

Distributed Learning and Democratic Embeddings: Polynomial-Time Source Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient Descent under Communication Constraints ( http://arxiv.org/abs/2103.07578v1 )

ライセンス: CC BY 4.0
Rajarshi Saha, Mert Pilanci, Andrea J. Goldsmith(参考訳) 本研究では,計算ノードとパラメータサーバ間の情報交換を最大ビット予算で行う分散最適化について考察する。 まず, n-次元ユークリッド空間においてベクトルを圧縮する問題を考える。 これらの符号化スキームは、結果の量子化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味で(ほぼ)最適であることを示す。 そこで,本稿では,分散最適化アルゴリズムDGD-DEFを提案する。DGD-DEFは,提案した符号化戦略を用いて,通信制約のある分散最適化アルゴリズムのクラスに対して,(ほぼ)定数要素内における最小収束率を実現する。 さらに,提案手法が他の圧縮方式と併用することで,性能を著しく向上できることを示すことにより,提案手法の有用性を拡大する。 数値シミュレーションにより理論的主張を検証する。 キーワード:fast democratic (kashin)埋め込み、分散最適化、データレート制約、量子化勾配降下、エラーフィードバック。

In this work, we consider the distributed optimization setting where information exchange between the computation nodes and the parameter server is subject to a maximum bit-budget. We first consider the problem of compressing a vector in the n-dimensional Euclidean space, subject to a bit-budget of R-bits per dimension, for which we introduce Democratic and Near-Democratic source-coding schemes. We show that these coding schemes are (near) optimal in the sense that the covering efficiency of the resulting quantizer is either dimension independent, or has a very weak logarithmic dependence. Subsequently, we propose a distributed optimization algorithm: DGD-DEF, which employs our proposed coding strategy, and achieves the minimax optimal convergence rate to within (near) constant factors for a class of communication-constr ained distributed optimization algorithms. Furthermore, we extend the utility of our proposed source coding scheme by showing that it can remarkably improve the performance when used in conjunction with other compression schemes. We validate our theoretical claims through numerical simulations. Keywords: Fast democratic (Kashin) embeddings, Distributed optimization, Data-rate constraint, Quantized gradient descent, Error feedback.
翻訳日:2021-03-18 07:47:21 公開日:2021-03-13
# (参考訳) DeepGroup: 暗黙のフィードバックを伴うグループ推薦のための表現学習 [全文訳有]

DeepGroup: Representation Learning for Group Recommendation with Implicit Feedback ( http://arxiv.org/abs/2103.07597v1 )

ライセンス: CC BY 4.0
Sarina Sajadi Ghaemmaghami and Amirali Salehi-Abari(参考訳) グループ推薦システムは、個人(例えば、友人のグループ、チーム、企業など)のためのグループ意思決定を促進する。 しかし、これらのシステムの多くは、(i)ユーザーの選好が導かれる(または推論される)ことができると仮定し、グループ選好に集約するか(ii)グループ選好が部分的に観察/導かれるかのどちらかである。 我々は、好みが不明な新しいユーザーグループへの推薦に重点を置いているが、他のグループの決定や選択が与えられている。 この問題をグループ内暗黙的フィードバックからのグループ推薦として定式化することにより,グループ決定予測とリバース・ソーシャル選択の2つの実践例に焦点を当てた。 グループの集合とその観察された決定が与えられた場合、グループ決定予測は、新しいグループのユーザの決定を予測しようとするが、逆に社会的選択は、観察されたグループ決定に関与するユーザの好みを推測することを目的としている。 これら2つの問題は、グループレコメンデーションだけでなく、ユーザが個人の好みを隠すだけでなく、グループ決定に参加した場合の個人のプライバシーにも関心がある。 この2つの問題に取り組むために,deepgroup - グループ暗黙のデータを用いたグループ推薦のためのディープラーニングアプローチを提案する。 様々な実世界のデータセットにおけるdeepgroupの予測能力、グループ条件(例えば、ホモフィリーやヘテロフィリー)、グループ決定(あるいは投票)ルールを実証的に評価する。 DeepGroupの有効性を実証するだけでなく、意思決定プロセスのプライバシー保護に関する懸念にも光を当てています。

Group recommender systems facilitate group decision making for a set of individuals (e.g., a group of friends, a team, a corporation, etc.). Many of these systems, however, either assume that (i) user preferences can be elicited (or inferred) and then aggregated into group preferences or (ii) group preferences are partially observed/elicited. We focus on making recommendations for a new group of users whose preferences are unknown, but we are given the decisions/choices of other groups. By formulating this problem as group recommendation from group implicit feedback, we focus on two of its practical instances: group decision prediction and reverse social choice. Given a set of groups and their observed decisions, group decision prediction intends to predict the decision of a new group of users, whereas reverse social choice aims to infer the preferences of those users involved in observed group decisions. These two problems are of interest to not only group recommendation, but also to personal privacy when the users intend to conceal their personal preferences but have participated in group decisions. To tackle these two problems, we propose and study DeepGroup -- a deep learning approach for group recommendation with group implicit data. We empirically assess the predictive power of DeepGroup on various real-world datasets, group conditions (e.g., homophily or heterophily), and group decision (or voting) rules. Our extensive experiments not only demonstrate the efficacy of DeepGroup, but also shed light on the privacy-leakage concerns of some decision making processes.
翻訳日:2021-03-18 06:45:02 公開日:2021-03-13
# (参考訳) シングルヘッドアテンションの学習方法の近似 [全文訳有]

Approximating How Single Head Attention Learns ( http://arxiv.org/abs/2103.07601v1 )

ライセンス: CC BY 4.0
Charlie Snell, Ruiqi Zhong, Dan Klein, Jacob Steinhardt(参考訳) なぜモデルは敬語にしばしば出席するのか、トレーニングを通じてどのように進化するのか? 2段階のプロセスとしてモデルトレーニングを近似する: 注意重みが一様であれば、トレーニングの早い段階でモデルが個々の入力語 `i` を ‘o' に変換することを学習する。 その後、モデルは `i` に出席することを学習し、正しい出力は `i` が `o` に翻訳されるので $o$ となる。 形式化するために、モデルプロパティ、KTIW(Knowledge to Translate Individual Words)を定義する(例)。 i` が `o` に翻訳されていることを知り、注意の学習を促進すると主張している。 この主張は、注意機構が学習される前に、KTIWは単語共起統計から学習できるが、その逆ではないという事実に裏付けられている。 特に、ktiwを学習しにくくし、注意の学習が失敗し、モデルが入力語を出力にコピーする簡単なタスクさえも学習できないトレーニング分布を構築することができる。 我々の近似は、モデルが有能な単語に付随する理由を説明し、マルチヘッドアテンションモデルが、表現性よりも学習力学を改善することで、上記のハードトレーニング分布を克服できるおもちゃの例を刺激する。

Why do models often attend to salient words, and how does this evolve throughout training? We approximate model training as a two stage process: early on in training when the attention weights are uniform, the model learns to translate individual input word `i` to `o` if they co-occur frequently. Later, the model learns to attend to `i` while the correct output is $o$ because it knows `i` translates to `o`. To formalize, we define a model property, Knowledge to Translate Individual Words (KTIW) (e.g. knowing that `i` translates to `o`), and claim that it drives the learning of the attention. This claim is supported by the fact that before the attention mechanism is learned, KTIW can be learned from word co-occurrence statistics, but not the other way around. Particularly, we can construct a training distribution that makes KTIW hard to learn, the learning of the attention fails, and the model cannot even learn the simple task of copying the input words to the output. Our approximation explains why models sometimes attend to salient words, and inspires a toy example where a multi-head attention model can overcome the above hard training distribution by improving learning dynamics rather than expressiveness.
翻訳日:2021-03-18 06:24:10 公開日:2021-03-13
# (参考訳) OmniFair: 機械学習におけるモデル非依存グループフェアネスの宣言システム [全文訳有]

OmniFair: A Declarative System for Model-Agnostic Group Fairness in Machine Learning ( http://arxiv.org/abs/2103.09055v1 )

ライセンス: CC BY 4.0
Hantian Zhang, Xu Chu, Abolfazl Asudeh, Shamkant B. Navathe(参考訳) 機械学習(ML)は、私たちの社会における意思決定にますます使われています。 しかし、MLモデルは、様々な公正度指標に従って特定の人口集団(アフリカ系アメリカ人や女性など)に対して不公平である可能性がある。 フェアなMLモデルを生成する既存の技術は、処理可能なフェアネス制約の種類(例えば前処理)に制限されるか、下流のMLトレーニングアルゴリズム(例えば、内処理)に非自明な修正を必要とする。 MLにおけるグループフェアネスを支援するための宣言型システムOmniFairを提案する。 omnifairは、ユーザが希望するグループフェアネス制約を指定できる宣言型インターフェースを備えており、統計パリティ、等化オッズ、予測パリティを含む、一般的に使用されるすべてのグループフェアネス概念をサポートしている。 OmniFairは、選択したMLアルゴリズムの変更を必要としないという意味でも、モデルに依存しない。 OmniFairは複数のユーザが宣言した公正性制約を同時に実施する機能もサポートしている。 OmniFairのアルゴリズムは、指定された公正性制約を満たしながらモデル精度を最大化し、その効率は、我々のシステムに特有の正確性と公正性のトレードオフに関する理論的に証明可能な単調性特性に基づいて最適化される。 フェアネス文学における少数派に対する偏見を示すために、よく使われるデータセットの実験を行う。 我々は、OmniFairが既存のアルゴリズムフェアネスアプローチよりも、サポートされたフェアネス制約と下流MLモデルの両方の観点から、より汎用的であることを示す。 OmniFairは、第2のベストメソッドと比較して、9,4.8\%の精度損失を減らす。 OmniFairは、プリプロセッシングメソッドと同じような実行時間を実現しており、インプロセッシングメソッドよりも最大270\times$高速である。

Machine learning (ML) is increasingly being used to make decisions in our society. ML models, however, can be unfair to certain demographic groups (e.g., African Americans or females) according to various fairness metrics. Existing techniques for producing fair ML models either are limited to the type of fairness constraints they can handle (e.g., preprocessing) or require nontrivial modifications to downstream ML training algorithms (e.g., in-processing). We propose a declarative system OmniFair for supporting group fairness in ML. OmniFair features a declarative interface for users to specify desired group fairness constraints and supports all commonly used group fairness notions, including statistical parity, equalized odds, and predictive parity. OmniFair is also model-agnostic in the sense that it does not require modifications to a chosen ML algorithm. OmniFair also supports enforcing multiple user declared fairness constraints simultaneously while most previous techniques cannot. The algorithms in OmniFair maximize model accuracy while meeting the specified fairness constraints, and their efficiency is optimized based on the theoretically provable monotonicity property regarding the trade-off between accuracy and fairness that is unique to our system. We conduct experiments on commonly used datasets that exhibit bias against minority groups in the fairness literature. We show that OmniFair is more versatile than existing algorithmic fairness approaches in terms of both supported fairness constraints and downstream ML models. OmniFair reduces the accuracy loss by up to $94.8\%$ compared with the second best method. OmniFair also achieves similar running time to preprocessing methods, and is up to $270\times$ faster than in-processing methods.
翻訳日:2021-03-18 05:40:50 公開日:2021-03-13
# (参考訳) タスク削減による構成強化学習問題の解法 [全文訳有]

Solving Compositional Reinforcement Learning Problems via Task Reduction ( http://arxiv.org/abs/2103.07607v1 )

ライセンス: CC BY 4.0
Yunfei Li, Yilin Wu, Huazhe Xu, Xiaolong Wang, Yi Wu(参考訳) 本稿では,合成強化学習問題を解決するための新しい学習パラダイム,SIR(Self-Imitation via Reduction)を提案する。 SIRは2つの中核的な考え方に基づいている。 タスクリダクションは、RLエージェントによって解が知られている簡単なタスクに積極的に還元することで、解決し難いタスクに取り組む。 タスク削減によって元のハードタスクがうまく解決されると、エージェントは自然に模倣する自己生成のソリューション軌跡を得る。 このようなデモンストレーションを継続的に収集し模倣することにより、エージェントはタスク空間全体において解決された部分空間を徐々に拡張することができる。 実験の結果,sirは,構成構造を持つ難易度の低い連続制御問題において,学習を著しく促進し改善できることが示されている。

We propose a novel learning paradigm, Self-Imitation via Reduction (SIR), for solving compositional reinforcement learning problems. SIR is based on two core ideas: task reduction and self-imitation. Task reduction tackles a hard-to-solve task by actively reducing it to an easier task whose solution is known by the RL agent. Once the original hard task is successfully solved by task reduction, the agent naturally obtains a self-generated solution trajectory to imitate. By continuously collecting and imitating such demonstrations, the agent is able to progressively expand the solved subspace in the entire task space. Experiment results show that SIR can significantly accelerate and improve learning on a variety of challenging sparse-reward continuous-control problems with compositional structures.
翻訳日:2021-03-18 04:52:17 公開日:2021-03-13
# (参考訳) 圧縮レンズレス撮影のための無訓練ネットワーク [全文訳有]

Untrained networks for compressive lensless photography ( http://arxiv.org/abs/2103.07609v1 )

ライセンス: CC BY 4.0
Kristina Monakhova, Vi Tran, Grace Kuo, Laura Waller(参考訳) 圧縮レンズレス撮像装置は、センサーの近くに位相または振幅マスクを配置するだけで、非常にコンパクトなデバイスで新しい応用を可能にする。 2dおよび3d顕微鏡、シングルショットビデオ、シングルショットハイパースペクトラルイメージングで実証されており、それぞれの場合において、2d計測から3dデータキューブを回収するために圧縮センシングに基づく逆問題を解く。 通常、これは凸最適化とハンドピックプリエントを使って達成される。 あるいは、ディープラーニングに基づく再構築手法は、より良い事前の約束を提供するが、何千もの真実のトレーニングペアを必要とするため、取得は困難または不可能である。 本研究では,圧縮画像回復のための非トレーニングネットワークを提案する。 我々の手法はラベル付きトレーニングデータを必要としないが、代わりに測定自体を使ってネットワークの重みを更新する。 我々は、レンズレス圧縮2Dイメージングの非トレーニングアプローチと、カメラのローリングシャッターを用いたシングルショット高速ビデオリカバリ、シングルショットハイパースペクトルイメージングを実証した。 シミュレーションと実験による検証を行い,既存の手法よりも画質が向上したことを示す。

Compressive lensless imagers enable novel applications in an extremely compact device, requiring only a phase or amplitude mask placed close to the sensor. They have been demonstrated for 2D and 3D microscopy, single-shot video, and single-shot hyperspectral imaging; in each of these cases, a compressive-sensing- based inverse problem is solved in order to recover a 3D data-cube from a 2D measurement. Typically, this is accomplished using convex optimization and hand-picked priors. Alternatively, deep learning-based reconstruction methods offer the promise of better priors, but require many thousands of ground truth training pairs, which can be difficult or impossible to acquire. In this work, we propose the use of untrained networks for compressive image recovery. Our approach does not require any labeled training data, but instead uses the measurement itself to update the network weights. We demonstrate our untrained approach on lensless compressive 2D imaging as well as single-shot high-speed video recovery using the camera's rolling shutter, and single-shot hyperspectral imaging. We provide simulation and experimental verification, showing that our method results in improved image quality over existing methods.
翻訳日:2021-03-18 04:23:40 公開日:2021-03-13
# (参考訳) 株価予測のための特徴学習はアナリストレーティングの重要な役割を示す [全文訳有]

Feature Learning for Stock Price Prediction Shows a Significant Role of Analyst Rating ( http://arxiv.org/abs/2103.09106v1 )

ライセンス: CC BY 4.0
Jaideep Singh and Matloob Khushi(参考訳) 効率的な市場仮説を拒絶するために、5つの技術的指標と23の基本的な指標が特定され、株式市場で過剰なリターンを生み出す可能性を確立した。 これらのデータポイントと各種分類機械学習モデルを用いて,過去20年間の米国s&p500株505株のトレーディングデータを解析し,本研究に有効な分類器を開発した。 いずれの日でも、価格変更の方向性を10日以内の1%まで予測できたのです。 全体的な精度は83.62%で、購入信号の精度は85%、販売信号のリコールは100%だった。 さらに,株式をセクタ別にグループ化し,類似資産の集団化が肯定的な効果を示したが,セクタベース分析の考え方を否定する性能に有意な改善は認められなかったと結論づけた。 また、機能ランキングを使用することで、オリジナルの28機能と同様の精度を維持しながら、6つの指標のより小さなセットを特定できると同時に、モデルのトップコントリビュータとなったアナリスト評価の購入、保持、販売の重要性を明らかにしました。 最後に,実生活環境における分類器の有効性を評価するために,テストデータセットの期間において60%を超える高いリターンを生んだモデム取引戦略を用いてFAANG株をバックテストした。 結論として,提案手法は目的に選択された特徴を組み合わせることで従来の研究よりも改善し,信頼度が高く,かつ十分なバッファでロボット取引システムを構築することが可能な10日目の価格変化の方向を予測した。

To reject the Efficient Market Hypothesis a set of 5 technical indicators and 23 fundamental indicators was identified to establish the possibility of generating excess returns on the stock market. Leveraging these data points and various classification machine learning models, trading data of the 505 equities on the US S&P500 over the past 20 years was analysed to develop a classifier effective for our cause. From any given day, we were able to predict the direction of change in price by 1% up to 10 days in the future. The predictions had an overall accuracy of 83.62% with a precision of 85% for buy signals and a recall of 100% for sell signals. Moreover, we grouped equities by their sector and repeated the experiment to see if grouping similar assets together positively effected the results but concluded that it showed no significant improvements in the performance rejecting the idea of sector-based analysis. Also, using feature ranking we could identify an even smaller set of 6 indicators while maintaining similar accuracies as that from the original 28 features and also uncovered the importance of buy, hold and sell analyst ratings as they came out to be the top contributors in the model. Finally, to evaluate the effectiveness of the classifier in real-life situations, it was backtested on FAANG equities using a modest trading strategy where it generated high returns of above 60% over the term of the testing dataset. In conclusion, our proposed methodology with the combination of purposefully picked features shows an improvement over the previous studies, and our model predicts the direction of 1% price changes on the 10th day with high confidence and with enough buffer to even build a robotic trading system.
翻訳日:2021-03-18 03:49:23 公開日:2021-03-13
# (参考訳) SMOTE-ENC: 名目および連続的な特徴のための合成データを生成する新しいSMOTEベース手法 [全文訳有]

SMOTE-ENC: A novel SMOTE-based method to generate synthetic data for nominal and continuous features ( http://arxiv.org/abs/2103.07612v1 )

ライセンス: CC BY 4.0
Mimi Mukherjee and Matloob Khushi(参考訳) 現実世界のデータセットは、いくつかのクラスが他のクラスに比較してかなり歪んでいる。 これらの状況では、機械学習アルゴリズムは、これらの未表現のインスタンスを予測しながら、実質的な有効性を達成することができない。 この問題を解決するために、連続的な特徴を扱うデータセットのバランスをとるために、合成マイノリティオーバーサンプリング法(SMOTE)の多くのバリエーションが提案されている。 しかし、名目上かつ連続的な特徴を持つデータセットの場合、SMOTE-NCはデータのバランスをとる唯一のSMOTEベースのオーバーサンプリング技術である。 本稿では,名目特徴を数値としてエンコードし,その2つの数値の差がマイノリティクラスとの関連の変化量を反映した,新たなマイノリティオーバーサンプリング法であるsmote-enc(smote)を提案する。 実験により,smote-enc法を用いた分類モデルは,データセットが相当数の名目的特徴を持つ場合と,分類的特徴と対象クラスとの相関がある場合において,smote-ncを用いたモデルよりも優れた予測を提供することが示された。 さらに,提案手法はSMOTE-NCアルゴリズムの主要な制約の一つに対処する。 SMOTE-NCは、連続的な特徴と名目的特徴の両方からなる特徴を持つ混合データセットにのみ適用でき、データセットのすべての機能が名目上は機能しない。 我々の新しい手法は混合データセットと名目のみのデータセットの両方に適用できるように一般化されている。 コードはmkhushi.github.ioから入手できる。

Real world datasets are heavily skewed where some classes are significantly outnumbered by the other classes. In these situations, machine learning algorithms fail to achieve substantial efficacy while predicting these under-represented instances. To solve this problem, many variations of synthetic minority over-sampling methods (SMOTE) have been proposed to balance the dataset which deals with continuous features. However, for datasets with both nominal and continuous features, SMOTE-NC is the only SMOTE-based over-sampling technique to balance the data. In this paper, we present a novel minority over-sampling method, SMOTE-ENC (SMOTE - Encoded Nominal and Continuous), in which, nominal features are encoded as numeric values and the difference between two such numeric value reflects the amount of change of association with minority class. Our experiments show that the classification model using SMOTE-ENC method offers better prediction than model using SMOTE-NC when the dataset has a substantial number of nominal features and also when there is some association between the categorical features and the target class. Additionally, our proposed method addressed one of the major limitations of SMOTE-NC algorithm. SMOTE-NC can be applied only on mixed datasets that have features consisting of both continuous and nominal features and cannot function if all the features of the dataset are nominal. Our novel method has been generalized to be applied on both mixed datasets and on nominal only datasets. The code is available from mkhushi.github.io
翻訳日:2021-03-18 03:31:17 公開日:2021-03-13
# (参考訳) 顔アライメント、頭部ポーズ推定、顔追跡のための効率的なマルチタスクニューラルネットワーク [全文訳有]

An Efficient Multitask Neural Network for Face Alignment, Head Pose Estimation and Face Tracking ( http://arxiv.org/abs/2103.07615v1 )

ライセンス: CC BY 4.0
Jiahao Xia, Haimin Zhang, Shiping Wen, Shuo Yang and Min Xu(参考訳) 畳み込みニューラルネットワーク(CNN)は顔関連アルゴリズムの性能を大幅に向上させたが、実用上は精度と効率を同時に維持することは困難である。 近年の研究では、多数のボトムアップ層とトップダウン層からなる砂時計モジュールのカスケードを用いて、顔アライメントのための顔構造情報を抽出し、精度を向上させることが示されている。 しかし、従来の研究では、浅い畳み込み層が生み出す特徴がエッジと非常に一致していることが示されている。 これらの機能は、追加コストなしで構造情報を提供するために直接使用できる。 この直感により,効率的なマルチタスク顔アライメント,顔追跡,頭部ポーズ推定ネットワーク(ATPN)を提案する。 具体的には,浅層特徴と深層特徴とのショートカット接続を導入し,顔アライメントの構造情報を提供し,最後の数層にcoordconvを適用して座標情報を提供する。 予測された顔のランドマークは、頭部ポーズ推定のための幾何情報と外観情報の両方を含む安価なヒートマップを生成することができ、顔追跡のための注意情報も提供する。 さらに、顔追跡タスクは、各フレームの顔検出手順を省き、ビデオベースタスクのパフォーマンス向上に寄与する。 提案手法は,WFLW,300VW,WIDER Face,300W-LPの4つのベンチマークデータセットを用いて評価した。 実験の結果,ATPNは従来の最先端手法に比べて性能が向上し,パラメータやFLOPSは少ないことがわかった。

While convolutional neural networks (CNNs) have significantly boosted the performance of face related algorithms, maintaining accuracy and efficiency simultaneously in practical use remains challenging. Recent study shows that using a cascade of hourglass modules which consist of a number of bottom-up and top-down convolutional layers can extract facial structural information for face alignment to improve accuracy. However, previous studies have shown that features produced by shallow convolutional layers are highly correspond to edges. These features could be directly used to provide the structural information without addition cost. Motivated by this intuition, we propose an efficient multitask face alignment, face tracking and head pose estimation network (ATPN). Specifically, we introduce a shortcut connection between shallow-layer features and deep-layer features to provide the structural information for face alignment and apply the CoordConv to the last few layers to provide coordinate information. The predicted facial landmarks enable us to generate a cheap heatmap which contains both geometric and appearance information for head pose estimation and it also provides attention clues for face tracking. Moreover, the face tracking task saves us the face detection procedure for each frame, which is significant to boost performance for video-based tasks. The proposed framework is evaluated on four benchmark datasets, WFLW, 300VW, WIDER Face and 300W-LP. The experimental results show that the ATPN achieves improved performance compared to previous state-of-the-art methods while having less number of parameters and FLOPS.
翻訳日:2021-03-18 03:16:57 公開日:2021-03-13
# (参考訳) 公衆衛生のための多モジュール統合システムに基づくエスカレーター関連傷害の同定と予防 [全文訳有]

Potential Escalator-related Injury Identification and Prevention Based on Multi-module Integrated System for Public Health ( http://arxiv.org/abs/2103.07620v1 )

ライセンス: CC BY 4.0
Zeyu Jiao, Huan Lei, Hengshan Zong, Yingjie Cai, Zhenyu Zhong(参考訳) エスカレーター関連外傷は、エスカレーターの普及によって公衆衛生を脅かす。 既存の研究は、エスカレーターによる怪我の影響を減らすために、元の設計と欠陥の使用を反映した事後統計に焦点を当てる傾向があるが、現在進行中の負傷や差し迫った負傷にはほとんど注意が払われていない。 本研究では,コンピュータビジョンに基づくマルチモジュールエスカレーター安全監視システムを設計し,バランスの低下やハンドレールの保持,大型品の運搬など,3つの主な障害トリガーの同時監視と対処について提案する。 エスカレーター識別モジュールは、エスカレーター領域、すなわち関心領域を決定するために使用される。 乗客監視モジュールを利用して乗客の姿勢を推定し、エスカレーター上の安全でない行動を認識する。 危険な物体検出モジュールはエスカレーターに入る可能性のある大きなアイテムを検出し、警報を発する。 上記の3つのモジュールの処理結果は、システムのインテリジェントな決定の基礎として、安全性評価モジュールにまとめられている。 実験の結果,提案システムの性能は良好であり,応用可能性も高いことがわかった。

Escalator-related injuries threaten public health with the widespread use of escalators. The existing studies tend to focus on after-the-fact statistics, reflecting on the original design and use of defects to reduce the impact of escalator-related injuries, but few attention has been paid to ongoing and impending injuries. In this study, a multi-module escalator safety monitoring system based on computer vision is designed and proposed to simultaneously monitor and deal with three major injury triggers, including losing balance, not holding on to handrails and carrying large items. The escalator identification module is utilized to determine the escalator region, namely the region of interest. The passenger monitoring module is leveraged to estimate the passengers' pose to recognize unsafe behaviors on the escalator. The dangerous object detection module detects large items that may enter the escalator and raises alarms. The processing results of the above three modules are summarized in the safety assessment module as the basis for the intelligent decision of the system. The experimental results demonstrate that the proposed system has good performance and great application potential.
翻訳日:2021-03-18 03:01:08 公開日:2021-03-13
# (参考訳) 深層学習法による網膜芽細胞腫の早期診断 [全文訳有]

Early Prediction and Diagnosis of Retinoblastoma Using Deep Learning Techniques ( http://arxiv.org/abs/2103.07622v1 )

ライセンス: CC0 1.0
C. Anand Deva Durai, T Jemima Jebaseeli, Salem Alelyani, Azath Mubharakali(参考訳) 網膜芽細胞腫(Retinoblastoma)は、世界中の子供や成人の視覚に影響を及ぼす小児眼内悪性腫瘍である。 成人と比較・比較すると、ウビアルメラノーマである。 眼と周囲の構造物を埋めて破壊できる攻撃的な腫瘍である。 そのため、小児の網膜芽細胞腫の早期発見が鍵となる。 この研究の主な影響は、網膜の腫瘍細胞を特定することである。 また、腫瘍のステージとその対応するグループを見つけることを目的とする。 提案システムは、早期に網膜芽細胞腫の正確な予測と診断を眼科医に支援する。 提案手法の貢献は、幼児と成人児の視覚障害から命を救うことである。 提案手法は,前処理,分割,分類の3段階からなる。 当初、基底画像はLinner Predictive Decision based Median Filter (LPDMF)を用いて前処理される。 患者の眼を捉えたりスキャンしたりしながら、照明によって画像に発生するノイズを除去する。 前処理された画像は畳み込みニューラルネットワーク(cnn)を使用してセグメンテーションされ、前景の腫瘍細胞を背景から区別する。

Retinoblastoma is the most prominent childhood primary intraocular malignancy that impacts the vision of children and adults worldwide. In contrasting and comparing with adults it is uveal melanoma. It is an aggressive tumor that can fill and destroy the eye and the surrounding structures. Therefore early detection of retinoblastoma in childhood is the key. The major impact of the research is to identify the tumor cells in the retina. Also is to find out the stages of the tumor and its corresponding group. The proposed systems assist the ophthalmologists for accurate prediction and diagnosis of retinoblastoma cancer disease at the earliest. The contribution of the proposed approach is to save the life of infants and the grown-up children from vision impairment. The proposed methodology consists of three phases namely, preprocessing, segmentation, and classification. Initially, the fundus images are preprocessed using the Liner Predictive Decision based Median Filter (LPDMF). It removes the noise introduced in the image due to illumination while capturing or scanning the eye of the patients. The preprocessed images are segmented using the Convolutional Neural Network (CNN) to distinguish the foreground tumor cells from the background.
翻訳日:2021-03-18 02:44:56 公開日:2021-03-13
# (参考訳) 雑音ラベル補正のためのマニフォールドデータ分割によるアンサンブル学習 [全文訳有]

Ensemble Learning with Manifold-Based Data Splitting for Noisy Label Correction ( http://arxiv.org/abs/2103.07641v1 )

ライセンス: CC BY 4.0
Hao-Chiang Shao, Hsin-Chieh Wang, Weng-Tai Su, and Chia-Wen Lin(参考訳) トレーニングデータのラベルノイズは、教師付き学習タスクに対するモデルの一般化性能を著しく低下させる。 ここでは,ノイズラベルが,一様分布ではなく,決定境界付近に集中する傾向があり,その特徴が等価であるという問題に焦点をあてる。 そこで本研究では,特徴多様体の局所構造を利用して雑音ラベルを補正するアンサンブル学習手法を提案する。 ある損失項を通じてサブモデル間の予測の多様性を増大させる典型的なアンサンブル戦略とは異なり、本手法は分離部分集合上のサブモデルを訓練し、それぞれがデータ多様体上のランダムに選択されたシードサンプルの最も近い近辺の結合である。 その結果、各サブモデルは対応するグラフと共にデータ多様体の粗い表現を学習することができる。 さらに、局所集中型ノイズラベルの影響を受けるのは限られたサブモデルのみである。 構築したグラフはラベル補正候補の連続を示唆するために用いられ、その結果、不一致の提案を投票してラベル補正結果を導出する。 実世界の雑音ラベルデータセットに関する実験により,提案手法が既存の最先端技術よりも優れていることを示す。

Label noise in training data can significantly degrade a model's generalization performance for supervised learning tasks. Here we focus on the problem that noisy labels are primarily mislabeled samples, which tend to be concentrated near decision boundaries, rather than uniformly distributed, and whose features should be equivocal. To address the problem, we propose an ensemble learning method to correct noisy labels by exploiting the local structures of feature manifolds. Different from typical ensemble strategies that increase the prediction diversity among sub-models via certain loss terms, our method trains sub-models on disjoint subsets, each being a union of the nearest-neighbors of randomly selected seed samples on the data manifold. As a result, each sub-model can learn a coarse representation of the data manifold along with a corresponding graph. Moreover, only a limited number of sub-models will be affected by locally-concentrated noisy labels. The constructed graphs are used to suggest a series of label correction candidates, and accordingly, our method derives label correction results by voting down inconsistent suggestions. Our experiments on real-world noisy label datasets demonstrate the superiority of the proposed method over existing state-of-the-arts.
翻訳日:2021-03-18 02:31:15 公開日:2021-03-13
# (参考訳) 深層仮説を用いたロバストモデル圧縮 [全文訳有]

Robust Model Compression Using Deep Hypotheses ( http://arxiv.org/abs/2103.07668v1 )

ライセンス: CC BY 4.0
Omri Armstrong, Ran Gilad-Bachrach(参考訳) 機械学習モデルは理想的にはコンパクトで堅牢であるべきです。 コンパクト性は効率性と理解性を提供し、堅牢性はレジリエンスを提供する。 どちらの話題も近年研究されているが、孤立している。 ここでは,モデルタイプに依存しないロバストなモデル圧縮スキームを提案する。アンサンブルやニューラルネットワーク,その他のモデルを,さまざまな種類の小型モデルに圧縮することができる。 主要なビルディングブロックは、ロバスト統計から導かれる深さの概念である。 もともとの深さは、中央値が最も深い点であるようなサンプル内の点の中央値の尺度として導入された。 この概念は、仮説の深さと中央値仮説を定義することができる分類関数にまで拡張された。 アルゴリズムは中央値に近似するよう提案されているが、バイナリ分類に制限されている。 本研究では,マルチクラスタスクにおける深い仮説を発見し,その正当性を証明した新しいアルゴリズム,MEMOアルゴリズムを提案する。 これにより、堅牢なモデル圧縮のためのコンパクトロバスト推定メディア信念最適化(CREMBO)アルゴリズムが実現される。 ニューラルネットワークとランダムフォレストを、解釈可能なモデルである小さな決定木に圧縮することで、このアルゴリズムの成功を実証し、他の同等の手法よりも正確かつ堅牢であることを示す。 さらに,本手法がDNNからDNN圧縮における知識蒸留よりも優れていることを示す実験的検討を行った。

Machine Learning models should ideally be compact and robust. Compactness provides efficiency and comprehensibility whereas robustness provides resilience. Both topics have been studied in recent years but in isolation. Here we present a robust model compression scheme which is independent of model types: it can compress ensembles, neural networks and other types of models into diverse types of small models. The main building block is the notion of depth derived from robust statistics. Originally, depth was introduced as a measure of the centrality of a point in a sample such that the median is the deepest point. This concept was extended to classification functions which makes it possible to define the depth of a hypothesis and the median hypothesis. Algorithms have been suggested to approximate the median but they have been limited to binary classification. In this study, we present a new algorithm, the Multiclass Empirical Median Optimization (MEMO) algorithm that finds a deep hypothesis in multi-class tasks, and prove its correctness. This leads to our Compact Robust Estimated Median Belief Optimization (CREMBO) algorithm for robust model compression. We demonstrate the success of this algorithm empirically by compressing neural networks and random forests into small decision trees, which are interpretable models, and show that they are more accurate and robust than other comparable methods. In addition, our empirical study shows that our method outperforms Knowledge Distillation on DNN to DNN compression.
翻訳日:2021-03-18 01:48:27 公開日:2021-03-13
# (参考訳) uTHCD: タミル手書きOCRの新しいベンチマーク [全文訳有]

uTHCD: A New Benchmarking for Tamil Handwritten OCR ( http://arxiv.org/abs/2103.07676v1 )

ライセンス: CC BY 4.0
Noushath Shaffi, Faizal Hajamohideen(参考訳) 手書き文字認識は文書画像解析の分野で数十年にわたって挑戦的な研究であり、大きな書き込みスタイルの変化、データ固有のノイズ、それが提供する拡張性のあるアプリケーション、ベンチマークデータベースの非使用性など多くの理由がある。 いくつかのIndicスクリプトのデータベース作成に関する文献ではかなりの研究が報告されているが、Tamilスクリプトは1つのデータベースにのみ報告されているため、まだ初期段階にある。 本稿では,完全かつ大規模に制約のないタミル手書き文字データベース(uthcd)の作成作業について述べる。 データベースは約91000のサンプルからなり、156のクラスで600近いサンプルがある。 データベースはオンラインとオフラインの両方のサンプルの統合コレクションである。 オフラインサンプルは、ボランティアに特定のグリッド内のフォームにサンプルを書くように依頼することで収集された。 オンラインサンプルでは、ボランティアにデジタルライティングパッドを使って同様のグリッドを書かせました。 収集されたサンプルには、オフラインスキャンプロセスのビズストローク不連続性、ストロークの変動厚さ、歪みなど、さまざまな書き込みスタイルが含まれている。 このようなデータに耐性のあるアルゴリズムは、リアルタイムアプリケーションに事実上デプロイできる。 サンプルは、学校に行く子供たち、ホームメイカー、大学生、教員を含む約650人のタミル人ボランティアから得られた。 分離された文字データベースは、生画像と階層データファイル(HDF)圧縮ファイルとして公開されます。 このデータベースでは、タミル手書き文字認識の新しいベンチマークを設定し、文書画像解析ドメインの多くの分野のローンチパッドとして機能することを期待する。 また,畳み込みニューラルネットワーク(cnn)のデータベースを用いて,試験データのベースライン精度88%の理想的な実験的な設定を行う。

Handwritten character recognition is a challenging research in the field of document image analysis over many decades due to numerous reasons such as large writing styles variation, inherent noise in data, expansive applications it offers, non-availability of benchmark databases etc. There has been considerable work reported in literature about creation of the database for several Indic scripts but the Tamil script is still in its infancy as it has been reported only in one database [5]. In this paper, we present the work done in the creation of an exhaustive and large unconstrained Tamil Handwritten Character Database (uTHCD). Database consists of around 91000 samples with nearly 600 samples in each of 156 classes. The database is a unified collection of both online and offline samples. Offline samples were collected by asking volunteers to write samples on a form inside a specified grid. For online samples, we made the volunteers write in a similar grid using a digital writing pad. The samples collected encompass a vast variety of writing styles, inherent distortions arising from offline scanning process viz stroke discontinuity, variable thickness of stroke, distortion etc. Algorithms which are resilient to such data can be practically deployed for real time applications. The samples were generated from around 650 native Tamil volunteers including school going kids, homemakers, university students and faculty. The isolated character database will be made publicly available as raw images and Hierarchical Data File (HDF) compressed file. With this database, we expect to set a new benchmark in Tamil handwritten character recognition and serve as a launchpad for many avenues in document image analysis domain. Paper also presents an ideal experimental set-up using the database on convolutional neural networks (CNN) with a baseline accuracy of 88% on test data.
翻訳日:2021-03-17 13:12:59 公開日:2021-03-13
# (参考訳) 鉱物探査のためのリモートセンシングデータ処理における機械学習の展望

A review of machine learning in processing remote sensing data for mineral exploration ( http://arxiv.org/abs/2103.07678v1 )

ライセンス: CC BY 4.0
Hojat Shirmard, Ehsan Farahbakhsh, Dietmar Muller, Rohitash Chandra(参考訳) 鉱物探査の第一段階として、リソロジー単位、変質タイプ、構造、鉱物などの様々な特徴がマッピングされる。 これらの特徴は鉱床をターゲットとした意思決定を支援するために抽出される。 衛星光とレーダー、空飛ぶ、およびドローンに基づくデータを含む異なる種類のリモートセンシングデータにより、これらの重要なパラメータをフィールドにマッピングする際の問題を克服することができる。 異なるプラットフォームから得られたリモートセンシングデータの量の増加により、科学者は高度で革新的で強力なデータ処理手法を開発できるようになった。 機械学習手法は、広範囲のリモートセンシングデータを処理し、反射率連続体と興味のある特徴との関係を決定するのに役立つ。 さらに、これらの手法は、ノイズや不確実性に対するスペクトルおよび地中真理測定の処理において堅牢である。 近年,リモートセンシングデータによる地質調査を補完して多くの研究が行われ,現在では地学研究のホットスポットとなっている。 本稿では,最近確立したリモートセンシングデータ処理のための機械学習手法の実装と適応について概説し,異なる鉱石鉱床を探索するための応用について検討する。 最後に,この学際的分野における課題と今後の方向性について考察する。

As a primary step in mineral exploration, a variety of features are mapped such as lithological units, alteration types, structures, and minerals. These features are extracted to aid decision-making in targeting ore deposits. Different types of remote sensing data including satellite optical and radar, airborne, and drone-based data make it possible to overcome problems associated with mapping these important parameters on the field. The rapid increase in the volume of remote sensing data obtained from different platforms has allowed scientists to develop advanced, innovative, and powerful data processing methodologies. Machine learning methods can help in processing a wide range of remote sensing data and in determining the relationship between the reflectance continuum and features of interest. Moreover, these methods are robust in processing spectral and ground truth measurements against noise and uncertainties. In recent years, many studies have been carried out by supplementing geological surveys with remote sensing data, and this area is now considered a hotspot in geoscience research. This paper reviews the implementation and adaptation of some popular and recently established machine learning methods for remote sensing data processing and investigates their applications for exploring different ore deposits. Lastly, the challenges and future directions in this critical interdisciplinary field are discussed.
翻訳日:2021-03-17 12:55:10 公開日:2021-03-13
# (参考訳) neuralhumanfvv: rgbカメラを用いたリアルタイム神経容積ヒトパフォーマンスレンダリング [全文訳有]

NeuralHumanFVV: Real-Time Neural Volumetric Human Performance Rendering using RGB Cameras ( http://arxiv.org/abs/2103.07700v1 )

ライセンス: CC BY 4.0
Xin Suo and Yuheng Jiang and Pei Lin and Yingliang Zhang and Kaiwen Guo and Minye Wu and Lan Xu(参考訳) 没入型VR/AR体験において, 人間の活動の4次元再構成とレンダリングは重要であり, 近年の進歩は, 少ないマルチビューRGBカメラから入力画像の細部まで, 微細な形状やテクスチャの再現に失敗している。 本稿では,人間の活動の高品質な形状とフォトリアリスティックなテクスチャを任意の視点で生成する,リアルタイムのニューラルネットワークによるパフォーマンスキャプチャとレンダリングシステムであるneuralhumanfvvを提案する。 本研究では,リアルタイム暗黙的幾何推論のための階層的サンプリング戦略と,高分解能(1kなど)とフォトリアリスティックなテクスチャを新たに生成するニューラルブレンディング方式を提案する。 さらに、我々はニューラルノーマルブレンディングを採用し、幾何学の詳細を高め、ニューラルジオメトリーとテクスチャレンダリングをマルチタスク学習フレームワークに定式化する。 広範な実験により,高品質な幾何学とフォトリアリスティックな自由視点再構成を実現するためのアプローチの有効性が実証された。

4D reconstruction and rendering of human activities is critical for immersive VR/AR experience.Recent advances still fail to recover fine geometry and texture results with the level of detail present in the input images from sparse multi-view RGB cameras. In this paper, we propose NeuralHumanFVV, a real-time neural human performance capture and rendering system to generate both high-quality geometry and photo-realistic texture of human activities in arbitrary novel views. We propose a neural geometry generation scheme with a hierarchical sampling strategy for real-time implicit geometry inference, as well as a novel neural blending scheme to generate high resolution (e.g., 1k) and photo-realistic texture results in the novel views. Furthermore, we adopt neural normal blending to enhance geometry details and formulate our neural geometry and texture rendering into a multi-task learning framework. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality geometry and photo-realistic free view-point reconstruction for challenging human performances.
翻訳日:2021-03-17 11:11:53 公開日:2021-03-13
# (参考訳) エラー対応政策学習:部分的に観察可能な動的環境におけるゼロショット一般化 [全文訳有]

Error-Aware Policy Learning: Zero-Shot Generalization in Partially Observable Dynamic Environments ( http://arxiv.org/abs/2103.07732v1 )

ライセンス: CC BY 4.0
Visak Kumar, Sehoon Ha, C. Karen Liu(参考訳) シミュレーションは、複雑なロボットタスクを学習するための有用なデータを生成する安全で効率的な方法を提供する。 しかし、シミュレーションと実世界のダイナミクスのマッチングは非常に困難であり、特に多くの未観測または計測不可能なパラメータを持つシステムでは、ロボット自身やロボットが相互作用する環境にある可能性がある。 我々は,新しい環境に適応可能なポリシーをゼロショット方式で開発することにより,このようなシム・トゥ・リアルな問題に取り組むための新しいアプローチを提案する。 このアプローチの鍵となるのは、トレーニング中に観測不能な要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。 EAPは、エラー予測関数によって提供されるターゲット環境で予測される将来の状態エラーをEAPと同時にトレーニングする。 我々は、人間の外部からのプッシュからの回復を支援するために訓練された補助歩行装置に対するアプローチを検証する。 ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。 さらに,本手法は他の標準RL制御タスクにも適用可能であることを示す。

Simulation provides a safe and efficient way to generate useful data for learning complex robotic tasks. However, matching simulation and real-world dynamics can be quite challenging, especially for systems that have a large number of unobserved or unmeasurable parameters, which may lie in the robot dynamics itself or in the environment with which the robot interacts. We introduce a novel approach to tackle such a sim-to-real problem by developing policies capable of adapting to new environments, in a zero-shot manner. Key to our approach is an error-aware policy (EAP) that is explicitly made aware of the effect of unobservable factors during training. An EAP takes as input the predicted future state error in the target environment, which is provided by an error-prediction function, simultaneously trained with the EAP. We validate our approach on an assistive walking device trained to help the human user recover from external pushes. We show that a trained EAP for a hip-torque assistive device can be transferred to different human agents with unseen biomechanical characteristics. In addition, we show that our method can be applied to other standard RL control tasks.
翻訳日:2021-03-17 10:47:50 公開日:2021-03-13
# (参考訳) ReDet: 空中物体検出のための回転同変検出器 [全文訳有]

ReDet: A Rotation-equivariant Detector for Aerial Object Detection ( http://arxiv.org/abs/2103.07733v1 )

ライセンス: CC BY 4.0
Jiaming Han and Jian Ding and Nan Xue and Gui-Song Xia(参考訳) 近年,空中画像における物体検出がコンピュータビジョンにおいて注目されている。 自然画像の物体と異なり、空中の物体はしばしば任意の方向で分布する。 したがって、検出器は方向情報を符号化するためにより多くのパラメータを必要とする。 さらに、通常のcnnは方位変化を明示的にモデル化しないので、正確な物体検出器の訓練には大量の回転拡張データが必要である。 本稿では、回転同変検出器(redet)を提案し、回転同変と回転不変性を明示的に符号化する。 より正確には、回転同変ネットワークを検出器に組み込んで回転同変特性を抽出し、方位を正確に予測し、モデルサイズを大幅に削減する。 回転同値な特徴に基づいて、回転不変なroiアライメント(riroiアライメント)も提示し、roiの向きに応じて同値な特徴から回転不変な特徴を適応的に抽出する。 航空画像データセット DOTA-v1.0, DOTA-v1.5, HRSC2016 の大規模実験により, 本手法は空中物体検出のタスクにおいて, 最先端の性能を実現することができることを示した。 従来の結果と比較すると, DOTA-v1.0, DOTA-v1.5, HRSC2016では1.2, 3.5, 2.6mAP, パラメータ数は60\%減少する(313Mb vs. 121Mb)。 コードは: \url{https://github.com/c suhan/ReDet}で入手できる。

Recently, object detection in aerial images has gained much attention in computer vision. Different from objects in natural images, aerial objects are often distributed with arbitrary orientation. Therefore, the detector requires more parameters to encode the orientation information, which are often highly redundant and inefficient. Moreover, as ordinary CNNs do not explicitly model the orientation variation, large amounts of rotation augmented data is needed to train an accurate object detector. In this paper, we propose a Rotation-equivariant Detector (ReDet) to address these issues, which explicitly encodes rotation equivariance and rotation invariance. More precisely, we incorporate rotation-equivariant networks into the detector to extract rotation-equivariant features, which can accurately predict the orientation and lead to a huge reduction of model size. Based on the rotation-equivariant features, we also present Rotation-invariant RoI Align (RiRoI Align), which adaptively extracts rotation-invariant features from equivariant features according to the orientation of RoI. Extensive experiments on several challenging aerial image datasets DOTA-v1.0, DOTA-v1.5 and HRSC2016, show that our method can achieve state-of-the-art performance on the task of aerial object detection. Compared with previous best results, our ReDet gains 1.2, 3.5 and 2.6 mAP on DOTA-v1.0, DOTA-v1.5 and HRSC2016 respectively while reducing the number of parameters by 60\% (313 Mb vs. 121 Mb). The code is available at: \url{https://github.com/c suhan/ReDet}.
翻訳日:2021-03-17 10:28:56 公開日:2021-03-13
# (参考訳) 非破壊試験用画像分割法 [全文訳有]

Image Segmentation Methods for Non-destructive testing Applications ( http://arxiv.org/abs/2103.07754v1 )

ライセンス: CC BY 4.0
EL-Hachemi Guerrout, Ramdane Mahiou, Randa Boukabene, and Assia Ouali(参考訳) 本稿では,隠れマルコフ確率場(HMRF)とカッコウ探索(CS)の変種に基づく画像分割手法を提案する。 HMRFはセグメンテーション問題をエネルギー関数の最小化としてモデル化する。 CSアルゴリズムは最近の強力な最適化手法の1つである。 したがって、CSアルゴリズムの5つの変種が解を計算するために用いられる。 テストを通じて,良好な結果を与えるパラメータ(セグメンテーションの実行時間と品質)を持つcs変種を選択するための研究を行った。 非破壊検査(NDT)画像を誤分類誤差(ME)基準を用いて評価し,比較した。

In this paper, we present new image segmentation methods based on hidden Markov random fields (HMRFs) and cuckoo search (CS) variants. HMRFs model the segmentation problem as a minimization of an energy function. CS algorithm is one of the recent powerful optimization techniques. Therefore, five variants of the CS algorithm are used to compute a solution. Through tests, we conduct a study to choose the CS variant with parameters that give good results (execution time and quality of segmentation). CS variants are evaluated and compared with non-destructive testing (NDT) images using a misclassification error (ME) criterion.
翻訳日:2021-03-17 10:10:44 公開日:2021-03-13
# (参考訳) 特徴依存ラベルノイズによる学習の進歩的アプローチ [全文訳有]

Learning with Feature Dependent Label Noise: a Progressive Approach ( http://arxiv.org/abs/2103.07756v1 )

ライセンス: CC BY 4.0
Yikai Zhang, Songzhu Zheng, Pengxiang Wu, Mayank Goswami, Chao Chen(参考訳) ラベルノイズは、現実世界の大規模データセットで頻繁に観測される。 ノイズは様々な理由で導入され、不均一で特徴に依存している。 ノイズラベルを扱う既存のアプローチのほとんどは、理想的な機能非依存のノイズを仮定するか、理論的保証なしにヒューリスティックであるかの2つのカテゴリに分類される。 本稿では,一般的なi.i.d.よりもはるかに一般的な特徴依存ラベルノイズの新たなファミリーを対象とする。 ノイズをラベル付けし、幅広いノイズパターンを包含する。 本稿では,この一般ノイズファミリーに着目し,ラベルを反復的に修正し,モデルを洗練するプログレッシブラベル補正アルゴリズムを提案する。 我々は、様々な(未知)ノイズパターンに対して、この戦略で訓練された分類器がベイズ分類器と一致するように収束することを示す理論的保証を提供する。 実験では,sotaベースラインを上回り,様々なノイズタイプやレベルに対して頑健である。

Label noise is frequently observed in real-world large-scale datasets. The noise is introduced due to a variety of reasons; it is heterogeneous and feature-dependent. Most existing approaches to handling noisy labels fall into two categories: they either assume an ideal feature-independent noise, or remain heuristic without theoretical guarantees. In this paper, we propose to target a new family of feature-dependent label noise, which is much more general than commonly used i.i.d. label noise and encompasses a broad spectrum of noise patterns. Focusing on this general noise family, we propose a progressive label correction algorithm that iteratively corrects labels and refines the model. We provide theoretical guarantees showing that for a wide variety of (unknown) noise patterns, a classifier trained with this strategy converges to be consistent with the Bayes classifier. In experiments, our method outperforms SOTA baselines and is robust to various noise types and levels.
翻訳日:2021-03-17 10:01:37 公開日:2021-03-13
# (参考訳) 好奇心駆動型アクティブラーニングによるオブジェクトのオンライン学習 [全文訳有]

Online Learning of Objects through Curiosity-Driven Active Learning ( http://arxiv.org/abs/2103.07758v1 )

ライセンス: CC BY 4.0
Ali Ayub, Alan R. Wagner(参考訳) 子供たちは最も興味のある概念について質問することで継続的に学習します。 ロボットが社会の不可欠な部分になるにつれ、人間に問いかけることによって、未知の概念を継続的に学ばなければならない。 本稿では,好奇心駆動型オンライン学習のための新しいフレームワークを提案する。 本稿は,最近の最先端学習手法を応用し,オブジェクトのオンライン学習に適用する。 さらに, 学習したクラスの内部表現を用いて, 環境内の不確かさのほとんどを探索する自己教師あり手法を開発した。 ロボット上で連続学習を行うためのベンチマークデータセットで,本手法をテストした。 その結果,我々の好奇心駆動型オンライン学習手法は,分類精度と学習クラス数でランダムサンプリングとソフトマックスに基づく不確実性サンプリングに勝っていることがわかった。

Children learn continually by asking questions about the concepts they are most curious about. With robots becoming an integral part of our society, they must also learn unknown concepts continually by asking humans questions. This paper presents a novel framework for curiosity-driven online learning of objects. The paper utilizes a recent state-of-the-art approach for continual learning and adapts it for online learning of objects. The paper further develops a self-supervised technique to find most of the uncertain objects in an environment by utilizing an internal representation of previously learned classes. We test our approach on a benchmark dataset for continual learning on robots. Our results show that our curiosity-driven online learning approach beats random sampling and softmax-based uncertainty sampling in terms of classification accuracy and the total number of classes learned.
翻訳日:2021-03-17 09:33:50 公開日:2021-03-13
# (参考訳) OkwuGb\'e: FonとIgboのエンドツーエンド音声認識 [全文訳有]

OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo ( http://arxiv.org/abs/2103.07762v1 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou and Chris C. Emezue(参考訳) 言語は人間のコミュニケーションには本質的に必須である。 書き言葉か話し言葉かにかかわらず、同じ地域の人々と異なる地域の人々の間での理解が保証される。 NLP研究に低リソース言語を取り入れることへの認識と努力が高まり、近年、アフリカ言語は機械翻訳やその他のNLPのテキストベースの分野の研究の中心となっている。 しかし、いまだにアフリカの言語の音声認識に匹敵する研究は少ない。 興味深いことに、nlpに影響を及ぼすアフリカ語の特徴、例えばダイアクリティカルや声調の複合性は、言語の主要な根源であり、注意深い音声解釈は、テキストベースのnlpのためのアフリカの言語の言語的複雑さに対処するためのより直感的な方法をもたらす可能性があることを示唆している。 OkwuGb\'eは、アフリカの低リソース言語のための音声認識システムを構築するためのステップである。 Fon と Igbo をケーススタディとして,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。 本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。 我々の言語分析(FonとIgbo)は、他のアフリカの低リソース言語のための音声認識モデルの作成に関する貴重な洞察とガイダンスを提供し、FonとIgboの今後のNLP研究をガイドする。 FonとIgboモデルのソースコードが公開されている。

Language is inherent and compulsory for human communication. Whether expressed in a written or spoken way, it ensures understanding between people of the same and different regions. With the growing awareness and effort to include more low-resourced languages in NLP research, African languages have recently been a major subject of research in machine translation, and other text-based areas of NLP. However, there is still very little comparable research in speech recognition for African languages. Interestingly, some of the unique properties of African languages affecting NLP, like their diacritical and tonal complexities, have a major root in their speech, suggesting that careful speech interpretation could provide more intuition on how to deal with the linguistic complexities of African languages for text-based NLP. OkwuGb\'e is a step towards building speech recognition systems for African low-resourced languages. Using Fon and Igbo as our case study, we conduct a comprehensive linguistic analysis of each language and describe the creation of end-to-end, deep neural network-based speech recognition models for both languages. We present a state-of-art ASR model for Fon, as well as benchmark ASR model results for Igbo. Our linguistic analyses (for Fon and Igbo) provide valuable insights and guidance into the creation of speech recognition models for other African low-resourced languages, as well as guide future NLP research for Fon and Igbo. The Fon and Igbo models source code have been made publicly available.
翻訳日:2021-03-17 09:23:48 公開日:2021-03-13
# (参考訳) ネットワーク侵入のための画像分類器 [全文訳有]

Image Classifiers for Network Intrusions ( http://arxiv.org/abs/2103.07765v1 )

ライセンス: CC BY-SA 4.0
David A. Noever, Samantha E. Miller Noever(参考訳) 本研究では,UNSW-NB15のネットワーク攻撃データセットを画像空間の侵入検出問題として再放送する。 1ホットエンコーディングを使うことで、グレースケールのサムネイルはディープラーニングアルゴリズムの4分の1の例を提供する。 MobileNetV2の畳み込みニューラルネットワークアーキテクチャを適用することで、通常のトラフィックとアタックトラフィックを区別する精度が97%向上した。 9つの攻撃ファミリー(爆発、ワーム、シェルコード)に対するさらなるクラス改良は、全体の56%の精度を示している。 特徴の重要度ランクを用いることで、サブセット上のランダムフォレストソリューションは、主にあいまいなプロトコルとして最も重要なソース運命要因と最重要でない要素を示す。 データセットはKaggleで入手できる。

This research recasts the network attack dataset from UNSW-NB15 as an intrusion detection problem in image space. Using one-hot-encodings, the resulting grayscale thumbnails provide a quarter-million examples for deep learning algorithms. Applying the MobileNetV2's convolutional neural network architecture, the work demonstrates a 97% accuracy in distinguishing normal and attack traffic. Further class refinements to 9 individual attack families (exploits, worms, shellcodes) show an overall 56% accuracy. Using feature importance rank, a random forest solution on subsets show the most important source-destination factors and the least important ones as mainly obscure protocols. The dataset is available on Kaggle.
翻訳日:2021-03-17 08:58:20 公開日:2021-03-13
# (参考訳) 知識グラフを用いた会話質問応答のための重み付きポインタネットワークを用いた文脈変換器 [全文訳有]

Context Transformer with Stacked Pointer Networks for Conversational Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2103.07766v1 )

ライセンス: CC BY 4.0
Joan Plepi, Endri Kacupaj, Kuldeep Singh, Harsh Thakkar, Jens Lehmann(参考訳) ニューラルセマンティックパーシングアプローチは知識グラフ上の質問応答(QA)システムに広く用いられている。 このような方法は複雑なクエリと多数のエンティティでQAデータセットを処理する柔軟性を提供する。 本研究では,大規模知識グラフ上での対話型質問応答問題を扱うために,マルチタスク意味解析を行うcartonという新しいフレームワークを提案する。 本フレームワークは,入力質問と対話履歴を解析するコンテキストトランスフォーマーモデルの拡張として,ポインタネットワークのスタックで構成されている。 このフレームワークは、知識グラフ上で実行できる一連のアクションを生成する。 我々は、cartonがすべてのベースラインを上回る複雑な逐次質問応答のための標準データセット上でcartonを評価する。 具体的には,10問中8問において,F1スコアの性能改善を先行技術と比較した。 論理的な推論問題では、11の絶対点の改善が達成される。

Neural semantic parsing approaches have been widely used for Question Answering (QA) systems over knowledge graphs. Such methods provide the flexibility to handle QA datasets with complex queries and a large number of entities. In this work, we propose a novel framework named CARTON, which performs multi-task semantic parsing for handling the problem of conversational question answering over a large-scale knowledge graph. Our framework consists of a stack of pointer networks as an extension of a context transformer model for parsing the input question and the dialog history. The framework generates a sequence of actions that can be executed on the knowledge graph. We evaluate CARTON on a standard dataset for complex sequential question answering on which CARTON outperforms all baselines. Specifically, we observe performance improvements in F1-score on eight out of ten question types compared to the previous state of the art. For logical reasoning questions, an improvement of 11 absolute points is reached.
翻訳日:2021-03-17 08:52:37 公開日:2021-03-13
# (参考訳) paraqa: 単ターン会話のためのparaphrase応答付き質問応答データセット [全文訳有]

ParaQA: A Question Answering Dataset with Paraphrase Responses for Single-Turn Conversation ( http://arxiv.org/abs/2103.07771v1 )

ライセンス: CC BY 4.0
Endri Kacupaj, Barshana Banerjee, Kuldeep Singh, Jens Lehmann(参考訳) 本稿では,知識グラフ(KG)上での1ターン会話に対して,複数のパラフレーズ応答を持つ質問応答(QA)データセットParaQAを提案する。 データセットは半自動的なフレームワークを使って、バックトランスレーションのようなテクニックを使って、さまざまな回答のパラフレージングを生成する。 kgs(single-turn/mult i-turn)を超える会話型質問応答のための既存のデータセットは、質問パラフレーズに注目し、最大1つの回答のみを提供する。 しかし、ParaQAには5000の質問応答対があり、各質問に対して最低2つ、最大8つの独自のパラフレーズ応答がある。 ベースラインモデルでデータセットを補完し、BLEUやMETEORといった一般的なメトリクスを通じて複数のパラフレーズの答えを持つ利点を示す。 ParaQAデータセットは、研究コミュニティで広く使用および適応するために、永続的なURIで公開されています。

This paper presents ParaQA, a question answering (QA) dataset with multiple paraphrased responses for single-turn conversation over knowledge graphs (KG). The dataset was created using a semi-automated framework for generating diverse paraphrasing of the answers using techniques such as back-translation. The existing datasets for conversational question answering over KGs (single-turn/multi-t urn) focus on question paraphrasing and provide only up to one answer verbalization. However, ParaQA contains 5000 question-answer pairs with a minimum of two and a maximum of eight unique paraphrased responses for each question. We complement the dataset with baseline models and illustrate the advantage of having multiple paraphrased answers through commonly used metrics such as BLEU and METEOR. The ParaQA dataset is publicly available on a persistent URI for broader usage and adaptation in the research community.
翻訳日:2021-03-17 08:33:29 公開日:2021-03-13
# (参考訳) インテリジェントチュータシステムにおけるパーソナライズされたフィードバック生成のためのディープ・ディスコース解析 [全文訳有]

Deep Discourse Analysis for Generating Personalized Feedback in Intelligent Tutor Systems ( http://arxiv.org/abs/2103.07785v1 )

ライセンス: CC BY 4.0
Matt Grenander, Robert Belfer, Ekaterina Kochmar, Iulian V. Serban, Fran\c{c}ois St-Hilaire, Jackie C. K. Cheung(参考訳) 知的学習システム(ITS)における自動的、パーソナライズされたフィードバックの作成について検討する。 我々のゴールは、学生のより優れた学習目標を達成するために、学生の回答の正しい概念と間違った概念を見極めることである。 パーソナライズされたフィードバックを提供するための自動手法は存在するが、どの概念が正しいかは学生に明確に知らせるものではない。 提案手法は,ニューラルな談話セグメンテーションと分類手法を用いて,学生の回答を分解する。 この分解は、参照解と学生の回答によってカバーされる全ての談話単位上の関係グラフをもたらす。 この推論関係グラフ構造とニューラル分類器を用いて,生徒の回答を参照解とマッチングし,パーソナライズされたフィードバックを生成する。 プロセスは完全に自動化され、データ駆動であるが、パーソナライズされたフィードバックは、高度にコンテキストに依存し、ドメイン認識され、各学生の誤解や知識ギャップを効果的に狙う。 本手法は対話型itsでテストし,高品質なフィードバックが得られ,学生の学習効果が著しく向上することを示す。

We explore creating automated, personalized feedback in an intelligent tutoring system (ITS). Our goal is to pinpoint correct and incorrect concepts in student answers in order to achieve better student learning gains. Although automatic methods for providing personalized feedback exist, they do not explicitly inform students about which concepts in their answers are correct or incorrect. Our approach involves decomposing students answers using neural discourse segmentation and classification techniques. This decomposition yields a relational graph over all discourse units covered by the reference solutions and student answers. We use this inferred relational graph structure and a neural classifier to match student answers with reference solutions and generate personalized feedback. Although the process is completely automated and data-driven, the personalized feedback generated is highly contextual, domain-aware and effectively targets each student's misconceptions and knowledge gaps. We test our method in a dialogue-based ITS and demonstrate that our approach results in high-quality feedback and significantly improved student learning gains.
翻訳日:2021-03-17 08:20:10 公開日:2021-03-13
# (参考訳) ゼロショットクロスリンガルインテント予測とスロット充填のための多言語コードスイッチング [全文訳有]

Multilingual Code-Switching for Zero-Shot Cross-Lingual Intent Prediction and Slot Filling ( http://arxiv.org/abs/2103.07792v1 )

ライセンス: CC BY 4.0
Jitin Krishnan, Antonios Anastasopoulos, Hemant Purohit, and Huzefa Rangwala(参考訳) ユーザーの意図を予測し、テキストから対応するスロットを検出することは、自然言語理解(NLU)の2つの重要な問題です。 ゼロショット学習の文脈では、このタスクは通常、mBERTのような事前訓練された多言語変換器の表現を使用するか、または、ソースデータを既知のターゲット言語に翻訳し、微調整することでアプローチされる。 私達の仕事は訓練の間にターゲット言語が未知である特定のシナリオに焦点を合わせます。 そこで本研究では,マルチリンガルコード切替をランダム翻訳で用いることにより,下流タスクの微調整時にトランスの言語中立性を高めるために,モノリンガルソースデータを強化する新しい手法を提案する。 この方法は、世界中の異なる言語家族とのコードスイッチングがターゲット言語のパフォーマンスにどのように影響するかという、新しい洞察の発見にも役立ちます。 MultiATIS++のベンチマークデータセットに関する実験では、インテントタスクの精度は平均4.2%、スロットタスクの+1.8%を8つの異なる言語で最先端の手法で改善した。 さらに,ハイチ地震時に収集された英語およびハイチクレオールのスロット充填の新たな人為的ツイートデータセットを用いて,危機情報学への応用について述べる。

Predicting user intent and detecting the corresponding slots from text are two key problems in Natural Language Understanding (NLU). In the context of zero-shot learning, this task is typically approached by either using representations from pre-trained multilingual transformers such as mBERT, or by machine translating the source data into the known target language and then fine-tuning. Our work focuses on a particular scenario where the target language is unknown during training. To this goal, we propose a novel method to augment the monolingual source data using multilingual code-switching via random translations to enhance a transformer's language neutrality when fine-tuning it for a downstream task. This method also helps discover novel insights on how code-switching with different language families around the world impact the performance on the target language. Experiments on the benchmark dataset of MultiATIS++ yielded an average improvement of +4.2% in accuracy for intent task and +1.8% in F1 for slot task using our method over the state-of-the-art across 8 different languages. Furthermore, we present an application of our method for crisis informatics using a new human-annotated tweet dataset of slot filling in English and Haitian Creole, collected during Haiti earthquake disaster.
翻訳日:2021-03-17 07:31:47 公開日:2021-03-13
# (参考訳) ORStereo: Occlusion-Aware Recurrent Stereo Matching for 4K-Resolution Images [全文訳有]

ORStereo: Occlusion-Aware Recurrent Stereo Matching for 4K-Resolution Images ( http://arxiv.org/abs/2103.07798v1 )

ライセンス: CC BY-SA 4.0
Yaoyu Hu, Wenshan Wang, Huai Yu, Weikun Zhen, Sebastian Scherer(参考訳) 小さな画像でトレーニングされたステレオ再構成モデルは、高解像度データにうまく一般化しない。 高解像度画像サイズでモデルをトレーニングすることは、データ可用性の難しさに直面している。 本研究では,これらの問題に対処すべく,利用可能な低偏差域ステレオ画像のみを訓練するOcclusion-aware Recurrent Binocular Stereo Match (ORStereo) を提案する。 ORStereoは、タスクを初期予測の残差更新と改善として定式化し、大きな異なる範囲の高解像度画像を目にしないように一般化する。 ORStereoは256ピクセルに制限のある画像でトレーニングされているが、4K解像度の入力を1000以上の差分で動作させることができる。 合成画像と実世界の高解像度画像の両方でモデルの能力をテストします。 実験結果は、ORStereoが4K解像度画像に対して比較性能を発揮することを実証した。 低解像度画像でのみ訓練される他の方法と比較して、4K解像度画像でより70%精度が高い。

Stereo reconstruction models trained on small images do not generalize well to high-resolution data. Training a model on high-resolution image size faces difficulties of data availability and is often infeasible due to limited computing resources. In this work, we present the Occlusion-aware Recurrent binocular Stereo matching (ORStereo), which deals with these issues by only training on available low disparity range stereo images. ORStereo generalizes to unseen high-resolution images with large disparity ranges by formulating the task as residual updates and refinements of an initial prediction. ORStereo is trained on images with disparity ranges limited to 256 pixels, yet it can operate 4K-resolution input with over 1000 disparities using limited GPU memory. We test the model's capability on both synthetic and real-world high-resolution images. Experimental results demonstrate that ORStereo achieves comparable performance on 4K-resolution images compared to state-of-the-art methods trained on large disparity ranges. Compared to other methods that are only trained on low-resolution images, our method is 70% more accurate on 4K-resolution images.
翻訳日:2021-03-17 06:54:12 公開日:2021-03-13
# (参考訳) 機械学習システムのトレーニングのためのハイブリッドコンピュータアプローチ

Hybrid computer approach to train a machine learning system ( http://arxiv.org/abs/2103.07802v1 )

ライセンス: CC BY 4.0
Mirko Holzer, Bernd Ulmann(参考訳) 本章では,ハイブリッドコンピュータによる機械学習システムの学習への新しいアプローチについて述べる。 アナログコンピュータと密に結合されたデジタルコンピュータ。 例えば、強化学習システムは、アナログコンピュータ上でシミュレートされた逆振子のバランスをとるために訓練され、強化学習の環境を適切にシミュレートする大きな課題に対する解決策が示される。

This book chapter describes a novel approach to training machine learning systems by means of a hybrid computer setup i.e. a digital computer tightly coupled with an analog computer. As an example a reinforcement learning system is trained to balance an inverted pendulum which is simulated on an analog computer, thus demonstrating a solution to the major challenge of adequately simulating the environment for reinforcement learning.
翻訳日:2021-03-17 06:37:15 公開日:2021-03-13
# 騒音状態における教師付き学習:ICD-10コード分類への応用

Supervised Learning in the Presence of Noise: Application in ICD-10 Code Classification ( http://arxiv.org/abs/2103.07808v1 )

ライセンス: Link先を確認
Youngwoo Kim, Cheng Li, Bingyang Ye, Amir Tahmasebi and Javed Aslam(参考訳) ICDコーディングは、健康状態の把握と報告、およびヘルスケアにおける収益サイクル管理のための診断のための国際標準です。 手動でICDコードを割り当てるのは、大きなコードの語彙とコード間の類似性のためにヒューマンエラーになりがちです。 機械学習に基づくアプローチは基礎的真理トレーニングデータを必要とするため、人間のコーダ間の不整合はラベリングのノイズとして表され、そのようなノイズの存在下でICD分類器のトレーニングと評価が困難になります。 本稿では,手作業で割り当てられたicd-10符号の雑音特性について検討し,ラベルノイズが存在する場合に頑健なicd-10分類器を訓練する方法を提案する。 我々の研究は、そのような騒音の性質は体系的であると結論づけた。 ラベルノイズを処理する既存の方法のほとんどは、ノイズが完全にランダムであり、機能やラベルに依存しないことを前提としています。 そこで,体系的雑音の存在下でロバスト分類器を訓練する新しい手法を開発した。 まず、ICD-10階層内のコードの位置、コードの種類、ベースライン分類器の予測行動に基づいて、人間のコーダが誤用または混同する傾向にあるICD-10コードを特定し、そのようなノイズを考慮に入れた新たなトレーニング戦略を開発する。 提案手法は,ラベルノイズを扱わないベースラインとランダムノイズを想定するベースラインを比較し,専門家の検証ラベルで評価した場合,提案手法がすべてのベースラインを上回ることを示した。

ICD coding is the international standard for capturing and reporting health conditions and diagnosis for revenue cycle management in healthcare. Manually assigning ICD codes is prone to human error due to the large code vocabulary and the similarities between codes. Since machine learning based approaches require ground truth training data, the inconsistency among human coders is manifested as noise in labeling, which makes the training and evaluation of ICD classifiers difficult in presence of such noise. This paper investigates the characteristics of such noise in manually-assigned ICD-10 codes and furthermore, proposes a method to train robust ICD-10 classifiers in the presence of labeling noise. Our research concluded that the nature of such noise is systematic. Most of the existing methods for handling label noise assume that the noise is completely random and independent of features or labels, which is not the case for ICD data. Therefore, we develop a new method for training robust classifiers in the presence of systematic noise. We first identify ICD-10 codes that human coders tend to misuse or confuse, based on the codes' locations in the ICD-10 hierarchy, the types of the codes, and baseline classifier's prediction behaviors; we then develop a novel training strategy that accounts for such noise. We compared our method with the baseline that does not handle label noise and the baseline methods that assume random noise, and demonstrated that our proposed method outperforms all baselines when evaluated on expert validated labels.
翻訳日:2021-03-16 14:33:16 公開日:2021-03-13
# ヒューマンファクトチェッカー支援のための自動ファクトチェック

Automated Fact-Checking for Assisting Human Fact-Checkers ( http://arxiv.org/abs/2103.07769v1 )

ライセンス: Link先を確認
Preslav Nakov, David Corney, Maram Hasanain, Firoj Alam, Tamer Elsayed, Alberto Barr\'on-Cede\~no, Paolo Papotti, Shaden Shaar, Giovanni Da San Martino(参考訳) 世界中の現在のイベントの報告と分析は、プロの編集者主導のジャーナリズムから市民ジャーナリズムまで広がっています。 政治家や他の主要なプレイヤーは、公式のケーブルや伝統的なメディアのフィルターをバイパスして、ソーシャルメディアを通じて聴衆に直接アクセスすることを楽しむ。 しかし、フリースピーチとダイレクトコミュニケーションの複数の利点は、不正確または誤解を招く主張を広めるためにメディアの誤用によって薄められています。 これらの現象はファクトチェッカーの現代化につながり、その主な目的は、自分の正確性を評価するために利用可能な証拠を使って主張を調べることである。 他のテキストフォレンジックタスクと同様に、利用可能な情報の量はファクトチェッカーの仕事をより困難にします。 このことを念頭において、プロのファクトチェック者の視点から、ファクトチェック活動のさまざまなステップにおいて、人間専門家を支援することのできる知的な技術について調査する。 これには、ファクトチェックに値するクレームの特定、関連するファクトチェックされたクレームの検出、ファクトチェックのための関連する証拠の検索、クレームの実際の検証が含まれる。 いずれの場合も,今後の作業における課題と,実世界のファクトチェックへの影響に注意を払っています。

The reporting and analysis of current events around the globe has expanded from professional, editor-lead journalism all the way to citizen journalism. Politicians and other key players enjoy direct access to their audiences through social media, bypassing the filters of official cables or traditional media. However, the multiple advantages of free speech and direct communication are dimmed by the misuse of the media to spread inaccurate or misleading claims. These phenomena have led to the modern incarnation of the fact-checker -- a professional whose main aim is to examine claims using available evidence to assess their veracity. As in other text forensics tasks, the amount of information available makes the work of the fact-checker more difficult. With this in mind, starting from the perspective of the professional fact-checker, we survey the available intelligent technologies that can support the human expert in the different steps of her fact-checking endeavor. These include identifying claims worth fact-checking; detecting relevant previously fact-checked claims; retrieving relevant evidence to fact-check a claim; and actually verifying a claim. In each case, we pay attention to the challenges in future work and the potential impact on real-world fact-checking.
翻訳日:2021-03-16 14:32:25 公開日:2021-03-13
# クリーン入力からノイズ入力への学生教師の学習

Student-Teacher Learning from Clean Inputs to Noisy Inputs ( http://arxiv.org/abs/2103.07600v1 )

ライセンス: Link先を確認
Guanzhe Hong, Zhiyuan Mao, Xiaojun Lin, Stanley H. Chan(参考訳) 教師ネットワークを模倣するために生徒の隠れた機能を奨励する学習手法である特徴ベース学習は,事前学習した教師ネットワークから生徒ネットワークへの知識の伝達に経験的に成功している。 さらに,最近の実験結果から,教師の特徴は,生徒の入力サンプルがノイズにより破損した場合でも,生徒ネットワークの一般化を促進することが示されている。 しかしながら、このような異種タスク間で知識を転送する手法が成功する理由や方法に関する理論的洞察が欠落している。 本手法はディープリニアネットワークを用いて理論的に解析し,非線形ネットワークを用いて実験的に解析する。 本手法の成功には,(1)生徒が訓練損失ゼロに訓練されているか,(2)教師がクリーンインプット問題にどの程度知識を持っているか,(3)教師がその知識を隠れた特徴に分解するか,の3つの重要な要因を明らかにする。 3つの要因のいずれかで適切な制御の欠如は、学生教師の学習方法の失敗につながります。

Feature-based student-teacher learning, a training method that encourages the student's hidden features to mimic those of the teacher network, is empirically successful in transferring the knowledge from a pre-trained teacher network to the student network. Furthermore, recent empirical results demonstrate that, the teacher's features can boost the student network's generalization even when the student's input sample is corrupted by noise. However, there is a lack of theoretical insights into why and when this method of transferring knowledge can be successful between such heterogeneous tasks. We analyze this method theoretically using deep linear networks, and experimentally using nonlinear networks. We identify three vital factors to the success of the method: (1) whether the student is trained to zero training loss; (2) how knowledgeable the teacher is on the clean-input problem; (3) how the teacher decomposes its knowledge in its hidden features. Lack of proper control in any of the three factors leads to failure of the student-teacher learning method.
翻訳日:2021-03-16 14:32:00 公開日:2021-03-13
# OCID-Ref: クラッタ・シーン・グラウンディングのための言語を具体化した3Dロボットデータセット

OCID-Ref: A 3D Robotic Dataset with Embodied Language for Clutter Scene Grounding ( http://arxiv.org/abs/2103.07679v1 )

ライセンス: Link先を確認
Ke-Jyun Wang, Yun-Hsuan Liu, Hung-Ting Su, Jen-Wei Wang, Yu-Siang Wang, Winston H. Hsu, Wen-Chin Chen(参考訳) 作業環境にロボットを効果的に適用し,人間を支援するためには,視覚接地(vg)が被写体における機械性能にどのように影響するかを発達・評価することが不可欠である。 ただし、現在のVG作業は、オフィスや倉庫などの作業環境に制限されており、スペース利用の問題のためにオブジェクトが通常含まれます。 本研究では,occludedオブジェクトの表現を参照する参照表現セグメンテーションタスクを特徴とするocid-refデータセットを提案する。 OCID-Refは、RGBイメージとポイントクラウド入力を提供する2,300シーンから305,694の表現を参照する。 難解な閉塞問題を解決するには、難解な閉塞問題を解決するために2D信号と3D信号の両方を利用することが重要です。 実験の結果,2次元信号と3次元信号の集約の有効性が示されたが,隠蔽物体の参照は現代的な視覚的接地システムでは依然として困難である。 OCID-Refはhttps://github.com/l luma/OCID-Refで公開されている。

To effectively apply robots in working environments and assist humans, it is essential to develop and evaluate how visual grounding (VG) can affect machine performance on occluded objects. However, current VG works are limited in working environments, such as offices and warehouses, where objects are usually occluded due to space utilization issues. In our work, we propose a novel OCID-Ref dataset featuring a referring expression segmentation task with referring expressions of occluded objects. OCID-Ref consists of 305,694 referring expressions from 2,300 scenes with providing RGB image and point cloud inputs. To resolve challenging occlusion issues, we argue that it's crucial to take advantage of both 2D and 3D signals to resolve challenging occlusion issues. Our experimental results demonstrate the effectiveness of aggregating 2D and 3D signals but referring to occluded objects still remains challenging for the modern visual grounding systems. OCID-Ref is publicly available at https://github.com/l luma/OCID-Ref
翻訳日:2021-03-16 14:30:57 公開日:2021-03-13
# 効率的なスパースニューラルネットワーク

Efficient Sparse Artificial Neural Networks ( http://arxiv.org/abs/2103.07674v1 )

ライセンス: Link先を確認
Seyed Majid Naji, Azra Abtahi, Farokh Marvasti(参考訳) この脳は、ANN(Artificial Neural Networks)のインスピレーションの源として、スパース構造に基づいている。 このスパース構造は、脳のエネルギー消費を減らし、より容易に学習し、パターンを他のどのANNよりも一般化するのに役立ちます。 本論文では,ANNにスパース性を導入するための2つの進化的手法を提案する。 提案手法では, ネットワークのスパース構造とそのパラメータの値が学習プロセス中に訓練され, 更新される。 シミュレーションの結果,この2つの手法は,スパース法と非スパース法と比較してトレーニングサンプルを少なくする一方で,精度が向上し,収束が速くなることがわかった。 さらに,提案手法は一般化能力を大幅に向上し,パラメータ数を削減する。 たとえば、ImageNetデータセットの画像分類のための提案手法を利用してResNet47ネットワークのスパース化は、40%少ないパラメータを使用し、モデルのトップ1の精度は、高密度ネットワークとそのスパース対応と比較して12%と5%向上します。 別の例として、CIFAR10データセットの手法はスパースよりも7倍早く最終構造に収束するが、最終的な精度は6%向上する。

The brain, as the source of inspiration for Artificial Neural Networks (ANN), is based on a sparse structure. This sparse structure helps the brain to consume less energy, learn easier and generalize patterns better than any other ANN. In this paper, two evolutionary methods for adopting sparsity to ANNs are proposed. In the proposed methods, the sparse structure of a network as well as the values of its parameters are trained and updated during the learning process. The simulation results show that these two methods have better accuracy and faster convergence while they need fewer training samples compared to their sparse and non-sparse counterparts. Furthermore, the proposed methods significantly improve the generalization power and reduce the number of parameters. For example, the sparsification of the ResNet47 network by exploiting our proposed methods for the image classification of ImageNet dataset uses 40 % fewer parameters while the top-1 accuracy of the model improves by 12% and 5% compared to the dense network and their sparse counterpart, respectively. As another example, the proposed methods for the CIFAR10 dataset converge to their final structure 7 times faster than its sparse counterpart, while the final accuracy increases by 6%.
翻訳日:2021-03-16 14:28:59 公開日:2021-03-13
# 多変量時系列予測のためのスペクトル時間グラフニューラルネットワーク

Spectral Temporal Graph Neural Network for Multivariate Time-series Forecasting ( http://arxiv.org/abs/2103.07719v1 )

ライセンス: Link先を確認
Defu Cao, Yujing Wang, Juanyong Duan, Ce Zhang, Xia Zhu, Conguri Huang, Yunhai Tong, Bixiong Xu, Jing Bai, Jie Tong, Qi Zhang(参考訳) 多変量時系列予測は多くの実世界のアプリケーションにおいて重要な役割を果たす。 系列内時間相関と系列間相関を同時に考える必要があるため、これは難しい問題である。 近年、二つの相関関係を捉えようとする複数の研究があるが、時間領域における時間的相関のみを捉えてはいるものの、ほとんどが時系列間の関係として事前に定義された事前関係を参照している。 本稿では,多変量時系列予測の精度を向上させるために,スペクトル時間グラフニューラルネットワーク(StemGNN)を提案する。 stemgnn は \textit{spectral domain} 内の系列間の相関と時間依存性をキャプチャする。 これは、GFT(Graph Fourier Transform)とDFT(Discrete Fourier Transform)を組み合わせて、エンドツーエンドのフレームワークで時間依存性をモデル化する。 GFTおよびDFTを通過した後、スペクトル表現は明確なパターンを保持し、畳み込みおよび逐次学習モジュールによって効果的に予測できる。 さらに、StemGNNは事前に定義されたプリミティブを使用せずに、データからシリーズ間の相関を自動的に学習します。 StemGNNの有効性を示すために、10の実世界のデータセットに関する広範な実験を実施します。 コードはhttps://github.com/m icrosoft/StemGNN/で入手できる。

Multivariate time-series forecasting plays a crucial role in many real-world applications. It is a challenging problem as one needs to consider both intra-series temporal correlations and inter-series correlations simultaneously. Recently, there have been multiple works trying to capture both correlations, but most, if not all of them only capture temporal correlations in the time domain and resort to pre-defined priors as inter-series relationships. In this paper, we propose Spectral Temporal Graph Neural Network (StemGNN) to further improve the accuracy of multivariate time-series forecasting. StemGNN captures inter-series correlations and temporal dependencies \textit{jointly} in the \textit{spectral domain}. It combines Graph Fourier Transform (GFT) which models inter-series correlations and Discrete Fourier Transform (DFT) which models temporal dependencies in an end-to-end framework. After passing through GFT and DFT, the spectral representations hold clear patterns and can be predicted effectively by convolution and sequential learning modules. Moreover, StemGNN learns inter-series correlations automatically from the data without using pre-defined priors. We conduct extensive experiments on ten real-world datasets to demonstrate the effectiveness of StemGNN. Code is available at https://github.com/m icrosoft/StemGNN/
翻訳日:2021-03-16 14:28:40 公開日:2021-03-13
# ニューラルネットワークの概念的容量と有効複雑性

Conceptual capacity and effective complexity of neural networks ( http://arxiv.org/abs/2103.07614v1 )

ライセンス: Link先を確認
Lech Szymanski, Brendan McCane, Craig Atkinson(参考訳) 本稿では,異なる入力からの接空間の集合の多様性に基づくニューラルネットワークマッピング関数の複雑度測定法を提案する。 各接空間を線形pac概念として扱うために、ネットワークの概念的容量を推定するために、概念束のエントロピーに基づく測度を用いる。 ReLUネットワークの理論的最大容量は、そのニューロンの数と等価である。 しかし実際には、ネットワーク内のニューロン活動間の相関のため、非常に大きなネットワークであっても実際の能力は著しく小さい。 経験的評価は、この新しい尺度がマッピング関数の複雑さと対応するネットワークの一般化能力と相関していることを示している。 ネットワーク機能の理論的複雑さとは対照的に、効果的にキャプチャされる。 また、トレーニングニューラルネットワークモデルの解析と比較のための提案手法のいくつかの利用についても紹介する。

We propose a complexity measure of a neural network mapping function based on the diversity of the set of tangent spaces from different inputs. Treating each tangent space as a linear PAC concept we use an entropy-based measure of the bundle of concepts in order to estimate the conceptual capacity of the network. The theoretical maximal capacity of a ReLU network is equivalent to the number of its neurons. In practice however, due to correlations between neuron activities within the network, the actual capacity can be remarkably small, even for very big networks. Empirical evaluations show that this new measure is correlated with the complexity of the mapping function and thus the generalisation capabilities of the corresponding network. It captures the effective, as oppose to the theoretical, complexity of the network function. We also showcase some uses of the proposed measure for analysis and comparison of trained neural network models.
翻訳日:2021-03-16 14:26:34 公開日:2021-03-13
# helmholtzian eigenmap: ポイントクラウドデータからのトポロジ的特徴発見とエッジフロー学習

Helmholtzian Eigenmap: Topological feature discovery & edge flow learning from point cloud data ( http://arxiv.org/abs/2103.07626v1 )

ライセンス: Link先を確認
Yu-Chia Chen, Marina Meil\u{a}, Ioannis G. Kevrekidis(参考訳) 多様体 helmholtzian (1-laplacian) operator $\delta_1$ はラプラス・ベルトラミ作用素を多様体 $\mathcal m$ 上のベクトル場にエレガントに一般化する。 本研究では,重み付き 1-ラプラシアン $\mathbf{\mathcal l}_1$ による点雲データからの多様体 helmholtzian の推定を提案する。 高次ラプラシアンが導入され研究されたが、この研究は非パラメトリック設定における連続作用素の推定値として、単純複素から構築されたヘルムホルツグラフを初めて提示した。 ヘルムホルツ多様体 (Helmholtzian) は、$\mathcal M$ に関する幾何学的およびトポロジカルな情報を備え、ヘルムホルツ=ホッジ定理を通じて $\mathcal M$ 上のフローとベクトル場の解析に有用なツールである。 さらに、$\mathbf{\mathcal L}_1$ は流れの平滑化、予測、特徴抽出を可能にします。 これらの可能性を、非自明な位相構造を持つ合成および実点クラウドデータセットのかなりの集合上で示し、$\mathbf{\mathcal L}_1$ から$\Delta_1$ の極限に関する理論的結果を提供する。

The manifold Helmholtzian (1-Laplacian) operator $\Delta_1$ elegantly generalizes the Laplace-Beltrami operator to vector fields on a manifold $\mathcal M$. In this work, we propose the estimation of the manifold Helmholtzian from point cloud data by a weighted 1-Laplacian $\mathbf{\mathcal L}_1$. While higher order Laplacians ave been introduced and studied, this work is the first to present a graph Helmholtzian constructed from a simplicial complex as an estimator for the continuous operator in a non-parametric setting. Equipped with the geometric and topological information about $\mathcal M$, the Helmholtzian is a useful tool for the analysis of flows and vector fields on $\mathcal M$ via the Helmholtz-Hodge theorem. In addition, the $\mathbf{\mathcal L}_1$ allows the smoothing, prediction, and feature extraction of the flows. We demonstrate these possibilities on substantial sets of synthetic and real point cloud datasets with non-trivial topological structures; and provide theoretical results on the limit of $\mathbf{\mathcal L}_1$ to $\Delta_1$.
翻訳日:2021-03-16 14:26:23 公開日:2021-03-13
# 不変リスク最小化による治療効果推定

Treatment Effect Estimation using Invariant Risk Minimization ( http://arxiv.org/abs/2103.07788v1 )

ライセンス: Link先を確認
Abhin Shah, Kartik Ahuja, Karthikeyan Shanmugam, Dennis Wei, Kush Varshney, Amit Dhurandhar(参考訳) 観察データから因果的個人的治療効果(ite)を推測することは、治療課題バイアスの存在によって困難が悪化する課題である。 本研究では,不変リスク最小化(IRM)の領域一般化フレームワークを用いてITEを推定する新しい手法を提案する。 IRMは、複数のドメインからのデータを使用し、急激なドメイン依存要因を活用せずに予測器を学び、目に見えないドメインに最適化する。 対照群と治療群の間に支持重なりがほとんどない場合に治療割り当てバイアスに取り組むことを目的としたIRMベースのITE推定器を提案する。 1つのデータセットが与えられたら、データを複数のドメインに人工的に分割します。 これらの多様なドメインはIRMによって利用され、レグレッションベースのモデルをサポートの重複のないデータ領域により効果的に一般化します。 サポートミスマッチがより顕著な設定では,ITE推定に対する古典的回帰アプローチよりも向上することを示す。

Inferring causal individual treatment effect (ITE) from observational data is a challenging problem whose difficulty is exacerbated by the presence of treatment assignment bias. In this work, we propose a new way to estimate the ITE using the domain generalization framework of invariant risk minimization (IRM). IRM uses data from multiple domains, learns predictors that do not exploit spurious domain-dependent factors, and generalizes better to unseen domains. We propose an IRM-based ITE estimator aimed at tackling treatment assignment bias when there is little support overlap between the control group and the treatment group. We accomplish this by creating diversity: given a single dataset, we split the data into multiple domains artificially. These diverse domains are then exploited by IRM to more effectively generalize regression-based models to data regions that lack support overlap. We show gains over classical regression approaches to ITE estimation in settings when support mismatch is more pronounced.
翻訳日:2021-03-16 14:26:00 公開日:2021-03-13
# 3パラメータによる制限のない敵対例の生成

Generating Unrestricted Adversarial Examples via Three Parameters ( http://arxiv.org/abs/2103.07640v1 )

ライセンス: Link先を確認
Hanieh Naderi and Leili Goli and Shohreh Kasaei(参考訳) ディープニューラルネットワークは、被害者モデルの誤って分類するために意図的に構築された敵の例に弱いことが示されている。 ほとんどの敵対的例は、それらの摂動を$L_{p}$-ノルムに制限しているため、既存の防御方法はこれらのタイプの摂動に焦点を当てており、制限のない敵対的例にはあまり注意が払われていない。 この問題に対処するため,提案手法は限定されたパラメータを持つ非制限型攻撃例を生成する。 攻撃は入力画像上の3点を選択し、その位置に基づいて画像を逆の例に変換する。 これら3点の移動範囲と位置を制限し、識別ネットワークを使用することで、提案する非制限的な敵対的例は画像の出現を保存できる。 実験の結果,mnistとsvhnのデータセットにおいて,提案手法の平均成功率は93.5%であった。 また、MNIST、FMNIST、SVHN、CIFAR10、CIFAR100、ImageNetの6つのデータセットでモデル精度を平均73%削減します。 攻撃の場合、犠牲者モデルの低い精度は、より成功した攻撃を示すことに注意する必要がある。 攻撃の対向列車は、ランダムに変換された画像に対するモデルロバスト性も向上する。

Deep neural networks have been shown to be vulnerable to adversarial examples deliberately constructed to misclassify victim models. As most adversarial examples have restricted their perturbations to $L_{p}$-norm, existing defense methods have focused on these types of perturbations and less attention has been paid to unrestricted adversarial examples; which can create more realistic attacks, able to deceive models without affecting human predictions. To address this problem, the proposed adversarial attack generates an unrestricted adversarial example with a limited number of parameters. The attack selects three points on the input image and based on their locations transforms the image into an adversarial example. By limiting the range of movement and location of these three points and using a discriminatory network, the proposed unrestricted adversarial example preserves the image appearance. Experimental results show that the proposed adversarial examples obtain an average success rate of 93.5% in terms of human evaluation on the MNIST and SVHN datasets. It also reduces the model accuracy by an average of 73% on six datasets MNIST, FMNIST, SVHN, CIFAR10, CIFAR100, and ImageNet. It should be noted that, in the case of attacks, lower accuracy in the victim model denotes a more successful attack. The adversarial train of the attack also improves model robustness against a randomly transformed image.
翻訳日:2021-03-16 14:24:48 公開日:2021-03-13
# マルチビュークラスタリングにおける表現アライメントの再考

Reconsidering Representation Alignment for Multi-view Clustering ( http://arxiv.org/abs/2103.07738v1 )

ライセンス: Link先を確認
Daniel J. Trosten, Sigurd L{\o}kse, Robert Jenssen, Michael Kampffmeyer(参考訳) ビュー表現の分布の調整は、ディープマルチビュークラスタリングのための現在の最先端のアートモデルのコアコンポーネントである。 しかし、na\"ively aligning representation distributions を持ついくつかの欠点を同定する。 これらの欠点は、表現空間における分離可能なクラスタの減少と、ビューを優先するモデルの能力の抑制の両方につながることを実証する。 これらの観測に基づいて,深層マルチビュークラスタリングのための簡易ベースラインモデルを開発した。 我々のベースラインモデルは、表現のアライメントを完全に回避すると同時に、現在の最先端と同じような、あるいはより優れたパフォーマンスを実現しています。 コントラスト学習コンポーネントを追加することで、ベースラインモデルも拡張します。 これは、ビューを優先するモデルの能力を保持する選択的アライメント手順を導入する。 本実験では,コントラスト学習コンポーネントがベースラインモデルを強化し,複数のデータセットにおいて,最先端の技術を大きなマージンで改善することを示す。

Aligning distributions of view representations is a core component of today's state of the art models for deep multi-view clustering. However, we identify several drawbacks with na\"ively aligning representation distributions. We demonstrate that these drawbacks both lead to less separable clusters in the representation space, and inhibit the model's ability to prioritize views. Based on these observations, we develop a simple baseline model for deep multi-view clustering. Our baseline model avoids representation alignment altogether, while performing similar to, or better than, the current state of the art. We also expand our baseline model by adding a contrastive learning component. This introduces a selective alignment procedure that preserves the model's ability to prioritize views. Our experiments show that the contrastive learning component enhances the baseline model, improving on the current state of the art by a large margin on several datasets.
翻訳日:2021-03-16 14:24:26 公開日:2021-03-13
# ポートフォリオ最適化のための大規模勧告

Large-scale Recommendation for Portfolio Optimization ( http://arxiv.org/abs/2103.07768v1 )

ライセンス: Link先を確認
Robin Swezey, Bruno Charron(参考訳) 個人投資家は現在、オンラインブローカーを使って、便利なインターフェースと低い手数料で株式を取引しているが、従来のフルサービスブローカーによるアドバイスやパーソナライゼーションは失われている。 私たちは、このレベルのサービスを非常に多くのユーザーのために低コストで自動化された方法で複製するオンラインブローカーが直面する問題をフレーム化します。 金融商品のレコメンデーションに必要なケアのため、各ユーザのポートフォリオとリスクプロファイルに合わせたリスク管理アプローチに重点を置いています。 現代のポートフォリオ理論と協調フィルタリングに基づくハイブリッドアプローチが,健全かつ効果的なソリューションを提供することを示す。 この方法は他の金融資産と同様に株式にも適用でき、様々な金融予測モデルと容易に組み合わせることができる。 ドメインエキスパートに基づく研究において、提案をいくつかのベースラインと比較することで、提案を検証します。

Individual investors are now massively using online brokers to trade stocks with convenient interfaces and low fees, albeit losing the advice and personalization traditionally provided by full-service brokers. We frame the problem faced by online brokers of replicating this level of service in a low-cost and automated manner for a very large number of users. Because of the care required in recommending financial products, we focus on a risk-management approach tailored to each user's portfolio and risk profile. We show that our hybrid approach, based on Modern Portfolio Theory and Collaborative Filtering, provides a sound and effective solution. The method is applicable to stocks as well as other financial assets, and can be easily combined with various financial forecasting models. We validate our proposal by comparing it with several baselines in a domain expert-based study.
翻訳日:2021-03-16 14:21:21 公開日:2021-03-13
# ゴルフ予約サービスにおける短命な動的パッケージの推薦

Recommending Short-lived Dynamic Packages for Golf Booking Services ( http://arxiv.org/abs/2103.07779v1 )

ライセンス: Link先を確認
Robin Swezey, Young-joo Chung(参考訳) ゴルフ予約サービスに短命ダイナミックパッケージを推奨するアプローチを紹介します。 この作業では2つの課題が解決される。 1つ目は、アイテムの短い寿命で、システムは恒久的なコールドスタートの状態になります。 2つ目は、パッケージ属性の非形式的性質であり、クラスタ化や潜在パッケージの特定が困難になる。 このような設定は広く普及しているが、従来の推奨研究では研究されておらず、レコメンダシステムに対する独自のアプローチを求める声もある。 本稿では,ユーザ分析とパッケージとの関係,パッケージの価格設定と環境分析,従来の協調フィルタリングを活用したハイブリッド手法を提案する。 提案手法はベースラインと比較して精度が向上した。

We introduce an approach to recommending short-lived dynamic packages for golf booking services. Two challenges are addressed in this work. The first is the short life of the items, which puts the system in a state of a permanent cold start. The second is the uninformative nature of the package attributes, which makes clustering or figuring latent packages challenging. Although such settings are fairly pervasive, they have not been studied in traditional recommendation research, and there is thus a call for original approaches for recommender systems. In this paper, we introduce a hybrid method that leverages user analysis and its relation to the packages, as well as package pricing and environmental analysis, and traditional collaborative filtering. The proposed approach achieved appreciable improvement in precision compared with baselines.
翻訳日:2021-03-16 14:21:11 公開日:2021-03-13
# CACTUS: 目的関数における競合の検出と解決

CACTUS: Detecting and Resolving Conflicts in Objective Functions ( http://arxiv.org/abs/2103.07805v1 )

ライセンス: Link先を確認
Subhajit Das and Alex Endert(参考訳) 機械学習(ML)モデルは、さまざまなコーディング言語を使用して、与えられた問題領域に対するハイパーパラメータと学習アルゴリズムをチューニングし、選択する専門家ML実践者によって構築される。 彼らはまた、分類、回帰などの所定のmlタスクの望ましい出力をキャプチャする目的関数や損失関数(しばしば複数の目的を持つ)を慎重に設計する。 多対象最適化において、矛盾する目的と制約は大きな関心事である。 このような問題では、望ましい全ての目的を同時に満たす単一の最適解が見つからないいくつかの競合する目的が見出される。 過去VAシステムでは、ユーザーが分類器の客観的関数をインタラクティブに構築することができました。 本論文では,ユピターノートブックで定義される多対象目的関数を可視化する手法や,対話型ビジュアルインターフェースを用いて,ユーザが複雑な数学的用語を知覚・解釈し,競合する目的を検出・解決する手法を試作することにより,この作業範囲を拡大する。 目的関数の可視化は、望ましいMLタスクまたは目標の正しいソリューションの選択を妨げる潜在的な矛盾する目標を啓蒙します。 また、分類器選択のための多目的目的関数の目的仕様における潜在的な競合を列挙する。 さらに,係り合う目的や制約を検知して解決することにより,ユーザが意味のある目的関数を分類器に指定するのを支援するVAシステムにおいて,我々のアプローチを実証する。 本研究では,対象内定量的および定性的ユーザスタディを通じて,分類タスクの潜在的な競合を解くことによって,ユーザが有意な客観的関数をインタラクティブに特定できることを示す。

Machine learning (ML) models are constructed by expert ML practitioners using various coding languages, in which they tune and select models hyperparameters and learning algorithms for a given problem domain. They also carefully design an objective function or loss function (often with multiple objectives) that captures the desired output for a given ML task such as classification, regression, etc. In multi-objective optimization, conflicting objectives and constraints is a major area of concern. In such problems, several competing objectives are seen for which no single optimal solution is found that satisfies all desired objectives simultaneously. In the past VA systems have allowed users to interactively construct objective functions for a classifier. In this paper, we extend this line of work by prototyping a technique to visualize multi-objective objective functions either defined in a Jupyter notebook or defined using an interactive visual interface to help users to: (1) perceive and interpret complex mathematical terms in it and (2) detect and resolve conflicting objectives. Visualization of the objective function enlightens potentially conflicting objectives that obstructs selecting correct solution(s) for the desired ML task or goal. We also present an enumeration of potential conflicts in objective specification in multi-objective objective functions for classifier selection. Furthermore, we demonstrate our approach in a VA system that helps users in specifying meaningful objective functions to a classifier by detecting and resolving conflicting objectives and constraints. Through a within-subject quantitative and qualitative user study, we present results showing that our technique helps users interactively specify meaningful objective functions by resolving potential conflicts for a classification task.
翻訳日:2021-03-16 14:21:01 公開日:2021-03-13
# 自律材料研究における複雑意思決定のための問題拡散モデル

Problem-fluent models for complex decision-making in autonomous materials research ( http://arxiv.org/abs/2103.07776v1 )

ライセンス: Link先を確認
Soojung Baek, Kristofer G. Reyes(参考訳) 自律材料研究の分野における最近の研究成果を概観し、機械学習手法とモデルとの結合と、より問題対応のモデリングを強調した。 我々は,多数の自律材料プラットフォームが採用する閉ループ設計のための一般ベイズ的枠組みを概観する。 その後、そのようなプラットフォームでの作業例を提供します。 最後に,現在の統計モデルとmlモデルを拡張し,物理モデルの利用や運用上の考慮事項を意思決定手順に組み込むなど,問題固有の構造をよりよく反映する手法について検討する。

We review our recent work in the area of autonomous materials research, highlighting the coupling of machine learning methods and models and more problem-aware modeling. We review the general Bayesian framework for closed-loop design employed by many autonomous materials platforms. We then provide examples of our work on such platforms. We finally review our approaches to extend current statistical and ML models to better reflect problem-specific structure including the use of physics-based models and incorporation of operational considerations into the decision-making procedure.
翻訳日:2021-03-16 14:18:31 公開日:2021-03-13
# PhotoApp: ヘッドポートレートのフォトリアルな外観編集

PhotoApp: Photorealistic Appearance Editing of Head Portraits ( http://arxiv.org/abs/2103.07658v1 )

ライセンス: Link先を確認
Mallikarjun B R, Ayush Tewari, Abdallah Dib, Tim Weyrich, Bernd Bickel, Hans-Peter Seidel, Hanspeter Pfister, Wojciech Matusik, Louis Chevallier, Mohamed Elgharib, Christian Theobalt(参考訳) ポートレートのフォトリアリズム編集は、人間が顔の不一致に非常に敏感であるため、難しい作業です。 本稿では,ポートレート画像におけるカメラ視点とシーン照明の高品質な直感的編集手法を提案する。 これにより,画像中の人物のフルリフレクタンスフィールドをキャプチャし,制御する手法が求められている。 ほとんどの編集アプローチは、光やカメラステージといった設定でキャプチャされたトレーニングデータを使用した教師あり学習に依存している。 このようなデータセットは、取得するのに高価であり、容易に入手できず、ワイルドポートレート画像のすべての豊富なバリエーションをキャプチャしません。 加えて、ほとんどの監督されたアプローチはライトアップのみに焦点を当てており、カメラ視点の編集を許可していない。 したがって、反射フィールドのサブセットのみをキャプチャして制御します。 近年,StyleGAN の生成モデル空間で動作することで,肖像画編集が実証されている。 このようなアプローチは直接の監視を必要としないが、監督されたアプローチと比較すると品質が大幅に低下する。 本稿では,限られた教師付きトレーニングデータから学習する手法を提案する。 トレーニング画像には、髪や背景のバリエーションがほとんどなく、目を閉じた固定された中性表現の人々しか含まれていない。 一人ひとりが1回150回、カメラが8回撮影されます。 画像空間で直接トレーニングする代わりに、StyleGANの潜在的な空間で変換を学ぶ監督された問題を設計します。 これは、教師付き学習と生成的敵対的モデリングのベストを組み合わせる。 StyleGANの前には,表現,髪型,背景の一般化が可能であることを示す。 これにより、インザワイルド画像のための高品質のフォトリアリズム結果が生成され、既存の方法を大幅に上回ります。 本手法は照明とポーズを同時に編集し,インタラクティブな速度で動作させる。

Photorealistic editing of portraits is a challenging task as humans are very sensitive to inconsistencies in faces. We present an approach for high-quality intuitive editing of the camera viewpoint and scene illumination in a portrait image. This requires our method to capture and control the full reflectance field of the person in the image. Most editing approaches rely on supervised learning using training data captured with setups such as light and camera stages. Such datasets are expensive to acquire, not readily available and do not capture all the rich variations of in-the-wild portrait images. In addition, most supervised approaches only focus on relighting, and do not allow camera viewpoint editing. Thus, they only capture and control a subset of the reflectance field. Recently, portrait editing has been demonstrated by operating in the generative model space of StyleGAN. While such approaches do not require direct supervision, there is a significant loss of quality when compared to the supervised approaches. In this paper, we present a method which learns from limited supervised training data. The training images only include people in a fixed neutral expression with eyes closed, without much hair or background variations. Each person is captured under 150 one-light-at-a-time conditions and under 8 camera poses. Instead of training directly in the image space, we design a supervised problem which learns transformations in the latent space of StyleGAN. This combines the best of supervised learning and generative adversarial modeling. We show that the StyleGAN prior allows for generalisation to different expressions, hairstyles and backgrounds. This produces high-quality photorealistic results for in-the-wild images and significantly outperforms existing methods. Our approach can edit the illumination and pose simultaneously, and runs at interactive rates.
翻訳日:2021-03-16 14:17:05 公開日:2021-03-13
# 逆確率重み付けによるニューラルテキスト生成の多様性向上

Improving Diversity of Neural Text Generation via Inverse Probability Weighting ( http://arxiv.org/abs/2103.07649v1 )

ライセンス: Link先を確認
Xinran Zhang, Maosong Sun, Jiafeng Liu and Xiaobing Li(参考訳) ニューラルネットワークベースのテキスト生成は、繰り返しなどのテキスト劣化問題に悩まされる。 トップkサンプリングと核サンプリングはビーム探索に基づく復号法よりも優れているが、それらは分布の「テール」の切り換えにのみ焦点をあて、繰り返しループにつながる確率の高い退屈で反復的な候補を含む可能性がある「ヘッド」部分には対処しない。 また、人間の文章が必ずしも高い確率の単語を好まないという問題にも完全に対処していない。 テキスト生成の多様性を改善するために,逆確率重み付けに触発されたヒューリスティックサンプリング法を提案する。 本研究では,予測分布の四分位範囲を用いて「頭部」部分を決定し,逆確率で「頭部」を置換・再スケールする手法を提案する。 これは、退屈で反復的な候補の確率を高い確率で減少させ、有理だがより意外な候補の確率を低い確率で増加させることを目的としている。 提案手法は,分布の合理性を損なうことなく多様性を高める予測分布の制御可能な変動を与える。 プリトレーニングされた言語モデルを使用して、アルゴリズムと核サンプリングを比較します。 結果から,本アルゴリズムは,人文に近づきながら,生成したサンプルの多様性を効果的に向上させることができることがわかった。

The neural network based text generation suffers from the text degeneration issue such as repetition. Although top-k sampling and nucleus sampling outperform beam search based decoding methods, they only focus on truncating the "tail" of the distribution and do not address the "head" part, which we show might contain tedious or even repetitive candidates with high probability that lead to repetition loops. They also do not fully address the issue that human text does not always favor high probability words. To explore improved diversity for text generation, we propose a heuristic sampling method inspired by inverse probability weighting. We propose to use interquartile range of the predicted distribution to determine the "head" part, then permutate and rescale the "head" with inverse probability. This aims at decreasing the probability for the tedious and possibly repetitive candidates with higher probability, and increasing the probability for the rational but more surprising candidates with lower probability. The proposed algorithm provides a controllable variation on the predicted distribution which enhances diversity without compromising rationality of the distribution. We use pre-trained language model to compare our algorithm with nucleus sampling. Results show that our algorithm can effectively increase the diversity of generated samples while achieving close resemblance to human text.
翻訳日:2021-03-16 14:16:22 公開日:2021-03-13
# Aspect Sentiment Triplet Extraction のための双方向機械読解解法

Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2103.07665v1 )

ライセンス: Link先を確認
Shaowei Chen, Yu Wang, Jie Liu, Yuelin Wang(参考訳) レビュー文の側面とそれに対応する意見表現と感情を識別することを目的としたアスペクト感情トリプレット抽出(ASTE)は、きめ細かい意見マイニングにおける新たなタスクです。 asteは、意見エンティティ抽出、関係検出、感情分類を含む複数のサブタスクから構成されているため、それらの関連を適切に捉えて活用することが重要かつ困難である。 本稿では、ASTEタスクをマルチターン機械読解(MTMRC)タスクに変換し、この課題に対処するための双方向MRC(BMRC)フレームワークを提案する。 具体的には,非制限抽出クエリ,制限抽出クエリ,感情分類クエリの3種類のクエリを考案し,異なるサブタスク間の関連性を構築する。 さらに、アスペクト感情三重項がアスペクトまたは意見表現から派生する可能性があることを考慮し、双方向mrc構造を設計する。 1つの方向はアスペクト、意見表現、感情を順次認識し、3つ目を得る一方、もう1つの方向は意見表現をまずアスペクト、そして最後に感情を識別する。 2つの方向を相互補完させることで、我々のフレームワークはより包括的に三つ子を識別できる。 提案手法の有効性を検証するため,4つのベンチマークデータセットに対して広範な実験を行った。 実験の結果,BMRCは最先端の性能を達成できた。

Aspect sentiment triplet extraction (ASTE), which aims to identify aspects from review sentences along with their corresponding opinion expressions and sentiments, is an emerging task in fine-grained opinion mining. Since ASTE consists of multiple subtasks, including opinion entity extraction, relation detection, and sentiment classification, it is critical and challenging to appropriately capture and utilize the associations among them. In this paper, we transform ASTE task into a multi-turn machine reading comprehension (MTMRC) task and propose a bidirectional MRC (BMRC) framework to address this challenge. Specifically, we devise three types of queries, including non-restrictive extraction queries, restrictive extraction queries and sentiment classification queries, to build the associations among different subtasks. Furthermore, considering that an aspect sentiment triplet can derive from either an aspect or an opinion expression, we design a bidirectional MRC structure. One direction sequentially recognizes aspects, opinion expressions, and sentiments to obtain triplets, while the other direction identifies opinion expressions first, then aspects, and at last sentiments. By making the two directions complement each other, our framework can identify triplets more comprehensively. To verify the effectiveness of our approach, we conduct extensive experiments on four benchmark datasets. The experimental results demonstrate that BMRC achieves state-of-the-art performances.
翻訳日:2021-03-16 14:16:02 公開日:2021-03-13
# 臨床ガイドラインの継続的適用へのコンプライアンスの双方向知識に基づく評価手法

A Methodology for Bi-Directional Knowledge-Based Assessment of Compliance to Continuous Application of Clinical Guidelines ( http://arxiv.org/abs/2103.07789v1 )

ライセンス: Link先を確認
Avner Hatsek and Yuval Shahar(参考訳) 臨床医はしばしば、各患者の状況に敏感な方法で、エビデンスに基づく臨床ガイドラインに十分に固執しない。 臨床医と政策立案者の両方に知らせるためには、検出が振り返って行われる場合でも、通常、冗長または欠落した行動を含むそのような偏差を検出することが重要です。 さらに、そのような偏差を偏差のレベルに比例した方法で検出することは有益であり、任意のカットオフ値を使うのではない。 本研究では,ケアプロセスのガイドラインに基づく品質評価を自動化するための新しいアプローチ,BiKBAC(Bi direction knowledge-based Assessment of compliance)手法を提案する。 当社のbikbac手法は,ガイドラインのさまざまな側面(ガイドラインのプロセスや成果目標など)に関して,臨床ガイドラインを適用する際のコンプライアンスの程度を評価します。 この評価は、ガイドラインの形式的表現とそのプロセスと結果の意図(その目的のためにasbru言語を使用します)と、トップダウンとボトムアップの両方のアプローチを用いて、かなりの期間にわたって、その継続的な応用に関する縦断的な電子医療記録を比較した、高度に詳細な品質評価の振り返り分析によって実施されます。 ファジィ時間論理を用いて、プロセスと結果の目的に対するデータの部分一致を解消する。 また,BiKBAC 方式を実装した DiscovErr システムを導入し,そのアーキテクチャについて述べる。 2型糖尿病管理ドメインの別の研究で、3人の臨床医のパネルのパフォーマンスを比較して評価し、コメントの完全性と正確性に関して非常に有意な結果を得た。

Clinicians often do not sufficiently adhere to evidence-based clinical guidelines in a manner sensitive to the context of each patient. It is important to detect such deviations, typically including redundant or missing actions, even when the detection is performed retrospectively, so as to inform both the attending clinician and policy makers. Furthermore, it would be beneficial to detect such deviations in a manner proportional to the level of the deviation, and not to simply use arbitrary cut-off values. In this study, we introduce a new approach for automated guideline-based quality assessment of the care process, the bidirectional knowledge-based assessment of compliance (BiKBAC) method. Our BiKBAC methodology assesses the degree of compliance when applying clinical guidelines, with respect to multiple different aspects of the guideline (e.g., the guideline's process and outcome objectives). The assessment is performed through a highly detailed, automated quality-assessment retrospective analysis, which compares a formal representation of the guideline and of its process and outcome intentions (we use the Asbru language for that purpose) with the longitudinal electronic medical record of its continuous application over a significant time period, using both a top-down and a bottom-up approach, which we explain in detail. Partial matches of the data to the process and to the outcome objectives are resolved using fuzzy temporal logic. We also introduce the DiscovErr system, which implements the BiKBAC approach, and present its detailed architecture. The DiscovErr system was evaluated in a separate study in the type 2 diabetes management domain, by comparing its performance to a panel of three clinicians, with highly encouraging results with respect to the completeness and correctness of its comments.
翻訳日:2021-03-16 14:14:28 公開日:2021-03-13
# ResNetを再訪:トレーニングとスケーリング戦略の改善

Revisiting ResNets: Improved Training and Scaling Strategies ( http://arxiv.org/abs/2103.07579v1 )

ライセンス: Link先を確認
Irwan Bello, William Fedus, Xianzhi Du, Ekin D. Cubuk, Aravind Srinivas, Tsung-Yi Lin, Jonathon Shlens, Barret Zoph(参考訳) 新しいコンピュータビジョンアーキテクチャはスポットライトを独占するが、モデルアーキテクチャの影響は、しばしばトレーニング方法論とスケーリング戦略の同時変化と混同される。 私たちの仕事は正規の ResNet (He et al., 2015) を再考し、それらを解くためにこれらの3つの側面を研究します。 おそらく驚くべきことに、トレーニングとスケーリングの戦略はアーキテクチャの変更よりも重要であり、その結果、ResNetsは最新のモデルと一致します。 1)過剰フィッティングが発生しうるシステムにおけるスケールモデル深さ(width scalingが好ましい場合)、(2)これまで推奨されていたよりも画像解像度を遅くする(tan & le, 2019)、という2つの新しいスケーリング戦略が提供されている。 改善されたトレーニングとスケーリング戦略を使用して、ResNetアーキテクチャのファミリーを設計する。ResNet-RSは、TPU上のEfficientNetsよりも1.7倍から2.7倍速く、ImageNetでも同様の精度を達成している。 大規模な半教師付き学習セットアップでは、ResNet-RSは86.2%の画像ネット精度を達成し、EfficientNet NoisyStudentよりも4.7倍高速である。 トレーニング手法は,一連の下流タスク(最先端の自己教師型アルゴリズム)の転送性能を改善し,Kinetics-400の動画分類に拡張する。 このシンプルなResNetを今後の研究のベースラインとして使うことをおすすめします。

Novel computer vision architectures monopolize the spotlight, but the impact of the model architecture is often conflated with simultaneous changes to training methodology and scaling strategies. Our work revisits the canonical ResNet (He et al., 2015) and studies these three aspects in an effort to disentangle them. Perhaps surprisingly, we find that training and scaling strategies may matter more than architectural changes, and further, that the resulting ResNets match recent state-of-the-art models. We show that the best performing scaling strategy depends on the training regime and offer two new scaling strategies: (1) scale model depth in regimes where overfitting can occur (width scaling is preferable otherwise); (2) increase image resolution more slowly than previously recommended (Tan & Le, 2019). Using improved training and scaling strategies, we design a family of ResNet architectures, ResNet-RS, which are 1.7x - 2.7x faster than EfficientNets on TPUs, while achieving similar accuracies on ImageNet. In a large-scale semi-supervised learning setup, ResNet-RS achieves 86.2% top-1 ImageNet accuracy, while being 4.7x faster than EfficientNet NoisyStudent. The training techniques improve transfer performance on a suite of downstream tasks (rivaling state-of-the-art self-supervised algorithms) and extend to video classification on Kinetics-400. We recommend practitioners use these simple revised ResNets as baselines for future research.
翻訳日:2021-03-16 14:12:25 公開日:2021-03-13
# 生成逆数ネットワークによる教師なし画像変換学習

Unsupervised Image Transformation Learning via Generative Adversarial Networks ( http://arxiv.org/abs/2103.07751v1 )

ライセンス: Link先を確認
Kaiwen Zha, Yujun Shen, Bolei Zhou(参考訳) 本研究では,gans(generative adversarial network)を用いて画像の集合から基礎となる変換を学習し,画像変換問題を研究する。 具体的には、生成器と識別器が共有する変換空間に画像を投影する、TrGANと呼ばれる教師なし学習フレームワークを提案する。 この射影空間の任意の2つの点は、画像生成プロセスを導く変換を定義し、連続的な意味的変化をもたらす。 一対の画像を変換空間に投影することにより、画像間の意味的変化を適切に抽出し、抽出した意味を画像編集を容易にするために、画像スタイル(例えば、昼から夜への移動)だけでなく、画像内容(例えば、空に雲を加える)を操作することができる。 コードとモデルはhttps://genforce.git hub.io/trganで入手できる。

In this work, we study the image transformation problem by learning the underlying transformations from a collection of images using Generative Adversarial Networks (GANs). Specifically, we propose an unsupervised learning framework, termed as TrGAN, to project images onto a transformation space that is shared by the generator and the discriminator. Any two points in this projected space define a transformation that can guide the image generation process, leading to continuous semantic change. By projecting a pair of images onto the transformation space, we are able to adequately extract the semantic variation between them and further apply the extracted semantic to facilitating image editing, including not only transferring image styles (e.g., changing day to night) but also manipulating image contents (e.g., adding clouds in the sky). Code and models are available at https://genforce.git hub.io/trgan.
翻訳日:2021-03-16 14:11:57 公開日:2021-03-13
# ターゲット・アスペクトに基づくマルチモーダル感情分析:注意カプセル抽出とマルチヘッド融合ネットワーク

Targeted aspect based multimodal sentiment analysis:an attention capsule extraction and multi-head fusion network ( http://arxiv.org/abs/2103.07659v1 )

ライセンス: Link先を確認
Jiaqian Wang, Donghong Gu, Chi Yang, Yun Xue, Zhengxin Song, Haoliang Zhao, Luwei Xiao(参考訳) マルチモーダル感情分析は、様々な領域においてその重要性を認識している。 感情分析のために、1つのターゲットに対応するモダリティを区別するさまざまな側面を処理し、分析します。 本研究では,目標とするアスペクトベースのマルチモーダル感情分析(TABMSA)を初めて提案する。 さらに,TABMSAの課題に対する注意カプセル抽出と多頭部核融合ネットワーク(EF-Net)を考案した。 MHA(Multi-head attention)ベースのネットワークとResNet-152は、それぞれテキストと画像を扱うために使用される。 MHAとカプセルネットワークの統合は、マルチモーダル入力間の相互作用を捉えることを目的としている。 対象の側面に加えて、コンテキストとイメージからの情報は、配信感情のためにも組み込まれています。 提案したモデルを手動アノテーション付き2つのデータセット上で評価する。 実験結果から,本課題に対する提案したモデルの有効性が示された。

Multimodal sentiment analysis has currently identified its significance in a variety of domains. For the purpose of sentiment analysis, different aspects of distinguishing modalities, which correspond to one target, are processed and analyzed. In this work, we propose the targeted aspect-based multimodal sentiment analysis (TABMSA) for the first time. Furthermore, an attention capsule extraction and multi-head fusion network (EF-Net) on the task of TABMSA is devised. The multi-head attention (MHA) based network and the ResNet-152 are employed to deal with texts and images, respectively. The integration of MHA and capsule network aims to capture the interaction among the multimodal inputs. In addition to the targeted aspect, the information from the context and the image is also incorporated for sentiment delivered. We evaluate the proposed model on two manually annotated datasets. the experimental results demonstrate the effectiveness of our proposed model for this new task.
翻訳日:2021-03-16 14:03:46 公開日:2021-03-13
# グラフ畳み込みネットワークを用いた大規模車両ネットワークの時空間モデリング

Spatio-temporal Modeling for Large-scale Vehicular Networks Using Graph Convolutional Networks ( http://arxiv.org/abs/2103.07636v1 )

ライセンス: Link先を確認
Juntong Liu, Yong Xiao, Yingyu Li, Guangming Shiyz, Walid Saad, and H. Vincent Poor(参考訳) 接続された車両網の効果的な展開は、空間的および時間的領域にまたがる所望の性能を維持することに寄与する。 本稿では,大規模な地理的領域におけるV2I通信遅延の空間的および時間的統計をモデル化し,追跡するためのグラフベースのフレームワークSMARTを提案する。 SMARTはまず、各頂点がV2I遅延の類似した統計的特徴を有する隣接位置点の集合からなる部分領域に対応するグラフとして、車両ネットワークの時空間性能を定式化し、各エッジは、2つの連結頂点の遅延統計間の時空間相関を表します。 車両網の時間的および空間的遅延性能を限られた数の頂点とエッジの関係から再構築できるという観測に動機づけられ,大規模車両網における特徴マップpfレイテンシ性能の空間的および時間的統計を捉えるために,ディープq-networksアルゴリズムと統合したグラフ畳み込みネットワークを用いたグラフ再構成に基づくアプローチを開発した。 商用LTEネットワーク上での5ヶ月の遅延測定に基づく広範なシミュレーションが行われている。 提案手法は,大規模車両網の遅延性能をモデル化し,再構成するための精度と効率を大幅に向上できることを示す。

The effective deployment of connected vehicular networks is contingent upon maintaining a desired performance across spatial and temporal domains. In this paper, a graph-based framework, called SMART, is proposed to model and keep track of the spatial and temporal statistics of vehicle-to-infrastru cture (V2I) communication latency across a large geographical area. SMART first formulates the spatio-temporal performance of a vehicular network as a graph in which each vertex corresponds to a subregion consisting of a set of neighboring location points with similar statistical features of V2I latency and each edge represents the spatio-correlation between latency statistics of two connected vertices. Motivated by the observation that the complete temporal and spatial latency performance of a vehicular network can be reconstructed from a limited number of vertices and edge relations, we develop a graph reconstruction-based approach using a graph convolutional network integrated with a deep Q-networks algorithm in order to capture the spatial and temporal statistic of feature map pf latency performance for a large-scale vehicular network. Extensive simulations have been conducted based on a five-month latency measurement study on a commercial LTE network. Our results show that the proposed method can significantly improve both the accuracy and efficiency for modeling and reconstructing the latency performance of large vehicular networks.
翻訳日:2021-03-16 14:00:01 公開日:2021-03-13
# オンラインDouble Oracle

Online Double Oracle ( http://arxiv.org/abs/2103.07780v1 )

ライセンス: Link先を確認
Le Cong Dinh, Yaodong Yang, Zheng Tian, Nicolas Perez Nieves, Oliver Slumbers, David Henry Mguni, Jun Wang(参考訳) アクションスペースが制限的に大きい戦略的ゲームを解くことは、経済学、コンピュータサイエンス、人工知能において、未解決のトピックである。 本論文では,純粋な戦略の数が巨大あるいは無限である2プレイヤーゼロサムゲームにおける新しい学習アルゴリズムを提案する。 具体的には,オンライン学習のノンレグレット分析とゲーム理論のダブルオラクル手法を組み合わせる。 我々の方法 -- \emph{Online Double Oracle (ODO)} -- は、ゲームのサイズではなく、ナッシュ平衡の支持サイズに線形に依存する \emph{ Effective Strategy set} のサイズであるセルフプレイ設定において、$\mathcal{O}(\sqrt{T k \log(k)})$の後悔境界を達成する。 純粋戦略が3.936$のLeduc Pokerを含む数種類の現実世界ゲームにおいて、我々の手法は、Nash平衡への収束率と戦略的敵に対する平均ペイオフの両方において、非regretアルゴリズムと二重オラクル手法を大きなマージンで上回ります。

Solving strategic games whose action space is prohibitively large is a critical yet under-explored topic in economics, computer science and artificial intelligence. This paper proposes new learning algorithms in two-player zero-sum games where the number of pure strategies is huge or even infinite. Specifically, we combine no-regret analysis from online learning with double oracle methods from game theory. Our method -- \emph{Online Double Oracle (ODO)} -- achieves the regret bound of $\mathcal{O}(\sqrt{T k \log(k)})$ in self-play setting where $k$ is NOT the size of the game, but rather the size of \emph{effective strategy set} that is linearly dependent on the support size of the Nash equilibrium. On tens of different real-world games, including Leduc Poker that contains $3^{936}$ pure strategies, our methods outperform no-regret algorithms and double oracle methods by a large margin, both in convergence rate to Nash equilibrium and average payoff against strategic adversary.
翻訳日:2021-03-16 13:59:35 公開日:2021-03-13
# 効率的な計画のための人間予測モデルを動的に切り替える

Dynamically Switching Human Prediction Models for Efficient Planning ( http://arxiv.org/abs/2103.07815v1 )

ライセンス: Link先を確認
Arjun Sripathy, Andreea Bobu, Daniel S. Brown, and Anca D. Dragan(参考訳) ロボットと人間の両方が関わる環境がますます一般的になるにつれて、計画中は人々も考慮する必要がある。 効果的に計画するには、ロボットは人間の行動に反応し、時には影響を及ぼす必要がある。 これは将来の人間の行動を予測する人間モデルを必要とする。 単純なモデルは、人間が以前にしたことを継続すると仮定し、より複雑なモデルは、ロボットを無視して、人間が最適に行動することを予測し、さらに複雑なモデルは、ロボットが人間に影響を及ぼす能力を捉えるかもしれない。 これらのモデルでは、計算時間と結果のロボット計画のパフォーマンスのトレードオフが異なる。 人間の1つのモデルのみが計算資源を浪費するか、重要な状況に対処できないかのいずれかを使用する。 本研究では,ロボットが人間のモデル群にアクセスし,性能計算のトレードオフをオンラインで評価できるようにする。 代替モデルがどのように人間の予測を改善し、それがパフォーマンス向上につながるかを推定することにより、ロボットは追加の計算が正当化されるたびに、人間のモデルを動的に切り替えることができます。 ドライビングシミュレータの実験では、ロボットが常に最高の人間モデルに匹敵する性能を達成できるが、計算量は大幅に削減された。

As environments involving both robots and humans become increasingly common, so does the need to account for people during planning. To plan effectively, robots must be able to respond to and sometimes influence what humans do. This requires a human model which predicts future human actions. A simple model may assume the human will continue what they did previously; a more complex one might predict that the human will act optimally, disregarding the robot; whereas an even more complex one might capture the robot's ability to influence the human. These models make different trade-offs between computational time and performance of the resulting robot plan. Using only one model of the human either wastes computational resources or is unable to handle critical situations. In this work, we give the robot access to a suite of human models and enable it to assess the performance-computat ion trade-off online. By estimating how an alternate model could improve human prediction and how that may translate to performance gain, the robot can dynamically switch human models whenever the additional computation is justified. Our experiments in a driving simulator showcase how the robot can achieve performance comparable to always using the best human model, but with greatly reduced computation.
翻訳日:2021-03-16 13:59:13 公開日:2021-03-13
# オートレグレッシブトランスを用いた音楽セマンティック類似度の埋め込みキャリブレーション

Embedding Calibration for Music Semantic Similarity using Auto-regressive Transformer ( http://arxiv.org/abs/2103.07656v1 )

ライセンス: Link先を確認
Xinran Zhang, Maosong Sun, Jiafeng Liu and Xiaobing Li(参考訳) 音楽に自然言語処理(NLP)技術を使用する利点の1つは、意味的類似性のような古典的なタスクを容易に扱える埋め込みベースの表現学習パラダイムを十分に活用することである。 しかし,近年の研究では,NLPにおける意味的類似性に対する共通ベースライン手法の性能上の問題点が指摘されている。 これらの結果から, 簡易組込み校正法によっては, 追加の訓練を必要とせず, 意味的類似性の向上が容易であることがわかった。 それにもかかわらず、キャリブレーション方法の最良の組み合わせはどれか、そしてそのような方法でパフォーマンスをさらに改善できるかどうかはまだ不明です。 最も重要なのは、以前の作品は自動エンコーダトランスフォーマーに基づいているため、音楽の自動回帰モデルによるパフォーマンスは不明です。 埋め込みベースのセマンティクス類似性は自己回帰型音楽モデルにも当てはまるか、セマンティクス類似性に関するベースラインの問題が貧弱であるか、もしそうであれば、音楽セマンティクス類似性のパフォーマンスを促進するための未検討の埋め込みキャリブレーション方法があるか? 本稿では,シンボリック音楽における自動回帰型言語モデルにおける埋め込みキャリブレーションの異なる組み合わせについて検討する。 その結果,音楽の意味的類似性は自己回帰モデルの下で機能し,NLPのような低ベースライン問題にも苦しむことが示された。 さらに,これまでの研究で検討されていない埋込校正の最適組み合わせを提案する。 その結果、埋め込みキャリブレーションの組み合わせは、さらなるトレーニングタスクなしで音楽意味の類似性を大幅に改善することができます。

One of the advantages of using natural language processing (NLP) technology for music is to fully exploit the embedding based representation learning paradigm that can easily handle classical tasks such as semantic similarity. However, recent researches have revealed the poor performance issue of common baseline methods for semantic similarity in NLP. They show that some simple embedding calibration methods can easily promote the performance of semantic similarity without extra training hence is ready-to-use. Nevertheless, it is still unclear which is the best combination of calibration methods and by how much can we further improve the performance with such methods. Most importantly, previous works are based on auto-encoder Transformer, hence the performance under auto-regressive model for music is unclear. These render the following open questions: does embedding based semantic similarity also apply for auto-regressive music model, does poor baseline issue for semantic similarity also exists, and if so, are there unexplored embedding calibration methods to better promote the performance of music semantic similarity? In this paper, we answer these questions by exploring different combination of embedding calibration under auto-regressive language model for symbolic music. Our results show that music semantic similarity works under auto-regressive model, and also suffers from poor baseline issues like in NLP. Furthermore, we provide optimal combination of embedding calibration that has not been explored in previous researches. Results show that such combination of embedding calibration can greatly improve music semantic similarity without further training tasks.
翻訳日:2021-03-16 13:57:31 公開日:2021-03-13
# Attentive Selection Generative Adversarial Networks を用いたきめ細かいMRI画像再構成

Fine-grained MRI Reconstruction using Attentive Selection Generative Adversarial Networks ( http://arxiv.org/abs/2103.07672v1 )

ライセンス: Link先を確認
Jingshuai Liu, Mehrdad Yaghoobi(参考訳) 圧縮センシング(CS)は、高速磁気共鳴イメージング(fastMRI)の基礎を提供する前に、間隔を活用します。 しかし、不適切な問題に対する反復ソルバは、時間クリティカルなアプリケーションへの適応を妨げる。 さらに、そのような前者は複雑な解剖学的構造を捉えたり、現代MRIにおける高忠実度再構成の需要を満たすには適さない。 画像生成における最先端の手法にインスパイアされ、新しい注意に基づく深層学習フレームワークを提案し、高品質のMRI再構築を提供します。 我々は,gan(generative adversarial network)フレームワークに大規模文脈的特徴統合と注意選択を組み込んだ。 提案モデルは,画像品質の点で他の深層学習法と比較して優れた結果が得られること,および極めて低いサンプリング率食におけるmri再構成との関連性を示す。

Compressed sensing (CS) leverages the sparsity prior to provide the foundation for fast magnetic resonance imaging (fastMRI). However, iterative solvers for ill-posed problems hinder their adaption to time-critical applications. Moreover, such a prior can be neither rich to capture complicated anatomical structures nor applicable to meet the demand of high-fidelity reconstructions in modern MRI. Inspired by the state-of-the-art methods in image generation, we propose a novel attention-based deep learning framework to provide high-quality MRI reconstruction. We incorporate large-field contextual feature integration and attention selection in a generative adversarial network (GAN) framework. We demonstrate that the proposed model can produce superior results compared to other deep learning-based methods in terms of image quality, and relevance to the MRI reconstruction in an extremely low sampling rate diet.
翻訳日:2021-03-16 13:55:46 公開日:2021-03-13
# VMAFと変数:統一VQAに向けて

VMAF And Variants: Towards A Unified VQA ( http://arxiv.org/abs/2103.07770v1 )

ライセンス: Link先を確認
Pankaj Topiwala, Wei Dai, Jiangfeng Pian(参考訳) ビデオ品質アセスメント (VQA) は急速に成長し, フルレファレンス (FR) 症例では成熟し始めたが, ハイレファレンス (NR) 症例はいまだに困難である。 FRの場合,サポートベクトル回帰とフィードフォワードニューラルネットワークを用いて,一般的なVMAFビデオ品質評価アルゴリズムの変種を調査し,同じ学習アーキテクチャを用いてNRケースに拡張し,VQAのための部分的に統一されたフレームワークを開発する。 高度にトレーニングされた場合、VMAFのようなアルゴリズムは90%以上のマッチでテストデータセット上でうまく動作します。 FRでは、ゼロからでも90%以上のパフォーマンスを実現し、VMAFを上回ります。 そして、最近のNRアルゴリズムであるVIDEVAL、RAPIQUEに比べて複雑さを大幅に減らし、SRCCの80%を超えています。 予備テストでは、トレーサビリティの改善と計算の複雑さの制約が極めて有望であり、さらなる研究と分析を示唆しています。

Video quality assessment (VQA) is now a fastgrowing subject, beginning to mature in the full reference (FR) case, while the burgeoning no reference (NR) case remains challenging. We investigate variants of the popular VMAF video quality assessment algorithm for the FR case, using support vector regression and feedforward neural networks, and extend it to the NR case, using the same learning architectures, to develop a partially unified framework for VQA. When heavily trained, algorithms such as VMAF perform well on test datasets, with 90%+ match; but predicting performance in the wild is better done by training/testing from scratch, as we do. Even from scratch, we achieve 90%+ performance in FR, with gains over VMAF. And we greatly reduce complexity vs. leading recent NR algorithms, VIDEVAL, RAPIQUE, yet exceed 80% in SRCC. In our preliminary testing, we find the improvements in trainability, while also constraining computational complexity, as quite encouraging, suggesting further study and analysis.
翻訳日:2021-03-16 13:55:32 公開日:2021-03-13
# データ駆動型と主観駆動型を融合した加速度MRIのための数ショット学習手法

A Few-Shot Learning Approach for Accelerated MRI via Fusion of Data-Driven and Subject-Driven Priors ( http://arxiv.org/abs/2103.07790v1 )

ライセンス: Link先を確認
Salman Ul Hassan Dar, Mahmut Yurt, Tolga \c{C}ukur(参考訳) deep neural networks (dnns) は最近、mriの高速化に新しく使われている。 DNNは通常、アンダーサンプルとフルサンプルの取得からなる大規模なデータセットからデータ駆動の事前学習を行う。 しかし、そのような大規模なデータセットを取得することは現実的ではない。 この制限を緩和するために、いくつかのトレーニングサンプルから得られた物理信号モデルとデータ駆動先行データとを融合した、加速MRIのための数ショットの学習手法を提案する。 NYU fastMRIデータセットからの脳MR画像のデモは、提案手法が従来の並列画像とDNNアルゴリズムを上回り、少数のサンプルを必要とすることを示している。

Deep neural networks (DNNs) have recently found emerging use in accelerated MRI reconstruction. DNNs typically learn data-driven priors from large datasets constituting pairs of undersampled and fully-sampled acquisitions. Acquiring such large datasets, however, might be impractical. To mitigate this limitation, we propose a few-shot learning approach for accelerated MRI that merges subject-driven priors obtained via physical signal models with data-driven priors obtained from a few training samples. Demonstrations on brain MR images from the NYU fastMRI dataset indicate that the proposed approach requires just a few samples to outperform traditional parallel imaging and DNN algorithms.
翻訳日:2021-03-16 13:55:14 公開日:2021-03-13
# 防衛としての攻撃:ロバスト性を用いた敵対的例の特定

Attack as Defense: Characterizing Adversarial Examples using Robustness ( http://arxiv.org/abs/2103.07633v1 )

ライセンス: Link先を確認
Zhe Zhao, Guangke Chen, Jingyi Wang, Yiwei Yang, Fu Song, Jun Sun(参考訳) 新しいプログラミングパラダイムとして、ディープラーニングは多くの現実世界の問題に応用を広げた。 同時に、ディープラーニングベースのソフトウェアは、敵の攻撃に対して脆弱であることが分かる。 ディープラーニングソフトウェアの堅牢性を改善するために様々な防御メカニズムが提案されているが、その多くは適応攻撃に対して効果的ではない。 本研究では,敵対例が敵対例よりも著しく堅牢でないという観測に基づいて,敵対例と良性例を区別する新しい特徴付けを提案する。 既存のロバスト性測定が大規模ネットワークにスケールしないため,本研究では,サンプルのロバスト性を効果的に評価することにより,敵対的事例を検出するための新しい防御フレームワークであるattack as defense (a2d)を提案する。 a2dは入力を攻撃してロバスト性を評価するコストを使い、ロバスト性の低い例の方が攻撃しやすいため、これらのロバスト性の低い例を敵視する。 MNIST、CIFAR10、ImageNetの広範な実験結果は、A2Dが最近の有望なアプローチよりも効果的であることを示しています。 また、潜在的なアダプティブ攻撃に対する防御を評価し、A2Dが慎重に設計されたアダプティブ攻撃、例えばCIFAR10の攻撃成功率は0%に低下する。

As a new programming paradigm, deep learning has expanded its application to many real-world problems. At the same time, deep learning based software are found to be vulnerable to adversarial attacks. Though various defense mechanisms have been proposed to improve robustness of deep learning software, many of them are ineffective against adaptive attacks. In this work, we propose a novel characterization to distinguish adversarial examples from benign ones based on the observation that adversarial examples are significantly less robust than benign ones. As existing robustness measurement does not scale to large networks, we propose a novel defense framework, named attack as defense (A2D), to detect adversarial examples by effectively evaluating an example's robustness. A2D uses the cost of attacking an input for robustness evaluation and identifies those less robust examples as adversarial since less robust examples are easier to attack. Extensive experiment results on MNIST, CIFAR10 and ImageNet show that A2D is more effective than recent promising approaches. We also evaluate our defence against potential adaptive attacks and show that A2D is effective in defending carefully designed adaptive attacks, e.g., the attack success rate drops to 0% on CIFAR10.
翻訳日:2021-03-16 13:52:05 公開日:2021-03-13
# Slip-based autonomous zuPT through Gaussian process to improveing Planetary Rover Localization

Slip-Based Autonomous ZUPT through Gaussian Process to Improve Planetary Rover Localization ( http://arxiv.org/abs/2103.07587v1 )

ライセンス: Link先を確認
Cagri Kilic, Nicholas Ohi, Yu Gu, Jason N. Gross(参考訳) ゼロ速度更新(ZUPT)アルゴリズムは、静止条件を満たす場合、慣性ナビゲーションシステム(INS)の信頼性を維持するために貴重な状態情報を提供する。 zuptと非ホロノミック制約を活用することで、車輪付き移動ロボットによる位置推定精度の大幅な向上が期待できる。 しかし、どのくらいの頻度で採用すべきかを決定するには、惑星ローバーのローカライズ精度とトラバーサルレートのバランスを考慮する必要がある。 これに対処するため、ZUPTによるホイール慣性ドオメトリー(WIO)のローカリゼーション性能を改善するため、停止を自律的に開始するタイミングを調査します。 そこで本研究では,ローバーの動作中に車輪のすべりを予測し,ローバーのハードウェアや主要ローバー操作を変更することなく停止時間を予測する3次元デッドレコンディング手法を提案する。 私たちのアプローチが異なる地形タイプで実行可能であることをフィールドテストで検証し、荒れた地形上の650 mドライブよりも97%以上の3Dローカリゼーション精度を実現します。

The zero-velocity update (ZUPT) algorithm provides valuable state information to maintain the inertial navigation system (INS) reliability when stationary conditions are satisfied. Employing ZUPT along with leveraging non-holonomic constraints can greatly benefit wheeled mobile robot dead-reckoning localization accuracy. However, determining how often they should be employed requires consideration to balance localization accuracy and traversal rate for planetary rovers. To address this, we investigate when to autonomously initiate stops to improve wheel-inertial odometry (WIO) localization performance with ZUPT. To do this, we propose a 3D dead-reckoning approach that predicts wheel slippage while the rover is in motion and forecasts the appropriate time to stop without changing any rover hardware or major rover operations. We validate with field tests that our approach is viable on different terrain types and achieves a 3D localization accuracy of more than 97% over 650 m drives on rough terrain.
翻訳日:2021-03-16 13:49:57 公開日:2021-03-13
# 敵攻撃に対する防衛変圧器の学習

Learning Defense Transformers for Counterattacking Adversarial Examples ( http://arxiv.org/abs/2103.07595v1 )

ライセンス: Link先を確認
Jincheng Li, Jiezhang Cao, Yifan Zhang, Jian Chen, Mingkui Tan(参考訳) ディープニューラルネットワーク(DNN)は、小さな摂動を伴う逆例に対して脆弱である。 したがって、敵防衛は、敵の例に対抗してDNNの堅牢性を向上する重要な手段である。 既存の防御メソッドは、特定のタイプの敵の例に焦点を当てており、現実世界のアプリケーションでは防御に失敗する可能性がある。 実際、現実世界のアプリケーションにおける正確なタイプの敵の例が不明な多くのタイプの攻撃に直面する可能性がある。 本論文では, 対人事例が分類境界付近に出現する可能性が高いことを動機として, 対人事例を元のクリーン分布に戻すことで, 対人例を防御できるか否かを新たな視点から検討する。 反逆例を復元する防衛アフィン変換の存在を理論的および実証的に検証する。 そこで我々は,アフィン変換をパラメータ化し,DNNの境界情報を活用することで,敵の例に対抗できるディフェンストランスフォーマーを学習する。 おもちゃと実世界のデータセットに関する広範な実験は、防衛変圧器の有効性と一般化を示しています。

Deep neural networks (DNNs) are vulnerable to adversarial examples with small perturbations. Adversarial defense thus has been an important means which improves the robustness of DNNs by defending against adversarial examples. Existing defense methods focus on some specific types of adversarial examples and may fail to defend well in real-world applications. In practice, we may face many types of attacks where the exact type of adversarial examples in real-world applications can be even unknown. In this paper, motivated by that adversarial examples are more likely to appear near the classification boundary, we study adversarial examples from a new perspective that whether we can defend against adversarial examples by pulling them back to the original clean distribution. We theoretically and empirically verify the existence of defense affine transformations that restore adversarial examples. Relying on this, we learn a defense transformer to counterattack the adversarial examples by parameterizing the affine transformations and exploiting the boundary information of DNNs. Extensive experiments on both toy and real-world datasets demonstrate the effectiveness and generalization of our defense transformer.
翻訳日:2021-03-16 13:49:36 公開日:2021-03-13
# 敵対攻撃と防衛のための内部Wasserstein距離

Internal Wasserstein Distance for Adversarial Attack and Defense ( http://arxiv.org/abs/2103.07598v1 )

ライセンス: Link先を確認
Jincheng Li, Jiezhang Cao, Shuhai Zhang, Yanwu Xu, Jian Chen, Mingkui Tan(参考訳) ディープニューラルネットワーク(DNNs)は、DNNの誤分類を引き起こす可能性があるが、人間の知覚には受け入れられない可能性がある逆の例に対して脆弱である。 敵攻撃はDNNの堅牢性を評価する重要な方法である。 攻撃例の構築における既存の攻撃方法は、摂動サンプルとの類似度指標として$\ell_p$ 距離を用いる。 しかし、この種の計量は、基礎となる現実世界の画像形成や人間の視覚知覚と相容れない。 本稿では,まず,サンプルとその逆例としての画像類似性を測定する内部wasserstein距離(iwd)を提案する。 我々はiwdを攻撃と防御に応用する。 具体的には,原試料中のパッチの分布を捉えた新しい攻撃手法を開発した。 この場合,本手法は,既存の防御手法により防御が困難である,意味的に類似するが多様な敵の例を生成することができる。 iwdに依拠して、我々はまた、目に見えない敵の例から防御するための堅牢なモデルを学ぶための新しい防御方法を構築します。 理論的および実証的な証拠を徹底して提供し、方法をサポートします。

Deep neural networks (DNNs) are vulnerable to adversarial examples that can trigger misclassification of DNNs but may be imperceptible to human perception. Adversarial attack has been an important way to evaluate the robustness of DNNs. Existing attack methods on the construction of adversarial examples use such $\ell_p$ distance as a similarity metric to perturb samples. However, this kind of metric is incompatible with the underlying real-world image formation and human visual perception. In this paper, we first propose an internal Wasserstein distance (IWD) to measure image similarity between a sample and its adversarial example. We apply IWD to perform adversarial attack and defense. Specifically, we develop a novel attack method by capturing the distribution of patches in original samples. In this case, our approach is able to generate semantically similar but diverse adversarial examples that are more difficult to defend by existing defense methods. Relying on IWD, we also build a new defense method that seeks to learn robust models to defend against unseen adversarial examples. We provide both thorough theoretical and empirical evidence to support our methods.
翻訳日:2021-03-16 13:49:19 公開日:2021-03-13
# Poisson Multi-Bernoulli Mixture Filtering を用いた多対象追跡

Multi-Object Tracking using Poisson Multi-Bernoulli Mixture Filtering for Autonomous Vehicles ( http://arxiv.org/abs/2103.07783v1 )

ライセンス: Link先を確認
Su Pang and Hayder Radha(参考訳) 自動運転車が3Dトラッキングを行う能力は、散らかった環境における安全な計画とナビゲーションに不可欠である。 自動運転アプリケーションにおけるマルチオブジェクトトラッキング(MOT)の主な課題は、オブジェクトの数、オブジェクトの出現および消失の時期および場所、およびオブジェクトの状態に関する不確実性に関する固有の不確実性にあります。 ランダム有限集合(RFS)に基づくアプローチは、これらの不確実性を正確かつエレガントにモデル化することができる。 本研究では、3D LiDARデータのためのRFSベースのMOTフレームワークを開発した。 本稿では,自動走行アプリケーションにおけるアモーダルMOT問題を解決するため,Poisson Multi-Bernoulli Mixing (PMBM)フィルタを提案する。 私たちの知る限りでは、これは業界リーダーが利用できる挑戦的なデータセットを使用して包括的な検証とMOTアプリケーションの3D LiDARデータと一緒にRFSベースのアプローチを採用するための最初の試みです。 公開WaymoおよびArgoverseデータセット上でのPMBMトラッカーの優れた実験結果から、RFSベースのトラッカーは最先端のディープラーニングベースおよびカルマンフィルタベースの多くの手法より優れており、これらの結果は、RFSベースの3DMOTアプリケーションのためのフレームワークをさらに探究する大きな可能性を示唆している。

The ability of an autonomous vehicle to perform 3D tracking is essential for safe planing and navigation in cluttered environments. The main challenges for multi-object tracking (MOT) in autonomous driving applications reside in the inherent uncertainties regarding the number of objects, when and where the objects may appear and disappear, and uncertainties regarding objects' states. Random finite set (RFS) based approaches can naturally model these uncertainties accurately and elegantly, and they have been widely used in radar-based tracking applications. In this work, we developed an RFS-based MOT framework for 3D LiDAR data. In partiuclar, we propose a Poisson multi-Bernoulli mixture (PMBM) filter to solve the amodal MOT problem for autonomous driving applications. To the best of our knowledge, this represents a first attempt for employing an RFS-based approach in conjunction with 3D LiDAR data for MOT applications with comprehensive validation using challenging datasets made available by industry leaders. The superior experimental results of our PMBM tracker on public Waymo and Argoverse datasets clearly illustrate that an RFS-based tracker outperforms many state-of-the-art deep learning-based and Kalman filter-based methods, and consequently, these results indicate a great potential for further exploration of RFS-based frameworks for 3D MOT applications.
翻訳日:2021-03-16 13:46:42 公開日:2021-03-13
# RL-Controller: アクティブ構造制御のための強化学習フレームワーク

RL-Controller: a reinforcement learning framework for active structural control ( http://arxiv.org/abs/2103.07616v1 )

ライセンス: Link先を確認
Soheila Sadeghi Eshkevari, Soheil Sadeghi Eshkevari, Debarshi Sen, Shamim N. Pakzad(参考訳) 構造物の設計ライフサイクルにおける構造的整合性と機能を維持するため、技術者は自然災害や運用負荷レベルに対応することが期待されている。 アクティブ制御システムは、構造が予期せぬ極端な負荷を受けるとき、構造応答制御の効率的なソリューションである。 しかし、従来の手法によるこれらのシステムの開発は、モデル依存の性質によって制限される。 近年の適応学習手法,特に強化学習(RL)の進歩は,リアルタイムな意思決定問題や,高速な計算資源の急速な成長とともに,古典的なモデルに基づくアクティブコントロール問題を純粋にデータ駆動型に変換する上で有効である。 本稿では, フレキシブルでスケーラブルなシミュレーション環境であるRL-Controllerを導入することで, アクティブコントローラを設計するための新しいRLベースのアプローチを提案する。 rlコントローラには、アクティブな構造制御機構を詳細にモデル化するために定義された属性と機能が含まれている。 提案されたフレームワークは,強震動を受けると,ISD(Inter Story drifts)の平均65%削減した5階建てベンチマークビルのトレーニングが容易であることを示した。 lqg能動制御法との比較研究において,提案するモデルフリーアルゴリズムは,システムの機械的特性に関する事前情報を用いずに,lqgに対して平均で25%以上のisd低減を行うような,より最適なアクチュエータ強制戦略を学習できることを実証する。

To maintain structural integrity and functionality during the designed life cycle of a structure, engineers are expected to accommodate for natural hazards as well as operational load levels. Active control systems are an efficient solution for structural response control when a structure is subjected to unexpected extreme loads. However, development of these systems through traditional means is limited by their model dependent nature. Recent advancements in adaptive learning methods, in particular, reinforcement learning (RL), for real-time decision making problems, along with rapid growth in high-performance computational resources, help structural engineers to transform the classic model-based active control problem to a purely data-driven one. In this paper, we present a novel RL-based approach for designing active controllers by introducing RL-Controller, a flexible and scalable simulation environment. The RL-Controller includes attributes and functionalities that are defined to model active structural control mechanisms in detail. We show that the proposed framework is easily trainable for a five story benchmark building with 65% reductions on average in inter story drifts (ISD) when subjected to strong ground motions. In a comparative study with LQG active control method, we demonstrate that the proposed model-free algorithm learns more optimal actuator forcing strategies that yield higher performance, e.g., 25% more ISD reductions on average with respect to LQG, without using prior information about the mechanical properties of the system.
翻訳日:2021-03-16 13:45:51 公開日:2021-03-13
# Simeon - 反復フィルタリングによるセキュアなフェデレーション機械学習

Simeon -- Secure Federated Machine Learning Through Iterative Filtering ( http://arxiv.org/abs/2103.07704v1 )

ライセンス: Link先を確認
Nicholas Malecki and Hye-young Paik and Aleksandar Ignjatovic and Alan Blair and Elisa Bertino(参考訳) フェデレーションラーニングは、トレーニングデータとそのハードウェアのプライバシーを維持したいと願う分散的で信頼できない学習エージェントによって、グローバルな機械学習モデルを共同でトレーニングすることを可能にします。 グローバルモデルは、トレーニングを行うクライアントに配布され、新しく訓練されたモデルを優れたモデルに集約します。 しかし、連合学習システムは、結果として生じるグローバルモデルにおいて、トレーニングを防ぎ、ターゲットとする誤分類を誘発したい悪質な学習エージェントからの干渉に対して脆弱である。 ビザンチン耐性のあるアグリゲーションアルゴリズムのクラスが登場し、これらの攻撃に対して様々な程度の堅牢性を提供し、しばしば攻撃者の数は訓練前に知られている量に制限されている。 本稿では,任意の行動を示すアタッカーの存在下でもロバスト性を達成するために,評価に基づく反復フィルタリング手法を適用した新しいアグリゲーション手法であるSimeonを提案する。 Simeonを最先端のアグリゲーション技術と比較し、Simeonがさまざまな攻撃に匹敵する、または優れた堅牢性を達成することを見つけます。 特に、Simeonは他のアルゴリズムではないシビル攻撃に対して寛容であり、私たちのアプローチの重要な利点を示しています。

Federated learning enables a global machine learning model to be trained collaboratively by distributed, mutually non-trusting learning agents who desire to maintain the privacy of their training data and their hardware. A global model is distributed to clients, who perform training, and submit their newly-trained model to be aggregated into a superior model. However, federated learning systems are vulnerable to interference from malicious learning agents who may desire to prevent training or induce targeted misclassification in the resulting global model. A class of Byzantine-tolerant aggregation algorithms has emerged, offering varying degrees of robustness against these attacks, often with the caveat that the number of attackers is bounded by some quantity known prior to training. This paper presents Simeon: a novel approach to aggregation that applies a reputation-based iterative filtering technique to achieve robustness even in the presence of attackers who can exhibit arbitrary behaviour. We compare Simeon to state-of-the-art aggregation techniques and find that Simeon achieves comparable or superior robustness to a variety of attacks. Notably, we show that Simeon is tolerant to sybil attacks, where other algorithms are not, presenting a key advantage of our approach.
翻訳日:2021-03-16 13:45:27 公開日:2021-03-13
# wenlan: 大規模マルチモーダル事前学習によるビジョンと言語橋渡し

WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training ( http://arxiv.org/abs/2103.06561v2 )

ライセンス: Link先を確認
Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, and Ji-Rong Wen(参考訳) マルチモーダル事前学習モデルは近年,視覚と言語を橋渡しする試みが盛んに行われている。 しかし、それらのほとんどは、テキストと画像のモダリティの間に強い意味的相関が存在すると仮定して、画像とテキストのペア間の相互モーダル相互作用を明示的にモデル化する。 この強い仮定は実世界のシナリオでは無効であることが多いため、我々のチームが主導する中国のプロジェクト「WenLan」の焦点である大規模マルチモーダル事前学習の相互モーダル相関を暗黙的にモデル化することを選択します。 具体的には,画像テキスト対に対する弱い相関仮定を用いて,交叉型コントラスト学習フレームワークにおいて,brivlと呼ばれる2層事前学習モデルを提案する。 単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。 大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。 さらに,我々の BriVL モデルを事前学習するための RUC-CAS-WenLan という,中国の大規模マルチソース画像テキストデータセットを構築した。 広範な実験は、事前に訓練されたBriVLモデルが様々な下流タスクでUNITERとOpenAI CLIPの両方を上回っていることを示しています。

Multi-modal pre-training models have been intensively explored to bridge vision and language in recent years. However, most of them explicitly model the cross-modal interaction between image-text pairs, by assuming that there exists strong semantic correlation between the text and image modalities. Since this strong assumption is often invalid in real-world scenarios, we choose to implicitly model the cross-modal correlation for large-scale multi-modal pre-training, which is the focus of the Chinese project `WenLan' led by our team. Specifically, with the weak correlation assumption over image-text pairs, we propose a two-tower pre-training model called BriVL within the cross-modal contrastive learning framework. Unlike OpenAI CLIP that adopts a simple contrastive learning method, we devise a more advanced algorithm by adapting the latest method MoCo into the cross-modal scenario. By building a large queue-based dictionary, our BriVL can incorporate more negative samples in limited GPU resources. We further construct a large Chinese multi-source image-text dataset called RUC-CAS-WenLan for pre-training our BriVL model. Extensive experiments demonstrate that the pre-trained BriVL model outperforms both UNITER and OpenAI CLIP on various downstream tasks.
翻訳日:2021-03-16 11:54:59 公開日:2021-03-13