このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201213となっている論文です。

PDF登録状況(公開日: 20201213)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 非開示型近最適モデル識別

Near-Optimal Model Discrimination with Non-Disclosure ( http://arxiv.org/abs/2012.02901v2 )

ライセンス: CC BY 4.0
Dmitrii M. Ostrovskii, Mohamed Ndaoud, Adel Javanmard, Meisam Razaviyayn(参考訳) $\theta_0,\theta_1 \in \mathbb{R}^d$ を、ある損失に付随する集団リスク最小値 $\ell: \mathbb{R}^d \times \mathcal{Z} \to \mathbb{R}$ と、2つの分布 $\mathbb{P}_0,\mathbb{P}_1$ とする。 i.i.d.を与えられたとき、次の疑問が浮かび上がる。 $\theta^* = \theta_0$ と $\theta_* = \theta_1$ の2つの仮説を区別するのに必要なサンプルサイズは、$\theta^* \in \{\theta_0, \theta_1\}$ と $\theta_* = \theta_1$ の2つである。 この問いに完全一般性で答える最初のステップとして、まずは二乗損失のある定式化された線形モデルの場合を考える。 ここでは、サンプル複雑性の上限値と下限値に一致し、$\min\{1/\Delta^2, \sqrt{r}/\Delta\}$を定数係数まで示し、$\Delta$ は $\mathbb{P}_0$ と $\mathbb{P}_1$ の分離の尺度であり、$r$ は設計共分散行列のランクである。 この境界は次元独立であり、大きな分離のために階数独立である。 次に、この結果を2つの方向に拡張する: (i) 漸近レジームにおける一般パラメトリックな設定; (ii) 小さいサンプルレジームの一般化線型モデルに対して $n \le r$ と弱いモーメント仮定の下で。 どちらの場合も、同じ形式のサンプル複雑性境界を、たとえ誤った特定の下でも導出する。 テスト手順は経験的リスクの特定の機能を通じて$\theta^*$にしかアクセスできません。 さらに、我々のテストで統計的信頼性に達することができる観測回数は、2つのモデルの「解決」を許さない。つまり、$\theta_0,\theta_1$から$O(\Delta)$予測精度を回復する。 これら2つの特性により、プロプライエタリな予測モデルである \textit{identify} を希望する応用タスクで、モデルが実際に識別エージェントによって \textit{inferred} にならないことを保証します。

Let $\theta_0,\theta_1 \in \mathbb{R}^d$ be the population risk minimizers associated to some loss $\ell: \mathbb{R}^d \times \mathcal{Z} \to \mathbb{R}$ and two distributions $\mathbb{P}_0,\mathbb{P}_1$ on $\mathcal{Z}$. We pose the following question: Given i.i.d. samples from $\mathbb{P}_0$ and $\mathbb{P}_1$, what sample sizes are sufficient and necessary to distinguish between the two hypotheses $\theta^* = \theta_0$ and $\theta^* = \theta_1$ for given $\theta^* \in \{\theta_0, \theta_1\}$? Making the first steps towards answering this question in full generality, we first consider the case of a well-specified linear model with squared loss. Here we provide matching upper and lower bounds on the sample complexity, showing it to be $\min\{1/\Delta^2, \sqrt{r}/\Delta\}$ up to a constant factor, where $\Delta$ is a measure of separation between $\mathbb{P}_0$ and $\mathbb{P}_1$, and $r$ is the rank of the design covariance matrix. This bound is dimension-independen t, and rank-independent for large enough separation. We then extend this result in two directions: (i) for the general parametric setup in asymptotic regime; (ii) for generalized linear models in the small-sample regime $n \le r$ and under weak moment assumptions. In both cases, we derive sample complexity bounds of a similar form, even under misspecification. Our testing procedures only access $\theta^*$ through a certain functional of empirical risk. In addition, the number of observations that allows to reach statistical confidence in our tests does not allow to "resolve" the two models -- that is, recover $\theta_0,\theta_1$ up to $O(\Delta)$ prediction accuracy. These two properties allow to apply our framework in applied tasks where one would like to \textit{identify} a prediction model, which can be proprietary, while guaranteeing that the model cannot be actually \textit{inferred} by the identifying agent.
翻訳日:2021-05-22 21:41:12 公開日:2020-12-13
# (参考訳) CoShaRP:シングルショットトモグラフィー形状センシングのための凸プログラム [全文訳有]

CoShaRP: A Convex Program for Single-shot Tomographic Shape Sensing ( http://arxiv.org/abs/2012.04551v2 )

ライセンス: CC BY 4.0
Ajinkya Kadu, Tristan van Leeuwen, and K. Joost Batenburg(参考訳) 単発X線トモグラフィーを導入し、単一のコーンビーム投影計測から対象画像を推定する。 この線形逆問題は、測定値が未知数よりはるかに少ないため、非常に不確定である。 さらに、十分な数の投影角が測定値を形成する従来のトモグラフィーよりも困難であり、簡単な反転プロセスが可能となる。 しかし、対象画像が既知の形状のみで構成されている場合、単発トモグラフィーは厳しさが低下する。 したがって、形状事前は、その形状のロト変換を推定する非線形問題に線形不測画像推定問題を変換する。 本稿では, 形状のロート変換可能な辞書を用いて, 非線形性を回避する。 辞書係数を回復するための凸プログラムCoShaRPを提案する。 CoShaRPは単純なx型制約に依存しており、原始双対アルゴリズムを用いて迅速に解ける。 数値実験により,CoShaRPは中程度の雑音測定から安定に形状を復元することが示された。

We introduce single-shot X-ray tomography that aims to estimate the target image from a single cone-beam projection measurement. This linear inverse problem is extremely under-determined since the measurements are far fewer than the number of unknowns. Moreover, it is more challenging than conventional tomography where a sufficiently large number of projection angles forms the measurements, allowing for a simple inversion process. However, single-shot tomography becomes less severe if the target image is only composed of known shapes. Hence, the shape prior transforms a linear ill-posed image estimation problem to a non-linear problem of estimating the roto-translations of the shapes. In this paper, we circumvent the non-linearity by using a dictionary of possible roto-translations of the shapes. We propose a convex program CoShaRP to recover the dictionary-coefficie nts successfully. CoShaRP relies on simplex-type constraint and can be solved quickly using a primal-dual algorithm. The numerical experiments show that CoShaRP recovers shapes stably from moderately noisy measurements.
翻訳日:2021-05-17 03:13:27 公開日:2020-12-13
# CrossNER: クロスドメイン名前付きエンティティ認識の評価

CrossNER: Evaluating Cross-Domain Named Entity Recognition ( http://arxiv.org/abs/2012.04373v2 )

ライセンス: Link先を確認
Zihan Liu, Yan Xu, Tiezheng Yu, Wenliang Dai, Ziwei Ji, Samuel Cahyawijaya, Andrea Madotto, Pascale Fung(参考訳) クロスドメイン名前付きエンティティ認識(ner)モデルは、ターゲットドメインにおけるnerサンプルの不足問題に対処することができる。 しかし、既存のNERベンチマークのほとんどはドメイン特化エンティティタイプを欠いているか、特定のドメインに集中していないため、より効果的なクロスドメイン評価に繋がる。 これらの障害に対処するために、クロスドメインnerデータセット(crossner)を紹介します。これは、さまざまなドメインに特別なエンティティカテゴリを持つ、5つの多様なドメインにまたがるnerデータの完全なラベル付きコレクションです。 また,言語モデル(ドメイン適応型事前学習)の継続に使用することがドメイン適応に有効であるため,ドメイン関連コーパスも提供する。 次に、ドメイン・コーパスの異なるレベルを活用するための総合的な実験を行い、ドメイン・アダプティブ・プレトレーニングを行うための事前学習戦略について検討する。 その結果, ドメイン特化エンティティを含む分数コーパスに着目し, ドメイン適応型事前学習においてより困難な事前学習戦略を活用することは, NERドメイン適応にとって有益であることが示唆された。 それでも、このクロスドメインNERタスクの課題を示す実験もある。 データセットとベースラインがNERドメイン適応領域の研究を触媒することを期待しています。 コードとデータはhttps://github.com/z liucr/crossnerで入手できる。

Cross-domain named entity recognition (NER) models are able to cope with the scarcity issue of NER samples in target domains. However, most of the existing NER benchmarks lack domain-specialized entity types or do not focus on a certain domain, leading to a less effective cross-domain evaluation. To address these obstacles, we introduce a cross-domain NER dataset (CrossNER), a fully-labeled collection of NER data spanning over five diverse domains with specialized entity categories for different domains. Additionally, we also provide a domain-related corpus since using it to continue pre-training language models (domain-adaptive pre-training) is effective for the domain adaptation. We then conduct comprehensive experiments to explore the effectiveness of leveraging different levels of the domain corpus and pre-training strategies to do domain-adaptive pre-training for the cross-domain task. Results show that focusing on the fractional corpus containing domain-specialized entities and utilizing a more challenging pre-training strategy in domain-adaptive pre-training are beneficial for the NER domain adaptation, and our proposed method can consistently outperform existing cross-domain NER baselines. Nevertheless, experiments also illustrate the challenge of this cross-domain NER task. We hope that our dataset and baselines will catalyze research in the NER domain adaptation area. The code and data are available at https://github.com/z liucr/CrossNER.
翻訳日:2021-05-16 21:53:23 公開日:2020-12-13
# Fact-Enhanced Synthetic News Generation

Fact-Enhanced Synthetic News Generation ( http://arxiv.org/abs/2012.04778v2 )

ライセンス: Link先を確認
Kai Shu, Yichuan Li, Kaize Ding, Huan Liu(参考訳) 高度なテキスト生成手法は、テキスト要約、言語翻訳、合成ニュース生成において大きな成功を収めている。 しかし、これらの技術は悪用され、偽情報や偽ニュースが生成される。 合成ニュースの潜在的な脅威をよりよく理解するために,高品質なニュースコンテンツを生成する新しい世代FactGenを開発した。 既存のテキスト生成方法は、限られた補足情報を得るか、合成ニュースの信頼性を損なう入力と出力の一貫性を失う。 これらの問題に対処するため、factgenは外部の事実を検索して出力を豊かにし、生成されたコンテンツから入力クレームを再構築し、入力と出力の一貫性を向上させる。 実世界のデータセットの実験結果は、FactGenの生成されたニュースコンテンツは一貫性があり、リッチな事実を含んでいることを示している。 また,ファクトゲンを合成ニュース生成に用いる場合,これらの合成ニュースを識別するための防御手法についても検討した。

The advanced text generation methods have witnessed great success in text summarization, language translation, and synthetic news generation. However, these techniques can be abused to generate disinformation and fake news. To better understand the potential threats of synthetic news, we develop a new generation method FactGen to generate high-quality news content. The existing text generation methods either afford limited supplementary information or lose consistency between the input and output which makes the synthetic news less trustworthy. To address these issues, FactGen retrieves external facts to enrich the output and reconstructs the input claim from the generated content to improve the consistency among the input and the output. Experiment results on real-world datasets show that the generated news contents of FactGen are consistent and contain rich facts. We also discuss the possible defending method to identify these synthetic news pieces if FactGen is used to generate synthetic news.
翻訳日:2021-05-16 21:28:18 公開日:2020-12-13
# すべての制約に対する制約満足度アルゴリズム効率の向上

Improving Constraint Satisfaction Algorithm Efficiency for the AllDifferent Constraint ( http://arxiv.org/abs/2012.03624v2 )

ライセンス: Link先を確認
Geoff Harris(参考訳) 制約満足度問題 (Constraint Satisfaction Problems, CSP) と呼ばれる組合せ問題について検討した。 例えば、元のCSP用に設計され、AllDifferent制約を含むアルゴリズムは、元のCSPと補完的な問題の両方に同時に適用した場合、少なくとも同じレベルの有効性を持つ。 CSPを補問題に変換するために使用される1-to-1マッピングも導入されている。 この「Dual CSP」法とその応用について概説する。 いくつかのランダムな問題事例の解析は、CSPに対する標準的なアプローチと比較して、変数領域還元に対するこの手法の利点を示している。 alldifferent以外の追加の制約への拡張、およびハイブリッドアルゴリズムの使用は、この双対 csp 法の候補として提案されている。

Combinatorial problems stated as Constraint Satisfaction Problems (CSP) are examined. It is shown by example that any algorithm designed for the original CSP, and involving the AllDifferent constraint, has at least the same level of efficacy when simultaneously applied to both the original and its complementary problem. The 1-to-1 mapping employed to transform a CSP to its complementary problem, which is also a CSP, is introduced. This "Dual CSP" method and its application are outlined. The analysis of several random problem instances demonstrate the benefits of this method for variable domain reduction compared to the standard approach to CSP. Extensions to additional constraints other than AllDifferent, as well as the use of hybrid algorithms, are proposed as candidates for this Dual CSP method.
翻訳日:2021-05-16 21:28:03 公開日:2020-12-13
# 有限手段の無限利用:合成創発プロトコルを用いたゼロショット一般化

Infinite use of finite means: Zero-Shot Generalization using Compositional Emergent Protocols ( http://arxiv.org/abs/2012.05011v2 )

ライセンス: Link先を確認
Rishi Hazra, Sonu Dixit, Sayambhu Sen(参考訳) 人間の言語は有限の手段を使って無限の思考を表現するシステムとして説明されてきた。 特に興味深いのは構成性の側面であり、複雑な複合言語表現の意味はその構成部分の意味から導出することができる。 人工エージェントが人間の言語に似た構成的コミュニケーションプロトコルを開発できれば、目に見えない組み合わせにシームレスに一般化することができる。 しかし、真の疑問は、創発的コミュニケーションにおいて構成性をどのように誘発するかである。 研究は、好奇心が子どもの言語発達に果たす役割を認識している。 明示的な報酬の量を減らすことで複雑なタスクをマスターするのと同じ本質的な衝動です。 本稿では,この内在的なフィードバックを,人工エージェントにおける体系的かつあいまいな原語誘導に活用する。 実験では、外部からのフィードバックがなければ、これらの報酬をトレーニングエージェントに活用して構成性を誘導する方法を示します。 さらに,2次元グリッド環境における接地言語習得のためのプラットフォームであるComm-gSCANを紹介する。 これを利用することで、エージェントが知覚されないオブジェクトと対話できるだけでなく、ゼロショットでひとつのタスクから別のタスクにスキルを移すことができる(エージェントは2回引く訓練を受け、2回引くことができるか?

Human language has been described as a system that makes use of finite means to express an unlimited array of thoughts. Of particular interest is the aspect of compositionality, whereby, the meaning of a complex, compound language expression can be deduced from the meaning of its constituent parts. If artificial agents can develop compositional communication protocols akin to human language, they can be made to seamlessly generalize to unseen combinations. However, the real question is, how do we induce compositionality in emergent communication? Studies have recognized the role of curiosity in enabling linguistic development in children. It is this same intrinsic urge that drives us to master complex tasks with decreasing amounts of explicit reward. In this paper, we seek to use this intrinsic feedback in inducing a systematic and unambiguous protolanguage in artificial agents. We show in our experiments, how these rewards can be leveraged in training agents to induce compositionality in absence of any external feedback. Additionally, we introduce Comm-gSCAN, a platform for investigating grounded language acquisition in 2D-grid environments. Using this, we demonstrate how compositionality can enable agents to not only interact with unseen objects, but also transfer skills from one task to other in zero-shot (Can an agent, trained to pull and push twice, pull twice?)
翻訳日:2021-05-16 02:16:18 公開日:2020-12-13
# フェイクニュース検出のためのイベント相関フィルタ法

An Event Correlation Filtering Method for Fake News Detection ( http://arxiv.org/abs/2012.05491v2 )

ライセンス: Link先を確認
Hao Li (1), Huan Wang (1) and Guanghua Liu (2) ((1) College of Informatics, Huazhong Agricultural University, (2) Department of Computer Science and Engineering, University at Buffalo, The State University of New York)(参考訳) 近年,ソーシャル・ネットワーク・プラットフォームは,情報を急速に広める能力によって,ニュースやイベントを体験する主要な情報源となっている。 したがって、偽ニュースを検出することは重要であり、そうでなければ公衆の誤解やパニックを引き起こす可能性がある。 既存のディープラーニングモデルは、偽ニュース検出の問題に取り組むために大きな進歩を遂げている。 しかし、効果的なディープラーニングモデルのトレーニングは通常、大量のラベル付きニュースを必要とするが、実際のアプリケーションで十分なラベル付きニュースを提供するには高価で時間がかかる。 偽ニュースの検出性能を向上させるために,ニュースのイベント相関を利用して,主にニュースキャラクタ,擬似ラベルアノテーション,イベント信頼性更新器,ニュースエントロピーセレクタで構成される偽ニュース検出のためのイベント相関フィルタリング手法(ECFM)を提案する。 ニュースキャラクタは、ニュースのイベント相関を完全に活用して、擬似ラベルアノテータと協調して、未ラベルのニュースに擬似ラベルを割り当てる、ニュースからテキスト特徴を抽出する責任を負う。 さらに、イベント信頼性更新器は、イベントの信頼性変動を弱めるために適応カルマンフィルタを用いる。 ニュースエントロピーセレクタは、そのニュースエントロピーを定量化することにより、偽ラベル付きニュースから高品質なサンプルを自動的に検出する。 最後に、イベント相関フィルタリング方式で偽ニュースを検出するためにecfmを統合することを提案する。 広範な実験により、偽ニュースの検出性能を向上させるために、ニュースのイベント相関の説明可能な導入が有効であることが証明された。

Nowadays, social network platforms have been the prime source for people to experience news and events due to their capacities to spread information rapidly, which inevitably provides a fertile ground for the dissemination of fake news. Thus, it is significant to detect fake news otherwise it could cause public misleading and panic. Existing deep learning models have achieved great progress to tackle the problem of fake news detection. However, training an effective deep learning model usually requires a large amount of labeled news, while it is expensive and time-consuming to provide sufficient labeled news in actual applications. To improve the detection performance of fake news, we take advantage of the event correlations of news and propose an event correlation filtering method (ECFM) for fake news detection, mainly consisting of the news characterizer, the pseudo label annotator, the event credibility updater, and the news entropy selector. The news characterizer is responsible for extracting textual features from news, which cooperates with the pseudo label annotator to assign pseudo labels for unlabeled news by fully exploiting the event correlations of news. In addition, the event credibility updater employs adaptive Kalman filter to weaken the credibility fluctuations of events. To further improve the detection performance, the news entropy selector automatically discovers high-quality samples from pseudo labeled news by quantifying their news entropy. Finally, ECFM is proposed to integrate them to detect fake news in an event correlation filtering manner. Extensive experiments prove that the explainable introduction of the event correlations of news is beneficial to improve the detection performance of fake news.
翻訳日:2021-05-15 06:18:41 公開日:2020-12-13
# (参考訳) コンピュータビジョンを用いた開手術ビデオにおける手の動き検出と追跡の自動化 [全文訳有]

Using Computer Vision to Automate Hand Detection and Tracking of Surgeon Movements in Videos of Open Surgery ( http://arxiv.org/abs/2012.06948v1 )

ライセンス: CC BY 4.0
Michael Zhang, Xiaotian Cheng, Daniel Copeland, Arjun Desai, Melody Y. Guan, Gabriel A. Brat, and Serena Yeung(参考訳) 開腹手術または非腹腔鏡手術は手術室の手順の大部分を占めるが、客観的に評価するツールはほとんど存在しない。 現在の取り組みは、人間の専門家による視覚的評価である。 我々はコンピュータビジョンの進歩を活用して,手術の映像解析に自動化アプローチを導入する。 オブジェクト検出のための最先端の畳み込みニューラルネットワークアーキテクチャを使用して、開手術ビデオの操作手を検出する。 モデル予測と高速物体追跡器を組み合わせることで、外科医固有の手追跡を可能にする自動評価が拡張された。 モデルをトレーニングするために、私たちはyoutubeのオープン手術の公開ビデオを使用して、手術の手の空間的なバウンディングボックスに注釈を付けました。 本モデルでは,手の動きの空間的検出は,既存の手検出データセットによる検出を著しく上回り,術中動作パターンや運動経済の把握を可能にする。

Open, or non-laparoscopic surgery, represents the vast majority of all operating room procedures, but few tools exist to objectively evaluate these techniques at scale. Current efforts involve human expert-based visual assessment. We leverage advances in computer vision to introduce an automated approach to video analysis of surgical execution. A state-of-the-art convolutional neural network architecture for object detection was used to detect operating hands in open surgery videos. Automated assessment was expanded by combining model predictions with a fast object tracker to enable surgeon-specific hand tracking. To train our model, we used publicly available videos of open surgery from YouTube and annotated these with spatial bounding boxes of operating hands. Our model's spatial detections of operating hands significantly outperforms the detections achieved using pre-existing hand-detection datasets, and allow for insights into intra-operative movement patterns and economy of motion.
翻訳日:2021-05-09 19:54:09 公開日:2020-12-13
# (参考訳) 相互情報基準のためのアクティブな特徴選択

Active Feature Selection for the Mutual Information Criterion ( http://arxiv.org/abs/2012.06979v1 )

ライセンス: CC BY 4.0
Shachar Schnapp and Sivan Sabato(参考訳) ラベル付きデータを利用できる新しい特徴選択設定であるアクティブ特徴選択について検討するが、ラベルの予算は限られており、ラベルへのサンプルをアルゴリズムで積極的に選択することができる。 我々は,従来の相互情報基準を用いた特徴選択に焦点を合わせ,ラベルと最大の相互情報を持つ$k$の特徴を選択する。 アクティブな機能選択設定では、データセットのサイズよりもはるかに少ないラベルを使用することが目標であり、なおも \emph{entire}データセットに基づいたラベルとの相互情報が大きい$k$の機能を見つける。 アルゴリズムにおける選択を説明・実験的に検討し,他のナイーブなアプローチと比較してアルゴリズムが成功することを示す。 本設計では,アクティブな特徴選択の問題と純粋探索型マルチアームバンディット設定の関連性について考察する。 ここでは相互情報に注目しながら、我々の一般的な方法論は他の特徴品質尺度にも適用することができる。 コードは以下のurlで入手できる。 https://github.com/s hacharschnapp/active featureselection。

We study active feature selection, a novel feature selection setting in which unlabeled data is available, but the budget for labels is limited, and the examples to label can be actively selected by the algorithm. We focus on feature selection using the classical mutual information criterion, which selects the $k$ features with the largest mutual information with the label. In the active feature selection setting, the goal is to use significantly fewer labels than the data set size and still find $k$ features whose mutual information with the label based on the \emph{entire} data set is large. We explain and experimentally study the choices that we make in the algorithm, and show that they lead to a successful algorithm, compared to other more naive approaches. Our design draws on insights which relate the problem of active feature selection to the study of pure-exploration multi-armed bandits settings. While we focus here on mutual information, our general methodology can be adapted to other feature-quality measures as well. The code is available at the following url: https://github.com/S hacharSchnapp/Active FeatureSelection.
翻訳日:2021-05-09 19:31:59 公開日:2020-12-13
# (参考訳) GeoNet++: エッジ対応リファインメント付き反復幾何ニューラルネットワークによる関節深さ推定と表面正規化 [全文訳有]

GeoNet++: Iterative Geometric Neural Network with Edge-Aware Refinement for Joint Depth and Surface Normal Estimation ( http://arxiv.org/abs/2012.06980v1 )

ライセンス: CC BY 4.0
Xiaojuan Qi, Zhengzhe Liu, Renjie Liao, Philip H.S. Torr, Raquel Urtasun, Jiaya Jia(参考訳) 本稿では,エッジアウェア・リファインメント(geonet++)を備えた幾何学的ニューラルネットワークを提案する。 2つのストリームcnnの上に構築されたgeonet++は、深さと表面の正常の間の幾何学的関係を、深みから正常までのモジュールで捉える。 特に、"depth-to-normal" ;モジュールは、深さから表面正規分布を推定する最小二乗解を利用して品質を向上させ、"normal-to-depth" ;モジュールは、カーネル回帰による表面正規分布の制約に基づいて深さマップを洗練する。 境界情報はエッジアウェアリファインメントモジュールを介して活用される。 geonet++は、強い3d一貫性と鋭い境界を持つ深さと表面の正常を効果的に予測し、より良い3dシーンを再構築する。 geonet++は汎用的であり、他の深さ/正規予測フレームワークで、3d再構成の品質と深さおよび表面正常のピクセル単位での精度を向上させるために使用できる。 さらに,3次元の深度予測のための新しい3次元幾何距離(3DGM)を提案する。 画素単位の誤差/精度を評価することに焦点を当てた現在の測定値とは対照的に、3DGMは予測深度が高品質な3D表面の正常を再構築できるかどうかを測定する。 これは多くの3dアプリケーションドメインにとってより自然な指標である。 我々のNYUD-V2およびKITTIデータセットによる実験により、GeoNet++が細かな境界の詳細を生成できることが確認され、予測深度を用いて高品質な3次元表面を再構成することができる。 コードは公開されている。

In this paper, we propose a geometric neural network with edge-aware refinement (GeoNet++) to jointly predict both depth and surface normal maps from a single image. Building on top of two-stream CNNs, GeoNet++ captures the geometric relationships between depth and surface normals with the proposed depth-to-normal and normal-to-depth modules. In particular, the "depth-to-normal" ; module exploits the least square solution of estimating surface normals from depth to improve their quality, while the "normal-to-depth" ; module refines the depth map based on the constraints on surface normals through kernel regression. Boundary information is exploited via an edge-aware refinement module. GeoNet++ effectively predicts depth and surface normals with strong 3D consistency and sharp boundaries resulting in better reconstructed 3D scenes. Note that GeoNet++ is generic and can be used in other depth/normal prediction frameworks to improve the quality of 3D reconstruction and pixel-wise accuracy of depth and surface normals. Furthermore, we propose a new 3D geometric metric (3DGM) for evaluating depth prediction in 3D. In contrast to current metrics that focus on evaluating pixel-wise error/accuracy, 3DGM measures whether the predicted depth can reconstruct high-quality 3D surface normals. This is a more natural metric for many 3D application domains. Our experiments on NYUD-V2 and KITTI datasets verify that GeoNet++ produces fine boundary details, and the predicted depth can be used to reconstruct high-quality 3D surfaces. Code has been made publicly available.
翻訳日:2021-05-09 19:30:27 公開日:2020-12-13
# (参考訳) LEARN++:圧縮CTのための繰り返しデュアルドメイン再構成ネットワーク [全文訳有]

LEARN++: Recurrent Dual-Domain Reconstruction Network for Compressed Sensing CT ( http://arxiv.org/abs/2012.06983v1 )

ライセンス: CC BY 4.0
Yi Zhang, Hu Chen, Wenjun Xia, Yang Chen, Baodong Liu, Yan Liu, Huaiqiang Sun, and Jiliu Zhou(参考訳) 圧縮センシング (CS) CTは, スパース・ビュー・コンピュート・トモグラフィー (CT) やデジタルトモシンセシス, インテリア・トモグラフィーなどの臨床応用において重要であることが証明されている。 従来の圧縮センシングは、通常画像に依存し、時間を要する手作りの事前正規化器の設計に焦点を当てている。 最近提案されたディープラーニングベースのct再構成モデルに触発されて、最先端の学習モデルをlearn++と呼ばれるデュアルドメインバージョンに拡張した。 データ一貫性層におけるプロジェクションデータのみを含む既存の反復アンロール法とは異なり、提案したLEARN++モデルは2つの並列かつインタラクティブなサブネットを統合し、画像とプロジェクション領域の両方で画像復元とシングラムのインペイント操作を同時に行う。 実験結果から,提案したLEARN++モデルは,アーティファクトの削減と詳細保存の両面から,最先端の手法と比較して,質的かつ定量的な結果が得られることが示された。

Compressed sensing (CS) computed tomography has been proven to be important for several clinical applications, such as sparse-view computed tomography (CT), digital tomosynthesis and interior tomography. Traditional compressed sensing focuses on the design of handcrafted prior regularizers, which are usually image-dependent and time-consuming. Inspired by recently proposed deep learning-based CT reconstruction models, we extend the state-of-the-art LEARN model to a dual-domain version, dubbed LEARN++. Different from existing iteration unrolling methods, which only involve projection data in the data consistency layer, the proposed LEARN++ model integrates two parallel and interactive subnetworks to perform image restoration and sinogram inpainting operations on both the image and projection domains simultaneously, which can fully explore the latent relations between projection data and reconstructed images. The experimental results demonstrate that the proposed LEARN++ model achieves competitive qualitative and quantitative results compared to several state-of-the-art methods in terms of both artifact reduction and detail preservation.
翻訳日:2021-05-09 19:05:41 公開日:2020-12-13
# (参考訳) 制限ボルツマンマシンを用いた分子ジオメトリーのモデル化 [全文訳有]

Using Restricted Boltzmann Machines to Model Molecular Geometries ( http://arxiv.org/abs/2012.06984v1 )

ライセンス: CC0 1.0
Peter Nekrasov, Jessica Freeze, and Victor Batista(参考訳) 分子の正確な物理的記述はシュロディンガー方程式を解いて得られるが、これらの計算は難解であり、近似さえも面倒である。 経験的データに基づいて原子間ポテンシャルを推定する力場も時間を要する。 本稿では,制限されたボルツマンマシンの高速学習能力と表現力を利用して,物理パラメータの集合をモデル化する手法を提案する。 ab initioデータに基づいてマシンをトレーニングすることで、ab initio分布にマッチする分子配置の分布における新しいデータを予測することができる。 本稿では,Tanhアクティベーション関数に基づく新しいRBMを導入し,Sigmoid, Gaussian, (Leaky) ReLUなどの異なるアクティベーション関数との比較を行う。 最後に,gaussian rbmsが水やエタンなどの小分子をモデル化する能力を示す。

Precise physical descriptions of molecules can be obtained by solving the Schrodinger equation; however, these calculations are intractable and even approximations can be cumbersome. Force fields, which estimate interatomic potentials based on empirical data, are also time-consuming. This paper proposes a new methodology for modeling a set of physical parameters by taking advantage of the restricted Boltzmann machine's fast learning capacity and representational power. By training the machine on ab initio data, we can predict new data in the distribution of molecular configurations matching the ab initio distribution. In this paper we introduce a new RBM based on the Tanh activation function, and conduct a comparison of RBMs with different activation functions, including sigmoid, Gaussian, and (Leaky) ReLU. Finally we demonstrate the ability of Gaussian RBMs to model small molecules such as water and ethane.
翻訳日:2021-05-09 18:47:35 公開日:2020-12-13
# (参考訳) 生徒のt混合モデルに基づく点集合の効果的な多視点登録 [全文訳有]

Effective multi-view registration of point sets based on student's t mixture model ( http://arxiv.org/abs/2012.07002v1 )

ライセンス: CC BY 4.0
Yanlin Ma, Jihua Zhu, Zhongyu Li, Zhiqiang Tian, Yaochen Li(参考訳) 近年,多視点登録問題の解法として期待最大化(EM)アルゴリズムが導入されている。 従来の手法の多くは、各データポイントがガウス混合モデル(gmm)から引き出されていると仮定しており、重み付きや外れ値のノイズを扱うのが難しい。 そこで本稿では,学生のt混合モデル(StMM)に基づく効果的な登録手法を提案する。 より具体的には、各データポイントは1つのユニークな StMM から引き出されると仮定し、他の点集合に最も近い隣人 (NN) は等しい共分散、メンバーシップ確率、固定自由度を持つ t-分布中心群と見なされる。 この仮定に基づき、多視点登録問題は全ての剛性変換を含む帰納関数の最大化として定式化される。 その後、EMアルゴリズムを用いて厳密な変換を最適化し、マルチビュー登録のための唯一のt分布共分散を最適化する。 最適化が必要なモデルパラメータはごくわずかであるため,提案手法は所望の登録結果を得る可能性が高くなる。 さらに、NNサーチ法により全てのt分布セントロイドを得ることができ、マルチビュー登録を実現するのは非常に効率的である。 さらに、t分布は重み付きノイズを考慮に入れており、提案手法は本質的に雑音や異常値に対して頑健である。 ベンチマークデータセットで試験された実験結果は、最先端手法よりもロバスト性と精度に優れた性能を示す。

Recently, Expectation-maximiza tion (EM) algorithm has been introduced as an effective means to solve multi-view registration problem. Most of the previous methods assume that each data point is drawn from the Gaussian Mixture Model (GMM), which is difficult to deal with the noise with heavy-tail or outliers. Accordingly, this paper proposed an effective registration method based on Student's t Mixture Model (StMM). More specially, we assume that each data point is drawn from one unique StMM, where its nearest neighbors (NNs) in other point sets are regarded as the t-distribution centroids with equal covariances, membership probabilities, and fixed degrees of freedom. Based on this assumption, the multi-view registration problem is formulated into the maximization of the likelihood function including all rigid transformations. Subsequently, the EM algorithm is utilized to optimize rigid transformations as well as the only t-distribution covariance for multi-view registration. Since only a few model parameters require to be optimized, the proposed method is more likely to obtain the desired registration results. Besides, all t-distribution centroids can be obtained by the NN search method, it is very efficient to achieve multi-view registration. What's more, the t-distribution takes the noise with heavy-tail into consideration, which makes the proposed method be inherently robust to noises and outliers. Experimental results tested on benchmark data sets illustrate its superior performance on robustness and accuracy over state-of-the-art methods.
翻訳日:2021-05-09 18:10:20 公開日:2020-12-13
# (参考訳) 最大確率推定による直交局所性保存射影に基づくプロセスモニタリング [全文訳有]

Process monitoring based on orthogonal locality preserving projection with maximum likelihood estimation ( http://arxiv.org/abs/2012.07021v1 )

ライセンス: CC BY 4.0
Jingxin Zhang, Maoyin Chen, Hao Chen, Xia Hong, and Donghua Zhou(参考訳) 密度低減と内在次元推定の2つの強力な方法を統合することで,olpp-mle(orthogonal locality preserve projection-maximum likelihood estimation)と呼ばれる新しいデータ駆動法がプロセスモニタリングに導入されている。 OLPPは次元減少に利用され、局所性保存力は局所性保存力よりも優れた。 そして、MLEを用いてOLPPの内在次元を推定する。 提案されたOLPP-MLE内では、障害検出のための2つの新しい静的尺度である$T_{\scriptscriptstyle {OLPP}}^2$と${\rm SPE}_{\scriptstyle {OLPP}}$が定義される。 アルゴリズムの複雑さを減らし、データ分布を無視するために、故障診断のしきい値を計算するためにカーネル密度推定を用いる。 提案手法の有効性を3つのケーススタディで実証した。

By integrating two powerful methods of density reduction and intrinsic dimensionality estimation, a new data-driven method, referred to as OLPP-MLE (orthogonal locality preserving projection-maximum likelihood estimation), is introduced for process monitoring. OLPP is utilized for dimensionality reduction, which provides better locality preserving power than locality preserving projection. Then, the MLE is adopted to estimate intrinsic dimensionality of OLPP. Within the proposed OLPP-MLE, two new static measures for fault detection $T_{\scriptscriptstyle {OLPP}}^2$ and ${\rm SPE}_{\scriptscriptstyle {OLPP}}$ are defined. In order to reduce algorithm complexity and ignore data distribution, kernel density estimation is employed to compute thresholds for fault diagnosis. The effectiveness of the proposed method is demonstrated by three case studies.
翻訳日:2021-05-09 17:49:35 公開日:2020-12-13
# (参考訳) ニューラルネットワークによる点格子復号法

Neural network approaches to point lattice decoding ( http://arxiv.org/abs/2012.07032v1 )

ライセンス: CC BY 4.0
Vincent Corlay, Joseph J. Boutros, Philippe Ciblat, and Lo\"ic Brunel(参考訳) ニューラルネットワークの観点から格子復号問題の複雑性を特徴付ける。 ボロノイ還元基底の概念は、解の空間を二元集合に制限するために導入された。 一方、この問題は基本パラレルトロープに制限された連続片方向線形関数(CPWL)の計算と等価であることが示されている。 一方、ReLUフィードフォワードニューラルネットワークによって計算される関数はCPWLであることが知られている。 その結果、CPWL復号関数におけるアフィンの個数を数えて、復号問題の複雑さを特徴づける。 これは空間次元$n$で指数関数であり、指数関数サイズの浅いニューラルネットワークを誘導する。 構造化格子に対して、深層ニューラルネットワークと同等の手法である折り畳みは、この複雑さを指数的に$n$から$n$まで減少させることができることを示す。 構造化されていないMIMO格子については、密度格子とは対照的に、CPWL復号関数の多くのピースはガウスチャネル上の準最適復号には無視することができる。 これはデコード問題をより容易にし、この格子(低次元から中次元)のカテゴリにおいて、適切な大きさの浅いニューラルネットワークがより効率的である理由を説明する。

We characterize the complexity of the lattice decoding problem from a neural network perspective. The notion of Voronoi-reduced basis is introduced to restrict the space of solutions to a binary set. On the one hand, this problem is shown to be equivalent to computing a continuous piecewise linear (CPWL) function restricted to the fundamental parallelotope. On the other hand, it is known that any function computed by a ReLU feed-forward neural network is CPWL. As a result, we count the number of affine pieces in the CPWL decoding function to characterize the complexity of the decoding problem. It is exponential in the space dimension $n$, which induces shallow neural networks of exponential size. For structured lattices we show that folding, a technique equivalent to using a deep neural network, enables to reduce this complexity from exponential in $n$ to polynomial in $n$. Regarding unstructured MIMO lattices, in contrary to dense lattices many pieces in the CPWL decoding function can be neglected for quasi-optimal decoding on the Gaussian channel. This makes the decoding problem easier and it explains why shallow neural networks of reasonable size are more efficient with this category of lattices (in low to moderate dimensions).
翻訳日:2021-05-09 17:36:26 公開日:2020-12-13
# (参考訳) 相対的位置回帰に基づく医用画像のワンショット物体定位 [全文訳有]

One-Shot Object Localization in Medical Images based on Relative Position Regression ( http://arxiv.org/abs/2012.07043v1 )

ライセンス: CC BY 4.0
Wenhui Lei, Wei Xu, Ran Gu, Hao Fu, Shaoting Zhang, Guotai Wang(参考訳) ディープラーニングネットワークは、中間画像における正確なオブジェクトのローカライゼーションに有望な性能を示しているが、教師付きトレーニングには大量の注釈データを必要とする。 そこで本研究では, トレーニング段階では注釈を必要とせず, 推定段階でサポート(参照)画像が与えられたテスト画像中のランドマークや臓器の特定に使用可能な, 体積医用画像における臓器とランドマークの局所化のためのワンショットフレームワークを提案する。 私たちの主な考え方は、異なる人体の組織や臓器が、同様の相対的な位置と文脈を持っていることです。 したがって、それらの非局所パッチの相対的な位置を予測でき、標的臓器を特定できる。 本フレームワークは3つの部分から構成される: (1) 人間のアノテーションを必要としない2つのパッチ間の3Dオフセットを予測するために訓練されたプロジェクションネットワーク。 推論段階では、参照画像内のあるランドマークをサポートパッチとして取得し、ランダムパッチからテスト(クエリ)ボリューム内の対応するランドマークへのオフセットを予測する。 2) 粗粒度フレームワークは2つのプロジェクションネットワークを含み, ターゲットのより正確なローカライゼーションを実現する。 (3) 粗大化モデルに基づいて,臓器境界箱(B-box)検出を問合せ量におけるx,y,z方向の6つの極点の位置に転送する。 ヘッド・アンド・ネック(HaN)CTボリュームからの複数臓器の局在化実験により,同一設定のテンプレートマッチング法よりも精度が高く,10^5の速度で競合性能が得られた。 コードはhttps://github.com/l whyc/rpr-loc。

Deep learning networks have shown promising performance for accurate object localization in medial images, but require large amount of annotated data for supervised training, which is expensive and expertise burdensome. To address this problem, we present a one-shot framework for organ and landmark localization in volumetric medical images, which does not need any annotation during the training stage and could be employed to locate any landmarks or organs in test images given a support (reference) image during the inference stage. Our main idea comes from that tissues and organs from different human bodies have a similar relative position and context. Therefore, we could predict the relative positions of their non-local patches, thus locate the target organ. Our framework is composed of three parts: (1) A projection network trained to predict the 3D offset between any two patches from the same volume, where human annotations are not required. In the inference stage, it takes one given landmark in a reference image as a support patch and predicts the offset from a random patch to the corresponding landmark in the test (query) volume. (2) A coarse-to-fine framework contains two projection networks, providing more accurate localization of the target. (3) Based on the coarse-to-fine model, we transfer the organ boundingbox (B-box) detection to locating six extreme points along x, y and z directions in the query volume. Experiments on multi-organ localization from head-and-neck (HaN) CT volumes showed that our method acquired competitive performance in real time, which is more accurate and 10^5 times faster than template matching methods with the same setting. Code is available: https://github.com/L WHYC/RPR-Loc.
翻訳日:2021-05-09 17:21:27 公開日:2020-12-13
# (参考訳) 予算及び非予算のカウンサルバンド

Budgeted and Non-budgeted Causal Bandits ( http://arxiv.org/abs/2012.07058v1 )

ライセンス: CC BY-SA 4.0
Vineet Nair, Vishakha Patil, Gaurav Sinha(参考訳) 因果グラフで良い介入を学ぶことは、サイド情報を持つ確率的多腕バンディット問題としてモデル化することができる。 まず、介入が観察よりも高価で予算が特定されている場合に、この問題を研究する。 インターベンタノードから報奨ノードへのバックドアパスが存在しない場合は、介入コストに基づいて最適な観察と介入をトレードオフする単純な後悔を最小限に抑えるアルゴリズムを提案する。 また,介入費用を考慮し,因果情報を活用し,予算を超過することなく累積的後悔を最小限に抑えるアルゴリズムを提案する。 我々の累積回帰最小化アルゴリズムは、サイドインフォメーションを考慮しない標準アルゴリズムよりも優れている。 最後に,一般的なグラフにおいて予算制約を伴わずに最善の介入を学習する問題について検討し,各介入に対する報酬変数の親分布が分かっている場合,インスタンスパラメータの観点で一定の期待累積後悔を達成するアルゴリズムを与える。 本研究は,現在の文献で最もよく知られた境界と比較し,実験的に検証した。

Learning good interventions in a causal graph can be modelled as a stochastic multi-armed bandit problem with side-information. First, we study this problem when interventions are more expensive than observations and a budget is specified. If there are no backdoor paths from an intervenable node to the reward node then we propose an algorithm to minimize simple regret that optimally trades-off observations and interventions based on the cost of intervention. We also propose an algorithm that accounts for the cost of interventions, utilizes causal side-information, and minimizes the expected cumulative regret without exceeding the budget. Our cumulative-regret minimization algorithm performs better than standard algorithms that do not take side-information into account. Finally, we study the problem of learning best interventions without budget constraint in general graphs and give an algorithm that achieves constant expected cumulative regret in terms of the instance parameters when the parent distribution of the reward variable for each intervention is known. Our results are experimentally validated and compared to the best-known bounds in the current literature.
翻訳日:2021-05-09 16:47:33 公開日:2020-12-13
# (参考訳) トランスネットワークにおける層内および層間グローバル表現の活用による画像キャプションの改善 [全文訳有]

Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network ( http://arxiv.org/abs/2012.07061v1 )

ライセンス: CC BY 4.0
Jiayi Ji, Yunpeng Luo, Xiaoshuai Sun, Fuhai Chen, Gen Luo, Yongjian Wu, Yue Gao, Rongrong Ji(参考訳) トランスフォーマティブベースのアーキテクチャは、画像キャプションにおいて大きな成功を収めており、オブジェクト領域をエンコードし、キャプションデコーディングを導くためにベクトル表現に入る。 しかし、このようなベクトル表現は、画像全体を反映したグローバル情報を考慮せずに、領域レベルの情報しか含まないため、画像キャプションにおける複雑なマルチモーダル推論の能力を拡張できない。 本稿では,より包括的なグローバル表現の抽出を可能にするGlobal Enhanced Transformer(GET)を導入し,高品質なキャプションを生成するためにデコーダを適応的に誘導する。 GETでは、グローバル機能の埋め込み用にグローバル拡張エンコーダが設計され、キャプション生成のガイダンスのためにグローバル適応デコーダが設計されている。 前者は、提案したGlobal Enhanced Attentionとレイヤワイド融合モジュールを利用して、層内および層間グローバル表現をモデル化した。 後者は、グローバル情報をデコーダに適応的に融合してキャプション生成を導くグローバル適応コントローラを含んでいる。 MS COCOデータセットの大規模な実験は、多くの最先端技術よりもGETの方が優れていることを示している。

Transformer-based architectures have shown great success in image captioning, where object regions are encoded and then attended into the vectorial representations to guide the caption decoding. However, such vectorial representations only contain region-level information without considering the global information reflecting the entire image, which fails to expand the capability of complex multi-modal reasoning in image captioning. In this paper, we introduce a Global Enhanced Transformer (termed GET) to enable the extraction of a more comprehensive global representation, and then adaptively guide the decoder to generate high-quality captions. In GET, a Global Enhanced Encoder is designed for the embedding of the global feature, and a Global Adaptive Decoder are designed for the guidance of the caption generation. The former models intra- and inter-layer global representation by taking advantage of the proposed Global Enhanced Attention and a layer-wise fusion module. The latter contains a Global Adaptive Controller that can adaptively fuse the global information into the decoder to guide the caption generation. Extensive experiments on MS COCO dataset demonstrate the superiority of our GET over many state-of-the-arts.
翻訳日:2021-05-09 16:46:28 公開日:2020-12-13
# (参考訳) ノード分類のためのアクティブラーニング:未学習ノードから追加の学習能力 [全文訳有]

Active Learning for Node Classification: The Additional Learning Ability from Unlabelled Nodes ( http://arxiv.org/abs/2012.07065v1 )

ライセンス: CC BY 4.0
Juncheng Liu, Yiwei Wang, Bryan Hooi, Renchi Yang, Xiaokui Xiao(参考訳) グラフデータのノード分類は多くの実践領域において重要なタスクである。 しかし、練習にはラベルが必要であり、実際には入手が困難または高価である。 ラベル付け予算が限られているため、active learningはラベル付けするノードを慎重に選択することで、パフォーマンスの向上を目指している。 本研究では,ノード分類のための既存のアクティブ学習手法が,ラベル付きノードをランダムに選択し,ラベル付きノードと教師なし学習機能を備えた線形分類器を訓練する単純な手法により,かなり優れていることを示す。 これは既存の手法がラベルのないノードに存在する情報を完全に利用していないことを示している。 本稿では,教師なし学習機能を用いて,ラベルなしノードにおける情報を利用する。 本稿では,ノード分類のための潜在空間クラスタリングに基づくアクティブラーニング手法を提案する。 具体的には、ラベル付けのためのノードを選択するために、教師なし特徴と教師なし特徴の両方の動的組み合わせに基づく特徴空間上のK-Medoidsクラスタリングアルゴリズムを用いる。 さらに,異なるステップで選択したノード間の冗長性を回避するために,インクリメンタルクラスタリングモジュールを設計する。 3つの公開引用データセットと2つの共著者データセットについて広範な実験を行い,提案手法のlscaleは最先端のアプローチを大きく上回っている。

Node classification on graph data is an important task on many practical domains. However, it requires labels for training, which can be difficult or expensive to obtain in practice. Given a limited labelling budget, active learning aims to improve performance by carefully choosing which nodes to label. Our empirical study shows that existing active learning methods for node classification are considerably outperformed by a simple method which randomly selects nodes to label and trains a linear classifier with labelled nodes and unsupervised learning features. This indicates that existing methods do not fully utilize the information present in unlabelled nodes as they only use unlabelled nodes for label acquisition. In this paper, we utilize the information in unlabelled nodes by using unsupervised learning features. We propose a novel latent space clustering-based active learning method for node classification (LSCALE). Specifically, to select nodes for labelling, our method uses the K-Medoids clustering algorithm on a feature space based on the dynamic combination of both unsupervised features and supervised features. In addition, we design an incremental clustering module to avoid redundancy between nodes selected at different steps. We conduct extensive experiments on three public citation datasets and two co-authorship datasets, where our proposed method LSCALE consistently and significantly outperforms the state-of-the-art approaches by a large margin.
翻訳日:2021-05-09 16:31:12 公開日:2020-12-13
# (参考訳) 自由エネルギーパラダイムを用いた部分空間による強化学習 [全文訳有]

Reinforcement Learning with Subspaces using Free Energy Paradigm ( http://arxiv.org/abs/2012.07091v1 )

ライセンス: CC BY 4.0
Milad Ghorbani, Reshad Hosseini, Seyed Pooya Shariatpanahi, Majid Nili Ahmadabadi(参考訳) 大規模問題では、標準強化学習アルゴリズムは学習速度が遅い。 本稿では,サブスペースを用いてこの問題に対処する枠組みについて述べる。 サブスペースの選択と状態空間のポリシーをサブスペースに統合する自由エネルギー最小化フレームワークを提案する。 提案する自由エネルギー最小化フレームワークは,部分空間と状態空間のトンプソンサンプリングポリシーと行動ポリシーに依拠する。 したがって、様々なタスク、離散状態空間または連続状態空間、モデルフリーおよびモデルベースタスクに適用できる。 一連の実験を通じて,この汎用フレームワークが学習速度を高度に向上することを示す。 また、コンバージェンス証明も提供します。

In large-scale problems, standard reinforcement learning algorithms suffer from slow learning speed. In this paper, we follow the framework of using subspaces to tackle this problem. We propose a free-energy minimization framework for selecting the subspaces and integrate the policy of the state-space into the subspaces. Our proposed free-energy minimization framework rests upon Thompson sampling policy and behavioral policy of subspaces and the state-space. It is therefore applicable to a variety of tasks, discrete or continuous state space, model-free and model-based tasks. Through a set of experiments, we show that this general framework highly improves the learning speed. We also provide a convergence proof.
翻訳日:2021-05-09 15:52:28 公開日:2020-12-13
# (参考訳) msvd-turkish:トルコにおける統合視覚言語研究のための総合的マルチモーダルデータセット [全文訳有]

MSVD-Turkish: A Comprehensive Multimodal Dataset for Integrated Vision and Language Research in Turkish ( http://arxiv.org/abs/2012.07098v1 )

ライセンス: CC BY 4.0
Begum Citamak and Ozan Caglayan and Menekse Kuyu and Erkut Erdem and Aykut Erdem and Pranava Madhyastha and Lucia Specia(参考訳) 映像キャプションと呼ばれる自然言語による映像記述の自動生成は、映像の視覚的内容を理解し、シーン内のオブジェクトやアクションを描写した自然言語文を作成することを目的としている。 しかし、この難しい統合的なビジョンと言語問題は、主に英語で扱われている。 データ不足と他の言語の言語特性は、そのような言語に対する既存のアプローチの成功を制限する。 本稿では, 形態的に豊かな, 凝集的な言語であるトルコ語を英語とは大きく異なる特性で対象とする。 そのために,msvd (microsoft research video description corpus) データセットの英語記述をトルコ語に注意深く翻訳することにより,この言語で最初の大規模ビデオキャプションデータセットを作成する。 トルコ語での動画キャプションの研究に加えて、英語とトルコ語の並行記述は、(マルチモーダル)機械翻訳におけるビデオコンテキストの役割の研究も可能にしている。 実験では,ビデオキャプションとマルチモーダル機械翻訳の両方のモデルを構築し,異なる単語分割アプローチと異なるニューラルアーキテクチャの効果を調査し,トルコ語の性質をよりよく理解する。 msvd-turkishデータセットとこの研究で報告された結果は、トルコやその他の形態素豊かで凝集的な言語のための、より良いビデオキャプションとマルチモーダル機械翻訳モデルにつながることを期待している。

Automatic generation of video descriptions in natural language, also called video captioning, aims to understand the visual content of the video and produce a natural language sentence depicting the objects and actions in the scene. This challenging integrated vision and language problem, however, has been predominantly addressed for English. The lack of data and the linguistic properties of other languages limit the success of existing approaches for such languages. In this paper we target Turkish, a morphologically rich and agglutinative language that has very different properties compared to English. To do so, we create the first large scale video captioning dataset for this language by carefully translating the English descriptions of the videos in the MSVD (Microsoft Research Video Description Corpus) dataset into Turkish. In addition to enabling research in video captioning in Turkish, the parallel English-Turkish descriptions also enables the study of the role of video context in (multimodal) machine translation. In our experiments, we build models for both video captioning and multimodal machine translation and investigate the effect of different word segmentation approaches and different neural architectures to better address the properties of Turkish. We hope that the MSVD-Turkish dataset and the results reported in this work will lead to better video captioning and multimodal machine translation models for Turkish and other morphology rich and agglutinative languages.
翻訳日:2021-05-09 15:31:16 公開日:2020-12-13
# (参考訳) サービスロボットにおける熟考と概念推論

Deliberative and Conceptual Inference in Service Robots ( http://arxiv.org/abs/2012.07121v1 )

ライセンス: CC BY 4.0
Luis A. Pineda, No\'e Hern\'andez, Arturo Rodr\'iguez, Ricardo Cruz and Gibr\'an Fuentes(参考訳) サービスロボットは日々の状況で人々を支援する必要がある。 推論は、ロボットの期待が世界の状況と一致せず、タスクの実行が分解されるたびに、需要に応じて使用するべき高価な資源であり、そのようなシナリオでは、ロボットは、何が起きたかの診断、何をするかの決定、計画の誘導と実行、サービスタスクが再開できるまでそのような行動を繰り返すことからなる、常識的な日常生活推論サイクルを実行しなければならない。 本稿では,このサイクルを実現するための2つの戦略について検討する。(1) 推論,意思決定,計画を含むパイプライン戦略,(2) 概念推論と呼ぶロボットの知識ベースに格納される知識と選好の使用。 前者はヒューリスティック検索によって探索される問題空間を明確に定義し、後者は人間の好みを含む概念的知識に基づいており、その表現には単調な知識に基づくシステムが必要である。 両方のアプローチの長所と限界を比較します。 また,ロボットサービスタスク実行時の日常生活推定サイクルを支援することができるサービスロボットの概念モデルとアーキテクチャについて述べる。 このモデルは、ロボットのコミュニケーションとタスク構造の宣言的仕様と解釈に集中している。 また,完全自律型ロボットGolem-IIIの実装についても述べる。 フレームワークには2つのデモシナリオがある。

Service robots need to reason to support people in daily life situations. Reasoning is an expensive resource that should be used on demand whenever the expectations of the robot do not match the situation of the world and the execution of the task is broken down; in such scenarios the robot must perform the common sense daily life inference cycle consisting on diagnosing what happened, deciding what to do about it, and inducing and executing a plan, recurring in such behavior until the service task can be resumed. Here we examine two strategies to implement this cycle: (1) a pipe-line strategy involving abduction, decision-making and planning, which we call deliberative inference and (2) the use of the knowledge and preferences stored in the robot's knowledge-base, which we call conceptual inference. The former involves an explicit definition of a problem space that is explored through heuristic search, and the latter is based on conceptual knowledge including the human user preferences, and its representation requires a non-monotonic knowledge-based system. We compare the strengths and limitations of both approaches. We also describe a service robot conceptual model and architecture capable of supporting the daily life inference cycle during the execution of a robotics service task. The model is centered in the declarative specification and interpretation of robot's communication and task structure. We also show the implementation of this framework in the fully autonomous robot Golem-III. The framework is illustrated with two demonstration scenarios.
翻訳日:2021-05-09 14:49:39 公開日:2020-12-13
# (参考訳) 深部ニューラルネットワークを用いた基底画像からの光学ディスクとカップのロバストセグメンテーション [全文訳有]

Robust Segmentation of Optic Disc and Cup from Fundus Images Using Deep Neural Networks ( http://arxiv.org/abs/2012.07128v1 )

ライセンス: CC BY 4.0
Aniketh Manjunath, Subramanya Jois, and Chandra Sekhar Seelamantula(参考訳) オプティカル・ディスク (OD) とオプティカル・カップ (OC) は網膜基底画像に顕著な臨床的関心を持つ領域である。 それらは、緑内障状態の主要な指標である。 医療研究のための深層学習の出現と成功により、網膜基底画像における重要な特徴の区分化にいくつかのアプローチが提案されている。 本稿では,残差エンコーダデコーダネットワーク(REDNet)を用いた地域畳み込みニューラルネットワーク(RCNN)を用いたODとOCの同時分割手法を提案する。 RED-RCNNはMask RCNN(MRCNN)によってモチベーションを受けている。 最新技術との比較、および標準公開されている fundus イメージデータセットでの広範囲な検証により、red-rcnn は mrcnn よりも優れたパフォーマンスを示している。 RED-RCNN は OC セグメンテーションにおいて 95.64%, 99.9%, 99.82%, 95.68%, 95.64%, 91.65%, 91.44%, 99.87%, 99.83%, 85.67%, 87.48%, 78.09% である。 さらに,得られたod/ocセグメンテーションに基づいて計算したcdrを用いて2段階の緑内障重症度評価を行う。 MRCNNに対するRED-RCNNのセグメンテーション性能は緑内障重症度評価において高い精度に変換される。

Optic disc (OD) and optic cup (OC) are regions of prominent clinical interest in a retinal fundus image. They are the primary indicators of a glaucomatous condition. With the advent and success of deep learning for healthcare research, several approaches have been proposed for the segmentation of important features in retinal fundus images. We propose a novel approach for the simultaneous segmentation of the OD and OC using a residual encoder-decoder network (REDNet) based regional convolutional neural network (RCNN). The RED-RCNN is motivated by the Mask RCNN (MRCNN). Performance comparisons with the state-of-the-art techniques and extensive validations on standard publicly available fundus image datasets show that RED-RCNN has superior performance compared with MRCNN. RED-RCNN results in Sensitivity, Specificity, Accuracy, Precision, Dice and Jaccard indices of 95.64%, 99.9%, 99.82%, 95.68%, 95.64%, 91.65%, respectively, for OD segmentation, and 91.44%, 99.87%, 99.83%, 85.67%, 87.48%, 78.09%, respectively, for OC segmentation. Further, we perform two-stage glaucoma severity grading using the cup-to-disc ratio (CDR) computed based on the obtained OD/OC segmentation. The superior segmentation performance of RED-RCNN over MRCNN translates to higher accuracy in glaucoma severity grading.
翻訳日:2021-05-09 14:48:35 公開日:2020-12-13
# (参考訳) ランク付け学習による横断的体系戦略の構築 [全文訳有]

Building Cross-Sectional Systematic Strategies By Learning to Rank ( http://arxiv.org/abs/2012.07149v1 )

ライセンス: CC BY 4.0
Daniel Poh, Bryan Lim, Stefan Zohren and Stephen Roberts(参考訳) 横断的体系戦略の成功は、ポートフォリオ構築前の正確な資産のランク付けに大きく依存する。 現代の手法では、単純なヒューリスティックで、または標準回帰や分類モデルから出力をソートすることで、このランキングステップを実行する。 情報検索)。 この欠陥に対処するために,学習からランクまでのアルゴリズムを取り入れたクロスセクションポートフォリオを強化する枠組みを提案し,楽器間のペアワイド・リストワイド構造を学習することでランキング精度の向上を図った。 横断的モーメントを実証的なケーススタディとして用いて、現代の機械学習ランキングアルゴリズムを使用することで、横断的戦略のトレーディング性能が大幅に向上し、シャープ比が従来のアプローチに比べて約3倍向上することを示します。

The success of a cross-sectional systematic strategy depends critically on accurately ranking assets prior to portfolio construction. Contemporary techniques perform this ranking step either with simple heuristics or by sorting outputs from standard regression or classification models, which have been demonstrated to be sub-optimal for ranking in other domains (e.g. information retrieval). To address this deficiency, we propose a framework to enhance cross-sectional portfolios by incorporating learning-to-rank algorithms, which lead to improvements of ranking accuracy by learning pairwise and listwise structures across instruments. Using cross-sectional momentum as a demonstrative case study, we show that the use of modern machine learning ranking algorithms can substantially improve the trading performance of cross-sectional strategies -- providing approximately threefold boosting of Sharpe Ratios compared to traditional approaches.
翻訳日:2021-05-09 14:28:07 公開日:2020-12-13
# (参考訳) DLフレームワークの抽象化コストの比較 [全文訳有]

Comparing the costs of abstraction for DL frameworks ( http://arxiv.org/abs/2012.07163v1 )

ライセンス: CC BY 4.0
Maksim Levental, Elena Orlova(参考訳) ディープラーニング(DL)モデルの実装、トレーニング、テストのための高レベルの抽象化。 このようなフレームワークは、主に任意のニューラルネットワークアーキテクチャの実装詳細を抽象化することで機能し、研究者やエンジニアが設計に集中できるようにします。 原則として、そのようなフレームワークは"ゼロコストの抽象化"であり、実際には、翻訳と間接的なオーバーヘッドを伴います。 本稿では,DLモデルの工学的ライフサイクルにおいて,最も高いコストが支払われる点と緩和できる点について検討する。 PyTorch, LibTorch, TorchScript, cuDNNを用いて, 代表的なDLモデルのトレーニング, テスト, 評価を行い, 精度, 実行時間, メモリ効率を比較した。

High level abstractions for implementing, training, and testing Deep Learning (DL) models abound. Such frameworks function primarily by abstracting away the implementation details of arbitrary neural architectures, thereby enabling researchers and engineers to focus on design. In principle, such frameworks could be "zero-cost abstractions"; in practice, they incur translation and indirection overheads. We study at which points exactly in the engineering life-cycle of a DL model the highest costs are paid and whether they can be mitigated. We train, test, and evaluate a representative DL model using PyTorch, LibTorch, TorchScript, and cuDNN on representative datasets, comparing accuracy, execution time and memory efficiency.
翻訳日:2021-05-09 14:07:38 公開日:2020-12-13
# (参考訳) 単純なコピーペーストはインスタンス分割のための強力なデータ拡張手法である [全文訳有]

Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation ( http://arxiv.org/abs/2012.07177v1 )

ライセンス: CC BY 4.0
Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, Barret Zoph(参考訳) データ効率が高く、まれなオブジェクトカテゴリを処理可能なインスタンスセグメンテーションモデルの構築は、コンピュータビジョンの重要な課題である。 データ拡張の活用はこの課題に対処するための有望な方向である。 ここでは,物体をランダムに画像に貼り付ける場合のCopy-Paste拡張([13, 12])の系統的研究を行う。 Copy-Pasteの以前の研究は、周囲の視覚的コンテキストをモデル化してオブジェクトを貼り付けていた。 しかし, 物体をランダムに貼り付ける単純な機構は十分良く, 強いベースラインの上にしっかりとした利得を与えることができる。 さらに,擬似ラベリングによる余分なデータを活用する半教師付き手法(例)でコピーペーストを付加することを示す。 自己訓練)。 COCOのインスタンスセグメンテーションでは、49.1マスクAPと57.3ボックスAP、+0.6マスクAPと+1.5ボックスAPの改善を実現している。 さらに、コピーペーストがlvisベンチマークの大幅な改善につながることを実証する。 我々のベースラインモデルは、まれなカテゴリで+3.6マスクapでlvis 2020チャレンジ入賞を上回っている。

Building instance segmentation models that are data-efficient and can handle rare object categories is an important challenge in computer vision. Leveraging data augmentations is a promising direction towards addressing this challenge. Here, we perform a systematic study of the Copy-Paste augmentation ([13, 12]) for instance segmentation where we randomly paste objects onto an image. Prior studies on Copy-Paste relied on modeling the surrounding visual context for pasting the objects. However, we find that the simple mechanism of pasting objects randomly is good enough and can provide solid gains on top of strong baselines. Furthermore, we show Copy-Paste is additive with semi-supervised methods that leverage extra data through pseudo labeling (e.g. self-training). On COCO instance segmentation, we achieve 49.1 mask AP and 57.3 box AP, an improvement of +0.6 mask AP and +1.5 box AP over the previous state-of-the-art. We further demonstrate that Copy-Paste can lead to significant improvements on the LVIS benchmark. Our baseline model outperforms the LVIS 2020 Challenge winning entry by +3.6 mask AP on rare categories.
翻訳日:2021-05-09 13:53:32 公開日:2020-12-13
# (参考訳) 仕様からの解説 [全文訳有]

Explanation from Specification ( http://arxiv.org/abs/2012.07179v1 )

ライセンス: CC BY 4.0
Harish Naik, Gy\"orgy Tur\'an(参考訳) XAIアルゴリズムの説明可能なコンポーネントは、しばしば線形モデルや決定木といった、よく知られたモデルの集合に由来する。 我々は、説明のタイプが仕様によって導かれるアプローチを定式化する。 仕様はユーザから導き出され、ユーザとのインタラクションや、他の領域からのコントリビューションを利用することもある。 仕様が得られた領域には、法医学、医学、科学の応用が含まれる。 ある領域で可能な仕様のメニューを提供することは、アルゴリズムデザイナーにとって探索的な知識表現と推論タスクであり、効率的な計算可能な説明モードの可能性と限界を理解することを目的としている。 議論理論を用いたベイズ的ネットワークの説明とグラフニューラルネットワークの説明の2つの例について論じる。 後者の場合、例えば分子を分類するための化学問合せ言語のような要求された説明の種類を特定するためにユーザーに利用可能な表現形式を持つ可能性を示す。 このアプローチは科学哲学における説明理論に動機付けられており、機械学習の役割に関する科学哲学における現在の疑問と関連づけられている。

Explainable components in XAI algorithms often come from a familiar set of models, such as linear models or decision trees. We formulate an approach where the type of explanation produced is guided by a specification. Specifications are elicited from the user, possibly using interaction with the user and contributions from other areas. Areas where a specification could be obtained include forensic, medical, and scientific applications. Providing a menu of possible types of specifications in an area is an exploratory knowledge representation and reasoning task for the algorithm designer, aiming at understanding the possibilities and limitations of efficiently computable modes of explanations. Two examples are discussed: explanations for Bayesian networks using the theory of argumentation, and explanations for graph neural networks. The latter case illustrates the possibility of having a representation formalism available to the user for specifying the type of explanation requested, for example, a chemical query language for classifying molecules. The approach is motivated by a theory of explanation in the philosophy of science, and it is related to current questions in the philosophy of science on the role of machine learning.
翻訳日:2021-05-09 13:22:09 公開日:2020-12-13
# 時系列画像による文脈因果関係の学習

Learning Contextual Causality from Time-consecutive Images ( http://arxiv.org/abs/2012.07138v1 )

ライセンス: Link先を確認
Hongming Zhang, Yintong Huo, Xinran Zhao, Yangqiu Song, Dan Roth(参考訳) 因果知識は多くの人工知能システムにとって不可欠である。 従来のテキストに基づく因果関係知識獲得手法は、通常、手間とコストのかかる人間のアノテーションを必要とする。 結果として、その規模はしばしば制限される。 さらに、アノテーションの間にコンテキストが提供されないため、結果として得られる因果関係の知識レコード(例:conceptnet)は、通常、コンテキストを考慮しない。 因果知識を得るためのよりスケーラブルな方法を探るため,本稿では,テキスト領域から飛び出し,視覚信号から因果知識を学習する可能性について検討する。 純粋なテキストベースのアプローチと比較すると、視覚信号からの因果関係の学習には、(1)因果関係知識は、テキスト内ではほとんど表現されないがビデオに富む常識知識に属する、(2)ビデオ内のほとんどのイベントは、自然に時間順に順序付けされ、因果関係の文脈特性を研究するコンテキストとして使用できる、という利点がある。 より詳しくは、まず高品質なデータセットVis-Causalを提案し、次に、優れた言語と視覚表現モデルと十分な訓練信号で、ビデオから意味のある因果的知識を自動的に発見できることを示す実験を行う。 さらに分析によって、因果関係の文脈的性質が実際に存在し、実際のアプリケーションで因果関係の知識を使いたい場合、それらを考慮することが重要であることが示され、視覚信号はそのような因果関係を学習するための良い情報源となる。

Causality knowledge is crucial for many artificial intelligence systems. Conventional textual-based causality knowledge acquisition methods typically require laborious and expensive human annotations. As a result, their scale is often limited. Moreover, as no context is provided during the annotation, the resulting causality knowledge records (e.g., ConceptNet) typically do not take the context into consideration. To explore a more scalable way of acquiring causality knowledge, in this paper, we jump out of the textual domain and investigate the possibility of learning contextual causality from the visual signal. Compared with pure text-based approaches, learning causality from the visual signal has the following advantages: (1) Causality knowledge belongs to the commonsense knowledge, which is rarely expressed in the text but rich in videos; (2) Most events in the video are naturally time-ordered, which provides a rich resource for us to mine causality knowledge from; (3) All the objects in the video can be used as context to study the contextual property of causal relations. In detail, we first propose a high-quality dataset Vis-Causal and then conduct experiments to demonstrate that with good language and visual representation models as well as enough training signals, it is possible to automatically discover meaningful causal knowledge from the videos. Further analysis also shows that the contextual property of causal relations indeed exists, taking which into consideration might be crucial if we want to use the causality knowledge in real applications, and the visual signal could serve as a good resource for learning such contextual causality.
翻訳日:2021-05-09 12:53:20 公開日:2020-12-13
# 会話型食料品における低資源タイトル圧縮のための判別事前学習

Discriminative Pre-training for Low Resource Title Compression in Conversational Grocery ( http://arxiv.org/abs/2012.06943v1 )

ライセンス: Link先を確認
Snehasish Mukherjee, Phaniram Sayapaneni, Shankar Subramanya(参考訳) スマート音声アシスタントの普及により、会話型ショッピングが一般的になった。 これは特に食料品のような低い考慮事項に当てはまる。 会話型食料品における中心的な問題は、会話中に素早く読み出すことができる短い製品タイトルの自動生成である。 手動ラベル付きデータセットと追加の製品機能を活用して、短いタイトルを自動的に生成するいくつかの教師付きモデルが文献で提案されている。 しかし、大量のラベル付きデータを得ることは高価であり、ほとんどの食料品のページは他のカテゴリほど機能豊富ではない。 この問題に対処するために,未ラベルデータを用いてコンテキスト対応の製品表現を学習し,低リソース環境においてもより優れたタイトル圧縮を実現するための事前学習型ソリューションを提案する。 タイトル圧縮タスクには,時間分散ソフトマックス層を有する自己減衰BiLSTMエンコーダネットワークを用いる。 学習済み単語埋め込みと学習可能な文字レベルの畳み込みを組み合わせたハイブリッド組込み層を用いて語彙ミスマッチ問題を克服する。 我々はこのネットワークを、多数の未ラベルの食料品のタイトルに対して、置き換えられた検出タスクの差別者として事前訓練する。 最後に、タイトル圧縮タスク用の小さなラベル付きデータセットで、変更することなく、このネットワークを微調整する。 Walmartのオンライン食料品カタログの実験では、BERTやXLNetのような最先端のモデルに匹敵するパフォーマンスを実現しています。 利用可能なトレーニングデータをすべて微調整すると、私たちのモデルは、最高のパフォーマンスモデルであるBERT-Baseを2.78%、XLNetを0.28%、F1スコアが0.8558に達します。 さらに、トレーニングデータの5%のみに微調整を許すと、F1スコアでBERT-Baseを24.3%上回ります。

The ubiquity of smart voice assistants has made conversational shopping commonplace. This is especially true for low consideration segments like grocery. A central problem in conversational grocery is the automatic generation of short product titles that can be read out fast during a conversation. Several supervised models have been proposed in the literature that leverage manually labeled datasets and additional product features to generate short titles automatically. However, obtaining large amounts of labeled data is expensive and most grocery item pages are not as feature-rich as other categories. To address this problem we propose a pre-training based solution that makes use of unlabeled data to learn contextual product representations which can then be fine-tuned to obtain better title compression even in a low resource setting. We use a self-attentive BiLSTM encoder network with a time distributed softmax layer for the title compression task. We overcome the vocabulary mismatch problem by using a hybrid embedding layer that combines pre-trained word embeddings with trainable character level convolutions. We pre-train this network as a discriminator on a replaced-token detection task over a large number of unlabeled grocery product titles. Finally, we fine tune this network, without any modifications, with a small labeled dataset for the title compression task. Experiments on Walmart's online grocery catalog show our model achieves performance comparable to state-of-the-art models like BERT and XLNet. When fine tuned on all of the available training data our model attains an F1 score of 0.8558 which lags the best performing model, BERT-Base, by 2.78% and XLNet by 0.28% only, while using 55 times lesser parameters than both. Further, when allowed to fine tune on 5% of the training data only, our model outperforms BERT-Base by 24.3% in F1 score.
翻訳日:2021-05-09 12:52:08 公開日:2020-12-13
# KVL-BERT:ビジュアルコモンセンス推論のための知識強化型視覚言語型BERT

KVL-BERT: Knowledge Enhanced Visual-and-Linguisti c BERT for Visual Commonsense Reasoning ( http://arxiv.org/abs/2012.07000v1 )

ライセンス: Link先を確認
Dandan Song, Siyi Ma, Zhanchen Sun, Sicheng Yang, Lejian Liao(参考訳) 推論は、完全な視覚理解への重要な能力である。 認知レベルの視覚的理解と推論能力を持つ機械を開発するために,視覚的コモンセンス推論(VCR)タスクを導入した。 VCRでは、ある画像に関する挑戦的な質問に対して、機械が正しく答え、その答えを正当化する根拠を与える必要がある。 画像コンテンツと自然言語の協調表現を学習するためのバックボーンとして,強力なBERTモデルを採用する手法は,VCRに有望な改善を示す。 しかし、ビジュアル・コモンセンス推論において、コモンセンスの知識を利用する既存の手法はどれも利用されていない。 常識知識の支援により、画像に必要となる情報が描かれていなくても、複雑な質問を認知的推論で答えることができる。 そこで我々は,コモンセンスの知識をクロスモーダルなBERTに組み込んで,KVL-BERT(Knowledge Enhanced Visual-Linguistic BERT)モデルを提案する。 視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。 原文の構造的情報と意味表現を予約するために, 入力シーケンスにおけるインジェクションされたコモンセンス知識と他の非関連成分との間の効果を弱めるために, 相対的な位置埋め込みとマスク自己注意を用いて提案する。 他のタスク固有のモデルや一般的なタスクに依存しない事前学習モデルと比較して、我々のKVL-BERTはそれらを大きなマージンで上回る。

Reasoning is a critical ability towards complete visual understanding. To develop machine with cognition-level visual understanding and reasoning abilities, the visual commonsense reasoning (VCR) task has been introduced. In VCR, given a challenging question about an image, a machine must answer correctly and then provide a rationale justifying its answer. The methods adopting the powerful BERT model as the backbone for learning joint representation of image content and natural language have shown promising improvements on VCR. However, none of the existing methods have utilized commonsense knowledge in visual commonsense reasoning, which we believe will be greatly helpful in this task. With the support of commonsense knowledge, complex questions even if the required information is not depicted in the image can be answered with cognitive reasoning. Therefore, we incorporate commonsense knowledge into the cross-modal BERT, and propose a novel Knowledge Enhanced Visual-and-Linguisti c BERT (KVL-BERT for short) model. Besides taking visual and linguistic contents as input, external commonsense knowledge extracted from ConceptNet is integrated into the multi-layer Transformer. In order to reserve the structural information and semantic representation of the original sentence, we propose using relative position embedding and mask-self-attention to weaken the effect between the injected commonsense knowledge and other unrelated components in the input sequence. Compared to other task-specific models and general task-agnostic pre-training models, our KVL-BERT outperforms them by a large margin.
翻訳日:2021-05-09 12:51:40 公開日:2020-12-13
# c2c-genda: スロット充填データ拡張のためのクラスタ間生成

C2C-GenDA: Cluster-to-Cluster Generation for Data Augmentation of Slot Filling ( http://arxiv.org/abs/2012.07004v1 )

ライセンス: Link先を確認
Yutai Hou, Sanyuan Chen, Wanxiang Che, Cheng Chen, Ting Liu(参考訳) 音声言語理解の基本モジュールであるスロットフィリングは、トレーニングデータの量と多様性に苦しむことが多い。 そこで本研究では,データ拡張のためのクラスタ間クラスタ生成フレームワークC2C-GenDAを提案する。 既存の発話を意味を保ちながら代替表現に再構成することで、トレーニングセットを拡大する。 C2C-GenDAは、同じ意味論の既存の複数の発話を共同で符号化し、同時に複数の未知の表現を復号する。 複数の新しい発話を共同生成することで、生成されたインスタンス間の関係を考慮し、多様性を促進することができる。 さらに、複数の既存の発話を符号化することで、C2Cは既存の表現をより広い視点で表現でき、既存のデータを複製する生成を減らすのに役立つ。 ATISデータセットとSnipsデータセットの実験では、C2C-GenDAによって強化されたインスタンスは、数百の訓練発話しか存在しない場合、それぞれ7.99 (11.9%)と5.76 (13.6%)のFスコアを改善する。

Slot filling, a fundamental module of spoken language understanding, often suffers from insufficient quantity and diversity of training data. To remedy this, we propose a novel Cluster-to-Cluster generation framework for Data Augmentation (DA), named C2C-GenDA. It enlarges the training set by reconstructing existing utterances into alternative expressions while keeping semantic. Different from previous DA works that reconstruct utterances one by one independently, C2C-GenDA jointly encodes multiple existing utterances of the same semantics and simultaneously decodes multiple unseen expressions. Jointly generating multiple new utterances allows to consider the relations between generated instances and encourages diversity. Besides, encoding multiple existing utterances endows C2C with a wider view of existing expressions, helping to reduce generation that duplicates existing data. Experiments on ATIS and Snips datasets show that instances augmented by C2C-GenDA improve slot filling by 7.99 (11.9%) and 5.76 (13.6%) F-scores respectively, when there are only hundreds of training utterances.
翻訳日:2021-05-09 12:51:15 公開日:2020-12-13
# 知識グラフ補完のためのコンテキスト強化エンティティと関係埋め込み

Context-Enhanced Entity and Relation Embedding for Knowledge Graph Completion ( http://arxiv.org/abs/2012.07011v1 )

ライセンス: Link先を確認
Ziyue Qiao, Zhiyuan Ning, Yi Du, Yuanchun Zhou(参考訳) 知識グラフ完成のためのほとんどの研究は、不完全知識グラフの欠落リンクを予測するために実体と関係の表現を学ぶ。 しかし、これらの手法は、エンティティと関係のコンテキスト情報の両方を十分に活用できない。 ここでは、構成する三つ子から実体と関係の文脈を抽出する。 本稿では,マルチホップにおけるエンティティコンテキストと関係コンテキストをそれぞれ効率的に集約するAggrEというモデルを提案し,知識グラフ補完のためのコンテキスト強化エンティティと関係埋め込みを学習する。 実験の結果、AggrEは既存のモデルと競合していることがわかった。

Most researches for knowledge graph completion learn representations of entities and relations to predict missing links in incomplete knowledge graphs. However, these methods fail to take full advantage of both the contextual information of entity and relation. Here, we extract contexts of entities and relations from the triplets which they compose. We propose a model named AggrE, which conducts efficient aggregations respectively on entity context and relation context in multi-hops, and learns context-enhanced entity and relation embeddings for knowledge graph completion. The experiment results show that AggrE is competitive to existing models.
翻訳日:2021-05-09 12:50:52 公開日:2020-12-13
# MEME:モデル抽出によるRNNモデル記述の生成

MEME: Generating RNN Model Explanations via Model Extraction ( http://arxiv.org/abs/2012.06954v1 )

ライセンス: Link先を確認
Dmitry Kazhdan, Botty Dimanov, Mateja Jamnik, Pietro Li\`o(参考訳) recurrent neural networks(rnn)は、さまざまなタスクで驚くべきパフォーマンスを達成している。 RNNベースのアプローチをさらに強化するための重要なステップは、説明可能性と解釈可能性を改善することだ。 本稿では,人間の理解可能な概念とその相互作用で表される解釈可能なモデルでRNNを近似できるモデル抽出手法MEMEを提案する。 本研究では,部屋占有率予測と病院内死亡率予測という2つの多変量連続データケーススタディに対してmemeをどのように適用できるかを実証する。 これらのケーススタディを用いて、我々の抽出したモデルは、解釈可能な概念相互作用を通じてRNNの意思決定を近似することにより、ローカルとグローバルの両方でRNNを解釈する方法を示す。

Recurrent Neural Networks (RNNs) have achieved remarkable performance on a range of tasks. A key step to further empowering RNN-based approaches is improving their explainability and interpretability. In this work we present MEME: a model extraction approach capable of approximating RNNs with interpretable models represented by human-understandable concepts and their interactions. We demonstrate how MEME can be applied to two multivariate, continuous data case studies: Room Occupation Prediction, and In-Hospital Mortality Prediction. Using these case-studies, we show how our extracted models can be used to interpret RNNs both locally and globally, by approximating RNN decision-making via interpretable concept interactions.
翻訳日:2021-05-09 12:50:19 公開日:2020-12-13
# 工場計画におけるポイントクラウドセグメンテーションのためのディープニューラルネットワークの不確かさ推定

Uncertainty Estimation in Deep Neural Networks for Point Cloud Segmentation in Factory Planning ( http://arxiv.org/abs/2012.07038v1 )

ライセンス: Link先を確認
Christina Petschnigg and Juergen Pilz(参考訳) デジタルファクトリーは、効率と有効性の観点から将来の生産システムにとって、間違いなく大きな可能性を秘めている。 実際の工場のデジタルコピーを実現するための重要な側面は、3Dデータに基づく複雑な屋内環境の理解である。 主要部品を含む正確な工場モデルを生成するために、すなわち、 部品、製品資産、プロセスの詳細を構築することで、デジタル化時に収集された3Dデータは、高度なディープラーニングの方法で処理できる。 本研究では,点群分割のための完全ベイズ型および近似ベイズ型ニューラルネットワークを提案する。 これにより、これらのネットワークにおける不確かさを推定する様々な方法が、生の3dポイントクラウド上のセグメンテーション結果をどのように改善するかを分析することができる。 ベイジアンモデルとベイジアンモデルの両方に対して、頻繁なモデルと比較して優れたモデル性能を達成する。 この性能差は、ネットワークの不確実性を予測に組み込むとさらに顕著になる。 評価には、ドイツの自動車工場で著者らが収集した科学データセットS3DISとデータセットを使用する。 本研究で提案する手法は,より正確なセグメンテーション結果をもたらし,不確実性情報の導入は,特に安全上重要な応用に適用できる。

The digital factory provides undoubtedly a great potential for future production systems in terms of efficiency and effectivity. A key aspect on the way to realize the digital copy of a real factory is the understanding of complex indoor environments on the basis of 3D data. In order to generate an accurate factory model including the major components, i.e. building parts, product assets and process details, the 3D data collected during digitalization can be processed with advanced methods of deep learning. In this work, we propose a fully Bayesian and an approximate Bayesian neural network for point cloud segmentation. This allows us to analyze how different ways of estimating uncertainty in these networks improve segmentation results on raw 3D point clouds. We achieve superior model performance for both, the Bayesian and the approximate Bayesian model compared to the frequentist one. This performance difference becomes even more striking when incorporating the networks' uncertainty in their predictions. For evaluation we use the scientific data set S3DIS as well as a data set, which was collected by the authors at a German automotive production plant. The methods proposed in this work lead to more accurate segmentation results and the incorporation of uncertainty information makes this approach especially applicable to safety critical applications.
翻訳日:2021-05-09 12:49:36 公開日:2020-12-13
# 生涯学習のための学習習慣共有

Learn-Prune-Share for Lifelong Learning ( http://arxiv.org/abs/2012.06956v1 )

ライセンス: Link先を確認
Zifeng Wang, Tong Jian, Kaushik Chowdhury, Yanzhi Wang, Jennifer Dy, Stratis Ioannidis(参考訳) 生涯学習では、逐次的にやってくる新しい分類タスクが存在する場合、モデル(ニューラルネットワーク分類器など)の維持と更新を希望する。 本稿では,破滅的な忘れ,パーシモニー,知識再利用の課題を同時に解決する学習原理共有(LPS)アルゴリズムを提案する。 LPSはADMMベースのプルーニング戦略を通じて、ネットワークをタスク固有のパーティションに分割する。 これにより忘れられなくなり、パルシモニーは維持される。 さらに,新たな知識共有方式をADMM最適化フレームワークに統合した。 これにより、エンドツーエンドで適応的な知識共有が可能になる。 本手法の有効性を実証するために,生涯学習ベンチマークデータセット2セットと実世界無線フィンガープリンティングデータセットの総合実験を行った。 我々の実験は、LPSが複数の最先端の競合より一貫して優れていることを示している。

In lifelong learning, we wish to maintain and update a model (e.g., a neural network classifier) in the presence of new classification tasks that arrive sequentially. In this paper, we propose a learn-prune-share (LPS) algorithm which addresses the challenges of catastrophic forgetting, parsimony, and knowledge reuse simultaneously. LPS splits the network into task-specific partitions via an ADMM-based pruning strategy. This leads to no forgetting, while maintaining parsimony. Moreover, LPS integrates a novel selective knowledge sharing scheme into this ADMM optimization framework. This enables adaptive knowledge sharing in an end-to-end fashion. Comprehensive experimental results on two lifelong learning benchmark datasets and a challenging real-world radio frequency fingerprinting dataset are provided to demonstrate the effectiveness of our approach. Our experiments show that LPS consistently outperforms multiple state-of-the-art competitors.
翻訳日:2021-05-09 12:49:05 公開日:2020-12-13
# MSAF: Multimodal Split Attention Fusion

MSAF: Multimodal Split Attention Fusion ( http://arxiv.org/abs/2012.07175v1 )

ライセンス: Link先を確認
Lang Su, Chuqing Hu, Guofa Li, Dongpu Cao(参考訳) マルチモーダル学習は、周囲の世界を知覚するために使用される人間のマルチ感覚システムの推論過程を模倣する。 予測を行う間、人間の脳は複数の情報ソースから重要なヒントを関連付ける傾向がある。 本研究では,すべてのモダリティにまたがるより帰属的な特徴を強調する新しいマルチモーダル融合モジュールを提案する。 具体的には,Multimodal Split Attention Fusion (MSAF)モジュールは,各モードをチャネル単位で等しい特徴ブロックに分割し,特徴ブロックをまたいだ各チャネルのソフトアテンションを生成するための共同表現を生成する。 さらに、msafモジュールはcnnとrnnの両方に適した様々な空間次元とシーケンス長の特徴と互換性を持つように設計されている。 したがって、MSAFは任意の単調ネットワークのヒューズ機能に容易に追加でき、既存の事前訓練された単調モデル重みを利用することができる。 融合モジュールの有効性を示すため,感情認識,感情分析,行動認識のためのMSAFを用いた3つのマルチモーダルネットワークを設計した。 提案手法は,各タスクにおける競合的な結果を達成し,アプリケーション固有のネットワークやマルチモーダル融合ベンチマークより優れている。

Multimodal learning mimics the reasoning process of the human multi-sensory system, which is used to perceive the surrounding world. While making a prediction, the human brain tends to relate crucial cues from multiple sources of information. In this work, we propose a novel multimodal fusion module that learns to emphasize more contributive features across all modalities. Specifically, the proposed Multimodal Split Attention Fusion (MSAF) module splits each modality into channel-wise equal feature blocks and creates a joint representation that is used to generate soft attention for each channel across the feature blocks. Further, the MSAF module is designed to be compatible with features of various spatial dimensions and sequence lengths, suitable for both CNNs and RNNs. Thus, MSAF can be easily added to fuse features of any unimodal networks and utilize existing pretrained unimodal model weights. To demonstrate the effectiveness of our fusion module, we design three multimodal networks with MSAF for emotion recognition, sentiment analysis, and action recognition tasks. Our approach achieves competitive results in each task and outperforms other application-specific networks and multimodal fusion benchmarks.
翻訳日:2021-05-09 12:48:55 公開日:2020-12-13
# ディープ・オートエンコーダ・ニューラルネットを用いた平面視における感性財務会計データの漏洩

Leaking Sensitive Financial Accounting Data in Plain Sight using Deep Autoencoder Neural Networks ( http://arxiv.org/abs/2012.07110v1 )

ライセンス: Link先を確認
Marco Schreyer, Chistian Schulze, Damian Borth(参考訳) 今日では,企業資源計画(ERP)システムでは,関連する取引や顧客マスタデータ,戦略的販売価格情報など,膨大な量の機密情報を収集している。 こうした情報漏えいは、事件の件数や経験者への評判の被害が増加し続けており、企業にとって深刻な脅威となる。 同時に、ディープラーニング研究における発見は、機械学習モデルが悪意を持って悪用され、新たな攻撃ベクターを生成する可能性があることを明らかにした。 このような攻撃の性質を理解することは、(内部)監査・不正検査の実践においてますます重要になる。 このような認識の作成は、特に、最先端の「コンピュータ支援監査技術」(CAAT)によって検出されることのない深層学習に基づくステガノグラフィー技術を用いて不正なデータ漏洩を抑える。 本稿では,センシティブな会計データを漏洩するように設計された実世界の‘threatモデル’を紹介する。 さらに,3つのニューラルネットワークで構成された深層ステガノグラフィープロセスでは,これらのデータを非干渉的な「日々の」画像に隠すように訓練できることを示した。 最後に, 公開されている2つの実世界の支払いデータセットについて, 質的, 定量的評価を行う。

Nowadays, organizations collect vast quantities of sensitive information in `Enterprise Resource Planning' (ERP) systems, such as accounting relevant transactions, customer master data, or strategic sales price information. The leakage of such information poses a severe threat for companies as the number of incidents and the reputational damage to those experiencing them continue to increase. At the same time, discoveries in deep learning research revealed that machine learning models could be maliciously misused to create new attack vectors. Understanding the nature of such attacks becomes increasingly important for the (internal) audit and fraud examination practice. The creation of such an awareness holds in particular for the fraudulent data leakage using deep learning-based steganographic techniques that might remain undetected by state-of-the-art `Computer Assisted Audit Techniques' (CAATs). In this work, we introduce a real-world `threat model' designed to leak sensitive accounting data. In addition, we show that a deep steganographic process, constituted by three neural networks, can be trained to hide such data in unobtrusive `day-to-day' images. Finally, we provide qualitative and quantitative evaluations on two publicly available real-world payment datasets.
翻訳日:2021-05-09 12:48:03 公開日:2020-12-13
# k$-variance:分散というクラスタ化された概念

$k$-Variance: A Clustered Notion of Variance ( http://arxiv.org/abs/2012.06958v1 )

ライセンス: Link先を確認
Justin Solomon, Kristjan Greenewald, Haikady N. Nagaraja(参考訳) 我々は,ランダム二成分マッチングの機構に基づく分散の一般化である $k$-variance を導入する。 $K$-varianceは、分布から互いに2組の$k$サンプルをマッチングし、その値に関するグローバルな情報ではなく局所的な情報を、$k$の増加として取得する、という期待のコストを測定する。 k$分散の定義と基本的な性質の証明に加えて、一次元測度、クラスター測度、および$\mathbb r^n$ の低次元部分集合に集中した測度を含むいくつかの重要なケースで、この量の詳細分析を行う。 分布形状を要約する新しい方法によって動機づけられた実験とオープン問題で締めくくった。

We introduce $k$-variance, a generalization of variance built on the machinery of random bipartite matchings. $K$-variance measures the expected cost of matching two sets of $k$ samples from a distribution to each other, capturing local rather than global information about a measure as $k$ increases; it is easily approximated stochastically using sampling and linear programming. In addition to defining $k$-variance and proving its basic properties, we provide in-depth analysis of this quantity in several key cases, including one-dimensional measures, clustered measures, and measures concentrated on low-dimensional subsets of $\mathbb R^n$. We conclude with experiments and open problems motivated by this new way to summarize distributional shape.
翻訳日:2021-05-09 12:47:35 公開日:2020-12-13
# 構文解析を用いたニューラルネットワークを用いたTSの構文表現学習

Syntactic representation learning for neural network based TTS with syntactic parse tree traversal ( http://arxiv.org/abs/2012.06971v1 )

ライセンス: Link先を確認
Changhe Song, Jingbei Li, Yixuan Zhou, Zhiyong Wu, Helen Meng(参考訳) 文テキストの構文構造は、音声の韻律構造と相関し、テキスト音声(TTS)システムの韻律と自然性を改善するのに不可欠である。 現在、TSシステムは通常、専門家の知識に基づいて手動で設計された機能に構文構造情報を組み込もうとしている。 本稿では,構文解析木トラバーサルに基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。 2つの構成ラベル配列は、構成構文木から左第一および右第一トラバーサルを介して線形化される。 そして、対応する一方向ゲートリカレントユニット(GRU)ネットワークにより、各構成ラベルシーケンスから単語レベルで構文表現を抽出する。 一方, 核ノルム最大化損失は, 成分ラベルの識別性と多様性を高めるために導入された。 アップサンプリング構文表現と音素埋め込みは、タコトロン2のエンコーダ入力として結合される。 その結果,提案手法の有効性が示され,平均世論スコア(MOS)は3.70から3.82に増加し,ABX選好はベースラインに比べて17%以上増加した。 さらに,複数の構文解析木を持つ文に対しては,合成音声から韻律的差異を明瞭に認識することができる。

Syntactic structure of a sentence text is correlated with the prosodic structure of the speech that is crucial for improving the prosody and naturalness of a text-to-speech (TTS) system. Nowadays TTS systems usually try to incorporate syntactic structure information with manually designed features based on expert knowledge. In this paper, we propose a syntactic representation learning method based on syntactic parse tree traversal to automatically utilize the syntactic structure information. Two constituent label sequences are linearized through left-first and right-first traversals from constituent parse tree. Syntactic representations are then extracted at word level from each constituent label sequence by a corresponding uni-directional gated recurrent unit (GRU) network. Meanwhile, nuclear-norm maximization loss is introduced to enhance the discriminability and diversity of the embeddings of constituent labels. Upsampled syntactic representations and phoneme embeddings are concatenated to serve as the encoder input of Tacotron2. Experimental results demonstrate the effectiveness of our proposed approach, with mean opinion score (MOS) increasing from 3.70 to 3.82 and ABX preference exceeding by 17% compared with the baseline. In addition, for sentences with multiple syntactic parse trees, prosodic differences can be clearly perceived from the synthesized speeches.
翻訳日:2021-05-09 12:47:23 公開日:2020-12-13
# ニューラルセマンティクス解析のための反復発話セグメンテーション

Iterative Utterance Segmentation for Neural Semantic Parsing ( http://arxiv.org/abs/2012.07019v1 )

ライセンス: Link先を確認
Yinuo Guo, Zeqi Lin, Jian-Guang Lou, Dongmei Zhang(参考訳) ニューラル・セマンティクス・パーサーは通常、合成性の原則を活用できないため、長い複雑な発話を正しい意味表現に解析できない。 そこで本研究では,反復発話セグメンテーションによるニューラルセマンティクスの高速化のための新しい枠組みを提案する。 入力発話が与えられた場合、我々のフレームワークは2つのニューラルネットワークモジュールの間を反復する: 発話からスパンを分割するセグメンタと、スパンを部分的な意味表現にマッピングするパーサである。 そして、これらの中間解析結果を最終意味表現に構成する。 1つの重要な利点は、このフレームワークが手作りのテンプレートや、発話セグメンテーションのためのラベル付きデータを必要としないことである。 Geo, ComplexWebQuestions, Formulasの実験は、我々のフレームワークが異なるドメインにおけるニューラルセマンティックパーサのパフォーマンスを一貫して改善できることを示しています。 Geo 63.1 to 81.2, Formulas 59.7 to 72.7, ComplexWebQuestions 27.1 to 56.3。

Neural semantic parsers usually fail to parse long and complex utterances into correct meaning representations, due to the lack of exploiting the principle of compositionality. To address this issue, we present a novel framework for boosting neural semantic parsers via iterative utterance segmentation. Given an input utterance, our framework iterates between two neural modules: a segmenter for segmenting a span from the utterance, and a parser for mapping the span into a partial meaning representation. Then, these intermediate parsing results are composed into the final meaning representation. One key advantage is that this framework does not require any handcraft templates or additional labeled data for utterance segmentation: we achieve this through proposing a novel training method, in which the parser provides pseudo supervision for the segmenter. Experiments on Geo, ComplexWebQuestions, and Formulas show that our framework can consistently improve performances of neural semantic parsers in different domains. On data splits that require compositional generalization, our framework brings significant accuracy gains: Geo 63.1 to 81.2, Formulas 59.7 to 72.7, ComplexWebQuestions 27.1 to 56.3.
翻訳日:2021-05-09 12:47:04 公開日:2020-12-13
# SPARTA: アラビックタルクのための話者プロファイリング

SPARTA: Speaker Profiling for ARabic TAlk ( http://arxiv.org/abs/2012.07073v1 )

ライセンス: Link先を確認
Wael Farhan, Muhy Eddin Za'ter, Qusai Abu Obaidah, Hisham al Bataineh, Zyad Sober, Hussein T. Al-Natsheh(参考訳) 本稿では,アラビア語音声の3つの話者特性(性別,感情,方言)を自動推定する手法を提案する。 異なるテキスト分類タスクにおいて有望な結果を示した後、アラビア語音声分類タスクにおいて、マルチタスク学習(MTL)アプローチを用いる。 データセットは6つの公開データセットから組み立てられた。 まず、データセットを編集し、徹底的に列車、開発、テストセット(一般公開)に分割し、各タスクとデータセットのベンチマークを紙全体に設定した。 次に、Long Short Term Memory(LSTM)、Convolutional Neural Network(CNN)、Fully-Connected Neural Network(FCNN)の5つの異なるタイプの特徴として、2つの生特徴(MFCCとMEL)と3つの事前学習ベクタ(i-vector、d-vector、x-vectors)が探索された。 MFCCとMELでは、FCNNはトレーニング済みベクトル上で探索され、これらのネットワークのハイパーパラメータは変化し、各データセットとタスクに最適な結果が得られる。 MTLは3つのタスクと6つのデータセットに対して1つのタスク学習(STL)アプローチで評価された。 本論文で使用するデータおよび事前学習済みモデルはすべて利用可能であり、一般に入手することができる。

This paper proposes a novel approach to an automatic estimation of three speaker traits from Arabic speech: gender, emotion, and dialect. After showing promising results on different text classification tasks, the multi-task learning (MTL) approach is used in this paper for Arabic speech classification tasks. The dataset was assembled from six publicly available datasets. First, The datasets were edited and thoroughly divided into train, development, and test sets (open to the public), and a benchmark was set for each task and dataset throughout the paper. Then, three different networks were explored: Long Short Term Memory (LSTM), Convolutional Neural Network (CNN), and Fully-Connected Neural Network (FCNN) on five different types of features: two raw features (MFCC and MEL) and three pre-trained vectors (i-vectors, d-vectors, and x-vectors). LSTM and CNN networks were implemented using raw features: MFCC and MEL, where FCNN was explored on the pre-trained vectors while varying the hyper-parameters of these networks to obtain the best results for each dataset and task. MTL was evaluated against the single task learning (STL) approach for the three tasks and six datasets, in which the MTL and pre-trained vectors almost constantly outperformed STL. All the data and pre-trained models used in this paper are available and can be acquired by the public.
翻訳日:2021-05-09 12:46:42 公開日:2020-12-13
# Mask-Align: 自己監督型ニューラルワードアライメント

Mask-Align: Self-Supervised Neural Word Alignment ( http://arxiv.org/abs/2012.07162v1 )

ライセンス: Link先を確認
Chi Chen, Maosong Sun, and Yang Liu(参考訳) 近年,ニューラルワードアライメント手法が注目されている。 これらの手法は通常機械翻訳モデルから単語アライメントを抽出する。 しかし、対象とする将来のコンテキストが後者で利用可能であるため、翻訳タスクとアライメントタスクの間にはギャップがある。 本稿では,単語アライメントタスク用に設計された自己教師付きモデルであるmask-alignを提案する。 我々のモデルでは,各トークンを並列にマスクし,予測し,教師付き損失を伴わずに高品質なアライメントを抽出する。 さらに,特別なトークンに対する予期せぬ高い注意重みの問題を軽減するために,漏洩注意を導入する。 4つの言語対の実験により、我々のモデルは既存の教師なしの神経ベースラインを著しく上回り、新しい最先端の結果が得られることが示された。

Neural word alignment methods have received increasing attention recently. These methods usually extract word alignment from a machine translation model. However, there is a gap between translation and alignment tasks, since the target future context is available in the latter. In this paper, we propose Mask-Align, a self-supervised model specifically designed for the word alignment task. Our model parallelly masks and predicts each target token, and extracts high-quality alignments without any supervised loss. In addition, we introduce leaky attention to alleviate the problem of unexpected high attention weights on special tokens. Experiments on four language pairs show that our model significantly outperforms all existing unsupervised neural baselines and obtains new state-of-the-art results.
翻訳日:2021-05-09 12:46:15 公開日:2020-12-13
# 適応的階層変形による人間のポーズ伝達

Human Pose Transfer by Adaptive Hierarchical Deformation ( http://arxiv.org/abs/2012.06940v1 )

ライセンス: Link先を確認
Jinsong Zhang, Xingzi Liu, Kun Li(参考訳) 人間のポーズ転送は、不整合画像生成タスクとして、非常に難しい。 既存の方法は入力情報を効果的に利用できないため、髪や衣服のスタイルや形状を保存できないことが多い。 本稿では,二つの階層的変形レベルを有する適応型ポーズ伝達ネットワークを提案する。 第1のレベルは、ターゲットポーズに整合した人間の意味解析を生成し、第2のレベルは、ターゲットポーズにおける最終テクスチャ化された人物イメージを、セマンティックガイダンスで生成する。 すべての画素を有効な情報として扱うバニラ畳み込みの欠点を回避するため,両レベルのゲート畳み込みを用いて重要な特徴を動的に選択し,画像層を層単位で適応的に変形させる。 私たちのモデルはパラメータがほとんどなく、収束が速い。 実験により,本モデルは,最先端手法よりも少ないパラメータで,より整合性のある髪,顔,衣服で良好な性能が得られることが示された。 また,本手法は衣服の質感伝達にも応用できる。

Human pose transfer, as a misaligned image generation task, is very challenging. Existing methods cannot effectively utilize the input information, which often fail to preserve the style and shape of hair and clothes. In this paper, we propose an adaptive human pose transfer network with two hierarchical deformation levels. The first level generates human semantic parsing aligned with the target pose, and the second level generates the final textured person image in the target pose with the semantic guidance. To avoid the drawback of vanilla convolution that treats all the pixels as valid information, we use gated convolution in both two levels to dynamically select the important features and adaptively deform the image layer by layer. Our model has very few parameters and is fast to converge. Experimental results demonstrate that our model achieves better performance with more consistent hair, face and clothes with fewer parameters than state-of-the-art methods. Furthermore, our method can be applied to clothing texture transfer.
翻訳日:2021-05-09 12:46:04 公開日:2020-12-13
# MiniVLM: より小型で高速なビジョンランゲージモデル

MiniVLM: A Smaller and Faster Vision-Language Model ( http://arxiv.org/abs/2012.06946v1 )

ライセンス: Link先を確認
Jianfeng Wang and Xiaowei Hu and Pengchuan Zhang and Xiujun Li and Lijuan Wang and Lei Zhang and Jianfeng Gao and Zicheng Liu(参考訳) 近年の視覚言語(VL)研究は、トランスフォーマーモデルを用いた大量の画像テキストペアから一般的な表現を学習し、下流のVLタスクを微調整することによって、顕著な進歩を示している。 既存の研究は、大規模な事前訓練モデルで高い精度を達成することに重点を置いているが、軽量モデルの構築は実際は非常に価値が高いが、調査は少ない。 本稿では,より小型で高速なVLモデルMiniVLMを提案する。 MiniVLMは、視覚特徴抽出器とトランスフォーマーベースの視覚言語融合モジュールの2つのモジュールで構成されている。 本研究では,1段階のEfficientDetネットワークにインスパイアされた2段階の高効率機能エクストラクタ(TEE)を設計し,ベースラインモデルと比較して視覚的特徴抽出の時間コストを95%削減する。 我々は、異なるコンパクトBERTモデルを比較した後、トランスモジュールの計算コストを削減するために、MiniLM構造を採用する。 さらに,最先端キャプションモデルによって擬似ラベル付けされた7M$ Open Imagesデータを追加することで,MiniVLMの事前学習を改善する。 また,強いタグ付けモデルから得られる高品質な画像タグを事前訓練し,モダリティ間のアライメントを向上させる。 大きなモデルは、微調整や推論のオーバーヘッドを追加することなくオフラインで使用される。 上記の設計選択により、MiniVLMはモデルサイズを7,3 %、推論時間コストを9,4 %、複数のVLタスクの精度を9,4-97 %に抑えることができる。 私たちはMiniVLMが最先端のアプリケーションに最先端のVL研究を簡単に利用できるようにすることを期待しています。

Recent vision-language (VL) studies have shown remarkable progress by learning generic representations from massive image-text pairs with transformer models and then fine-tuning on downstream VL tasks. While existing research has been focused on achieving high accuracy with large pre-trained models, building a lightweight model is of great value in practice but is less explored. In this paper, we propose a smaller and faster VL model, MiniVLM, which can be finetuned with good performance on various downstream tasks like its larger counterpart. MiniVLM consists of two modules, a vision feature extractor and a transformer-based vision-language fusion module. We design a Two-stage Efficient feature Extractor (TEE), inspired by the one-stage EfficientDet network, to significantly reduce the time cost of visual feature extraction by $95\%$, compared to a baseline model. We adopt the MiniLM structure to reduce the computation cost of the transformer module after comparing different compact BERT models. In addition, we improve the MiniVLM pre-training by adding $7M$ Open Images data, which are pseudo-labeled by a state-of-the-art captioning model. We also pre-train with high-quality image tags obtained from a strong tagging model to enhance cross-modality alignment. The large models are used offline without adding any overhead in fine-tuning and inference. With the above design choices, our MiniVLM reduces the model size by $73\%$ and the inference time cost by $94\%$ while being able to retain $94-97\%$ of the accuracy on multiple VL tasks. We hope that MiniVLM helps ease the use of the state-of-the-art VL research for on-the-edge applications.
翻訳日:2021-05-09 12:45:50 公開日:2020-12-13
# 教師なし領域適応のためのbi-classifier決定性最大化

Bi-Classifier Determinacy Maximization for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2012.06995v1 )

ライセンス: Link先を確認
Shuang Li, Fangrui Lv, Binhui Xie, Chi Harold Liu, Jian Liang, Chen Qin(参考訳) 教師なしのドメイン適応は、よく理解されたソースドメインから未理解のターゲットドメインへ知識を転送する問題に挑戦する。 近年,bi-classifierを用いたadversarial learningがクロスドメイン分布の接近に有効であることが証明されている。 従来のアプローチでは、二分類器間の不一致を利用して転送可能な表現を学習するが、それらはしばしば対象領域における分類器の決定性を無視する。 本稿では,この問題に取り組むために,単純かつ効果的な手法であるbi-classifier determinacy maximization(bcdm)を提案する。 対象標本は決定境界によって常に区別できないという観察に動機付けられ、提案したBCDMでは、異なる対象予測のクラス関係として分類器の差異を定式化し、対象特徴識別性に対する制約を暗黙的に導入する新しい分類器決定性(CDD)メトリクスを設計する。 この目的のために、bcdmは、目標予測出力の一貫性を奨励して識別表現を生成し、一方、予測の多様性を敵対的に保持することができる。 さらに、CDDの特性と、BCDMの一般化境界の理論的保証はどちらも精巧である。 大規模な実験により、BCDMは既存の最先端ドメイン適応法と好適に比較できることが示された。

Unsupervised domain adaptation challenges the problem of transferring knowledge from a well-labelled source domain to an unlabelled target domain. Recently,adversarial learning with bi-classifier has been proven effective in pushing cross-domain distributions close. Prior approaches typically leverage the disagreement between bi-classifier to learn transferable representations, however, they often neglect the classifier determinacy in the target domain, which could result in a lack of feature discriminability. In this paper, we present a simple yet effective method, namely Bi-Classifier Determinacy Maximization(BCDM), to tackle this problem. Motivated by the observation that target samples cannot always be separated distinctly by the decision boundary, here in the proposed BCDM, we design a novel classifier determinacy disparity (CDD) metric, which formulates classifier discrepancy as the class relevance of distinct target predictions and implicitly introduces constraint on the target feature discriminability. To this end, the BCDM can generate discriminative representations by encouraging target predictive outputs to be consistent and determined, meanwhile, preserve the diversity of predictions in an adversarial manner. Furthermore, the properties of CDD as well as the theoretical guarantees of BCDM's generalization bound are both elaborated. Extensive experiments show that BCDM compares favorably against the existing state-of-the-art domain adaptation methods.
翻訳日:2021-05-09 12:44:55 公開日:2020-12-13
# PoNA: Pose-guided Non-local Attention for Human Pose Transfer

PoNA: Pose-guided Non-local Attention for Human Pose Transfer ( http://arxiv.org/abs/2012.07049v1 )

ライセンス: Link先を確認
Kun Li, Jinsong Zhang, Yebin Liu, Yu-Kun Lai, Qionghai Dai(参考訳) ヒトのポーズ転送は、特定の人物の外観をターゲットのポーズに移すことを目的としており、多くのアプリケーションにおいて非常に困難で重要なものである。 以前の作業では、ポーズ機能のガイダンスを無視したり、ローカルアテンションメカニズムのみを使用していたりすることで、不明瞭でぼやけた結果につながる。 本稿では, 簡易ブロックを用いたGAN(Generative Adversarial Network)を用いた新しいポーズ転送手法を提案する。 各ブロックにおいて、より重要な画像特徴の領域を選択するための長距離依存スキームを備えたポーズ誘導非局所注意機構(PoNA)を提案する。 また、ポーズ機能や画像機能をより活用するために、予め設定されたポーズ機能更新とポーズ機能更新をデザインする。 私たちのネットワークはシンプルで安定しており、トレーニングも簡単です。 Market-1501およびDeepFashionデータセットの定量的および定性的な結果から,本モデルの有効性と有効性を示した。 我々のモデルは最先端の手法と比較して、よりシャープでよりリアルな画像を生成するが、パラメータは少なく、高速である。 さらに、生成した画像は、人物の再識別におけるデータ不足を軽減するのに役立つ。

Human pose transfer, which aims at transferring the appearance of a given person to a target pose, is very challenging and important in many applications. Previous work ignores the guidance of pose features or only uses local attention mechanism, leading to implausible and blurry results. We propose a new human pose transfer method using a generative adversarial network (GAN) with simplified cascaded blocks. In each block, we propose a pose-guided non-local attention (PoNA) mechanism with a long-range dependency scheme to select more important regions of image features to transfer. We also design pre-posed image-guided pose feature update and post-posed pose-guided image feature update to better utilize the pose and image features. Our network is simple, stable, and easy to train. Quantitative and qualitative results on Market-1501 and DeepFashion datasets show the efficacy and efficiency of our model. Compared with state-of-the-art methods, our model generates sharper and more realistic images with rich details, while having fewer parameters and faster speed. Furthermore, our generated images can help to alleviate data insufficiency for person re-identification.
翻訳日:2021-05-09 12:44:06 公開日:2020-12-13
# 組込みデバイスにおけるロバストリアルタイム歩行者検出

Robust Real-Time Pedestrian Detection on Embedded Devices ( http://arxiv.org/abs/2012.07072v1 )

ライセンス: Link先を確認
Mohamed Afifi, Yara Ali, Karim Amer, Mahmoud Shaker, Mohamed Elhelw(参考訳) ロボットやドローンなどの組み込みデバイス上の歩行者の検出には、道路の交差点の監視、セキュリティ、群衆の監視、監視など、多くの応用がある。 しかし、カメラの視点が継続的に変化し、オブジェクトの外観が変化し、組込みシステムに適した軽量なアルゴリズムの必要性が問題となる。 本稿では,多くの映像における歩行者検出のためのロバストな枠組みを提案する。 このフレームワークは、異なる画像領域で微細かつ粗い検出を行い、時間的および空間的特性を利用して、埋め込み基板上での精度とリアルタイム性能の向上を実現する。 このフレームワークはYolo-v3オブジェクト検出[1]をバックボーン検出器として使用し、Nvidia Jetson TX2組み込みボード上で動作するが、他の検出器やボードも使用できる。 このフレームワークのパフォーマンスは、2つの確立したデータセットで実証され、CVPR 2019 Embedded Real-Time Inference (ERTI) Challengeで2位にランクインした。

Detection of pedestrians on embedded devices, such as those on-board of robots and drones, has many applications including road intersection monitoring, security, crowd monitoring and surveillance, to name a few. However, the problem can be challenging due to continuously-changin g camera viewpoint and varying object appearances as well as the need for lightweight algorithms suitable for embedded systems. This paper proposes a robust framework for pedestrian detection in many footages. The framework performs fine and coarse detections on different image regions and exploits temporal and spatial characteristics to attain enhanced accuracy and real time performance on embedded boards. The framework uses the Yolo-v3 object detection [1] as its backbone detector and runs on the Nvidia Jetson TX2 embedded board, however other detectors and/or boards can be used as well. The performance of the framework is demonstrated on two established datasets and its achievement of the second place in CVPR 2019 Embedded Real-Time Inference (ERTI) Challenge.
翻訳日:2021-05-09 12:43:48 公開日:2020-12-13
# EfficientPose: ニューラルネットワークによる効率的な人文推定

EfficientPose: Efficient Human Pose Estimation with Neural Architecture Search ( http://arxiv.org/abs/2012.07086v1 )

ライセンス: Link先を確認
Wenqiang Zhang, Jiemin Fang, Xinggang Wang, Wenyu Liu(参考訳) 画像とビデオからの人間のポーズ推定は多くのマルチメディアアプリケーションにおいて重要な課題である。 従来の手法では性能は高いが,効率を考慮に入れることはめったにないため,資源制約されたデバイス上でのネットワークの実装が困難である。 現在、リアルタイムマルチメディアアプリケーションはより良いインタラクションのためのより効率的なモデルを求めています。 さらに、ポーズ推定のためのほとんどのディープニューラルネットワークは、画像分類用に設計されたネットワークを直接バックボーンとして再利用する。 本稿では,効率的なバックボーンと効率的なヘッドの2つの部分を含む人間のポーズ推定を目的とした効率的なフレームワークを提案する。 本稿では,ニューラルネットワーク探索法の実装により,ポーズ推定のためのバックボーンネットワーク設計をカスタマイズし,精度を損なうことなく計算コストを削減する。 効率のよい頭部では,変換された畳み込みをスリムにし,最終予測の性能向上のための空間情報補正モジュールを提案する。 実験では,MPIIおよびCOCOデータセットを用いたネットワークの評価を行った。 我々の最小モデルは、MPIIで88.1%のPCKh@0.5を持つ0.65 GFLOPしか持たず、我々の大きなモデルは2 GFLOPしか持たず、その精度は最先端の大規模モデル、すなわち9.5 GFLOPを持つHRNetと競合する。

Human pose estimation from image and video is a vital task in many multimedia applications. Previous methods achieve great performance but rarely take efficiency into consideration, which makes it difficult to implement the networks on resource-constrained devices. Nowadays real-time multimedia applications call for more efficient models for better interactions. Moreover, most deep neural networks for pose estimation directly reuse the networks designed for image classification as the backbone, which are not yet optimized for the pose estimation task. In this paper, we propose an efficient framework targeted at human pose estimation including two parts, the efficient backbone and the efficient head. By implementing the differentiable neural architecture search method, we customize the backbone network design for pose estimation and reduce the computation cost with negligible accuracy degradation. For the efficient head, we slim the transposed convolutions and propose a spatial information correction module to promote the performance of the final prediction. In experiments, we evaluate our networks on the MPII and COCO datasets. Our smallest model has only 0.65 GFLOPs with 88.1% PCKh@0.5 on MPII and our large model has only 2 GFLOPs while its accuracy is competitive with the state-of-the-art large model, i.e., HRNet with 9.5 GFLOPs.
翻訳日:2021-05-09 12:43:34 公開日:2020-12-13
# ヒートマップ型ジグソーパズルの学習による2次元ポーズ推定の事前学習

Learning Heatmap-Style Jigsaw Puzzles Provides Good Pretraining for 2D Human Pose Estimation ( http://arxiv.org/abs/2012.07101v1 )

ライセンス: Link先を確認
Kun Zhang, Rui Wu, Ping Yao, Kai Deng, Ding Li, Renbiao Liu, Chuanguang Yang, Ge Chen, Min Du, Tianyao Zheng(参考訳) 2D人間のポーズ推定の目標は、入力された2D画像から身体部分のキーポイントを見つけることである。 ポーズ推定のための最先端の手法は通常、畳み込みニューラルネットワークを学習するためのラベルとしてキーポイントからピクセル単位でヒートマップを構築する。 2次元ポーズ推定タスクは,画像パッチ間の文脈関係に大きく依存するので,2次元ポーズ推定ネットワークを事前学習するための自己教師あり手法を提案する。 具体的には、シャッフルパッチからなる画像から各パッチの位置を学習することを目的とした、私たちのプレテキストタスクとして、Heatmap-Style Jigsaw Puzzles (HSJP) 問題を提案する。 事前トレーニングプロセスでは、さらに大きなImageNetデータセットを導入するのではなく、MS-COCOの人物インスタンスの画像のみを使用します。 パッチ位置のためのヒートマップスタイルのラベルを設計し、学習プロセスは非競合的である。 HSJPプリテキストタスクによって学習された重みは、2次元の人間のポーズ推定器のバックボーンとして利用され、MS-COCO人間のキーポイントデータセットに微調整される。 HRNetとSimpleBaselineの2つの人気かつ強力な2次元ポーズ推定器を用いて,MS-COCO検証とtest-devデータセットでmAPスコアを評価する。 実験の結果,自己教師型事前学習を用いた下流ポーズ推定器は,スクラッチからトレーニングしたモデルよりもはるかに優れた性能が得られることがわかった。

The target of 2D human pose estimation is to locate the keypoints of body parts from input 2D images. State-of-the-art methods for pose estimation usually construct pixel-wise heatmaps from keypoints as labels for learning convolution neural networks, which are usually initialized randomly or using classification models on ImageNet as their backbones. We note that 2D pose estimation task is highly dependent on the contextual relationship between image patches, thus we introduce a self-supervised method for pretraining 2D pose estimation networks. Specifically, we propose Heatmap-Style Jigsaw Puzzles (HSJP) problem as our pretext-task, whose target is to learn the location of each patch from an image composed of shuffled patches. During our pretraining process, we only use images of person instances in MS-COCO, rather than introducing extra and much larger ImageNet dataset. A heatmap-style label for patch location is designed and our learning process is in a non-contrastive way. The weights learned by HSJP pretext task are utilised as backbones of 2D human pose estimator, which are then finetuned on MS-COCO human keypoints dataset. With two popular and strong 2D human pose estimators, HRNet and SimpleBaseline, we evaluate mAP score on both MS-COCO validation and test-dev datasets. Our experiments show that downstream pose estimators with our self-supervised pretraining obtain much better performance than those trained from scratch, and are comparable to those using ImageNet classification models as their initial backbones.
翻訳日:2021-05-09 12:43:12 公開日:2020-12-13
# 教師なし異常セグメンテーションのための深部特徴再建法

DFR: Deep Feature Reconstruction for Unsupervised Anomaly Segmentation ( http://arxiv.org/abs/2012.07122v1 )

ライセンス: Link先を確認
Jie Yang, Yong Shi, Zhiquan Qi(参考訳) 特に、画像の非常に小さな領域に異常が現れて、製造製品の欠陥などの視覚的な変化を検出できない場合、物体やテクスチャの画像における異常領域の自動検出は困難である。 本稿では,画像の小さい領域と狭い領域に異常を検出・分割できる効果的な非教師なし異常分割手法を提案する。 具体的には,画像のサブリージョン毎に,事前学習した深部畳み込みネットワークから複数の空間的コンテキスト認識表現を生成できるマルチスケールな地域特徴生成装置を開発する。 地域表現は、対応する地域の局所的な特徴を記述しているだけでなく、複数の空間的文脈情報を符号化している。 これらの記述的地域特徴を活用することで、深いが効率的な畳み込みオートエンコーダを設計し、高速な特徴再構成により画像内の異常領域を検出する。 我々の方法は単純だが効率的だ。 複数のベンチマークデータセット上での最先端のパフォーマンスを向上し、実際のアプリケーションにとって大きな可能性を示している。

Automatic detecting anomalous regions in images of objects or textures without priors of the anomalies is challenging, especially when the anomalies appear in very small areas of the images, making difficult-to-detect visual variations, such as defects on manufacturing products. This paper proposes an effective unsupervised anomaly segmentation approach that can detect and segment out the anomalies in small and confined regions of images. Concretely, we develop a multi-scale regional feature generator that can generate multiple spatial context-aware representations from pre-trained deep convolutional networks for every subregion of an image. The regional representations not only describe the local characteristics of corresponding regions but also encode their multiple spatial context information, making them discriminative and very beneficial for anomaly detection. Leveraging these descriptive regional features, we then design a deep yet efficient convolutional autoencoder and detect anomalous regions within images via fast feature reconstruction. Our method is simple yet effective and efficient. It advances the state-of-the-art performances on several benchmark datasets and shows great potential for real applications.
翻訳日:2021-05-09 12:42:45 公開日:2020-12-13
# ビデオの教師なしセグメンテーションにおけるディープラーニングと時空スペクトルクラスタリングの反復的知識交換

Iterative Knowledge Exchange Between Deep Learning and Space-Time Spectral Clustering for Unsupervised Segmentation in Videos ( http://arxiv.org/abs/2012.07123v1 )

ライセンス: Link先を確認
Emanuela Haller, Adina Magda Florea and Marius Leordeanu(参考訳) 本稿では,ビデオ中のオブジェクトを検出する時空間グラフと,強力なオブジェクト特徴を学習する深層ネットワークという,相補的な特性を持つ2つのモジュールを結合した教師なしオブジェクトセグメンテーションのためのデュアルシステムを提案する。 システムは反復的な知識交換ポリシーを使用する。 グラフ上の新しいスペクトル時空クラスタリングプロセスは、疑似ラベルとしてネットワークに渡される教師なしセグメンテーションマスクを生成する。 ネットは、グラフがビデオで発見するものを単一のフレームに分割し、グラフの強力なイメージレベル機能に戻り、次のイテレーションでノードレベルの機能を改善する。 知識は収束するまでいくつかのサイクルで交換される。 グラフは各ビデオピクセルごとにひとつのノードを持つが、オブジェクトの発見は高速である。 これは、メインの時空クラスタを、マトリックスを実際に計算することなく、特別な特徴移動行列の主固有ベクトルとして計算する、新しいパワーイテレーションアルゴリズムを使用する。 徹底的な実験分析により理論的な主張が検証され,循環的知識交換の有効性が証明された。 また,人間の監督下で事前訓練された特徴を取り入れ,教師付きシナリオの実験を行った。 DAVIS、SegTrack、YouTube-Objects、DAVSODの4つの挑戦的なデータセット上で、教師なしシナリオと教師なしシナリオの最先端レベルを達成する。

We propose a dual system for unsupervised object segmentation in video, which brings together two modules with complementary properties: a space-time graph that discovers objects in videos and a deep network that learns powerful object features. The system uses an iterative knowledge exchange policy. A novel spectral space-time clustering process on the graph produces unsupervised segmentation masks passed to the network as pseudo-labels. The net learns to segment in single frames what the graph discovers in video and passes back to the graph strong image-level features that improve its node-level features in the next iteration. Knowledge is exchanged for several cycles until convergence. The graph has one node per each video pixel, but the object discovery is fast. It uses a novel power iteration algorithm computing the main space-time cluster as the principal eigenvector of a special Feature-Motion matrix without actually computing the matrix. The thorough experimental analysis validates our theoretical claims and proves the effectiveness of the cyclical knowledge exchange. We also perform experiments on the supervised scenario, incorporating features pretrained with human supervision. We achieve state-of-the-art level on unsupervised and supervised scenarios on four challenging datasets: DAVIS, SegTrack, YouTube-Objects, and DAVSOD.
翻訳日:2021-05-09 12:42:29 公開日:2020-12-13
# 位置認識型単一画像反射除去

Location-aware Single Image Reflection Removal ( http://arxiv.org/abs/2012.07131v1 )

ライセンス: Link先を確認
Zheng Dong, Ke Xu, Yin Yang, Hujun Bao, Weiwei Xu, Rynson W.H. Lau(参考訳) 本稿では,位置認識型深層学習に基づく単一画像反射除去手法を提案する。 我々のネットワークには、確率的反射信頼マップを回帰する反射検出モジュールがあり、マルチスケールのラプラシアン特徴を入力とする。 この確率写像は、ある領域が反射支配であるか伝達支配であるかを示す。 新規性は、反射信頼マップをネットワークの手がかりとして、反射情報を適応的に符号化する方法を学び、反射層と透過層を予測する際に特徴フローを制御することである。 位置情報のネットワークへの統合は、反射除去結果の品質を大幅に向上させる。 さらに、学習可能なラプラシアンカーネルパラメータのセットを導入し、リフレクション検出のための識別可能なラプラシアン特徴の抽出を容易にする。 我々は、繰り返しネットワークとしてネットワークを設計し、各イテレーションの反射除去結果を徐々に改善する。 広範な実験により,提案手法が最先端手法よりも優れた性能を検証できた。

This paper proposes a novel location-aware deep learning-based single image reflection removal method. Our network has a reflection detection module to regress a probabilistic reflection confidence map, taking multi-scale Laplacian features as inputs. This probabilistic map tells whether a region is reflection-dominated or transmission-dominat ed. The novelty is that we use the reflection confidence map as the cues for the network to learn how to encode the reflection information adaptively and control the feature flow when predicting reflection and transmission layers. The integration of location information into the network significantly improves the quality of reflection removal results. Besides, a set of learnable Laplacian kernel parameters is introduced to facilitate the extraction of discriminative Laplacian features for reflection detection. We design our network as a recurrent network to progressively refine each iteration's reflection removal results. Extensive experiments verify the superior performance of the proposed method over state-of-the-art approaches.
翻訳日:2021-05-09 12:42:07 公開日:2020-12-13
# メチキュラスなオブジェクトセグメンテーション

Meticulous Object Segmentation ( http://arxiv.org/abs/2012.07181v1 )

ライセンス: Link先を確認
Chenglin Yang, Yilin Wang, Jianming Zhang, He Zhang, Zhe Lin, Alan Yuille(参考訳) 低解像度画像を対象とした一般的な画像分割タスクと比較すると、高分解能の詳細な画像分割は注意を引かない。 本稿では,高解像度画像に精巧な形状を持つ,よく定義された前景オブジェクトのセグメンテーションに着目した,Meticulous Object Segmentation (MOS) というタスクを提案し,検討する。 2k - 4k)。 この目的のために,専用デコーダを利用してオブジェクト境界の詳細をキャプチャするMeticulousNetを提案する。 具体的には,オブジェクト境界をより明確に定義するために階層的ポイントワイズ・リファインディング(hierpr)ブロックを設計し,デコードプロセスを再帰的な粗いオブジェクトマスクの微細化として再構成する。 オブジェクト境界付近のセグメンテーション品質を評価するために,マスクカバレッジと境界精度の両方を考慮したmeticulosity quality (mq)スコアを提案する。 さらに、複雑なオブジェクトを持つ600の高品質画像を含むMOSベンチマークデータセットを収集する。 我々は,MeticulousNetが画素精度の高いセグメンテーション境界を明らかにし,高分解能オブジェクトセグメンテーションタスクの最先端手法よりも優れていることを示す総合的な実証的証拠を提供する。

Compared with common image segmentation tasks targeted at low-resolution images, higher resolution detailed image segmentation receives much less attention. In this paper, we propose and study a task named Meticulous Object Segmentation (MOS), which is focused on segmenting well-defined foreground objects with elaborate shapes in high resolution images (e.g. 2k - 4k). To this end, we propose the MeticulousNet which leverages a dedicated decoder to capture the object boundary details. Specifically, we design a Hierarchical Point-wise Refining (HierPR) block to better delineate object boundaries, and reformulate the decoding process as a recursive coarse to fine refinement of the object mask. To evaluate segmentation quality near object boundaries, we propose the Meticulosity Quality (MQ) score considering both the mask coverage and boundary precision. In addition, we collect a MOS benchmark dataset including 600 high quality images with complex objects. We provide comprehensive empirical evidence showing that MeticulousNet can reveal pixel-accurate segmentation boundaries and is superior to state-of-the-art methods for high resolution object segmentation tasks.
翻訳日:2021-05-09 12:41:54 公開日:2020-12-13
# ハイパーパラメータ最適化のためのウォームスタートCMA-ES

Warm Starting CMA-ES for Hyperparameter Optimization ( http://arxiv.org/abs/2012.06932v1 )

ライセンス: Link先を確認
Masahiro Nomura, Shuhei Watanabe, Youhei Akimoto, Yoshihiko Ozaki, Masaki Onishi(参考訳) ブラックボックス最適化(BBO)として定式化されたハイパーパラメータ最適化(HPO)は、機械学習アプローチの自動化と高性能化に不可欠であると認識されている。 CMA-ESは高い並列性を持つ有望なBBOアプローチであり、HPOタスクに適用され、しばしば並列実装され、ベイズ最適化(BO)を含む他の手法よりも優れた性能を示している。 しかし、ハイパーパラメータ評価の予算が著しく制限されている場合、しばしば並列コンピューティングにふさわしくないエンドユーザーの場合、CMA-ESは長い適応フェーズのために性能を向上することなく予算を浪費し、BOアプローチにより性能が向上する。 そこで本研究では,CMA-ESの初期化によるHPOタスクの事前知識の伝達を提案し,適応時間を大幅に短縮する。 知識伝達はタスク類似性の新たな定義に基づいて設計され,提案手法の性能の相関性は合成問題に基づいて確認される。 提案手法はWS-CMA-ESとよばれる温暖化開始型CMA-ESを,いくつかの事前知識が利用可能な異なるHPOタスクに適用し,従来のCMA-ESよりも優れた性能を示すとともに,事前知識を使わずにBOアプローチを採用する。

Hyperparameter optimization (HPO), formulated as black-box optimization (BBO), is recognized as essential for automation and high performance of machine learning approaches. The CMA-ES is a promising BBO approach with a high degree of parallelism, and has been applied to HPO tasks, often under parallel implementation, and shown superior performance to other approaches including Bayesian optimization (BO). However, if the budget of hyperparameter evaluations is severely limited, which is often the case for end users who do not deserve parallel computing, the CMA-ES exhausts the budget without improving the performance due to its long adaptation phase, resulting in being outperformed by BO approaches. To address this issue, we propose to transfer prior knowledge on similar HPO tasks through the initialization of the CMA-ES, leading to significantly shortening the adaptation time. The knowledge transfer is designed based on the novel definition of task similarity, with which the correlation of the performance of the proposed approach is confirmed on synthetic problems. The proposed warm starting CMA-ES, called WS-CMA-ES, is applied to different HPO tasks where some prior knowledge is available, showing its superior performance over the original CMA-ES as well as BO approaches with or without using the prior knowledge.
翻訳日:2021-05-09 12:41:31 公開日:2020-12-13
# Kernel Networksによるオープンワールドクラスディスカバリ

Open-World Class Discovery with Kernel Networks ( http://arxiv.org/abs/2012.06957v1 )

ライセンス: Link先を確認
Zifeng Wang, Batool Salehi, Andrey Gritsenko, Kaushik Chowdhury, Stratis Ioannidis, Jennifer Dy(参考訳) 我々は,古クラスからのラベル付きトレーニングサンプルを考えると,ラベルなしテストサンプルから新しいクラスを見つける必要がある,オープンワールドクラスディスカバリー問題を研究する。 a) 古いクラスから新しいクラスに知識を移す、(b) 新しいクラスから学んだ知識を元のモデルに組み込む、という2つの重要な課題があります。 ヒルベルト・シュミット独立基準(Hilbert Schmidt Independence Criterion)を用いて、教師付き情報と教師なし情報を体系的に橋渡しする深層学習フレームワークであるクラスディスカバリカーネルネットワーク(CD-KNet-Exp, Class Discovery Kernel Network with Expansion, CD-KNet-Exp)を提案する。 競合する手法と比較して、CD-KNet-Expは3つの公開ベンチマークデータセットと、現実の無線周波数指紋データセットにおいて優れたパフォーマンスを示している。

We study an Open-World Class Discovery problem in which, given labeled training samples from old classes, we need to discover new classes from unlabeled test samples. There are two critical challenges to addressing this paradigm: (a) transferring knowledge from old to new classes, and (b) incorporating knowledge learned from new classes back to the original model. We propose Class Discovery Kernel Network with Expansion (CD-KNet-Exp), a deep learning framework, which utilizes the Hilbert Schmidt Independence Criterion to bridge supervised and unsupervised information together in a systematic way, such that the learned knowledge from old classes is distilled appropriately for discovering new classes. Compared to competing methods, CD-KNet-Exp shows superior performance on three publicly available benchmark datasets and a challenging real-world radio frequency fingerprinting dataset.
翻訳日:2021-05-09 12:41:08 公開日:2020-12-13
# TensorFlowのフォールトインジェクタ: ハードウェアのランダム故障がディープCNNに与える影響の評価

Fault Injectors for TensorFlow: Evaluation of the Impact of Random Hardware Faults on Deep CNNs ( http://arxiv.org/abs/2012.07037v1 )

ライセンス: Link先を確認
Michael Beyer, Andrey Morozov, Emil Valiev, Christoph Schorn, Lydia Gauerhof, Kai Ding, Klaus Janschek(参考訳) 今日、Deep Learning (DL) は安全クリティカルな分野を含むほぼすべての産業部門を強化している。 次世代の安全基準は、DLベースのアプリケーションに対する適切な検証手法を定義し、適切な耐故障機構を提案する。 dlベースのアプリケーションは、他のソフトウェアと同様に、ramやcpuレジスタで発生するビットフリップなどの一般的なランダムなハードウェア障害に影響を受けやすい。 このような欠陥は、静かなデータの破損につながる可能性がある。 そのため,このような欠陥が存在する場合に,DLコンポーネントがどのように機能するかを評価する手法やツールを開発することが重要である。 本稿では,TensorFlow 1 と TensorFlow 2 用の InjectTF と InjectTF2 の2つの新しいFact Injection (FI) フレームワークを紹介する。 どちらのフレームワークもGitHubで利用可能で、ランダムな障害をニューラルネットワーク(NN)に設定可能なインジェクションを可能にする。 2つの画像集合を用いた4つのVGGベースの畳み込みNNにおいて行われたFI実験の結果も示す。 その結果、特定の数学的操作とnnのレイヤーの出力におけるランダムビットの反転が分類精度にどのように影響するかが示される。 これらの結果は、最も重要な操作と層を特定し、機能的に類似したnnの信頼性特性を比較し、選択的フォールトトレランス機構を導入するのに役立つ。

Today, Deep Learning (DL) enhances almost every industrial sector, including safety-critical areas. The next generation of safety standards will define appropriate verification techniques for DL-based applications and propose adequate fault tolerance mechanisms. DL-based applications, like any other software, are susceptible to common random hardware faults such as bit flips, which occur in RAM and CPU registers. Such faults can lead to silent data corruption. Therefore, it is crucial to develop methods and tools that help to evaluate how DL components operate under the presence of such faults. In this paper, we introduce two new Fault Injection (FI) frameworks InjectTF and InjectTF2 for TensorFlow 1 and TensorFlow 2, respectively. Both frameworks are available on GitHub and allow the configurable injection of random faults into Neural Networks (NN). In order to demonstrate the feasibility of the frameworks, we also present the results of FI experiments conducted on four VGG-based Convolutional NNs using two image sets. The results demonstrate how random bit flips in the output of particular mathematical operations and layers of NNs affect the classification accuracy. These results help to identify the most critical operations and layers, compare the reliability characteristics of functionally similar NNs, and introduce selective fault tolerance mechanisms.
翻訳日:2021-05-09 12:40:51 公開日:2020-12-13
# split then refine: 目立たない1枚の透かし除去のための注意誘導レサンセットの積み重ね

Split then Refine: Stacked Attention-guided ResUNets for Blind Single Image Visible Watermark Removal ( http://arxiv.org/abs/2012.07007v1 )

ライセンス: Link先を確認
Xiaodong Cun and Chi-Man Pun(参考訳) デジタル透かし(Digital watermark)は、メディアの著作権を保護する技術である。 同時に、透かしの堅牢性を高めるため、透かし除去などの攻撃技術もコミュニティから注目を集めている。 従来の透かし除去方法は,ユーザから透かしの位置を取得したり,マルチタスクネットワークをトレーニングして,背景を無差別に復元する必要があった。 しかし,共同学習において,ネットワークはテクスチャの回復よりも透かし検出に優れていた。 この観察にインスパイアされ、目に見える透かしを盲目的に消し去るために、注意誘導型ResUNetsを積み重ねた新しい2段階のフレームワークを提案し、検出・除去・洗練の過程をシミュレートする。 最初の段階では、SplitNetと呼ばれるマルチタスクネットワークを設計する。 3つのサブタスクの基本機能をすべて学習し、タスク固有の機能は複数のチャンネルの注意を個別に使用する。 そして, 予測マスクと粗い画像の復元により, 透かし領域の平滑化を図ったRefineNetの設計を行った。 ネットワーク構造に加えて,提案手法では複数の知覚損失を組み合わせることで,視覚的および数値的に品質を向上させる。 様々な条件下で4つの異なるデータセット上でアルゴリズムを広範囲に評価し,その手法が他の最先端手法をはるかに上回っていることを示す実験を行った。 コードはhttp://github.com/vi nthony/deep-blind-wa termark-removalで入手できる。

Digital watermark is a commonly used technique to protect the copyright of medias. Simultaneously, to increase the robustness of watermark, attacking technique, such as watermark removal, also gets the attention from the community. Previous watermark removal methods require to gain the watermark location from users or train a multi-task network to recover the background indiscriminately. However, when jointly learning, the network performs better on watermark detection than recovering the texture. Inspired by this observation and to erase the visible watermarks blindly, we propose a novel two-stage framework with a stacked attention-guided ResUNets to simulate the process of detection, removal and refinement. In the first stage, we design a multi-task network called SplitNet. It learns the basis features for three sub-tasks altogether while the task-specific features separately use multiple channel attentions. Then, with the predicted mask and coarser restored image, we design RefineNet to smooth the watermarked region with a mask-guided spatial attention. Besides network structure, the proposed algorithm also combines multiple perceptual losses for better quality both visually and numerically. We extensively evaluate our algorithm over four different datasets under various settings and the experiments show that our approach outperforms other state-of-the-art methods by a large margin. The code is available at http://github.com/vi nthony/deep-blind-wa termark-removal.
翻訳日:2021-05-09 12:40:32 公開日:2020-12-13
# 協調フィルタリングのための改良SVDアルゴリズム

A Refined SVD Algorithm for Collaborative Filtering ( http://arxiv.org/abs/2012.06923v1 )

ライセンス: Link先を確認
Marko Kabi\'c, Gabriel Duque L\'opez, Daniel Keller(参考訳) 協調フィルタリングは、類似した嗜好を持つ他のユーザの意見に基づいて、一部の項目に対するユーザの評価を予測しようとする。 評価は通常、スパース行列の形で与えられるが、その目標は、欠落したエントリ(すなわち)を見つけることである。 評価)。 協調フィルタリングへの様々なアプローチがあり、最も人気のあるものはSingular Value Decomposition (SVD)とK-meansクラスタリングである。 SVDアプローチの課題の1つは、未知のレーティングの優れた初期化を見つけることである。 可能な初期化は [1] で提案される。 本稿では, SVD の初期化のさらなる洗練を実現するために K-means アプローチをどのように利用できるかを説明する。 本手法は,2つの初期化手法を別々に比較した。

Collaborative filtering tries to predict the ratings of a user over some items based on opinions of other users with similar taste. The ratings are usually given in the form of a sparse matrix, the goal being to find the missing entries (i.e. ratings). Various approaches to collaborative filtering exist, some of the most popular ones being the Singular Value Decomposition (SVD) and K-means clustering. One of the challenges in the SVD approach is finding a good initialization of the unknown ratings. A possible initialization is suggested by [1]. In this paper we explain how K-means approach can be used to achieve the further refinement of this initialization for SVD. We show that our technique outperforms both initialization techniques used separately.
翻訳日:2021-05-09 12:40:08 公開日:2020-12-13
# 分子プールを用いた能動学習による高スループット仮想スクリーニングの高速化

Accelerating high-throughput virtual screening through molecular pool-based active learning ( http://arxiv.org/abs/2012.07127v1 )

ライセンス: Link先を確認
David E. Graff, Eugene I. Shakhnovich, Connor W. Coley(参考訳) 構造に基づく仮想スクリーニングは、標的タンパク質と候補リガンドとの相互作用を評価する早期の薬物発見において重要なツールである。 仮想ライブラリが(10^8$の分子以上で)成長を続けるにつれ、これらのライブラリ上で徹底した仮想スクリーニングキャンペーンを行うために必要なリソースも増加する。 しかし、ベイズ最適化手法は、ライブラリのサブセットの予測親和性に基づいて訓練された代理構造-プロパティ関係モデルを、残りのライブラリメンバーに適用することができ、最も期待できない化合物を評価から除外することができる。 本研究では,いくつかのタンパク質リガンドドドドッキングデータセットに適用した様々なサロゲートモデルアーキテクチャ,獲得関数,取得バッチサイズを評価し,欲望取得戦略を用いた場合においても計算コストの大幅な削減を観察する。 このようなモデル誘導検索は、ますます大きな仮想ライブラリをスクリーニングする計算コストの増大を緩和し、ドッキング以外のアプリケーションによる高いスループットの仮想スクリーニングキャンペーンを加速させる。

Structure-based virtual screening is an important tool in early stage drug discovery that scores the interactions between a target protein and candidate ligands. As virtual libraries continue to grow (in excess of $10^8$ molecules), so too do the resources necessary to conduct exhaustive virtual screening campaigns on these libraries. However, Bayesian optimization techniques can aid in their exploration: a surrogate structure-property relationship model trained on the predicted affinities of a subset of the library can be applied to the remaining library members, allowing the least promising compounds to be excluded from evaluation. In this study, we assess various surrogate model architectures, acquisition functions, and acquisition batch sizes as applied to several protein-ligand docking datasets and observe significant reductions in computational costs, even when using a greedy acquisition strategy; for example, 87.9% of the top-50000 ligands can be found after testing only 2.4% of a 100M member library. Such model-guided searches mitigate the increasing computational costs of screening increasingly large virtual libraries and can accelerate high-throughput virtual screening campaigns with applications beyond docking.
翻訳日:2021-05-09 12:39:25 公開日:2020-12-13
# 準ポテンシャル計算のためのデータ駆動手法

A Data Driven Method for Computing Quasipotentials ( http://arxiv.org/abs/2012.09111v1 )

ライセンス: Link先を確認
Bo Lin, Qianxiao Li, and Weiqing Ren(参考訳) 準ポテンシャルは非平衡系へのエネルギー関数の概念の自然な一般化である。 確率力学における希少事象の解析において、遷移事象の統計と起こりうる遷移経路を特徴づける中心的な役割を担っている。 しかし、特にグローバルな景観を求める高次元力学系では、準ポテンシャルの計算は困難である。 動的プログラミング原理や経路空間の最小化に基づく伝統的な手法は、次元性の呪いに悩まされる傾向がある。 本稿では,この問題を解決するための簡易かつ効率的な機械学習手法を提案する。 鍵となる考え方は、力学を駆動するベクトル場の直交分解を学習することであり、そこから準ポテンシャルを特定できる。 本手法は,空間的離散化や経路空間最適化問題を解くことなく,効果的に準ポテンシャル景観を計算できることを示す。 さらに、この手法は、準ポテンシャルの計算には力学の観測軌道のみを必要とするという意味で純粋にデータ駆動である。 これらの性質は、平衡から離れる力学系への準ポテンシャル解析の一般応用を可能にする有望な方法である。

The quasipotential is a natural generalization of the concept of energy functions to non-equilibrium systems. In the analysis of rare events in stochastic dynamics, it plays a central role in characterizing the statistics of transition events and the likely transition paths. However, computing the quasipotential is challenging, especially in high dimensional dynamical systems where a global landscape is sought. Traditional methods based on the dynamic programming principle or path space minimization tend to suffer from the curse of dimensionality. In this paper, we propose a simple and efficient machine learning method to resolve this problem. The key idea is to learn an orthogonal decomposition of the vector field that drives the dynamics, from which one can identify the quasipotential. We demonstrate on various example systems that our method can effectively compute quasipotential landscapes without requiring spatial discretization or solving path-space optimization problems. Moreover, the method is purely data driven in the sense that only observed trajectories of the dynamics are required for the computation of the quasipotential. These properties make it a promising method to enable the general application of quasipotential analysis to dynamical systems away from equilibrium.
翻訳日:2021-05-09 12:38:46 公開日:2020-12-13
# 顔面熱画像からの自発感情認識

Spontaneous Emotion Recognition from Facial Thermal Images ( http://arxiv.org/abs/2012.06973v1 )

ライセンス: Link先を確認
Chirag Kyal(参考訳) 膨大な数の出版物が取り組んだコンピュータビジョンの重要な研究分野の1つは、人間の顔を含む画像の処理と理解である。 最も頻繁に対処されるタスクは、顔検出、顔のランドマークのローカライゼーション、顔認識、表情分析である。 その他、感情コンピューティング、ビデオからのバイタルサインの抽出、社会的相互作用の分析といったより専門的なタスクは、通常、上記のタスクの1つまたは複数の実行を必要とする。 本研究では,現在特殊なルールベース手法を用いて解決されている熱赤外画像における顔画像処理のタスクが,現代の学習に基づくアプローチで解決可能であることを分析した。 我々は、ustc-nvieデータベースを用いて、顔ランドマークのローカライズのための多数の機械学習アルゴリズムのトレーニングを行った。

One of the key research areas in computer vision addressed by a vast number of publications is the processing and understanding of images containing human faces. The most often addressed tasks include face detection, facial landmark localization, face recognition and facial expression analysis. Other, more specialized tasks such as affective computing, the extraction of vital signs from videos or analysis of social interaction usually require one or several of the aforementioned tasks that have to be performed. In our work, we analyze that a large number of tasks for facial image processing in thermal infrared images that are currently solved using specialized rule-based methods or not solved at all can be addressed with modern learning-based approaches. We have used USTC-NVIE database for training of a number of machine learning algorithms for facial landmark localization.
翻訳日:2021-05-09 12:38:30 公開日:2020-12-13
# fmri-カーネルレグレッション : 集団研究のためのrs-fmriの点統計解析のためのカーネルベース手法

fMRI-Kernel Regression: A Kernel-based Method for Pointwise Statistical Analysis of rs-fMRI for Population Studies ( http://arxiv.org/abs/2012.06972v1 )

ライセンス: Link先を確認
Anand A. Joshi, Soyoung Choi, Haleh Akrami, Richard M. Leahy(参考訳) 静止状態fMRI(rs-fMRI)信号の自発性のため、クロスオブジェクト比較は困難であり、rs-fMRIの集団研究は困難である。 既存のグループ比較手法の多くは、接続性、独立成分分析(ICA)、機能接続密度(FCD)法などのfMRI時系列から抽出した特徴を用いる。 しかしながら、群研究、特にスペクトル障害の場合、単一のアトラスや代表的対象との距離は、多次元スペクトル上に存在する可能性のある対象間の差異を完全に反映しない。 さらに、すべての対象の代表である場合において、個別の主題や平均的なアトラスさえ存在しない場合もある。 本稿では、1つの基準点ではなく、対の被験者の同期rs-fMRI信号間のペア距離を測定するアプローチについて述べる。 また、この生成したペアワイズ機能を利用して、放射基底関数カーネル行列を確立するfMRIデータ比較法を提案する。 このカーネルマトリックスは、認知的または神経生理学的パフォーマンススコアなどの臨床変数へのrs-fmriの核回帰を行うために使用される。 本手法はfMRIデータに対する新たなポイントワイズ解析パラダイムを開放する。 本手法は, rs-fmriデータを用いて皮質表面のポイントワイズ解析を行い, adhd指標の変動性に関連する皮質領域の同定を行った。 点解析法は皮質厚み解析やボクセル法,テンソル法などの解剖学的研究で一般的であるが,rs-fMRIでは欠如しており,グループ研究におけるrs-fMRIの有用性が向上する可能性がある。 本稿では,このギャップを埋めることを目的としている。

Due to the spontaneous nature of resting-state fMRI (rs-fMRI) signals, cross-subject comparison and therefore, group studies of rs-fMRI are challenging. Most existing group comparison methods use features extracted from the fMRI time series, such as connectivity features, independent component analysis (ICA), and functional connectivity density (FCD) methods. However, in group studies, especially in the case of spectrum disorders, distances to a single atlas or a representative subject do not fully reflect the differences between subjects that may lie on a multi-dimensional spectrum. Moreover, there may not exist an individual subject or even an average atlas in such cases that is representative of all subjects. Here we describe an approach that measures pairwise distances between the synchronized rs-fMRI signals of pairs of subjects instead of to a single reference point. We also present a method for fMRI data comparison that leverages this generated pairwise feature to establish a radial basis function kernel matrix. This kernel matrix is used in turn to perform kernel regression of rs-fMRI to a clinical variable such as a cognitive or neurophysiological performance score of interest. This method opens a new pointwise analysis paradigm for fMRI data. We demonstrate the application of this method by performing a pointwise analysis on the cortical surface using rs-fMRI data to identify cortical regions associated with variability in ADHD index. While pointwise analysis methods are common in anatomical studies such as cortical thickness analysis and voxel- and tensor-based morphometry and its variants, such a method is lacking for rs-fMRI and could improve the utility of rs-fMRI for group studies. The method presented in this paper is aimed at filling this gap.
翻訳日:2021-05-09 12:38:19 公開日:2020-12-13
# 長期記憶ネットワークを用いた変圧器の放射状変形配置

Radial Deformation Emplacement in Power Transformers Using Long Short-Term Memory Networks ( http://arxiv.org/abs/2012.06982v1 )

ライセンス: Link先を確認
Arash Moradzadeh, Kazem Pourhossein, Behnam Mohammadi-Ivatloo, Tohid Khalili, Ali Bidram(参考訳) 変圧器の巻線は通常、不適切な輸送や運転のために機械的応力と張力を受ける。 ラジアル変形(RD)は、短絡欠陥と絶縁損傷を通じて電力変換器の動作に影響を与える機械的応力の例である。 周波数応答解析(FRA)は、変圧器の機械的欠陥を診断する方法としてよく知られている。 FRAの精度にもかかわらず、計算された周波数応答曲線の解釈は単純ではなく、複雑な計算を必要とする。 本稿では,長い短期記憶(LSTM)と呼ばれる深層学習アルゴリズムを用いて,早期にRD故障を検出する特徴抽出手法を提案する。 実験の結果,RD欠陥の診断と位置決定における提案手法の有効性が検証された。

A power transformer winding is usually subject to mechanical stress and tension because of improper transportation or operation. Radial deformation (RD) is an example of mechanical stress that can impact power transformer operation through short circuit faults and insulation damages. Frequency response analysis (FRA) is a well-known method to diagnose mechanical defects in transformers. Despite the precision of FRA, the interpretation of the calculated frequency response curves is not straightforward and requires complex calculations. In this paper, a deep learning algorithm called long short-term memory (LSTM) is used as a feature extraction technique to locate RD faults in their early stages. The experimental results verify the effectiveness of the proposed method in the diagnosis and locating of RD defects.
翻訳日:2021-05-09 12:37:51 公開日:2020-12-13
# 高次元最適化のための適応的無作為部分空間法:シャープ解析と下限

Adaptive and Oblivious Randomized Subspace Methods for High-Dimensional Optimization: Sharp Analysis and Lower Bounds ( http://arxiv.org/abs/2012.07054v1 )

ライセンス: Link先を確認
Jonathan Lacotte, Mert Pilanci(参考訳) 本稿では,変数のランダム部分空間への制約に基づく高次元凸問題に対する新しいランダム化最適化法を提案する。 我々は、可観測部分空間とデータ適応部分空間を考察し、凸双対性とフェンシェル共役を通して近似特性を研究する。 2階統計が入力データを反映した相関ランダム行列をサンプリングすることにより、適切な適応部分空間を生成することができる。 本稿では,近年の文献で広く用いられている標準不完全サンプリング法を,適応戦略が大幅に上回ることを示す。 ランダム化近似の相対誤差は、データ行列のスペクトルと2つの接円錐のガウス幅を最適に表現することで、厳密に特徴付けられることを示す。 測定値の集中とファノの不等式に基づく最適化と統計誤差尺度の双方に対する下限を開発する。 次に、スペクトル減衰プロファイルの異なるデータ行列を用いて、我々の理論の結果を示す。 実験結果から,提案手法は,ロジスティック回帰,ランダム畳み込み層を用いたカーネル分類,修正線形ユニットによる浅層ニューラルネットワークなど,幅広い機械学習および最適化問題において,大幅な高速化を実現することが示唆された。

We propose novel randomized optimization methods for high-dimensional convex problems based on restrictions of variables to random subspaces. We consider oblivious and data-adaptive subspaces and study their approximation properties via convex duality and Fenchel conjugates. A suitable adaptive subspace can be generated by sampling a correlated random matrix whose second order statistics mirror the input data. We illustrate that the adaptive strategy can significantly outperform the standard oblivious sampling method, which is widely used in the recent literature. We show that the relative error of the randomized approximations can be tightly characterized in terms of the spectrum of the data matrix and Gaussian width of the dual tangent cone at optimum. We develop lower bounds for both optimization and statistical error measures based on concentration of measure and Fano's inequality. We then present the consequences of our theory with data matrices of varying spectral decay profiles. Experimental results show that the proposed approach enables significant speed ups in a wide variety of machine learning and optimization problems including logistic regression, kernel classification with random convolution layers and shallow neural networks with rectified linear units.
翻訳日:2021-05-09 12:37:41 公開日:2020-12-13
# caisoシステムにおける日初3時間ネット負荷ランプ予測

Forecasting Daily Primary Three-Hour Net Load Ramps in the CAISO System ( http://arxiv.org/abs/2012.07117v1 )

ライセンス: Link先を確認
Ogun Yurdakul, Andreas Meyer, Fikret Sivrikaya, and Sahin Albayrak(参考訳) 可変エネルギー資源の浸透深化は、システムオペレーター(SO)にとって前例のない課題を生み出している。 特別な注意を払っている問題は、供給・需給バランスを常に維持するために、SOが処理時にフレキシブルな能力を持つ必要がある、急激なネット負荷ランプである。 柔軟なキャパシティの公平な調達と展開において、ネットロードランプを予測するツールは、sosにとって大きな助けとなるかもしれない。 そこで本研究では,毎日の一次3時間負荷ランプの規模と開始時刻を予測する手法を提案する。 我々は,長期記憶モデルを用いた予測手法を開発するために,ネットワーク負荷に影響を与える要因を特定し,特定要因を引き出すために,広範な分析を行う。 提案手法がCAISOシステムに与える影響を,様々な評価指標に基づいて,選択したベンチマークとの比較評価を用いて示す。

The deepening penetration of variable energy resources creates unprecedented challenges for system operators (SOs). An issue that merits special attention is the precipitous net load ramps, which require SOs to have flexible capacity at their disposal so as to maintain the supply-demand balance at all times. In the judicious procurement and deployment of flexible capacity, a tool that forecasts net load ramps may be of great assistance to SOs. To this end, we propose a methodology to forecast the magnitude and start time of daily primary three-hour net load ramps. We perform an extensive analysis so as to identify the factors that influence net load and draw on the identified factors to develop a forecasting methodology that harnesses the long short-term memory model. We demonstrate the effectiveness of the proposed methodology on the CAISO system using comparative assessments with selected benchmarks based on various evaluation metrics.
翻訳日:2021-05-09 12:37:23 公開日:2020-12-13