このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200524となっている論文です。

PDF登録状況(公開日: 20200524)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般化 csisz\'ar divergences から生じる cram\'er-rao 下界

Cram\'er-Rao Lower Bounds Arising from Generalized Csisz\'ar Divergences ( http://arxiv.org/abs/2001.04769v2 )

ライセンス: Link先を確認
M. Ashok Kumar and Kumar Vijay Mishra(参考訳) 確率分布の幾何学を csisz\'ar $f$-divergences の一般化族に関して研究する。 このファミリーのメンバーは、情報理論における相対エントロピーのR'enyiアナログでもある相対$\alpha$-entropyであり、統計学における対数的あるいは射影的パワー分岐として知られている。 我々は eguchi の理論を適用し,これらの一般化された発散関数から生じるfisher information metric と dual affine connection を導出する。 これにより、より広い範囲で適用可能な cram\'{e}r-rao の不等式に到達でき、これは基礎となるパラメトリック確率分布のエスコートのための推定子の分散に対する下界を提供する。 次に、指数モデルとミキサーモデルの有理長岡双対平坦構造を、前述の一般化計量に関して他の分布に拡張する。 これらの定式化が, 護衛モデルの偏りのない, 効率的な推定手法の発見につながることを示す。 最後に、非情報幾何学的枠組みから導かれた一般化されたクラム・ラーオ不等式に関する先行結果と比較する。

We study the geometry of probability distributions with respect to a generalized family of Csisz\'ar $f$-divergences. A member of this family is the relative $\alpha$-entropy which is also a R\'enyi analog of relative entropy in information theory and known as logarithmic or projective power divergence in statistics. We apply Eguchi's theory to derive the Fisher information metric and the dual affine connections arising from these generalized divergence functions. This enables us to arrive at a more widely applicable version of the Cram\'{e}r-Rao inequality, which provides a lower bound for the variance of an estimator for an escort of the underlying parametric probability distribution. We then extend the Amari-Nagaoka's dually flat structure of the exponential and mixer models to other distributions with respect to the aforementioned generalized metric. We show that these formulations lead us to find unbiased and efficient estimators for the escort model. Finally, we compare our work with prior results on generalized Cram\'er-Rao inequalities that were derived from non-information-geometric frameworks.
翻訳日:2023-01-11 13:45:37 公開日:2020-05-24
# 自動X線予測におけるクロスドメイン一般化の限界について

On the limits of cross-domain generalization in automated X-ray prediction ( http://arxiv.org/abs/2002.02497v2 )

ライセンス: Link先を確認
Joseph Paul Cohen and Mohammad Hashir and Rupert Brooks and Hadrien Bertrand(参考訳) この大規模研究は、x線診断予測タスクが複数の異なるデータセットにまたがってうまく一般化したものを定量化することに焦点を当てている。 一般化の問題は画像のシフトによるものではなく,ラベルのシフトによるものであることを示す。 本稿では,ドメイン間の性能,モデル間の合意,モデル表現について検討する。 良いパフォーマンスを達成するモデルと、悪いパフォーマンスを達成するモデルが一致しないモデルでは、パフォーマンスとアグリーメントの間に興味深い相違が見られます。 また、ネットワークを正規化し、複数のデータセットにまたがるタスクをグループ化し、タスク間のばらつきを観測することで、コンセプトの類似性をテストする。 すべてのコードはオンラインで公開され、データは公開されている。 https://github.com/mlmed/torchxrayvision

This large scale study focuses on quantifying what X-rays diagnostic prediction tasks generalize well across multiple different datasets. We present evidence that the issue of generalization is not due to a shift in the images but instead a shift in the labels. We study the cross-domain performance, agreement between models, and model representations. We find interesting discrepancies between performance and agreement where models which both achieve good performance disagree in their predictions as well as models which agree yet achieve poor performance. We also test for concept similarity by regularizing a network to group tasks across multiple datasets together and observe variation across the tasks. All code is made available online and data is publicly available: https://github.com/mlmed/torchxrayvision
翻訳日:2023-01-03 10:10:47 公開日:2020-05-24
# SRE19 CTSチャレンジのためのLEAPシステム-改善とエラー解析

LEAP System for SRE19 CTS Challenge -- Improvements and Error Analysis ( http://arxiv.org/abs/2002.02735v2 )

ライセンス: Link先を確認
Shreyas Ramoji, Prashant Krishnan, Bhargavram Mysore, Prachi Singh, Sriram Ganapathy(参考訳) NIST Speaker Recognition Evaluation - Conversational Telephone Speech (CTS) Challenge 2019は、困難な状況下で話者検証を行うためのオープンな評価である。 本稿では,バックエンドシステムモデリングにおける新しいコンポーネントに着目したLEAP SREシステムの詳細をCTSチャレンジに提出する。 すべてのシステムは、TDNNベースのxベクトル埋め込みを使用していた。 SRE19のx-vectorシステムは、トレーニング用スピーカー(約14kスピーカー)を大量に使用しました。 xベクトル抽出の後、話者検証コストに最適化されたバックエンドスコア計算へのニューラルネットワークアプローチを探索した。 生成型と神経型pldaモデルのシステム組み合わせは、sre評価データセットの大幅な改善をもたらした。 また,スコアの正規化とキャリブレーションに基づいて,SREシステムのさらなるゲインを得た。 評価の結果,提案システムについて詳細な分析を行った。 分析の結果、異なるトレーニングデータセットの組み合わせとモデリング手法で得られるインクリメンタルなゲインが明らかになった。

The NIST Speaker Recognition Evaluation - Conversational Telephone Speech (CTS) challenge 2019 was an open evaluation for the task of speaker verification in challenging conditions. In this paper, we provide a detailed account of the LEAP SRE system submitted to the CTS challenge focusing on the novel components in the back-end system modeling. All the systems used the time-delay neural network (TDNN) based x-vector embeddings. The x-vector system in our SRE19 submission used a large pool of training speakers (about 14k speakers). Following the x-vector extraction, we explored a neural network approach to backend score computation that was optimized for a speaker verification cost. The system combination of generative and neural PLDA models resulted in significant improvements for the SRE evaluation dataset. We also found additional gains for the SRE systems based on score normalization and calibration. Subsequent to the evaluations, we have performed a detailed analysis of the submitted systems. The analysis revealed the incremental gains obtained for different training dataset combinations as well as the modeling methods.
翻訳日:2023-01-03 04:08:37 公開日:2020-05-24
# NPLDA:話者検証のためのディープニューラルネットワークPLDAモデル

NPLDA: A Deep Neural PLDA Model for Speaker Verification ( http://arxiv.org/abs/2002.03562v2 )

ライセンス: Link先を確認
Shreyas Ramoji, Prashant Krishnan, Sriram Ganapathy(参考訳) 話者検証のための最先端のアプローチは、ニューラルネットワークベースの埋め込み抽出器と、確率線形判別分析(PLDA)のようなバックエンド生成モデルで構成される。 本稿では,話者認識におけるバックエンドモデリングのためのニューラルネットワーク手法を提案する。 生成PLDAモデルの確率比スコアを識別類似度関数として設定し、検証コストを用いてスコア関数の学習可能なパラメータを最適化する。 提案モデルはニューラルPLDA(NPLDA)と呼ばれ,生成PLDAモデルパラメータを用いて初期化される。 npldaモデルの損失関数は最小検出コスト関数 (minimum detection cost function, dcf) の近似である。 VOiCESデータセットとSITWチャレンジデータセットの話者検証タスクにおいて,NPLDAモデルを用いた話者認識実験を行った。 これらの実験では,提案した損失関数を用いて最適化されたNPLDAモデルは,最先端のPLDAベース話者検証システムよりも大幅に改善される。

The state-of-art approach for speaker verification consists of a neural network based embedding extractor along with a backend generative model such as the Probabilistic Linear Discriminant Analysis (PLDA). In this work, we propose a neural network approach for backend modeling in speaker recognition. The likelihood ratio score of the generative PLDA model is posed as a discriminative similarity function and the learnable parameters of the score function are optimized using a verification cost. The proposed model, termed as neural PLDA (NPLDA), is initialized using the generative PLDA model parameters. The loss function for the NPLDA model is an approximation of the minimum detection cost function (DCF). The speaker recognition experiments using the NPLDA model are performed on the speaker verificiation task in the VOiCES datasets as well as the SITW challenge dataset. In these experiments, the NPLDA model optimized using the proposed loss function improves significantly over the state-of-art PLDA based speaker verification system.
翻訳日:2023-01-02 08:07:53 公開日:2020-05-24
# Ecological Semantics:Situated Language Understandingのためのプログラミング環境

Ecological Semantics: Programming Environments for Situated Language Understanding ( http://arxiv.org/abs/2003.04567v2 )

ライセンス: Link先を確認
Ronen Tamari, Gabriel Stanovsky, Dafna Shahaf and Reut Tsarfaty(参考訳) 大規模自然言語理解(NLU)システムは、様々なタスクに柔軟に適用でき、最小限の構造的仮定を適用できるなど、目覚ましい進歩を遂げている。 しかし、広範な実証研究により、これは二本刃の剣であることが示され、低い一般化、接地、説明可能性といった浅い理解の犠牲となった。 基底言語学習アプローチは、より豊かでより構造化されたトレーニング環境に学習を集中させることによってより深い理解を提供するが、規模は比較的狭く定義されたドメインに限られる。 両世界のベストをどうやって楽しむか - 接地された、一般のNLU? 幅広い現代認知科学の後、環境を意味表現において「第一級市民」として扱うことを提案する。 重要なのは、モデルが既存のアプローチのように、アクターだけでなく、環境の作成と構成のパートナであることである。 そのために、オンライン、位置談話理解、および大規模でオフラインの常識知識マイニングの両面において、手頃な言語(特定の状況において可能な行動を定義する)でモデルを理解し、プログラムし始める必要があると論じる。 そこで我々は,環境指向の生態学的意味論を提案し,理論と実践のアプローチを概説する。 さらに、インタラクティブなフィクションプログラミング言語に基づく実演も行います。

Large-scale natural language understanding (NLU) systems have made impressive progress: they can be applied flexibly across a variety of tasks, and employ minimal structural assumptions. However, extensive empirical research has shown this to be a double-edged sword, coming at the cost of shallow understanding: inferior generalization, grounding and explainability. Grounded language learning approaches offer the promise of deeper understanding by situating learning in richer, more structured training environments, but are limited in scale to relatively narrow, predefined domains. How might we enjoy the best of both worlds: grounded, general NLU? Following extensive contemporary cognitive science, we propose treating environments as "first-class citizens" in semantic representations, worthy of research and development in their own right. Importantly, models should also be partners in the creation and configuration of environments, rather than just actors within them, as in existing approaches. To do so, we argue that models must begin to understand and program in the language of affordances (which define possible actions in a given situation) both for online, situated discourse comprehension, as well as large-scale, offline common-sense knowledge mining. To this end we propose an environment-oriented ecological semantics, outlining theoretical and practical approaches towards implementation. We further provide actual demonstrations building upon interactive fiction programming languages.
翻訳日:2022-12-24 20:18:32 公開日:2020-05-24
# 境界変動の多カテゴリ分類器のサンプル複雑性結果

Sample Complexity Result for Multi-category Classifiers of Bounded Variation ( http://arxiv.org/abs/2003.09176v2 )

ライセンス: Link先を確認
Khadija Musayeva(参考訳) 本研究は,マルチカテゴリ分類器における実験値と一般化値との均一な偏差の確率を,停止したヒンジ損失関数に基づいて定義した経験値L1-ノルム被覆数により制御する。 多重圏分類器によって実装された関数に関する唯一の仮定は、それらが有界変動(BV)であるということである。 このような分類器に対して、上記の性能が高い確率で近づくのに十分なサンプルサイズ推定を導出する。 特に、クラスの数 C に対するこの推定の依存性に関心がある。 この目的のために、まず、r^d 上で定義された bv 関数の集合の集合の脂肪分散次元である vc-dimension のスケール感受性バージョンを上限とし、スケール epsilon が 0 になるとき o(1/epsilon^d ) を与える。 第二に, bv 関数の集合に対して o(c^(d/2 +1)) から o(cln^2(c)) へ改善する, 脂肪散乱次元 c についてより鋭い分解結果を与える。 この改善は、サンプル複雑性の推定に伝播する。

We control the probability of the uniform deviation between empirical and generalization performances of multi-category classifiers by an empirical L1 -norm covering number when these performances are defined on the basis of the truncated hinge loss function. The only assumption made on the functions implemented by multi-category classifiers is that they are of bounded variation (BV). For such classifiers, we derive the sample size estimate sufficient for the mentioned performances to be close with high probability. Particularly, we are interested in the dependency of this estimate on the number C of classes. To this end, first, we upper bound the scale-sensitive version of the VC-dimension, the fat-shattering dimension of sets of BV functions defined on R^d which gives a O(1/epsilon^d ) as the scale epsilon goes to zero. Secondly, we provide a sharper decomposition result for the fat-shattering dimension in terms of C, which for sets of BV functions gives an improvement from O(C^(d/2 +1)) to O(Cln^2(C)). This improvement then propagates to the sample complexity estimate.
翻訳日:2022-12-21 22:06:45 公開日:2020-05-24
# オンラインアイテムチョイス行動の予測 : 形状制限型回帰視点

Predicting Online Item-choice Behavior: A Shape-restricted Regression Perspective ( http://arxiv.org/abs/2004.08519v2 )

ライセンス: Link先を確認
Naoki Nishimura, Noriyoshi Sukegawa, Yuichi Takano, Jiro Iwanaga(参考訳) 本稿では,電子商取引サイトにおけるユーザページビュー(pv)履歴とアイテム選択行動との関係について検討する。 我々は,各ユーザ対のPV数の時系列を表すPVシーケンスに着目した。 本稿では,全てのPVシーケンスに対する項目選択確率を正確に推定する形状制限最適化モデルを提案する。 このモデルは、ユーザの以前のPVの正確性や頻度に応じて、PVシーケンスの部分的な順序を利用することにより、アイテム選択確率に単調性制約を課す。 最適化モデルの計算効率を向上させるために,部分順序の推移性に応じて冗長な制約をすべて排除する効率的なアルゴリズムを考案する。 実世界のクリックストリームデータを用いた実験の結果,最先端最適化モデルや一般的な機械学習手法よりも高い予測性能が得られた。

This paper examines the relationship between user pageview (PV) histories and their item-choice behavior on an e-commerce website. We focus on PV sequences, which represent time series of the number of PVs for each user--item pair. We propose a shape-restricted optimization model that accurately estimates item-choice probabilities for all possible PV sequences. This model imposes monotonicity constraints on item-choice probabilities by exploiting partial orders for PV sequences, according to the recency and frequency of a user's previous PVs. To improve the computational efficiency of our optimization model, we devise efficient algorithms for eliminating all redundant constraints according to the transitivity of the partial orders. Experimental results using real-world clickstream data demonstrate that our method achieves higher prediction performance than that of a state-of-the-art optimization model and common machine learning methods.
翻訳日:2022-12-12 05:43:57 公開日:2020-05-24
# GPO: 高速かつ高精度な単分子SLAM初期化のためのグローバル平面最適化

GPO: Global Plane Optimization for Fast and Accurate Monocular SLAM Initialization ( http://arxiv.org/abs/2004.12051v2 )

ライセンス: Link先を確認
Sicong Du, Hengkai Guo, Yao Chen, Yilun Lin, Xiangbing Meng, Linfu Wen, Fei-Yue Wang(参考訳) 初期化はslam (monocular concurrent localization and mapping) 問題に必須である。 本稿では,平面的特徴に基づく単分子SLAMの新たな初期化手法について述べる。 アルゴリズムはスライディングウィンドウにおけるホモグラフィ推定から始める。 その後、グローバルな平面最適化(GPO)に進み、カメラのポーズと通常の平面を得る。 3dポイントは三角測量なしで平面制約を使って復元できる。 提案手法は,複数フレームからの平面情報を完全に活用し,ホモグラフィ分解における曖昧さを回避する。 本アルゴリズムは,ベースライン実装に対して収集したチェスボードデータセット上で検証し,広範な解析を行う。 実験の結果,提案手法は精度とリアルタイムの両面において微調整ベースラインよりも優れていた。

Initialization is essential to monocular Simultaneous Localization and Mapping (SLAM) problems. This paper focuses on a novel initialization method for monocular SLAM based on planar features. The algorithm starts by homography estimation in a sliding window. It then proceeds to a global plane optimization (GPO) to obtain camera poses and the plane normal. 3D points can be recovered using planar constraints without triangulation. The proposed method fully exploits the plane information from multiple frames and avoids the ambiguities in homography decomposition. We validate our algorithm on the collected chessboard dataset against baseline implementations and present extensive analysis. Experimental results show that our method outperforms the fine-tuned baselines in both accuracy and real-time.
翻訳日:2022-12-09 22:10:39 公開日:2020-05-24
# 移行学習による肝病変の分類と分類

Joint Liver Lesion Segmentation and Classification via Transfer Learning ( http://arxiv.org/abs/2004.12352v2 )

ライセンス: Link先を確認
Michal Heker and Hayit Greenspan(参考訳) 伝達学習と共同学習アプローチは、畳み込みニューラルネットワーク(CNN)の性能向上に広く利用されている。 ターゲットデータセットが通常非常に小さい医療画像アプリケーションでは、転送学習は特徴学習を改善する一方、共同学習はネットワークの一般化と堅牢性を改善する効果を示す。 本研究は,肝病変の分節と分類の問題に対する2つのアプローチの組み合わせについて検討する。 本目的のために,病変分割と3種類の病変の分類を含む332個の腹部CTスライスを評価した。 特徴学習には、MICCAI 2017 Liver tumor Segmentation (LiTS) Challengeのデータセットを使用する。 共同学習はセグメンテーションと分類結果の両方の改善を示す。 単純なジョイントフレームワークが一般的なマルチタスクアーキテクチャ(y-net)よりも優れており、y-netでは3%改善されているのに対し、分類精度は10%向上している。

Transfer learning and joint learning approaches are extensively used to improve the performance of Convolutional Neural Networks (CNNs). In medical imaging applications in which the target dataset is typically very small, transfer learning improves feature learning while joint learning has shown effectiveness in improving the network's generalization and robustness. In this work, we study the combination of these two approaches for the problem of liver lesion segmentation and classification. For this purpose, 332 abdominal CT slices containing lesion segmentation and classification of three lesion types are evaluated. For feature learning, the dataset of MICCAI 2017 Liver Tumor Segmentation (LiTS) Challenge is used. Joint learning shows improvement in both segmentation and classification results. We show that a simple joint framework outperforms the commonly used multi-task architecture (Y-Net), achieving an improvement of 10% in classification accuracy, compared to a 3% improvement with Y-Net.
翻訳日:2022-12-09 13:44:09 公開日:2020-05-24
# COBRA: 対照的なバイモーダル表現アルゴリズム

COBRA: Contrastive Bi-Modal Representation Algorithm ( http://arxiv.org/abs/2005.03687v2 )

ライセンス: Link先を確認
Vishaal Udandarao, Abhishek Maiti, Deepak Srivatsav, Suryatej Reddy Vyalla, Yifang Yin, Rajiv Ratn Shah(参考訳) クロスモーダル検索、視覚的質問応答、画像キャプションといったマルチモーダルデータを含む幅広いアプリケーションが存在する。 そのような応用は、主に異なる構成様相の整列分布に依存する。 既存のアプローチは、共通多様体でそれらを表現することによって、共同的な方法で各モジュラリティに対する潜在埋め込みを生成する。 しかし、これらの結合埋め込み空間は、下流タスクのパフォーマンスに影響を与えるモダリティギャップを十分に低減できない。 これらの組込みはクラス内関係を維持するが、クラス間ダイナミクスは保持できないと仮定する。 本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにヒントを得て,2つのモード(画像とテキスト)を協調的に学習することを目的とした,新しいフレームワークCOBRAを提案する。 このフレームワークがモダリティギャップを大幅に削減し、堅牢でタスクに依存しないジョイントエンベディングスペースを生成することを実証的に示す。 7つのベンチマーククロスモーダルデータセットにまたがる4つのさまざまなダウンストリームタスクで、既存の作業よりも優れています。

There are a wide range of applications that involve multi-modal data, such as cross-modal retrieval, visual question-answering, and image captioning. Such applications are primarily dependent on aligned distributions of the different constituent modalities. Existing approaches generate latent embeddings for each modality in a joint fashion by representing them in a common manifold. However these joint embedding spaces fail to sufficiently reduce the modality gap, which affects the performance in downstream tasks. We hypothesize that these embeddings retain the intra-class relationships but are unable to preserve the inter-class dynamics. In this paper, we present a novel framework COBRA that aims to train two modalities (image and text) in a joint fashion inspired by the Contrastive Predictive Coding (CPC) and Noise Contrastive Estimation (NCE) paradigms which preserve both inter and intra-class relationships. We empirically show that this framework reduces the modality gap significantly and generates a robust and task agnostic joint-embedding space. We outperform existing work on four diverse downstream tasks spanning across seven benchmark cross-modal datasets.
翻訳日:2022-12-05 22:49:24 公開日:2020-05-24
# CT画像における重症度自動評価のための肺葉分節の相乗的学習と階層的マルチインスタンス分類

Synergistic Learning of Lung Lobe Segmentation and Hierarchical Multi-Instance Classification for Automated Severity Assessment of COVID-19 in CT Images ( http://arxiv.org/abs/2005.03832v2 )

ライセンス: Link先を確認
Kelei He, Wei Zhao, Xingzhi Xie, Wen Ji, Mingxia Liu, Zhenyu Tang, Feng Shi, Yang Gao, Jun Liu, Junfeng Zhang, and Dinggang Shen(参考訳) 新型コロナウイルス感染症(COVID-19)の胸部CT画像の理解は、早期に感染を検知し、疾患の進行を評価するのに役立つ。 特に、CT画像におけるCOVID-19の自動重症度評価は、集中治療を必要とする症例を特定する上で重要な役割を担っている。 しかし,肺の感染症領域や類似のバイオマーカー,ケース間変異が大きいため,ct画像におけるこの疾患の重症度を正確に把握することは困難である。 そこで本研究では,肺葉の分節化とマルチインスタンス分類を併用して,3次元CT画像におけるCOVID-19自動重症度評価のための相乗的学習フレームワークを提案する。 CT画像内の少数の感染領域が重度評価に関係していることを考えると、まず、各入力画像を2D画像パッチのセット(それぞれ特定のスライスから収穫した)を含むバッグで表現する。 次に、covid-19患者の重症度を評価し、同時に肺葉を分割するマルチタスクマルチインスタンスディープネットワーク(m$^2$unet)を開発した。 我々のM$2$UNetは、パッチレベルエンコーダ、肺葉分画のためのセグメンテーションサブネットワーク、重度評価のための分類サブネットワーク(ユニークな階層的マルチインスタンス学習戦略)から構成されている。 ここで、セグメンテーションによって提供されるコンテキスト情報は、重要度評価の性能を改善するために暗黙的に利用することができる。 666個の胸部ct画像からなる実際のcovid-19ct画像データセットについて広範な実験を行った結果,提案手法の有効性が示唆された。

Understanding chest CT imaging of the coronavirus disease 2019 (COVID-19) will help detect infections early and assess the disease progression. Especially, automated severity assessment of COVID-19 in CT images plays an essential role in identifying cases that are in great need of intensive clinical care. However, it is often challenging to accurately assess the severity of this disease in CT images, due to variable infection regions in the lungs, similar imaging biomarkers, and large inter-case variations. To this end, we propose a synergistic learning framework for automated severity assessment of COVID-19 in 3D CT images, by jointly performing lung lobe segmentation and multi-instance classification. Considering that only a few infection regions in a CT image are related to the severity assessment, we first represent each input image by a bag that contains a set of 2D image patches (with each cropped from a specific slice). A multi-task multi-instance deep network (called M$^2$UNet) is then developed to assess the severity of COVID-19 patients and also segment the lung lobe simultaneously. Our M$^2$UNet consists of a patch-level encoder, a segmentation sub-network for lung lobe segmentation, and a classification sub-network for severity assessment (with a unique hierarchical multi-instance learning strategy). Here, the context information provided by segmentation can be implicitly employed to improve the performance of severity assessment. Extensive experiments were performed on a real COVID-19 CT image dataset consisting of 666 chest CT images, with results suggesting the effectiveness of our proposed method compared to several state-of-the-art methods.
翻訳日:2022-12-05 12:24:48 公開日:2020-05-24
# DiResNet:VHRリモートセンシング画像における道路抽出のための方向認識残差ネットワーク

DiResNet: Direction-aware Residual Network for Road Extraction in VHR Remote Sensing Images ( http://arxiv.org/abs/2005.07232v2 )

ライセンス: Link先を確認
Lei Ding, Lorenzo Bruzzone(参考訳) 超高解像度(VHR)リモートセンシング画像(RSI)における道路のバイナリセグメンテーションは、(影、木、建物などによる)閉塞や道路表面のクラス内ばらつきなどの要因により、常に困難な課題となっている。 畳み込みニューラルネットワーク(CNN)の幅広い使用により、セグメンテーションの精度が大幅に向上し、タスクをエンドツーエンドでトレーニングできるようになった。 しかし、結果の完全性と接続性という点では改善の余地はまだある。 本稿では,道路抽出の具体的文脈を考察し,3つの貢献を含む方向認識残差ネットワーク(diresnet)を提案する。 1) 道路トポロジー(DiResSeg)の学習を促進するために,非畳み込み層と構造的監督を有する非対称な残留分断ネットワーク 2) 線形特徴の埋め込みを強化するための局所方向の画素レベルの監督 3)セグメント化結果を最適化する改良ネットワーク(DiResRef)。 2つのベンチマークデータセット(マサチューセッツデータセットとDeepGlobeデータセット)のアブレーション研究により、提示された設計の有効性が確認された。 他の手法との比較実験により,提案手法は総合精度とF1スコアの両方に利点があることが示された。 コードはhttps://github.com/ggsding/diresnet。

The binary segmentation of roads in very high resolution (VHR) remote sensing images (RSIs) has always been a challenging task due to factors such as occlusions (caused by shadows, trees, buildings, etc.) and the intra-class variances of road surfaces. The wide use of convolutional neural networks (CNNs) has greatly improved the segmentation accuracy and made the task end-to-end trainable. However, there are still margins to improve in terms of the completeness and connectivity of the results. In this paper, we consider the specific context of road extraction and present a direction-aware residual network (DiResNet) that includes three main contributions: 1) An asymmetric residual segmentation network with deconvolutional layers and a structural supervision to enhance the learning of road topology (DiResSeg); 2) A pixel-level supervision of local directions to enhance the embedding of linear features; 3) A refinement network to optimize the segmentation results (DiResRef). Ablation studies on two benchmark datasets (the Massachusetts dataset and the DeepGlobe dataset) have confirmed the effectiveness of the presented designs. Comparative experiments with other approaches show that the proposed method has advantages in both overall accuracy and F1-score. The code is available at: https://github.com/ggsDing/DiResNet.
翻訳日:2022-12-03 05:13:58 公開日:2020-05-24
# ハイパースペクトル画像の超解像に先立つ空間スペクトルの学習

Learning Spatial-Spectral Prior for Super-Resolution of Hyperspectral Imagery ( http://arxiv.org/abs/2005.08752v2 )

ライセンス: Link先を確認
Junjun Jiang, He Sun, Xianming Liu, and Jiayi Ma(参考訳) 近年, 深層畳み込みニューラルネットワーク(DCNN)に基づく高度な機械学習技術を活用することで, 単一のグレー/RGB画像超解像再構成タスクが広く研究され, 大幅な進歩を遂げている。 しかし、高スペクトル像の高次元および複雑なスペクトルパターンのため、単一超スペクトル像の超解像に焦点をあてる技術開発は限られている。 本稿では、SSPSRと呼ばれる計算効率のよい単一超スペクトル画像超解法に対して、最先端の残差学習に基づくシングルグレー/RGB画像超解法を適用する方法について検討する。 具体的には,空間情報とハイパースペクトルデータのスペクトル間の相関を十分に活用する空間スペクトル優先ネットワーク(sspn)を提案する。 ハイパースペクトルトレーニングサンプルが不足しており、ハイパースペクトル画像データのスペクトル次元が非常に高いことから、安定かつ効果的なディープネットワークを訓練することは非自明である。 そのため、グループ畳み込み(ネットワークパラメータの共有)とプログレッシブアップサンプリングフレームワークを提案する。 これは、ハイパースペクトルデータの高次元化による特徴抽出の困難さを軽減するだけでなく、トレーニングプロセスをより安定させる。 空間的およびスペクトル的先行性を利用するため,空間的残留モジュールとスペクトル注意残留モジュールからなる空間スペクトルブロック(ssb)を設計する。 ハイパースペクトル画像を用いた実験の結果,提案手法は高分解能ハイパースペクトル画像の精細度を高め,最先端画像よりも優れていた。 ソースコードは \url{https://github.com/junjun-jiang/SSPSR で入手できる。

Recently, single gray/RGB image super-resolution reconstruction task has been extensively studied and made significant progress by leveraging the advanced machine learning techniques based on deep convolutional neural networks (DCNNs). However, there has been limited technical development focusing on single hyperspectral image super-resolution due to the high-dimensional and complex spectral patterns in hyperspectral image. In this paper, we make a step forward by investigating how to adapt state-of-the-art residual learning based single gray/RGB image super-resolution approaches for computationally efficient single hyperspectral image super-resolution, referred as SSPSR. Specifically, we introduce a spatial-spectral prior network (SSPN) to fully exploit the spatial information and the correlation between the spectra of the hyperspectral data. Considering that the hyperspectral training samples are scarce and the spectral dimension of hyperspectral image data is very high, it is nontrivial to train a stable and effective deep network. Therefore, a group convolution (with shared network parameters) and progressive upsampling framework is proposed. This will not only alleviate the difficulty in feature extraction due to high-dimension of the hyperspectral data, but also make the training process more stable. To exploit the spatial and spectral prior, we design a spatial-spectral block (SSB), which consists of a spatial residual module and a spectral attention residual module. Experimental results on some hyperspectral images demonstrate that the proposed SSPSR method enhances the details of the recovered high-resolution hyperspectral images, and outperforms state-of-the-arts. The source code is available at \url{https://github.com/junjun-jiang/SSPSR
翻訳日:2022-12-01 23:21:34 公開日:2020-05-24
# 公平なインプットと公平なアウトプット: プライバシーと正確性における公平性の非互換性

Fair Inputs and Fair Outputs: The Incompatibility of Fairness in Privacy and Accuracy ( http://arxiv.org/abs/2005.09209v3 )

ライセンス: Link先を確認
Bashir Rastegarpanah (1), Mark Crovella (1), Krishna P. Gummadi (2) ((1) Boston University, (2) MPI-SWS)(参考訳) アルゴリズムによる意思決定システムに対する公正な懸念は、主に出力(例えば、個人またはグループ間での分類器の精度)に焦点を当てている。 しかし、さらに入力の公平性に関係があるかもしれない。 本稿では,分類器の入力に関する2つの特性を提案し,定式化する。 特に、公正なプライバシ(すべての個人が同じ情報を開示するように要求される)と、必要な知識(手元にあるタスクに必要な最小限の情報しか要求されない)は、意思決定システムの望ましい特性であると主張する。 これらの特性と出力の公平性(フェア予測精度)の相互作用について検討する。 最適分類器ではこれら3つの特性は一般に非互換であることが示され、データの共通特性がそれらと非互換なものについて説明する。 最後に、与えられたデータセットに3つのプロパティ間のトレードオフが存在するかどうかを検証し、このトレードオフが実データで共通であることを示すアルゴリズムを提案する。

Fairness concerns about algorithmic decision-making systems have been mainly focused on the outputs (e.g., the accuracy of a classifier across individuals or groups). However, one may additionally be concerned with fairness in the inputs. In this paper, we propose and formulate two properties regarding the inputs of (features used by) a classifier. In particular, we claim that fair privacy (whether individuals are all asked to reveal the same information) and need-to-know (whether users are only asked for the minimal information required for the task at hand) are desirable properties of a decision system. We explore the interaction between these properties and fairness in the outputs (fair prediction accuracy). We show that for an optimal classifier these three properties are in general incompatible, and we explain what common properties of data make them incompatible. Finally we provide an algorithm to verify if the trade-off between the three properties exists in a given dataset, and use the algorithm to show that this trade-off is common in real data.
翻訳日:2022-12-01 13:40:19 公開日:2020-05-24
# 弱凸確率最適化問題に対する適応一階およびゼロ階法

Adaptive First-and Zeroth-order Methods for Weakly Convex Stochastic Optimization Problems ( http://arxiv.org/abs/2005.09261v2 )

ライセンス: Link先を確認
Parvin Nazari, Davoud Ataee Tarzanagh, George Michailidis(参考訳) 本稿では,弱凸(多分非スムース)確率的最適化問題の重要なクラスを解くための新しい適応的部分勾配法を設計・解析する。 過去の勾配の指数的な移動平均を用いて探索方向と学習率を更新する適応的手法は、機械学習で発生する最適化問題の解決に多くの注目を集めている。 それにもかかわらず、それらの収束解析はほとんど目的関数の滑らかさおよび/または凸性を必要とする。 対照的に、1次および0階適応法の非漸近的収束率と、非滑らかな \&非凸最適化問題の合理的に広いクラスに対する近位変種を確立する。 実験結果から,提案アルゴリズムは確率勾配勾配を経験的に上回り,そのゼロ階変分を最適化問題の解法として用いた。

In this paper, we design and analyze a new family of adaptive subgradient methods for solving an important class of weakly convex (possibly nonsmooth) stochastic optimization problems. Adaptive methods that use exponential moving averages of past gradients to update search directions and learning rates have recently attracted a lot of attention for solving optimization problems that arise in machine learning. Nevertheless, their convergence analysis almost exclusively requires smoothness and/or convexity of the objective function. In contrast, we establish non-asymptotic rates of convergence of first and zeroth-order adaptive methods and their proximal variants for a reasonably broad class of nonsmooth \& nonconvex optimization problems. Experimental results indicate how the proposed algorithms empirically outperform stochastic gradient descent and its zeroth-order variant for solving such optimization problems.
翻訳日:2022-12-01 13:40:02 公開日:2020-05-24
# PoliteCamera:モバイル写真におけるストレガーのプライバシー

PoliteCamera: Respecting Strangers' Privacy in Mobile Photographing ( http://arxiv.org/abs/2005.11634v1 )

ライセンス: Link先を確認
Ang Li, Wei Du, Qinghua Li(参考訳) カメラは現代の携帯電話の標準搭載センサーである。 写真撮影は便利さと高解像度さで人気がある。 しかし、ユーザーが風景や建物、ターゲットの人物の写真を撮ると、見知らぬ人が意図せず写真に撮られることもある。 このような写真は見知らぬ人の位置や活動を公開しているため、プライバシーを侵害する可能性がある。 本稿では,見知らぬ人のプライバシーを守るために,PoliteCameraという協調移動撮影方式を提案する。 写真家と見知らぬ人の協力により、写真に写っている見知らぬ人の顔は、写真が撮られたときに自動的にぼやけてしまう。 近くにいる複数の見知らぬ人が、ぼやけた要求を送信し、全員が写真に写っているわけではないので、顔の特徴に基づいて、要求する見知らぬ人が写真の中にいるかどうかを判断するために、適応された平衡畳み込みニューラルネットワーク(ABCNN)が提案されている。 ABCNNは顔の特徴を正確に予測でき、PoliteCameraは見知らぬ人に正確なプライバシー保護を提供する。

Camera is a standard on-board sensor of modern mobile phones. It makes photo taking popular due to its convenience and high resolution. However, when users take a photo of a scenery, a building or a target person, a stranger may also be unintentionally captured in the photo. Such photos expose the location and activity of strangers, and hence may breach their privacy. In this paper, we propose a cooperative mobile photographing scheme called PoliteCamera to protect strangers' privacy. Through the cooperation between a photographer and a stranger, the stranger's face in a photo can be automatically blurred upon his request when the photo is taken. Since multiple strangers nearby the photographer might send out blurring requests but not all of them are in the photo, an adapted balanced convolutional neural network (ABCNN) is proposed to determine whether the requesting stranger is in the photo based on facial attributes. Evaluations demonstrate that the ABCNN can accurately predict facial attributes and PoliteCamera can provide accurate privacy protection for strangers.
翻訳日:2022-11-29 14:10:27 公開日:2020-05-24
# 連続したプライバシーの保持

Successive Refinement of Privacy ( http://arxiv.org/abs/2005.11651v1 )

ライセンス: Link先を確認
Antonious M. Girgis, Deepesh Data, Kamalika Chaudhuri, Christina Fragouli, and Suhas Diggavi(参考訳) この研究は、ローカルディファレンシャルプライバシ(LDP)を達成するためにどの程度のランダム性が必要かという、新しい疑問を考察する。 モチベーションのあるシナリオは、複数のアナリストに、分散またはヘビーヒッター推定のために、\emph{same} (randomized) アウトプットを使用して、"em many level of privacy} を提供することである。 この設定を \emph{successive refinement of privacy}と呼び、異なるプライバシーレベルを持つ生データへの階層的アクセスを提供する。 例えば、同じランダム出力は、あるアナリストが入力を再構築できる可能性があり、別のアナリストは、ldp要件の対象となる分布のみを推定できる。 これにより、従来のShannon(wiretap)セキュリティ設定をローカル差分プライバシーに拡張する。 ランダム性制約の下での標準LDP設定を含む,分散推定のいくつかのケースにおいて,プライバシ・ユーティリティ・ランダム性トレードオフの(順序的に)厳密な特徴付けを行う。 マルチレベルプライバシのための非自明なプライバシメカニズムも提供しています。 さらに、各ユーザのプライバシーを維持しながら、ランダムキーを時間とともに再利用することはできないことを示す。

This work examines a novel question: how much randomness is needed to achieve local differential privacy (LDP)? A motivating scenario is providing {\em multiple levels of privacy} to multiple analysts, either for distribution or for heavy-hitter estimation, using the \emph{same} (randomized) output. We call this setting \emph{successive refinement of privacy}, as it provides hierarchical access to the raw data with different privacy levels. For example, the same randomized output could enable one analyst to reconstruct the input, while another can only estimate the distribution subject to LDP requirements. This extends the classical Shannon (wiretap) security setting to local differential privacy. We provide (order-wise) tight characterizations of privacy-utility-randomness trade-offs in several cases for distribution estimation, including the standard LDP setting under a randomness constraint. We also provide a non-trivial privacy mechanism for multi-level privacy. Furthermore, we show that we cannot reuse random keys over time while preserving privacy of each user.
翻訳日:2022-11-29 14:09:53 公開日:2020-05-24
# req2lib: ソフトウェアライブラリ推奨のためのセマンティックニューラルモデル

Req2Lib: A Semantic Neural Model for Software Library Recommendation ( http://arxiv.org/abs/2005.11757v1 )

ライセンス: Link先を確認
Zhensu Sun, Yan Liu, Ziming Cheng, Chen Yang, Pengyu Che(参考訳) サードパーティのライブラリは、ソフトウェアプロジェクトの開発に不可欠である。 適切なライブラリを得るためには、開発者はフィルタリング、評価、比較によって何百万ものライブラリを検索する必要がある。 膨大な数のライブラリは、プログラマが適切なライブラリを見つけるための障壁となる。 開発者を支援するため、研究者はライブラリの使用パターンに基づいたライブラリを推奨する自動アプローチを提案した。 しかし、これらの先行研究はユーザー要求に十分適合せず、コールドスタート問題に悩まされる。 この作業では、これらの問題を避けるために、要件記述に基づいたレコメンデーションを行いたいと思います。 この目的のために、我々はReq2Libと呼ばれる新しいニューラルアプローチを提案し、プロジェクトの要件を記述したライブラリを推奨する。 自然言語における要件記述の連結利用情報と意味情報を学ぶためにシーケンス・ツー・シーケンスモデルを用いる。 さらに、ドメイン固有の事前学習されたword2vecモデルを単語埋め込みに適用し、stack overflowポストからテキストコーパスでトレーニングする。 実験では,5,625のjavaプロジェクトのデータを用いてモデルをトレーニングし,評価する。 我々の予備評価は、Req2Libがライブラリを正確に推奨できることを示しています。

Third-party libraries are crucial to the development of software projects. To get suitable libraries, developers need to search through millions of libraries by filtering, evaluating, and comparing. The vast number of libraries places a barrier for programmers to locate appropriate ones. To help developers, researchers have proposed automated approaches to recommend libraries based on library usage pattern. However, these prior studies can not sufficiently match user requirements and suffer from cold-start problem. In this work, we would like to make recommendations based on requirement descriptions to avoid these problems. To this end, we propose a novel neural approach called Req2Lib which recommends libraries given descriptions of the project requirement. We use a Sequence-to-Sequence model to learn the library linked-usage information and semantic information of requirement descriptions in natural language. Besides, we apply a domain-specific pre-trained word2vec model for word embedding, which is trained over textual corpus from Stack Overflow posts. In the experiment, we train and evaluate the model with data from 5,625 java projects. Our preliminary evaluation demonstrates that Req2Lib can recommend libraries accurately.
翻訳日:2022-11-29 14:09:31 公開日:2020-05-24
# 確率的スタックルバーグセキュリティゲームのためのモデルフリー強化学習

Model-free Reinforcement Learning for Stochastic Stackelberg Security Games ( http://arxiv.org/abs/2005.11853v1 )

ライセンス: Link先を確認
Rajesh K Mishra, Deepanshu Vasal, and Sriram Vishwanath(参考訳) 本稿では,2人のプレーヤー,リーダーと従者からなる連続確率的スタックルバーグゲームについて考察する。 フォロワーはシステムの状態にアクセスできますが、リーダーはアクセスしません。 プレイヤーがそれぞれの最善を尽くすと仮定すると、参加者の戦略はリーダーの戦略に対する最良の反応を果たすことである。 このようなシナリオにおいて、リーダーは、フォロワーがそのポリシーに対して最高のレスポンスを果たすという知識から、自身のリターンを最大化するポリシーにコミットする利点がある。 したがって、両方のプレイヤーはゲームのスタックルバーグ均衡を形成する一対のポリシーに収束する。 最近、−[1] はこのようなゲームのスタックルバーグ均衡を計算するために逐次分解アルゴリズムを提供し、前述したように二重指数関数とは対照的に、マルコフ平衡ポリシーを線形時間で計算できるようになった。 本稿では,この概念をプレイヤーに知られていないMDPに拡張し,MDPのモデルをシミュレートしてスタックルバーグ均衡政策を学習する予測サーサに基づくRLアルゴリズムを提案する。 プレーヤ双方に共通する情報に基づいて最適なポリシーを計算する共通エージェントの信念更新を推定するために粒子フィルタを用いる。 アルゴリズムによって学習されたポリシーを説明するためのセキュリティゲーム例を示す。 mdpのモデルをシミュレートすることで プレーヤ双方に共通する情報に基づいて最適なポリシーを計算する共通エージェントの信念更新を推定するために粒子フィルタを用いる。 アルゴリズムによって学習されたポリシーを説明するためのセキュリティゲーム例を示す。

In this paper, we consider a sequential stochastic Stackelberg game with two players, a leader and a follower. The follower has access to the state of the system while the leader does not. Assuming that the players act in their respective best interests, the follower's strategy is to play the best response to the leader's strategy. In such a scenario, the leader has the advantage of committing to a policy which maximizes its own returns given the knowledge that the follower is going to play the best response to its policy. Thus, both players converge to a pair of policies that form the Stackelberg equilibrium of the game. Recently,~[1] provided a sequential decomposition algorithm to compute the Stackelberg equilibrium for such games which allow for the computation of Markovian equilibrium policies in linear time as opposed to double exponential, as before. In this paper, we extend the idea to an MDP whose dynamics are not known to the players, to propose an RL algorithm based on Expected Sarsa that learns the Stackelberg equilibrium policy by simulating a model of the MDP. We use particle filters to estimate the belief update for a common agent which computes the optimal policy based on the information which is common to both the players. We present a security game example to illustrate the policy learned by our algorithm. by simulating a model of the MDP. We use particle filters to estimate the belief update for a common agent which computes the optimal policy based on the information which is common to both the players. We present a security game example to illustrate the policy learned by our algorithm.
翻訳日:2022-11-29 14:09:16 公開日:2020-05-24
# カメラミススキャリブレーション検出の学習

Learning Camera Miscalibration Detection ( http://arxiv.org/abs/2005.11711v1 )

ライセンス: Link先を確認
Andrei Cramariuc, Aleksandar Petrov, Rohit Suri, Mayank Mittal, Roland Siegwart, Cesar Cadena(参考訳) 自己診断と自己修復は、長期的な現実世界のアプリケーションにロボットプラットフォームをデプロイする上で重要な課題のひとつだ。 ロボットに起こりうる問題の1つは、老朽化、環境過渡期、または外乱によるセンサーの誤校正である。 正確なキャリブレーションは、世界を正確に知覚する必要があるため、様々なアプリケーションの中核にある。 しかし、多くの作業はセンサーの校正に集中しているが、センサーをいつ再調整する必要があるかを特定するためにはあまり行われていない。 本稿では,視覚センサ,特にRGBカメラの誤校正検出を学習するためのデータ駆動型アプローチに焦点を当てた。 コントリビューションには、RGBカメラの誤校正基準と、この基準に基づく新しい半合成データセット生成パイプラインが含まれる。 さらに、深層畳み込みニューラルネットワークをトレーニングすることにより、カメラ固有のパラメータの再校正が必要か否かを判断するパイプラインの有効性を実証する。 コードはhttp://github.com/ethz-asl/camera_miscalib_detectionで入手できる。

Self-diagnosis and self-repair are some of the key challenges in deploying robotic platforms for long-term real-world applications. One of the issues that can occur to a robot is miscalibration of its sensors due to aging, environmental transients, or external disturbances. Precise calibration lies at the core of a variety of applications, due to the need to accurately perceive the world. However, while a lot of work has focused on calibrating the sensors, not much has been done towards identifying when a sensor needs to be recalibrated. This paper focuses on a data-driven approach to learn the detection of miscalibration in vision sensors, specifically RGB cameras. Our contributions include a proposed miscalibration metric for RGB cameras and a novel semi-synthetic dataset generation pipeline based on this metric. Additionally, by training a deep convolutional neural network, we demonstrate the effectiveness of our pipeline to identify whether a recalibration of the camera's intrinsic parameters is required or not. The code is available at http://github.com/ethz-asl/camera_miscalib_detection.
翻訳日:2022-11-29 14:00:59 公開日:2020-05-24
# 深層畳み込みニューラルネットワークを用いた頭部ポーズ推定のためのbernolliヒートマップ

Deep Convolutional Neural Network-based Bernoulli Heatmap for Head Pose Estimation ( http://arxiv.org/abs/2005.11780v1 )

ライセンス: Link先を確認
Zhongxu Hu, Yang Xing, Chen Lv, Peng Hang, Jie Liu(参考訳) ヘッドポーズ推定は、ドライバーの注意、疲労検出、人間の行動分析など、多くのタスクにおいて重要な問題である。 ニューラルネットワークが回帰問題よりも分類問題に優れていることはよく知られている。 最適化学習のためにネットワークが直接角度値を出力することは極めて非線形なプロセスであり、損失関数の重み制約は相対的に弱くなる。 本稿では,単一のrgb画像から頭部位置推定を行うためのbernolli heatmapを提案する。 本手法では,頭部の角度を推定しながら頭部の位置決めを行うことができる。 Bernoulliのヒートマップは、完全に接続された層を持たない完全な畳み込みニューラルネットワークの構築を可能にし、ヘッドポーズ推定の出力形式に対する新しいアイデアを提供する。 マルチスケール表現を持つ深層畳み込みニューラルネットワーク(cnn)構造を採用し,高分解能情報と低分解能情報を並列に保持する。 このような構造はリッチで高解像度な表現を維持することができる。 さらに、チャネルワイズ融合は、同じ重みで単純な加算ではなく、融合重みを学習可能にするために採用されている。 その結果、推定は空間的により正確であり、潜在的により正確である。 提案手法の有効性は,公開データセット上の他の最先端手法と比較することによって実証的に実証される。

Head pose estimation is a crucial problem for many tasks, such as driver attention, fatigue detection, and human behaviour analysis. It is well known that neural networks are better at handling classification problems than regression problems. It is an extremely nonlinear process to let the network output the angle value directly for optimization learning, and the weight constraint of the loss function will be relatively weak. This paper proposes a novel Bernoulli heatmap for head pose estimation from a single RGB image. Our method can achieve the positioning of the head area while estimating the angles of the head. The Bernoulli heatmap makes it possible to construct fully convolutional neural networks without fully connected layers and provides a new idea for the output form of head pose estimation. A deep convolutional neural network (CNN) structure with multiscale representations is adopted to maintain high-resolution information and low-resolution information in parallel. This kind of structure can maintain rich, high-resolution representations. In addition, channelwise fusion is adopted to make the fusion weights learnable instead of simple addition with equal weights. As a result, the estimation is spatially more precise and potentially more accurate. The effectiveness of the proposed method is empirically demonstrated by comparing it with other state-of-the-art methods on public datasets.
翻訳日:2022-11-29 14:00:26 公開日:2020-05-24
# 集中型およびローカル差分プライバシー下のデータストリームの継続的リリース

Continuous Release of Data Streams under both Centralized and Local Differential Privacy ( http://arxiv.org/abs/2005.11753v1 )

ライセンス: Link先を確認
Tianhao Wang, Joann Qiongna Chen, Zhikun Zhang, Dong Su, Yueqiang Cheng, Zhou Li, Ninghui Li, Somesh Jha(参考訳) 本稿では,差分プライバシ(DP)を満たす実数値データのストリームを公開する際の問題点について検討する。 1つの大きな課題は、最大可能な値は非常に大きいため、全てのデータに必要なノイズの量を減らすために、その上の数値が切り詰められるように閾値を推定する必要があることである。 見積もりはプライベートな方法でデータに基づいて行われなければならない。 我々は,低感度を維持しつつ,実用目的をよく近似する品質関数を備えた指数関数を用いた手法を開発した。 そこで本研究では,新たなオンライン階層化手法とポストプロセッシング手法を提案する。 これらのアイデアに基づいて、ストリームデータのプライベートパブリッシングのためのフレームワークへのステップを形式化します。 本フレームワークは,しきい値をプライベートに推定するしきい値オプティマイザ,ストリームに校正ノイズを付加する摂動器,後処理による結果を改善するスムーズなスムーズな3つのコンポーネントから構成される。 本フレームワークでは,ローカルDP(LDP)と呼ばれるDPのより厳密な設定を満たすアルゴリズムを設計する。 我々の知る限り、これはストリーミングデータをパブリッシュする最初の LDP アルゴリズムである。 4つの実世界のデータセットを用いて,本機構が実用性の観点から6~10桁の桁数で最先端を上回っていることを実証する(ランダムレンジクエリに応答する平均二乗誤差による)。

In this paper, we study the problem of publishing a stream of real-valued data satisfying differential privacy (DP). One major challenge is that the maximal possible value can be quite large; thus it is necessary to estimate a threshold so that numbers above it are truncated to reduce the amount of noise that is required to all the data. The estimation must be done based on the data in a private fashion. We develop such a method that uses the Exponential Mechanism with a quality function that approximates well the utility goal while maintaining a low sensitivity. Given the threshold, we then propose a novel online hierarchical method and several post-processing techniques. Building on these ideas, we formalize the steps into a framework for private publishing of stream data. Our framework consists of three components: a threshold optimizer that privately estimates the threshold, a perturber that adds calibrated noises to the stream, and a smoother that improves the result using post-processing. Within our framework, we design an algorithm satisfying the more stringent setting of DP called local DP (LDP). To our knowledge, this is the first LDP algorithm for publishing streaming data. Using four real-world datasets, we demonstrate that our mechanism outperforms the state-of-the-art by a factor of 6-10 orders of magnitude in terms of utility (measured by the mean squared error of answering a random range query).
翻訳日:2022-11-29 13:58:44 公開日:2020-05-24
# 臨床ベンチマークデータを用いたフェデレーション学習の信頼性と性能評価

Reliability and Performance Assessment of Federated Learning on Clinical Benchmark Data ( http://arxiv.org/abs/2005.11756v1 )

ライセンス: Link先を確認
GeunHyeong Lee, Soo-Yong Shin(参考訳) 深層学習が臨床に応用されるにつれて、大量の個人情報の収集と処理のためにプライバシーの懸念が高まっている。 近年,フェデレーテッド・ラーニング(FL)は,トレーニング期間中にデータを集中化しないため,個人のプライバシーを守ることが提案されている。 本研究では,MNISTやMIMIC-IIIなどのベンチマークデータセットを用いてFLの信頼性と性能を評価する。 さらに,実際の臨床データ分布をシミュレートしたデータセット上でのflの検証を試みた。 クライアントとサーバアーキテクチャを使用したFLを実装し,修正MNISTおよびMIMIC-IIIデータセット上でクライアントとサーバのFLをテストした。 FLは, 患者数と各病院の患者特性の相違について, 不均衡分布と極度歪曲分布の双方で信頼性の高い性能を示した。 したがって、FLは医療データに適用した場合のプライバシー保護に適している。

As deep learning have been applied in a clinical context, privacy concerns have increased because of the collection and processing of a large amount of personal data. Recently, federated learning (FL) has been suggested to protect personal privacy because it does not centralize data during the training phase. In this study, we assessed the reliability and performance of FL on benchmark datasets including MNIST and MIMIC-III. In addition, we attempted to verify FL on datasets that simulated a realistic clinical data distribution. We implemented FL that uses a client and server architecture and tested client and server FL on modified MNIST and MIMIC-III datasets. FL delivered reliable performance on both imbalanced and extremely skewed distributions (i.e., the difference of the number of patients and the characteristics of patients in each hospital). Therefore, FL can be suitable to protect privacy when applied to medical data.
翻訳日:2022-11-29 13:58:18 公開日:2020-05-24
# 医用イメージングのためのドメイン特化半監督トランスファー学習

Domain Specific, Semi-Supervised Transfer Learning for Medical Imaging ( http://arxiv.org/abs/2005.11746v1 )

ライセンス: Link先を確認
Jitender Singh Virk and Deepti R. Bathula(参考訳) アノテーション付き医療画像データの可用性の制限は、ディープラーニングアルゴリズムにとって課題となる。 転送学習は一般にこのハードルを最小化しているが、異なるドメイン間の知識の転送は効果が低いことが示されている。 一方、より小さなアーキテクチャは、より良い機能を学ぶのにより魅力的であることがわかった。 そこで我々は,maknet (mixed asymmetric kernels) を用いてパラメータ数を大幅に削減する軽量アーキテクチャを提案する。 さらに,提案アーキテクチャを半教師付き学習を用いてトレーニングし,大規模医療データセットに擬似ラベルを提供し,転送学習を支援する。 提案するmaknetは、一般的なアーキテクチャよりも60~70\%少ないパラメータで、より優れた分類性能を提供する。 実験結果は、効果的な転校学習におけるドメイン固有知識の重要性も強調する。

Limited availability of annotated medical imaging data poses a challenge for deep learning algorithms. Although transfer learning minimizes this hurdle in general, knowledge transfer across disparate domains is shown to be less effective. On the other hand, smaller architectures were found to be more compelling in learning better features. Consequently, we propose a lightweight architecture that uses mixed asymmetric kernels (MAKNet) to reduce the number of parameters significantly. Additionally, we train the proposed architecture using semi-supervised learning to provide pseudo-labels for a large medical dataset to assist with transfer learning. The proposed MAKNet provides better classification performance with $60 - 70\%$ less parameters than popular architectures. Experimental results also highlight the importance of domain-specific knowledge for effective transfer learning.
翻訳日:2022-11-29 13:50:53 公開日:2020-05-24
# 制限付き対話型検索のための問合せ解決法

Query Resolution for Conversational Search with Limited Supervision ( http://arxiv.org/abs/2005.11723v1 )

ライセンス: Link先を確認
Nikos Voskarides, Dan Li, Pengjie Ren, Evangelos Kanoulas, Maarten de Rijke(参考訳) 本研究は,対話的検索の重要な要素として,マルチターン・パッセージ検索に焦点をあてる。 マルチターンパス検索における重要な課題の1つは、現在のターンクエリが、0のアナフォラ、トピック変更、トピックリターンのため、しばしば不特定であるという事実である。 会話履歴からのコンテキストは、クエリ解決のタスクとして定義された現在のターンクエリのより良い表現に到達するために使用できる。 本稿では,クエリ解決タスクをバイナリ項分類問題としてモデル化する。 会話の前のターンに現れる各ワードに対して,現在のターンクエリに追加するかどうかを判断する。 本稿では,双方向トランスフォーマーに基づくニューラルネットワークのクエリ解決モデルであるquretec (query resolution by term classification)を提案する。 本稿では,クエリーパス関連ラベルを用いて学習データを自動的に生成する遠隔監視手法を提案する。 このようなラベルは、ヒューマンアノテーションまたはユーザーインタラクションから推測されたコレクションで容易に利用できる。 我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。 我々は、QuReTeCをマルチターン多段通過検索アーキテクチャに組み込み、TREC CAsTデータセット上での有効性を示す。

In this work we focus on multi-turn passage retrieval as a crucial component of conversational search. One of the key challenges in multi-turn passage retrieval comes from the fact that the current turn query is often underspecified due to zero anaphora, topic change, or topic return. Context from the conversational history can be used to arrive at a better expression of the current turn query, defined as the task of query resolution. In this paper, we model the query resolution task as a binary term classification problem: for each term appearing in the previous turns of the conversation decide whether to add it to the current turn query or not. We propose QuReTeC (Query Resolution by Term Classification), a neural query resolution model based on bidirectional transformers. We propose a distant supervision method to automatically generate training data by using query-passage relevance labels. Such labels are often readily available in a collection either as human annotations or inferred from user interactions. We show that QuReTeC outperforms state-of-the-art models, and furthermore, that our distant supervision method can be used to substantially reduce the amount of human-curated data required to train QuReTeC. We incorporate QuReTeC in a multi-turn, multi-stage passage retrieval architecture and demonstrate its effectiveness on the TREC CAsT dataset.
翻訳日:2022-11-29 13:50:45 公開日:2020-05-24
# IWSLT 2020におけるエンドツーエンド・同時音声翻訳課題のためのON-TRACコンソーシアム

ON-TRAC Consortium for End-to-End and Simultaneous Speech Translation Challenge Tasks at IWSLT 2020 ( http://arxiv.org/abs/2005.11861v1 )

ライセンス: Link先を確認
Maha Elbayad, Ha Nguyen, Fethi Bougares, Natalia Tomashenko, Antoine Caubri\`ere, Benjamin Lecouteux, Yannick Est\`eve, Laurent Besacier(参考訳) 本稿では,IWSLT 2020の評価キャンペーン,オフライン音声翻訳,同時音声翻訳における2つの課題トラックを対象としたON-TRAC Consortium翻訳システムについて述べる。 ON-TRACコンソーシアムは、フランスの3つの学術研究所(Avignon Universit\'e)、LIG(Universit\'e Grenoble Alpes)、Lium(Le Mans Universit\'e)の研究者で構成されている。 学習したエンドツーエンドのアテンションベースエンコーダデコーダモデルを用いて、オフライン音声翻訳トラックへの提案を行った。 コントリビューションでは、複数のモデルのデータの強化とアンサンブルに重点を置いています。 同時音声翻訳トラックでは,テキスト・トゥ・テキスト・サブタスクのための Transformer ベースのwait-k モデルを構築している。 音声とテキストの同時翻訳では、待ち時間MTシステムをハイブリッドASRシステムにアタッチする。 本稿では,ASR+MTカスケードの遅延を制御し,両方のサブタスクにおいて良好なレイテンシ品質のトレードオフを実現するアルゴリズムを提案する。

This paper describes the ON-TRAC Consortium translation systems developed for two challenge tracks featured in the Evaluation Campaign of IWSLT 2020, offline speech translation and simultaneous speech translation. ON-TRAC Consortium is composed of researchers from three French academic laboratories: LIA (Avignon Universit\'e), LIG (Universit\'e Grenoble Alpes), and LIUM (Le Mans Universit\'e). Attention-based encoder-decoder models, trained end-to-end, were used for our submissions to the offline speech translation track. Our contributions focused on data augmentation and ensembling of multiple models. In the simultaneous speech translation track, we build on Transformer-based wait-k models for the text-to-text subtask. For speech-to-text simultaneous translation, we attach a wait-k MT system to a hybrid ASR system. We propose an algorithm to control the latency of the ASR+MT cascade and achieve a good latency-quality trade-off on both subtasks.
翻訳日:2022-11-29 13:50:23 公開日:2020-05-24
# ドオブのMartingale理論と人口制御 : ノイズフリーマルチモーダル事例

Population Control meets Doob's Martingale Theorems: the Noise-free Multimodal Case ( http://arxiv.org/abs/2005.13970v1 )

ライセンス: Link先を確認
Marie-Liesse Cauwet, Olivier Teytaud(参考訳) 本研究では,騒音のないマルチモーダルケースにおいて,人口制御から着想を得たテストベース人口規模適応法(TBPSA)について検討した。 ノイズの多い環境では、TBPSAは通常、実行の終わりにガウスの中心を最適値の近似として推奨する。 提案手法は,これまで最も適合度の高い訪問点を推薦する手法と組み合わせることで,雑音のないマルチモーダル環境においてもtbpsaが有効であることを示す。 我々は、この機構を実験的に実証し、理論的にこのメカニズムを探求する:我々は、BPSAが局所的なミニマに収束できるという事実にもかかわらず、確率1で高原から逃れることができることを証明した。 これにより、スクラッチからランダムに再起動することなく、マルチモーダル設定で有効なアルゴリズムが得られる。

We study a test-based population size adaptation (TBPSA) method, inspired from population control, in the noise-free multimodal case. In the noisy setting, TBPSA usually recommends, at the end of the run, the center of the Gaussian as an approximation of the optimum. We show that combined with a more naive recommendation, namely recommending the visited point which had the best fitness value so far, TBPSA is also powerful in the noise-free multimodal context. We demonstrate this experimentally and explore this mechanism theoretically: we prove that TBPSA is able to escape plateaus with probability one in spite of the fact that it can converge to local minima. This leads to an algorithm effective in the multimodal setting without resorting to a random restart from scratch.
翻訳日:2022-11-29 13:49:43 公開日:2020-05-24
# 声門音源推定のロバスト性:声門音源推定手法の感度の比較

Glottal source estimation robustness: A comparison of sensitivity of voice source estimation techniques ( http://arxiv.org/abs/2005.11682v1 )

ライセンス: Link先を確認
Thomas Drugman, Thomas Dubuisson, Alexis Moinet, Nicolas D'Alessandro, Thierry Dutoit(参考訳) 本稿では,音声波形から直接音源を推定する問題に対処する。 ADR(Anticausality Dominated Regions)に基づく新しい原理は、スロットル開相を推定するために用いられる。 この手法は、z変換(zzt)の零点と反復適応逆フィルタリング(iaif)アルゴリズムという、他の2つの最先端の手法と比較される。 合成信号の分解品質は, スペクトル歪みとフロッタルホルマント決定率の2つの客観的尺度を用いて評価した。 ノイズとGCI(Glottal Closure Instant)位置誤差の影響を解析し,ロバスト性を検証した。 基本周波数と第1のフォルマントが性能に与える影響も評価する。 提案手法は頑健性が著しく向上しており,実際の発話を分解する場合に非常に興味をそそられる。

This paper addresses the problem of estimating the voice source directly from speech waveforms. A novel principle based on Anticausality Dominated Regions (ACDR) is used to estimate the glottal open phase. This technique is compared to two other state-of-the-art well-known methods, namely the Zeros of the Z-Transform (ZZT) and the Iterative Adaptive Inverse Filtering (IAIF) algorithms. Decomposition quality is assessed on synthetic signals through two objective measures: the spectral distortion and a glottal formant determination rate. Technique robustness is tested by analyzing the influence of noise and Glottal Closure Instant (GCI) location errors. Besides impacts of the fundamental frequency and the first formant on the performance are evaluated. Our proposed approach shows significant improvement in robustness, which could be of a great interest when decomposing real speech.
翻訳日:2022-11-29 13:49:27 公開日:2020-05-24
# 事前訓練エンコーダを用いた画像による家族認識

Recognizing Families through Images with Pretrained Encoder ( http://arxiv.org/abs/2005.11811v1 )

ライセンス: Link先を確認
Tuan-Duy H. Nguyen, Huu-Nghia H. Nguyen, Hieu Dao(参考訳) 血縁検証と血縁検索はコンピュータビジョンにおける新たな課題である。 2つの顔画像が関連人物のものであるか否かを判定することを目的としているが、関連画像検索は画像ギャラリーから人物に関連画像を取得する作業である。 これらは、顔画像間の固有の特徴を含む隠れた関係と特徴によって、ユニークな課題をもたらす。 我々は,FaceNet,Siamese VGG-Face,およびFaceNetとVGG-Faceモデルを特徴抽出器として組み合わせた3つの手法を用いて,2020年大会における親族認証の9番目と親族検索の5番目を達成する。 さらに、stylegan2を別のエンコーダとして使用する実験を行い、その結果は改善されなかった。

Kinship verification and kinship retrieval are emerging tasks in computer vision. Kinship verification aims at determining whether two facial images are from related people or not, while kinship retrieval is the task of retrieving possible related facial images to a person from a gallery of images. They introduce unique challenges because of the hidden relations and features that carry inherent characteristics between the facial images. We employ 3 methods, FaceNet, Siamese VGG-Face, and a combination of FaceNet and VGG-Face models as feature extractors, to achieve the 9th standing for kinship verification and the 5th standing for kinship retrieval in the Recognizing Family in The Wild 2020 competition. We then further experimented using StyleGAN2 as another encoder, with no improvement in the result.
翻訳日:2022-11-29 13:43:15 公開日:2020-05-24
# 機械学習を用いた呼吸サンプルの高速自動バイオマーカー検出

Fast and automated biomarker detection in breath samples with machine learning ( http://arxiv.org/abs/2006.01772v1 )

ライセンス: Link先を確認
Angelika Skarysz, Dahlia Salman, Michael Eddleston, Martin Sykora, Eugenie Hunsicker, William H Nailon, Kareen Darnley, Duncan B McLaren, C L Paul Thomas and Andrea Soltoggio(参考訳) ヒトの呼吸中の揮発性有機化合物(VOC)は、様々な健康状態を明らかにし、迅速で正確で非侵襲的な診断に使用できる。 ガスクロマトグラフィー質量分析法(gc-ms)はvocを測定するために用いられるが、その応用は時間消費、主観的、エラーをもたらす専門家によるデータ分析によって制限されている。 本稿では,生データから直接VOCを学習し,自動検出する深層学習パターン認識機能を利用したGC-MSデータ解析システムを提案する。 提案手法は, 高い特異性を維持しつつ, 極めて多くのVOCを短時間で検出し, 専門家主導による解析より優れていることを示した。 これらの結果から,本手法は呼吸ベースの診断を大規模に展開する上で,時間とコストを削減し,精度と一貫性を向上できることが示唆された。

Volatile organic compounds (VOCs) in human breath can reveal a large spectrum of health conditions and can be used for fast, accurate and non-invasive diagnostics. Gas chromatography-mass spectrometry (GC-MS) is used to measure VOCs, but its application is limited by expert-driven data analysis that is time-consuming, subjective and may introduce errors. We propose a system to perform GC-MS data analysis that exploits deep learning pattern recognition ability to learn and automatically detect VOCs directly from raw data, thus bypassing expert-led processing. The new proposed approach showed to outperform the expert-led analysis by detecting a significantly higher number of VOCs in just a fraction of time while maintaining high specificity. These results suggest that the proposed method can help the large-scale deployment of breath-based diagnosis by reducing time and cost, and increasing accuracy and consistency.
翻訳日:2022-11-29 13:43:00 公開日:2020-05-24
# MAMLはいつ機能するのか? NLPにおけるモデル非依存メタラーニングに関する実証的研究

When does MAML Work the Best? An Empirical Study on Model-Agnostic Meta-Learning in NLP Applications ( http://arxiv.org/abs/2005.11700v1 )

ライセンス: Link先を確認
Zequn Liu, Ruiyi Zhang, Yiping Song, Ming Zhang(参考訳) モデルに依存しないメタラーニング手法であるモデル非依存メタラーニング(MAML)は、少数ショットテキスト分類やマルチドメイン低リソース言語生成を含むNLPアプリケーションに成功している。 データ量、タスク間の類似性、一般的な言語モデルとタスク固有の適応のバランスなど、多くの影響要因がNLPにおけるMAMLの性能に影響を与えるが、それらを徹底的に研究する研究は少ない。 本稿では,これらの影響要因について実証的研究を行い,実験結果に基づいてMAMLが最適に動作するかどうかを結論する。

Model-Agnostic Meta-Learning (MAML), a model-agnostic meta-learning method, is successfully employed in NLP applications including few-shot text classification and multi-domain low-resource language generation. Many impacting factors, including data quantity, similarity among tasks, and the balance between general language model and task-specific adaptation, can affect the performance of MAML in NLP, but few works have thoroughly studied them. In this paper, we conduct an empirical study to investigate these impacting factors and conclude when MAML works the best based on the experimental results.
翻訳日:2022-11-29 13:42:01 公開日:2020-05-24
# コードスイッチによる音声単語検出のための音声単語埋め込みシステム

Acoustic Word Embedding System for Code-Switching Query-by-example Spoken Term Detection ( http://arxiv.org/abs/2005.11777v1 )

ライセンス: Link先を確認
Murong Ma, Haiwei Wu, Xuyang Wang, Lin Yang, Junjie Wang and Ming Li(参考訳) 本稿では,音声単語のサンプル検出によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。 従来の構成と異なり、1つの言語のみを使用するのではなく、2つの言語でオーディオデータを組み合わせてトレーニングする。 我々は,キーワードテンプレートと検索コンテンツの音響特性を固定次元ベクトルに変換し,スライディングで得られたキーワードセグメントと検索コンテンツセグメント間の距離を算出する。 また、同じ単語の異なる話者のトレーニングデータにも、補助変数不変損失が適用される。 この戦略は、抽出器が望ましくない話者またはアクセント関連情報を音響単語の埋め込みに符号化することを防止するために用いられる。 実験の結果,提案システムでは,コードスイッチングテストシナリオにおいて有望な検索結果が得られた。 テンプレートの数の増加と可変不変損失の利用により、探索性能はさらに向上する。

In this paper, we propose a deep convolutional neural network-based acoustic word embedding system on code-switching query by example spoken term detection. Different from previous configurations, we combine audio data in two languages for training instead of only using one single language. We transform the acoustic features of keyword templates and searching content to fixed-dimensional vectors and calculate the distances between keyword segments and searching content segments obtained in a sliding manner. An auxiliary variability-invariant loss is also applied to training data within the same word but different speakers. This strategy is used to prevent the extractor from encoding undesired speaker- or accent-related information into the acoustic word embeddings. Experimental results show that our proposed system produces promising searching results in the code-switching test scenario. With the increased number of templates and the employment of variability-invariant loss, the searching performance is further enhanced.
翻訳日:2022-11-29 13:34:46 公開日:2020-05-24
# プランナークローニングによる視覚サーボポリシーの学習

Learning visual servo policies via planner cloning ( http://arxiv.org/abs/2005.11810v1 )

ライセンス: Link先を確認
Ulrich Viereck, Kate Saenko, Robert Platt(参考訳) 視覚サーボのための学習制御方針は重要な課題である。 しかし,標準モデルフリー政策学習手法は遅い。 本稿では,実状態の運動プランナーの挙動をシミュレーションで模倣する方針を学習するために,行動クローニングを用いたプランナーのクローニングについて検討する。 本稿では,新しい行動クローニングアルゴリズムであるpenalized q clone (pqc)を提案する。 新たな環境下での視覚サーボに関わるいくつかの課題において,いくつかのベースラインやアブレーションよりも優れており,障害を回避できることを示した。 最後に,これらのポリシーを実ロボットプラットフォームに効果的に移行できることを実証し,シミュレーションと実ロボットの両方において,約87%の成功率を達成した。

Learning control policies for visual servoing in novel environments is an important problem. However, standard model-free policy learning methods are slow. This paper explores planner cloning: using behavior cloning to learn policies that mimic the behavior of a full-state motion planner in simulation. We propose Penalized Q Cloning (PQC), a new behavior cloning algorithm. We show that it outperforms several baselines and ablations on some challenging problems involving visual servoing in novel environments while avoiding obstacles. Finally, we demonstrate that these policies can be transferred effectively onto a real robotic platform, achieving approximately an 87% success rate both in simulation and on a real robot.
翻訳日:2022-11-29 13:34:30 公開日:2020-05-24
# ネットワーク全体のトラフィック状態の予測のためのスタック型双方向一方向LSTMリカレントニューラルネットワーク

Stacked Bidirectional and Unidirectional LSTM Recurrent Neural Network for Forecasting Network-wide Traffic State with Missing Values ( http://arxiv.org/abs/2005.11627v1 )

ライセンス: Link先を確認
Zhiyong Cui, Ruimin Ke, Ziyuan Pu, Yinhai Wang(参考訳) 近年、ディープラーニング手法、特にrecurrent neural networks(rnn)に基づく短期交通予測が注目されている。 しかし, 交通予測におけるRNNモデルの可能性は, 時空間データの予測能力や, 欠落データ処理能力の観点からはまだ十分に活用されていない。 本稿では,RNNに基づくモデルに着目し,RNNとその変種を交通予測モデルに組み込む方法を再検討する。 トラフィック状態予測のためのニューラルネットワーク構造の設計を支援するために,スタック型双方向一方向LSTMネットワークアーキテクチャ(SBU-LSTM)を提案する。 アーキテクチャの重要な構成要素として、双方向LSTM(BDLSM)を用いて、時空間データの前後の時間依存性をキャプチャする。 また,空間時間データの欠落値に対処するために,欠落値を推定し,交通予測を支援するインプテーションユニットを設計し,lstm構造(lstm-i)におけるデータインプテーション機構を提案する。 LSTM-Iの双方向バージョンはSBU-LSTMアーキテクチャに組み込まれている。 2つの実世界のネットワーク全体のトラフィック状態データセットを使用して実験を行い、さらなるトラフィック予測研究を促進する。 複数種類の多層LSTMまたはBDLSTMモデルの予測性能を評価する。 実験結果から,提案したSBU-LSTMアーキテクチャ,特に2層BDLSTMネットワークは,ネットワーク全体のトラフィック予測において,精度とロバスト性の両方において優れた性能が得られることが示された。 さらに,包括的比較の結果から,モデルの入力データが欠落する値のパターンが異なる場合に,提案するrnnモデルにおけるデータインプテーション機構が優れた予測性能を実現できることが示された。

Short-term traffic forecasting based on deep learning methods, especially recurrent neural networks (RNN), has received much attention in recent years. However, the potential of RNN-based models in traffic forecasting has not yet been fully exploited in terms of the predictive power of spatial-temporal data and the capability of handling missing data. In this paper, we focus on RNN-based models and attempt to reformulate the way to incorporate RNN and its variants into traffic prediction models. A stacked bidirectional and unidirectional LSTM network architecture (SBU-LSTM) is proposed to assist the design of neural network structures for traffic state forecasting. As a key component of the architecture, the bidirectional LSTM (BDLSM) is exploited to capture the forward and backward temporal dependencies in spatiotemporal data. To deal with missing values in spatial-temporal data, we also propose a data imputation mechanism in the LSTM structure (LSTM-I) by designing an imputation unit to infer missing values and assist traffic prediction. The bidirectional version of LSTM-I is incorporated in the SBU-LSTM architecture. Two real-world network-wide traffic state datasets are used to conduct experiments and published to facilitate further traffic prediction research. The prediction performance of multiple types of multi-layer LSTM or BDLSTM models is evaluated. Experimental results indicate that the proposed SBU-LSTM architecture, especially the two-layer BDLSTM network, can achieve superior performance for the network-wide traffic prediction in both accuracy and robustness. Further, comprehensive comparison results show that the proposed data imputation mechanism in the RNN-based models can achieve outstanding prediction performance when the model's input data contains different patterns of missing values.
翻訳日:2022-11-29 13:34:20 公開日:2020-05-24
# 優れた学習, ヘリー数, 最適SVM境界

Proper Learning, Helly Number, and an Optimal SVM Bound ( http://arxiv.org/abs/2005.11818v1 )

ライセンス: Link先を確認
Olivier Bousquet, Steve Hanneke, Shay Moran, and Nikita Zhivotovskiy(参考訳) 古典的なPACサンプルの複雑性境界は、任意の経験的リスク最小化器(ERM)に対して記述され、一般にERMに必要な対数係数$\log(1/{\epsilon})$を含む。 It has been recently shown by Hanneke (2016) that the optimal sample complexity of PAC learning for any VC class C is achieved by a particular improper learning algorithm, which outputs a specific majority-vote of hypotheses in C. This leaves the question of when this bound can be achieved by proper learning algorithms, which are restricted to always output a hypothesis from C. In this paper we aim to characterize the classes for which the optimal sample complexity can be achieved by a proper learning algorithm. これらのクラスは、離散幾何学や抽象凸性において生じる組合せパラメータである双対ヘリー数によって特徴づけられる。 特に、C 上の一般的な条件下では、双対ヘルリー数が有界であることと、$\epsilon$ と $\delta$ に最適な結合依存を得る適切な学習者が存在することを証明している。 Vapnik と Chervonenkis (1974) による、サポートベクトルマシンの性能に関する長年の未解決問題を、実現可能な場合の SVM のサンプル複雑性が $\Theta((n/{\epsilon})+(1/{\epsilon})\log(1/{\delta})$ であることを証明することによって解決する。 これにより、適切な学習アルゴリズムによって達成される半空間に対する最初の最適pacバウンドが得られ、さらに計算効率が向上する。

The classical PAC sample complexity bounds are stated for any Empirical Risk Minimizer (ERM) and contain an extra logarithmic factor $\log(1/{\epsilon})$ which is known to be necessary for ERM in general. It has been recently shown by Hanneke (2016) that the optimal sample complexity of PAC learning for any VC class C is achieved by a particular improper learning algorithm, which outputs a specific majority-vote of hypotheses in C. This leaves the question of when this bound can be achieved by proper learning algorithms, which are restricted to always output a hypothesis from C. In this paper we aim to characterize the classes for which the optimal sample complexity can be achieved by a proper learning algorithm. We identify that these classes can be characterized by the dual Helly number, which is a combinatorial parameter that arises in discrete geometry and abstract convexity. In particular, under general conditions on C, we show that the dual Helly number is bounded if and only if there is a proper learner that obtains the optimal joint dependence on $\epsilon$ and $\delta$. As further implications of our techniques we resolve a long-standing open problem posed by Vapnik and Chervonenkis (1974) on the performance of the Support Vector Machine by proving that the sample complexity of SVM in the realizable case is $\Theta((n/{\epsilon})+(1/{\epsilon})\log(1/{\delta}))$, where $n$ is the dimension. This gives the first optimal PAC bound for Halfspaces achieved by a proper learning algorithm, and moreover is computationally efficient.
翻訳日:2022-11-29 13:33:21 公開日:2020-05-24
# ShapeAdv: 形状認識型3D点雲の生成

ShapeAdv: Generating Shape-Aware Adversarial 3D Point Clouds ( http://arxiv.org/abs/2005.11626v1 )

ライセンス: Link先を確認
Kibok Lee, Zhuoyuan Chen, Xinchen Yan, Raquel Urtasun, Ersin Yumer(参考訳) 3次元点雲空間における形状変化(例えば、幾何学的変形と構造差)を反映する形状認識逆摂動を研究するための新しい枠組みであるshapeadvを紹介する。 我々は,逆方向のノイズが潜時空間に印加される点雲オートエンコーダの学習潜時空間を活用することで,形状認識型3Dポイントクラウド攻撃を開発する。 具体的には,生成した点雲が同一カテゴリの物体間の形状変化に類似するように,補助データを用いて形状変形を誘導することにより,模造品ベースのものを含む3つのバリエーションを提案する。 以前の作品とは異なり、結果として生じる3dポイントの雲は、元のものに近い3dポイントのクラウド空間の形状の変化を反映している。 さらに,ModelNet40ベンチマークによる実験結果から,既存のポイントクラウド防御手法では敵の防御が困難であり,分類器間の攻撃伝達性が向上することが示唆された。 私たちのシェイプアウェアの敵攻撃は、既存のpoint cloudベースの攻撃と直交し、3dディープニューラルネットワークの脆弱性に光を当てています。

We introduce ShapeAdv, a novel framework to study shape-aware adversarial perturbations that reflect the underlying shape variations (e.g., geometric deformations and structural differences) in the 3D point cloud space. We develop shape-aware adversarial 3D point cloud attacks by leveraging the learned latent space of a point cloud auto-encoder where the adversarial noise is applied in the latent space. Specifically, we propose three different variants including an exemplar-based one by guiding the shape deformation with auxiliary data, such that the generated point cloud resembles the shape morphing between objects in the same category. Different from prior works, the resulting adversarial 3D point clouds reflect the shape variations in the 3D point cloud space while still being close to the original one. In addition, experimental evaluations on the ModelNet40 benchmark demonstrate that our adversaries are more difficult to defend with existing point cloud defense methods and exhibit a higher attack transferability across classifiers. Our shape-aware adversarial attacks are orthogonal to existing point cloud based attacks and shed light on the vulnerability of 3D deep neural networks.
翻訳日:2022-11-29 13:32:49 公開日:2020-05-24
# 関節症診断のための軽量CNNと関節形状結合空間(JS2)

A Lightweight CNN and Joint Shape-Joint Space (JS2) Descriptor for Radiological Osteoarthritis Detection ( http://arxiv.org/abs/2005.11715v1 )

ライセンス: Link先を確認
Neslihan Bayramoglu, Miika T. Nieminen and Simo Saarakkala(参考訳) 変形性膝関節症(oa)は非常に一般的な進行性および変性筋骨格疾患であり、生活の質が低下する患者や、経済的影響による社会に重荷を負う。 したがって、病気の負担を減らそうとする試みは、患者と社会の両方に役立ちます。 本研究では,関節形状と畳み込みニューラルネットワーク(cnn)に基づく骨集合組織の特徴を組み合わせることで,変形性膝関節症の有無と膝関節x線像の区別を完全自動化する手法を提案する。 さらに,骨のテクスチャをCNNを用いて記述する試みを報告した。 変形性膝関節症(OAI)および多発性関節症(MOST)研究の膝X線写真を用いた。 対象はOAIの8953膝X線写真で,MOSTの3445膝X線写真で評価した。 提案する形状パラメータとテクスチャパラメータを融合することにより,roc曲線 (auc) の95.21%以下の放射能oa検出領域における技術性能が向上することを示す。

Knee osteoarthritis (OA) is very common progressive and degenerative musculoskeletal disease worldwide creates a heavy burden on patients with reduced quality of life and also on society due to financial impact. Therefore, any attempt to reduce the burden of the disease could help both patients and society. In this study, we propose a fully automated novel method, based on combination of joint shape and convolutional neural network (CNN) based bone texture features, to distinguish between the knee radiographs with and without radiographic osteoarthritis. Moreover, we report the first attempt at describing the bone texture using CNN. Knee radiographs from Osteoarthritis Initiative (OAI) and Multicenter Osteoarthritis (MOST) studies were used in the experiments. Our models were trained on 8953 knee radiographs from OAI and evaluated on 3445 knee radiographs from MOST. Our results demonstrate that fusing the proposed shape and texture parameters achieves the state-of-the art performance in radiographic OA detection yielding area under the ROC curve (AUC) of 95.21%
翻訳日:2022-11-29 13:31:57 公開日:2020-05-24
# 深層学習による菌類顕微鏡画像の記述と分類

Deep learning approach to describe and classify fungi microscopic images ( http://arxiv.org/abs/2005.11772v1 )

ライセンス: Link先を確認
Bartosz Zieli\'nski and Agnieszka Sroka-Oleksiak and Dawid Rymarczyk and Adam Piekarczyk and Monika Brzychczy-W{\l}och(参考訳) 真菌感染症の予備診断は顕微鏡検査に依存することがある。 しかし、多くの場合、視覚的類似性のため、微生物学者による不明瞭な種識別を許さない。 そのため、通常は追加の生化学検査が必要である。 これには追加費用と識別プロセスの最大10日間の延長が含まれる。 このような標的治療の実施の遅れは、免疫抑制患者の死亡率が高いため、結果として重大となる可能性がある。 本稿では,深層ニューラルネットワークとフィッシャーベクター(advanced bag-of-words method)に基づく機械学習手法を用いて,様々な真菌種の顕微鏡像を分類する。 本手法は, 生化学的同定の最終段階を冗長にし, 識別過程を2~3日短縮し, 診断コストを低減できる可能性がある。

Preliminary diagnosis of fungal infections can rely on microscopic examination. However, in many cases, it does not allow unambiguous identification of the species by microbiologist due to their visual similarity. Therefore, it is usually necessary to use additional biochemical tests. That involves additional costs and extends the identification process up to 10 days. Such a delay in the implementation of targeted therapy may be grave in consequence as the mortality rate for immunosuppressed patients is high. In this paper, we apply a machine learning approach based on deep neural networks and Fisher Vector (advanced bag-of-words method) to classify microscopic images of various fungi species. Our approach has the potential to make the last stage of biochemical identification redundant, shortening the identification process by 2-3 days, and reducing the cost of the diagnosis.
翻訳日:2022-11-29 13:31:38 公開日:2020-05-24
# 解釈と蒸留の連成学習

Joint learning of interpretation and distillation ( http://arxiv.org/abs/2005.11638v1 )

ライセンス: Link先を確認
Jinchao Huang, Guofu Li, Zhicong Yan, Fucai Luo, Shenghong Li(参考訳) モデル解釈によってもたらされる余分な信頼は、機械学習システムに欠かせない部分となった。 しかし、蒸留モデルの予測を説明するには、生徒モデル自身で作業するか、教師モデルに切り替えるかのどちらかである。 蒸留されたモデルが、同じ入力でその教師モデルと同じような理由について同様の予測をすべきかどうか? この問題は、2つのモデルが劇的に異なる構造を持つときにさらに重要になる。 本稿では,GBDT2NNの予測をそれぞれ説明するための新しい手法に関する実証的研究を行い,その説明を模倣することで,蒸留プロセスをさらに改善することができることを示す。 複数のベンチマークを用いた実験により,提案手法が説明と予測の両方において優れた性能を得ることが示された。

The extra trust brought by the model interpretation has made it an indispensable part of machine learning systems. But to explain a distilled model's prediction, one may either work with the student model itself, or turn to its teacher model. This leads to a more fundamental question: if a distilled model should give a similar prediction for a similar reason as its teacher model on the same input? This question becomes even more crucial when the two models have dramatically different structure, taking GBDT2NN for example. This paper conducts an empirical study on the new approach to explaining each prediction of GBDT2NN, and how imitating the explanation can further improve the distillation process as an auxiliary learning task. Experiments on several benchmarks show that the proposed methods achieve better performance on both explanations and predictions.
翻訳日:2022-11-29 13:25:21 公開日:2020-05-24
# ドットの接続:グラフニューラルネットワークによる多変量時系列予測

Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks ( http://arxiv.org/abs/2005.11650v1 )

ライセンス: Link先を確認
Zonghan Wu, Shirui Pan, Guodong Long, Jing Jiang, Xiaojun Chang, Chengqi Zhang(参考訳) 多変量時系列のモデル化は、経済学、金融、交通など様々な分野の研究者を惹きつけてきた。 多変量時系列予測の背景にある基本的な仮定は、その変数は互いに依存しているということであるが、よく見ると、既存の手法は変数のペア間の潜伏空間依存性を完全に活用できない。 近年、グラフニューラルネットワーク(GNN)は、リレーショナル依存関係を扱う上で高い能力を示している。 gnnは情報伝達によく定義されたグラフ構造を必要とするため、依存関係が事前に分かっていない多変量時系列では直接適用できない。 本稿では,多変量時系列データ専用に設計された汎用グラフニューラルネットワークフレームワークを提案する。 本手法は,変数属性などの外部知識を容易に統合できるグラフ学習モジュールを用いて,変数間の一方向関係を自動的に抽出する。 さらに, 時系列内の空間的および時間的依存性を捉えるために, 新たな混合ホップ伝播層と拡張インセプション層を提案する。 グラフ学習、グラフ畳み込み、時間畳み込みモジュールは、エンドツーエンドのフレームワークで共同で学習される。 実験の結果,提案手法は4つのベンチマークデータセットのうち3つで最先端のベースラインメソッドを上回っており,さらに構造情報を提供する2つのトラフィックデータセットの他のアプローチと同等の性能を実現していることがわかった。

Modeling multivariate time series has long been a subject that has attracted researchers from a diverse range of fields including economics, finance, and traffic. A basic assumption behind multivariate time series forecasting is that its variables depend on one another but, upon looking closely, it is fair to say that existing methods fail to fully exploit latent spatial dependencies between pairs of variables. In recent years, meanwhile, graph neural networks (GNNs) have shown high capability in handling relational dependencies. GNNs require well-defined graph structures for information propagation which means they cannot be applied directly for multivariate time series where the dependencies are not known in advance. In this paper, we propose a general graph neural network framework designed specifically for multivariate time series data. Our approach automatically extracts the uni-directed relations among variables through a graph learning module, into which external knowledge like variable attributes can be easily integrated. A novel mix-hop propagation layer and a dilated inception layer are further proposed to capture the spatial and temporal dependencies within the time series. The graph learning, graph convolution, and temporal convolution modules are jointly learned in an end-to-end framework. Experimental results show that our proposed model outperforms the state-of-the-art baseline methods on 3 of 4 benchmark datasets and achieves on-par performance with other approaches on two traffic datasets which provide extra structural information.
翻訳日:2022-11-29 13:25:09 公開日:2020-05-24
# ドメイン適応のための識別能動学習

Discriminative Active Learning for Domain Adaptation ( http://arxiv.org/abs/2005.11653v1 )

ライセンス: Link先を確認
Fan Zhou, Changjian Shui, Bincheng Huang, Boyu Wang and Brahim Chaib-draa(参考訳) 異なるドメイン間で伝達可能な特徴を学習することを目的としたドメイン適応は、よく研究され、優れた経験的性能を示している。 従来の研究は主に、条件シフト問題を無視して、ソースとターゲットドメインの条件関係が変化していないと仮定しながら、敵の訓練手法を用いて、限界特徴分布をマッチングすることに焦点を当てていた。 しかし、近年の研究では、このような条件シフト問題が存在し、適応過程を妨げていることが示された。 この問題に対処するには、ターゲットドメインからラベル付きデータを活用する必要がありますが、ラベル付きデータの収集は非常に高価で時間がかかります。 そこで本研究では,データアノテーションの努力を減らすために,ドメイン適応のための識別的アクティブラーニング手法を提案する。 具体的には,不変特徴空間学習(第1段階),不確実性と多様性の基準(第2段階),クエリ戦略(第2段階)のトレードオフ,問合せ対象ラベル(第3段階)による再学習(第3段階)という,ニューラルネットワークの3段階のアクティブな敵対的トレーニングを提案する。 4つのベンチマークデータセットを用いた既存領域適応手法との比較実験により,提案手法の有効性が示された。

Domain Adaptation aiming to learn a transferable feature between different but related domains has been well investigated and has shown excellent empirical performances. Previous works mainly focused on matching the marginal feature distributions using the adversarial training methods while assuming the conditional relations between the source and target domain remained unchanged, $i.e.$, ignoring the conditional shift problem. However, recent works have shown that such a conditional shift problem exists and can hinder the adaptation process. To address this issue, we have to leverage labelled data from the target domain, but collecting labelled data can be quite expensive and time-consuming. To this end, we introduce a discriminative active learning approach for domain adaptation to reduce the efforts of data annotation. Specifically, we propose three-stage active adversarial training of neural networks: invariant feature space learning (first stage), uncertainty and diversity criteria and their trade-off for query strategy (second stage) and re-training with queried target labels (third stage). Empirical comparisons with existing domain adaptation methods using four benchmark datasets demonstrate the effectiveness of the proposed approach.
翻訳日:2022-11-29 13:24:45 公開日:2020-05-24
# クラスタリングアルゴリズムにおける測定誤差の影響

The effect of measurement error on clustering algorithms ( http://arxiv.org/abs/2005.11743v1 )

ライセンス: Link先を確認
Paulina Pankowska and Daniel L. Oberski(参考訳) クラスタリングは、さらなる分析のためにデータを興味深いグループに分割するために使用される一般的なテクニックからなる。 クラスタリングを行う多くのデータソースは、ランダムで体系的な測定エラーを含むことがよく知られている。 このようなエラーはクラスタリングに悪影響を及ぼす可能性がある。 この問題に対処するためにいくつかの技術が開発されているが、これらのソリューションの有効性についてはほとんど分かっていない。 さらに,クラスタ化ソリューションに対する系統的エラーの影響について,これまで検討した研究は行われていない。 本稿では,2つの一般的なクラスタリングアルゴリズムであるgmms with merge と dbscan のランダム・システマティックエラーに対する感度について検討するモンテカルロ研究を行う。 測定エラーは、体系的かつデータセット内のすべての変数に影響を与える場合に特に問題となる。 ここでは, 結合成分を持つ分割型GMMは密度ベースDBSCAN法よりも測定誤差に敏感でないことも考察した。

Clustering consists of a popular set of techniques used to separate data into interesting groups for further analysis. Many data sources on which clustering is performed are well-known to contain random and systematic measurement errors. Such errors may adversely affect clustering. While several techniques have been developed to deal with this problem, little is known about the effectiveness of these solutions. Moreover, no work to-date has examined the effect of systematic errors on clustering solutions. In this paper, we perform a Monte Carlo study to investigate the sensitivity of two common clustering algorithms, GMMs with merging and DBSCAN, to random and systematic error. We find that measurement error is particularly problematic when it is systematic and when it affects all variables in the dataset. For the conditions considered here, we also find that the partition-based GMM with merged components is less sensitive to measurement error than the density-based DBSCAN procedure.
翻訳日:2022-11-29 13:24:06 公開日:2020-05-24
# 外見に基づく視線推定における時間情報の有用性

Benefits of temporal information for appearance-based gaze estimation ( http://arxiv.org/abs/2005.11670v1 )

ライセンス: Link先を確認
Cristina Palmero, Oleg V. Komogortsev, Sachin S. Talathi(参考訳) 最先端の外観に基づく視線推定法は、通常、ディープラーニング技術に基づくが、主に静的特徴に依存している。 しかし、視線の時間的トレースには、所定の視線を推定するための有用な情報が含まれている。 例えば、遠隔または低解像度の画像シナリオにオフザシェルフカメラで適用した場合、シーケンシャルな視線情報を活用するアプローチは、有望な結果を示している。 時間視線からの寄与の大きさは、高分解能/フレームレートイメージングシステムではまだ不明であり、眼に関するより詳細な情報が収集される。 本稿では,高解像度で高フレームレートのヘッドマウント型バーチャルリアリティシステムを用いて,視線推定のためのエンドツーエンドの外観ベースディープラーニングモデルの精度を高めるために,視線画像の時間的シーケンスを活用できるかどうかを検討する。 パフォーマンスは、モデルの静的のみのバージョンと比較される。 その結果、特に視線垂直成分に対する時間情報の統計的に重要な利点が示された。

State-of-the-art appearance-based gaze estimation methods, usually based on deep learning techniques, mainly rely on static features. However, temporal trace of eye gaze contains useful information for estimating a given gaze point. For example, approaches leveraging sequential eye gaze information when applied to remote or low-resolution image scenarios with off-the-shelf cameras are showing promising results. The magnitude of contribution from temporal gaze trace is yet unclear for higher resolution/frame rate imaging systems, in which more detailed information about an eye is captured. In this paper, we investigate whether temporal sequences of eye images, captured using a high-resolution, high-frame rate head-mounted virtual reality system, can be leveraged to enhance the accuracy of an end-to-end appearance-based deep-learning model for gaze estimation. Performance is compared against a static-only version of the model. Results demonstrate statistically-significant benefits of temporal information, particularly for the vertical component of gaze.
翻訳日:2022-11-29 13:23:29 公開日:2020-05-24
# 教師なし単位発見・音声合成のためのトランスフォーマーVQ-VAE: ZeroSpeech 2020 Challenge

Transformer VQ-VAE for Unsupervised Unit Discovery and Speech Synthesis: ZeroSpeech 2020 Challenge ( http://arxiv.org/abs/2005.11676v1 )

ライセンス: Link先を確認
Andros Tjandra, Sakriani Sakti, Satoshi Nakamura(参考訳) 本稿では,トラック2019におけるZeroSpeech 2020チャレンジの提出システムについて報告する。 この課題の主なテーマは、テキスト情報や音声ラベルなしで音声合成装置を構築することである。 これらの課題に対処するために、私たちは2つの主要なコンポーネントに対処しなければならないシステムを構築します。 1)音声音声を付与し、教師なしの方法でサブワードを抽出し、 2)新規話者からの音声を再合成する。 また、abxエラーレートとビットレート圧縮レートの間でコードブックのパフォーマンスをバランスさせる必要がある。 ここでは、教師なし単位探索のためのTransformer-based VQ-VAEと、抽出したコードブックから音声合成のためのTransformer-based inverterを提案する。 さらに,性能向上のための正規化手法についても検討した。

In this paper, we report our submitted system for the ZeroSpeech 2020 challenge on Track 2019. The main theme in this challenge is to build a speech synthesizer without any textual information or phonetic labels. In order to tackle those challenges, we build a system that must address two major components such as 1) given speech audio, extract subword units in an unsupervised way and 2) re-synthesize the audio from novel speakers. The system also needs to balance the codebook performance between the ABX error rate and the bitrate compression rate. Our main contribution here is we proposed Transformer-based VQ-VAE for unsupervised unit discovery and Transformer-based inverter for the speech synthesis given the extracted codebook. Additionally, we also explored several regularization methods to improve performance even further.
翻訳日:2022-11-29 13:23:03 公開日:2020-05-24
# 連続潜時符号化によるCCAの多視点アライメントと生成

Multi-view Alignment and Generation in CCA via Consistent Latent Encoding ( http://arxiv.org/abs/2005.11716v1 )

ライセンス: Link先を確認
Yaxin Shi, Yuangang Pan, Donna Xu and Ivor W. Tsang(参考訳) マルチビューアライメント(マルチビュー入力の1対1対応)は、実世界の多くのマルチビューアプリケーション、特にクロスビューデータ解析問題において重要である。 近年,canonical correlation analysis (cca) を用いたアライメント問題の研究が増えている。 しかしながら、既存のccaモデルは、不確実性を無視したり、複数のビューの一貫性のないエンコーディングによって、複数のビューを誤認しがちである。 この2つの問題に取り組むため,本論文ではベイズの視点から多視点アライメントについて検討する。 非一貫性エンコーディングの障害について考察し,多視点確率変数の結合分布を異なる分解形態で辺縁化することにより,多視点入力の対応を回復する。 本設計を実現するために, 適応学習パラダイムを用いて, 辺縁化潜在符号化をマッチングすることにより一貫した潜時符号化を実現する Adversarial CCA (ACCA) を提案する。 条件付き相互情報に基づく分析の結果,ACCAは暗黙の分布に柔軟であることがわかった。 ノイズ入力条件下での相関解析とクロスビュー生成に関する広範囲な実験により,モデルの優越性が示された。

Multi-view alignment, achieving one-to-one correspondence of multi-view inputs, is critical in many real-world multi-view applications, especially for cross-view data analysis problems. Recently, an increasing number of works study this alignment problem with Canonical Correlation Analysis (CCA). However, existing CCA models are prone to misalign the multiple views due to either the neglect of uncertainty or the inconsistent encoding of the multiple views. To tackle these two issues, this paper studies multi-view alignment from the Bayesian perspective. Delving into the impairments of inconsistent encodings, we propose to recover correspondence of the multi-view inputs by matching the marginalization of the joint distribution of multi-view random variables under different forms of factorization. To realize our design, we present Adversarial CCA (ACCA) which achieves consistent latent encodings by matching the marginalized latent encodings through the adversarial training paradigm. Our analysis based on conditional mutual information reveals that ACCA is flexible for handling implicit distributions. Extensive experiments on correlation analysis and cross-view generation under noisy input settings demonstrate the superiority of our model.
翻訳日:2022-11-29 13:16:29 公開日:2020-05-24
# 進化的メタヒューリスティックスを適用した個人モデルパラメータ推定

Applying Evolutionary Metaheuristics for Parameter Estimation of Individual-Based Models ( http://arxiv.org/abs/2005.12841v1 )

ライセンス: Link先を確認
Antonio Prestes Garc\'ia and Alfonso Rodr\'iguez-Pat\'on(参考訳) 個人ベースモデルは複雑であり、通常は、観測された人口データや実験結果を可能な限り正確に再現するために調整される必要がある入力パラメータが増加する。 したがって、このモデリングアプローチの最も弱い点の1つは、モデラーが正しい値や入力パラメータの許容範囲について十分な情報を持っていることが滅多にないという事実である。 その結果、シミュレートされたデータセットと参照データセットの偏差を最小限に抑えるために、いくつかのパラメータの組み合わせを試す必要がある。 実際、ほとんどの場合、完全な探索空間を横断することは計算上不可能であり、すべての可能な組み合わせを全て試して、最適なパラメータセットを見つける。 これは、メタヒューリスティックスや進化計算技術によって解決されるのに適した組合せ問題の一例である。 本稿では,進化的計算手法を用いたパラメータ推定を簡略化するRパッケージであるEvoPERを紹介する。

Individual-based models are complex and they have usually an elevated number of input parameters which must be tuned for reproducing the observed population data or the experimental results as accurately as possible. Thus, one of the weakest points of this modelling approach lies on the fact that rarely the modeler has the enough information about the correct values or even the acceptable range for the input parameters. Consequently, several parameter combinations must be tried to find an acceptable set of input factors minimizing the deviations of simulated and the reference dataset. In practice, most of times, it is computationally unfeasible to traverse the complete search space trying all every possible combination to find the best of set of parameters. That is precisely an instance of a combinatorial problem which is suitable for being solved by metaheuristics and evolutionary computation techniques. In this work, we introduce EvoPER, an R package for simplifying the parameter estimation using evolutionary computation methods.
翻訳日:2022-11-29 13:15:40 公開日:2020-05-24
# LSTMと動的行動モデルを用いたコントロールシナリオによるCovid-19の拡散予測

Forecasting the Spread of Covid-19 Under Control Scenarios Using LSTM and Dynamic Behavioral Models ( http://arxiv.org/abs/2005.12270v1 )

ライセンス: Link先を確認
Seid Miad Zandavi, Taha Hossein Rashidi, Fatemeh Vafaee(参考訳) 新型コロナウイルス感染の地域的拡大を正確に予測するために,long short-term memory(lstm)人工リカレントニューラルネットワークと動的行動モデルを組み合わせた新しいハイブリッドモデルを提案する。 いくつかの要因とコントロール戦略がウイルスの拡散に影響を与え、コビッドウイルスの感染拡大の根底にある不確実性は深刻である。 提案モデルは,上位10か国とオーストラリアにおける死亡例の予測精度を高めるために,複数の要因が与える影響について考察した。 その結果,提案モデルがテストデータを密接に再現していることがわかった。 正確な予測を提供するだけでなく、不確実性の下でシステムの日々の振る舞いを推定する。 ハイブリッドモデルは、限られた利用可能なデータに対するLSTMモデルよりも優れている。 ハイブリッドモデルのパラメータを各国の遺伝的アルゴリズムを用いて最適化し,地域特性を考慮した予測能力を向上した。 提案モデルでは, 包括政策を考慮したCovid-19の正確な予測が可能であるため, 政策評価, 計画, 意思決定に利用できる。

To accurately predict the regional spread of Covid-19 infection, this study proposes a novel hybrid model which combines a Long short-term memory (LSTM) artificial recurrent neural network with dynamic behavioral models. Several factors and control strategies affect the virus spread, and the uncertainty arisen from confounding variables underlying the spread of the Covid-19 infection is substantial. The proposed model considers the effect of multiple factors to enhance the accuracy in predicting the number of cases and deaths across the top ten most-affected countries and Australia. The results show that the proposed model closely replicates test data. It not only provides accurate predictions but also estimates the daily behavior of the system under uncertainty. The hybrid model outperforms the LSTM model accounting for limited available data. The parameters of the hybrid models were optimized using a genetic algorithm for each country to improve the prediction power while considering regional properties. Since the proposed model can accurately predict Covid-19 spread under consideration of containment policies, is capable of being used for policy assessment, planning and decision-making.
翻訳日:2022-11-29 13:14:42 公開日:2020-05-24
# 質問型駆動型およびコピーロス拡張フレームワークによる解答非依存的神経質問生成

A Question Type Driven and Copy Loss Enhanced Frameworkfor Answer-Agnostic Neural Question Generation ( http://arxiv.org/abs/2005.11665v1 )

ライセンス: Link先を確認
Xiuyu Wu, Nan Jiang and Yunfang Wu(参考訳) 回答非依存の質問生成は重要かつ困難なタスクであり、ある文に対する質問を自動的に生成することを目的としている。 本稿では,この課題に対処する2つの新しい戦略として,質問型予測と複写損失機構を提案する。 質問型モジュールは、要求すべき質問の種類を予測することで、モデルが同じソース文に対して複数のタイプの質問を生成することができます。 新しいコピーロスは原文のコピー機構を強化し、質問を生成する際に原文中のすべての重要な単語がコピーされたことを保証する。 統合モデルは、回答非依存の質問生成において最先端のアプローチを上回り、squadで13.9のbleu-4スコアを達成している。 人間の評価は、生成した質問の質をさらに高める。 私たちはさらなる研究のためにコードを公開します。

The answer-agnostic question generation is a significant and challenging task, which aims to automatically generate questions for a given sentence but without an answer. In this paper, we propose two new strategies to deal with this task: question type prediction and copy loss mechanism. The question type module is to predict the types of questions that should be asked, which allows our model to generate multiple types of questions for the same source sentence. The new copy loss enhances the original copy mechanism to make sure that every important word in the source sentence has been copied when generating questions. Our integrated model outperforms the state-of-the-art approach in answer-agnostic question generation, achieving a BLEU-4 score of 13.9 on SQuAD. Human evaluation further validates the high quality of our generated questions. We will make our code public available for further research.
翻訳日:2022-11-29 13:14:10 公開日:2020-05-24
# テキスト要約モデルにおけるFactual correctnessに対する逆NLI

Adversarial NLI for Factual Correctness in Text Summarisation Models ( http://arxiv.org/abs/2005.11739v1 )

ライセンス: Link先を確認
Mario Barrantes and Benedikt Herudek and Richard Wang(参考訳) 本稿では,NLIモデルのトレーニングにAdversarial NLIデータセットを適用し,そのモデルが抽象要約における事実的正しさを高める可能性を示す。 Falke et al. (2019) は、ソース文書と要約の間の係り受け確率に基づいて複数の生成された要約をランク付けし、最も係り受け確率の高い要約を選択する。 著者らの以前の研究は、現在のNLIモデルはランキングタスクに十分正確ではないと結論付けていた。 本研究では,新しいデータセットを微調整したTransformerモデルにより,精度が大幅に向上し,コヒーレントな要約を選択する可能性が示された。

We apply the Adversarial NLI dataset to train the NLI model and show that the model has the potential to enhance factual correctness in abstract summarization. We follow the work of Falke et al. (2019), which rank multiple generated summaries based on the entailment probabilities between an source document and summaries and select the summary that has the highest entailment probability. The authors' earlier study concluded that current NLI models are not sufficiently accurate for the ranking task. We show that the Transformer models fine-tuned on the new dataset achieve significantly higher accuracy and have the potential of selecting a coherent summary.
翻訳日:2022-11-29 13:13:53 公開日:2020-05-24