このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200928となっている論文です。

PDF登録状況(公開日: 20200928)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習による二元中性子星融合からの重力波信号の検出

Detection of gravitational-wave signals from binary neutron star mergers using machine learning ( http://arxiv.org/abs/2006.01509v2 )

ライセンス: Link先を確認
Marlin B. Sch\"afer (1 and 2), Frank Ohme (1 and 2), Alexander H. Nitz (1 and 2) ((1) Max-Planck-Institut f\"ur Gravitationsphysik (Albert-Einstein-Institut), (2) Leibniz Universit\"at Hannover)(参考訳) 2つの中性子星が融合すると、重力波が放出され、地球境界検出器によって検出される可能性がある。 マッチングフィルタに基づくアルゴリズムは、従来ノイズに埋め込まれた静かな信号を抽出するために用いられてきた。 重力波検出器からの時系列ひずみデータを用いて、非スピン二元中性子星融合の信号を検出するニューラルネットワークに基づく新しい機械学習アルゴリズムを提案する。 ligoの高度な設計感度では、ネットワークの平均感度距離は130mpc、偽兵器レートは月に10mpcである。 他の最先端機械学習アルゴリズムと比較して、信号対雑音比が25未満の信号に対する感度の6倍の改善が見られた。 しかし、このアプローチは従来のマッチングフィルタリングベースの手法とはまだ競合しない。 保守的な推定は、我々のアルゴリズムが信号の到着からアラート発生までの平均10.2秒の遅延を発生させることを示している。 我々は、機械学習ベースのアルゴリズムだけでなく、他の全ての検索アルゴリズムにも適用可能な、テスト手順の正確な説明を与える。 これにより、機械学習と古典検索を比較する能力が向上する。

As two neutron stars merge, they emit gravitational waves that can potentially be detected by earth bound detectors. Matched-filtering based algorithms have traditionally been used to extract quiet signals embedded in noise. We introduce a novel neural-network based machine learning algorithm that uses time series strain data from gravitational-wave detectors to detect signals from non-spinning binary neutron star mergers. For the Advanced LIGO design sensitivity, our network has an average sensitive distance of 130 Mpc at a false-alarm rate of 10 per month. Compared to other state-of-the-art machine learning algorithms, we find an improvement by a factor of 6 in sensitivity to signals with signal-to-noise ratio below 25. However, this approach is not yet competitive with traditional matched-filtering based methods. A conservative estimate indicates that our algorithm introduces on average 10.2 s of latency between signal arrival and generating an alert. We give an exact description of our testing procedure, which can not only be applied to machine learning based algorithms but all other search algorithms as well. We thereby improve the ability to compare machine learning and classical searches.
翻訳日:2022-11-26 01:24:23 公開日:2020-09-28
# テキストから引数グラフへ変換する引数マイニングパイプラインに向けて

Towards an Argument Mining Pipeline Transforming Texts to Argument Graphs ( http://arxiv.org/abs/2006.04562v2 )

ライセンス: Link先を確認
Mirko Lenz, Premtim Sahitaj, Sean Kallenberg, Christopher Coors, Lorik Dumani, Ralf Schenkel, Ralph Bergmann(参考訳) 本稿では,議論的情報のコンポーネントの自動抽出と自然言語テキストからの関連性について述べる。 さらに,任意の自然言語テキストからの完全な論証的構造を一般用として提供するためのシステム不足にも対処する。 本稿では、ドイツ語と英語のテキストをグラフベースの引数表現に変換するための普遍的なアプローチとして、引数マイニングパイプラインを提案する。 また,既存のベンチマーク引数構造に基づいて結果を評価する新しい手法を提案する。 その結果,生成した引数グラフは,議論文の異なる文間の新たな接続を検出するのに有用であることが示された。 私たちのパイプライン実装はgithubで公開されている。

This paper targets the automated extraction of components of argumentative information and their relations from natural language text. Moreover, we address a current lack of systems to provide complete argumentative structure from arbitrary natural language text for general usage. We present an argument mining pipeline as a universally applicable approach for transforming German and English language texts to graph-based argument representations. We also introduce new methods for evaluating the results based on existing benchmark argument structures. Our results show that the generated argument graphs can be beneficial to detect new connections between different statements of an argumentative text. Our pipeline implementation is publicly available on GitHub.
翻訳日:2022-11-23 23:56:51 公開日:2020-09-28
# マルチタスク学習のメリットを学ぶための学習機能

Learning Functions to Study the Benefit of Multitask Learning ( http://arxiv.org/abs/2006.05561v2 )

ライセンス: Link先を確認
Gabriele Bettgenh\"auser, Michael A. Hedderich, Dietrich Klakow(参考訳) シーケンスラベリングタスクのためのマルチタスク学習(mtl)モデルの一般化パターンを研究し,定量化する。 MTLモデルは、一連の関連するタスクを共同で最適化するために訓練される。 マルチタスク学習はいくつかの問題でパフォーマンスの向上を実現したが、同時にトレーニングするとパフォーマンスが低下するタスクもある。 これらの混合結果はmtlモデルの性能に影響を与える要因を研究する動機となった。 MTLモデルの理論的境界と収束速度は存在するが、それらはタスク関連性やバランスの取れたデータセットの使用といった強い仮定に依存している。 これらの制約を緩和するために,モデル性能に関連する表現を影響要因として学習するために,タスクシミュレータの作成とシンボリック回帰の利用を提案する。 MTLでは、タスク数(T)、タスク毎のサンプル数(n)、調整された相互情報(AMI)によって測定されたタスク関連性に対するモデル性能について検討する。 実験では,maurer[2016] の数学的証明と等価な sqrt(n), sqrt(t), sqrt(t), sqrt(t) の因子によるモデル性能に関する公式を経験的に発見し, その性能が sqrt(ami) の因子と関係していることを発見した。

We study and quantify the generalization patterns of multitask learning (MTL) models for sequence labeling tasks. MTL models are trained to optimize a set of related tasks jointly. Although multitask learning has achieved improved performance in some problems, there are also tasks that lose performance when trained together. These mixed results motivate us to study the factors that impact the performance of MTL models. We note that theoretical bounds and convergence rates for MTL models exist, but they rely on strong assumptions such as task relatedness and the use of balanced datasets. To remedy these limitations, we propose the creation of a task simulator and the use of Symbolic Regression to learn expressions relating model performance to possible factors of influence. For MTL, we study the model performance against the number of tasks (T), the number of samples per task (n) and the task relatedness measured by the adjusted mutual information (AMI). In our experiments, we could empirically find formulas relating model performance with factors of sqrt(n), sqrt(T), which are equivalent to sound mathematical proofs in Maurer[2016], and we went beyond by discovering that performance relates to a factor of sqrt(AMI).
翻訳日:2022-11-23 13:15:47 公開日:2020-09-28
# モーフィング攻撃検出 -- データベース、評価プラットフォーム、ベンチマーク

Morphing Attack Detection -- Database, Evaluation Platform and Benchmarking ( http://arxiv.org/abs/2006.06458v3 )

ライセンス: Link先を確認
Kiran Raja, Matteo Ferrara, Annalisa Franco, Luuk Spreeuwers, Illias Batskos, Florens de Wit Marta Gomez-Barrero, Ulrich Scherhag, Daniel Fischer, Sushma Venkatesh, Jag Mohan Singh, Guoqiang Li, Lo\"ic Bergeron, Sergey Isadskiy, Raghavendra Ramachandra, Christian Rathgeb, Dinusha Frings, Uwe Seidel, Fons Knopjes, Raymond Veldhuis, Davide Maltoni, Christoph Busch(参考訳) モルフィング攻撃は顔認識システム(FRS)に深刻な脅威をもたらしている。 最近の研究で報告された進歩の数にもかかわらず、我々は独立ベンチマーク、一般化可能性の課題、年齢、性別、民族性に対する考慮といった深刻なオープン問題に注目する。 モーフィング攻撃検出(MAD)アルゴリズムは、データベースに依存しているため、しばしば一般化の課題となる。 既存のデータベースは、主に半公的な性質で、民族性、様々な形態形成プロセス、後処理パイプラインの多様性が欠如している。 さらに、自動境界制御(abc)のための現実的な運用シナリオを反映しておらず、アルゴリズムの堅牢性を評価するために、見えないデータでmadをテストする基盤を提供していない。 そこで本研究では,madの進歩を促進するために,アルゴリズムを未発見のデータでテストし,より汎用化するための新たなデータセットを提案する。 新たに構築されたデータセットは、さまざまな民族、年齢グループ、両方の性別から150人の被験者の顔画像で構成されている。 既存のMADアルゴリズムに挑戦するために、モルヒネ画像は、コントリビューション画像から作成された慎重に被写体選択を行い、さらに後処理して、モルヒネを除去する。 画像は印刷されスキャンされ、すべてのデジタル手がかりを取り除き、マッドアルゴリズムの現実的な挑戦をシミュレートする。 さらに,シークエンスデータに基づくアルゴリズムのテストを行うオンライン評価プラットフォームを提案する。 このプラットフォームでは、形態検出性能をベンチマークし、一般化能力を研究することができる。 本研究は,各種データサブセットの詳細な分析を行い,今後のMAD研究の課題について概説する。

Morphing attacks have posed a severe threat to Face Recognition System (FRS). Despite the number of advancements reported in recent works, we note serious open issues such as independent benchmarking, generalizability challenges and considerations to age, gender, ethnicity that are inadequately addressed. Morphing Attack Detection (MAD) algorithms often are prone to generalization challenges as they are database dependent. The existing databases, mostly of semi-public nature, lack in diversity in terms of ethnicity, various morphing process and post-processing pipelines. Further, they do not reflect a realistic operational scenario for Automated Border Control (ABC) and do not provide a basis to test MAD on unseen data, in order to benchmark the robustness of algorithms. In this work, we present a new sequestered dataset for facilitating the advancements of MAD where the algorithms can be tested on unseen data in an effort to better generalize. The newly constructed dataset consists of facial images from 150 subjects from various ethnicities, age-groups and both genders. In order to challenge the existing MAD algorithms, the morphed images are with careful subject pre-selection created from the contributing images, and further post-processed to remove morphing artifacts. The images are also printed and scanned to remove all digital cues and to simulate a realistic challenge for MAD algorithms. Further, we present a new online evaluation platform to test algorithms on sequestered data. With the platform we can benchmark the morph detection performance and study the generalization ability. This work also presents a detailed analysis on various subsets of sequestered data and outlines open challenges for future directions in MAD research.
翻訳日:2022-11-22 13:58:37 公開日:2020-09-28
# PhishGAN:homoglpyh攻撃のデータの増大と同定

PhishGAN: Data Augmentation and Identification of Homoglpyh Attacks ( http://arxiv.org/abs/2006.13742v3 )

ライセンス: Link先を確認
Joon Sern Lee, Gui Peng David Yam, Jin Hao Chan(参考訳) ホモグリフ攻撃は、ハッカーがフィッシングを行うのに使われる一般的なテクニックである。 実際のものと視覚的に類似したドメイン名やリンクは、攻撃を妨害するためにpunycodeによって作成され、被害者はフィッシングの影響を受けやすくなります。 例えば、被害者は「|inkedin.com」を「linkedin.com」と間違え、その過程で偽のウェブサイトに個人情報を漏らすことがある。 現状 The Art (SOTA) は通常、計算量の多い文字列比較アルゴリズム(例:Levenshtein Distance)を使用する。 この理由の1つは、公開データセットがないため、より高度な機械学習(ML)モデルのトレーニングを妨げている。 さらに、どのフォントもすべてのタイプのポニーコードを正しくレンダリングすることはできず、特定のフォントに対して偏りのないデータセットの作成に重大な課題となる。 膨大な数のインターネットドメインと組み合わせることで、可能なすべてのバリエーションをキャプチャできるデータセットの作成が難しくなる。 本稿では,FhishGANという条件付き生成適応ネットワークを用いて,非ホモグルピー入力テキスト画像に条件付きヒエログリフの画像を生成する方法を示す。 現在のSOTAへの実践的な変更は、より多様なホモグリフテキストベースの画像の生成を容易にするために必要だった。 また、PhishGANとHymoglyph Identifier(HI)モデルとの併用により、ホモグリフが模倣しようとしているドメインを識別するワークフローを実証する。 さらに、PhishGANのデータセットをオンザフライで生成する能力が、サイバーセキュリティシステムの迅速な適応を促進して、新たな脅威が出現するのを検出する方法を示す。

Homoglyph attacks are a common technique used by hackers to conduct phishing. Domain names or links that are visually similar to actual ones are created via punycode to obfuscate the attack, making the victim more susceptible to phishing. For example, victims may mistake "|inkedin.com" for "linkedin.com" and in the process, divulge personal details to the fake website. Current State of The Art (SOTA) typically make use of string comparison algorithms (e.g. Levenshtein Distance), which are computationally heavy. One reason for this is the lack of publicly available datasets thus hindering the training of more advanced Machine Learning (ML) models. Furthermore, no one font is able to render all types of punycode correctly, posing a significant challenge to the creation of a dataset that is unbiased toward any particular font. This coupled with the vast number of internet domains pose a challenge in creating a dataset that can capture all possible variations. Here, we show how a conditional Generative Adversarial Network (GAN), PhishGAN, can be used to generate images of hieroglyphs, conditioned on non-homoglpyh input text images. Practical changes to current SOTA were required to facilitate the generation of more varied homoglyph text-based images. We also demonstrate a workflow of how PhishGAN together with a Homoglyph Identifier (HI) model can be used to identify the domain the homoglyph was trying to imitate. Furthermore, we demonstrate how PhishGAN's ability to generate datasets on the fly facilitate the quick adaptation of cybersecurity systems to detect new threats as they emerge.
翻訳日:2022-11-17 10:17:05 公開日:2020-09-28
# 2つの多項ロジットの任意の混合の学習

Learning an arbitrary mixture of two multinomial logits ( http://arxiv.org/abs/2007.00204v2 )

ライセンス: Link先を確認
Wenpin Tang(参考訳) 本稿では,任意のランダム効用モデルに対して$\epsilon$-approximate と呼ばれる多項ロジスティックモデル (MNL) の混合について考察する。 長い歴史と幅広い使用にもかかわらず、厳密な結果は2つのmnlの均一な混合物を学ぶためにのみ利用できる。 この一連の研究を続けながら、2つのMNLの任意の混合を学習する問題を研究する。 混合モデルの識別性は無視可能な測度の代数的多様体上でのみ失敗することを示した。 これは、2つのMNLの混合を学習する問題を、単変量準方程式系の解法に還元することによる。 また、ある有限宇宙上の2つのMNLの混合が特定可能であることを条件として、多項式数と線形数を用いて2つのMNLの混合を学習するアルゴリズムを考案した。 いくつかの数値実験や予想も提示されている。

In this paper, we consider mixtures of multinomial logistic models (MNL), which are known to $\epsilon$-approximate any random utility model. Despite its long history and broad use, rigorous results are only available for learning a uniform mixture of two MNLs. Continuing this line of research, we study the problem of learning an arbitrary mixture of two MNLs. We show that the identifiability of the mixture models may only fail on an algebraic variety of a negligible measure. This is done by reducing the problem of learning a mixture of two MNLs to the problem of solving a system of univariate quartic equations. We also devise an algorithm to learn any mixture of two MNLs using a polynomial number of samples and a linear number of queries, provided that a mixture of two MNLs over some finite universe is identifiable. Several numerical experiments and conjectures are also presented.
翻訳日:2022-11-14 22:35:43 公開日:2020-09-28
# NASGEM:グラフ埋め込み法によるニューラルネットワーク探索

NASGEM: Neural Architecture Search via Graph Embedding Method ( http://arxiv.org/abs/2007.04452v2 )

ライセンス: Link先を確認
Hsin-Pai Cheng, Tunhou Zhang, Yixing Zhang, Shiyu Li, Feng Liang, Feng Yan, Meng Li, Vikas Chandra, Hai Li, Yiran Chen(参考訳) neural architecture search (nas) はニューラルネットワークの設計を自動化し、繁栄させる。 estimatorベースのnasは、スケーラブルで柔軟な検索を可能にするために、アーキテクチャとパフォーマンスの関係をモデル化するために最近提案されている。 しかし、既存の推定器に基づく手法は、グラフの類似性を考慮せずにアーキテクチャを潜在空間にエンコードする。 ノードベースの探索空間におけるグラフ類似性の無視は、類似グラフと連続符号化空間における距離との間に大きな矛盾を生じさせ、不正確な符号化表現と/または不正確な表現能力をもたらす。 エンコーディングにおいてグラフ相関情報を保存するために,nasgemはグラフ埋め込み手法によるニューラルネットワーク探索の略である。 NASGEMは、グラフトポロジ情報を取得するための類似度対策を備えた新しいグラフ埋め込み方式によって駆動される。 グラフ距離を正確に推定し、補助的なWeisfeiler-Lehmanカーネルを使用してエンコーディングをガイドすることにより、NASGEMはより正確なグラフ表現を得ることができ、探索効率を向上させることができる。 GEMNetはNASGEMによって発見されたネットワークの集合であり、分類タスクにおいて既存の検索手法によって構築されたネットワーク、すなわち0.4%-3.6%の精度で、乗算積が11%21%少ない。 さらに、COCOオブジェクト検出のためのGEMNetを転送する。 1段目と2段目の両方で、GEMNetは手作業で製造され、自動で調査される検出器を上回っています。

Neural Architecture Search (NAS) automates and prospers the design of neural networks. Estimator-based NAS has been proposed recently to model the relationship between architectures and their performance to enable scalable and flexible search. However, existing estimator-based methods encode the architecture into a latent space without considering graph similarity. Ignoring graph similarity in node-based search space may induce a large inconsistency between similar graphs and their distance in the continuous encoding space, leading to inaccurate encoding representation and/or reduced representation capacity that can yield sub-optimal search results. To preserve graph correlation information in encoding, we propose NASGEM which stands for Neural Architecture Search via Graph Embedding Method. NASGEM is driven by a novel graph embedding method equipped with similarity measures to capture the graph topology information. By precisely estimating the graph distance and using an auxiliary Weisfeiler-Lehman kernel to guide the encoding, NASGEM can utilize additional structural information to get more accurate graph representation to improve the search efficiency. GEMNet, a set of networks discovered by NASGEM, consistently outperforms networks crafted by existing search methods in classification tasks, i.e., with 0.4%-3.6% higher accuracy while having 11%- 21% fewer Multiply-Accumulates. We further transfer GEMNet for COCO object detection. In both one-stage and twostage detectors, our GEMNet surpasses its manually-crafted and automatically-searched counterparts.
翻訳日:2022-11-12 10:02:42 公開日:2020-09-28
# 複雑領域におけるポアソン・ボルツマン方程式の解法のためのマルチスケールディープニューラルネットワーク(MscaleDNN)

Multi-scale Deep Neural Network (MscaleDNN) for Solving Poisson-Boltzmann Equation in Complex Domains ( http://arxiv.org/abs/2007.11207v3 )

ライセンス: Link先を確認
Ziqi Liu, Wei Cai, Zhi-Qin John Xu(参考訳) 本稿では,周波数領域のラジアルスケーリングとコンパクトサポートによるアクティベーション関数を用いたマルチスケール深層ニューラルネットワーク(mscalednns)を提案する。 このラジアルスケーリングは、PDEの解の高周波内容の近似問題を低周波関数の学習問題に変換し、コンパクトなサポート活性化関数は、対応するDNNによって近似される対象関数の周波数内容の分離を容易にする。 その結果、MscaleDNNは複数のスケールで高速な均一収束を実現する。 提案したMscaleDNNは、従来の完全連結DNNよりも優れており、複素および特異領域上の周波数の豊富なポアソン・ボルツマン方程式の効果的なメッシュレス数値法である。

In this paper, we propose multi-scale deep neural networks (MscaleDNNs) using the idea of radial scaling in frequency domain and activation functions with compact support. The radial scaling converts the problem of approximation of high frequency contents of PDEs' solutions to a problem of learning about lower frequency functions, and the compact support activation functions facilitate the separation of frequency contents of the target function to be approximated by corresponding DNNs. As a result, the MscaleDNNs achieve fast uniform convergence over multiple scales. The proposed MscaleDNNs are shown to be superior to traditional fully connected DNNs and be an effective mesh-less numerical method for Poisson-Boltzmann equations with ample frequency contents over complex and singular domains.
翻訳日:2022-11-07 23:31:24 公開日:2020-09-28
# 基底言語学習のためのマルチモーダルデータセットの提示と解析

Presentation and Analysis of a Multimodal Dataset for Grounded Language Learning ( http://arxiv.org/abs/2007.14987v4 )

ライセンス: Link先を確認
Patrick Jenkins, Rishabh Sachdeva, Gaoussou Youssouf Kebe, Padraig Higgins, Kasra Darvish, Edward Raff, Don Engel, John Winder, Francis Ferraro, Cynthia Matuszek(参考訳) ロボット工学、nlp、およびhciの研究分野は、言語ベースのインタラクションが周囲の世界をどのように指しているのかを学ぶことにある。 実際には、学習に使用されるデータは、ほとんど完全にテキストによる記述で構成されており、実際の人間の相互作用よりもクリーンで明瞭で文法的な傾向がある。 本研究では,話し言葉や書き言葉を使用する人々によって記述される共通家庭オブジェクトのマルチモーダルデータセットであるGunded Language Dataset(GoLD)を提案する。 違いを分析し,異なるモダリティが人間のインプットから言語学習に与える影響を示す実験を行った。 これにより、ロボット工学、NLP、HCIの交差点を研究する研究者は、画像、テキスト、音声の複数のモーダルがどう相互作用するかをよりよく研究し、これらのモダリティの頂点の違いが結果に影響を及ぼすことを示すことができる。

Grounded language acquisition -- learning how language-based interactions refer to the world around them -- is amajor area of research in robotics, NLP, and HCI. In practice the data used for learning consists almost entirely of textual descriptions, which tend to be cleaner, clearer, and more grammatical than actual human interactions. In this work, we present the Grounded Language Dataset (GoLD), a multimodal dataset of common household objects described by people using either spoken or written language. We analyze the differences and present an experiment showing how the different modalities affect language learning from human in-put. This will enable researchers studying the intersection of robotics, NLP, and HCI to better investigate how the multiple modalities of image, text, and speech interact, as well as show differences in the vernacular of these modalities impact results.
翻訳日:2022-11-05 20:45:17 公開日:2020-09-28
# RAF-AUデータベース:主観的感情判断と客観的AUアノテーションを用いた顔表現

RAF-AU Database: In-the-Wild Facial Expressions with Subjective Emotion Judgement and Objective AU Annotations ( http://arxiv.org/abs/2008.05196v3 )

ライセンス: Link先を確認
Wenjing Yan, Shan Li, Chengtao Que, JiQuan Pei, Weihong Deng(参考訳) 自動表情認識の研究の多くは、エックマンの基本的な感情理論に基づいて、ある種の感情クラスとその誇張された表情(一般的に6つの原型的な表情)を含むデータベースに依存している。 しかし、最近の研究では、人間の生活における表情と複数の基本的な感情をブレンドできることが示されている。 また,これらの表情に対する感情ラベルは,事前定義されたauパターンのみにアノテートすることは容易ではない。 このような複雑な表現に対してアクションユニットをどのように分析するかは、まだ未解決の問題です。 この問題に対処するために,サインベース(AU)と判断ベース(知覚的感情)を併用したRAF-AUデータベースを開発した。 筆者らはまず,既存のデータベースにおけるアノテーション手法を概観し,クラウドソーシングを顔の表情をラベル付けするための有望な戦略として認識した。 次に,RAF-AUを経験者コーダーに微妙に注釈し,どのキーAUが知覚感情に最も寄与するか,AUと表情の関係について予備的検討を行った。 最後に、RAF-AUにおけるAU認識のベースラインとして、人気のある特徴とマルチラベル学習手法を用いた。

Much of the work on automatic facial expression recognition relies on databases containing a certain number of emotion classes and their exaggerated facial configurations (generally six prototypical facial expressions), based on Ekman's Basic Emotion Theory. However, recent studies have revealed that facial expressions in our human life can be blended with multiple basic emotions. And the emotion labels for these in-the-wild facial expressions cannot easily be annotated solely on pre-defined AU patterns. How to analyze the action units for such complex expressions is still an open question. To address this issue, we develop a RAF-AU database that employs a sign-based (i.e., AUs) and judgement-based (i.e., perceived emotion) approach to annotating blended facial expressions in the wild. We first reviewed the annotation methods in existing databases and identified crowdsourcing as a promising strategy for labeling in-the-wild facial expressions. Then, RAF-AU was finely annotated by experienced coders, on which we also conducted a preliminary investigation of which key AUs contribute most to a perceived emotion, and the relationship between AUs and facial expressions. Finally, we provided a baseline for AU recognition in RAF-AU using popular features and multi-label learning methods.
翻訳日:2022-10-31 05:21:46 公開日:2020-09-28
# ConiVAT: 部分的バックグラウンド知識によるクラスタの傾向評価とクラスタリング

ConiVAT: Cluster Tendency Assessment and Clustering with Partial Background Knowledge ( http://arxiv.org/abs/2008.09570v2 )

ライセンス: Link先を確認
Punit Rathore, James C. Bezdek, Paolo Santi, Carlo Ratti(参考訳) VAT法は、数値データ中の潜在的なクラスタ構造と可能なクラスタ数を決定するための視覚的手法である。 改良されたiVATは、パスベースの距離変換を使用して、"粗い"ケースに対するVATの有効性を改善する。 VATもiVATも単一リンク(SL)階層クラスタリングアルゴリズムと併用して使用されている。 しかしながら、データセット内のクラスタ間のノイズやブリッジポイントに敏感であり、その結果、対応するVAT/iVAT画像は、そのような場合、しばしば決定的ではない。 本稿では,制約の形で背景知識を利用するConiVATと呼ばれる制約ベースのiVATを提案し,課題のある複雑なデータセットに対してVAT/iVATを改善する。 ConiVATは入力制約を使って、基礎となる類似度計量を学習し、VATを適用する前に最小の推移的異性行列を構築する。 複雑なデータセットに対するiVAT画像の品質向上と,クラスタ間の"ノイズ"ブリッジによるVAT/iVATによるSLクラスタリングの制限を克服することを示すため,9つのデータセット上での視覚的アセスメントと単一リンククラスタリングに対するConiVATアプローチを実証した。 9つのデータセットの大規模な実験結果から、ConiVATは他の3つの半教師付きクラスタリングアルゴリズムよりも、クラスタリング精度が向上していることが示唆された。

The VAT method is a visual technique for determining the potential cluster structure and the possible number of clusters in numerical data. Its improved version, iVAT, uses a path-based distance transform to improve the effectiveness of VAT for "tough" cases. Both VAT and iVAT have also been used in conjunction with a single-linkage(SL) hierarchical clustering algorithm. However, they are sensitive to noise and bridge points between clusters in the dataset, and consequently, the corresponding VAT/iVAT images are often in-conclusive for such cases. In this paper, we propose a constraint-based version of iVAT, which we call ConiVAT, that makes use of background knowledge in the form of constraints, to improve VAT/iVAT for challenging and complex datasets. ConiVAT uses the input constraints to learn the underlying similarity metric and builds a minimum transitive dissimilarity matrix, before applying VAT to it. We demonstrate ConiVAT approach to visual assessment and single linkage clustering on nine datasets to show that, it improves the quality of iVAT images for complex datasets, and it also overcomes the limitation of SL clustering with VAT/iVAT due to "noisy" bridges between clusters. Extensive experiment results on nine datasets suggest that ConiVAT outperforms the other three semi-supervised clustering algorithms in terms of improved clustering accuracy.
翻訳日:2022-10-26 21:10:51 公開日:2020-09-28
# 小児集団の舌検出のための深層学習アプローチ

A Deep Learning Approach to Tongue Detection for Pediatric Population ( http://arxiv.org/abs/2009.02397v3 )

ライセンス: Link先を確認
Javad Rahimipour Anaraki, Silvia Orlandi, Tom Chau(参考訳) 重度の障害と複雑なコミュニケーションを必要とする子どもたちは、アクセス技術(at)デバイスの使用に制限がある。 通常のAT(例えば機械スイッチ)は、非言語的な子供や限定的な随意運動制御を持つ子供には不十分である。 舌ジェスチャー検出のための自動技術は有望な経路である。 これまでの研究では、成人者に対する舌検出アルゴリズムの堅牢性は示されてきたが、これらの手法を子どもと併用するにはさらなる研究が必要である。 そこで本研究では,子どもがゲームプレイ中,自然環境において録画されたビデオに対して,舌付きジェスチャー認識のためのネットワークアーキテクチャを実装し,その評価を行った。 被験者の顔を検出するためにカスケード物体検出アルゴリズムを用い、畳み込みニューラルネットワーク(CNN)を用いて舌ジェスチャー検出の自動分類手法を開発した。 評価実験では,成人および子供の画像を用いてネットワークを訓練した。 ネットワーク分類の精度はlet-one-subject-outクロスバリデーションを用いて評価した。 典型的発達障害児5名のビデオ分析から得られた予備分類の結果, 舌出動作の予測において, 最大99%の精度を示した。 さらに, 子どもデータのみを用いて分類器を訓練した結果, 小児舌ジェスチャーデータセットの必要性を裏付ける成人データよりも優れた成績を示した。

Children with severe disabilities and complex communication needs face limitations in the usage of access technology (AT) devices. Conventional ATs (e.g., mechanical switches) can be insufficient for nonverbal children and those with limited voluntary motion control. Automatic techniques for the detection of tongue gestures represent a promising pathway. Previous studies have shown the robustness of tongue detection algorithms on adult participants, but further research is needed to use these methods with children. In this study, a network architecture for tongue-out gesture recognition was implemented and evaluated on videos recorded in a naturalistic setting when children were playing a video-game. A cascade object detector algorithm was used to detect the participants' faces, and an automated classification scheme for tongue gesture detection was developed using a convolutional neural network (CNN). In evaluation experiments conducted, the network was trained using adults and children's images. The network classification accuracy was evaluated using leave-one-subject-out cross-validation. Preliminary classification results obtained from the analysis of videos of five typically developing children showed an accuracy of up to 99% in predicting tongue-out gestures. Moreover, we demonstrated that using only children data for training the classifier yielded better performance than adult's one supporting the need for pediatric tongue gesture datasets.
翻訳日:2022-10-22 02:01:03 公開日:2020-09-28
# TransModality: Multimodal Sentiment Analysis のための Transformer を用いた End2End Fusion 法

TransModality: An End2End Fusion Method with Transformer for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2009.02902v2 )

ライセンス: Link先を確認
Zilong Wang, Zhaohong Wan, and Xiaojun Wan(参考訳) マルチモーダル感情分析は, テキスト, 視覚的, 音響的モーダル性から抽出した特徴を通して, 話者の感情傾向を予測する重要な研究領域である。 中心的な課題は、マルチモーダル情報の融合方法である。 様々な融合法が提案されているが、モダリティ間の微妙な相関を見極めるためにエンドツーエンドの翻訳モデルを採用するものはほとんどない。 機械翻訳分野における変圧器の最近の成功を悟り,マルチモーダル感情分析の課題に対処すべく,新しい融合法であるtransmodalityを提案する。 モーダリティ間の翻訳は話者の発話のより良い共同表現に寄与していると仮定する。 Transformerでは、学習した特徴が、ソースモダリティとターゲットモダリティの両方から情報を具現化している。 我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。 実験の結果,提案手法は最先端の性能を実現する。

Multimodal sentiment analysis is an important research area that predicts speaker's sentiment tendency through features extracted from textual, visual and acoustic modalities. The central challenge is the fusion method of the multimodal information. A variety of fusion methods have been proposed, but few of them adopt end-to-end translation models to mine the subtle correlation between modalities. Enlightened by recent success of Transformer in the area of machine translation, we propose a new fusion method, TransModality, to address the task of multimodal sentiment analysis. We assume that translation between modalities contributes to a better joint representation of speaker's utterance. With Transformer, the learned features embody the information both from the source modality and the target modality. We validate our model on multiple multimodal datasets: CMU-MOSI, MELD, IEMOCAP. The experiments show that our proposed method achieves the state-of-the-art performance.
翻訳日:2022-10-21 02:57:06 公開日:2020-09-28
# GTEA:エッジ集約による時間的相互作用グラフの表現学習

GTEA: Representation Learning for Temporal Interaction Graphs via Edge Aggregation ( http://arxiv.org/abs/2009.05266v2 )

ライセンス: Link先を確認
Yiming Li, Da Sun Handason Tam, Siyue Xie, Xiaxin Liu, Qiu Fang Ying, Wing Cheong Lau, Dah Ming Chiu, Shou Zhi Chen(参考訳) 時間的相互作用を持つエンティティのネットワークがノードとエッジ属性の豊富な集合を持つグラフとしてモデル化される時間的相互作用グラフの表現学習の問題を考える。 特に、グラフ内のノードペア間のエッジは、多次元時系列に対応する。 ネットワークのダイナミクスをフルに把握し,モデル化するために,時間毎の集約を伴う時間的相互作用グラフの表現学習フレームワークGTEAを提案する。 GTEAでは、グラフニューラルネットワーク(GNN)がLSTMやTransformerなどの最先端のシーケンスモデルと統合される。 シーケンスモデルは各ノード間の時間的相互作用パターンをエンコードするためにエッジ埋め込みを生成し、gnnベースのバックボーンは異なるノード間のトポロジ的依存関係と関係を学習する。 GTEAはまた、アグリゲーションプロセス中に各ノードのより重要な隣人を区別し、焦点を合わせるために、疎結合によって誘導される自己注意機構も組み込んでいる。 ネットワーク内の多次元ノードやエッジ属性とともに時間的インタラクティブなダイナミクスをキャプチャすることで、GTEAは時間的相互作用グラフのきめ細かい表現を学習し、他の下流データ解析タスクを有効にまたは促進することができる。 実験の結果、GTEAはGraphSAGE、APPNP、TGATなどの最先端のスキームよりも高い精度(100.00%、98.51%、98.05%、79.90%)とマクロF1スコア(100.00%、98.51%、96.68%、79.90%)をバイナリ/マルチクラスノード分類のための4つの大規模実世界のデータセットで達成している。

We consider the problem of representation learning for temporal interaction graphs where a network of entities with complex interactions over an extended period of time is modeled as a graph with a rich set of node and edge attributes. In particular, an edge between a node-pair within the graph corresponds to a multi-dimensional time-series. To fully capture and model the dynamics of the network, we propose GTEA, a framework of representation learning for temporal interaction graphs with per-edge time-based aggregation. Under GTEA, a Graph Neural Network (GNN) is integrated with a state-of-the-art sequence model, such as LSTM, Transformer and their time-aware variants. The sequence model generates edge embeddings to encode temporal interaction patterns between each pair of nodes, while the GNN-based backbone learns the topological dependencies and relationships among different nodes. GTEA also incorporates a sparsity-inducing self-attention mechanism to distinguish and focus on the more important neighbors of each node during the aggregation process. By capturing temporal interactive dynamics together with multi-dimensional node and edge attributes in a network, GTEA can learn fine-grained representations for a temporal interaction graph to enable or facilitate other downstream data analytic tasks. Experimental results show that GTEA outperforms state-of-the-art schemes including GraphSAGE, APPNP, and TGAT by delivering higher accuracy (100.00%, 98.51%, 98.05% ,79.90%) and macro-F1 score (100.00%, 98.51%, 96.68% ,79.90%) over four large-scale real-world datasets for binary/ multi-class node classification.
翻訳日:2022-10-19 20:58:42 公開日:2020-09-28
# 類似クラスタリング機械学習アプローチによる乾式重症度評価による観測内および観測間変動の低減

Psoriasis Severity Assessment with a Similarity-Clustering Machine Learning Approach Reduces Intra- and Inter-observation variation ( http://arxiv.org/abs/2009.08997v2 )

ライセンス: Link先を確認
Arman Garakani, Martin Malmstedt-Miller, Ionela Manole, Adrian Y. Rossler and John R. Zibert(参考訳) psoriasisは、遺伝子型と表現型に多くの変異がある複合疾患である。 医学の一般的な進歩は、医師と皮膚科医の両方に対する評価と治療を更に複雑にしている。 技術的な進歩にもかかわらず、1970年代に開発された重大度評価には主にアセスメントツールpsoriasis area and severe index(pasi)を使用します。 本研究では,デジタル画像,比較Webアプリケーション,類似性クラスタリングを含む手法を評価し,サーバ内およびサーバ間変動による評価ツールの改善を目的とした。 患者の画像はモバイルデバイスから収集された。 画像は1週間ほど離れた場所で撮影された。 5人の皮膚科医が、修正pasi、絶対スコア、相対的なペアワイズpasiスコアを類似性クラスタリングを用いて評価し、同時に2つの画像を表示するウェブプログラムを用いて実施した。 mPASIは同一または異なる皮膚科医による単眼写真を評価したところ,mPASIは50%から80%であった。 類似度クラスタリングを用いた繰り返しmPASI比較の結果,mPASIは95%であった。 パーソンの絶対得点と対得点の進行の相関は0.72。

Psoriasis is a complex disease with many variations in genotype and phenotype. General advancements in medicine has further complicated both assessments and treatment for both physicians and dermatologist alike. Even with all of our technological progress we still primarily use the assessment tool Psoriasis Area and Severity Index (PASI) for severity assessments which was developed in the 1970s. In this study we evaluate a method involving digital images, a comparison web application and similarity clustering, developed to improve the assessment tool in terms of intra- and inter-observer variation. Images of patients was collected from a mobile device. Images were captured of the same lesion area taken approximately 1 week apart. Five dermatologists evaluated the severity of psoriasis by modified-PASI, absolute scoring and a relative pairwise PASI scoring using similarity-clustering and conducted using a web-program displaying two images at a time. mPASI scoring of single photos by the same or different dermatologist showed mPASI ratings of 50% to 80%, respectively. Repeated mPASI comparison using similarity clustering showed consistent mPASI ratings > 95%. Pearson correlation between absolute scoring and pairwise scoring progression was 0.72.
翻訳日:2022-10-17 02:31:44 公開日:2020-09-28
# ニューラル品質推定と自動後編集を用いたコンピュータ支援翻訳

Computer Assisted Translation with Neural Quality Estimation and Automatic Post-Editing ( http://arxiv.org/abs/2009.09126v2 )

ライセンス: Link先を確認
Jiayi Wang, Ke Wang, Niyu Ge, Yangbing Shi, Yu Zhao, Kai Fan(参考訳) ニューラルマシン翻訳の出現により、機械翻訳結果の活用と消費への顕著なシフトがあった。 しかし、機械翻訳システムと人間の翻訳者の間のギャップは、編集後、手動で閉じる必要がある。 本稿では,機械翻訳出力の品質推定と自動後編集に関するエンドツーエンドのディープラーニングフレームワークを提案する。 我々のゴールは、誤り訂正の提案を提供し、解釈可能なモデルにより、人間の翻訳者の負担を軽減することである。 ヒューマントランスレータの動作を模倣するために,品質推定,生成後編集,アトミック操作という3つの効率的なデリゲーションモジュールを設計し,それらに基づいた階層モデルを構築した。 このアプローチをwmt 2017 ape共有タスクの英語-ドイツ語データセットを用いて検証し,最先端のパフォーマンスを実現するための実験結果を得た。 また,認定翻訳者は,人的評価において,編集後の処理をモデルで大幅に高速化できることを確認した。

With the advent of neural machine translation, there has been a marked shift towards leveraging and consuming the machine translation results. However, the gap between machine translation systems and human translators needs to be manually closed by post-editing. In this paper, we propose an end-to-end deep learning framework of the quality estimation and automatic post-editing of the machine translation output. Our goal is to provide error correction suggestions and to further relieve the burden of human translators through an interpretable model. To imitate the behavior of human translators, we design three efficient delegation modules -- quality estimation, generative post-editing, and atomic operation post-editing and construct a hierarchical model based on them. We examine this approach with the English--German dataset from WMT 2017 APE shared task and our experimental results can achieve the state-of-the-art performance. We also verify that the certified translators can significantly expedite their post-editing processing with our model in human evaluation.
翻訳日:2022-10-16 20:53:12 公開日:2020-09-28
# 動的物理システムへの機械学習の適用に関する調査

A Survey on Machine Learning Applied to Dynamic Physical Systems ( http://arxiv.org/abs/2009.09719v2 )

ライセンス: Link先を確認
Sagar Verma(参考訳) この調査は、物理モデリングと機械学習の交差点における最近の進歩に関するものである。 我々は電動機に近い非線形システムのモデリングに焦点をあてる。 電動機の運転におけるモータ制御と故障検出に関する調査を行った。

This survey is on recent advancements in the intersection of physical modeling and machine learning. We focus on the modeling of nonlinear systems which are closer to electric motors. Survey on motor control and fault detection in operation of electric motors has been done.
翻訳日:2022-10-16 03:55:57 公開日:2020-09-28
# 深層学習に基づく予後予測のための逆行例の作成(拡張版)

Crafting Adversarial Examples for Deep Learning Based Prognostics (Extended Version) ( http://arxiv.org/abs/2009.10149v2 )

ライセンス: Link先を確認
Gautam Raj Mode, Khaza Anuarul Hoque(参考訳) 製造において予期せぬ失敗は、生産性を阻害し、大きな損失をもたらす可能性があるため、主要な運用上のリスクとみなされる。 最先端のPrognostics and Health Management (PHM)システムには、Deep Learning (DL)アルゴリズムとInternet of Things (IoT)デバイスが組み込まれ、機器の健康状態を確認し、ダウンタイム、メンテナンスコストを削減し、生産性を向上させる。 残念ながら、IoTセンサーとDLアルゴリズムはどちらもサイバー攻撃に弱いため、PHMシステムに重大な脅威をもたらす。 本稿では,コンピュータビジョン領域からの逆例作成手法を採用し,PHM領域に適用する。 具体的には,FGSM (Fast Gradient Sign Method) とBIM (Basic Iterative Method) を用いて,Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), Convolutional Neural Network (CNN) を用いたPHMモデルに適用する。 我々は、NASAのターボファンエンジンデータセットを用いて、敵攻撃の影響を評価する。 その結果, 評価されたPHMモデルはすべて, 敵攻撃に対して脆弱であり, 残りの有効寿命推定に深刻な欠陥を生じさせる可能性が示唆された。 以上の結果から, 加工した対向体は高い伝達性を有し, PHM系に大きな損傷を与える可能性が示唆された。

In manufacturing, unexpected failures are considered a primary operational risk, as they can hinder productivity and can incur huge losses. State-of-the-art Prognostics and Health Management (PHM) systems incorporate Deep Learning (DL) algorithms and Internet of Things (IoT) devices to ascertain the health status of equipment, and thus reduce the downtime, maintenance cost and increase the productivity. Unfortunately, IoT sensors and DL algorithms, both are vulnerable to cyber attacks, and hence pose a significant threat to PHM systems. In this paper, we adopt the adversarial example crafting techniques from the computer vision domain and apply them to the PHM domain. Specifically, we craft adversarial examples using the Fast Gradient Sign Method (FGSM) and Basic Iterative Method (BIM) and apply them on the Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), and Convolutional Neural Network (CNN) based PHM models. We evaluate the impact of adversarial attacks using NASA's turbofan engine dataset. The obtained results show that all the evaluated PHM models are vulnerable to adversarial attacks and can cause a serious defect in the remaining useful life estimation. The obtained results also show that the crafted adversarial examples are highly transferable and may cause significant damages to PHM systems.
翻訳日:2022-10-16 03:47:09 公開日:2020-09-28
# 制約プログラミングに基づく最新のHPCシステムとアプリケーションのためのジョブディスパッチャー

A Constraint Programming-based Job Dispatcher for Modern HPC Systems and Applications ( http://arxiv.org/abs/2009.10348v2 )

ライセンス: Link先を確認
Cristian Galleguillos, Zeynep Kiziltan, Ricardo Soto(参考訳) 制約プログラミング(CP)は、離散最適化問題のモデル化と解決のためのプログラミングパラダイムとして、AIにおいて確立された分野であり、現代のアプリケーションを含むHPCシステムにおけるオンラインジョブディスパッチ問題に対処するためにうまく適用されてきた。 利用可能なcpベースのジョブディスパッチの制限は、サイズが大きくなり、リソース割り当てが要求される現在のシステムでの使用を阻害する可能性がある。 デプロイされたアプリケーションに基本的なAI研究を近づけるために,最新のHPCシステムやアプリケーションのためのCPベースのオンラインジョブディスパッチを提案する。 前者とは異なり、新しいディスパッチはCPのすべての問題に対処し、そのモデルサイズはシステムサイズとは独立している。 シミュレーションによる実験結果から, 大規模システムやアロケーションが非自明なシステムでは, 分散性能が著しく向上することが明らかとなった。

Constraint Programming (CP) is a well-established area in AI as a programming paradigm for modelling and solving discrete optimization problems, and it has been been successfully applied to tackle the on-line job dispatching problem in HPC systems including those running modern applications. The limitations of the available CP-based job dispatchers may hinder their practical use in today's systems that are becoming larger in size and more demanding in resource allocation. In an attempt to bring basic AI research closer to a deployed application, we present a new CP-based on-line job dispatcher for modern HPC systems and applications. Unlike its predecessors, our new dispatcher tackles the entire problem in CP and its model size is independent of the system size. Experimental results based on a simulation study show that with our approach dispatching performance increases significantly in a large system and in a system where allocation is nontrivial.
翻訳日:2022-10-15 23:01:49 公開日:2020-09-28
# エンドツーエンド音声認識と拡散除去

End-to-End Speech Recognition and Disfluency Removal ( http://arxiv.org/abs/2009.10298v3 )

ライセンス: Link先を確認
Paria Jamshid Lou and Mark Johnson(参考訳) 分散検出は通常、自動音声認識(asr)システムと下流タスクの間の中間のステップである。 対照的に,本研究の目的は,エンドツーエンド音声認識と不整合除去の課題を検討することである。 具体的には、別個の拡散検出モデルに頼ることなく、ASRモデルを用いて非流布音声を直接流布文字にマッピングできるかどうかについて検討する。 エンド・ツー・エンドのモデルでは,フロート・トランスクリプトを直接生成できることが示されているが,その性能は,ASRシステムとディフルエンシ検出モデルからなるベースライン・パイプライン・アプローチよりも若干劣っている。 また,統合型asr と disfluency モデルの評価に使用できる2つの新しい指標を提案する。 本研究は,今後,エンド・ツー・エンドの音声認識と拡散除去の課題について,さらなる研究を行うためのベンチマークとなる。

Disfluency detection is usually an intermediate step between an automatic speech recognition (ASR) system and a downstream task. By contrast, this paper aims to investigate the task of end-to-end speech recognition and disfluency removal. We specifically explore whether it is possible to train an ASR model to directly map disfluent speech into fluent transcripts, without relying on a separate disfluency detection model. We show that end-to-end models do learn to directly generate fluent transcripts; however, their performance is slightly worse than a baseline pipeline approach consisting of an ASR system and a disfluency detection model. We also propose two new metrics that can be used for evaluating integrated ASR and disfluency models. The findings of this paper can serve as a benchmark for further research on the task of end-to-end speech recognition and disfluency removal in the future.
翻訳日:2022-10-15 21:49:04 公開日:2020-09-28
# 画像処理のための多次元テレビストーク

Multidimensional TV-Stokes for image processing ( http://arxiv.org/abs/2009.11971v2 )

ライセンス: Link先を確認
Bin Wu, Xue-Cheng Tai, and Talal Rahman(参考訳) 第1段階における勾配場の平滑化と勾配場からの多次元画像の再構成に基づいて,完全多次元tv-ストークスモデルを提案する。 これは元の2次元テレビストロークの多重次元への正しい拡張である。 シャンボールの半簡約双対公式を用いた数値アルゴリズムを提案する。 3D画像や映画をデノベートするための数値結果を示す。 階段効果を回避し、微細な構造を保つのに優れた性能を示す。

A complete multidimential TV-Stokes model is proposed based on smoothing a gradient field in the first step and reconstruction of the multidimensional image from the gradient field. It is the correct extension of the original two dimensional TV-Stokes to multidimensions. Numerical algorithm using the Chambolle's semi-implicit dual formula is proposed. Numerical results applied to denoising 3D images and movies are presented. They show excellent performance in avoiding the staircase effect, and preserving fine structures.
翻訳日:2022-10-15 05:14:29 公開日:2020-09-28
# 多言語マルチタスクジェンダーバイアスのための曖昧なテストベッドとしてのB型回帰

Type B Reflexivization as an Unambiguous Testbed for Multilingual Multi-Task Gender Bias ( http://arxiv.org/abs/2009.11982v2 )

ライセンス: Link先を確認
Ana Valeria Gonzalez, Maria Barrett, Rasmus Hvingelby, Kellie Webster, Anders S{\o}gaard(参考訳) GAPやWinoGenderのような英語の挑戦データセットは、男性医師としての「ドクター」の性差を曖昧にしているような「幻覚的」なモデル嗜好を強調している。 スウェーデン語やロシア語などのB型反射性のある言語では、不明瞭に間違ったモデル予測につながる性別バイアスを検出するためのマルチタスクチャレンジデータセットを構築することができる。 代わりに、中性代名詞は非性代名詞を必要とし、性代名詞は反反射的である。 我々は4つの言語と4つのNLPタスクにまたがる多言語・マルチタスク課題データセットを提案し、この現象にのみ焦点をあてる。 我々は、すべてのタスク言語の組み合わせにおけるジェンダーバイアスの証拠を見つけ、モデルバイアスと全国労働市場の統計を関連付ける。

The one-sided focus on English in previous studies of gender bias in NLP misses out on opportunities in other languages: English challenge datasets such as GAP and WinoGender highlight model preferences that are "hallucinatory", e.g., disambiguating gender-ambiguous occurrences of 'doctor' as male doctors. We show that for languages with type B reflexivization, e.g., Swedish and Russian, we can construct multi-task challenge datasets for detecting gender bias that lead to unambiguously wrong model predictions: In these languages, the direct translation of 'the doctor removed his mask' is not ambiguous between a coreferential reading and a disjoint reading. Instead, the coreferential reading requires a non-gendered pronoun, and the gendered, possessive pronouns are anti-reflexive. We present a multilingual, multi-task challenge dataset, which spans four languages and four NLP tasks and focuses only on this phenomenon. We find evidence for gender bias across all task-language combinations and correlate model bias with national labor market statistics.
翻訳日:2022-10-15 04:03:52 公開日:2020-09-28
# 宇宙気象研究のためのモジュールオントロジーを目指して

Towards a Modular Ontology for Space Weather Research ( http://arxiv.org/abs/2009.12285v2 )

ライセンス: Link先を確認
Cogan Shimizu, Ryan McGranaghan, Aaron Eberhart, Adam C. Kellerman(参考訳) 太陽、惑星間空間、地球近傍の宇宙環境、地球の表面、そして電力網の間の相互作用は、おそらく、非常に複雑である。 このような研究には、公共部門と民間部門にまたがる多くの異なる組織間の協力が必要である。 したがって、宇宙気象を研究する重要な要素は異種情報の統合と解析である。 そのため私たちは,データ統合のコアを推進すべく,高度に学際的なコミュニティのニーズを満たすモジュール型オントロジーを開発しました。 本稿では,宇宙気象研究のための予備的なモジュールオントロジーについて述べるとともに,実例規則と明示型を用いた特定のユースケースへの適応方法を示す。

The interactions between the Sun, interplanetary space, near Earth space environment, the Earth's surface, and the power grid are, perhaps unsurprisingly, very complicated. The study of such requires the collaboration between many different organizations spanning the public and private sectors. Thus, an important component of studying space weather is the integration and analysis of heterogeneous information. As such, we have developed a modular ontology to drive the core of the data integration and serve the needs of a highly interdisciplinary community. This paper presents our preliminary modular ontology, for space weather research, as well as demonstrate a method for adaptation to a particular use-case, through the use of existential rules and explicit typing.
翻訳日:2022-10-14 23:16:24 公開日:2020-09-28
# GEFA:ドラッグターゲット親和性予測における早期融合アプローチ

GEFA: Early Fusion Approach in Drug-Target Affinity Prediction ( http://arxiv.org/abs/2009.12146v2 )

ライセンス: Link先を確認
Tri Minh Nguyen, Thin Nguyen, Thao Minh Le, Truyen Tran(参考訳) 化合物と標的との相互作用を予測することは、迅速な薬物精製に不可欠である。 ディープラーニングは、薬物標的親和性(dta)問題にうまく適用されている。 しかし、従来のディープラーニングに基づく手法では、薬物とタンパク質の直接相互作用のモデリングは無視されている。 これは、薬物結合効果によって変化する可能性のある標的表現の不正な学習につながる。 さらに、従来のDTA手法では、DTAデータセット以外のタンパク質の使用を無視しながら、DTAデータセットの少数のタンパク質配列のみに基づいてタンパク質表現を学習していた。 本稿では,結合効果により対象表現の変化に注意を向ける新しいグラフ・イン・グラフニューラルネットワークであるgefa(graph early fusion affinity)を提案する。 具体的には、薬物は原子のグラフとしてモデル化され、残基-ドラッグ複合体の大きなグラフのノードとして機能する。 結果として得られるモデルは、表現力のあるディープネストグラフニューラルネットワークである。 また,最近の文脈化タンパク質表現学習の成果を活かして,事前学習したタンパク質表現を用いる。 実験は、新しい薬物や標的などのシナリオを評価するために、異なる設定で実施される。 以上の結果から, プレトレーニングタンパク質埋め込みの有効性と, 薬物標的間相互作用のためのネストグラフのモデル化におけるgefaの利点が示された。

Predicting the interaction between a compound and a target is crucial for rapid drug repurposing. Deep learning has been successfully applied in drug-target affinity (DTA) problem. However, previous deep learning-based methods ignore modeling the direct interactions between drug and protein residues. This would lead to inaccurate learning of target representation which may change due to the drug binding effects. In addition, previous DTA methods learn protein representation solely based on a small number of protein sequences in DTA datasets while neglecting the use of proteins outside of the DTA datasets. We propose GEFA (Graph Early Fusion Affinity), a novel graph-in-graph neural network with attention mechanism to address the changes in target representation because of the binding effects. Specifically, a drug is modeled as a graph of atoms, which then serves as a node in a larger graph of residues-drug complex. The resulting model is an expressive deep nested graph neural network. We also use pre-trained protein representation powered by the recent effort of learning contextualized protein representation. The experiments are conducted under different settings to evaluate scenarios such as novel drugs or targets. The results demonstrate the effectiveness of the pre-trained protein embedding and the advantages our GEFA in modeling the nested graph for drug-target interaction.
翻訳日:2022-10-14 22:32:25 公開日:2020-09-28
# 浅層マスマスキングオートエンコーダを用いた高速かつ高精度な物理インフォームドニューラルネットワーク削減次数モデル

A fast and accurate physics-informed neural network reduced order model with shallow masked autoencoder ( http://arxiv.org/abs/2009.11990v2 )

ライセンス: Link先を確認
Youngkyu Kim, Youngsoo Choi, David Widemann, Tarek Zohdi(参考訳) 従来の線形部分空間還元次数モデル(LS-ROM)は、内在的な解空間が小さな次元を持つ部分空間、すなわち、解空間が小さなコルモゴロフ n-幅を持つような物理シミュレーションを加速することができる。 しかし、このタイプの物理現象、例えば交通流、大気流、車両上空の空気流など、アドベクションが支配する流れ現象に対して、低次元の線形部分空間は解をあまり近似しない。 このようなケースに対処するため,我々は高速で正確な物理に変形したニューラルネットワークrom,すなわち非線形多様体rom(nm-rom)を開発した。 本手法は,対応する全順序モデルの解法として,既存の数値手法を利用する。 この効率性はNM-ROMの文脈で超還元技術を開発することで達成される。 その結果、ニューラルネットワークは1dおよび2dバーガーの方程式から、アドベクションが支配するデータに対してより効率的な潜在空間表現を学習できることが示されている。 1Dバーガーズ方程式の最大2.6の高速化と2Dバーガーズ方程式の1.7の高速化は、超還元法により非線形項の適切な処理によって達成される。 最後に、超還元作用素を考慮に入れたNM-ROMの後方誤差境界を導出する。

Traditional linear subspace reduced order models (LS-ROMs) are able to accelerate physical simulations, in which the intrinsic solution space falls into a subspace with a small dimension, i.e., the solution space has a small Kolmogorov n-width. However, for physical phenomena not of this type, e.g., any advection-dominated flow phenomena, such as in traffic flow, atmospheric flows, and air flow over vehicles, a low-dimensional linear subspace poorly approximates the solution. To address cases such as these, we have developed a fast and accurate physics-informed neural network ROM, namely nonlinear manifold ROM (NM-ROM), which can better approximate high-fidelity model solutions with a smaller latent space dimension than the LS-ROMs. Our method takes advantage of the existing numerical methods that are used to solve the corresponding full order models. The efficiency is achieved by developing a hyper-reduction technique in the context of the NM-ROM. Numerical results show that neural networks can learn a more efficient latent space representation on advection-dominated data from 1D and 2D Burgers' equations. A speedup of up to 2.6 for 1D Burgers' and a speedup of 11.7 for 2D Burgers' equations are achieved with an appropriate treatment of the nonlinear terms through a hyper-reduction technique. Finally, a posteriori error bounds for the NM-ROMs are derived that take account of the hyper-reduced operators.
翻訳日:2022-10-14 22:23:31 公開日:2020-09-28
# 相関分解における高次推論の神話の展開

Revealing the Myth of Higher-Order Inference in Coreference Resolution ( http://arxiv.org/abs/2009.12013v2 )

ライセンス: Link先を確認
Liyan Xu, Jinho D. Choi(参考訳) 本稿では,高次推論(HOI)がコア参照解決の課題に与える影響を解析する。 HOIは、表現学習よりも真の有効性について多くの研究をすることなく、最近のほとんど全てのコア参照解決モデルに適応してきた。 包括的な分析を行うために, エンドツーエンドのコリファレンスシステムと4つのhoiアプローチ, 参加者の先行性, エンティティ等化, スパンクラスタリング, クラスタマージを実装した。 SpanBERTのような高性能エンコーダが与えられた場合、HOIの影響は負の差であり、このタスクに対するHOIの新しい視点を提供する。 クラスタマージによる最良のモデルは、英語で共有されたCoNLL 2012タスクデータセットの80.2のAvg-F1を示す。

This paper analyzes the impact of higher-order inference (HOI) on the task of coreference resolution. HOI has been adapted by almost all recent coreference resolution models without taking much investigation on its true effectiveness over representation learning. To make a comprehensive analysis, we implement an end-to-end coreference system as well as four HOI approaches, attended antecedent, entity equalization, span clustering, and cluster merging, where the latter two are our original methods. We find that given a high-performing encoder such as SpanBERT, the impact of HOI is negative to marginal, providing a new perspective of HOI to this task. Our best model using cluster merging shows the Avg-F1 of 80.2 on the CoNLL 2012 shared task dataset in English.
翻訳日:2022-10-14 22:23:07 公開日:2020-09-28
# MinTL:タスク指向対話システムのためのミニマリスト変換学習

MinTL: Minimalist Transfer Learning for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2009.12005v2 )

ライセンス: Link先を確認
Zhaojiang Lin, Andrea Madotto, Genta Indra Winata, Pascale Fung(参考訳) 本稿では,タスク指向対話システムのシステム設計プロセスを簡素化し,注釈付きデータへの過度依存を緩和するために,mintlを提案する。 MinTLはシンプルだが効果的な転送学習フレームワークであり,事前学習したセq2seqモデルをプラグイン&プレイし,対話状態追跡と対話応答生成を共同で学習することができる。 古い対話状態を新しい対話に"キャリア"するためにコピー機構を用いた従来のアプローチとは異なり、最小生成長の効率的な対話状態追跡を可能にするLevenshtein belief spans (Lev)を導入している。 学習フレームワークをT5とBARTの2つのトレーニング済みバックボーンでインスタンス化し、MultiWOZで評価する。 広範な実験が示しています 1) エンド・ツー・エンドの応答生成において, 最新の結果が得られた。 2)MinTLベースのシステムは,低リソース環境での基準手法よりも堅牢であり,20倍のトレーニングデータで競争結果が得られる。 3)レブは推論効率を大幅に改善する。

In this paper, we propose Minimalist Transfer Learning (MinTL) to simplify the system design process of task-oriented dialogue systems and alleviate the over-dependency on annotated data. MinTL is a simple yet effective transfer learning framework, which allows us to plug-and-play pre-trained seq2seq models, and jointly learn dialogue state tracking and dialogue response generation. Unlike previous approaches, which use a copy mechanism to "carryover" the old dialogue states to the new one, we introduce Levenshtein belief spans (Lev), that allows efficient dialogue state tracking with a minimal generation length. We instantiate our learning framework with two pre-trained backbones: T5 and BART, and evaluate them on MultiWOZ. Extensive experiments demonstrate that: 1) our systems establish new state-of-the-art results on end-to-end response generation, 2) MinTL-based systems are more robust than baseline methods in the low resource setting, and they achieve competitive results with only 20\% training data, and 3) Lev greatly improves the inference efficiency.
翻訳日:2022-10-14 22:13:02 公開日:2020-09-28
# 深層学習分類による時間関連MIMOチャネルの再帰的CSI量子化

Recursive CSI Quantization of Time-Correlated MIMO Channels by Deep Learning Classification ( http://arxiv.org/abs/2009.13560v1 )

ライセンス: Link先を確認
Stefan Schwarz(参考訳) 周波数分割デュプレックス (FDD) マルチインプット多重出力 (MIMO) 無線通信において、制限チャネル状態情報 (CSI) フィードバックは高度なシングルユーザおよびマルチユーザMIMOビームフォーミング/プリコーディングをサポートする中心的なツールである。 与えられたCSI品質を達成するために、CSI量子化コードブックのサイズはアンテナの数とともに指数関数的に増加し、量子化の複雑さと、より大きなMIMOシステムに対するフィードバックオーバーヘッドの問題をもたらす。 我々は最近,CSI量子化の複雑性を著しく低減できる多段再帰的なグラスマン量子化器を提案している。 本稿では,この再帰的量子化器と深層学習分類を効果的に組み合わせて複雑性をさらに低減し,時間的チャネル相関を利用してCSIフィードバックのオーバーヘッドを低減できることを示す。

In frequency division duplex (FDD) multiple-input multiple-output (MIMO) wireless communications, limited channel state information (CSI) feedback is a central tool to support advanced single- and multi-user MIMO beamforming/precoding. To achieve a given CSI quality, the CSI quantization codebook size has to grow exponentially with the number of antennas, leading to quantization complexity, as well as, feedback overhead issues for larger MIMO systems. We have recently proposed a multi-stage recursive Grassmannian quantizer that enables a significant complexity reduction of CSI quantization. In this paper, we show that this recursive quantizer can effectively be combined with deep learning classification to further reduce the complexity, and that it can exploit temporal channel correlations to reduce the CSI feedback overhead.
翻訳日:2022-10-13 22:50:38 公開日:2020-09-28
# 個人データ解析のための斜めサンプリングアルゴリズム

Oblivious Sampling Algorithms for Private Data Analysis ( http://arxiv.org/abs/2009.13689v1 )

ライセンス: Link先を確認
Sajin Sasy and Olga Ohrimenko(参考訳) データセットのサンプル上で実行されるクエリに基づいて,セキュアでプライバシ保護のデータを解析する。 信頼された実行環境(TEEs)は、クエリ計算中にデータの内容を保護するために使用できるが、TEEsにおける差分プライベート(DP)クエリのサポートは、クエリ出力が明らかにされたときに記録プライバシを提供する。 サンプルベースのクエリのサポートは,クエリに応答するためにすべてのデータセットを使用するのではなく,小さなサブセットのみを使用するため,‘emph{privacy amplification’によって魅力的なものだ。 しかし,強いDP保証を証明しながらTEEを用いてデータサンプルを抽出することは簡単ではない。 この目的のために、我々は一般的なサンプリングアルゴリズムの効率的な安全な変種を設計する。 MNISTとCIFAR-10の差分プライベートモデルでは,シャッフルとサンプリングで訓練したモデルの精度が同じであり,サンプリングはシャッフルよりも強いプライバシー保証を提供する。

We study secure and privacy-preserving data analysis based on queries executed on samples from a dataset. Trusted execution environments (TEEs) can be used to protect the content of the data during query computation, while supporting differential-private (DP) queries in TEEs provides record privacy when query output is revealed. Support for sample-based queries is attractive due to \emph{privacy amplification} since not all dataset is used to answer a query but only a small subset. However, extracting data samples with TEEs while proving strong DP guarantees is not trivial as secrecy of sample indices has to be preserved. To this end, we design efficient secure variants of common sampling algorithms. Experimentally we show that accuracy of models trained with shuffling and sampling is the same for differentially private models for MNIST and CIFAR-10, while sampling provides stronger privacy guarantees than shuffling.
翻訳日:2022-10-13 22:50:22 公開日:2020-09-28
# ニューラルネットワークと異なるサーベイからの参照画像を用いた光トランジェント検出

Detecting optical transients using artificial neural networks and reference images from different surveys ( http://arxiv.org/abs/2009.14614v1 )

ライセンス: Link先を確認
Katarzyna Ward\k{e}ga, Adam Zadro\.zny, Martin Beroiz, Richard Camuccio and Mario C. D\'iaz(参考訳) 重力波に対する光学的対応を探索するためには、事象の局所化領域を高速で遠隔観察し、その結果の可視光トランジェントの画像データを探索できる効率的な追従法を開発することが不可欠である。 人工ニューラルネットワークを用いてこれらのトランジェントを検出する手法を提案する。 異なる望遠鏡で撮影した空の同じ部分の画像を比較できる2つのネットワークのアーキテクチャについて述べる。 1つの画像は、潜在的な過渡期が存在する可能性があるエポックに対応しており、もう1つは初期のエポックの参照画像である。 我々は、Cristina V. Torres記念天文台が取得したデータと、Sloan Digital Sky Surveyのアーカイブ参照画像を用いている。 シミュレーションデータを用いて畳み込みニューラルネットワークと高密度層ネットワークを訓練し,実画像データから作成したサンプルを用いてトレーニングしたネットワークをテストした。 自律的検出法は、通常、差分画像のソース抽出と、検出された候補の人間の検査によって達成される、トランジェント検出の標準的なプロセスを置き換える。 人間の検査コンポーネントを完全に自律的な方法で置き換えることで、興味深い機会のターゲットを素早く自動で追跡することができる。 この方法は、南方協力の過渡光ロボット観測所に参加する望遠鏡でさらにテストされる。

To search for optical counterparts to gravitational waves, it is crucial to develop an efficient follow-up method that allows for both a quick telescopic scan of the event localization region and search through the resulting image data for plausible optical transients. We present a method to detect these transients based on an artificial neural network. We describe the architecture of two networks capable of comparing images of the same part of the sky taken by different telescopes. One image corresponds to the epoch in which a potential transient could exist; the other is a reference image of an earlier epoch. We use data obtained by the Dr. Cristina V. Torres Memorial Astronomical Observatory and archival reference images from the Sloan Digital Sky Survey. We trained a convolutional neural network and a dense layer network on simulated source samples and tested the trained networks on samples created from real image data. Autonomous detection methods replace the standard process of detecting transients, which is normally achieved by source extraction of a difference image followed by human inspection of the detected candidates. Replacing the human inspection component with an entirely autonomous method would allow for a rapid and automatic follow-up of interesting targets of opportunity. The method will be further tested on telescopes participating in the Transient Optical Robotic Observatory of the South Collaboration.
翻訳日:2022-10-13 22:50:03 公開日:2020-09-28
# ニューラルネットを用いたVlasov-Poisson-Fokker-PlanckシステムからPoisson-Nernst-Planckシステムへのモデル縮小

The model reduction of the Vlasov-Poisson-Fokker-Planck system to the Poisson-Nernst-Planck system via the Deep Neural Network Approach ( http://arxiv.org/abs/2009.13280v1 )

ライセンス: Link先を確認
Jae Yong Lee, Jin Woo Jang, Hyung Ju Hwang(参考訳) メソスコピック運動力学からマクロ連続体力学へのモデル還元はヒルベルトの時代から数学物理学における基本的な問題の一つであった。 本稿では,鏡面反射境界条件を持つ有界区間のvlasov-poisson-fokker-planck (vpfp) 系から非流束境界条件のpoisson-nernst-planck (pnp) 系への拡散限界の図を考える。 本稿では,解の時間漸近挙動と物理量を計算することにより,VPFPシステムとPNPシステムをシミュレートするディープラーニングアルゴリズムを提案する。 本稿では、Asymptotic-Preserving (AP) スキームを用いて、VPFP システムのニューラルネットワーク解と PNP システムの解の収束を解析する。 また、VPFPとPNPシステムに対するディープニューラルネットワーク(DNN)の解が、全損失関数が消滅した場合に、各システムの先行古典解に収束するという理論的証拠も提示する。

The model reduction of a mesoscopic kinetic dynamics to a macroscopic continuum dynamics has been one of the fundamental questions in mathematical physics since Hilbert's time. In this paper, we consider a diagram of the diffusion limit from the Vlasov-Poisson-Fokker-Planck (VPFP) system on a bounded interval with the specular reflection boundary condition to the Poisson-Nernst-Planck (PNP) system with the no-flux boundary condition. We provide a Deep Learning algorithm to simulate the VPFP system and the PNP system by computing the time-asymptotic behaviors of the solution and the physical quantities. We analyze the convergence of the neural network solution of the VPFP system to that of the PNP system via the Asymptotic-Preserving (AP) scheme. Also, we provide several theoretical evidence that the Deep Neural Network (DNN) solutions to the VPFP and the PNP systems converge to the a priori classical solutions of each system if the total loss function vanishes.
翻訳日:2022-10-13 22:49:41 公開日:2020-09-28
# スパース心内膜地図による心筋脱分極のグラフ畳み込み回帰

Graph convolutional regression of cardiac depolarization from sparse endocardial maps ( http://arxiv.org/abs/2009.14068v1 )

ライセンス: Link先を確認
Felix Meister, Tiziano Passerini, Chlo\'e Audigier, \`Eric Lluch, Viorel Mihalef, Hiroshi Ashikaga, Andreas Maier, Henry Halperin, Tommaso Mansi(参考訳) 心室頻拍のアブレーション療法において日常的に得られる電気解剖学的マッピングは不整脈性基質を同定するための金標準法である。 グラフ畳み込みニューラルネットワークを用いた新しい深層学習法を提案する。左室心内膜,心電図,磁気共鳴画像上の疎カテーテルデータから心筋の脱分極時間を推定する。 トレーニングセットは、人工的に生成された虚血心のジオメトリの大きなコホート上で、心臓電気生理学の計算モデルによって生成されたデータからなる。 予測脱分極パターンは, 心電気生理学的モデルにより計算された活性化時間とよく一致し, 複雑な傷痕と境界領域形態を有する5つのブタ心筋ジオメトリーの検証セットである。 平均絶対誤差は500以上の非分極パターンにおいて、心内基底真理の50\%を提供する際、心筋全体の8msを計測する。 さらに、高密度電気解剖学的マッピングデータを用いた完全な動物データセットを基準として、入力特徴として少数の測定値が提供される場合(入力サンプルの50倍%に対して7msの絶対誤差)、ニューラルネットワークは、心内膜脱分極パターンを正確に再現することができる。 その結果,合成データに基づいて学習した提案手法は,実データに一般化可能であることがわかった。

Electroanatomic mapping as routinely acquired in ablation therapy of ventricular tachycardia is the gold standard method to identify the arrhythmogenic substrate. To reduce the acquisition time and still provide maps with high spatial resolution, we propose a novel deep learning method based on graph convolutional neural networks to estimate the depolarization time in the myocardium, given sparse catheter data on the left ventricular endocardium, ECG, and magnetic resonance images. The training set consists of data produced by a computational model of cardiac electrophysiology on a large cohort of synthetically generated geometries of ischemic hearts. The predicted depolarization pattern has good agreement with activation times computed by the cardiac electrophysiology model in a validation set of five swine heart geometries with complex scar and border zone morphologies. The mean absolute error hereby measures 8 ms on the entire myocardium when providing 50\% of the endocardial ground truth in over 500 computed depolarization patterns. Furthermore, when considering a complete animal data set with high density electroanatomic mapping data as reference, the neural network can accurately reproduce the endocardial depolarization pattern, even when a small percentage of measurements are provided as input features (mean absolute error of 7 ms with 50\% of input samples). The results show that the proposed method, trained on synthetically generated data, may generalize to real data.
翻訳日:2022-10-13 22:48:57 公開日:2020-09-28
# ラマン分光法を応用した高出力分子イメージング

High-throughput molecular imaging via deep learning enabled Raman spectroscopy ( http://arxiv.org/abs/2009.13318v1 )

ライセンス: Link先を確認
Conor C. Horgan, Magnus Jensen, Anika Nagelkerke, Jean-Phillipe St-Pierre, Tom Vercauteren, Molly M. Stevens, Mads S. Bergholt(参考訳) ラマン分光法は、前例のない分子コントラストを持つ非破壊的なラベルなしイメージングを可能にするが、低速なデータ取得によって制限される。 本稿では,超スペクトルラマン画像の大規模データセット上で,150万以上のスペクトル(取得時間400時間)を持つラーマン分光法を用いて,ディープラーニングによる高スループット分子イメージングのための包括的枠組みを提案する。 まず,低信号対雑音比ラマン分子シグネチャを深層学習により同定・再構成し,最先端ラマンフィルタ法と比較して平均2乗誤差を9倍改善した。 次に,分子セル情報を保存する超スペクトルラマン画像のロバスト2-4x超解像のためのニューラルネットワークを開発した。 これらの手法を組み合わせることで,ラマン撮像速度を160倍まで向上させ,高分解能・高信号対雑音比セルイメージングを1分以内で実現する。 最後に、DeepeRを細胞から組織スケールイメージングに拡張するために転写学習を適用する。 DeepeRは、バイオメディシン全体にわたる高出力ラマン分光と分子イメージングアプリケーションをホストできる基盤を提供する。

Raman spectroscopy enables non-destructive, label-free imaging with unprecedented molecular contrast but is limited by slow data acquisition, largely preventing high-throughput imaging applications. Here, we present a comprehensive framework for higher-throughput molecular imaging via deep learning enabled Raman spectroscopy, termed DeepeR, trained on a large dataset of hyperspectral Raman images, with over 1.5 million spectra (400 hours of acquisition) in total. We firstly perform denoising and reconstruction of low signal-to-noise ratio Raman molecular signatures via deep learning, with a 9x improvement in mean squared error over state-of-the-art Raman filtering methods. Next, we develop a neural network for robust 2-4x super-resolution of hyperspectral Raman images that preserves molecular cellular information. Combining these approaches, we achieve Raman imaging speed-ups of up to 160x, enabling high resolution, high signal-to-noise ratio cellular imaging in under one minute. Finally, transfer learning is applied to extend DeepeR from cell to tissue-scale imaging. DeepeR provides a foundation that will enable a host of higher-throughput Raman spectroscopy and molecular imaging applications across biomedicine.
翻訳日:2022-10-13 22:44:16 公開日:2020-09-28
# スマート駐車管理システム

The Smart Parking Management System ( http://arxiv.org/abs/2009.13443v1 )

ライセンス: Link先を確認
Amira. A. Elsonbaty and Mahmoud Shams(参考訳) 自動車利用者の増加に伴い、自動車の駐車数は増加する。 スマートフォンとそのアプリケーションの利用が増えるにつれて、ユーザは携帯電話ベースのソリューションを好む。 本稿では,Arduino部品やAndroidアプリケーションに依存し,IoTに基づくスマートパーキング管理システム(SPMS)を提案する。 これにより、顧客は利用可能な駐車スペースをチェックし、駐車場を予約できる。 IRセンサーは、駐車場スペースが許可されているかどうかを知るために使用される。 そのエリアデータは、WI-FIモジュールを使用してサーバに送信され、多くのオプションを魅力的に提供し、ユーザが予約の詳細をチェックできるようにするモバイルアプリケーションによって回収される。 IoT技術により、スマートパーキングシステムはワイヤレスで接続でき、利用可能な場所を容易に追跡できる。

With growing, Car parking increases with the number of car users. With the increased use of smartphones and their applications, users prefer mobile phone-based solutions. This paper proposes the Smart Parking Management System (SPMS) that depends on Arduino parts, Android applications, and based on IoT. This gave the client the ability to check available parking spaces and reserve a parking spot. IR sensors are utilized to know if a car park space is allowed. Its area data are transmitted using the WI-FI module to the server and are recovered by the mobile application which offers many options attractively and with no cost to users and lets the user check reservation details. With IoT technology, the smart parking system can be connected wirelessly to easily track available locations.
翻訳日:2022-10-13 22:43:33 公開日:2020-09-28
# 学習機械を用いたグローバルダイナミクスの推論

Inferring Global Dynamics Using a Learning Machine ( http://arxiv.org/abs/2009.13032v1 )

ライセンス: Link先を確認
Hong Zhao(参考訳) パラメータ値の特定のセットにおけるシステムの時系列のセグメントが与えられたら、そのパラメータ空間におけるシステムのグローバルな振る舞いを推測できるだろうか? ここでは,学習機械を用いることで,ある程度の目標を達成できることを示す。 単調にコスト関数を減少させる適切なトレーニング戦略に従って、異なるトレーニング段階の学習機は異なるパラメータセットでシステムを模倣することができる。 その結果、システムの大域的な力学特性は、通常単純から複雑な順序で明かされる。 基本的なメカニズムはトレーニング戦略によるもので、学習機を時系列の背後にあるシステムの定性的に等価なシステムへと崩壊させる。 このように、学習機械は、運動方程式を人工的に確立することなく、ブラックボックスシステムの大域的な力学特性を調べる新しい方法を開く。 例えば、低次元非線形力学系の代表モデルと反応拡散系の時空間モデルがある。

Given a segment of time series of a system at a particular set of parameter values, can one infers the global behavior of the system in its parameter space? Here we show that by using a learning machine we can achieve such a goal to a certain extent. It is found that following an appropriate training strategy that monotonously decreases the cost function, the learning machine in different training stage can mimic the system at different parameter set. Consequently, the global dynamical properties of the system is subsequently revealed, usually in the simple-to-complex order. The underlying mechanism is attributed to the training strategy, which causes the learning machine to collapse to a qualitatively equivalent system of the system behind the time series. Thus, the learning machine opens up a novel way to probe the global dynamical properties of a black-box system without artificially establish the equations of motion. The given illustrating examples include a representative model of low-dimensional nonlinear dynamical systems and a spatiotemporal model of reaction-diffusion systems.
翻訳日:2022-10-13 22:43:16 公開日:2020-09-28
# エッジで学ぶためにコミュニケーションする

Communicate to Learn at the Edge ( http://arxiv.org/abs/2009.13269v1 )

ライセンス: Link先を確認
Deniz Gunduz, David Burth Kurka, Mikolaj Jankowski, Mohammad Mohammadi Amiri, Emre Ozfatura, and Sreejith Sreekumar(参考訳) 現代の機械学習(ml)技術をモバイルデバイスに導入することで、多くの新しいサービスやビジネスが可能になるが、技術的および研究上の大きな課題もある。 mlアルゴリズムの成功に不可欠である2つの要因は、大量のデータと処理能力である。 さらに、エッジデバイスは、ノイズ、時間変化、干渉に苦しむ帯域幅と電力制限の無線リンクを介して接続される。 情報と符号化理論は、現代の無線ネットワークにおける応用が大きな成功を収めたチャネル不完全性の存在下で、信頼性と効率のよい通信の基礎を築いた。 しかし、現在の符号化と通信方式と、ネットワークエッジにデプロイされるMLアルゴリズムとの間には明確な断線がある。 本稿では,これらの問題を別々に扱う現在のアプローチに挑戦し,エッジ学習の学習段階と推論段階の両方において,共同コミュニケーションと学習のパラダイムを論じる。

Bringing the success of modern machine learning (ML) techniques to mobile devices can enable many new services and businesses, but also poses significant technical and research challenges. Two factors that are critical for the success of ML algorithms are massive amounts of data and processing power, both of which are plentiful, yet highly distributed at the network edge. Moreover, edge devices are connected through bandwidth- and power-limited wireless links that suffer from noise, time-variations, and interference. Information and coding theory have laid the foundations of reliable and efficient communications in the presence of channel imperfections, whose application in modern wireless networks have been a tremendous success. However, there is a clear disconnect between the current coding and communication schemes, and the ML algorithms deployed at the network edge. In this paper, we challenge the current approach that treats these problems separately, and argue for a joint communication and learning paradigm for both the training and inference stages of edge learning.
翻訳日:2022-10-13 22:42:59 公開日:2020-09-28
# バイオサイバDNAストレージシステムにおける脅威検出のための機械学習アプローチ

A Machine Learning-based Approach to Detect Threats in Bio-Cyber DNA Storage Systems ( http://arxiv.org/abs/2009.13380v1 )

ライセンス: Link先を確認
Federico Tavella, Alberto Giaretta, Mauro Conti, Sasitharan Balasubramaniam(参考訳) データストレージは今世紀の主要なコンピューティング問題の一つだ。 ストレージデバイスは厳格な物理的制限に収束しているだけでなく、ユーザが生成するデータの量は信じられないほど増加している。 これらの課題に対処するため、過去数十年にわたってデータセンターは絶えず成長した。 しかし、この成長には、特に環境の観点から、価格が伴う。 様々な有望なメディアの中で、DNAは最も魅力的な候補の1つである。 先程の研究では,生物工学的細菌を用いてDNAにエンコードされたデータの保存と検索を行う自動アーカイブアーキテクチャを提案する。 このストレージ技術は、バイオメディアが効率の良いストレージソリューションを提供する方法の例である。 これらの生物学的メディアと古典的メディアの類似性もまた欠点であり、悪意ある当事者は生物学的手段や技術を用いて、旧来のアーカイブシステムに対する伝統的な攻撃を複製する可能性がある。 本稿では,まずストレージシステムの主な特徴と,それ上で実行可能なさまざまな種類の攻撃について分析する。 次に,現在進行中のアタックを識別することを目的として,従来のメトリクスや機械学習アルゴリズムに依存する検出手法を提案し,評価する。 この目的のために, 一般化エントロピーと情報距離という2つの適切な指標を特定し, 適用する。 さらに,AUROCを0.99以上,AUPRCを0.91以上とした。

Data storage is one of the main computing issues of this century. Not only storage devices are converging to strict physical limits, but also the amount of data generated by users is growing at an unbelievable rate. To face these challenges, data centres grew constantly over the past decades. However, this growth comes with a price, particularly from the environmental point of view. Among various promising media, DNA is one of the most fascinating candidate. In our previous work, we have proposed an automated archival architecture which uses bioengineered bacteria to store and retrieve data, previously encoded into DNA. This storage technique is one example of how biological media can deliver power-efficient storing solutions. The similarities between these biological media and classical ones can also be a drawback, as malicious parties might replicate traditional attacks on the former archival system, using biological instruments and techniques. In this paper, first we analyse the main characteristics of our storage system and the different types of attacks that could be executed on it. Then, aiming at identifying on-going attacks, we propose and evaluate detection techniques, which rely on traditional metrics and machine learning algorithms. We identify and adapt two suitable metrics for this purpose, namely generalized entropy and information distance. Moreover, our trained models achieve an AUROC over 0.99 and AUPRC over 0.91.
翻訳日:2022-10-13 22:42:43 公開日:2020-09-28
# Siamese Capsule Network for End-to-End Speaker Recognition in the Wild

Siamese Capsule Network for End-to-End Speaker Recognition In The Wild ( http://arxiv.org/abs/2009.13480v1 )

ライセンス: Link先を確認
Amirhossein Hajavi, Ali Etemad(参考訳) 本研究では,野生における話者検証のためのエンドツーエンドのディープモデルを提案する。 本モデルでは,音声から話者の埋め込みを抽出し,siameseカプセルネットワークと動的ルーティングをバックエンドとして利用し,類似度スコアを算出した。 我々は,我々のモデルを最先端ソリューションと比較した一連の実験を行い,トレーニングデータ量を大幅に削減することで,モデルが他のすべてのモデルを上回ることを示した。 また、シームズカプセルネットワークにおける異なる話者埋め込みの影響を研究するための追加実験を行った。 本稿では,フロントエンドの機能集約モジュールから直接取得した埋め込みを動的ルーティングを用いて高カプセルに渡すことで,最高の性能を実現することを示す。

We propose an end-to-end deep model for speaker verification in the wild. Our model uses thin-ResNet for extracting speaker embeddings from utterances and a Siamese capsule network and dynamic routing as the Back-end to calculate a similarity score between the embeddings. We conduct a series of experiments and comparisons on our model to state-of-the-art solutions, showing that our model outperforms all the other models using substantially less amount of training data. We also perform additional experiments to study the impact of different speaker embeddings on the Siamese capsule network. We show that the best performance is achieved by using embeddings obtained directly from the feature aggregation module of the Front-end and passing them to higher capsules using dynamic routing.
翻訳日:2022-10-13 22:42:04 公開日:2020-09-28
# シャッフルモデルのラウンド複素性について

On the Round Complexity of the Shuffle Model ( http://arxiv.org/abs/2009.13510v1 )

ライセンス: Link先を確認
Amos Beimel, Iftach Haitner, Kobbi Nissim, Uri Stemmer(参考訳) 分散微分プライベート計算の実行可能なモデルとして、微分プライバシのシャッフルモデルが提案された。 形式的には、モデルは信頼できないアナライザで構成されており、参加者からシャッフル機能を介してメッセージを受け取り、後者は送信者からのメッセージを解離する可能性がある。 先行研究は1ラウンドの差分プライベートシャッフルモデルプロトコルに焦点をあて、完全信頼の当事者が計算を行う差分プライバシーのキュレーターモデルと同様の精度で、加算やヒストグラムのような関数をこのモデルで実行できることを実証した。 シャッフルモデルのラウンド複雑性に着目し,2ラウンドの差分プライバシのシャッフルモデルに何が計算できるのかを本研究で問う。 Ishaiら。 FOCS 2006]は、2つのパーティ間で秘密鍵を確立するためにシャッフルの1ラウンドの使用方法を示した。 一般的なセキュアなマルチパーティプロトコルをシミュレートするためにこのプリミティブを使用すると、ラウンドの複雑さが1つ増える。 2つのパーティがシャッフルの1ラウンドを使って秘密のメッセージを送る方法を示します。 このプリミティブとApplebaunらの2ラウンド半正直なプロトコルを組み合わせる。 [TCC 2018]では、ランダム化された全ての機能は、正直な多数派を持つシャッフルモデルで、わずか2ラウンドで計算できる。 これには微分プライベートな計算が含まれる。 次にシャッフルモデルにおける微分プライベート計算について検討する。 (i)正直な多数派を仮定する必要はない。 (二)正直な多数派であっても一括のプロトコルは認めない。 そのため,1ラウンドプロトコルと2ラウンドプロトコルの分離を示す共通要素問題とネスト共通要素問題という2つの計算タスクを導入する。

The shuffle model of differential privacy was proposed as a viable model for performing distributed differentially private computations. Informally, the model consists of an untrusted analyzer that receives messages sent by participating parties via a shuffle functionality, the latter potentially disassociates messages from their senders. Prior work focused on one-round differentially private shuffle model protocols, demonstrating that functionalities such as addition and histograms can be performed in this model with accuracy levels similar to that of the curator model of differential privacy, where the computation is performed by a fully trusted party. Focusing on the round complexity of the shuffle model, we ask in this work what can be computed in the shuffle model of differential privacy with two rounds. Ishai et al. [FOCS 2006] showed how to use one round of the shuffle to establish secret keys between every two parties. Using this primitive to simulate a general secure multi-party protocol increases its round complexity by one. We show how two parties can use one round of the shuffle to send secret messages without having to first establish a secret key, hence retaining round complexity. Combining this primitive with the two-round semi-honest protocol of Applebaun et al. [TCC 2018], we obtain that every randomized functionality can be computed in the shuffle model with an honest majority, in merely two rounds. This includes any differentially private computation. We then move to examine differentially private computations in the shuffle model that (i) do not require the assumption of an honest majority, or (ii) do not admit one-round protocols, even with an honest majority. For that, we introduce two computational tasks: the common-element problem and the nested-common-element problem, for which we show separations between one-round and two-round protocols.
翻訳日:2022-10-13 22:41:50 公開日:2020-09-28
# 大きな加算誤差をもつ差分プライベートクラスタリングに関する一考察

A note on differentially private clustering with large additive error ( http://arxiv.org/abs/2009.13317v1 )

ライセンス: Link先を確認
Huy L. Nguyen(参考訳) 本稿では, k-clustering の微分プライベートなアルゴリズムを, 大多項式加法誤差を犠牲にして, 任意の非プライベートなアルゴリズムとほぼ同じ乗法係数で求める方法について述べる。 このアプローチは、プライバシーを考慮した単純な幾何学的観察と、一定の近似を持つ既存のプライベートアルゴリズムの組み合わせである。

In this note, we describe a simple approach to obtain a differentially private algorithm for k-clustering with nearly the same multiplicative factor as any non-private counterpart at the cost of a large polynomial additive error. The approach is the combination of a simple geometric observation independent of privacy consideration and any existing private algorithm with a constant approximation.
翻訳日:2022-10-13 22:33:49 公開日:2020-09-28
# ソフト・ディエンタングル・レートレスオートエンコーダを用いた普遍的生理表現学習

Universal Physiological Representation Learning with Soft-Disentangled Rateless Autoencoders ( http://arxiv.org/abs/2009.13453v1 )

ライセンス: Link先を確認
Mo Han, Ozan Ozdenizci, Toshiaki Koike-Akino, Ye Wang, Deniz Erdogmus(参考訳) ヒューマン・コンピュータ・インタラクション(HCI)は、ユーザの生理的状態を監視することによって外部機器の制御を達成できる技術が多分野融合される。 しかしながら、生理的バイオシグナーは、不安定な身体的/精神的状態とタスク非関連活動のために、ユーザや録音セッションによって異なることが多い。 この課題に対処するために,不整合,ニュアンス・ロバスト,普遍表現を活用するために,RAE(Rateless Autoencoder)の概念を用いた対角的特徴符号化手法を提案する。 本稿では,潜在表現の確率的不整合を利用して,ユーザ固有の特徴とタスク関連特徴との良好なトレードオフを実現する。 提案モデルは、未知のユーザやタスクの幅広い範囲、および異なる分類器に適用可能である。 クロスオブジェクト転送評価の結果、提案手法の利点が示され、平均被写体移動分類精度は最大11.6%向上した。

Human computer interaction (HCI) involves a multidisciplinary fusion of technologies, through which the control of external devices could be achieved by monitoring physiological status of users. However, physiological biosignals often vary across users and recording sessions due to unstable physical/mental conditions and task-irrelevant activities. To deal with this challenge, we propose a method of adversarial feature encoding with the concept of a Rateless Autoencoder (RAE), in order to exploit disentangled, nuisance-robust, and universal representations. We achieve a good trade-off between user-specific and task-relevant features by making use of the stochastic disentanglement of the latent representations by adopting additional adversarial networks. The proposed model is applicable to a wider range of unknown users and tasks as well as different classifiers. Results on cross-subject transfer evaluations show the advantages of the proposed framework, with up to an 11.6% improvement in the average subject-transfer classification accuracy.
翻訳日:2022-10-13 22:33:24 公開日:2020-09-28
# サービングenodebを用いた深層学習に基づくシンボリック屋内位置決め

Deep Learning-based Symbolic Indoor Positioning using the Serving eNodeB ( http://arxiv.org/abs/2009.13675v1 )

ライセンス: Link先を確認
Fahad Alhomayani and Mohammad Mahoor(参考訳) 本稿では,住宅を対象とした屋内位置決め手法を提案する。 提案手法では,特定の位置決めインフラストラクチャを必要とせず,サービングenodebから発するセル信号を利用する。 さらに、Denoising Autoencoderを使用して、細胞シグナル損失の影響を軽減する。 提案手法は, 2台の異なるスマートフォンから収集した実世界データを用いて, 8つの象徴空間の代表的なアパート内で評価した。 実験により,提案手法が従来の室内位置決め手法を各種性能指標で上回ることを確認した。 再現性の向上と新たな研究の推進を目的として,本研究に関連するすべてのデータとコードを公開した。

This paper presents a novel indoor positioning method designed for residential apartments. The proposed method makes use of cellular signals emitting from a serving eNodeB which eliminates the need for specialized positioning infrastructure. Additionally, it utilizes Denoising Autoencoders to mitigate the effects of cellular signal loss. We evaluated the proposed method using real-world data collected from two different smartphones inside a representative apartment of eight symbolic spaces. Experimental results verify that the proposed method outperforms conventional symbolic indoor positioning techniques in various performance metrics. To promote reproducibility and foster new research efforts, we made all the data and codes associated with this work publicly available.
翻訳日:2022-10-13 22:33:01 公開日:2020-09-28
# ベクトルマッチングを用いたスパースデータに基づく3次元表面再構成

Sparse-data based 3D surface reconstruction with vector matching ( http://arxiv.org/abs/2009.12994v1 )

ライセンス: Link先を確認
Bin Wu, Xue-Cheng Tai, and Talal Rahman(参考訳) 本論文では, 2次元スパース情報に基づく3次元表面再構成について, 構造的および非構造的ジオメトリを含む, 適度に複雑な構造を有する表面の少量の水平線のみを用いて検討する。 正規ベクトルマッチングと第1次および第2次全変分正規化器を組み合わせた新しいモデルが提案されている。 拡張ラグランジアンに基づく高速アルゴリズムも提案されている。 合成および実世界のデジタルマップの詳細な特徴と複雑な構造を持つ表面の再構成におけるモデルとアルゴリズムの有効性を示す数値実験を行った。

Three dimensional surface reconstruction based on two dimensional sparse information in the form of only a small number of level lines of the surface with moderately complex structures, containing both structured and unstructured geometries, is considered in this paper. A new model has been proposed which is based on the idea of using normal vector matching combined with a first order and a second order total variation regularizers. A fast algorithm based on the augmented Lagrangian is also proposed. Numerical experiments are provided showing the effectiveness of the model and the algorithm in reconstructing surfaces with detailed features and complex structures for both synthetic and real world digital maps.
翻訳日:2022-10-13 22:32:51 公開日:2020-09-28
# Cuid:知覚的画質と主観的評価に関する新しい研究

Cuid: A new study of perceived image quality and its subjective assessment ( http://arxiv.org/abs/2009.13304v1 )

ライセンス: Link先を確認
Lucie L\'ev\^eque (UNIV GUSTAVE EIFFEL), Ji Yang, Xiaohan Yang, Pengfei Guo, Kenneth Dasalla, Leida Li, Yingying Wu, Hantao Liu(参考訳) 画像品質評価(IQA)の研究は、人間の視覚知覚に関する不完全な知識が主な原因である。 既存のIQAアルゴリズムは、少ない刺激変動率の主観的データで設計または訓練されている。 このことが、現実世界のデジタルコンテンツの複雑さと多様性を扱うアルゴリズムの課題につながった。 人間の被験者による知覚的証拠は、高度なIQAアルゴリズムの開発の基礎となる。 したがって、視覚信号の歪みに対する人間の行動応答を忠実に反映する制御された知覚実験を用いて、信頼できる主観的データを得ることが重要である。 本稿では,制御された実験室環境において主観評価が収集される画質知覚に関する新しい研究を行う。 画像の異なるカテゴリと異なるタイプと歪みのレベルの組み合わせによって、品質知覚がどのように影響を受けるかを検討する。 このデータベースはIQAアルゴリズムの校正と検証を容易にするために公開されている。

Research on image quality assessment (IQA) remains limited mainly due to our incomplete knowledge about human visual perception. Existing IQA algorithms have been designed or trained with insufficient subjective data with a small degree of stimulus variability. This has led to challenges for those algorithms to handle complexity and diversity of real-world digital content. Perceptual evidence from human subjects serves as a grounding for the development of advanced IQA algorithms. It is thus critical to acquire reliable subjective data with controlled perception experiments that faithfully reflect human behavioural responses to distortions in visual signals. In this paper, we present a new study of image quality perception where subjective ratings were collected in a controlled lab environment. We investigate how quality perception is affected by a combination of different categories of images and different types and levels of distortions. The database will be made publicly available to facilitate calibration and validation of IQA algorithms.
翻訳日:2022-10-13 22:32:40 公開日:2020-09-28
# 深層学習のための個別公平度尺度を目指して

Towards a Measure of Individual Fairness for Deep Learning ( http://arxiv.org/abs/2009.13650v1 )

ライセンス: Link先を確認
Krystal Maughan, Joseph P. Near(参考訳) ディープラーニングは人工知能に大きな進歩をもたらしたが、トレーニングされたニューラルネットワークはトレーニングデータにバイアスを反映し、増幅することが多く、不公平な予測をもたらす。 本稿では,特定の予測が保護属性に依存する程度を近似する,予測感度という,個人的公正性の新たな尺度を提案する。 本稿では,最新のディープラーニングフレームワークにおける標準自動微分機能を用いて予測感度を計算する方法を示し,予測感度が個人予測のバイアス測定に有効であることを示す予備実験結果を示す。

Deep learning has produced big advances in artificial intelligence, but trained neural networks often reflect and amplify bias in their training data, and thus produce unfair predictions. We propose a novel measure of individual fairness, called prediction sensitivity, that approximates the extent to which a particular prediction is dependent on a protected attribute. We show how to compute prediction sensitivity using standard automatic differentiation capabilities present in modern deep learning frameworks, and present preliminary empirical results suggesting that prediction sensitivity may be effective for measuring bias in individual predictions.
翻訳日:2022-10-13 22:26:26 公開日:2020-09-28
# 黄斑光コヒーレンス・トモグラフィーによる緑内障進展予測のための条件付きGAN

Conditional GAN for Prediction of Glaucoma Progression with Macular Optical Coherence Tomography ( http://arxiv.org/abs/2010.04552v1 )

ライセンス: Link先を確認
Osama N. Hassan, Serhat Sahin, Vahid Mohammadzadeh, Xiaohe Yang, Navid Amini, Apoorva Mylavarapu, Jack Martinyan, Tae Hong, Golnoush Mahmoudinezhad, Daniel Rueckert, Kouros Nouri-Mahdavi, and Fabien Scalzo(参考訳) 緑内障の進行率の推定は、測定のばらつきや標準化の欠如といった他の要因に加えて、疾患進行率が個人によって異なるため、難しい課題である。 光コヒーレンストモグラフィ(oct)による網膜神経線維層や黄斑の厚さ測定などの構造検査は、緑内障眼の解剖学的変化を検出することができる。 このような変化は機能的な損傷の前に観測することができる。 本研究では,条件付きganアーキテクチャを用いた生成的深層学習モデルを構築し,緑内障進展の予測を行った。 患者のOCTスキャンは3~2回の先行測定から予測される。 予測画像は、地上の真理画像と高い類似性を示す。 さらに, 来院2回だけで得られたOCTスキャンは, 6カ月後に次のOCTスキャンを予測するのに十分である可能性が示唆された。

The estimation of glaucoma progression is a challenging task as the rate of disease progression varies among individuals in addition to other factors such as measurement variability and the lack of standardization in defining progression. Structural tests, such as thickness measurements of the retinal nerve fiber layer or the macula with optical coherence tomography (OCT), are able to detect anatomical changes in glaucomatous eyes. Such changes may be observed before any functional damage. In this work, we built a generative deep learning model using the conditional GAN architecture to predict glaucoma progression over time. The patient's OCT scan is predicted from three or two prior measurements. The predicted images demonstrate high similarity with the ground truth images. In addition, our results suggest that OCT scans obtained from only two prior visits may actually be sufficient to predict the next OCT scan of the patient after six months.
翻訳日:2022-10-13 22:26:16 公開日:2020-09-28
# 多施設共同深層学習による膵臓分節の自動作成

Automated Pancreas Segmentation Using Multi-institutional Collaborative Deep Learning ( http://arxiv.org/abs/2009.13148v1 )

ライセンス: Link先を確認
Pochuan Wang, Chen Shen, Holger R. Roth, Dong Yang, Daguang Xu, Masahiro Oda, Kazunari Misawa, Po-Ting Chen, Kao-Lang Liu, Wei-Chih Liao, Weichung Wang, Kensaku Mori(参考訳) ディープラーニングベースの手法のパフォーマンスは、トレーニングに使用するデータセットの数に大きく依存する。 医療画像解析分野のデータを増やすために多くの努力がなされている。 しかし、写真画像とは異なり、多くの技術的、法的、プライバシー上の問題のために、医療画像を集める集中データベースを生成するのは難しい。 本研究では、実世界における2つの機関間の連携学習を用いて、国境を越えて生データを共有せずにモデルを協調訓練する。 フェデレーション学習と局所訓練のみで得られたセグメンテーションモデルを定量的に比較した。 実験の結果,フェデレーション学習モデルはスタンドアロン学習よりも一般化性が高いことがわかった。

The performance of deep learning-based methods strongly relies on the number of datasets used for training. Many efforts have been made to increase the data in the medical image analysis field. However, unlike photography images, it is hard to generate centralized databases to collect medical images because of numerous technical, legal, and privacy issues. In this work, we study the use of federated learning between two institutions in a real-world setting to collaboratively train a model without sharing the raw data across national boundaries. We quantitatively compare the segmentation models obtained with federated learning and local training alone. Our experimental results show that federated learning models have higher generalizability than standalone training.
翻訳日:2022-10-13 22:25:18 公開日:2020-09-28
# 時間依存型脳グラフデータ合成のためのDeep EvoGraphNetアーキテクチャ

Deep EvoGraphNet Architecture For Time-Dependent Brain Graph Data Synthesis From a Single Timepoint ( http://arxiv.org/abs/2009.13217v1 )

ライセンス: Link先を確認
Ahmed Nebli, Ugur Ali Kaplan and Islem Rekik(参考訳) 脳のコネクトーム(すなわち、グラフ)の発達と老化の予測の仕方を学ぶことは、脳のディコネクティビティ進化の内外および横断的な風景のグラフ化において最重要となる。 実際、経時的(つまり時間に依存した)脳のジスコネクチビティが1つの時点から出現し、進化するにつれて予測することは、障害のある患者のパーソナライズされた治療を非常に早い段階で設計するのに役立ちます。 その重要性にもかかわらず、脳グラフの進化モデルはほとんど文献で見過ごされている。 本稿では,1つの時間点から時間依存性の脳グラフの進化を予測するための,幾何学的深層学習によるグラフ生成対向ネットワーク(gGAN)であるEvoGraphNetを提案する。 私たちのEvoGraphNetアーキテクチャは、時間依存のgGANをカスケードし、それぞれのgGANが予測された脳グラフを特定の時間ポイントで通信し、フォローアップタイムポイントで次のgGANをトレーニングします。 従って、各ジェネレータの出力をその後継の入力として設定することで、次の予測タイムポイントを得ることができ、エンドツーエンドで1つのタイムポイントのみを使用して、所定の回数のタイムポイントを予測できる。 各時点において、予測された脳グラフの分布と地絡グラフの分布をよりよく整合させるため、補助的なKullback-Leibler分散損失関数を統合する。 2つの連続した観測間の時間依存性を捉えるため、2つの連続した脳グラフ間のスパース距離を最小化するためにl1ロスを課した。 EvoGraphNetの変種と短縮バージョンに対する一連のベンチマークでは、単一のベースラインタイムポイントを使用して、最小の脳グラフ進化予測誤差を達成できることが示されている。 私たちのEvoGraphNetコードはhttp://github.com/basiralab/EvoGraphNetで利用可能です。

Learning how to predict the brain connectome (i.e. graph) development and aging is of paramount importance for charting the future of within-disorder and cross-disorder landscape of brain dysconnectivity evolution. Indeed, predicting the longitudinal (i.e., time-dependent ) brain dysconnectivity as it emerges and evolves over time from a single timepoint can help design personalized treatments for disordered patients in a very early stage. Despite its significance, evolution models of the brain graph are largely overlooked in the literature. Here, we propose EvoGraphNet, the first end-to-end geometric deep learning-powered graph-generative adversarial network (gGAN) for predicting time-dependent brain graph evolution from a single timepoint. Our EvoGraphNet architecture cascades a set of time-dependent gGANs, where each gGAN communicates its predicted brain graphs at a particular timepoint to train the next gGAN in the cascade at follow-up timepoint. Therefore, we obtain each next predicted timepoint by setting the output of each generator as the input of its successor which enables us to predict a given number of timepoints using only one single timepoint in an end- to-end fashion. At each timepoint, to better align the distribution of the predicted brain graphs with that of the ground-truth graphs, we further integrate an auxiliary Kullback-Leibler divergence loss function. To capture time-dependency between two consecutive observations, we impose an l1 loss to minimize the sparse distance between two serialized brain graphs. A series of benchmarks against variants and ablated versions of our EvoGraphNet showed that we can achieve the lowest brain graph evolution prediction error using a single baseline timepoint. Our EvoGraphNet code is available at http://github.com/basiralab/EvoGraphNet.
翻訳日:2022-10-13 22:24:37 公開日:2020-09-28
# マルチモーダル3次元U-Netを用いた完全自動椎間板分割

Fully Automatic Intervertebral Disc Segmentation Using Multimodal 3D U-Net ( http://arxiv.org/abs/2009.13583v1 )

ライセンス: Link先を確認
Chuanbo Wang, Ye Guo, Wei Chen, Zeyun Yu(参考訳) 椎間板 (IVDs) は, 隣接する椎間の小さな関節として, 圧緩衝や組織保護に重要な役割を果たしている。 IVDの完全自動局在とセグメンテーションは、疾患の診断と治療における定量的パラメータの提供に不可欠であるため、長年にわたって文献で議論されてきた。 伝統的に手作りの特徴は、画像強度と、IVDのローカライズとセグメント化に先立つ形状に基づいて導出される。 ディープラーニングの進歩により、さまざまなニューラルネットワークモデルが、椎間板の認識を含む画像解析で大きな成功を収めている。 特にu-netは、比較的少ないトレーニングデータを持つ生体画像において優れた性能を持つため、他のアプローチで際立っている。 本稿では,多モードMRI画像からIVDを分割する3次元U-Netに基づく新しい畳み込みフレームワークを提案する。 まず,椎間板の中心を各椎間板にローカライズし,その後,ローカライズした椎間板を中心とした切り抜かれた小体積に基づいてネットワークを訓練する。 マルチモーダルの様々な組み合わせによる結果の包括的分析について述べる。 さらに,拡張および非拡張データセットを用いた2次元および3次元U-Net実験を行い,Dice係数とハウスドルフ距離の比較を行った。 本手法は,89.0%の平均セグメンテーション係数と標準偏差1.4%で有効であることが証明された。

Intervertebral discs (IVDs), as small joints lying between adjacent vertebrae, have played an important role in pressure buffering and tissue protection. The fully-automatic localization and segmentation of IVDs have been discussed in the literature for many years since they are crucial to spine disease diagnosis and provide quantitative parameters in the treatment. Traditionally hand-crafted features are derived based on image intensities and shape priors to localize and segment IVDs. With the advance of deep learning, various neural network models have gained great success in image analysis including the recognition of intervertebral discs. Particularly, U-Net stands out among other approaches due to its outstanding performance on biomedical images with a relatively small set of training data. This paper proposes a novel convolutional framework based on 3D U-Net to segment IVDs from multi-modality MRI images. We first localize the centers of intervertebral discs in each spine sample and then train the network based on the cropped small volumes centered at the localized intervertebral discs. A detailed comprehensive analysis of the results using various combinations of multi-modalities is presented. Furthermore, experiments conducted on 2D and 3D U-Nets with augmented and non-augmented datasets are demonstrated and compared in terms of Dice coefficient and Hausdorff distance. Our method has proved to be effective with a mean segmentation Dice coefficient of 89.0% and a standard deviation of 1.4%.
翻訳日:2022-10-13 22:23:58 公開日:2020-09-28
# RS-MetaNet:数ショットリモートセンシングシーン分類のための深層メタメトリック学習

RS-MetaNet: Deep meta metric learning for few-shot remote sensing scene classification ( http://arxiv.org/abs/2009.13364v1 )

ライセンス: Link先を確認
Haifeng Li, Zhenqi Cui, Zhiqing Zhu, Li Chen, Jiawei Zhu, Haozhe Huang, Chao Tao(参考訳) 大規模ラベル付きサンプルで最新のディープニューラルネットワークをトレーニングすることは、リモートセンシングのシーン分類問題を解決する主なパラダイムであるが、ほんの数データポイントから学ぶことは依然として課題である。 既設のマイナショットリモートセンシングシーン分類手法をサンプルレベルで実施し、個々のサンプルへの学習特徴のオーバーフィットを容易にし、学習したカテゴリセグメンテーション面の不適切な一般化を実現する。 この問題を解決するためには、学習をサンプルレベルではなくタスクレベルで整理する必要がある。 タスクファミリからサンプリングされたタスクの学習は、そのファミリーでサンプリングされた新しいタスクでうまく機能するように学習アルゴリズムをチューニングするのに役立ちます。 そこで本研究では,実世界における数発のリモートセンシングシーン分類に関わる問題を解決するため,RS-MetaNetと呼ばれるシンプルで効果的な手法を提案する。 一方、RS-MetaNetは、メタ方法でトレーニングを組織することで、サンプルからタスクへの学習レベルを高め、一連のタスクからリモートセンシングシーンを適切に分類できるメトリクス空間を学習する。 また,各カテゴリ間の距離を最大化し,モデル適合性を確保しつつ,異なるカテゴリのシーンにより良い線形セグメンテーション平面を与えることで,モデルの新たなサンプルへの一般化能力を最大化する「バランス損失関数」を提案する。 UCMerced\_LandUse,NWPU-RESISC45,Aerial Image Dataの3つのオープンかつ挑戦的なリモートセンシングデータセットに対する実験結果から,提案手法が1~20個のラベル付きサンプルしか存在しない場合に,最先端の結果が得られることを示した。

Training a modern deep neural network on massive labeled samples is the main paradigm in solving the scene classification problem for remote sensing, but learning from only a few data points remains a challenge. Existing methods for few-shot remote sensing scene classification are performed in a sample-level manner, resulting in easy overfitting of learned features to individual samples and inadequate generalization of learned category segmentation surfaces. To solve this problem, learning should be organized at the task level rather than the sample level. Learning on tasks sampled from a task family can help tune learning algorithms to perform well on new tasks sampled in that family. Therefore, we propose a simple but effective method, called RS-MetaNet, to resolve the issues related to few-shot remote sensing scene classification in the real world. On the one hand, RS-MetaNet raises the level of learning from the sample to the task by organizing training in a meta way, and it learns to learn a metric space that can well classify remote sensing scenes from a series of tasks. We also propose a new loss function, called Balance Loss, which maximizes the generalization ability of the model to new samples by maximizing the distance between different categories, providing the scenes in different categories with better linear segmentation planes while ensuring model fit. The experimental results on three open and challenging remote sensing datasets, UCMerced\_LandUse, NWPU-RESISC45, and Aerial Image Data, demonstrate that our proposed RS-MetaNet method achieves state-of-the-art results in cases where there are only 1-20 labeled samples.
翻訳日:2022-10-13 22:18:15 公開日:2020-09-28
# 畳み込みニューラルネットワークとサポートベクターマシンを用いたアラビア語手書き文字認識

Arabic Handwritten Character Recognition based on Convolution Neural Networks and Support Vector Machine ( http://arxiv.org/abs/2009.13450v1 )

ライセンス: Link先を確認
Mahmoud Shams, Amira. A. Elsonbaty, Wael. Z. ElSawy(参考訳) アラビア文字の認識は自然言語処理やコンピュータビジョン分野において不可欠である。 手書きのアラビア語の文字や文字を認識し分類する必要性は基本的に必要である。 本稿では,deep convolution neural networks (dcnn) と support vector machine (svm) を用いて,アラビア語文字と文字を認識するアルゴリズムを提案する。 本稿では,完全連結DCNNとドロップアウトSVMの両方を用いて,入力テンプレートとプレストアテンプレートの類似性を決定することで,アラビア文字の認識の問題に対処する。 さらに,手書き文字の正しい分類率 (CRR) は,認識されたアラビア文字の補正された分類テンプレートの精度に依存する。 さらに,誤差分類率(ECR)を決定する。 本研究の実験的成果は,入力された手書きアラビア語文字を認識し,識別し,検証するアルゴリズムの能力を示している。 さらに,K-meansクラスタリング手法に基づくクラスタリングアルゴリズムを用いて類似のアラビア文字を判定し,アラビア文字のマルチストローク問題に対処する。 比較評価は述べられ、システム精度は95.07% CRR、ECRは4.93%に達した。

Recognition of Arabic characters is essential for natural language processing and computer vision fields. The need to recognize and classify the handwritten Arabic letters and characters are essentially required. In this paper, we present an algorithm for recognizing Arabic letters and characters based on using deep convolution neural networks (DCNN) and support vector machine (SVM). This paper addresses the problem of recognizing the Arabic handwritten characters by determining the similarity between the input templates and the pre-stored templates using both fully connected DCNN and dropout SVM. Furthermore, this paper determines the correct classification rate (CRR) depends on the accuracy of the corrected classified templates, of the recognized handwritten Arabic characters. Moreover, we determine the error classification rate (ECR). The experimental results of this work indicate the ability of the proposed algorithm to recognize, identify, and verify the input handwritten Arabic characters. Furthermore, the proposed system determines similar Arabic characters using a clustering algorithm based on the K-means clustering approach to handle the problem of multi-stroke in Arabic characters. The comparative evaluation is stated and the system accuracy reached 95.07% CRR with 4.93% ECR compared with the state of the art.
翻訳日:2022-10-13 22:17:42 公開日:2020-09-28
# convsequential-slam : 環境変化のためのシーケンスベース・トレーニングレス視覚位置認識手法

ConvSequential-SLAM: A Sequence-based, Training-less Visual Place Recognition Technique for Changing Environments ( http://arxiv.org/abs/2009.13454v1 )

ライセンス: Link先を確認
Mihnea-Alexandru Tomit\u{a}, Mubariz Zaffar, Michael Milford, Klaus McDonald-Maier and Shoaib Ehsan(参考訳) 視覚的場所認識(VPR)は、以前訪れた場所を視点や外観を変えて正しく思い出させる能力である。 手工芸とディープラーニングに基づくVPR技術が多数存在し、前者は外観変化に悩まされ、後者は計算上の重要なニーズを持つ。 本稿では,挑戦条件下での最先端位置マッチング性能を実現する手作りVPR技術を提案する。 本手法は,2つの既存のトレーニングレスVPR技術であるSeqSLAMとCoHOGを組み合わせることで,それぞれが条件や視点の変化に対して堅牢である。 このブレンド、すなわちConvSequential-SLAMは、逐次情報とブロック正規化を利用して外観変化を処理する。 本稿では,クエリフレーム間のコンテンツオーバーラップを分析し,最小シーケンス長を求めるとともに,画像エントロピー情報を環境ベースのシーケンス長チューニングに再利用する。 最新のパフォーマンスは、4つのパブリックデータセット上の8つの現代vpr技術とは対照的に報告されている。 配列長に関する定性的洞察とアブレーション研究も提供する。

Visual Place Recognition (VPR) is the ability to correctly recall a previously visited place under changing viewpoints and appearances. A large number of handcrafted and deep-learning-based VPR techniques exist, where the former suffer from appearance changes and the latter have significant computational needs. In this paper, we present a new handcrafted VPR technique that achieves state-of-the-art place matching performance under challenging conditions. Our technique combines the best of 2 existing trainingless VPR techniques, SeqSLAM and CoHOG, which are each robust to conditional and viewpoint changes, respectively. This blend, namely ConvSequential-SLAM, utilises sequential information and block-normalisation to handle appearance changes, while using regional-convolutional matching to achieve viewpoint-invariance. We analyse content-overlap in-between query frames to find a minimum sequence length, while also re-using the image entropy information for environment-based sequence length tuning. State-of-the-art performance is reported in contrast to 8 contemporary VPR techniques on 4 public datasets. Qualitative insights and an ablation study on sequence length are also provided.
翻訳日:2022-10-13 22:17:22 公開日:2020-09-28
# デヴァナガリ文字の完全文字認識と書き起こし技術

A complete character recognition and transliteration technique for Devanagari script ( http://arxiv.org/abs/2009.13460v1 )

ライセンス: Link先を確認
Jasmine Kaur and Vinay Kumar(参考訳) 書き起こしは、2つの固有のスクリプトの文字間の音韻的類似性に基づいて、あるスクリプトを別のスクリプトに変換する。 本稿では,文字認識を用いたデヴァナガリ文字の自動書き起こし手法を提案する。 構成文字を分離するための最初のタスクの1つはセグメンテーションである。 本書の行分割手法は重なり合う行の場合について論じる。 文字分割アルゴリズムは、結束と別々の影文字を分割するように設計されている。 シャドウキャラクタのセグメンテーションスキームは連結成分法を用いてキャラクタを分離し、構成キャラクタをそのまま保持する。 2つの位相認識プロセスでは, 領域, ばらつき, 歪度, クルトシスなどの統計的特徴, 文字の構造的特徴が用いられる。 認識された後、デヴァナガリ文字は対応するローマ字にマッピングされ、その結果のローマ字は原文字と類似の発音を持つ。

Transliteration involves transformation of one script to another based on phonetic similarities between the characters of two distinctive scripts. In this paper, we present a novel technique for automatic transliteration of Devanagari script using character recognition. One of the first tasks performed to isolate the constituent characters is segmentation. Line segmentation methodology in this manuscript discusses the case of overlapping lines. Character segmentation algorithm is designed to segment conjuncts and separate shadow characters. Presented shadow character segmentation scheme employs connected component method to isolate the character, keeping the constituent characters intact. Statistical features namely different order moments like area, variance, skewness and kurtosis along with structural features of characters are employed in two phase recognition process. After recognition, constituent Devanagari characters are mapped to corresponding roman alphabets in way that resulting roman alphabets have similar pronunciation to source characters.
翻訳日:2022-10-13 22:17:01 公開日:2020-09-28
# Reactive Supervision: Sarcasmデータを収集する新しい方法

Reactive Supervision: A New Method for Collecting Sarcasm Data ( http://arxiv.org/abs/2009.13080v1 )

ライセンス: Link先を確認
Boaz Shmueli, Lun-Wei Ku, Soumya Ray(参考訳) サーカズム検出は感情コンピューティングにおいて重要なタスクであり、大量のラベル付きデータを必要とする。 本稿では,オンライン会話のダイナミクスを利用して,既存のデータ収集手法の限界を克服する新しいデータ収集手法であるリアクティブ監視を導入する。 我々は,新しい手法を用いて,サカズム・パースペクティブ・ラベルと新しいコンテキスト機能を備えたツイートの初歩的な大規模データセットを作成し,公開する。 データセットは、皮肉検出研究を進めることが期待されている。 本手法は他の感情コンピューティング分野にも適用可能であり,新たな研究機会が開かれる。

Sarcasm detection is an important task in affective computing, requiring large amounts of labeled data. We introduce reactive supervision, a novel data collection method that utilizes the dynamics of online conversations to overcome the limitations of existing data collection techniques. We use the new method to create and release a first-of-its-kind large dataset of tweets with sarcasm perspective labels and new contextual features. The dataset is expected to advance sarcasm detection research. Our method can be adapted to other affective computing domains, thus opening up new research opportunities.
翻訳日:2022-10-13 22:15:44 公開日:2020-09-28
# 物理インフォームド機械学習による高度製造・工学応用における伝熱方程式の解法

A Physics-Informed Machine Learning Approach for Solving Heat Transfer Equation in Advanced Manufacturing and Engineering Applications ( http://arxiv.org/abs/2010.02011v1 )

ライセンス: Link先を確認
Navid Zobeiry, Keith D. Humfeld(参考訳) 導電性伝熱偏微分方程式(pde)と対流伝熱方程式(pdes)を境界条件(bcs)として解くために、オーブンで部品を加熱する製造・工学的応用法を開発した。 対流係数は典型的には未知であるため、試行錯誤有限要素(FE)シミュレーションに基づく現在の解析手法は遅い。 損失関数は、PDE、BC、初期条件を満たすエラーに基づいて定義される。 損失項を同時に減少させる適応正規化方式を開発した。 また、熱伝達理論は特徴工学にも用いられる。 1Dおよび2D症例の予測はFE結果との比較により検証した。 工学的特徴を用いて,トレーニングゾーンを越える熱伝達を予測できることが示されている。 トレーニングされたモデルは、センサーデータに基づくアクティブな製造制御という産業用4.0の概念を実現するために、一連のBCの迅速な評価を可能にする。

A physics-informed neural network is developed to solve conductive heat transfer partial differential equation (PDE), along with convective heat transfer PDEs as boundary conditions (BCs), in manufacturing and engineering applications where parts are heated in ovens. Since convective coefficients are typically unknown, current analysis approaches based on trial and error finite element (FE) simulations are slow. The loss function is defined based on errors to satisfy PDE, BCs and initial condition. An adaptive normalizing scheme is developed to reduce loss terms simultaneously. In addition, theory of heat transfer is used for feature engineering. The predictions for 1D and 2D cases are validated by comparing with FE results. It is shown that using engineered features, heat transfer beyond the training zone can be predicted. Trained model allows for fast evaluation of a range of BCs to develop feedback loops, realizing Industry 4.0 concept of active manufacturing control based on sensor data.
翻訳日:2022-10-13 22:15:21 公開日:2020-09-28
# 信頼感を考慮した可視化心理学分析ツールの開発

The Development of Visualization Psychology Analysis Tools to Account for Trust ( http://arxiv.org/abs/2009.13200v1 )

ライセンス: Link先を確認
Rita Borgo and Darren J Edwards(参考訳) 信頼の定義は、人工知能(AI)、医療ロボット、ドローン、自動運転車、スマートファクトリ(19)など、新しく形成された自律産業のイノベーションの多くに対して、公衆のムードを評価することの適用性を考えると、重要な取り組みである。 信頼性のある指標や信頼度測定手段の開発を通じて、スマートシステムの受容と採用を促進することから、政策立案者に公衆の雰囲気や革新的変革の意思を伝えることまで幅広い影響を与える可能性がある。 本稿では,「信頼」のような複雑な構成物に対する定義や政策決定の問題の解決という文脈において,可視化心理学の発展の重要性と潜在的影響を考察する。

Defining trust is an important endeavor given its applicability to assessing public mood to much of the innovation in the newly formed autonomous industry, such as artificial intelligence (AI),medical bots, drones, autonomous vehicles, and smart factories [19].Through developing a reliable index or means to measure trust,this may have wide impact from fostering acceptance and adoption of smart systems to informing policy makers about the public atmosphere and willingness to adopt innovate change, and has been identified as an important indicator in a recent UK policy brief [8].In this paper, we reflect on the importance and potential impact of developing Visualization Psychology in the context of solving definitions and policy decision making problems for complex constructs such as "trust".
翻訳日:2022-10-13 22:15:05 公開日:2020-09-28
# RRPN++: より正確なシーンテキスト検出へのガイダンス

RRPN++: Guidance Towards More Accurate Scene Text Detection ( http://arxiv.org/abs/2009.13118v1 )

ライセンス: Link先を確認
Jianqi Ma(参考訳) RRPNは優れたシーンテキスト検出手法の1つであるが、手動で設計したアンカーと粗い提案の改良により、まだ性能は完璧には程遠い。 本稿では, RRPN ベースのモデルの可能性を活用するために RRPN++ を提案する。 RRPNに基づいて、アンカーフリーなピラミッド提案ネットワーク(APPN)を提案し、アンカーフリーな設計を採用して提案数を削減し、推論速度を高速化する。 第2段階では、検出ブランチと認識ブランチの両方を組み込んでマルチタスク学習を行う。 推測段階では、検出部は提案の洗練を出力し、認識部は精製されたテキスト領域の転写を予測する。 さらに、認識ブランチは、提案の再調整や、結合フィルタリング戦略による偽陽性提案の排除にも役立っている。 これらの拡張により,IRPNと比較してICDAR2015のF値が6.5%向上した。 他のベンチマークで行った実験では、モデルの優れた性能と効率が示されている。

RRPN is among the outstanding scene text detection approaches, but the manually-designed anchor and coarse proposal refinement make the performance still far from perfection. In this paper, we propose RRPN++ to exploit the potential of RRPN-based model by several improvements. Based on RRPN, we propose the Anchor-free Pyramid Proposal Networks (APPN) to generate first-stage proposals, which adopts the anchor-free design to reduce proposal number and accelerate the inference speed. In our second stage, both the detection branch and the recognition branch are incorporated to perform multi-task learning. In inference stage, the detection branch outputs the proposal refinement and the recognition branch predicts the transcript of the refined text region. Further, the recognition branch also helps rescore the proposals and eliminate the false positive proposals by the jointing filtering strategy. With these enhancements, we boost the detection results by $6\%$ of F-measure in ICDAR2015 compared to RRPN. Experiments conducted on other benchmarks also illustrate the superior performance and efficiency of our model.
翻訳日:2022-10-13 22:08:17 公開日:2020-09-28
# k-NNアルゴリズムを用いた視線リンクと頭部運動特徴に基づくドライバの眠気分類

Driver Drowsiness Classification Based on Eye Blink and Head Movement Features Using the k-NN Algorithm ( http://arxiv.org/abs/2009.13276v1 )

ライセンス: Link先を確認
Mariella Dreissig, Mohamed Hedi Baccour, Tim Schaeck, Enkelejda Kasneci(参考訳) 最近の先進運転支援システムは運転性能を分析し、運転状態に関する情報を収集する。 このようなシステムは、例えば、ステアリングやレーン維持動作を評価して眠気の兆候を検出し、眠気状態がクリティカルレベルに達したときにドライバーに警告することができる。 しかし、この種のシステムは運転者の状態に関する直接の手がかりにアクセスできない。 そこで本研究の目的は,運転者監視カメラの信号を用いて車両の眠気検出を拡張させることである。 この目的のために, 運転シミュレータ実験において, 運転者の点滅行動と頭部運動に関する35の特徴を抽出した。 この大きなデータセットに基づいて,運転者の状態分類のためのk-Nearest Neighborアルゴリズムに基づく特徴選択手法を開発し,評価した。 最高の特徴セットの分析は、運転者の瞬き行動と頭部の動きに対する眠気の影響についての貴重な洞察を与える。 これらの知見は、疲労による事故を防止するために、堅牢で信頼性の高い運転者の眠気モニタリングシステムの開発に役立ちます。

Modern advanced driver-assistance systems analyze the driving performance to gather information about the driver's state. Such systems are able, for example, to detect signs of drowsiness by evaluating the steering or lane keeping behavior and to alert the driver when the drowsiness state reaches a critical level. However, these kinds of systems have no access to direct cues about the driver's state. Hence, the aim of this work is to extend the driver drowsiness detection in vehicles using signals of a driver monitoring camera. For this purpose, 35 features related to the driver's eye blinking behavior and head movements are extracted in driving simulator experiments. Based on that large dataset, we developed and evaluated a feature selection method based on the k-Nearest Neighbor algorithm for the driver's state classification. A concluding analysis of the best performing feature sets yields valuable insights about the influence of drowsiness on the driver's blink behavior and head movements. These findings will help in the future development of robust and reliable driver drowsiness monitoring systems to prevent fatigue-induced accidents.
翻訳日:2022-10-13 22:07:59 公開日:2020-09-28
# 自己スーパービジョンによる多視点ステレオ適応学習

Learning to Adapt Multi-View Stereo by Self-Supervision ( http://arxiv.org/abs/2009.13278v1 )

ライセンス: Link先を確認
Arijit Mallick, J\"org St\"uckler, Hendrik Lensch(参考訳) 複数視点からの3次元シーン再構成はコンピュータビジョンの重要な古典的問題である。 ディープラーニングベースのアプローチは最近、印象的な再構築結果を示している。 このようなモデルをトレーニングする場合、教師付きトレーニングに必要な地上の真理データに頼らず、入手が困難な場合が多いため、自己管理手法が好ましい。 さらに、学習した多視点ステレオ再構成は環境変化を起こしやすく、異なる領域に堅牢に一般化すべきである。 本稿では,新しい対象領域への適応性を向上させるために,深層ニューラルネットワークを訓練する多視点ステレオの適応学習手法を提案する。 モデルに依存しないメタラーニング(MAML)をベースパラメータのトレーニングに使用し,新たなドメインのマルチビューステレオに自己教師付きトレーニングを施した。 提案手法は,新しいドメインにおける自己教師付き多視点ステレオ再構成の学習に有効であることを示す。

3D scene reconstruction from multiple views is an important classical problem in computer vision. Deep learning based approaches have recently demonstrated impressive reconstruction results. When training such models, self-supervised methods are favourable since they do not rely on ground truth data which would be needed for supervised training and is often difficult to obtain. Moreover, learned multi-view stereo reconstruction is prone to environment changes and should robustly generalise to different domains. We propose an adaptive learning approach for multi-view stereo which trains a deep neural network for improved adaptability to new target domains. We use model-agnostic meta-learning (MAML) to train base parameters which, in turn, are adapted for multi-view stereo on new domains through self-supervised training. Our evaluations demonstrate that the proposed adaptation method is effective in learning self-supervised multi-view stereo reconstruction in new domains.
翻訳日:2022-10-13 22:07:43 公開日:2020-09-28
# ポイントクラウド分類のためのマルチスケール受容場グラフ注意ネットワーク

Multi-scale Receptive Fields Graph Attention Network for Point Cloud Classification ( http://arxiv.org/abs/2009.13289v1 )

ライセンス: Link先を確認
Xi-An Li, Lei Zhang, Li-Yan Wang, Jian Lu(参考訳) 点雲の意味を理解することは、点雲の不規則でスパースな構造のため、分類や区分の目標を達成することが依然として難しい。 ご存知の通り、PointNetアーキテクチャはポイントクラウドのための画期的な作業であり、非秩序の3Dポイントクラウド上で機能を効率的に形作り、良好なパフォーマンスを実現しています。 しかし、このモデルは、ポイントクラウドの局所構造の細かな意味情報を考慮しない。 その後、ポイントクラウドのローカルパッチのセマンティックな特徴を利用して、ポイントネットの性能を高めるために、多くの貴重な作品が提案されている。 本稿では,ポイントクラウド分類のためのマルチスケール受容場グラフアテンションネットワーク(MRFGATに因んで名づけられた)を提案する。 ポイントクラウドの局所的な微細な特徴に着目し,チャネル親和性に基づくマルチアテンションモジュールを適用することにより,ネットワークの学習した特徴マップが,ポイントクラウドの豊富な特徴情報をうまく捉えることができる。 MRFGAT アーキテクチャは ModelNet10 と ModelNet40 のデータセットでテストされ,その結果,形状分類タスクにおける最先端性能が得られた。

Understanding the implication of point cloud is still challenging to achieve the goal of classification or segmentation due to the irregular and sparse structure of point cloud. As we have known, PointNet architecture as a ground-breaking work for point cloud which can learn efficiently shape features directly on unordered 3D point cloud and have achieved favorable performance. However, this model fail to consider the fine-grained semantic information of local structure for point cloud. Afterwards, many valuable works are proposed to enhance the performance of PointNet by means of semantic features of local patch for point cloud. In this paper, a multi-scale receptive fields graph attention network (named after MRFGAT) for point cloud classification is proposed. By focusing on the local fine features of point cloud and applying multi attention modules based on channel affinity, the learned feature map for our network can well capture the abundant features information of point cloud. The proposed MRFGAT architecture is tested on ModelNet10 and ModelNet40 datasets, and results show it achieves state-of-the-art performance in shape classification tasks.
翻訳日:2022-10-13 22:07:29 公開日:2020-09-28
# PIN: 音声言語理解のための新しい並列対話型ネットワーク

PIN: A Novel Parallel Interactive Network for Spoken Language Understanding ( http://arxiv.org/abs/2009.13431v1 )

ライセンス: Link先を確認
Peilin Zhou, Zhiqi Huang, Fenglin Liu, Yuexian Zou(参考訳) 音声言語理解(SLU)は、通常、意図検出(ID)とスロットフィリング(SF)タスクからなる音声対話システムにおいて不可欠な部分である。 近年、リカレントニューラルネットワーク(RNN)に基づく手法がSLUの最先端を達成している。 既存の RNN ベースのアプローチでは,ID と SF のタスクは,それらの相関情報を利用するために,しばしば共同でモデル化される。 しかし,これまでは,IDとSF間の双方向・明示的な情報交換を支援することで,より優れた性能を得るための取り組みが十分に研究されていない点に留意した。 そこで本研究では,IDとSFの相互誘導をモデル化するために,PIN(Parallel Interactive Network)を提案する。 具体的には、発話が与えられた場合、ガウスの自己注意エンコーダを導入して、ローカルコンテキスト情報をキャプチャ可能な発話のコンテキスト認識機能埋め込みを生成する。 Slot2IntentモジュールとIntent2Slotモジュールは、発話の機能を組み込んで、IDとSFタスクの双方向情報フローをキャプチャする。 最後に,Slot2IntentおよびIntent2Slotモジュールから得られた情報を融合して予測バイアスをさらに低減する協調機構を構築し,SNIPSとATISという2つのベンチマークデータセットを用いた実験により,最先端モデルによる競合的な結果が得られることを示す。 さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。

Spoken Language Understanding (SLU) is an essential part of the spoken dialogue system, which typically consists of intent detection (ID) and slot filling (SF) tasks. Recently, recurrent neural networks (RNNs) based methods achieved the state-of-the-art for SLU. It is noted that, in the existing RNN-based approaches, ID and SF tasks are often jointly modeled to utilize the correlation information between them. However, we noted that, so far, the efforts to obtain better performance by supporting bidirectional and explicit information exchange between ID and SF are not well studied.In addition, few studies attempt to capture the local context information to enhance the performance of SF. Motivated by these findings, in this paper, Parallel Interactive Network (PIN) is proposed to model the mutual guidance between ID and SF. Specifically, given an utterance, a Gaussian self-attentive encoder is introduced to generate the context-aware feature embedding of the utterance which is able to capture local context information. Taking the feature embedding of the utterance, Slot2Intent module and Intent2Slot module are developed to capture the bidirectional information flow for ID and SF tasks. Finally, a cooperation mechanism is constructed to fuse the information obtained from Slot2Intent and Intent2Slot modules to further reduce the prediction bias.The experiments on two benchmark datasets, i.e., SNIPS and ATIS, demonstrate the effectiveness of our approach, which achieves a competitive result with state-of-the-art models. More encouragingly, by using the feature embedding of the utterance generated by the pre-trained language model BERT, our method achieves the state-of-the-art among all comparison approaches.
翻訳日:2022-10-13 22:00:39 公開日:2020-09-28
# 相対的な位置埋め込みを改良したトランスフォーマーモデルの改善

Improve Transformer Models with Better Relative Position Embeddings ( http://arxiv.org/abs/2009.13658v1 )

ライセンス: Link先を確認
Zhiheng Huang, Davis Liang, Peng Xu, Bing Xiang(参考訳) トランスフォーマーアーキテクチャは、語順の概念を保存するために明示的な位置符号化に依存している。 本稿では,既存の作業が位置情報を十分に活用していないことを論じる。 例えば、正弦波埋め込みの最初の提案は固定され、学習できない。 本稿では,まず絶対位置埋め込みと既存の相対位置埋め込み法について検討する。 次に,クエリ,キー,および相対的な位置埋め込み間の相互作用を促進する新しい手法を提案する。 我々の最も有望なアプローチは絶対位置埋め込みの一般化であり、以前の位置埋め込みのアプローチと比較してSQuAD1.1の結果を改善する。 さらに、位置埋め込みが長い列を扱うのに十分な頑健であるかどうかという帰納的性質にも対処する。 我々は,相対的な位置埋め込み法が帰納的観点から合理的に一般化され,堅牢であることを示す。 最後に,提案手法は小型の計算予算で大規模モデルの精度を向上させるため,ほぼドロップインの代替として適用可能であることを示す。

Transformer architectures rely on explicit position encodings in order to preserve a notion of word order. In this paper, we argue that existing work does not fully utilize position information. For example, the initial proposal of a sinusoid embedding is fixed and not learnable. In this paper, we first review absolute position embeddings and existing methods for relative position embeddings. We then propose new techniques that encourage increased interaction between query, key and relative position embeddings in the self-attention mechanism. Our most promising approach is a generalization of the absolute position embedding, improving results on SQuAD1.1 compared to previous position embeddings approaches. In addition, we address the inductive property of whether a position embedding can be robust enough to handle long sequences. We demonstrate empirically that our relative position embedding method is reasonably generalized and robust from the inductive perspective. Finally, we show that our proposed method can be adopted as a near drop-in replacement for improving the accuracy of large models with a small computational budget.
翻訳日:2022-10-13 22:00:11 公開日:2020-09-28
# 確率論理とファジィ論理のフィブリングによる不確定線形論理

Uncertain Linear Logic via Fibring of Probabilistic and Fuzzy Logic ( http://arxiv.org/abs/2009.12990v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 命題の単純な意味論から始めて, 数え上げ観測に基づいて, 確率的論理とファジィ論理は, 証拠ベースが現在使用できない命題の組み合わせに関する2つの異なるヒューリスティックな仮定に対応することを示した。 これら2つの異なるヒューリスティックな仮定は、格子演算を通じて量的真理値を伝播する2つの異なる公式の集合をもたらす。 この2つの式は、線形論理における乗法および加法的作用素集合の自然な基底を与える。 線形論理の標準規則は、基礎となる意味論の結果として現れる。 ここでは「資源の論理」としての線形論理の概念が「証拠の保存」の原理によって示される -- 線形論理の弱化と収縮に対する制限は、証拠の二重カウントを避けるのに役立つ(ヒューリスティックな真理値関数によって得られる二重カウントに加えて)。

Beginning with a simple semantics for propositions, based on counting observations, it is shown that probabilistic and fuzzy logic correspond to two different heuristic assumptions regarding the combination of propositions whose evidence bases are not currently available. These two different heuristic assumptions lead to two different sets of formulas for propagating quantitative truth values through lattice operations. It is shown that these two sets of formulas provide a natural grounding for the multiplicative and additive operator-sets in linear logic. The standard rules of linear logic then emerge as consequences of the underlying semantics. The concept of linear logic as a ``logic of resources" is manifested here via the principle of ``conservation of evidence" -- the restrictions to weakening and contraction in linear logic serve to avoid double-counting of evidence (beyond any double-counting incurred via use of heuristic truth value functions).
翻訳日:2022-10-13 21:59:56 公開日:2020-09-28
# エントロピー的連想記憶

An Entropic Associative Memory ( http://arxiv.org/abs/2009.13058v1 )

ライセンス: Link先を確認
Luis A. Pineda and Gibr\'an Fuentes and Rafael Morales(参考訳) 自然記憶は連想的、宣言的、分散的である。 シンボリック・コンピューティング・メモリはその宣言的特徴において自然記憶に似ており、情報を明示的に保存して復元することができるが、それらは自然記憶の連想的および分散的特性を欠いている。 コネクショニストや人工ニューラルネットワークのパラダイム内で開発されたサブシンボリックメモリは、連想的かつ分散的だが、シンボル構造を表現することができず、情報を明示的に保存・取得することはできない。 このジレンマに対処するために、Relational-Indeterminate Computingを用いて、個々のオブジェクトの分散表現を保持する連想メモリレジスタをモデル化する。 この計算モードは、表現の不確定性を測定する固有の計算エントロピーを持つ。 このパラメータはメモリの動作特性を決定する。 連想レジスタは、モダリティ固有のバッファで表現された具体的な画像を抽象表現にマッピングするアーキテクチャに埋め込まれており、その逆もまた、メモリシステム全体が自然記憶の3つの特性を満たす。 このシステムは、手書きの数字の表現を保持する視覚的メモリのモデル化に使われており、認識とリコールの実験では、連想メモリレジスタが十分な性能を持つエントロピー値の範囲があることが示されている。 メモリ取得操作で回収されたcueとオブジェクトの類似性は、対応するオブジェクトの表現を保持するメモリレジスタのエントロピーに依存する。 実験は、標準的なコンピュータを使ったシミュレーションで実装されたが、メモリ操作が非常に少ない計算ステップを必要とする並列アーキテクチャを構築することができる。

Natural memories are associative, declarative and distributed. Symbolic computing memories resemble natural memories in their declarative character, and information can be stored and recovered explicitly; however, they lack the associative and distributed properties of natural memories. Sub-symbolic memories developed within the connectionist or artificial neural networks paradigm are associative and distributed, but are unable to express symbolic structure and information cannot be stored and retrieved explicitly; hence, they lack the declarative property. To address this dilemma, we use Relational-Indeterminate Computing to model associative memory registers that hold distributed representations of individual objects. This mode of computing has an intrinsic computing entropy which measures the indeterminacy of representations. This parameter determines the operational characteristics of the memory. Associative registers are embedded in an architecture that maps concrete images expressed in modality-specific buffers into abstract representations, and vice versa, and the memory system as a whole fulfills the three properties of natural memories. The system has been used to model a visual memory holding the representations of hand-written digits, and recognition and recall experiments show that there is a range of entropy values, not too low and not too high, in which associative memory registers have a satisfactory performance. The similarity between the cue and the object recovered in memory retrieve operations depends on the entropy of the memory register holding the representation of the corresponding object. The experiments were implemented in a simulation using a standard computer, but a parallel architecture may be built where the memory operations would take a very reduced number of computing steps.
翻訳日:2022-10-13 21:59:40 公開日:2020-09-28
# ビデオ・テンポラル超解像へのAIM 2020の挑戦

AIM 2020 Challenge on Video Temporal Super-Resolution ( http://arxiv.org/abs/2009.12987v1 )

ライセンス: Link先を確認
Sanghyun Son, Jaerin Lee, Seungjun Nah, Radu Timofte, Kyoung Mu Lee(参考訳) 実世界のビデオには、記録されたフレームレートが低い時間に不連続に見える様々なダイナミクスや動きが含まれている。 本稿では,ビデオ・テンポラリ・スーパーレゾリューション(vtsr, a.k.a. frame interpolation)に関する第2のaimチャレンジについて,提案する解,結果,分析に焦点を当てて報告する。 低フレームレート(15fps)ビデオから、時間的中間フレームを推定することにより、挑戦参加者は高フレームレート(30fpsと60fps)のシーケンスを提出する必要がある。 実世界の現実的かつ挑戦的なダイナミクスをシミュレートするために,手持ちカメラで撮影した多様なビデオから得られたREDS_VTSRデータセットを用いて,トレーニングと評価を行う。 大会には68人の登録参加者が参加し、5つのチーム(1人が離脱)が最終テストフェーズに出場した。 優勝チームは、強化された二次的ビデオ補間法を提案し、VTSRタスクの最先端を実現する。

Videos in the real-world contain various dynamics and motions that may look unnaturally discontinuous in time when the recordedframe rate is low. This paper reports the second AIM challenge on Video Temporal Super-Resolution (VTSR), a.k.a. frame interpolation, with a focus on the proposed solutions, results, and analysis. From low-frame-rate (15 fps) videos, the challenge participants are required to submit higher-frame-rate (30 and 60 fps) sequences by estimating temporally intermediate frames. To simulate realistic and challenging dynamics in the real-world, we employ the REDS_VTSR dataset derived from diverse videos captured in a hand-held camera for training and evaluation purposes. There have been 68 registered participants in the competition, and 5 teams (one withdrawn) have competed in the final testing phase. The winning team proposes the enhanced quadratic video interpolation method and achieves state-of-the-art on the VTSR task.
翻訳日:2022-10-13 21:58:43 公開日:2020-09-28
# 映像に基づく人物再同定のための集中型マルチグラインドマルチアテンションネットワーク

Concentrated Multi-Grained Multi-Attention Network for Video Based Person Re-Identification ( http://arxiv.org/abs/2009.13019v1 )

ライセンス: Link先を確認
Panwen Hu, Jiazhen Liu and Rui Huang(参考訳) 咬合はビデオベースのRe-ID(Re-ID)タスクにおいて依然として深刻な問題であり、これは成功率に大きな影響を与える。 注意機構は、多くの既存手法による閉塞問題の解決に有用であることが証明されている。 しかし、それらの注意機構は、ビデオから最終的な表現に十分な識別情報を抽出する能力に欠ける。 既存の手法で採用されているシングルアテンション・モジュール・スキームでは,マルチスケールな空間的手がかりが利用できないため,個人の複数のサニエント部分によってシングルアテンション・モジュールの注意が分散される。 本稿では,2つのマルチアテンションモジュールを設計し,マルチスケールの中間機能を処理して多粒度情報を抽出する,集中型マルチアテンションネットワーク(CMMANet)を提案する。 さらに、マルチアテンションモジュール内の複数のアテンションサブモジュールは、ビデオフレームの複数の識別領域を自動的に発見することができる。 この目的を達成するために,マルチアテンションモジュールのサブモジュールを多様化するための多様性損失と,それぞれのサブモジュールが特定の意味のある部分に集中できるように注意応答を統合するための集中損失を導入する。 実験の結果,提案手法は複数の公開データセットに対して,最先端の手法よりも大きなマージンを有することがわかった。

Occlusion is still a severe problem in the video-based Re-IDentification (Re-ID) task, which has a great impact on the success rate. The attention mechanism has been proved to be helpful in solving the occlusion problem by a large number of existing methods. However, their attention mechanisms still lack the capability to extract sufficient discriminative information into the final representations from the videos. The single attention module scheme employed by existing methods cannot exploit multi-scale spatial cues, and the attention of the single module will be dispersed by multiple salient parts of the person. In this paper, we propose a Concentrated Multi-grained Multi-Attention Network (CMMANet) where two multi-attention modules are designed to extract multi-grained information through processing multi-scale intermediate features. Furthermore, multiple attention submodules in each multi-attention module can automatically discover multiple discriminative regions of the video frames. To achieve this goal, we introduce a diversity loss to diversify the submodules in each multi-attention module, and a concentration loss to integrate their attention responses so that each submodule can strongly focus on a specific meaningful part. The experimental results show that the proposed approach outperforms the state-of-the-art methods by large margins on multiple public datasets.
翻訳日:2022-10-13 21:58:23 公開日:2020-09-28
# タイムスタンプ画像符号化ネットワークを用いたイベントベース行動認識

Event-based Action Recognition Using Timestamp Image Encoding Network ( http://arxiv.org/abs/2009.13049v1 )

ライセンス: Link先を確認
Chaoxing Huang(参考訳) イベントカメラは、人間の行動認識タスクに適した低消費電力の非同期で高周波な視覚センサである。 イベントデータの時空間情報を適切にエンコードし、標準コンピュータビジョンツールを用いてデータから学習することが不可欠である。 本研究では,イベントデータの空間時空間画像を入力とし,動作ラベルを出力する2Dネットワークを符号化するタイムスタンプ画像を提案する。 実験の結果,本手法は実世界の行動認識におけるRGBベースベンチマークと同等の性能を示し,ジェスチャー認識におけるSOTA結果も達成できることがわかった。

Event camera is an asynchronous, high frequency vision sensor with low power consumption, which is suitable for human action recognition task. It is vital to encode the spatial-temporal information of event data properly and use standard computer vision tool to learn from the data. In this work, we propose a timestamp image encoding 2D network, which takes the encoded spatial-temporal images of the event data as input and output the action label. Experiment results show that our method can achieve the same level of performance as those RGB-based benchmarks on real world action recognition, and also achieve the SOTA result on gesture recognition.
翻訳日:2022-10-13 21:58:00 公開日:2020-09-28
# ビデオからの唇読解における唇局所化手法の検討

A Study on Lip Localization Techniques used for Lip reading from a Video ( http://arxiv.org/abs/2009.13420v1 )

ライセンス: Link先を確認
S.D. Lalitha, K.K. Thyagharajan(参考訳) 本稿では,顔から唇を局所化する手法のいくつかについて検討し,その処理手順と対比する。 唇の位置は、ビデオ入力から視覚情報を抽出するために唇を読むために必要な基本的なステップである。 この技術は、非対称な唇や、目に見える歯、舌、口ひげを持つ口にも応用できる。 リップ読みの過程では、一般的に以下の手順が用いられる。 最初はビデオ入力の最初のフレームに唇を配置し、その後、最初のステップのピクセルポイントを用いて次のフレームで唇を追跡し、最後に追跡された唇モデルを対応する文字に変換して視覚情報を与える。 議論された手法から新しい提案も開始される。 このリップ読みは、通信システムにおいて、音声が欠落したり低音であったりした場合に、自動音声認識において有用である。 人間のコンピュータ通信も音声認識を必要とする。

In this paper some of the different techniques used to localize the lips from the face are discussed and compared along with its processing steps. Lip localization is the basic step needed to read the lips for extracting visual information from the video input. The techniques could be applied on asymmetric lips and also on the mouth with visible teeth, tongue & mouth with moustache. In the process of Lip reading the following steps are generally used. They are, initially locating lips in the first frame of the video input, then tracking the lips in the following frames using the resulting pixel points of initial step and at last converting the tracked lip model to its corresponding matched letter to give the visual information. A new proposal is also initiated from the discussed techniques. The lip reading is useful in Automatic Speech Recognition when the audio is absent or present low with or without noise in the communication systems. Human Computer communication also will require speech recognition.
翻訳日:2022-10-13 21:51:33 公開日:2020-09-28
# MPG-Net:OCT画像における網膜層分割のためのマルチプレディションガイドネットワーク

MPG-Net: Multi-Prediction Guided Network for Segmentation of Retinal Layers in OCT Images ( http://arxiv.org/abs/2009.13634v1 )

ライセンス: Link先を確認
Zeyu Fu, Yang Sun, Xiangyu Zhang, Scott Stainton, Shaun Barney, Jeffry Hogg, William Innes and Satnam Dlay(参考訳) 光コヒーレンストモグラフィ(OCT)は高分解能網膜情報を抽出する一般的な方法である。 さらに、網膜疾患の診断を容易にする自動網膜層分割の需要が高まっている。 本稿では,OCT画像の自動網膜層分割のための新しいマルチプレディション誘導アテンションネットワーク(MPG-Net)を提案する。 提案手法は,信頼性の高い自動セグメンテーションのためのU字型完全畳み込みネットワーク(FCN)の識別力を強化する2つの主要なステップから構成される。 まず、特徴チャネルを適応的に再重み付けする特徴改善モジュールをエンコーダに利用して、より情報性の高い特徴をキャプチャし、無関係な領域で情報を破棄する。 さらに,各スケールでのセグメンテーションマスクの復元性を高めるために,画素別意味予測ガイダンスを提供するマルチプレディクション誘導注意機構を提案する。 深い監督を監督対象に転換するこのメカニズムは、中間層間のよりセマンティックな情報で特徴集約を導くことができる。 公開されているDuke OCTデータセットの実験では、提案手法の有効性が確認され、他の最先端手法よりも性能が向上した。

Optical coherence tomography (OCT) is a commonly-used method of extracting high resolution retinal information. Moreover there is an increasing demand for the automated retinal layer segmentation which facilitates the retinal disease diagnosis. In this paper, we propose a novel multiprediction guided attention network (MPG-Net) for automated retinal layer segmentation in OCT images. The proposed method consists of two major steps to strengthen the discriminative power of a U-shape Fully convolutional network (FCN) for reliable automated segmentation. Firstly, the feature refinement module which adaptively re-weights the feature channels is exploited in the encoder to capture more informative features and discard information in irrelevant regions. Furthermore, we propose a multi-prediction guided attention mechanism which provides pixel-wise semantic prediction guidance to better recover the segmentation mask at each scale. This mechanism which transforms the deep supervision to supervised attention is able to guide feature aggregation with more semantic information between intermediate layers. Experiments on the publicly available Duke OCT dataset confirm the effectiveness of the proposed method as well as an improved performance over other state-of-the-art approaches.
翻訳日:2022-10-13 21:51:19 公開日:2020-09-28
# 解剖学的ランドマーク検出のためのクロスタスク表現学習

Cross-Task Representation Learning for Anatomical Landmark Detection ( http://arxiv.org/abs/2009.13635v1 )

ライセンス: Link先を確認
Zeyu Fu, Jianbo Jiao, Michael Suttie, J. Alison Noble(参考訳) 近年,後続の医用画像解析を容易にする構造情報を提供する解剖学的ランドマークを自動的に検出する需要が高まっている。 このタスクに関連する現在の手法はディープニューラルネットワークのパワーを利用することが多いが、医学的応用においてそのようなモデルを微調整する上で大きな課題はラベル付きサンプルの数が不足していることである。 そこで本稿では,クロスタスク表現学習を通じて,ソースとターゲットタスク間の知識伝達を規則化する手法を提案する。 提案手法は胎児アルコール症候群の診断を容易にする顔面解剖学的ランドマークの抽出に有用である。 この研究のソースとターゲットのタスクは、それぞれ顔認識とランドマーク検出である。 提案手法の主な考え方は、対象タスクデータに対するソースモデルの特徴表現を保持し、対象モデル学習を正則化するための監視信号の追加源として活用し、限られたトレーニングサンプルでの性能を向上させることである。 具体的には,対象モデル上で最終または中間のモデル特徴を制約することにより,提案する表現学習のための2つのアプローチを提案する。 臨床顔画像データセットにおける実験結果から,提案手法はラベル付きデータが少なく,他の比較手法よりも優れていることが示された。

Recently, there is an increasing demand for automatically detecting anatomical landmarks which provide rich structural information to facilitate subsequent medical image analysis. Current methods related to this task often leverage the power of deep neural networks, while a major challenge in fine tuning such models in medical applications arises from insufficient number of labeled samples. To address this, we propose to regularize the knowledge transfer across source and target tasks through cross-task representation learning. The proposed method is demonstrated for extracting facial anatomical landmarks which facilitate the diagnosis of fetal alcohol syndrome. The source and target tasks in this work are face recognition and landmark detection, respectively. The main idea of the proposed method is to retain the feature representations of the source model on the target task data, and to leverage them as an additional source of supervisory signals for regularizing the target model learning, thereby improving its performance under limited training samples. Concretely, we present two approaches for the proposed representation learning by constraining either final or intermediate model features on the target model. Experimental results on a clinical face image dataset demonstrate that the proposed approach works well with few labeled data, and outperforms other compared approaches.
翻訳日:2022-10-13 21:51:02 公開日:2020-09-28
# COVID-CT-MD: 機械学習とディープラーニングに適用可能な COVID-19 Computed Tomography (CT) Scan Dataset

COVID-CT-MD: COVID-19 Computed Tomography (CT) Scan Dataset Applicable in Machine Learning and Deep Learning ( http://arxiv.org/abs/2009.14623v1 )

ライセンス: Link先を確認
Parnian Afshar, Shahin Heidarian, Nastaran Enshaei, Farnoosh Naderkhani, Moezedin Javad Rafiee, Anastasia Oikonomou, Faranak Babaki Fard, Kaveh Samimi, Konstantinos N. Plataniotis, Arash Mohammadi(参考訳) 新型コロナウイルス(COVID-19)は、2019年後半の流行以来、数百万人以上が犠牲となり、100万人近くが命を落としている。 この非常に伝染性の病気は容易に拡散し、タイムリーに制御されないと、医療システムに急速に機能不全を引き起こす。 現在の標準診断法であるReverse Transcription Polymerase Chain Reaction (RT-PCR)は、時間がかかり、感度が低い。 Chest Radiograph (CXR) は、最初に使用される画像モダリティであり、すぐに利用でき、すぐに結果が得られる。 しかし、CT(Computed Tomography)よりも感度が低いことで知られており、他の診断法を効率的に補完することができる。 本稿では、COVID-19CTスキャンデータセット(COVID-CT-MD)を新たに導入し、COVID-19の患者だけでなく、健康な患者や、Community Acquired Pneumonia (CAP) に感染した患者も紹介する。 新型コロナウイルス(COVID-CT-MD)のデータセットには、ロブレベル、スライスレベル、および患者レベルのラベルが添付されているが、COVID-19の研究を促進する可能性があり、特にCOVID-CT-MDは、高度な機械学習(ML)とディープニューラルネットワーク(DNN)ベースのソリューションの開発を支援することができる。

Novel Coronavirus (COVID-19) has drastically overwhelmed more than 200 countries affecting millions and claiming almost 1 million lives, since its emergence in late 2019. This highly contagious disease can easily spread, and if not controlled in a timely fashion, can rapidly incapacitate healthcare systems. The current standard diagnosis method, the Reverse Transcription Polymerase Chain Reaction (RT- PCR), is time consuming, and subject to low sensitivity. Chest Radiograph (CXR), the first imaging modality to be used, is readily available and gives immediate results. However, it has notoriously lower sensitivity than Computed Tomography (CT), which can be used efficiently to complement other diagnostic methods. This paper introduces a new COVID-19 CT scan dataset, referred to as COVID-CT-MD, consisting of not only COVID-19 cases, but also healthy and subjects infected by Community Acquired Pneumonia (CAP). COVID-CT-MD dataset, which is accompanied with lobe-level, slice-level and patient-level labels, has the potential to facilitate the COVID-19 research, in particular COVID-CT-MD can assist in development of advanced Machine Learning (ML) and Deep Neural Network (DNN) based solutions.
翻訳日:2022-10-13 21:50:42 公開日:2020-09-28
# 補間条件下でのサドル点の脱出

Escaping Saddle-Points Faster under Interpolation-like Conditions ( http://arxiv.org/abs/2009.13016v1 )

ライセンス: Link先を確認
Abhishek Roy, Krishnakumar Balasubramanian, Saeed Ghadimi, Prasant Mohapatra(参考訳) 本稿では,過パラメータ化下では,いくつかの標準確率最適化アルゴリズムが鞍点を回避し,より高速に局所最小化器に収束することを示す。 過パラメータモデルの基本的な側面の1つは、トレーニングデータを補間できることだ。 過パラメトリゼーション設定における確率勾配で満たされる補間的仮定の下では、摂動確率勾配Descent(PSGD)アルゴリズムの1次オラクル複雑性が$\epsilon$-local-minimizerに到達し、対応する決定論的速度が$\tilde{\mathcal{O}}(1/\epsilon^{2})$と一致することを示す。 次に補間的立方体規則化ニュートン(SCRN)アルゴリズムを補間的条件下で解析し,補間的条件下で局所最小化器に到達するオラクルの複雑さが$\tilde{\mathcal{O}}(1/\epsilon^{2.5})$であることを示す。 この複雑性はPSGDやSCRNの補間的仮定のない複雑性よりも優れているが、決定論的立方正則化ニュートン法に対応する$\tilde{\mathcal{O}}(1/\epsilon^{1.5})$と一致しない。 このギャップを埋めるには、さらにヘッセンに基づく補間のような仮定が必要であるようである。 また,ゼロ次設定における複雑度の改善についても考察する。

In this paper, we show that under over-parametrization several standard stochastic optimization algorithms escape saddle-points and converge to local-minimizers much faster. One of the fundamental aspects of over-parametrized models is that they are capable of interpolating the training data. We show that, under interpolation-like assumptions satisfied by the stochastic gradients in an over-parametrization setting, the first-order oracle complexity of Perturbed Stochastic Gradient Descent (PSGD) algorithm to reach an $\epsilon$-local-minimizer, matches the corresponding deterministic rate of $\tilde{\mathcal{O}}(1/\epsilon^{2})$. We next analyze Stochastic Cubic-Regularized Newton (SCRN) algorithm under interpolation-like conditions, and show that the oracle complexity to reach an $\epsilon$-local-minimizer under interpolation-like conditions, is $\tilde{\mathcal{O}}(1/\epsilon^{2.5})$. While this obtained complexity is better than the corresponding complexity of either PSGD, or SCRN without interpolation-like assumptions, it does not match the rate of $\tilde{\mathcal{O}}(1/\epsilon^{1.5})$ corresponding to deterministic Cubic-Regularized Newton method. It seems further Hessian-based interpolation-like assumptions are necessary to bridge this gap. We also discuss the corresponding improved complexities in the zeroth-order settings.
翻訳日:2022-10-13 21:50:19 公開日:2020-09-28
# クレデンシャル・スコーリングにおける機械学習モデルの透明性, 聴取性, eXplainability

Transparency, Auditability and eXplainability of Machine Learning Models in Credit Scoring ( http://arxiv.org/abs/2009.13384v1 )

ライセンス: Link先を確認
Michael B\"ucker and Gero Szepannek and Alicja Gosiewska and Przemyslaw Biecek(参考訳) 信用スコアリングモデルの主要な要件は、最大限正確なリスク予測を提供することである。 さらに、規制当局はこれらのモデルを透明で監査可能であるように要求している。 したがって、クレジットスコアリングでは、ロジスティック回帰や決定木のような非常に単純な予測モデルが依然として広く使われており、現代の機械学習アルゴリズムの優れた予測能力は十分に活用できない。 そのため、大きな潜在能力が失われ、リザーブやクレジットのデフォルトが高くなる。 本稿では、クレジットスコアリングモデルを理解可能にするために考慮すべき異なる次元を取り上げ、‘ブラックボックス’の機械学習モデルを透過的かつ監査可能かつ説明可能なものにするためのフレームワークを提案する。 この枠組みに従い,信用スコアにどのように適用できるか,また,スコアカードの解釈可能性と結果の比較について概説する。 実世界のケーススタディでは、機械学習技術が予測能力を向上させる能力を維持しながら、同等の解釈可能性を達成することができる。

A major requirement for credit scoring models is to provide a maximally accurate risk prediction. Additionally, regulators demand these models to be transparent and auditable. Thus, in credit scoring, very simple predictive models such as logistic regression or decision trees are still widely used and the superior predictive power of modern machine learning algorithms cannot be fully leveraged. Significant potential is therefore missed, leading to higher reserves or more credit defaults. This paper works out different dimensions that have to be considered for making credit scoring models understandable and presents a framework for making ``black box'' machine learning models transparent, auditable and explainable. Following this framework, we present an overview of techniques, demonstrate how they can be applied in credit scoring and how results compare to the interpretability of score cards. A real world case study shows that a comparable degree of interpretability can be achieved while machine learning techniques keep their ability to improve predictive power.
翻訳日:2022-10-13 21:49:47 公開日:2020-09-28
# 長文生成のためのグラフベースマルチホップ推論

Graph-based Multi-hop Reasoning for Long Text Generation ( http://arxiv.org/abs/2009.13282v1 )

ライセンス: Link先を確認
Liang Zhao, Jingjing Xu, Junyang Lin, Yichang Zhang, Hongxia Yang, Xu Sun(参考訳) 長文生成は重要な課題だが難しい課題であり、主な問題は従来の生成モデルがしばしば抱える文レベルのセマンティック依存関係の学習にある。 本研究では,知識グラフ上のマルチホップ推論を取り入れ,文間の意味的依存関係を学習するマルチホップ推論生成(mrg)手法を提案する。 mrgはグラフベースのマルチホップ推論モジュールとパス認識文実現モジュールからなる。 推論モジュールは知識グラフから骨格経路を探索し、意味伝達のための人間の記述における想像過程を模倣する。 推論されたパスに基づいて、文実現モジュールが完全な文を生成する。 従来のブラックボックスモデルとは異なり、MRGはスケルトンパスを明示的に推論し、提案されたモデルがどのように機能するかを説明する説明的なビューを提供する。 ストーリー生成、レビュー生成、製品記述生成を含む3つの代表的なタスクについて実験を行った。 提案手法は,事前学習モデル(GPT-2など)や知識強化モデルなど,強いベースラインよりも情報的かつ一貫性のあるテキストを生成することができることを示す。

Long text generation is an important but challenging task.The main problem lies in learning sentence-level semantic dependencies which traditional generative models often suffer from. To address this problem, we propose a Multi-hop Reasoning Generation (MRG) approach that incorporates multi-hop reasoning over a knowledge graph to learn semantic dependencies among sentences. MRG consists of twoparts, a graph-based multi-hop reasoning module and a path-aware sentence realization module. The reasoning module is responsible for searching skeleton paths from a knowledge graph to imitate the imagination process in the human writing for semantic transfer. Based on the inferred paths, the sentence realization module then generates a complete sentence. Unlike previous black-box models, MRG explicitly infers the skeleton path, which provides explanatory views tounderstand how the proposed model works. We conduct experiments on three representative tasks, including story generation, review generation, and product description generation. Automatic and manual evaluation show that our proposed method can generate more informative and coherentlong text than strong baselines, such as pre-trained models(e.g. GPT-2) and knowledge-enhanced models.
翻訳日:2022-10-13 21:49:12 公開日:2020-09-28
# 抽象要約における量幻覚の低減

Reducing Quantity Hallucinations in Abstractive Summarization ( http://arxiv.org/abs/2009.13312v1 )

ライセンス: Link先を確認
Zheng Zhao, Shay B. Cohen, Bonnie Webber(参考訳) 抽象的な要約は、原文に支えられていない資料を含む幻覚の対象であることが知られている。 要約は一般の語句に限定することで幻覚のないものにすることができるが、そのような要約は情報に乏しい。 あるいは、要約中の特定のエンティティが同じ文脈で元のテキストに現れることを検証することで幻覚を避けようとすることもできる。 これが私たちのシステムであるHermanによるアプローチです。 本システムは、現在最先端のモデルが生成する抽象要約のビームワースにおける量実体(日付、数字、金額等)を認識し、検証することを学び、その量項が原文で支持されている要約を上書きする。 実験の結果, 上位のサマリーのROUGEスコアは, 上位のサマリーよりも精度が高く, リコールの損失に匹敵せず, F$_1$となることがわかった。 上位vs.オリジナル要約の予備的人間評価は、前者に対する人々の好みを示している。

It is well-known that abstractive summaries are subject to hallucination---including material that is not supported by the original text. While summaries can be made hallucination-free by limiting them to general phrases, such summaries would fail to be very informative. Alternatively, one can try to avoid hallucinations by verifying that any specific entities in the summary appear in the original text in a similar context. This is the approach taken by our system, Herman. The system learns to recognize and verify quantity entities (dates, numbers, sums of money, etc.) in a beam-worth of abstractive summaries produced by state-of-the-art models, in order to up-rank those summaries whose quantity terms are supported by the original text. Experimental results demonstrate that the ROUGE scores of such up-ranked summaries have a higher Precision than summaries that have not been up-ranked, without a comparable loss in Recall, resulting in higher F$_1$. Preliminary human evaluation of up-ranked vs. original summaries shows people's preference for the former.
翻訳日:2022-10-13 21:48:53 公開日:2020-09-28
# アンダーソースニューラル機械翻訳シナリオにおけるルールベース機械翻訳モデルにおける用語・エンティティ知識の諸相

Aspects of Terminological and Named Entity Knowledge within Rule-Based Machine Translation Models for Under-Resourced Neural Machine Translation Scenarios ( http://arxiv.org/abs/2009.13398v1 )

ライセンス: Link先を確認
Daniel Torregrosa and Nivranshu Pasricha and Maraim Masoud and Bharathi Raja Chakravarthi and Juan Alonso and Noe Casas and Mihael Arcan(参考訳) ルールベース機械翻訳(ルールベースきゅうがく、英: Rule-based machine translation)は、言語知識を専門家が翻訳する機械翻訳のパラダイムである。 このアプローチはシステムのアウトプットを広範囲に制御するが、必要な言語知識の形式化のコストは、機械学習アプローチを使用して例から翻訳を自動学習するコーパスベースのシステムのトレーニングよりもはるかに高い。 本稿では,ルールベース機械翻訳システムに含まれる情報を活用して,コーパスベースのもの,すなわち低リソースシナリオに着目したニューラルマシン翻訳モデルを改善するための異なる手法について述べる。 形態情報、名前付き実体、用語の3種類が用いられた。 システムの性能評価に加えて,対象とする現象に対処する際の提案手法の性能を体系的に分析した。 その結果,提案手法は外部情報から学習する能力に制限があり,そのほとんどは自動評価の結果に大きな影響を与えないが,予備的定性評価の結果から,受動的音声の使用を継続するなど,システムが生成する仮説が有利な行動を示すことが示された。

Rule-based machine translation is a machine translation paradigm where linguistic knowledge is encoded by an expert in the form of rules that translate text from source to target language. While this approach grants extensive control over the output of the system, the cost of formalising the needed linguistic knowledge is much higher than training a corpus-based system, where a machine learning approach is used to automatically learn to translate from examples. In this paper, we describe different approaches to leverage the information contained in rule-based machine translation systems to improve a corpus-based one, namely, a neural machine translation model, with a focus on a low-resource scenario. Three different kinds of information were used: morphological information, named entities and terminology. In addition to evaluating the general performance of the system, we systematically analysed the performance of the proposed approaches when dealing with the targeted phenomena. Our results suggest that the proposed models have limited ability to learn from external information, and most approaches do not significantly alter the results of the automatic evaluation, but our preliminary qualitative evaluation shows that in certain cases the hypothesis generated by our system exhibit favourable behaviour such as keeping the use of passive voice.
翻訳日:2022-10-13 21:48:35 公開日:2020-09-28
# ニューラルネットワークを用いた分類問題の事前推定

A priori estimates for classification problems using neural networks ( http://arxiv.org/abs/2009.13500v1 )

ライセンス: Link先を確認
Weinan E and Stephan Wojtowytsch(参考訳) ニューラルネットワークの仮説クラスを用いた二項分類と多項分類の問題を考察する。 与えられた仮説クラスに対して、ラデマッハ複雑性推定と直接近似定理を用いて正規化損失汎関数の事前誤差推定を求める。

We consider binary and multi-class classification problems using hypothesis classes of neural networks. For a given hypothesis class, we use Rademacher complexity estimates and direct approximation theorems to obtain a priori error estimates for regularized loss functionals.
翻訳日:2022-10-13 21:42:33 公開日:2020-09-28
# ディープラーニングのReLUネットワークを学習する

Learning Deep ReLU Networks Is Fixed-Parameter Tractable ( http://arxiv.org/abs/2009.13512v1 )

ライセンス: Link先を確認
Sitan Chen, Adam R. Klivans, Raghu Meka(参考訳) ガウス入力に関して未知のreluネットワークを学習する問題を考察し,深さ2以上のネットワークに対する最初の非自明な結果を得る。 実行時間が周囲次元の固定多項式であるアルゴリズムと、ネットワークのパラメータのみのいくつかの(指数的に大きい)関数を与える。 我々の境界は、隠れた単位数、深さ、重み行列のスペクトルノルム、および全体のネットワークのリプシッツ定数に依存する(リプシッツ定数へのいくつかの依存が必要であることを示す)。 また、ネットワークのサイズが2倍に指数関数的であるが、スペクトルノルムとは独立な境界を与える。 これらの結果は勾配に基づく手法では得られず、勾配降下が学習できない効率的な学習可能なニューラルネットワークのクラスの最初の例を与える。 対照的に、深度3以上のネットワークを学習するには、上記のパラメータが定数で有界であっても、周囲次元の指数時間を必要とする。 さらに、深度2のケースのすべての事前作業には、効率的な実行時間を得るために、十分な条件付き重みと/または正の係数が必要である。 我々のアルゴリズムはこれらの仮定を必要としない。 我々の主な技術ツールはフィルタPCAの一種であり、第1層に隠されたユニットが分散する部分空間の近似基底を反復的に復元することができる。 本解析は,熱帯幾何学による格子多項式の新たな構造的結果を活用する。

We consider the problem of learning an unknown ReLU network with respect to Gaussian inputs and obtain the first nontrivial results for networks of depth more than two. We give an algorithm whose running time is a fixed polynomial in the ambient dimension and some (exponentially large) function of only the network's parameters. Our bounds depend on the number of hidden units, depth, spectral norm of the weight matrices, and Lipschitz constant of the overall network (we show that some dependence on the Lipschitz constant is necessary). We also give a bound that is doubly exponential in the size of the network but is independent of spectral norm. These results provably cannot be obtained using gradient-based methods and give the first example of a class of efficiently learnable neural networks that gradient descent will fail to learn. In contrast, prior work for learning networks of depth three or higher requires exponential time in the ambient dimension, even when the above parameters are bounded by a constant. Additionally, all prior work for the depth-two case requires well-conditioned weights and/or positive coefficients to obtain efficient run-times. Our algorithm does not require these assumptions. Our main technical tool is a type of filtered PCA that can be used to iteratively recover an approximate basis for the subspace spanned by the hidden units in the first layer. Our analysis leverages new structural results on lattice polynomials from tropical geometry.
翻訳日:2022-10-13 21:42:28 公開日:2020-09-28
# 階層型GANによる異常検出とサンプリングコスト制御

Anomaly Detection and Sampling Cost Control via Hierarchical GANs ( http://arxiv.org/abs/2009.13598v1 )

ライセンス: Link先を確認
Chen Zhong, M. Cenk Gursoy, and Senem Velipasalar(参考訳) 異常検出は特定のサンプリングおよびセンシングコストを引き起こすため、検出精度とこれらのコストのバランスをとることが非常に重要である。 本研究では,確率時系列におけるしきい値交叉の検出を統計の知識を伴わずに考慮し,異常検出について検討する。 この検出プロセスにおけるサンプリングコストを削減するため,非一様サンプリングを行うために階層型生成逆ネットワーク(GAN)を提案する。 検出精度の向上と検出遅延の低減を目的として,提案するgan型検出器の動作においてバッファゾーンを導入する。 実験では, 検出遅延, ミス率, 誤差の平均コスト, サンプリング率の指標を考慮した階層型gan検出器の性能解析を行った。 バッファゾーンのサイズや階層内のGANレベルの数が異なるため,性能上のトレードオフを識別する。 また,確率過程のパラメータを考慮したサンプリング平均コストと誤差の和をほぼ最小化するサンプリングポリシーと比較した。 提案したGAN検出器は,バッファゾーンが大きい場合の検出遅延と平均誤差コストにおいて,サンプリングレートの増加による大幅な性能向上が期待できることを示した。

Anomaly detection incurs certain sampling and sensing costs and therefore it is of great importance to strike a balance between the detection accuracy and these costs. In this work, we study anomaly detection by considering the detection of threshold crossings in a stochastic time series without the knowledge of its statistics. To reduce the sampling cost in this detection process, we propose the use of hierarchical generative adversarial networks (GANs) to perform nonuniform sampling. In order to improve the detection accuracy and reduce the delay in detection, we introduce a buffer zone in the operation of the proposed GAN-based detector. In the experiments, we analyze the performance of the proposed hierarchical GAN detector considering the metrics of detection delay, miss rates, average cost of error, and sampling ratio. We identify the tradeoffs in the performance as the buffer zone sizes and the number of GAN levels in the hierarchy vary. We also compare the performance with that of a sampling policy that approximately minimizes the sum of average costs of sampling and error given the parameters of the stochastic process. We demonstrate that the proposed GAN-based detector can have significant performance improvements in terms of detection delay and average cost of error with a larger buffer zone but at the cost of increased sampling rates.
翻訳日:2022-10-13 21:41:34 公開日:2020-09-28
# 形態素画像処理を用いたスケッチトラスフレームのセグメンテーションと解析

Segmentation and Analysis of a Sketched Truss Frame Using Morphological Image Processing Techniques ( http://arxiv.org/abs/2009.13144v1 )

ライセンス: Link先を確認
Mirsalar Kamari and Oguz Gunes(参考訳) 建物の能力を分析し評価する計算ツールの開発は、土木工学に大きな影響を与えた。 構造的ソフトウェアパッケージとのインタラクションが容易になり,ソフトウェアとのインタラクション中にユーザの役割を自動化することによって,モデリングツールの賢さが向上している。 構造モデリングに関わる困難かつ最も時間を要するステップの1つは、分析を提供するために構造の幾何学を定義することである。 本稿では,紙に手書き又はコンピュータで生成したトラスフレームを自動解析する手法の開発について述べる。 まず,形態素画像処理手法を用いて,手描きトラス成分のセグメンテーション手法に着目し,トラス成分のリアルタイム解析を行う。 我々は,トラス幾何学と内部力の一般理解を容易にするため,入力画像の結果を可視化し,拡張する。 MATLABは画像処理目的のプログラミング言語として使用され、Sap2000 APIを用いてトラスを解析し、MATLABと統合して便利な構造解析を提供する。 本稿では, 画像処理による構造解析の自動化の可能性を強調し, 構造システムの効率を迅速に評価する。 このフレームワークのさらなる開発は、構造がモデル化され分析される方法に革命をもたらす可能性が高い。

Development of computational tools to analyze and assess the building capacities has had a major impact in civil engineering. The interaction with the structural software packages is becoming easier and the modeling tools are becoming smarter by automating the users role during their interaction with the software. One of the difficulties and the most time consuming steps involved in the structural modeling is defining the geometry of the structure to provide the analysis. This paper is dedicated to the development of a methodology to automate analysis of a hand sketched or computer generated truss frame drawn on a piece of paper. First, we focus on the segmentation methodologies for hand sketched truss components using the morphological image processing techniques, and then we provide a real time analysis of the truss. We visualize and augment the results on the input image to facilitate the public understanding of the truss geometry and internal forces. MATLAB is used as the programming language for the image processing purposes, and the truss is analyzed using Sap2000 API to integrate with MATLAB to provide a convenient structural analysis. This paper highlights the potential of the automation of the structural analysis using image processing to quickly assess the efficiency of structural systems. Further development of this framework is likely to revolutionize the way that structures are modeled and analyzed.
翻訳日:2022-10-13 21:41:14 公開日:2020-09-28
# amodal 3d reconstruction for robot manipulation via stability and connectivity (特集 ロボットマニピュレーション)

Amodal 3D Reconstruction for Robotic Manipulation via Stability and Connectivity ( http://arxiv.org/abs/2009.13146v1 )

ライセンス: Link先を確認
William Agnew, Christopher Xie, Aaron Walsman, Octavian Murad, Caelen Wang, Pedro Domingos, Siddhartha Srinivasa(参考訳) 学習に基づく3Dオブジェクト再構成により、3Dオブジェクトモデルの単一または少数ショット推定が可能となる。 ロボット工学にとってこれは、モデルに基づく手法が新しい物体やシーンに迅速に適応できる可能性を秘めている。 既存の3D再構成技術は、通常、シャムファー距離またはボクセルIOUによって測定される視覚的再構成忠実度を最適化する。 リアルで散らばったロボット環境に適用すると、これらのシステムは物理的リアリズムの低い再構成を発生し、モデルベース制御におけるタスク性能が低下することがわかった。 本研究では,(1)オブジェクト形状に先行する安定性,(2)接続先,(3)オブジェクト群間の関係を推論するマルチチャネル入力表現を導入するアモーダル3D再構成システムARMを提案する。 オブジェクトの物理的特性に対するこれらの先行性を利用することで、標準的な視覚メトリクスだけでなく、様々なロボット操作タスクにおけるモデルベース制御の性能も向上する。 コードはgithub.com/wagnew3/ARMで入手できる。

Learning-based 3D object reconstruction enables single- or few-shot estimation of 3D object models. For robotics, this holds the potential to allow model-based methods to rapidly adapt to novel objects and scenes. Existing 3D reconstruction techniques optimize for visual reconstruction fidelity, typically measured by chamfer distance or voxel IOU. We find that when applied to realistic, cluttered robotics environments, these systems produce reconstructions with low physical realism, resulting in poor task performance when used for model-based control. We propose ARM, an amodal 3D reconstruction system that introduces (1) a stability prior over object shapes, (2) a connectivity prior, and (3) a multi-channel input representation that allows for reasoning over relationships between groups of objects. By using these priors over the physical properties of objects, our system improves reconstruction quality not just by standard visual metrics, but also performance of model-based control on a variety of robotics manipulation tasks in challenging, cluttered environments. Code is available at github.com/wagnew3/ARM.
翻訳日:2022-10-13 21:40:55 公開日:2020-09-28
# 形状マッチングのための弱改良深部関数マップ

Weakly Supervised Deep Functional Map for Shape Matching ( http://arxiv.org/abs/2009.13339v1 )

ライセンス: Link先を確認
Abhishek Sharma and Maks Ovsjanikov(参考訳) 近年では、完全な教師付きから完全に教師なしまで、様々な損失関数と異なる正規化項を含む様々な深い関数写像が提案されている。 しかし、深層機能マップパイプラインの最小成分が何であるか、その成分が深層機能マップに関する最近のすべての作業を統一するか、あるいは一般化するかは、まだ明らかではない。 異なる損失関数を持つ芸術結果の状態を得るための経験的最小成分を示し,教師なしおよび教師なしの方法を示した。 さらに,フル・トゥ・フルとパーシャル・フル・シェイプ・マッチングの両方のために設計された新しいフレームワークを提案する。 私たちのコードはhttps://github.com/Not-IITian/Weakly-supervised-Functional-mapで公開されています。

A variety of deep functional maps have been proposed recently, from fully supervised to totally unsupervised, with a range of loss functions as well as different regularization terms. However, it is still not clear what are minimum ingredients of a deep functional map pipeline and whether such ingredients unify or generalize all recent work on deep functional maps. We show empirically minimum components for obtaining state of the art results with different loss functions, supervised as well as unsupervised. Furthermore, we propose a novel framework designed for both full-to-full as well as partial to full shape matching that achieves state of the art results on several benchmark datasets outperforming even the fully supervised methods by a significant margin. Our code is publicly available at https://github.com/Not-IITian/Weakly-supervised-Functional-map
翻訳日:2022-10-13 21:39:40 公開日:2020-09-28
# ガウス混合モデルのラピッドランドスケープと局所的ミニマ構造

Likelihood Landscape and Local Minima Structures of Gaussian Mixture Models ( http://arxiv.org/abs/2009.13040v1 )

ライセンス: Link先を確認
Yudong Chen and Xumei Xi(参考訳) 本稿では,一般成分を用いたガウス混合モデルの個体群負の対数類似関数の景観について検討する。 非凸性のため、混合が十分に分離されている場合でも、グローバルに最適ではない複数の局所極小が存在する。 すべての局所極小は、真の混合の成分中心を部分的に識別する構造を共有しており、各局所極小は、複数のガウス成分を1つの真の成分に当てはめ、1つのガウス成分を複数の真の成分に当てはめるような重複しない組み合わせを含む。 本結果は, 真の混合成分が一定の分離条件を満たす場合に適用し, 成分数が過大あるいは過小に指定された場合でも有効であることを示す。 3成分のガウス混合に対して、成分間の分離によるスケーリングの観点からよりシャープな結果が得られる。

In this paper, we study the landscape of the population negative log-likelihood function of Gaussian Mixture Models with a general number of components. Due to nonconvexity, there exist multiple local minima that are not globally optimal, even when the mixture is well-separated. We show that all local minima share the same form of structure that partially identifies the component centers of the true mixture, in the sense that each local minimum involves a non-overlapping combination of fitting multiple Gaussians to a single true component and fitting a single Gaussian to multiple true components. Our results apply to the setting where the true mixture components satisfy a certain separation condition, and are valid even when the number of components is over-or under-specified. For Gaussian mixtures with three components, we obtain sharper results in terms of the scaling with the separation between the components.
翻訳日:2022-10-13 21:33:44 公開日:2020-09-28
# ノイズエンハンスメントによる一般化の改善

Improved generalization by noise enhancement ( http://arxiv.org/abs/2009.13094v1 )

ライセンス: Link先を確認
Takashi Mori, Masahito Ueda(参考訳) 近年の研究では、確率的勾配降下(sgd)におけるノイズは一般化と密接に関連していることが示されている。 SGDノイズの共分散は$\eta^2/B$に比例するので、$\eta$は学習率、$B$はSGDのミニバッチサイズである。 しかし、大きすぎる$\eta$はトレーニングダイナミクスの不安定性をもたらし、小さな$B$はスケーラブルな並列計算を妨げます。 したがって、$\eta$と$B$を変更することなくSGDノイズを制御する方法を開発することが望ましい。 本稿では,実際に容易に実装できる ‘noise enhancement'' を用いて,この目標を達成する手法を提案する。 基礎となる理論概念を概説し、ノイズ強調が実際のデータセットの一般化を実際に改善することを示す。 ノイズエンハンスメントによる大規模バッチトレーニングは,小規模バッチトレーニングよりも一般化度が向上していることが分かりました。

Recent studies have demonstrated that noise in stochastic gradient descent (SGD) is closely related to generalization: A larger SGD noise, if not too large, results in better generalization. Since the covariance of the SGD noise is proportional to $\eta^2/B$, where $\eta$ is the learning rate and $B$ is the minibatch size of SGD, the SGD noise has so far been controlled by changing $\eta$ and/or $B$. However, too large $\eta$ results in instability in the training dynamics and a small $B$ prevents scalable parallel computation. It is thus desirable to develop a method of controlling the SGD noise without changing $\eta$ and $B$. In this paper, we propose a method that achieves this goal using ``noise enhancement'', which is easily implemented in practice. We expound the underlying theoretical idea and demonstrate that the noise enhancement actually improves generalization for real datasets. It turns out that large-batch training with the noise enhancement even shows better generalization compared with small-batch training.
翻訳日:2022-10-13 21:32:39 公開日:2020-09-28
# スペクトルアプローチによるニューラルネットワークからの重み付きオートマタの蒸留

Distillation of Weighted Automata from Recurrent Neural Networks using a Spectral Approach ( http://arxiv.org/abs/2009.13101v1 )

ライセンス: Link先を確認
Remi Eyraud and Stephane Ayache(参考訳) 本稿では,ディープラーニングと文法推論のギャップを埋める試みである。 実際、言語モデリングのために訓練されたリカレントニューラルネットワークから(確率的な)形式言語を抽出するアルゴリズムを提供する。 詳細は、アルゴリズムは訓練済みのネットワークをオラクルとして使用し、従ってブラックボックスの内部表現へのアクセスを必要とせず、重み付けされたオートマトンを推測するためにスペクトルアプローチを適用する。 重み付きオートマトンは線形関数を計算するため、ニューラルネットワークよりも計算効率が高いため、アプローチの性質は知識蒸留のものである。 提案アルゴリズムの能力について詳細な研究を可能にする62個のデータセット(合成および実世界のアプリケーションの両方)について実験を行った。 その結果,抽出したWAはRNNの近似が良好であることを示し,そのアプローチを検証した。 さらに、このプロセスが、データに基づいて学んだRNNの行動に対して興味深い洞察を与える方法を示し、この研究の範囲をディープラーニングモデルの説明可能性の1つに広げる。

This paper is an attempt to bridge the gap between deep learning and grammatical inference. Indeed, it provides an algorithm to extract a (stochastic) formal language from any recurrent neural network trained for language modelling. In detail, the algorithm uses the already trained network as an oracle -- and thus does not require the access to the inner representation of the black-box -- and applies a spectral approach to infer a weighted automaton. As weighted automata compute linear functions, they are computationally more efficient than neural networks and thus the nature of the approach is the one of knowledge distillation. We detail experiments on 62 data sets (both synthetic and from real-world applications) that allow an in-depth study of the abilities of the proposed algorithm. The results show the WA we extract are good approximations of the RNN, validating the approach. Moreover, we show how the process provides interesting insights toward the behavior of RNN learned on data, enlarging the scope of this work to the one of explainability of deep learning models.
翻訳日:2022-10-13 21:32:18 公開日:2020-09-28
# ecgdetect: 深層学習による虚血の検出

ECGDetect: Detecting Ischemia via Deep Learning ( http://arxiv.org/abs/2009.13232v1 )

ライセンス: Link先を確認
Atandra Burman, Jitto Titus, David Gbadebo, Melissa Burman(参考訳) 冠状動脈疾患(CAD)は心臓疾患の最も一般的なタイプであり、世界中で死因となっている[1]。 この疾患の進行状態は、急性冠症候群(英語版)(acs)としても知られる冠動脈のプラーク破裂と血栓形成を特徴とし、心筋と神経束を正常に灌流させる冠血管の一部または完全閉塞による突然の血流の減少に伴う心臓の状態であり、心臓の適切な機能に影響を与えている。 胸の痛みやきつさが米国における緊急部訪問の2番目に多い原因であることから、早期にACSを検出することが必須である。 これは、典型的な胸痛の症状を感じず、無症候性心筋障害の影響を受けやすい在宅糖尿病患者に特に関係がある。 本研究では, 心筋虚血に伴うST変化における形態パターンを検出する機械学習モデルであるCE-ECG-Detectアルゴリズムを開発した。 RCE-ECG-Detect を LTST データベースからのデータを用いて開発した。 RCEのECGウェアラブルを用いて収集したホールドアウトテストセットにおいて,機械学習モデルの予測性能を検証した。 我々のディープニューラルネットワークモデルは畳み込み層を備え、90.31%のROC-AUC、89.34%の感度、87.81%の特異性が得られる。

Coronary artery disease(CAD) is the most common type of heart disease and the leading cause of death worldwide[1]. A progressive state of this disease marked by plaque rupture and clot formation in the coronary arteries, also known as an acute coronary syndrome (ACS), is a condition of the heart associated with sudden, reduced blood flow caused due to partial or full occlusion of coronary vasculature that normally perfuses the myocardium and nerve bundles, compromising the proper functioning of the heart. Often manifesting with pain or tightness in the chest as the second most common cause of emergency department visits in the United States, it is imperative to detect ACS at the earliest. This is particularly relevant to diabetic patients at home, that may not feel classic chest pain symptoms, and are susceptible to silent myocardial injury. In this study, we developed the RCE- ECG-Detect algorithm, a machine learning model to detect the morphological patterns in significant ST change associated with myocardial ischemia. We developed the RCE- ECG-Detect using data from the LTST database which has a sufficiently large sample set to train a reliable model. We validated the predictive performance of the machine learning model on a holdout test set collected using RCE's ECG wearable. Our deep neural network model, equipped with convolution layers, achieves 90.31% ROC-AUC, 89.34% sensitivity, 87.81% specificity.
翻訳日:2022-10-13 21:31:48 公開日:2020-09-28
# BOML: メタ学習のためのPythonのモジュール化バイレベル最適化ライブラリ

BOML: A Modularized Bilevel Optimization Library in Python for Meta Learning ( http://arxiv.org/abs/2009.13357v1 )

ライセンス: Link先を確認
Yaohua Liu, Risheng Liu(参考訳) メタラーニング(英: meta-learning)は、様々なアプリケーションにとって有望なパラダイムとして最近登場した。 現在、多くのメタ学習手法があり、それぞれベースとメタ学習者の異なるモデリング側面に焦点を当てているが、全ては(再)特定の二段階最適化問題として表現することができる。 BOMLは、複数のメタ学習アルゴリズムを共通の双方向最適化フレームワークに統合するモジュール化された最適化ライブラリである。 さまざまなイテレーションモジュールとともに階層的な最適化パイプラインを提供し、メタ機能ベースやメタ初期化ベースの定式化といったメタ学習メソッドの主流カテゴリを解決するために使用できる。 ライブラリはpythonで書かれており、https://github.com/dut-media-lab/bomlで入手できる。

Meta-learning (a.k.a. learning to learn) has recently emerged as a promising paradigm for a variety of applications. There are now many meta-learning methods, each focusing on different modeling aspects of base and meta learners, but all can be (re)formulated as specific bilevel optimization problems. This work presents BOML, a modularized optimization library that unifies several meta-learning algorithms into a common bilevel optimization framework. It provides a hierarchical optimization pipeline together with a variety of iteration modules, which can be used to solve the mainstream categories of meta-learning methods, such as meta-feature-based and meta-initialization-based formulations. The library is written in Python and is available at https://github.com/dut-media-lab/BOML.
翻訳日:2022-10-13 21:31:21 公開日:2020-09-28
# Afro-MNIST:低リソース言語向けMNISTスタイルデータセットの合成

Afro-MNIST: Synthetic generation of MNIST-style datasets for low-resource languages ( http://arxiv.org/abs/2009.13509v1 )

ライセンス: Link先を確認
Daniel J Wu, Andrew C Yang, Vinay U Prabhu(参考訳) 本稿では,Afro-Asiatic と Niger-Congo 言語で使用されている4つの正書法のための合成 MNIST 形式のデータセットである Afro-MNIST について述べる。 これらのデータセットはMNISTの"ドロップイン"代替として機能する。 また,各桁の単一例からMNISTスタイルのデータセットを生成する手法について述べる。 これらのデータセットはhttps://github.com/Daniel-Wu/AfroMNISTで見ることができる。 MNISTスタイルのデータセットが他の数値システム向けに開発され、これらのデータセットが研究コミュニティの少数民族における機械学習教育を活性化することを期待している。

We present Afro-MNIST, a set of synthetic MNIST-style datasets for four orthographies used in Afro-Asiatic and Niger-Congo languages: Ge`ez (Ethiopic), Vai, Osmanya, and N'Ko. These datasets serve as "drop-in" replacements for MNIST. We also describe and open-source a method for synthetic MNIST-style dataset generation from single examples of each digit. These datasets can be found at https://github.com/Daniel-Wu/AfroMNIST. We hope that MNIST-style datasets will be developed for other numeral systems, and that these datasets vitalize machine learning education in underrepresented nations in the research community.
翻訳日:2022-10-13 21:24:11 公開日:2020-09-28
# 生物医学的暗黒データによる視覚探索と知識発見

Visual Exploration and Knowledge Discovery from Biomedical Dark Data ( http://arxiv.org/abs/2009.13059v1 )

ライセンス: Link先を確認
Shashwat Aggarwal, Ramesh Singh(参考訳) データビジュアライゼーション技術は、意思決定とパターン認識のプロセスを高速化するだけでなく、意思決定者がデータの洞察を完全に理解し、情報的な決定を行えるように、グラフィカルに魅力的なフォーマットでデータを整理し提示する手段を提供する。 時間が経つにつれて、技術と計算資源の増大とともに、世界の科学知識は指数関数的に増加した。 しかし、そのほとんどは構造が欠けており、簡単に分類や正規データベースへのインポートはできない。 このタイプのデータは、しばしばダークデータと呼ばれる。 データ可視化技術は、情報の迅速な理解、新たなトレンドの発見、関係とパターンの識別などを可能にすることで、このようなデータを探索するための有望なソリューションを提供する。 本研究では,バイオメディカル文献からの3000万以上の引用を含むPubMedのリッチコーパスを用いて,様々な情報可視化技術を用いて,基礎となるキーインサイトを視覚的に探索し,理解する。 我々は,自然言語処理に基づくパイプラインを用いて,生物医学的暗黒データから知識を発見する。 このパイプラインは、固有のトピックや主要な焦点領域を抽出するトピックモデリングや、科学文書やジャーナル、研究者、キーワードや用語など、さまざまなエンティティの関係を研究するネットワークグラフなど、さまざまな語彙分析技術で構成されている。 そこで本研究では,膨大な量の情報を分析し,その処理・分析における人間の認識・認識の限界を減少させる潜在的な解決法を提示することを目的とする。

Data visualization techniques proffer efficient means to organize and present data in graphically appealing formats, which not only speeds up the process of decision making and pattern recognition but also enables decision-makers to fully understand data insights and make informed decisions. Over time, with the rise in technological and computational resources, there has been an exponential increase in the world's scientific knowledge. However, most of it lacks structure and cannot be easily categorized and imported into regular databases. This type of data is often termed as Dark Data. Data visualization techniques provide a promising solution to explore such data by allowing quick comprehension of information, the discovery of emerging trends, identification of relationships and patterns, etc. In this empirical research study, we use the rich corpus of PubMed comprising of more than 30 million citations from biomedical literature to visually explore and understand the underlying key-insights using various information visualization techniques. We employ a natural language processing based pipeline to discover knowledge out of the biomedical dark data. The pipeline comprises of different lexical analysis techniques like Topic Modeling to extract inherent topics and major focus areas, Network Graphs to study the relationships between various entities like scientific documents and journals, researchers, and, keywords and terms, etc. With this analytical research, we aim to proffer a potential solution to overcome the problem of analyzing overwhelming amounts of information and diminish the limitation of human cognition and perception in handling and examining such large volumes of data.
翻訳日:2022-10-13 21:23:55 公開日:2020-09-28
# 自己学習が可能な熱力学的に一貫した化学スパイクニューロン

A thermodynamically consistent chemical spiking neuron capable of autonomous Hebbian learning ( http://arxiv.org/abs/2009.13207v1 )

ライセンス: Link先を確認
Jakub Fil and Dominique Chu(参考訳) 我々は、スパイキングニューロンを実装する完全自律的、熱力学的に一貫した化学反応セットを提案する。 この化学ニューロンはヘビアン方式で入力パターンを学習することができる。 このシステムは任意の数の入力チャネルにスケーラブルである。 入力チャネル間の相関だけでなく、入力の周波数バイアスの学習におけるその性能を示す。 時間相関の効率的な計算には高非線形活性化関数が必要である。 非線形活性化関数の資源要求について述べる。 CNの熱力学的に一貫したモデルに加えて、合成生物学の文脈で設計できる生物学的にもっともらしいバージョンも提案する。

We propose a fully autonomous, thermodynamically consistent set of chemical reactions that implements a spiking neuron. This chemical neuron is able to learn input patterns in a Hebbian fashion. The system is scalable to arbitrarily many input channels. We demonstrate its performance in learning frequency biases in the input as well as correlations between different input channels. Efficient computation of time-correlations requires a highly non-linear activation function. The resource requirements of a non-linear activation function are discussed. In addition to the thermodynamically consistent model of the CN, we also propose a biologically plausible version that could be engineered in a synthetic biology context.
翻訳日:2022-10-13 21:23:18 公開日:2020-09-28
# 進化的マルチモーダル多目的最適化の展望

A Review of Evolutionary Multi-modal Multi-objective Optimization ( http://arxiv.org/abs/2009.13347v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) マルチモーダル多目的最適化は、目的空間における重なり合う解を含む全てのパレート最適解を見つけることを目的としている。 マルチモーダル多目的最適化は2005年から進化計算コミュニティで研究されている。 しかし,マルチモーダル・マルチ目的最適化(multi-modal multi-objective optimization)という用語を明示的に用いていないため,既存の研究を調査することは困難である。 本稿では,マルチモーダル・マルチ目的最適化とは別の名前で発表された研究を含む,進化的マルチモーダル・マルチ目的最適化に関する既存の研究を概説する。 また,本研究領域におけるオープンな課題も明らかにした。

Multi-modal multi-objective optimization aims to find all Pareto optimal solutions including overlapping solutions in the objective space. Multi-modal multi-objective optimization has been investigated in the evolutionary computation community since 2005. However, it is difficult to survey existing studies in this field because they have been independently conducted and do not explicitly use the term "multi-modal multi-objective optimization". To address this issue, this paper reviews existing studies of evolutionary multi-modal multi-objective optimization, including studies published under names that are different from "multi-modal multi-objective optimization". Our review also clarifies open issues in this research area.
翻訳日:2022-10-13 21:23:10 公開日:2020-09-28
# 手術における人工知能:ニューラルネットワークとディープラーニング

Artificial Intelligence in Surgery: Neural Networks and Deep Learning ( http://arxiv.org/abs/2009.13411v1 )

ライセンス: Link先を確認
Deepak Alapatt and Pietro Mascagni, Vinkle Srivastav, Nicolas Padoy(参考訳) 深層ニューラルネットワークは、自動運転車から、放射線学や病理学におけるコンピュータ支援診断まで、最新の人工知能の成功を支えている。 手術の高度なデータ集約処理は、そのような計算手法の恩恵を受ける可能性がある。 しかし、外科医やコンピュータ科学者は、患者や医療システムに対する価値の深層学習アプリケーションの開発と評価をパートナーとして行うべきである。 この章と付属するハンズオン素材は、ニューラルネットワークの背景にある直感を理解し、深層学習の概念やタスクに精通し、手術でディープラーニングモデルを実装することが何を意味するかを把握し、最終的に手術における深層ニューラルネットワークの具体的な課題と限界を理解するために設計された。 関連資料はhttps://github.com/camma-public/ai4surgeryを参照。

Deep neural networks power most recent successes of artificial intelligence, spanning from self-driving cars to computer aided diagnosis in radiology and pathology. The high-stake data intensive process of surgery could highly benefit from such computational methods. However, surgeons and computer scientists should partner to develop and assess deep learning applications of value to patients and healthcare systems. This chapter and the accompanying hands-on material were designed for surgeons willing to understand the intuitions behind neural networks, become familiar with deep learning concepts and tasks, grasp what implementing a deep learning model in surgery means, and finally appreciate the specific challenges and limitations of deep neural networks in surgery. For the associated hands-on material, please see https://github.com/CAMMA-public/ai4surgery.
翻訳日:2022-10-13 21:22:57 公開日:2020-09-28
# タスクベースfMRIデータセットにおけるニューラルシグネチャ解析のためのDeep Representational similarity Learning

Deep Representational Similarity Learning for analyzing neural signatures in task-based fMRI dataset ( http://arxiv.org/abs/2010.02012v1 )

ライセンス: Link先を確認
Muhammad Yousefnezhad, Jeffrey Sawalha, Alessandro Selvitella, Daoqiang Zhang(参考訳) 類似性分析は、ほとんどのfMRI研究において重要なステップの1つである。 表現的類似性解析(rsa)は、異なる認知状態によって生成される神経信号の類似性を測定することができる。 本稿では,多数の被験者を持つfMRIデータセットにおける様々な認知課題と,全脳画像などの高次元の類似性を分析するのに適した,RSAの深部拡張であるDep Representational similarity Learning(DRSL)を開発する。 以前の方法とは異なり、drslは線型変換やガウス核のような制限付き非線形核関数によって制限されない。 DRSLは、ニューラルネットワークを線形空間にマッピングするために多層ニューラルネットワークを使用し、各対象に対して個別にカスタマイズされた非線形変換を実装できる。 さらに、drslにおける勾配に基づく最適化を利用することで、最適な解を見つけるためにすべての神経応答ではなく、各イテレーションでサンプルのバッチを使用するため、大規模なデータセットの分析の実行時間を大幅に削減することができる。 視覚刺激, 意思決定, 味覚, 作業記憶など, 様々なタスクを持つ多目的fMRIデータセットの実証研究により, 提案手法が他の最先端RSAアルゴリズムよりも優れた性能を実現することを確認した。

Similarity analysis is one of the crucial steps in most fMRI studies. Representational Similarity Analysis (RSA) can measure similarities of neural signatures generated by different cognitive states. This paper develops Deep Representational Similarity Learning (DRSL), a deep extension of RSA that is appropriate for analyzing similarities between various cognitive tasks in fMRI datasets with a large number of subjects, and high-dimensionality -- such as whole-brain images. Unlike the previous methods, DRSL is not limited by a linear transformation or a restricted fixed nonlinear kernel function -- such as Gaussian kernel. DRSL utilizes a multi-layer neural network for mapping neural responses to linear space, where this network can implement a customized nonlinear transformation for each subject separately. Furthermore, utilizing a gradient-based optimization in DRSL can significantly reduce runtime of analysis on large datasets because it uses a batch of samples in each iteration rather than all neural responses to find an optimal solution. Empirical studies on multi-subject fMRI datasets with various tasks -- including visual stimuli, decision making, flavor, and working memory -- confirm that the proposed method achieves superior performance to other state-of-the-art RSA algorithms.
翻訳日:2022-10-13 21:22:43 公開日:2020-09-28
# 深層学習に基づく非定位マンモグラムの自動検出による再画像化のための患者訪問の最小化:実世界の応用

Deep Learning-Based Automatic Detection of Poorly Positioned Mammograms to Minimize Patient Return Visits for Repeat Imaging: A Real-World Application ( http://arxiv.org/abs/2009.13580v1 )

ライセンス: Link先を確認
Vikash Gupta and Clayton Taylor and Sarah Bonnet and Luciano M. Prevedello and Jeffrey Hawley and Richard D White and Mona G Flores and Barbaros Selnur Erdal(参考訳) スクリーニングマンモグラフィーは、乳がんを早期に検出し、この疾患による死亡率と死亡率を減少させる定期的な画像検査である。 乳癌検診プログラムの有効性を最大化するためには,適切なマンモグラフィー位置決めが最重要である。 適切な位置決めは乳房組織を適切に可視化し、乳癌の効果的な検出に必要である。 したがって、乳房画像撮影の放射線科医は、検査の最終的な解釈を提供する前に、位置決めの適切性について各マンモグラムを評価する必要がある。 本稿では,この意思決定過程を模倣・自動化し,位置不明のマンモグラムを同定する深層学習アルゴリズムを提案する。 このアルゴリズムの目的は,マンモグラフィ技術者が不適切な位置のマンモグラムをリアルタイムに認識すること,マンモグラフィの測位と性能を向上させること,および最終的に画像検査が不十分な患者に対する繰り返し訪問を減らすことである。 提案モデルは, 正定位が91.35%, 正定位が95.11%, 正定位が91.35%, 正定位が95.11%であった。 これらの結果に加えて, マンモグラフィー技術者が患者訪問時の矯正措置を取るのに役立つ, 自動生成レポートも提示した。

Screening mammograms are a routine imaging exam performed to detect breast cancer in its early stages to reduce morbidity and mortality attributed to this disease. In order to maximize the efficacy of breast cancer screening programs, proper mammographic positioning is paramount. Proper positioning ensures adequate visualization of breast tissue and is necessary for effective breast cancer detection. Therefore, breast-imaging radiologists must assess each mammogram for the adequacy of positioning before providing a final interpretation of the examination; this often necessitates return patient visits for additional imaging. In this paper, we propose a deep learning-algorithm method that mimics and automates this decision-making process to identify poorly positioned mammograms. Our objective for this algorithm is to assist mammography technologists in recognizing inadequately positioned mammograms real-time, improve the quality of mammographic positioning and performance, and ultimately reducing repeat visits for patients with initially inadequate imaging. The proposed model showed a true positive rate for detecting correct positioning of 91.35% in the mediolateral oblique view and 95.11% in the craniocaudal view. In addition to these results, we also present an automatically generated report which can aid the mammography technologist in taking corrective measures during the patient visit.
翻訳日:2022-10-13 21:22:21 公開日:2020-09-28
# 生成モデルに疎結合なフェデレーション学習

Loosely Coupled Federated Learning Over Generative Models ( http://arxiv.org/abs/2009.12999v1 )

ライセンス: Link先を確認
Shaoming Song, Yunfeng Shao, Jian Li(参考訳) プライベートデータをアップロードすることなく、さまざまなクライアント間で協調的な機械学習を実現するために、フェデレートラーニング(FL)が提案された。 しかし、モデル集約戦略のため、既存のフレームワークは厳密なモデル均質性を必要とし、より複雑なシナリオでアプリケーションを制限する。 また,FLモデルと勾配伝送の通信コストが非常に高い。 本稿では,送信媒体として生成モデルを用いた疎結合型フェデレート学習(lc-fl)を提案し,低通信コストとヘテロジニアスフェデレート学習を実現する。 LC-FLは、クライアントが異なる種類の機械学習モデルを持っているシナリオに適用できる。 異なるマルチパーティシナリオをカバーする実世界のデータセットに関する実験により,提案の有効性が示された。

Federated learning (FL) was proposed to achieve collaborative machine learning among various clients without uploading private data. However, due to model aggregation strategies, existing frameworks require strict model homogeneity, limiting the application in more complicated scenarios. Besides, the communication cost of FL's model and gradient transmission is extremely high. This paper proposes Loosely Coupled Federated Learning (LC-FL), a framework using generative models as transmission media to achieve low communication cost and heterogeneous federated learning. LC-FL can be applied on scenarios where clients possess different kinds of machine learning models. Experiments on real-world datasets covering different multiparty scenarios demonstrate the effectiveness of our proposal.
翻訳日:2022-10-13 21:21:55 公開日:2020-09-28
# エコー状態ネットワークを用いた貯留層観測者のパラメータ実験的解析

Parameter Experimental Analysis of the Reservoirs Observers using Echo State Network Approach ( http://arxiv.org/abs/2009.13498v1 )

ライセンス: Link先を確認
Diana C. Roca Arroyo, Josimar E. Chire Saire(参考訳) 動的システムには、その間に生成された新しい情報に対する様々な応用がある。 物理、化学、社会などの多くの現象は静的ではなく、時間とともに分析する必要がある。 本研究では, モデルエコー状態ネットワークのパラメータを実験的に解析し, 複雑ネットワークの種類の影響を考察し, 性能への影響について考察する。 実験はロスラー吸引機を用いて行われた。

Dynamical systems has a variety of applications for the new information generated during the time. Many phenomenons like physical, chemical or social are not static, then an analysis over the time is necessary. In this work, an experimental analysis of parameters of the model Echo State Network is performed and the influence of the kind of Complex Network is explored to understand the influence on the performance. The experiments are performed using the Rossler attractor.
翻訳日:2022-10-13 21:15:34 公開日:2020-09-28
# 属性-属性相互作用のモデル化による新しいネットワークベース高レベルデータ分類手法(Quipus)

A new network-base high-level data classification methodology (Quipus) by modeling attribute-attribute interactions ( http://arxiv.org/abs/2009.13511v1 )

ライセンス: Link先を確認
Esteban Wilfredo Vilca Zu\~niga, Liang Zhao(参考訳) 高レベルの分類アルゴリズムはインスタンス間の相互作用に焦点を当てている。 これらはデータの評価と分類のための新しい形式を生み出します。 このプロセスでは、コアは複雑なネットワーク構築方法論である。 現在の手法では、これらのグラフを生成するためにkNNのバリエーションを使用している。 しかし、これらのテクニックは属性間の隠れパターンを無視し、正確な正規化を必要とする。 本稿では,正規化を必要としない属性-属性相互作用に基づくネットワーク構築手法を提案する。 以上の結果から,この手法は,中間性中心性に基づくハイレベル分類アルゴリズムの精度を向上させることが判明した。

High-level classification algorithms focus on the interactions between instances. These produce a new form to evaluate and classify data. In this process, the core is a complex network building methodology. The current methodologies use variations of kNN to produce these graphs. However, these techniques ignore some hidden patterns between attributes and require normalization to be accurate. In this paper, we propose a new methodology for network building based on attribute-attribute interactions that do not require normalization. The current results show us that this approach improves the accuracy of the high-level classification algorithm based on betweenness centrality.
翻訳日:2022-10-13 21:14:49 公開日:2020-09-28
# 単一画像スーパーリゾリューションのための解釈可能な奥行きアテンションネットワーク

Interpretable Detail-Fidelity Attention Network for Single Image Super-Resolution ( http://arxiv.org/abs/2009.13134v1 )

ライセンス: Link先を確認
Yuanfei Huang, Jie Li, Xinbo Gao, Yanting Hu, Wen Lu(参考訳) 特徴表現と非線形マッピングのためのディープcnnの強力な能力から、ディープラーニングベースの手法は、単一画像の超解像において優れた性能を達成している。 しかし、既存のSR手法の多くは、当初視覚認識のために設計されたネットワークの高容量化に依存しており、細部への高解像度化の意図を考えることは滅多にない。 この目的を追求するために、(1)スムーズとディテールの多様な特性に適応した適切な演算子の学習、(2)低周波スムーズを保存し高周波ディテールを再構築するモデルの能力の向上、という2つの課題が解決される。 そこで本研究では,これらのスムースと詳細を分割・コンカレントに段階的に処理する,目的的かつ解釈可能な詳細忠実度注意ネットワークを提案する。これは局所受容領域における特徴表現のみのために,深部CNNアーキテクチャを盲目的に設計・採用する代わりに,詳細忠実度を改善するための画像超解像の新規かつ具体的な可能性である。 特に、細部推論で顕著な解釈可能な特徴表現のためのヘッセンフィルタ、拡張エンコーダデコーダと分布アライメントセルを提案し、それぞれ形態的および統計的手法で推論されたヘッセン特徴を改善する。 大規模実験により,提案手法は最先端手法よりも定量的かつ定性的に優れた性能を発揮することが示された。 コードはhttps://github.com/yuanfeihuang/defianで入手できる。

Benefiting from the strong capabilities of deep CNNs for feature representation and nonlinear mapping, deep-learning-based methods have achieved excellent performance in single image super-resolution. However, most existing SR methods depend on the high capacity of networks which is initially designed for visual recognition, and rarely consider the initial intention of super-resolution for detail fidelity. Aiming at pursuing this intention, there are two challenging issues to be solved: (1) learning appropriate operators which is adaptive to the diverse characteristics of smoothes and details; (2) improving the ability of model to preserve the low-frequency smoothes and reconstruct the high-frequency details. To solve them, we propose a purposeful and interpretable detail-fidelity attention network to progressively process these smoothes and details in divide-and-conquer manner, which is a novel and specific prospect of image super-resolution for the purpose on improving the detail fidelity, instead of blindly designing or employing the deep CNNs architectures for merely feature representation in local receptive fields. Particularly, we propose a Hessian filtering for interpretable feature representation which is high-profile for detail inference, a dilated encoder-decoder and a distribution alignment cell to improve the inferred Hessian features in morphological manner and statistical manner respectively. Extensive experiments demonstrate that the proposed methods achieve superior performances over the state-of-the-art methods quantitatively and qualitatively. Code is available at https://github.com/YuanfeiHuang/DeFiAN.
翻訳日:2022-10-13 21:13:31 公開日:2020-09-28
# EvolGAN: 進化的生成的敵ネットワーク

EvolGAN: Evolutionary Generative Adversarial Networks ( http://arxiv.org/abs/2009.13311v1 )

ライセンス: Link先を確認
Baptiste Roziere and Fabien Teytaud and Vlad Hosu and Hanhe Lin and Jeremy Rapin and Mariia Zameshina and Olivier Teytaud(参考訳) 本稿では,小型で難解なデータセットで学習した生成的敵ネットワークの潜伏空間の探索に品質推定器と進化的手法を用いることを提案する。 新たな手法は,生成元の多様性を保ちながら,極めて高品質な画像を生成する。 人間は、猫の周波数83.7pc、ファッションの74pc、馬の70.4pc、アートワークの69.2pc、そしてすでに優れた顔のガンの小さな改良を好みました。 このアプローチは、品質スコアとGANジェネレータに適用される。

We propose to use a quality estimator and evolutionary methods to search the latent space of generative adversarial networks trained on small, difficult datasets, or both. The new method leads to the generation of significantly higher quality images while preserving the original generator's diversity. Human raters preferred an image from the new version with frequency 83.7pc for Cats, 74pc for FashionGen, 70.4pc for Horses, and 69.2pc for Artworks, and minor improvements for the already excellent GANs for faces. This approach applies to any quality scorer and GAN generator.
翻訳日:2022-10-13 21:13:02 公開日:2020-09-28
# レーダhrrpターゲット認識のための変動時間深部生成モデル

Variational Temporal Deep Generative Model for Radar HRRP Target Recognition ( http://arxiv.org/abs/2009.13011v1 )

ライセンス: Link先を確認
Dandan Guo, Bo Chen (Senior Member, IEEE), Wenchao Chen, Chaojie Wang, Hongwei Liu (Member, IEEE), and Mingyuan Zhou(参考訳) 我々は高分解能レンジプロファイル(HRRP)に基づくレーダ自動目標認識(RATR)のためのリカレントガンマ信念ネットワーク(rGBN)を開発した。 提案したrGBNは、その時間的深層生成モデルを構築するためにガンマ分布の階層構造を採用する。 スケーラブルなトレーニングと高速アウト・オブ・サンプル予測のために,確率的段階のマルコフ連鎖モンテカルロ(mcmc)と反復的変分推論モデルのハイブリッドを提案する。 ラベル情報を利用してより識別的な潜在表現を抽出するために,HRRPサンプルと対応するラベルを共同でモデル化する教師付きrGBNを提案する。 HRRPデータを用いた実験結果から,提案手法は計算効率が高く,高い分類精度と一般化能力を有し,高度に解釈可能な多層構造を提供することが示された。

We develop a recurrent gamma belief network (rGBN) for radar automatic target recognition (RATR) based on high-resolution range profile (HRRP), which characterizes the temporal dependence across the range cells of HRRP. The proposed rGBN adopts a hierarchy of gamma distributions to build its temporal deep generative model. For scalable training and fast out-of-sample prediction, we propose the hybrid of a stochastic-gradient Markov chain Monte Carlo (MCMC) and a recurrent variational inference model to perform posterior inference. To utilize the label information to extract more discriminative latent representations, we further propose supervised rGBN to jointly model the HRRP samples and their corresponding labels. Experimental results on synthetic and measured HRRP data show that the proposed models are efficient in computation, have good classification accuracy and generalization ability, and provide highly interpretable multi-stochastic-layer latent structure.
翻訳日:2022-10-13 21:08:02 公開日:2020-09-28
# 重みの異なるdnnの融合によるマルチモデル推論の高速化

Accelerating Multi-Model Inference by Merging DNNs of Different Weights ( http://arxiv.org/abs/2009.13062v1 )

ライセンス: Link先を確認
Joo Seong Jeong, Soojeong Kim, Gyeong-In Yu, Yunseong Lee, Byung-Gon Chun(参考訳) 機械学習タスクでうまく機能することが証明された標準化されたDNNモデルは、下流タスクを解決するために広く使われ、しばしばas-isとして採用され、転送学習パラダイムを形成している。 しかし、GPUサーバのクラスタからこのようなDNNモデルの複数のインスタンスを提供する場合、バッチ処理のようなGPU利用を改善する既存の技術は適用不可能である。 我々は,異なる重みと異なる入力を持つ同一アーキテクチャを共有する複数のDNNモデルをマージする手法であるNetFuseを提案する。 NetFuseは、特定の入力セットのみに重みのセットを関連付ける、より一般的な操作に置き換えることによって実現されている。 ResNet-50、ResNeXt-50、BERT、XLNetの実験では、NetFuseは、GPU V100 GPUでDNN推論時間を最大3.6倍、32モデルインスタンスのマージ時にTITAN Xp GPUで最大3.0倍まで高速化でき、GPUメモリを少量しか使用できない。

Standardized DNN models that have been proved to perform well on machine learning tasks are widely used and often adopted as-is to solve downstream tasks, forming the transfer learning paradigm. However, when serving multiple instances of such DNN models from a cluster of GPU servers, existing techniques to improve GPU utilization such as batching are inapplicable because models often do not share weights due to fine-tuning. We propose NetFuse, a technique of merging multiple DNN models that share the same architecture but have different weights and different inputs. NetFuse is made possible by replacing operations with more general counterparts that allow a set of weights to be associated with only a certain set of inputs. Experiments on ResNet-50, ResNeXt-50, BERT, and XLNet show that NetFuse can speed up DNN inference time up to 3.6x on a NVIDIA V100 GPU, and up to 3.0x on a TITAN Xp GPU when merging 32 model instances, while only using up a small additional amount of GPU memory.
翻訳日:2022-10-13 21:07:29 公開日:2020-09-28
# 熱快適データセットのバランスをとる: 私たちはGANですが、すべきだろうか?

Balancing thermal comfort datasets: We GAN, but should we? ( http://arxiv.org/abs/2009.13154v1 )

ライセンス: Link先を確認
Matias Quintana, Stefano Schiavon, Kwok Wai Tham, and Clayton Miller(参考訳) センサの拡散や主観的フィードバックの手法により,建設環境の熱的快適性評価がアナリストや研究者に利用できるようになった。 これらのデータは、エネルギー効率と幸福への設計と操作をサポートするために快適行動のモデリングに使用できる。 自然界では、室内環境が快適に設計されているため、主観的なフィードバックはバランスがとれない。 この状況は、事前処理ステップとしてのクラスバランシングが、高性能な予測熱快適分類モデルの開発に有用である、機械学習ワークフローのシナリオを生み出します。 本稿では,本論文から得られた各種熱的快適性データセットのクラスバランス技術について検討し,この不均衡シナリオに対処するための条件付き生成適応ネットワーク(GAN),$\texttt{comfortGAN}$を提案する。 これらのアプローチは、30名と67名の参加者から、それぞれ1,474名、2,067名、66,397点からなる世界規模の熱快適データセットまで、3つの公開データセットに適用される。 この研究は、$\texttt{comfortgan}$から生成した実データと実データからなるバランスデータセットでトレーニングされた分類モデルは、他の拡張法よりも高いパフォーマンス(分類精度では4%から17%)を持つ。 しかし、不快を表すクラスをマージして3つにすると、より良い不均衡なパフォーマンスが期待でき、$\texttt{comfortGAN}$のパフォーマンスが1-2%に向上する。 これらの結果は, GANなどの高度な技術を用いて, 温度快適性モデリングのためのクラスバランスが有用であるが, 一定のシナリオではその価値が低下していることを示している。 このプロセスが役に立つシナリオと最善の方法を決定する上で,潜在的なユーザを支援するための議論が提供されている。

Thermal comfort assessment for the built environment has become more available to analysts and researchers due to the proliferation of sensors and subjective feedback methods. These data can be used for modeling comfort behavior to support design and operations towards energy efficiency and well-being. By nature, occupant subjective feedback is imbalanced as indoor conditions are designed for comfort, and responses indicating otherwise are less common. This situation creates a scenario for the machine learning workflow where class balancing as a pre-processing step might be valuable for developing predictive thermal comfort classification models with high-performance. This paper investigates the various thermal comfort dataset class balancing techniques from the literature and proposes a modified conditional Generative Adversarial Network (GAN), $\texttt{comfortGAN}$, to address this imbalance scenario. These approaches are applied to three publicly available datasets, ranging from 30 and 67 participants to a global collection of thermal comfort datasets, with 1,474; 2,067; and 66,397 data points, respectively. This work finds that a classification model trained on a balanced dataset, comprised of real and generated samples from $\texttt{comfortGAN}$, has higher performance (increase between 4% and 17% in classification accuracy) than other augmentation methods tested. However, when classes representing discomfort are merged and reduced to three, better imbalanced performance is expected, and the additional increase in performance by $\texttt{comfortGAN}$ shrinks to 1-2%. These results illustrate that class balancing for thermal comfort modeling is beneficial using advanced techniques such as GANs, but its value is diminished in certain scenarios. A discussion is provided to assist potential users in determining which scenarios this process is useful and which method works best.
翻訳日:2022-10-13 21:06:26 公開日:2020-09-28
# CASTLE: Auxiliary Causal Graph Discoveryによる正規化

CASTLE: Regularization via Auxiliary Causal Graph Discovery ( http://arxiv.org/abs/2009.13180v1 )

ライセンス: Link先を確認
Trent Kyono, Yao Zhang, Mihaela van der Schaar(参考訳) 正規化は教師付きモデルのサンプル外データへの一般化を改善する。 先行研究では、因果方向の予測(原因による影響)が反因果方向よりもテスト誤差が低いことが示されている。 しかし、既存の正規化法は因果関係を知らない。 因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。 CASTLEは、因果方向の非循環グラフ(DAG)をニューラルネットワークの入力層に埋め込まれた隣接行列として学習し、最適な予測器の発見を容易にする。 さらに、CASTLEは因果的隣り合う因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。 我々は、我々のアプローチに縛られた理論的一般化を提供し、CASTLEが他の人気のあるベンチマーク正則化器と比較して、一貫してサンプル外予測に結びつくことを示す、合成および実際の公開データセットの多元的実験を行う。

Regularization improves generalization of supervised models to out-of-sample data. Prior works have shown that prediction in the causal direction (effect from cause) results in lower testing error than the anti-causal direction. However, existing regularization methods are agnostic of causality. We introduce Causal Structure Learning (CASTLE) regularization and propose to regularize a neural network by jointly learning the causal relationships between variables. CASTLE learns the causal directed acyclical graph (DAG) as an adjacency matrix embedded in the neural network's input layers, thereby facilitating the discovery of optimal predictors. Furthermore, CASTLE efficiently reconstructs only the features in the causal DAG that have a causal neighbor, whereas reconstruction-based regularizers suboptimally reconstruct all input features. We provide a theoretical generalization bound for our approach and conduct experiments on a plethora of synthetic and real publicly available datasets demonstrating that CASTLE consistently leads to better out-of-sample predictions as compared to other popular benchmark regularizers.
翻訳日:2022-10-13 21:05:51 公開日:2020-09-28
# Fancy Man Lauches Zippo at WNUT 2020 Shared Task-1: A Bert Case Model for Wet Lab Entity extract

Fancy Man Lauches Zippo at WNUT 2020 Shared Task-1: A Bert Case Model for Wet Lab Entity Extraction ( http://arxiv.org/abs/2009.12997v1 )

ライセンス: Link先を確認
Haoding Meng, Qingcheng Zeng, Xiaoyang Fang, Zhexin Liang(参考訳) 実験手順を機械可読形式にするためのステップを指定するプロトコルの自動的または半自動的な変換は、生物学的研究に大いに役立つ。 これらのノイズ、高密度、ドメイン固有のラボプロトコル処理は、ディープラーニングの開発にますます関心を寄せている。 本稿では,WNUT 2020共有タスク-1:ウェットラボエンティティ抽出のチームワークについて,BiLSTM CRFモデルやBertケースモデルなど,いくつかのモデルで検討を行った。 また,従来十分な注意を払わなかったケース感度,例えば \emph{transformers} バージョンなどの異なる状況下での \textbf{Bert case} の性能差について検討した。

Automatic or semi-automatic conversion of protocols specifying steps in performing a lab procedure into machine-readable format benefits biological research a lot. These noisy, dense, and domain-specific lab protocols processing draws more and more interests with the development of deep learning. This paper presents our teamwork on WNUT 2020 shared task-1: wet lab entity extract, that we conducted studies in several models, including a BiLSTM CRF model and a Bert case model which can be used to complete wet lab entity extraction. And we mainly discussed the performance differences of \textbf{Bert case} under different situations such as \emph{transformers} versions, case sensitivity that may don't get enough attention before.
翻訳日:2022-10-13 20:57:25 公開日:2020-09-28
# SPARTA: Sparse Transformer Matching Retrievalによる効率的なオープンドメイン質問応答

SPARTA: Efficient Open-Domain Question Answering via Sparse Transformer Matching Retrieval ( http://arxiv.org/abs/2009.13013v1 )

ライセンス: Link先を確認
Tiancheng Zhao, Xiaopeng Lu, Kyusong Lee(参考訳) 本稿では,open-domain question answeringの性能,一般化,解釈性に優れたニューラル検索手法であるspartaを提案する。 SPARTAは、高密度ベクトル近接探索を用いる多くのニューラルランキング法とは異なり、インバートインデックスとして効率的に実装可能なスパース表現を学習する。 結果として得られる表現は、高価な近似ベクトル探索を必要としないスケーラブルなニューラルネットワーク検索を可能にする。 我々は4つのオープンドメイン質問応答(OpenQA)タスクと11の検索質問応答(ReQA)タスクに対するアプローチを検証する。 SPARTAは、オープンSQuAD、Natuarl Question、CMRCなど、英語と中国語のデータセットで、さまざまなオープンドメインの質問応答タスクにまたがって、最先端の新たな結果を達成する。 また,提案手法が人間の解釈可能な表現を生成し,性能と効率のトレードオフを柔軟に制御できることを確認した。

We introduce SPARTA, a novel neural retrieval method that shows great promise in performance, generalization, and interpretability for open-domain question answering. Unlike many neural ranking methods that use dense vector nearest neighbor search, SPARTA learns a sparse representation that can be efficiently implemented as an Inverted Index. The resulting representation enables scalable neural retrieval that does not require expensive approximate vector search and leads to better performance than its dense counterpart. We validated our approaches on 4 open-domain question answering (OpenQA) tasks and 11 retrieval question answering (ReQA) tasks. SPARTA achieves new state-of-the-art results across a variety of open-domain question answering tasks in both English and Chinese datasets, including open SQuAD, Natuarl Question, CMRC and etc. Analysis also confirms that the proposed method creates human interpretable representation and allows flexible control over the trade-off between performance and efficiency.
翻訳日:2022-10-13 20:57:09 公開日:2020-09-28
# 単語アライメントのためのニューラルベースライン

Neural Baselines for Word Alignment ( http://arxiv.org/abs/2009.13116v1 )

ライセンス: Link先を確認
Anh Khoa Ngo Ho (LIMSI), Fran\c{c}ois Yvon(参考訳) 単語アライメントは、並列文対の単語間の翻訳対応を識別し、例えば、バイリンガル辞書を学習したり、統計的機械翻訳システムを訓練したり、品質推定を行うために使用される。 自然言語処理のほとんどの分野において、現在ニューラルネットワークモデルは、単語アライメントモデルにも適用可能な、好ましいアプローチを構成している。 本研究では,4つの言語ペアに対する教師なし単語アライメントのためのニューラルモデルの研究と包括的評価を行った。 ほとんどの設定では、IBM-1のニューラルバージョンと隠れマルコフモデルは、個々のモデルよりも大幅に優れています。 また、モデルが克服するベースラインの典型的なアライメントエラーを分析し、形態的にリッチな言語に対するこれらの新しいモデルの利点と限界を説明する。

Word alignments identify translational correspondences between words in a parallel sentence pair and is used, for instance, to learn bilingual dictionaries, to train statistical machine translation systems , or to perform quality estimation. In most areas of natural language processing, neural network models nowadays constitute the preferred approach, a situation that might also apply to word alignment models. In this work, we study and comprehensively evaluate neural models for unsupervised word alignment for four language pairs, contrasting several variants of neural models. We show that in most settings, neural versions of the IBM-1 and hidden Markov models vastly outperform their discrete counterparts. We also analyze typical alignment errors of the baselines that our models overcome to illustrate the benefits-and the limitations-of these new models for morphologically rich languages.
翻訳日:2022-10-13 20:56:29 公開日:2020-09-28
# 単語自動アライメントのための生成潜時ニューラルネットワークモデル

Generative latent neural models for automatic word alignment ( http://arxiv.org/abs/2009.13117v1 )

ライセンス: Link先を確認
Anh Khoa Ngo Ho (LIMSI), Fran\c{c}ois Yvon(参考訳) 単語アライメントは、並列文対の単語間の翻訳対応を識別し、例えば、バイリンガル辞書を学習したり、統計的機械翻訳システムを訓練したり、品質推定を行うために使用される。 変分オートエンコーダは、言語生成タスクに有用な教師なしの潜在表現で学習するために、最近様々な自然言語処理で使用されている。 本稿では,単語アライメントの課題としてこれらのモデルを調査し,バニラ変分オートエンコーダのいくつかの進化を提案・評価する。 これらの手法は、Giza++と2つの言語ペアに対して強力なニューラルネットワークアライメントシステムに比較して、競争力のある結果が得られることを示す。

Word alignments identify translational correspondences between words in a parallel sentence pair and are used, for instance, to learn bilingual dictionaries, to train statistical machine translation systems or to perform quality estimation. Variational autoencoders have been recently used in various of natural language processing to learn in an unsupervised way latent representations that are useful for language generation tasks. In this paper, we study these models for the task of word alignment and propose and assess several evolutions of a vanilla variational autoencoders. We demonstrate that these techniques can yield competitive results as compared to Giza++ and to a strong neural network alignment system for two language pairs.
翻訳日:2022-10-13 20:56:15 公開日:2020-09-28
# セマンティックセグメンテーションとしての不完全発話書き換え

Incomplete Utterance Rewriting as Semantic Segmentation ( http://arxiv.org/abs/2009.13166v1 )

ライセンス: Link先を確認
Qian Liu, Bei Chen, Jian-Guang Lou, Bin Zhou, Dongmei Zhang(参考訳) 近年,不完全発話書き換えの課題が注目されている。 それまでの作業は通常、それを機械翻訳タスクとして形作り、コピー機構を備えたシーケンスベースのアーキテクチャを採用する。 本稿では,意味的セグメンテーションタスクとして定式化した,新規かつ広範囲なアプローチを提案する。 スクラッチから生成する代わりに、このような定式化は編集操作を導入し、単語レベルの編集行列の予測として問題を形作る。 ローカルな情報とグローバルな情報の両方をキャプチャできることから、我々のアプローチは、いくつかの公開データセット上で最先端のパフォーマンスを達成する。 さらに、私たちのアプローチは推論における標準的なアプローチの4倍高速です。

Recent years the task of incomplete utterance rewriting has raised a large attention. Previous works usually shape it as a machine translation task and employ sequence to sequence based architecture with copy mechanism. In this paper, we present a novel and extensive approach, which formulates it as a semantic segmentation task. Instead of generating from scratch, such a formulation introduces edit operations and shapes the problem as prediction of a word-level edit matrix. Benefiting from being able to capture both local and global information, our approach achieves state-of-the-art performance on several public datasets. Furthermore, our approach is four times faster than the standard approach in inference.
翻訳日:2022-10-13 20:56:02 公開日:2020-09-28
# 会話セマンティックパーシング

Conversational Semantic Parsing ( http://arxiv.org/abs/2009.13655v1 )

ライセンス: Link先を確認
Armen Aghajanyan, Jean Maillard, Akshat Shrivastava, Keith Diedrick, Mike Haeger, Haoran Li, Yashar Mehdad, Ves Stoyanov, Anuj Kumar, Mike Lewis, Sonal Gupta(参考訳) タスク指向アシスタントシステムにおける意味解析のための構造化表現は、ワンターンクエリの単純な理解に向けられている。 表現の制限のため、コリファレンスレゾリューションやコンテキストキャリーオーバといったセッションベースのプロパティは、パイプライン化されたシステムで下流で処理される。 本稿では,協調参照やコンテキストキャリーオーバといった概念を表現できるタスク指向対話システムのための意味表現を提案し,セッション内の問合せの包括的理解を可能にする。 我々は,60k発話からなる20kセッションからなる新しいセッションベース,コンポジション型タスク指向構文解析データセットをリリースする。 Dialog State Tracking Challengesとは異なり、データセットのクエリは構成形式を持つ。 セッションベース解析のためのSeq2Seqモデルの新たなファミリーを提案し、ATIS, SNIPS, TOP, DSTC2における現在の最先端技術と同等の性能を実現する。 特に、dstc2の最もよく知られた結果を、スロットキャリオーバで最大5ポイント改善します。

The structured representation for semantic parsing in task-oriented assistant systems is geared towards simple understanding of one-turn queries. Due to the limitations of the representation, the session-based properties such as co-reference resolution and context carryover are processed downstream in a pipelined system. In this paper, we propose a semantic representation for such task-oriented conversational systems that can represent concepts such as co-reference and context carryover, enabling comprehensive understanding of queries in a session. We release a new session-based, compositional task-oriented parsing dataset of 20k sessions consisting of 60k utterances. Unlike Dialog State Tracking Challenges, the queries in the dataset have compositional forms. We propose a new family of Seq2Seq models for the session-based parsing above, which achieve better or comparable performance to the current state-of-the-art on ATIS, SNIPS, TOP and DSTC2. Notably, we improve the best known results on DSTC2 by up to 5 points for slot-carryover.
翻訳日:2022-10-13 20:55:40 公開日:2020-09-28
# チェックポイントの効率的な構成について

On Efficient Constructions of Checkpoints ( http://arxiv.org/abs/2009.13003v1 )

ライセンス: Link先を確認
Yu Chen, Zhenming Liu, Bin Ren, Xin Jin(参考訳) チェックポイント/スナップショットの効率的な構築は、ディープラーニングモデルのトレーニングと診断のための重要なツールである。 本稿では,チェックポイント構造(LC-Checkpoint)の損失圧縮手法を提案する。 LC-Checkpointは、モデルのトレーニングにSGDを使用すると仮定して、同時に圧縮速度を最大化し、回復速度を最適化する。 LC-Checkpointは量子化と優先度の促進を行い、SGDの最も重要な情報を格納し、Huffman符号化を用いて勾配スケールの非一様分布を利用する。 我々の広範な実験により、LC-Checkpointは圧縮速度を最大28\times$、リカバリ速度を最大5.77\times$、最先端のアルゴリズム(SCAR)で達成している。

Efficient construction of checkpoints/snapshots is a critical tool for training and diagnosing deep learning models. In this paper, we propose a lossy compression scheme for checkpoint constructions (called LC-Checkpoint). LC-Checkpoint simultaneously maximizes the compression rate and optimizes the recovery speed, under the assumption that SGD is used to train the model. LC-Checkpointuses quantization and priority promotion to store the most crucial information for SGD to recover, and then uses a Huffman coding to leverage the non-uniform distribution of the gradient scales. Our extensive experiments show that LC-Checkpoint achieves a compression rate up to $28\times$ and recovery speedup up to $5.77\times$ over a state-of-the-art algorithm (SCAR).
翻訳日:2022-10-13 20:55:11 公開日:2020-09-28
# 新しい次元でaiチップのメモリ壁を壊す

Breaking the Memory Wall for AI Chip with a New Dimension ( http://arxiv.org/abs/2009.13664v1 )

ライセンス: Link先を確認
Eugene Tam, Shenfei Jiang, Paul Duan, Shawn Meng, Yue Pang, Cayden Huang, Yi Han, Jacke Xie, Yuanjun Cui, Jinsong Yu, Minggui Lu(参考訳) 近年のディープラーニングの進歩により、コンピュータビジョンや自然言語処理などの応用に人工知能(AI)が広く採用されている。 ニューラルネットワークがより深く大きくなるにつれて、aiモデリングは従来のチップアーキテクチャの能力を上回っている。 メモリ帯域幅は処理能力に遅れる。 エネルギー消費は総所有コストを支配することになる。 現在、メモリ容量は最も高度なNLPモデルをサポートするには不十分である。 本稿では,これら3つの課題を解決するために,近メモリコンピューティングアーキテクチャを備えた3次元aiチップsunriseを提案する。 この分散ニアメモリコンピューティングアーキテクチャにより、データ帯域幅の豊富なパフォーマンス制限されたメモリウォールを分解することができます。 7nm技術における競合チップと同等のエネルギー効率を40nm技術で達成する。 他のaiチップと同じような技術に移行することで、我々は、エネルギー効率の10倍以上、現在の最先端チップのパフォーマンスの7倍、各ベンチマークの最高チップの20倍のメモリ容量を達成することを計画しています。

Recent advancements in deep learning have led to the widespread adoption of artificial intelligence (AI) in applications such as computer vision and natural language processing. As neural networks become deeper and larger, AI modeling demands outstrip the capabilities of conventional chip architectures. Memory bandwidth falls behind processing power. Energy consumption comes to dominate the total cost of ownership. Currently, memory capacity is insufficient to support the most advanced NLP models. In this work, we present a 3D AI chip, called Sunrise, with near-memory computing architecture to address these three challenges. This distributed, near-memory computing architecture allows us to tear down the performance-limiting memory wall with an abundance of data bandwidth. We achieve the same level of energy efficiency on 40nm technology as competing chips on 7nm technology. By moving to similar technologies as other AI chips, we project to achieve more than ten times the energy efficiency, seven times the performance of the current state-of-the-art chips, and twenty times of memory capacity as compared with the best chip in each benchmark.
翻訳日:2022-10-13 20:48:24 公開日:2020-09-28
# この患者はどんな病気を患っていますか。 医学試験からの大規模オープンドメイン質問応答データセット

What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams ( http://arxiv.org/abs/2009.13081v1 )

ライセンス: Link先を確認
Di Jin, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang and Peter Szolovits(参考訳) オープンドメイン質問応答(OpenQA)タスクは、最近、自然言語処理(NLP)コミュニティからますます注目を集めている。 本稿では,医療委員会の専門試験から収集したmedqa(free-form multi-choice openqa dataset for solve medical problems)を提案する。 英語、簡体字中国語、伝統中国語の3つの言語を含み、それぞれ12,723問、34,251問、14,123問からなる。 文書検索と機械理解モデルを順次組み合わせ,ルールベースと一般的なニューラルメソッドの両方を実装した。 実験により,現在の最良の方法でも,英語,中国語,簡体字中国語の質問に対して,それぞれ36.7\%,42.0\%,70.1\%の検査精度しか達成できないことがわかった。 我々は、MedQAが既存のOpenQAシステムに大きな課題を提示し、NLPコミュニティからより強力なOpenQAモデルを促進するプラットフォームとして機能することを期待しています。

Open domain question answering (OpenQA) tasks have been recently attracting more and more attention from the natural language processing (NLP) community. In this work, we present the first free-form multiple-choice OpenQA dataset for solving medical problems, MedQA, collected from the professional medical board exams. It covers three languages: English, simplified Chinese, and traditional Chinese, and contains 12,723, 34,251, and 14,123 questions for the three languages, respectively. We implement both rule-based and popular neural methods by sequentially combining a document retriever and a machine comprehension model. Through experiments, we find that even the current best method can only achieve 36.7\%, 42.0\%, and 70.1\% of test accuracy on the English, traditional Chinese, and simplified Chinese questions, respectively. We expect MedQA to present great challenges to existing OpenQA systems and hope that it can serve as a platform to promote much stronger OpenQA models from the NLP community in the future.
翻訳日:2022-10-13 20:48:09 公開日:2020-09-28
# タスク指向対話システムのためのパラメータを用いた知識ベース学習

Learning Knowledge Bases with Parameters for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2009.13656v1 )

ライセンス: Link先を確認
Andrea Madotto, Samuel Cahyawijaya, Genta Indra Winata, Yan Xu, Zihan Liu, Zhaojiang Lin, Pascale Fung(参考訳) タスク指向の対話システムは、個別の対話状態追跡(dst)と管理ステップ、エンドツーエンドのトレーニング可能なモジュール化されている。 いずれの場合も、ユーザ要求を満たす上で、知識ベース(KB)が重要な役割を果たす。 モジュール化されたシステムは、アノテーションと推論時間という面で高価であるKBと対話するためにDSTに依存している。 エンドツーエンドシステムでは、KBを直接入力として使用するが、KBが数百のエントリより大きい場合にはスケールできない。 本稿では,任意のサイズのKBをモデルパラメータに直接埋め込む手法を提案する。 結果のモデルはDSTやテンプレート応答やKBを入力として必要とせず、微調整でKBを動的に更新することができる。 我々は,小,中,大のKBサイズのタスク指向対話データセットを5つ評価した。 実験の結果, エンド・ツー・エンドのモデルでは, パラメータに知識ベースを効果的に埋め込むことができ, 評価されたすべてのデータセットにおいて, 競合性能を達成できることがわかった。

Task-oriented dialogue systems are either modularized with separate dialogue state tracking (DST) and management steps or end-to-end trainable. In either case, the knowledge base (KB) plays an essential role in fulfilling user requests. Modularized systems rely on DST to interact with the KB, which is expensive in terms of annotation and inference time. End-to-end systems use the KB directly as input, but they cannot scale when the KB is larger than a few hundred entries. In this paper, we propose a method to embed the KB, of any size, directly into the model parameters. The resulting model does not require any DST or template responses, nor the KB as input, and it can dynamically update its KB via fine-tuning. We evaluate our solution in five task-oriented dialogue datasets with small, medium, and large KB size. Our experiments show that end-to-end models can effectively embed knowledge bases in their parameters and achieve competitive performance in all evaluated datasets.
翻訳日:2022-10-13 20:46:24 公開日:2020-09-28
# 量子シナプス希釈はディープネットワークにおけるスパースエンコーディングとドロップアウト正規化を促進する

Quantal synaptic dilution enhances sparse encoding and dropout regularisation in deep networks ( http://arxiv.org/abs/2009.13165v1 )

ライセンス: Link先を確認
Gardave S Bhumbra(参考訳) ドロップアウト(Dropout)とは、深層ネットワークをトレーニングしてオーバーフィッティングを減らしながら、ユニットのアクティビティを統計的に沈黙させるテクニックである。 本稿では,神経シナプスの量子特性に基づくドロップアウト正規化の生物学的に妥当なモデルであるquantal synaptic dilution (qsd)について紹介する。 QSDはReLU多層パーセプトロンにおいて標準的なドロップアウトよりも優れており、トレーニング可能な重量やバイアス分布の変化なしに、ドロップアウトマスクをアイデンティティ関数に置き換えるテスト時にスパース符号化が強化されている。 畳み込みネットワークの場合、この手法は、追加の正規化形式を含むことなく、コンピュータビジョンタスクの一般化も改善する。 QSDはまた、言語モデリングと感情分析のためのリカレントネットワークにおける標準のドロップアウトよりも優れています。 ドロップアウトの多くのバリエーションに対するqsdの利点は、標準ドロップアウトが適用可能なすべての従来のディープネットワークで一般的に実装可能であることである。

Dropout is a technique that silences the activity of units stochastically while training deep networks to reduce overfitting. Here we introduce Quantal Synaptic Dilution (QSD), a biologically plausible model of dropout regularisation based on the quantal properties of neuronal synapses, that incorporates heterogeneities in response magnitudes and release probabilities for vesicular quanta. QSD outperforms standard dropout in ReLU multilayer perceptrons, with enhanced sparse encoding at test time when dropout masks are replaced with identity functions, without shifts in trainable weight or bias distributions. For convolutional networks, the method also improves generalisation in computer vision tasks with and without inclusion of additional forms of regularisation. QSD also outperforms standard dropout in recurrent networks for language modelling and sentiment analysis. An advantage of QSD over many variations of dropout is that it can be implemented generally in all conventional deep networks where standard dropout is applicable.
翻訳日:2022-10-13 20:39:18 公開日:2020-09-28
# エキスパートモデルによるスケーラブルトランスファー学習

Scalable Transfer Learning with Expert Models ( http://arxiv.org/abs/2009.13239v1 )

ライセンス: Link先を確認
Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Cedric Renggli, Andr\'e Susano Pinto, Sylvain Gelly, Daniel Keysers, Neil Houlsby(参考訳) 事前訓練された表現の転送は、サンプル効率を改善し、新しいタスクの計算要求を減らすことができる。 しかしながら、転送に使用される表現は通常は汎用的であり、下流タスクの特定の分布に適合しない。 我々は、シンプルで効果的な戦略で、転送のためのエキスパート表現の使用を探求する。 我々は,既存のラベル構造を利用して多様な専門家を訓練し,安価に計算できるパフォーマンスプロキシを用いて,対象タスクごとに関連する専門家を選定する。 この戦略は、転送中にトレーニング済みのデータを再考しないため、新しいタスクに転送するプロセスをスケールする。 したがって、ターゲットタスク当たりの計算量がほとんど必要とせず、競合するアプローチに比べて2~3桁のスピードアップとなる。 さらに、多くの専門家を単一のモデルに圧縮できるアダプタベースのアーキテクチャを提供する。 このアプローチを2つの異なるデータソースで評価し,両ケースとも20以上の多様なビジョンタスクのベースラインを上回っていることを実証した。

Transfer of pre-trained representations can improve sample efficiency and reduce computational requirements for new tasks. However, representations used for transfer are usually generic, and are not tailored to a particular distribution of downstream tasks. We explore the use of expert representations for transfer with a simple, yet effective, strategy. We train a diverse set of experts by exploiting existing label structures, and use cheap-to-compute performance proxies to select the relevant expert for each target task. This strategy scales the process of transferring to new tasks, since it does not revisit the pre-training data during transfer. Accordingly, it requires little extra compute per target task, and results in a speed-up of 2-3 orders of magnitude compared to competing approaches. Further, we provide an adapter-based architecture able to compress many experts into a single model. We evaluate our approach on two different data sources and demonstrate that it outperforms baselines on over 20 diverse vision tasks in both cases.
翻訳日:2022-10-13 20:37:24 公開日:2020-09-28