このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200923となっている論文です。

PDF登録状況(公開日: 20200923)

TitleAuthorsAbstract論文公表日・翻訳日
# 距離センサと頭上画像の自己教師あり局所化

Self-Supervised Localisation between Range Sensors and Overhead Imagery ( http://arxiv.org/abs/2006.02108v2 )

ライセンス: Link先を確認
Tim Y. Tang, Daniele De Martini, Shangzhe Wu, Paul Newman(参考訳) 一般に入手可能な衛星画像は、事前のセンサーマップが利用できない場合、ユビキタスで安価で強力な車両ローカライズツールとなり得る。 しかし、衛星画像は、非常に異なるモダリティのため、地上センサーのデータと直接比較することはできない。 本稿では,モダリティ差を処理できるだけでなく,訓練コストも安価で,計量的正確な基底真理を伴わずに自己教師ありで学習する学習メトリックローカライズ手法を提案する。 複数の実世界のデータセットをまたいで評価することにより,様々なセンサ構成に対するロバスト性と汎用性を示す。 我々はミリメートル波レーダーの使用に特に注意を払っており、これはシーンとの複雑な相互作用と天候や照明に対する免疫のため、魅力的で価値のあるユースケースとなっている。

Publicly available satellite imagery can be an ubiquitous, cheap, and powerful tool for vehicle localisation when a prior sensor map is unavailable. However, satellite images are not directly comparable to data from ground range sensors because of their starkly different modalities. We present a learned metric localisation method that not only handles the modality difference, but is cheap to train, learning in a self-supervised fashion without metrically accurate ground truth. By evaluating across multiple real-world datasets, we demonstrate the robustness and versatility of our method for various sensor configurations. We pay particular attention to the use of millimetre wave radar, which, owing to its complex interaction with the scene and its immunity to weather and lighting, makes for a compelling and valuable use case.
翻訳日:2022-11-25 18:30:41 公開日:2020-09-23
# 自発音声におけるアルツハイマー認知症予測のための自然言語処理技術の比較

Comparing Natural Language Processing Techniques for Alzheimer's Dementia Prediction in Spontaneous Speech ( http://arxiv.org/abs/2006.07358v2 )

ライセンス: Link先を確認
Thomas Searle, Zina Ibrahim, Richard Dobson(参考訳) アルツハイマー認知症(英語: Alzheimer's Dementia、AD)は、認知機能に影響を及ぼす不治の進行性神経変性疾患である。 早期診断は、治療が進行を遅らせ、診断に要する時間を与えるため重要である。 自然発声の分析モデルの開発は、adの早期診断に効果的な診断モードを提供するだろう。 自発音声タスクによるアルツハイマー認知症認識は、音声のモデル化を通じてadおよび関連する表現型を分類および予測するための音響的前処理とバランスのとれたデータセットを提供する。 我々は,自発音声データセットの供給されたテキストの書き起こしを分析し,ADと制御の分類とメンタル・ミニ・ステート・エクサムスコアの予測のために,多数のモデルで性能を比較した。 我々は,SVM(Support Vector Machines),GBDT(Gradient Boosting Decision Trees),CRF(Conditional Random Fields)を,ディープラーニングトランスフォーマーベースモデルとともに厳格に訓練し,評価する。 我々は、svmモデルへの入力として単純な項周波数逆文書周波数(tf-idf)ベクトルと、単純な線形モデルへの埋め込み層として使われる場合、事前学習されたトランスフォーマモデル ‘distilbert’ であることを示す。 分類基準で0.81-0.82の試験集合スコアと4.58のrmseを示す。

Alzheimer's Dementia (AD) is an incurable, debilitating, and progressive neurodegenerative condition that affects cognitive function. Early diagnosis is important as therapeutics can delay progression and give those diagnosed vital time. Developing models that analyse spontaneous speech could eventually provide an efficient diagnostic modality for earlier diagnosis of AD. The Alzheimer's Dementia Recognition through Spontaneous Speech task offers acoustically pre-processed and balanced datasets for the classification and prediction of AD and associated phenotypes through the modelling of spontaneous speech. We exclusively analyse the supplied textual transcripts of the spontaneous speech dataset, building and comparing performance across numerous models for the classification of AD vs controls and the prediction of Mental Mini State Exam scores. We rigorously train and evaluate Support Vector Machines (SVMs), Gradient Boosting Decision Trees (GBDT), and Conditional Random Fields (CRFs) alongside deep learning Transformer based models. We find our top performing models to be a simple Term Frequency-Inverse Document Frequency (TF-IDF) vectoriser as input into a SVM model and a pre-trained Transformer based model `DistilBERT' when used as an embedding layer into simple linear models. We demonstrate test set scores of 0.81-0.82 across classification metrics and a RMSE of 4.58.
翻訳日:2022-11-22 02:13:34 公開日:2020-09-23
# ISA:インテリジェントショッピングアシスタント

ISA: An Intelligent Shopping Assistant ( http://arxiv.org/abs/2007.03805v2 )

ライセンス: Link先を確認
Tuan Manh Lai, Trung Bui, Nedim Lipka(参考訳) 電子商取引の成長にもかかわらず、レンガとモルタルの店舗は今でも多くの人にとって好まれる目的地である。 本稿では,実店舗におけるショッピング体験の向上を目的とした,モバイル型インテリジェントショッピングアシスタントISAを提案する。 ISAはコンピュータビジョン、音声処理、自然言語処理の高度な技術を活用することでユーザを支援する。 店内利用者は、興味のある商品の写真を撮ったり、バーコードをスキャンしたりするだけで、その商品についてアシスタントに話すことができる。 アシスタントは購入プロセスを通じてユーザーを誘導したり、他の類似商品を推薦することができる。 我々は、ISAの自然言語処理コンポーネントのエンジンを構築する際に、データ駆動方式を採用し、エンジンの性能を向上する。

Despite the growth of e-commerce, brick-and-mortar stores are still the preferred destinations for many people. In this paper, we present ISA, a mobile-based intelligent shopping assistant that is designed to improve shopping experience in physical stores. ISA assists users by leveraging advanced techniques in computer vision, speech processing, and natural language processing. An in-store user only needs to take a picture or scan the barcode of the product of interest, and then the user can talk to the assistant about the product. The assistant can also guide the user through the purchase process or recommend other similar products to the user. We take a data-driven approach in building the engines of ISA's natural language processing component, and the engines achieve good performance.
翻訳日:2022-11-12 18:50:09 公開日:2020-09-23
# ニューラルネットワークは生の言語データから構造バイアスを得ることができるか?

Can neural networks acquire a structural bias from raw linguistic data? ( http://arxiv.org/abs/2007.06761v2 )

ライセンス: Link先を確認
Alex Warstadt, Samuel R. Bowman(参考訳) 我々は,文処理に広く使用されているニューラルネットワークBERTが,生データによる事前学習により構造一般化の導出バイアスを得るか否かを評価する。 異なる構造依存現象における構造と線形一般化の選好をテストする4つの実験を行った。 bert は 4 つの経験的領域のうち 3 つの構造的一般化 (subject-auxiliary inversion, reflexive binding, verb tense detection in embedded clauses) を行うが、npi ライセンスでテストすると線形一般化となる。 これらの結果は、構造バイアスを生データから取得できるという仮説を支持する人工学習者にとって、これまでで最強の証拠であると主張する。 この結論が正しければ、一部の言語普遍性は生来のバイアスを伴わずに学習者によって獲得できるという仮の証拠である。 しかし、BERTよりもはるかに少ないデータから言語を学ぶため、人間の言語習得の正確な意味は明らかではない。

We evaluate whether BERT, a widely used neural network for sentence processing, acquires an inductive bias towards forming structural generalizations through pretraining on raw data. We conduct four experiments testing its preference for structural vs. linear generalizations in different structure-dependent phenomena. We find that BERT makes a structural generalization in 3 out of 4 empirical domains---subject-auxiliary inversion, reflexive binding, and verb tense detection in embedded clauses---but makes a linear generalization when tested on NPI licensing. We argue that these results are the strongest evidence so far from artificial learners supporting the proposition that a structural bias can be acquired from raw data. If this conclusion is correct, it is tentative evidence that some linguistic universals can be acquired by learners without innate biases. However, the precise implications for human language acquisition are unclear, as humans learn language from significantly less data than BERT.
翻訳日:2022-11-10 14:34:16 公開日:2020-09-23
# ZSCRGAN:テキスト記述からの画像のゼロショット検索のためのガンベース予測最大化モデル

ZSCRGAN: A GAN-based Expectation Maximization Model for Zero-Shot Retrieval of Images from Textual Descriptions ( http://arxiv.org/abs/2007.12212v3 )

ライセンス: Link先を確認
Anurag Roy, Vinay Kumar Verma, Kripabandhu Ghosh, Saptarshi Ghosh(参考訳) クロスモーダルなインフォメーション検索のための既存のアルゴリズムは、モデルが与えられたトレーニングセットからドキュメントのモード(例えば画像)にクエリのモード(例えばテキスト)を合わせることを学習する、教師付きトレインテストのセットアップに基づいている。 このような設定は、トレーニングセットがクエリの可能なすべてのクラスの徹底的な表現を含むと仮定する。 実際、検索モデルは、ゼロショットir設定を含まないクラスにデプロイする必要があるかもしれない。 本稿では,画像検索のためのゼロショットテキストのための新しいGANモデルを提案する。 クエリとしてテキスト記述が与えられると、モデルはゼロショット設定で関連画像を取得することができる。 提案モデルは期待最大化フレームワークを用いて訓練される。 複数のベンチマークデータセットを用いた実験により,提案手法は画像検索モデルやゼロショット分類やハッシュモデルなど,最先端のゼロショットテキストよりも快適に優れていることがわかった。

Most existing algorithms for cross-modal Information Retrieval are based on a supervised train-test setup, where a model learns to align the mode of the query (e.g., text) to the mode of the documents (e.g., images) from a given training set. Such a setup assumes that the training set contains an exhaustive representation of all possible classes of queries. In reality, a retrieval model may need to be deployed on previously unseen classes, which implies a zero-shot IR setup. In this paper, we propose a novel GAN-based model for zero-shot text to image retrieval. When given a textual description as the query, our model can retrieve relevant images in a zero-shot setup. The proposed model is trained using an Expectation-Maximization framework. Experiments on multiple benchmark datasets show that our proposed model comfortably outperforms several state-of-the-art zero-shot text to image retrieval models, as well as zero-shot classification and hashing models suitably used for retrieval.
翻訳日:2022-11-07 11:47:02 公開日:2020-09-23
# 推薦の因果効果に対する偏りのない学習

Unbiased Learning for the Causal Effect of Recommendation ( http://arxiv.org/abs/2008.04563v3 )

ライセンス: Link先を確認
Masahiro Sato, Sho Takemori, Janmajay Singh, Tomoko Ohkuma(参考訳) 購入やクリックといったユーザのポジティブなインタラクションの増加は,レコメンダシステムの重要な目的である。 レコメンダは通常、ユーザが対話するアイテムを選択することを目的としています。 推奨商品を購入した場合には、売上の増加が期待される。 しかし、推薦なしに購入することは可能であった。 ですから、お勧めによる買い物の結果となるアイテムを推奨したいのです。 これは因果効果の観点からランキング問題として定式化することができる。 その重要性にもかかわらず、この問題は関連する研究でよく研究されていない。 因果効果の根本的真理は観測不可能であり、因果効果の推定は、現在デプロイされている推奨者から生じるバイアスに起因する。 本稿では,推薦の因果効果に対する非バイアス学習フレームワークを提案する。 提案手法は, 逆プロペンサリティスコアリング手法に基づき, 評価指標の非偏差推定器をまず構築する。 そして、確率キャッピングによる推定器の実証的リスク最小化を行い、有限のトレーニングサンプルの分散を低減する。 この枠組みに基づき,ランキング指標の因果効果拡張のための偏りのない学習手法を開発した。 提案手法の非偏りを理論的に解析し,提案手法が様々な環境で他の偏り学習方法よりも優れていることを示す。

Increasing users' positive interactions, such as purchases or clicks, is an important objective of recommender systems. Recommenders typically aim to select items that users will interact with. If the recommended items are purchased, an increase in sales is expected. However, the items could have been purchased even without recommendation. Thus, we want to recommend items that results in purchases caused by recommendation. This can be formulated as a ranking problem in terms of the causal effect. Despite its importance, this problem has not been well explored in the related research. It is challenging because the ground truth of causal effect is unobservable, and estimating the causal effect is prone to the bias arising from currently deployed recommenders. This paper proposes an unbiased learning framework for the causal effect of recommendation. Based on the inverse propensity scoring technique, the proposed framework first constructs unbiased estimators for ranking metrics. Then, it conducts empirical risk minimization on the estimators with propensity capping, which reduces variance under finite training samples. Based on the framework, we develop an unbiased learning method for the causal effect extension of a ranking metric. We theoretically analyze the unbiasedness of the proposed method and empirically demonstrate that the proposed method outperforms other biased learning methods in various settings.
翻訳日:2022-10-31 11:04:16 公開日:2020-09-23
# フェデレーション学習のシャッフルモデル:プライバシ、コミュニケーション、精度のトレードオフ

Shuffled Model of Federated Learning: Privacy, Communication and Accuracy Trade-offs ( http://arxiv.org/abs/2008.07180v2 )

ライセンス: Link先を確認
Antonious M. Girgis, Deepesh Data, Suhas Diggavi, Peter Kairouz, and Ananda Theertha Suresh(参考訳) 本稿では,コミュニケーション効率とプライバシ要件を考慮した分散経験的リスク最小化(ERM)の最適化問題について考察する。 flの文脈における伝統的なerm問題の独特な挑戦 (i)クライアントのデータにプライバシー保証を提供する必要がある。 (ii)クライアントは低帯域幅リンクを持つ可能性があるため、クライアントとサーバ間の通信を圧縮する。 (iii)各ラウンド毎に少数のクライアントをサンプリングするため、サーバとクライアント間の通信毎に動的クライアント人口を扱う。 これらの課題に対処するために、いくつかの$\ell_p$空間に対するプライベート平均推定のための(最適)通信効率スキームを開発し、ERMの最適化解の反復ごとに効率的な勾配アグリゲーションを可能にする。 また、任意の$\ell_p$空間に対して、プライバシーと通信制約による平均推定を下限と上限に設定する。 全体としてのコミュニケーション,プライバシ,最適化パフォーマンスの運用ポイントを得るため,この設定に固有のプライバシー強化の機会と組み合わせる。 我々のソリューションは、クライアントのサンプリングとデータサンプリング(Stochastic Gradient Descentを通じて)によって提供される固有のプライバシー増幅と、匿名化を利用した最近開発されたプライバシーフレームワークを活用し、クライアントに対してランダムにシャッフルされたサーバーレスポンスを効果的に提示する。 これらを組み合わせることで,従来の通信方式と同じプライバシ,最適化,パフォーマンスの面での運用ポイントが得られることを実証するが,通信コストははるかに低く,すなわち「フリー」の通信効率を効果的に得ることができる。

We consider a distributed empirical risk minimization (ERM) optimization problem with communication efficiency and privacy requirements, motivated by the federated learning (FL) framework. Unique challenges to the traditional ERM problem in the context of FL include (i) need to provide privacy guarantees on clients' data, (ii) compress the communication between clients and the server, since clients might have low-bandwidth links, (iii) work with a dynamic client population at each round of communication between the server and the clients, as a small fraction of clients are sampled at each round. To address these challenges we develop (optimal) communication-efficient schemes for private mean estimation for several $\ell_p$ spaces, enabling efficient gradient aggregation for each iteration of the optimization solution of the ERM. We also provide lower and upper bounds for mean estimation with privacy and communication constraints for arbitrary $\ell_p$ spaces. To get the overall communication, privacy, and optimization performance operation point, we combine this with privacy amplification opportunities inherent to this setup. Our solution takes advantage of the inherent privacy amplification provided by client sampling and data sampling at each client (through Stochastic Gradient Descent) as well as the recently developed privacy framework using anonymization, which effectively presents to the server responses that are randomly shuffled with respect to the clients. Putting these together, we demonstrate that one can get the same privacy, optimization-performance operating point developed in recent methods that use full-precision communication, but at a much lower communication cost, i.e., effectively getting communication efficiency for "free".
翻訳日:2022-10-28 03:26:16 公開日:2020-09-23
# ランダム重み付きニューラルネットワークのためのマルチアクティベーション隠れユニット

Multi-Activation Hidden Units for Neural Networks with Random Weights ( http://arxiv.org/abs/2009.08932v2 )

ライセンス: Link先を確認
Ajay M. Patrikar(参考訳) ランダムな重みを持つ単一層フィードフォワードネットワークは、様々な分類と回帰問題で成功している。 これらのネットワークは、非イテレーティブかつ高速なトレーニングアルゴリズムで知られている。 これらのネットワークの大きな欠点は、大量の隠しユニットを必要とすることだ。 本稿では,マルチアクティベーション隠れユニットの利用を提案する。 このような単位は調整可能なパラメータの数を増やし、隠れた単位の数を増やすことなく複雑な決定曲面の形成を可能にする。 マルチアクティベーション隠れユニットは, 分類精度を向上させるか, 計算量を減らすかのどちらかに使用できることを示す。

Single layer feedforward networks with random weights are successful in a variety of classification and regression problems. These networks are known for their non-iterative and fast training algorithms. A major drawback of these networks is that they require a large number of hidden units. In this paper, we propose the use of multi-activation hidden units. Such units increase the number of tunable parameters and enable formation of complex decision surfaces, without increasing the number of hidden units. We experimentally show that multi-activation hidden units can be used either to improve the classification accuracy, or to reduce computations.
翻訳日:2022-10-21 07:53:29 公開日:2020-09-23
# 新型コロナウイルスの音が鳴り響く「カフ」の証拠

Cough Against COVID: Evidence of COVID-19 Signature in Cough Sounds ( http://arxiv.org/abs/2009.08790v2 )

ライセンス: Link先を確認
Piyush Bagad, Aman Dalmia, Jigar Doshi, Arsha Nagrani, Parag Bhamare, Amrita Mahale, Saurabh Rane, Neeraj Agarwal, Rahul Panicker(参考訳) 新型コロナウイルス(covid-19)の検査能力は、十分な物資や訓練された人員、サンプル処理機器が不足していることから、世界中で課題となっている。 これらの問題は、農村部や未開発の地域ではさらに深刻である。 我々は、我々のAIモデルによって分析された携帯電話上で収集されたソリシタンカフ音が、統計的に有意な信号を示す(AUC 0.72, t-test, p <0.01,95% CI 0.61-0.83)。 これは無症候性患者にも当てはまる。 そこで, 微生物学的に確認された3,621人のうち, 最大の(現在までの)データセットを収集した。 総合的な検査プロトコルのトリアージステップで使用する場合、確認試験の前に個人をリスク階層化させることで、医療システムの検査能力を5%の病気発生率で43%向上させることができ、追加の供給、訓練された人員、または物理的なインフラを必要としない。

Testing capacity for COVID-19 remains a challenge globally due to the lack of adequate supplies, trained personnel, and sample-processing equipment. These problems are even more acute in rural and underdeveloped regions. We demonstrate that solicited-cough sounds collected over a phone, when analysed by our AI model, have statistically significant signal indicative of COVID-19 status (AUC 0.72, t-test,p <0.01,95% CI 0.61-0.83). This holds true for asymptomatic patients as well. Towards this, we collect the largest known(to date) dataset of microbiologically confirmed COVID-19 cough sounds from 3,621 individuals. When used in a triaging step within an overall testing protocol, by enabling risk-stratification of individuals before confirmatory tests, our tool can increase the testing capacity of a healthcare system by 43% at disease prevalence of 5%, without additional supplies, trained personnel, or physical infrastructure
翻訳日:2022-10-17 12:23:42 公開日:2020-09-23
# 生体模倣コンピューティングシステムにおける時空間挙動について

On the spatiotemporal behavior in biology-mimicking computing systems ( http://arxiv.org/abs/2009.08841v3 )

ライセンス: Link先を確認
J\'anos V\'egh, \'Ad\'am J. Berki(参考訳) シングルプロセッサからスーパーコンピュータまで、従来のコンピューティングシステムのペイロード性能は、その性質上可能な限界に達した。 ビッグデータ(あるいは人工知能による支援)に対処する需要が高まり、脳の操作をより完全に理解することへの関心が高まり、より安価な従来のコンポーネントから生物学を模倣するコンピューティングシステムを構築し、異なる(神経形)コンピューティングシステムを構築する努力を刺激した。 一方、これらのシステムは異常な数のプロセッサを必要とし、性能制限と非線形スケーリングをもたらす。 他方では、ニューロンの操作は従来の作業と大きく異なる。 従来の計算(数学的背景と物理的実装の両方を含む)は、瞬間的相互作用を仮定し、生物学的神経系は「時空間的」な振る舞いを持つ。 この違いだけでは、技術的な実装における生物学的行動の模倣は困難である。 さらに、最近のコンピューティングの問題は、時間的挙動がコンピューティングシステムの一般的な特徴であることに注意を向けている。 バイオシステムと技術システムの両方におけるその影響は、すでに発見されている。 しかしながら、これらの問題の処理は不完全/不適切である。 ミンコフスキー変換に基づく時相論理の導入は、両種類の計算システムの動作に関する定量的な洞察を与え、さらに数十年前の経験的現象の自然な説明を提供する。 時間的振る舞いを正しく考慮しなければ、生物学的神経系の効果的な実装や真の模倣は不可能である。

The payload performance of conventional computing systems, from single processors to supercomputers, reached its limits the nature enables. Both the growing demand to cope with "big data" (based on, or assisted by, artificial intelligence) and the interest in understanding the operation of our brain more completely, stimulated the efforts to build biology-mimicking computing systems from inexpensive conventional components and build different ("neuromorphic") computing systems. On one side, those systems require an unusually large number of processors, which introduces performance limitations and nonlinear scaling. On the other side, the neuronal operation drastically differs from the conventional workloads. The conventional computing (including both its mathematical background and physical implementation) is based on assuming instant interaction, while the biological neuronal systems have a "spatiotemporal" behavior. This difference alone makes imitating biological behavior in technical implementation hard. Besides, the recent issues in computing called the attention to that the temporal behavior is a general feature of computing systems, too. Some of their effects in both biological and technical systems were already noticed. Nevertheless, handling of those issues is incomplete/improper. Introducing temporal logic, based on the Minkowski transform, gives quantitative insight into the operation of both kinds of computing systems, furthermore provides a natural explanation of decades-old empirical phenomena. Without considering their temporal behavior correctly, neither effective implementation nor a true imitation of biological neural systems are possible.
翻訳日:2022-10-17 02:13:17 公開日:2020-09-23
# 深部モデルのトレーニングにおける臨床基準の統合:糖尿病患者の血糖予測への応用

Integration of Clinical Criteria into the Training of Deep Models: Application to Glucose Prediction for Diabetic People ( http://arxiv.org/abs/2009.10514v2 )

ライセンス: Link先を確認
Maxime De Bois, Moun\^im A. El Yacoubi, Mehdi Ammi(参考訳) 神経ネットワークに基づく予測モデルのトレーニングで使用される標準的な目的関数は、臨床基準を考慮せず、必ずしも臨床的に受け入れられないモデルに繋がる。 本研究では,糖尿病患者に対する将来の血糖値予測の観点から,この問題を考察する。 本研究では,コヒーレント平均二乗グリセミック誤差(gcMSE)損失関数を提案する。 予測誤差だけでなく、グルコース予測において重要な予測変動誤差についてもペナルティを課す。 さらに、エラー空間内の異なる領域の重み付けを調整することで、より危険な領域に集中することができる。 損失関数を実際に利用するために,モデルの臨床的受容性を段階的に改善するアルゴリズムを提案し,精度と臨床基準の最良のトレードオフを実現する。 1型糖尿病患者と他の2型糖尿病患者の2つの糖尿病データセットを用いてアプローチを評価した。 その結果,標準的なMSE損失関数の代わりにgcMSE損失関数を用いることで,モデルの臨床的受容性が向上することが示唆された。 特に低血糖領域では改善が顕著である。 また, この臨床受容性の向上は, モデルの平均精度を低下させるコストが伴うことを示した。 最後に, この精度と臨床受容性のトレードオフを, 提案アルゴリズムでうまく対応できることを示す。 特定の臨床基準について、アルゴリズムは基準を満たしながら精度を最大化する最適な解を見つけることができる。

Standard objective functions used during the training of neural-network-based predictive models do not consider clinical criteria, leading to models that are not necessarily clinically acceptable. In this study, we look at this problem from the perspective of the forecasting of future glucose values for diabetic people. In this study, we propose the coherent mean squared glycemic error (gcMSE) loss function. It penalizes the model during its training not only of the prediction errors, but also on the predicted variation errors which is important in glucose prediction. Moreover, it makes possible to adjust the weighting of the different areas in the error space to better focus on dangerous regions. In order to use the loss function in practice, we propose an algorithm that progressively improves the clinical acceptability of the model, so that we can achieve the best tradeoff possible between accuracy and given clinical criteria. We evaluate the approaches using two diabetes datasets, one having type-1 patients and the other type-2 patients. The results show that using the gcMSE loss function, instead of a standard MSE loss function, improves the clinical acceptability of the models. In particular, the improvements are significant in the hypoglycemia region. We also show that this increased clinical acceptability comes at the cost of a decrease in the average accuracy of the model. Finally, we show that this tradeoff between accuracy and clinical acceptability can be successfully addressed with the proposed algorithm. For given clinical criteria, the algorithm can find the optimal solution that maximizes the accuracy while at the same meeting the criteria.
翻訳日:2022-10-16 05:42:49 公開日:2020-09-23
# RGB-Dカメラ用深度適応CNN

Depth-Adapted CNN for RGB-D cameras ( http://arxiv.org/abs/2009.09976v2 )

ライセンス: Link先を確認
Zongwei Wu, Guillaume Allibert, Christophe Stolz, Cedric Demonceaux(参考訳) 従来の2次元畳み込みニューラルネットワーク(CNN)は線形フィルタを用いて入力画像から特徴を抽出する。 これらのフィルタは、幾何学的情報を考慮せずに固定近傍の測光情報を重み付けすることにより、空間的コヒーレンスを計算する。 本稿では、rgb-dカメラの奥行き情報を用いて、従来のrgb cnn手法を改善する問題に取り組む。 最先端のアプローチでは、ディープを追加のチャネルまたはイメージ(HHA)として、あるいは2D CNNから3D CNNに渡す。 本稿では,CNNアーキテクチャにおける測光情報と幾何情報の両方を記述するための,新規で汎用的な手順を提案する。 深度データは2次元オフセットとして表現され、空間サンプリング位置に適応する。 提示された新しいモデルは、カメラ座標系のXとY軸の周囲のスケールと回転に不変である。 さらに、深度データが一定であれば、我々のモデルは通常のCNNと等価である。 ベンチマーク実験はモデルの有効性を検証する。

Conventional 2D Convolutional Neural Networks (CNN) extract features from an input image by applying linear filters. These filters compute the spatial coherence by weighting the photometric information on a fixed neighborhood without taking into account the geometric information. We tackle the problem of improving the classical RGB CNN methods by using the depth information provided by the RGB-D cameras. State-of-the-art approaches use depth as an additional channel or image (HHA) or pass from 2D CNN to 3D CNN. This paper proposes a novel and generic procedure to articulate both photometric and geometric information in CNN architecture. The depth data is represented as a 2D offset to adapt spatial sampling locations. The new model presented is invariant to scale and rotation around the X and the Y axis of the camera coordinate system. Moreover, when depth data is constant, our model is equivalent to a regular CNN. Experiments of benchmarks validate the effectiveness of our model.
翻訳日:2022-10-16 05:18:46 公開日:2020-09-23
# ペルシアの依存ツリーバンクがユニバーサルに

The Persian Dependency Treebank Made Universal ( http://arxiv.org/abs/2009.10205v2 )

ライセンス: Link先を確認
Mohammad Sadegh Rasooli, Pegah Safari, Amirsaeid Moloodi, Alireza Nourian(参考訳) 本稿では,ペルシャ依存ツリーバンク(Rasooli et al, 2013)をユニバーサル依存に変換する自動手法について述べる。 このツリーバンクには29107の文がある。 我々の実験と手作業による言語分析により,我々のデータはウプサラ・ペルシャ・ユニバーサル・依存性・ツリーバンク(seraji et al., 2016)よりも普遍的な依存関係と互換性があり,語彙がより大きく多様であることが示された。 我々のデータは教師付き解析において85.2のラベル付きアタッチメントf-scoreをもたらす。 ペルシャから英語へのパーサー転送実験では,ラベル付きアタッチメントスコアの点で,私たちのデータでトレーニングされた解析モデルは,セラジなど(2016年)のものよりも絶対的に2%精度が高いことが示された。

We describe an automatic method for converting the Persian Dependency Treebank (Rasooli et al, 2013) to Universal Dependencies. This treebank contains 29107 sentences. Our experiments along with manual linguistic analysis show that our data is more compatible with Universal Dependencies than the Uppsala Persian Universal Dependency Treebank (Seraji et al., 2016), and is larger in size and more diverse in vocabulary. Our data brings in a labeled attachment F-score of 85.2 in supervised parsing. Our delexicalized Persian-to-English parser transfer experiments show that a parsing model trained on our data is ~2% absolutely more accurate than that of Seraji et al. (2016) in terms of labeled attachment score.
翻訳日:2022-10-16 05:01:03 公開日:2020-09-23
# ギガピクセル全スライド画像における計算病理のフェデレーション学習

Federated Learning for Computational Pathology on Gigapixel Whole Slide Images ( http://arxiv.org/abs/2009.10190v2 )

ライセンス: Link先を確認
Ming Y. Lu, Dehan Kong, Jana Lipkova, Richard J. Chen, Rajendra Singh, Drew F. K. Williamson, Tiffany Y. Chen, Faisal Mahmood(参考訳) ディープラーニングに基づく計算病理学アルゴリズムは、よく知られた形態的表現型の特徴づけから、分子的変化のような組織学から人間の識別不可能な特徴を予測するまで、幅広いタスクに精通する能力を示した。 しかし、堅牢で適応性があり、正確なディープラーニングベースのモデルの開発は、しばしば、そのようなデータセットに存在する異質性に対処するために、様々なソースや患者集団から理想的に来るべき大規模な高品質なアノテートトレーニングデータの収集と時間費用のかかるキュレーションに依存している。 複数の機関にまたがる医療データの多中心的かつ協調的な統合は、この課題を克服し、モデルのパフォーマンスを高めるのに自然に役立ちますが、モデルが数十万ギガピクセルのスライド画像全体を使用するようスケールするにつれて、複雑なデータ共有プロセスで発生する他の困難の中で、プライバシー上の懸念によって制限されます。 本稿では,弱監視型マルチインスタンス学習と差分プライバシを用いた,計算病理学におけるギガピクセル全体の画像に対するプライバシー保護フェデレーション学習を提案する。 スライドレベルラベルのみを用いた何千もの病理組織像を用いて,2つの異なる診断問題に対するアプローチを評価した。 さらに,全スライド画像からの生存予測と患者階層化のための弱教師付き学習フレームワークを提案し,その効果を連合環境で実証する。 この結果から, 直接データ共有や関連複雑さを伴わない分散データサイロから, 高精度に教師付き深層学習モデルを開発することができ, また, ランダム化ノイズ生成による差分プライバシーの保護も可能であることがわかった。

Deep Learning-based computational pathology algorithms have demonstrated profound ability to excel in a wide array of tasks that range from characterization of well known morphological phenotypes to predicting non-human-identifiable features from histology such as molecular alterations. However, the development of robust, adaptable, and accurate deep learning-based models often rely on the collection and time-costly curation large high-quality annotated training data that should ideally come from diverse sources and patient populations to cater for the heterogeneity that exists in such datasets. Multi-centric and collaborative integration of medical data across multiple institutions can naturally help overcome this challenge and boost the model performance but is limited by privacy concerns amongst other difficulties that may arise in the complex data sharing process as models scale towards using hundreds of thousands of gigapixel whole slide images. In this paper, we introduce privacy-preserving federated learning for gigapixel whole slide images in computational pathology using weakly-supervised attention multiple instance learning and differential privacy. We evaluated our approach on two different diagnostic problems using thousands of histology whole slide images with only slide-level labels. Additionally, we present a weakly-supervised learning framework for survival prediction and patient stratification from whole slide images and demonstrate its effectiveness in a federated setting. Our results show that using federated learning, we can effectively develop accurate weakly supervised deep learning models from distributed data silos without direct data sharing and its associated complexities, while also preserving differential privacy using randomized noise generation.
翻訳日:2022-10-16 04:41:22 公開日:2020-09-23
# 時間とともにユーザの好みを変えるためのコンテキストバンディット

Contextual Bandits for adapting to changing User preferences over time ( http://arxiv.org/abs/2009.10073v2 )

ライセンス: Link先を確認
Dattaraj Rao(参考訳) 文脈帯域幅は、オンライン(インクリメンタル)学習を利用して、変化する環境に基づいて予測を継続的に調整することにより、MLの動的データ問題をモデル化する効果的な方法を提供する。 従来の強化学習(rl)問題の拡張であるコンテキストバンディットの詳細を調査し,この問題を解決するための新しいアルゴリズムを,アクションベースの学習者群を用いて構築する。 本稿では,確率勾配降下(SGD)学習者による記事推薦システムをモデル化し,行動に基づく報酬の予測を行う。 次に、アプローチを公開可能なMovieLensデータセットに拡張し、その結果を調査します。 まず,ユーザ嗜好の変化を示す簡易シミュレーションデータセットと,静的および動的学習アルゴリズムを用いて評価する方法を提案する。 この研究の一部として利用可能なデータセットは、意図的に限られた数の機能でシミュレートされ、異なる問題解決戦略を評価するために使用できる。 静的データセットを用いた分類器を構築し,このデータセット上での性能評価を行う。 本研究では,ある時点における固定コンテキストによる静的学習者の制限と,そのコンテキストの変化がいかに精度を低下させるかを示す。 次に,コンテキストバンディット問題を解決する新しいアルゴリズムを開発した。 線形帯域幅と同様、このアルゴリズムは報酬を文脈ベクトルの関数としてマッピングするが、学習者の配列を用いてアクション/アーム間の変動をキャプチャする。 本研究では,確率勾配降下(sgd)学習者の配列を用いたバンディットアルゴリズムを開発した。 最後に、この文脈的帯域幅アルゴリズムを適用し、標準のMovie Lensデータセットから異なるユーザによる映画評価の時間的予測を行い、その結果を実証する。

Contextual bandits provide an effective way to model the dynamic data problem in ML by leveraging online (incremental) learning to continuously adjust the predictions based on changing environment. We explore details on contextual bandits, an extension to the traditional reinforcement learning (RL) problem and build a novel algorithm to solve this problem using an array of action-based learners. We apply this approach to model an article recommendation system using an array of stochastic gradient descent (SGD) learners to make predictions on rewards based on actions taken. We then extend the approach to a publicly available MovieLens dataset and explore the findings. First, we make available a simplified simulated dataset showing varying user preferences over time and how this can be evaluated with static and dynamic learning algorithms. This dataset made available as part of this research is intentionally simulated with limited number of features and can be used to evaluate different problem-solving strategies. We will build a classifier using static dataset and evaluate its performance on this dataset. We show limitations of static learner due to fixed context at a point of time and how changing that context brings down the accuracy. Next we develop a novel algorithm for solving the contextual bandit problem. Similar to the linear bandits, this algorithm maps the reward as a function of context vector but uses an array of learners to capture variation between actions/arms. We develop a bandit algorithm using an array of stochastic gradient descent (SGD) learners, with separate learner per arm. Finally, we will apply this contextual bandit algorithm to predicting movie ratings over time by different users from the standard Movie Lens dataset and demonstrate the results.
翻訳日:2022-10-16 04:32:51 公開日:2020-09-23
# ca-net: 医用画像分割のための包括的注意畳み込みニューラルネットワーク

CA-Net: Comprehensive Attention Convolutional Neural Networks for Explainable Medical Image Segmentation ( http://arxiv.org/abs/2009.10549v2 )

ライセンス: Link先を確認
Ran Gu, Guotai Wang, Tao Song, Rui Huang, Michael Aertsen, Jan Deprest, S\'ebastien Ourselin, Tom Vercauteren, Shaoting Zhang(参考訳) 正確な医用画像分割は疾患の診断と治療計画に不可欠である。 畳み込みニューラルネットワーク(CNN)は、医療画像の自動分割のための最先端のパフォーマンスを達成した。 しかし, セグメンテーション対象が位置, 形状, 規模が大きく, 既存のCNNでは臨床的判断に限定した説明力の不足など, 複雑な状況に悩まされている。 本研究では,CNNアーキテクチャにおける複数の注意点を幅広く活用し,より正確かつ説明可能な医用画像分割のための総合的な注意ベースCNN(CA-Net)を提案する。 特に,まず,ネットワークをフォアグラウンド領域により集中させるために,協調的な空間的注意モジュールを提案する。 次に、チャンネル毎の特徴応答を適応的に再調整し、最も関連する特徴チャネルをハイライトする新しいチャンネルアテンションモジュールを提案する。 また,CNNが対象物のサイズに適応するように,複数の尺度間で最も有能な特徴写像を暗黙的に強調するスケールアテンションモジュールを提案する。 IIC 2018 と fetal MRI の多種間分画による皮膚病変分画実験の結果,提案したCA-Net は平均分画率を 87.77% から 92.08% に,胎盤では 84.79% から 87.08% に,胎児脳では 93.20% から 95.88% に改善した。 モデルのサイズは、最先端のDeepLabv3+に比べて15倍小さくなり、精度も向上した。 さらに、注意重みマップを可視化することで、既存のネットワークよりも説明可能性が高い。 私たちのコードはhttps://github.com/HiLab-git/CA-Netで利用可能です。

Accurate medical image segmentation is essential for diagnosis and treatment planning of diseases. Convolutional Neural Networks (CNNs) have achieved state-of-the-art performance for automatic medical image segmentation. However, they are still challenged by complicated conditions where the segmentation target has large variations of position, shape and scale, and existing CNNs have a poor explainability that limits their application to clinical decisions. In this work, we make extensive use of multiple attentions in a CNN architecture and propose a comprehensive attention-based CNN (CA-Net) for more accurate and explainable medical image segmentation that is aware of the most important spatial positions, channels and scales at the same time. In particular, we first propose a joint spatial attention module to make the network focus more on the foreground region. Then, a novel channel attention module is proposed to adaptively recalibrate channel-wise feature responses and highlight the most relevant feature channels. Also, we propose a scale attention module implicitly emphasizing the most salient feature maps among multiple scales so that the CNN is adaptive to the size of an object. Extensive experiments on skin lesion segmentation from ISIC 2018 and multi-class segmentation of fetal MRI found that our proposed CA-Net significantly improved the average segmentation Dice score from 87.77% to 92.08% for skin lesion, 84.79% to 87.08% for the placenta and 93.20% to 95.88% for the fetal brain respectively compared with U-Net. It reduced the model size to around 15 times smaller with close or even better accuracy compared with state-of-the-art DeepLabv3+. In addition, it has a much higher explainability than existing networks by visualizing the attention weight maps. Our code is available at https://github.com/HiLab-git/CA-Net
翻訳日:2022-10-15 23:10:53 公開日:2020-09-23
# 歩行者軌道予測のための空間時間ブロックとLSTMネットワーク

Spatial-Temporal Block and LSTM Network for Pedestrian Trajectories Prediction ( http://arxiv.org/abs/2009.10468v2 )

ライセンス: Link先を確認
Xiong Dan(参考訳) 歩行者の軌道予測は自律走行衝突を避けるために重要である。 しかし、この予測は社会的力と散らかったシーンのために難しい問題だ。 このような人間と人間と空間の相互作用は多くの社会的にもっともらしい軌道に繋がる。 本稿では,LSTMに基づく新しいアルゴリズムを提案する。 本稿では,グラフ畳み込みネットワークと時間畳み込みネットワークを組み合わせて,歩行者から特徴を抽出する静的シーンと歩行者について考察する。 シーン内の各歩行者はノードと見なされ、グラフ埋め込みによって各ノードとその近傍の関係を得ることができる。 この関係を符号化したのはLSTMであり,我々のモデルは群集シナリオにおけるノードの軌跡を同時に予測する。 複数の将来の軌道を効果的に予測するために,ネットワークを柔軟にするために時空間畳み込みブロックを導入する。 ETHとUCYという2つの公開データセットの実験結果から提案したST-Blockの有効性が実証され,人間の軌道予測における最先端のアプローチが達成された。

Pedestrian trajectory prediction is a critical to avoid autonomous driving collision. But this prediction is a challenging problem due to social forces and cluttered scenes. Such human-human and human-space interactions lead to many socially plausible trajectories. In this paper, we propose a novel LSTM-based algorithm. We tackle the problem by considering the static scene and pedestrian which combine the Graph Convolutional Networks and Temporal Convolutional Networks to extract features from pedestrians. Each pedestrian in the scene is regarded as a node, and we can obtain the relationship between each node and its neighborhoods by graph embedding. It is LSTM that encode the relationship so that our model predicts nodes trajectories in crowd scenarios simultaneously. To effectively predict multiple possible future trajectories, we further introduce Spatio-Temporal Convolutional Block to make the network flexible. Experimental results on two public datasets, i.e. ETH and UCY, demonstrate the effectiveness of our proposed ST-Block and we achieve state-of-the-art approaches in human trajectory prediction.
翻訳日:2022-10-15 21:31:05 公開日:2020-09-23
# エージェント・ベース・シミュレーションモデルと深層学習によるCOVID-19周辺の交通動向の評価・予測

Agent-based Simulation Model and Deep Learning Techniques to Evaluate and Predict Transportation Trends around COVID-19 ( http://arxiv.org/abs/2010.09648v1 )

ライセンス: Link先を確認
Ding Wang, Fan Zuo, Jingqin Gao, Yueshuai He, Zilin Bian, Suzana Duran Bernardes, Chaekuk Na, Jingxing Wang, John Petinos, Kaan Ozbay, Joseph Y.J. Chow, Shri Iyer, Hani Nassif, Xuegang Jeff Ban(参考訳) 新型コロナウイルス(covid-19)のパンデミックは旅行行動や交通システム操作に影響を与えており、都市はソーシャルディスタンシングによって形成された段階的な再開にどのような政策が有効かに取り組んでいます。 このホワイトペーパーは、旅行傾向を更新し、エージェントベースのシミュレーションモデルの結果を強調し、提案したフェーズド再開戦略の影響を予測する。 また、街中のカメラを通してソーシャルディスタンシングを測定するリアルタイムビデオ処理方法も導入している。

The COVID-19 pandemic has affected travel behaviors and transportation system operations, and cities are grappling with what policies can be effective for a phased reopening shaped by social distancing. This edition of the white paper updates travel trends and highlights an agent-based simulation model's results to predict the impact of proposed phased reopening strategies. It also introduces a real-time video processing method to measure social distancing through cameras on city streets.
翻訳日:2022-10-15 17:05:01 公開日:2020-09-23
# マルチエージェント強化学習を用いたプロデューサ支配マイクログリッドの需要応答動的価格フレームワーク

Demand Responsive Dynamic Pricing Framework for Prosumer Dominated Microgrids using Multiagent Reinforcement Learning ( http://arxiv.org/abs/2009.10890v1 )

ライセンス: Link先を確認
Amin Shojaeighadikolaei, Arman Ghasemi, Kailani R. Jones, Alexandru G. Bardas, Morteza Hashemi, Reza Ahmadi(参考訳) 需要応答(DR)は、顧客のエネルギー料金を削減しつつ、グリッドの安定性と信頼性を向上させる可能性を広く認識している。 しかし、従来のdr技術には運用上の不確実性を処理できないことや顧客の不利用を発生させるなど、いくつかの欠点があり、現実のアプリケーションで広く採用されている。 本稿では,マルチエージェント強化学習(RL)に基づく実時間価格DR(Real-Time Pricing, RTP)技術の実装のための意思決定環境を提案する。 提案手法は,従来のDR法に共通するいくつかの欠点に対処し,グリッド演算子とプロシューマーに大きな経済的利益をもたらす。 提案手法の有効性を示すため,小型マイクログリッドシステムにおいて提案手法を従来の基本動作シナリオと比較した。 最後に、このマイクログリッドにおけるプロシューマーエネルギー貯蔵容量の使用に関する調査は、バランスのとれた市場設定を確立する際の提案手法の利点を強調している。

Demand Response (DR) has a widely recognized potential for improving grid stability and reliability while reducing customers energy bills. However, the conventional DR techniques come with several shortcomings, such as inability to handle operational uncertainties and incurring customer disutility, impeding their wide spread adoption in real-world applications. This paper proposes a new multiagent Reinforcement Learning (RL) based decision-making environment for implementing a Real-Time Pricing (RTP) DR technique in a prosumer dominated microgrid. The proposed technique addresses several shortcomings common to traditional DR methods and provides significant economic benefits to the grid operator and prosumers. To show its better efficacy, the proposed DR method is compared to a baseline traditional operation scenario in a small-scale microgrid system. Finally, investigations on the use of prosumers energy storage capacity in this microgrid highlight the advantages of the proposed method in establishing a balanced market setup.
翻訳日:2022-10-15 17:04:51 公開日:2020-09-23
# スマートグリッドにおける分散エネルギー市場のためのマルチエージェント深層強化学習手法

A Multi-Agent Deep Reinforcement Learning Approach for a Distributed Energy Marketplace in Smart Grids ( http://arxiv.org/abs/2009.10905v1 )

ライセンス: Link先を確認
Arman Ghasemi, Amin Shojaeighadikolaei, Kailani Jones, Morteza Hashemi, Alexandru G. Bardas, Reza Ahmadi(参考訳) 本稿では,プロシューマー支配型マイクログリッドのための強化学習(rl)ベースのエネルギー市場を提案する。 提案する市場モデルにより,リアルタイムかつ需要に依存した動的価格環境が実現され,グリッドコストが低減され,消費者の経済的利益が向上する。 さらに、この市場モデルにより、グリッドオペレータは、グリッドサポートアプリケーションのディスパッチ可能なアセットとして、prosumersストレージ容量を活用できる。 深層qnetwork (dqn) フレームワークに基づくシミュレーションの結果,24時間蓄積利益のプロシューマーとグリッドオペレータの双方に対する有意な改善と,グリッドリザーブ電力利用の大幅な削減が示された。

This paper presents a Reinforcement Learning (RL) based energy market for a prosumer dominated microgrid. The proposed market model facilitates a real-time and demanddependent dynamic pricing environment, which reduces grid costs and improves the economic benefits for prosumers. Furthermore, this market model enables the grid operator to leverage prosumers storage capacity as a dispatchable asset for grid support applications. Simulation results based on the Deep QNetwork (DQN) framework demonstrate significant improvements of the 24-hour accumulative profit for both prosumers and the grid operator, as well as major reductions in grid reserve power utilization.
翻訳日:2022-10-15 17:04:37 公開日:2020-09-23
# FluentNet:ディープラーニングを用いた音声の終端検出

FluentNet: End-to-End Detection of Speech Disfluency with Deep Learning ( http://arxiv.org/abs/2009.11394v1 )

ライセンス: Link先を確認
Tedd Kourkounakis, Amirhossein Hajavi, Ali Etemad(参考訳) 強力なプレゼンテーションスキルは、職場や教室環境でも有用であり、追求されている。 音声によるプレゼンテーションの改善の可能性のうち、特に影響や混乱は、誰かのデモンストレーションで最も一般的で顕著な要素の1つである。 何百万人もの人々が、発声やその他の言語障害に影響を受けており、世界の大部分では、ストレスの多い環境下でコミュニケーション中に軽度の発声を経験している。 自動音声認識と言語モデルの分野では、多くの研究が行われてきたが、不整合の検出と認識に関して十分な作業が不足している。 そこで本研究では,複数の分散型を検出可能なエンドツーエンドのディープニューラルネットワークであるFluentNetを提案する。 FluentNetは、強いスペクトルフレームレベルの表現の学習を容易にするSqueeze-and-Excitation Residual畳み込みニューラルネットワークと、効果的な時間的関係の学習を支援する双方向の長期記憶層で構成される。 最後に、FluentNetはアテンションメカニズムを使用して、音声の重要な部分に集中し、より良いパフォーマンスを得る。 モデルを評価するために,様々な実験,比較,アブレーションを行った。 本モデルは,一般公開されたUCLASSデータセットの分野における他のソリューションよりも優れた結果が得られる。 さらに、合成スタブ付きパブリックなLibriSpeechデータセットに基づく分散データセットであるLibriStutterを提案する。 また、このデータセット上でfluentnetを評価し、我々のモデルと多くのベンチマークテクニックの強力なパフォーマンスを示しています。

Strong presentation skills are valuable and sought-after in workplace and classroom environments alike. Of the possible improvements to vocal presentations, disfluencies and stutters in particular remain one of the most common and prominent factors of someone's demonstration. Millions of people are affected by stuttering and other speech disfluencies, with the majority of the world having experienced mild stutters while communicating under stressful conditions. While there has been much research in the field of automatic speech recognition and language models, there lacks the sufficient body of work when it comes to disfluency detection and recognition. To this end, we propose an end-to-end deep neural network, FluentNet, capable of detecting a number of different disfluency types. FluentNet consists of a Squeeze-and-Excitation Residual convolutional neural network which facilitate the learning of strong spectral frame-level representations, followed by a set of bidirectional long short-term memory layers that aid in learning effective temporal relationships. Lastly, FluentNet uses an attention mechanism to focus on the important parts of speech to obtain a better performance. We perform a number of different experiments, comparisons, and ablation studies to evaluate our model. Our model achieves state-of-the-art results by outperforming other solutions in the field on the publicly available UCLASS dataset. Additionally, we present LibriStutter: a disfluency dataset based on the public LibriSpeech dataset with synthesized stutters. We also evaluate FluentNet on this dataset, showing the strong performance of our model versus a number of benchmark techniques.
翻訳日:2022-10-15 17:03:42 公開日:2020-09-23
# プロセス合成のための深層強化学習

Deep Reinforcement Learning for Process Synthesis ( http://arxiv.org/abs/2009.13265v1 )

ライセンス: Link先を確認
Laurence Illing Midgley(参考訳) 本稿では,ユーザが定義した多成分フィードストリームに対して,rlエージェントが蒸留トレインの設計を行うためのrl環境群である蒸留ジムを提示することにより,強化学習(rl)のプロセス合成への応用を示す。 環境をシミュレートするプロセスシミュレーター(COCOとChemSep)との蒸留Gymインタフェース。 本稿では, 2つの蒸留問題例(ベンゼン, トルエン, p-キシレン分離問題, 炭化水素分離問題)の実証を行った。 最後に,化学工学プロセス合成のための汎用強化学習ソフトウェアツールキットであるChemical Engineering Gymを提案する。

This paper demonstrates the application of reinforcement learning (RL) to process synthesis by presenting Distillation Gym, a set of RL environments in which an RL agent is tasked with designing a distillation train, given a user defined multi-component feed stream. Distillation Gym interfaces with a process simulator (COCO and ChemSep) to simulate the environment. A demonstration of two distillation problem examples are discussed in this paper (a Benzene, Toluene, P-xylene separation problem and a hydrocarbon separation problem), in which a deep RL agent is successfully able to learn within Distillation Gym to produce reasonable designs. Finally, this paper proposes the creation of Chemical Engineering Gym, an all-purpose reinforcement learning software toolkit for chemical engineering process synthesis.
翻訳日:2022-10-15 17:03:04 公開日:2020-09-23
# 敵の攻撃をキャッチするハニーポットの防御の部分的破壊

A Partial Break of the Honeypots Defense to Catch Adversarial Attacks ( http://arxiv.org/abs/2009.10975v1 )

ライセンス: Link先を確認
Nicholas Carlini(参考訳) 最近の防衛では、敵の攻撃を検出するために、ニューラルネットワークに"Honeypots"を注入することを提案している。 我々は,検出真正率を0\%,検出aucを0.02に下げ,元の歪み境界を維持して,この防御のベースラインバージョンを破る。 オリジナルの論文の著者は、この攻撃を緩和するためにCCS'20紙の防衛を修正した。 さらなる研究を支援するために、我々は攻撃プロセスをhttps://nicholas.carlini.com/code/ccs_honeypot_breakで記録する2.5時間のキーストローク・バイ・キーストロークスクリーンをリリースする。

A recent defense proposes to inject "honeypots" into neural networks in order to detect adversarial attacks. We break the baseline version of this defense by reducing the detection true positive rate to 0\% and the detection AUC to 0.02, maintaining the original distortion bounds. The authors of the original paper have amended the defense in their CCS'20 paper to mitigate this attacks. To aid further research, we release the complete 2.5 hour keystroke-by-keystroke screen recording of our attack process at https://nicholas.carlini.com/code/ccs_honeypot_break.
翻訳日:2022-10-15 16:57:15 公開日:2020-09-23
# ロバスト強化学習に基づくシミュレーションと実世界のための自律運転エージェント

Robust Reinforcement Learning-based Autonomous Driving Agent for Simulation and Real World ( http://arxiv.org/abs/2009.11212v1 )

ライセンス: Link先を確認
P\'eter Alm\'asi, R\'obert Moni, B\'alint Gyires-T\'oth(参考訳) 深層強化学習(DRL)は、近年、複雑なボードやコンピュータゲームなど、様々な課題の解決に成功している。 しかし、現実世界のロボット工学タスクをDRLで解くことは、より難しい課題である。 望ましいアプローチは、シミュレーターのエージェントを訓練し、それを現実世界に転送することである。 それでもシミュレータでトレーニングされたモデルは、実際の環境ではパフォーマンスが悪い傾向がある。 本稿では,Deep Q-Networks (DQN) を用いた自律ロボット制御を実現するDRLに基づくアルゴリズムを提案する。 このアプローチでは,エージェントはシミュレーション環境において訓練され,シミュレーション環境と実環境の両方でナビゲートすることができる。 この方法は、単眼カメラの入力に基づいて、エージェントが車線を従わなければならないダッキータウン環境で評価される。 トレーニングされたエージェントは限られたハードウェアリソースで実行でき、そのパフォーマンスは最先端のアプローチに匹敵する。

Deep Reinforcement Learning (DRL) has been successfully used to solve different challenges, e.g. complex board and computer games, recently. However, solving real-world robotics tasks with DRL seems to be a more difficult challenge. The desired approach would be to train the agent in a simulator and transfer it to the real world. Still, models trained in a simulator tend to perform poorly in real-world environments due to the differences. In this paper, we present a DRL-based algorithm that is capable of performing autonomous robot control using Deep Q-Networks (DQN). In our approach, the agent is trained in a simulated environment and it is able to navigate both in a simulated and real-world environment. The method is evaluated in the Duckietown environment, where the agent has to follow the lane based on a monocular camera input. The trained agent is able to run on limited hardware resources and its performance is comparable to state-of-the-art approaches.
翻訳日:2022-10-15 16:56:44 公開日:2020-09-23
# マルチエージェント深層強化学習に基づくマルチuavモバイルエッジコンピューティングのための軌道計画

Multi-Agent Deep Reinforcement Learning Based Trajectory Planning for Multi-UAV Assisted Mobile Edge Computing ( http://arxiv.org/abs/2009.11277v1 )

ライセンス: Link先を確認
Liang Wang, Kezhi Wang, Cunhua Pan, Wei Xu, Nauman Aslam and Lajos Hanzo(参考訳) 無人航空機(UAV)支援移動エッジコンピューティング(MEC)フレームワークが提案され、異なる軌道を持つ複数のUAVが目標領域を飛行し、地上のユーザ機器(UE)をサポートする。 各UAVのUE負荷の公平さとUEの全体的なエネルギー消費を両立させることを目的としている。 上記の最適化問題は整数変数と継続変数の両方を含み、解くのが難しい。 上記の問題に対処するため,UAVの軌跡を個別に管理するための多エージェント深部強化学習に基づく軌道制御アルゴリズムを提案し,MADDPG(Multi-Agent Deep Deterministic Policy Gradient)法を適用した。 uavの軌道を考えると、uesのオフロード決定を最適化するための低複雑さアプローチが導入される。 提案手法は,UAVにおけるUE負荷の公平性,UAVにおけるUE負荷の公平性,全UEに対するエネルギー消費の両面において,従来のアルゴリズムよりも高い性能を示した。

An unmanned aerial vehicle (UAV)-aided mobile edge computing (MEC) framework is proposed, where several UAVs having different trajectories fly over the target area and support the user equipments (UEs) on the ground. We aim to jointly optimize the geographical fairness among all the UEs, the fairness of each UAV' UE-load and the overall energy consumption of UEs. The above optimization problem includes both integer and continues variables and it is challenging to solve. To address the above problem, a multi-agent deep reinforcement learning based trajectory control algorithm is proposed for managing the trajectory of each UAV independently, where the popular Multi-Agent Deep Deterministic Policy Gradient (MADDPG) method is applied. Given the UAVs' trajectories, a low-complexity approach is introduced for optimizing the offloading decisions of UEs. We show that our proposed solution has considerable performance over other traditional algorithms, both in terms of the fairness for serving UEs, fairness of UE-load at each UAV and energy consumption for all the UEs.
翻訳日:2022-10-15 16:56:28 公開日:2020-09-23
# 完全二重無線における自己干渉キャンセルのための低複雑性ニューラルネットワーク構造

Low Complexity Neural Network Structures for Self-Interference Cancellation in Full-Duplex Radio ( http://arxiv.org/abs/2009.11361v1 )

ライセンス: Link先を確認
Mohamed Elsayed, Ahmad A. Aziz El-Banna, Octavia A. Dobre, Wanyi Shiu, and Peiwei Wang(参考訳) 自己干渉 (si) はフルデュプレックス (fd) システムの主要な課題であると考えられている。 したがって、第5世代の無線ネットワークにFDシステムを効果的に展開するには、効率的なSIキャンセラが必要である。 既存のSIキャンセル方式は、受信機におけるSI信号の多項式表現を主に考慮している。 これらの手法は、高い計算複雑性を必要としながら、実際にうまく動作することが示されている。 あるいは、ニューラルネットワーク(NN)が、計算複雑性を低減したSI信号のモデリング候補として期待されている。 そこで本研究では,LWGS (Lager-wise grid structure) とMWGS ( moving-window grid structure) と呼ばれる2つの新しい低複雑性NN構造を提案する。 これらの2つの構造の中核となる考え方は、SI信号に導入された非線形性とメモリ効果を模倣し、計算複雑性を低く保ち、適切なSIキャンセルを実現することである。 シミュレーションの結果、lwgsとmwgs nnベースのキャンセラはそれぞれ49.87%と34.19%の複雑さ低減を提供しながら、多項式系キャンセラと同じキャンセル性能を達成することがわかった。

Self-interference (SI) is considered as a main challenge in full-duplex (FD) systems. Therefore, efficient SI cancelers are required for the influential deployment of FD systems in beyond fifth-generation wireless networks. Existing methods for SI cancellation have mostly considered the polynomial representation of the SI signal at the receiver. These methods are shown to operate well in practice while requiring high computational complexity. Alternatively, neural networks (NNs) are envisioned as promising candidates for modeling the SI signal with reduced computational complexity. Consequently, in this paper, two novel low complexity NN structures, referred to as the ladder-wise grid structure (LWGS) and moving-window grid structure (MWGS), are proposed. The core idea of these two structures is to mimic the non-linearity and memory effect introduced to the SI signal in order to achieve proper SI cancellation while exhibiting low computational complexity. The simulation results reveal that the LWGS and MWGS NN-based cancelers attain the same cancellation performance of the polynomial-based canceler while providing 49.87% and 34.19% complexity reduction, respectively.
翻訳日:2022-10-15 16:56:09 公開日:2020-09-23
# 生体画像分割のための畳み込みニューラルネットワークを用いた領域成長

Region Growing with Convolutional Neural Networks for Biomedical Image Segmentation ( http://arxiv.org/abs/2009.11717v1 )

ライセンス: Link先を確認
John Lagergren, Erica Rutter, Kevin Flores(参考訳) 本稿では,各座標方向の予測マスク領域を反復的に成長させることにより,畳み込みニューラルネットワーク(CNN)を用いてセグメンテーションを行う手法を提案する。 CNNは、画像のタイル内の中心画素の小さな近傍のクラス確率スコアを予測するために使用される。 我々は、CNNの確率スコアのしきい値を用いて、領域にピクセルが追加され、その領域に新しいピクセルが加えられるまで繰り返し続けるかどうかを決定する。 本手法は,少量のトレーニングデータを活用するとともに,計算効率を保ちながら,高いセグメンテーション精度を達成し,生物学的に現実的な形態的特徴を維持できる。 DRIVEデータベースの網膜血管画像を用いて,いくつかの評価指標について完全畳み込みセマンティックセグメンテーションCNNよりも精度が高いことを確認した。

In this paper we present a methodology that uses convolutional neural networks (CNNs) for segmentation by iteratively growing predicted mask regions in each coordinate direction. The CNN is used to predict class probability scores in a small neighborhood of the center pixel in a tile of an image. We use a threshold on the CNN probability scores to determine whether pixels are added to the region and the iteration continues until no new pixels are added to the region. Our method is able to achieve high segmentation accuracy and preserve biologically realistic morphological features while leveraging small amounts of training data and maintaining computational efficiency. Using retinal blood vessel images from the DRIVE database we found that our method is more accurate than a fully convolutional semantic segmentation CNN for several evaluation metrics.
翻訳日:2022-10-15 16:55:32 公開日:2020-09-23
# 機械学習による結晶表面の分類

Grain Surface Classification via Machine Learning Methods ( http://arxiv.org/abs/2009.12200v1 )

ライセンス: Link先を確認
H\"useyin Duysak, Umut \"Ozkaya and Enes Yi\u{g}it(参考訳) 本研究では,機械学習を用いてレーダ信号を解析し,粒子表面のタイプを分類した。 レーダー後方散乱信号は18-40GHzのベクトルネットワークアナライザを用いて記録された。 スキャン信号の合計5681個の測定値が収集された。 提案手法は2つの部分からなる。 1次統計特徴は、Fast Fourier Transform (FFT)、Disdisrete Cosine Transform (DCT)、Disdisrete Wavelet Transform (DWT)をフレームワークの最初の部分の後方散乱信号に適用することによって得られる。 これらの特徴の分類は support vector machine (svm) を用いて行った。 提案フレームワークの第2部では, 信号に短時間フーリエ変換(STFT)を適用して, 複雑な形状の2次元行列を求める。 Gray-Level Co-Occurrence Matrix (GLCM) とGray-Level Run-Length Matrix (GLRLM) が得られた。 DVMで分類処理を行った。 10kクロス検証が適用された。 最高性能はSTFT+GLCM+SVMで達成された。

In this study, radar signals were analyzed to classify grain surface types by using machine learning methods. Radar backscatter signals were recorded using a vector network analyzer between 18-40 GHz. A total of 5681 measurements of A scan signals were collected. The proposed method framework consists of two parts. First Order Statistical features are obtained by applying Fast Fourier Transform (FFT), Discrete Cosine Transform (DCT), Discrete Wavelet Transform (DWT) on backscatter signals in the first part of the framework. Classification process of these features was carried out with Support Vector Machine (SVM). In the second part of the proposed framework, two dimensional matrices in complex form were obtained by applying Short Time Fourier Transform (STFT) on the signals. Gray-Level Co-Occurrence Matrix (GLCM) and Gray-Level Run-Length Matrix (GLRLM) were obtained and feature extraction process was completed. Classification process was carried out with DVM. 10-k cross validation was applied. The highest performance was achieved with STFT+GLCM+SVM.
翻訳日:2022-10-15 16:54:50 公開日:2020-09-23
# 注意誘導型深層マルチインスタンス学習ネットワークを用いた全スライド画像に基づくがん生存予測

Whole Slide Images based Cancer Survival Prediction using Attention Guided Deep Multiple Instance Learning Networks ( http://arxiv.org/abs/2009.11169v1 )

ライセンス: Link先を確認
Jiawen Yao, Xinliang Zhu, Jitendra Jonnagaddala, Nicholas Hawkins, Junzhou Huang(参考訳) 従来の画像ベースの生存予測モデルは、大きなデータセットに拡張するスケーラビリティを損なうような、差別的なパッチラベルに依存している。 近年の研究では、分類タスクでアノテーションが利用できない場合、MIL(Multiple Instance Learning)フレームワークが病理画像に有用であることが示されている。 本稿では,siamese mi-fcn と attention-based mil pooling を併用し,wsi から画像特徴を効率的に学習し,wsi レベル情報を患者レベルに集約することにより,現在提案されている画像ベースサバイバルモデルとは異なり,マルチインスタンスサバイバル学習 (deepattnmisl) を提案する。 注意に基づくアグリゲーションは、最近の生存モデルにおけるアグリゲーション技術よりも柔軟で適応的である。 本手法を2つの大きながん画像データセットで評価した結果,提案手法は大規模データセットに適しており,正確ながん生存予測に寄与する重要なパターンや特徴の発見に有効であることが示唆された。 提案フレームワークは,患者個人のリスクを評価し,パーソナライズされた医療の提供を支援するためにも利用できる。 コードはhttps://github.com/uta-smile/deepattnmisl_mediaで入手できる。

Traditional image-based survival prediction models rely on discriminative patch labeling which make those methods not scalable to extend to large datasets. Recent studies have shown Multiple Instance Learning (MIL) framework is useful for histopathological images when no annotations are available in classification task. Different to the current image-based survival models that limit to key patches or clusters derived from Whole Slide Images (WSIs), we propose Deep Attention Multiple Instance Survival Learning (DeepAttnMISL) by introducing both siamese MI-FCN and attention-based MIL pooling to efficiently learn imaging features from the WSI and then aggregate WSI-level information to patient-level. Attention-based aggregation is more flexible and adaptive than aggregation techniques in recent survival models. We evaluated our methods on two large cancer whole slide images datasets and our results suggest that the proposed approach is more effective and suitable for large datasets and has better interpretability in locating important patterns and features that contribute to accurate cancer survival predictions. The proposed framework can also be used to assess individual patient's risk and thus assisting in delivering personalized medicine. Codes are available at https://github.com/uta-smile/DeepAttnMISL_MEDIA.
翻訳日:2022-10-15 16:48:46 公開日:2020-09-23
# パターン認識のための線形移動量$\mathrm{l}^p$距離

A Linear Transportation $\mathrm{L}^p$ Distance for Pattern Recognition ( http://arxiv.org/abs/2009.11262v1 )

ライセンス: Link先を確認
Oliver M. Crook, Mihai Cucuringu, Tim Hurst, Carola-Bibiane Sch\"onlieb, Matthew Thorpe and Konstantinos C. Zygalakis(参考訳) 輸送 $\mathrm{L}^p$ 距離 ($\mathrm{TL}^p$) はワッサーシュタイン $\mathrm{W}^p$ 距離の一般化として提案されている。 これらの距離は、$\mathrm{W}^p$と同様に、空間的または時間的摂動を伴うデータモデリングの強力なツールである。 しかし、それらの計算コストは、中程度のパターン認識タスクにも適用できない可能性がある。 我々は,これらの距離の線形バージョンを提案し,線形$\mathrm{TL}^p$距離が,信号処理タスクにおける線形$\mathrm{W}^p$距離よりも大幅に向上することを示し,また,$\mathrm{TL}^p$距離よりも数桁高速に計算できることを示す。

The transportation $\mathrm{L}^p$ distance, denoted $\mathrm{TL}^p$, has been proposed as a generalisation of Wasserstein $\mathrm{W}^p$ distances motivated by the property that it can be applied directly to colour or multi-channelled images, as well as multivariate time-series without normalisation or mass constraints. These distances, as with $\mathrm{W}^p$, are powerful tools in modelling data with spatial or temporal perturbations. However, their computational cost can make them infeasible to apply to even moderate pattern recognition tasks. We propose linear versions of these distances and show that the linear $\mathrm{TL}^p$ distance significantly improves over the linear $\mathrm{W}^p$ distance on signal processing tasks, whilst being several orders of magnitude faster to compute than the $\mathrm{TL}^p$ distance.
翻訳日:2022-10-15 16:48:19 公開日:2020-09-23
# ディープラーニング性能最適化のためのRooflineモデルの適用

Applying the Roofline model for Deep Learning performance optimizations ( http://arxiv.org/abs/2009.11224v1 )

ライセンス: Link先を確認
Jacek Czaja, Michal Gallus, Joanna Wozna, Adam Grygielski, Luo Tao(参考訳) 本稿では,Intel Xeon を例として,Non-Unified Memory Access (NUMA) 用の Roofline モデルの自動作成手法を提案する。 最後に,Intel oneDNNライブラリに実装された高効率深層学習プリミティブの評価について述べる。

In this paper We present a methodology for creating Roofline models automatically for Non-Unified Memory Access (NUMA) using Intel Xeon as an example. Finally, we present an evaluation of highly efficient deep learning primitives as implemented in the Intel oneDNN Library.
翻訳日:2022-10-15 16:47:04 公開日:2020-09-23
# 自動運転車におけるAI推論エンジンのプロトタイピングとデプロイのためのCloud2Edge Elastic AIフレームワーク

Cloud2Edge Elastic AI Framework for Prototyping and Deployment of AI Inference Engines in Autonomous Vehicles ( http://arxiv.org/abs/2009.11722v1 )

ライセンス: Link先を確認
Sorin Grigorescu, Tiberiu Cocias, Bogdan Trasnea, Andrea Margheri, Federico Lombardi, Leonardo Aniello(参考訳) 自動運転車と自動運転車は自動車セクターに革命をもたらし、モビリティの未来を完全に形作っている。 人工知能(AI)やクラウド/エッジコンピューティングといった新しい技術の統合は、自律運転アプリケーションを改善するための黄金の機会を提供するが、AIコンポーネントのプロトタイピングとデプロイメントサイクル全体に合わせて近代化する必要がある。 本稿では、クラウドとエッジの両方のリソースに対して、トレーニングタスクを柔軟に展開し、必要なネットワーク帯域幅を削減し、プライバシの問題を軽減することを目的とした、ディープラーニングモジュールに基づく自動運転アプリケーションのための、いわゆるai推論エンジンを開発するための、新たなフレームワークを提案する。 提案したデータ駆動型V-Modelに基づいて,ソフトウェア・イン・ザ・ループ(SiL)パラダイムに従ってクラウド上でプロトタイピングが行われ,対象のECU(Electronic Control Units)へのデプロイと評価がハードウェア・イン・ザ・ループ(HiL)テストとして実行される,AIコンポーネント開発サイクルの単純かつエレガントなソリューションを導入する。 提案手法の有効性を,環境認識と最も予測可能な経路予測である自律走行車用AI推論エンジンの2つの実例を用いて実証した。

Self-driving cars and autonomous vehicles are revolutionizing the automotive sector, shaping the future of mobility altogether. Although the integration of novel technologies such as Artificial Intelligence (AI) and Cloud/Edge computing provides golden opportunities to improve autonomous driving applications, there is the need to modernize accordingly the whole prototyping and deployment cycle of AI components. This paper proposes a novel framework for developing so-called AI Inference Engines for autonomous driving applications based on deep learning modules, where training tasks are deployed elastically over both Cloud and Edge resources, with the purpose of reducing the required network bandwidth, as well as mitigating privacy issues. Based on our proposed data driven V-Model, we introduce a simple yet elegant solution for the AI components development cycle, where prototyping takes place in the cloud according to the Software-in-the-Loop (SiL) paradigm, while deployment and evaluation on the target ECUs (Electronic Control Units) is performed as Hardware-in-the-Loop (HiL) testing. The effectiveness of the proposed framework is demonstrated using two real-world use-cases of AI inference engines for autonomous vehicles, that is environment perception and most probable path prediction.
翻訳日:2022-10-15 16:46:22 公開日:2020-09-23
# 欠落特徴を用いた化学毒性の解明

Explaining Chemical Toxicity using Missing Features ( http://arxiv.org/abs/2009.12199v1 )

ライセンス: Link先を確認
Kar Wai Lim, Bhanushee Sharma, Payel Das, Vijil Chenthamarakshan, Jonathan S. Dordick(参考訳) 機械学習を用いた化学物質毒性の予測は、繰り返し動物や人間の検査を減らすために、薬物開発において重要であり、コストと時間を節約する。 計算毒性モデルの予測は機械的に説明可能であることが強く推奨されている。 最先端の機械学習分類器の現在の状態は、複雑で解釈が難しいディープニューラルネットワークに基づいている。 本稿では,最近開発されたコントラスト的説明法 (CEM) を適用し,なぜ化学物質や分子が有毒であるか否かの理由を説明する。 分子にどのような特徴が存在するかに基づいた説明を提供する一般的な方法とは対照的に、cemは、関連する負として知られる予測に不可欠な分子から何が欠けているかに関する追加の説明を提供する。 CEMは、予測された高速反復収縮保持アルゴリズム(FISTA)を用いて、最小摂動をモデルに最適化する。 我々はCEMによる説明が既知の毒素と他の研究の知見と一致していることを確認した。

Chemical toxicity prediction using machine learning is important in drug development to reduce repeated animal and human testing, thus saving cost and time. It is highly recommended that the predictions of computational toxicology models are mechanistically explainable. Current state of the art machine learning classifiers are based on deep neural networks, which tend to be complex and harder to interpret. In this paper, we apply a recently developed method named contrastive explanations method (CEM) to explain why a chemical or molecule is predicted to be toxic or not. In contrast to popular methods that provide explanations based on what features are present in the molecule, the CEM provides additional explanation on what features are missing from the molecule that is crucial for the prediction, known as the pertinent negative. The CEM does this by optimizing for the minimum perturbation to the model using a projected fast iterative shrinkage-thresholding algorithm (FISTA). We verified that the explanation from CEM matches known toxicophores and findings from other work.
翻訳日:2022-10-15 16:40:11 公開日:2020-09-23
# 人工的ナラティブ理解を用いた時空間仮説の定量化(II) : 不変概念・テーマ・名前空間の幾何学の確立

Testing the Quantitative Spacetime Hypothesis using Artificial Narrative Comprehension (II) : Establishing the Geometry of Invariant Concepts, Themes, and Namespaces ( http://arxiv.org/abs/2010.08125v1 )

ライセンス: Link先を確認
Mark Burgess(参考訳) センサストリームから選択された観測のプールが与えられると、入力データは不変の概念やテーマの観点から、マルチスケールプロセスを通じて堅牢に表現できる。 これをエピソジックな自然言語データに適用すると、分解に関連するグラフ幾何学が得られ、これは事象に対する時空関係の直接エンコーディングである。 本研究は,意味時空仮説の継続的な応用に寄与し,言語学の知識のない安価な計算手法を用いて,物語文の教師なし解析を実証する。 データストリームは、バイオインフォマティクス解析の方法で、マルチスケール干渉計によって、小さな成分に解析され、分別される。 フラグメントは元の知覚的エピソードを構築するために再結合され、あるいは4つの基本的な時空関係に基づいて、結合とパターン再構成の化学によって新しい物語を形成する。 バイオインフォマティックなプロセスと、この自然言語の認知的表現の間には、直接的な対応がある。 コンセプト”や“ナレーションテーマ”として識別可能な特徴は,3つの主要なスケール(マイクロ,メソ,マクロ)にまたがる。 入力のフラグメントは、各スケールで新しい有効言語を定義するアルファベット階層のシンボルとして機能する。

Given a pool of observations selected from a sensor stream, input data can be robustly represented, via a multiscale process, in terms of invariant concepts, and themes. Applying this to episodic natural language data, one may obtain a graph geometry associated with the decomposition, which is a direct encoding of spacetime relationships for the events. This study contributes to an ongoing application of the Semantic Spacetime Hypothesis, and demonstrates the unsupervised analysis of narrative texts using inexpensive computational methods without knowledge of linguistics. Data streams are parsed and fractionated into small constituents, by multiscale interferometry, in the manner of bioinformatic analysis. Fragments may then be recombined to construct original sensory episodes---or form new narratives by a chemistry of association and pattern reconstruction, based only on the four fundamental spacetime relationships. There is a straightforward correspondence between bioinformatic processes and this cognitive representation of natural language. Features identifiable as `concepts' and `narrative themes' span three main scales (micro, meso, and macro). Fragments of the input act as symbols in a hierarchy of alphabets that define new effective languages at each scale.
翻訳日:2022-10-15 16:39:57 公開日:2020-09-23
# ビデオ要約のためのペアワイズ時間関係によるグローバル多様注意の探索

Exploring global diverse attention via pairwise temporal relation for video summarization ( http://arxiv.org/abs/2009.10942v1 )

ライセンス: Link先を確認
Ping Li, Qinghao Ye, Luming Zhang, Li Yuan, Xianghua Xu, Ling Shao(参考訳) ビデオ要約は、ビデオ検索とブラウジングを容易にする効果的な方法である。 既存のシステムの多くはエンコーダデコーダベースのリカレントニューラルネットワークを採用しており、集中的な計算を必要としながら、システム生成の要約フレームを明示的に多様化することができない。 本稿では,映像フレームの対側時間関係を考えるために,グローバル視点において注意機構を適応させるsum-gdaと呼ばれるグローバル多様注意による映像要約のための効率的な畳み込みニューラルネットワークアーキテクチャを提案する。 特にGDAモジュールには2つの利点がある。 1) 対のフレーム間の関係や、すべてのペア間の関係をモデル化し、1つのビデオの全フレームにわたるグローバルな注意を引く。 2)ビデオ全体に対する各フレームの重要性を反映し,これらのフレームに対する多様な注意を喚起する。 したがって、SUM-GDAは、様々なフレームを生成し、良好な映像要約を形成するのに有用である。 SumMe、TVSum、VTWの3つのデータセットに対する大規模な実験は、SUM-GDAとその拡張が他の競合する最先端の手法よりも優れており、顕著に改善されていることを示した。 さらに、提案したモデルは計算コストを大幅に削減した並列実行が可能で、要求の高いアプリケーションへのデプロイを支援する。

Video summarization is an effective way to facilitate video searching and browsing. Most of existing systems employ encoder-decoder based recurrent neural networks, which fail to explicitly diversify the system-generated summary frames while requiring intensive computations. In this paper, we propose an efficient convolutional neural network architecture for video SUMmarization via Global Diverse Attention called SUM-GDA, which adapts attention mechanism in a global perspective to consider pairwise temporal relations of video frames. Particularly, the GDA module has two advantages: 1) it models the relations within paired frames as well as the relations among all pairs, thus capturing the global attention across all frames of one video; 2) it reflects the importance of each frame to the whole video, leading to diverse attention on these frames. Thus, SUM-GDA is beneficial for generating diverse frames to form satisfactory video summary. Extensive experiments on three data sets, i.e., SumMe, TVSum, and VTW, have demonstrated that SUM-GDA and its extension outperform other competing state-of-the-art methods with remarkable improvements. In addition, the proposed models can be run in parallel with significantly less computational costs, which helps the deployment in highly demanding applications.
翻訳日:2022-10-15 16:39:37 公開日:2020-09-23
# Reward-Penalty Dice Lossによる非共通セグメンテーションの学習

Learning Non-Unique Segmentation with Reward-Penalty Dice Loss ( http://arxiv.org/abs/2009.10987v1 )

ライセンス: Link先を確認
Jiabo He, Sarah Erfani, Sudanthi Wijewickrema, Stephen O'Leary, Kotagiri Ramamohanarao(参考訳) セマンティックセグメンテーションはコンピュータビジョンの分野における重要な問題の一つであり、コンピュータ画像の理解を可能にする。 しかしながら、セマンティックセグメンテーションのほとんどの研究と応用は、入力画像毎に金の標準セグメンテーション結果が1つしかないユニークなセグメンテーション問題に対処することに焦点を当てている。 これは医学的応用などいくつかの問題では当てはまらない。 異なる外科医が同じ患者に対して,少し異なる方法で手術を成功させる可能性があるため,特異なセグメンテーションアノテーションが得られうる。 非単調なセグメンテーションタスクを包括的に学習するために,深層畳み込みニューラルネットワーク(dcnn)の最適化目標としてrpdl関数を提案する。 RPDLは、DCNNが共通領域を拡大し、外部領域をペナルティ化することで、非共通セグメンテーションの学習を支援する。 実験の結果, RPDLは, 手術データセットの他の損失関数と比較して, DCNNモデルの性能を最大18.4%向上させることがわかった。

Semantic segmentation is one of the key problems in the field of computer vision, as it enables computer image understanding. However, most research and applications of semantic segmentation focus on addressing unique segmentation problems, where there is only one gold standard segmentation result for every input image. This may not be true in some problems, e.g., medical applications. We may have non-unique segmentation annotations as different surgeons may perform successful surgeries for the same patient in slightly different ways. To comprehensively learn non-unique segmentation tasks, we propose the reward-penalty Dice loss (RPDL) function as the optimization objective for deep convolutional neural networks (DCNN). RPDL is capable of helping DCNN learn non-unique segmentation by enhancing common regions and penalizing outside ones. Experimental results show that RPDL improves the performance of DCNN models by up to 18.4% compared with other loss functions on our collected surgical dataset.
翻訳日:2022-10-15 16:39:15 公開日:2020-09-23
# マンモグラフィと超音波のジョイントニューラル解析による乳腺病変の自動分類

Automatic Breast Lesion Classification by Joint Neural Analysis of Mammography and Ultrasound ( http://arxiv.org/abs/2009.11009v1 )

ライセンス: Link先を確認
Gavriel Habib, Nahum Kiryati, Miri Sklair-Levy, Anat Shalmon, Osnat Halshtok Neiman, Renata Faermann Weidenfeld, Yael Yagil, Eli Konen, Arnaldo Mayer(参考訳) マンモグラフィーと超音波検査は、乳癌の診断においてより良いパフォーマンスを達成するために、放射線技師によって補体として広く用いられている。 しかし、乳房のコンピュータ支援診断システム(CAD)は一般に単一のモダリティに基づいている。 本研究は,乳がん病変を各乳房画像および超音波画像から分類する深層学習法を提案する。 両モードを利用する場合,様々なアプローチを示し,一貫した性能向上を示す。 提案されたアプローチは、GoogleNetアーキテクチャに基づいており、データのために2つのトレーニングステップで微調整されています。 まず、個々のモダリティに対して異なるニューラルネットワークを個別にトレーニングし、ハイレベルな特徴を生成する。 次に、各モダリティに由来する集約特徴を用いて、最終分類を提供するマルチモーダルネットワークを訓練する。 定量的実験において、提案手法は1つのモダリティで訓練された最先端モデルよりも優れた0.94のAUCを達成する。 さらに、平均的な放射線科医と同様に、読者調査に参加する4人の放射線科医のうち2人を超える。 提案手法が乳腺放射線科医にとって有用な意思決定支援ツールとなる可能性が示唆された。

Mammography and ultrasound are extensively used by radiologists as complementary modalities to achieve better performance in breast cancer diagnosis. However, existing computer-aided diagnosis (CAD) systems for the breast are generally based on a single modality. In this work, we propose a deep-learning based method for classifying breast cancer lesions from their respective mammography and ultrasound images. We present various approaches and show a consistent improvement in performance when utilizing both modalities. The proposed approach is based on a GoogleNet architecture, fine-tuned for our data in two training steps. First, a distinct neural network is trained separately for each modality, generating high-level features. Then, the aggregated features originating from each modality are used to train a multimodal network to provide the final classification. In quantitative experiments, the proposed approach achieves an AUC of 0.94, outperforming state-of-the-art models trained over a single modality. Moreover, it performs similarly to an average radiologist, surpassing two out of four radiologists participating in a reader study. The promising results suggest that the proposed method may become a valuable decision support tool for breast radiologists.
翻訳日:2022-10-15 16:38:55 公開日:2020-09-23
# GSR-Net:低分解能脳コネクトームからの高分解能予測のためのグラフ超解法ネットワーク

GSR-Net: Graph Super-Resolution Network for Predicting High-Resolution from Low-Resolution Functional Brain Connectomes ( http://arxiv.org/abs/2009.11080v1 )

ライセンス: Link先を確認
Megi Isallari and Islem Rekik(参考訳) 派手だが厳密なディープラーニングアーキテクチャは、画像超解像(SR)向けに調整されたが、脳コネクトームのような非ユークリッドデータに一般化できなかった。 特に、高分解能(hr)での低解像度(lr)脳コネクトーム(つまり新しいグラフノード/エッジの追加)をスーパーレゾリューションするための生成モデルの構築は、コストのかかるデータ収集や解剖学的脳領域の手動ラベリング(すなわちセルリング)の必要性を回避し、未検討のままである。 このギャップを埋めるために、低分解能グラフから高分解能脳グラフを生成するグラフ構造化データを操作する最初の超解像フレームワークであるGSR-Net(Graph Super-Resolution Network)を導入する。 まず、グラフ畳み込み、プーリング、および非ユークリッドデータ特有のアンプール操作に基づくu-netのようなアーキテクチャを採用する。 しかし、グラフノードがサンプルを表し、ノードの特徴が低次元空間(ノード属性やサンプル特徴のエンコーディングとデコード)にマッピングされる従来のu-netとは異なり、gsr-netは単一のコネクトーム上で直接動作します。 元のノード機能がない場合、まず各脳roi(ノード)に識別特徴ベクトルを割り当て、学習した局所受容野を利用してノードの特徴表現を学習する。 第2に、スペクトル理論から着想を得たU-Netアーキテクチャの対称性を、グラフ超解像(GSR)層と2つのグラフ畳み込みネットワーク層で切り離して、LR入力の特性を保ちながらHRグラフを予測する。 提案するgsr-netフレームワークは,低解像度コネクトームから高分解能脳機能コネクトームを予測するために,その変種よりも優れていた。

Catchy but rigorous deep learning architectures were tailored for image super-resolution (SR), however, these fail to generalize to non-Euclidean data such as brain connectomes. Specifically, building generative models for super-resolving a low-resolution (LR) brain connectome at a higher resolution (HR) (i.e., adding new graph nodes/edges) remains unexplored although this would circumvent the need for costly data collection and manual labelling of anatomical brain regions (i.e. parcellation). To fill this gap, we introduce GSR-Net (Graph Super-Resolution Network), the first super-resolution framework operating on graph-structured data that generates high-resolution brain graphs from low-resolution graphs. First, we adopt a U-Net like architecture based on graph convolution, pooling and unpooling operations specific to non-Euclidean data. However, unlike conventional U-Nets where graph nodes represent samples and node features are mapped to a low-dimensional space (encoding and decoding node attributes or sample features), our GSR-Net operates directly on a single connectome: a fully connected graph where conventionally, a node denotes a brain region, nodes have no features, and edge weights denote brain connectivity strength between two regions of interest (ROIs). In the absence of original node features, we initially assign identity feature vectors to each brain ROI (node) and then leverage the learned local receptive fields to learn node feature representations. Second, inspired by spectral theory, we break the symmetry of the U-Net architecture by topping it up with a graph super-resolution (GSR) layer and two graph convolutional network layers to predict a HR graph while preserving the characteristics of the LR input. Our proposed GSR-Net framework outperformed its variants for predicting high-resolution brain functional connectomes from low-resolution connectomes.
翻訳日:2022-10-15 16:38:38 公開日:2020-09-23
# 医用画像における対側摂動に対するセグメンテーションモデルのロバスト化

Robustification of Segmentation Models Against Adversarial Perturbations In Medical Imaging ( http://arxiv.org/abs/2009.11090v1 )

ライセンス: Link先を確認
Hanwool Park, Amirhossein Bayat, Mohammad Sabokrou, Jan S. Kirschke, Bjoern H. Menze(参考訳) 本稿では,医療画像における対人攻撃に対するセグメンテーションモデルのための,新規で効率的な防御フレームワークを提案する。 広く研究されている分類モデルに対する敵対的攻撃に対する防御法とは対照的に,セグメント化モデルに対する防衛法はあまり検討されていない。 提案手法は,対象のディープラーニングモデルを変更することなく,どんな深層学習モデルにも適用することができる。 我々のフレームワークは周波数領域変換器、検出器、改質器で構成されている。 周波数領域変換器は、画像のフレーム領域を用いて対向的な例を検出するのに役立つ。 この改革は、ターゲットモデルがより正確に予測するのに役立つ。 提案手法は既存の防御方式と比較して性能が良いことを実証的に示す実験を行っている。

This paper presents a novel yet efficient defense framework for segmentation models against adversarial attacks in medical imaging. In contrary to the defense methods against adversarial attacks for classification models which widely are investigated, such defense methods for segmentation models has been less explored. Our proposed method can be used for any deep learning models without revising the target deep learning models, as well as can be independent of adversarial attacks. Our framework consists of a frequency domain converter, a detector, and a reformer. The frequency domain converter helps the detector detects adversarial examples by using a frame domain of an image. The reformer helps target models to predict more precisely. We have experiments to empirically show that our proposed method has a better performance compared to the existing defense method.
翻訳日:2022-10-15 16:37:55 公開日:2020-09-23
# コントラスト学習を用いたラベル効率の高いマルチタスクセグメンテーション

Label-Efficient Multi-Task Segmentation using Contrastive Learning ( http://arxiv.org/abs/2009.11160v1 )

ライセンス: Link先を確認
Junichiro Iwasawa, Yuichiro Hirano and Yohei Sugawara(参考訳) セグメンテーションタスクの自動化が重要であるにもかかわらず、3D医療画像のアノテーションの取得は高価で時間を要する。 マルチタスク学習は、少量のアノテートデータを用いたセグメンテーションモデルのトレーニングに有効な方法と考えられているが、様々なサブタスクの体系的な理解はまだ不足している。 本研究では,比較学習に基づくサブタスクを用いたマルチタスクセグメンテーションモデルを提案し,その性能を他のマルチタスクモデルと比較し,学習のためのラベル付きデータ数を変化させる。 さらに,半教師あり方式で正規化ブランチを通じてラベルなしデータを利用するように,モデルを拡張した。 提案手法は,アノテートデータの量に制限がある場合に,最先端の完全教師付きモデルを含む他のマルチタスク手法よりも優れていることを示す。

Obtaining annotations for 3D medical images is expensive and time-consuming, despite its importance for automating segmentation tasks. Although multi-task learning is considered an effective method for training segmentation models using small amounts of annotated data, a systematic understanding of various subtasks is still lacking. In this study, we propose a multi-task segmentation model with a contrastive learning based subtask and compare its performance with other multi-task models, varying the number of labeled data for training. We further extend our model so that it can utilize unlabeled data through the regularization branch in a semi-supervised manner. We experimentally show that our proposed method outperforms other multi-task methods including the state-of-the-art fully supervised model when the amount of annotated data is limited.
翻訳日:2022-10-15 16:37:14 公開日:2020-09-23
# Deep Adversarial Network Normalizer を用いた時間内脳グラフの進化予測

Foreseeing Brain Graph Evolution Over Time Using Deep Adversarial Network Normalizer ( http://arxiv.org/abs/2009.11166v1 )

ライセンス: Link先を確認
Zeynep Gurler, Ahmed Nebli and Islem Rekik(参考訳) グラフとして広くモデル化された脳の進化は、健康と病気における様々な解剖学的関心領域(ROI)間の動的相互作用のマッピングに不可欠である。 興味深いことに、脳グラフの進化モデルはほとんど文献に残っていない。 本稿では,各脳ネットワークを表す対向型脳ネットワーク正規化器を,固定集中型集団駆動型接続テンプレートの変換として設計する。 固定参照に対するそのようなグラフ正規化は、ベースラインタイムポイントでテストサンプルと最も類似したトレーニングサンプル(すなわち脳グラフ)を確実に識別する方法を舗装する。 テストの進化軌道は、選択されたトレーニンググラフとその対応する進化軌跡にまたがる。 我々は,グラフ上で自然に動作し,そのトポロジ的特性を良好に保存する幾何学的深層学習を基盤とする。 具体的には,固定された結合型脳テンプレート(cbt)に対して,脳グラフの正規化方法を学習するだけでなく,埋め込みと呼ばれる脳グラフの高次表現を学習する最初のグラフベース生成逆ネットワーク(ggan)を提案する。 これらの埋め込みを用いて、トレーニングとテスト対象の類似性を計算することで、ベースラインタイムポイントで最も近いトレーニング対象を選択し、時間とともにテスト脳グラフの進化を予測することができます。 複数の比較方法に対する一連のベンチマークの結果,提案手法が1つのベースラインタイムポイントを用いて,脳疾患発生予測誤差の最小値を得た。 gGANコードはhttp://github.com/basiralab/gGAN.comで公開しています。

Foreseeing the brain evolution as a complex highly inter-connected system, widely modeled as a graph, is crucial for mapping dynamic interactions between different anatomical regions of interest (ROIs) in health and disease. Interestingly, brain graph evolution models remain almost absent in the literature. Here we design an adversarial brain network normalizer for representing each brain network as a transformation of a fixed centered population-driven connectional template. Such graph normalization with respect to a fixed reference paves the way for reliably identifying the most similar training samples (i.e., brain graphs) to the testing sample at baseline timepoint. The testing evolution trajectory will be then spanned by the selected training graphs and their corresponding evolution trajectories. We base our prediction framework on geometric deep learning which naturally operates on graphs and nicely preserves their topological properties. Specifically, we propose the first graph-based Generative Adversarial Network (gGAN) that not only learns how to normalize brain graphs with respect to a fixed connectional brain template (CBT) (i.e., a brain template that selectively captures the most common features across a brain population) but also learns a high-order representation of the brain graphs also called embeddings. We use these embeddings to compute the similarity between training and testing subjects which allows us to pick the closest training subjects at baseline timepoint to predict the evolution of the testing brain graph over time. A series of benchmarks against several comparison methods showed that our proposed method achieved the lowest brain disease evolution prediction error using a single baseline timepoint. Our gGAN code is available at http://github.com/basiralab/gGAN.
翻訳日:2022-10-15 16:37:00 公開日:2020-09-23
# 地球観測における意味セグメンテーションのための対話型学習

Interactive Learning for Semantic Segmentation in Earth Observation ( http://arxiv.org/abs/2009.11250v1 )

ライセンス: Link先を確認
Gaston Lenczner, Adrien Chan-Hon-Tong, Nicola Luminari, Bertrand Le Saux, Guy Le Besnerais(参考訳) 深層ニューラルネットワークによって出力されるDense pixel-wise classification mapは、シーン理解において極めて重要である。 しかし、これらの地図はしばしば様々な要因のために部分的に不正確である。 そこで本稿では,disCA (Deep Image Segmentation with Continual Adaptation) というフレームワークを用いて対話的にそれらを洗練することを提案する。 ニューラルネットワークを対象のイメージに継続的に適応する上で,ユーザアノテーションを基盤として,対話的な学習プロセスを使用する。 合成アノテーションを用いた3つのデータセットの実験を通じて、アプローチの利点を示し、10回のサンプルクリックで最大4.7%のIoU改善を達成した。 最後に、ドメイン適応のような追加的な問題に直面した場合、私たちのアプローチは特に報奨的です。

Dense pixel-wise classification maps output by deep neural networks are of extreme importance for scene understanding. However, these maps are often partially inaccurate due to a variety of possible factors. Therefore, we propose to interactively refine them within a framework named DISCA (Deep Image Segmentation with Continual Adaptation). It consists of continually adapting a neural network to a target image using an interactive learning process with sparse user annotations as ground-truth. We show through experiments on three datasets using synthesized annotations the benefits of the approach, reaching an IoU improvement up to 4.7% for ten sampled clicks. Finally, we exhibit that our approach can be particularly rewarding when it is faced to additional issues such as domain adaptation.
翻訳日:2022-10-15 16:30:06 公開日:2020-09-23
# ConvAI3:オープンドメイン対話システム(ClariQ)のための明確化質問の生成

ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue Systems (ClariQ) ( http://arxiv.org/abs/2009.11352v1 )

ライセンス: Link先を確認
Mohammad Aliannejadi and Julia Kiseleva and Aleksandr Chuklin and Jeff Dalton and Mikhail Burtsev(参考訳) 本論文では,対話システム(ClariQ)に関する質問を明確にするための課題について詳述する。 このチャレンジは、2020年のSearch Oriented Conversational AI (SCAI) EMNLPワークショップで、ConvAI3(ConvAI3)の一部として組織されている。 会話システムの主な目的は、ユーザの要求に応じて適切な回答を返すことである。 しかし、一部のユーザーリクエストはあいまいかもしれない。 irの設定では、このような状況は主に検索結果ページの多様化を考慮に入れられている。 しかし、帯域幅が限られている対話設定ではもっと難しい。 そこで本稿では,混合開始会話を評価するための共通評価フレームワークを提案する。 参加者は、情報検索の会話で明確な質問をランク付けするよう求められる。 課題は2つのステージにまとめられ、ステージ1では、オフライン設定とシングルターン会話で応募を評価する。 ステージ1のトップ参加者は、人間のアノテーションによってモデルをテストする機会を得る。

This document presents a detailed description of the challenge on clarifying questions for dialogue systems (ClariQ). The challenge is organized as part of the Conversational AI challenge series (ConvAI3) at Search Oriented Conversational AI (SCAI) EMNLP workshop in 2020. The main aim of the conversational systems is to return an appropriate answer in response to the user requests. However, some user requests might be ambiguous. In IR settings such a situation is handled mainly thought the diversification of the search result page. It is however much more challenging in dialogue settings with limited bandwidth. Therefore, in this challenge, we provide a common evaluation framework to evaluate mixed-initiative conversations. Participants are asked to rank clarifying questions in an information-seeking conversations. The challenge is organized in two stages where in Stage 1 we evaluate the submissions in an offline setting and single-turn conversations. Top participants of Stage 1 get the chance to have their model tested by human annotators.
翻訳日:2022-10-15 16:29:00 公開日:2020-09-23
# ANNdotNET -- .NETのディープラーニングツール。 NETプラットフォーム

ANNdotNET -- deep learning tool on .NET Platform ( http://arxiv.org/abs/2009.11112v1 )

ライセンス: Link先を確認
Bahrudin Hrnjica(参考訳) anndotnetはc#で書かれたディープラーニングのためのオープンソースプロジェクトで、ディープラーニングモデルの作成、トレーニング、評価、エクスポートができる。 このプロジェクトは、データの視覚的な準備、ハイパーパラメータの微調整、ネットワークアーキテクチャの設計、トレーニングされたモデルの評価とテストが可能なグラフィカルユーザインタフェースモジュールで構成されている。 ANNdotNETは、ほとんどのシーケンシャルなディープラーニングネットワークを視覚的に設計するためのVisual Network Designer (VND)を導入した。 VND以外にも、ANNdotNETは、CNTK - ディープラーニングフレームワークをベースにした機械学習エンジン(MLE)を実装している。 モデル評価には、視覚的および記述的パフォーマンスパラメータの豊富なセット、トレーニングプロセスの歴史、エクスポート/デプロイオプションのセットが含まれる。 古典的なコードベースのMLアプローチよりもANNdotNETを使うことの利点は、コーディングやデバッギングではなく、ディープラーニングのネットワーク設計とトレーニングプロセスに注力することだ。 サポート対象のプログラミング言語に慣れていないエンジニアには理想的だ。 プロジェクトはgithub.com/bhrnjica/anndotnetでホストされている。

ANNdotNET is an open source project for deep learning written in C# with ability to create, train, evaluate and export deep learning models. The project consists of the Graphical User Interface module capable to visually prepare data, fine tune hyper-parameters, design network architecture, evaluate and test trained models. The ANNdotNET introduces the Visual Network Designer, (VND) for visually design almost any sequential deep learning network. Beside VND, ANNdotNET implements Machine Learning Engine, (MLE) based on CNTK - deep learning framework, with ability to train and evaluate models on GPU. For model evaluation ANNdotNET contains rich set of visual and descriptive performance parameters, history of the training process and set of export/deployment options. The advantage of using ANNdotNET over the classic code based ML approach is more focus on deep learning network design and training process instead of focusing on coding and debugging. It is ideal for engineers not familiar with supported programming languages. The project is hosted at github.com/bhrnjica/anndotnet.
翻訳日:2022-10-15 16:28:47 公開日:2020-09-23
# 勾配学習を改善するための短絡型ディープニューラルネットワーク

Deep Neural Networks with Short Circuits for Improved Gradient Learning ( http://arxiv.org/abs/2009.11719v1 )

ライセンス: Link先を確認
Ming Yan, Xueli Xiao, Joey Tianyi Zhou, Yi Pan(参考訳) ディープニューラルネットワークはコンピュータビジョンと自然言語処理の両方で大きな成功を収めている。 しかし、ほとんどの最先端の手法は、パフォーマンスを改善するために外部トレーニングやコンピューティングに大きく依存している。 外部依存を軽減するため,我々は,ニューラルネットワークの勾配学習を改善するために,短絡ニューラルネットワークによる勾配向上手法を提案した。 提案したショート回路は、深層から浅層への感度を単一のバックで伝搬する一方向接続である。 さらに、短絡回路は、外部のトレーニングパラメータを導入することなく、バックボーン深層ニューラルネットワークに接続可能な交差層を勾配的に切り離すことを定式化する。 広範な実験により、コンピュータビジョンと自然言語処理タスクの両方のベースラインに対して、短い回路で大きなマージンを得ることができるディープニューラルネットワークが示されました。

Deep neural networks have achieved great success both in computer vision and natural language processing tasks. However, mostly state-of-art methods highly rely on external training or computing to improve the performance. To alleviate the external reliance, we proposed a gradient enhancement approach, conducted by the short circuit neural connections, to improve the gradient learning of deep neural networks. The proposed short circuit is a unidirectional connection that single back propagates the sensitive from the deep layer to the shallows. Moreover, the short circuit formulates to be a gradient truncation of its crossing layers which can plug into the backbone deep neural networks without introducing external training parameters. Extensive experiments demonstrate deep neural networks with our short circuit gain a large margin over the baselines on both computer vision and natural language processing tasks.
翻訳日:2022-10-15 16:28:28 公開日:2020-09-23
# 確率システムのLTLf合成

LTLf Synthesis on Probabilistic Systems ( http://arxiv.org/abs/2009.10883v1 )

ライセンス: Link先を確認
Andrew M. Wells (Rice University), Morteza Lahijanian (University of Colorado at Boulder), Lydia E. Kavraki (Rice University), Moshe Y. Vardi (Rice University)(参考訳) 多くのシステムは自然にマルコフ決定過程 (mdps) としてモデル化され、確率と戦略行動を組み合わせる。 MDPとしてのシステムのモデルとシステム行動の論理的仕様が与えられた場合、合成の目標は、この行動を達成する確率を最大化するポリシーを見つけることである。 振る舞いを定義するための一般的な選択はLTL(Linear Temporal Logic)である。 LTLで特定された特性に対するMDPの政策合成はよく研究されている。 しかし LTL は無限のトレース上で定義されるが、興味のある性質の多くは本質的に有限である。 有限トレース(ltlf)上の線形時相論理は、そのような特性を表現するために用いられてきたが、有限トレース特性を与えるmdp動作のポリシー合成のツールは存在しない。 本稿では,LTLfをLTLに還元した第1のアルゴリズムと,LTLfのネイティブツールを用いた第2のアルゴリズムを提案する。 これら2つのアプローチのスケーラビリティを比較して,ネイティブアプローチがltl用の既存のオートマトン生成ツールよりも優れたスケーラビリティを提供することを示す。

Many systems are naturally modeled as Markov Decision Processes (MDPs), combining probabilities and strategic actions. Given a model of a system as an MDP and some logical specification of system behavior, the goal of synthesis is to find a policy that maximizes the probability of achieving this behavior. A popular choice for defining behaviors is Linear Temporal Logic (LTL). Policy synthesis on MDPs for properties specified in LTL has been well studied. LTL, however, is defined over infinite traces, while many properties of interest are inherently finite. Linear Temporal Logic over finite traces (LTLf) has been used to express such properties, but no tools exist to solve policy synthesis for MDP behaviors given finite-trace properties. We present two algorithms for solving this synthesis problem: the first via reduction of LTLf to LTL and the second using native tools for LTLf. We compare the scalability of these two approaches for synthesis and show that the native approach offers better scalability compared to existing automaton generation tools for LTL.
翻訳日:2022-10-15 16:28:02 公開日:2020-09-23
# 移動車両から外部物体をマルチモーダル参照するための人物特異的なポインティングと視線行動の研究

Studying Person-Specific Pointing and Gaze Behavior for Multimodal Referencing of Outside Objects from a Moving Vehicle ( http://arxiv.org/abs/2009.11195v1 )

ライセンス: Link先を確認
Amr Gomaa, Guillermo Reyes, Alexandra Alles, Lydia Rupp and Michael Feld(参考訳) 手指と視線は自動車の物体選択と参照の用途で広範囲に研究されている。 大幅な進歩にもかかわらず、既存の車外参照法はこれらのモダリティを別々に考慮している。 さらに、既存のマルチモーダル参照手法は静的な状況に重点を置いているのに対し、移動車両の状況は極めて動的であり、安全性に制約がある。 本稿では,車両から外部オブジェクト(例えば建物)を参照する作業において,各モードの特定の特性と,それら間の相互作用について検討する。 さらに,指差パターンと視線パターンに対する個人のパフォーマンスと,その運転作業への影響を解析することにより,このインタラクションにおける個人固有の差異を探究する。 我々の統計的分析は、物体の位置(運転者側と左サイド)、物体の周囲、運転モード(自律運転と正常運転)、および指差時間と視線時間に基づく個人行動の有意な差異を示し、ユーザ適応アプローチの基礎を築いた。

Hand pointing and eye gaze have been extensively investigated in automotive applications for object selection and referencing. Despite significant advances, existing outside-the-vehicle referencing methods consider these modalities separately. Moreover, existing multimodal referencing methods focus on a static situation, whereas the situation in a moving vehicle is highly dynamic and subject to safety-critical constraints. In this paper, we investigate the specific characteristics of each modality and the interaction between them when used in the task of referencing outside objects (e.g. buildings) from the vehicle. We furthermore explore person-specific differences in this interaction by analyzing individuals' performance for pointing and gaze patterns, along with their effect on the driving task. Our statistical analysis shows significant differences in individual behaviour based on object's location (i.e. driver's right side vs. left side), object's surroundings, driving mode (i.e. autonomous vs. normal driving) as well as pointing and gaze duration, laying the foundation for a user-adaptive approach.
翻訳日:2022-10-15 16:27:44 公開日:2020-09-23
# Dual-SLAM:ロバストな単一カメラナビゲーションのためのフレームワーク

Dual-SLAM: A framework for robust single camera navigation ( http://arxiv.org/abs/2009.11219v1 )

ライセンス: Link先を確認
Huajian Huang, Wen-Yan Lin, Siying Liu, Dong Zhang and Sai-Kit Yeung(参考訳) slam(simultaneous localization and mapping)は、リアルタイムの自己局所化を伴う移動エージェントを提供する。 リアルタイム速度を達成するため、SLAMは徐々に位置推定を伝搬する。 これによりSLAMは高速になるが、局所的なポーズ推定失敗に対して脆弱になる。 局所的なポーズ推定が不調なため、局所的なポーズ推定の失敗が定期的に発生し、全体のSLAMシステムが不安定になる。 本稿ではこの問題を修正しようとする。 局所的なポーズ推定は不条件であるが,より長いシーケンスでのポーズ推定は良好である。 したがって、局所的なポーズ推定誤差は最終的にマッピングの不整合として現れます。 これが起こると、現在のマップを保存し、2つの新しいSLAMスレッドを起動します。 1つは、新しいマップを作成するために、もう1つは、新しいマップと古いマップを結びつけるために、リカバリスレッド、バックトラックを処理する。 これによりDual-SLAMフレームワークが作成され、ローカルポーズ推定失敗に対して堅牢なリアルタイムパフォーマンスが維持される。 ベンチマークデータセットの評価では、dual-slamは劇的に8,8\%$で障害を低減できる。

SLAM (Simultaneous Localization And Mapping) seeks to provide a moving agent with real-time self-localization. To achieve real-time speed, SLAM incrementally propagates position estimates. This makes SLAM fast but also makes it vulnerable to local pose estimation failures. As local pose estimation is ill-conditioned, local pose estimation failures happen regularly, making the overall SLAM system brittle. This paper attempts to correct this problem. We note that while local pose estimation is ill-conditioned, pose estimation over longer sequences is well-conditioned. Thus, local pose estimation errors eventually manifest themselves as mapping inconsistencies. When this occurs, we save the current map and activate two new SLAM threads. One processes incoming frames to create a new map and the other, recovery thread, backtracks to link new and old maps together. This creates a Dual-SLAM framework that maintains real-time performance while being robust to local pose estimation failures. Evaluation on benchmark datasets shows Dual-SLAM can reduce failures by a dramatic $88\%$.
翻訳日:2022-10-15 16:27:27 公開日:2020-09-23
# maff-net: multi-modal adaptive feature fusionを用いた3次元車両検出のためのフィルタ偽陽性

MAFF-Net: Filter False Positive for 3D Vehicle Detection with Multi-modal Adaptive Feature Fusion ( http://arxiv.org/abs/2009.10945v1 )

ライセンス: Link先を確認
Zehan Zhang, Ming Zhang, Zhidong Liang, Xian Zhao, Ming Yang, Wenming Tan, and ShiLiang Pu(参考訳) マルチモーダル融合に基づく3次元車両検出は、自動運転など多くの応用において重要な課題である。 第一に、カメラ画像が3d検出に繋がる特定のゲインは、これまでの研究ではほとんど調べられていない。 第二に、多くの融合アルゴリズムはゆっくりと動作し、これは高いリアルタイム要求(自律運転)を持つアプリケーションに必須である。 そこで本稿では,画像情報を用いて3次元検出の誤検出を効果的に低減し,検出速度を高速化する,エンドツーエンドのトレーニング可能な単段マルチモーダル特徴適応ネットワークを提案する。 チャネルアテンション機構に基づくマルチモーダル適応機能融合モジュールを提案し,各モーダルの特徴を適応的に利用できるようにする。 ポイントAttentionFusionは単純な偽陽性をフィルタリングするのに適しており、DenseAttentionFusionはより難しい偽陽性をフィルタリングするのに適しており、全体的なパフォーマンスが向上している。 KITTIデータセットの実験結果は、点クラウドデータのみを用いてアプローチに対して偽陽性をフィルタリングする際の大幅な改善を示している。 さらに,提案手法は,KITTIベンチマークで公表された最先端マルチモーダル手法と比較して,競争力のある結果が得られる。

3D vehicle detection based on multi-modal fusion is an important task of many applications such as autonomous driving. Although significant progress has been made, we still observe two aspects that need to be further improvement: First, the specific gain that camera images can bring to 3D detection is seldom explored by previous works. Second, many fusion algorithms run slowly, which is essential for applications with high real-time requirements(autonomous driving). To this end, we propose an end-to-end trainable single-stage multi-modal feature adaptive network in this paper, which uses image information to effectively reduce false positive of 3D detection and has a fast detection speed. A multi-modal adaptive feature fusion module based on channel attention mechanism is proposed to enable the network to adaptively use the feature of each modal. Based on the above mechanism, two fusion technologies are proposed to adapt to different usage scenarios: PointAttentionFusion is suitable for filtering simple false positive and faster; DenseAttentionFusion is suitable for filtering more difficult false positive and has better overall performance. Experimental results on the KITTI dataset demonstrate significant improvement in filtering false positive over the approach using only point cloud data. Furthermore, the proposed method can provide competitive results and has the fastest speed compared to the published state-of-the-art multi-modal methods in the KITTI benchmark.
翻訳日:2022-10-15 16:21:10 公開日:2020-09-23
# 手書きの報酬は何ですか。 --模倣学習による筆跡生成

What is the Reward for Handwriting? -- Handwriting Generation by Imitation Learning ( http://arxiv.org/abs/2009.10962v1 )

ライセンス: Link先を確認
Keisuke Kanda, Brian Kenji Iwana, Seiichi Uchida(参考訳) 筆跡生成プロセスの解析は重要な問題であり、キネマティクスに基づくモデルや確率モデルなど、様々な世代モデルによって取り組まれてきた。 本研究では,強化学習(rl)フレームワークを用いて,注意深い将来計画能力を備えた手書き文字生成を実現する。 実際、人間の手書きのプロセスは将来の計画能力によっても支持されており、例えば、マルコフモデルのような近視モデルでは生成できないため、「0」のような閉じた軌道を生成する能力が必要である。 本アルゴリズムでは, GAIL (generative adversarial mimicion learning) を用いる。 典型的なrlアルゴリズムは報酬関数を手動で定義する必要があるが、これは生成プロセスを制御する上で非常に重要である。 対照的に、gailはフレームワークの他のモジュールとともに報酬関数をトレーニングする。 言い換えれば、GAILを通じて、手書きの例から手書き生成プロセスの報酬を理解することができる。 実験結果から,学習した報酬が手書き生成の傾向をキャッチし,GAILが手書き動作の獲得に適していることが示唆された。

Analyzing the handwriting generation process is an important issue and has been tackled by various generation models, such as kinematics based models and stochastic models. In this study, we use a reinforcement learning (RL) framework to realize handwriting generation with the careful future planning ability. In fact, the handwriting process of human beings is also supported by their future planning ability; for example, the ability is necessary to generate a closed trajectory like '0' because any shortsighted model, such as a Markovian model, cannot generate it. For the algorithm, we employ generative adversarial imitation learning (GAIL). Typical RL algorithms require the manual definition of the reward function, which is very crucial to control the generation process. In contrast, GAIL trains the reward function along with the other modules of the framework. In other words, through GAIL, we can understand the reward of the handwriting generation process from handwriting examples. Our experimental results qualitatively and quantitatively show that the learned reward catches the trends in handwriting generation and thus GAIL is well suited for the acquisition of handwriting behavior.
翻訳日:2022-10-15 16:20:48 公開日:2020-09-23
# 事前分布マッチングのない生成モデル

Generative Model without Prior Distribution Matching ( http://arxiv.org/abs/2009.11016v1 )

ライセンス: Link先を確認
Cong Geng, Jia Wang, Li Chen, Zhiyong Gao(参考訳) 変分オートエンコーダ(VAE)とその変分は、いくつかの先行分布(例えばガウス分布)を満たすために低次元の潜在表現を学ぶことによって古典的な生成モデルである。 GANに対する彼らの利点は、高次元データを同時に生成し、潜在表現を学習して入力を再構築できることである。 しかし, 先行分布の一致がデータ多様体の幾何学的構造を損なう可能性があるため, 復元と生成の間にトレードオフが存在することが確認されている。 この問題を軽減するため,先行変数を先行変数に適合させるのではなく,先行変数が埋め込み分布と一致するようにすることを提案する。 埋め込み分布は、幾何学的構造を最大に保つ単純な正規化オートエンコーダアーキテクチャを用いて訓練される。 次に、潜在マッピングを達成するために敵戦略を用いる。 本研究では,データ多様体の位相的性質の保存と潜在空間における分布マッチングとの矛盾を緩和する手法の有効性を理論的および実験的に支援する。

Variational Autoencoder (VAE) and its variations are classic generative models by learning a low-dimensional latent representation to satisfy some prior distribution (e.g., Gaussian distribution). Their advantages over GAN are that they can simultaneously generate high dimensional data and learn latent representations to reconstruct the inputs. However, it has been observed that a trade-off exists between reconstruction and generation since matching prior distribution may destroy the geometric structure of data manifold. To mitigate this problem, we propose to let the prior match the embedding distribution rather than imposing the latent variables to fit the prior. The embedding distribution is trained using a simple regularized autoencoder architecture which preserves the geometric structure to the maximum. Then an adversarial strategy is employed to achieve a latent mapping. We provide both theoretical and experimental support for the effectiveness of our method, which alleviates the contradiction between topological properties' preserving of data manifold and distribution matching in latent space.
翻訳日:2022-10-15 16:20:31 公開日:2020-09-23
# 視覚類似物を分類するための多重照明

Multiplexed Illumination for Classifying Visually Similar Objects ( http://arxiv.org/abs/2009.11084v1 )

ライセンス: Link先を確認
Taihua Wang and Donald G. Dansereau(参考訳) 偽造紙幣や健康で不健康な植物のような視覚的に類似した物体を識別することは、最も洗練された分類器の能力を超えている。 本稿では, 多重照明を用いて, 分類に成功できる物体の範囲を広げる手法を提案する。 発光位置と色の組み合わせで試料を撮像する小型RGB-IR光ステージを構築した。 次に,照明パターンを選択する手法を開発し,得られた画像を用いて分類器を訓練する。 我々は,この光ステージを用いてトレーニングサンプルをモデル化し,合成し,シミュレーションによる学習能力を活用したグリーディパターン選択スキームを提案する。 次に、トレーニングされたパターンを適用して、新しいオブジェクトの高速な分類を行う。 視覚的に類似した人工果実と実果実のサンプルに対するアプローチを実証し、固定照度アプローチやより従来のコード選択方式と比較して顕著な改善を示した。 この研究は、偽造検出、農業や製造における品質管理、皮膚病変の分類に潜在的に適用可能な、以前は区別できない物体の高速な分類を可能にする。

Distinguishing visually similar objects like forged/authentic bills and healthy/unhealthy plants is beyond the capabilities of even the most sophisticated classifiers. We propose the use of multiplexed illumination to extend the range of objects that can be successfully classified. We construct a compact RGB-IR light stage that images samples under different combinations of illuminant position and colour. We then develop a methodology for selecting illumination patterns and training a classifier using the resulting imagery. We use the light stage to model and synthetically relight training samples, and propose a greedy pattern selection scheme that exploits this ability to train in simulation. We then apply the trained patterns to carry out fast classification of new objects. We demonstrate the approach on visually similar artificial and real fruit samples, showing a marked improvement compared with fixed-illuminant approaches as well as a more conventional code selection scheme. This work allows fast classification of previously indistinguishable objects, with potential applications in forgery detection, quality control in agriculture and manufacturing, and skin lesion classification.
翻訳日:2022-10-15 16:19:47 公開日:2020-09-23
# 視覚的質問応答における質問型事前知識を用いた複数対話学習

Multiple interaction learning with question-type prior knowledge for constraining answer search space in visual question answering ( http://arxiv.org/abs/2009.11118v1 )

ライセンス: Link先を確認
Tuong Do, Binh X. Nguyen, Huy Tran, Erman Tjiputra, Quang D. Tran, Thanh-Toan Do(参考訳) Visual Question Answering (VQA) には様々なアプローチが提案されている。 しかし,問答探索空間を制約するデータから抽出した質問型事前知識に対して,様々な共同モダリティ手法の振る舞いを認識している作品はほとんどない。 本稿では,質問型事前情報を利用した新しいVQAモデルを提案する。 VQA 2.0とTDIUCという2つのベンチマークデータセットの固体実験は、提案手法が最も競争力のあるアプローチで最高の性能を得ることを示している。

Different approaches have been proposed to Visual Question Answering (VQA). However, few works are aware of the behaviors of varying joint modality methods over question type prior knowledge extracted from data in constraining answer search space, of which information gives a reliable cue to reason about answers for questions asked in input images. In this paper, we propose a novel VQA model that utilizes the question-type prior information to improve VQA by leveraging the multiple interactions between different joint modality methods based on their behaviors in answering questions from different types. The solid experiments on two benchmark datasets, i.e., VQA 2.0 and TDIUC, indicate that the proposed method yields the best performance with the most competitive approaches.
翻訳日:2022-10-15 16:19:30 公開日:2020-09-23
# クロスモダリティを考慮した簡易かつ効果的な映像時空間接地法

A Simple Yet Effective Method for Video Temporal Grounding with Cross-Modality Attention ( http://arxiv.org/abs/2009.11232v1 )

ライセンス: Link先を確認
Binjie Zhang, Yu Li, Chun Yuan, Dejing Xu, Pin Jiang, Ying Shan(参考訳) 言語誘導ビデオテンポラリグルーニングのタスクは、クエリ文に対応する特定のビデオクリップを未トリミングビデオにローカライズすることである。 この分野では進歩が続いているが、いくつかの問題がまだ解決する必要がある。 まず、既存のメソッドのほとんどは、タスクを解決するために複数の複雑なモジュールの組み合わせに依存している。 第二に、2つの異なるモダリティ間の意味的ギャップのため、ビデオと言語の間に異なる粒度(ローカルとグローバル)で情報を整列させることは重要であり、対処は少ない。 最後に、以前の研究では、アクション境界の曖昧さのために避けられないアノテーションバイアスを考慮していない。 これらの制約に対処するために,直感的な構造設計を施した簡易な2分岐型クロスモダリティ・アテンション(cma)モジュールを提案する。 さらに,アノテーションバイアスの影響を軽減し,時間的接地精度を向上させるタスク固有回帰損失関数を提案する。 提案手法の有効性を検証するための広範な実験を行い,この単純なモデルにより,Charades-STAとActivityNet Captionsの両方のデータセットにおいて,芸術の状態を上回り得ることを示す。

The task of language-guided video temporal grounding is to localize the particular video clip corresponding to a query sentence in an untrimmed video. Though progress has been made continuously in this field, some issues still need to be resolved. First, most of the existing methods rely on the combination of multiple complicated modules to solve the task. Second, due to the semantic gaps between the two different modalities, aligning the information at different granularities (local and global) between the video and the language is significant, which is less addressed. Last, previous works do not consider the inevitable annotation bias due to the ambiguities of action boundaries. To address these limitations, we propose a simple two-branch Cross-Modality Attention (CMA) module with intuitive structure design, which alternatively modulates two modalities for better matching the information both locally and globally. In addition, we introduce a new task-specific regression loss function, which improves the temporal grounding accuracy by alleviating the impact of annotation bias. We conduct extensive experiments to validate our method, and the results show that just with this simple model, it can outperform the state of the arts on both Charades-STA and ActivityNet Captions datasets.
翻訳日:2022-10-15 16:18:46 公開日:2020-09-23
# multi-reference adversarial dataset と large scale pretraining によるダイアログ評価の改善

Improving Dialog Evaluation with a Multi-reference Adversarial Dataset and Large Scale Pretraining ( http://arxiv.org/abs/2009.11321v1 )

ライセンス: Link先を確認
Ananya B. Sai, Akash Kumar Mohankumar, Siddhartha Arora, Mitesh M. Khapra(参考訳) ADEMやRUBERといったモデルベースのダイアログ評価メトリクスや、最近のBERTベースのメトリクスに注目が集まっている。 これらのモデルは、関連するすべての応答に高いスコアを割り当て、関連するすべての応答に低いスコアを割り当てることを目的としている。 理想的には、そのようなモデルは、任意のコンテキストに対して複数の関連かつ無関係な応答を使って訓練されるべきである。 しかし、そのようなデータは公開されていないため、既存のモデルは、通常、1つの関連する応答と複数のランダムに選択された応答(ランダムな否定)を使用して訓練される。 モデルベースのメトリクスのトレーニングと堅牢な評価を可能にするために、dailydialog++データセットを紹介します。 (i)各文脈に対する5つの関連回答 (二)それぞれの文脈に無関係な反応を5つ作り出した。 このデータセットを用いて、複数の正しい参照が存在する場合でも、n-gramベースのメトリクスと埋め込みベースのメトリクスは、関連する応答と無作為な否定を区別するのにうまく機能しないことを示す。 モデルベースのメトリクスはn-gramよりもパフォーマンスが良く、ランダムな負のメトリクスが組み込まれていますが、そのパフォーマンスは逆の例で評価すると大幅に低下します。 大規模な事前トレーニングが役立つかどうかを確認するために、新しいBERTベースの評価指標DEBを提案し、これはRedditの7億2700万の会話で事前トレーニングされ、データセットで微調整される。 DEBは既存のモデルよりも優れており、人間の判断との相関性が良く、ランダムなネガティブ(88.27%の精度)の性能が向上している。 しかし、逆応答で評価すると、パフォーマンスは再び低下し、大規模な事前学習された評価モデルでさえ、データセットの逆応答の例に対して堅牢ではないことが強調される。 データセットとコードは公開されている。

There is an increasing focus on model-based dialog evaluation metrics such as ADEM, RUBER, and the more recent BERT-based metrics. These models aim to assign a high score to all relevant responses and a low score to all irrelevant responses. Ideally, such models should be trained using multiple relevant and irrelevant responses for any given context. However, no such data is publicly available, and hence existing models are usually trained using a single relevant response and multiple randomly selected responses from other contexts (random negatives). To allow for better training and robust evaluation of model-based metrics, we introduce the DailyDialog++ dataset, consisting of (i) five relevant responses for each context and (ii) five adversarially crafted irrelevant responses for each context. Using this dataset, we first show that even in the presence of multiple correct references, n-gram based metrics and embedding based metrics do not perform well at separating relevant responses from even random negatives. While model-based metrics perform better than n-gram and embedding based metrics on random negatives, their performance drops substantially when evaluated on adversarial examples. To check if large scale pretraining could help, we propose a new BERT-based evaluation metric called DEB, which is pretrained on 727M Reddit conversations and then finetuned on our dataset. DEB significantly outperforms existing models, showing better correlation with human judgements and better performance on random negatives (88.27% accuracy). However, its performance again drops substantially, when evaluated on adversarial responses, thereby highlighting that even large-scale pretrained evaluation models are not robust to the adversarial examples in our dataset. The dataset and code are publicly available.
翻訳日:2022-10-15 16:12:42 公開日:2020-09-23
# 機械翻訳用マルチパストランス

Multi-Pass Transformer for Machine Translation ( http://arxiv.org/abs/2009.11382v1 )

ライセンス: Link先を確認
Peng Gao, Chiori Hori, Shijie Geng, Takaaki Hori, Jonathan Le Roux(参考訳) 情報がスタックのより深い層にのみ流れる従来のアプローチとは対照的に、より古いレイヤが後のレイヤの出力に照らして情報を処理できるマルチパストランスフォーマ(mpt)アーキテクチャを検討する。 有向非巡回グラフ構造を維持するために、変圧器のエンコーダスタックは、新しいマルチパス次元に沿って繰り返し、パラメータを結び付け、エンコーダスタック内のより深い層とその後のスタックの任意の層の両方に一方向に進むことができる。 並列エンコーダスタック間のソフトな(すなわち連続的な)接続とハードな(すなわち離散的な)接続の両方を考慮する。 提案するmptアーキテクチャの広範なアブレーション研究を行い,他の最先端のトランスフォーマーアーキテクチャと比較した。 驚くべきことに、MPTを備えたBase Transformerは、挑戦的な機械翻訳En-DeとEn-Frデータセット上でのLarge Transformerのパフォーマンスを上回ることができる。 ハード接続の場合、En-Deの最適接続パターンもEn-Frの性能を向上させる。

In contrast with previous approaches where information flows only towards deeper layers of a stack, we consider a multi-pass transformer (MPT) architecture in which earlier layers are allowed to process information in light of the output of later layers. To maintain a directed acyclic graph structure, the encoder stack of a transformer is repeated along a new multi-pass dimension, keeping the parameters tied, and information is allowed to proceed unidirectionally both towards deeper layers within an encoder stack and towards any layer of subsequent stacks. We consider both soft (i.e., continuous) and hard (i.e., discrete) connections between parallel encoder stacks, relying on a neural architecture search to find the best connection pattern in the hard case. We perform an extensive ablation study of the proposed MPT architecture and compare it with other state-of-the-art transformer architectures. Surprisingly, Base Transformer equipped with MPT can surpass the performance of Large Transformer on the challenging machine translation En-De and En-Fr datasets. In the hard connection case, the optimal connection pattern found for En-De also leads to improved performance for En-Fr.
翻訳日:2022-10-15 16:12:03 公開日:2020-09-23
# 固有モチベーションを用いた階層的アフォーダンス発見

Hierarchical Affordance Discovery using Intrinsic Motivation ( http://arxiv.org/abs/2009.10968v1 )

ライセンス: Link先を確認
Alexandre Manoury (IMT Atlantique - INFO), Sao Mai Nguyen, C\'edric Buche(参考訳) 現実の環境で生涯学習できるためには、ロボットは複数の課題に取り組む必要がある。 彼らの環境で観察できる物理的特性と、それらが持つ可能性のある相互作用を関連付けることができる。 このスキルは「空き学習」と呼ばれ、実施と強く結びついており、各個人が周囲との相互作用を通じて異なる空きを学習する。 現在のアフォーアンス学習の方法は、通常、これらのアフォーアンスを学ぶために固定アクションを使用するか、ロボットアームを操作する静的セットアップにフォーカスする。 本稿では,移動ロボットの価格学習を支援するために,本質的な動機を用いたアルゴリズムを提案する。 このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見、学習、適応することができる。 一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。 そこで我々は,強化学習と余剰学習の他のアプローチと比較する前に,実験を行い,システムを分析する。

To be capable of lifelong learning in a real-life environment, robots have to tackle multiple challenges. Being able to relate physical properties they may observe in their environment to possible interactions they may have is one of them. This skill, named affordance learning, is strongly related to embodiment and is mastered through each person's development: each individual learns affordances differently through their own interactions with their surroundings. Current methods for affordance learning usually use either fixed actions to learn these affordances or focus on static setups involving a robotic arm to be operated. In this article, we propose an algorithm using intrinsic motivation to guide the learning of affordances for a mobile robot. This algorithm is capable to autonomously discover, learn and adapt interrelated affordances without pre-programmed actions. Once learned, these affordances may be used by the algorithm to plan sequences of actions in order to perform tasks of various difficulties. We then present one experiment and analyse our system before comparing it with other approaches from reinforcement learning and affordance learning.
翻訳日:2022-10-15 16:11:43 公開日:2020-09-23
# 効率的なインクリメンタルモデリングと解法

Efficient Incremental Modelling and Solving ( http://arxiv.org/abs/2009.11111v1 )

ライセンス: Link先を確認
G\"okberk Ko\c{c}ak, \"Ozg\"ur Akg\"un, Nguyen Dang, Ian Miguel(参考訳) 様々なシナリオにおいて、モデリングと解決の単一フェーズは、目の前の問題を解くのに十分でないか不可能である。 例えば、ai計画問題を解決する標準的なアプローチは、計画の地平を段階的に拡張し、特定の長さの計画を見つけようとする問題を解決することである。 実際、任意の最適化問題は、目標値を漸進的に更新する一連の決定問題として解決できる。 もうひとつの例は制約支配プログラミング(CDP)で、検索は一連のレベルに分類される。 この作業の貢献は、SATソルバと自動モデリングシステムであるSaveile Rowのネイティブな相互作用を可能にすることで、効率的なインクリメンタルモデリングと解決をサポートすることである。 これにより、新しい決定変数の追加、新しい制約の投稿、インクリメンタルステップ間の(仮定による)既存の制約の削除が可能になる。 モデリングと解決のネイティブ結合の2つの利点は、SATソルバコール間の学習情報を保持でき、SAT仮定を有効にでき、柔軟性と効率をより向上できることである。 1つの最適化問題と5つのパターンマイニングタスクの実験により、モデリングシステムとSATソルバのネイティブ相互作用が一貫して性能を向上することを示した。

In various scenarios, a single phase of modelling and solving is either not sufficient or not feasible to solve the problem at hand. A standard approach to solving AI planning problems, for example, is to incrementally extend the planning horizon and solve the problem of trying to find a plan of a particular length. Indeed, any optimization problem can be solved as a sequence of decision problems in which the objective value is incrementally updated. Another example is constraint dominance programming (CDP), in which search is organized into a sequence of levels. The contribution of this work is to enable a native interaction between SAT solvers and the automated modelling system Savile Row to support efficient incremental modelling and solving. This allows adding new decision variables, posting new constraints and removing existing constraints (via assumptions) between incremental steps. Two additional benefits of the native coupling of modelling and solving are the ability to retain learned information between SAT solver calls and to enable SAT assumptions, further improving flexibility and efficiency. Experiments on one optimisation problem and five pattern mining tasks demonstrate that the native interaction between the modelling system and SAT solver consistently improves performance significantly.
翻訳日:2022-10-15 16:11:24 公開日:2020-09-23
# 局所的およびグローバルな記述子を並列で活用した視覚的局所化のための対応検索

Leveraging Local and Global Descriptors in Parallel to Search Correspondences for Visual Localization ( http://arxiv.org/abs/2009.10891v1 )

ライセンス: Link先を確認
Pengju Zhang, Yihong Wu, Bingxi Liu(参考訳) 与えられた画像から6dofカメラのポーズを計算するビジュアルローカライズには、ロボティクス、仮想現実、拡張現実など、幅広い応用がある。 視覚局所化には2種類のディスクリプタが重要である。 ひとつはグローバルディスクリプタで、各イメージから機能全体を抽出する。 もう1つはローカル記述子で、通常キーポイントを囲む各イメージパッチからローカル特徴を抽出する。 視覚的ローカライゼーションの手法は、最初はグローバルな記述子による画像検索を行い、その後、検索フィードバックから局所記述子による2D-3Dポイント対応を作る。 2つのステージは、ほとんどのメソッドで連続している。 この単純な組み合わせは、ローカルディスクリプタとグローバルディスクリプタを融合させるという優位性を達成していない。 検索フィードバックから得られた3dポイントは、グローバルディスクリプタによってのみ2dイメージポイントの最も近い候補となる。 それぞれの2Dイメージポイントは、2D-3Dポイント対応の実行時にクエリローカル機能と呼ばれる。 本稿では,ローカルデリプタとグローバルデリプタの両方の利点を生かして,クエリローカル機能の最も近い候補を得るための,新しい並列検索フレームワークを提案する。 具体的には、ディープラーニングベースのグローバルディスクリプタを使用すると同時に、ローカルディスクリプタを使用してランダムツリー構造を構築し、クエリローカル特徴の最も近い候補を取得する。 ランダムな木を構築する際に,新しい確率モデルと深層学習に基づく局所記述子を提案する。 局所記述子の損失関数に二項化後の識別性を維持するための重み付きハミング正規化項を与える。 損失関数は、結果がランダムツリーに統合される実数と二進の記述子を共に訓練する。

Visual localization to compute 6DoF camera pose from a given image has wide applications such as in robotics, virtual reality, augmented reality, etc. Two kinds of descriptors are important for the visual localization. One is global descriptors that extract the whole feature from each image. The other is local descriptors that extract the local feature from each image patch usually enclosing a key point. More and more methods of the visual localization have two stages: at first to perform image retrieval by global descriptors and then from the retrieval feedback to make 2D-3D point correspondences by local descriptors. The two stages are in serial for most of the methods. This simple combination has not achieved superiority of fusing local and global descriptors. The 3D points obtained from the retrieval feedback are as the nearest neighbor candidates of the 2D image points only by global descriptors. Each of the 2D image points is also called a query local feature when performing the 2D-3D point correspondences. In this paper, we propose a novel parallel search framework, which leverages advantages of both local and global descriptors to get nearest neighbor candidates of a query local feature. Specifically, besides using deep learning based global descriptors, we also utilize local descriptors to construct random tree structures for obtaining nearest neighbor candidates of the query local feature. We propose a new probabilistic model and a new deep learning based local descriptor when constructing the random trees. A weighted Hamming regularization term to keep discriminativeness after binarization is given in the loss function for the proposed local descriptor. The loss function co-trains both real and binary descriptors of which the results are integrated into the random trees.
翻訳日:2022-10-15 16:10:29 公開日:2020-09-23
# KoBE:知識に基づく機械翻訳評価

KoBE: Knowledge-Based Machine Translation Evaluation ( http://arxiv.org/abs/2009.11027v1 )

ライセンス: Link先を確認
Zorik Gekhman, Roee Aharoni, Genady Beryozkin, Markus Freitag, Wolfgang Macherey(参考訳) 本稿では,参照翻訳を必要としない機械翻訳評価の簡易かつ効果的な手法を提案する。 本手法は,(1)多言語多言語知識ベースに対して,各文に含まれるエンティティ参照と候補翻訳を接地すること,(2)候補に含まれるエンティティのリコールを測定することに基づく。 提案手法は,参照のない評価のためのWMT19ベンチマークから,18言語対のうち9言語対のうち9言語に対する人間の判断との相関が最大である。 4つの言語ペアにおいて,人間の判断とbleuよりも高い相関が得られた。 さらなる研究を促進するために、WMT19メトリクス追跡データから18言語対にわたる180万の基底エンティティの言及を含むデータセットをリリースする。

We propose a simple and effective method for machine translation evaluation which does not require reference translations. Our approach is based on (1) grounding the entity mentions found in each source sentence and candidate translation against a large-scale multilingual knowledge base, and (2) measuring the recall of the grounded entities found in the candidate vs. those found in the source. Our approach achieves the highest correlation with human judgements on 9 out of the 18 language pairs from the WMT19 benchmark for evaluation without references, which is the largest number of wins for a single evaluation method on this task. On 4 language pairs, we also achieve higher correlation with human judgements than BLEU. To foster further research, we release a dataset containing 1.8 million grounded entity mentions across 18 language pairs from the WMT19 metrics track data.
翻訳日:2022-10-15 16:02:16 公開日:2020-09-23
# Seq2Edits: Spanレベルの編集操作を用いたシーケンス変換

Seq2Edits: Sequence Transduction Using Span-level Edit Operations ( http://arxiv.org/abs/2009.11136v1 )

ライセンス: Link先を確認
Felix Stahlberg and Shankar Kumar(参考訳) seq2editsは自然言語処理(nlp)タスクのシーケンス編集のためのオープンボキャブラリーなアプローチで、入力テキストと出力テキストの重なり度が高い。 このアプローチでは、各シーケンスからシーケンスへのトランスダクションは編集操作のシーケンスとして表現され、各操作はソース全体をターゲットトークンで置き換えるか、変更を保持する。 提案手法は,5つのNLPタスク(テキスト正規化,文融合,文分割と言い換え,テキスト単純化,文法的誤り訂正)で評価し,競争結果の報告を行う。 文法的誤り訂正では,推定時間が目標トークン数ではなく編集数に依存するため,全列モデルと比較して最大5.2倍の速度で推論を行う。 テキストの正規化,文の融合,文法的誤り訂正では,各編集操作を人間可読タグに関連付けることにより,説明可能性を向上させる。

We propose Seq2Edits, an open-vocabulary approach to sequence editing for natural language processing (NLP) tasks with a high degree of overlap between input and output texts. In this approach, each sequence-to-sequence transduction is represented as a sequence of edit operations, where each operation either replaces an entire source span with target tokens or keeps it unchanged. We evaluate our method on five NLP tasks (text normalization, sentence fusion, sentence splitting & rephrasing, text simplification, and grammatical error correction) and report competitive results across the board. For grammatical error correction, our method speeds up inference by up to 5.2x compared to full sequence models because inference time depends on the number of edits rather than the number of target tokens. For text normalization, sentence fusion, and grammatical error correction, our approach improves explainability by associating each edit operation with a human-readable tag.
翻訳日:2022-10-15 16:01:45 公開日:2020-09-23
# 古典中国語におけるパート・オブ・スペルの進化

Evolution of Part-of-Speech in Classical Chinese ( http://arxiv.org/abs/2009.11144v1 )

ライセンス: Link先を確認
Bai Li(参考訳) 古典中国語は単語のクラスの柔軟性に特有な言語であり、同じ単語が名詞や動詞として使われることが多い。 Bisang (2008) は古典中国語は前分類型言語であり、ある単語の統語的位置がその音声のカテゴリーを決定すると主張した。 本稿では,エントロピーに基づく指標を用いて,これらの主張を歴史的コーパス上で評価する。 古典中国語における名詞と動詞の違いをさらに探求する: 心理学的規範を用いて、具体性と名詞使用の正の相関を見出す。 最後に、古典中国語や現代中国語からの文字埋め込みを整理し、動詞が名詞よりも意味的変化を起こすことを見出した。

Classical Chinese is a language notable for its word class flexibility: the same word may often be used as a noun or a verb. Bisang (2008) claimed that Classical Chinese is a precategorical language, where the syntactic position of a word determines its part-of-speech category. In this paper, we apply entropy-based metrics to evaluate these claims on historical corpora. We further explore differences between nouns and verbs in Classical Chinese: using psycholinguistic norms, we find a positive correlation between concreteness and noun usage. Finally, we align character embeddings from Classical and Modern Chinese, and find that verbs undergo more semantic change than nouns.
翻訳日:2022-10-15 16:01:29 公開日:2020-09-23
# トークンワイズCNNを用いた文圧縮手法

A Token-wise CNN-based Method for Sentence Compression ( http://arxiv.org/abs/2009.11260v1 )

ライセンス: Link先を確認
Weiwei Hou, Hanna Suominen, Piotr Koniusz, Sabrina Caldwell and Tom Gedeon(参考訳) 文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。 その応用は、言語教育のためのツールを構築できるなど、多くの分野の恩恵を受けることができる。 しかし、現在の手法は処理速度の低下に苦しむリカレントニューラルネットワーク(RNN)モデルに大きく依存している。 本稿では,CNNベースのモデルであるトークンワイド・畳み込みニューラルネットワークと,削除に基づく文圧縮のための変換器(BERT)の事前学習による双方向エンコーダ表現を提案する。 また、我々のモデルをRNNベースのモデルと微調整BERTと比較する。 RNNベースのモデルのうちの1つは、同じ入力を与えられた他のモデルよりも優れているが、我々のCNNベースのモデルはRNNベースのアプローチの10倍高速であった。

Sentence compression is a Natural Language Processing (NLP) task aimed at shortening original sentences and preserving their key information. Its applications can benefit many fields e.g. one can build tools for language education. However, current methods are largely based on Recurrent Neural Network (RNN) models which suffer from poor processing speed. To address this issue, in this paper, we propose a token-wise Convolutional Neural Network, a CNN-based model along with pre-trained Bidirectional Encoder Representations from Transformers (BERT) features for deletion-based sentence compression. We also compare our model with RNN-based models and fine-tuned BERT. Although one of the RNN-based models outperforms marginally other models given the same input, our CNN-based model was ten times faster than the RNN-based approach.
翻訳日:2022-10-15 16:00:54 公開日:2020-09-23
# 医療のための確率的機械学習

Probabilistic Machine Learning for Healthcare ( http://arxiv.org/abs/2009.11087v1 )

ライセンス: Link先を確認
Irene Y. Chen, Shalmali Joshi, Marzyeh Ghassemi, and Rajesh Ranganath(参考訳) 機械学習は、医療データを理解するのに使用できる。 確率的機械学習モデルは、医療における観察されたデータの全体像を提供するのに役立つ。 本稿では,機械学習が医療をいかに前進させるかを検討する。 キャリブレーションや欠落データを含む確率モデルが有用である予測モデル構築パイプラインにおける課題を検討する。 予測モデル以外にも, 表現型表現における確率的機械学習モデル, 臨床用生成モデル, 強化学習における有用性についても検討した。

Machine learning can be used to make sense of healthcare data. Probabilistic machine learning models help provide a complete picture of observed data in healthcare. In this review, we examine how probabilistic machine learning can advance healthcare. We consider challenges in the predictive model building pipeline where probabilistic models can be beneficial including calibration and missing data. Beyond predictive models, we also investigate the utility of probabilistic machine learning models in phenotyping, in generative models for clinical use cases, and in reinforcement learning.
翻訳日:2022-10-15 15:54:24 公開日:2020-09-23
# 機械学習と計算数学

Machine Learning and Computational Mathematics ( http://arxiv.org/abs/2009.14596v1 )

ライセンス: Link先を確認
Weinan E(参考訳) ニューラルネットワークベースの機械学習は、前例のない効率と精度で非常に高次元の関数を近似することができる。 これは、従来の人工知能の分野だけでなく、科学計算や計算科学においても、多くのエキサイティングな新しい可能性を開いた。 同時に、機械学習は基本的な原則なしで"ブラックボックス"タイプのトリックのセットであるという評判も得ている。 これは機械学習のさらなる進歩にとって真の障害である。 本稿では,(1)機械学習がすでにどのような影響を与えており,さらに計算数学,科学計算,計算科学に影響を与えるのか,という2つの重要な疑問に対処する。 2) 計算数学,特に数値解析は,機械学習にどのような影響を及ぼすか? これらの問題について行われた最も重要な進歩をいくつか紹介する。 私たちの希望は、機械学習と計算数学を統合するのに役立つ視点に物事を組み込むことです。

Neural network-based machine learning is capable of approximating functions in very high dimension with unprecedented efficiency and accuracy. This has opened up many exciting new possibilities, not just in traditional areas of artificial intelligence, but also in scientific computing and computational science. At the same time, machine learning has also acquired the reputation of being a set of "black box" type of tricks, without fundamental principles. This has been a real obstacle for making further progress in machine learning. In this article, we try to address the following two very important questions: (1) How machine learning has already impacted and will further impact computational mathematics, scientific computing and computational science? (2) How computational mathematics, particularly numerical analysis, {can} impact machine learning? We describe some of the most important progress that has been made on these issues. Our hope is to put things into a perspective that will help to integrate machine learning with computational mathematics.
翻訳日:2022-10-15 15:53:32 公開日:2020-09-23
# 高分解能気候変動予測のための拡張畳み込みLSTM

Augmented Convolutional LSTMs for Generation of High-Resolution Climate Change Projections ( http://arxiv.org/abs/2009.11279v1 )

ライセンス: Link先を確認
Nidhin Harilal, Udit Bhatia, Mayank Singh(参考訳) 気温や降水量といった気候変数の極端な指標の変化の予測は、重要なインフラや生態系を含む人為的・自然的なシステムに対する気候変動の影響を評価する上で非常に重要である。 影響評価と適応計画は高解像度の投影(通常は数kmの順)に依存しているが、最先端の地球系モデル(ESM)は数百kmの空間解像度で利用可能である。 ESMの高分解能プロジェクションを得るための現在のソリューションには、局所スケールで予測を行うために粗いスケールで情報を考えるダウンスケーリングアプローチが含まれる。 局所的な気候変数(温度や降水など)と大規模予測因子(圧力場など)の複雑で非線形な相互依存は、ニューラルネットワークに基づく超解像アーキテクチャの使用を動機付けている。 本稿では,統計的ダウンスケーリングのための補助変数情報付き時空間ニューラルアーキテクチャを提案する。 現在の研究では、esmの出力である1.15度 (~115 km) から0.25度 (25 km) までの降水変動を、世界で最も気候が多様化したインドで毎日ダウンスケールしている。 最先端の3つのベースラインに対して,極端なイベントの予測能力が向上し,大幅な改善がみられた。 再現可能な研究を容易にするため、パブリックドメイン内のすべてのコード、処理されたデータセット、トレーニングされたモデルを利用可能にしています。

Projection of changes in extreme indices of climate variables such as temperature and precipitation are critical to assess the potential impacts of climate change on human-made and natural systems, including critical infrastructures and ecosystems. While impact assessment and adaptation planning rely on high-resolution projections (typically in the order of a few kilometers), state-of-the-art Earth System Models (ESMs) are available at spatial resolutions of few hundreds of kilometers. Current solutions to obtain high-resolution projections of ESMs include downscaling approaches that consider the information at a coarse-scale to make predictions at local scales. Complex and non-linear interdependence among local climate variables (e.g., temperature and precipitation) and large-scale predictors (e.g., pressure fields) motivate the use of neural network-based super-resolution architectures. In this work, we present auxiliary variables informed spatio-temporal neural architecture for statistical downscaling. The current study performs daily downscaling of precipitation variable from an ESM output at 1.15 degrees (~115 km) to 0.25 degrees (25 km) over the world's most climatically diversified country, India. We showcase significant improvement gain against three popular state-of-the-art baselines with a better ability to predict extreme events. To facilitate reproducible research, we make available all the codes, processed datasets, and trained models in the public domain.
翻訳日:2022-10-15 15:53:20 公開日:2020-09-23
# 制御可能なマイクロ構造パラメータを持つ3次元インサイリコ・スポンジオザの生成モデリング

Generative Modelling of 3D in-silico Spongiosa with Controllable Micro-Structural Parameters ( http://arxiv.org/abs/2009.11327v1 )

ライセンス: Link先を確認
Emmanuel Iarussi, Felix Thomsen and Claudio Delrieux(参考訳) 脊椎骨の微細構造の研究は、サイリコで現実的な骨構造を生成する方法がまだないため、研究中の特定の病理組織を持つ実際の骨の物理的スキャンを得るための費用がかかる。 本稿では,GAN(Generative Adversarial Network)の最近の進歩を応用して,そのような手法を提案する。 我々は,情報内容を維持しつつ,画像対間のスタイルを転送するために,他の文脈で広く使われているスタイル転送手法を適用した。 第1段階では,wasserstein objective and gradient penalty (pwgan-gp) を用いて累積生成モデルを漸進的に訓練し,現実的な骨構造のパッチを作成した。 トレーニングセットには,ヒト12椎骨(t12またはl1)から採取した純海綿骨標本7660点,等方分解能164um,高分解能末梢定量ct(scanco xct)を用いた。 学習後,学習潜在空間におけるベクトルzの最適化により,微構造特性を調整した新しいサンプルを作成した。 この最適化問題を解決するために,対象の3D特性(スタイル)と外観(コンテント)を妥協しながら,有効なサンプルを導出する微分可能なゴール関数を定式化した。 学習された潜在空間の特性はデータ分布と効果的に一致した。 さらに, マイクロ構造パラメータの変化が期待できる程度のみに基づいて骨粗しょう症治療後の骨構造をシミュレートすることができた。 この方法では、リアルな骨マイクロ構造の事実上無限のパッチを生成できるため、骨バイオマーカーの開発や、骨治療を事前にシミュレートすることができる。

Research in vertebral bone micro-structure generally requires costly procedures to obtain physical scans of real bone with a specific pathology under study, since no methods are available yet to generate realistic bone structures in-silico. Here we propose to apply recent advances in generative adversarial networks (GANs) to develop such a method. We adapted style-transfer techniques, which have been largely used in other contexts, in order to transfer style between image pairs while preserving its informational content. In a first step, we trained a volumetric generative model in a progressive manner using a Wasserstein objective and gradient penalty (PWGAN-GP) to create patches of realistic bone structure in-silico. The training set contained 7660 purely spongeous bone samples from twelve human vertebrae (T12 or L1) with isotropic resolution of 164um and scanned with a high resolution peripheral quantitative CT (Scanco XCT). After training, we generated new samples with tailored micro-structure properties by optimizing a vector z in the learned latent space. To solve this optimization problem, we formulated a differentiable goal function that leads to valid samples while compromising the appearance (content) with target 3D properties (style). Properties of the learned latent space effectively matched the data distribution. Furthermore, we were able to simulate the resulting bone structure after deterioration or treatment effects of osteoporosis therapies based only on expected changes of micro-structural parameters. Our method allows to generate a virtually infinite number of patches of realistic bone micro-structure, and thereby likely serves for the development of bone-biomarkers and to simulate bone therapies in advance.
翻訳日:2022-10-15 15:52:57 公開日:2020-09-23
# 筋骨格超音波による運動単位同定のための深部学習パイプライン

A deep learning pipeline for identification of motor units in musculoskeletal ultrasound ( http://arxiv.org/abs/2010.03028v1 )

ライセンス: Link先を確認
Hazrat Ali, Johannes Umander, Robin Rohl\'en and Christer Gr\"onlund(参考訳) 超音波イメージングは筋肉の大部分からの情報を提供する。 近年,超高速超音波画像を用いて個々のmusの機械的応答をブラインドソース分離を用いて記録・解析できることが示されている。 本研究では,超音波画像中の活動的ミューズを同定するための新しい手法である深層学習パイプラインを提案し,その領域の分割や機械的応答の信号推定(twitchトレイン)について述べる。 重なり合う領域と部分的に同期されたアクティベーションパターンを持つ数個のアクティベーションMUの複雑なアクティベーションパターンを模倣したシミュレーションデータを用いてモデルを構築し評価する。 3次元CNNをベースとした遅い融合手法を用いて、時空間画像シーケンスデータを2次元表現に変換し、セグメンテーションにディープニューラルネットワークアーキテクチャを適用する。 次に,第2のディープニューラルネットワークアーキテクチャを用いて信号推定を行う。 その結果,提案パイプラインは個々のmusを効果的に識別し,その領域を推定し,低収縮力でtwitch列車信号を推定できることがわかった。 このフレームワークは、超音波画像シーケンスが従来のコンピュータビジョンや画像処理技術と互換性のある2次元表現に変換された場合でも、時空間的構成とmu活動の機械的応答の情報を保持することができる。 提案するパイプラインは,低力レベルでの随意性骨格筋収縮の超音波画像解析において,全筋において同時に活動するミューズを同定するのに有用である。

Ultrasound imaging provides information from a large part of the muscle. It has recently been shown that ultrafast ultrasound imaging can be used to record and analyze the mechanical response of individual MUs using blind source separation. In this work, we present an alternative method - a deep learning pipeline - to identify active MUs in ultrasound image sequences, including segmentation of their territories and signal estimation of their mechanical responses (twitch train). We train and evaluate the model using simulated data mimicking the complex activation pattern of tens of activated MUs with overlapping territories and partially synchronized activation patterns. Using a slow fusion approach (based on 3D CNNs), we transform the spatiotemporal image sequence data to 2D representations and apply a deep neural network architecture for segmentation. Next, we employ a second deep neural network architecture for signal estimation. The results show that the proposed pipeline can effectively identify individual MUs, estimate their territories, and estimate their twitch train signal at low contraction forces. The framework can retain spatio-temporal consistencies and information of the mechanical response of MU activity even when the ultrasound image sequences are transformed into a 2D representation for compatibility with more traditional computer vision and image processing techniques. The proposed pipeline is potentially useful to identify simultaneously active MUs in whole muscles in ultrasound image sequences of voluntary skeletal muscle contractions at low force levels.
翻訳日:2022-10-15 15:52:28 公開日:2020-09-23
# FastSecAgg: プライバシ保護フェデレーション学習のためのスケーラブルなセキュアアグリゲーション

FastSecAgg: Scalable Secure Aggregation for Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2009.11248v1 )

ライセンス: Link先を確認
Swanand Kadhe, Nived Rajaraman, O. Ozan Koyluoglu, Kannan Ramchandran(参考訳) 最近の連合学習に対する攻撃は、クライアントが共有するモデルパラメータがトレーニングデータに関する情報をリークできるため、トレーニングデータをクライアントのデバイスに保持しても十分なプライバシは提供されないことを示している。 プロトコルは、サーバがクライアントのモデルをプライバシー保護の方法で集約することを可能にする。 しかしながら、既存のセキュアアグリゲーションプロトコルは、特にモデルパラメータの数がイテレーションに参加するクライアントの数よりも大きい場合、高い計算/通信コストを発生させる。 本稿では,セキュアなアグリゲーションプロトコルであるFastSecAggを提案する。 FastSecAggの主なビルディングブロックは、Fast Fourier Transform (FFT)をベースにした、新しいマルチシークレット共有スキームであるFastShareである。 FastShareは情報理論的に安全であり、シークレットの数、プライバシのしきい値、およびドロップアウトトレランスの間のトレードオフを達成する。 FastShareの機能を活用して、FastSecAggが有効であることを証明します。 i) 誠実だが正確な設定でクライアントの一定割合(例えば$\sim10\%$)の「任意の」サブセットと競合するサーバに対して安全である。 (ii) クライアントの一定の分数(例えば$\sim10\%$)の「ランダム」サブセットのドロップアウトを許容する。 FastSecAggは、既存のスキームよりも計算コストが大幅に小さく、同じ(順番に)通信コストを達成する。 さらに、適応的な敵に対するセキュリティが保証され、プロトコルの実行中にクライアントの汚職を動的に行うことができる。

Recent attacks on federated learning demonstrate that keeping the training data on clients' devices does not provide sufficient privacy, as the model parameters shared by clients can leak information about their training data. A 'secure aggregation' protocol enables the server to aggregate clients' models in a privacy-preserving manner. However, existing secure aggregation protocols incur high computation/communication costs, especially when the number of model parameters is larger than the number of clients participating in an iteration -- a typical scenario in federated learning. In this paper, we propose a secure aggregation protocol, FastSecAgg, that is efficient in terms of computation and communication, and robust to client dropouts. The main building block of FastSecAgg is a novel multi-secret sharing scheme, FastShare, based on the Fast Fourier Transform (FFT), which may be of independent interest. FastShare is information-theoretically secure, and achieves a trade-off between the number of secrets, privacy threshold, and dropout tolerance. Riding on the capabilities of FastShare, we prove that FastSecAgg is (i) secure against the server colluding with 'any' subset of some constant fraction (e.g. $\sim10\%$) of the clients in the honest-but-curious setting; and (ii) tolerates dropouts of a 'random' subset of some constant fraction (e.g. $\sim10\%$) of the clients. FastSecAgg achieves significantly smaller computation cost than existing schemes while achieving the same (orderwise) communication cost. In addition, it guarantees security against adaptive adversaries, which can perform client corruptions dynamically during the execution of the protocol.
翻訳日:2022-10-15 15:52:09 公開日:2020-09-23
# 公正回帰のためのランクベースマルチタスク学習

Rank-Based Multi-task Learning for Fair Regression ( http://arxiv.org/abs/2009.11405v1 )

ライセンス: Link先を確認
Chen Zhao, Feng Chen(参考訳) 本研究では、偏りのあるトレーニングデータセットに基づくマルチタスク回帰モデルのための新しいフェアネス学習手法を開発し、一般的なランクに基づく非パラメトリック独立性テスト(Mann Whitney U statistic)を用いて、ターゲット変数と保護変数間の依存性を測定する。 この学習問題を効率的に解くために,まず,非凸制約を個々の対象の群別ランキング関数に基づいて定義する新しい非凸最適化問題として再検討する。 そこで我々は,乗算器の非凸交互方向法(NC-ADMM)の枠組みに基づく効率的なモデル学習アルゴリズムを開発した。 人工データセットと実世界のデータセットの両方に関する広範な実験を通じて、フェアネス学習に関連するいくつかの人気のあるメトリクスに関する最先端の競合手法に対する新しいアプローチのアウトパフォーマンスを検証する。

In this work, we develop a novel fairness learning approach for multi-task regression models based on a biased training dataset, using a popular rank-based non-parametric independence test, i.e., Mann Whitney U statistic, for measuring the dependency between target variable and protected variables. To solve this learning problem efficiently, we first reformulate the problem as a new non-convex optimization problem, in which a non-convex constraint is defined based on group-wise ranking functions of individual objects. We then develop an efficient model-training algorithm based on the framework of non-convex alternating direction method of multipliers (NC-ADMM), in which one of the main challenges is to implement an efficient projection oracle to the preceding non-convex set defined based on ranking functions. Through the extensive experiments on both synthetic and real-world datasets, we validated the out-performance of our new approach against several state-of-the-art competitive methods on several popular metrics relevant to fairness learning.
翻訳日:2022-10-15 15:46:13 公開日:2020-09-23
# ファウショット回帰の異常発見と防止

Unfairness Discovery and Prevention For Few-Shot Regression ( http://arxiv.org/abs/2009.11406v1 )

ライセンス: Link先を確認
Chen Zhao, Feng Chen(参考訳) 歴史データの識別(あるいはバイアス)に敏感な教師付き数発メタラーニングモデルの公平性について検討する。 偏りのあるデータに基づいてトレーニングされた機械学習モデルは、少数グループのユーザに対して不公平な予測を行う傾向がある。 この問題はこれまで研究されてきたが、既存の手法は主に、大量のトレーニングデータに基づいて、保護された変数(人種、性別など)のターゲット予測に対する依存性効果を検出し、制御することを目的としている。 これらの手法には,(1)全変数に対する大域的原因効果の可視化が欠如していること,(2)未確認タスクに対する精度と公平性の一般化が欠如していること,の2つの大きな欠点がある。 本研究では,保護変数のターゲットへの依存性を示すだけでなく,すべての変数間の因果効果を示す因果ベイズ知識グラフを用いて,まずデータから識別する。 次に,グラフ内の各保護変数に対する識別的影響を定量化するために,リスク差に基づく新しいアルゴリズムを開発した。 さらに、予測を不公平から守るために、各タスクの統計的不一致を効率的に軽減し、バイアス付きおよび少数ショットデータサンプルに基づく予測に基づいて保護属性の独立性を保証するメタラーニングにおける高速適応バイアス制御手法を提案する。 既存のメタラーニングモデルと異なり、(非)保護群間の平均差を回帰問題に活用することにより、タスクの集団不公平性を効率的に低減する。 提案した不公平発見・防止手法は, モデル出力における識別・偏見を効果的に検出し, 精度と公平性の両方を, 限られたトレーニングサンプルで未確認タスクに一般化することを示した。

We study fairness in supervised few-shot meta-learning models that are sensitive to discrimination (or bias) in historical data. A machine learning model trained based on biased data tends to make unfair predictions for users from minority groups. Although this problem has been studied before, existing methods mainly aim to detect and control the dependency effect of the protected variables (e.g. race, gender) on target prediction based on a large amount of training data. These approaches carry two major drawbacks that (1) lacking showing a global cause-effect visualization for all variables; (2) lacking generalization of both accuracy and fairness to unseen tasks. In this work, we first discover discrimination from data using a causal Bayesian knowledge graph which not only demonstrates the dependency of the protected variable on target but also indicates causal effects between all variables. Next, we develop a novel algorithm based on risk difference in order to quantify the discriminatory influence for each protected variable in the graph. Furthermore, to protect prediction from unfairness, a fast-adapted bias-control approach in meta-learning is proposed, which efficiently mitigates statistical disparity for each task and it thus ensures independence of protected attributes on predictions based on biased and few-shot data samples. Distinct from existing meta-learning models, group unfairness of tasks are efficiently reduced by leveraging the mean difference between (un)protected groups for regression problems. Through extensive experiments on both synthetic and real-world data sets, we demonstrate that our proposed unfairness discovery and prevention approaches efficiently detect discrimination and mitigate biases on model output as well as generalize both accuracy and fairness to unseen tasks with a limited amount of training samples.
翻訳日:2022-10-15 15:45:54 公開日:2020-09-23
# リプシッツ正則化によるミックスアップ型半教師付き学習の強化

Enhancing Mixup-based Semi-Supervised Learning with Explicit Lipschitz Regularization ( http://arxiv.org/abs/2009.11416v1 )

ライセンス: Link先を確認
Prashnna Kumar Gyawali, Sandesh Ghimire, Linwei Wang(参考訳) ディープラーニングの成功は、大規模な注釈付きデータセットの可用性に依存している。 半教師付き学習(SSL)は、大きなラベルのないデータ上での神経機能の振る舞いを活用することで、この課題を緩和する。 神経機能の滑らかさはSSLで利用される一般的な仮定である。 成功例はSSLにおけるミックスアップ戦略の採用であり、トレーニング例間の補間時に線形に振る舞うことを奨励することで、神経機能のグローバルなスムーズさを強制する。 しかし、その経験的成功にもかかわらず、ミックスアップが神経機能をどのように正規化するかという理論的根拠は理解されていない。 本稿では,ニューラルネットワークの勾配関数のリプシッツ定数をバウンドすることで,ニューラル関数の滑らか性を改善するという理論的な仮定を提案する。 そこで我々は, ニューラル関数自体のリプシッツ定数を逆リプシッツ正則化により同時に拘束することで, 線形関数の傾きを拘束しながら, 線形関数を線形に振る舞うことを奨励することで, これを強化できることを示す。 3つのベンチマークデータセットと1つの実世界のバイオメディカルデータセットにおいて、この組み合わせによって少量のラベル付きデータから学習すると、SSLの一般化性能が向上することを示した。 さらに, 単段階攻撃に対する提案手法の堅牢性を示す。 私たちのコードはhttps://github.com/Prasanna 1991/Mixup-LRで公開されています。

The success of deep learning relies on the availability of large-scale annotated data sets, the acquisition of which can be costly, requiring expert domain knowledge. Semi-supervised learning (SSL) mitigates this challenge by exploiting the behavior of the neural function on large unlabeled data. The smoothness of the neural function is a commonly used assumption exploited in SSL. A successful example is the adoption of mixup strategy in SSL that enforces the global smoothness of the neural function by encouraging it to behave linearly when interpolating between training examples. Despite its empirical success, however, the theoretical underpinning of how mixup regularizes the neural function has not been fully understood. In this paper, we offer a theoretically substantiated proposition that mixup improves the smoothness of the neural function by bounding the Lipschitz constant of the gradient function of the neural networks. We then propose that this can be strengthened by simultaneously constraining the Lipschitz constant of the neural function itself through adversarial Lipschitz regularization, encouraging the neural function to behave linearly while also constraining the slope of this linear function. On three benchmark data sets and one real-world biomedical data set, we demonstrate that this combined regularization results in improved generalization performance of SSL when learning from a small amount of labeled data. We further demonstrate the robustness of the presented method against single-step adversarial attacks. Our code is available at https://github.com/Prasanna1991/Mixup-LR.
翻訳日:2022-10-15 15:45:22 公開日:2020-09-23
# ビデオオブジェクト検出のためのロバストで効率的な後処理

Robust and efficient post-processing for video object detection ( http://arxiv.org/abs/2009.11050v1 )

ライセンス: Link先を確認
Alberto Sabater, Luis Montesano, Ana C. Murillo(参考訳) ビデオにおけるオブジェクト認識は、自律運転認識、監視タスク、ウェアラブルデバイス、IoTネットワークなど、多くのアプリケーションにとって重要なタスクである。 ビデオデータを用いたオブジェクト認識は、ぼやけやオクルージョン、希少なオブジェクトポーズによって静止画像を使用するよりも難しい。 計算コストの高い特定映像検出器や標準画像検出器、高速後処理アルゴリズムが現在の最先端を実現する。 この研究は、フレーム間の検出間の学習に基づく類似性評価を導入することで、従来の後処理手法の制限を克服する新しい後処理パイプラインを導入する。 本手法は,特に高速移動物体に関する最先端の映像検出器の結果を改善し,低リソース要件を示す。 そして、YOLOのような効率的な静止画像検出器に適用することで、より計算集約的な検出器に匹敵する結果が得られる。

Object recognition in video is an important task for plenty of applications, including autonomous driving perception, surveillance tasks, wearable devices or IoT networks. Object recognition using video data is more challenging than using still images due to blur, occlusions or rare object poses. Specific video detectors with high computational cost or standard image detectors together with a fast post-processing algorithm achieve the current state-of-the-art. This work introduces a novel post-processing pipeline that overcomes some of the limitations of previous post-processing methods by introducing a learning-based similarity evaluation between detections across frames. Our method improves the results of state-of-the-art specific video detectors, specially regarding fast moving objects, and presents low resource requirements. And applied to efficient still image detectors, such as YOLO, provides comparable results to much more computationally intensive detectors.
翻訳日:2022-10-15 15:44:56 公開日:2020-09-23
# 単一観測による脳ネットワーク進化軌跡予測のための残留埋め込み類似性に基づくネットワーク選択

Residual Embedding Similarity-Based Network Selection for Predicting Brain Network Evolution Trajectory from a Single Observation ( http://arxiv.org/abs/2009.11110v1 )

ライセンス: Link先を確認
Ahmet Serkan Goktas, Alaa Bessadok and Islem Rekik(参考訳) 既存の予測フレームワークはユークリッド構造データ(すなわち脳画像)を扱うことができるが、それらは脳ネットワークのような幾何学的非ユークリッドデータに一般化できない。 さらにこれらは、Euclideanを使ったサンプル選択のステップや、ベクトル化トレーニングと脳ネットワークのテストの類似性の学習を根ざしている。 このようなサンプルコネクトロミック表現は、トレーニングサンプル選択ステップを誤解させる可能性のある、無関係で冗長な特徴を含むかもしれない。 間違いなく、これは脳コネクトームのトポロジーを搾取し、保存することができない。 この大きな欠点を克服するため、単一視点から脳ネットワークの進化軌道を予測するためにResidual Embedding similarity-Based Network selection (RESNets)を提案する。 resnetsはまず、adversarial connectome embedded networkを使って各トレーニングおよびテストサンプルのコンパクトな幾何埋め込みを学習する。 これにより、グラフ畳み込みネットワークによるトポロジ特性を保ちながら、脳ネットワークの高次元性をうまく低減できる。 次に、被験者間の類似度を計算するために、固定されたネットワーク参照であるconnectional brain template(cbt)の概念を導入し、各トレーニングおよびテストネットワークを埋め込み空間における参照cbtからの逸脱として表現する。 そこで,本研究では,学習した残留埋め込みを予め定義されたCBTと比較することにより,ベースラインでテスト対象と最もよく似た訓練対象を選択する。 最適なトレーニングサンプルがベースラインで選択されると、テストネットワークの進化軌道を予測するために、フォローアップタイムポイントで対応する脳ネットワークを平均化する。 健康な脳ネットワークと無秩序な脳ネットワークにおける実験は,提案手法が,改良版や従来の手法と比較して有効であることを示した。

While existing predictive frameworks are able to handle Euclidean structured data (i.e, brain images), they might fail to generalize to geometric non-Euclidean data such as brain networks. Besides, these are rooted the sample selection step in using Euclidean or learned similarity measure between vectorized training and testing brain networks. Such sample connectomic representation might include irrelevant and redundant features that could mislead the training sample selection step. Undoubtedly, this fails to exploit and preserve the topology of the brain connectome. To overcome this major drawback, we propose Residual Embedding Similarity-Based Network selection (RESNets) for predicting brain network evolution trajectory from a single timepoint. RESNets first learns a compact geometric embedding of each training and testing sample using adversarial connectome embedding network. This nicely reduces the high-dimensionality of brain networks while preserving their topological properties via graph convolutional networks. Next, to compute the similarity between subjects, we introduce the concept of a connectional brain template (CBT), a fixed network reference, where we further represent each training and testing network as a deviation from the reference CBT in the embedding space. As such, we select the most similar training subjects to the testing subject at baseline by comparing their learned residual embeddings with respect to the pre-defined CBT. Once the best training samples are selected at baseline, we simply average their corresponding brain networks at follow-up timepoints to predict the evolution trajectory of the testing network. Our experiments on both healthy and disordered brain networks demonstrate the success of our proposed method in comparison to RESNets ablated versions and traditional approaches.
翻訳日:2022-10-15 15:44:43 公開日:2020-09-23
# ばらつき不変畳み込みニューラルネットワークを用いた山火事煙粒子状物質の密度予測

Dense Forecasting of Wildfire Smoke Particulate Matter Using Sparsity Invariant Convolutional Neural Networks ( http://arxiv.org/abs/2009.11362v1 )

ライセンス: Link先を確認
Renhao Wang, Ashutosh Bhudia, Brandon Dos Remedios, Minnie Teng, Raymond Ng(参考訳) 森林火災煙からの微粒子物質(PM 2.5)の正確な予測は、心肺の健康を守るために重要である。 既存の予測システムはスパースと不正確な根拠に基づいて訓練されており、重要な空間的帰納バイアスを十分に活用していない。 本研究では,多タスク学習を利用してPM2.5値の密度予測を行う畳み込みニューラルネットワークを提案する。 本モデルは,カナダ・ブリティッシュコロンビア州における2018年と2019年の山火事の季節における2つの煙予報システムよりも優れており,pm 2.5のグリッド解像度は10km,24時間前と高い忠実度で予測されている。 最も興味深いのは、格子セルの0.5%しか利用できない不規則に分散した地層真理PM2.5値のトレーニングにもかかわらず、本モデルが有意義な煙分散パターンに一般化することである。

Accurate forecasts of fine particulate matter (PM 2.5) from wildfire smoke are crucial to safeguarding cardiopulmonary public health. Existing forecasting systems are trained on sparse and inaccurate ground truths, and do not take sufficient advantage of important spatial inductive biases. In this work, we present a convolutional neural network which preserves sparsity invariance throughout, and leverages multitask learning to perform dense forecasts of PM 2.5values. We demonstrate that our model outperforms two existing smoke forecasting systems during the 2018 and 2019 wildfire season in British Columbia, Canada, predicting PM 2.5 at a grid resolution of 10 km, 24 hours in advance with high fidelity. Most interestingly, our model also generalizes to meaningful smoke dispersion patterns despite training with irregularly distributed ground truth PM 2.5 values available in only 0.5% of grid cells.
翻訳日:2022-10-15 15:44:16 公開日:2020-09-23
# テレビ番組用マルチモーダルコンテンツベクトルのコサイン類似性

Cosine Similarity of Multimodal Content Vectors for TV Programmes ( http://arxiv.org/abs/2009.11129v1 )

ライセンス: Link先を確認
Saba Nazir, Taner Cagali, Chris Newell, Mehrnoosh Sadrzadeh(参考訳) マルチモーダル情報は、オーディオビジュアルファイル、テキスト記述、メタデータなど、さまざまなソースに由来する。 ベクトルを用いて各ソースがエンコードしたコンテンツの表現方法、中・後期融合技術によるベクトルの結合方法、コンテンツ間の意味的類似性を計算する方法を示す。 我々のベクトル表現は、音声、LSIトピック、字幕のDoc2vec埋め込み、メタデータのカテゴリ機能といったスペクトル特徴と音声単語のバグから成り立っている。 我々は,BBCのテレビ番組のデータセットにモデルを実装し,融合表現を評価してレコメンデーションを提案する。 後期融解類似度行列は推奨の精度と多様性を著しく向上させる。

Multimodal information originates from a variety of sources: audiovisual files, textual descriptions, and metadata. We show how one can represent the content encoded by each individual source using vectors, how to combine the vectors via middle and late fusion techniques, and how to compute the semantic similarities between the contents. Our vectorial representations are built from spectral features and Bags of Audio Words, for audio, LSI topics and Doc2vec embeddings for subtitles, and the categorical features, for metadata. We implement our model on a dataset of BBC TV programmes and evaluate the fused representations to provide recommendations. The late fused similarity matrices significantly improve the precision and diversity of recommendations.
翻訳日:2022-10-15 15:44:01 公開日:2020-09-23
# 多層ニューラルネットワークにおける量子パーセプトロントレーニングの導出自由化法

A Derivative-free Method for Quantum Perceptron Training in Multi-layered Neural Networks ( http://arxiv.org/abs/2009.13264v1 )

ライセンス: Link先を確認
Tariq M. Khan and Antonio Robles-Kelly(参考訳) 本稿では,量子パーセプトロンに基づく多層ニューラルネットワークの学習のための勾配なし手法を提案する。 ここでは、古典的なパーセプトロンと量子ビット上の要素演算、すなわち量子ビットから出発し、量子パーセプトロンの観点で問題を定式化する。 次に、測定可能な演算子を用いて、マルコフプロセスと整合した方法でネットワークの状態を定義する。 これにより、ディラック・フォン・ノイマンの定式化は量子力学と一致する。 さらに,本稿の定式化は,ネットワーク内の層数に依存しない計算効率の利点を有する。 これは量子コンピューティングの自然な効率と相まって、特にディープネットワークの効率が大幅に向上することを意味する。 最後に、ここでの展開は、従来のコンピュータに実装された量子インスパイアされたニューラルネットワークにも使用できるため、非常に一般的なものである。

In this paper, we present a gradient-free approach for training multi-layered neural networks based upon quantum perceptrons. Here, we depart from the classical perceptron and the elemental operations on quantum bits, i.e. qubits, so as to formulate the problem in terms of quantum perceptrons. We then make use of measurable operators to define the states of the network in a manner consistent with a Markov process. This yields a Dirac-Von Neumann formulation consistent with quantum mechanics. Moreover, the formulation presented here has the advantage of having a computational efficiency devoid of the number of layers in the network. This, paired with the natural efficiency of quantum computing, can imply a significant improvement in efficiency, particularly for deep networks. Finally, but not least, the developments here are quite general in nature since the approach presented here can also be used for quantum-inspired neural networks implemented on conventional computers.
翻訳日:2022-10-15 15:43:26 公開日:2020-09-23
# 人口駆動型脳ネットワークアトラス推定のための教師付きマルチトポロジーネットワーククロスディフフュージョン

Supervised Multi-topology Network Cross-diffusion for Population-driven Brain Network Atlas Estimation ( http://arxiv.org/abs/2009.11054v1 )

ライセンス: Link先を確認
Islem Mhiri, Mohamed Ali Mahjoub and Islem Rekik(参考訳) 代表的で差別的な脳ネットワークアトラス(BNA)を推定することは、健康と病気の脳ネットワークの人口をマッピングする分野である。 制限はあるものの、既存のBNA推定法にはいくつかの制限がある。 まず、ノード次数をクロスネットワーク拡散過程におけるトポロジカル測度としてのみ考慮し、それによって脳ネットワーク(例えば集中性)の豊かなトポロジカル測度を見渡す、類似性ネットワーク拡散・融合技術に主に依存する。 第二に、拡散法と融合法が完全に教師なしの方法で実装され、推定されたBNAの識別能力が低下する可能性がある。 これらのギャップを埋めるために、BNA満足度を推定するための教師付きマルチトポロジーネットワーククロスディフュージョン(SM-netFusion)フレームワークを提案する。 (i)表現性(被写体間の共通特性の獲得) (ii)良好な中心性(任意にすべての被写体に近い)、及び (3)高い差別性(2つの集団を区別する識別的脳関係を容易かつ効率的に識別することができる) 訓練データのクラスターラベルを与えられた特定のクラスに対して、次数、近接性、固有ベクトル中心性測度から導出される位相拡散核の重み付け結合を教師あり方法で学習する。 具体的には,学習した拡散核を用いて脳ネットワークの訓練を正規化し,相互拡散過程を学習する。 sm-netfusionは,その変種や最先端手法と比較して,最も中心的かつ代表的なテンプレートを生成し,自閉症者の分類をさらに5~15%向上させた。 SM-netFusionは、グラフトポロジカル測度に基づく教師付きネットワーククロスディフュージョンの最初の研究であり、ネットワーク神経科学における予測学習者の学習のための効率的なグラフ特徴選択法の設計にさらに活用することができる。

Estimating a representative and discriminative brain network atlas (BNA) is a nascent research field in mapping a population of brain networks in health and disease. Although limited, existing BNA estimation methods have several limitations. First, they primarily rely on a similarity network diffusion and fusion technique, which only considers node degree as a topological measure in the cross-network diffusion process, thereby overlooking rich topological measures of the brain network (e.g., centrality). Second, both diffusion and fusion techniques are implemented in fully unsupervised manner, which might decrease the discriminative power of the estimated BNAs. To fill these gaps, we propose a supervised multi-topology network cross-diffusion (SM-netFusion) framework for estimating a BNA satisfying : (i) well-representativeness (captures shared traits across subjects), (ii) well-centeredness (optimally close to all subjects), and (iii) high discriminativeness (can easily and efficiently identify discriminative brain connections that distinguish between two populations). For a specific class, given the cluster labels of the training data, we learn a weighted combination of the topological diffusion kernels derived from degree, closeness and eigenvector centrality measures in a supervised manner. Specifically, we learn the cross-diffusion process by normalizing the training brain networks using the learned diffusion kernels. Our SM-netFusion produces the most centered and representative template in comparison with its variants and state-of-the-art methods and further boosted the classification of autistic subjects by 5-15%. SM-netFusion presents the first work for supervised network cross-diffusion based on graph topological measures, which can be further leveraged to design an efficient graph feature selection method for training predictive learners in network neuroscience.
翻訳日:2022-10-15 15:37:29 公開日:2020-09-23
# 単一脳グラフからの複数脳グラフの同時予測のためのトポロジーアウェア生成逆ネットワーク

Topology-Aware Generative Adversarial Network for Joint Prediction of Multiple Brain Graphs from a Single Brain Graph ( http://arxiv.org/abs/2009.11058v1 )

ライセンス: Link先を確認
Alaa Bessadok, Mohamed Ali Mahjoub and Islem Rekik(参考訳) GAN(Generative Adversarial Networks)に基づくいくつかの研究が、単一のモダリティ(例えば、T1 MRIのFLAIR MRI)から医療画像の集合を予測するために最近提案されている。 しかし、そのようなフレームワークは主に画像を操作するよう設計されており、脳グラフのような非ユークリッド幾何学データへの一般化を制限している。 神経疾患の診断に脳グラフを含める可能性を示すコネクトミクス研究が増えているが、元脳グラフから複数のターゲット脳グラフを予測するための幾何学的深層学習は設計されていない。 過去2年間でグラフ生成の分野での勢いにもかかわらず、既存の研究には2つの重大な欠点がある。 まず、そのような作業の大部分は、ソースドメインから生成するターゲットドメイン毎に1つのモデルを学ぶことを目的としています。 したがって、複数のターゲットドメインを共同で予測するスケーラビリティは限られている。 第二に、グラフの大域的トポロジスケール(すなわちグラフ接続構造)を単に考慮し、グラフのノードスケール(例えばグラフ内のノードがどれだけ中心であるか)で局所的トポロジを見渡すだけである。 これらの課題を満たすために,我々は,単一脳グラフから複数の脳グラフを予測するだけでなく,対象グラフの位相構造を保存して予測するマルチグラフアーキテクチャを導入する。 主な貢献は3つある。 (i)1つのグラフから脳のグラフを共同で予測するグラフ逆オートエンコーダの設計 (2)符号化したソースグラフをクラスタ化し、クラスタ固有のデコーダを提案することにより、GANのモード崩壊問題を扱う。 (iii) 位相的損失を導入することで、位相的対象脳グラフの再構成を強制する。 我々のMultiGraphGANは、その変異を著しく上回り、単一のグラフから多視点脳グラフを生成する大きな可能性を示した。

Several works based on Generative Adversarial Networks (GAN) have been recently proposed to predict a set of medical images from a single modality (e.g, FLAIR MRI from T1 MRI). However, such frameworks are primarily designed to operate on images, limiting their generalizability to non-Euclidean geometric data such as brain graphs. While a growing number of connectomic studies has demonstrated the promise of including brain graphs for diagnosing neurological disorders, no geometric deep learning work was designed for multiple target brain graphs prediction from a source brain graph. Despite the momentum the field of graph generation has gained in the last two years, existing works have two critical drawbacks. First, the bulk of such works aims to learn one model for each target domain to generate from a source domain. Thus, they have a limited scalability in jointly predicting multiple target domains. Second, they merely consider the global topological scale of a graph (i.e., graph connectivity structure) and overlook the local topology at the node scale of a graph (e.g., how central a node is in the graph). To meet these challenges, we introduce MultiGraphGAN architecture, which not only predicts multiple brain graphs from a single brain graph but also preserves the topological structure of each target graph to predict. Its three core contributions lie in: (i) designing a graph adversarial auto-encoder for jointly predicting brain graphs from a single one, (ii) handling the mode collapse problem of GAN by clustering the encoded source graphs and proposing a cluster-specific decoder, (iii) introducing a topological loss to force the reconstruction of topologically sound target brain graphs. Our MultiGraphGAN significantly outperformed its variants thereby showing its great potential in multi-view brain graph generation from a single graph.
翻訳日:2022-10-15 15:36:57 公開日:2020-09-23
# 極端多重ラベル分類のための確率的ラベル木

Probabilistic Label Trees for Extreme Multi-label Classification ( http://arxiv.org/abs/2009.11218v1 )

ライセンス: Link先を確認
Kalina Jasinska-Kobus, Marek Wydmuch, Krzysztof Dembczynski, Mikhail Kuznetsov, Robert Busa-Fekete(参考訳) Extreme Multi-label Classification (XMLC)は、非常に大きなラベルプールから選択された関連するラベルの小さなサブセットでインスタンスをタグ付けする学習タスクである。 このスケールの問題は、階層的ソフトマックスのように木としてラベルを整理することで効率的に処理できる。 本稿では,多ラベル問題に対する階層型ソフトマックスの一般化として扱える確率的ラベルツリー(PLT)について,徹底的に検討する。 まず、PLTモデルを紹介し、トレーニングと推論手順とその計算コストについて論じる。 次に、幅広いパフォーマンスメトリクスに対して、pltの一貫性を証明します。 この目的のために、ノード分類器のサロゲート損失の関数によって、その後悔を上乗せする。 さらに,トレーニングインスタンスや特徴,ラベルに関する事前知識がなくても,完全オンライン環境でPLTをトレーニングするという問題も検討する。 この場合、ノード分類器とツリー構造の両方をオンラインでトレーニングする。 完全オンラインアルゴリズムと木構造を予め与えたアルゴリズムとの特定の等価性を証明する。 最後に,pltの実装をいくつか議論し,最先端アルゴリズムと比較し,実証的に評価する新しい手法であるnapkinxcを紹介する。

Extreme multi-label classification (XMLC) is a learning task of tagging instances with a small subset of relevant labels chosen from an extremely large pool of possible labels. Problems of this scale can be efficiently handled by organizing labels as a tree, like in hierarchical softmax used for multi-class problems. In this paper, we thoroughly investigate probabilistic label trees (PLTs) which can be treated as a generalization of hierarchical softmax for multi-label problems. We first introduce the PLT model and discuss training and inference procedures and their computational costs. Next, we prove the consistency of PLTs for a wide spectrum of performance metrics. To this end, we upperbound their regret by a function of surrogate-loss regrets of node classifiers. Furthermore, we consider a problem of training PLTs in a fully online setting, without any prior knowledge of training instances, their features, or labels. In this case, both node classifiers and the tree structure are trained online. We prove a specific equivalence between the fully online algorithm and an algorithm with a tree structure given in advance. Finally, we discuss several implementations of PLTs and introduce a new one, napkinXC, which we empirically evaluate and compare with state-of-the-art algorithms.
翻訳日:2022-10-15 15:35:48 公開日:2020-09-23
# マルウェアトラフィック検出のためのデータセット最適化戦略

Dataset Optimization Strategies for MalwareTraffic Detection ( http://arxiv.org/abs/2009.11347v1 )

ライセンス: Link先を確認
Ivan Letteri, Antonio Di Cecco, Giuseppe Della Penna(参考訳) マルウェアの継続的な進化は、一定の適応と一般化能力を必要とするため、機械学習は、マルウェアのトラフィック検出において、急速に最も重要な技術になりつつある。 しかし、ネットワークトラフィックデータセットは通常、過大サイズであり、冗長で無関係な情報を含んでいるため、計算コストが劇的に増加し、多くの分類器の精度が低下し、さらにノイズが発生するリスクがある。 本稿では,マルウェア検知器の訓練に使用されるネットワークトラフィックデータセットの効率的な最適化を実現するために,最先端のアプローチを活用・活用する2つの新しいデータセット最適化手法を提案する。 第1のアプローチは,相互情報計測と感性向上に基づく特徴選択手法である。 2つ目は次元縮小技術に基づくオートエンコーダである。 これらのアプローチはMTA-KDD'19データセットに実験的に適用され、マルウェア検出のための機械学習モデルとしてMulti Layer Perceptronを用いて評価・比較された。

Machine learning is rapidly becoming one of the most important technology for malware traffic detection, since the continuous evolution of malware requires a constant adaptation and the ability to generalize. However, network traffic datasets are usually oversized and contain redundant and irrelevant information, and this may dramatically increase the computational cost and decrease the accuracy of most classifiers, with the risk to introduce further noise. We propose two novel dataset optimization strategies which exploit and combine several state-of-the-art approaches in order to achieve an effective optimization of the network traffic datasets used to train malware detectors. The first approach is a feature selection technique based on mutual information measures and sensibility enhancement. The second is a dimensional reduction technique based autoencoders. Both these approaches have been experimentally applied on the MTA-KDD'19 dataset, and the optimized results evaluated and compared using a Multi Layer Perceptron as machine learning model for malware detection.
翻訳日:2022-10-15 15:34:37 公開日:2020-09-23
# EPEM:マルチクラスモノトン欠落データの効率的なパラメータ推定

EPEM: Efficient Parameter Estimation for Multiple Class Monotone Missing Data ( http://arxiv.org/abs/2009.11360v1 )

ライセンス: Link先を確認
Thu Nguyen, Duy H. M. Nguyen, Huy Nguyen, Binh T. Nguyen, Bruce A. Wade(参考訳) モノトーン欠落データの問題は過去20年間に広く研究され、バイオインフォマティクスや統計学といった様々な分野に応用されている。 一般的に使われる計算技法は収束をもたらす前にデータを通して複数の反復を必要とする。 さらに、これらのアプローチは、その後のモデリングに余分なノイズやバイアスをもたらす可能性がある。 本研究では,各カテゴリの共分散行列がすべて等しいと仮定された場合,複数のクラス,単調欠落データセットの最大極大推定器(MLE)を計算する新しいアルゴリズムを提案する。 次に,線形判別分析(lda)における提案手法の適用例を示す。 計算が正確であるので、epemアルゴリズムはデータを通して複数のイテレーションを必要としないので、他の方法よりもはるかに少ない時間消費を処理できる。 この効果は、EPEMが誤り率を大幅に削減し、いくつかの計算法と比較して計算時間を短縮した経験的な結果によって検証された。 また、この問題に関連する研究コミュニティに貢献するために、実験のすべてのコードとデータをGitHubリポジトリにリリースしています。

The problem of monotone missing data has been broadly studied during the last two decades and has many applications in different fields such as bioinformatics or statistics. Commonly used imputation techniques require multiple iterations through the data before yielding convergence. Moreover, those approaches may introduce extra noises and biases to the subsequent modeling. In this work, we derive exact formulas and propose a novel algorithm to compute the maximum likelihood estimators (MLEs) of a multiple class, monotone missing dataset when all the covariance matrices of all categories are assumed to be equal, namely EPEM. We then illustrate an application of our proposed methods in Linear Discriminant Analysis (LDA). As the computation is exact, our EPEM algorithm does not require multiple iterations through the data as other imputation approaches, thus promising to handle much less time-consuming than other methods. This effectiveness was validated by empirical results when EPEM reduced the error rates significantly and required a short computation time compared to several imputation-based approaches. We also release all codes and data of our experiments in one GitHub repository to contribute to the research community related to this problem.
翻訳日:2022-10-15 15:34:09 公開日:2020-09-23
# Procrustes: スパースディープニューラルネットワークトレーニングのためのデータフローとアクセラレータ

Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network Training ( http://arxiv.org/abs/2009.10976v1 )

ライセンス: Link先を確認
Dingqing Yang, Amin Ghasemazar, Xiaowei Ren, Maximilian Golub, Guy Lemieux, Mieszko Lis(参考訳) DNNプルーニングの成功は、スパースウェイトとアクティベーションテンソルを備えたプルーニングモデルをサポートするエネルギー効率の高い推論アクセラレータの開発につながった。 しかし、これらのアーキテクチャにおけるメモリレイアウトとデータフローは$\mathit{inference}$のアクセスパターンに最適化されているため、新たな$\mathit{training}$テクニックを効率的にサポートしていない。 本稿では,その実例を示す。 (a)スパーストレーニングを加速するには、ハードウェアの制約に合うようにアルゴリズムを適応させる共設計アプローチが必要である。 b) スパースDNNトレーニングのためのハードウェアは,推論アクセラレータでは発生しない制約に対処しなければならない。 概念実証として、ハードウェアアクセラレーションに対応可能なスパーストレーニングアルゴリズムを適用し、データフロー、データレイアウト、負荷分散技術を開発し、それを高速化する。 その結果得られたシステムは、スパースdnnトレーニングアクセラレーターであり、最初のトレーニングなしで、そしてその後、pruning、そして最後に、高密度モデルであるpruningと同じ精度でprunedモデルを生成する。 sparseトレーニングサポートのない最先端のdnnアクセラレータを使用した同等の未実行モデルのトレーニングと比較して、procrustesは最大3.26$\times$のエネルギーを消費し、さまざまなモデルで最大4$\times$のスピードアップを提供する。

The success of DNN pruning has led to the development of energy-efficient inference accelerators that support pruned models with sparse weight and activation tensors. Because the memory layouts and dataflows in these architectures are optimized for the access patterns during $\mathit{inference}$, however, they do not efficiently support the emerging sparse $\mathit{training}$ techniques. In this paper, we demonstrate (a) that accelerating sparse training requires a co-design approach where algorithms are adapted to suit the constraints of hardware, and (b) that hardware for sparse DNN training must tackle constraints that do not arise in inference accelerators. As proof of concept, we adapt a sparse training algorithm to be amenable to hardware acceleration; we then develop dataflow, data layout, and load-balancing techniques to accelerate it. The resulting system is a sparse DNN training accelerator that produces pruned models with the same accuracy as dense models without first training, then pruning, and finally retraining, a dense model. Compared to training the equivalent unpruned models using a state-of-the-art DNN accelerator without sparse training support, Procrustes consumes up to 3.26$\times$ less energy and offers up to 4$\times$ speedup across a range of models, while pruning weights by an order of magnitude and maintaining unpruned accuracy.
翻訳日:2022-10-15 15:28:19 公開日:2020-09-23
# 最適化アルゴリズムOn-The-Flyの最適収束パラメータ

Parameters for the best convergence of an optimization algorithm On-The-Fly ( http://arxiv.org/abs/2009.11390v1 )

ライセンス: Link先を確認
Valdimir Pieter(参考訳) 私が本当に興味を引いたのは、目的式に大きな違いがなかったとしても、特定のパラメータがアルゴリズムの収束の実行と最適化にいかにうまくいったかでした。 したがって、研究の質問は「このパラメータは、オンザフライ法を用いて目的公式の最も最適な収束解を提供するのだろうか?」と述べた。 この研究は、5つの異なるアルゴリズムを異なる目的関数でテストし、どのパラメータが最適収束に適するかを確かめる実験によって行われた。 正しいパラメータを見つけるために'オン・ザ・フライ'と呼ばれる方法が適用された。 私は5つの最適化アルゴリズムで実験を行います。 テストの結果、どの最適化アルゴリズムを選択するかによって、各パラメータが主観関数に対して収束精度を増加または減少させることが示された。 各パラメータは主観関数に対する収束精度を増大または減少させる。 進化的アルゴリズムを組換え技術のみに適用した結果の1つは、最適な最適化を見つけるのに有効であった。 同様に、いくつかの結果は、突然変異またはいくつかのパラメータを1つのテスト性能に組み合わせることで、精度を向上する。 結論として、各アルゴリズムは、それぞれ異なる収束するパラメータの集合を持つ。 また、使用する対象の式にも依存する。 これは、フライメソッドが最適なパラメータを見つけるのに適したアプローチであることを確認する。 これは、学習コストが時間とともに減少する限り、適切なパラメータを見つけるためのプロセスの操作と効果の観察を意味する。

What really sparked my interest was how certain parameters worked better at executing and optimization algorithm convergence even though the objective formula had no significant differences. Thus the research question stated: 'Which parameters provides an upmost optimal convergence solution of an Objective formula using the on-the-fly method?' This research was done in an experimental concept in which five different algorithms were tested with different objective functions to discover which parameter would result well for the best convergence. To find the correct parameter a method called 'on-the-fly' was applied. I run the experiments with five different optimization algorithms. One of the test runs showed that each parameter has an increasing or decreasing convergence accuracy towards the subjective function depending on which specific optimization algorithm you choose. Each parameter has an increasing or decreasing convergence accuracy toward the subjective function. One of the results in which evolutionary algorithm was applied with only the recombination technique did well at finding the best optimization. As well that some results have an increasing accuracy visualization by combing mutation or several parameters in one test performance. In conclusion, each algorithm has its own set of the parameter that converge differently. Also depending on the target formula that is used. This confirms that the fly method a suitable approach at finding the best parameter. This means manipulations and observe the effects in process to find the right parameter works as long as the learning cost rate decreases over time.
翻訳日:2022-10-15 15:27:49 公開日:2020-09-23
# ゼロと少ないショット転送のための最悪のケースアウェアカリキュラム学習

Worst-Case-Aware Curriculum Learning for Zero and Few Shot Transfer ( http://arxiv.org/abs/2009.11138v1 )

ライセンス: Link先を確認
Sheng Zhang, Xin Zhang, Weiming Zhang, Anders S{\o}gaard(参考訳) 事前学習された言語エンコーダに基づくマルチタスク転送学習は、さまざまなタスクで最先端のパフォーマンスを実現する。 標準的なアプローチでは、トレーニングデータを持つタスクは、私たちが関心を持っているタスクを同じように表していると暗黙的に仮定しています。 本稿では,タスク間での最悪のケース認識損失を最小化するために,カリキュラムの自動学習を用いるマルチタスクトランスファー学習に対する,より無知なアプローチを提案する。 これらの損失は、オフショアタスクのパフォーマンス向上につながるだけでなく、ゼロショットや少数ショットの転送設定のパフォーマンス向上につながる。

Multi-task transfer learning based on pre-trained language encoders achieves state-of-the-art performance across a range of tasks. Standard approaches implicitly assume the tasks, for which we have training data, are equally representative of the tasks we are interested in, an assumption which is often hard to justify. This paper presents a more agnostic approach to multi-task transfer learning, which uses automated curriculum learning to minimize a new family of worst-case-aware losses across tasks. Not only do these losses lead to better performance on outlier tasks; they also lead to better performance in zero-shot and few-shot transfer settings.
翻訳日:2022-10-15 15:27:30 公開日:2020-09-23
# 文埋め込みの構造的・意味的性質の比較研究

A Comparative Study on Structural and Semantic Properties of Sentence Embeddings ( http://arxiv.org/abs/2009.11226v1 )

ライセンス: Link先を確認
Alexander Kalinowski and Yuan An(参考訳) 文埋め込みは自然言語文を低次元密度ベクトルとして符号化する。 いくつかの重要な自然言語処理タスクを改善するために、文埋め込みの利用に多くの努力が払われている。 関係抽出は、非構造化テキストから知識ベースで定義された構造的関係を特定することを目的としたNLPタスクである。 有望でより効率的なアプローチは、テキストと構造化された知識の両方を低次元空間に埋め込んで、セマンティックアライメントやマッピングを発見することである。 文と知識グラフの両方を埋め込むための文献では、多くの技術が提案されているが、これらの埋め込み空間の構造的および意味的性質について、関係抽出の観点からはほとんど分かっていない。 本稿では,類似した感覚を持つ文が近距離部分空間に埋め込まれている程度を評価し,その構造を利用して文を知識グラフに整列させる方法について検討する。 本稿では,関係抽出に広く利用されている大規模データセットを用いて,キー文の埋め込み手法の集合に着目して実験を行う。 さらに、これらの実験を再現するためのコードもhttps://github.com/akalino/semantic-structural-sentencesで提供しています。 これらの埋め込み手法は、単純な単語埋め込みの組み合わせから変換器ベースのBERTスタイルのモデルまで幅広いテクニックをカバーしている。 実験の結果,異なる埋め込み空間は構造的および意味的性質に対して異なる強度を持つことがわかった。 これらの結果は組込みに基づく関係抽出手法の開発に有用である。

Sentence embeddings encode natural language sentences as low-dimensional dense vectors. A great deal of effort has been put into using sentence embeddings to improve several important natural language processing tasks. Relation extraction is such an NLP task that aims at identifying structured relations defined in a knowledge base from unstructured text. A promising and more efficient approach would be to embed both the text and structured knowledge in low-dimensional spaces and discover semantic alignments or mappings between them. Although a number of techniques have been proposed in the literature for embedding both sentences and knowledge graphs, little is known about the structural and semantic properties of these embedding spaces in terms of relation extraction. In this paper, we investigate the aforementioned properties by evaluating the extent to which sentences carrying similar senses are embedded in close proximity sub-spaces, and if we can exploit that structure to align sentences to a knowledge graph. We propose a set of experiments using a widely-used large-scale data set for relation extraction and focusing on a set of key sentence embedding methods. We additionally provide the code for reproducing these experiments at https://github.com/akalino/semantic-structural-sentences. These embedding methods cover a wide variety of techniques ranging from simple word embedding combination to transformer-based BERT-style model. Our experimental results show that different embedding spaces have different degrees of strength for the structural and semantic properties. These results provide useful information for developing embedding-based relation extraction methods.
翻訳日:2022-10-15 15:27:20 公開日:2020-09-23
# 相対的ポーズ回帰を用いたカメラ再局在評価の考察

Insights on Evaluation of Camera Re-localization Using Relative Pose Regression ( http://arxiv.org/abs/2009.11342v1 )

ライセンス: Link先を確認
Amir Shalev (1,2), Omer Achrack (2), Brian Fulkerson, and Ben-Zion Bobrovsky (1) ((1) Tel-Aviv-University, (2) Intel)(参考訳) 視覚再局在化における相対的ポーズ回帰の問題を考える。 近年,この分野では有望なアプローチがいくつか登場している。 私たちは、同じデータセットで同じスプリットを使用してトレーニングとテストを行っているが、それら間の忠実な比較は、現在使われている評価基準では利用できないと主張している。 回帰部分空間の精度と3次元体積のトレードオフを明らかにする。 他の再局在化手法とは異なり、相対的なポーズ回帰の場合、回帰した部分空間の3次元体積はシーンに依存せず、オーバーラップをスコアする手法によってより影響を受け、サンプリングされた視点がどの程度近いかが決定される。 上記の問題を治療するための3つの新しい指標を提案する。 提案手法は回帰部分空間体積に関する統計量を含む。 また,このタスクの新たなベースラインとして機能する新しいポーズ回帰ネットワークを提案する。 Microsoft 7-ScenesとCambridge Landmarksのトレーニングモデルのパフォーマンスを、標準メトリクスと新たに提案されたメトリクスの両方と比較し、オーバーラップスコアを調整することで、サブスペースとパフォーマンスのトレードオフを明らかにする。 その結果,提案手法は従来の手法よりも重なり合いの閾値が強いことがわかった。 最後に,ネットワークの一般化,特に1つのシーンでのトレーニングは,他のシーンのパフォーマンスを損なうことがほとんどないことを示す。

We consider the problem of relative pose regression in visual relocalization. Recently, several promising approaches have emerged in this area. We claim that even though they demonstrate on the same datasets using the same split to train and test, a faithful comparison between them was not available since on currently used evaluation metric, some approaches might perform favorably, while in reality performing worse. We reveal a tradeoff between accuracy and the 3D volume of the regressed subspace. We believe that unlike other relocalization approaches, in the case of relative pose regression, the regressed subspace 3D volume is less dependent on the scene and more affect by the method used to score the overlap, which determined how closely sampled viewpoints are. We propose three new metrics to remedy the issue mentioned above. The proposed metrics incorporate statistics about the regression subspace volume. We also propose a new pose regression network that serves as a new baseline for this task. We compare the performance of our trained model on Microsoft 7-Scenes and Cambridge Landmarks datasets both with the standard metrics and the newly proposed metrics and adjust the overlap score to reveal the tradeoff between the subspace and performance. The results show that the proposed metrics are more robust to different overlap threshold than the conventional approaches. Finally, we show that our network generalizes well, specifically, training on a single scene leads to little loss of performance on the other scenes.
翻訳日:2022-10-15 15:26:20 公開日:2020-09-23
# Few-Shot分類のためのフェアメタラーニング

Fair Meta-Learning For Few-Shot Classification ( http://arxiv.org/abs/2009.13516v1 )

ライセンス: Link先を確認
Chen Zhao, Changbin Li, Jincheng Li, Feng Chen(参考訳) 人工知能は、かつて人間が行った決定が自動化されたシステムに委譲されて以来、私たちの生活においてますます顕著な役割を担っています。 しかし、バイアスデータに基づいてトレーニングされた機械学習アルゴリズムは、不公平な予測を行う傾向がある。 データの保護された属性に対して公平な分類アルゴリズムを開発することは重要な問題となる。 モデル非依存型メタラーニングフレームワークなど,共有の公平性効果と少数ショット機械学習ツールに関する懸念に動機づけられ,保護された変数と特徴ベクトルから決定境界までの符号付き距離との間の決定境界共分散を制御し,メタトレーニング中のバイアスを効果的に軽減する,公平に適応した少数ショットメタラーニング手法を提案する。 3つの最先端メタ学習アルゴリズムに対する2つの実世界の画像ベンチマークに関する広範な実験を通じて、提案手法がモデル出力に対するバイアスを効果的に軽減し、訓練サンプルの少ない未確認タスクに精度と公平性の両方を一般化することを実証的に実証した。

Artificial intelligence nowadays plays an increasingly prominent role in our life since decisions that were once made by humans are now delegated to automated systems. A machine learning algorithm trained based on biased data, however, tends to make unfair predictions. Developing classification algorithms that are fair with respect to protected attributes of the data thus becomes an important problem. Motivated by concerns surrounding the fairness effects of sharing and few-shot machine learning tools, such as the Model Agnostic Meta-Learning framework, we propose a novel fair fast-adapted few-shot meta-learning approach that efficiently mitigates biases during meta-train by ensuring controlling the decision boundary covariance that between the protected variable and the signed distance from the feature vectors to the decision boundary. Through extensive experiments on two real-world image benchmarks over three state-of-the-art meta-learning algorithms, we empirically demonstrate that our proposed approach efficiently mitigates biases on model output and generalizes both accuracy and fairness to unseen tasks with a limited amount of training samples.
翻訳日:2022-10-15 15:25:54 公開日:2020-09-23
# 人工的ナラティブ理解を用いた時空間仮説の定量化(I) : 特徴景観としてのエピソード的ナラティブからのブートストラップ

Testing the Quantitative Spacetime Hypothesis using Artificial Narrative Comprehension (I) : Bootstrapping Meaning from Episodic Narrative viewed as a Feature Landscape ( http://arxiv.org/abs/2010.08126v1 )

ライセンス: Link先を確認
Mark Burgess(参考訳) 先行訓練なしに感覚データストリームの重要かつ有意義な部分を抽出する問題は,テキスト・ナラティブをテストケースとして用いて,記号列に対して検討される。 これは、時空過程からの概念の抽出と、ハイブリッドシンボリックラーニング「人工知」における知識表現に関するより大きな研究の一部である。 テキスト分析のほとんどのアプローチは、進化した言語と意味論の人間の感覚を広範囲に活用している。 この作業では、ストリームはセマンティクスの知識なしに解析され、シンボルの変化するストリームの中で測定可能なパターン(サイズと時間)のみをイベント‘ランドスケープ’として使用します。 これは干渉法の一種である。 1つのcpu上でほんの数秒で実行できる軽量な手順を用いて、プロセス不変量として概念を抽出するための意味的時空仮説の有効性について研究する。 この 'semantic preprocessor' は、より高度なグラフベースの学習技術のフロントエンドとして機能する。 以上の結果から,感覚経験に関して重要かつ興味深いと考えることは,高い推論に基づくだけでなく,単純な時空過程の手がかりにもとづくものであることが示唆される。

The problem of extracting important and meaningful parts of a sensory data stream, without prior training, is studied for symbolic sequences, by using textual narrative as a test case. This is part of a larger study concerning the extraction of concepts from spacetime processes, and their knowledge representations within hybrid symbolic-learning `Artificial Intelligence'. Most approaches to text analysis make extensive use of the evolved human sense of language and semantics. In this work, streams are parsed without knowledge of semantics, using only measurable patterns (size and time) within the changing stream of symbols -- as an event `landscape'. This is a form of interferometry. Using lightweight procedures that can be run in just a few seconds on a single CPU, this work studies the validity of the Semantic Spacetime Hypothesis, for the extraction of concepts as process invariants. This `semantic preprocessor' may then act as a front-end for more sophisticated long-term graph-based learning techniques. The results suggest that what we consider important and interesting about sensory experience is not solely based on higher reasoning, but on simple spacetime process cues, and this may be how cognitive processing is bootstrapped in the beginning.
翻訳日:2022-10-15 15:25:31 公開日:2020-09-23
# 政策最適化における設計選択の再検討

Revisiting Design Choices in Proximal Policy Optimization ( http://arxiv.org/abs/2009.10897v1 )

ライセンス: Link先を確認
Chloe Ching-Yun Hsu, Celestine Mendler-D\"unner, Moritz Hardt(参考訳) Proximal Policy Optimization (PPO) は、一般的なディープポリシー勾配アルゴリズムである。 標準的な実装では、ppoはポリシー更新をクリップ化された確率比で規則化し、連続ガウス分布または離散ソフトマックス分布でポリシーをパラメータ化する。 これらの設計選択は広く受け入れられており、MuJoCoとAtariベンチマークの実証的な性能比較によって動機付けられている。 我々はこれらのプラクティスを現在のベンチマークの体制外に再検討し、標準PPOの3つの障害モードを公開する。 このような場合、標準設計選択が問題となる理由を説明し、目的を代理する代替選択や政策パラメータ化が障害モードを防止できることを示す。 私たちは、強化学習における多くのアルゴリズム設計選択が、特定のシミュレーション環境に結びついていることを思い出させてくれることを願っています。 より一般的なアルゴリズムの標準部分としてこれらの選択を暗黙的に受け入れるべきではない。

Proximal Policy Optimization (PPO) is a popular deep policy gradient algorithm. In standard implementations, PPO regularizes policy updates with clipped probability ratios, and parameterizes policies with either continuous Gaussian distributions or discrete Softmax distributions. These design choices are widely accepted, and motivated by empirical performance comparisons on MuJoCo and Atari benchmarks. We revisit these practices outside the regime of current benchmarks, and expose three failure modes of standard PPO. We explain why standard design choices are problematic in these cases, and show that alternative choices of surrogate objectives and policy parameterizations can prevent the failure modes. We hope that our work serves as a reminder that many algorithmic design choices in reinforcement learning are tied to specific simulation environments. We should not implicitly accept these choices as a standard part of a more general algorithm.
翻訳日:2022-10-15 15:25:03 公開日:2020-09-23
# セマンティクス保存型対向訓練

Semantics-Preserving Adversarial Training ( http://arxiv.org/abs/2009.10978v1 )

ライセンス: Link先を確認
Wonseok Lee, Hanbit Lee, Sang-goo Lee(参考訳) 敵のトレーニングは、訓練データに敵の例を含めることで、ディープニューラルネットワーク(DNN)の敵の堅牢性を改善する防衛技術である。 本稿では,これらの例が元のデータとは異なる意味を持つことが多く,意図しないバイアスをモデルに導入するという,敵対的トレーニングの見過ごされた問題を明らかにする。 我々は、そのような非セマンティック保存(そして結果として曖昧な)敵データがターゲットモデルの堅牢性を損なうと仮定する。 そこで本稿では, 対人例の意図せぬ意味変化を軽減するために, 対人例を生成する際に, 全クラス間で共有される画素の摂動を促す意味保存対人訓練(SPAT)を提案する。 実験の結果,SPATは対向ロバスト性を向上し,CIFAR-10およびCIFAR-100の最先端結果を達成することがわかった。

Adversarial training is a defense technique that improves adversarial robustness of a deep neural network (DNN) by including adversarial examples in the training data. In this paper, we identify an overlooked problem of adversarial training in that these adversarial examples often have different semantics than the original data, introducing unintended biases into the model. We hypothesize that such non-semantics-preserving (and resultingly ambiguous) adversarial data harm the robustness of the target models. To mitigate such unintended semantic changes of adversarial examples, we propose semantics-preserving adversarial training (SPAT) which encourages perturbation on the pixels that are shared among all classes when generating adversarial examples in the training stage. Experiment results show that SPAT improves adversarial robustness and achieves state-of-the-art results in CIFAR-10 and CIFAR-100.
翻訳日:2022-10-15 15:18:38 公開日:2020-09-23
# 衛星画像による持続可能な発展の理解と促進

Using satellite imagery to understand and promote sustainable development ( http://arxiv.org/abs/2010.06988v1 )

ライセンス: Link先を確認
Marshall Burke, Anne Driscoll, David B. Lobell, Stefano Ermon(参考訳) 持続可能な開発成果の正確かつ包括的な測定は、研究と政策の両方に基本的なインプットである。 我々は,これらの結果を理解するために衛星画像を用いる文献を合成し,画像と機械学習を組み合わせたアプローチに焦点をあてる。 本研究では,重要な人間関係の結果と衛星画像の量の増大と分解能(空間,時間,スペクトル)を定量化する。 次に, モデル構築における最近の機械学習手法について, 希少な学習データとノイズ学習データを用いて検討し, このノイズがモデル予測性能の誤評価につながることを強調する。 複数の持続可能な開発領域にわたる最近のモデル性能の定量化、研究と政策の応用の議論、今後の進歩への制約の探求、この分野の重要研究方向性の強調を行う。

Accurate and comprehensive measurements of a range of sustainable development outcomes are fundamental inputs into both research and policy. We synthesize the growing literature that uses satellite imagery to understand these outcomes, with a focus on approaches that combine imagery with machine learning. We quantify the paucity of ground data on key human-related outcomes and the growing abundance and resolution (spatial, temporal, and spectral) of satellite imagery. We then review recent machine learning approaches to model-building in the context of scarce and noisy training data, highlighting how this noise often leads to incorrect assessment of models' predictive performance. We quantify recent model performance across multiple sustainable development domains, discuss research and policy applications, explore constraints to future progress, and highlight key research directions for the field.
翻訳日:2022-10-15 15:18:10 公開日:2020-09-23
# 柔軟な組込み学習フレームワークを目指して

Towards a Flexible Embedding Learning Framework ( http://arxiv.org/abs/2009.10989v1 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Dhruv Gelda, Zhongfang Zhuang, Yan Zheng, Liang Gou, Wei Zhang(参考訳) 表現学習は、データベース内のエンティティを分析するための基本的な構成要素である。 既存の組込み学習法は様々なデータマイニング問題に有効であるが、これらの手法は学習した組込みによってキャプチャされた意味論のタイプに事前決定された仮定を持つため、その適用性は制限されることが多い。 本研究では,組込み学習フレームワークを提案する。 1)入力データ型に依存しない入力フォーマットを使用する。 2)学習表現に組み込むことのできる関係の観点では柔軟であり、 3) ドメイン知識を埋め込み学習プロセスに組み込む直感的な経路を提供する。 提案するフレームワークは,エンティティ・リレーショナル・マトリクスを入力として利用し,データベース内の異なるエンティティ間の親和性を定量化する。 さらに、サンプリング機構を慎重に設計し、入力と出力埋め込みによってキャプチャされた情報との直接接続を確立する。 表現学習ツールボックスを完成させるために,学習した埋め込みを適切に視覚化する,単純かつ効果的な後処理手法も概説する。 実験の結果,提案するフレームワークは,関連エンティティ・リレーショナル・マトリクスのセットと合わせて,様々なデータマイニングタスクにおける既存の最先端アプローチよりも優れていることが示された。

Representation learning is a fundamental building block for analyzing entities in a database. While the existing embedding learning methods are effective in various data mining problems, their applicability is often limited because these methods have pre-determined assumptions on the type of semantics captured by the learned embeddings, and the assumptions may not well align with specific downstream tasks. In this work, we propose an embedding learning framework that 1) uses an input format that is agnostic to input data type, 2) is flexible in terms of the relationships that can be embedded into the learned representations, and 3) provides an intuitive pathway to incorporate domain knowledge into the embedding learning process. Our proposed framework utilizes a set of entity-relation-matrices as the input, which quantifies the affinities among different entities in the database. Moreover, a sampling mechanism is carefully designed to establish a direct connection between the input and the information captured by the output embeddings. To complete the representation learning toolbox, we also outline a simple yet effective post-processing technique to properly visualize the learned embeddings. Our empirical results demonstrate that the proposed framework, in conjunction with a set of relevant entity-relation-matrices, outperforms the existing state-of-the-art approaches in various data mining tasks.
翻訳日:2022-10-15 15:17:56 公開日:2020-09-23
# 制約付きエピソード有限-水平MDPのサンプル効率アルゴリズム

A Sample-Efficient Algorithm for Episodic Finite-Horizon MDP with Constraints ( http://arxiv.org/abs/2009.11348v1 )

ライセンス: Link先を確認
Krishna C. Kalagarla, Rahul Jain, Pierluigi Nuzzo(参考訳) 制約付きマルコフ決定プロセス(CMDP)は、様々なコスト関数の制約を満たすとともに、コスト関数を最小化することを目的としたシーケンシャルな意思決定問題を定式化する。 本稿では,エピソディック固定ホリゾンcmdpの設定について考察する。 本稿では, 有限水平CMDPの線形計画法を利用して, ほぼ正しい(PAC)保証を提供するオンラインアルゴリズムを提案する。これは, $\epsilon$-Optimal Policy, すなわち, $\epsilon$-Optimal Policy, すなわち, $\epsilon$-tolerance内の制約を満たすために, $\epsilon$-tolerance内の目的値と少なくとも1-\delta$の制約を満たす。 必要なエピソードの数は、$\tilde{\mathcal{o}}\big(\frac{|s||a|c^{2}h^{2}}{\epsilon^{2}}\log\frac{1}{\delta}\big)$という順序で示される。 したがって、もし$c \ll |s|$ であれば、必要なエピソードの数は、状態とアクション空間のサイズそれぞれ$|s|$ と $|a|$ に線形依存し、時間軸 $h$ の二次依存を持つ。

Constrained Markov Decision Processes (CMDPs) formalize sequential decision-making problems whose objective is to minimize a cost function while satisfying constraints on various cost functions. In this paper, we consider the setting of episodic fixed-horizon CMDPs. We propose an online algorithm which leverages the linear programming formulation of finite-horizon CMDP for repeated optimistic planning to provide a probably approximately correct (PAC) guarantee on the number of episodes needed to ensure an $\epsilon$-optimal policy, i.e., with resulting objective value within $\epsilon$ of the optimal value and satisfying the constraints within $\epsilon$-tolerance, with probability at least $1-\delta$. The number of episodes needed is shown to be of the order $\tilde{\mathcal{O}}\big(\frac{|S||A|C^{2}H^{2}}{\epsilon^{2}}\log\frac{1}{\delta}\big)$, where $C$ is the upper bound on the number of possible successor states for a state-action pair. Therefore, if $C \ll |S|$, the number of episodes needed have a linear dependence on the state and action space sizes $|S|$ and $|A|$, respectively, and quadratic dependence on the time horizon $H$.
翻訳日:2022-10-15 15:17:36 公開日:2020-09-23
# ニューラルアクティベーション感度の確率正則化による対向的ロバスト性

Adversarial robustness via stochastic regularization of neural activation sensitivity ( http://arxiv.org/abs/2009.11349v1 )

ライセンス: Link先を確認
Gil Fidel, Ron Bitton, Ziv Katzir, Asaf Shabtai(参考訳) 近年の研究では、任意の機械学習分類器の入力領域は、逆例を含むことが示されている。 したがって、敵の例に対して分類器を免疫することはもはや望めず、代わりに次の2つの防衛目標を達成することしかできない。 1) 敵例の発見を困難にする、又は 2) 正しく分類されたデータポイントからさらに遠ざけることにより, 敵意を弱める。 これらの2つの目標のうちの1つに先立って提案された防御機構がすべて参加していない場合、防御機構を考慮に入れた適応攻撃によって回避される可能性がある。 損失面の勾配を平らにし、敵の例を見つけるのを困難にし、個々のニューロンの小さな入力摂動に対する感度を明示的に低下させる新しい確率正規化項を用いて、新しい防御機構を提案する。 さらに,ジャコビアン正則化を利用して,決定境界を正しく分類された入力から遠ざけていく。 我々は,提案手法の確立した理論的根拠と実証実験を行い,従来提案されていた防御機構よりも優れていることを示し,幅広い適応攻撃に対して有効であることを示す。

Recent works have shown that the input domain of any machine learning classifier is bound to contain adversarial examples. Thus we can no longer hope to immune classifiers against adversarial examples and instead can only aim to achieve the following two defense goals: 1) making adversarial examples harder to find, or 2) weakening their adversarial nature by pushing them further away from correctly classified data points. Most if not all the previously suggested defense mechanisms attend to just one of those two goals, and as such, could be bypassed by adaptive attacks that take the defense mechanism into consideration. In this work we suggest a novel defense mechanism that simultaneously addresses both defense goals: We flatten the gradients of the loss surface, making adversarial examples harder to find, using a novel stochastic regularization term that explicitly decreases the sensitivity of individual neurons to small input perturbations. In addition, we push the decision boundary away from correctly classified inputs by leveraging Jacobian regularization. We present a solid theoretical basis and an empirical testing of our suggested approach, demonstrate its superiority over previously suggested defense mechanisms, and show that it is effective against a wide range of adaptive attacks.
翻訳日:2022-10-15 15:17:05 公開日:2020-09-23
# x-lxmert:マルチモーダルトランスフォーマーによるペイント、キャプション、質問に答える

X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers ( http://arxiv.org/abs/2009.11278v1 )

ライセンス: Link先を確認
Jaemin Cho, Jiasen Lu, Dustin Schwenk, Hannaneh Hajishirzi, Aniruddha Kembhavi(参考訳) マスク付き言語モデルの成功を反映して、ViLBERT、LXMERT、UNITERといったヴィジュアル・アンド・ランゲージは、視覚的質問応答や視覚的接地など、さまざまなマルチモーダルな差別的タスクにおいて、アートパフォーマンスの状態を達成している。 近年の研究では、このようなモデルを画像キャプションの生成的タスクにうまく適用している。 これらのモデルは逆の方向に進み、テキストから画像を生成することができるのだろうか? このモデルファミリLXMERTの一般的な代表者について分析したところ、現在のトレーニング設定でリッチで意味のあるイメージを生成できないことがわかった。 X-LXMERTは、視覚表現の識別、マスキングの幅の広い均一マスクの使用、適切な事前学習データセットの適切な目的への整合化など、訓練の洗練を図ったLXMERTの拡張である。 x-lxmertのイメージ生成能力はアート生成モデルに匹敵するが、質問応答能力やキャプション能力はlxmertに匹敵する。 最後に,画像生成機能をuniterに追加してx-uniterを生成することで,これらのトレーニング改良の汎用性を示す。

Mirroring the success of masked language models, vision-and-language counterparts like ViLBERT, LXMERT and UNITER have achieved state of the art performance on a variety of multimodal discriminative tasks like visual question answering and visual grounding. Recent work has also successfully adapted such models towards the generative task of image captioning. This begs the question: Can these models go the other way and generate images from pieces of text? Our analysis of a popular representative from this model family - LXMERT - finds that it is unable to generate rich and semantically meaningful imagery with its current training setup. We introduce X-LXMERT, an extension to LXMERT with training refinements including: discretizing visual representations, using uniform masking with a large range of masking ratios and aligning the right pre-training datasets to the right objectives which enables it to paint. X-LXMERT's image generation capabilities rival state of the art generative models while its question answering and captioning abilities remains comparable to LXMERT. Finally, we demonstrate the generality of these training refinements by adding image generation capabilities into UNITER to produce X-UNITER.
翻訳日:2022-10-15 15:10:31 公開日:2020-09-23
# バッチブリッジアウトを用いたプルーニング畳み込みフィルタ

Pruning Convolutional Filters using Batch Bridgeout ( http://arxiv.org/abs/2009.10893v1 )

ライセンス: Link先を確認
Najeeb Khan and Ian Stavness(参考訳) 最先端のコンピュータビジョンモデルは、トレーニングセットに適合させるのに必要なパラメータ数がはるかに多いため、キャパシティが急速に増加している。 これにより最適化と一般化性能が向上する。 しかし、現代のモデルの大きなサイズは、大きな推論コストをもたらし、リソース制限されたデバイスでの使用を制限する。 推論コストを削減するために、トレーニングされたニューラルネットワークの畳み込みフィルタを切断することで、推論中の実行時のメモリと計算要求を削減できる。 しかし, トレーニング後のプルーニングが重くなると, トレーニングアルゴリズムが重みベクトルを生成すると性能が低下する。 本稿では,確率正規化手法であるBatch Bridgeoutを用いてニューラルネットワークを学習し,性能の低下を最小限に抑えながら効率的に刈り取ることができることを示す。 CIFAR画像分類タスクにおいて,一般的なコンピュータビジョンモデルであるVGGNet,ResNet,Wide-ResNetに対して提案手法を評価する。 すべてのネットワークにおいて, 実験結果から, バッチブリッジアウト訓練したネットワークは, ドロップアウトや重量減少の正規化と比較して, 広範囲なプルーニング強度で高い精度が得られることがわかった。

State-of-the-art computer vision models are rapidly increasing in capacity, where the number of parameters far exceeds the number required to fit the training set. This results in better optimization and generalization performance. However, the huge size of contemporary models results in large inference costs and limits their use on resource-limited devices. In order to reduce inference costs, convolutional filters in trained neural networks could be pruned to reduce the run-time memory and computational requirements during inference. However, severe post-training pruning results in degraded performance if the training algorithm results in dense weight vectors. We propose the use of Batch Bridgeout, a sparsity inducing stochastic regularization scheme, to train neural networks so that they could be pruned efficiently with minimal degradation in performance. We evaluate the proposed method on common computer vision models VGGNet, ResNet, and Wide-ResNet on the CIFAR image classification task. For all the networks, experimental results show that Batch Bridgeout trained networks achieve higher accuracy across a wide range of pruning intensities compared to Dropout and weight decay regularization.
翻訳日:2022-10-15 15:10:05 公開日:2020-09-23
# Fuzzy Simplicial Networks:Few-shot Learningにおけるタスク一般化改善のためのトポロジに基づくモデル

Fuzzy Simplicial Networks: A Topology-Inspired Model to Improve Task Generalization in Few-shot Learning ( http://arxiv.org/abs/2009.11253v1 )

ライセンス: Link先を確認
Henry Kvinge, Zachary New, Nico Courts, Jung H. Lee, Lauren A. Phillips, Courtney D. Corley, Aaron Tuor, Andrew Avila, Nathan O. Hodas(参考訳) ディープラーニングは、大量のデータを持つ設定で大きな成功を収めていますが、データ制限時に苦労しています。 この制限に対処しようとする数少ない学習アルゴリズムは、限られたデータで新しいタスクにうまく一般化するように設計されている。 通常、モデルは訓練されるのと同じ基本的なタスクによって定義される未確認のクラスやデータセットで評価される(例えば、カテゴリメンバーシップ)。 また、モデルが固定データセット内で根本的に異なるタスクにどのように一般化できるかを問うこともできる(例えば、カテゴリメンバシップから、オブジェクトの向きや量を検出するタスクに移行する)。 この種のシフトを形式化するために、我々は「タスクの独立性」の概念を定義し、データの直交属性を描くタスクに一般化するモデルの能力をテストする確立されたコンピュータビジョンデータセットのための3つの新しいラベルセットを識別する。 これらのデータセットを使用して、メトリックベースの少数ショットモデルの障害モードを調査します。 そこで本研究では,Fizzy Simplicial Networks (FSN) と呼ばれる,トポロジから構築したモデルを用いて,限られたデータから各クラスをより柔軟に表現する手法を提案する。 特に、fsnモデルは与えられたクラスに対する複数の表現を形成するだけでなく、ディープネットワークの符号化空間におけるクラス多様体を特徴づける低次元構造も捉えることができる。 本稿では,本論文で紹介する課題に対して,fsnが最先端モデルよりも優れていることを示す。

Deep learning has shown great success in settings with massive amounts of data but has struggled when data is limited. Few-shot learning algorithms, which seek to address this limitation, are designed to generalize well to new tasks with limited data. Typically, models are evaluated on unseen classes and datasets that are defined by the same fundamental task as they are trained for (e.g. category membership). One can also ask how well a model can generalize to fundamentally different tasks within a fixed dataset (for example: moving from category membership to tasks that involve detecting object orientation or quantity). To formalize this kind of shift we define a notion of "independence of tasks" and identify three new sets of labels for established computer vision datasets that test a model's ability to generalize to tasks which draw on orthogonal attributes in the data. We use these datasets to investigate the failure modes of metric-based few-shot models. Based on our findings, we introduce a new few-shot model called Fuzzy Simplicial Networks (FSN) which leverages a construction from topology to more flexibly represent each class from limited data. In particular, FSN models can not only form multiple representations for a given class but can also begin to capture the low-dimensional structure which characterizes class manifolds in the encoded space of deep networks. We show that FSN outperforms state-of-the-art models on the challenging tasks we introduce in this paper while remaining competitive on standard few-shot benchmarks.
翻訳日:2022-10-15 15:09:48 公開日:2020-09-23
# タスク、安定性、アーキテクチャ、計算:より効果的な学習オプティマイザをトレーニングし、それらを使って自分自身をトレーニングする

Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves ( http://arxiv.org/abs/2009.11243v1 )

ライセンス: Link先を確認
Luke Metz, Niru Maheswaranathan, C. Daniel Freeman, Ben Poole, Jascha Sohl-Dickstein(参考訳) 手作業で設計した機能を学習関数に置き換えるだけでなく、学習したアルゴリズムがモデルをトレーニングする方法を変えると信じています。 本研究では,汎用学習オプティマイザに着目し,ユーザ特定ハイパーパラメータを必要とせず,多種多様な問題を学習する。 自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、ニューラルネットワークのパラメータ化と階層最適化を導入した。 ほとんどの学習したオプティマイザは、単一のタスクまたは少数のタスクでトレーニングされています。 何千ものタスクで最適化器をトレーニングし、桁違いに計算量を増やし、その結果、見当たらないタスクをより一般化するオプティマイザを生み出します。 学習したオプティマイザは、うまく機能するだけでなく、既存のファーストオーダーオプティマイザとは異なる振る舞いを学ぶ。 例えば、暗黙の正規化を持つ更新ステップを生成し、問題ハイパーパラメータ(バッチサイズなど)やアーキテクチャ(ニューラルネットワークの幅など)が変化するように適応する。 最後に、これらの学習されたオプティマイザは、スクラッチからトレーニングするなど、分散タスクの欠如に有用であることを示す。

Much as replacing hand-designed features with learned functions has revolutionized how we solve perceptual tasks, we believe learned algorithms will transform how we train models. In this work we focus on general-purpose learned optimizers capable of training a wide variety of problems with no user-specified hyperparameters. We introduce a new, neural network parameterized, hierarchical optimizer with access to additional features such as validation loss to enable automatic regularization. Most learned optimizers have been trained on only a single task, or a small number of tasks. We train our optimizers on thousands of tasks, making use of orders of magnitude more compute, resulting in optimizers that generalize better to unseen tasks. The learned optimizers not only perform well, but learn behaviors that are distinct from existing first order optimizers. For instance, they generate update steps that have implicit regularization and adapt as the problem hyperparameters (e.g. batch size) or architecture (e.g. neural network width) change. Finally, these learned optimizers show evidence of being useful for out of distribution tasks such as training themselves from scratch.
翻訳日:2022-10-15 15:09:22 公開日:2020-09-23
# 新規検出によるテキスト分類

Text Classification with Novelty Detection ( http://arxiv.org/abs/2009.11119v1 )

ライセンス: Link先を確認
Qi Qin, Wenpeng Hu, Bing Liu(参考訳) 本稿では,テキスト分類における新規または予期せぬインスタンス検出の問題点について検討する。 従来のテキスト分類では、テストで現れるクラスはトレーニングで見られるはずである。 しかし、多くのアプリケーションでは、これはそうではない。テストでは、トレーニングクラスのいずれかの出身でない予期せぬインスタンスが見られます。 本稿では,元の問題をペアワイズ整合問題に変換し,同じクラスに属する可能性のある2つのインスタンスを出力する,より効果的な手法を提案する。 このアプローチでは,2つのモデルを示す。 より効果的なモデルは、一対のインスタンスの2つの埋め込み行列をcnnの2つのチャネルとして使用する。 このようなペアからのアウトプット確率は、テストインスタンスが参照されたクラスか、新規/予期せぬかの判断に使用される。 実験結果から,提案手法は最先端のベースラインを大幅に上回ることがわかった。

This paper studies the problem of detecting novel or unexpected instances in text classification. In traditional text classification, the classes appeared in testing must have been seen in training. However, in many applications, this is not the case because in testing, we may see unexpected instances that are not from any of the training classes. In this paper, we propose a significantly more effective approach that converts the original problem to a pair-wise matching problem and then outputs how probable two instances belong to the same class. Under this approach, we present two models. The more effective model uses two embedding matrices of a pair of instances as two channels of a CNN. The output probabilities from such pairs are used to judge whether a test instance is from a seen class or is novel/unexpected. Experimental results show that the proposed method substantially outperforms the state-of-the-art baselines.
翻訳日:2022-10-15 15:08:59 公開日:2020-09-23
# スパース高次元データセットのオンラインAUC最適化

Online AUC Optimization for Sparse High-Dimensional Datasets ( http://arxiv.org/abs/2009.10867v1 )

ライセンス: Link先を確認
Baojian Zhou, Yiming Ying, Steven Skiena(参考訳) ROC曲線下の領域(AUC)は、高次元スパースデータが豊富に存在する多くのアプリケーションドメインから生じる不均衡な分類のための広く使われている性能指標である。 そのような場合、各$d$ 次元のサンプルは、$k \ll d$ で 0 でない機能しか持たず、データはストリーミング形式で順次到着する。 現在のオンラインAUC最適化アルゴリズムは、高コストの$\mathcal{O}(d)$で、一般に非スパース解を生成するため、上記のデータチャレンジを扱うには適していない。 本稿では,オンライン学習環境下での高次元スパースデータセットのAUCスコアを直接最適化し,新しいアルゴリズムである「textsc{FTRL-AUC}」を提案する。 提案手法は,より安価な1文あたり$\mathcal{o}(k)$でオンライン形式でデータを処理でき,高次元のスパースストリーミングデータ解析に適している。 我々の新しいアルゴリズム設計は、経験的サドル点再構成としてのU-統計 AUC の目的関数の新たな再構成と、「遅延更新」規則の革新的導入に大きく依存し、各項目の複雑性が$\mathcal{O}(d)$から$\mathcal{O}(k)$に劇的に減少する。 さらに、一般化されたFollow-The-Regularized-Leader (FTRL) フレームワークを適用することで、より効果的に空間をキャプチャできる。 実世界のデータセットの実験では、‘textsc{FTRL-AUC} は実行時間とモデル間隔の両方を著しく改善し、最先端の手法と比較して競合的なAUCスコアを達成する。 対ロジスティック損失のオンライン学習法との比較により,データセットが不均衡な場合, \textsc{FTRL-AUC} がより高い AUC スコアを達成することが示された。

The Area Under the ROC Curve (AUC) is a widely used performance measure for imbalanced classification arising from many application domains where high-dimensional sparse data is abundant. In such cases, each $d$ dimensional sample has only $k$ non-zero features with $k \ll d$, and data arrives sequentially in a streaming form. Current online AUC optimization algorithms have high per-iteration cost $\mathcal{O}(d)$ and usually produce non-sparse solutions in general, and hence are not suitable for handling the data challenge mentioned above. In this paper, we aim to directly optimize the AUC score for high-dimensional sparse datasets under online learning setting and propose a new algorithm, \textsc{FTRL-AUC}. Our proposed algorithm can process data in an online fashion with a much cheaper per-iteration cost $\mathcal{O}(k)$, making it amenable for high-dimensional sparse streaming data analysis. Our new algorithmic design critically depends on a novel reformulation of the U-statistics AUC objective function as the empirical saddle point reformulation, and the innovative introduction of the "lazy update" rule so that the per-iteration complexity is dramatically reduced from $\mathcal{O}(d)$ to $\mathcal{O}(k)$. Furthermore, \textsc{FTRL-AUC} can inherently capture sparsity more effectively by applying a generalized Follow-The-Regularized-Leader (FTRL) framework. Experiments on real-world datasets demonstrate that \textsc{FTRL-AUC} significantly improves both run time and model sparsity while achieving competitive AUC scores compared with the state-of-the-art methods. Comparison with the online learning method for logistic loss demonstrates that \textsc{FTRL-AUC} achieves higher AUC scores especially when datasets are imbalanced.
翻訳日:2022-10-15 15:08:31 公開日:2020-09-23
# クラウドソースラベルを用いた限定教育データからの表現学習

Representation Learning from Limited Educational Data with Crowdsourced Labels ( http://arxiv.org/abs/2009.11222v1 )

ライセンス: Link先を確認
Wentao Wang, Guowei Xu, Wenbiao Ding, Gale Yan Huang, Guoliang Li, Jiliang Tang and Zitao Liu(参考訳) 表現学習は、機械翻訳、顔認識、レコメンデーションなど、多くのタスクにおける機械学習モデルの前例のない成功において重要な役割を果たすことが証明されている。 既存の表現学習アプローチの大半は、多くの一貫性とノイズフリーなラベルを必要とする。 しかし、予算の制約やプライバシーの懸念など様々な理由から、ラベルは多くの現実世界のシナリオで非常に制限されている。 小さなラベル付きデータセットに標準表現学習アプローチを直接適用すれば、過度に適合する問題に陥り、準最適解につながる。 さらに悪いことに、教育などのいくつかの領域では、制限付きラベルは通常、多様な専門知識を持つ複数の労働者によって注釈付けされ、このようなクラウドソーシングの設定においてノイズと矛盾をもたらす。 本稿では,クラウドソースラベルを用いた限られたデータから効果的な表現を学ぶことを目的とした新しいフレームワークを提案する。 具体的には,少数のトレーニングサンプルから埋め込みを学習するためのグループベースディープニューラルネットワークを設計し,クラウドソースラベル間の矛盾を捉えるベイズ信頼度推定器を提案する。 さらに,学習過程の迅速化を目的として,モデルが誤分類した学習例を適応的に選択するハードサンプル選択手法を開発した。 3つの実世界のデータセットで実施された大規模な実験は、クラウドソースラベルによる限られたデータからの表現の学習におけるフレームワークの優位性を示し、様々な最先端のベースラインと比較した。 さらに,提案フレームワークの各主要コンポーネントについて包括的な分析を行い,提案フレームワークを十分に理解するために実運用で達成した有望な結果についても紹介する。

Representation learning has been proven to play an important role in the unprecedented success of machine learning models in numerous tasks, such as machine translation, face recognition and recommendation. The majority of existing representation learning approaches often require a large number of consistent and noise-free labels. However, due to various reasons such as budget constraints and privacy concerns, labels are very limited in many real-world scenarios. Directly applying standard representation learning approaches on small labeled data sets will easily run into over-fitting problems and lead to sub-optimal solutions. Even worse, in some domains such as education, the limited labels are usually annotated by multiple workers with diverse expertise, which yields noises and inconsistency in such crowdsourcing settings. In this paper, we propose a novel framework which aims to learn effective representations from limited data with crowdsourced labels. Specifically, we design a grouping based deep neural network to learn embeddings from a limited number of training samples and present a Bayesian confidence estimator to capture the inconsistency among crowdsourced labels. Furthermore, to expedite the training process, we develop a hard example selection procedure to adaptively pick up training examples that are misclassified by the model. Extensive experiments conducted on three real-world data sets demonstrate the superiority of our framework on learning representations from limited data with crowdsourced labels, comparing with various state-of-the-art baselines. In addition, we provide a comprehensive analysis on each of the main components of our proposed framework and also introduce the promising results it achieved in our real production to fully understand the proposed framework.
翻訳日:2022-10-15 15:07:54 公開日:2020-09-23
# Hamming OCR: シーンテキスト認識のための局所感性ハッシュニューラルネットワーク

Hamming OCR: A Locality Sensitive Hashing Neural Network for Scene Text Recognition ( http://arxiv.org/abs/2009.10874v1 )

ライセンス: Link先を確認
Bingcong Li, Xin Tang, Xianbiao Qi, Yihao Chen, Rong Xiao(参考訳) 近年,トランスフォーマーに触発されて,自己注意に基づくシーンテキスト認識手法が注目されている。 しかし,レキシコンの増加に伴いモデルのサイズが急速に大きくなることがわかった。 具体的には,ソフトマックス分類層と出力埋め込み層のパラメータ数は語彙サイズに比例する。 これは、特に中国語や複数の言語に適用される軽量テキスト認識モデルの開発を妨げる。 そこで本稿では,hamming ocrと呼ばれる軽量テキスト認識モデルを提案する。 このモデルでは,各文字を符号化するために局所性感性ハッシュ(LSH)アルゴリズムを採用した新しいハミング分類器が提案され,出力埋め込みを置き換えるために生成したLSHコードが直接使用される。 また、フィードフォワードネットワークを除去し、クロスレイヤパラメータ共有技術を用いてパラメータ数を削減するための簡易化トランスデコーダを提案する。 従来の方法と比較して、分類層と埋め込み層の両方のパラメータ数は語彙のサイズに依存しており、精度を損なうことなくストレージ要件を大幅に削減している。 4つの公開ベンチマスクと2万文字以上のSynthTextによって合成された中国語のテキストデータセットを含む、いくつかのデータセットの実験結果から、ハミングOCRが競合する結果が得られることが示されている。

Recently, inspired by Transformer, self-attention-based scene text recognition approaches have achieved outstanding performance. However, we find that the size of model expands rapidly with the lexicon increasing. Specifically, the number of parameters for softmax classification layer and output embedding layer are proportional to the vocabulary size. It hinders the development of a lightweight text recognition model especially applied for Chinese and multiple languages. Thus, we propose a lightweight scene text recognition model named Hamming OCR. In this model, a novel Hamming classifier, which adopts locality sensitive hashing (LSH) algorithm to encode each character, is proposed to replace the softmax regression and the generated LSH code is directly employed to replace the output embedding. We also present a simplified transformer decoder to reduce the number of parameters by removing the feed-forward network and using cross-layer parameter sharing technique. Compared with traditional methods, the number of parameters in both classification and embedding layers is independent on the size of vocabulary, which significantly reduces the storage requirement without loss of accuracy. Experimental results on several datasets, including four public benchmaks and a Chinese text dataset synthesized by SynthText with more than 20,000 characters, shows that Hamming OCR achieves competitive results.
翻訳日:2022-10-15 15:07:13 公開日:2020-09-23