このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210705となっている論文です。

PDF登録状況(公開日: 20210705)

TitleAuthorsAbstract論文公表日・翻訳日
# 視覚接地音声モデルにおける視聴覚アライメントの評価

Evaluation of Audio-Visual Alignments in Visually Grounded Speech Models ( http://arxiv.org/abs/2108.02562v1 )

ライセンス: Link先を確認
Khazar Khorrami, Okko R\"as\"anen(参考訳) 音声と画像の間の複数のモダリティ間の対応を見出すシステムは、教師なしの方法で異なる認識とデータ分析のタスクを解決できる大きな可能性を秘めている。 本研究は,視覚的接地音声(VGS)モデルの文脈におけるマルチモーダル学習について研究し,音声と対応する視覚オブジェクト間の時空間的アライメントを,物体の局所化や単語認識のために明示的に訓練されることなく抽出する能力に着目した。 従来のvgs作業に基づく視聴覚アライメントテンソルを用いてアライメント問題を定式化し、視覚オブジェクトと音声単語のアライメントにおけるモデル性能を評価するための体系的指標を導入し、クロスモーダルアライメント層を用いたアライメントタスクのための新しいvgsモデル変種を提案する。 我々は,SPEECH-COCOキャプションとMSCOCO画像を組み合わせたアライメントタスクにおいて,本モデルと従来提案したモデルをテストする。 提案する評価指標を用いたアライメント性能と,vgsモデル評価によく用いられる意味検索タスクとの比較を行った。 クロスモーダル・アテンション・レイヤは、モデルがより高い意味的クロスモーダル検索性能を達成するのに役立つだけでなく、画像オブジェクトと音声単語のアライメント性能が大幅に向上することを示す。

Systems that can find correspondences between multiple modalities, such as between speech and images, have great potential to solve different recognition and data analysis tasks in an unsupervised manner. This work studies multimodal learning in the context of visually grounded speech (VGS) models, and focuses on their recently demonstrated capability to extract spatiotemporal alignments between spoken words and the corresponding visual objects without ever been explicitly trained for object localization or word recognition. As the main contributions, we formalize the alignment problem in terms of an audiovisual alignment tensor that is based on earlier VGS work, introduce systematic metrics for evaluating model performance in aligning visual objects and spoken words, and propose a new VGS model variant for the alignment task utilizing cross-modal attention layer. We test our model and a previously proposed model in the alignment task using SPEECH-COCO captions coupled with MSCOCO images. We compare the alignment performance using our proposed evaluation metrics to the semantic retrieval task commonly used to evaluate VGS models. We show that cross-modal attention layer not only helps the model to achieve higher semantic cross-modal retrieval performance, but also leads to substantial improvements in the alignment performance between image object and spoken words.
翻訳日:2021-08-08 11:01:20 公開日:2021-07-05
# GuavaNet: 消費者によるGuavaのアクセシビリティの程度を予測するための感覚自動評価のためのディープニューラルネットワークアーキテクチャ

GuavaNet: A deep neural network architecture for automatic sensory evaluation to predict degree of acceptability for Guava by a consumer ( http://arxiv.org/abs/2108.02563v1 )

ライセンス: Link先を確認
Vipul Mehra(参考訳) 第1部:コンピュータビジョンとディープラーニングを用いた画像処理に基づく果実・野菜・チーズ・魚の分析:レビュー。 画像処理,コンピュータビジョン,深層学習技術の総合的なレビューからなり,果物,野菜,チーズ,魚の分析を行う。第2部は,第2部:guavanet: a deep neural network architecture for automatic sensory evaluation(自動知覚評価のための深層ニューラルネットワークアーキテクチャ)の文献レビューとしても機能する。 本稿では,感覚評価に基づくグアバの消費者の受容度を予測可能な,エンドツーエンドのディープニューラルネットワークアーキテクチャを紹介する。

This thesis is divided into two parts:Part I: Analysis of Fruits, Vegetables, Cheese and Fish based on Image Processing using Computer Vision and Deep Learning: A Review. It consists of a comprehensive review of image processing, computer vision and deep learning techniques applied to carry out analysis of fruits, vegetables, cheese and fish.This part also serves as a literature review for Part II.Part II: GuavaNet: A deep neural network architecture for automatic sensory evaluation to predict degree of acceptability for Guava by a consumer. This part introduces to an end-to-end deep neural network architecture that can predict the degree of acceptability by the consumer for a guava based on sensory evaluation.
翻訳日:2021-08-08 11:00:27 公開日:2021-07-05
# (参考訳) 金融時系列予測のための低ランク時間注意型双方向ネットワーク [全文訳有]

Low-Rank Temporal Attention-Augmented Bilinear Network for financial time-series forecasting ( http://arxiv.org/abs/2107.06995v1 )

ライセンス: CC BY 4.0
Mostafa Shabani and Alexandros Iosifidis(参考訳) 金融市場分析、特に株価変動の予測は困難な問題である。 非定常かつ非線形な金融時系列データの性質は、これらの課題の主な原因である。 ディープラーニングモデルによって、金融時系列データの予測問題など、さまざまなドメインから生じる多くの問題のパフォーマンスが大幅に向上した。 予測性能はそのようなモデルの主目的であるが、モデルパラメータの数と推論速度の観点から超高周波データセットの扱いは制限される。 近年,制限順序書の時系列予測の効率的かつ高性能なモデルとして,時間的注意強化バイリニアネットワークが提案されている。 本稿では,モデルの低ランクテンソル近似を提案し,トレーニング可能なパラメータの数をさらに削減し,その速度を向上する。

Financial market analysis, especially the prediction of movements of stock prices, is a challenging problem. The nature of financial time-series data, being non-stationary and nonlinear, is the main cause of these challenges. Deep learning models have led to significant performance improvements in many problems coming from different domains, including prediction problems of financial time-series data. Although the prediction performance is the main goal of such models, dealing with ultra high-frequency data sets restrictions in terms of the number of model parameters and its inference speed. The Temporal Attention-Augmented Bilinear network was recently proposed as an efficient and high-performing model for Limit Order Book time-series forecasting. In this paper, we propose a low-rank tensor approximation of the model to further reduce the number of trainable parameters and increase its speed.
翻訳日:2021-07-18 15:19:28 公開日:2021-07-05
# (参考訳) 教師なし学習を用いたEricsson BTS省電力アルゴリズムのアサインヒステリシスパラメータ [全文訳有]

Assign Hysteresis Parameter For Ericsson BTS Power Saving Algorithm Using Unsupervised Learning ( http://arxiv.org/abs/2107.07412v1 )

ライセンス: CC BY 4.0
Thaer Sahmoud, Wesam Ashor(参考訳) ガザストリップは、電信分野を含むすべての産業に影響を及ぼす慢性的な電気不足に悩まされており、電信機器の電力消費を最適化し削減する必要がある。 本稿では,未使用の周波数チャネルを切り替えることを目的としたEricsson BTS省電力アルゴリズムにおいて,GSM無線周波数エンジニアがヒステリシスパラメータの最適値を選択するのを支援する新しいモデルを提案する。 BTS省電力アルゴリズムを用いたモデルにより,アクティブTRXの数を20.9%削減する。

Gaza Strip suffers from a chronic electricity deficit that affects all industries including the telecommunication field, so there is a need to optimize and reduce power consumption of the telecommunication equipment. In this paper we propose a new model that helps GSM radio frequency engineers to choose the optimal value of hysteresis parameter for Ericsson BTS power saving algorithm which aims to switch OFF unused frequency channels, our model is based on unsupervised machine learning clustering K-means algorithm. By using our model with BTS power saving algorithm we reduce number of active TRX by 20.9%.
翻訳日:2021-07-18 15:11:37 公開日:2021-07-05
# (参考訳) 心筋梗塞診断における人工知能の応用に関する調査研究 [全文訳有]

A Survey of Applications of Artificial Intelligence for Myocardial Infarction Disease Diagnosis ( http://arxiv.org/abs/2107.06179v1 )

ライセンス: CC BY-SA 4.0
Javad Hassannataj Joloudari, Sanaz Mojrian, Issa Nodehi, Amir Mashmool, Zeynab Kiani Zadegan, Sahar Khanjani Shirkharkolaie, Tahereh Tamadon, Samiyeh Khosravi, Mitra Akbari, Edris Hassannataj, Roohallah Alizadehsani, Danial Sharifrazi, and Amir Mosavi(参考訳) 心筋梗塞 (MID) は, 心臓筋への血流を減少させ, 心筋の損傷を示す未診断冠状動脈疾患 (CAD) の急激な進展に起因している。 MIDは、世界中の中高年者や高齢者において、主要な死因である。 一般に心電図(ECG)信号は, 疲労, 時間, 費用のかかる臨床医によるMID識別のために検査される。 ECG信号のMIDを自動診断するための人工知能に基づく手法が提案されている。 そこで,本研究では,機械学習や深層学習を含む人工知能を用いた手法を用いて,心電図信号のMDD診断を行った。 この手法を用いることで、ML法で手作りするために必要なECG信号の特徴抽出と選択が示される。 対照的に、これらのタスクはDLメソッドで自動的に探索されます。 直流畳み込みニューラルネットワーク(DCNN)法は,心電図信号上でのMIDの早期診断に極めて必要とされる手法である。 ほとんどの研究者はDCNN法を用いる傾向があり、ECG信号のMID診断に人工知能を用いた調査は行われていない。

Myocardial infarction disease (MID) is caused to the rapid progress of undiagnosed coronary artery disease (CAD) that indicates the injury of a heart cell by decreasing the blood flow to the cardiac muscles. MID is the leading cause of death in middle-aged and elderly subjects all over the world. In general, raw Electrocardiogram (ECG) signals are tested for MID identification by clinicians that is exhausting, time-consuming, and expensive. Artificial intelligence-based methods are proposed to handle the problems to diagnose MID on the ECG signals automatically. Hence, in this survey paper, artificial intelligence-based methods, including machine learning and deep learning, are review for MID diagnosis on the ECG signals. Using the methods demonstrate that the feature extraction and selection of ECG signals required to be handcrafted in the ML methods. In contrast, these tasks are explored automatically in the DL methods. Based on our best knowledge, Deep Convolutional Neural Network (DCNN) methods are highly required methods developed for the early diagnosis of MID on the ECG signals. Most researchers have tended to use DCNN methods, and no studies have surveyed using artificial intelligence methods for MID diagnosis on the ECG signals.
翻訳日:2021-07-18 15:01:15 公開日:2021-07-05
# (参考訳) 公衆衛生救急搬送のための多相空間メタヒューリスティックアルゴリズム [全文訳有]

The Multi-phase spatial meta-heuristic algorithm for public health emergency transportation ( http://arxiv.org/abs/2107.04125v1 )

ライセンス: CC BY 4.0
Fariba Afrin Irany, Arnav Iyer, Rubenia Borge Flores, Armin R. Mikler(参考訳) バイオテロ攻撃における大量予防のための医療対策(MCM)の提供は,過去数十年にわたり研究コミュニティの関心を集めてきた活発な研究課題である。 本研究の目的は, 時間, 物理的, 人的資源, 容量制限を考慮して, MCMを対象人口に届けるための有効な経路を見つけることを目的として, RSS(Recelective Reload and Store Problem)の効率的なアルゴリズムを設計することである。 そこで我々は, p-median 問題をPOD に基づく緊急対応計画手順に適用し, p-median を合理的な計算時間で実行するための効率的なアルゴリズムソリューションを提案する。 我々は,北テキサス大学のコンピュータ疫学・反応分析センター(CeCERA)で開発されたRSSソリューションを含むRe Response PLan AnalyzerシステムであるRE-PLANを提案する。 最後に,アルゴリズムの計算性能が,短期・長期の意思決定や緊急計画のプロセスにどのように影響するかを示す研究事例を分析した。

The delivery of Medical Countermeasures(MCMs ) for mass prophylaxis in the case of a bio-terrorist attack is an active research topic that has interested the research community over the past decades. The objective of this study is to design an efficient algorithm for the Receive Reload and Store Problem(RSS) in which we aim to find feasible routes to deliver MCMs to a target population considering time, physical, and human resources, and capacity limitations. For doing this, we adapt the p-median problem to the POD-based emergency response planning procedures and propose an efficient algorithm solution to perform the p-median in reasonable computational time. We present RE-PLAN, the Response PLan Analyzer system that contains some RSS solutions developed at The Center for Computational Epidemiology and Response Analysis (CeCERA) at the University of North Texas. Finally, we analyze a study case where we show how the computational performance of the algorithm can impact the process of decision making and emergency planning in the short and long terms.
翻訳日:2021-07-18 14:38:16 公開日:2021-07-05
# 弾性グラフニューラルネットワーク

Elastic Graph Neural Networks ( http://arxiv.org/abs/2107.06996v1 )

ライセンス: Link先を確認
Xiaorui Liu, Wei Jin, Yao Ma, Yaxin Li, Hua Liu, Yiqi Wang, Ming Yan, Jiliang Tang(参考訳) 多くの既存のグラフニューラルネットワーク(GNN)は、世界中で滑らかさを強制する$\ell_2$-based graph smoothingを実行することが証明されているが、本研究では、$\ell_1$-based graph smoothingを通じて、GNNの局所的滑らかさ適応性を強化することを目的としている。 その結果,$\ell_1$および$\ell_2$-based graph smoothingに基づくGNN(Elastic GNN)のファミリーを導入する。 特に,GNNへの新規で汎用的なメッセージパッシング方式を提案する。 このメッセージパッシングアルゴリズムは、バックプロパゲーショントレーニングに適応するだけでなく、理論的収束保証により所望の平滑化特性を達成する。 半教師付き学習タスクの実験では、提案したElastic GNNがベンチマークデータセットの適応性を向上し、グラフ敵攻撃に対して極めて堅牢であることが示された。 Elastic GNNの実装は、 \url{https://github.com/l xiaorui/ElasticGNN}で公開されている。

While many existing graph neural networks (GNNs) have been proven to perform $\ell_2$-based graph smoothing that enforces smoothness globally, in this work we aim to further enhance the local smoothness adaptivity of GNNs via $\ell_1$-based graph smoothing. As a result, we introduce a family of GNNs (Elastic GNNs) based on $\ell_1$ and $\ell_2$-based graph smoothing. In particular, we propose a novel and general message passing scheme into GNNs. This message passing algorithm is not only friendly to back-propagation training but also achieves the desired smoothing properties with a theoretical convergence guarantee. Experiments on semi-supervised learning tasks demonstrate that the proposed Elastic GNNs obtain better adaptivity on benchmark datasets and are significantly robust to graph adversarial attacks. The implementation of Elastic GNNs is available at \url{https://github.com/l xiaorui/ElasticGNN}.
翻訳日:2021-07-18 12:34:15 公開日:2021-07-05
# DeepHyperion: 照度探索によるディープラーニングシステムの特徴空間の探索

DeepHyperion: Exploring the Feature Space of Deep Learning-Based Systems through Illumination Search ( http://arxiv.org/abs/2107.06997v1 )

ライセンス: Link先を確認
Tahereh Zohdinasab, Vincenzo Riccio, Alessio Gambi, and Paolo Tonella(参考訳) Deep Learning (DL)は、安全クリティカルなものを含む幅広いアプリケーション領域にうまく適用されている。 最近、いくつかのDLテスト手法が文献で提案されているが、いずれも、生成された入力の異なる解釈可能な特徴がシステムの振る舞いに与える影響を評価することを目的としていない。 本稿では,システムの特徴空間を表すマップのセルにまたがる,最もパフォーマンスの高いテストケース(誤動作,誤動作に最も近い)を見つけるために,照明探索を行う。 我々は、あるドメインの機能空間の次元を特定し定量化するタスクにおいて、我々のアプローチのユーザを導く方法論を紹介します。 私たちはDeepHyperionを開発した。DeepHyperionはDLシステムのための検索ツールで、開発者に対して、自動生成された入力を露出した振る舞いに関する情報とともに配置する解釈可能な機能マップを提供することで、大きな機能領域を探索する。

Deep Learning (DL) has been successfully applied to a wide range of application domains, including safety-critical ones. Several DL testing approaches have been recently proposed in the literature but none of them aims to assess how different interpretable features of the generated inputs affect the system's behaviour. In this paper, we resort to Illumination Search to find the highest-performing test cases (i.e., misbehaving and closest to misbehaving), spread across the cells of a map representing the feature space of the system. We introduce a methodology that guides the users of our approach in the tasks of identifying and quantifying the dimensions of the feature space for a given domain. We developed DeepHyperion, a search-based tool for DL systems that illuminates, i.e., explores at large, the feature space, by providing developers with an interpretable feature map where automatically generated inputs are placed along with information about the exposed behaviours.
翻訳日:2021-07-18 12:33:57 公開日:2021-07-05
# 7in-a-rowゲームへの挑戦

Towards solving the 7-in-a-row game ( http://arxiv.org/abs/2107.05363v1 )

ライセンス: Link先を確認
Domonkos Czifra, Endre Cs\'oka, Zsolt Zombori, G\'eza Makay(参考訳) 本稿は7in-a-rowゲームにおけるゲーム理論的価値について検討する。 証明数探索を用いて対象とする有限ボードゲームにおいて,この問題を解消する。 本稿では,証明数探索におけるヒューリスティックな改善点をいくつか提示し,その効果をゲーム内で検証する。 本稿では,7-in-a-rowゲームは解決していないが,実験の結果,このゲームに対して大きな進展がみられた。

Our paper explores the game theoretic value of the 7-in-a-row game. We reduce the problem to solving a finite board game, which we target using Proof Number Search. We present a number of heuristic improvements to Proof Number Search and examine their effect within the context of this particular game. Although our paper does not solve the 7-in-a-row game, our experiments indicate that we have made significant progress towards it.
翻訳日:2021-07-18 12:32:55 公開日:2021-07-05
# 常微分方程式の構造を推測する

Inferring the Structure of Ordinary Differential Equations ( http://arxiv.org/abs/2107.07345v1 )

ライセンス: Link先を確認
Juliane Weilbach, Sebastian Gerwinn, Christian Weilbach and Melih Kandemir(参考訳) 物理現象を理解することは、しばしば観測測定を管理する基礎となる力学系を理解することを意味する。 ブラックボックスシステムでは正確な予測が可能であるが、解釈可能性に欠けることが多く、さらなる専門家による調査には適さない。 あるいは、ダイナミクスはシンボリック回帰によって分析することができる。 本稿では,aifeynmanと呼ばれる(udrescu et al., 2020)アプローチを動的設定に拡張し,得られた軌道からの観測に基づいてodeシステム上で記号回帰を行う。 この拡張を,複雑性が増大する基底真理方程式が利用できる数種類の力学系上で経験論的に記号回帰を行うための最先端のアプローチと比較する。 提案手法は,このベンチマークで最適に機能するが,カートポールなどより複雑なシステムでは,すべての比較記号回帰アプローチが困難であることがわかった。

Understanding physical phenomena oftentimes means understanding the underlying dynamical system that governs observational measurements. While accurate prediction can be achieved with black box systems, they often lack interpretability and are less amenable for further expert investigation. Alternatively, the dynamics can be analysed via symbolic regression. In this paper, we extend the approach by (Udrescu et al., 2020) called AIFeynman to the dynamic setting to perform symbolic regression on ODE systems based on observations from the resulting trajectories. We compare this extension to state-of-the-art approaches for symbolic regression empirically on several dynamical systems for which the ground truth equations of increasing complexity are available. Although the proposed approach performs best on this benchmark, we observed difficulties of all the compared symbolic regression approaches on more complex systems, such as Cart-Pole.
翻訳日:2021-07-18 12:30:20 公開日:2021-07-05
# 安全な医療モニタリングのためのレビューに基づく分類法:ワイヤレススマートカメラ

A Review-based Taxonomy for Secure Health Care Monitoring: Wireless Smart Cameras ( http://arxiv.org/abs/2107.06833v1 )

ライセンス: Link先を確認
Ravi Teja Batchu, Abeer Alsadoon, P.W.C. Prasad, Rasha S. Ali, Tarik A. Rashid, Ghossoon Alsadoon, Oday D. Jerew(参考訳) 健康記録データセキュリティは、eヘルスシステムの大きな課題のひとつだ。 認証は、保存されたデータの機密性、完全性、可用性をサポートするために不可欠なセキュリティサービスの1つである。 本研究は、データセキュリティと不正アクセスが進行中の医療分野における、患者および医療記録の安全な保管に焦点を当てる。 潜在的な解決策はバイオメトリックスによるものだが、使用には時間がかかり、データの検索が遅くなる可能性がある。 本研究は,これらの課題を克服し,指紋による生体認証を追加することにより,医療分野におけるデータアクセス制御を強化することを目的とする。 提案する医療分野の応用モデルは,既存のパスワードベースのアクセス制御手法を置き換えるバイオメトリックスを用いたコレクション,ネットワーク通信,認証(CNA)で構成されている。 次に、センサがデータを収集し、ネットワーク(wirelessまたはzig-bee)を使用して、データを処理して集約する接続分析およびデータ管理作業の後に接続を確立する。 その後、認証されたユーザーのアクセスが許可される。 このIoTベースの生体認証システムは、効果的な認識を容易にし、患者、記録その他の機密データの機密性、完全性、信頼性を保証する。 提案ソリューションは、医療データへの信頼性の高いアクセスを提供し、ユーザ認証とデバイス認証のプロセスを通じてセキュアなアクセスを可能にする。 提案モデルは,医療従事者の認証を通じてデータへのアクセス制御を行い,データの操作や盗難を減らすために開発された。

Health records data security is one of the main challenges in e-health systems. Authentication is one of the essential security services to support the stored data confidentiality, integrity, and availability. This research focuses on the secure storage of patient and medical records in the healthcare sector where data security and unauthorized access is an ongoing issue. A potential solution comes from biometrics, although their use may be time-consuming and can slow down data retrieval. This research aims to overcome these challenges and enhance data access control in the healthcare sector through the addition of biometrics in the form of fingerprints. The proposed model for application in the healthcare sector consists of Collection, Network communication, and Authentication (CNA) using biometrics, which replaces an existing password-based access control method. A sensor then collects data and by using a network (wireless or Zig-bee), a connection is established, after connectivity analytics and data management work which processes and aggregate the data. Subsequently, access is granted to authenticated users of the application. This IoT-based biometric authentication system facilitates effective recognition and ensures confidentiality, integrity, and reliability of patients, records and other sensitive data. The proposed solution provides reliable access to healthcare data and enables secure access through the process of user and device authentication. The proposed model has been developed for access control to data through the authentication of users in healthcare to reduce data manipulation or theft.
翻訳日:2021-07-18 12:29:44 公開日:2021-07-05
# 東洋言語認識(olr)2020:概要と分析

Oriental Language Recognition (OLR) 2020: Summary and Analysis ( http://arxiv.org/abs/2107.05365v1 )

ライセンス: Link先を確認
Jing Li, Binling Wang, Yiming Zhi, Zheng Li, Lin Li, Qingyang Hong, Dong Wang(参考訳) 第5回Oriental Language Recognition (OLR) Challengeは、その開発を促進するために、様々な複雑な環境における言語認識に焦点を当てている。 OLR 2020チャレンジには、(1)チャネル言語識別、(2)方言識別、(3)雑音言語識別の3つのタスクが含まれている。 我々は、Cavgを原則評価指標とし、EER(Equal Error Rate)を二次指標とする。 このチャレンジには58チームが参加し、チームの3分の1が有効な結果を提出した。 最良ベースラインと比較して,3つのタスクを対象としたトップ1システムのCavg値は,それぞれ82%,62%,48%と相対的に減少した。 本稿では,3つのタスク,データベースプロファイル,最終結果について述べる。 また,補助情報の利用など,言語認識システムの性能を著しく向上させる新たなアプローチについても概説する。

The fifth Oriental Language Recognition (OLR) Challenge focuses on language recognition in a variety of complex environments to promote its development. The OLR 2020 Challenge includes three tasks: (1) cross-channel language identification, (2) dialect identification, and (3) noisy language identification. We choose Cavg as the principle evaluation metric, and the Equal Error Rate (EER) as the secondary metric. There were 58 teams participating in this challenge and one third of the teams submitted valid results. Compared with the best baseline, the Cavg values of Top 1 system for the three tasks were relatively reduced by 82%, 62% and 48%, respectively. This paper describes the three tasks, the database profile, and the final results. We also outline the novel approaches that improve the performance of language recognition systems most significantly, such as the utilization of auxiliary information.
翻訳日:2021-07-18 12:29:25 公開日:2021-07-05
# SilGAN: シナリオベースのソフトウェア・イン・ザ・ループテストのための運転操作の生成

SilGAN: Generating driving maneuvers for scenario-based software-in-the-loop testing ( http://arxiv.org/abs/2107.07364v1 )

ライセンス: Link先を確認
Dhasarathy Parthasarathy, Anton Johansson(参考訳) シミュレーションベースのテストのような代替手段は比較的未成熟であるため、自動車のソフトウェアテストは品質を確保するために高価なフィールドテストに大きく依存している。 フィールドテストへの依存度を下げる第一歩として、仕様、刺激生成、自動ループテストの自動化を容易にする深層生成モデルSilGANを提案する。 モデルはフィールド内の車両から記録されたデータを使って訓練される。 トレーニング中、モデルは運転シナリオの簡潔な仕様を使用して、そのようなシナリオ中に発生する現実的な車両状態遷移を生成する。 このような車内挙動の真正なエミュレーションは、車両制御ソフトウェアの迅速かつ体系的で安価なテストに利用できる。 さらに,モデルが学習した情報を探索するための対象手法を提示することにより,コードカバレッジなどのテスト目的をどのように自動化するかを示す。 現在、データ駆動のエンドツーエンドテストパイプラインは、自動車シミュレーションベースのテストの範囲と信頼性を大きく広げています。 これにより、必要な品質基準を維持しながら、市場投入にかかる時間を短縮できる。

Automotive software testing continues to rely largely upon expensive field tests to ensure quality because alternatives like simulation-based testing are relatively immature. As a step towards lowering reliance on field tests, we present SilGAN, a deep generative model that eases specification, stimulus generation, and automation of automotive software-in-the-loop testing. The model is trained using data recorded from vehicles in the field. Upon training, the model uses a concise specification for a driving scenario to generate realistic vehicle state transitions that can occur during such a scenario. Such authentic emulation of internal vehicle behavior can be used for rapid, systematic and inexpensive testing of vehicle control software. In addition, by presenting a targeted method for searching through the information learned by the model, we show how a test objective like code coverage can be automated. The data driven end-to-end testing pipeline that we present vastly expands the scope and credibility of automotive simulation-based testing. This reduces time to market while helping maintain required standards of quality.
翻訳日:2021-07-18 12:27:13 公開日:2021-07-05
# 超圧縮顔ビデオのマルチモダリティ深部復元

Multi-modality Deep Restoration of Extremely Compressed Face Videos ( http://arxiv.org/abs/2107.05548v1 )

ライセンス: Link先を確認
Xi Zhang and Xiaolin Wu(参考訳) おそらく、ソーシャルメディア、仮想教室、テレカンファレンス、ニュース放送、トーク番組などで見られるような、日常的なビデオコミュニケーションにおいて最も一般的で健全な対象はトーキングヘッドである。 通信帯域幅がネットワークの混雑やコスト効果によって制限される場合、音声ヘッドビデオの圧縮アーティファクトは避けられない。 結果として生じる画質劣化は、顔に対する人間の視覚システムの高い明度のため、非常に可視であり、不快である。 この問題を解決するために,積極的に圧縮された顔映像を復元する多モードディープ畳み込みニューラルネットワーク手法を開発した。 ビデオ同期音声信号と圧縮符号ストリームの意味要素(動きベクトル、符号分割マップ、量子化パラメータなど)が組み込まれている。 これらの先行は遅延ビデオと強く相関しているため、圧縮アーティファクトを除去する深層学習の能力を高めることができる。 提案手法が既存の最先端手法よりも優れた性能を示すために,数多くの実証的エビデンスが提示されている。

Arguably the most common and salient object in daily video communications is the talking head, as encountered in social media, virtual classrooms, teleconferences, news broadcasting, talk shows, etc. When communication bandwidth is limited by network congestions or cost effectiveness, compression artifacts in talking head videos are inevitable. The resulting video quality degradation is highly visible and objectionable due to high acuity of human visual system to faces. To solve this problem, we develop a multi-modality deep convolutional neural network method for restoring face videos that are aggressively compressed. The main innovation is a new DCNN architecture that incorporates known priors of multiple modalities: the video-synchronized speech signal and semantic elements of the compression code stream, including motion vectors, code partition map and quantization parameters. These priors strongly correlate with the latent video and hence they are able to enhance the capability of deep learning to remove compression artifacts. Ample empirical evidences are presented to validate the superior performance of the proposed DCNN method on face videos over the existing state-of-the-art methods.
翻訳日:2021-07-18 12:26:57 公開日:2021-07-05
# (参考訳) ビッグデータ情報とニューキャスティング:トルコにおける銀行取引の消費と投資 [全文訳有]

Big Data Information and Nowcasting: Consumption and Investment from Bank Transactions in Turkey ( http://arxiv.org/abs/2107.03299v1 )

ライセンス: CC BY 4.0
Ali B. Barlas (BBVA Research), Seda Guler Mert (BBVA Research), Berk Orkun Isa (BBVA Research) Alvaro Ortiz (BBVA Research), Tomasa Rodrigo (BBVA Research), Baris Soybilgen (Bilgi University) and Ege Yazgan (Bilgi University)(参考訳) 我々は、ガーランティbbva銀行取引における個人間及び企業間取引の集計情報を用いて、国内民間の需要を模倣する。 特に、トルコの場合、四半期ベースで消費と投資の合計(グロース固定資本形成)とそのより大きな構成要素(機械、設備、建設)をリアルタイムで再現する。 これらの指標から得られた情報の有効性を検証するために、トルコのgdpを異なるモデルを用いてキャスティングする2つの指標のキャスティング能力をテストする。 結果は成功し、今放送の目的で消費・投資銀行取引の有用性を確認します。 ビッグデータ情報の価値は、従来のハードデータ情報が不足している場合に、nowcastingプロセスの開始時により重要になります。 これにより、統計的なリリース遅延がEmerging Marketsのように長くなっている国にとって、この情報は特別な意味を持つ。

We use the aggregate information from individual-to-firm and firm-to-firm in Garanti BBVA Bank transactions to mimic domestic private demand. Particularly, we replicate the quarterly national accounts aggregate consumption and investment (gross fixed capital formation) and its bigger components (Machinery and Equipment and Construction) in real time for the case of Turkey. In order to validate the usefulness of the information derived from these indicators we test the nowcasting ability of both indicators to nowcast the Turkish GDP using different nowcasting models. The results are successful and confirm the usefulness of Consumption and Investment Banking transactions for nowcasting purposes. The value of the Big data information is more relevant at the beginning of the nowcasting process, when the traditional hard data information is scarce. This makes this information specially relevant for those countries where statistical release lags are longer like the Emerging Markets.
翻訳日:2021-07-09 05:55:27 公開日:2021-07-05
# (参考訳) モバイルパズルゲームにおけるモデリングプレーヤー [全文訳有]

Modelling Players in Mobile Puzzle Games ( http://arxiv.org/abs/2107.03305v1 )

ライセンス: CC BY 4.0
Jeppe Theiss Kristensen, Arturo Valdivia, Paolo Burelli(参考訳) レベルの難易度を正確にモデル化することはプレイヤー体験の操作の基本的な要素であり、難易度はコンテンツ設計と適応のために最も重要かつ一般的に使用される信号の1つである。 コンプリート可能なエリアやレベルのような中間的なマイルストーンを特徴とするゲームでは、難易度はしばしば完了確率や完了率によって定義されるが、この操作性は領域内のプレイヤーの振る舞いを記述しないという点で制限される。 本研究では,古典的成功確率を超えたパズルゲームにおけるレベル難易度モデルについて定式化する。 パラメトリック統計モデルを用いてゲームレベルで実行されるアクションの分布を記述することで、より豊かな難易度記述子を作成する。 このモデルは、ゲームlily's gardenから収集したデータセットに触覚ゲームを用いて適応評価し、その評価結果から、ほとんどのレベルにおいて難易度を記述・説明することが可能であることが判明した。

Successful and accurate modelling of level difficulty is a fundamental component of the operationalisation of player experience as difficulty is one of the most important and commonly used signals for content design and adaptation. In games that feature intermediate milestones, such as completable areas or levels, difficulty is often defined by the probability of completion or completion rate; however, this operationalisation is limited in that it does not describe the behaviour of the player within the area. In this research work, we formalise a model of level difficulty for puzzle games that goes beyond the classical probability of success. We accomplish this by describing the distribution of actions performed within a game level using a parametric statistical model thus creating a richer descriptor of difficulty. The model is fitted and evaluated on a dataset collected from the game Lily's Garden by Tactile Games, and the results of the evaluation show that the it is able to describe and explain difficulty in a vast majority of the levels.
翻訳日:2021-07-09 05:40:50 公開日:2021-07-05
# (参考訳) 高エネルギー物理のための粒子畳み込み [全文訳有]

Particle Convolution for High Energy Physics ( http://arxiv.org/abs/2107.02908v1 )

ライセンス: CC BY 4.0
Chase Shimmin(参考訳) 本稿では,ジェット物理における多くのタスクに適した新しいタイプの同変ニューラルネットワーク層であるParticle Convolution Network (PCN)を紹介する。 粒子畳み込み層は、置換不変作用素をグループ畳み込みに昇格させるディープセットおよびエネルギーフローネットワークアーキテクチャの拡張と見なすことができる。 PCNは様々な種類の対称性に対して実装できるが、ジェット軸の回転の特定の場合を$\eta - \phi$ planeとみなす。 q/gタギングとトップタギングという2つの標準的なベンチマークタスクにおいて、回転型pcn(rpcn)はparticlenetのようなグラフネットワークと同等のパフォーマンスを達成している。 さらに,既存のIRCセーフなタグ付け手法よりも優れたIRCセーフなrPCNを両タスクで実装可能であることを示す。 我々は,PCNをジェット物理学に関連する新たな畳み込み対称性を含むように一般化することにより,物理に動機づけられた帰納的バイアスに対する新たな制御を提供しながら,グラフネットワークによる現在の最先端技術よりも優れていると推測する。

We introduce the Particle Convolution Network (PCN), a new type of equivariant neural network layer suitable for many tasks in jet physics. The particle convolution layer can be viewed as an extension of Deep Sets and Energy Flow network architectures, in which the permutation-invarian t operator is promoted to a group convolution. While the PCN can be implemented for various kinds of symmetries, we consider the specific case of rotation about the jet axis the $\eta - \phi$ plane. In two standard benchmark tasks, q/g tagging and top tagging, we show that the rotational PCN (rPCN) achieves performance comparable to graph networks such as ParticleNet. Moreover, we show that it is possible to implement an IRC-safe rPCN, which significantly outperforms existing IRC-safe tagging methods on both tasks. We speculate that by generalizing the PCN to include additional convolutional symmetries relevant to jet physics, it may outperform the current state-of-the-art set by graph networks, while offering a new degree of control over physically-motivated inductive biases.
翻訳日:2021-07-09 05:26:05 公開日:2021-07-05
# 初期covid-19治療としてのトリアムシノロンとガロパミルのin silico再導入パイプラインによる同定と検証

Identification and validation of Triamcinolone and Gallopamil as treatments for early COVID-19 via an in silico repurposing pipeline ( http://arxiv.org/abs/2107.02905v1 )

ライセンス: Link先を確認
M\'eabh MacMahon, Woochang Hwang, Soorin Yim, Eoghan MacMahon, Alexandre Abraham, Justin Barton, Mukunthan Tharmakulasingam, Paul Bilokon, Vasanthi Priyadarshini Gaddi, Namshik Han(参考訳) 新型コロナウイルス(COVID-19)の原因となるSARS-CoV-2は、引き続き世界的なパンデミックを引き起こしている。 軽度かつ重篤なcovid-19の治療には依然として治療が必要である。 薬物の再利用は、新しい治療法の開発よりも、covid-19の薬剤を迅速に展開する機会を提供する。 一部の既存の薬物は、臨床試験でcovid-19の治療を約束している。 このシリコの研究では、臨床試験薬物と構造的な類似性を用いて、2つの薬物を早期のcovid-19治療に応用できる可能性があると同定する。 両方のアクションのメカニズムを提案するために,シリコバリデーションを適用した。 トリアミノロン(triamcinolone)は、デキサメタゾンと構造的に類似したコルチコステロイドである。 ガロパミルは、ベラパミルと構造的に類似したカルシウムチャネル遮断剤である。 これらの薬剤は,SARS-CoV-2により誘導される早期感染で活性化されるキナーゼと,COVID-19の拡散に関連するAPOA1タンパク質との相互作用ネットワーク内での標的の近接により,早期の新型コロナウイルス感染症の治療に有用である可能性が示唆された。

SARS-CoV-2, the causative virus of COVID-19 continues to cause an ongoing global pandemic. Therapeutics are still needed to treat mild and severe COVID-19. Drug repurposing provides an opportunity to deploy drugs for COVID-19 more rapidly than developing novel therapeutics. Some existing drugs have shown promise for treating COVID-19 in clinical trials. This in silico study uses structural similarity to clinical trial drugs to identify two drugs with potential applications to treat early COVID-19. We apply in silico validation to suggest a possible mechanism of action for both. Triamcinolone is a corticosteroid structurally similar to Dexamethasone. Gallopamil is a calcium channel blocker structurally similar to Verapamil. We propose that both these drugs could be useful to treat early COVID-19 infection due to the proximity of their targets within a SARS-CoV-2-induced protein-protein interaction network to kinases active in early infection, and the APOA1 protein which is linked to the spread of COVID-19.
翻訳日:2021-07-08 13:54:13 公開日:2021-07-05
# (参考訳) 2元ニューラルネットワークの量子アニーリング定式化 [全文訳有]

Quantum Annealing Formulation for Binary Neural Networks ( http://arxiv.org/abs/2107.02751v1 )

ライセンス: CC BY 4.0
Michele Sasdelli and Tat-Jun Chin(参考訳) 量子アニールは実用的な量子コンピュータを構築する上で有望なパラダイムである。 他のアプローチと比較して、量子アニーリング技術はより多くの量子ビットに拡大されている。 一方で、ディープラーニングは、aiの境界を押し上げる上で大きな成功を収めています。 したがって、深層学習の能力を高めるために量子アニールのような潜在的に変化する技術を調べることは自然である。 本研究では,リソース制約のあるデバイスを対象とした軽量かつ強力なモデルであるバイナリニューラルネットワークについて検討する。 活性化関数を滑らかに近似してネットワークを微分可能とするバイナリネットワークの現在のトレーニングレジームから脱却し、トレーニング問題に対する二次的非拘束型バイナリ最適化定式化を考案する。 この問題は難解であり、すなわち、二元重みを推定するコストはネットワークサイズによって指数関数的にスケールするが、量子アニーラに直接最適化する方法を示し、量子コンピューティングの潜在的な利益に開放する。 我々は,現在の技術の容量で許容できる程度まで,実際の量子アニール (D-Wave Advantage) のシミュレーションと試験により,我々の定式化を実験的に検証した。

Quantum annealing is a promising paradigm for building practical quantum computers. Compared to other approaches, quantum annealing technology has been scaled up to a larger number of qubits. On the other hand, deep learning has been profoundly successful in pushing the boundaries of AI. It is thus natural to investigate potentially game changing technologies such as quantum annealers to augment the capabilities of deep learning. In this work, we explore binary neural networks, which are lightweight yet powerful models typically intended for resource constrained devices. Departing from current training regimes for binary networks that smooth/approximate the activation functions to make the network differentiable, we devise a quadratic unconstrained binary optimization formulation for the training problem. While the problem is intractable, i.e., the cost to estimate the binary weights scales exponentially with network size, we show how the problem can be optimized directly on a quantum annealer, thereby opening up to the potential gains of quantum computing. We experimentally validated our formulation via simulation and testing on an actual quantum annealer (D-Wave Advantage), the latter to the extent allowable by the capacity of current technology.
翻訳日:2021-07-08 09:45:03 公開日:2021-07-05
# (参考訳) 飽和密度比の推定 [全文訳有]

Featurized Density Ratio Estimation ( http://arxiv.org/abs/2107.02212v1 )

ライセンス: CC BY 4.0
Kristy Choi, Madeline Liao, Stefano Ermon(参考訳) 密度比の推定は教師なし機械学習ツールボックスにおいて重要なテクニックである。 しかし、特に興味の密度が十分に異なる場合には、複雑な高次元データに対する推定は困難である。 本研究では,2つの分布を推定前の共通特徴空間にマッピングするために,可逆生成モデルを活用することを提案する。 この偉業化は、学習された入力空間の密度比が任意に不正確な場合、潜在空間において密度が密接な関係をもたらす。 同時に、特徴写像の可逆性は、特徴空間で計算された比が入力空間で計算された比と同値であることを保証する。 経験的に,我々は,相互情報推定,深層生成モデルにおける対象サンプリング,データ拡張による分類など,正確な密度比へのアクセスを必要とする様々な下流タスクにおいて,本手法の有効性を実証する。

Density ratio estimation serves as an important technique in the unsupervised machine learning toolbox. However, such ratios are difficult to estimate for complex, high-dimensional data, particularly when the densities of interest are sufficiently different. In our work, we propose to leverage an invertible generative model to map the two distributions into a common feature space prior to estimation. This featurization brings the densities closer together in latent space, sidestepping pathological scenarios where the learned density ratios in input space can be arbitrarily inaccurate. At the same time, the invertibility of our feature map guarantees that the ratios computed in feature space are equivalent to those in input space. Empirically, we demonstrate the efficacy of our approach in a variety of downstream tasks that require access to accurate density ratios such as mutual information estimation, targeted sampling in deep generative models, and classification with data augmentation.
翻訳日:2021-07-08 08:40:19 公開日:2021-07-05
# (参考訳) End-to-End Weak Supervision [全文訳有]

End-to-End Weak Supervision ( http://arxiv.org/abs/2107.02233v1 )

ライセンス: CC BY 4.0
Salva R\"uhling Cachay, Benedikt Boecking, Artur Dubrawski(参考訳) 弱い監督(WS)の複数のソースを集約することで、多くの機械学習アプリケーションで一般的なデータラベルのボトルネックを緩和することができる。 しかし、ラベル付きトレーニングデータを使用しない最先端の手法は、2つの別々のモデリングステップを必要とします。 WSソースに基づいて確率的潜在変数モデルを学ぶ -- 実際にしか持たない仮定を作る -- 続いて下流モデルのトレーニング。 重要なことに、モデリングの第一歩は下流モデルの性能を考慮していない。 これらの問題点に対処するために,従来の確率的後方をニューラルネットワークで再パラメータ化することによって生成された確率的ラベルとの一致を最大化することにより,下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。 その結果,下流テストセットにおけるエンドモデル性能や,弱い監視源間の依存関係に対するロバスト性が向上した点から,先行作業よりもパフォーマンスが向上した。

Aggregating multiple sources of weak supervision (WS) can ease the data-labeling bottleneck prevalent in many machine learning applications, by replacing the tedious manual collection of ground truth labels. Current state of the art approaches that do not use any labeled training data, however, require two separate modeling steps: Learning a probabilistic latent variable model based on the WS sources -- making assumptions that rarely hold in practice -- followed by downstream model training. Importantly, the first step of modeling does not consider the performance of the downstream model. To address these caveats we propose an end-to-end approach for directly learning the downstream model by maximizing its agreement with probabilistic labels generated by reparameterizing previous probabilistic posteriors with a neural network. Our results show improved performance over prior work in terms of end model performance on downstream test sets, as well as in terms of improved robustness to dependencies among weak supervision sources.
翻訳日:2021-07-08 08:11:30 公開日:2021-07-05
# (参考訳) Vision Xformers: 画像分類のための効率的な注意 [全文訳有]

Vision Xformers: Efficient Attention for Image Classification ( http://arxiv.org/abs/2107.02239v1 )

ライセンス: CC BY 4.0
Pranav Jeevan, Amit Sethi (Indian Institute of Technology Bombay)(参考訳) 線形注意機構は、視覚タスクにおけるトランスフォーマーモデルの適用を制限する二次的複雑性のボトルネックを克服するための希望を提供する。 我々は、ViTアーキテクチャを2次注意をPerformer、Linformer、Nystr\omformerなどの効率的な変換器に置き換えることで、より長いシーケンスデータを扱うように修正し、ViX-former(ViX)を作成する。 また,より少ない計算資源を消費する画像分類において,ViXはViTよりも優れた性能を示す。 さらに, 組込み線形層をViXの畳み込み層に置き換えることで, さらなる性能向上が期待できる。 levit や compact convolutional transformer (cct) のような最近の visions transformer モデルのテストでは、nystr\"omformer や performer に置き換えることで、パフォーマンスを損なうことなく gpu の使用とメモリを節約できることが示されている。 これらの変更を組み込むことで、限られたデータとコンピューティングリソースを持つ人々にアクセスできるようにすることで、トランスフォーマーを民主化することができる。

Linear attention mechanisms provide hope for overcoming the bottleneck of quadratic complexity which restricts application of transformer models in vision tasks. We modify the ViT architecture to work on longer sequence data by replacing the quadratic attention with efficient transformers like Performer, Linformer and Nystr\"omformer of linear complexity creating Vision X-formers (ViX). We show that ViX performs better than ViT in image classification consuming lesser computing resources. We further show that replacing the embedding linear layer by convolutional layers in ViX further increases their performance. Our test on recent visions transformer models like LeViT and Compact Convolutional Transformer (CCT) show that replacing the attention with Nystr\"omformer or Performer saves GPU usage and memory without deteriorating performance. Incorporating these changes can democratize transformers by making them accessible to those with limited data and computing resources.
翻訳日:2021-07-08 07:44:24 公開日:2021-07-05
# (参考訳) テキストジャンルに対する敵対的攻撃の実験 [全文訳有]

Experiments with adversarial attacks on text genres ( http://arxiv.org/abs/2107.02246v1 )

ライセンス: CC BY-SA 4.0
Mikhail Lepekhin, Serge Sharoff(参考訳) BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、ジャンル識別などの非トピック分類を含む多くのNLPタスクにおいてSOTA結果を示す。 しかし、これらのアプローチはテストテキストの小さな変更に対して信頼性が低いことが多い。 関連するプローブlmは、トレーニングコーパスにおけるトピックバイアス、例えば、特定のジャンルにおける特定のトピックに対する単語の普及は、ジャンル分類器を騙して、このジャンルにおけるこのトピックに関するテキストを認識することができる。 信頼性問題を軽減するため,変圧器モデルの限界を理解し,性能を向上させるため,ジャンル分類器の攻撃手法を検討する。 tf-idfによって抽出されたキーワードを用いた単語置換に基づく単純なテキスト攻撃は、XLM-RoBERTaのような強力なモデルを識別することができないが、例えばTextFoolerのように、最も「重要な」単語を類似した単語で置き換えることができる埋め込みベースのアルゴリズムは、モデル予測にかなりの割合で影響を及ぼすことができることを示す。

Neural models based on pre-trained transformers, such as BERT or XLM-RoBERTa, demonstrate SOTA results in many NLP tasks, including non-topical classification, such as genre identification. However, often these approaches exhibit low reliability to minor alterations of the test texts. A related probelm concerns topical biases in the training corpus, for example, the prevalence of words on a specific topic in a specific genre can trick the genre classifier to recognise any text on this topic in this genre. In order to mitigate the reliability problem, this paper investigates techniques for attacking genre classifiers to understand the limitations of the transformer models and to improve their performance. While simple text attacks, such as those based on word replacement using keywords extracted by tf-idf, are not capable of deceiving powerful models like XLM-RoBERTa, we show that embedding-based algorithms which can replace some of the most ``significant'' words with words similar to them, for example, TextFooler, have the ability to influence model predictions in a significant proportion of cases.
翻訳日:2021-07-08 07:36:20 公開日:2021-07-05
# (参考訳) 設計による一般化:深層学習における一般化への近道 [全文訳有]

Generalization by design: Shortcuts to Generalization in Deep Learning ( http://arxiv.org/abs/2107.02253v1 )

ライセンス: CC BY 4.0
Petr Taborsky, Lars Kai Hansen(参考訳) 幾何的視点を取り,ブレグマン分岐損失関数を用いた教師付き深層学習の統一的視点を示す。 シミュレーションにより、我々は、主に、より単純な関数に対する深層モデルのバニラ確率勾配勾配トレーニングの暗黙バイアスがないことを示唆する。 代わりに、よい一般化は、新しい幾何正則化子に繋がる層上の有界スペクトル積によって導かれる可能性があることを示す。 十分に深いモデルでは、そのような正則化器は極端精度と一般化の両方に到達することができる。 我々は,重量減少,ドロップアウト,バッチ正規化,早期停止といった一般的な正規化手法を,この観点から関連付ける。 理論に裏付けられて、我々はさらに「設計による一般化」は事実上可能であり、良い一般化はネットワークの構造にエンコードできることを示した。 我々は、モデルアーキテクチャに追加の \textit{ Generalization Layer} を挿入する2つの簡単な構造正規化器を設計し、もう1つはスキップ接続を持ち、もう1つはドロップアウトを持つ。 我々はresnetやデータセット(mnist、cifar10、synthetic data)を含む様々なフィードフォワードおよび畳み込みアーキテクチャの実験において理論的結果を検証する。 この研究は、アーキテクチャをより一般化するための新たな研究の道を開くと信じています。

We take a geometrical viewpoint and present a unifying view on supervised deep learning with the Bregman divergence loss function - this entails frequent classification and prediction tasks. Motivated by simulations we suggest that there is principally no implicit bias of vanilla stochastic gradient descent training of deep models towards "simpler" functions. Instead, we show that good generalization may be instigated by bounded spectral products over layers leading to a novel geometric regularizer. It is revealed that in deep enough models such a regularizer enables both, extreme accuracy and generalization, to be reached. We associate popular regularization techniques like weight decay, drop out, batch normalization, and early stopping with this perspective. Backed up by theory we further demonstrate that "generalization by design" is practically possible and that good generalization may be encoded into the structure of the network. We design two such easy-to-use structural regularizers that insert an additional \textit{generalization layer} into a model architecture, one with a skip connection and another one with drop-out. We verify our theoretical results in experiments on various feedforward and convolutional architectures, including ResNets, and datasets (MNIST, CIFAR10, synthetic data). We believe this work opens up new avenues of research towards better generalizing architectures.
翻訳日:2021-07-08 07:25:03 公開日:2021-07-05
# (参考訳) 適応線形回帰における近似最適推定

Near-optimal inference in adaptive linear regression ( http://arxiv.org/abs/2107.02266v1 )

ライセンス: CC BY 4.0
Koulik Khamaru, Yash Deshpande, Lester Mackey, Martin J. Wainwright(参考訳) データが適応的に収集される場合、通常の最小二乗法のような単純な方法でさえ、非通常の漸近的な振る舞いを示す。 望ましくない結果として、漸近的正規性に基づく仮説テストと信頼区間は誤った結果をもたらす。 我々は,これらの分布異常を最小2乗推定で補正するオンラインデバイアス推定器を提案する。 提案手法は,データセットに存在する共分散構造を利用して,より多くの情報が得られた方向のよりシャープな推定を行う。 我々は,データ収集過程における軽度条件下でオンラインデバイアス推定器の漸近正規性を確立し,漸近的に正確な信頼区間を提供する。 さらに, 適応線形回帰問題に対する最小値下界を証明し, 推定器の比較を行うベースラインを提供する。 提案する推定器が対数因子までのミニマックス下限を達成する様々な条件が存在する。 我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などによる理論の有用性を実証する。

When data is collected in an adaptive manner, even simple methods like ordinary least squares can exhibit non-normal asymptotic behavior. As an undesirable consequence, hypothesis tests and confidence intervals based on asymptotic normality can lead to erroneous results. We propose an online debiasing estimator to correct these distributional anomalies in least squares estimation. Our proposed method takes advantage of the covariance structure present in the dataset and provides sharper estimates in directions for which more information has accrued. We establish an asymptotic normality property for our proposed online debiasing estimator under mild conditions on the data collection process, and provide asymptotically exact confidence intervals. We additionally prove a minimax lower bound for the adaptive linear regression problem, thereby providing a baseline by which to compare estimators. There are various conditions under which our proposed estimator achieves the minimax lower bound up to logarithmic factors. We demonstrate the usefulness of our theory via applications to multi-armed bandit, autoregressive time series estimation, and active learning with exploration.
翻訳日:2021-07-08 06:53:39 公開日:2021-07-05
# (参考訳) 文脈特有なニューラルシーケンス対シーケンス音声認識のためのインスタントワンショット単語学習 [全文訳有]

Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition ( http://arxiv.org/abs/2107.02268v1 )

ライセンス: CC BY 4.0
Christian Huber, Juan Hussain, Sebastian St\"uker, Alexander Waibel(参考訳) ニューラルシーケンスからシーケンスへのシステムは、自動音声認識(asr)のための最先端のパフォーマンスを提供する。 適切なモデリング単位、例えばバイトペアエンコード文字を使用する場合、これらのシステムは主要なオープン語彙システムである。 しかし実際には、訓練中に見られない単語、例えば名前付きエンティティ、番号、技術的用語を認識できないことが多い。 この問題を軽減するために,ワード/フレーズメモリを用いたエンドツーエンドasrシステムと,このメモリにアクセスして単語やフレーズを正しく認識する機構を補足する。 ASRシステムのトレーニングの後、既に配備されている場合、関連する単語を追加または減算することが可能で、さらなるトレーニングは不要である。 本稿では,この機構により,従来は強いベースラインに対して認識できなかった単語の85%以上を,我々のシステムが認識できることを実証する。

Neural sequence-to-sequence systems deliver state-of-the-art performance for automatic speech recognition (ASR). When using appropriate modeling units, e.g., byte-pair encoded characters, these systems are in principal open vocabulary systems. In practice, however, they often fail to recognize words not seen during training, e.g., named entities, numbers or technical terms. To alleviate this problem we supplement an end-to-end ASR system with a word/phrase memory and a mechanism to access this memory to recognize the words and phrases correctly. After the training of the ASR system, and when it has already been deployed, a relevant word can be added or subtracted instantly without the need for further training. In this paper we demonstrate that through this mechanism our system is able to recognize more than 85% of newly added words that it previously failed to recognize compared to a strong baseline.
翻訳日:2021-07-08 06:52:31 公開日:2021-07-05
# (参考訳) 逆行性睡眠を伴うデュエルバンド [全文訳有]

Dueling Bandits with Adversarial Sleeping ( http://arxiv.org/abs/2107.02274v1 )

ライセンス: CC BY 4.0
Aadirupa Saha, Pierre Gaillard(参考訳) 本稿では,確率的嗜好とDB-SPAA (Adversarial Availability) による睡眠デュエルバンドの問題点を紹介する。 例えば、小売店の管理、オンラインショッピング、レストランのレコメンデーション、検索エンジンの最適化などだ。 驚くべきことに、このデュエル・バンディットの「眠る側面」は文献で研究されていない。 デュエルバンドと同様に、ゴールはアイテムペアの好みのフィードバックを逐次クエリすることで、ベストアームと競合することである。 しかし、非自明性は任意の部分集合アイテムをラウンド毎に利用できないような非定常アイテム空間によって生じる。 目標は、各ラウンドで最高のアイテムを識別できる最適な"no-regret"ポリシーを見つけることであり、デュエルのバンドの標準的な"fixed best-arm regret objective"とは対照的である。 まず、DB-SPAA $\Omega( \sum_{i = 1}^{K-1}\sum_{j=i+1}^K \frac{\log T}{\Delta(i,j)})$に対してインスタンス固有の下限を導出します。 これは、従来のマルチアームバンディット(MAB)よりも、好みフィードバックによる睡眠問題は本質的に困難であることを示している。 次に,最善の後悔を保証できる2つのアルゴリズムを提案する。 我々の結果は実証的に裏付けられている。

We introduce the problem of sleeping dueling bandits with stochastic preferences and adversarial availabilities (DB-SPAA). In almost all dueling bandit applications, the decision space often changes over time; eg, retail store management, online shopping, restaurant recommendation, search engine optimization, etc. Surprisingly, this `sleeping aspect' of dueling bandits has never been studied in the literature. Like dueling bandits, the goal is to compete with the best arm by sequentially querying the preference feedback of item pairs. The non-triviality however results due to the non-stationary item spaces that allow any arbitrary subsets items to go unavailable every round. The goal is to find an optimal `no-regret' policy that can identify the best available item at each round, as opposed to the standard `fixed best-arm regret objective' of dueling bandits. We first derive an instance-specific lower bound for DB-SPAA $\Omega( \sum_{i =1}^{K-1}\sum_{j=i+1}^K \frac{\log T}{\Delta(i,j)})$, where $K$ is the number of items and $\Delta(i,j)$ is the gap between items $i$ and $j$. This indicates that the sleeping problem with preference feedback is inherently more difficult than that for classical multi-armed bandits (MAB). We then propose two algorithms, with near optimal regret guarantees. Our results are corroborated empirically.
翻訳日:2021-07-08 06:40:57 公開日:2021-07-05
# (参考訳) Sarcasm Detection : 比較検討 [全文訳有]

Sarcasm Detection: A Comparative Study ( http://arxiv.org/abs/2107.02276v1 )

ライセンス: CC BY 4.0
Hamed Yaghoobian, Hamid R. Arabnia, Khaled Rasheed(参考訳) サルカズム検出は、感情を含むテキスト中の発話を含む皮肉を識別するタスクである。 しかし、サルカズムの具体的かつ創造的な性質は感情分析を行う感情コンピューティングシステムにとって大きな課題となる。 本論文は, サーカズム自動検出の文献における有意な成果をまとめ, レビューする。 1) 暗黙的な感情を識別するための半教師付きパターン抽出、2) ハッシュタグに基づく監督、3) ターゲットテキストを超えたコンテキストの組込み、の3つである。 本稿では,皮肉や皮肉の検出におけるデータセット,アプローチ,トレンド,課題の包括的なレビューを行う。

Sarcasm detection is the task of identifying irony containing utterances in sentiment-bearing text. However, the figurative and creative nature of sarcasm poses a great challenge for affective computing systems performing sentiment analysis. This article compiles and reviews the salient work in the literature of automatic sarcasm detection. Thus far, three main paradigm shifts have occurred in the way researchers have approached this task: 1) semi-supervised pattern extraction to identify implicit sentiment, 2) use of hashtag-based supervision, and 3) incorporation of context beyond target text. In this article, we provide a comprehensive review of the datasets, approaches, trends, and issues in sarcasm and irony detection.
翻訳日:2021-07-08 06:04:02 公開日:2021-07-05
# (参考訳) garbage in, garbage out"の再検討: ヒューマンラベルトレーニングデータに関する機械学習応用論文はどのようなものか?

"Garbage In, Garbage Out" Revisited: What Do Machine Learning Application Papers Report About Human-Labeled Training Data? ( http://arxiv.org/abs/2107.02278v1 )

ライセンス: CC BY 4.0
R. Stuart Geiger, Dominique Cope, Jamie Ip, Marsha Lotosh, Aayush Shah, Jenny Weng, Rebekah Tang(参考訳) ラベル付きトレーニングデータからモデルを自動的に抽出する監視された機械学習は、そのデータの品質に匹敵する。 この研究は、単一のドメイン(ソーシャルメディアプラットフォーム)で適用されたMLパブリッシングにおいて、トレーニングデータのラベル付けに関する「ベストプラクティス」がどの程度追跡されたかを調査した先行研究に基づいている。 本稿では,人間ラベルデータに焦点をあて,教師付きMLを幅広い分野に応用する出版物の研究により拡大する。 我々は、分野をまたいだmlアプリケーション論文のランダムなサンプルが、ベストプラクティスが従ったかどうかの具体的な詳細を報告しながら、より多くのアプリケーションフィールドが必ずしもラベリングとアノテーションメソッドのより多様なものを生み出す必要があることを認めている。 機械学習の研究や教育の多くは、トレーニングデータの「根拠の真実」や「金の標準」が一度ある場合にのみ行われることに焦点を当てているため、そのようなデータがそもそも信頼できるかどうかという、等しく重要な側面に関する議論が特に重要である。 この決定は、様々な専門分野に適用されるとますます複雑になる。ラベリングは、バックグラウンド知識をほとんど必要としないタスクから、キャリアの専門知識を持つ人によって実行されなければならないタスクまで幅広い。

Supervised machine learning, in which models are automatically derived from labeled training data, is only as good as the quality of that data. This study builds on prior work that investigated to what extent 'best practices' around labeling training data were followed in applied ML publications within a single domain (social media platforms). In this paper, we expand by studying publications that apply supervised ML in a far broader spectrum of disciplines, focusing on human-labeled data. We report to what extent a random sample of ML application papers across disciplines give specific details about whether best practices were followed, while acknowledging that a greater range of application fields necessarily produces greater diversity of labeling and annotation methods. Because much of machine learning research and education only focuses on what is done once a "ground truth" or "gold standard" of training data is available, it is especially relevant to discuss issues around the equally-important aspect of whether such data is reliable in the first place. This determination becomes increasingly complex when applied to a variety of specialized fields, as labeling can range from a task requiring little-to-no background knowledge to one that must be performed by someone with career expertise.
翻訳日:2021-07-08 05:50:45 公開日:2021-07-05
# (参考訳) 畳み込みネットワークを用いたS-PLUSの銀河の形態分類 [全文訳有]

Morphological Classification of Galaxies in S-PLUS using an Ensemble of Convolutional Networks ( http://arxiv.org/abs/2107.02287v1 )

ライセンス: CC BY-SA 4.0
N. M. Cardoso, G. B. O. Schwarz, L. O. Dias, C. R. Bom, L. Sodr\'e Jr., C. Mendes de Oliveira(参考訳) 宇宙は様々な形を持つ銀河で構成されている。 銀河の構造が決定されると、その形成と進化に関する重要な情報を得ることができる。 形態学的に分類された銀河は、その視覚的な外観に応じてそれらを分類し、分類は銀河の物理的性質と結びついている。 視覚検査による形態分類は、人間のボランティアによる主観的観察によって導入されたバイアスである。 このため、天文学者エドウィン・ハッブルが有名な分類法を考案して以来、体系的で客観的かつ容易に再現可能な銀河分類の重要性が高まっている。 本研究では,Galaxy Zooプロジェクトの正確な視覚分類と,<emph {Deep Learning} 手法を組み合わせる。 目標は、人間のパフォーマンスレベル分類において効率的な手法を見つけることであるが、楕円銀河と渦巻銀河を分類するための体系的かつ自動的な方法である。 このために、ニューラルネットワークモデルは、他の4つの畳み込みモデルのアンサンブルによって作成され、どの個人でも得られるものよりも、分類の精度が高い。 個々のモデルの詳細や改善点についても述べる。 本研究は、S-PLUS(Southern Photometric Local Universe Survey)のDR1(www.datalab.noao .edu)の画像解析に基づいている。 分類の面では、Ensembleでは、テストサンプル(トレーニング済みネットワークを使用して)で99$\approx 99 \%の精度を達成しました。

The universe is composed of galaxies that have diverse shapes. Once the structure of a galaxy is determined, it is possible to obtain important information about its formation and evolution. Morphologically classifying galaxies means cataloging them according to their visual appearance and the classification is linked to the physical properties of the galaxy. A morphological classification made through visual inspection is subject to biases introduced by subjective observations made by human volunteers. For this reason, systematic, objective and easily reproducible classification of galaxies has been gaining importance since the astronomer Edwin Hubble created his famous classification method. In this work, we combine accurate visual classifications of the Galaxy Zoo project with \emph {Deep Learning} methods. The goal is to find an efficient technique at human performance level classification, but in a systematic and automatic way, for classification of elliptical and spiral galaxies. For this, a neural network model was created through an Ensemble of four other convolutional models, allowing a greater accuracy in the classification than what would be obtained with any one individual. Details of the individual models and improvements made are also described. The present work is entirely based on the analysis of images (not parameter tables) from DR1 (www.datalab.noao.ed u) of the Southern Photometric Local Universe Survey (S-PLUS). In terms of classification, we achieved, with the Ensemble, an accuracy of $\approx 99 \%$ in the test sample (using pre-trained networks).
翻訳日:2021-07-08 05:49:37 公開日:2021-07-05
# (参考訳) 細胞タイプのヒストグラム : 自動骨髄細胞診のための深層学習 [全文訳有]

Histogram of Cell Types: Deep Learning for Automated Bone Marrow Cytology ( http://arxiv.org/abs/2107.02293v1 )

ライセンス: CC BY 4.0
Rohollah Moosavi Tayebi, Youqing Mu, Taher Dehkharghanian, Catherine Ross, Monalisa Sur, Ronan Foley, Hamid R. Tizhoosh, and Clinton JV Campbell(参考訳) 骨髄細胞診は血液学的診断に必要であり、血液学の臨床的決定に影響を及ぼす。 しかし、骨髄細胞診は退屈で、経験豊富な参照センターに限られ、高いサーバ間変動を伴う。 これは遅れたり誤った診断につながる可能性があり、革新的な支援技術の必要性が残る。 人工骨髄細胞診のためのエンド・ツー・エンドのディープラーニング技術を開発した。 骨髄吸引デジタル全スライド画像から始まり,細胞診に適した部位を迅速かつ自動的に検出し,その後,各領域の全ての骨髄細胞を同定,分類する。 この集合細胞形態情報は、骨髄細胞のクラス分布を定量化し、細胞学的「患者指紋」として機能する、HCT(Histogram of Cell Types)と呼ばれる新しい表現で捉えられる。 このアプローチは、領域検出(0.97精度、0.99ROC AUC)と細胞検出と細胞分類(0.75mAP、0.78F1スコア、ログ平均ミスレート0.31)において高い精度を達成する。 HCTは、血液病理診断のワークフローに革命をもたらす可能性があり、よりコスト効率が高く、正確な診断をもたらし、正確な医療を行うための扉を開く。

Bone marrow cytology is required to make a hematological diagnosis, influencing critical clinical decision points in hematology. However, bone marrow cytology is tedious, limited to experienced reference centers and associated with high inter-observer variability. This may lead to a delayed or incorrect diagnosis, leaving an unmet need for innovative supporting technologies. We have developed the first ever end-to-end deep learning-based technology for automated bone marrow cytology. Starting with a bone marrow aspirate digital whole slide image, our technology rapidly and automatically detects suitable regions for cytology, and subsequently identifies and classifies all bone marrow cells in each region. This collective cytomorphological information is captured in a novel representation called Histogram of Cell Types (HCT) quantifying bone marrow cell class probability distribution and acting as a cytological "patient fingerprint". The approach achieves high accuracy in region detection (0.97 accuracy and 0.99 ROC AUC), and cell detection and cell classification (0.75 mAP, 0.78 F1-score, Log-average miss rate of 0.31). HCT has potential to revolutionize hematopathology diagnostic workflows, leading to more cost-effective, accurate diagnosis and opening the door to precision medicine.
翻訳日:2021-07-08 04:32:23 公開日:2021-07-05
# (参考訳) ガウス的信念伝播の視覚的導入 [全文訳有]

A visual introduction to Gaussian Belief Propagation ( http://arxiv.org/abs/2107.02308v1 )

ライセンス: CC BY 4.0
Joseph Ortiz, Talfan Evans, Andrew J. Davison(参考訳) 本稿では,任意に構成された因子グラフのノード間でメッセージを伝達する近似確率的推論アルゴリズムであるgaussian belief propagation(gbp)を視覚的に紹介する。 ループ的信念伝搬の特殊な場合、GBP更新はローカル情報のみに依存し、メッセージスケジュールとは独立して収束する。 我々の重要な論点は、最近のコンピューティングハードウェアのトレンドを考えると、GBPは将来の機械学習システムのためのスケーラブルな分散確率的推論フレームワークとして機能する適切な計算特性を持っているということです。

In this article, we present a visual introduction to Gaussian Belief Propagation (GBP), an approximate probabilistic inference algorithm that operates by passing messages between the nodes of arbitrarily structured factor graphs. A special case of loopy belief propagation, GBP updates rely only on local information and will converge independently of the message schedule. Our key argument is that, given recent trends in computing hardware, GBP has the right computational properties to act as a scalable distributed probabilistic inference framework for future machine learning systems.
翻訳日:2021-07-08 04:10:33 公開日:2021-07-05
# (参考訳) RSNA-ASNR-MICCAI BraTS 2021 ベンチマークによる脳腫瘍分離と放射線ゲノム分類 [全文訳有]

The RSNA-ASNR-MICCAI BraTS 2021 Benchmark on Brain Tumor Segmentation and Radiogenomic Classification ( http://arxiv.org/abs/2107.02314v1 )

ライセンス: CC BY 4.0
Ujjwal Baid, Satyam Ghodasara, Michel Bilello, Suyash Mohan, Evan Calabrese, Errol Colak, Keyvan Farahani, Jayashree Kalpathy-Cramer, Felipe C. Kitamura, Sarthak Pati, Luciano M. Prevedello, Jeffrey D. Rudie, Chiharu Sako, Russell T. Shinohara, Timothy Bergquist, Rong Chai, James Eddy, Julia Elliott, Walter Reade, Thomas Schaffter, Thomas Yu, Jiaxin Zheng, BraTS Annotators, Christos Davatzikos, John Mongan, Christopher Hess, Soonmee Cha, Javier Villanueva-Meyer, John B. Freymann, Justin S. Kirby, Benedikt Wiestler, Priscila Crivellaro, Rivka R.Colen, Aikaterini Kotrotsou, Daniel Marcus, Mikhail Milchenko, Arash Nazeri, Hassan Fathallah-Shaykh, Roland Wiest, Andras Jakab, Marc-Andre Weber, Abhishek Mahajan, Bjoern Menze, Adam E. Flanders, Spyridon Bakas(参考訳) brats 2021チャレンジは10周年を記念し、アメリカ放射線学会(rsna)、アメリカ神経放射線学会(asnr)、医療画像コンピューティングおよびコンピュータ支援介入協会(miccai)によって共同で組織されている。 BraTSは、その誕生以来、脳神経グリオーマセグメンテーションアルゴリズムの共通のベンチマーク場所として、よく計算された多施設間マルチパラメトリック磁気共鳴画像(mpMRI)データに焦点を当ててきた。 グリオーマは中枢神経系の最も一般的な悪性腫瘍であり、攻撃性や予後の程度が異なる。 RSNA-ASNR-MICCAI BraTS 2021の課題は、2000人の術前ベースラインmpMRIデータにおいて、同じ腫瘍区画化を評価する計算アルゴリズムの評価と、基礎となる腫瘍の分子的特徴を目標としている。 具体的には、BraTS 2021が重視する2つの課題は、a) 組織学的に異なる脳腫瘍サブ領域のセグメンテーション、b) 腫瘍のO[6]-メチルグアニン-DNAメチルトランスフェラーゼ(MGMT)プロモーターメチル化状態の分類である。 BraTS 2021の全参加アルゴリズムのパフォーマンス評価は、Sage Bionetworks Synapse Platform (Task 1) と Kaggle (Task2) を通じて行われ、総計6万ドル(約6700万円)の参加者に分配される。

The BraTS 2021 challenge celebrates its 10th anniversary and is jointly organized by the Radiological Society of North America (RSNA), the American Society of Neuroradiology (ASNR), and the Medical Image Computing and Computer Assisted Interventions (MICCAI) society. Since its inception, BraTS has been focusing on being a common benchmarking venue for brain glioma segmentation algorithms, with well-curated multi-institutional multi-parametric magnetic resonance imaging (mpMRI) data. Gliomas are the most common primary malignancies of the central nervous system, with varying degrees of aggressiveness and prognosis. The RSNA-ASNR-MICCAI BraTS 2021 challenge targets the evaluation of computational algorithms assessing the same tumor compartmentalization , as well as the underlying tumor's molecular characterization, in pre-operative baseline mpMRI data from 2,000 patients. Specifically, the two tasks that BraTS 2021 focuses on are: a) the segmentation of the histologically distinct brain tumor sub-regions, and b) the classification of the tumor's O[6]-methylguanine-DNA methyltransferase (MGMT) promoter methylation status. The performance evaluation of all participating algorithms in BraTS 2021 will be conducted through the Sage Bionetworks Synapse platform (Task 1) and Kaggle (Task 2), concluding in distributing to the top ranked participants monetary awards of $60,000 collectively.
翻訳日:2021-07-08 03:54:02 公開日:2021-07-05
# (参考訳) 腹腔鏡におけるリアルタイム手術器具分割のための深層学習法の検討 [全文訳有]

Exploring Deep Learning Methods for Real-Time Surgical Instrument Segmentation in Laparoscopy ( http://arxiv.org/abs/2107.02319v1 )

ライセンス: CC BY 4.0
Debesh Jha, Sharib Ali, Michael A. Riegler, Dag Johansen, H{\aa}vard D. Johansen, P{\aa}l Halvorsen(参考訳) 最小侵襲手術は腹部の臓器を検査するために用いられる外科的手術であり、開腹手術に効果があるため広く用いられている。 高精細度カメラなどのハードウェアの改良により、この手順は大幅に改善され、新しいソフトウェア手法がコンピュータ支援の手順に可能性を示している。 しかし,これらの手術における器具の位置検出と追跡を改善するための課題と要件が存在する。 そこで本研究では,腹腔鏡下手術器具の自動分節法について,ツールトラッキングに向けた重要なステップである,一般的な深層学習手法の評価と比較を行った。 実験の結果,DDANet(Dual Decoder attention network)は近年の深層学習に比べて優れた結果が得られることがわかった。 DDANetは、Dice係数が0.8739で、Robost Medical Instrument Segmentation (ROBUST-MIS) Challenge 2019データセットの0.8183の平均交叉数は、そのような手順に不可欠な101.36フレーム/秒のリアルタイム速度である。

Minimally invasive surgery is a surgical intervention used to examine the organs inside the abdomen and has been widely used due to its effectiveness over open surgery. Due to the hardware improvements such as high definition cameras, this procedure has significantly improved and new software methods have demonstrated potential for computer-assisted procedures. However, there exists challenges and requirements to improve detection and tracking of the position of the instruments during these surgical procedures. To this end, we evaluate and compare some popular deep learning methods that can be explored for the automated segmentation of surgical instruments in laparoscopy, an important step towards tool tracking. Our experimental results exhibit that the Dual decoder attention network (DDANet) produces a superior result compared to other recent deep learning methods. DDANet yields a Dice coefficient of 0.8739 and mean intersection-over-un ion of 0.8183 for the Robust Medical Instrument Segmentation (ROBUST-MIS) Challenge 2019 dataset, at a real-time speed of 101.36 frames-per-second that is critical for such procedures.
翻訳日:2021-07-08 03:28:46 公開日:2021-07-05
# 長短変換器:言語と視覚のための効率的な変換器

Long-Short Transformer: Efficient Transformers for Language and Vision ( http://arxiv.org/abs/2107.02192v1 )

ライセンス: Link先を確認
Chen Zhu, Wei Ping, Chaowei Xiao, Mohammad Shoeybi, Tom Goldstein, Anima Anandkumar, Bryan Catanzaro(参考訳) トランスフォーマーは言語と視覚の両方で成功している。 しかし、セルフアテンション機構は入力シーケンス長に対して二次時間とメモリ複雑度を有するため、長い文書や高解像度画像などの長いシーケンスにスケールすることは、非常に高価である。 本稿では,言語タスクと視覚タスクの両方において,線形複雑性を持つ長いシーケンスをモデリングするための効率的なセルフアテンション機構であるlong-short transformer (transformer-ls)を提案する。 遠距離相関をモデル化するダイナミックプロジェクションと、細粒度局所相関を捉えるための短期的注意と、新たな長距離注意を集約する。 2つの注意機構間のスケールミスマッチを考慮した2つの正規化戦略を提案する。 Transformer-LSは、追加の複雑さなしに自動回帰モデルと双方向モデルの両方に適用できる。 提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。 例えば、Transformer-LS は enwik8 上の 0.97 のテスト BPC を、以前の方法よりも半分のパラメータを使って達成するが、高速で、同じハードウェアのフルアテンションバージョンに比べて 3$\times$ の長いシーケンスを処理できる。 ImageNetでは、224$\times$224 ImageNet-1KでトレーニングされたTop-1精度84.1%のような最先端の結果が得られる。 モデルとソースコードはまもなくリリースされる。

Transformers have achieved success in both language and vision domains. However, it is prohibitively expensive to scale them to long sequences such as long documents or high-resolution images, because self-attention mechanism has quadratic time and memory complexities with respect to the input sequence length. In this paper, we propose Long-Short Transformer (Transformer-LS), an efficient self-attention mechanism for modeling long sequences with linear complexity for both language and vision tasks. It aggregates a novel long-range attention with dynamic projection to model distant correlations and a short-term attention to capture fine-grained local correlations. We propose a dual normalization strategy to account for the scale mismatch between the two attention mechanisms. Transformer-LS can be applied to both autoregressive and bidirectional models without additional complexity. Our method outperforms the state-of-the-art models on multiple tasks in language and vision domains, including the Long Range Arena benchmark, autoregressive language modeling, and ImageNet classification. For instance, Transformer-LS achieves 0.97 test BPC on enwik8 using half the number of parameters than previous method, while being faster and is able to handle 3$\times$ as long sequences compared to its full-attention version on the same hardware. On ImageNet, it can obtain the state-of-the-art results~(e.g., Top-1 accuracy 84.1% trained on 224$\times$224 ImageNet-1K only), while being more scalable on high-resolution images. The models and source code will be released soon.
翻訳日:2021-07-07 14:04:29 公開日:2021-07-05
# VolNet:1枚のRGB画像から人体の一部を推定する

VolNet: Estimating Human Body Part Volumes from a Single RGB Image ( http://arxiv.org/abs/2107.02259v1 )

ライセンス: Link先を確認
Fabian Leinen, Vittorio Cozzolino, Torsten Sch\"on(参考訳) 単一のRGB画像から人体体積を推定することは、研究コミュニティの注意を最小限に抑えながら難しい問題である。 しかし, 2次元および3次元ポーズ推定, 1つの2次元rgb画像から抽出した体部セグメント化, 容積回帰を, 被験者の体高と組み合わせることで, 総体容積を推定できる。 VolNetは2Dと3Dのポーズと中間タスクの身体部分のセグメンテーションを予測するように設計されている。 SURREALvolsと呼ばれる、幅広い身体形状とリアルなポーズを持つ、人間の身体の大規模な写真リアル画像の合成データセットを作成した。 volnetを使い、複数の砂時計ネットワークとresnextを組み合わせることで、このモデルは10%の許容しきい値を持つ82%のケースのボリュームを正確に予測した。 これはBodyNetのような最先端のソリューションに比べて、わずか38%の成功率で大幅に改善されている。

Human body volume estimation from a single RGB image is a challenging problem despite minimal attention from the research community. However VolNet, an architecture leveraging 2D and 3D pose estimation, body part segmentation and volume regression extracted from a single 2D RGB image combined with the subject's body height can be used to estimate the total body volume. VolNet is designed to predict the 2D and 3D pose as well as the body part segmentation in intermediate tasks. We generated a synthetic, large-scale dataset of photo-realistic images of human bodies with a wide range of body shapes and realistic poses called SURREALvols. By using Volnet and combining multiple stacked hourglass networks together with ResNeXt, our model correctly predicted the volume in ~82% of cases with a 10% tolerance threshold. This is a considerable improvement compared to state-of-the-art solutions such as BodyNet with only a ~38% success rate.
翻訳日:2021-07-07 14:03:49 公開日:2021-07-05
# 学習可能な論理ルールによる名前付きエンティティタグの弱監視

Weakly Supervised Named Entity Tagging with Learnable Logical Rules ( http://arxiv.org/abs/2107.02282v1 )

ライセンス: Link先を確認
Jiacheng Li, Haibo Ding, Jingbo Shang, Julian McAuley, Zhe Feng(参考訳) 本稿では,いくつかのルールを弱い監督として用いることで,エンティティタグ付けシステム構築の問題点について検討する。 従来のメソッドは主にコンテキストと専門家が提供するルールに基づいた曖昧なエンティティタイプにフォーカスし、エンティティスパンが与えられると仮定する。 本研究では,高品質な論理規則をブートストラップして,ニューラルネットワークを完全自動で学習するTALLORを提案する。 具体的には,境界検出の精度を高め,より多様な擬似ラベルを生成するために,単純な規則からなる複合規則を導入する。 我々はさらに,疑似ラベル品質を確保するために動的ラベル選択戦略を考案する。 3つのデータセットの実験により、我々の手法は他の弱い教師付き手法よりも優れており、20の単純なルールから始めると2000以上の用語で最先端の教師付きタグと競合することを示した。 我々の手法は、新しいドメインやタスクでタグを迅速に構築するためのツールとして機能する。 ケーススタディは、学習したルールが予測された実体を説明できることを示している。

We study the problem of building entity tagging systems by using a few rules as weak supervision. Previous methods mostly focus on disambiguation entity types based on contexts and expert-provided rules, while assuming entity spans are given. In this work, we propose a novel method TALLOR that bootstraps high-quality logical rules to train a neural tagger in a fully automated manner. Specifically, we introduce compound rules that are composed from simple rules to increase the precision of boundary detection and generate more diverse pseudo labels. We further design a dynamic label selection strategy to ensure pseudo label quality and therefore avoid overfitting the neural tagger. Experiments on three datasets demonstrate that our method outperforms other weakly supervised methods and even rivals a state-of-the-art distantly supervised tagger with a lexicon of over 2,000 terms when starting from only 20 simple rules. Our method can serve as a tool for rapidly building taggers in emerging domains and tasks. Case studies show that learned rules can potentially explain the predicted entities.
翻訳日:2021-07-07 14:02:48 公開日:2021-07-05
# 聴取エージェント:複数感覚システムを用いた高出力強化学習

Agents that Listen: High-Throughput Reinforcement Learning with Multiple Sensory Systems ( http://arxiv.org/abs/2107.02195v1 )

ライセンス: Link先を確認
Shashank Hegde, Anssi Kanervisto, Aleksei Petrenko(参考訳) 人間や他の知的動物は、複数の感覚様相を結合した高度に洗練された知覚システムを進化させた。 一方で、最先端の人工エージェントは、主に計測された環境によって提供される視覚入力や構造化された低次元の観察に依存している。 視覚と聴覚の組み合わせに基づく行動学習は、単純なシナリオを超えて研究されていない研究の新たなトピックである。 この領域の進展を促進するために,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築する。 本研究では,自然言語による音声認識と指示の実行をエージェントが要求する一連のタスクにおいて,異なるモデルアーキテクチャの性能について検討する。 最後に、エージェントにDoomのフルゲームをするよう訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることを見つけます。 現在、拡張シミュレータをメインのViZDoomコードリポジトリにマージ中です。 ビデオデモと実験コードはhttps://sites.google .com/view/sound-rl.c omで見ることができる。

Humans and other intelligent animals evolved highly sophisticated perception systems that combine multiple sensory modalities. On the other hand, state-of-the-art artificial agents rely mostly on visual inputs or structured low-dimensional observations provided by instrumented environments. Learning to act based on combined visual and auditory inputs is still a new topic of research that has not been explored beyond simple scenarios. To facilitate progress in this area we introduce a new version of VizDoom simulator to create a highly efficient learning environment that provides raw audio observations. We study the performance of different model architectures in a series of tasks that require the agent to recognize sounds and execute instructions given in natural language. Finally, we train our agent to play the full game of Doom and find that it can consistently defeat a traditional vision-based adversary. We are currently in the process of merging the augmented simulator with the main ViZDoom code repository. Video demonstrations and experiment code can be found at https://sites.google .com/view/sound-rl.
翻訳日:2021-07-07 14:01:05 公開日:2021-07-05
# 不均一性とあいまいさにおけるメタラーニング

Meta-learning Amidst Heterogeneity and Ambiguity ( http://arxiv.org/abs/2107.02228v1 )

ライセンス: Link先を確認
Kyeongryeol Go, Seyoung Yun(参考訳) メタラーニングは、未知だが共有分布から生成される複数のタスクを扱えるモデルを学ぶことを目的としている。 しかし、典型的なメタ学習アルゴリズムは、一つのメタラーナーが全ての側面のバリエーションを集約するのに十分なタスクを仮定している。 さらに、限られた情報がコンテキストとして与えられる場合の不確実性については考慮されていない。 本稿では, タスク識別能力に基づく予測の面で, 先行研究よりも優れるメタラーニングフレームワークであるmaha(meta-learning amidst heterogeneity and ambiguity)を考案する。 回帰と分類のいくつかの実験を広範囲に実施することにより、タスクの不均一性と曖昧性の両方に頑健なモデルの有効性を実証する。

Meta-learning aims to learn a model that can handle multiple tasks generated from an unknown but shared distribution. However, typical meta-learning algorithms have assumed the tasks to be similar such that a single meta-learner is sufficient to aggregate the variations in all aspects. In addition, there has been less consideration on uncertainty when limited information is given as context. In this paper, we devise a novel meta-learning framework, called Meta-learning Amidst Heterogeneity and Ambiguity (MAHA), that outperforms previous works in terms of prediction based on its ability on task identification. By extensively conducting several experiments in regression and classification, we demonstrate the validity of our model, which turns out to be robust to both task heterogeneity and ambiguity.
翻訳日:2021-07-07 14:00:50 公開日:2021-07-05
# 製造における説明可能な人工知能の展望

A Review of Explainable Artificial Intelligence in Manufacturing ( http://arxiv.org/abs/2107.02295v1 )

ライセンス: Link先を確認
Georgios Sofianidis, Jo\v{z}e M. Ro\v{z}anec, Dunja Mladeni\'c, Dimosthenis Kyriazis(参考訳) 製造領域における人工知能(AI)システムの実装は、高い生産効率、優れた性能、より安全な運用を可能にし、ディープラーニングや強化学習技術といった強力なツールを活用する。 これらのモデルの精度は高いが、ほとんどはブラックボックスと見なされており、人間には理解できない。 不透明さは、意思決定の文脈において重要な要因であるシステムの信頼に影響を与える。 本稿では,モデルの透明性を高める手段として,説明可能な人工知能(XAI)技術の概要を紹介する。 これらの技術を評価するために異なるメトリクスを分析し、製造領域におけるいくつかのアプリケーションシナリオを説明する。

The implementation of Artificial Intelligence (AI) systems in the manufacturing domain enables higher production efficiency, outstanding performance, and safer operations, leveraging powerful tools such as deep learning and reinforcement learning techniques. Despite the high accuracy of these models, they are mostly considered black boxes: they are unintelligible to the human. Opaqueness affects trust in the system, a factor that is critical in the context of decision-making. We present an overview of Explainable Artificial Intelligence (XAI) techniques as a means of boosting the transparency of models. We analyze different metrics to evaluate these techniques and describe several application scenarios in the manufacturing domain.
翻訳日:2021-07-07 14:00:36 公開日:2021-07-05
# セグメンテーションネットワークにおけるラベルノイズ : 緩和はバイアスに対処しなければならない

Label noise in segmentation networks : mitigation must deal with bias ( http://arxiv.org/abs/2107.02189v1 )

ライセンス: Link先を確認
Eugene Vorontsov, Samuel Kadoury(参考訳) 不完全なラベルは、ディープニューラルネットワークによって学習される予測の品質を制限する。 これは医用画像のセグメンテーションにおいて特に重要であり、参照アノテーションの収集が困難であり、専門家アノテータの間でも顕著に異なる。 ラベルノイズを緩和する以前の研究は、主に一様雑音の単純なモデルに焦点を当てていた。 本研究では,mriデータに対する脳腫瘍アノテーションに人工的に導入したバイアス付きおよび偏りのない誤りについて検討する。 教師付きおよび半教師付きセグメンテーション法は,非バイアスエラーに対して頑健であり,バイアスエラーに対しては敏感であることがわかった。 したがって、医用画像ラベルに期待される誤りの種類を特定し、特に偏りを緩和することが重要である。

Imperfect labels limit the quality of predictions learned by deep neural networks. This is particularly relevant in medical image segmentation, where reference annotations are difficult to collect and vary significantly even across expert annotators. Prior work on mitigating label noise focused on simple models of mostly uniform noise. In this work, we explore biased and unbiased errors artificially introduced to brain tumour annotations on MRI data. We found that supervised and semi-supervised segmentation methods are robust or fairly robust to unbiased errors but sensitive to biased errors. It is therefore important to identify the sorts of errors expected in medical image labels and especially mitigate the biased errors.
翻訳日:2021-07-07 13:57:48 公開日:2021-07-05
# コネクティビティ問題:効果的なスパーシティのレンズを通してニューラルネットワークをpruningする

Connectivity Matters: Neural Network Pruning Through the Lens of Effective Sparsity ( http://arxiv.org/abs/2107.02306v1 )

ライセンス: Link先を確認
Artem Vysogorets, Julia Kempe(参考訳) ニューラルネットワークの刈り取りは、高いスパース性体制への関心が高まっている実りある研究分野である。 この領域でのベンチマークは、伝統的に除去された接続(直接の間隔)のごく一部として計算されたサブネットワークの疎さの忠実な表現に大きく依存している。 しかし、この定義は、基盤となるサブネットワークの入力層や出力層から切り離された未実行パラメータを認識できず、実際の有効間隔を過小評価する可能性がある。 この効果は、適度に刈り取られたネットワーク(最大10-100圧縮速度)では無視できるかもしれないが、より薄いサブネットでは、異なるプルーニングアルゴリズムの比較を大幅に歪ませる役割を担っている。 例えば、ランダムに刈り取られたLeNet-300-100の効率的な圧縮は、直接の圧縮よりも桁違いに大きくなり得るが、SynFlowをプルーニングに使用する場合の差は見つからない(Tanaka et al., 2020)。 本稿では,共通ベンチマークアーキテクチャ(例えば,lenet-300-100,vgg-1 9,resnet-18)における近年のpruningアルゴリズムを再評価し,その絶対的および相対的性能が,この新しいフレームワークで劇的に変化することを発見した。 直接的ではなく、効果的に目的を達成するため、我々はほとんどのプルーニングアルゴリズムの低コストな拡張を開発した。 さらに,参照フレームとして効果的なスパース性を備えることにより,初期化(su et al., 2020)におけるより洗練されたプルーニングアルゴリズムよりも,レイヤ間の適切なスパース性割り当てによるランダムプルーニングが有効であることを部分的に再確認する。 この観察に呼応して、物理から結合円柱内の圧力分布の単純なアナロジーを用いて、無作為な刈り取りの文脈で既存の全てのベースラインを上回る新しい層分割スパーシティクォータを設計した。

Neural network pruning is a fruitful area of research with surging interest in high sparsity regimes. Benchmarking in this domain heavily relies on faithful representation of the sparsity of subnetworks, which has been traditionally computed as the fraction of removed connections (direct sparsity). This definition, however, fails to recognize unpruned parameters that detached from input or output layers of underlying subnetworks, potentially underestimating actual effective sparsity: the fraction of inactivated connections. While this effect might be negligible for moderately pruned networks (up to 10-100 compression rates), we find that it plays an increasing role for thinner subnetworks, greatly distorting comparison between different pruning algorithms. For example, we show that effective compression of a randomly pruned LeNet-300-100 can be orders of magnitude larger than its direct counterpart, while no discrepancy is ever observed when using SynFlow for pruning [Tanaka et al., 2020]. In this work, we adopt the lens of effective sparsity to reevaluate several recent pruning algorithms on common benchmark architectures (e.g., LeNet-300-100, VGG-19, ResNet-18) and discover that their absolute and relative performance changes dramatically in this new and more appropriate framework. To aim for effective, rather than direct, sparsity, we develop a low-cost extension to most pruning algorithms. Further, equipped with effective sparsity as a reference frame, we partially reconfirm that random pruning with appropriate sparsity allocation across layers performs as well or better than more sophisticated algorithms for pruning at initialization [Su et al., 2020]. In response to this observation, using a simple analogy of pressure distribution in coupled cylinders from physics, we design novel layerwise sparsity quotas that outperform all existing baselines in the context of random pruning.
翻訳日:2021-07-07 13:57:37 公開日:2021-07-05
# 効率的な1次文脈帯域:予測・割当・三角形判別

Efficient First-Order Contextual Bandits: Prediction, Allocation, and Triangular Discrimination ( http://arxiv.org/abs/2107.02237v1 )

ライセンス: Link先を確認
Dylan J. Foster and Akshay Krishnamurthy(参考訳) 統計的学習、オンライン学習、その他の分野における繰り返しのテーマは、ノイズの低い問題に対してより高速な収束率が可能であり、最良の仮説のパフォーマンスによって定量化されることが多い。 1次保証は統計的およびオンライン学習において比較的よく理解されているが、文脈的帯域幅(およびより広くは意思決定)の低ノイズに適応することは、アルゴリズム上の大きな課題をもたらす。 COLT 2017のオープンな問題において、Agarwal、Krishnamurthy、Langford、Luo、Schapireは、文脈的な盗賊に対して一階保証が可能であるかどうか、そして、もしそうなら、効率的なアルゴリズムで達成できるかどうかを尋ねた。 対数的(あるいはクロスエントロピー的)な損失を伴って、文脈的帯域幅からオンライン回帰への最適かつ効率的な削減を提供することにより、この問題に対する解決策を与える。 本アルゴリズムは単純かつ実用的であり,リッチな関数クラスに容易に対応でき,実現可能性以上の分布的仮定を必要としない。 大規模な経験的評価では、我々の手法は典型的には同等の非一階法より優れている。 技術面では、対数損失と三角弁別と呼ばれる情報理論的な量が、一階保証を得る上で基本的な役割を担っていることを示し、この観察と新たな改良とフォスターとラークリンの回帰オラクル削減フレームワークを組み合わせる。 三角形の識別は,古典的統計学習モデルにおいても新たな結果をもたらし,より広範な利用が期待できる。

A recurring theme in statistical learning, online learning, and beyond is that faster convergence rates are possible for problems with low noise, often quantified by the performance of the best hypothesis; such results are known as first-order or small-loss guarantees. While first-order guarantees are relatively well understood in statistical and online learning, adapting to low noise in contextual bandits (and more broadly, decision making) presents major algorithmic challenges. In a COLT 2017 open problem, Agarwal, Krishnamurthy, Langford, Luo, and Schapire asked whether first-order guarantees are even possible for contextual bandits and -- if so -- whether they can be attained by efficient algorithms. We give a resolution to this question by providing an optimal and efficient reduction from contextual bandits to online regression with the logarithmic (or, cross-entropy) loss. Our algorithm is simple and practical, readily accommodates rich function classes, and requires no distributional assumptions beyond realizability. In a large-scale empirical evaluation, we find that our approach typically outperforms comparable non-first-order methods. On the technical side, we show that the logarithmic loss and an information-theoreti c quantity called the triangular discrimination play a fundamental role in obtaining first-order guarantees, and we combine this observation with new refinements to the regression oracle reduction framework of Foster and Rakhlin. The use of triangular discrimination yields novel results even for the classical statistical learning model, and we anticipate that it will find broader use.
翻訳日:2021-07-07 13:54:12 公開日:2021-07-05
# TransformerFusion: Transformer を用いた単眼 RGB シーン再構成

TransformerFusion: Monocular RGB Scene Reconstruction using Transformers ( http://arxiv.org/abs/2107.02191v1 )

ライセンス: Link先を確認
Alja\v{z} Bo\v{z}i\v{c}, Pablo Palafox, Justus Thies, Angela Dai, Matthias Nie{\ss}ner(参考訳) 本稿ではトランスフォーマーを用いた3次元シーン再構築手法であるTransformerFusionを紹介する。 入力単眼のRGBビデオから、映像フレームはトランスフォーマーネットワークによって処理され、シーンを表すボリューム特徴グリッドに融合し、この特徴グリッドは暗黙の3Dシーン表現にデコードされる。 提案手法の鍵となるのがトランスフォーマーアーキテクチャで、シーン内の3D位置ごとに最も関連性の高い画像フレームを学習し、シーン再構築タスクのみによって管理する。 機能は粗大な方法で融合し、必要な時にのみ詳細な機能を格納し、メモリストレージを低くし、対話的なレートで融合を可能にする。 特徴格子は、補間された粗い3次元特徴からMLPに基づく表面占有率予測を用いて、高解像度のシーン再構成にデコードされる。 本手法は, 高精度な表面再構成, 最先端のマルチビューステレオ深度推定法, 完全畳み込み3次元再構成法, ビデオシーケンス融合のためのlstmまたはgrを用いたアプローチを実現する。

We introduce TransformerFusion, a transformer-based 3D scene reconstruction approach. From an input monocular RGB video, the video frames are processed by a transformer network that fuses the observations into a volumetric feature grid representing the scene; this feature grid is then decoded into an implicit 3D scene representation. Key to our approach is the transformer architecture that enables the network to learn to attend to the most relevant image frames for each 3D location in the scene, supervised only by the scene reconstruction task. Features are fused in a coarse-to-fine fashion, storing fine-level features only where needed, requiring lower memory storage and enabling fusion at interactive rates. The feature grid is then decoded to a higher-resolution scene reconstruction, using an MLP-based surface occupancy prediction from interpolated coarse-to-fine 3D features. Our approach results in an accurate surface reconstruction, outperforming state-of-the-art multi-view stereo depth estimation methods, fully-convolutional 3D reconstruction approaches, and approaches using LSTM- or GRU-based recurrent networks for video sequence fusion.
翻訳日:2021-07-07 13:53:01 公開日:2021-07-05
# 加齢関連黄斑変性領域の自動推定 -- 最初の結果

Automated age-related macular degeneration area estimation -- first results ( http://arxiv.org/abs/2107.02211v1 )

ライセンス: Link先を確認
Rokas Pe\v{c}iulis and Mantas Luko\v{s}evi\v{c}ius and Algimantas Kri\v{s}\v{c}iukaitis and Robertas Petrolis and Dovil\.e Buteikien\.e(参考訳) 本研究の目的は,rgb眼底画像における加齢黄斑変性(amd)病変の自動検出法の検討である。 そこで我々は,侵襲的に得られた眼底コントラスト画像(Golden Standard)をRGB画像と整合させ,病変の診断に使用した。 これは私たちのカスタムメイドツールを使って行われます。 データを用いて、5つの異なる畳み込みニューラルネットワークをトレーニングし、テストする:健康でAMDに影響を受けた眼底組織を分類するカスタムネットワークと、影響を受けた眼底画像のAMD病変を分類(ローカライズ)するために、ResNet50、ResNet101、MobileNetV3、UNetの4つのよく知られたネットワーク。 mobilenetv3を用いたセグメンテーションでは,93.55%の精度と69.71%のダイス指数が最良である。

This work aims to research an automatic method for detecting Age-related Macular Degeneration (AMD) lesions in RGB eye fundus images. For this, we align invasively obtained eye fundus contrast images (the "golden standard" diagnostic) to the RGB ones and use them to hand-annotate the lesions. This is done using our custom-made tool. Using the data, we train and test five different convolutional neural networks: a custom one to classify healthy and AMD-affected eye fundi, and four well-known networks: ResNet50, ResNet101, MobileNetV3, and UNet to segment (localize) the AMD lesions in the affected eye fundus images. We achieve 93.55% accuracy or 69.71% Dice index as the preliminary best results in segmentation with MobileNetV3.
翻訳日:2021-07-07 13:52:40 公開日:2021-07-05
# エンド・ツー・エンド合同エンティティへの知識ベース情報注入と関係抽出と参照解決

Injecting Knowledge Base Information into End-to-End Joint Entity and Relation Extraction and Coreference Resolution ( http://arxiv.org/abs/2107.02286v1 )

ライセンス: Link先を確認
Severine Verlinden, Klim Zaporojets, Johannes Deleu, Thomas Demeester, Chris Develder(参考訳) 本稿では,文書全体の名前付きエンティティ認識,コリファレンス解決,関係抽出を共同で解く統合情報抽出(ie)モデルを提案する。 特に,このようなieモデルにおける知識ベース(kb)からの情報注入について,教師なしのエンティティリンクに基づいて検討する。 i) hyperlinked text document (wikipedia) または (ii) knowledge graph (wikidata) のいずれかから、使用中のkbエンティティ表現が学習され、ieのパフォーマンス向上に相補的に現れる。 入力文書のテキストスパン表現に対応するエンティティリンク(EL)候補の表現を追加し、(i)先行(Wikipedia)に基づくEL候補表現の重み付き平均値と(ii)EL候補リスト上の注意スキームを用いて実験する。 結果は、2つのデータセットで評価されたIEタスクに対して、最大5%のF1スコアの増加を示す。 先行モデルの性能は高いが, 定量的および定性的分析により, 注意に基づくアプローチの利点が明らかとなった。

We consider a joint information extraction (IE) model, solving named entity recognition, coreference resolution and relation extraction jointly over the whole document. In particular, we study how to inject information from a knowledge base (KB) in such IE model, based on unsupervised entity linking. The used KB entity representations are learned from either (i) hyperlinked text documents (Wikipedia), or (ii) a knowledge graph (Wikidata), and appear complementary in raising IE performance. Representations of corresponding entity linking (EL) candidates are added to text span representations of the input document, and we experiment with (i) taking a weighted average of the EL candidate representations based on their prior (in Wikipedia), and (ii) using an attention scheme over the EL candidate list. Results demonstrate an increase of up to 5% F1-score for the evaluated IE tasks on two datasets. Despite a strong performance of the prior-based model, our quantitative and qualitative analysis reveals the advantage of using the attention-based approach.
翻訳日:2021-07-07 13:50:56 公開日:2021-07-05
# トランスフォーマーは会話構造を認識するか? 対話行為認識における文脈・句読点・ラベルの重要性

What Helps Transformers Recognize Conversational Structure? Importance of Context, Punctuation, and Labels in Dialog Act Recognition ( http://arxiv.org/abs/2107.02294v1 )

ライセンス: Link先を確認
Piotr \.Zelasko, Raghavendra Pappagari, Najim Dehak(参考訳) ダイアログの動作は会話の原子単位と解釈することができ、特定のコミュニケーション機能によって特徴づけられる発声よりもきめ細かいものである。 ダイアログのシーケンスとして会話の書き起こしを構造化する能力 -- セグメンテーションを含むダイアログアクト認識 -- は、ダイアログを理解する上で不可欠である。 本稿では,XLNetとLongformerという2つの事前学習型トランスフォーマーモデルを適用し,Switchboard Dialog Act と Meeting Recorder Dialog Act corpora において8.4%,14.2%のダイアログアクトセグメンテーション誤り率(DSER)で強い結果を得た。 対話行動認識に影響を及ぼす要因を理解するために,異なる条件下で訓練されたモデルの比較分析を行った。 我々は、より広い会話コンテキストを含めることで、多くのダイアログアクトクラス、特にトレーニングデータに乏しいクラスを曖昧にすることができることを見出した。 転写文中の句読点の存在はモデルの性能に大きな影響を及ぼし、詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。 最後に,ラベルセットの特異性はダイアログアクトセグメンテーション性能に影響を与えないことがわかった。 これらの知見は,高品質なセグメンテーションに大きく依存する音声言語理解アプリケーションに重要な意味を持つ。

Dialog acts can be interpreted as the atomic units of a conversation, more fine-grained than utterances, characterized by a specific communicative function. The ability to structure a conversational transcript as a sequence of dialog acts -- dialog act recognition, including the segmentation -- is critical for understanding dialog. We apply two pre-trained transformer models, XLNet and Longformer, to this task in English and achieve strong results on Switchboard Dialog Act and Meeting Recorder Dialog Act corpora with dialog act segmentation error rates (DSER) of 8.4% and 14.2%. To understand the key factors affecting dialog act recognition, we perform a comparative analysis of models trained under different conditions. We find that the inclusion of a broader conversational context helps disambiguate many dialog act classes, especially those infrequent in the training data. The presence of punctuation in the transcripts has a massive effect on the models' performance, and a detailed analysis reveals specific segmentation patterns observed in its absence. Finally, we find that the label set specificity does not affect dialog act segmentation performance. These findings have significant practical implications for spoken language understanding applications that depend heavily on a good-quality segmentation being available.
翻訳日:2021-07-07 13:50:39 公開日:2021-07-05
# 生産における知識モデリングとアクティブラーニング

Knowledge Modelling and Active Learning in Manufacturing ( http://arxiv.org/abs/2107.02298v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Inna Novalija, d Patrik Zajec, Klemen Kenda, Dunja Mladeni\'c(参考訳) 製造領域のデジタル化の増大は、関連する情報を取得するのに十分な知識モデリングを必要とする。 オントロジーと知識グラフは、幅広い概念、問題、構成をモデル化し、関連付ける手段を提供する。 どちらも帰納的推論と不足した知識の識別を通じて新しい知識を生成するために使うことができる。 デジタル化は利用可能なデータ量を増やすが、多くのデータはラベル付けされておらず、教師付き機械学習モデルのトレーニングに直接使用することができない。 アクティブラーニングは、ユーザのフィードバックを取得し、摩擦を減らし、知識獲得を最大化する最も有益なデータインスタンスを特定するために使用できる。 セマンティック技術とアクティブラーニングを組み合わせることで、利用可能な知識とデータを活用することで、製造領域における複数のユースケースに対処することができる。

The increasing digitalization of the manufacturing domain requires adequate knowledge modeling to capture relevant information. Ontologies and Knowledge Graphs provide means to model and relate a wide range of concepts, problems, and configurations. Both can be used to generate new knowledge through deductive inference and identify missing knowledge. While digitalization increases the amount of data available, much data is not labeled and cannot be directly used to train supervised machine learning models. Active learning can be used to identify the most informative data instances for which to obtain users' feedback, reduce friction, and maximize knowledge acquisition. By combining semantic technologies and active learning, multiple use cases in the manufacturing domain can be addressed taking advantage of the available knowledge and data.
翻訳日:2021-07-07 13:49:50 公開日:2021-07-05
# 人物再識別におけるグラフ畳み込み

Graph Convolution for Re-ranking in Person Re-identification ( http://arxiv.org/abs/2107.02220v1 )

ライセンス: Link先を確認
Yuqi Zhang, Qian Qi, Chong Liu, Weihua Chen, Fan Wang, Hao Li, Rong Jin(参考訳) 近年,人物再識別(re-ID)における類似性計算の特徴抽出にディープラーニングが広く応用され,大きな成功を収めている。 しかし、トレーニングIDとテストIDの重複がないため、モデルトレーニングに使用されるデータとテストデータの違いは、テスト中に学習した機能の性能を劣化させる。 そのため,この問題を軽減するために再ランク付けが提案され,様々なアルゴリズムが開発されている。 しかし、既存の再ランク付け手法のほとんどはユークリッド距離を、下流タスクにフレンドリではなく、実際のアプリケーションで大量のデータの高速検索に使用するのが難しい高度な距離メトリクスに置き換えることに焦点を当てている。 本研究では, ユークリッド距離を類似度指標として保ちながら, 学習特徴量を改善するグラフベース再分類手法を提案する。 グラフ畳み込みネットワークに着想を得て,適切なグラフ上で特徴を伝搬する演算子を開発した。 グラフは伝播の鍵となるため、グラフの設計には2つの重要な基準が考慮され、3つの異なるグラフが探索される。 さらに,ビデオ中の各トラックレットのプロファイルベクトルを生成するための簡易かつ効果的な手法を提案し,この手法をビデオ再IDに拡張するのに役立つ。 market-1501, duke, marsの3つのベンチマークデータセットに関する広範な実験により,提案手法の有効性が示された。

Nowadays, deep learning is widely applied to extract features for similarity computation in person re-identification (re-ID) and have achieved great success. However, due to the non-overlapping between training and testing IDs, the difference between the data used for model training and the testing data makes the performance of learned feature degraded during testing. Hence, re-ranking is proposed to mitigate this issue and various algorithms have been developed. However, most of existing re-ranking methods focus on replacing the Euclidean distance with sophisticated distance metrics, which are not friendly to downstream tasks and hard to be used for fast retrieval of massive data in real applications. In this work, we propose a graph-based re-ranking method to improve learned features while still keeping Euclidean distance as the similarity metric. Inspired by graph convolution networks, we develop an operator to propagate features over an appropriate graph. Since graph is the essential key for the propagation, two important criteria are considered for designing the graph, and three different graphs are explored accordingly. Furthermore, a simple yet effective method is proposed to generate a profile vector for each tracklet in videos, which helps extend our method to video re-ID. Extensive experiments on three benchmark data sets, e.g., Market-1501, Duke, and MARS, demonstrate the effectiveness of our proposed approach.
翻訳日:2021-07-07 13:49:12 公開日:2021-07-05
# LightFuse:軽量CNNベースのデュアル露光融合

LightFuse: Lightweight CNN based Dual-exposure Fusion ( http://arxiv.org/abs/2107.02299v1 )

ライセンス: Link先を確認
Ziyi Liu, Jie Yang, Orly Yadid-Pecht(参考訳) 深部畳み込みニューラルネットワーク(DCNN)は近年,高ダイナミックレンジ(HDR)イメージングに多くの注目を集めている。 DCNN生成したHDR画像の品質は、従来の画像よりも優れています。 しかし、DCNNは計算集約的で電力消費が高い傾向にある。 この問題に対処するため,我々は,消費電力とハードウェアリソースの制限のある様々な組込みコンピューティングプラットフォームに実装可能な,極端にデュアルエクスプロイアな画像融合のための軽量cnnベースのアルゴリズムであるlightfuseを提案する。 GlobalNet (G) と DetailNet (D) の2つのサブネットワークが利用されている。 g の目標は空間次元に関する大域的な照明情報を学ぶことであるが、d はチャネル次元の局所的な詳細を強化することを目的としている。 g と d はいずれも、必要パラメータと計算量を減らすために、深さ方向畳み込み (d conv) と点方向畳み込み (p conv) のみに基づいている。 実験の結果, 極端に露出した領域において, 精細なhdr画像を生成することができた。 我々のPSNRスコアは他の最先端の手法を1.2倍から1.6倍に上回り、FLOPの1.4倍から20倍のパラメータ削減を実現した。

Deep convolutional neural networks (DCNN) aided high dynamic range (HDR) imaging recently received a lot of attention. The quality of DCNN generated HDR images have overperformed the traditional counterparts. However, DCNN is prone to be computationally intensive and power-hungry. To address the challenge, we propose LightFuse, a light-weight CNN-based algorithm for extreme dual-exposure image fusion, which can be implemented on various embedded computing platforms with limited power and hardware resources. Two sub-networks are utilized: a GlobalNet (G) and a DetailNet (D). The goal of G is to learn the global illumination information on the spatial dimension, whereas D aims to enhance local details on the channel dimension. Both G and D are based solely on depthwise convolution (D Conv) and pointwise convolution (P Conv) to reduce required parameters and computations. Experimental results display that the proposed technique could generate HDR images with plausible details in extremely exposed regions. Our PSNR score exceeds the other state-of-the-art approaches by 1.2 to 1.6 times and achieves 1.4 to 20 times FLOP and parameter reduction compared with others.
翻訳日:2021-07-07 13:41:01 公開日:2021-07-05
# クラウドソーシング型ソフトウェア開発におけるタスクスケジューリングの進化的アルゴリズム

An Evolutionary Algorithm for Task Scheduling in Crowdsourced Software Development ( http://arxiv.org/abs/2107.02202v1 )

ライセンス: Link先を確認
Razieh Saremi, Hardik Yagnik, Julian Togelius, Ye Yang, and Guenther Ruhe(参考訳) ソフトウェアタスクの複雑さとクラウド開発者行動の不確実性により、クラウドソーシングソフトウェア開発(CSD)プロジェクトの計画が困難になる。 競合するクラウドソーシング市場では、複数のオープンタスクからの共有ワーカーリソースの競争が、ソフトウェアクラウドソーシングの潜在的な結果に別の不確実性をもたらします。 これらの要因は、クラウドソーシングプロセスや成果の可視性と予測性を改善するために、自動スケジューリングによるCSDマネージャのサポートの必要性につながります。 そこで本研究では,クラウドソーシングソフトウェア開発のための進化的アルゴリズムに基づくタスクスケジューリング手法を提案する。 提案手法は,多目的遺伝的アルゴリズムを用いて最適なタスク開始日を推薦する。 本手法は,プロジェクト期間,タスク類似度,タスク故障予測の3つの適合度関数を利用する。 タスク障害適合関数はニューラルネットワークを使用して、特定のタスク開始日に関してタスク障害の確率を予測する。 提案手法では,プロジェクト全体の開始日と各タスクの開始日を推奨し,プロジェクトの失敗率の最小化を図る。 4つのプロジェクトの実験結果から,提案手法はプロジェクト期間を33~78%短縮できる可能性が示された。

The complexity of software tasks and the uncertainty of crowd developer behaviors make it challenging to plan crowdsourced software development (CSD) projects. In a competitive crowdsourcing marketplace, competition for shared worker resources from multiple simultaneously open tasks adds another layer of uncertainty to the potential outcomes of software crowdsourcing. These factors lead to the need for supporting CSD managers with automated scheduling to improve the visibility and predictability of crowdsourcing processes and outcomes. To that end, this paper proposes an evolutionary algorithm-based task scheduling method for crowdsourced software development. The proposed evolutionary scheduling method uses a multiobjective genetic algorithm to recommend an optimal task start date. The method uses three fitness functions, based on project duration, task similarity, and task failure prediction, respectively. The task failure fitness function uses a neural network to predict the probability of task failure with respect to a specific task start date. The proposed method then recommends the best tasks start dates for the project as a whole and each individual task so as to achieve the lowest project failure ratio. Experimental results on 4 projects demonstrate that the proposed method has the potential to reduce project duration by a factor of 33-78%.
翻訳日:2021-07-07 13:37:39 公開日:2021-07-05
# シンボリックシーケンス学習のためのLSTMとGRUネットワークの比較

A comparison of LSTM and GRU networks for learning symbolic sequences ( http://arxiv.org/abs/2107.02248v1 )

ライセンス: Link先を確認
Roberto Cahuantzi, Xinye Chen, Stefan G\"uttel(参考訳) 我々は、リカレントニューラルネットワーク(RNN)のハイパーパラメータと、記憶可能な文字列列の複雑さの関係について検討する。 長寿命メモリ(LSTM)ネットワークとゲートリカレントユニット(GRU)を比較した。 トレーニング時間が制約された場合,RNN深度の増加は必ずしも記憶能力の向上をもたらすとは限らない。 また,学習速度と1層あたりのユニット数も,調整すべき最も重要なハイパーパラメータの一つであることを示す。 一般的に、GRUは低複雑性シーケンス上でLSTMネットワークを上回り、高複雑性シーケンスではLSTMの性能が向上する。

We explore relations between the hyper-parameters of a recurrent neural network (RNN) and the complexity of string sequences it is able to memorize. We compare long short-term memory (LSTM) networks and gated recurrent units (GRUs). We find that an increase of RNN depth does not necessarily result in better memorization capability when the training time is constrained. Our results also indicate that the learning rate and the number of units per layer are among the most important hyper-parameters to be tuned. Generally, GRUs outperform LSTM networks on low complexity sequences while on high complexity sequences LSTMs perform better.
翻訳日:2021-07-07 13:37:21 公開日:2021-07-05
# 雑音によるパリティ学習のためのメモリサンプル下限

Memory-Sample Lower Bounds for Learning Parity with Noise ( http://arxiv.org/abs/2107.02320v1 )

ライセンス: Link先を確認
Sumegha Garg, Pravesh K. Kothari, Pengda Liu and Ran Raz(参考訳) 本研究では、雑音下でのパリティをよく研究する問題に対して、学習者は、$x=(x_1,\ldots,x_n) \in \{0,1\}^n$を確率$\frac{1}{2}+\varepsilon$で正し確率$\frac{1}{2}-\varepsilon$で正し、確率$\frac{1}{2}-\varepsilon$で反転するランダム線形方程式のストリームから学習しようとする。 実際に,サンプルがうるさい場合に,[GRT'18]によって特徴付けられるような,大規模な学習問題に対するメモリサンプルの低い境界について検討する。 行列 $M: A \times X \rightarrow \{-1,1\}$ は、誤差パラメータ $\varepsilon$:未知の要素 $x \in X$ がランダムに一様に選択される、以下の学習問題に対応する。 a_1, b_1), (a_2, b_2) \ldots$, ここで、各$i$, $a_i \in a$はランダムに選択され、$b_i = m(a_i,x)$ with probability $1/2+\varepsilon$ and $b_i = -m(a_i,x)$ with probability $1/2-\varepsilon$ ($0<\varepsilon< \frac{1}{2}$)。 $k,\ell, r$ は、少なくとも$2^{-k} \cdot |A|$ rows と少なくとも$2^{-\ell} \cdot |X|$ columns の任意の部分行列が、少なくとも$2^{-r}$のバイアスを持つようなものであると仮定する。 誤差のある$m$に対応する学習問題の学習アルゴリズムは、少なくとも$\omega\left(\frac{k \cdot \ell}{\varepsilon} \right)$または少なくとも$2^{\omega(r)}$のサンプルを必要とする。 特に、[grt'18]と同じ、大きな学習問題のクラスでは、任意の学習アルゴリズムは、少なくとも$\omega\left(\frac{(\log |x|) \cdot (\log |a|)}{\varepsilon}\right)$または指数関数数のノイズサンプルを必要とする。 我々の証明は[Raz'17,GRT'18]の引数をノイズケースに適応させることに基づいている。

In this work, we show, for the well-studied problem of learning parity under noise, where a learner tries to learn $x=(x_1,\ldots,x_n) \in \{0,1\}^n$ from a stream of random linear equations over $\mathrm{F}_2$ that are correct with probability $\frac{1}{2}+\varepsilon$ and flipped with probability $\frac{1}{2}-\varepsilon$, that any learning algorithm requires either a memory of size $\Omega(n^2/\varepsilon)$ or an exponential number of samples. In fact, we study memory-sample lower bounds for a large class of learning problems, as characterized by [GRT'18], when the samples are noisy. A matrix $M: A \times X \rightarrow \{-1,1\}$ corresponds to the following learning problem with error parameter $\varepsilon$: an unknown element $x \in X$ is chosen uniformly at random. A learner tries to learn $x$ from a stream of samples, $(a_1, b_1), (a_2, b_2) \ldots$, where for every $i$, $a_i \in A$ is chosen uniformly at random and $b_i = M(a_i,x)$ with probability $1/2+\varepsilon$ and $b_i = -M(a_i,x)$ with probability $1/2-\varepsilon$ ($0<\varepsilon< \frac{1}{2}$). Assume that $k,\ell, r$ are such that any submatrix of $M$ of at least $2^{-k} \cdot |A|$ rows and at least $2^{-\ell} \cdot |X|$ columns, has a bias of at most $2^{-r}$. We show that any learning algorithm for the learning problem corresponding to $M$, with error, requires either a memory of size at least $\Omega\left(\frac{k \cdot \ell}{\varepsilon} \right)$, or at least $2^{\Omega(r)}$ samples. In particular, this shows that for a large class of learning problems, same as those in [GRT'18], any learning algorithm requires either a memory of size at least $\Omega\left(\frac{(\log |X|) \cdot (\log |A|)}{\varepsilon}\right)$ or an exponential number of noisy samples. Our proof is based on adapting the arguments in [Raz'17,GRT'18] to the noisy case.
翻訳日:2021-07-07 13:37:13 公開日:2021-07-05
# 深層学習に基づくプラズマシミュレーションのための粒子インセル法

A Deep Learning-Based Particle-in-Cell Method for Plasma Simulations ( http://arxiv.org/abs/2107.02232v1 )

ライセンス: Link先を確認
Xavier Aguilar and Stefano Markidis(参考訳) 我々は、電子相空間から電場を計算するために、Deep-Learning (DL) を用いたプラズマシミュレーションのための新しいParticle-in-Cell (PIC) 法を設計、開発する。 マルチ層パーセプトロン (MLP) と畳み込みニューラルネットワーク (CNN) を訓練し, 2ストリームの不安定性テストを解決する。 DL-based MLP PIC法は2ストリーム不安定性を用いて正しい結果が得られることを検証し, DL-based PICは2ストリーム不安定性の予測成長率を提供する。 DLベースのPICは総エネルギーと運動量を保持しない。 しかし,DLに基づくPIC法はコールドビーム不安定性に対して安定であり,従来のPIC法に影響を及ぼす。 この研究は、DL技術を従来の計算手法に統合することは、次世代のPICアルゴリズムを開発する上で有効なアプローチであることを示している。

We design and develop a new Particle-in-Cell (PIC) method for plasma simulations using Deep-Learning (DL) to calculate the electric field from the electron phase space. We train a Multilayer Perceptron (MLP) and a Convolutional Neural Network (CNN) to solve the two-stream instability test. We verify that the DL-based MLP PIC method produces the correct results using the two-stream instability: the DL-based PIC provides the expected growth rate of the two-stream instability. The DL-based PIC does not conserve the total energy and momentum. However, the DL-based PIC method is stable against the cold-beam instability, affecting traditional PIC methods. This work shows that integrating DL technologies into traditional computational methods is a viable approach for developing next-generation PIC algorithms.
翻訳日:2021-07-07 13:32:43 公開日:2021-07-05
# 配電系統におけるロバスト断層位置の物理インフォームグラフ学習

Physics-Informed Graph Learning for Robust Fault Location in Distribution Systems ( http://arxiv.org/abs/2107.02275v1 )

ライセンス: Link先を確認
Wenting Li, Deepjyoti Deka(参考訳) 分散エネルギー資源の急速な成長は電力グリッドの不安定性を高める可能性がある。 1つの有望な戦略は、検出と位置によって異常事象(例えば障害)に効率的に応答するために電力網にデータを使用することである。 残念ながら、既存のほとんどの作品は物理的解釈に欠けており、スパース観測、ラベル付きデータセットの不十分、確率的環境といった実践的な課題に弱い。 そこで本研究では,2段階のグラフ学習フレームワークを提案する。 ステージIは、電力グリッドの幾何学構造をグラフニューラルネットワーク(GNN)に通知することに焦点を当て、ステージIIはラベル付きおよびラベルなしのデータサンプルの物理的類似性を利用して位置精度を向上させる。 分散観測の課題に対処し、正しい予測確率を高めるために、gnnの設計の基盤となるランダムウォークを提供する。 提案手法は,IEEE 123ノードベンチマークシステムにおける3つのベースラインと比較し,特にラベルレートが低い場合,他の手法よりも優れていることを示す。 また,トポロジの変化や負荷変動による配電データ(ODD)に対するアルゴリズムの堅牢性も検証した。 さらに、このグラフ学習フレームワークをIEEE 37ノードテストフィードに適応させ、提案したトレーニング戦略で高い位置性能を示す。

The rapid growth of distributed energy resources potentially increases power grid instability. One promising strategy is to employ data in power grids to efficiently respond to abnormal events (e.g., faults) by detection and location. Unfortunately, most existing works lack physical interpretation and are vulnerable to the practical challenges: sparse observation, insufficient labeled datasets, and stochastic environment. We propose a physics-informed graph learning framework of two stages to handle these challenges when locating faults. Stage- I focuses on informing a graph neural network (GNN) with the geometrical structure of power grids; stage-II employs the physical similarity of labeled and unlabeled data samples to improve the location accuracy. We provide a random walk-based the underpinning of designing our GNNs to address the challenge of sparse observation and augment the correct prediction probability. We compare our approach with three baselines in the IEEE 123-node benchmark system, showing that the proposed method outperforms the others by significant margins, especially when label rates are low. Also, we validate the robustness of our algorithms to out-of-distribution- data (ODD) due to topology changes and load variations. Additionally, we adapt our graph learning framework to the IEEE 37-node test feeder and show high location performance with the proposed training strategy.
翻訳日:2021-07-07 13:32:27 公開日:2021-07-05
# 蛍光顕微鏡による2次元単一分子局在のdeepcel0

DeepCEL0 for 2D Single Molecule Localization in Fluorescence Microscopy ( http://arxiv.org/abs/2107.02281v1 )

ライセンス: Link先を確認
Pasquale Cascarano, Maria Colomba Comes, Andrea Sebastiani, Arianna Mencattini, Elena Loli Piccolomini, Eugenio Martinelli(参考訳) 蛍光顕微鏡では、単分子局在顕微鏡(smlm)技術は、電離エミッターの小さなサブセットを確率的に活性化・イメージングすることで、高精度の高密度蛍光分子を局在化することを目的としている。 超分解能(SR)は、本質的な光回折限界を超えることができるため、この分野において重要な役割を果たす。 本研究では,SMLM法により得られた高密度フレームの高精度な分子局在化のための深層学習に基づくアルゴリズムを提案する。 この$\ell_{0}$ は連続的な$\ell_{0}$ (cel0) によって緩和される。 deepcel0と呼ばれるアプローチはパラメータフリーで柔軟性があり、より高速で、他の最先端の手法と比較して正確な分子局在マップを提供する。 シミュレーションおよび実蛍光顕微鏡データを用いて本手法の有効性を検証する。

In fluorescence microscopy, Single Molecule Localization Microscopy (SMLM) techniques aim at localizing with high precision high density fluorescent molecules by stochastically activating and imaging small subsets of blinking emitters. Super Resolution (SR) plays an important role in this field since it allows to go beyond the intrinsic light diffraction limit. In this work, we propose a deep learning-based algorithm for precise molecule localization of high density frames acquired by SMLM techniques whose $\ell_{2}$-based loss function is regularized by positivity and $\ell_{0}$-based constraints. The $\ell_{0}$ is relaxed through its Continuous Exact $\ell_{0}$ (CEL0) counterpart. The arising approach, named DeepCEL0, is parameter-free, more flexible, faster and provides more precise molecule localization maps if compared to the other state-of-the-art methods. We validate our approach on both simulated and real fluorescence microscopy data.
翻訳日:2021-07-07 13:32:05 公開日:2021-07-05
# 微視的尺度のクラスタリング構造

Clustering Structure of Microstructure Measures ( http://arxiv.org/abs/2107.02283v1 )

ライセンス: Link先を確認
Liao Zhu, Ningning Sun, Martin T. Wells(参考訳) 本稿では,市場マイクロ構造指標のクラスタリングモデルを構築し,株価リターンの予測に人気がある。 10秒の時間周波数で、様々な尺度のクラスタリング構造を調べ、予測する最良の方法を見つけ出す。 このように、限られた数の予測器でより正確に予測でき、ノイズを除去し、モデルをより解釈できる。

This paper builds the clustering model of measures of market microstructure features which are popular in predicting the stock returns. In a 10-second time frequency, we study the clustering structure of different measures to find out the best ones for predicting. In this way, we can predict more accurately with a limited number of predictors, which removes the noise and makes the model more interpretable.
翻訳日:2021-07-07 13:31:49 公開日:2021-07-05
# (参考訳) 代数的ショートカット融合による多型動的プログラミング [全文訳有]

Polymorphic dynamic programming by algebraic shortcut fusion ( http://arxiv.org/abs/2107.01752v1 )

ライセンス: CC BY-SA 4.0
Max A. Little and Ugur Kayas(参考訳) 動的プログラミング (dp) は広く適用可能なアルゴリズム設計パラダイムであり、それ以外は難解な組合せ問題に対する効率的で正確な解法である。 しかし、そのようなアルゴリズムの設計は、しばしばアドホックな方法で非公式に提示され、その結果、正しく適用することはしばしば困難である。 本稿では,既存のDPアルゴリズムから,あるいは単純な機能的再帰から,新しいDPアルゴリズムを体系的に導出するための厳密な代数形式について述べる。 これらの導出は、任意の半環に対して証明可能正確かつ多型なアルゴリズムに導かれるので、半環の観点で表現可能な組合せ問題の全範囲に適用することができる。 例えば、最適化、最適確率、ビタビ復号、確率的辺縁化、論理的推論、ファジィ集合、微分可能なソフトマックス、リレーショナルおよび前駆的クエリなどである。 このアプローチは、構成的アルゴリズムに関する既存の文献からの多くのアイデアに基づいており、(半)多型函数、tuplingとformal sums(リフト)、および制約代数から生じる代数的単純化の一般的な性質を利用する。 本稿では,信号処理,バイオインフォマティクス,信頼性工学などの応用例について,この形式の有効性を示す。

Dynamic programming (DP) is a broadly applicable algorithmic design paradigm for the efficient, exact solution of otherwise intractable, combinatorial problems. However, the design of such algorithms is often presented informally in an ad-hoc manner, and as a result is often difficult to apply correctly. In this paper, we present a rigorous algebraic formalism for systematically deriving novel DP algorithms, either from existing DP algorithms or from simple functional recurrences. These derivations lead to algorithms which are provably correct and polymorphic over any semiring, which means that they can be applied to the full scope of combinatorial problems expressible in terms of semirings. This includes, for example: optimization, optimal probability and Viterbi decoding, probabilistic marginalization, logical inference, fuzzy sets, differentiable softmax, and relational and provenance queries. The approach, building on many ideas from the existing literature on constructive algorithmics, exploits generic properties of (semiring) polymorphic functions, tupling and formal sums (lifting), and algebraic simplifications arising from constraint algebras. We demonstrate the effectiveness of this formalism for some example applications arising in signal processing, bioinformatics and reliability engineering.
翻訳日:2021-07-06 23:42:57 公開日:2021-07-05
# (参考訳) 自己意識とドメイン知識を用いたDlaunay Triangulationの学習 [全文訳有]

Learning Delaunay Triangulation using Self-attention and Domain Knowledge ( http://arxiv.org/abs/2107.01759v1 )

ライセンス: CC BY 4.0
Jaeseung Lee, Woojin Choi, Jibum Kim(参考訳) delaunay三角測量は様々な応用でよく知られた幾何学的組合せ最適化問題である。 多くのアルゴリズムは入力点集合からデラウネー三角関数を生成することができるが、ほとんどのアルゴリズムは幾何学の理解を必要とする非自明なアルゴリズムである。 深層学習は様々な組合せ最適化問題を解くために用いられてきたが、深層学習に基づくデラウネー三角測量の生成は難しい問題であり、その複雑さから研究はごくわずかである。 本稿では,自己注意とドメイン知識に基づく新しい注意機構を用いて,dlaunay三角測量を学習するための新しいディープラーニング手法を提案する。 提案モデルは,エンコーダ内の自己照準を用いて,ポイント・ツー・ポイント関係を効率的に学習するように設計されている。 このデコーダでは、幾何学的要件が満たされない場合に高いペナルティを与えるために、ドメイン知識を用いた新たな注目スコア関数を提案する。 提案した注目スコア関数の強みは、その応用を幾何学を含む他の組合せ最適化問題に拡張する能力にある。 提案するニューラルネットモデルが十分に訓練されている場合、追加の幾何演算を必要とせずに入力点集合のドローネー三角測量を自動的に予測するので、単純かつ効率的である。 提案手法の有効性を実証するために実験を行い,他の深層学習手法と比較して優れた性能を示した。

Delaunay triangulation is a well-known geometric combinatorial optimization problem with various applications. Many algorithms can generate Delaunay triangulation given an input point set, but most are nontrivial algorithms requiring an understanding of geometry or the performance of additional geometric operations, such as the edge flip. Deep learning has been used to solve various combinatorial optimization problems; however, generating Delaunay triangulation based on deep learning remains a difficult problem, and very few research has been conducted due to its complexity. In this paper, we propose a novel deep-learning-based approach for learning Delaunay triangulation using a new attention mechanism based on self-attention and domain knowledge. The proposed model is designed such that the model efficiently learns point-to-point relationships using self-attention in the encoder. In the decoder, a new attention score function using domain knowledge is proposed to provide a high penalty when the geometric requirement is not satisfied. The strength of the proposed attention score function lies in its ability to extend its application to solving other combinatorial optimization problems involving geometry. When the proposed neural net model is well trained, it is simple and efficient because it automatically predicts the Delaunay triangulation for an input point set without requiring any additional geometric operations. We conduct experiments to demonstrate the effectiveness of the proposed model and conclude that it exhibits better performance compared with other deep-learning-based approaches.
翻訳日:2021-07-06 23:08:40 公開日:2021-07-05
# (参考訳) 画像分類のための連続コントラスト型自己教師型学習 [全文訳有]

Continual Contrastive Self-supervised Learning for Image Classification ( http://arxiv.org/abs/2107.01776v1 )

ライセンス: CC BY 4.0
Zhiwei Lin, Yongtao Wang and Hongxiang Lin(参考訳) 人工知能システムでは,データストリームからの時間経過による継続的学習が不可欠である。 教師なし連続学習の研究は大きな進歩を遂げ、教師なし学習における破滅的な忘れ込みの研究はいまだに空白である。 教師なし学習手法の中で、自己監督学習法は、大規模にラベル付けされたデータを持たない視覚表現に大きな可能性を示す。 自己教師あり学習の視覚的表現を改善するためには,より大きく,より多様なデータが必要である。 現実世界では、ラベルのないデータが常に生成される。 この状況は、自己教師付き手法の学習に大きな利点をもたらす。 しかし、現在のパラダイムでは、以前のデータと現在のデータをまとめて、再度トレーニングすることは時間とリソースの無駄です。 したがって、継続的な自己教師付き学習方法が必要となる。 本稿では,過去のデータからいくつかの例を取り出すリハーサル手法を提案することで,コントラスト的自己教師付き学習を実現するための最初の試みを行う。 学習のための現在のデータセットと保存されたエクソンプラを直接組み合わせるのではなく、従来のネットワークで推定される類似度スコア分布を模倣して、過去のデータ間のコントラスト情報を現在のネットワークに転送するために自己教師付き知識蒸留を利用する。 さらに,過去のデータと現在のデータを区別し,自己の特徴表現を学習しながら相互干渉を防止するために,追加のサンプルキューを構築する。 実験の結果,CIFAR100とImageNet-Subでは良好な性能を示した。 自己教師付きベースラインと比較して,cifar100では1.60%,インクリメンタルなステップ設定では2.86%の精度向上を実現している。

For artificial learning systems, continual learning over time from a stream of data is essential. The burgeoning studies on supervised continual learning have achieved great progress, while the study of catastrophic forgetting in unsupervised learning is still blank. Among unsupervised learning methods, self-supervise learning method shows tremendous potential on visual representation without any labeled data at scale. To improve the visual representation of self-supervised learning, larger and more varied data is needed. In the real world, unlabeled data is generated at all times. This circumstance provides a huge advantage for the learning of the self-supervised method. However, in the current paradigm, packing previous data and current data together and training it again is a waste of time and resources. Thus, a continual self-supervised learning method is badly needed. In this paper, we make the first attempt to implement the continual contrastive self-supervised learning by proposing a rehearsal method, which keeps a few exemplars from the previous data. Instead of directly combining saved exemplars with the current data set for training, we leverage self-supervised knowledge distillation to transfer contrastive information among previous data to the current network by mimicking similarity score distribution inferred by the old network over a set of saved exemplars. Moreover, we build an extra sample queue to assist the network to distinguish between previous and current data and prevent mutual interference while learning their own feature representation. Experimental results show that our method performs well on CIFAR100 and ImageNet-Sub. Compared with self-supervised baselines, which learning tasks one by one without taking any technique, we improve the image classification top-1 accuracy by 1.60% on CIFAR100 and 2.86% on ImageNet-Sub under 10 incremental steps setting.
翻訳日:2021-07-06 22:53:18 公開日:2021-07-05
# (参考訳) 不均衡二分分類の統計理論 [全文訳有]

Statistical Theory for Imbalanced Binary Classification ( http://arxiv.org/abs/2107.01777v1 )

ライセンス: CC BY 4.0
Shashank Singh, Justin Khim(参考訳) 二元分類のために開発された膨大な統計理論の中で、データが2つのクラスのうちの1つのサンプルによって支配される不均衡分類について有意義な結果がほとんど存在しない。 既存の理論は少なくとも2つの大きな課題に直面している。 第一に、有意義な結果は分類精度よりも複雑な性能測定を考慮しなければならない。 これに対処するために,混乱行列から計算された任意の性能指標に対するベイズ最適分類器の新規な一般化を特徴とし,一様 (\mathcal{l}_\infty$) 損失の下でクラス確率関数を推定する誤差の観点から,相対的な性能保証が得られることを示す。 第二に、我々が示すように、最適分類性能は、以前に形式化されていないクラス不均衡の特定の特性に依存する。 具体的には、一様クラス不均衡と呼ばれる新しいクラス不均衡のサブタイプを提案する。 統一クラス不均衡が最適クラス不均衡性能に与える影響を分析し,他のクラス不均衡と異なるクラス不均衡挙動を必要とすることを示した。 我々は、これらの2つの貢献をさらに説明し、k$-nearestの隣の分類の場合、新しい保証を開発する。 これらの結果は、不均衡二進分類に対する最初の有意義な有限サンプル統計理論を提供する。

Within the vast body of statistical theory developed for binary classification, few meaningful results exist for imbalanced classification, in which data are dominated by samples from one of the two classes. Existing theory faces at least two main challenges. First, meaningful results must consider more complex performance measures than classification accuracy. To address this, we characterize a novel generalization of the Bayes-optimal classifier to any performance metric computed from the confusion matrix, and we use this to show how relative performance guarantees can be obtained in terms of the error of estimating the class probability function under uniform ($\mathcal{L}_\infty$) loss. Second, as we show, optimal classification performance depends on certain properties of class imbalance that have not previously been formalized. Specifically, we propose a novel sub-type of class imbalance, which we call Uniform Class Imbalance. We analyze how Uniform Class Imbalance influences optimal classifier performance and show that it necessitates different classifier behavior than other types of class imbalance. We further illustrate these two contributions in the case of $k$-nearest neighbor classification, for which we develop novel guarantees. Together, these results provide some of the first meaningful finite-sample statistical theory for imbalanced binary classification.
翻訳日:2021-07-06 22:40:45 公開日:2021-07-05
# (参考訳) 高精度RGB-D能動物体検出のための深さ品質を考慮した特徴マニピュレーション [全文訳有]

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient Object Detection ( http://arxiv.org/abs/2107.01779v1 )

ライセンス: CC BY 4.0
Wenbo Zhang, Ge-Peng Ji, Zhuo Wang, Keren Fu, Qijun Zhao(参考訳) rgb-d salient object detection (sod) は、従来のrgb sodに余分な奥行き情報を与えることで、研究の関心が高まっている。 しかし、既存のRGB-D SODモデルは効率と精度の両面でうまく機能しないことが多く、モバイルデバイスや現実世界の問題を妨げている。 根本的な課題は、モデルがほとんどパラメータを持たないように単純化されると、モデル精度が低下することです。 このジレンマに対処し,また深さ品質が精度に影響を与える重要な要因であるという事実にインスパイアされた上で,我々は,深度品質に触発された特徴操作(dqfm)プロセスを提案する。 dqfmは、低レベルのrgbと深度の特徴のアラインメントと、深度ストリームの全体的注意を利用して、クロスモーダル融合を明示的に制御し強化する。 DQFMを組み込み、DFM-Netと呼ばれる効率的な軽量モデルを得る。 我々のDFM-Netは、既存の非効率モデルと比較すると最先端の精度を達成し、一方CPU上では140ms(2.2$\times$以前の最速の高速モデルより高速)で、モデルサイズはわずか$\sim$8.5Mb(14.9%)である。 私たちのコードは公開されます。

RGB-D salient object detection (SOD) recently has attracted increasing research interest by benefiting conventional RGB SOD with extra depth information. However, existing RGB-D SOD models often fail to perform well in terms of both efficiency and accuracy, which hinders their potential applications on mobile devices and real-world problems. An underlying challenge is that the model accuracy usually degrades when the model is simplified to have few parameters. To tackle this dilemma and also inspired by the fact that depth quality is a key factor influencing the accuracy, we propose a novel depth quality-inspired feature manipulation (DQFM) process, which is efficient itself and can serve as a gating mechanism for filtering depth features to greatly boost the accuracy. DQFM resorts to the alignment of low-level RGB and depth features, as well as holistic attention of the depth stream to explicitly control and enhance cross-modal fusion. We embed DQFM to obtain an efficient light-weight model called DFM-Net, where we also design a tailored depth backbone and a two-stage decoder for further efficiency consideration. Extensive experimental results demonstrate that our DFM-Net achieves state-of-the-art accuracy when comparing to existing non-efficient models, and meanwhile runs at 140ms on CPU (2.2$\times$ faster than the prior fastest efficient model) with only $\sim$8.5Mb model size (14.9% of the prior lightest). Our code will be made publicly available.
翻訳日:2021-07-06 21:53:37 公開日:2021-07-05
# (参考訳) 手書き桁と文字の分類における多層パーセプトロンモデルの文脈解析:限られた資源 [全文訳有]

A contextual analysis of multi-layer perceptron models in classifying hand-written digits and letters: limited resources ( http://arxiv.org/abs/2107.01782v1 )

ライセンス: CC BY 4.0
Tidor-Vlad Pricope(参考訳) 手書きの数字と文字の分類は、ConvNetsの導入によって大きな飛躍を遂げた。 しかし、非常に制約のあるハードウェアでは、そのようなモデルを訓練するのに必要な時間は高い。 私たちの主な貢献は2つです。 まず,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証する。 第2に,基本的なデータマイニング操作は,計算時間の観点から,精度を犠牲にすることなく,モデルの性能を大幅に向上できることを示す。 拡張MNISTデータセットの単純な変種であるBa balanced EMNISTデータセットについて、我々の主張を説明する。 実験の結果,データマイニングがなければ,テストデータセット上で84.83%の精度で,隠れレイヤや正規化技術を使用することで,一般化性能が向上することがわかった。 pcaによる次元の削減により、元の機能空間のわずか10%で85.08%までこの数字を増加させ、必要なメモリサイズを64%削減することができた。 最後に、平均からの逸脱のような有害なトレーニングサンプルを取り除く方法を追加することで、84%以上のテスト精度を達成できたが、トレーニングセットの当初のメモリサイズはわずか32.8%だった。 これは、同様のアーキテクチャで得られた文学的な結果の大部分が好意的に比較される。 このアプローチは最先端のモデルに勝っているが、同じデータセットの50%でトレーニングされた一部の(alexnet、vggnet)にスケールする。

Classifying hand-written digits and letters has taken a big leap with the introduction of ConvNets. However, on very constrained hardware the time necessary to train such models would be high. Our main contribution is twofold. First, we extensively test an end-to-end vanilla neural network (MLP) approach in pure numpy without any pre-processing or feature extraction done beforehand. Second, we show that basic data mining operations can significantly improve the performance of the models in terms of computational time, without sacrificing much accuracy. We illustrate our claims on a simpler variant of the Extended MNIST dataset, called Balanced EMNIST dataset. Our experiments show that, without any data mining, we get increased generalization performance when using more hidden layers and regularization techniques, the best model achieving 84.83% accuracy on a test dataset. Using dimensionality reduction done by PCA we were able to increase that figure to 85.08% with only 10% of the original feature space, reducing the memory size needed by 64%. Finally, adding methods to remove possibly harmful training samples like deviation from the mean helped us to still achieve over 84% test accuracy but with only 32.8% of the original memory size for the training set. This compares favorably to the majority of literature results obtained through similar architectures. Although this approach gets outshined by state-of-the-art models, it does scale to some (AlexNet, VGGNet) trained on 50% of the same dataset.
翻訳日:2021-07-06 21:27:19 公開日:2021-07-05
# (参考訳) マルコフ連鎖における状態数の自動決定のための情報理論的アプローチ [全文訳有]

An Information-Theoreti c Approach for Automatically Determining the Number of States when Aggregating Markov Chains ( http://arxiv.org/abs/2107.01799v1 )

ライセンス: CC BY 4.0
Isaac J. Sledge and Jose C. Principe(参考訳) マルコフ連鎖を集約する場合の根本的な問題は、状態群の数の指定である。 状態群が多すぎると、元の高階マルコフ連鎖の関連するダイナミクスを十分に捉えることができなくなる。 状態群が多すぎると、原型に匹敵する複雑さを持つ非同調で低次マルコフ連鎖に繋がる可能性がある。 本稿では,マルコフ連鎖を集約する付加情報に基づくアプローチにより,状態群数の決定が容易になることを示す。 最適状態群数は、還元次鎖の複雑さが元の鎖と還元次鎖のダイナミクスの相互依存性とバランスをとる場合と一致する。

A fundamental problem when aggregating Markov chains is the specification of the number of state groups. Too few state groups may fail to sufficiently capture the pertinent dynamics of the original, high-order Markov chain. Too many state groups may lead to a non-parsimonious, reduced-order Markov chain whose complexity rivals that of the original. In this paper, we show that an augmented value-of-information -based approach to aggregating Markov chains facilitates the determination of the number of state groups. The optimal state-group count coincides with the case where the complexity of the reduced-order chain is balanced against the mutual dependence between the original- and reduced-order chain dynamics.
翻訳日:2021-07-06 21:10:22 公開日:2021-07-05
# (参考訳) 初期化のpruningはなぜ再活性化とシャッフルに免疫があるのか? [全文訳有]

Why is Pruning at Initialization Immune to Reinitializing and Shuffling? ( http://arxiv.org/abs/2107.01808v1 )

ライセンス: CC BY 4.0
Sahib Singh, Rosanne Liu(参考訳) 既存のプルーニング・アット・初期化法(SNIP, GraSP, SynFlow, およびマグニチュードプルーニング)のアブレーション研究を行う場合、各層内のマスク位置をランダムにシャッフルしたり、新しい初期重量値(Reinit)をサンプリングする場合、これらの手法の性能は変化せず、時には改善される。 本研究では, ランダム化操作前後の層次統計から, 重み・マスク修正に対するネットワーク免疫の背景を解明しようとする。 その結果,pruning-at-initiali zation法では,無作為化操作により未作為重みの分布が最小限に変化することが判明した。

Recent studies assessing the efficacy of pruning neural networks methods uncovered a surprising finding: when conducting ablation studies on existing pruning-at-initializ ation methods, namely SNIP, GraSP, SynFlow, and magnitude pruning, performances of these methods remain unchanged and sometimes even improve when randomly shuffling the mask positions within each layer (Layerwise Shuffling) or sampling new initial weight values (Reinit), while keeping pruning masks the same. We attempt to understand the reason behind such network immunity towards weight/mask modifications, by studying layer-wise statistics before and after randomization operations. We found that under each of the pruning-at-initializ ation methods, the distribution of unpruned weights changed minimally with randomization operations.
翻訳日:2021-07-06 20:57:16 公開日:2021-07-05
# (参考訳) プロセスレンズによるデータパイプライン探索: コンピュータビジョンのための参照モデル [全文訳有]

Exploring Data Pipelines through the Process Lens: a Reference Model forComputer Vision ( http://arxiv.org/abs/2107.01824v1 )

ライセンス: CC BY 4.0
Agathe Balayn, Bogdan Kulynych, Seda Guerses(参考訳) 研究者は、コンピュータビジョン(CV)モデルのトレーニングに使用されるデータセットを、有害な結果の重要なソースとして特定し、人気のあるCVデータセットを調べて、その害を明らかにする。 これらの作業は、データセットをオブジェクトとして扱うか、データ運用パイプラインの特定のステップに集中する傾向がある。 ここでは、これらのデータセットの生成、進化、使用をキャプチャするプロセス指向レンズを通してCVデータパイプラインを調べることで、害の分析をさらに体系化することができると論じる。 プロセス指向レンズの育成に向けたステップとして,手法工学の分野から情報を得たcvデータパイプラインの実証研究に着手した。 本稿では,CVデータパイプラインの参照モデルとして,予備的な結果を示す。 この取り組みが提起する疑問の探索に加えて、プロセスレンズが未調査の問題発見において研究者を支援し、実践者がプロセスをより透明にするのにどう役立つかについて議論する。

Researchers have identified datasets used for training computer vision (CV) models as an important source of hazardous outcomes, and continue to examine popular CV datasets to expose their harms. These works tend to treat datasets as objects, or focus on particular steps in data production pipelines. We argue here that we could further systematize our analysis of harms by examining CV data pipelines through a process-oriented lens that captures the creation, the evolution and use of these datasets. As a step towards cultivating a process-oriented lens, we embarked on an empirical study of CV data pipelines informed by the field of method engineering. We present here a preliminary result: a reference model of CV data pipelines. Besides exploring the questions that this endeavor raises, we discuss how the process lens could support researchers in discovering understudied issues, and could help practitioners in making their processes more transparent.
翻訳日:2021-07-06 20:50:59 公開日:2021-07-05
# (参考訳) 過パラメータニューラルネットワークにおけるネステロフ加速法の確率収束 [全文訳有]

Provable Convergence of Nesterov Accelerated Method for Over-Parameterized Neural Networks ( http://arxiv.org/abs/2107.01832v1 )

ライセンス: CC BY 4.0
Xin Liu and Zhisong Pan(参考訳) ディープラーニングの実証的な成功にもかかわらず、一階最適化手法によって訓練されたランダムに初期化されたニューラルネットワークが、非凸で非滑らかであるにもかかわらず、トレーニング損失をゼロにできる理由を説明する理論的理解はいまだに欠けている。 近年,この現象を過小評価する研究がいくつか行われている。 本研究では, 運動量最適化アルゴリズムであるnesterovaccelerated method (nag) を考えることにより, この領域をさらに発展させる。 ReLUアクティベーションを用いた2層完全連結ニューラルネットワークにおけるNAGの収束解析を行った。 具体的には、nagの誤差が1-\theta(1/\sqrt{\kappa})$でゼロに収束することを証明し、ここで$\kappa > 1$ はニューラルネットワークの初期化とアーキテクチャによって決定される。 1-\theta(1/\kappa)$の勾配降下と比較すると、nagは加速を達成する。 さらに、NAG法とヘビーボール法が同様の収束率が得られることを検証する。

Despite the empirical success of deep learning, it still lacks theoretical understandings to explain why randomly initialized neural network trained by first-order optimization methods is able to achieve zero training loss, even though its landscape is non-convex and non-smooth. Recently, there are some works to demystifies this phenomenon under over-parameterized regime. In this work, we make further progress on this area by considering a commonly used momentum optimization algorithm: Nesterov accelerated method (NAG). We analyze the convergence of NAG for two-layer fully connected neural network with ReLU activation. Specifically, we prove that the error of NAG converges to zero at a linear convergence rate $1-\Theta(1/\sqrt{\kappa})$, where $\kappa > 1$ is determined by the initialization and the architecture of neural network. Comparing to the rate $1-\Theta(1/\kappa)$ of gradient descent, NAG achieves an acceleration. Besides, it also validates NAG and Heavy-ball method can achieve a similar convergence rate.
翻訳日:2021-07-06 20:41:04 公開日:2021-07-05
# (参考訳) いかなるコストでも勝つ - 強化学習によるカルテル禁止を侵害する [全文訳有]

Winning at Any Cost -- Infringing the Cartel Prohibition With Reinforcement Learning ( http://arxiv.org/abs/2107.01856v1 )

ライセンス: CC BY 4.0
Michael Schlechtinger, Damaris Kosack, Heiko Paulheim, Thomas Fetzer(参考訳) 価格決定はAIによってますます行われる。 生の市場データをトレーニングしながら意思決定を行う能力のおかげで、深い強化学習アルゴリズムは、このような価格決定を特に効果的に行うことができる。 eコマースのシナリオでは、複数の強化学習エージェントが競合の価格に基づいて価格を設定することができる。 したがって、研究によれば、エージェントは長い目で見れば共謀状態になる可能性がある。 この問題をさらに分析するため、3人のエージェントがロックペーパーのハサミのゲームをする囚人のジレンマの修正版に基づいてシナリオを構築する。 以上の結果から,行動選択は特定の段階に区分でき,競合間の結束につながる可能性のある状況を認識することが可能な結束防止システムを開発することが可能であることが示唆された。 さらに,エージェントが明示的に訓練されることなくタシット連携戦略を遂行できる状況の証拠を提供する。

Pricing decisions are increasingly made by AI. Thanks to their ability to train with live market data while making decisions on the fly, deep reinforcement learning algorithms are especially effective in taking such pricing decisions. In e-commerce scenarios, multiple reinforcement learning agents can set prices based on their competitor's prices. Therefore, research states that agents might end up in a state of collusion in the long run. To further analyze this issue, we build a scenario that is based on a modified version of a prisoner's dilemma where three agents play the game of rock paper scissors. Our results indicate that the action selection can be dissected into specific stages, establishing the possibility to develop collusion prevention systems that are able to recognize situations which might lead to a collusion between competitors. We furthermore provide evidence for a situation where agents are capable of performing a tacit cooperation strategy without being explicitly trained to do so.
翻訳日:2021-07-06 20:15:37 公開日:2021-07-05
# (参考訳) 芸術的目的のための生成的深層学習の自動化:課題と機会 [全文訳有]

Automating Generative Deep Learning for Artistic Purposes: Challenges and Opportunities ( http://arxiv.org/abs/2107.01858v1 )

ライセンス: CC BY 4.0
Sebastian Berns, Terence Broad, Christian Guckelsberger and Simon Colton(参考訳) 本稿では,芸術的応用に特化して生成的深層学習を自動化する枠組みを提案する。 このフレームワークは、自動化のターゲットとして、創造的な責任を生成システムに渡す機会を提供する。 ターゲットの定義には、自動化機械学習のコアコンセプトと、標準設定と芸術設定の両方で生成的なディープラーニングパイプラインの分析を採用します。 フレームワークのモチベーションを高めるために、我々は、自動化は生成システムの創造的責任を高めるという目標、すなわち計算的創造性研究の中心的なテーマとよく一致していると論じる。 我々は,共同創造プロセスとしてユーザとシステム間のインタラクションをフレーミングすることにより,生成システムに対してより創造的な自律性を与えるという課題として,オートメーションを理解する。 フレームワークの開発は、自動化と創造的自律性の関係の分析によって通知されます。 実証的な例は、創造的な責任を委譲するプロセスにおいて、フレームワークがインスピレーションとガイダンスを与える方法を示している。

We present a framework for automating generative deep learning with a specific focus on artistic applications. The framework provides opportunities to hand over creative responsibilities to a generative system as targets for automation. For the definition of targets, we adopt core concepts from automated machine learning and an analysis of generative deep learning pipelines, both in standard and artistic settings. To motivate the framework, we argue that automation aligns well with the goal of increasing the creative responsibility of a generative system, a central theme in computational creativity research. We understand automation as the challenge of granting a generative system more creative autonomy, by framing the interaction between the user and the system as a co-creative process. The development of the framework is informed by our analysis of the relationship between automation and creative autonomy. An illustrative example shows how the framework can give inspiration and guidance in the process of handing over creative responsibility.
翻訳日:2021-07-06 20:03:56 公開日:2021-07-05
# (参考訳) テキストからの人間画像のより良い逆合成を目指して [全文訳有]

Towards Better Adversarial Synthesis of Human Images from Text ( http://arxiv.org/abs/2107.01869v1 )

ライセンス: CC BY 4.0
Rania Briq, Pratika Kochar, Juergen Gall(参考訳) 本稿では,テキストから複数の3次元メッシュを生成する手法を提案する。 人間の形状はSMPLモデルに基づいて3Dメッシュで表現される。 モデルのパフォーマンスはcocoデータセットで評価され、人間の形状や個人間の複雑な相互作用に挑戦する。 モデルは、シーンのダイナミクスとテキストに基づいた個人間の相互作用をキャプチャすることができる。 さらに,このような形状を画像合成フレームワークへの入力として用いることで,ネットワークが現実の人間の形状で人間を合成するのにどのように役立つかを示す。

This paper proposes an approach that generates multiple 3D human meshes from text. The human shapes are represented by 3D meshes based on the SMPL model. The model's performance is evaluated on the COCO dataset, which contains challenging human shapes and intricate interactions between individuals. The model is able to capture the dynamics of the scene and the interactions between individuals based on text. We further show how using such a shape as input to image synthesis frameworks helps to constrain the network to synthesize humans with realistic human shapes.
翻訳日:2021-07-06 19:47:02 公開日:2021-07-05
# (参考訳) ニューラルネットワークモデルの不確かさによるコンセプトドリフトの検出 [全文訳有]

Detecting Concept Drift With Neural Network Model Uncertainty ( http://arxiv.org/abs/2107.01873v1 )

ライセンス: CC BY 4.0
Lucas Baier, Tim Schl\"or, Jakob Sch\"offer, Niklas K\"uhl(参考訳) デプロイされた機械学習モデルは、時間とともにデータを変更する問題、すなわちコンセプトドリフト(concept drift)に直面する。 既存のドリフト検出のアプローチはすでに説得力のある結果を示しているが、ドリフト検出を成功させるためには真のラベルが必要である。 特に、多くの現実世界のアプリケーションシナリオでは、このワークトゥルラベルでカバーされているものはほとんどなく、買収は高価です。 そこで本研究では,ドリフト検出のための新しいアルゴリズムである不確実性ドリフト検出(udd)を提案する。 このアプローチは、深いニューラルネットワークがモンテカルロドロップアウトと組み合わせた不確実性推定に基づいている。 不確実性推定にadwin法を適用して構造変化を検出し、検出されたドリフトが予測モデルの再訓練をトリガーする。 入力データに基づくドリフト検出とは対照的に,本手法では,入力データのみの変化を検出するのではなく,現在の入力データによる予測モデルの性質への影響を検討する。 UDDは2つの合成および10の実世界のデータセットにおいて、回帰処理と分類処理の両方において、他の最先端戦略よりも優れていることを示す。

Deployed machine learning models are confronted with the problem of changing data over time, a phenomenon also called concept drift. While existing approaches of concept drift detection already show convincing results, they require true labels as a prerequisite for successful drift detection. Especially in many real-world application scenarios-like the ones covered in this work-true labels are scarce, and their acquisition is expensive. Therefore, we introduce a new algorithm for drift detection, Uncertainty Drift Detection (UDD), which is able to detect drifts without access to true labels. Our approach is based on the uncertainty estimates provided by a deep neural network in combination with Monte Carlo Dropout. Structural changes over time are detected by applying the ADWIN technique on the uncertainty estimates, and detected drifts trigger a retraining of the prediction model. In contrast to input data-based drift detection, our approach considers the effects of the current input data on the properties of the prediction model rather than detecting change on the input data only (which can lead to unnecessary retrainings). We show that UDD outperforms other state-of-the-art strategies on two synthetic as well as ten real-world data sets for both regression and classification tasks.
翻訳日:2021-07-06 19:33:22 公開日:2021-07-05
# (参考訳) Ray-ONet:1枚のRGB画像から効率的な3D再構成 [全文訳有]

Ray-ONet: Efficient 3D Reconstruction From A Single RGB Image ( http://arxiv.org/abs/2107.01899v1 )

ライセンス: CC0 1.0
Wenjing Bian and Zirui Wang and Kejie Li and Victor Adrian Prisacariu(参考訳) 単眼画像から詳細な3次元モデルを効率的に再構成するためのray-onetを提案する。 カメラ座標の画素からバックプロジェクションされた光線に沿った一連の占有確率を予測することにより,Occupancy Networks (ONet) と比較して再構成精度を向上させるとともに,ネットワーク推論の複雑さをO($N^2$)に低減する。 その結果、Ray-ONetはShapeNetベンチマークで20$\times$のスピードアップを128^3$の解像度で達成し、推論中に同様のメモリフットプリントを維持する。

We propose Ray-ONet to reconstruct detailed 3D models from monocular images efficiently. By predicting a series of occupancy probabilities along a ray that is back-projected from a pixel in the camera coordinate, our method Ray-ONet improves the reconstruction accuracy in comparison with Occupancy Networks (ONet), while reducing the network inference complexity to O($N^2$). As a result, Ray-ONet achieves state-of-the-art performance on the ShapeNet benchmark with more than 20$\times$ speed-up at $128^3$ resolution and maintains a similar memory footprint during inference.
翻訳日:2021-07-06 19:19:15 公開日:2021-07-05
# (参考訳) 確率的変分不等式における楽観的ミラー降下のラストイテレート収束率

The Last-Iterate Convergence Rate of Optimistic Mirror Descent in Stochastic Variational Inequalities ( http://arxiv.org/abs/2107.01906v1 )

ライセンス: CC BY 4.0
Wa\"iss Azizian, Franck Iutzeler, J\'er\^ome Malick, Panayotis Mertikopoulos(参考訳) 本稿では,確率的変分不等式における楽観的ミラー降下法の局所収束率について解析する。 解析の結果,アルゴリズムの収束率とBregman関数によって誘導される局所幾何学との複雑な関係が明らかになった。 この関係をレジェンド指数を用いて定量化し, 解近傍の環境ノルムに対するブレグマンの発散速度を測定するために導入する概念である。 この指数はアルゴリズムの最適ステップサイズポリシーと達成した最適レートの両方を決定づけるものであり、一般的なブレグマン関数(ユークリッド射影、負エントロピー、分数パワーなど)で観測される差を説明する。 ).

In this paper, we analyze the local convergence rate of optimistic mirror descent methods in stochastic variational inequalities, a class of optimization problems with important applications to learning theory and machine learning. Our analysis reveals an intricate relation between the algorithm's rate of convergence and the local geometry induced by the method's underlying Bregman function. We quantify this relation by means of the Legendre exponent, a notion that we introduce to measure the growth rate of the Bregman divergence relative to the ambient norm near a solution. We show that this exponent determines both the optimal step-size policy of the algorithm and the optimal rates attained, explaining in this way the differences observed for some popular Bregman functions (Euclidean projection, negative entropy, fractional power, etc.).
翻訳日:2021-07-06 19:06:02 公開日:2021-07-05
# (参考訳) 機械学習の最前線における論理ロック:開発と機会に関する調査 [全文訳有]

Logic Locking at the Frontiers of Machine Learning: A Survey on Developments and Opportunities ( http://arxiv.org/abs/2107.01915v1 )

ライセンス: CC BY 4.0
Dominik Sisejkovic, Lennart M. Reimann, Elmira Moussavi, Farhad Merchant, Rainer Leupers(参考訳) 過去10年間、論理ロックの設計と評価において、エレクトロニクスサプライチェーン全体の集積回路の完全性を保護するための最重要技術として、多くの進歩があった。 しかし、機械学習の普及により、論理ロック方式を評価する新たな経路が最近導入された。 本稿では,現代機械学習モデルのフロンティアにおける論理ロック攻撃と対策の最近の展開を要約する。 提示された作業に基づいて、鍵となる取り組み、機会、課題が強調され、次世代ロジックロックの設計のための推奨事項が提供される。

In the past decade, a lot of progress has been made in the design and evaluation of logic locking; a premier technique to safeguard the integrity of integrated circuits throughout the electronics supply chain. However, the widespread proliferation of machine learning has recently introduced a new pathway to evaluating logic locking schemes. This paper summarizes the recent developments in logic locking attacks and countermeasures at the frontiers of contemporary machine learning models. Based on the presented work, the key takeaways, opportunities, and challenges are highlighted to offer recommendations for the design of next-generation logic locking.
翻訳日:2021-07-06 19:05:02 公開日:2021-07-05
# (参考訳) 逆の例で説明可能なモデル(と人間)を騙す時と方法 [全文訳有]

When and How to Fool Explainable Models (and Humans) with Adversarial Examples ( http://arxiv.org/abs/2107.01943v1 )

ライセンス: CC BY 4.0
Jon Vadillo, Roberto Santana and Jose A. Lozano(参考訳) ニューラルネットワークのような機械学習モデルの信頼性の高いデプロイは、いくつかの制限のため、引き続き困難である。 主な欠点は、解釈可能性の欠如と、逆例や分散入力に対する堅牢性の欠如である。 本稿では,説明可能な機械学習モデルに対する敵意攻撃の可能性と限界について検討する。 まず,説明可能な機械学習シナリオに適合する逆例の概念を拡張し,入力,出力分類,モデル決定の説明を人間によって評価する。 次に,人的評価に基づく説明可能なモデルに対して,新たな攻撃パラダイムを導入して,敵の例を生成できるかどうかを,包括的に検討する枠組みを提案する。 特に,本フレームワークでは,問題の種類,ユーザ知識,説明の目的など,関連する(しばしば無視される)幅広い要因を考慮し,各シナリオで採用されるべき攻撃戦略を特定し,モデル(と人間)をうまく騙す。 これらの貢献は、説明可能な機械学習の分野における、より厳密で現実的な敵の例の研究の基礎となることを意図している。

Reliable deployment of machine learning models such as neural networks continues to be challenging due to several limitations. Some of the main shortcomings are the lack of interpretability and the lack of robustness against adversarial examples or out-of-distribution inputs. In this paper, we explore the possibilities and limits of adversarial attacks for explainable machine learning models. First, we extend the notion of adversarial examples to fit in explainable machine learning scenarios, in which the inputs, the output classifications and the explanations of the model's decisions are assessed by humans. Next, we propose a comprehensive framework to study whether (and how) adversarial examples can be generated for explainable models under human assessment, introducing novel attack paradigms. In particular, our framework considers a wide range of relevant (yet often ignored) factors such as the type of problem, the user expertise or the objective of the explanations in order to identify the attack strategies that should be adopted in each scenario to successfully deceive the model (and the human). These contributions intend to serve as a basis for a more rigorous and realistic study of adversarial examples in the field of explainable machine learning.
翻訳日:2021-07-06 18:52:36 公開日:2021-07-05
# (参考訳) 集合上の関数の普遍近似

Universal Approximation of Functions on Sets ( http://arxiv.org/abs/2107.01959v1 )

ライセンス: CC BY 4.0
Edward Wagstaff, Fabian B. Fuchs, Martin Engelcke, Michael A. Osborne, Ingmar Posner(参考訳) 集合のモデリング関数、あるいは同値な置換不変関数は、機械学習における長年の課題である。 Deep Sets は連続集合関数の普遍近似器として知られている一般的な方法である。 モデルの潜在空間が十分に高次元である場合にのみ、この普遍近似特性が保証されることを示すディープ集合の理論解析を提供する。 潜在空間が必要よりも1次元低い場合、最悪の場合の誤差によって判断されるように、深い集合がna\"ive constant baseよりもうまく機能しない分割アフィン函数が存在する。 深層集合はjanossyプーリングパラダイムの最も効率的なインカーネーションと見なすことができる。 このパラダイムは、現在最も普及しているセットラーニングメソッドを包含するものだと考えています。 この関係に基づき、集合学習における結果の意味をより広く議論し、一般にジャノッシープールの普遍性に関するいくつかのオープンな疑問を識別する。

Modelling functions of sets, or equivalently, permutation-invarian t functions, is a long-standing challenge in machine learning. Deep Sets is a popular method which is known to be a universal approximator for continuous set functions. We provide a theoretical analysis of Deep Sets which shows that this universal approximation property is only guaranteed if the model's latent space is sufficiently high-dimensional. If the latent space is even one dimension lower than necessary, there exist piecewise-affine functions for which Deep Sets performs no better than a na\"ive constant baseline, as judged by worst-case error. Deep Sets may be viewed as the most efficient incarnation of the Janossy pooling paradigm. We identify this paradigm as encompassing most currently popular set-learning methods. Based on this connection, we discuss the implications of our results for set learning more broadly, and identify some open questions on the universality of Janossy pooling in general.
翻訳日:2021-07-06 18:38:30 公開日:2021-07-05
# (参考訳) IWPT 2021共有タスクにおけるDCU-EPFL拡張依存性パーザ [全文訳有]

The DCU-EPFL Enhanced Dependency Parser at the IWPT 2021 Shared Task ( http://arxiv.org/abs/2107.01982v1 )

ライセンス: CC BY 4.0
James Barry, Alireza Mohammadshahi, Joachim Wagner, Jennifer Foster, James Henderson(参考訳) 本稿では,DCU-EPFL による IWPT 2021 Shared Task on Parsing into Enhanced Universal Dependencies について述べる。 このタスクは、セマンティック構造を表現するためにより円滑に設計された基本依存性ツリーの拡張である強化UDグラフのパースを含む。 評価は17言語29のツリーバンクで行われ、参加者は生文字列から始まる各言語からデータを解析する必要がある。 提案手法では,テキストファイルの事前処理にStanzaパイプライン,コンテキスト化トークン表現にXLMRoBERTa,拡張グラフの予測にエッジスコアとラベルモデルを用いる。 最後に、処理後スクリプトを実行して、すべての出力が有効な拡張udグラフであることを保証します。 本システムでは,参加者9名中6名にラベル付添付スコア(elas)83.57。 予備処理にTrankit, XLM-RoBERTa-LARGE, treebank concatenation, 基本と拡張された依存性パーサ間のマルチタスク学習など,追加の処理後実験を行う。 これらの修正によって最初のスコアが向上し、最終システムは88.04の粗いELASを持つ。

We describe the DCU-EPFL submission to the IWPT 2021 Shared Task on Parsing into Enhanced Universal Dependencies. The task involves parsing Enhanced UD graphs, which are an extension of the basic dependency trees designed to be more facilitative towards representing semantic structure. Evaluation is carried out on 29 treebanks in 17 languages and participants are required to parse the data from each language starting from raw strings. Our approach uses the Stanza pipeline to preprocess the text files, XLMRoBERTa to obtain contextualized token representations, and an edge-scoring and labeling model to predict the enhanced graph. Finally, we run a post-processing script to ensure all of our outputs are valid Enhanced UD graphs. Our system places 6th out of 9 participants with a coarse Enhanced Labeled Attachment Score (ELAS) of 83.57. We carry out additional post-deadline experiments which include using Trankit for pre-processing, XLM-RoBERTa-LARGE, treebank concatenation, and multitask learning between a basic and an enhanced dependency parser. All of these modifications improve our initial score and our final system has a coarse ELAS of 88.04.
翻訳日:2021-07-06 18:37:15 公開日:2021-07-05
# (参考訳) 不完全観測によるインプテーションフリー学習 [全文訳有]

Imputation-Free Learning from Incomplete Observations ( http://arxiv.org/abs/2107.01983v1 )

ライセンス: CC BY 4.0
Qitong Gao, Dong Wang, Joshua D. Amason, Siyang Yuan, Chenyang Tao, Ricardo Henao, Majda Hadziahmetovic, Lawrence Carin, Miroslav Pajic(参考訳) 最近の研究では、ダウンストリーム分析を容易にするためにデータセットの欠落したエントリ(またはインプテーション)を生成できる方法が開発されているが、ほとんどは実際のアプリケーションと一致せず、その後のタスクでパフォーマンスが悪いという仮定に依存している。 これは、データが欠落率が大きいか、人口が少ない場合に特に当てはまる。 さらに重要なことに、インプテーションエラーは次の予測ステップに伝播し、予測モデルのトレーニングに使用される勾配がバイアスになる可能性がある。 そこで本研究では,多層パーセプトロン (mlps) とlong short-term memories (lstms) を訓練し,インプテーションを使わずに欠落値を含む入力から直接推測を行うための,igsgd法の重要性について述べる。 具体的には、バックプロパゲーションによるモデルのトレーニングに使用する勾配を調整するために強化学習(RL)を用いる。 これはバイアスを減らすだけでなく、モデルが不足パターンの背後にある基盤となる情報を利用することを可能にする。 提案手法は, 実世界の時系列(MIMIC-III), アイクリニックから得られた表データ, および標準データセット(MNIST)で検証し, 従来の2段階計算に基づく予測よりも高い精度で予測できることを示した。

Although recent works have developed methods that can generate estimations (or imputations) of the missing entries in a dataset to facilitate downstream analysis, most depend on assumptions that may not align with real-world applications and could suffer from poor performance in subsequent tasks. This is particularly true if the data have large missingness rates or a small population. More importantly, the imputation error could be propagated into the prediction step that follows, causing the gradients used to train the prediction models to be biased. Consequently, in this work, we introduce the importance guided stochastic gradient descent (IGSGD) method to train multilayer perceptrons (MLPs) and long short-term memories (LSTMs) to directly perform inference from inputs containing missing values without imputation. Specifically, we employ reinforcement learning (RL) to adjust the gradients used to train the models via back-propagation. This not only reduces bias but allows the model to exploit the underlying information behind missingness patterns. We test the proposed approach on real-world time-series (i.e., MIMIC-III), tabular data obtained from an eye clinic, and a standard dataset (i.e., MNIST), where our imputation-free predictions outperform the traditional two-step imputation-based predictions using state-of-the-art imputation methods.
翻訳日:2021-07-06 18:25:17 公開日:2021-07-05
# (参考訳) FINT: CTR予測のためのフィールド対応インテリアクションニューラルネットワーク [全文訳有]

FINT: Field-aware INTeraction Neural Network For CTR Prediction ( http://arxiv.org/abs/2107.01999v1 )

ライセンス: CC BY 4.0
Zhishan Zhao, Sen Yang, Guohui Liu, Dawei Feng, Kele Xu(参考訳) オンライン広告とマーキングの重要な要素として、クリックスルー率(CTR)予測は、業界と学界の両方から多くの注目を集めている。 近年,深層学習がCTRの主要な方法論選択となっている。 持続可能な努力にもかかわらず、既存のアプローチにはいくつかの課題がある。 一方、機能間の高次相互作用は未探索である。 一方、高次相互作用は低次場からの意味情報を無視する可能性がある。 本論文では,フィールド情報を保持しながら高次特徴の相互作用を捕捉するフィールド認識型インテアアクション層を用いたFINTという新しい予測手法を提案する。 KDD2012, Criteo, Avazuの3つの現実データベースにおいて, FINTの有効性と堅牢性を実証的に検討する。 その結果,FINTは計算量を増やすことなく,既存の手法と比較して性能を著しく向上させることができることがわかった。 さらに,提案手法は,a/bテストを通じて,大手オンラインビデオアプリの広告収入を約2.722%増加させた。 CTR分野の研究をより促進するため、最終バージョンでこれらのベースラインモデルのリファレンス実装とともに、コードをリリースします。

As a critical component for online advertising and marking, click-through rate (CTR) prediction has draw lots of attentions from both industry and academia field. Recently, the deep learning has become the mainstream methodological choice for CTR. Despite of sustainable efforts have been made, existing approaches still pose several challenges. On the one hand, high-order interaction between the features is under-explored. On the other hand, high-order interactions may neglect the semantic information from the low-order fields. In this paper, we proposed a novel prediction method, named FINT, that employs the Field-aware INTeraction layer which captures high-order feature interactions while retaining the low-order field information. To empirically investigate the effectiveness and robustness of the FINT, we perform extensive experiments on the three realistic databases: KDD2012, Criteo and Avazu. The obtained results demonstrate that the FINT can significantly improve the performance compared to the existing methods, without increasing the amount of computation required. Moreover, the proposed method brought about 2.72\% increase to the advertising revenue of a big online video app through A/B testing. To better promote the research in CTR field, we will release our code as well as reference implementation of those baseline models in the final version.
翻訳日:2021-07-06 17:48:09 公開日:2021-07-05
# (参考訳) 物体のセグメンテーションと追跡に対するトポロジ的解法

A topological solution to object segmentation and tracking ( http://arxiv.org/abs/2107.02036v1 )

ライセンス: CC BY 4.0
Thomas Tsao and Doris Y. Tsao(参考訳) 世界は物、地面、空で構成されています。 物体の視覚知覚は、視覚入力を離散単位に分割し、物体の変形、遠近性の変化、動的咬合による外観変化にもかかわらず、これらの単位のアイデンティティを追跡するという2つの基本的な課題を解決する必要がある。 現在のコンピュータビジョンによるセグメンテーションとトラッキングへのアプローチ 人間のパフォーマンスへのアプローチには、すべて学習が必要です。 本稿では,環境面から反射される光線の数学的構造が永続面の自然な表現をもたらすことを示し,この表面表現はセグメンテーション問題と追跡問題の両方に対する解を与える。 連続的な視覚入力からこの表面表現を生成する方法について述べるとともに, 学習を必要とせず, 過度な外観変化にもかかわらず, クラッタ化された合成ビデオで物体を分割し, 不変に追跡できることを実証する。

The world is composed of objects, the ground, and the sky. Visual perception of objects requires solving two fundamental challenges: segmenting visual input into discrete units, and tracking identities of these units despite appearance changes due to object deformation, changing perspective, and dynamic occlusion. Current computer vision approaches to segmentation and tracking that approach human performance all require learning, raising the question: can objects be segmented and tracked without learning? Here, we show that the mathematical structure of light rays reflected from environment surfaces yields a natural representation of persistent surfaces, and this surface representation provides a solution to both the segmentation and tracking problems. We describe how to generate this surface representation from continuous visual input, and demonstrate that our approach can segment and invariantly track objects in cluttered synthetic video despite severe appearance changes, without requiring learning.
翻訳日:2021-07-06 17:40:33 公開日:2021-07-05
# (参考訳) ペルシャの複雑な質問に答える知識に基づくアプローチ [全文訳有]

A Knowledge-based Approach for Answering Complex Questions in Persian ( http://arxiv.org/abs/2107.02040v1 )

ライセンス: CC BY 4.0
Romina Etezadi, Mehrnoush Shamsfard(参考訳) オープンドメイン質問応答(QA)の研究には長い伝統がある。 この領域の課題は、複雑な推論方法と大量の知識を必要とする複雑な質問(CQA)に答えることである。 ペルシャ語のような低リソース言語では、オープンドメインの複雑な質問のためのデータセットは少なく、言語処理ツールキットはそれほど正確ではない。 本稿では,farsbase,pecoq活用ペルシャ知識グラフ,新たに作成された複合ペルシャ質問データセットを用いて,ペルシャの複雑な問いに答える知識ベースアプローチを提案する。 本研究では,多制約問題とマルチホップ問題に対処し,対応可能な論理形式の集合を構築する。 次に、Multilingual-BERTを用いて、入力複雑質問を構文的に、意味的に最もよく記述する論理形式を選択する。 質問に対する答えは、ナレッジグラフから抽出された論理形式への回答から構築されます。 実験の結果,我々のアプローチはペルシャcqaの他のアプローチよりも優れていることがわかった。

Research on open-domain question answering (QA) has a long tradition. A challenge in this domain is answering complex questions (CQA) that require complex inference methods and large amounts of knowledge. In low resource languages, such as Persian, there are not many datasets for open-domain complex questions and also the language processing toolkits are not very accurate. In this paper, we propose a knowledge-based approach for answering Persian complex questions using Farsbase; the Persian knowledge graph, exploiting PeCoQ; the newly created complex Persian question dataset. In this work, we handle multi-constraint and multi-hop questions by building their set of possible corresponding logical forms. Then Multilingual-BERT is used to select the logical form that best describes the input complex question syntactically and semantically. The answer to the question is built from the answer to the logical form, extracted from the knowledge graph. Experiments show that our approach outperforms other approaches in Persian CQA.
翻訳日:2021-07-06 17:39:13 公開日:2021-07-05
# (参考訳) 反合成リーマン多様体と量子誘起ハミルトニアンモンテカルロ [全文訳有]

Antithetic Riemannian Manifold And Quantum-Inspired Hamiltonian Monte Carlo ( http://arxiv.org/abs/2107.02070v1 )

ライセンス: CC BY 4.0
Wilson Tsakane Mongwe, Rendani Mbuvha, Tshilidzi Marwala(参考訳) 機械学習におけるターゲット後方分布のマルコフ連鎖モンテカルロ推定は、ハミルトニアンモンテカルロとその変種によって優先的に行われる。 これは、ハミルトンのモンテカルロベースのサンプラーがランダムウォーク行動を抑制する能力のためである。 他のマルコフ連鎖モンテカルロ法と同様に、ハミルトニアンモンテカルロは自己相関的なサンプルを生成し、その結果、推定器のばらつきが高まり、生成したサンプルのサンプルサイズ率が低くなる。 ハミルトニアン・モンテカルロにアンチセティックサンプリングを加えると、バニラ・ハミルトニアン・モンテカルロよりも高い有効試料率が得られることが示されている。 本稿では,リーマン多様体ハミルトニアンモンテカルロおよび量子インスパイアされたハミルトニアンモンテカルロのアンチセティックバージョンである新しいアルゴリズムを提案する。 リーマン多様体 ハミルトニアン・モンテカルロアルゴリズムは、ターゲットの局所幾何学を考慮に入れ、パラメータに強い相関関係を示すようなターゲット密度に有益であるハミルトニアン・モンテカルロを改良する。 量子インスパイアされたハミルトニアンモンテカルロはランダムな質量を持つ量子粒子に基づいている。 量子インスパイアされたハミルトニアンモンテカルロはランダムな質量行列を使い、スピーキーおよびジャンプ拡散過程のようなマルチモーダル分布上のハミルトニアンモンテカルロよりも良いサンプリングをもたらす。 この分析は,実世界の金融市場データを用いたジャンプ拡散プロセス,およびベイジアンロジスティック回帰を用いた実世界のベンチマーク分類タスクで実施される。

Markov Chain Monte Carlo inference of target posterior distributions in machine learning is predominately conducted via Hamiltonian Monte Carlo and its variants. This is due to Hamiltonian Monte Carlo based samplers ability to suppress random-walk behaviour. As with other Markov Chain Monte Carlo methods, Hamiltonian Monte Carlo produces auto-correlated samples which results in high variance in the estimators, and low effective sample size rates in the generated samples. Adding antithetic sampling to Hamiltonian Monte Carlo has been previously shown to produce higher effective sample rates compared to vanilla Hamiltonian Monte Carlo. In this paper, we present new algorithms which are antithetic versions of Riemannian Manifold Hamiltonian Monte Carlo and Quantum-Inspired Hamiltonian Monte Carlo. The Riemannian Manifold Hamiltonian Monte Carlo algorithm improves on Hamiltonian Monte Carlo by taking into account the local geometry of the target, which is beneficial for target densities that may exhibit strong correlations in the parameters. Quantum-Inspired Hamiltonian Monte Carlo is based on quantum particles that can have random mass. Quantum-Inspired Hamiltonian Monte Carlo uses a random mass matrix which results in better sampling than Hamiltonian Monte Carlo on spiky and multi-modal distributions such as jump diffusion processes. The analysis is performed on jump diffusion process using real world financial market data, as well as on real world benchmark classification tasks using Bayesian logistic regression.
翻訳日:2021-07-06 17:27:46 公開日:2021-07-05
# (参考訳) 共有空間におけるマルチモーダル道路利用者の相互作用のモデル化 [全文訳有]

Modeling Interactions of Multimodal Road Users in Shared Spaces ( http://arxiv.org/abs/2107.02083v1 )

ライセンス: CC BY 4.0
Fatema T. Johora and J\"org P. M\"uller(参考訳) 共有スペースでは、電動および非電動の道路利用者が同じスペースを同じ優先度で共有する。 彼らの動きは交通規則によって規制されないので、共有空間上で優先順位を交渉するためにより頻繁に相互作用する。 共有空間の安全性と効率を推定するためには、そのような交通場所での交通行動の再現が重要である。 本稿では,共有空間環境における歩行者と車両の相互作用の異なるレベルを検討する。 提案するモデルは,道路利用者の軌跡を計画する層,自由流れの移動と簡単な相互作用を再現する力に基づくモデリング層,道路利用者が異なる選択肢に対して意思決定を行う必要のある複雑な状況を扱うゲーム理論決定層という3つの層からなる。 歩行者と車とのさまざまなインタラクションや車間インタラクションをシミュレートすることで,モデルを検証する。 その結果,シミュレーション行動は観察行動とよく一致していた。

In shared spaces, motorized and non-motorized road users share the same space with equal priority. Their movements are not regulated by traffic rules, hence they interact more frequently to negotiate priority over the shared space. To estimate the safeness and efficiency of shared spaces, reproducing the traffic behavior in such traffic places is important. In this paper, we consider and combine different levels of interaction between pedestrians and cars in shared space environments. Our proposed model consists of three layers: a layer to plan trajectories of road users; a force-based modeling layer to reproduce free flow movement and simple interactions; and a game-theoretic decision layer to handle complex situations where road users need to make a decision over different alternatives. We validate our model by simulating scenarios involving various interactions between pedestrians and cars and also car-to-car interaction. The results indicate that simulated behaviors match observed behaviors well.
翻訳日:2021-07-06 17:08:39 公開日:2021-07-05
# (参考訳) one-cycle pruning: 厳しい訓練予算の下でのpruning convnets [全文訳有]

One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget ( http://arxiv.org/abs/2107.02086v1 )

ライセンス: CC BY 4.0
Nathan Hubens and Matei Mancas and Bernard Gosselin and Marius Preda and Titus Zaharia(参考訳) ニューラルネットワークにスパーシティを導入することは、ほとんど性能を保ちながら複雑さを減らす効率的な方法だった。 ほとんどの場合、スパーシティは3段階のパイプラインを使って導入される: 1)モデルを収束にトレーニングする、2)いくつかの基準に従ってモデルをプルする、3)プルーニングされたモデルを微調整してパフォーマンスを回復する。 最後の2つのステップは反復的に行われることが多く、合理的な結果をもたらすだけでなく、時間のかかる複雑なプロセスにもつながります。 本研究では,パイプラインの最初のステップを取り除き,他の2つのステップを1つのpruning-training cycleで組み合わせることを提案する。 トレーニングの開始から終わりまで,ワンサイクルプルーニング(One-Cycle Pruning)という,新たなプルーニングスケジュールを導入することで,これを実現しています。 このようなスケジュールを採用すると、刈り込みモデルのパフォーマンスが向上するだけでなく、モデルの刈り込みに必要なトレーニング予算を大幅に削減できる。 様々なアーキテクチャ(vgg-16、resnet-18)とデータセット(cifar-10、cifar-100、caltech-101)と比較的高いスパース性(重量の80%、90%、95%の除去)で実験が行われている。 その結果, ワンショットプルーニングやイテレーティブプルーニング, 自動グレダルプルーニングなど, 一般的に使用されているプルーニングスケジュールを一定のトレーニング予算で一貫して上回ることがわかった。

Introducing sparsity in a neural network has been an efficient way to reduce its complexity while keeping its performance almost intact. Most of the time, sparsity is introduced using a three-stage pipeline: 1) train the model to convergence, 2) prune the model according to some criterion, 3) fine-tune the pruned model to recover performance. The last two steps are often performed iteratively, leading to reasonable results but also to a time-consuming and complex process. In our work, we propose to get rid of the first step of the pipeline and to combine the two other steps in a single pruning-training cycle, allowing the model to jointly learn for the optimal weights while being pruned. We do this by introducing a novel pruning schedule, named One-Cycle Pruning, which starts pruning from the beginning of the training, and until its very end. Adopting such a schedule not only leads to better performing pruned models but also drastically reduces the training budget required to prune a model. Experiments are conducted on a variety of architectures (VGG-16 and ResNet-18) and datasets (CIFAR-10, CIFAR-100 and Caltech-101), and for relatively high sparsity values (80%, 90%, 95% of weights removed). Our results show that One-Cycle Pruning consistently outperforms commonly used pruning schedules such as One-Shot Pruning, Iterative Pruning and Automated Gradual Pruning, on a fixed training budget.
翻訳日:2021-07-06 16:57:18 公開日:2021-07-05
# (参考訳) RATCHET:胸部X線診断・報告用医療用トランス [全文訳有]

RATCHET: Medical Transformer for Chest X-ray Diagnosis and Reporting ( http://arxiv.org/abs/2107.02104v1 )

ライセンス: CC BY 4.0
Benjamin Hou, Georgios Kaissis, Ronald Summers, Bernhard Kainz(参考訳) 胸部x線撮影は臨床における最も一般的な診断方法の1つである。 安価にでき、最小限の機器が必要で、画像はすべての放射線科医によって診断できる。 しかし、日常的に得られる胸部x線撮影の回数は、利用可能な臨床検査能力を圧倒し易い。 RATCHET: RADological Text Captioning for Human Examined Thoracesを提案する。 RATCHETはCNN-RNNベースの医療トランスフォーマーで、エンドツーエンドにトレーニングされている。 胸部x線写真から画像の特徴を抽出でき、臨床作業の流れにシームレスにフィットする医学的に正確なテキストレポートを生成することができる。 本モデルは,NLP文献からの共通指標を用いた自然言語生成能力と,サロゲートレポート分類タスクによる医学的精度の評価を行った。 モデルは、http://www.github.co m/farrell236/RATCHET でダウンロードできる。

Chest radiographs are one of the most common diagnostic modalities in clinical routine. It can be done cheaply, requires minimal equipment, and the image can be diagnosed by every radiologists. However, the number of chest radiographs obtained on a daily basis can easily overwhelm the available clinical capacities. We propose RATCHET: RAdiological Text Captioning for Human Examined Thoraces. RATCHET is a CNN-RNN-based medical transformer that is trained end-to-end. It is capable of extracting image features from chest radiographs, and generates medically accurate text reports that fit seamlessly into clinical work flows. The model is evaluated for its natural language generation ability using common metrics from NLP literature, as well as its medically accuracy through a surrogate report classification task. The model is available for download at: http://www.github.co m/farrell236/RATCHET .
翻訳日:2021-07-06 16:49:34 公開日:2021-07-05
# (参考訳) 小売店舗における高密度物体検出のための半教師付き学習 [全文訳有]

Semi-supervised Learning for Dense Object Detection in Retail Scenes ( http://arxiv.org/abs/2107.02114v1 )

ライセンス: CC BY 4.0
Jaydeep Chauhan, Srikrishna Varadarajan, Muktabh Mayank Srivastava(参考訳) 小売シーンは、通常、各画像に密集した大量のオブジェクトを含む。 標準オブジェクト検出技術は、完全に教師付きトレーニング手法を使用する。 大規模な小売オブジェクト検出データセットに注釈をつけると、標準データセットに比べて桁違いの労力がかかるため、これは非常にコストがかかる。 そこで本研究では,小売ドメインで利用可能な大量のラベルなしデータを効果的に活用するための半教師付き学習を提案する。 そこで我々は,まず,高密度物体検出の課題に対象分類を提案する,ノイズのある学生という,身近な自己管理手法を適用した。 ノイズの多い学生のトレーニング手法でラベルのないデータを使用することで,密集した店舗シーンにおける物体の正確な検出精度を向上させることができることを示す。 また,ラベルなしデータの量を増やすと,モデルの性能が向上することを示す。

Retail scenes usually contain densely packed high number of objects in each image. Standard object detection techniques use fully supervised training methodology. This is highly costly as annotating a large dense retail object detection dataset involves an order of magnitude more effort compared to standard datasets. Hence, we propose semi-supervised learning to effectively use the large amount of unlabeled data available in the retail domain. We adapt a popular self supervised method called noisy student initially proposed for object classification to the task of dense object detection. We show that using unlabeled data with the noisy student training methodology, we can improve the state of the art on precise detection of objects in densely packed retail scenes. We also show that performance of the model increases as you increase the amount of unlabeled data.
翻訳日:2021-07-06 16:37:30 公開日:2021-07-05
# (参考訳) Bi-gram Graph属性について [全文訳有]

On Bi-gram Graph Attributes ( http://arxiv.org/abs/2107.02128v1 )

ライセンス: CC BY 4.0
Thomas Konstantinovsky, Matan Mizrachi(参考訳) 本稿では,コーパスの"bi-gram graph"表現を用いたテキスト意味解析と一般コーパス解析の新しいアプローチを提案する。 グラフ理論から派生した異なる属性は、ユニークな洞察として、あるいは他のコーパスグラフに対して測定され分析される。 グラフ表現の上に開発できるツールやアルゴリズムの広大な領域を観察し、そのようなグラフを作成することは計算的に安価であることが証明され、多くの重み付けは基本的なグラフ計算によって達成される。 さらに,bi-gramグラフのさまざまなユースケースと,大規模なデータセットを扱う場合のスケーラブル性についても紹介する。

We propose a new approach to text semantic analysis and general corpus analysis using, as termed in this article, a "bi-gram graph" representation of a corpus. The different attributes derived from graph theory are measured and analyzed as unique insights or against other corpus graphs. We observe a vast domain of tools and algorithms that can be developed on top of the graph representation; creating such a graph proves to be computationally cheap, and much of the heavy lifting is achieved via basic graph calculations. Furthermore, we showcase the different use-cases for the bi-gram graphs and how scalable it proves to be when dealing with large datasets.
翻訳日:2021-07-06 16:32:25 公開日:2021-07-05
# (参考訳) FaVIQ: 情報検索に関する質問のファクト検証 [全文訳有]

FaVIQ: FAct Verification from Information-seeking Questions ( http://arxiv.org/abs/2107.02153v1 )

ライセンス: CC BY 4.0
Jungsoo Park, Sewon Min, Jaewoo Kang, Luke Zettlemoyer, Hannaneh Hajishirzi(参考訳) 汎用的な事実チェックモデルの開発には大きな関心があるが、現実の世界で起こりうる現実的な主張を伴う大規模な事実検証データセットを構築することは困難である。 既存のクレームは、クラウドワーカーによって作成され、制御が難しい微妙なバイアスを導入するか、プロのファクトチェッカーによって手作業で検証される。 本稿では,実際の回答方法が不明なユーザによる情報探索質問を用いて,FaVIQと呼ばれる難解で現実的で大規模な事実検証データセットを構築した。 情報参照質問の曖昧さは、ユーザーから生じる混乱(例えば、映画が撮影される年と公開される年)を反映した、真偽の主張を自動的に構築することを可能にする。 我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。 我々の実験は、最先端のモデルは我々の新しいタスクを解くには程遠いことを示している。 さらに、私たちのデータに対するトレーニングは、プロのファクトチェックや、最も広く使用されているデータセットFEVERやドメイン内のデータを最大17%までトレーニングしたモデルのパフォーマンス向上に役立ちます。 さらに、私たちのデータは、自然言語理解のための挑戦的なベンチマークとして機能し、プロフェッショナルな事実チェックの今後の進歩をサポートするでしょう。

Despite significant interest in developing general purpose fact checking models, it is challenging to construct a large-scale fact verification dataset with realistic claims that would occur in the real world. Existing claims are either authored by crowdworkers, thereby introducing subtle biases that are difficult to control for, or manually verified by professional fact checkers, causing them to be expensive and limited in scale. In this paper, we construct a challenging, realistic, and large-scale fact verification dataset called FaVIQ, using information-seeking questions posed by real users who do not know how to answer. The ambiguity in information-seeking questions enables automatically constructing true and false claims that reflect confusions arisen from users (e.g., the year of the movie being filmed vs. being released). Our claims are verified to be natural, contain little lexical bias, and require a complete understanding of the evidence for verification. Our experiments show that the state-of-the-art models are far from solving our new task. Moreover, training on our data helps in professional fact-checking, outperforming models trained on the most widely used dataset FEVER or in-domain data by up to 17% absolute. Altogether, our data will serve as a challenging benchmark for natural language understanding and support future progress in professional fact checking.
翻訳日:2021-07-06 16:24:45 公開日:2021-07-05
# (参考訳) ディファレンシャル顔形態検出のための条件付き同一性乱れ [全文訳有]

Conditional Identity Disentanglement for Differential Face Morph Detection ( http://arxiv.org/abs/2107.02162v1 )

ライセンス: CC BY 4.0
Sudipta Banerjee and Arun Ross(参考訳) 本稿では,条件生成ネットワーク(cGAN)を用いた顔形態攻撃検出の課題について述べる。 パスポート等の識別文書中の顔画像が変形しているか否かを判定するために、cganを用いて、信頼された基準画像に条件づけられた形態画像から暗黙的に同一性を区別するアルゴリズムを提案する。 さらに,本手法では,モーフの生成に用いた第2主語に関する基礎情報も取得できる。 提案手法の有効性を実証するために, AMSL顔形態, MorGAN および EMorGAN データセットの実験を行った。 また,クロスデータセットおよびクロスアタック検出実験を行った。 既存手法に匹敵するデータセット内評価では3% BPCER @ 10% APCER, クロスデータセット評価では4.6% BPCER @ 10% APCER, 最先端手法では少なくとも13.9%向上した。

We present the task of differential face morph attack detection using a conditional generative network (cGAN). To determine whether a face image in an identification document, such as a passport, is morphed or not, we propose an algorithm that learns to implicitly disentangle identities from the morphed image conditioned on the trusted reference image using the cGAN. Furthermore, the proposed method can also recover some underlying information about the second subject used in generating the morph. We performed experiments on AMSL face morph, MorGAN, and EMorGAN datasets to demonstrate the effectiveness of the proposed method. We also conducted cross-dataset and cross-attack detection experiments. We obtained promising results of 3% BPCER @ 10% APCER on intra-dataset evaluation, which is comparable to existing methods; and 4.6% BPCER @ 10% APCER on cross-dataset evaluation, which outperforms state-of-the-art methods by at least 13.9%.
翻訳日:2021-07-06 16:01:04 公開日:2021-07-05
# UCSL : 教師なしクラスタリングのための機械学習予測最大化フレームワーク

UCSL : A Machine Learning Expectation-Maximiza tion framework for Unsupervised Clustering driven by Supervised Learning ( http://arxiv.org/abs/2107.01988v1 )

ライセンス: Link先を確認
Robin Louiset and Pietro Gori and Benoit Dufumier and Josselin Houenou and Antoine Grigis and Edouard Duchesnay(参考訳) サブタイプ発見(subtype discovery)は、データセットの解釈可能かつ一貫性のある部分を見つけることで成り立っている。 数学的観点からは、これは教師付き学習によって駆動されるクラスタリングタスクとして定義でき、教師付き予測に沿ってサブグループを明らかにすることができる。 本稿では,UCSL (Unsupervised Clustering driven by Supervised Learning) と題する一般的な期待最大化アンサンブルフレームワークを提案する。 この手法は汎用的であり,任意のクラスタリング手法を統合でき,二進分類と回帰の両方によって駆動できる。 本稿では,クラスタ毎に複数の線形推定器をマージして非線形モデルを構築することを提案する。 各超平面は正確に1つのクラスターのみを判別または予測するように推定される。 分類にはSVCまたはロジスティック回帰、回帰にはSVRを使用します。 さらに,より適切な空間内でクラスタ解析を行うために,教師ありタスクに関連する正規直交空間にデータを投影する次元還元アルゴリズムを提案する。 合成および実験データセットを用いて,アルゴリズムの堅牢性と一般化能力を解析する。 特に,既知の接地ラベルを用いた精神医学的ダイザスクラスター分析を行い,適切な一貫性のあるサブタイプを同定する能力を検証する。 従来の最先端技術に比較して提案手法の精度は+1.9ポイント程度である。 最後に、scikit-learn互換のpythonパッケージでコードとサンプルをhttps://github.com/n eurospin-projects/20 21_rlouiset_ucslで利用可能にする。

Subtype Discovery consists in finding interpretable and consistent sub-parts of a dataset, which are also relevant to a certain supervised task. From a mathematical point of view, this can be defined as a clustering task driven by supervised learning in order to uncover subgroups in line with the supervised prediction. In this paper, we propose a general Expectation-Maximiza tion ensemble framework entitled UCSL (Unsupervised Clustering driven by Supervised Learning). Our method is generic, it can integrate any clustering method and can be driven by both binary classification and regression. We propose to construct a non-linear model by merging multiple linear estimators, one per cluster. Each hyperplane is estimated so that it correctly discriminates - or predict - only one cluster. We use SVC or Logistic Regression for classification and SVR for regression. Furthermore, to perform cluster analysis within a more suitable space, we also propose a dimension-reduction algorithm that projects the data onto an orthonormal space relevant to the supervised task. We analyze the robustness and generalization capability of our algorithm using synthetic and experimental datasets. In particular, we validate its ability to identify suitable consistent sub-types by conducting a psychiatric-diseases cluster analysis with known ground-truth labels. The gain of the proposed method over previous state-of-the-art techniques is about +1.9 points in terms of balanced accuracy. Finally, we make codes and examples available in a scikit-learn-compati ble Python package at https://github.com/n eurospin-projects/20 21_rlouiset_ucsl
翻訳日:2021-07-06 15:27:06 公開日:2021-07-05
# 脳トラクトグラムの高速かつスケーラブルな輸送

Fast and Scalable Optimal Transport for Brain Tractograms ( http://arxiv.org/abs/2107.02010v1 )

ライセンス: Link先を確認
Jean Feydy and Pierre Roussillon and Alain Trouv\'e and Pietro Gori(参考訳) 線形メモリフットプリントを備えたGPU上での正規化最適輸送問題の解法として,新しいマルチスケールアルゴリズムを提案する。 この方法では, 凸, 滑らか, 正定値損失関数であるシンクホーンの発散を考慮し, 数分で数百万点間の輸送計画の計算が可能となる。 本手法は, ファイバー束やトラック密度マップとしてモデル化された脳幹図に対して有効性を示す。 得られたスムーズな割り当てを用いて、繊維トラクトグラムのアトラスに基づくセグメンテーションのラベル転送を行う。 我々の手法のパラメータであるぼやけと到達は有意義であり、2つのファイバーが互いに比較される最小と最大距離を定義する。 解剖学的な知識に基づいて設定できる。 さらに、トラック密度写像の集団の確率アトラスをワッサーシュタインバリセンターとして推定することも提案する。 CUDAの実装にはユーザフレンドリーなPyTorchインターフェースが組み込まれており、PyPiリポジトリ(pip install geomloss)やwww.kernel-operation s.io/geomlossで自由に利用できます。

We present a new multiscale algorithm for solving regularized Optimal Transport problems on the GPU, with a linear memory footprint. Relying on Sinkhorn divergences which are convex, smooth and positive definite loss functions, this method enables the computation of transport plans between millions of points in a matter of minutes. We show the effectiveness of this approach on brain tractograms modeled either as bundles of fibers or as track density maps. We use the resulting smooth assignments to perform label transfer for atlas-based segmentation of fiber tractograms. The parameters -- blur and reach -- of our method are meaningful, defining the minimum and maximum distance at which two fibers are compared with each other. They can be set according to anatomical knowledge. Furthermore, we also propose to estimate a probabilistic atlas of a population of track density maps as a Wasserstein barycenter. Our CUDA implementation is endowed with a user-friendly PyTorch interface, freely available on the PyPi repository (pip install geomloss) and at www.kernel-operation s.io/geomloss.
翻訳日:2021-07-06 15:26:44 公開日:2021-07-05
# 高次元生体医学データの診断のための説明可能なaiシステム

An Explainable AI System for the Diagnosis of High Dimensional Biomedical Data ( http://arxiv.org/abs/2107.01820v1 )

ライセンス: Link先を確認
Alfred Ultsch, J\"org Hoffmann, Maximilian R\"ohnert, Malte Von Bonin, Uta Oelschl\"agel, Cornelia Brendel, Michael C. Thrun(参考訳) アートフローサイトメトリーデータサンプルの典型的な状態は、10以上の特徴を持つ100,000以上の細胞からなる。 aiシステムは、人間のエキスパートとほぼ同じ精度でこれらのデータを診断することができる。 しかし、そのようなシステムには1つの大きな課題がある。彼らの決定は人々の健康と生活に広範囲の影響を与えるため、aiシステムの決定は人間によって理解され、正当化される必要がある。 本研究では,高次元データにおけるクラスタ,すなわちサブポピュレーションに基づくケースの分類(診断)が可能な,ALPODSと呼ばれる新しいAI手法を提案する。 ALPODSはその決定を、人間の専門家にとって理解しやすい形で説明することができる。 特定された部分集団に対しては、ドメインエキスパートの典型的な言語で表現されるファジィ推論ルールが生成される。 これらのルールに基づいた可視化手法により、aiシステムが使用する推論を理解することができる。 アート説明可能なAIシステムの状態の選択と比較すると、ALPODSは既知のベンチマークデータや日常的なケースデータでも効率的に動作する。

Typical state of the art flow cytometry data samples consists of measures of more than 100.000 cells in 10 or more features. AI systems are able to diagnose such data with almost the same accuracy as human experts. However, there is one central challenge in such systems: their decisions have far-reaching consequences for the health and life of people, and therefore, the decisions of AI systems need to be understandable and justifiable by humans. In this work, we present a novel explainable AI method, called ALPODS, which is able to classify (diagnose) cases based on clusters, i.e., subpopulations, in the high-dimensional data. ALPODS is able to explain its decisions in a form that is understandable for human experts. For the identified subpopulations, fuzzy reasoning rules expressed in the typical language of domain experts are generated. A visualization method based on these rules allows human experts to understand the reasoning used by the AI system. A comparison to a selection of state of the art explainable AI systems shows that ALPODS operates efficiently on known benchmark data and also on everyday routine case data.
翻訳日:2021-07-06 15:26:25 公開日:2021-07-05
# サブモジュラー最適化による特徴横断探索

Feature Cross Search via Submodular Optimization ( http://arxiv.org/abs/2107.02139v1 )

ライセンス: Link先を確認
Lin Chen, Hossein Esfandiari, Gang Fu, Vahab S. Mirrokni, Qian Yu(参考訳) 本稿では,機能工学の基本原理として機能横断探索について考察する。 特に線形モデルにおける機能横断探索の重要性は、教科書の例で知られている。 この問題において、ゴールは機能の小さなサブセットを選択し、それらを組み合わせてデカルト的製品を考慮して新機能(crossed feature)を形成すること、そして機能横断を見つけて \emph{accurate}モデルを学ぶことである。 特に,交差特徴列上で訓練された線形モデルの曲線(auc)下の正規化領域を最大化する問題について検討する。 まず、指数時間仮説が失敗しない限り、この問題に対して$n^{1/\log\log n}$-approximationアルゴリズムを提供することはできないことを示す。 この結果は、$\mathsf{P}=\mathsf{NP}$でない限り、多項式時間でこの問題を解決する可能性も規定する。 正の側では、 \naive\ 仮定を仮定することで、この問題に対して単純な greedy $(1-1/e)$-approximat ion アルゴリズムが存在することを示す。 この結果は、AUCを2つの確率測度の可換子の総変分に関連付けて、可換子の総変分が単調で部分モジュラーであることを示す。 これを示すために、この関数の部分モジュラリティと対応するカーネル行列の正半定値を関連付ける。 次に、ボヒナーの定理を用いて正の半定義性を証明し、その逆フーリエ変換が至る所で非負であることを示す。 私たちの技術と構造的な結果は、独立した関心事かもしれない。

In this paper, we study feature cross search as a fundamental primitive in feature engineering. The importance of feature cross search especially for the linear model has been known for a while, with well-known textbook examples. In this problem, the goal is to select a small subset of features, combine them to form a new feature (called the crossed feature) by considering their Cartesian product, and find feature crosses to learn an \emph{accurate} model. In particular, we study the problem of maximizing a normalized Area Under the Curve (AUC) of the linear model trained on the crossed feature column. First, we show that it is not possible to provide an $n^{1/\log\log n}$-approximation algorithm for this problem unless the exponential time hypothesis fails. This result also rules out the possibility of solving this problem in polynomial time unless $\mathsf{P}=\mathsf{NP}$. On the positive side, by assuming the \naive\ assumption, we show that there exists a simple greedy $(1-1/e)$-approximat ion algorithm for this problem. This result is established by relating the AUC to the total variation of the commutator of two probability measures and showing that the total variation of the commutator is monotone and submodular. To show this, we relate the submodularity of this function to the positive semi-definiteness of a corresponding kernel matrix. Then, we use Bochner's theorem to prove the positive semi-definiteness by showing that its inverse Fourier transform is non-negative everywhere. Our techniques and structural results might be of independent interest.
翻訳日:2021-07-06 15:26:09 公開日:2021-07-05
# MixStyle Neural Networks for Domain Generalization and Adaptation

MixStyle Neural Networks for Domain Generalization and Adaptation ( http://arxiv.org/abs/2107.02053v1 )

ライセンス: Link先を確認
Kaiyang Zhou, Yongxin Yang, Yu Qiao, Tao Xiang(参考訳) 畳み込みニューラルネットワーク(CNN)はドメインシフト下での一般化性能が劣ることが多い。 ドメインの一般化を改善する1つの方法は、複数の関連するドメインから多様なソースデータを収集し、cnnモデルがよりドメイン不変性を学ぶことができ、したがって一般化可能な表現を得ることである。 本研究では, 浅いCNN層に簡単に挿入でき, トレーニング対象の変更を必要としない, プラグアンドプレイでパラメータフリーなモジュールであるMixStyleを用いて, ドメインの一般化を行う。 具体的には、MixStyleはインスタンス間で機能統計を確率的に混ぜる。 この考え方は、視覚領域はしばしば、浅いCNN層のインスタンスレベルの特徴統計にカプセル化されるイメージスタイルによって特徴づけられるという観察にインスパイアされている。 そのため、MixStyleモジュールを効果的に挿入すると、暗黙的に新しいドメインが合成される。 MixStyleは単純でフレキシブルなだけでなく、半教師なしのドメイン一般化や教師なしのドメイン適応といった、ラベル付きインスタンスと疑似ラベル付きインスタンスの間に特徴統計を混ぜるシンプルな拡張で、ラベルなしのイメージが利用できる問題にも利用できる。 我々は、MixStyleが、オブジェクト認識、インスタンス検索、強化学習を含む幅広いタスクにおいて、配布外一般化性能を大幅に向上できることを示す。

Convolutional neural networks (CNNs) often have poor generalization performance under domain shift. One way to improve domain generalization is to collect diverse source data from multiple relevant domains so that a CNN model is allowed to learn more domain-invariant, and hence generalizable representations. In this work, we address domain generalization with MixStyle, a plug-and-play, parameter-free module that is simply inserted to shallow CNN layers and requires no modification to training objectives. Specifically, MixStyle probabilistically mixes feature statistics between instances. This idea is inspired by the observation that visual domains can often be characterized by image styles which are in turn encapsulated within instance-level feature statistics in shallow CNN layers. Therefore, inserting MixStyle modules in effect synthesizes novel domains albeit in an implicit way. MixStyle is not only simple and flexible, but also versatile -- it can be used for problems whereby unlabeled images are available, such as semi-supervised domain generalization and unsupervised domain adaptation, with a simple extension to mix feature statistics between labeled and pseudo-labeled instances. We demonstrate through extensive experiments that MixStyle can significantly boost the out-of-distribution generalization performance across a wide range of tasks including object recognition, instance retrieval, and reinforcement learning.
翻訳日:2021-07-06 15:24:56 公開日:2021-07-05
# 長尺物体検出とインスタンスセグメンテーションのためのモデル校正について

On Model Calibration for Long-Tailed Object Detection and Instance Segmentation ( http://arxiv.org/abs/2107.02170v1 )

ライセンス: Link先を確認
Tai-Yu Pan, Cheng Zhang, Yandong Li, Hexiang Hu, Dong Xuan, Soravit Changpinyo, Boqing Gong, Wei-Lun Chao(参考訳) オブジェクト検出とインスタンスセグメンテーションのためのバニラモデルは、ロングテール設定で頻繁なオブジェクトを検出するための大きなバイアスに苦しむ。 既存の方法は、主にトレーニング中に、例えば再サンプリングや再重み付けによってこの問題に対処する。 本稿では,信頼性スコアの処理後校正という,概ね見過ごされたアプローチについて検討する。 NorCal, Normalized Calibration for long-tailed object detection and instance segmentation, a simple and simple recipe that reweighed the forecast scores of each class by its training sample size。 バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。 LVISデータセットでは、NorCalは稀なクラスだけでなく、一般的で頻繁なクラスでも、ほぼすべてのベースラインモデルを改善することができる。 最後に、様々なモデリング選択とアプローチのメカニズムについての洞察を提供するため、広範な分析とアブレーションの研究を行う。

Vanilla models for object detection and instance segmentation suffer from the heavy bias toward detecting frequent objects in the long-tailed setting. Existing methods address this issue mostly during training, e.g., by re-sampling or re-weighting. In this paper, we investigate a largely overlooked approach -- post-processing calibration of confidence scores. We propose NorCal, Normalized Calibration for long-tailed object detection and instance segmentation, a simple and straightforward recipe that reweighs the predicted scores of each class by its training sample size. We show that separately handling the background class and normalizing the scores over classes for each proposal are keys to achieving superior performance. On the LVIS dataset, NorCal can effectively improve nearly all the baseline models not only on rare classes but also on common and frequent classes. Finally, we conduct extensive analysis and ablation studies to offer insights into various modeling choices and mechanisms of our approach.
翻訳日:2021-07-06 15:24:37 公開日:2021-07-05
# 階層的視覚トランスフォーマーには何をもたらすのか?

What Makes for Hierarchical Vision Transformer? ( http://arxiv.org/abs/2107.02174v1 )

ライセンス: Link先を確認
Yuxin Fang, Xinggang Wang, Rui Wu, Jianwei Niu, Wenyu Liu(参考訳) 近年の研究では、インターリーブされた非オーバーラップイントラウィンドウによる階層的視覚トランスフォーマは、様々な視覚認識タスクにおいて最先端のパフォーマンスを達成でき、cnnの密集したスライディングウィンドウパラダイムに挑戦できることが示されている。 ほとんどのフォローアップ作業は、シフトしたウィンドウ操作を他の種類のクロスウィンドウ通信に置き換えようとし、自己アテンションをウィンドウ内情報集約のデファクトスタンダードとして扱う。 この短いプレプリントでは、階層的視覚トランスフォーマーが強力なパフォーマンスを達成する唯一の選択肢であるかどうか、階層的視覚トランスフォーマーに何をもたらすのかを問う。 Swin TransformerとShuffle Transformerの自己アテンション層を単純な線形マッピングで置き換え、他のコンポーネントをそのままにします。 25.4Mパラメータと4.2GのFLOPを持つアーキテクチャは、28.3Mパラメータと4.5GのFLOPを持つSwin Transformerの81.3\%と比較して80.5\%のTop-1精度を達成する。 また、オーバーラップしないウィンドウ内のコンテキストアグリゲーションに対して、同じアーキテクチャの下で同様の競合結果をもたらす、自己注意の代替手段を実験します。 本研究では,Swin モデルファミリの \textbf{macro アーキテクチャ (インターリーブされたウィンドウ内 \&クロスウインドウ通信) が,特定のアグリゲーション層やクロスウインドウ通信の特定の手段以外では,より強力な性能の担い手であり,CNN の高密度スライディングウインドウパラダイムの真の挑戦者であることを示す。

Recent studies show that hierarchical Vision Transformer with interleaved non-overlapped intra window self-attention \& shifted window self-attention is able to achieve state-of-the-art performance in various visual recognition tasks and challenges CNN's dense sliding window paradigm. Most follow-up works try to replace shifted window operation with other kinds of cross window communication while treating self-attention as the de-facto standard for intra window information aggregation. In this short preprint, we question whether self-attention is the only choice for hierarchical Vision Transformer to attain strong performance, and what makes for hierarchical Vision Transformer? We replace self-attention layers in Swin Transformer and Shuffle Transformer with simple linear mapping and keep other components unchanged. The resulting architecture with 25.4M parameters and 4.2G FLOPs achieves 80.5\% Top-1 accuracy, compared to 81.3\% for Swin Transformer with 28.3M parameters and 4.5G FLOPs. We also experiment with other alternatives to self-attention for context aggregation inside each non-overlapped window, which all give similar competitive results under the same architecture. Our study reveals that the \textbf{macro architecture} of Swin model families (i.e., interleaved intra window \& cross window communications), other than specific aggregation layers or specific means of cross window communication, may be more responsible for its strong performance and is the real challenger to CNN's dense sliding window paradigm.
翻訳日:2021-07-06 15:24:22 公開日:2021-07-05
# deeprapper:rhymeとリズムモデリングを用いたニューラルラップ生成

DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling ( http://arxiv.org/abs/2107.01875v1 )

ライセンス: Link先を確認
Lanqing Xue, Kaitao Song, Duocai Wu, Xu Tan, Nevin L. Zhang, Tao Qin, Wei-Qiang Zhang, Tie-Yan Liu(参考訳) 歌詞とそれに対応する歌のビートを作り出すことを目的としたラップ生成では、韻律とリズムの両方をモデル化する必要がある。 ラップ・ジェネレーションの以前の作品は韻律の歌詞に焦点が当てられていたが、ラップの演奏に重要なリズムビートを無視していた。 本稿では,rhyme と rhythm の両方をモデル化できるトランスフォーマーベースのrap生成システム deeprapper を開発した。 リズミカルビートを持つラプデータセットが存在しないため、大規模なラプデータセットを収集するデータマイニングパイプラインを開発し、多数のラプ曲とアライメントされた歌詞とリズミカルビートを含む。 第2に,韻律とリズムを慎重にモデル化するトランスフォーマーに基づく自己回帰言語モデルを設計する。 具体的には、韻律強調のための韻律表現と制約のある逆順の歌詞を生成し、リズム/ビートモデリングのための歌詞にビート記号を挿入する。 私たちの知る限り、DeepRapperは韻律とリズムの両方でラップを生成する最初のシステムです。 客観的および主観的な評価は、DeepRapperが韻律とリズムを持つ創造的で高品質なラップを生成することを示している。 コードはGitHubでリリースされる。

Rap generation, which aims to produce lyrics and corresponding singing beats, needs to model both rhymes and rhythms. Previous works for rap generation focused on rhyming lyrics but ignored rhythmic beats, which are important for rap performance. In this paper, we develop DeepRapper, a Transformer-based rap generation system that can model both rhymes and rhythms. Since there is no available rap dataset with rhythmic beats, we develop a data mining pipeline to collect a large-scale rap dataset, which includes a large number of rap songs with aligned lyrics and rhythmic beats. Second, we design a Transformer-based autoregressive language model which carefully models rhymes and rhythms. Specifically, we generate lyrics in the reverse order with rhyme representation and constraint for rhyme enhancement and insert a beat symbol into lyrics for rhythm/beat modeling. To our knowledge, DeepRapper is the first system to generate rap with both rhymes and rhythms. Both objective and subjective evaluations demonstrate that DeepRapper generates creative and high-quality raps with rhymes and rhythms. Code will be released on GitHub.
翻訳日:2021-07-06 15:23:48 公開日:2021-07-05
# 自己スーパービジョンを用いた空間的道路レーンネットワークグラフ推定モデル学習

Learning a Model for Inferring a Spatial Road Lane Network Graph using Self-Supervision ( http://arxiv.org/abs/2107.01784v1 )

ライセンス: Link先を確認
Robin Karlsson, David Robert Wong, Simon Thompson, Kazuya Takeda(参考訳) インターコネクテッド・ロード・レーンは都市道路を走行する中心的な概念である。 現在、ほとんどの自動運転車は、アルゴリズムモデルの設計が難しいため、事前構築されたレーンマップに依存している。 しかし、このような地図の生成とメンテナンスはコストがかかり、自動運転車技術の大規模導入を妨げる。 本稿では,車載センサから生成された道路シーンの密集したセグメント表現に基づいて,車線レベル道路ネットワークグラフを空間的に推定するモデルを訓練する最初の自己教師あり学習手法を提案する。 正式な道路レーンネットワークモデルが提示され、任意の構造化道路シーンが、交差領域の概念を維持しながら、最大深さ3の有向非循環グラフで表現できることが証明され、これが最も圧縮された表現である。 この形式モデルは,新しいバリア関数損失定式化を利用して,部分ラベルからのロバスト学習を行うハイブリッドニューラルモデルとサーチベースモデルによって実装されている。 共通道路交差点配置について実験を行った。 結果は,本モデルが従来のアプローチとは異なり,新たな道路レイアウトに一般化可能であることを示し,実際の学習に基づくレーンレベルマップ生成装置としての現実的応用の可能性を示した。

Interconnected road lanes are a central concept for navigating urban roads. Currently, most autonomous vehicles rely on preconstructed lane maps as designing an algorithmic model is difficult. However, the generation and maintenance of such maps is costly and hinders large-scale adoption of autonomous vehicle technology. This paper presents the first self-supervised learning method to train a model to infer a spatially grounded lane-level road network graph based on a dense segmented representation of the road scene generated from onboard sensors. A formal road lane network model is presented and proves that any structured road scene can be represented by a directed acyclic graph of at most depth three while retaining the notion of intersection regions, and that this is the most compressed representation. The formal model is implemented by a hybrid neural and search-based model, utilizing a novel barrier function loss formulation for robust learning from partial labels. Experiments are conducted for all common road intersection layouts. Results show that the model can generalize to new road layouts, unlike previous approaches, demonstrating its potential for real-world application as a practical learning-based lane-level map generator.
翻訳日:2021-07-06 15:23:32 公開日:2021-07-05
# 計算制約付きオープンドメイン質問応答のための適応計算の訓練

Training Adaptive Computation for Open-Domain Question Answering with Computational Constraints ( http://arxiv.org/abs/2107.02102v1 )

ライセンス: Link先を確認
Yuxiang Wu, Pasquale Minervini, Pontus Stenetorp, Sebastian Riedel(参考訳) Adaptive Computation (AC) はオープンドメイン質問回答システム(ODQA)の効率向上に有効であることが示されている。 しかしながら、現在のACアプローチでは、全てのモデルパラメータのチューニングが必要であり、最先端のODQAモデルのトレーニングには、ほとんどの研究者では利用できない重要な計算資源が必要である。 本稿では,既存のodqaモデルに適用可能で,単一のgpu上で効率的にトレーニング可能なac方式であるadaptive passage encoderを提案する。 基本odqaモデルのパラメータは固定されているが、モデルの計算効率を最適化するように訓練されたacポリシーでエンコーダの既定の層別計算をオーバーライドする。 実験結果から,本手法は2つのデータセットの最先端モデルにより改善され,より強力な基盤ODQAモデルにより,従来のAC法よりも精度が高いことがわかった。 すべてのソースコードとデータセットはhttps://github.com/u clnlp/APEで入手できる。

Adaptive Computation (AC) has been shown to be effective in improving the efficiency of Open-Domain Question Answering (ODQA) systems. However, current AC approaches require tuning of all model parameters, and training state-of-the-art ODQA models requires significant computational resources that may not be available for most researchers. We propose Adaptive Passage Encoder, an AC method that can be applied to an existing ODQA model and can be trained efficiently on a single GPU. It keeps the parameters of the base ODQA model fixed, but it overrides the default layer-by-layer computation of the encoder with an AC policy that is trained to optimise the computational efficiency of the model. Our experimental results show that our method improves upon a state-of-the-art model on two datasets, and is also more accurate than previous AC methods due to the stronger base ODQA model. All source code and datasets are available at https://github.com/u clnlp/APE.
翻訳日:2021-07-06 15:23:14 公開日:2021-07-05
# SM-SGE: 人物再識別のためのマルチスケールスケルトングラフ符号化フレームワーク

SM-SGE: A Self-Supervised Multi-Scale Skeleton Graph Encoding Framework for Person Re-Identification ( http://arxiv.org/abs/2107.01903v1 )

ライセンス: Link先を確認
Haocong Rao, Xiping Hu, Jun Cheng, Bin Hu(参考訳) 3dスケルトンによる人物再同定は、セキュリティクリティカルなアプリケーションにおいて大きな可能性を秘めている。 既存の方法は、典型的には体と関節の軌跡から体と運動の特徴を学習するが、それらは体の構造をモデル化する体系的な方法や、体の関節の規模を超えた身体成分の基盤的関係を欠いている。 本稿では, 人体, コンポーネント関係, 骨格動態を様々なスケールのラベルのない骨格グラフから包括的にモデル化し, 人体Re-IDの効果的な骨格表現を学習する, 自己教師付きマルチスケールスケルトングラフ符号化(SM-SGE)フレームワークを初めて提案する。 具体的には,まず,人体分割の粗さを考慮した多次元スケルトングラフを考案し,生体構造とスケルトンダイナミクスを複数レベルでモデル化する。 次に,骨格運動における身体成分間の固有相関を推定するために,隣接する体成分ノード間の構造関係と異なるスケールのノード間の協調関係を学習し,より識別的な骨格グラフの特徴を捉えるマルチスケールグラフ関係ネットワークを提案する。 最後に,非ラベルスケルトングラフからスケルトンダイナミックスとハイレベルセマンティクスをエンコードし,人物再同定のための識別的スケルトン表現の学習を促進するための,新たなマルチスケールスケルトン再構築機構を提案する。 広範囲にわたる実験の結果、SM-SGEは最先端の骨格ベースの手法よりも優れていた。 大規模RGBビデオから推定した3Dスケルトンデータにも有効性を示す。 私たちのコードはhttps://github.com/K ali-Hac/SM-SGE.comで公開されています。

Person re-identification via 3D skeletons is an emerging topic with great potential in security-critical applications. Existing methods typically learn body and motion features from the body-joint trajectory, whereas they lack a systematic way to model body structure and underlying relations of body components beyond the scale of body joints. In this paper, we for the first time propose a Self-supervised Multi-scale Skeleton Graph Encoding (SM-SGE) framework that comprehensively models human body, component relations, and skeleton dynamics from unlabeled skeleton graphs of various scales to learn an effective skeleton representation for person Re-ID. Specifically, we first devise multi-scale skeleton graphs with coarse-to-fine human body partitions, which enables us to model body structure and skeleton dynamics at multiple levels. Second, to mine inherent correlations between body components in skeletal motion, we propose a multi-scale graph relation network to learn structural relations between adjacent body-component nodes and collaborative relations among nodes of different scales, so as to capture more discriminative skeleton graph features. Last, we propose a novel multi-scale skeleton reconstruction mechanism to enable our framework to encode skeleton dynamics and high-level semantics from unlabeled skeleton graphs, which encourages learning a discriminative skeleton representation for person Re-ID. Extensive experiments show that SM-SGE outperforms most state-of-the-art skeleton-based methods. We further demonstrate its effectiveness on 3D skeleton data estimated from large-scale RGB videos. Our codes are open at https://github.com/K ali-Hac/SM-SGE.
翻訳日:2021-07-06 15:21:53 公開日:2021-07-05
# 異なるトラッキングタスクは異なる外観モデルを必要とするか?

Do Different Tracking Tasks Require Different Appearance Models? ( http://arxiv.org/abs/2107.02156v1 )

ライセンス: Link先を確認
Zhongdao Wang, Hengshuang Zhao, Ya-Li Li, Shengjin Wang, Philip H.S. Torr, Luca Bertinetto(参考訳) ビデオにおける関心事の追跡は、コンピュータビジョンにおいて最も人気があり、広く適用可能な問題の1つである。 しかし、長年にわたって、カンブリアのユースケースとベンチマークの爆発は、様々な実験的な設定で問題を断片化してきた。 その結果、文学も断片化され、現在ではコミュニティによって提案された新しいアプローチは、1つの特定の設定にのみ適合するように特別化されている。 この専門化が実際にどの程度必要かを理解するために、同じフレームワーク内の5つの異なるタスクに対処するための統合されたトラッキングソリューションであるUniTrackを紹介します。 UniTrackは1つのタスクに依存しない外観モデルで構成されており、教師付きまたは自己監督型で学習することができる。 このフレームワークでは,ほとんどのトラッキングタスクがいかに解決可能かを示し,同じ外観モデルを用いて,検討された5つのタスクすべてに対して,特殊化メソッドと競合する性能が得られることを示す。 このフレームワークは,最新の自己監督手法を用いて得られた外観モデルの解析を可能にし,その評価と,より多種多様な重要な問題との比較を著しく拡張する。 コードはhttps://github.com/z hongdao/unitrack。

Tracking objects of interest in a video is one of the most popular and widely applicable problems in computer vision. However, with the years, a Cambrian explosion of use cases and benchmarks has fragmented the problem in a multitude of different experimental setups. As a consequence, the literature has fragmented too, and now the novel approaches proposed by the community are usually specialised to fit only one specific setup. To understand to what extent this specialisation is actually necessary, in this work we present UniTrack, a unified tracking solution to address five different tasks within the same framework. UniTrack consists of a single and task-agnostic appearance model, which can be learned in a supervised or self-supervised fashion, and multiple "heads" to address individual tasks and that do not require training. We show how most tracking tasks can be solved within this framework, and that the same appearance model can be used to obtain performance that is competitive against specialised methods for all the five tasks considered. The framework also allows us to analyse appearance models obtained with the most recent self-supervised methods, thus significantly extending their evaluation and comparison to a larger variety of important problems. Code available at https://github.com/Z hongdao/UniTrack.
翻訳日:2021-07-06 15:21:24 公開日:2021-07-05
# トピックモデルの自動評価は壊れているか? コヒーレンスの不整合

Is Automated Topic Model Evaluation Broken?: The Incoherence of Coherence ( http://arxiv.org/abs/2107.02173v1 )

ライセンス: Link先を確認
Alexander Hoyle, Pranav Goel, Denis Peskov, Andrew Hian-Cheong, Jordan Boyd-Graber, Philip Resnik(参考訳) トピックモデルの評価は、他の教師なしメソッドの評価と同様に、議論の余地がある。 しかし、この分野は、参照コーパスにおける単語共起頻度に依存するトピックコヒーレンスの自動推定を中心に融合してきた。 これらの指標によると、最近のモデルは古典的なトピックモデルを超えている。 同時に、古典的なモデルとは異なり、ニューラルネットワークのトピックモデル評価のプラクティスは検証のギャップに苦しめられている。 さらに、トピックモデリング文献のメタ分析を通して示すように、自動トピックモデリングベンチマークの使用にはかなりの標準化のギャップがある。 標準化のギャップと検証のギャップに対処する。 最も広く使われているトピックモデル評価データセットの2つを用いて、支配的な古典的モデルと最先端の2つのニューラルモデルを、体系的で明確に文書化され再現可能な方法で評価する。 我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。 自動評価は、対応する人間の評価がなければ、あるモデルと大きく異なることを宣言し、人間の判断とは無関係に完全な自動評価の有効性を疑問視する。

Topic model evaluation, like evaluation of other unsupervised methods, can be contentious. However, the field has coalesced around automated estimates of topic coherence, which rely on the frequency of word co-occurrences in a reference corpus. Recent models relying on neural components surpass classical topic models according to these metrics. At the same time, unlike classical models, the practice of neural topic model evaluation suffers from a validation gap: automatic coherence for neural models has not been validated using human experimentation. In addition, as we show via a meta-analysis of topic modeling literature, there is a substantial standardization gap in the use of automated topic modeling benchmarks. We address both the standardization gap and the validation gap. Using two of the most widely used topic model evaluation datasets, we assess a dominant classical model and two state-of-the-art neural models in a systematic, clearly documented, reproducible way. We use automatic coherence along with the two most widely accepted human judgment tasks, namely, topic rating and word intrusion. Automated evaluation will declare one model significantly different from another when corresponding human evaluations do not, calling into question the validity of fully automatic evaluations independent of human judgments.
翻訳日:2021-07-06 15:20:12 公開日:2021-07-05
# マルチタスク学習による多国インフルエンザ予測のための単一モデル

Single Model for Influenza Forecasting of Multiple Countries by Multi-task Learning ( http://arxiv.org/abs/2107.01760v1 )

ライセンス: Link先を確認
Taichi Murayama, Shoko Wakamiya, Eiji Aramaki(参考訳) インフルエンザなどの感染症の正確な予測は医療機関が行う重要な課題である。 過去の研究では, 過去のインフルエンザ活動データとオンラインユーザ生成コンテンツを中心に, 多数のインフルエンザ予測手法やモデルが提案されているが, 2種類のデータを用いた複数の国を対象としたインフルエンザ予測モデルは現在存在しない。 本稿では,マルチタスク学習を活用して,複数の国を対象にした1つのインフルエンザ予測モデルの構築に挑戦する。 また,より高性能なインフルエンザ予測モデルを開発するために,ユーザ生成コンテンツの一部である適切な検索クエリの探索と,モデル生成における検索クエリの有効活用という2つの課題を解決した。 第一号では、英語から他言語への移動アプローチを提案する。 第2の課題として,注意機構を用いて検索クエリを活用し,複数の国のインフルエンザ予測のためのマルチタスクモデルにモデルを拡張した新しいインフルエンザ予測モデルを提案する。 5か国におけるインフルエンザ流行予測実験の結果,検索クエリとマルチタスク学習をベースラインと比較し,このモデルによる性能改善が確認された。

The accurate forecasting of infectious epidemic diseases such as influenza is a crucial task undertaken by medical institutions. Although numerous flu forecasting methods and models based mainly on historical flu activity data and online user-generated contents have been proposed in previous studies, no flu forecasting model targeting multiple countries using two types of data exists at present. Our paper leverages multi-task learning to tackle the challenge of building one flu forecasting model targeting multiple countries; each country as each task. Also, to develop the flu prediction model with higher performance, we solved two issues; finding suitable search queries, which are part of the user-generated contents, and how to leverage search queries efficiently in the model creation. For the first issue, we propose the transfer approaches from English to other languages. For the second issue, we propose a novel flu forecasting model that takes advantage of search queries using an attention mechanism and extend the model to a multi-task model for multiple countries' flu forecasts. Experiments on forecasting flu epidemics in five countries demonstrate that our model significantly improved the performance by leveraging the search queries and multi-task learning compared to the baselines.
翻訳日:2021-07-06 15:18:38 公開日:2021-07-05
# 階層型生成ネットワークによる対象逆行例の伝達性の向上

Boosting Transferability of Targeted Adversarial Examples via Hierarchical Generative Networks ( http://arxiv.org/abs/2107.01809v1 )

ライセンス: Link先を確認
Xiao Yang, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu(参考訳) 転送ベースの敵攻撃はブラックボックス設定におけるモデルロバスト性を効果的に評価することができる。 対象外の敵の移動可能性を示す手法はいくつかあるが、対象とする敵の移動性は依然として困難である。 既存の手法は、低い転送可能性を持つか、計算効率を犠牲にする。 本稿では,本手法を応用した簡易かつ実用的なフレームワークを開発した。 具体的には,クラス埋め込みを単純に変更し,単一のバックボーンを共有することで,異なるクラスを対象にした逆例を生成する条件生成攻撃モデルを提案する。 大規模な実験により,既存の手法に比べて目標となるブラックボックス攻撃の成功率が大幅に向上することが示され,NeurIPS 2017コンペティションの標準テストにおいて,代用ホワイトボックスモデルのみに基づく6種類のモデルに対して平均29.6\%に達し,最先端の勾配ベース攻撃手法(平均成功率$<2\%)を大きなマージンで上回った。 さらに,提案手法は勾配法よりも桁違いに効率的である。

Transfer-based adversarial attacks can effectively evaluate model robustness in the black-box setting. Though several methods have demonstrated impressive transferability of untargeted adversarial examples, targeted adversarial transferability is still challenging. The existing methods either have low targeted transferability or sacrifice computational efficiency. In this paper, we develop a simple yet practical framework to efficiently craft targeted transfer-based adversarial examples. Specifically, we propose a conditional generative attacking model, which can generate the adversarial examples targeted at different classes by simply altering the class embedding and share a single backbone. Extensive experiments demonstrate that our method improves the success rates of targeted black-box attacks by a significant margin over the existing methods -- it reaches an average success rate of 29.6\% against six diverse models based only on one substitute white-box model in the standard testing of NeurIPS 2017 competition, which outperforms the state-of-the-art gradient-based attack methods (with an average success rate of $<$2\%) by a large margin. Moreover, the proposed method is also more efficient beyond an order of magnitude than gradient-based methods.
翻訳日:2021-07-06 15:18:21 公開日:2021-07-05
# モデルエンサンブル探索と爆発による有効強化学習

Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation ( http://arxiv.org/abs/2107.01825v1 )

ライセンス: Link先を確認
Yao Yao, Li Xiao, Zhicheng An, Wanpeng Zhang, and Dijun Luo(参考訳) モデルに基づく深層強化学習は、Goやロボティクスといった高いサンプル効率を必要とする様々な領域で成功している。 しかし、より正確な動的モデルを学ぶための効率的な探索計画、学習したモデルの不確実性の評価、モデルのより合理的な利用など、いくつかの問題は残っている。 これらの問題を緩和するために,楽観的な探索と重み付けによる手法であるMEEEを提案する。 探索中、期待される累積リターンを最大化する最適なアクションを直接選択する従来の方法とは異なり、エージェントはまず一連のアクション候補を生成し、期待されたリターンと将来の観察ノベルティを考慮に入れた最適なアクションを探す。 搾取中は, モデルの不確実性に応じて, 異なる割引重量を仮定し, エージェントトレーニングにおけるモデル予測誤差の伝播を防止する。 いくつかの挑戦的な連続制御ベンチマークタスクの実験により、我々のアプローチは、特にサンプルの複雑さにおいて、他のモデルフリーおよびモデルベースステート・オブ・ザ・アーティカルな手法よりも優れていることを示した。

Model-based deep reinforcement learning has achieved success in various domains that require high sample efficiencies, such as Go and robotics. However, there are some remaining issues, such as planning efficient explorations to learn more accurate dynamic models, evaluating the uncertainty of the learned models, and more rational utilization of models. To mitigate these issues, we present MEEE, a model-ensemble method that consists of optimistic exploration and weighted exploitation. During exploration, unlike prior methods directly selecting the optimal action that maximizes the expected accumulative return, our agent first generates a set of action candidates and then seeks out the optimal action that takes both expected return and future observation novelty into account. During exploitation, different discounted weights are assigned to imagined transition tuples according to their model uncertainty respectively, which will prevent model predictive error propagation in agent training. Experiments on several challenging continuous control benchmark tasks demonstrated that our approach outperforms other model-free and model-based state-of-the-art methods, especially in sample complexity.
翻訳日:2021-07-06 15:17:43 公開日:2021-07-05
# ARM-Net:構造化データの適応関係モデリングネットワーク

ARM-Net: Adaptive Relation Modeling Network for Structured Data ( http://arxiv.org/abs/2107.01830v1 )

ライセンス: Link先を確認
Shaofeng Cai, Kaiping Zheng, Gang Chen, H. V. Jagadish, Beng Chin Ooi, Meihui Zhang(参考訳) リレーショナルデータベースは構造化データの保存とクエリのデファクトスタンダードであり、構造化データから洞察を抽出するには高度な分析が必要である。 ディープニューラルネットワーク(DNN)は、画像などの特定のデータ型において、超人的な予測性能を達成した。 しかし、既存のDNNは構造化データに適用しても有意義な結果を出さない可能性がある。 理由は、テーブルには属性値の組み合わせに相関と依存関係があるため、これらはDNNで簡単に模倣できる単純な追加パターンに従わないからです。 そのようなクロスフィーチャの数は組合せ的であり、計算的にモデル化を禁止している。 さらに、現実世界のアプリケーションへの学習モデルのデプロイは、特に高スループットアプリケーションにおいて、解釈可能性の必要性を強調している。 本稿では、構造化データに適した適応関係モデリングネットワークARM-Netと、リレーショナルデータ分析のためのARM-Netに基づく軽量フレームワークARMORを提案する。 重要なアイデアは、まず入力された特徴を指数空間に変換し、次に各特徴に対して適応的に相互作用の順序と相互作用の重み付けを決定することで、交叉特徴との相互作用を選択的かつ動的にモデル化することである。 入力タプルに与えられた相互作用重みを動的に生成し,雑音のある特徴を選択的にフィルタすることで任意の順序の交叉特徴を明示的にモデル化する,新しいスパースアテンション機構を提案する。 次に、モデル推論の間、ARM-Netは、より高い精度とより良い解釈可能性のために各予測に使用されるクロス機能を指定することができる。 実世界のデータセットに関する広範な実験は、ARM-Netが既存のモデルより一貫して優れており、データ駆動意思決定のためのより解釈可能な予測を提供することを示している。

Relational databases are the de facto standard for storing and querying structured data, and extracting insights from structured data requires advanced analytics. Deep neural networks (DNNs) have achieved super-human prediction performance in particular data types, e.g., images. However, existing DNNs may not produce meaningful results when applied to structured data. The reason is that there are correlations and dependencies across combinations of attribute values in a table, and these do not follow simple additive patterns that can be easily mimicked by a DNN. The number of possible such cross features is combinatorial, making them computationally prohibitive to model. Furthermore, the deployment of learning models in real-world applications has also highlighted the need for interpretability, especially for high-stakes applications, which remains another issue of concern to DNNs. In this paper, we present ARM-Net, an adaptive relation modeling network tailored for structured data, and a lightweight framework ARMOR based on ARM-Net for relational data analytics. The key idea is to model feature interactions with cross features selectively and dynamically, by first transforming the input features into exponential space, and then determining the interaction order and interaction weights adaptively for each cross feature. We propose a novel sparse attention mechanism to dynamically generate the interaction weights given the input tuple, so that we can explicitly model cross features of arbitrary orders with noisy features filtered selectively. Then during model inference, ARM-Net can specify the cross features being used for each prediction for higher accuracy and better interpretability. Our extensive experiments on real-world datasets demonstrate that ARM-Net consistently outperforms existing models and provides more interpretable predictions for data-driven decision making.
翻訳日:2021-07-06 15:17:24 公開日:2021-07-05
# データ効率の高い深層強化学習のためのアンサンブルと補助タスク

Ensemble and Auxiliary Tasks for Data-Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2107.01904v1 )

ライセンス: Link先を確認
Muhammad Rizki Maulana and Wee Sun Lee(参考訳) アンサンブルタスクと補助タスクはどちらも、データ制限時の機械学習モデルのパフォーマンスを改善するためによく知られている。 しかし、これらの2つの手法の相互作用は、特に深層強化学習の文脈ではよく研究されていない。 本稿では,深層q学習アルゴリズムと組み合わせた場合のアンサンブル課題と補助課題の効果について検討する。 我々はデータ制約下でATARIゲームに関するケーススタディを行う。 さらに,学習の仕方や補助的なタスクの仕方を分析し,その分析を用いてケーススタディの理解を深めるため,改良されたバイアス・分散・共分散分解法を導出する。 私たちのコードはオープンソースで、https://github.com/N US-LID/RENAULT.comで公開されています。

Ensemble and auxiliary tasks are both well known to improve the performance of machine learning models when data is limited. However, the interaction between these two methods is not well studied, particularly in the context of deep reinforcement learning. In this paper, we study the effects of ensemble and auxiliary tasks when combined with the deep Q-learning algorithm. We perform a case study on ATARI games under limited data constraint. Moreover, we derive a refined bias-variance-covari ance decomposition to analyze the different ways of learning ensembles and using auxiliary tasks, and use the analysis to help provide some understanding of the case study. Our code is open source and available at https://github.com/N US-LID/RENAULT.
翻訳日:2021-07-06 15:17:00 公開日:2021-07-05
# フィードバックの学習に関するMineRL BASALTコンペティション

The MineRL BASALT Competition on Learning from Human Feedback ( http://arxiv.org/abs/2107.01969v1 )

ライセンス: Link先を確認
Rohin Shah, Cody Wild, Steven H. Wang, Neel Alex, Brandon Houghton, William Guss, Sharada Mohanty, Anssi Kanervisto, Stephanie Milani, Nicholay Topin, Pieter Abbeel, Stuart Russell, Anca Dragan(参考訳) 過去10年間、ディープラーニング研究への関心は大幅に高まり、その可能性を実証した多くの成功例がある。 そのため、現在、これらのシステムは商用製品に組み込まれている。 鮮明で明確に定義された仕様が存在しないタスクを解決するAIシステムをどのように構築すればよいのか? 複数のソリューションが提案されているが、このコンペでは特に、人間のフィードバックから学ぶことに焦点を当てている。 事前に定義された報酬関数を使用したAIシステムのトレーニングや、事前に定義されたカテゴリセットのラベル付きデータセットを使用する代わりに、タスク変更の理解やAIシステムの能力向上のために時間をかけて進化する、ある種の人間のフィードバックから派生した学習信号を使用して、AIシステムをトレーニングする。 MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。 Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。 これらのタスクは、自然言語の段落によって定義されている。例えば、「滝を創造し、その風光明快な写真を撮る」など。 参加者は、必要なメソッドを使用して、各タスクに対して別々のエージェントをトレーニングしなければならない。 エージェントはタスク記述を読んだ人間によって評価される。 参加者が始めるのを助けるために、私たちは4つのタスクのそれぞれに人間のデモのデータセットと、これらのデモを活用する模倣学習ベースラインを提供します。 この競争によって、意図を容易に形式化できない場合でも、デザイナが意図したようにAIシステムを構築する能力が向上することを期待しています。 AIがより多くのタスクを解決できるだけでなく、AIシステムのより効果的な規制を可能にし、バリューアライメントの問題を前進させることもできる。

The last decade has seen a significant increase of interest in deep learning research, with many public successes that have demonstrated its potential. As such, these systems are now being incorporated into commercial products. With this comes an additional challenge: how can we build AI systems that solve tasks where there is not a crisp, well-defined specification? While multiple solutions have been proposed, in this competition we focus on one in particular: learning from human feedback. Rather than training AI systems using a predefined reward function or using a labeled dataset with a predefined set of categories, we instead train the AI system using a learning signal derived from some form of human feedback, which can evolve over time as the understanding of the task changes, or as the capabilities of the AI system improve. The MineRL BASALT competition aims to spur forward research on this important class of techniques. We design a suite of four tasks in Minecraft for which we expect it will be hard to write down hardcoded reward functions. These tasks are defined by a paragraph of natural language: for example, "create a waterfall and take a scenic picture of it", with additional clarifying details. Participants must train a separate agent for each task, using any method they want. Agents are then evaluated by humans who have read the task description. To help participants get started, we provide a dataset of human demonstrations on each of the four tasks, as well as an imitation learning baseline that leverages these demonstrations. Our hope is that this competition will improve our ability to build AI systems that do what their designers intend them to do, even when the intent cannot be easily formalized. Besides allowing AI to solve more tasks, this can also enable more effective regulation of AI systems, as well as making progress on the value alignment problem.
翻訳日:2021-07-06 15:16:48 公開日:2021-07-05
# アンサンブル学習によるニューラルネットワークゲームiNNkにおける対戦者戦略への対処

Dealing with Adversarial Player Strategies in the Neural Network Game iNNk through Ensemble Learning ( http://arxiv.org/abs/2107.02052v1 )

ライセンス: Link先を確認
Mathias L\"owe, Jennifer Villareale, Evan Freed, Aleksanteri Sladek, Jichen Zhu, Sebastian Risi(参考訳) ニューラルネットワーク(nn)メソッドをゲームに適用することは、これまで不可能だったさまざまな新しいエキサイティングなゲームダイナミクスにつながる可能性がある。 しかし、これはまた、大規模でクリーンなデータセットの欠如、プレイヤースキルのレベルの変化、ゲームプレイ戦略の変更など、新しい課題にもつながる。 本稿では,ゲームinnkにおける敵対的プレイヤ戦略の側面に注目し,プレイヤーがnnに解読されないことを目標として,ドローイングを通じて秘密コードワードを伝達しようとする。 一部の戦略はNNの弱点を利用しており、常に不正な分類をし、不均衡なゲームプレイにつながる。 転送学習とアンサンブル法を組み合わせて,これらの戦略へのデータ効率の適応を求める手法を提案する。 この組み合わせは、限られた敵の例でのみ訓練されているにもかかわらず、全ての敵のプレイヤー戦略のベースラインNNよりも大幅に優れている。 本研究で開発された手法は,NNベースのゲーム分野の急速な発展に有効であり,未知のプレイヤーの創造性に対処するためには,新たなアプローチが必要であると期待する。

Applying neural network (NN) methods in games can lead to various new and exciting game dynamics not previously possible. However, they also lead to new challenges such as the lack of large, clean datasets, varying player skill levels, and changing gameplay strategies. In this paper, we focus on the adversarial player strategy aspect in the game iNNk, in which players try to communicate secret code words through drawings with the goal of not being deciphered by a NN. Some strategies exploit weaknesses in the NN that consistently trick it into making incorrect classifications, leading to unbalanced gameplay. We present a method that combines transfer learning and ensemble methods to obtain a data-efficient adaptation to these strategies. This combination significantly outperforms the baseline NN across all adversarial player strategies despite only being trained on a limited set of adversarial examples. We expect the methods developed in this paper to be useful for the rapidly growing field of NN-based games, which will require new approaches to deal with unforeseen player creativity.
翻訳日:2021-07-06 15:16:23 公開日:2021-07-05
# 確率的ファースト価格入札における高速学習

Fast Rate Learning in Stochastic First Price Bidding ( http://arxiv.org/abs/2107.01835v1 )

ライセンス: Link先を確認
Juliette Achddou (PSL, DI-ENS, VALDA ), Olivier Capp\'e (LTCI, VALDA ), Aur\'elien Garivier (UMPA-ENSL)(参考訳) ファーストプライスオークションは、プログラム広告におけるビックリーオークションに基づく従来の入札アプローチに取って代わった。 学習に関しては、最適入札戦略はアイテムの価値に依存するだけでなく、他の入札についてある程度の知識を必要とするため、第一価格オークションはより困難である。 彼らはすでにシーケンシャルラーニングにおいていくつかの作品を生み出しており、その多くが、買い手または相手の最大入札の価値が敵対的に選択されるモデルを考える。 最も単純な設定であっても、これは時間の地平線に関して$\sqrt{T}$として後悔するアルゴリズムを生み出す。 静的確率環境に対してバイヤーがプレーする場合には, 相手の最大入札分布が分かっていれば, 後悔度が$\log^2(T)$まで低いアルゴリズムが提供されるので, アルゴリズムの一般化により, 任意の$\epsilon>0$に対して$T^{1/3+ \epsilon}$後悔度を達成できる。 これらの結果を得るために,本研究では,それぞれが興味を持つ新しいアイデアを2つ紹介する。 まず、ポスト価格設定の結果を変換することにより、第1価格入札ユーティリティが最適値付近で局所的に二次的な条件を提供する。 第2に、小さな部分相互作用において、経験分布関数の変動の濃度が古典的なドヴォルネツキー・キーファー・ウルフウィッツの不等式よりも正確に制御できるという観測結果を活用する。 数値シミュレーションにより,本アルゴリズムは,実際のプログラム広告プラットフォームで収集した入札を含む,様々な入札分布の文献で提案されている選択肢よりもはるかに高速に収束することを確認した。

First-price auctions have largely replaced traditional bidding approaches based on Vickrey auctions in programmatic advertising. As far as learning is concerned, first-price auctions are more challenging because the optimal bidding strategy does not only depend on the value of the item but also requires some knowledge of the other bids. They have already given rise to several works in sequential learning, many of which consider models for which the value of the buyer or the opponents' maximal bid is chosen in an adversarial manner. Even in the simplest settings, this gives rise to algorithms whose regret grows as $\sqrt{T}$ with respect to the time horizon $T$. Focusing on the case where the buyer plays against a stationary stochastic environment, we show how to achieve significantly lower regret: when the opponents' maximal bid distribution is known we provide an algorithm whose regret can be as low as $\log^2(T)$; in the case where the distribution must be learnt sequentially, a generalization of this algorithm can achieve $T^{1/3+ \epsilon}$ regret, for any $\epsilon>0$. To obtain these results, we introduce two novel ideas that can be of interest in their own right. First, by transposing results obtained in the posted price setting, we provide conditions under which the first-price biding utility is locally quadratic around its optimum. Second, we leverage the observation that, on small sub-intervals, the concentration of the variations of the empirical distribution function may be controlled more accurately than by using the classical Dvoretzky-Kiefer-Wol fowitz inequality. Numerical simulations confirm that our algorithms converge much faster than alternatives proposed in the literature for various bid distributions, including for bids collected on an actual programmatic advertising platform.
翻訳日:2021-07-06 15:15:20 公開日:2021-07-05
# 分別スライスワッサースタイン距離

Differentially Private Sliced Wasserstein Distance ( http://arxiv.org/abs/2107.01848v1 )

ライセンス: Link先を確認
Alain Rakotomamonjy (DocApp - LITIS), Liva Ralaivola(参考訳) プライバシを保全する機械学習手法の開発は、今日では研究の中心となっている。 プライバシ保護学習に対処する多くの方法の1つとして、差分プライバシ(DP)フレームワークの下で分散間のばらつきを計算できることが、生成モデル学習やドメイン適応問題など、多くの機械学習問題において重要なのです。 dpの一般的な勾配に基づく衛生手法を使わずに,スライスされたワッサースタイン距離に着目し,シームレスにプライベートにすることで,その根源にある問題に対処した。 我々は,スライスされたワッサースタイン距離の固有ランダム化機構にガウス摂動を付加する性質を解析し,その結果得られる微分的プライベート機構の感度を確立する。 我々の重要な発見の1つは、このDP機構がスライスされたワッサースタイン距離を別の距離に変換することである。 この新しい微分的個人分布距離は,生成モデルと領域適応アルゴリズムに透過的にプラグインすることが可能であり,本論文の勾配型dpアプローチと比較して高い競合性が得られることを実証的に示すとともに,我々が検討する領域適応問題に対する精度の損失はほとんどないことを示した。

Developing machine learning methods that are privacy preserving is today a central topic of research, with huge practical impacts. Among the numerous ways to address privacy-preserving learning, we here take the perspective of computing the divergences between distributions under the Differential Privacy (DP) framework -- being able to compute divergences between distributions is pivotal for many machine learning problems, such as learning generative models or domain adaptation problems. Instead of resorting to the popular gradient-based sanitization method for DP, we tackle the problem at its roots by focusing on the Sliced Wasserstein Distance and seamlessly making it differentially private. Our main contribution is as follows: we analyze the property of adding a Gaussian perturbation to the intrinsic randomized mechanism of the Sliced Wasserstein Distance, and we establish the sensitivityof the resulting differentially private mechanism. One of our important findings is that this DP mechanism transforms the Sliced Wasserstein distance into another distance, that we call the Smoothed Sliced Wasserstein Distance. This new differentially private distribution distance can be plugged into generative models and domain adaptation algorithms in a transparent way, and we empirically show that it yields highly competitive performance compared with gradient-based DP approaches from the literature, with almost no loss in accuracy for the domain adaptation problems that we consider.
翻訳日:2021-07-06 15:14:50 公開日:2021-07-05
# シフトロバスト性を有する因果不変予測器

Causally Invariant Predictor with Shift-Robustness ( http://arxiv.org/abs/2107.01876v1 )

ライセンス: Link先を確認
Xiangyu Zheng, Xinwei Sun, Wei Chen, Tie-Yan Liu(参考訳) 本稿では、領域間の分散シフトに頑健な不変因果予測器を提案し、転送可能な不変情報を最大に予約する。 我々は,因果構造や介入変数について事前の仕様を定めていないため,分散シフトの幅広いケースをカバーするソフト介入として,分散シフトを定式化する。 予測器の不変性を制約するために正規化を課す代わりに、do-operative に基づく条件付き予測により予測し、ドメイン間で不変であることを証明する。 より重要なことは、提案する予測器がすべての領域の分布の中で最悪の二次損失を最小限に抑える頑健な予測器であることを証明することである。 経験的学習のために,データ再生に基づく直感的かつ柔軟な推定法を提案し,再生手順を導くための局所因果発見手順を提案する。 鍵となる考え方は、再生された分布がインターベンショングラフと互換性があるようにデータを再生することであり、標準的な教師付き学習手法を再生されたデータに組み込むことができる。 合成データと実データの両方における実験結果は,予測精度と領域間のロバスト性を改善するための予測器の有効性を示す。

This paper proposes an invariant causal predictor that is robust to distribution shift across domains and maximally reserves the transferable invariant information. Based on a disentangled causal factorization, we formulate the distribution shift as soft interventions in the system, which covers a wide range of cases for distribution shift as we do not make prior specifications on the causal structure or the intervened variables. Instead of imposing regularizations to constrain the invariance of the predictor, we propose to predict by the intervened conditional expectation based on the do-operator and then prove that it is invariant across domains. More importantly, we prove that the proposed predictor is the robust predictor that minimizes the worst-case quadratic loss among the distributions of all domains. For empirical learning, we propose an intuitive and flexible estimating method based on data regeneration and present a local causal discovery procedure to guide the regeneration step. The key idea is to regenerate data such that the regenerated distribution is compatible with the intervened graph, which allows us to incorporate standard supervised learning methods with the regenerated data. Experimental results on both synthetic and real data demonstrate the efficacy of our predictor in improving the predictive accuracy and robustness across domains.
翻訳日:2021-07-06 15:14:27 公開日:2021-07-05
# Tiled Squeeze-and-Excite:局所的空間文脈によるチャネル注意

Tiled Squeeze-and-Excite: Channel Attention With Local Spatial Context ( http://arxiv.org/abs/2107.02145v1 )

ライセンス: Link先を確認
Niv Vosco and Alon Shenkler and Mark Grobman(参考訳) 本稿では,チャネルアテンションに必要な空間コンテキストの量について検討する。 そこで本研究では,簡易かつ軽量なチャネルアテンション機構であるSEブロックについて検討する。 SEブロックとその多くの変種は、グローバル平均プール(GAP)を使用して、各チャネルに1つの記述子を作成する。 本稿では,実効的なチャンネル注目に必要な空間的コンテキストの量を実験的に分析し,原画像の7行または列の順序で制限されたローカルコンテキストが,グローバルコンテキストのパフォーマンスに適合するのに十分なものであることを示す。 本稿では,各ディスクリプタがローカルコンテキストのみに基づいて,複数のディスクリプタを使用するSEライクなブロックを構築するためのフレームワークであるTSEを提案する。 さらに、TSEはSEブロックのドロップイン置換であり、既存のSEネットワークで再トレーニングすることなく使用できることを示す。 これは、ローカルコンテキスト記述子とグローバルコンテキスト記述子の両方が似ていることを意味する。 最後に、TSEがSE-networksをデータフローAIアクセラレータにデプロイする上で、パイプラインバッファリングの要求が小さくなるため、重要な実践的意味を持つことを示す。 例えば、TSEを使用すると、EfficientDetD2の活性化パイプラインバッファリングの量は、精度を失うことなくSE(50Mから4.77M)と比較して90%削減される。 私たちのコードと事前訓練されたモデルは公開されます。

In this paper we investigate the amount of spatial context required for channel attention. To this end we study the popular squeeze-and-excite (SE) block which is a simple and lightweight channel attention mechanism. SE blocks and its numerous variants commonly use global average pooling (GAP) to create a single descriptor for each channel. Here, we empirically analyze the amount of spatial context needed for effective channel attention and find that limited localcontext on the order of seven rows or columns of the original image is sufficient to match the performance of global context. We propose tiled squeeze-and-excite (TSE), which is a framework for building SE-like blocks that employ several descriptors per channel, with each descriptor based on local context only. We further show that TSE is a drop-in replacement for the SE block and can be used in existing SE networks without re-training. This implies that local context descriptors are similar both to each other and to the global context descriptor. Finally, we show that TSE has important practical implications for deployment of SE-networks to dataflow AI accelerators due to their reduced pipeline buffering requirements. For example, using TSE reduces the amount of activation pipeline buffering in EfficientDetD2 by 90% compared to SE (from 50M to 4.77M) without loss of accuracy. Our code and pre-trained models will be publicly available.
翻訳日:2021-07-06 15:13:52 公開日:2021-07-05
# 分類網のPultimate Activationの分布について

On The Distribution of Penultimate Activations of Classification Networks ( http://arxiv.org/abs/2107.01900v1 )

ライセンス: Link先を確認
Minkyo Seo, Yoonho Lee, Suha Kwak(参考訳) 本稿では,分類ネットワークの固有アクティベーションの確率分布について検討し,分類ネットワークがクロスエントロピー損失で訓練された場合,その最終クラスi-フィケーション層は,固有なアクティベーションの分布に基づく生成型分類器を用いて生成型識別ペアを形成することを示す。 より不運なことに、分布は最終完全連結層の重み付けによってパラメータ化され、フィードインプットデータなしでペナルティミットのアクティベーションを合成する生成モデルと見なすことができる。 我々は,この生成モデルによって,ドメインシフトが存在する場合に,安定した知識の解消が可能となり,クラス条件画像生成のための分類器から変分オートエンコーダ,生成逆ネットワークへの知識の移動が可能になることを実証的に証明する。

This paper studies probability distributions ofpenultimate activations of classification networks.We show that, when a classification network istrained with the cross-entropy loss, its final classi-fication layer forms aGenerative-Discrimi nativepairwith a generative classifier based on a specificdistribution of penultimate activations. More im-portantly, the distribution is parameterized by theweights of the final fully-connected layer, and canbe considered as a generative model that synthe-sizes the penultimate activations without feedinginput data. We empirically demonstrate that thisgenerative model enables stable knowledge dis-tillation in the presence of domain shift, and cantransfer knowledge from a classifier to variationalautoencod ers and generative adversarial networksfor class-conditional image generation.
翻訳日:2021-07-06 15:13:28 公開日:2021-07-05
# 標準のオブジェクトセグメンテーションモデルは、学習精度セグメンテーションに十分か?

Are standard Object Segmentation models sufficient for Learning Affordance Segmentation? ( http://arxiv.org/abs/2107.02095v1 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Michael Garcia-Ortiz, David Filliat(参考訳) 費用は、環境が個人に提供する行動の可能性である。 通常の物体(ハンマー、ナイフ)は、通常、多くの余裕(彫刻、打製、切断)を持ち、これらを検出することで、ロボットに明らかな応用によって、人工エージェントが環境における彼らの可能性を理解することができる。 教師付きアフォーダンスセグメンテーションのための提案ベンチマークと最先端予測モデルは通常、マスクr-cnnのような一般的なオブジェクトセグメンテーションモデルの修正である。 理論的には、これらの人気オブジェクトセグメンテーション法は、余剰マスクを検出するのに十分である。 新しいアーキテクチャを学習代の問題に合わせる必要があるか? 既成のマスクr-cnnを手頃なセグメンテーション問題に適用することは,現在の最先端よりも優れていることを示す。 対象セグメンテーションの問題には教師付きアフォーアンスセグメンテーションの問題が含まれており、アフォーアンス学習のためのより良いベンチマークにはアクションキャパシティを含めるべきであると主張する。

Affordances are the possibilities of actions the environment offers to the individual. Ordinary objects (hammer, knife) usually have many affordances (grasping, pounding, cutting), and detecting these allow artificial agents to understand what are their possibilities in the environment, with obvious application in Robotics. Proposed benchmarks and state-of-the-art prediction models for supervised affordance segmentation are usually modifications of popular object segmentation models such as Mask R-CNN. We observe that theoretically, these popular object segmentation methods should be sufficient for detecting affordances masks. So we ask the question: is it necessary to tailor new architectures to the problem of learning affordances? We show that applying the out-of-the-box Mask R-CNN to the problem of affordances segmentation outperforms the current state-of-the-art. We conclude that the problem of supervised affordance segmentation is included in the problem of object segmentation and argue that better benchmarks for affordance learning should include action capacities.
翻訳日:2021-07-06 15:13:10 公開日:2021-07-05
# GraspME -- Grasp Manifold Estimator

GraspME -- Grasp Manifold Estimator ( http://arxiv.org/abs/2107.01836v1 )

ライセンス: Link先を確認
Janik Hager, Ruben Bauer, Marc Toussaint, Jim Mainprice(参考訳) 本稿では,Grasp Manifold Estimator (GraspME)を導入し,2次元カメラ画像から直接物体の把握能力を検出する。 自律的に操作タスクを実行するためには,ロボットが周辺物体の把握可能性モデルを持つことが重要である。 把持多様体は無限に多くの把持を与える利点を持つが、これは事前定義された把持点のような他の把持表現を使う場合ではない。 例えば、この特性は動作最適化で活用でき、ロボット構成空間における暗黙的な表面制約としてゴールセットを定義することができる。 本研究では,2次元カメラ画像から直接エンドエフェクター位置を推定する場合に限定する。 この拡張のために、キーポイントの集合を通じて多様体を把握し、Mask R-CNNのバックボーンを用いて画像中の位置を特定する。 学習機能を使用することで、異なる視野角、潜在的にノイズの多い画像、トレーニングセットの一部ではないオブジェクトへの一般化が可能になる。 シミュレーションデータのみに頼り、目に見えないものを含む単純で複雑なオブジェクトの実験を行います。 このフレームワークは、gpu上で11.5 fpsの推論速度を達成し、キーポイント推定の平均精度は94.5%、平均画素距離は1.29である。 これは、境界ボックスとセグメンテーションマスクを用いて物体を非常によく推定できるだけでなく、正しい把持多様体のキーポイント座標を近似できることを示している。

In this paper, we introduce a Grasp Manifold Estimator (GraspME) to detect grasp affordances for objects directly in 2D camera images. To perform manipulation tasks autonomously it is crucial for robots to have such graspability models of the surrounding objects. Grasp manifolds have the advantage of providing continuously infinitely many grasps, which is not the case when using other grasp representations such as predefined grasp points. For instance, this property can be leveraged in motion optimization to define goal sets as implicit surface constraints in the robot configuration space. In this work, we restrict ourselves to the case of estimating possible end-effector positions directly from 2D camera images. To this extend, we define grasp manifolds via a set of key points and locate them in images using a Mask R-CNN backbone. Using learned features allows generalizing to different view angles, with potentially noisy images, and objects that were not part of the training set. We rely on simulation data only and perform experiments on simple and complex objects, including unseen ones. Our framework achieves an inference speed of 11.5 fps on a GPU, an average precision for keypoint estimation of 94.5% and a mean pixel distance of only 1.29. This shows that we can estimate the objects very well via bounding boxes and segmentation masks as well as approximate the correct grasp manifold's keypoint coordinates.
翻訳日:2021-07-06 15:12:51 公開日:2021-07-05
# Faster-LTN:ニューロシンボリックなエンドツーエンドオブジェクト検出アーキテクチャ

Faster-LTN: a neuro-symbolic, end-to-end object detection architecture ( http://arxiv.org/abs/2107.01877v1 )

ライセンス: Link先を確認
Francesco Manigrasso and Filomeno Davide Miro and Lia Morra and Fabrizio Lamberti(参考訳) 画像に表現されたオブジェクト間の意味的関係の検出は、画像解釈における基本的な課題の1つである。 論理テンソルネットワーク(ltns)のようなニューラルシンボリック手法は、意味的知識表現と推論の組み合わせと、ニューラルネットワークの典型的な例から効率的に学習する能力を可能にする。 本稿では、畳み込みバックボーンとLTNからなる物体検出器であるFaster-LTNを提案する。 私たちの知る限りでは、これは両フレームワークをエンドツーエンドのトレーニング環境で組み合わせる最初の試みです。 このアーキテクチャは、ラベル付き例と事前知識を組み合わせた基底理論を論理公理の形で最適化することで訓練される。 実験的比較では、従来のより高速なr-cnnアーキテクチャに対する競合性能を示す。

The detection of semantic relationships between objects represented in an image is one of the fundamental challenges in image interpretation. Neural-Symbolic techniques, such as Logic Tensor Networks (LTNs), allow the combination of semantic knowledge representation and reasoning with the ability to efficiently learn from examples typical of neural networks. We here propose Faster-LTN, an object detector composed of a convolutional backbone and an LTN. To the best of our knowledge, this is the first attempt to combine both frameworks in an end-to-end training setting. This architecture is trained by optimizing a grounded theory which combines labelled examples with prior knowledge, in the form of logical axioms. Experimental comparisons show competitive performance with respect to the traditional Faster R-CNN architecture.
翻訳日:2021-07-06 15:12:29 公開日:2021-07-05
# 対比較による推定に対する中毒攻撃

Poisoning Attack against Estimating from Pairwise Comparisons ( http://arxiv.org/abs/2107.01854v1 )

ライセンス: Link先を確認
Ke Ma and Qianqian Xu and Jinshan Zeng and Xiaochun Cao and Qingming Huang(参考訳) 選挙やスポーツ競技、レコメンデーションなどでペアのランキングが広く採用されるようになると、攻撃者はランキングを操作する動機やインセンティブが強くなる。 被害者を騙すために 訓練データに悪質な比較を注入する このような手法は回帰や分類タスクにおいて毒殺攻撃と呼ばれる。 本稿では,本研究の知識を最大限に活用するために,ランク付けアルゴリズムにおけるデータ中毒攻撃を初めて体系的に検討し,ランク付けと攻撃者間の動的および静的ゲームとして形式化し,ある種の整数プログラミング問題としてモデル化する。 基礎となる整数プログラミング問題の計算ハードルを打破するため、計算的に抽出可能な分散ロバスト最適化(DRO)問題に修正する。 このようなdro定式化に基づき, 2つの効率的な中毒攻撃アルゴリズムを提案し, 関連する理論的保証を確立する。 提案した毒殺対策の有効性は,一連の玩具シミュレーションと実データ実験によって実証された。 これらの実験結果から,提案手法は,真のランキングリストと集計結果との相関を劇的に低減できるという意味で,ランキング器の性能を著しく低下させることができることが示された。

As pairwise ranking becomes broadly employed for elections, sports competitions, recommendations, and so on, attackers have strong motivation and incentives to manipulate the ranking list. They could inject malicious comparisons into the training data to fool the victim. Such a technique is called poisoning attack in regression and classification tasks. In this paper, to the best of our knowledge, we initiate the first systematic investigation of data poisoning attacks on pairwise ranking algorithms, which can be formalized as the dynamic and static games between the ranker and the attacker and can be modeled as certain kinds of integer programming problems. To break the computational hurdle of the underlying integer programming problems, we reformulate them into the distributionally robust optimization (DRO) problems, which are computationally tractable. Based on such DRO formulations, we propose two efficient poisoning attack algorithms and establish the associated theoretical guarantees. The effectiveness of the suggested poisoning attack strategies is demonstrated by a series of toy simulations and several real data experiments. These experimental results show that the proposed methods can significantly reduce the performance of the ranker in the sense that the correlation between the true ranking list and the aggregated results can be decreased dramatically.
翻訳日:2021-07-06 15:09:57 公開日:2021-07-05
# 機械学習を用いたAndroidのマルウェアカテゴリーと家族検出と識別

Android Malware Category and Family Detection and Identification using Machine Learning ( http://arxiv.org/abs/2107.01927v1 )

ライセンス: Link先を確認
Ahmed Hashem El Fiky, Ayman El Shenawy, Mohamed Ashraf Madkour(参考訳) Androidのマルウェアは、インターネット上で最も危険な脅威の1つです。 androidのマルウェアを無害なandroidアプリケーションから検出し分類することには大きな努力があったが、まだまだ道のりは長い。 結果として、最も一般的なAndroidマルウェアカテゴリやファミリーによって表示される振る舞いの基本的な理解を提供する必要がある。 それぞれのAndroidマルウェアファミリーとカテゴリには、明確な目的がある。 その結果、医療、銀行、交通、政府、電子商取引を含むすべての企業領域に影響を及ぼした。 本稿では,Android マルウェアの動的解析のための2つの機械学習手法を提案する。1つは Android マルウェアカテゴリの検出と識別のためのもので,もう1つは Android マルウェアファミリの検出と識別のためのものである。 提案手法は,99%以上の精度でAndroid Malware Category検出を実現し,99%以上の精度でAndroid Malware Family検出を実現している。 提案手法は,Android Malwareの高精度な動的解析手法を提供するとともに,スマートフォンマルウェアの解析に要する時間を短縮する。

Android malware is one of the most dangerous threats on the internet, and it's been on the rise for several years. Despite significant efforts in detecting and classifying android malware from innocuous android applications, there is still a long way to go. As a result, there is a need to provide a basic understanding of the behavior displayed by the most common Android malware categories and families. Each Android malware family and category has a distinct objective. As a result, it has impacted every corporate area, including healthcare, banking, transportation, government, and e-commerce. In this paper, we presented two machine-learning approaches for Dynamic Analysis of Android Malware: one for detecting and identifying Android Malware Categories and the other for detecting and identifying Android Malware Families, which was accomplished by analyzing a massive malware dataset with 14 prominent malware categories and 180 prominent malware families of CCCS-CIC-AndMal2020 dataset on Dynamic Layers. Our approach achieves in Android Malware Category detection more than 96 % accurate and achieves in Android Malware Family detection more than 99% accurate. Our approach provides a method for high-accuracy Dynamic Analysis of Android Malware while also shortening the time required to analyze smartphone malware.
翻訳日:2021-07-06 15:09:38 公開日:2021-07-05
# シフト介入による望ましい因果状態のマッチング

Matching a Desired Causal State via Shift Interventions ( http://arxiv.org/abs/2107.01850v1 )

ライセンス: Link先を確認
Jiaqi Zhang, Chandler Squires, Caroline Uhler(参考訳) 因果系を与えられた初期状態から所望の目標状態に変換することは、制御理論、生物学、材料科学を含む複数の分野に浸透する重要な課題である。 因果モデルでは、そのような変換は一連の介入を行うことで達成できる。 本稿では,システムの所望の平均に適合するシフト介入をアクティブラーニングによって特定する問題を考える。 我々は,シフト介入から識別可能なマルコフ同値クラスを定義し,所望の平均に正確に一致することを保証した2つのアクティブ学習戦略を提案する。 そして、必要な介入の数に対して最悪の場合の下限を導出し、これらの戦略がグラフの特定のクラスに最適であることを示す。 特に,我々の戦略は,基礎となる因果グラフの構造学習を最適化する従来のアプローチよりも指数関数的に少ない介入を必要とする可能性があることを示す。 また,提案するアクティブラーニング戦略が,複数のベースラインと比較して介入を少なくできることを実験的に実証した。

Transforming a causal system from a given initial state to a desired target state is an important task permeating multiple fields including control theory, biology, and materials science. In causal models, such transformations can be achieved by performing a set of interventions. In this paper, we consider the problem of identifying a shift intervention that matches the desired mean of a system through active learning. We define the Markov equivalence class that is identifiable from shift interventions and propose two active learning strategies that are guaranteed to exactly match a desired mean. We then derive a worst-case lower bound for the number of interventions required and show that these strategies are optimal for certain classes of graphs. In particular, we show that our strategies may require exponentially fewer interventions than the previously considered approaches, which optimize for structure learning in the underlying causal graph. In line with our theoretical results, we also demonstrate experimentally that our proposed active learning strategies require fewer interventions compared to several baselines.
翻訳日:2021-07-06 15:08:06 公開日:2021-07-05
# テンプレートベースのグラフクラスタリング

Template-Based Graph Clustering ( http://arxiv.org/abs/2107.01994v1 )

ライセンス: Link先を確認
Mateus Riva and Florian Yger and Pietro Gori and Roberto M. Cesar Jr. and Isabelle Bloch(参考訳) 本稿では,クラスタ(あるいはコミュニティ)の基盤構造に関する追加情報によってガイドされる新しいグラフクラスタリング手法を提案する。 この問題は、グラフとより小さな次元のテンプレートとのマッチングとして定式化され、従って観測されたグラフの$n$頂点とテンプレートグラフの$k$頂点とをマッチングし、そのエッジをサポート情報として使用し、正則行列の集合上で緩和して、$k$次元埋め込みを求める。 クラスターの密度とその関係をエンコードする関連する前処理により,本手法は古典的手法,特に難解な場合よりも優れる。

We propose a novel graph clustering method guided by additional information on the underlying structure of the clusters (or communities). The problem is formulated as the matching of a graph to a template with smaller dimension, hence matching $n$ vertices of the observed graph (to be clustered) to the $k$ vertices of a template graph, using its edges as support information, and relaxed on the set of orthonormal matrices in order to find a $k$ dimensional embedding. With relevant priors that encode the density of the clusters and their relationships, our method outperforms classical methods, especially for challenging cases.
翻訳日:2021-07-06 15:07:51 公開日:2021-07-05
# 単一ペナルティアプローチによる関連ベクトルマシンの解析

Analyzing Relevance Vector Machines using a single penalty approach ( http://arxiv.org/abs/2107.02085v1 )

ライセンス: Link先を確認
Anand Dixit and Vivekananda Roy(参考訳) 関連ベクトルマシン(RVM)は、一般的に予測に使用されるスパースベイズ学習モデルである。 近年、RVMの複数のペナルティパラメータに想定される不適切な先行が、不適切な後肢につながる可能性があることが示されている。 現在、文献では、RVMの後方優位性のための十分な条件は、複数のペナルティパラメータに対する不適切な先行を許さない。 本稿では,複数のペナルティパラメータを単一ペナルティに置き換える単一ペナルティ関連ベクトルマシン(SPRVM)モデルを提案する。 SPRVMの後処理に必要かつ十分な条件は、RVMよりもリベラルであり、ペナルティパラメータに対するいくつかの不適切な事前処理を可能にする。 さらに,sprvmモデルの解析に用いたgibbsサンプリング器の幾何学的エルゴディクティを証明し,モンテカルロ推定に付随する漸近的標準誤差を後方予測分布の手段として推定する。 このようなモンテカルロ標準誤差は、RVMの分析に用いられるギブスサンプリング器の収束率が不明であるため、RVMでは計算できない。 RVMとSPRVMの予測性能は、3つの実生活データセットを分析して比較する。

Relevance vector machine (RVM) is a popular sparse Bayesian learning model typically used for prediction. Recently it has been shown that improper priors assumed on multiple penalty parameters in RVM may lead to an improper posterior. Currently in the literature, the sufficient conditions for posterior propriety of RVM do not allow improper priors over the multiple penalty parameters. In this article, we propose a single penalty relevance vector machine (SPRVM) model in which multiple penalty parameters are replaced by a single penalty and we consider a semi Bayesian approach for fitting the SPRVM. The necessary and sufficient conditions for posterior propriety of SPRVM are more liberal than those of RVM and allow for several improper priors over the penalty parameter. Additionally, we also prove the geometric ergodicity of the Gibbs sampler used to analyze the SPRVM model and hence can estimate the asymptotic standard errors associated with the Monte Carlo estimate of the means of the posterior predictive distribution. Such a Monte Carlo standard error cannot be computed in the case of RVM, since the rate of convergence of the Gibbs sampler used to analyze RVM is not known. The predictive performance of RVM and SPRVM is compared by analyzing three real life datasets.
翻訳日:2021-07-06 15:07:37 公開日:2021-07-05
# ディープフェイク検出の安全性の理解

Understanding the Security of Deepfake Detection ( http://arxiv.org/abs/2107.02045v1 )

ライセンス: Link先を確認
Xiaoyu Cao and Neil Zhenqiang Gong(参考訳) ディープフェイクはインターネット上の情報の信頼にますます困難をもたらしている。 そのため、ディープフェイクの検出は学術と産業の両方から注目を集めている。 最先端のディープフェイク検出方法は、顔抽出器と顔分類器の2つのキーコンポーネントから構成され、画像中の顔領域を抽出し、それを実物/偽物に分類する。 既存の研究では、主に非敵の設定における検出性能の改善に焦点が当てられ、敵の設定におけるディープフェイク検出の安全性はほとんど探索されていない。 この作業では、ギャップを埋めることを目指しています。 特に,攻撃環境における最先端のディープフェイク検出手法の安全性を理解するために,体系的な測定を行った。 我々は、faceforensics++とfacebook deepfake detection challengeを含む2つの大規模な公開ディープフェイクデータソースを使用し、ディープフェイクは偽の顔画像であり、最先端のディープフェイク検出方法をトレーニングする。 これらの検出方法は、これらのデータセットの非競合設定において 0.94--0.99 accuracies を達成することができる。 しかし,本測定の結果から,ディープフェイク検出手法の複数のセキュリティ上の制約が明らかとなった。 まず,ディープフェイク画像にガウス雑音を付加することにより,顔抽出器,すなわち顔抽出器が適切な顔領域を抽出できないことを発見した。 第二に、あるメソッドで生成されたディープフェイクを用いて訓練された顔分類器は、別のメソッドで生成されたディープフェイクを検出することができない。 第三に、攻撃者は、敵の機械学習コミュニティが開発したバックドア攻撃を利用して、顔分類器を避けることができる。 以上の結果から,ディープフェイク検出は問題の性質を考慮すべきであることが示唆された。

Deepfakes pose growing challenges to the trust of information on the Internet. Therefore,detecting deepfakes has attracted increasing attentions from both academia and industry. State-of-the-art deepfake detection methods consist of two key components, i.e., face extractor and face classifier, which extract the face region in an image and classify it to be real/fake, respectively. Existing studies mainly focused on improving the detection performance in non-adversarial settings, leaving security of deepfake detection in adversarial settings largely unexplored. In this work, we aim to bridge the gap. In particular, we perform a systematic measurement study to understand the security of the state-of-the-art deepfake detection methods in adversarial settings. We use two large-scale public deepfakes data sources including FaceForensics++ and Facebook Deepfake Detection Challenge, where the deepfakes are fake face images; and we train state-of-the-art deepfake detection methods. These detection methods can achieve 0.94--0.99 accuracies in non-adversarial settings on these datasets. However, our measurement results uncover multiple security limitations of the deepfake detection methods in adversarial settings. First, we find that an attacker can evade a face extractor, i.e., the face extractor fails to extract the correct face regions, via adding small Gaussian noise to its deepfake images. Second, we find that a face classifier trained using deepfakes generated by one method cannot detect deepfakes generated by another method, i.e., an attacker can evade detection via generating deepfakes using a new method. Third, we find that an attacker can leverage backdoor attacks developed by the adversarial machine learning community to evade a face classifier. Our results highlight that deepfake detection should consider the adversarial nature of the problem.
翻訳日:2021-07-06 15:06:26 公開日:2021-07-05
# 分割とコード:グラフを圧縮する方法を学ぶ

Partition and Code: learning how to compress graphs ( http://arxiv.org/abs/2107.01952v1 )

ライセンス: Link先を確認
Giorgos Bouritsas, Andreas Loukas, Nikolaos Karalias, Michael M. Bronstein(参考訳) 機械学習を使ってグラフデータを圧縮できますか? グラフに順序がないことは、従来の圧縮アルゴリズムにとって大きな課題となり、到達可能なゲインと関連するパターンを見つける能力が制限される。 一方、ほとんどのグラフ圧縮アプローチは、ドメイン依存の手作り表現に依存しており、基礎となるグラフ分布に適応できない。 この研究は、損失のないグラフ圧縮法がエントロピーストレージの下限に近づくために必要な原則を確立することを目的としている。 グラフ分布について厳密な仮定をする代わりに、圧縮器をデータから学び、未知のインスタンスに一般化できる確率モデルとして定式化する。 まず、分割アルゴリズムがグラフを基本構造に分解し、これらを確率分布を学習する小さな辞書の要素にマッピングし、最後にエントロピーエンコーダが表現をビットに変換する。 3つのステップはすべてパラメトリックであり、勾配降下でトレーニングすることができる。 理論上,複数のグラフエンコーディングの圧縮品質を比較し,穏やかな条件下で,期待される記述長の総順序付けを証明した。 さらに,PnCは,同じ条件下で圧縮ゲインw.r.tを達成することを示す。 頂点の数とともに直線的にまたは二次的に成長する基線。 本アルゴリズムは,非パラメトリックグラフ圧縮機とパラメトリックグラフ圧縮機の異なるファミリーについて,実世界の多様なネットワーク上で定量的に評価される。

Can we use machine learning to compress graph data? The absence of ordering in graphs poses a significant challenge to conventional compression algorithms, limiting their attainable gains as well as their ability to discover relevant patterns. On the other hand, most graph compression approaches rely on domain-dependent handcrafted representations and cannot adapt to different underlying graph distributions. This work aims to establish the necessary principles a lossless graph compression method should follow to approach the entropy storage lower bound. Instead of making rigid assumptions about the graph distribution, we formulate the compressor as a probabilistic model that can be learned from data and generalise to unseen instances. Our "Partition and Code" framework entails three steps: first, a partitioning algorithm decomposes the graph into elementary structures, then these are mapped to the elements of a small dictionary on which we learn a probability distribution, and finally, an entropy encoder translates the representation into bits. All three steps are parametric and can be trained with gradient descent. We theoretically compare the compression quality of several graph encodings and prove, under mild conditions, a total ordering of their expected description lengths. Moreover, we show that, under the same conditions, PnC achieves compression gains w.r.t. the baselines that grow either linearly or quadratically with the number of vertices. Our algorithms are quantitatively evaluated on diverse real-world networks obtaining significant performance improvements with respect to different families of non-parametric and parametric graph compressors.
翻訳日:2021-07-06 15:05:13 公開日:2021-07-05
# うまくやるか、正しいのか? コモンセンス因果推論モデルの弱みを探る

Doing Good or Doing Right? Exploring the Weakness of Commonsense Causal Reasoning Models ( http://arxiv.org/abs/2107.01791v1 )

ライセンス: Link先を確認
Mingyue Han and Yinglin Wang(参考訳) 事前訓練された言語モデル(PLM)は、可塑性代替(COPA)タスクの選択において驚くべきパフォーマンスを達成する。 しかし、plmが真に因果推論能力を得たかどうかは疑問である。 本稿では,意味的類似性バイアスの問題を調査し,特定の攻撃による現在のCOPAモデルの脆弱性を明らかにする。 不均衡なトークン分布の表層的な課題に対処する以前のソリューションは、さらに多くのトレーニングデータの利用により、意味バイアスの同じ問題に直面している。 我々は、正規化損失を単に加えるだけでこの問題を緩和し、実験結果から、このソリューションはモデルの一般化能力を向上するだけでなく、不偏のトークン分布を持つ挑戦的データセットであるBCOPA-CE上で、モデルがより堅牢に実行できるようにする。

Pretrained language models (PLM) achieve surprising performance on the Choice of Plausible Alternatives (COPA) task. However, whether PLMs have truly acquired the ability of causal reasoning remains a question. In this paper, we investigate the problem of semantic similarity bias and reveal the vulnerability of current COPA models by certain attacks. Previous solutions that tackle the superficial cues of unbalanced token distribution still encounter the same problem of semantic bias, even more seriously due to the utilization of more training data. We mitigate this problem by simply adding a regularization loss and experimental results show that this solution not only improves the model's generalization ability, but also assists the models to perform more robustly on a challenging dataset, BCOPA-CE, which has unbiased token distribution and is more difficult for models to distinguish cause and effect.
翻訳日:2021-07-06 15:03:24 公開日:2021-07-05
# ペルシア語テキストにおける矛盾検出

Contradiction Detection in Persian Text ( http://arxiv.org/abs/2107.01987v1 )

ライセンス: Link先を確認
Zeinab Rahimi and Mehrnoush ShamsFard(参考訳) 意味的矛盾文の検出は、テキスト・エンターメントの認識など、NLPアプリケーションにとって最も困難で基本的な問題の一つである。 本研究の対比には、対立や反逆など、異なるタイプの意味的対立が含まれる。 正確な機械学習と特にディープラーニングの手法をペルシャや他の低リソース言語に適用するための十分なデータが不足しているため、これらのシステムと同じような機能を持つルールベースのアプローチは大きな関心事となるだろう。 また、近年、トランスファーラーニングなどの新しい手法が出現し、低リソース言語におけるディープラーニングの可能性が高まっている。 以上の2点を考慮し,単純なルールベースベースベースとともに,ペルシア語のテキストに対するbertベースの深い矛盾検出システムとともに,意味的矛盾を識別する新しいルールベースシステムを導入した。 ルールベースシステムは、頻繁なルールマイニング手法を用いて、開発セットを用いて適切な矛盾ルールを抽出する。 抽出された規則は、矛盾する文の異なるカテゴリでテストされる。 このシステムでは、矛盾するカテゴリ間の最大f-測定値が約90%で、全てのクラスにおけるシステムの平均f-測定値は約76%であり、ペルシャのテキストで他のアルゴリズムよりも優れている。 一方で、いくつかの矛盾のカテゴリに対するルールベースシステムの中間性能のため、翻訳データセットを用いたbertベースディープラーニングシステムを用いて、平均f-測定値は73。 我々のハイブリッドシステムはF値が約80である。

Detection of semantic contradictory sentences is one of the most challenging and fundamental issues for NLP applications such as recognition of textual entailments. Contradiction in this study includes different types of semantic confrontation, such as conflict and antonymy. Due to lack of sufficient data to apply precise machine learning and specifically deep learning methods to Persian and other low resource languages, rule-based approaches that can function similarly to these systems will be of a great interest. Also recently, emergence of new methods such as transfer learning, has opened up the possibility of deep learning for low-resource languages. Considering two above points, in this study, along with a simple rule-base baseline, a novel rule-base system for identifying semantic contradiction along with a Bert base deep contradiction detection system for Persian texts have been introduced. The rule base system has used frequent rule mining method to extract appropriate contradiction rules using a development set. Extracted rules are tested for different categories of contradictory sentences. In this system the maximum f-measure among contradiction categories is obtained for negation about 90% and the average F-measure of system for all classes is about 76% which outperforms other algorithms on Persian texts. On the other hand, because of medium performance of rule base system for some categories of contradiction, we use a Bert base deep learning system using our translated dataset; with average F-measure of 73. Our hybrid system has f-measure of about 80.
翻訳日:2021-07-06 15:03:08 公開日:2021-07-05
# ディープラーニングスキーマに基づくイベント抽出:文献レビューと最近の動向

Deep Learning Schema-based Event Extraction: Literature Review and Current Trends ( http://arxiv.org/abs/2107.02126v1 )

ライセンス: Link先を確認
Qian Li, Hao Peng, Jianxin Li, Yiming Hei, Rui Sun, Jiawei Sheng, Shu Guo, Lihong Wang, Philip S. Yu(参考訳) スキーマベースのイベント抽出は、イベントの本質的内容を迅速に認識するための重要なテクニックである。 ディープラーニング技術の急速な発展に伴い、ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。 多くの方法、データセット、評価指標が文献に提案されており、包括的かつ更新された調査の必要性が高まっている。 本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。 我々は、スキーマベースのイベント抽出のタスク定義、パラダイム、モデルを要約し、これらのそれぞれを詳細に議論する。 予測と評価指標のテストをサポートするベンチマークデータセットを導入する。 本調査では, 異なる手法の包括的比較を行った。 最後に,研究領域に面した今後の研究方向性をまとめた。

Schema-based event extraction is a critical technique to apprehend the essential content of events promptly. With the rapid development of deep learning technology, event extraction technology based on deep learning has become a research hotspot. Numerous methods, datasets, and evaluation metrics have been proposed in the literature, raising the need for a comprehensive and updated survey. This paper fills the gap by reviewing the state-of-the-art approaches, focusing on deep learning-based models. We summarize the task definition, paradigm, and models of schema-based event extraction and then discuss each of these in detail. We introduce benchmark datasets that support tests of predictions and evaluation metrics. A comprehensive comparison between different techniques is also provided in this survey. Finally, we conclude by summarizing future research directions facing the research area.
翻訳日:2021-07-06 15:02:46 公開日:2021-07-05
# ernie 3.0: 言語理解と生成のための大規模知識強化

ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation ( http://arxiv.org/abs/2107.02137v1 )

ライセンス: Link先を確認
Yu Sun, Shuohuan Wang, Shikun Feng, Siyu Ding, Chao Pang, Junyuan Shang, Jiaxiang Liu, Xuyi Chen, Yanbin Zhao, Yuxiang Lu, Weixin Liu, Zhihua Wu, Weibao Gong, Jianzhong Liang, Zhizhou Shang, Peng Sun, Wei Liu, Xuan Ouyang, Dianhai Yu, Hao Tian, Hua Wu, Haifeng Wang(参考訳) 事前訓練されたモデルは、様々な自然言語処理(NLP)タスクにおいて最先端の結果を得た。 T5やGPT-3といった最近の研究は、事前訓練された言語モデルのスケールアップが一般化能力を向上させることを示した。 特に、1750億のパラメータを持つGPT-3モデルは、タスクに依存しないゼロショット/フェーショット学習能力を示している。 その成功にもかかわらず、これらの大規模モデルは、言語知識や世界知識などの知識を導入することなく、プレーンテキストで訓練されている。 さらに、ほとんどの大規模モデルは自動回帰的な方法で訓練されている。 その結果、従来の微調整手法は、下流言語理解タスクを解く際に、比較的弱い性能を示す。 上記の問題を解決するため,大規模知識強化モデルの事前学習のための統合フレームワークERNIE 3.0を提案する。 自動回帰ネットワークと自動エンコードネットワークを融合することで、訓練されたモデルは、ゼロショット学習、少数ショット学習、微調整による自然言語理解と生成タスクの両方に容易にカスタマイズできる。 我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。 実験の結果、このモデルは54の中国NLPタスクにおいて最先端のモデルよりも優れており、英語版はSuperGLUEベンチマーク(2021年7月3日)で初位を獲得し、人間のパフォーマンスを+0.8%(90.6%対89.8%)上回った。

Pre-trained models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. Recent works such as T5 and GPT-3 have shown that scaling up pre-trained language models can improve their generalization abilities. Particularly, the GPT-3 model with 175 billion parameters shows its strong task-agnostic zero-shot/few-shot learning capabilities. Despite their success, these large-scale models are trained on plain texts without introducing knowledge such as linguistic knowledge and world knowledge. In addition, most large-scale models are trained in an auto-regressive way. As a result, this kind of traditional fine-tuning approach demonstrates relatively weak performance when solving downstream language understanding tasks. In order to solve the above problems, we propose a unified framework named ERNIE 3.0 for pre-training large-scale knowledge enhanced models. It fuses auto-regressive network and auto-encoding network, so that the trained model can be easily tailored for both natural language understanding and generation tasks with zero-shot learning, few-shot learning or fine-tuning. We trained the model with 10 billion parameters on a 4TB corpus consisting of plain texts and a large-scale knowledge graph. Empirical results show that the model outperforms the state-of-the-art models on 54 Chinese NLP tasks, and its English version achieves the first place on the SuperGLUE benchmark (July 3, 2021), surpassing the human performance by +0.8% (90.6% vs. 89.8%).
翻訳日:2021-07-06 15:02:36 公開日:2021-07-05
# 予測プロセス監視のためのデータ漏洩防止による不正な公開ベンチマークデータセットの作成

Creating Unbiased Public Benchmark Datasets with Data Leakage Prevention for Predictive Process Monitoring ( http://arxiv.org/abs/2107.01905v1 )

ライセンス: Link先を確認
Hans Weytjens, Jochen De Weerdt(参考訳) AI、特に機械学習の進歩は、次のイベントの予測、プロセスの成果、そして残りの実行時間に関するプロセスマイニング(PM)のサブフィールドである予測プロセス監視に対する研究の関心と取り組みをますます引き寄せている。 残念なことに、研究者はさまざまなデータセットと方法でそれらをトレーニングとテストセットに分割する。 これらの前処理ステップのドキュメントは、必ずしも完成していない。 その結果、研究結果の再現や論文の比較は困難、あるいは不可能である。 時として、パブリックでないドメイン知識の使用は、アイデアの公正な競争をさらに妨げている。 トレーニングとテストセットは完全には分離されていないことが多いが、予測プロセスの監視に特有なデータ漏洩問題である。 さらに、テストセットは通常、ケースの持続時間と実行中のケースの数の混合という観点でバイアスを被る。 これらの障害は、フィールドの進行に挑戦する。 本研究の目的は,これらの障害を識別し,実証し,未バイアスのベンチマークデータセットに到達するための前処理ステップを原則的に提案することであり,これにより,実験領域の平準化,オープンサイエンスの推進,予測プロセス監視の急速な進歩に寄与することを目的として,データ漏洩を伴わない代表的テストセットを作成することである。

Advances in AI, and especially machine learning, are increasingly drawing research interest and efforts towards predictive process monitoring, the subfield of process mining (PM) that concerns predicting next events, process outcomes and remaining execution times. Unfortunately, researchers use a variety of datasets and ways to split them into training and test sets. The documentation of these preprocessing steps is not always complete. Consequently, research results are hard or even impossible to reproduce and to compare between papers. At times, the use of non-public domain knowledge further hampers the fair competition of ideas. Often the training and test sets are not completely separated, a data leakage problem particular to predictive process monitoring. Moreover, test sets usually suffer from bias in terms of both the mix of case durations and the number of running cases. These obstacles pose a challenge to the field's progress. The contribution of this paper is to identify and demonstrate the importance of these obstacles and to propose preprocessing steps to arrive at unbiased benchmark datasets in a principled way, thus creating representative test sets without data leakage with the aim of levelling the playing field, promoting open science and contributing to more rapid progress in predictive process monitoring.
翻訳日:2021-07-06 15:01:50 公開日:2021-07-05
# インクリメンタル物体検出のための多視点相関蒸留

Multi-View Correlation Distillation for Incremental Object Detection ( http://arxiv.org/abs/2107.01787v1 )

ライセンス: Link先を確認
Dongbao Yang, Yu Zhou and Weiping Wang(参考訳) 実際のアプリケーションでは、検出モデルが固定クラスで準備されたデータセット上でトレーニングされた後、しばしば新しいオブジェクトクラスが現れる。 古いデータのストレージの負担とプライバシのため、古いデータと新しいデータの両方でモデルをスクラッチからトレーニングするのは現実的ではない。 古いモデルを新しいデータのみで微調整すると、破滅的な忘れ物という有名な現象が起こり、現代の物体検出器の性能が著しく低下する。 本稿では,2段階物体検出器(Faster R-CNN)の特徴空間における相関関係を探索する,新しい<textbf{M}ulti-\textbf{V}iew \textbf{C}orrelation \textbf{D}istillation (MVCD)に基づくインクリメンタルオブジェクト検出法を提案する。 古いクラスから学んだ知識をよりよく伝達し、新しいクラスを学ぶ能力を維持するために、インクリメンタルモデルの学習を規則化するために、チャネル、ポイント、インスタンスのビューからの相関蒸留損失を設計する。 古いクラスの安定性と、インクリメンタルなオブジェクト検出における新しいクラスの可塑性の両方を評価するために、stableability-plasti city-mapという新しいメトリックが提案されている。 VOC2007とCOCOで実施された広範な実験により、MVCDは新しいクラスのオブジェクトを効果的に検出し、破滅的な忘れの問題を緩和できることが示されている。

In real applications, new object classes often emerge after the detection model has been trained on a prepared dataset with fixed classes. Due to the storage burden and the privacy of old data, sometimes it is impractical to train the model from scratch with both old and new data. Fine-tuning the old model with only new data will lead to a well-known phenomenon of catastrophic forgetting, which severely degrades the performance of modern object detectors. In this paper, we propose a novel \textbf{M}ulti-\textbf{V}iew \textbf{C}orrelation \textbf{D}istillation (MVCD) based incremental object detection method, which explores the correlations in the feature space of the two-stage object detector (Faster R-CNN). To better transfer the knowledge learned from the old classes and maintain the ability to learn new classes, we design correlation distillation losses from channel-wise, point-wise and instance-wise views to regularize the learning of the incremental model. A new metric named Stability-Plasticity -mAP is proposed to better evaluate both the stability for old classes and the plasticity for new classes in incremental object detection. The extensive experiments conducted on VOC2007 and COCO demonstrate that MVCD can effectively learn to detect objects of new classes and mitigate the problem of catastrophic forgetting.
翻訳日:2021-07-06 14:59:46 公開日:2021-07-05
# Microsoft BingにおけるWebスケールジェネリックオブジェクト検出

Web-Scale Generic Object Detection at Microsoft Bing ( http://arxiv.org/abs/2107.01814v1 )

ライセンス: Link先を確認
Stephen Xi Chen, Saurajit Mukherjee, Unmesh Phadke, Tingting Wang, Junwon Park, Ravi Theja Yada(参考訳) 本稿では,ジェネリックオブジェクト検出(GenOD)を提案する。ジェネリックオブジェクト検出(GenOD)は,Webスケールの汎用ビジュアル検索エンジンにデプロイされ,ほぼリアルタイムで全Microsoft Bingビジュアル検索クエリに対して900以上のカテゴリを検出できる。 オブジェクト中心の情報を提供し、複数のプロダクションシナリオで利益を示し、ドメイン固有のモデルを改善する、基本的なビジュアルクエリ理解サービスとして機能する。 複数の依存関係を持つ大規模オブジェクト検出モデルにおいて,データの収集,トレーニング,デプロイ,更新といった課題について論じる。 アノテーション品質を改善しつつ、バウンダリングボックスごとのラベリングコストを81.5%削減し、レイテンシを61.2%削減するデータ収集パイプラインについて論じる。 複数のドメイン固有モデルと比較して、GenODは平均精度を20%以上向上できることを示す。 また,共同微調整と比較して,不一致検出訓練により,モデル更新のアジリティを約2倍向上させた。 最後に,オブジェクトレベルの検索関連度を54.9%,ユーザエンゲージメントを59.9%向上させることで,genodが視覚的検索アプリケーションにどのようなメリットをもたらすかを実証する。

In this paper, we present Generic Object Detection (GenOD), one of the largest object detection systems deployed to a web-scale general visual search engine that can detect over 900 categories for all Microsoft Bing Visual Search queries in near real-time. It acts as a fundamental visual query understanding service that provides object-centric information and shows gains in multiple production scenarios, improving upon domain-specific models. We discuss the challenges of collecting data, training, deploying and updating such a large-scale object detection model with multiple dependencies. We discuss a data collection pipeline that reduces per-bounding box labeling cost by 81.5% and latency by 61.2% while improving on annotation quality. We show that GenOD can improve weighted average precision by over 20% compared to multiple domain-specific models. We also improve the model update agility by nearly 2 times with the proposed disjoint detector training compared to joint fine-tuning. Finally we demonstrate how GenOD benefits visual search applications by significantly improving object-level search relevance by 54.9% and user engagement by 59.9%.
翻訳日:2021-07-06 14:59:18 公開日:2021-07-05
# part2word: 部分と単語のマッチングによる点雲とテキストの埋め込み学習

Part2Word: Learning Joint Embedding of Point Clouds and Text by Matching Parts to Words ( http://arxiv.org/abs/2107.01872v1 )

ライセンス: Link先を確認
Chuan Tang, Xi Yang, Bojian Wu, Zhizhong Han, Yi Chang(参考訳) 形状テキストマッチング,検索,形状キャプションなど,異なる形状理解タスクにおける3次元形状とテキストの結合埋め込みを学習することが重要である。 現在のマルチビューベースメソッドは、複数のレンダリングビューからテキストへのマッピングを学習する。 しかし、これらの手法は学習多様体の自己閉塞と制限のため、よく3次元形状を解析できない。 この問題を解決するために,共通空間における文の形状から単語へ部品をマッチングすることにより,点雲とテキストの同時埋め込みを学習する手法を提案する。 具体的には、セグメントポイントの雲を部品に分割する前に、まずセグメンテーションを学習する。 そして、パーツとワードを最適化した空間にマップし、パーツとワードをマッチさせることができる。 最適化された空間では、各単語をコンテキスト情報で表現しながら、部分内のすべてのポイントの特徴を集約し、ネットワークをトレーニングして三重項ランキングの損失を最小限に抑えます。 さらに,このマッチング手法におけるパートワードの関係を捉えるために,クロスモーダル・アテンションを導入し,共同埋め込み学習を強化した。 実験結果は,マルチモーダル検索において,広く用いられているベンチマークで最先端を上回っている。

It is important to learn joint embedding for 3D shapes and text in different shape understanding tasks, such as shape-text matching, retrieval, and shape captioning. Current multi-view based methods learn a mapping from multiple rendered views to text. However, these methods can not analyze 3D shapes well due to the self-occlusion and limitation of learning manifolds. To resolve this issue, we propose a method to learn joint embedding of point clouds and text by matching parts from shapes to words from sentences in a common space. Specifically, we first learn segmentation prior to segment point clouds into parts. Then, we map parts and words into an optimized space, where the parts and words can be matched with each other. In the optimized space, we represent a part by aggregating features of all points within the part, while representing each word with its context information, where we train our network to minimize the triplet ranking loss. Moreover, we also introduce cross-modal attention to capture the relationship of part-word in this matching procedure, which enhances joint embedding learning. Our experimental results outperform the state-of-the-art in multi-modal retrieval under the widely used benchmark.
翻訳日:2021-07-06 14:58:59 公開日:2021-07-05
# 自己教師付きポイントクラウド学習のためのハードネガティブサンプリングによる自己コントラスト学習

Self-Contrastive Learning with Hard Negative Sampling for Self-supervised Point Cloud Learning ( http://arxiv.org/abs/2107.01886v1 )

ライセンス: Link先を確認
Bi'an Du, Xiang Gao, Wei Hu, Xin Li(参考訳) 点雲は3次元形状の自然な表現として注目を集めている。 ポイントクラウド分析の手法の開発において重要な進展がみられ、実際は人為的なアノテーションが必要とされることが多い。 そこで本研究では,局所幾何学的パターンと非局所的意味的プリミティブの両方を,点雲の非局所的自己相似性に基づいて捉えることを目的とした,自己教師付き点クラウド表現学習のための新しい自己矛盾学習を提案する。 コントラスト学習で一般的に使用される異なるポイントクラウド間のコントラストではなく、単一のポイントクラウド内で自己相似するポイントクラウドパッチを、ポジティブなサンプルとして、あるいはそれ以外はネガティブなサンプルとして活用し、コントラスト学習のタスクを促進する。 このような自己結合型学習は、ポイントクラウド分析のための自己教師付き学習の新たなパラダイムとよく一致している。 一方,識別的特徴学習のための表現空間において,正のサンプルに近い硬い負のサンプルを積極的に学習し,各アンカーパッチ上で自己相似性の度合いを利用してサンプル化した。 実験の結果,提案手法は,自己教師付きポイントクラウドセグメンテーションと分類のための転送学習のために広く使用されるベンチマークデータセットにおいて,最先端の性能が得られることがわかった。

Point clouds have attracted increasing attention as a natural representation of 3D shapes. Significant progress has been made in developing methods for point cloud analysis, which often requires costly human annotation as supervision in practice. To address this issue, we propose a novel self-contrastive learning for self-supervised point cloud representation learning, aiming to capture both local geometric patterns and nonlocal semantic primitives based on the nonlocal self-similarity of point clouds. The contributions are two-fold: on the one hand, instead of contrasting among different point clouds as commonly employed in contrastive learning, we exploit self-similar point cloud patches within a single point cloud as positive samples and otherwise negative ones to facilitate the task of contrastive learning. Such self-contrastive learning is well aligned with the emerging paradigm of self-supervised learning for point cloud analysis. On the other hand, we actively learn hard negative samples that are close to positive samples in the representation space for discriminative feature learning, which are sampled conditional on each anchor patch leveraging on the degree of self-similarity. Experimental results show that the proposed method achieves state-of-the-art performance on widely used benchmark datasets for self-supervised point cloud segmentation and transfer learning for classification.
翻訳日:2021-07-06 14:58:41 公開日:2021-07-05
# OPA: オブジェクト配置評価データセット

OPA: Object Placement Assessment Dataset ( http://arxiv.org/abs/2107.01889v1 )

ライセンス: Link先を確認
Liu Liu, Bo Zhang, Jiangtong Li, Li Niu, Qingyang Liu, Liqing Zhang(参考訳) 画像合成は、ある画像から別の背景画像にオブジェクトを挿入することで現実的な複合画像を生成することを目的としており、挿入されたオブジェクトの配置(例えば、位置、サイズ、オクルージョン)は理不尽であり、複合画像の品質が著しく低下する可能性がある。 現実的な合成画像を作成するためにオブジェクト配置を学習しようとした研究もあるが、それらはオブジェクト配置の妥当性を評価することに集中しなかった。 本稿では,複合画像が被写体配置の観点で妥当かどうかを検証する,被写体配置評価タスクに焦点を当てる。 この課題を達成するために,合成画像とその合理性ラベルからなる最初のオブジェクト配置評価(opa)データセットを構築した。 Datasetはhttps://github.com/b cmi/Object-Placement -Assessment-Dataset- OPAで入手できる。

Image composition aims to generate realistic composite image by inserting an object from one image into another background image, where the placement (e.g., location, size, occlusion) of inserted object may be unreasonable, which would significantly degrade the quality of the composite image. Although some works attempted to learn object placement to create realistic composite images, they did not focus on assessing the plausibility of object placement. In this paper, we focus on object placement assessment task, which verifies whether a composite image is plausible in terms of the object placement. To accomplish this task, we construct the first Object Placement Assessment (OPA) dataset consisting of composite images and their rationality labels. Dataset is available at https://github.com/b cmi/Object-Placement -Assessment-Dataset- OPA.
翻訳日:2021-07-06 14:58:19 公開日:2021-07-05
# 4つのアーキテクチャの集合による注視推定

Gaze Estimation with an Ensemble of Four Architectures ( http://arxiv.org/abs/2107.01980v1 )

ライセンス: Link先を確認
Xin Cai, Boyu Chen, Jiabei Zeng, Jiajun Zhang, Yunjia Sun, Xiao Wang, Zhilong Ji, Xiao Liu, Xilin Chen, Shiguang Shan(参考訳) 本稿では,顔画像による視線推定手法を提案する。 我々は,視線推定用に設計されたアーキテクチャ(itracker-mhsa)と汎用コンピュータビジョンタスク(botnet,hrnet,resnes t)を含む,4つの異なるネットワークアーキテクチャを採用する視線推定器をトレーニングした。 次に、最適な6つの推定器を選択し、それらの予測を線形結合でアンサンブルする。 この方法はeth-xgazeコンペティションのリーダーボードで最初にランク付けされ、eth-xgazeテストセットで平均角誤差が3.11^{\circ}$となった。

This paper presents a method for gaze estimation according to face images. We train several gaze estimators adopting four different network architectures, including an architecture designed for gaze estimation (i.e.,iTracker-MHSA) and three originally designed for general computer vision tasks(i.e., BoTNet, HRNet, ResNeSt). Then, we select the best six estimators and ensemble their predictions through a linear combination. The method ranks the first on the leader-board of ETH-XGaze Competition, achieving an average angular error of $3.11^{\circ}$ on the ETH-XGaze test set.
翻訳日:2021-07-06 14:58:05 公開日:2021-07-05
# MRIデータに基づくグリオーマ分類のための説明誘導訓練によるニューラルネットワークモデルの改善

Improving a neural network model by explanation-guided training for glioma classification based on MRI data ( http://arxiv.org/abs/2107.02008v1 )

ライセンス: Link先を確認
Frantisek Sefcik, Wanda Benesova(参考訳) 近年,人工知能(AI)システムが最前線に進出している。 これらのシステムは、主にディープラーニング(DL)に基づいており、画像処理、自然言語処理、音声認識などの分野で優れた結果が得られる。 深層学習モデルの統計的に高い精度にもかかわらず、その出力はしばしば「ブラックボックス」の決定である。 このように、解釈可能性法は、ディープラーニングモデルの意思決定プロセスに関する洞察を得るための一般的な方法となっている。 専門家は患者に対する判断を正当化しなければならないため、医学領域では深層学習モデルの説明が望ましい。 本研究では,lrp(layer-wise associated propagation)手法を用いて,画像の関連部分にのみ焦点をあてるようモデルに強制する手法を提案する。 我々は,低次・高次グリオーマ分類問題に対する畳み込みニューラルネットワーク(CNN)モデルを用いて実験を行った。 本実験は,モデル学習過程における解釈手法の活用方法として有望な結果を示す。

In recent years, artificial intelligence (AI) systems have come to the forefront. These systems, mostly based on Deep learning (DL), achieve excellent results in areas such as image processing, natural language processing, or speech recognition. Despite the statistically high accuracy of deep learning models, their output is often a decision of "black box". Thus, Interpretability methods have become a popular way to gain insight into the decision-making process of deep learning models. Explanation of a deep learning model is desirable in the medical domain since the experts have to justify their judgments to the patient. In this work, we proposed a method for explanation-guided training that uses a Layer-wise relevance propagation (LRP) technique to force the model to focus only on the relevant part of the image. We experimentally verified our method on a convolutional neural network (CNN) model for low-grade and high-grade glioma classification problems. Our experiments show promising results in a way to use interpretation techniques in the model training process.
翻訳日:2021-07-06 14:57:53 公開日:2021-07-05
# ffr_fd:特徴点欠陥に基づくディープフェイクの有効かつ高速検出

FFR_FD: Effective and Fast Detection of DeepFakes Based on Feature Point Defects ( http://arxiv.org/abs/2107.02016v1 )

ライセンス: Link先を確認
Gaojian Wang, Qian Jiang, Xin Jin and Xiaohui Cui(参考訳) インターネットには偽の顔画像と深い生成モデルで合成されたビデオがいっぱいです。 これらの現実的なDeepFakesは、マルチメディアコンテンツの信頼性を決定するための課題となる。 対策として、アーティファクトに基づく検出手法は、検出性能の制限につながる細粒度が不十分である。 DNNベースの検出方法は、モバイルアプリで容易にDeepFakeを作成することができ、DNNベースのモデルは高い計算資源を必要とするため、十分に効率的ではない。 DeepFakeの顔は、特に特定の顔領域において、実際の顔よりも特徴点が少ない。 画素レベルでの識別特徴を抽出するための特徴点検出記述子に着想を得て, 高速かつ高速なDeepFake検出のためのFrused Facial Region_Feature Descriptor (FFR_FD)を提案する。 FFR_FDは顔から抽出されたベクトルのみであり、任意の特徴点検出器-ディスクリプタから構築することができる。 我々は,ffr_fdを用いたランダム森林分類器を訓練し,大規模な6つのディープフェイクデータセットについて広範な実験を行った。

The internet is filled with fake face images and videos synthesized by deep generative models. These realistic DeepFakes pose a challenge to determine the authenticity of multimedia content. As countermeasures, artifact-based detection methods suffer from insufficiently fine-grained features that lead to limited detection performance. DNN-based detection methods are not efficient enough, given that a DeepFake can be created easily by mobile apps and DNN-based models require high computational resources. We show that DeepFake faces have fewer feature points than real ones, especially in certain facial regions. Inspired by feature point detector-descriptors to extract discriminative features at the pixel level, we propose the Fused Facial Region_Feature Descriptor (FFR_FD) for effective and fast DeepFake detection. FFR_FD is only a vector extracted from the face, and it can be constructed from any feature point detector-descriptors . We train a random forest classifier with FFR_FD and conduct extensive experiments on six large-scale DeepFake datasets, whose results demonstrate that our method is superior to most state of the art DNN-based models.
翻訳日:2021-07-06 14:57:38 公開日:2021-07-05
# マルチソースオープンセット領域適応のための距離ベース超球面分類

Distance-based Hyperspherical Classification for Multi-source Open-Set Domain Adaptation ( http://arxiv.org/abs/2107.02067v1 )

ライセンス: Link先を確認
Silvia Bucci, Francesco Cappio Borlino, Barbara Caputo, Tatiana Tommasi(参考訳) クローズドワールドシナリオでトレーニングされたビジョンシステムは、新しい環境条件、新しいデータ分散、デプロイ時に新しいクラスが提示されると必然的に失敗する。 オープン・ワールド・ラーニングへの移行は長い研究課題だが、既存のソリューションは主に問題の特定の側面(シングル・ドメイン・オープン・セット、マルチ・ドメイン・クローズ・セット)にフォーカスするか、あるいは複数の損失と手動で調整されたハイパーパラメータを組み合わせる複雑な戦略を提案する。 本研究では,HyMOS(HyMOS)を導入することで,マルチソースなオープンセットドメイン適応に取り組み,コントラスト学習のパワーと超球面特徴空間の特性を利用して,未知のクラスに属するサンプルを拒絶しながら,ターゲット上の既知のラベルを正確に予測する。 HyMOSは、ソース間のアライメントを強制するための調整されたデータバランシングと、ソース-ターゲット適応のためのコントラスト学習のインスタンス変換のスタイル転送を導入し、負の転送のリスクを回避する。 最後に、自己学習戦略は手作りの閾値を必要とせずにモデルを洗練する。 本手法を3つの挑戦的データセット上で検証し,定量的かつ定性的な実験分析を行う。 その結果、HyMOSはいくつかのオープンセットおよびユニバーサルドメイン適応手法より優れており、新しい最先端技術を定義する。

Vision systems trained in closed-world scenarios will inevitably fail when presented with new environmental conditions, new data distributions and novel classes at deployment time. How to move towards open-world learning is a long standing research question, but the existing solutions mainly focus on specific aspects of the problem (single domain Open-Set, multi-domain Closed-Set), or propose complex strategies which combine multiple losses and manually tuned hyperparameters. In this work we tackle multi-source Open-Set domain adaptation by introducing HyMOS: a straightforward supervised model that exploits the power of contrastive learning and the properties of its hyperspherical feature space to correctly predict known labels on the target, while rejecting samples belonging to any unknown class. HyMOS includes a tailored data balancing to enforce cross-source alignment and introduces style transfer among the instance transformations of contrastive learning for source-target adaptation, avoiding the risk of negative transfer. Finally a self-training strategy refines the model without the need for handcrafted thresholds. We validate our method over three challenging datasets and provide an extensive quantitative and qualitative experimental analysis. The obtained results show that HyMOS outperforms several Open-Set and universal domain adaptation approaches, defining the new state-of-the-art.
翻訳日:2021-07-06 14:57:19 公開日:2021-07-05
# 人間の視点推定における超解像--解像結果の正解か?

Super Resolution in Human Pose Estimation: Pixelated Poses to a Resolution Result? ( http://arxiv.org/abs/2107.02108v1 )

ライセンス: Link先を確認
Peter Hardy, Srinandan Dasmahapatra, Hansung Kim(参考訳) art human pose estimation(hpe)モデルから得られた結果は、低解像度の人を評価する際に急速に劣化するが、この効果を緩和するためにスーパーレゾリューション(sr)が使用できるか? 様々なSR手法を用いて2つの低解像度データセットを拡張し、オブジェクトとキーポイント検出器の両方の性能およびエンドツーエンドのHPE結果の変化を評価した。 我々は以下の観察を述べる。 まず、低解像度の人にとって、SRが適用されればキーポイント検出性能が向上することがわかった。 第2に、得られたキーポイント検出性能は、元の画像の人物の初期解像度(画素のセグメンテーション領域)に依存し、SRが小さい初期セグメンテーション領域の人に適用されるとキーポイント検出性能が向上するが、それに伴い劣化する。 そこで我々は,キーポイント検出ステップ中にSRをいつ使用するかを決定するためにセグメンテーション領域しきい値を利用する新しいMask-RCNN手法を提案する。 このアプローチは、HPEパフォーマンスメトリクス毎に最高の結果を得ました。

The results obtained from state of the art human pose estimation (HPE) models degrade rapidly when evaluating people of a low resolution, but can super resolution (SR) be used to help mitigate this effect? By using various SR approaches we enhanced two low resolution datasets and evaluated the change in performance of both an object and keypoint detector as well as end-to-end HPE results. We remark the following observations. First we find that for low resolution people their keypoint detection performance improved once SR was applied. Second, the keypoint detection performance gained is dependent on the persons initial resolution (segmentation area in pixels) in the original image; keypoint detection performance was improved when SR was applied to people with a small initial segmentation area, but degrades as this becomes larger. To address this we introduced a novel Mask-RCNN approach, utilising a segmentation area threshold to decide when to use SR during the keypoint detection step. This approach achieved the best results for each of our HPE performance metrics.
翻訳日:2021-07-06 14:56:56 公開日:2021-07-05
# 人間のポーズ推定のためのトランスフォーマによるテスト時間パーソナライゼーション

Test-Time Personalization with a Transformer for Human Pose Estimation ( http://arxiv.org/abs/2107.02133v1 )

ライセンス: Link先を確認
Miao Hao, Yizhuo Li, Zonglin Di, Nitesh B. Gundavarapu, Xiaolong Wang(参考訳) 手動アノテーションを使わずに、人物のテスト画像のセットを与えられた人間のポーズ推定器をパーソナライズすることを提案する。 人間のポーズ推定には大きな進歩があるが、モデルが異なる未知の環境や目に見えない人に一般化することは依然として非常に困難である。 テストケース毎に固定モデルを使用する代わりに、テスト期間中にポーズ推定器を適用して、個人固有の情報を活用する。 まず、教師付きと自己監督型の両方のポーズ推定目標を併用して、多様なデータに基づいてモデルをトレーニングする。 トランスフォーマーモデルを用いて、自己教師付きキーポイントと教師付きキーポイントの間の変換を構築する。 テスト期間中は、自己監督対象を微調整することでモデルをパーソナライズし、適応させます。 その後、更新された自己教師付きキーポイントを変換することでポーズが改善される。 複数のデータセットを実験し,自己教師付きパーソナライゼーションによるポーズ推定において有意な改善を示した。

We propose to personalize a human pose estimator given a set of test images of a person without using any manual annotations. While there is a significant advancement in human pose estimation, it is still very challenging for a model to generalize to different unknown environments and unseen persons. Instead of using a fixed model for every test case, we adapt our pose estimator during test time to exploit person-specific information. We first train our model on diverse data with both a supervised and a self-supervised pose estimation objectives jointly. We use a Transformer model to build a transformation between the self-supervised keypoints and the supervised keypoints. During test time, we personalize and adapt our model by fine-tuning with the self-supervised objective. The pose is then improved by transforming the updated self-supervised keypoints. We experiment with multiple datasets and show significant improvements on pose estimations with our self-supervised personalization.
翻訳日:2021-07-06 14:56:35 公開日:2021-07-05
# オフライン強化学習における最小制限

The Least Restriction for Offline Reinforcement Learning ( http://arxiv.org/abs/2107.01757v1 )

ライセンス: Link先を確認
Zizhou Su(参考訳) 強化学習(RL)の実践的な応用の多くは、データ収集のさらなる可能性を提供することなく、すでに収集されたログされたインタラクションの固定されたオフラインデータセットから学習することをエージェントに制限している。 しかし、Deep Q NetworkやDeep Deterministic Policy Gradientといった、一般的に使われている非政治的RLアルゴリズムは、現在のポリシーの下での分布に相関するデータなしでは学習できないため、このオフライン設定では効果がない。 有効なオフラインRLアルゴリズムへの第一歩として、標準的なオフラインRLアルゴリズムの不安定性の理由を解析する。 これはブートストラップエラーによる。 このエラーを回避する鍵は、エージェントのアクションスペースが固定されたオフラインデータセットから外れないようにすることです。 本稿では,創造的なオフライン RL フレームワークである Least Restriction (LR) を提案する。 LRは、アクションを選択することを確率分布からサンプルを取るとみなす。 これは単にアクション選択の小さな制限を設定するだけであり、オフラインデータセットからアクションを避けるだけでなく、以前のアプローチ(例えば、)で不合理な制限をすべて削除する。 Batch-Constrained Deep Q-Learning)。 さらに、lrは、ランダムおよびサブ最適のデモンストレーションを含むさまざまなオフラインデータセットから、さまざまな実用的な制御タスクで堅牢に学習できることを実証する。

Many practical applications of reinforcement learning (RL) constrain the agent to learn from a fixed offline dataset of logged interactions, which has already been gathered, without offering further possibility for data collection. However, commonly used off-policy RL algorithms, such as the Deep Q Network and the Deep Deterministic Policy Gradient, are incapable of learning without data correlated to the distribution under the current policy, making them ineffective for this offline setting. As the first step towards useful offline RL algorithms, we analysis the reason of instability in standard off-policy RL algorithms. It is due to the bootstrapping error. The key to avoiding this error, is ensuring that the agent's action space does not go out of the fixed offline dataset. Based on our consideration, a creative offline RL framework, the Least Restriction (LR), is proposed in this paper. The LR regards selecting an action as taking a sample from the probability distribution. It merely set a little limit for action selection, which not only avoid the action being out of the offline dataset but also remove all the unreasonable restrictions in earlier approaches (e.g. Batch-Constrained Deep Q-Learning). In the further, we will demonstrate that the LR, is able to learn robustly from different offline datasets, including random and suboptimal demonstrations, on a range of practical control tasks.
翻訳日:2021-07-06 14:53:18 公開日:2021-07-05
# アウトレーヤ存在下でのロバストオンライン凸最適化

Robust Online Convex Optimization in the Presence of Outliers ( http://arxiv.org/abs/2107.01881v1 )

ライセンス: Link先を確認
Tim van Erven, Sarah Sachs, Wouter M. Koolen and Wojciech Kot{\l}owski(参考訳) 多数のデータポイントが外れ値である場合、オンライン凸最適化を考慮に入れます。 私たちは、不利でないラウンドでのみ後悔を測定する頑健な後悔の概念を導入することでこれをモデル化します。 学習者の目的は、外れ値がどこにあるかを知ることなく、小さな頑健な後悔を達成することである。 外れ値が逆向きに選択された場合、極端な勾配上の単純なフィルタリング戦略は、通常の後悔境界よりも O(k) 加法的オーバーヘッドを生じさせ、これは証明不可能であり、つまり、k はラウンド数で亜線型である必要があることを示す。 さらに、どの仮定が線形な外れ値の数を許容するかを尋ねる。 その結果、通常の良性ケースは独立して、同じ分布(d)であることがわかった。 観測や強い凸損失は不十分である。 しかし、i.i.dと組み合わせる。 外れ値が分布の極端な定量値にあるという仮定による観測は、期待される外れ値の数が線形であるにもかかわらず、下位の頑健な後悔を引き起こす。

We consider online convex optimization when a number k of data points are outliers that may be corrupted. We model this by introducing the notion of robust regret, which measures the regret only on rounds that are not outliers. The aim for the learner is to achieve small robust regret, without knowing where the outliers are. If the outliers are chosen adversarially, we show that a simple filtering strategy on extreme gradients incurs O(k) additive overhead compared to the usual regret bounds, and that this is unimprovable, which means that k needs to be sublinear in the number of rounds. We further ask which additional assumptions would allow for a linear number of outliers. It turns out that the usual benign cases of independently, identically distributed (i.i.d.) observations or strongly convex losses are not sufficient. However, combining i.i.d. observations with the assumption that outliers are those observations that are in an extreme quantile of the distribution, does lead to sublinear robust regret, even though the expected number of outliers is linear.
翻訳日:2021-07-06 14:52:58 公開日:2021-07-05
# 多層ブートストラップネットワークのための教師なしアンサンブル選択

Unsupervised Ensemble Selection for Multilayer Bootstrap Networks ( http://arxiv.org/abs/2107.02071v1 )

ライセンス: Link先を確認
Xiao-Lei Zhang(参考訳) 最近の単純な教師なし深層モデルである多層ブートストラップネットワーク(mbn)は、そのネットワーク構造に敏感である。 異なるアプリケーションで劇的に異なる可能性がある適切なネットワーク構造をどうやって選択するかは、データの事前知識がほとんどないため、難しい問題である。 本稿では,MBNの最適ネットワーク構造を自動決定するためのアンサンブル学習と選択手法について検討する。 具体的には、まず、異なるネットワーク構造を持つMBNベースモデルのスパース出力を新しい表現に変換するMBNアンサンブル(MBN-E)アルゴリズムを提案する。 次に、最適なMBNベースモデルを選択するための基準として、新しい表現を用いる。 アンサンブルの選択基準は2つのクラスに分類できる。 第一種は最適化的な選択基準を採用しており、データのクラス数が先行値であることが前提となっている。 第2のタイプは、そのような事前が利用できない場合の分散分散基準を提案する。 いくつかのベンチマークデータセットによる実験結果から,MBN-E は MBN の最適性能に近い性能を示す一方,MBN-E のアンサンブル選択技術は性能をさらに向上させることができることがわかった。 より重要なことに、mbn-eとそのアンサンブル選択技術は、mbnの単純な定式化を維持し、手動のハイパーパラメータチューニングなしで最先端のパフォーマンスに達するオフ・ザ・シェルフ方式のように振る舞う。 ソースコードはhttp://www.xiaolei-z hang.net/mbn-e.htmで入手できる。

Multilayer bootstrap network (MBN), which is a recent simple unsupervised deep model, is sensitive to its network structure. How to select a proper network structure that may be dramatically different in different applications is a hard issue, given little prior knowledge of data. In this paper, we explore ensemble learning and selection techniques for determining the optimal network structure of MBN automatically. Specifically, we first propose an MBN ensemble (MBN-E) algorithm which concatenates the sparse outputs of a set of MBN base models with different network structures into a new representation. Then, we take the new representation as a reference for selecting the optimal MBN base models. The ensemble selection criteria can be categorized into two classes. The first kind employs optimization-like selection criteria, under the assumption that the number of classes of data is known as a prior. The second kind proposes distribution divergence criteria, when such a prior is unavailable. Experimental results on several benchmark datasets show that MBN-E yields good performance that is close to the optimal performance of MBN, while the ensemble selection techniques for MBN-E can further improve the performance. More importantly, MBN-E and its ensemble selection techniques maintain the simple formulation of MBN, and act like off-the-shelf methods that reach the state-of-the-art performance without manual hyperparameter tuning. The source code is available at http://www.xiaolei-z hang.net/mbn-e.htm.
翻訳日:2021-07-06 14:52:39 公開日:2021-07-05
# DPPIN:動的タンパク質-タンパク質相互作用ネットワークの生物学的データセット

DPPIN: A Biological Dataset of Dynamic Protein-Protein Interaction Networks ( http://arxiv.org/abs/2107.02168v1 )

ライセンス: Link先を確認
Dongqi Fu, Jingrui He(参考訳) 現在、多くのネットワーク表現学習アルゴリズムと下流ネットワークマイニングタスクは、動的ネットワークや時間的ネットワークに既に注意を払っている。 さらに、時間的ネットワークの表現とマイニングには、詐欺検出、ソーシャルネットワーク分析、薬物発見など、幅広い応用がある。 本稿では, ネットワーク表現学習とネットワークマイニング研究コミュニティに貢献するために, 酵母細胞の動的タンパク質レベル相互作用ネットワーク12種からなる, 動的タンパク質-タンパク質相互作用ネットワーク(dppin)の新しい生物学的データセットを作成する。 まず, DPPINの生成過程を紹介する。 発行したデータセットDPPINの価値を示すために、有益な潜在的なアプリケーションをリストアップします。 さらに,動的局所クラスタリング,動的スペクトルクラスタリング,動的サブグラフマッチング,動的ノード分類,動的グラフ分類実験をデザインした。 最後に、このデータセットユーティリティを改善するための今後の方向性を特定し、コミュニティからのインプットを歓迎する。 この作業のすべてのリソースはhttps://github.com/D ongqiFu/DPPINで公開されています。

Nowadays, many network representation learning algorithms and downstream network mining tasks have already paid attention to dynamic networks or temporal networks, which are more suitable for real-world complex scenarios by modeling evolving patterns and temporal dependencies between node interactions. Moreover, representing and mining temporal networks have a wide range of applications, such as fraud detection, social network analysis, and drug discovery. To contribute to the network representation learning and network mining research community, in this paper, we generate a new biological dataset of dynamic protein-protein interaction networks (i.e., DPPIN), which consists of twelve dynamic protein-level interaction networks of yeast cells at different scales. We first introduce the generation process of DPPIN. To demonstrate the value of our published dataset DPPIN, we then list the potential applications that would be benefited. Furthermore, we design dynamic local clustering, dynamic spectral clustering, dynamic subgraph matching, dynamic node classification, and dynamic graph classification experiments, where DPPIN indicates future research opportunities for some tasks by presenting challenges on state-of-the-art baseline algorithms. Finally, we identify future directions for improving this dataset utility and welcome inputs from the community. All resources of this work are deployed and publicly available at https://github.com/D ongqiFu/DPPIN.
翻訳日:2021-07-06 14:52:15 公開日:2021-07-05
# 深部強化学習による荒地車両の制御

Control of rough terrain vehicles using deep reinforcement learning ( http://arxiv.org/abs/2107.01867v1 )

ライセンス: Link先を確認
Viktor Wiberg, Erik Wallin, Martin Servin, Tomas Nordfjell(参考訳) 我々は,人間の操作者や従来の制御方法が不十分なシナリオにおいて,深い強化による地形車両の制御の可能性を探る。 この手紙は、2つのフレーム関節関節、6つの車輪と、荒地を横切るために活発に調律されたサスペンションを備えた16トンの森林車両を知覚し、計画し、うまく制御するコントローラを提示する。 注意深い形をした報酬信号は安全、環境、効率的な運転を促進するため、前例のない運転スキルが出現する。 森林の高密度レーザースキャンから再構成した地形を含む仮想環境での学習スキルをテストする。 コントローラーは障害物を妨害し、最大27$^\circ$まで傾斜し、様々な自然の地形を扱う能力を表示し、全て車輪の滑りが制限され、滑らかで、アクティブサスペンションをインテリジェントに使用して直立する。 その結果、深層強化学習は複雑なダイナミクスと高次元の観測データを持つ車両の制御を、人間の操作者や従来の制御方法、特に荒地と比較して強化する可能性を秘めている。

We explore the potential to control terrain vehicles using deep reinforcement in scenarios where human operators and traditional control methods are inadequate. This letter presents a controller that perceives, plans, and successfully controls a 16-tonne forestry vehicle with two frame articulation joints, six wheels, and their actively articulated suspensions to traverse rough terrain. The carefully shaped reward signal promotes safe, environmental, and efficient driving, which leads to the emergence of unprecedented driving skills. We test learned skills in a virtual environment, including terrains reconstructed from high-density laser scans of forest sites. The controller displays the ability to handle obstructing obstacles, slopes up to 27$^\circ$, and a variety of natural terrains, all with limited wheel slip, smooth, and upright traversal with intelligent use of the active suspensions. The results confirm that deep reinforcement learning has the potential to enhance control of vehicles with complex dynamics and high-dimensional observation data compared to human operators or traditional control methods, especially in rough terrain.
翻訳日:2021-07-06 14:50:44 公開日:2021-07-05
# キーポイントと部分親和性場を用いた6次元物体ポーズ推定

6D Object Pose Estimation using Keypoints and Part Affinity Fields ( http://arxiv.org/abs/2107.02057v1 )

ライセンス: Link先を確認
Moritz Zappel, Simon Bultmann and Sven Behnke(参考訳) RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。 本稿では,既知のオブジェクトの6つのdof変換と方向推定のための2段階パイプラインを提案する。 人間のポーズ推定からOpenPose CNNアーキテクチャを採用した入力画像から、キーポイントとパートアフィニティフィールド(PAF)を予測する。 オブジェクトポーズは、PnP-RANSACアルゴリズムを介して検出されたキーポイントとモデルキーポイントの間の2D-3D対応から計算される。 提案手法は,YCB-Videoデータセットを用いて評価し,文献からの最近の手法と同等の精度を実現する。 pafsを使って検出されたキーポイントをオブジェクトインスタンスにアセンブルすることは、ヒートマップのみを使うよりも有利である。 単一のオブジェクトクラスのキーポイントを予測するようにトレーニングされたモデルは、複数のクラスでトレーニングされたモデルよりもはるかにパフォーマンスが良い。

The task of 6D object pose estimation from RGB images is an important requirement for autonomous service robots to be able to interact with the real world. In this work, we present a two-step pipeline for estimating the 6 DoF translation and orientation of known objects. Keypoints and Part Affinity Fields (PAFs) are predicted from the input image adopting the OpenPose CNN architecture from human pose estimation. Object poses are then calculated from 2D-3D correspondences between detected and model keypoints via the PnP-RANSAC algorithm. The proposed approach is evaluated on the YCB-Video dataset and achieves accuracy on par with recent methods from the literature. Using PAFs to assemble detected keypoints into object instances proves advantageous over only using heatmaps. Models trained to predict keypoints of a single object class perform significantly better than models trained for several classes.
翻訳日:2021-07-06 14:48:46 公開日:2021-07-05
# バイアスのないシーングラフを復元する

Recovering the Unbiased Scene Graphs from the Biased Ones ( http://arxiv.org/abs/2107.02112v1 )

ライセンス: Link先を確認
Meng-Jiun Chiou, Henghui Ding, Hanshu Yan, Changhu Wang, Roger Zimmermann, Jiashi Feng(参考訳) 入力画像が与えられた場合、シーングラフ生成(SGG)は、有能なオブジェクト間の視覚的関係を記述する包括的でグラフィカルな表現を作ることを目的としている。 近年、SGGの長い尾の問題により多くの努力が払われているが、異なるクラスのラベルの欠落や報告バイアスの欠如により、長い尾の悪化がほとんど考慮されず、既存のデバイアス法では解決できない。 本稿では,ラベルの欠落により,SGGを「肯定的・未ラベルデータからの学習」(PU学習)問題とみなすことができ,全ての正の例において,ラベル頻度を利用してバイアスのない確率を回復することにより,報告バイアスを除去できることを示す。 ラベル周波数推定を精度良く行うために,複数のトレーニングイテレーションにまたがるトレーニング時間の増大と平均値を活用するために,動的ラベル周波数推定(DLFE)を提案する。 拡張実験により、DLFEは従来の推定法よりもラベル周波数の推定に有効であることが示され、DLFEは長い尾を著しく軽減し、VGデータセットの最先端の劣化性能を達成する。 また,dlfeを用いたsggモデルが,よりバランスよく偏りのないシーングラフを生成することを定性的に示す。

Given input images, scene graph generation (SGG) aims to produce comprehensive, graphical representations describing visual relationships among salient objects. Recently, more efforts have been paid to the long tail problem in SGG; however, the imbalance in the fraction of missing labels of different classes, or reporting bias, exacerbating the long tail is rarely considered and cannot be solved by the existing debiasing methods. In this paper we show that, due to the missing labels, SGG can be viewed as a "Learning from Positive and Unlabeled data" (PU learning) problem, where the reporting bias can be removed by recovering the unbiased probabilities from the biased ones by utilizing label frequencies, i.e., the per-class fraction of labeled, positive examples in all the positive examples. To obtain accurate label frequency estimates, we propose Dynamic Label Frequency Estimation (DLFE) to take advantage of training-time data augmentation and average over multiple training iterations to introduce more valid examples. Extensive experiments show that DLFE is more effective in estimating label frequencies than a naive variant of the traditional estimate, and DLFE significantly alleviates the long tail and achieves state-of-the-art debiasing performance on the VG dataset. We also show qualitatively that SGG models with DLFE produce prominently more balanced and unbiased scene graphs.
翻訳日:2021-07-06 14:48:32 公開日:2021-07-05
# 手指ジェスチャからの意図予測を用いた操作タスクの取引制御遠隔操作システム

A System for Traded Control Teleoperation of Manipulation Tasks using Intent Prediction from Hand Gestures ( http://arxiv.org/abs/2107.01829v1 )

ライセンス: Link先を確認
Yoojin Oh, Marc Toussaint, Jim Mainprice(参考訳) 本稿では,ロボットの認識と意図予測を含む遠隔操作システムを提案する。 知覚モジュールは、ロボットワークスペースに存在するオブジェクトと、ユーザが把握したいと思われるオブジェクトの意図予測モジュールを識別する。 このアーキテクチャでは、直接制御ではなく、トレードされた制御に頼ることができる。我々は、手動ジェスチャーを使用して、逐次操作タスクの目標オブジェクトを指定し、ロボットは、軌道最適化を用いて、グリーピングまたは検索動作を自律的に生成する。 知覚モジュールは、オブジェクトの6Dポーズを正確に追跡するためにモデルベースのトラッカーに依存し、美術学習に基づくオブジェクト検出とセグメンテーション手法の状態を利用して、シーン内のオブジェクトを自動的に検出することでトラッカーを初期化する。 トレーニングされた多層パーセプトロン分類器を使用して、ユーザーハンドジェスチャからゴールオブジェクトを識別する。 システムのすべてのコンポーネントとその経験的評価を提示した後、我々のパイプラインを直接取引制御アプローチ(すなわち、予測を使わないもの)と比較し、意図的予測を使用することで、全体のタスク実行時間を短縮できることを示す実験結果を示す。

This paper presents a teleoperation system that includes robot perception and intent prediction from hand gestures. The perception module identifies the objects present in the robot workspace and the intent prediction module which object the user likely wants to grasp. This architecture allows the approach to rely on traded control instead of direct control: we use hand gestures to specify the goal objects for a sequential manipulation task, the robot then autonomously generates a grasping or a retrieving motion using trajectory optimization. The perception module relies on the model-based tracker to precisely track the 6D pose of the objects and makes use of a state of the art learning-based object detection and segmentation method, to initialize the tracker by automatically detecting objects in the scene. Goal objects are identified from user hand gestures using a trained a multi-layer perceptron classifier. After presenting all the components of the system and their empirical evaluation, we present experimental results comparing our pipeline to a direct traded control approach (i.e., one that does not use prediction) which shows that using intent prediction allows to bring down the overall task execution time.
翻訳日:2021-07-06 14:47:20 公開日:2021-07-05
# 実世界のサイバーセキュリティリスク評価のためのフレームワーク,機械学習生産システム

A Framework for Evaluating the Cybersecurity Risk of Real World, Machine Learning Production Systems ( http://arxiv.org/abs/2107.01806v1 )

ライセンス: Link先を確認
Ron Bitton, Nadav Maman, Inderjeet Singh, Satoru Momiyama, Yuval Elovici, Asaf Shabtai(参考訳) 機械学習(ML)生産システムに対するサイバー攻撃は破壊的だが、多くの業界実践者は、MLベースのシステムをターゲットにしたサイバー攻撃を分析、検出、防御、対応できる戦術的および戦略的なツールを欠いている。 本稿では,これらのシステムとその脆弱性をサイバーセキュリティリスク評価フレームワークに統合することにより,ML生産システムの確保に向けて重要な一歩を踏み出した。 具体的には、ML生産システムの総合的な脅威分析を行い、ML生産システムにサイバー攻撃を組み込むためのMulVAL攻撃グラフ生成および分析フレームワークの拡張を開発した。 提案した拡張を使って、セキュリティ実践者はMLコンポーネントを含む環境にアタックグラフ分析手法を適用し、セキュリティ専門家にML生産システムを対象としたサイバー攻撃のリスクを評価し定量化する実用的なツールを提供する。

Although cyberattacks on machine learning (ML) production systems can be destructive, many industry practitioners are ill equipped, lacking tactical and strategic tools that would allow them to analyze, detect, protect against, and respond to cyberattacks targeting their ML-based systems. In this paper, we take a significant step toward securing ML production systems by integrating these systems and their vulnerabilities into cybersecurity risk assessment frameworks. Specifically, we performed a comprehensive threat analysis of ML production systems and developed an extension to the MulVAL attack graph generation and analysis framework to incorporate cyberattacks on ML production systems. Using the proposed extension, security practitioners can apply attack graph analysis methods in environments that include ML components, thus providing security experts with a practical tool for evaluating the impact and quantifying the risk of a cyberattack targeting an ML production system.
翻訳日:2021-07-06 14:43:57 公開日:2021-07-05
# NOTE: KDD-CUP 2021 WikiKG90M-LSCのソリューション

NOTE: Solution for KDD-CUP 2021 WikiKG90M-LSC ( http://arxiv.org/abs/2107.01892v1 )

ライセンス: Link先を確認
Weiyue Su, Zeyang Fang, Hui Zhong, Huijuan Wang, Siming Dai, Zhengjie Huang, Yunsheng Shi, Shikun Feng, Zeyu Chen(参考訳) KDDカップ2021のWikiKG90Mは大規模な百科事典知識グラフであり、質問応答やレコメンデーターシステムなど、さまざまなダウンストリームアプリケーションに役立つ。 参加者は行方不明のトリプレットを予測してナレッジグラフを完成させるように招待される。 最近の表現学習法はFB15k-237のような標準データセットで大きな成功を収めている。 そこで我々は,様々な領域の高度なアルゴリズムを訓練し,ote,quate,rotrot,tr anseなどの三重項を学習する。 重要なことに、私たちはOTEをNOTE(Norm-OTEのショート)に修正し、パフォーマンスを改善しました。 さらに,deepwalk と post-smoothing technique の両方を用いて,補足のためのグラフ構造をキャプチャする。 表象に加えて,主エンティティ,関係,末尾エンティティ間の様々な統計確率を用いて最終予測を行う。 実験の結果,最先端表現学習手法が相互に強みを与えうることがわかった。 そして、さらなる改善のためのバリデーション候補から機能エンジニアリングを開発します。 最終推論のためにテストセットに同じ戦略を適用することに注意してください。 そして、これらの機能は、すべてのエンティティに対するランキングを考えるとき、現実世界では実用的ではないかもしれない。

WikiKG90M in KDD Cup 2021 is a large encyclopedic knowledge graph, which could benefit various downstream applications such as question answering and recommender systems. Participants are invited to complete the knowledge graph by predicting missing triplets. Recent representation learning methods have achieved great success on standard datasets like FB15k-237. Thus, we train the advanced algorithms in different domains to learn the triplets, including OTE, QuatE, RotatE and TransE. Significantly, we modified OTE into NOTE (short for Norm-OTE) for better performance. Besides, we use both the DeepWalk and the post-smoothing technique to capture the graph structure for supplementation. In addition to the representations, we also use various statistical probabilities among the head entities, the relations and the tail entities for the final prediction. Experimental results show that the ensemble of state-of-the-art representation learning methods could draw on each others strengths. And we develop feature engineering from validation candidates for further improvements. Please note that we apply the same strategy on the test set for final inference. And these features may not be practical in the real world when considering ranking against all the entities.
翻訳日:2021-07-06 14:43:42 公開日:2021-07-05
# テキストデータと非テキストデータの両方を利用した課題コミットリンクの自動復元

Automated Recovery of Issue-Commit Links Leveraging Both Textual and Non-textual Data ( http://arxiv.org/abs/2107.01894v1 )

ライセンス: Link先を確認
Pooya Rostami Mazrae, Maliheh Izadi, Abbas Heydarnoori(参考訳) 課題は課題追跡システムに必要な変更に関する議論を文書化し、コミットはバージョン管理システムにその変更自体を含む。 問題とコミットの間のリンクを回復することで、バグローカライゼーションやソフトウェアドキュメントなど、多くのソフトウェア進化タスクが促進される。 GitHubの50万件以上のイシューに関する以前の調査では、開発者が手動で関連するコミットにリンクしている問題の42.2%しか報告されていない。 コミットとイシューのペアのリンクを自動化することは、そのタスクの改善に貢献します。 これまでのところ、コミット発行の自動リンクに関する最先端のアプローチは、精度が低く、信頼性が低く、予測されたリンクに人的監督を課すことがある。 コミットや問題のいずれかにテキスト情報がない場合、パフォーマンスの低下はさらに深刻になる。 現在のアプローチは計算コストも高いことが証明されている。 このような制約を克服するために,(1)非テキストベースコンポーネント,(2)コミット発行ペアの情報を自動記録してリンクを予測する,(2)コミット発行ペアのテキスト情報を用いたテキストベースコンポーネントという,2つの情報チャネルを活用するハイブリッドリンカを提案する。 そして、2つの分類器の結果を組み合わせることで、hybrid-linkerは最終的な予測を行う。 したがって、あるコンポーネントがリンクの予測に不足するたびに、他のコンポーネントがそのギャップを埋め、結果を改善する。 12プロジェクトのデータセット上で,frlinkとdeeplinkという競合するアプローチに対して,ハイブリッドリンカを評価する。 ハイブリッドリンカーはそれぞれリコール、精度、f測定に基づいて90.1%、87.8%、88.9%を達成する。 またFRLinkとDeepLinkを31.3%、F対策に関して41.3%上回っている。 さらに、Hybrid-Linkerはパフォーマンスも大幅に改善されている。

An issue documents discussions around required changes in issue-tracking systems, while a commit contains the change itself in the version control systems. Recovering links between issues and commits can facilitate many software evolution tasks such as bug localization, and software documentation. A previous study on over half a million issues from GitHub reports only about 42.2% of issues are manually linked by developers to their pertinent commits. Automating the linking of commit-issue pairs can contribute to the improvement of the said tasks. By far, current state-of-the-art approaches for automated commit-issue linking suffer from low precision, leading to unreliable results, sometimes to the point that imposes human supervision on the predicted links. The low performance gets even more severe when there is a lack of textual information in either commits or issues. Current approaches are also proven computationally expensive. We propose Hybrid-Linker to overcome such limitations by exploiting two information channels; (1) a non-textual-based component that operates on non-textual, automatically recorded information of the commit-issue pairs to predict a link, and (2) a textual-based one which does the same using textual information of the commit-issue pairs. Then, combining the results from the two classifiers, Hybrid-Linker makes the final prediction. Thus, every time one component falls short in predicting a link, the other component fills the gap and improves the results. We evaluate Hybrid-Linker against competing approaches, namely FRLink and DeepLink on a dataset of 12 projects. Hybrid-Linker achieves 90.1%, 87.8%, and 88.9% based on recall, precision, and F-measure, respectively. It also outperforms FRLink and DeepLink by 31.3%, and 41.3%, regarding the F-measure. Moreover, Hybrid-Linker exhibits extensive improvements in terms of performance as well.
翻訳日:2021-07-06 14:43:24 公開日:2021-07-05
# リンク予測のための確率的ネットワーク埋め込みの逆ロバスト性

Adversarial Robustness of Probabilistic Network Embedding for Link Prediction ( http://arxiv.org/abs/2107.01936v1 )

ライセンス: Link先を確認
Xi Chen, Bo Kang, Jefrey Lijffijt, Tijl De Bie(参考訳) 今日のネットワーク社会では、多くの現実世界の問題は、Facebookの友情提案やeコマース推奨、引用ネットワークにおける科学的コラボレーションの予測など、ネットワーク内のリンクを予測するものとして形式化することができる。 リンク予測問題は、その最先端のパフォーマンスのために、ネットワーク埋め込みメソッドによって取り組まれることが多い。 しかし、これらの手法は単純なベースラインに比べて透明性に欠けており、結果として敵攻撃に対する堅牢性が懸念される可能性がある。 先行研究では、ノードとグラフレベルでの分類に焦点を当てたネットワーク埋め込みモデルの逆ロバスト性がすでに研究されている。 一方,リンク予測のダウンストリームタスクに対するロバスト性は,はるかに低く検討されている。 本稿では,現状の確率的ネットワーク埋め込みモデルであるConditional Network Embedding (CNE) の逆堅牢性をリンク予測に適用することにより,このギャップを埋めることに貢献した。 より具体的には、CNEとネットワークが与えられた場合、我々はモデルのリンク予測の感度を、ネットワークの小さな対角摂動、すなわちノードペアのリンク状態の変化に対して測定する。 したがって,このような摂動に対して最も脆弱なネットワーク内のリンクや非リンクを識別し,分析者によるさらなる調査を行うことができる。 我々は,最も敏感な摂動特性を解析し,本手法が最も脆弱なリンクと非リンクを識別するだけでなく,効果的な近似により時間効率の良い方法で行われることを実証的に確認した。

In today's networked society, many real-world problems can be formalized as predicting links in networks, such as Facebook friendship suggestions, e-commerce recommendations, and the prediction of scientific collaborations in citation networks. Increasingly often, link prediction problem is tackled by means of network embedding methods, owing to their state-of-the-art performance. However, these methods lack transparency when compared to simpler baselines, and as a result their robustness against adversarial attacks is a possible point of concern: could one or a few small adversarial modifications to the network have a large impact on the link prediction performance when using a network embedding model? Prior research has already investigated adversarial robustness for network embedding models, focused on classification at the node and graph level. Robustness with respect to the link prediction downstream task, on the other hand, has been explored much less. This paper contributes to filling this gap, by studying adversarial robustness of Conditional Network Embedding (CNE), a state-of-the-art probabilistic network embedding model, for link prediction. More specifically, given CNE and a network, we measure the sensitivity of the link predictions of the model to small adversarial perturbations of the network, namely changes of the link status of a node pair. Thus, our approach allows one to identify the links and non-links in the network that are most vulnerable to such perturbations, for further investigation by an analyst. We analyze the characteristics of the most and least sensitive perturbations, and empirically confirm that our approach not only succeeds in identifying the most vulnerable links and non-links, but also that it does so in a time-efficient manner thanks to an effective approximation.
翻訳日:2021-07-06 14:42:54 公開日:2021-07-05
# 自動スクリュー走行中の故障検出:自動スクリュー走行における異常検出のデータセットとユースケース

Detecting Faults during Automatic Screwdriving: A Dataset and Use Case of Anomaly Detection for Automatic Screwdriving ( http://arxiv.org/abs/2107.01955v1 )

ライセンス: Link先を確認
B{\l}a\.zej Leporowski, Daniella Tola, Casper Hansen and Alexandros Iosifidis(参考訳) 製造アプリケーションにおける欠陥の検出は,特に手作業で各故障モデルを設計する場合は困難である。 障害検出に機械学習(ML)を使用するデータ駆動型アプローチは近年,製造プロセスからのデータセットに基づいてMLモデルをトレーニングする手段として,関心が高まっている。 本稿では,自動スクリュー運転時の故障検出にMLモデルを用い,正常動作と異常動作の両方において,ユニバーサルロボットとオンロボドライバーから完全に監視・登録されたデータを含む新しいデータセットを提案する。 我々は,2つの時系列mlモデルを用いて,自動スクリュー駆動アプリケーションにおける故障の検出方法を示す。

Detecting faults in manufacturing applications can be difficult, especially if each fault model is to be engineered by hand. Data-driven approaches, using Machine Learning (ML) for detecting faults have recently gained increasing interest, where a ML model can be trained on a set of data from a manufacturing process. In this paper, we present a use case of using ML models for detecting faults during automated screwdriving operations, and introduce a new dataset containing fully monitored and registered data from a Universal Robot and OnRobot screwdriver during both normal and anomalous operations. We illustrate, with the use of two time-series ML models, how to detect faults in an automated screwdriving application.
翻訳日:2021-07-06 14:42:25 公開日:2021-07-05
# 経頭蓋電流刺激による人間の運動差解析における確率的運動プリミティブの利用

Using Probabilistic Movement Primitives in Analyzing Human Motion Difference under Transcranial Current Stimulation ( http://arxiv.org/abs/2107.02063v1 )

ライセンス: Link先を確認
Honghu Xue, Rebecca Herzog, Till M Berger, Tobias B\"aumer, Anne Weissbach, Elmar Rueckert(参考訳) 人体動作分析などの医療タスクにおいて、コンピュータ支援補助システムは高い効率で人間の専門家に好まれている。 しかし、従来のアプローチは通常、動き開始時間、ピーク速度、動きベクトル、周波数領域分析などのユーザー定義の特徴に基づいている。 このようなアプローチは、有意義な特徴抽出を達成するために、注意深くデータ後処理や特定のドメイン知識を必要とする。 さらに、ノイズの傾向があり、手動で定義した機能は、他の分析にはほとんど使われない。 本稿では,ロボットのスキル学習において広く用いられている手法として,確率的運動プリミティブ(promps)を提案する。 ProMPsの利点は、これらの機能はデータから直接学習され、ProMPsは他のタスクに容易に拡張できる軌道形状を記述する重要な特徴を捉えることができることである。 分類課題が主に研究されている先行研究とは別として,kullback-leibler (kl) の発散を用いて,ヒトの運動に対する経頭蓋電流刺激法の影響を定量化した。 最初の結果が10人の参加者に示されました。 その結果, ProMPsはヒトの運動に対する堅牢で効果的な特徴抽出器として評価された。

In medical tasks such as human motion analysis, computer-aided auxiliary systems have become preferred choice for human experts for its high efficiency. However, conventional approaches are typically based on user-defined features such as movement onset times, peak velocities, motion vectors or frequency domain analyses. Such approaches entail careful data post-processing or specific domain knowledge to achieve a meaningful feature extraction. Besides, they are prone to noise and the manual-defined features could hardly be re-used for other analyses. In this paper, we proposed probabilistic movement primitives (ProMPs), a widely-used approach in robot skill learning, to model human motions. The benefit of ProMPs is that the features are directly learned from the data and ProMPs can capture important features describing the trajectory shape, which can easily be extended to other tasks. Distinct from previous research, where classification tasks are mostly investigated, we applied ProMPs together with a variant of Kullback-Leibler (KL) divergence to quantify the effect of different transcranial current stimulation methods on human motions. We presented an initial result with 10 participants. The results validate ProMPs as a robust and effective feature extractor for human motions.
翻訳日:2021-07-06 14:42:12 公開日:2021-07-05
# SCOD:行動系列の感覚伝達を用いた身体的エージェントの能動物体検出

SCOD: Active Object Detection for Embodied Agents using Sensory Commutativity of Action Sequences ( http://arxiv.org/abs/2107.02069v1 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Michael Garcia-Ortiz, David Filliat(参考訳) 移動可能で移動不能な物体検出のためのアクティブな手法であるscod(sensory commutativity object detection)を紹介する。 SCODは、ファーストパーソンセンサーと複数の自由度を持つ連続運動空間を備えたエンボディエージェントのシナリオにおいて、アクションシーケンスの可換性を利用する。 SCODは、同じ開始点から2つの異なる順序でアクションシーケンスを再生し、各シーケンス後に得られた2つの最終観測を比較する。 現実的な3次元ロボット装置(iGibson)の実験は、SCODの精度と、見えない環境や物体への一般化を実証している。 また、SCODを実ロボットに適用し、その一般化特性をさらに明らかにする。 scod では, 物体発見の問題に対して, 内在的実施エージェントの文脈でアプローチする新しい方法を提供することを目標としている。 コードと補足ビデオを提供します。

We introduce SCOD (Sensory Commutativity Object Detection), an active method for movable and immovable object detection. SCOD exploits the commutative properties of action sequences, in the scenario of an embodied agent equipped with first-person sensors and a continuous motor space with multiple degrees of freedom. SCOD is based on playing an action sequence in two different orders from the same starting point and comparing the two final observations obtained after each sequence. Our experiments on 3D realistic robotic setups (iGibson) demonstrate the accuracy of SCOD and its generalization to unseen environments and objects. We also successfully apply SCOD on a real robot to further illustrate its generalization properties. With SCOD, we aim at providing a novel way of approaching the problem of object discovery in the context of a naive embodied agent. We provide code and a supplementary video.
翻訳日:2021-07-06 14:41:52 公開日:2021-07-05
# 自然景観統計に基づく色付き点雲とメッシュの非参照品質評価

No-Reference Quality Assessment for Colored Point Cloud and Mesh Based on Natural Scene Statistics ( http://arxiv.org/abs/2107.02041v1 )

ライセンス: Link先を確認
Zicheng Zhang(参考訳) コンピュータグラフィックスアプリケーションにおけるユーザ体験の質の向上と処理システムの最適化のために,マルチメディア分野において3D品質評価(3D-QA)が重要な課題となっている。 ポイントクラウドとメッシュは3Dモデルの最も広く使われている2つの電子表現フォーマットであり、その品質は単純化や圧縮といった操作に非常に敏感である。 そこで, ポイントクラウド品質評価 (PCQA) とメッシュ品質評価 (MQA) に関する多くの研究が, 損失操作による視覚的品質劣化を測定するために行われている。 しかし、これまでの研究の大部分はフルリファレンス(fr)メトリクスを使用しており、参照3dモデルが利用できない場合、3dモデルの正確な品質レベルを予測できない可能性がある。 さらに、カラー特徴を考慮した3D-QA測定値の制限を行い、アプリケーションの有効性と範囲を著しく制限する。 多くの品質評価研究において、自然シーン統計(NSS)は、自然シーンの歪みを統計的パラメータに定量化する優れた能力を示している。 そこで本研究では,nssを用いた3dモデルのための無基準品質評価指標を提案する。 本稿では,3dモデルから直接,色と幾何学の側面から品質を認識できる特徴を抽出する。 そして、異なる分布モデルを用いて統計パラメータを推定し、3次元モデルの特徴を記述する。 本手法は主に,カラーポイントクラウド品質評価データベース (SJTU-PCQA) とカラーメッシュ品質評価データベース (CMDM) で検証されている。 実験の結果,提案手法は最先端のNR 3D-QA測定値よりも優れており,最先端のFR 3D-QA測定値との差が許容できることがわかった。

To improve the viewer's quality of experience and optimize processing systems in computer graphics applications, the 3D quality assessment (3D-QA) has become an important task in the multimedia area. Point cloud and mesh are the two most widely used electronic representation formats of 3D models, the quality of which is quite sensitive to operations like simplification and compression. Therefore, many studies concerning point cloud quality assessment (PCQA) and mesh quality assessment (MQA) have been carried out to measure the visual quality degradations caused by lossy operations. However, a large part of previous studies utilizes full-reference (FR) metrics, which means they may fail to predict the accurate quality level of 3D models when the reference 3D model is not available. Furthermore, limited numbers of 3D-QA metrics are carried out to take color features into consideration, which significantly restricts the effectiveness and scope of application. In many quality assessment studies, natural scene statistics (NSS) have shown a good ability to quantify the distortion of natural scenes to statistical parameters. Therefore, we propose an NSS-based no-reference quality assessment metric for colored 3D models. In this paper, quality-aware features are extracted from the aspects of color and geometry directly from the 3D models. Then the statistic parameters are estimated using different distribution models to describe the characteristic of the 3D models. Our method is mainly validated on the colored point cloud quality assessment database (SJTU-PCQA) and the colored mesh quality assessment database (CMDM). The experimental results show that the proposed method outperforms all the state-of-art NR 3D-QA metrics and obtains an acceptable gap with the state-of-art FR 3D-QA metrics.
翻訳日:2021-07-06 14:41:36 公開日:2021-07-05
# 施設配置のランダム化次元化と単一リンククラスタリング

Randomized Dimensionality Reduction for Facility Location and Single-Linkage Clustering ( http://arxiv.org/abs/2107.01804v1 )

ライセンス: Link先を確認
Shyam Narayanan, Sandeep Silwal, Piotr Indyk, Or Zamir(参考訳) ランダム次元削減は高次元問題に対するアルゴリズムを高速化するための多用途ツールである。 本研究では,施設配置問題と,最小スパンディングツリーの計算に等価な単一リンク階層クラスタリング問題という2つのクラスタリング問題への適用について検討する。 入力点集合 $x$ をランダムな $d = o(d_x)$-次元部分空間(ここで$d_x$ は2倍の次元である)に投影すると、射影空間における最適な施設配置コストは、元のコストを定数に近似する。 最小のスパンディングツリーに対する類似のステートメントを示すが、次元 $d$ は追加の $\log \log n$ 項を持ち、近似係数は任意に 1$ に近い。 さらに、これらの結果をコストだけでなく、ソリューションの近似に拡張する。 最後に,ソリューションの品質と次元減少によるスピードアップを検証するための実験結果を提供する。 このアプローチを$k$-means や $k$-medians の文脈で研究する以前の論文とは異なり、我々の次元境界はクラスタの数に依存するのではなく、本質的な次元の$X$にのみ依存する。

Random dimensionality reduction is a versatile tool for speeding up algorithms for high-dimensional problems. We study its application to two clustering problems: the facility location problem, and the single-linkage hierarchical clustering problem, which is equivalent to computing the minimum spanning tree. We show that if we project the input pointset $X$ onto a random $d = O(d_X)$-dimensional subspace (where $d_X$ is the doubling dimension of $X$), then the optimum facility location cost in the projected space approximates the original cost up to a constant factor. We show an analogous statement for minimum spanning tree, but with the dimension $d$ having an extra $\log \log n$ term and the approximation factor being arbitrarily close to $1$. Furthermore, we extend these results to approximating solutions instead of just their costs. Lastly, we provide experimental results to validate the quality of solutions and the speedup due to the dimensionality reduction. Unlike several previous papers studying this approach in the context of $k$-means and $k$-medians, our dimension bound does not depend on the number of clusters but only on the intrinsic dimensionality of $X$.
翻訳日:2021-07-06 14:40:10 公開日:2021-07-05
# Q-SpiNN:スパイクニューラルネットワークの量子化フレームワーク

Q-SpiNN: A Framework for Quantizing Spiking Neural Networks ( http://arxiv.org/abs/2107.01807v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) 精度を著しく低下させることなく、スパイキングニューラルネットワーク(SNN)のメモリフットプリントを削減するための顕著なテクニックは量子化である。 However, the state-of-the-art only focus on employing the weight quantization directly from a specific quantization scheme, i.e., either the post-training quantization (PTQ) or the in-training quantization (ITQ), and do not consider (1) quantizing other SNN parameters (e.g., neuron membrane potential), (2) exploring different combinations of quantization approaches (i.e., quantization schemes, precision levels, and rounding schemes), and (3) selecting the SNN model with a good memory-accuracy trade-off at the end. したがって、対象とする精度を満たすためにこれらの最先端技術によって提供されるメモリ節約は制限されており、リソース制約されたシステム(例えばIoT-Edgeデバイス)のSNN処理を妨げる。 そこで我々は,メモリ効率の高いSNNのための新しい量子化フレームワークQ-SpiNNを提案する。 Q-SpiNN の主なメカニズムは,(1) 異なる SNN パラメータの量子化を精度に対する重要性に基づいて利用すること,(2) 量子化スキーム,精度レベル,ラウンドリングスキームの異なる組み合わせを探索して効率的な SNN モデル候補を求めること,(3) 候補が取得したメモリ精度トレードオフの利点を定量化するアルゴリズムを開発し,Pareto-optimal モデルを選択すること,である。 実験の結果、教師なしネットワークでは、Q-SpiNNはメモリフットプリントをcaで削減することがわかった。 また,MNISTデータセットのベースラインから1%以内の精度を維持した。 教師付きネットワークでは、Q-SpiNNはメモリをcaで削減する。 DVS-Gestureデータセットのベースラインから2%以内の精度を維持した。

A prominent technique for reducing the memory footprint of Spiking Neural Networks (SNNs) without decreasing the accuracy significantly is quantization. However, the state-of-the-art only focus on employing the weight quantization directly from a specific quantization scheme, i.e., either the post-training quantization (PTQ) or the in-training quantization (ITQ), and do not consider (1) quantizing other SNN parameters (e.g., neuron membrane potential), (2) exploring different combinations of quantization approaches (i.e., quantization schemes, precision levels, and rounding schemes), and (3) selecting the SNN model with a good memory-accuracy trade-off at the end. Therefore, the memory saving offered by these state-of-the-art to meet the targeted accuracy is limited, thereby hindering processing SNNs on the resource-constrained systems (e.g., the IoT-Edge devices). Towards this, we propose Q-SpiNN, a novel quantization framework for memory-efficient SNNs. The key mechanisms of the Q-SpiNN are: (1) employing quantization for different SNN parameters based on their significance to the accuracy, (2) exploring different combinations of quantization schemes, precision levels, and rounding schemes to find efficient SNN model candidates, and (3) developing an algorithm that quantifies the benefit of the memory-accuracy trade-off obtained by the candidates, and selects the Pareto-optimal one. The experimental results show that, for the unsupervised network, the Q-SpiNN reduces the memory footprint by ca. 4x, while maintaining the accuracy within 1% from the baseline on the MNIST dataset. For the supervised network, the Q-SpiNN reduces the memory by ca. 2x, while keeping the accuracy within 2% from the baseline on the DVS-Gesture dataset.
翻訳日:2021-07-06 14:39:45 公開日:2021-07-05
# 重力波データにおける格子波形検出における各種深部伝達学習モデルの効率性について

On the Efficiency of Various Deep Transfer Learning Models in Glitch Waveform Detection in Gravitational-Wave Data ( http://arxiv.org/abs/2107.01863v1 )

ライセンス: Link先を確認
Reymond Mesuga and Brian James Bayanay(参考訳) LIGOは史上最も敏感で複雑な重力実験だと考えられている。 その主な目的は、その4キロメートルの腕の長さが陽子の直径の1万倍の距離で変化するかどうかを観察することで、宇宙で最も強い事象から重力波を検出することである。 感度のため、LIGOは重力波を検出するために収集されるデータに影響を与える外部ノイズの乱れを引き起こす。 これらのノイズは、LIGOコミュニティによってグリッチとして一般的に呼ばれる。 本研究の目的は,vgg19,resnet50v2,vg g16,resnet101など各種深層トラスネーハ学習モデルの適応性を評価し,重力波データ中のグリッチ波形を検出することである。 精度は98.98%、98.35%、97.56%、94.73%である。 モデルはかなり高い精度を達成したが、実験で見られる主な関心事である特定のクラスのデータ不足により、全てのモデルが苦しんだことが観察された。

LIGO is considered the most sensitive and complicated gravitational experiment ever built. Its main objective is to detect the gravitational wave from the strongest events in the universe by observing if the length of its 4-kilometer arms change by a distance 10,000 times smaller than the diameter of a proton. Due to its sensitivity, LIGO is prone to the disturbance of external noises which affects the data being collected to detect the gravitational wave. These noises are commonly called by the LIGO community as glitches. The objective of this study is to evaluate the effeciency of various deep trasnfer learning models namely VGG19, ResNet50V2, VGG16 and ResNet101 to detect glitch waveform in gravitational wave data. The accuracy achieved by the said models are 98.98%, 98.35%, 97.56% and 94.73% respectively. Even though the models achieved fairly high accuracy, it is observed that all of the model suffered from the lack of data for certain classes which is the main concern found in the experiment
翻訳日:2021-07-06 14:39:15 公開日:2021-07-05
# 差分プライバシーを用いたフェデレーション学習におけるクエリ数と応答数の最適化

Optimizing the Numbers of Queries and Replies in Federated Learning with Differential Privacy ( http://arxiv.org/abs/2107.01895v1 )

ライセンス: Link先を確認
Yipeng Zhou and Xuezheng Liu and Yao Fu and Di Wu and Chao Li and Shui Yu(参考訳) federated learning(fl)は、パラメータ情報を交換することで、分散クライアントが共有機械学習モデルを協調的にトレーニングできるようにする。 flはクライアントの生データを保護できるが、悪意のあるユーザーは公開パラメータで元のデータをクラックすることができる。 この欠陥を修正するために、差分プライバシー(DP)をFLクライアントに組み込んで元のパラメータを乱し、トレーニングされたモデルの精度を著しく損なう可能性がある。 本研究では,DP を用いた FL におけるクエリと応答の最適な数と,最終的なモデルの精度を最大化するために,既存の研究で見過ごされてきた重要な問題について検討する。 flでは、パラメータサーバ(ps)は、トレーニングを完了させるために複数のグローバルイテレーションのために参加するクライアントに問い合わせる必要がある。 各クライアントは、ローカルイテレーションを実行して、psからのクエリに応答する。 私たちの研究は、PSがクライアントに問い合わせるべき回数と、各クライアントがPSに返信すべき回数を調べます。 我々は,最も広く用いられているdp機構(ラプラス機構とガウス機構)について検討する。 収束率解析を行うことで, fl における問い合わせ数と応答数を dp で決定し, 最終モデルの精度を最大化することができる。 最後に、mnist と femnist という公開データセットを用いて、分析の検証を行い、クエリ数と応答数を適切に設定することで dp による fl の最終的なモデルの精度を大幅に向上できることを示す。

Federated learning (FL) empowers distributed clients to collaboratively train a shared machine learning model through exchanging parameter information. Despite the fact that FL can protect clients' raw data, malicious users can still crack original data with disclosed parameters. To amend this flaw, differential privacy (DP) is incorporated into FL clients to disturb original parameters, which however can significantly impair the accuracy of the trained model. In this work, we study a crucial question which has been vastly overlooked by existing works: what are the optimal numbers of queries and replies in FL with DP so that the final model accuracy is maximized. In FL, the parameter server (PS) needs to query participating clients for multiple global iterations to complete training. Each client responds a query from the PS by conducting a local iteration. Our work investigates how many times the PS should query clients and how many times each client should reply the PS. We investigate two most extensively used DP mechanisms (i.e., the Laplace mechanism and Gaussian mechanisms). Through conducting convergence rate analysis, we can determine the optimal numbers of queries and replies in FL with DP so that the final model accuracy can be maximized. Finally, extensive experiments are conducted with publicly available datasets: MNIST and FEMNIST, to verify our analysis and the results demonstrate that properly setting the numbers of queries and replies can significantly improve the final model accuracy in FL with DP.
翻訳日:2021-07-06 14:38:58 公開日:2021-07-05
# 電子商取引における不正検出のための機械学習:研究アジェンダ

Machine Learning for Fraud Detection in E-Commerce: A Research Agenda ( http://arxiv.org/abs/2107.01979v1 )

ライセンス: Link先を確認
Niek Tax, Kees Jan de Vries, Mathijs de Jong, Nikoleta Dosoula, Bram van den Akker, Jon Smith, Olivier Thuong, Lucas Bernardi(参考訳) 不正検出・防止は、電子商取引事業の持続的な運営を保証する上で重要な役割を果たす。 機械学習(ML)は、これらのアンチファンド操作において重要な役割を果たすことが多いが、これらのMLモデルを運用する組織的コンテキストは無視できない。 本稿では,電子商取引組織における不正防止部門の運用モデルを定式化し,不正検出の話題を組織中心の視点で考察する。 この運用モデルから,6つの研究トピックと12の不正検出に関する実践的課題を導出する。 我々は,各研究トピックに関する文献の現状を要約し,実践的課題に対する潜在的な解決策を議論し,22のオープン研究課題を明らかにした。

Fraud detection and prevention play an important part in ensuring the sustained operation of any e-commerce business. Machine learning (ML) often plays an important role in these anti-fraud operations, but the organizational context in which these ML models operate cannot be ignored. In this paper, we take an organization-centric view on the topic of fraud detection by formulating an operational model of the anti-fraud departments in e-commerce organizations. We derive 6 research topics and 12 practical challenges for fraud detection from this operational model. We summarize the state of the literature for each research topic, discuss potential solutions to the practical challenges, and identify 22 open research challenges.
翻訳日:2021-07-06 14:38:34 公開日:2021-07-05
# 多変量関数群スパース回帰--関数予測子選択

Multivariate functional group sparse regression: functional predictor selection ( http://arxiv.org/abs/2107.02146v1 )

ライセンス: Link先を確認
Ali Mahzarnia and Jun Song(参考訳) 本論文では,高次元多変量関数データ設定におけるスカラー・オン・ファンクション回帰問題において,関数予測器の選択と滑らかな関数係数の同時推定法を提案する。 特に、無限次元の一般ヒルベルト空間の下で関数群スパース回帰の2つの方法を開発する。 無限次元ヒルベルト空間におけるアルゴリズムの収束と推定と選択(オラクルの性質)の一貫性を示す。 シミュレーション研究は, 関数係数の選択と推定の両方における手法の有効性を示す。 機能的磁気共鳴イメージング(fMRI)への応用は、ADHDとIQに関連する人間の脳の領域を明らかにする。

In this paper, we propose methods for functional predictor selection and the estimation of smooth functional coefficients simultaneously in a scalar-on-function regression problem under high-dimensional multivariate functional data setting. In particular, we develop two methods for functional group-sparse regression under a generic Hilbert space of infinite dimension. We show the convergence of algorithms and the consistency of the estimation and the selection (oracle property) under infinite-dimensional Hilbert spaces. Simulation studies show the effectiveness of the methods in both the selection and the estimation of functional coefficients. The applications to the functional magnetic resonance imaging (fMRI) reveal the regions of the human brain related to ADHD and IQ.
翻訳日:2021-07-06 14:38:22 公開日:2021-07-05
# (参考訳) 全スライド画像分類のための混合監督学習 [全文訳有]

Mixed Supervision Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2107.00934v2 )

ライセンス: CC BY 4.0
Jiahui Li, Wen Chen, Xiaodi Huang, Zhiqiang Hu, Qi Duan, Hongsheng Li, Dimitris N. Metaxas, Shaoting Zhang(参考訳) 分類ラベルを用いた弱監督学習は,様々なタスクにおいて高い性能を示した。 数ピクセルレベルのファインアノテーションも手頃な価格である場合、ピクセルレベルのアノテーション(セグメンテーションなど)と画像レベルのアノテーション(分類など)の両方を活用してパフォーマンスをさらに向上することは自然である。 しかし、計算病理学では、スライド画像全体の高解像度化によって分類モデルのエンドツーエンドの訓練が不可能になるため、そのような弱さや混在した監視学習は依然として難しい課題である。 別のアプローチとして、パッチベースのモデルトレーニング、すなわち、自己教師付き学習を用いてパッチのピクセルレベルの擬似ラベルを生成することで、そのようなデータを解析する方法がある。 しかしながら、そのような手法は通常、自己学習過程中にノイズが蓄積されるため、収束しにくいモデルドリフト問題を持つ。 これらの問題に対処するために,高解像度画像のための混合監視学習フレームワークを提案し,それらの様々なラベル(画像レベルの粗いアノテーションや画素レベルの微細なラベルなど)を効果的に活用する。 パッチトレーニングの段階で、このフレームワークは粗いイメージレベルラベルを使用して、自己教師付き学習を洗練し、高品質のピクセルレベル擬似ラベルを生成することができる。 ピクセルレベルの偽陽性と偽陰性を抑制するための包括的戦略が提案されている。 大量の画像(スライド画像1万枚以上)を持つ実世界の3つのデータセットと、様々な種類のラベルを用いて、混合監視学習の有効性を評価する。 画像レベルの分類作業において,100%の感度を維持しながら,術式と比較して偽陽性率を約3分の1削減した。

Weak supervision learning on classification labels has demonstrated high performance in various tasks. When a few pixel-level fine annotations are also affordable, it is natural to leverage both of the pixel-level (e.g., segmentation) and image level (e.g., classification) annotation to further improve the performance. In computational pathology, however, such weak or mixed supervision learning is still a challenging task, since the high resolution of whole slide images makes it unattainable to perform end-to-end training of classification models. An alternative approach is to analyze such data by patch-base model training, i.e., using self-supervised learning to generate pixel-level pseudo labels for patches. However, such methods usually have model drifting issues, i.e., hard to converge, because the noise accumulates during the self-training process. To handle those problems, we propose a mixed supervision learning framework for super high-resolution images to effectively utilize their various labels (e.g., sufficient image-level coarse annotations and a few pixel-level fine labels). During the patch training stage, this framework can make use of coarse image-level labels to refine self-supervised learning and generate high-quality pixel-level pseudo labels. A comprehensive strategy is proposed to suppress pixel-level false positives and false negatives. Three real-world datasets with very large number of images (i.e., more than 10,000 whole slide images) and various types of labels are used to evaluate the effectiveness of mixed supervision learning. We reduced the false positive rate by around one third compared to state of the art while retaining 100% sensitivity, in the task of image-level classification.
翻訳日:2021-07-06 11:46:10 公開日:2021-07-05
# (参考訳) AIタスクのための倫理シート [全文訳有]

Ethics Sheets for AI Tasks ( http://arxiv.org/abs/2107.01183v2 )

ライセンス: CC BY 4.0
Saif M. Mohammad(参考訳) バイアスド・リシディズム・システムの使用や、脆弱なサブ人口に対する感情認識システムの大量テストなど、いくつかの顕著な出来事は、テクノロジーが既に疎外されている人々にとってより有害な結果をもたらすことを強調している。 本稿では,個別のモデルやデータセットのレベルだけでなく,AIタスクのレベルにおいても倫理的考察を考察する。 AIタスクのための倫理シート(Ethics Sheets for AI Tasks)という,タスクの一般的なフレーム化方法や,データやメソッド,評価に関する選択に隠された仮定と倫理的考察の具体化を目的とした,そのような取り組みの新たな形式を紹介します。 最後に、自動感情認識のための倫理表の例を挙げる。 データセット用のData SheetsとAIシステムのModel Cardsとともに、Ethics Sheetsは、責任あるAIシステムの開発とデプロイを支援する。

Several high-profile events, such as the use of biased recidivism systems and mass testing of emotion recognition systems on vulnerable sub-populations, have highlighted how technology will often lead to more adverse outcomes for those that are already marginalized. In this paper, I will make a case for thinking about ethical considerations not just at the level of individual models and datasets, but also at the level of AI tasks. I will present a new form of such an effort, Ethics Sheets for AI Tasks, dedicated to fleshing out the assumptions and ethical considerations hidden in how a task is commonly framed and in the choices we make regarding the data, method, and evaluation. Finally, I will provide an example ethics sheet for automatic emotion recognition. Together with Data Sheets for datasets and Model Cards for AI systems, Ethics Sheets aid in the development and deployment of responsible AI systems.
翻訳日:2021-07-06 11:21:48 公開日:2021-07-05
# (参考訳) コントラスト学習はいかに不完全か 自己教師付きビデオ認識のためのイントラ可変デュアル表現法 [全文訳有]

How Incomplete is Contrastive Learning? An Inter-intra Variant Dual Representation Method for Self-supervised Video Recognition ( http://arxiv.org/abs/2107.01194v2 )

ライセンス: CC BY 4.0
Lin Zhang, Qi She, Zhengyang Shen, Changhu Wang(参考訳) 自己指導型表現学習に適用されるコントラスト学習は、深層モデルで復活している。 本稿では,自己教師付きビデオ認識のための既存のコントラスト学習ベースのソリューションが,同一ビデオ内のクリップ内分散を無視しながら,分散符号化に重点を置いていることを見出した。 そこで本研究では,各クリップの2つの表現を学習し,シャッフルランクのプリテキストタスクでイントラ分散を符号化し,時間的コヒーレントなコントラスト損失で相互分散を符号化する手法を提案する。 実験の結果,本手法は相互および内部分散のバランスをとる上で重要な役割を担っており,複数のバックボーンとコントラスト学習フレームワーク上で一貫したパフォーマンス向上をもたらす。 SimCLR と統合して Kinetics-400 で事前訓練を行い,UCF101 と HMDB51 のテストセットの下流分類精度 $\textbf{82.0\%} と $\textbf{51.2\%} と $\textbf{46.1\%} と UCF101 の動画検索精度 $\textbf{46.1\%} をそれぞれ達成した。

Contrastive learning applied to self-supervised representation learning has seen a resurgence in deep models. In this paper, we find that existing contrastive learning based solutions for self-supervised video recognition focus on inter-variance encoding but ignore the intra-variance existing in clips within the same video. We thus propose to learn dual representations for each clip which (\romannumeral 1) encode intra-variance through a shuffle-rank pretext task; (\romannumeral 2) encode inter-variance through a temporal coherent contrastive loss. Experiment results show that our method plays an essential role in balancing inter and intra variances and brings consistent performance gains on multiple backbones and contrastive learning frameworks. Integrated with SimCLR and pretrained on Kinetics-400, our method achieves $\textbf{82.0\%}$ and $\textbf{51.2\%}$ downstream classification accuracy on UCF101 and HMDB51 test sets respectively and $\textbf{46.1\%}$ video retrieval accuracy on UCF101, outperforming both pretext-task based and contrastive learning based counterparts.
翻訳日:2021-07-06 11:08:42 公開日:2021-07-05
# 変圧器を用いたクロスビュージオローカライズ

Cross-view Geo-localization with Evolving Transformer ( http://arxiv.org/abs/2107.00842v2 )

ライセンス: Link先を確認
Hongji Yang, Xiufan Lu and Yingying Zhu(参考訳) 本研究では,道路画像の地理空間的位置をジオタグ付き空中画像のデータベースとマッチングすることにより推定する,クロスビューなジオローカライゼーションの問題に対処する。 クロスビューマッチングタスクは、視界の劇的な外観と幾何学的差異のため、非常に難しい。 そこで本稿では,cnnが主流である既存の手法とは異なり,グローバル依存をモデル化するためにトランスフォーマの自己着脱特性を利用する新しいジオローカライズトランス(egotr)を考案し,クロスビュージオローカライズにおける視覚的あいまいさを著しく低減する。 また,egotrが地上画像と空中画像の幾何学的配置を理解し対応するために,トランスフォーマーの位置符号化を利用する。 幾何学的知識に強い仮定を課す最先端の手法と比較して、egotrはトレーニング目的を通じて柔軟に位置埋め込みを学び、従って多くの実世界のシナリオにおいてより実用的になる。 トランスフォーマーはタスクに適していますが、そのバニラセルフアテンションメカニズムは各レイヤ内のイメージパッチ内で独立して相互作用し、レイヤ間の相関を見落としています。 本稿では,学習表現の品質を向上させるための,単純かつ効果的な自己交叉注意機構を提案する。 セルフクロスアテンション(self-cross attention)は、隣接するレイヤ間のグローバルな依存関係をモデル化する。 その結果、提案した自己横断的注意はより安定したトレーニングをもたらし、一般化能力を改善し、ネットワークが深まるにつれて表現が進化し続けるように促す。 広汎な実験により,我々のEgoTRは,標準的な,きめ細かな,また,クロスデータセットなジオローカライゼーションタスクにおいて,最先端の手法に対して良好に機能することを示した。

In this work, we address the problem of cross-view geo-localization, which estimates the geospatial location of a street view image by matching it with a database of geo-tagged aerial images. The cross-view matching task is extremely challenging due to drastic appearance and geometry differences across views. Unlike existing methods that predominantly fall back on CNN, here we devise a novel evolving geo-localization Transformer (EgoTR) that utilizes the properties of self-attention in Transformer to model global dependencies, thus significantly decreasing visual ambiguities in cross-view geo-localization. We also exploit the positional encoding of Transformer to help the EgoTR understand and correspond geometric configurations between ground and aerial images. Compared to state-of-the-art methods that impose strong assumption on geometry knowledge, the EgoTR flexibly learns the positional embeddings through the training objective and hence becomes more practical in many real-world scenarios. Although Transformer is well suited to our task, its vanilla self-attention mechanism independently interacts within image patches in each layer, which overlooks correlations between layers. Instead, this paper propose a simple yet effective self-cross attention mechanism to improve the quality of learned representations. The self-cross attention models global dependencies between adjacent layers, which relates between image patches while modeling how features evolve in the previous layer. As a result, the proposed self-cross attention leads to more stable training, improves the generalization ability and encourages representations to keep evolving as the network goes deeper. Extensive experiments demonstrate that our EgoTR performs favorably against state-of-the-art methods on standard, fine-grained and cross-dataset cross-view geo-localization tasks.
翻訳日:2021-07-06 10:47:55 公開日:2021-07-05
# 異種情報集約によるオンライン地下鉄原点推定予測

Online Metro Origin-Destination Prediction via Heterogeneous Information Aggregation ( http://arxiv.org/abs/2107.00946v2 )

ライセンス: Link先を確認
Lingbo Liu, Yuying Zhu, Guanbin Li, Ziyi Wu, Lei Bai, Mingzhi Mao, Liang Lin(参考訳) 地下鉄の起点決定予測は知的交通管理にとって極めて重要な課題であり、これは2種類のクロスステーション乗務員、すなわちオリジン・デスティネーション(OD)1とデスティネーション・オリジン(DO)1を正確に予測することを目的としている。 しかし、オンラインメトロシステムでは、過去の時間間隔の完全なOD行列がすぐには得られず、従来の手法では、将来のODとDOのライダーシップを別々に予測するために限られた情報のみを使用していた。 本研究では, 歴史的データの異種情報(不完全OD行列, 不完全順序ベクトル, DO行列など)を完全に活用し, ODおよびDOライダーの進化パターンを共同で学習する, Heterogeneous Information Aggregation Machine (HIAM) と呼ばれるニューラルネットワークモジュールを提案する。 具体的には、ODモデリングブランチが未完成注文の潜在的目的地を明示的に推定し、不完全なOD行列の情報を補完する一方、DOモデリングブランチはDO行列を入力として、DOライダーシップの時空間分布をキャプチャする。 さらに、OD-DO因果関係と相関関係をモデル化するためのOD特徴とDO特徴の相互情報を伝達するために、デュアル情報変換器を導入する。 提案したHIAMに基づいて,将来のODおよびDOライダーを同時に予測する統合Seq2Seqネットワークを開発した。 2つの大規模ベンチマークで行った大規模な実験は、オンライン地下鉄の起点決定予測における手法の有効性を示した。

Metro origin-destination prediction is a crucial yet challenging task for intelligent transportation management, which aims to accurately forecast two specific types of cross-station ridership, i.e., Origin-Destination (OD) one and Destination-Origin (DO) one. However, complete OD matrices of previous time intervals can not be obtained immediately in online metro systems, and conventional methods only used limited information to forecast the future OD and DO ridership separately. In this work, we proposed a novel neural network module termed Heterogeneous Information Aggregation Machine (HIAM), which fully exploits heterogeneous information of historical data (e.g., incomplete OD matrices, unfinished order vectors, and DO matrices) to jointly learn the evolutionary patterns of OD and DO ridership. Specifically, an OD modeling branch estimates the potential destinations of unfinished orders explicitly to complement the information of incomplete OD matrices, while a DO modeling branch takes DO matrices as input to capture the spatial-temporal distribution of DO ridership. Moreover, a Dual Information Transformer is introduced to propagate the mutual information among OD features and DO features for modeling the OD-DO causality and correlation. Based on the proposed HIAM, we develop a unified Seq2Seq network to forecast the future OD and DO ridership simultaneously. Extensive experiments conducted on two large-scale benchmarks demonstrate the effectiveness of our method for online metro origin-destination prediction.
翻訳日:2021-07-06 10:47:21 公開日:2021-07-05