このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210719となっている論文です。

PDF登録状況(公開日: 20210719)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 医学・薬物発見におけるインテリジェントシステム構築のための機械学習とディープラーニング手法:包括的調査 [全文訳有]

Machine Learning and Deep Learning Methods for Building Intelligent Systems in Medicine and Drug Discovery: A Comprehensive Survey ( http://arxiv.org/abs/2107.14037v1 )

ライセンス: CC BY-SA 4.0
G Jignesh Chowdary, Suganya G, Premalatha M, Asnath Victy Phamila Y, Karunamurthy K(参考訳) コンピュータ技術の進歩により、データの複雑な関係を理解して予測や分類を行うインテリジェントシステムが急速に開発されている。 Artificail Intelligenceベースのフレームワークは、医療業界に急速に革命をもたらしている。 これらのインテリジェントシステムは、疾患の早期診断のための機械学習とディープラーニングに基づく堅牢なモデルで構築されており、最前線の臨床医師や外科医にとって有望な補助的診断方法を示している。 機械学習とディープラーニングベースのシステムは、臨床および画像に基づくデータから疾患の診断に必要なステップを合理化し、単純化することができる。 人間の認知を模倣し、人間の知能と診断できない病気を診断する能力もある。 本稿では, 歯科医学, 血液学, 放射線学, オンコロジー, 一般医学, 精神医学, 内分泌学, 神経学, 皮膚学, 肝学, 腎学, 眼科, 薬物発見など16分野の専門分野における機械学習と深層学習の応用について検討する。 本稿では,これらのシステムを用いた医療実践の進展と,医療従事者への影響について考察する。

With the advancements in computer technology, there is a rapid development of intelligent systems to understand the complex relationships in data to make predictions and classifications. Artificail Intelligence based framework is rapidly revolutionizing the healthcare industry. These intelligent systems are built with machine learning and deep learning based robust models for early diagnosis of diseases and demonstrates a promising supplementary diagnostic method for frontline clinical doctors and surgeons. Machine Learning and Deep Learning based systems can streamline and simplify the steps involved in diagnosis of diseases from clinical and image-based data, thus providing significant clinician support and workflow optimization. They mimic human cognition and are even capable of diagnosing diseases that cannot be diagnosed with human intelligence. This paper focuses on the survey of machine learning and deep learning applications in across 16 medical specialties, namely Dental medicine, Haematology, Surgery, Cardiology, Pulmonology, Orthopedics, Radiology, Oncology, General medicine, Psychiatry, Endocrinology, Neurology, Dermatology, Hepatology, Nephrology, Ophthalmology, and Drug discovery. In this paper along with the survey, we discuss the advancements of medical practices with these systems and also the impact of these systems on medical professionals.
翻訳日:2021-08-01 13:00:49 公開日:2021-07-19
# UAV中継IoTネットワークにおけるAoI最小化スケジューリング

AoI-minimizing Scheduling in UAV-relayed IoT Networks ( http://arxiv.org/abs/2107.05181v3 )

ライセンス: Link先を確認
Biplav Choudhury, Vijay K. Shah, Aidin Ferdowsi, Jeffrey H. Reed, and Y. Thomas Hou(参考訳) 柔軟性、自律性、低運用コストのため、固定された航空基地局としての無人航空機(uav)は、iotデバイスから時間に敏感な情報(つまりステータス更新)を収集し、その情報を処理される近くの地上基地局(tbs)に届けるために、 \textit{relays} としてますます使われている。 TBS(全IoTデバイスからの情報)へのタイムリーな配信を保証するため、2つのホップUAVリレーIoTネットワーク(すなわち、IoTデバイスからUAV[ホップ1]、UAVからTBS[ホップ2])上でのタイムセンシティブな情報の最適なスケジューリングが重要な課題となっている。 そこで本稿では,2本足のUAV中継IoTネットワークにおいて,情報時代(AoI)最小化のためのスケジューリングポリシを提案する。 この目的のために、UAV(ホップ1)におけるIoTデバイスのサンプリングにMaximum AoI First(MAF)ポリシー、UAVからTBS(ホップ2)へのサンプリングパケットの更新にMaximum AoI difference(MAD)ポリシーを用いる低複雑さMAF-MADスケジューラを提案する。 我々は,MAF-MADが理想的な条件下での最適なスケジューラであることを示す。 一方、現実的な条件下では、Deep-Q-Networks(DQN) ベースのスケジューラを提案する。 シミュレーションの結果、DQNベースのスケジューラはMAF-MADスケジューラと他の3つのベースラインスケジューラ、すなわち最大AoI First(MAF)、ラウンドロビン(RR)、ランダム(Random)より優れており、ネットワークが小さい場合(IoTデバイスの10台)に両ホップで使用されることがわかった。 しかし、maf-madが他のすべてのスケジューラよりも大きなネットワークのシナリオで優れているのに対して、ネットワークサイズではうまくスケールしない。

Due to flexibility, autonomy and low operational cost, unmanned aerial vehicles (UAVs), as fixed aerial base stations, are increasingly being used as \textit{relays} to collect time-sensitive information (i.e., status updates) from IoT devices and deliver it to the nearby terrestrial base station (TBS), where the information gets processed. In order to ensure timely delivery of information to the TBS (from all IoT devices), optimal scheduling of time-sensitive information over two hop UAV-relayed IoT networks (i.e., IoT device to the UAV [hop 1], and UAV to the TBS [hop 2]) becomes a critical challenge. To address this, we propose scheduling policies for Age of Information (AoI) minimization in such two-hop UAV-relayed IoT networks. To this end, we present a low-complexity MAF-MAD scheduler, that employs Maximum AoI First (MAF) policy for sampling of IoT devices at UAV (hop 1) and Maximum AoI Difference (MAD) policy for updating sampled packets from UAV to the TBS (hop 2). We show that MAF-MAD is the optimal scheduler under ideal conditions, i.e., error-free channels and generate-at-will traffic generation at IoT devices. On the contrary, for realistic conditions, we propose a Deep-Q-Networks (DQN) based scheduler. Our simulation results show that DQN-based scheduler outperforms MAF-MAD scheduler and three other baseline schedulers, i.e., Maximal AoI First (MAF), Round Robin (RR) and Random, employed at both hops under general conditions when the network is small (with 10's of IoT devices). However, it does not scale well with network size whereas MAF-MAD outperforms all other schedulers under all considered scenarios for larger networks.
翻訳日:2021-08-01 11:02:30 公開日:2021-07-19
# (参考訳) Coqui STTフレームワークを用いたカザフ語音声認識のためのベースラインモデル [全文訳有]

A baseline model for computationally inexpensive speech recognition for Kazakh using the Coqui STT framework ( http://arxiv.org/abs/2107.10637v1 )

ライセンス: CC BY-SA 4.0
Ilnar Salimzianov(参考訳) モバイルデバイスは、人々がコンピュータと対話する方法を変えつつある。 最近発表された自動音声認識システムは非常に正確であるが、推論には強力な機械(特にグラフィカル処理ユニット)が必要であるため、特にストリーミングモードにおいて、商品デバイス上では実行できない。 また,GPUを使用しない場合のカザフ語ASRモデル (Khassanov et al.,2021) の推測時間に満足せず,新しいベースライン音響モデル(前述の論文と同じデータセット)と,Coqui STTフレームワークで使用する3つの言語モデルを訓練した。 結果は有望に見えるが、トレーニングとパラメータスイーピングのさらなるエポック、あるいはASRシステムがサポートしなければならない語彙を制限することは、生産レベルの精度に到達するために必要である。

Mobile devices are transforming the way people interact with computers, and speech interfaces to applications are ever more important. Automatic Speech Recognition systems recently published are very accurate, but often require powerful machinery (specialised Graphical Processing Units) for inference, which makes them impractical to run on commodity devices, especially in streaming mode. Impressed by the accuracy of, but dissatisfied with the inference times of the baseline Kazakh ASR model of (Khassanov et al.,2021) when not using a GPU, we trained a new baseline acoustic model (on the same dataset as the aforementioned paper) and three language models for use with the Coqui STT framework. Results look promising, but further epochs of training and parameter sweeping or, alternatively, limiting the vocabulary that the ASR system must support, is needed to reach a production-level accuracy.
翻訳日:2021-07-24 01:26:42 公開日:2021-07-19
# 変分オートエンコーダを用いたロバストトポロジー最適化

Robust Topology Optimization Using Variational Autoencoders ( http://arxiv.org/abs/2107.10661v1 )

ライセンス: Link先を確認
Rini Jasmine Gladstone, Mohammad Amin Nabian, Vahid Keshavarzzadeh, Hadi Meidani(参考訳) トポロジー最適化(英: topology optimization)は、コスト関数を最小化することで設計領域内の材料の最適な配置を見つけるプロセスである。 ロバスト位相最適化(RTO)もまた入力不確実性の効果を取り入れ、入力不確実性に対する応答感度を低減しつつ、その構造の平均性能を最も高くした設計を生成する。 有限要素とモンテカルロサンプリングを用いてRTOを実行するのは計算コストが高い。 本研究では,ニューラルネットワークサロゲートを用いて,サロゲートに基づく最適化による高速な解法を実現するとともに,高次元設計空間を低次元に変換する変分オートエンコーダ(vae)を構築した。 さらに、有限要素ソルバはニューラルネットワークサロゲートに置き換えられる。 また、設計探索をさらに促進するために、入力の不確かさの異なる実現の下で決定論的トポロジー最適化問題に対する解決策となる設計からなる部分空間に探索を限定する。 これらのニューラルネットワーク近似により、低次元設計部分空間上の予測対象関数を最小化する勾配に基づく最適化手法が形成される。 本研究では,2つのコンプライアンス最小化問題に対する提案手法の有効性を実証し,vaeが最小限のトレーニングデータから設計の特徴を学習し,設計空間を低次元の潜在空間に変換することで計算効率が向上することを示す。 結果として得られる勾配に基づく最適化アルゴリズムは、トレーニングセットで見られるものよりもロバストなコンプライアンスが低い最適設計を生成する。

Topology Optimization is the process of finding the optimal arrangement of materials within a design domain by minimizing a cost function, subject to some performance constraints. Robust topology optimization (RTO) also incorporates the effect of input uncertainties and produces a design with the best average performance of the structure while reducing the response sensitivity to input uncertainties. It is computationally expensive to carry out RTO using finite element and Monte Carlo sampling. In this work, we use neural network surrogates to enable a faster solution approach via surrogate-based optimization and build a Variational Autoencoder (VAE) to transform the the high dimensional design space into a low dimensional one. Furthermore, finite element solvers will be replaced by a neural network surrogate. Also, to further facilitate the design exploration, we limit our search to a subspace, which consists of designs that are solutions to deterministic topology optimization problems under different realizations of input uncertainties. With these neural network approximations, a gradient-based optimization approach is formed to minimize the predicted objective function over the low dimensional design subspace. We demonstrate the effectiveness of the proposed approach on two compliance minimization problems and show that VAE performs well on learning the features of the design from minimal training data, and that converting the design space into a low dimensional latent space makes the problem computationally efficient. The resulting gradient-based optimization algorithm produces optimal designs with lower robust compliances than those observed in the training set.
翻訳日:2021-07-23 12:50:25 公開日:2021-07-19
# (参考訳) システムコンテキスト情報を用いた弱ラベル付きデータの補完 [全文訳有]

Using system context information to complement weakly labeled data ( http://arxiv.org/abs/2107.10236v1 )

ライセンス: CC BY 4.0
Matthias Meyer, Michaela Wenner, Cl\'ement Hibert, Fabian Walter, Lothar Thiele(参考訳) センサネットワークで収集された実世界のデータセットは、システム環境から生じるアーティファクトだけでなく、不完全で不確定なラベルを含むことが多い。 完全かつ信頼性の高いラベリングは、労力と時間のオーバーヘッド、専門家の可用性の制限、根拠の欠如といった理由から、大規模かつ長期的なセンサネットワークデプロイメントでは実現不可能であることが多い。 さらに、分析に使用される機械学習手法がデプロイメントの特定の機能に敏感な場合には、新しいデプロイメント毎にラベル付けと学習を繰り返す必要がある。 そこで本研究では,情報グラフに形式化されたシステムコンテキスト情報を用いて,コントラスト学習による学習プロセスに組み込む手法を提案する。 実世界のデータに基づいて,このアプローチは,弱ラベルデータの場合の精度が向上し,新たなセンサロケーションへの分類器の堅牢性と転送性が向上することを示す。

Real-world datasets collected with sensor networks often contain incomplete and uncertain labels as well as artefacts arising from the system environment. Complete and reliable labeling is often infeasible for large-scale and long-term sensor network deployments due to the labor and time overhead, limited availability of experts and missing ground truth. In addition, if the machine learning method used for analysis is sensitive to certain features of a deployment, labeling and learning needs to be repeated for every new deployment. To address these challenges, we propose to make use of system context information formalized in an information graph and embed it in the learning process via contrastive learning. Based on real-world data we show that this approach leads to an increased accuracy in case of weakly labeled data and leads to an increased robustness and transferability of the classifier to new sensor locations.
翻訳日:2021-07-23 01:15:14 公開日:2021-07-19
# (参考訳) 報酬駆動アプローチに基づくブロックチェーン上のスマートコントラクトを用いた連合学習 [全文訳有]

Federated Learning using Smart Contracts on Blockchains, based on Reward Driven Approach ( http://arxiv.org/abs/2107.10243v1 )

ライセンス: CC BY 4.0
Monik Raj Behera, Sudhir Upadhyay and Suresh Shetty(参考訳) 近年、フェデレートされた機械学習は、データプロバイダのプライバシを保護しながら、データから洞察を引き出す必要があるという関心と勢いを増し続けている。 しかしながら、連合学習の採用における既存の課題の1つは、連合学習貢献者に報酬を与えるための公平で透明で普遍的に合意されたインセンティブ化スキームが欠如していることである。 ブロックチェーンネットワーク上のスマートコントラクトは、ネットワークのすべての参加者が透過的、不変、独立して検証可能な証明を提供する。 ブロックチェーン上でのスマートコントラクトのオープンで透過的な性質を活用して,新たなスカラー量 – フェデレートされたコントリビューションに基づくコントリビュータのインセンティブルールを定義します。 このようなスマートコントラクトベースの報酬駆動モデルは、企業における連合学習導入に革命をもたらす可能性がある。 まず、スマートコントラクトベースのブロックチェーンが、連合学習にとって非常に自然な通信チャネルになることを示すことです。 第二に、このインフラを活用することで、各エージェントの貢献度を直感的に測定し、トレーニングと報酬プロセスのライフサイクルと統合できることを示すことができる。

Over the recent years, Federated machine learning continues to gain interest and momentum where there is a need to draw insights from data while preserving the data provider's privacy. However, one among other existing challenges in the adoption of federated learning has been the lack of fair, transparent and universally agreed incentivization schemes for rewarding the federated learning contributors. Smart contracts on a blockchain network provide transparent, immutable and independently verifiable proofs by all participants of the network. We leverage this open and transparent nature of smart contracts on a blockchain to define incentivization rules for the contributors, which is based on a novel scalar quantity - federated contribution. Such a smart contract based reward-driven model has the potential to revolutionize the federated learning adoption in enterprises. Our contribution is two-fold: first is to show how smart contract based blockchain can be a very natural communication channel for federated learning. Second, leveraging this infrastructure, we can show how an intuitive measure of each agents' contribution can be built and integrated with the life cycle of the training and reward process.
翻訳日:2021-07-23 01:07:16 公開日:2021-07-19
# (参考訳) 新型コロナウイルスの薬物療法の実世界エビデンス分析のための機械学習 [全文訳有]

Machine Learning for Real-World Evidence Analysis of COVID-19 Pharmacotherapy ( http://arxiv.org/abs/2107.10239v1 )

ライセンス: CC BY 4.0
Aurelia Bustos (1), Patricio Mas_Serrano (2 and 3), Mari L. Boquera (2), Jose M. Salinas (4) ((1) MedBravo, (2) Hospital General Universitario de Alicante Spain -HGUA, (3) Institute for Health and Biomedical Research of Alicante -ISABIAL, (4) Department of Health Informatics, Hospital Universitario San Juan de Alicante Spain)(参考訳) 紹介: 臨床実践から生成された実世界データを用いて、COVID-19薬理療法の実世界証拠(RWE)を分析し、ランダム化臨床試験(RCTs)の結果を検証することができる。 機械学習(ML)メソッドは、RWEで使われており、正確医療のための有望なツールである。 本研究では,スペインバレンシア州における新型コロナウイルスの入院に対する治療法の有効性を検討するためにML法を適用した。 方法】remdesivir,corticost eroids,tocilizumab,l opinavir-ritonavir,a zithromycin,chloroqu ine/hydroxychloroqui neの分離治療効果モデル(te-ml)のトレーニングと検証には,2020年1月から2021年1月までの入院期間がそれぞれ5244回と1312回であった。 te-mlモデルによって選択された集団における治療の生存利益をcox-proportional hazardモデルを用いて振り返り分析するために,追加2つの保健部門からの2390件の入院を独立したテストとして予約した。 TE-MLモデルでは, 治療適応度スコアを用いて, 結果関連変数の事前処理を制御し, 実用性についてさらに評価した。 MLアーキテクチャは、強化された決定ツリーに基づいている。 結果: TE-MLモデルで同定された個体群では, Remdesivir と Tocilizumab のみが生存時間の増加に大きく関連しており, それぞれ0.41 (P = 0.04) と0.21 (P = 0.001) であった。 クロロキン誘導体,ロピナビルリトナビルおよびアジスロマイシンの生存効果は示さなかった。 TE-MLモデルの予測を患者レベルで説明するためのツールは、パーソナライズされた意思決定と精密医療のための潜在的なツールとして検討されている。 結論: ML 法は COVID-19 薬剤療法の RWE 解析に適したツールである。 その結果, RWEの結果を再現し, RCTの結果を検証した。

Introduction: Real-world data generated from clinical practice can be used to analyze the real-world evidence (RWE) of COVID-19 pharmacotherapy and validate the results of randomized clinical trials (RCTs). Machine learning (ML) methods are being used in RWE and are promising tools for precision-medicine. In this study, ML methods are applied to study the efficacy of therapies on COVID-19 hospital admissions in the Valencian Region in Spain. Methods: 5244 and 1312 COVID-19 hospital admissions - dated between January 2020 and January 2021 from 10 health departments, were used respectively for training and validation of separate treatment-effect models (TE-ML) for remdesivir, corticosteroids, tocilizumab, lopinavir-ritonavir, azithromycin and chloroquine/hydroxyc hloroquine. 2390 admissions from 2 additional health departments were reserved as an independent test to analyze retrospectively the survival benefits of therapies in the population selected by the TE-ML models using cox-proportional hazard models. TE-ML models were adjusted using treatment propensity scores to control for pre-treatment confounding variables associated to outcome and further evaluated for futility. ML architecture was based on boosted decision-trees. Results: In the populations identified by the TE-ML models, only Remdesivir and Tocilizumab were significantly associated with an increase in survival time, with hazard ratios of 0.41 (P = 0.04) and 0.21 (P = 0.001), respectively. No survival benefits from chloroquine derivatives, lopinavir-ritonavir and azithromycin were demonstrated. Tools to explain the predictions of TE-ML models are explored at patient-level as potential tools for personalized decision making and precision medicine. Conclusion: ML methods are suitable tools toward RWE analysis of COVID-19 pharmacotherapies. Results obtained reproduce published results on RWE and validate the results from RCTs.
翻訳日:2021-07-23 00:51:36 公開日:2021-07-19
# (参考訳) 2020年の大統領選挙をtwitterで予測する [全文訳有]

Predicting the 2020 US Presidential Election with Twitter ( http://arxiv.org/abs/2107.09640v1 )

ライセンス: CC BY 4.0
Michael Caballero(参考訳) ソーシャルメディアデータによる世論調査において主要なサブドメインの一つが選挙予測である。 ソーシャルメディアデータを利用した選挙予測は、キャンペーン戦略に大きな影響を与える可能性があり、従来のポーリング手法を補完し、リアルタイムに安価なポーリングを提供する。 まず、Twitterデータを用いた2020年アメリカ合衆国大統領選挙の分析と予測に関する研究から、過去の成功方法を探る。 そこで本研究では,ツイートのテキスト上でのNLPからの感情と,集計ポーリング,時系列分析,および選挙に批判的なTwitterユーザに焦点を当てた,新たな選挙予測手法を提案する。 この方法は世論予測のベースラインよりは悪かったが、データの不足による選挙予測の正確な方法であるかどうかは決定的ではない。 この手法の全体的な効果を正確に測定するには、さらなる研究とデータが必要である。

One major sub-domain in the subject of polling public opinion with social media data is electoral prediction. Electoral prediction utilizing social media data potentially would significantly affect campaign strategies, complementing traditional polling methods and providing cheaper polling in real-time. First, this paper explores past successful methods from research for analysis and prediction of the 2020 US Presidential Election using Twitter data. Then, this research proposes a new method for electoral prediction which combines sentiment, from NLP on the text of tweets, and structural data with aggregate polling, a time series analysis, and a special focus on Twitter users critical to the election. Though this method performed worse than its baseline of polling predictions, it is inconclusive whether this is an accurate method for predicting elections due to scarcity of data. More research and more data are needed to accurately measure this method's overall effectiveness.
翻訳日:2021-07-22 02:43:50 公開日:2021-07-19
# (参考訳) LAPNet:磁気共鳴イメージングのためのk空間からの非剛性レジストレーション [全文訳有]

LAPNet: Non-rigid Registration derived in k-space for Magnetic Resonance Imaging ( http://arxiv.org/abs/2107.09060v1 )

ライセンス: CC BY 4.0
Thomas K\"ustner, Jiazhen Pan, Haikun Qi, Gastao Cruz, Christopher Gilliam, Thierry Blu, Bin Yang, Sergios Gatidis, Ren\'e Botnar, Claudia Prieto(参考訳) 磁気共鳴(MR)画像取得時の心臓や呼吸運動などの生理的動きは、画像アーティファクトを引き起こす可能性がある。 胸部スキャン中のこれらの動きを補正する動き補正手法が提案されているが、これはアンサンプされた動き分解再構成による正確な動き推定に依存する。 特に興味と課題は、アンダーサンプリングされた動き分解データから信頼できる非剛体運動場の導出にある。 運動推定は通常、拡散法、パラメトリックスプライン法、光フロー法によって画像空間で定式化される。 しかし、画像に基づく登録は、アンサンプリングされたモーションリゾリューションによるエイリアスアーティファクトの残すことにより、損なわれる可能性がある。 本研究では, サンプルフーリエ空間において, 非剛性登録を直接行う形式について述べる。 k空間。 アンダーサンプされたk空間データから高速かつ正確な非剛性登録を行うためのディープラーニングに基づく手法を提案する。 基本動作原理は、最近導入された光フローベース登録であるローカルオールパス(LAP)技術に由来する。 提案するlapnetは,肝・肺転移の疑いのある40例,健常者25例のコホートにおいて,従来型および深層学習型画像登録と比較し,完全サンプリング,高度に加速された3次元呼吸運動分解mr画像を用いて検討した。 提案するlapnetは,様々なサンプリングトラジェクタと加速度係数を通して,画像ベースアプローチに一貫性と優れた性能を提供する。

Physiological motion, such as cardiac and respiratory motion, during Magnetic Resonance (MR) image acquisition can cause image artifacts. Motion correction techniques have been proposed to compensate for these types of motion during thoracic scans, relying on accurate motion estimation from undersampled motion-resolved reconstruction. A particular interest and challenge lie in the derivation of reliable non-rigid motion fields from the undersampled motion-resolved data. Motion estimation is usually formulated in image space via diffusion, parametric-spline, or optical flow methods. However, image-based registration can be impaired by remaining aliasing artifacts due to the undersampled motion-resolved reconstruction. In this work, we describe a formalism to perform non-rigid registration directly in the sampled Fourier space, i.e. k-space. We propose a deep-learning based approach to perform fast and accurate non-rigid registration from the undersampled k-space data. The basic working principle originates from the Local All-Pass (LAP) technique, a recently introduced optical flow-based registration. The proposed LAPNet is compared against traditional and deep learning image-based registrations and tested on fully-sampled and highly-accelerated (with two undersampling strategies) 3D respiratory motion-resolved MR images in a cohort of 40 patients with suspected liver or lung metastases and 25 healthy subjects. The proposed LAPNet provided consistent and superior performance to image-based approaches throughout different sampling trajectories and acceleration factors.
翻訳日:2021-07-22 02:30:48 公開日:2021-07-19
# (参考訳) 小空間における学習表検索と静的指数:実験による方法論的・実践的考察 [全文訳有]

Learned Sorted Table Search and Static Indexes in Small Space: Methodological and Practical Insights via an Experimental Study ( http://arxiv.org/abs/2107.09480v1 )

ライセンス: CC BY 4.0
Domenico Amato and Raffaele Giancarlo and Giosu\`e Lo Bosco(参考訳) Sorted Table Search proceduresは、検索エンジン(Google Chrome)など、非常に有用なクエリー回答ツールである。 検索されるテーブルに関して、小さな追加スペースでそれらをスピードアップすることは、依然として非常に大きな成果です。 静的学習インデックスはこのようなスピードアップを達成するのに非常に成功していますが、大きな疑問が残っています。 学習指標に関する最近のベンチマーク研究の実験方法論を一般化することにより、2つのシナリオを考慮し、この問題に光を当てた。 第一は、非常に初歩的な、すなわち教科書のコードで、第二は高度な学習インデックスアルゴリズムと高度なソフトウェアプラットフォームを使用する。 どちらの場合も肯定的な答えを期待するが、その達成は見かけほど単純ではない。 実際、我々の広範な実験のセットは、クエリ時間とモデル空間の間の複雑な関係を明らかにする。 この関係に関する知見と、それに対応するメモリレベルの定量的推定は、アルゴリズム設計者や実践者にとっても興味深いものである。 私たちの研究の重要な部分として、独自の関心を持つ2つの新しいモデルを紹介します。 1つは定数空間モデルであり、$k$-ary searchの一般化と見なすことができ、もう1つはシントロピック {\bf RMI} であり、モデル空間の使用を制御できる。

Sorted Table Search Procedures are the quintessential query-answering tool, still very useful, e.g, Search Engines (Google Chrome). Speeding them up, in small additional space with respect to the table being searched into, is still a quite significant achievement. Static Learned Indexes have been very successful in achieving such a speed-up, but leave open a major question: To what extent one can enjoy the speed-up of Learned Indexes while using constant or nearly constant additional space. By generalizing the experimental methodology of a recent benchmarking study on Learned Indexes, we shed light on this question, by considering two scenarios. The first, quite elementary, i.e., textbook code, and the second using advanced Learned Indexing algorithms and the supporting sophisticated software platforms. Although in both cases one would expect a positive answer, its achievement is not as simple as it seems. Indeed, our extensive set of experiments reveal a complex relationship between query time and model space. The findings regarding this relationship and the corresponding quantitative estimates, across memory levels, can be of interest to algorithm designers and of use to practitioners as well. As an essential part of our research, we introduce two new models that are of interest in their own right. The first is a constant space model that can be seen as a generalization of $k$-ary search, while the second is a synoptic {\bf RMI}, in which we can control model space usage.
翻訳日:2021-07-22 02:00:34 公開日:2021-07-19
# (参考訳) 機械学習によるクエーサースペクトルからの密度パワースペクトルの再構成 [全文訳有]

Reconstruction of the Density Power Spectrum from Quasar Spectra using Machine Learning ( http://arxiv.org/abs/2107.09082v1 )

ライセンス: CC BY 4.0
Maria Han Veiga, Xi Meng, Oleg Y. Gnedin, Nickolay Y. Gnedin and Xun Huan(参考訳) 観測されたクエーサースペクトルから高赤方偏移の宇宙密度摂動のパワースペクトルを再構成するために機械学習を用いた新しいエンドツーエンドアプローチについて述べる。 構造形成の最先端の宇宙学シミュレーションを用いて、物質の総密度や中性水素の密度など、同じ視線に沿って1次元の流体量と対の1次元の吸光スペクトルの大規模な合成データセットを生成する。 このデータセットを用いて,物質密度のパワースペクトルを予測するデータ駆動モデルを構築した。 我々は、波長$k \leq 2 h Mpc^{-1}$に対して約1%の精度で再現できるモデルを作成することができるが、誤差はより大きい$k$で増大する。 特定の誤差率に達するのに必要なデータサンプルのサイズを示し、所望の精度に到達するのにどれだけのデータが必要なのかを知覚する。 この研究は、次世代の観測施設で非常に大きなデータセットを分析する方法を開発するための基盤を提供する。

We describe a novel end-to-end approach using Machine Learning to reconstruct the power spectrum of cosmological density perturbations at high redshift from observed quasar spectra. State-of-the-art cosmological simulations of structure formation are used to generate a large synthetic dataset of line-of-sight absorption spectra paired with 1-dimensional fluid quantities along the same line-of-sight, such as the total density of matter and the density of neutral atomic hydrogen. With this dataset, we build a series of data-driven models to predict the power spectrum of total matter density. We are able to produce models which yield reconstruction to accuracy of about 1% for wavelengths $k \leq 2 h Mpc^{-1}$, while the error increases at larger $k$. We show the size of data sample required to reach a particular error rate, giving a sense of how much data is necessary to reach a desired accuracy. This work provides a foundation for developing methods to analyse very large upcoming datasets with the next-generation observational facilities.
翻訳日:2021-07-22 01:41:03 公開日:2021-07-19
# (参考訳) 逆重回帰が世界最適に収束 [全文訳有]

Reward-Weighted Regression Converges to a Global Optimum ( http://arxiv.org/abs/2107.09088v1 )

ライセンス: CC BY 4.0
Miroslav \v{S}trupl, Francesco Faccio, Dylan R. Ashley, Rupesh Kumar Srivastava, J\"urgen Schmidhuber(参考訳) Reward-Weighted Regression (RWR)は、期待最大化フレームワークに基づく、広く知られている反復強化学習アルゴリズムのファミリーである。 このファミリーでは、各イテレーションでの学習は、現在のポリシーを使用して一連のトラジェクトリをサンプリングし、返却重み付けされたログライクなアクションを最大化する新しいポリシーを適合させる。 RWRは特定の状況下でポリシーの単調な改善をもたらすことが知られているが、RWRが最適政策に収束するか否かは未解決のままである。 本稿では,rwr が大域的最適値に収束することを示す証明を,関数近似を用いない場合に初めて提供する。

Reward-Weighted Regression (RWR) belongs to a family of widely known iterative Reinforcement Learning algorithms based on the Expectation-Maximiza tion framework. In this family, learning at each iteration consists of sampling a batch of trajectories using the current policy and fitting a new policy to maximize a return-weighted log-likelihood of actions. Although RWR is known to yield monotonic improvement of the policy under certain circumstances, whether and under which conditions RWR converges to the optimal policy have remained open questions. In this paper, we provide for the first time a proof that RWR converges to a global optimum when no function approximation is used.
翻訳日:2021-07-22 01:22:34 公開日:2021-07-19
# (参考訳) 衛星データのセンサ不変埋め込みの学習:湖氷モニタリングを事例として [全文訳有]

Learning a Sensor-invariant Embedding of Satellite Data: A Case Study for Lake Ice Monitoring ( http://arxiv.org/abs/2107.09092v1 )

ライセンス: CC BY 4.0
Manu Tom, Yuchang Jiang, Emmanuel Baltsavias, Konrad Schindler(参考訳) 異なるセンサーで取得した衛星画像の融合は、地球観測の長年の課題であり、特に光学および合成開口レーダ(SAR)画像のような様々なモダリティにまたがっている。 本稿では,表現学習の観点から,異なるセンサからの画像の統合分析について検討する:深層ニューラルネットワーク内で,センサ不変埋め込み(特徴表現)を学習することを提案する。 我々の応用課題はアルプス湖における氷のモニタリングである。 スイスの気候観測システム (GCOS) の時間分解要求を満たすため,Sentinel-1 SAR (S1-SAR)、Terra MODIS、Suomi-NPP VIIRSの3つの画像ソースを組み合わせた。 光とSARの領域とセンサーの解像度の間に大きなギャップがあるため、これはセンサー融合の問題の難しい例である。 我々のアプローチは、データ駆動方式で学習される特徴レベルの融合に分類される。 提案するネットワークアーキテクチャは、画像センサ毎に別々のエンコーディングブランチを持ち、単一の潜在埋め込みにフィードする。 すなわち、すべての入力で共有される共通の特徴表現であり、その後の処理ステップはどの入力画像が使われたかに関わらず、同等の出力を提供する。 衛星データを用いて湖氷の時間分解能は1.5日である。 このネットワークは、ピクセル単位の精度が91.3%(例:mIoUスコアが60.7%)で空間的に明らかな湖氷図を作成し、異なる湖や冬によく一般化している。 さらに、GCOS要件を満たす場合が多いため、目標湖の重要な氷点と氷点の日程を決定するための新たな最先端技術を設定している。

Fusing satellite imagery acquired with different sensors has been a long-standing challenge of Earth observation, particularly across different modalities such as optical and Synthetic Aperture Radar (SAR) images. Here, we explore the joint analysis of imagery from different sensors in the light of representation learning: we propose to learn a joint, sensor-invariant embedding (feature representation) within a deep neural network. Our application problem is the monitoring of lake ice on Alpine lakes. To reach the temporal resolution requirement of the Swiss Global Climate Observing System (GCOS) office, we combine three image sources: Sentinel-1 SAR (S1-SAR), Terra MODIS and Suomi-NPP VIIRS. The large gaps between the optical and SAR domains and between the sensor resolutions make this a challenging instance of the sensor fusion problem. Our approach can be classified as a feature-level fusion that is learnt in a data-driven manner. The proposed network architecture has separate encoding branches for each image sensor, which feed into a single latent embedding. I.e., a common feature representation shared by all inputs, such that subsequent processing steps deliver comparable output irrespective of which sort of input image was used. By fusing satellite data, we map lake ice at a temporal resolution of <1.5 days. The network produces spatially explicit lake ice maps with pixel-wise accuracies >91.3% (respectively, mIoU scores >60.7%) and generalises well across different lakes and winters. Moreover, it sets a new state-of-the-art for determining the important ice-on and ice-off dates for the target lakes, in many cases meeting the GCOS requirement.
翻訳日:2021-07-22 00:52:49 公開日:2021-07-19
# (参考訳) 深部畳み込みネットワークの高速化のためのクラスタリングに基づく新しい手法 [全文訳有]

A New Clustering-Based Technique for the Acceleration of Deep Convolutional Networks ( http://arxiv.org/abs/2107.09095v1 )

ライセンス: CC BY 4.0
Erion-Vasilis Pikoulis, Christos Mavrokefalidis, Aris S. Lalos(参考訳) ディープラーニング、特にDeep Neural Networks(DNN)の使用は、さまざまなレグレッションと分類タスクにおいて素晴らしい結果をもたらす。 しかし、これらの結果を達成するためには、リソースの計算と保存の需要が高い。 例えば、リアルタイムのモバイルアプリケーションを考えると、関連する(組み込まれた)デバイスにリソースが限られている場合、これは問題となる。 この問題に対処する一般的な方法は、モデル圧縮・加速(MCA)技術を利用して、元の大きな事前訓練ネットワークを新しい小さなモデルに変換することである。 MCAフレームワーク内では,従来の$k$-meansをベースとしたアプローチと比較して,採用したセントロイド/表現量を増やすことができるクラスタリングベースのアプローチを提案する。 これは、雇用された代表者に特別な構造を課すことで実現され、これは問題の特殊性によって実現される。 さらに、理論的な加速ゲインが提示され、そのゲインに影響を与えるキーシステムハイパーパラメータが同定される。 画像分類において訓練された様々な最先端DNNモデルを用いて大規模な評価を行い, MCAタスクに比較して提案手法の優位性を検証した。

Deep learning and especially the use of Deep Neural Networks (DNNs) provides impressive results in various regression and classification tasks. However, to achieve these results, there is a high demand for computing and storing resources. This becomes problematic when, for instance, real-time, mobile applications are considered, in which the involved (embedded) devices have limited resources. A common way of addressing this problem is to transform the original large pre-trained networks into new smaller models, by utilizing Model Compression and Acceleration (MCA) techniques. Within the MCA framework, we propose a clustering-based approach that is able to increase the number of employed centroids/representa tives, while at the same time, have an acceleration gain compared to conventional, $k$-means based approaches. This is achieved by imposing a special structure to the employed representatives, which is enabled by the particularities of the problem at hand. Moreover, the theoretical acceleration gains are presented and the key system hyper-parameters that affect that gain, are identified. Extensive evaluation studies carried out using various state-of-the-art DNN models trained in image classification, validate the superiority of the proposed method as compared for its use in MCA tasks.
翻訳日:2021-07-22 00:24:42 公開日:2021-07-19
# (参考訳) 自動車サイバー物理システムにおける効率的なシーン理解のためのディープニューラルネットワークの高速化 [全文訳有]

Accelerating deep neural networks for efficient scene understanding in automotive cyber-physical systems ( http://arxiv.org/abs/2107.09101v1 )

ライセンス: CC BY 4.0
Stavros Nousias, Erion-Vasilis Pikoulis, Christos Mavrokefalidis, Aris S. Lalos(参考訳) 自動車のサイバー物理システム(ACPS)は過去数十年でかなりの関心を集めているが、これらのシステムにおける最も重要な操作の1つは環境に対する認識である。 深層学習、特に深層ニューラルネットワーク(dnn)の使用は、視覚データから複雑でダイナミックなシーンを分析し、理解するための素晴らしい結果をもたらす。 これらの知覚システムの予測地平線は非常に短く、しばしば推論をリアルタイムに行う必要があり、モデル圧縮・加速(MCA)技術を利用して、元の大きな事前学習されたネットワークを新しい小さなモデルに変換する必要性を強調している。 本研究の目的は,新しい重み付け手法を適切に適用するためのベストプラクティスの検討,利用可能な変数の最適化と,広く採用されているdnnの大幅な加速に向けてのトレーニング手順を検討することである。 物体検出および追跡実験における様々な最先端dnnモデルを用いた広範囲な評価研究は、重み共有技術の適用後に現れるエラーの種類を詳細に示し、その結果、精度損失を無視できるような大きな加速向上をもたらす。

Automotive Cyber-Physical Systems (ACPS) have attracted a significant amount of interest in the past few decades, while one of the most critical operations in these systems is the perception of the environment. Deep learning and, especially, the use of Deep Neural Networks (DNNs) provides impressive results in analyzing and understanding complex and dynamic scenes from visual data. The prediction horizons for those perception systems are very short and inference must often be performed in real time, stressing the need of transforming the original large pre-trained networks into new smaller models, by utilizing Model Compression and Acceleration (MCA) techniques. Our goal in this work is to investigate best practices for appropriately applying novel weight sharing techniques, optimizing the available variables and the training procedures towards the significant acceleration of widely adopted DNNs. Extensive evaluation studies carried out using various state-of-the-art DNN models in object detection and tracking experiments, provide details about the type of errors that manifest after the application of weight sharing techniques, resulting in significant acceleration gains with negligible accuracy losses.
翻訳日:2021-07-22 00:08:55 公開日:2021-07-19
# (参考訳) OnlineSTL:100倍のスケーリング時系列分解 [全文訳有]

OnlineSTL: Scaling Time Series Decomposition by 100x ( http://arxiv.org/abs/2107.09110v1 )

ライセンス: CC BY 4.0
Abhinav Mishra, Ram Sriharsha, Sichen Zhong(参考訳) 複雑な時系列をトレンド、季節性、残り成分に分解することは、時系列異常検出、変化点検出、予測を容易にする重要なプリミティブである。 時系列分解では多数のバッチアルゴリズムが知られているが、高いスループットとリアルタイム応答が最重要となるオンラインスケーラブルな環境ではうまく動作しない。 本稿では,高分解能,高取り込み率データに基づくリアルタイムメトリクス監視のために,拡張性の問題を解決する,時系列分解のための新しいオンラインアルゴリズムであるOnlineSTLを提案する。 異なる合成および実時間時系列データセットの実験により、オンラインSTLは分解の質を維持しながら、桁違いのスピードアップを達成することを示した。

Decomposing a complex time series into trend, seasonality, and remainder components is an important primitive that facilitates time series anomaly detection, change point detection and forecasting. Although numerous batch algorithms are known for time series decomposition, none operate well in an online scalable setting where high throughput and real-time response are paramount. In this paper, we propose OnlineSTL, a novel online algorithm for time series decomposition which solves the scalability problem and is deployed for real-time metrics monitoring on high resolution, high ingest rate data. Experiments on different synthetic and real world time series datasets demonstrate that OnlineSTL achieves orders of magnitude speedups while maintaining quality of decomposition.
翻訳日:2021-07-21 23:56:11 公開日:2021-07-19
# (参考訳) MRIにおける心臓局在とセグメンテーションのための畳み込みモジュール [全文訳有]

Convolutional module for heart localization and segmentation in MRI ( http://arxiv.org/abs/2107.09134v1 )

ライセンス: CC BY-SA 4.0
Daniel Lima, Catharine Graves, Marco Gutierrez, Bruno Brandoli, Jose Rodrigues-Jr(参考訳) 磁気共鳴イメージング(mri)は、心臓機能の評価に用いられる広く知られた医用イメージング技術である。 ディープラーニング(DL)モデルは、心臓MRI(CMR)画像において、セグメンテーション、推定、疾患の検出など、優れた効果でいくつかのタスクを実行する。 畳み込みニューラルネットワーク(CNN)に基づく多くのDLモデルは、自動的にまたは手動で関心領域(ROI)を検出することで改善された。 本稿では,4次元mriシーケンスの心臓運動を検出するモジュールであるvisual-motion-focus( vmf)について述べるとともに,放射基底関数(rbf)を推定運動野に焦点を合わせることでroisを強調する。 3つのcmrデータセット上でvmfを実験および評価し,提案するroisがデータラベルの99.7%(リコールスコア)をカバーし,roi抽出後のcnnセグメンテーション(平均サイススコア)を1.7(p < .001)改善し,総合トレーニング速度を2.5倍(+150%)向上させた。

Magnetic resonance imaging (MRI) is a widely known medical imaging technique used to assess the heart function. Deep learning (DL) models perform several tasks in cardiac MRI (CMR) images with good efficacy, such as segmentation, estimation, and detection of diseases. Many DL models based on convolutional neural networks (CNN) were improved by detecting regions-of-interest (ROI) either automatically or by hand. In this paper we describe Visual-Motion-Focus (VMF), a module that detects the heart motion in the 4D MRI sequence, and highlights ROIs by focusing a Radial Basis Function (RBF) on the estimated motion field. We experimented and evaluated VMF on three CMR datasets, observing that the proposed ROIs cover 99.7% of data labels (Recall score), improved the CNN segmentation (mean Dice score) by 1.7 (p < .001) after the ROI extraction, and improved the overall training speed by 2.5 times (+150%).
翻訳日:2021-07-21 23:41:57 公開日:2021-07-19
# (参考訳) 変圧器を用いた逐次ピアノ転写 [全文訳有]

Sequence-to-Sequence Piano Transcription with Transformers ( http://arxiv.org/abs/2107.09142v1 )

ライセンス: CC BY 4.0
Curtis Hawthorne, Ian Simon, Rigel Swavely, Ethan Manilow, Jesse Engel(参考訳) 大規模なデータセットでカスタムディープニューラルネットワークをトレーニングすることで、近年、音楽の自動書き起こしは大きな進歩を遂げている。 しかし、これらのモデルは、ネットワークアーキテクチャ、入出力表現、複雑な復号方式の広範なドメイン固有設計を必要とする。 本研究では,標準復号法を用いた汎用エンコーダ・デコーダ変換器を用いて等価な性能を実現することを示す。 本モデルでは,複数の転写タスクに対して,スペクトル入力を直接MIDIライクな出力イベントに変換できることを実証する。 このシーケンスからシーケンスへのアプローチは、オーディオ機能と言語ライクな出力依存性を共同でモデル化することで、書き起こしを単純化し、タスク固有のアーキテクチャの必要性をなくす。 これらの結果は、カスタムモデル設計よりもデータセットの作成とラベリングに注目して、新しい音楽情報検索モデルを作成する可能性を示している。

Automatic Music Transcription has seen significant progress in recent years by training custom deep neural networks on large datasets. However, these models have required extensive domain-specific design of network architectures, input/output representations, and complex decoding schemes. In this work, we show that equivalent performance can be achieved using a generic encoder-decoder Transformer with standard decoding methods. We demonstrate that the model can learn to translate spectrogram inputs directly to MIDI-like output events for several transcription tasks. This sequence-to-sequence approach simplifies transcription by jointly modeling audio features and language-like output dependencies, thus removing the need for task-specific architectures. These results point toward possibilities for creating new Music Information Retrieval models by focusing on dataset creation and labeling rather than custom model design.
翻訳日:2021-07-21 23:12:48 公開日:2021-07-19
# (参考訳) DeepSocNav: 人間の行動を模倣するソーシャルナビゲーション [全文訳有]

DeepSocNav: Social Navigation by Imitating Human Behaviors ( http://arxiv.org/abs/2107.09170v1 )

ライセンス: CC BY 4.0
Juan Pablo de Vicente, Alvaro Soto(参考訳) 社会行動を訓練する現在のデータセットは、通常、鳥の目から見た視覚データをキャプチャする監視アプリケーションから借用される。 このことは、シーンの1対1の視点で捉えられる貴重な関係や視覚的な手がかりを残している。 本研究では,既存の鳥眼ビューデータセットを1対1の視点,特に深度ビューに変換するために,Unityなどの現在のゲームエンジンのパワーを活用する戦略を提案する。 この戦略を用いることで、ソーシャルナビゲーションモデルの事前学習に使用できる大量の合成データを生成することができる。 提案する手法を利用して合成データを生成する深層学習モデルであるDeepSocNavを提案する。 さらに、deepsocnavは補助タスクとして含まれる自己監督戦略を含んでいる。 これはエージェントが直面する次の深度フレームを予測することから成り立っている。 本実験は,ソーシャルナビゲーションスコアの点において,関連するベースラインを上回り得るモデルの有効性を示す。

Current datasets to train social behaviors are usually borrowed from surveillance applications that capture visual data from a bird's-eye perspective. This leaves aside precious relationships and visual cues that could be captured through a first-person view of a scene. In this work, we propose a strategy to exploit the power of current game engines, such as Unity, to transform pre-existing bird's-eye view datasets into a first-person view, in particular, a depth view. Using this strategy, we are able to generate large volumes of synthetic data that can be used to pre-train a social navigation model. To test our ideas, we present DeepSocNav, a deep learning based model that takes advantage of the proposed approach to generate synthetic data. Furthermore, DeepSocNav includes a self-supervised strategy that is included as an auxiliary task. This consists of predicting the next depth frame that the agent will face. Our experiments show the benefits of the proposed model that is able to outperform relevant baselines in terms of social navigation scores.
翻訳日:2021-07-21 22:58:04 公開日:2021-07-19
# 新しい視覚的質問応答のためのスキルと概念の分離

Separating Skills and Concepts for Novel Visual Question Answering ( http://arxiv.org/abs/2107.09106v1 )

ライセンス: Link先を確認
Spencer Whitehead, Hui Wu, Heng Ji, Rogerio Feris, Kate Saenko(参考訳) 分散データへの一般化は、視覚質問応答(vqa)モデルにとって問題となっている。 新たな質問への一般化を測るために,これらを「スキル」と「概念」に分けることを提案する。 スキル」はカウントや属性認識といった視覚的なタスクであり、オブジェクトや人といった質問で言及される「概念」に適用される。 vqaメソッドは、トレーニング中に特定の構成が見られたかどうかに関わらず、新しい方法でスキルや概念を構成できるべきであるが、既存のモデルが新しい構成を扱う上で改善の余地があることを実証する。 基礎概念表現を学習し,概念とスキルのエンコーディングを区別することで,これらの2つの要素をモデル内で暗黙的に分離する,新しいスキルや概念を学習する手法を提案する。 外部アノテーションに依存しず,ラベル付き画像検索ペアから学習可能な,新しいコントラスト学習手順でこれらの特性を強制する。 実験により, コンポジションおよび接地性能向上のためのアプローチの有効性を実証した。

Generalization to out-of-distribution data has been a problem for Visual Question Answering (VQA) models. To measure generalization to novel questions, we propose to separate them into "skills" and "concepts". "Skills" are visual tasks, such as counting or attribute recognition, and are applied to "concepts" mentioned in the question, such as objects and people. VQA methods should be able to compose skills and concepts in novel ways, regardless of whether the specific composition has been seen in training, yet we demonstrate that existing models have much to improve upon towards handling new compositions. We present a novel method for learning to compose skills and concepts that separates these two factors implicitly within a model by learning grounded concept representations and disentangling the encoding of skills from that of concepts. We enforce these properties with a novel contrastive learning procedure that does not rely on external annotations and can be learned from unlabeled image-question pairs. Experiments demonstrate the effectiveness of our approach for improving compositional and grounding performance.
翻訳日:2021-07-21 15:12:38 公開日:2021-07-19
# 句読点復元のためのトークンレベルの教師付きコントラスト学習

Token-Level Supervised Contrastive Learning for Punctuation Restoration ( http://arxiv.org/abs/2107.09099v1 )

ライセンス: Link先を確認
Qiushi Huang, Tom Ko, H Lilian Tang, Xubo Liu, Bo Wu(参考訳) 句読は自然言語のテキストを理解する上で重要である。 現在、ほとんどの自動音声認識(ASR)システムは、インテント検出やスロットフィリングといった下流タスクのパフォーマンスに影響を与える句読点を生成していない。 これにより、句読点回復の必要性が生じる。 句読点回復における最近の研究は、句読点予測時のデータ不均衡を考慮せずに、事前訓練された言語モデルを大いに活用している。 本研究では,埋め込み空間における異なる句読点の表現距離を最大化することを目的としたトークンレベルの教師付きコントラスト学習手法を提案する。 その結果、トークンレベルの教師付きコントラスト学習によるトレーニングは、テストセット上で最大3.2%の絶対F1改善が得られることがわかった。

Punctuation is critical in understanding natural language text. Currently, most automatic speech recognition (ASR) systems do not generate punctuation, which affects the performance of downstream tasks, such as intent detection and slot filling. This gives rise to the need for punctuation restoration. Recent work in punctuation restoration heavily utilizes pre-trained language models without considering data imbalance when predicting punctuation classes. In this work, we address this problem by proposing a token-level supervised contrastive learning method that aims at maximizing the distance of representation of different punctuation marks in the embedding space. The result shows that training with token-level supervised contrastive learning obtains up to 3.2% absolute F1 improvement on the test set.
翻訳日:2021-07-21 15:10:14 公開日:2021-07-19
# 資源制約エッジデバイスのための畳み込みニューラルネットワークの遅延メモリ最適化分割

Latency-Memory Optimized Splitting of Convolution Neural Networks for Resource Constrained Edge Devices ( http://arxiv.org/abs/2107.09123v1 )

ライセンス: Link先を確認
Tanmay Jain, Avaneesh, Rohit Verma, Rajeev Shorey(参考訳) スマートデバイスへのユーザの依存度が高まる中、エッジに不可欠な計算をもたらすことは、あらゆるタイプのビジネスにとって重要な要件となっている。 このような計算の多くは畳み込みニューラルネットワーク(cnns)を使用して、エッジデバイスでは実現不可能な高いリソースと計算要件を持つaiタスクを実行する。 CNNアーキテクチャを分割してエッジ上の計算の一部を実行し、クラウド上に残ることは、この分野への関心が高まっている研究分野である。 本稿では、エッジデバイスとクラウド間のCNNの実行は、レイテンシを最小化し、エッジでのリソース利用を最大化するリソース制約最適化問題の解決と同義であると主張する。 本稿では,多目的最適化問題を定式化し,パレート効率を向上するLMOSアルゴリズムを提案する。 実世界のエッジデバイスでの実験では、LMOSはエッジで異なるCNNモデルの実行可能な実行を保証するとともに、既存の最先端アプローチを改善している。

With the increasing reliance of users on smart devices, bringing essential computation at the edge has become a crucial requirement for any type of business. Many such computations utilize Convolution Neural Networks (CNNs) to perform AI tasks, having high resource and computation requirements, that are infeasible for edge devices. Splitting the CNN architecture to perform part of the computation on edge and remaining on the cloud is an area of research that has seen increasing interest in the field. In this paper, we assert that running CNNs between an edge device and the cloud is synonymous to solving a resource-constrained optimization problem that minimizes the latency and maximizes resource utilization at the edge. We formulate a multi-objective optimization problem and propose the LMOS algorithm to achieve a Pareto efficient solution. Experiments done on real-world edge devices show that, LMOS ensures feasible execution of different CNN models at the edge and also improves upon existing state-of-the-art approaches.
翻訳日:2021-07-21 15:09:48 公開日:2021-07-19
# 解釈によるニューラルネットワークからの適応ウェーブレット蒸留

Adaptive wavelet distillation from neural networks through interpretations ( http://arxiv.org/abs/2107.09145v1 )

ライセンス: Link先を確認
Wooseok Ha, Chandan Singh, Francois Lanusse, Eli Song, Song Dang, Kangmin He, Srigokul Upadhyayula, Bin Yu(参考訳) 最近のディープラーニングモデルは印象的な予測性能を達成したが、しばしば解釈可能性と計算効率を犠牲にしている。 解釈可能性(英語版)は、科学や医学など多くの分野において不可欠であり、モデルが慎重に審査されるか、あるいは解釈が目的そのものである必要がある。 さらに、解釈可能なモデルは簡潔であり、しばしば計算効率をもたらす。 本稿では,訓練されたニューラルネットワークからウェーブレット変換へ情報を蒸留することを目的とした適応ウェーブレット蒸留(awd)を提案する。 特に、AWDはウェーブレット領域におけるニューラルネットワークの特徴属性をペナルティ化し、効果的なマルチ解像度ウェーブレット変換を学習する。 結果のモデルは非常に予測的で簡潔で計算効率が高く、解釈が容易な特性(マルチスケール構造など)を持つ。 ドメインエキスパートとの密接なコラボレーションでは、宇宙パラメータ推論と分子パートナー予測という、2つの現実世界の課題にAWDがどう対処するかを示す。 どちらの場合も、AWDは科学的に解釈可能で簡潔なモデルとなり、最先端のニューラルネットワークよりも予測性能が高い。 さらに、AWDは各ドメインの文脈において科学的に意味のある予測的特徴を特定する。 すべてのコードとモデルはGithub(https://githu b.com/Yu-Group/adapt ive-wavelets)で入手できる完全なパッケージでリリースされる。

Recent deep-learning models have achieved impressive prediction performance, but often sacrifice interpretability and computational efficiency. Interpretability is crucial in many disciplines, such as science and medicine, where models must be carefully vetted or where interpretation is the goal itself. Moreover, interpretable models are concise and often yield computational efficiency. Here, we propose adaptive wavelet distillation (AWD), a method which aims to distill information from a trained neural network into a wavelet transform. Specifically, AWD penalizes feature attributions of a neural network in the wavelet domain to learn an effective multi-resolution wavelet transform. The resulting model is highly predictive, concise, computationally efficient, and has properties (such as a multi-scale structure) which make it easy to interpret. In close collaboration with domain experts, we showcase how AWD addresses challenges in two real-world settings: cosmological parameter inference and molecular-partner prediction. In both cases, AWD yields a scientifically interpretable and concise model which gives predictive performance better than state-of-the-art neural networks. Moreover, AWD identifies predictive features that are scientifically meaningful in the context of respective domains. All code and models are released in a full-fledged package available on Github (https://github.com/ Yu-Group/adaptive-wa velets).
翻訳日:2021-07-21 15:08:47 公開日:2021-07-19
# 政策勾配探索における探索の改善:記号最適化への応用

Improving exploration in policy gradient search: Application to symbolic optimization ( http://arxiv.org/abs/2107.09158v1 )

ライセンス: Link先を確認
Mikel Landajuela Larma, Brenden K. Petersen, Soo K. Kim, Claudio P. Santiago, Ruben Glatt, T. Nathan Mundhenk, Jacob F. Pettit, Daniel M. Faissol(参考訳) 数学的タスクを自動化するために設計された多くの機械学習戦略は、ニューラルネットワークを利用して数学記号の大きな組合せ空間を探索する。 従来の進化的アプローチとは対照的に、検索のコアにニューラルネットワークを使用することで、より高いレベルのシンボルパターンを学習し、検索を導くためのインフォームドな指示を与えることができる。 ラベル付きデータがない場合、このようなネットワークは強化学習を使用してトレーニングすることができる。 しかし、このアプローチは初期のコミットメント現象と初期化バイアスに苦しむ可能性があることを実証し、どちらも探索を制限する。 本稿では,エントロピー正規化と分布初期化という2つの考え方に基づいて,この問題に取り組むための探索手法を提案する。 これらの手法は, 性能の向上, サンプル効率の向上, シンボリック回帰の課題に対する解の複雑さを低減できることを示す。

Many machine learning strategies designed to automate mathematical tasks leverage neural networks to search large combinatorial spaces of mathematical symbols. In contrast to traditional evolutionary approaches, using a neural network at the core of the search allows learning higher-level symbolic patterns, providing an informed direction to guide the search. When no labeled data is available, such networks can still be trained using reinforcement learning. However, we demonstrate that this approach can suffer from an early commitment phenomenon and from initialization bias, both of which limit exploration. We present two exploration methods to tackle these issues, building upon ideas of entropy regularization and distribution initialization. We show that these techniques can improve the performance, increase sample efficiency, and lower the complexity of solutions for the task of symbolic regression.
翻訳日:2021-07-21 15:08:26 公開日:2021-07-19
# SGDの極限力学を再考する: 変形損失、位相空間振動、異常拡散

Rethinking the limiting dynamics of SGD: modified loss, phase space oscillations, and anomalous diffusion ( http://arxiv.org/abs/2107.09133v1 )

ライセンス: Link先を確認
Daniel Kunin, Javier Sagastuy-Brena, Lauren Gillespie, Eshed Margalit, Hidenori Tanaka, Surya Ganguli, Daniel L. K. Yamins(参考訳) 本研究では,確率勾配勾配(SGD)を用いて学習したディープニューラルネットワークの限界ダイナミクスについて検討する。 性能が収束してからも、ネットワークはパラメータ空間を移動し続けており、非自明な指数を持つ勾配更新数において、距離移動がパワー則として増加する異常拡散の過程が現れる。 この異常拡散を説明するトレーニングの最後に,最適化のハイパーパラメータ,勾配雑音の構造,およびヘッセン行列の間の複雑な相互作用を明らかにする。 そこで我々はまず,有限学習率とバッチサイズを持つSGDの連続時間モデルをアンダーダム化ランゲヴィン方程式として導出した。 パラメータの位相空間ダイナミクスとその初期化から定常性に至るまでの瞬時速度について、厳密な解析式を導出できる線形回帰(英語版)の設定において、この方程式を考察する。 Fokker-Planck方程式を用いて、これらのダイナミクスを駆動する重要な要素は、もともとのトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。 我々は、ImageNetで訓練されたResNet-18モデルの力学において、この理論の質的かつ定量的な予測を同定する。 統計物理学のレンズを通して、sgdで訓練された深層ニューラルネットワークの異常制限ダイナミクスのメカニックな起源を明らかにする。

In this work we explore the limiting dynamics of deep neural networks trained with stochastic gradient descent (SGD). We find empirically that long after performance has converged, networks continue to move through parameter space by a process of anomalous diffusion in which distance travelled grows as a power law in the number of gradient updates with a nontrivial exponent. We reveal an intricate interaction between the hyperparameters of optimization, the structure in the gradient noise, and the Hessian matrix at the end of training that explains this anomalous diffusion. To build this understanding, we first derive a continuous-time model for SGD with finite learning rates and batch sizes as an underdamped Langevin equation. We study this equation in the setting of linear regression, where we can derive exact, analytic expressions for the phase space dynamics of the parameters and their instantaneous velocities from initialization to stationarity. Using the Fokker-Planck equation, we show that the key ingredient driving these dynamics is not the original training loss, but rather the combination of a modified loss, which implicitly regularizes the velocity, and probability currents, which cause oscillations in phase space. We identify qualitative and quantitative predictions of this theory in the dynamics of a ResNet-18 model trained on ImageNet. Through the lens of statistical physics, we uncover a mechanistic origin for the anomalous limiting dynamics of deep neural networks trained with SGD.
翻訳日:2021-07-21 15:05:36 公開日:2021-07-19
# グローバルにクロスバリデーションの損失を最適化できるか? リッジ回帰における準凸性

Can we globally optimize cross-validation loss? Quasiconvexity in ridge regression ( http://arxiv.org/abs/2107.09194v1 )

ライセンス: Link先を確認
William T. Stephenson and Zachary Frangella and Madeleine Udell and Tamara Broderick(参考訳) LASSOやリッジレグレッションのようなモデルは、解釈可能性、使いやすさ、強力な理論的保証のために実際に広く使われている。 クロスバリデーション (cross-validation, cv) は, ハイパーパラメータチューニングに広く用いられているが, 実効的最適化手法は実例の損失を最小限に抑えるか? 最近の研究では、cv損失の最適値がサンプル損失の最適値(おそらく単純な補正後)に一致することが示されている。 CVの損失を最小限に抑えるのがどれだけ難しいかは明らかになっていない。 本報告では,尾根回帰の場合,CV損失は準凸にならず,複数の局所的最適値を有する可能性があることを示す。 少なくとも1つのケースにおいて、cv損失が準凸であることを保証することができる:共変量行列のスペクトルがほぼ平坦で、観測された応答のノイズがあまり高くないとき。 より一般に、準凸状態は観測データ(応答ノルム、共変行列右特異ベクトル、特異値スケーリング)の多くの性質とは独立であり、残る数に複素依存していることを示している。 我々はシミュレーション実験によって理論を実証する。

Models like LASSO and ridge regression are extensively used in practice due to their interpretability, ease of use, and strong theoretical guarantees. Cross-validation (CV) is widely used for hyperparameter tuning in these models, but do practical optimization methods minimize the true out-of-sample loss? A recent line of research promises to show that the optimum of the CV loss matches the optimum of the out-of-sample loss (possibly after simple corrections). It remains to show how tractable it is to minimize the CV loss. In the present paper, we show that, in the case of ridge regression, the CV loss may fail to be quasiconvex and thus may have multiple local optima. We can guarantee that the CV loss is quasiconvex in at least one case: when the spectrum of the covariate matrix is nearly flat and the noise in the observed responses is not too high. More generally, we show that quasiconvexity status is independent of many properties of the observed data (response norm, covariate-matrix right singular vectors and singular-value scaling) and has a complex dependence on the few that remain. We empirically confirm our theory using simulated experiments.
翻訳日:2021-07-21 15:05:15 公開日:2021-07-19
# 皮膚がん検出のための信頼度認識ニューラルネットワーク

Confidence Aware Neural Networks for Skin Cancer Detection ( http://arxiv.org/abs/2107.09118v1 )

ライセンス: Link先を確認
Donya Khaledyan, AmirReza Tajally, Reza Sarkhosh, Afshar Shamsi, Hamzeh Asgharnezhad, Abbas Khosravi, Saeid Nahavandi(参考訳) 深層学習(DL)モデルは、将来的なパターン認識能力のために、医用画像に特に注目されている。 しかし、Deep Neural Networks(DNN)は膨大な量のデータを必要とするため、この分野で十分なデータが不足しているため、転送学習は優れたソリューションになり得る。 疾患診断に用いられるDNNは、予測の信頼性に関する図を提示することなく、予測の正確性を改善することに集中している。 DNNモデルがコンピュータ支援診断モデルにどの程度自信を持っているかを知ることは、臨床医のDLベースのソリューションに対する信頼と信頼を得るために必要である。 そこで本研究では,画像から皮膚がんを検出するための3つの方法を提案する。 また、新しい不確実性関連指標を用いて、これらのDNNの性能を包括的に評価し、比較する。 その結果、予測不確実性推定法は、リスクと誤予測を高い不確実性推定でフラグ付けることができることがわかった。 また,推定による不確かさの把握において,アンサンブルアプローチの方が信頼性が高いことを示す。

Deep learning (DL) models have received particular attention in medical imaging due to their promising pattern recognition capabilities. However, Deep Neural Networks (DNNs) require a huge amount of data, and because of the lack of sufficient data in this field, transfer learning can be a great solution. DNNs used for disease diagnosis meticulously concentrate on improving the accuracy of predictions without providing a figure about their confidence of predictions. Knowing how much a DNN model is confident in a computer-aided diagnosis model is necessary for gaining clinicians' confidence and trust in DL-based solutions. To address this issue, this work presents three different methods for quantifying uncertainties for skin cancer detection from images. It also comprehensively evaluates and compares performance of these DNNs using novel uncertainty-related metrics. The obtained results reveal that the predictive uncertainty estimation methods are capable of flagging risky and erroneous predictions with a high uncertainty estimate. We also demonstrate that ensemble approaches are more reliable in capturing uncertainties through inference.
翻訳日:2021-07-21 15:04:33 公開日:2021-07-19
# Universal One-bit Compressed Sensing におけるサポートリカバリ

Support Recovery in Universal One-bit Compressed Sensing ( http://arxiv.org/abs/2107.09091v1 )

ライセンス: Link先を確認
Arya Mazumdar, Soumyabrata Pal(参考訳) 1ビット圧縮センシング(1bCS)は、過去10年間に広く研究されてきた極端量子化信号取得法である。 1bCSでは、高次元信号の線形サンプルを1サンプルあたり1ビットに量子化する(測定の符号)。 元の信号ベクトルがスパースであると仮定すると、既存の結果はベクターのサポートを見つけるか、または$\epsilon$-ball内の信号に近似する。 本稿の焦点は,信号の近似回復を計算的に促進する支援リカバリである。 1bCSの普遍的な測定行列は、すべてのスパース信号に作用する1つの測定セットを指す。 普遍性では、$\tilde{\Theta}(k^2)$ 1bCS測定はサポート回復に十分である($k$はスパーシティを表す)ことが知られている。 本研究は,$\tilde{O}(k^{3/2})$の測定値を用いて,少数の偽陽性でサポートを普遍的に回復可能であることを示す。 信号ベクトルのダイナミックレンジが分かっていれば、異なる手法でこの結果は$\tilde{o}(k)$の計測値に改善できる。 支援回復に関するさらなる結果も提供される。

One-bit compressed sensing (1bCS) is an extreme-quantized signal acquisition method that has been widely studied in the past decade. In 1bCS, linear samples of a high dimensional signal are quantized to only one bit per sample (sign of the measurement). Assuming the original signal vector to be sparse, existing results either aim to find the support of the vector, or approximate the signal within an $\epsilon$-ball. The focus of this paper is support recovery, which often also computationally facilitates approximate signal recovery. A universal measurement matrix for 1bCS refers to one set of measurements that work for all sparse signals. With universality, it is known that $\tilde{\Theta}(k^2)$ 1bCS measurements are necessary and sufficient for support recovery (where $k$ denotes the sparsity). In this work, we show that it is possible to universally recover the support with a small number of false positives with $\tilde{O}(k^{3/2})$ measurements. If the dynamic range of the signal vector is known, then with a different technique, this result can be improved to only $\tilde{O}(k)$ measurements. Further results on support recovery are also provided.
翻訳日:2021-07-21 15:03:54 公開日:2021-07-19
# 等方性および等尺性条件を用いた言語間bertコンテキスト埋め込み空間マッピング

Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and Isometric Conditions ( http://arxiv.org/abs/2107.09186v1 )

ライセンス: Link先を確認
Haoran Xu and Philipp Koehn(参考訳) 通常、線形直交変換マッピングは、静的な型レベルの埋め込みを整列して共有意味空間を構築することで学習される。 文脈埋め込みがよりリッチな意味的特徴を含むという分析から,並列コーパスを用いて文脈認識と辞書フリーなマッピング手法を検討する。 文脈埋め込み空間マッピングは、より高度な同型性を提供することで、バイリンガル辞書誘導(BDI)タスクにおける従来の多言語単語埋め込み手法よりも大幅に優れていることを示す。 マッピングの質を向上させるため、私たちはまた、空間をより詳細な解像度で整列し、より正確なマッピングをもたらすタイプレベルの表現から分割されるセンスレベルの埋め込みについても検討します。 さらに, 文脈埋め込み空間は自然特性, 異方性, 異方性に悩まされている。 この2つの問題を緩和するために,逐次正規化アルゴリズムを命令的前処理ステップとして導入する。 本研究は, 正規化文脈埋め込み空間における等方性, 等長性, および同型性の間の密接な関係を明らかにする。

Typically, a linearly orthogonal transformation mapping is learned by aligning static type-level embeddings to build a shared semantic space. In view of the analysis that contextual embeddings contain richer semantic features, we investigate a context-aware and dictionary-free mapping approach by leveraging parallel corpora. We illustrate that our contextual embedding space mapping significantly outperforms previous multilingual word embedding methods on the bilingual dictionary induction (BDI) task by providing a higher degree of isomorphism. To improve the quality of mapping, we also explore sense-level embeddings that are split from type-level representations, which can align spaces in a finer resolution and yield more precise mapping. Moreover, we reveal that contextual embedding spaces suffer from their natural properties -- anisotropy and anisometry. To mitigate these two problems, we introduce the iterative normalization algorithm as an imperative preprocessing step. Our findings unfold the tight relationship between isotropy, isometry, and isomorphism in normalized contextual embedding spaces.
翻訳日:2021-07-21 15:03:02 公開日:2021-07-19
# 顔認識におけるブラックボックス攻撃の知覚性の検討

Examining the Human Perceptibility of Black-Box Adversarial Attacks on Face Recognition ( http://arxiv.org/abs/2107.09126v1 )

ライセンス: Link先を確認
Benjamin Spetter-Goldstein, Nataniel Ruiz, Sarah Adel Bargal(参考訳) 現代のオープンインターネットは、ウェブ全体、特に世界の人口の半分が使っているソーシャルメディアのウェブサイトに何十億もの人間の顔を公開している。 この文脈では、顔認識(FR)システムは、顔と特定の名前や身元とを一致させる可能性があり、プライバシー上の懸念を生じさせる。 敵の攻撃は、顔を認識する能力を乱すことによって、frシステムからユーザーのプライバシーを付与する有望な方法である。 しかし、このような攻撃は人間の観察者、特により困難なブラックボックス脅威モデルの下では認識できる。 文献では、そのような攻撃の不可避性に対する正当化は、$\ell_p$ normsのような有界な指標に基づいている。 しかし、これらの規範が人間の知覚とどのように一致するかは、あまり研究されていない。 本研究では,最近の顔認識におけるブラックボックス攻撃の有効性と,それに対応する人間の知覚性について,サーベイデータを用いて検証・測定することで,攻撃がより攻撃的になるにつれて生じる知覚可能性のトレードオフを実証する。 また、$\ell_2$ のノルムやその他の指標が、線形な方法で人間の知覚性とどのように相関しないかを示す。

The modern open internet contains billions of public images of human faces across the web, especially on social media websites used by half the world's population. In this context, Face Recognition (FR) systems have the potential to match faces to specific names and identities, creating glaring privacy concerns. Adversarial attacks are a promising way to grant users privacy from FR systems by disrupting their capability to recognize faces. Yet, such attacks can be perceptible to human observers, especially under the more challenging black-box threat model. In the literature, the justification for the imperceptibility of such attacks hinges on bounding metrics such as $\ell_p$ norms. However, there is not much research on how these norms match up with human perception. Through examining and measuring both the effectiveness of recent black-box attacks in the face recognition setting and their corresponding human perceptibility through survey data, we demonstrate the trade-offs in perceptibility that occur as attacks become more aggressive. We also show how the $\ell_2$ norm and other metrics do not correlate with human perceptibility in a linear fashion, thus making these norms suboptimal at measuring adversarial attack perceptibility.
翻訳日:2021-07-21 15:00:49 公開日:2021-07-19
# 安全・高速強化学習のための制約付きポリシー勾配法:ニューラルタンジェントカーネルに基づくアプローチ

Constrained Policy Gradient Method for Safe and Fast Reinforcement Learning: a Neural Tangent Kernel Based Approach ( http://arxiv.org/abs/2107.09139v1 )

ライセンス: Link先を確認
Bal\'azs Varga, Bal\'azs Kulcs\'ar, Morteza Haghir Chehreghani(参考訳) 本稿では,制約付きポリシー勾配アルゴリズムを提案する。 安全学習のための制約を以下の手順で導入する。 第一に、学習を遅くする(遅延学習)ことで、政策勾配定理とニューラル・タンジェント・カーネルの助けを借りて、エピソード的政策変化を計算することができる。 これにより、任意の状態におけるポリシーの評価も可能となる。 同じ精神では、学習をガイドすることができ、所望の行動確率が規定された状態でエピソードバッチを増強することで安全性を確保することができる。 最後に、ポリシーネットワークが制約を満たすように、これらの特定の状態-作用ペアで将来の報酬(リターン)の内在的割引和を計算することができる。 リターンの計算は線形方程式(等式制約)や制約付き二次プログラム(等式制約)のシステムを解くことに基づいている。 シミュレーションの結果,学習に制約(外部情報)を加えることで,制約が適切に選択された場合,学習のスピードと安全性が向上することが示唆された。 制約付き学習の効率性は,カートポールおよびルナーランダーのopenai体育館環境において,浅く幅の広いreluネットワークを用いて実証された。 本論文の主な新規性は、強化学習におけるニューラルネットワークカーネルの実用的利用である。

This paper presents a constrained policy gradient algorithm. We introduce constraints for safe learning with the following steps. First, learning is slowed down (lazy learning) so that the episodic policy change can be computed with the help of the policy gradient theorem and the neural tangent kernel. Then, this enables us the evaluation of the policy at arbitrary states too. In the same spirit, learning can be guided, ensuring safety via augmenting episode batches with states where the desired action probabilities are prescribed. Finally, exogenous discounted sum of future rewards (returns) can be computed at these specific state-action pairs such that the policy network satisfies constraints. Computing the returns is based on solving a system of linear equations (equality constraints) or a constrained quadratic program (inequality constraints). Simulation results suggest that adding constraints (external information) to the learning can improve learning in terms of speed and safety reasonably if constraints are appropriately selected. The efficiency of the constrained learning was demonstrated with a shallow and wide ReLU network in the Cartpole and Lunar Lander OpenAI gym environments. The main novelty of the paper is giving a practical use of the neural tangent kernel in reinforcement learning.
翻訳日:2021-07-21 14:57:25 公開日:2021-07-19
# 局所最適性保証を用いた波動インフォームマトリクス分解

Wave-Informed Matrix Factorization withGlobal Optimality Guarantees ( http://arxiv.org/abs/2107.09144v1 )

ライセンス: Link先を確認
Harsha Vardhan Tetali, Joel B. Harley, Benjamin D. Haeffele(参考訳) 深層学習を特別に含む表現学習手法が最近成功を収めたことにより、既知の物理的制約を学習表現に組み込む表現学習手法の開発にかなりの関心が寄せられている。 一例として、物理メディアを伝搬する信号(光学、音響、流体力学など)を含む多くの応用において、信号のダイナミクスは波動方程式によって課される制約を満たす必要があることが知られている。 本稿では,これらの信号を成分の和に分解し,各成分を正規化し,波動方程式の制約を満たす行列分解手法を提案する。 提案した定式化は非凸であるが, 多項式時間で大域的最適性に効率的に解けることを示す。 本研究は,グローバルな最適性への収束に関する理論的保証を伴わず,所望の物理的制約を捉えるためにヒューリスティックスを利用する,スパース辞書学習アプローチを用いて,この問題を解決しようとする構造的健康モニタリングの応用による作業のメリットを実証するものである。

With the recent success of representation learning methods, which includes deep learning as a special case, there has been considerable interest in developing representation learning techniques that can incorporate known physical constraints into the learned representation. As one example, in many applications that involve a signal propagating through physical media (e.g., optics, acoustics, fluid dynamics, etc), it is known that the dynamics of the signal must satisfy constraints imposed by the wave equation. Here we propose a matrix factorization technique that decomposes such signals into a sum of components, where each component is regularized to ensure that it satisfies wave equation constraints. Although our proposed formulation is non-convex, we prove that our model can be efficiently solved to global optimality in polynomial time. We demonstrate the benefits of our work by applications in structural health monitoring, where prior work has attempted to solve this problem using sparse dictionary learning approaches that do not come with any theoretical guarantees regarding convergence to global optimality and employ heuristics to capture desired physical constraints.
翻訳日:2021-07-21 14:57:07 公開日:2021-07-19
# 神経誘導探索へのドメイン知識の導入

Incorporating domain knowledge into neural-guided search ( http://arxiv.org/abs/2107.09182v1 )

ライセンス: Link先を確認
Brenden K. Petersen, Claudio P. Santiago, Mikel Landajuela Larma(参考訳) 多くのAutoML問題は、ブラックボックスの報酬の下で離散オブジェクトを最適化することを含む。 ニューラル誘導探索は、自己回帰リカレントニューラルネットワークを用いてこれらの組合せ空間を探索する柔軟な手段を提供する。 このアプローチの大きな利点は、オブジェクトを順次構築することである。これは、サンプリング中に放出されるロジットを直接修正することで、検索にドメイン知識を組み込む機会を提供する。 本研究では,このようなin situ前処理と制約をニューラルネットワーク検索に組み込むための枠組みを定式化し,制約を強制するための十分な条件を提供する。 我々は,既存の作業の事前と制約をこの枠組みに統合し,新しい作業を提案し,その効果を象徴的回帰の課題に示す。

Many AutoML problems involve optimizing discrete objects under a black-box reward. Neural-guided search provides a flexible means of searching these combinatorial spaces using an autoregressive recurrent neural network. A major benefit of this approach is that builds up objects sequentially--this provides an opportunity to incorporate domain knowledge into the search by directly modifying the logits emitted during sampling. In this work, we formalize a framework for incorporating such in situ priors and constraints into neural-guided search, and provide sufficient conditions for enforcing constraints. We integrate several priors and constraints from existing works into this framework, propose several new ones, and demonstrate their efficacy in informing the task of symbolic regression.
翻訳日:2021-07-21 14:56:48 公開日:2021-07-19
# feature-filter: 劣性特徴のフィルタリングによる逆例の検出

Feature-Filter: Detecting Adversarial Examples through Filtering off Recessive Features ( http://arxiv.org/abs/2107.09502v1 )

ライセンス: Link先を確認
Hui Liu, Bo Zhao, Yuefeng Peng, Jiabao Guo, and Peng Liu(参考訳) ディープニューラルネットワーク(DNN)は、敵のサンプル攻撃の脅威にさらされている。 敵は、少ない設計の摂動を入力に追加することで、DNNの出力を簡単に変更できる。 逆例検出は、堅牢なDNNベースのサービスの基本的な作業である。 逆の例は、画像認識における人間とDNNの違いを示している。 人間中心の観点では、画像の特徴は人間に理解しやすい支配的な特徴と、人間には理解できないがdnnによって悪用される劣性特徴に分けられる可能性がある。 本稿では, ニューラルネットワークを誤誘導する不感な特徴の積として, 知覚不能な敵の例を明らかにし, 本質的には, 画像中の不感な特徴を豊かにする手法の一種である。 逆説の例は、摂動は劣性特徴を富むが、支配的特徴にはほとんど影響しないことを示す。 したがって、敵対例は劣性特徴のフィルタリングに敏感であり、良性例はそのような手術に免疫がある。 このアイデアに触発されて,特徴フィルタと呼ばれるラベルのみの逆検出手法を提案する。 特徴フィルターは離散コサイン変換を利用して、劣性特徴と支配的特徴とをほぼ分離し、劣性特徴をフィルタリングするミュータント画像を得る。 入力とミュータントに関するDNNの予測ラベルを比較するだけで、特徴フィルタは知覚不能な敵のサンプルを高精度かつ少ない偽陽性でリアルタイムに検出することができる。

Deep neural networks (DNNs) are under threat from adversarial example attacks. The adversary can easily change the outputs of DNNs by adding small well-designed perturbations to inputs. Adversarial example detection is a fundamental work for robust DNNs-based service. Adversarial examples show the difference between humans and DNNs in image recognition. From a human-centric perspective, image features could be divided into dominant features that are comprehensible to humans, and recessive features that are incomprehensible to humans, yet are exploited by DNNs. In this paper, we reveal that imperceptible adversarial examples are the product of recessive features misleading neural networks, and an adversarial attack is essentially a kind of method to enrich these recessive features in the image. The imperceptibility of the adversarial examples indicates that the perturbations enrich recessive features, yet hardly affect dominant features. Therefore, adversarial examples are sensitive to filtering off recessive features, while benign examples are immune to such operation. Inspired by this idea, we propose a label-only adversarial detection approach that is referred to as feature-filter. Feature-filter utilizes discrete cosine transform to approximately separate recessive features from dominant features, and gets a mutant image that is filtered off recessive features. By only comparing DNN's prediction labels on the input and its mutant, feature-filter can real-time detect imperceptible adversarial examples at high accuracy and few false positives.
翻訳日:2021-07-21 14:55:24 公開日:2021-07-19
# ThingFO v1.2の用語、特性、関係、公理 -物の創始オントロジー-

ThingFO v1.2's Terms, Properties, Relationships and Axioms -- Foundational Ontology for Things ( http://arxiv.org/abs/2107.09129v1 )

ライセンス: Link先を確認
Luis Olsina(参考訳) 現在のプレプリントでは、ThingFO v1.2(Thing Foundational Ontology)のすべての用語、特性、関係、公理を規定し、定義している。 FCD-OntoArch(Foundat ional, Core, and Domain Ontological Architecture for Sciences)と呼ばれる4層オントロジーアーキテクチャの文脈において、特に普遍的なもののオントロジーである。 これは5層のオントロジーアーキテクチャであり、基礎、コア、ドメイン、インスタンスレベルを考慮に入れている。 ドメインレベルは2つのサブレベル、すなわちトップドメインとロードメインに分割される。 同じレベルのオントロジーは、ThingFOオントロジーのみが存在する基礎レベルを除いて、互いに関連付けられる。 さらに、より低いレベルのオントロジの用語と関係は、上位レベルのオントロジの用語と関係によって意味的に富むことができる。 situationCO、ProcessCO、ProjectCOといった中核レベルのThingFOとオントロジーはドメインに依存しない。 ThingFOは3つの主要な概念から成り立っている:Thing with the semantics of Particular, Thing Category with the semantics of Universal, Assertion that represent human statement about different aspects of Particulars and Universals。 以前のバージョン(v1.1)から現在のバージョン(v1.2)への更新のアノテーションは、Appendix Aで参照できる。

The present preprint specifies and defines all Terms, Properties, Relationships and Axioms of ThingFO (Thing Foundational Ontology) v1.2, which is a slightly updated version of its predecessor, ThingFO v1.1. It is an ontology for particular and universal Things placed at the foundational level in the context of a four-layered ontological architecture named FCD-OntoArch (Foundational, Core, and Domain Ontological Architecture for Sciences). This is a five-layered ontological architecture, which considers Foundational, Core, Domain and Instance levels. In turn, the domain level is split down in two sub-levels, namely: Top-domain and Low-domain. Ontologies at the same level can be related to each other, except for the foundational level where only the ThingFO ontology is. In addition, ontologies' terms and relationships at lower levels can be semantically enriched by ontologies' terms and relationships from the higher levels. ThingFO and ontologies at the core level such as SituationCO, ProcessCO, ProjectCO, among others, are domain independent. ThingFO is made up of three main concepts, namely: Thing with the semantics of Particular, Thing Category with the semantics of Universal, and Assertion that represents human statements about different aspects of Particulars and Universals. Note that annotations of updates from the previous version (v1.1) to the current one (v1.2) can be found in Appendix A.
翻訳日:2021-07-21 14:53:50 公開日:2021-07-19
# 学習型画像圧縮ソリューションの品質と複雑さ評価

Quality and Complexity Assessment of Learning-Based Image Compression Solutions ( http://arxiv.org/abs/2107.09136v1 )

ライセンス: Link先を確認
Jo\~ao Dick, Brunno Abreu, Mateus Grellert, Sergio Bampi(参考訳) 本稿では,最先端学習に基づく画像圧縮手法の分析を行う。 我々は、KODAKデータセットを用いて、視覚的品質指標と処理時間の観点から、Tensorflow Compressionパッケージで利用可能な8つのモデルを比較した。 結果は、Better Portable Graphics (BPG) とJPEG2000コーデックと比較される。 その結果、JPEG2000は最速の学習ベースモデルと比較して実行時間が低く、圧縮が1.46倍、減圧が30倍であることがわかった。 しかし、学習ベースのモデルはJPEG2000よりも、特に低ビットレートで改善された。 また,psnrの点ではbpgの方が効率的であるが,他の品質指標では学習モデルの方が優れており,時にはより高速であることが示された。 その結果,学習に基づく手法が,将来的な主流圧縮手法への有望な解決策であることを示唆した。

This work presents an analysis of state-of-the-art learning-based image compression techniques. We compare 8 models available in the Tensorflow Compression package in terms of visual quality metrics and processing time, using the KODAK data set. The results are compared with the Better Portable Graphics (BPG) and the JPEG2000 codecs. Results show that JPEG2000 has the lowest execution times compared with the fastest learning-based model, with a speedup of 1.46x in compression and 30x in decompression. However, the learning-based models achieved improvements over JPEG2000 in terms of quality, specially for lower bitrates. Our findings also show that BPG is more efficient in terms of PSNR, but the learning models are better for other quality metrics, and sometimes even faster. The results indicate that learning-based techniques are promising solutions towards a future mainstream compression method.
翻訳日:2021-07-21 14:52:59 公開日:2021-07-19
# OSLO:全方位画像の球面学習と360度画像圧縮への応用

OSLO: On-the-Sphere Learning for Omnidirectional images and its application to 360-degree image compression ( http://arxiv.org/abs/2107.09179v1 )

ライセンス: Link先を確認
Navid Mahmoudian Bidgoli, Roberto G. de A. Azevedo, Thomas Maugey, Aline Roumy, Pascal Frossard(参考訳) 最先端の2D画像圧縮スキームは畳み込みニューラルネットワーク(CNN)のパワーに依存している。 CNNは2次元画像圧縮に有望な視点を提供するが、そのようなモデルを全方位画像に拡張することは容易ではない。 第一に、全方位画像は、現在のcnnモデルでは完全には捉えられない特定の空間的・統計的特性を有する。 第二に、CNNアーキテクチャを構成する基本的な数学的操作、例えば翻訳とサンプリングは、球面上でうまく定義されていない。 本稿では,全方位画像の表現モデルの学習について検討し,球面のhealpix一様サンプリングの特性を用いて,全方位画像のディープラーニングモデルで使用される数学的ツールを再定義する手法を提案する。 特に, 球面上の新しい畳み込み演算の定義を提案し, 古典的2次元畳み込みの高表現性と低複雑性を維持すること, ii) ストライド, 反復集約, ピクセルシャッフルといった標準cnn手法を球面領域に適用すること, iii) 新たな枠組みを全方位画像圧縮の課題に適用することを提案する。 実験により,本提案手法は,等角形画像に適用した類似学習モデルと比較して,13.7%のビットレートを節約できる圧縮利得が得られることを示した。 また,グラフ畳み込みネットワークに基づく学習モデルと比較して,高周波数を維持し,圧縮画像の知覚的品質を向上できるより表現力の高いフィルタをサポートする。 このような結果は、球面多様体上で効果的に実装される他の全方位視覚タスクのための新しい研究会場を開放するフレームワークの効率を実証する。

State-of-the-art 2D image compression schemes rely on the power of convolutional neural networks (CNNs). Although CNNs offer promising perspectives for 2D image compression, extending such models to omnidirectional images is not straightforward. First, omnidirectional images have specific spatial and statistical properties that can not be fully captured by current CNN models. Second, basic mathematical operations composing a CNN architecture, e.g., translation and sampling, are not well-defined on the sphere. In this paper, we study the learning of representation models for omnidirectional images and propose to use the properties of HEALPix uniform sampling of the sphere to redefine the mathematical tools used in deep learning models for omnidirectional images. In particular, we: i) propose the definition of a new convolution operation on the sphere that keeps the high expressiveness and the low complexity of a classical 2D convolution; ii) adapt standard CNN techniques such as stride, iterative aggregation, and pixel shuffling to the spherical domain; and then iii) apply our new framework to the task of omnidirectional image compression. Our experiments show that our proposed on-the-sphere solution leads to a better compression gain that can save 13.7% of the bit rate compared to similar learned models applied to equirectangular images. Also, compared to learning models based on graph convolutional networks, our solution supports more expressive filters that can preserve high frequencies and provide a better perceptual quality of the compressed images. Such results demonstrate the efficiency of the proposed framework, which opens new research venues for other omnidirectional vision tasks to be effectively implemented on the sphere manifold.
翻訳日:2021-07-21 14:52:46 公開日:2021-07-19
# 確率システムの合理的検証

Rational Verification for Probabilistic Systems ( http://arxiv.org/abs/2107.09119v1 )

ライセンス: Link先を確認
Julian Gutierrez, Lewis Hammond, Anthony Lin, Muhammad Najib, Michael Wooldridge(参考訳) 合理的検証は、システム内のエージェントが合理的に振る舞うという仮定の下で、ゲーム理論的均衡を形成する戦略を選択することによって、複数のエージェントシステムにおいてどの時相論理特性が保持されるかを決定する問題である。 この分野の以前の研究は、決定論的システムに重点を置いてきた。 本稿では,確率システムにおける合理的検証の理論とアルゴリズムについて述べる。 複雑なマルチエージェント環境における不確実性とランダム性をモデル化するために,並列確率ゲーム(CSG)に注目した。 質的確率的設定における非協力ゲームと協調ゲームの両方の合理的検証問題について検討する。 前者の場合、ゲームのナッシュ平衡で満たされたLTL特性と後者の場合、コアで満たされたLTL特性を考える。 いずれの場合においても,問題は2exptime-completeであり,マルコフ決定プロセス(mdps)としてモデル化されたシステムのltl特性の検証よりも容易である。

Rational verification is the problem of determining which temporal logic properties will hold in a multi-agent system, under the assumption that agents in the system act rationally, by choosing strategies that collectively form a game-theoretic equilibrium. Previous work in this area has largely focussed on deterministic systems. In this paper, we develop the theory and algorithms for rational verification in probabilistic systems. We focus on concurrent stochastic games (CSGs), which can be used to model uncertainty and randomness in complex multi-agent environments. We study the rational verification problem for both non-cooperative games and cooperative games in the qualitative probabilistic setting. In the former case, we consider LTL properties satisfied by the Nash equilibria of the game and in the latter case LTL properties satisfied by the core. In both cases, we show that the problem is 2EXPTIME-complete, thus not harder than the much simpler verification problem of model checking LTL properties of systems modelled as Markov decision processes (MDPs).
翻訳日:2021-07-21 14:50:40 公開日:2021-07-19
# 高次元平均シフトモデルにおける変化点の推定

Inference for Change Points in High Dimensional Mean Shift Models ( http://arxiv.org/abs/2107.09150v1 )

ライセンス: Link先を確認
Abhishek Kaul and George Michailidis(参考訳) 本研究では,高次元平均シフトモデルにおいて,変化点の位置に対する信頼区間を構築する問題を考える。 そこで我々は,局所的に再適合した最小二乗推定器を開発し,基礎となる変化点の推定の成分的および同時的速度を求める。 同時レートは、少なくとも$\log p,$の係数で文献で最も鋭いが、コンポーネントワイドは最適である。 これらの結果は限界分布の存在を可能にする。 成分的分布は、消失および非破壊的なジャンプサイズのレジームで特徴づけられる一方、変化点推定の有限部分集合に対するジョイント分布は、後者のレジームの下で特徴づけられ、これらの推定の漸近的な独立性をもたらす。 組み合わせた結果を用いて、変化点パラメータに対する漸近的に有効なコンポーネント単位と同時信頼区間を構築する。 結果は高次元のスケーリングによって確立され、ジャンプサイズが小さくなり、変更点の数のばらつきや副指数誤差が発生している。 スマートフォンの行動認識のための合成データやセンサ計測について説明する。

We consider the problem of constructing confidence intervals for the locations of change points in a high-dimensional mean shift model. To that end, we develop a locally refitted least squares estimator and obtain component-wise and simultaneous rates of estimation of the underlying change points. The simultaneous rate is the sharpest available in the literature by at least a factor of $\log p,$ while the component-wise one is optimal. These results enable existence of limiting distributions. Component-wise distributions are characterized under both vanishing and non-vanishing jump size regimes, while joint distributions for any finite subset of change point estimates are characterized under the latter regime, which also yields asymptotic independence of these estimates. The combined results are used to construct asymptotically valid component-wise and simultaneous confidence intervals for the change point parameters. The results are established under a high dimensional scaling, allowing for diminishing jump sizes, in the presence of diverging number of change points and under subexponential errors. They are illustrated on synthetic data and on sensor measurements from smartphones for activity recognition.
翻訳日:2021-07-21 14:50:23 公開日:2021-07-19
# GNN4IP: ハードウェア知的財産権海賊検出のためのグラフニューラルネットワーク

GNN4IP: Graph Neural Network for Hardware Intellectual Property Piracy Detection ( http://arxiv.org/abs/2107.09130v1 )

ライセンス: Link先を確認
Rozhin Yasaei, Shih-Yuan Yu, Emad Kasaeyan Naeini, Mohammad Abdullah Al Faruque(参考訳) 攻撃的な時間と市場との制約と膨大なハードウェア設計と製造コストにより、半導体産業はハードウェア知性(IP)コア設計へと向かった。 しかし、集積回路(IC)サプライチェーンのグローバル化は、IPプロバイダの盗難と違法なIPの再配布を露呈する。 電子透かしと指紋認証はIP海賊行為を検出するために提案されている。 それでも、追加のハードウェアオーバーヘッドが伴い、高度な攻撃がウォーターマーク、フォージ、バイパスを除去するために報告されるため、IPセキュリティを保証できない。 本稿では,回路間の類似性を評価し,IP海賊行為を検出する新しい手法であるGNN4IPを提案する。 ハードウェア設計をグラフとしてモデル化し、収集したレジスタ転送レベルコードとゲートレベルのネットリストの包括的なデータセットを使用して、その振る舞いを学ぶグラフニューラルネットワークモデルを構築します。 GNN4IPはデータセットの96%の精度でIP海賊行為を検出し、100%の精度で元のIPを認識します。

Aggressive time-to-market constraints and enormous hardware design and fabrication costs have pushed the semiconductor industry toward hardware Intellectual Properties (IP) core design. However, the globalization of the integrated circuits (IC) supply chain exposes IP providers to theft and illegal redistribution of IPs. Watermarking and fingerprinting are proposed to detect IP piracy. Nevertheless, they come with additional hardware overhead and cannot guarantee IP security as advanced attacks are reported to remove the watermark, forge, or bypass it. In this work, we propose a novel methodology, GNN4IP, to assess similarities between circuits and detect IP piracy. We model the hardware design as a graph and construct a graph neural network model to learn its behavior using the comprehensive dataset of register transfer level codes and gate-level netlists that we have gathered. GNN4IP detects IP piracy with 96% accuracy in our dataset and recognizes the original IP in its obfuscated version with 100% accuracy.
翻訳日:2021-07-21 14:49:56 公開日:2021-07-19
# 広大かつ深い古典的ニューラルネットワークの学習のための量子アルゴリズム

A quantum algorithm for training wide and deep classical neural networks ( http://arxiv.org/abs/2107.09200v1 )

ライセンス: Link先を確認
Alexander Zlokapa, Hartmut Neven, Seth Lloyd(参考訳) 古典的機械学習におけるディープラーニングの成功を考えると、従来のニューラルネットワークアーキテクチャのための量子アルゴリズムは、量子機械学習にとって最も有望な設定の1つとなるかもしれない。 完全に接続されたフィードフォワードニューラルネットワークを考えると、勾配降下による古典的トレーニング容易性は量子線形系を効率的に解くために必要なものと一致している。 我々は,大小のトレーニングセットを$O(\log n)$時間でスパース行列逆変換することで,最大$O(1/n)の誤差を最大で$O(1/n)の精度でトレーニングする量子アルゴリズムを提案する。 勾配降下によるエンドツーエンドの指数的速度アップを達成するためには、効率的な状態準備と読み出しを可能にする必要がある。 我々は、MNIST画像データセットがそのような条件を満たすことを数値的に示し、さらに、量子アルゴリズムは完全接続ネットワークの精度と一致することを示した。 実証済みのアーキテクチャを超えて、プール付き畳み込みニューラルネットワークの$o(\log n)$トレーニングに関する実証的な証拠を提供する。

Given the success of deep learning in classical machine learning, quantum algorithms for traditional neural network architectures may provide one of the most promising settings for quantum machine learning. Considering a fully-connected feedforward neural network, we show that conditions amenable to classical trainability via gradient descent coincide with those necessary for efficiently solving quantum linear systems. We propose a quantum algorithm to approximately train a wide and deep neural network up to $O(1/n)$ error for a training set of size $n$ by performing sparse matrix inversion in $O(\log n)$ time. To achieve an end-to-end exponential speedup over gradient descent, the data distribution must permit efficient state preparation and readout. We numerically demonstrate that the MNIST image dataset satisfies such conditions; moreover, the quantum algorithm matches the accuracy of the fully-connected network. Beyond the proven architecture, we provide empirical evidence for $O(\log n)$ training of a convolutional neural network with pooling.
翻訳日:2021-07-21 14:49:43 公開日:2021-07-19
# 分散オンライン学習を用いた広域深層グラフニューラルネットワーク

Wide and Deep Graph Neural Network with Distributed Online Learning ( http://arxiv.org/abs/2107.09203v1 )

ライセンス: Link先を確認
Zhan Gao, Fernando Gama, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、ネットワークデータから表現を学習するための分散アーキテクチャである。 これにより、分散タスクに適した候補となる。 これらのシナリオでは、基礎となるグラフはリンク障害やトポロジの変化によって時間とともに変化し、GNNがトレーニングされたグラフとテストされたグラフのミスマッチを生成する。 オンライン学習は、この問題を克服するためにテスト時にGNNを再トレーニングするために利用することができる。 しかし、ほとんどのオンラインアルゴリズムは中央集権的であり、通常は凸問題のみに保証を提供する。 本稿では,分散オンライン学習機構で更新可能な新しいアーキテクチャであるWide and Deep GNN(WD-GNN)を開発する。 WD-GNNは2つの成分から構成される:ワイド部は線形グラフフィルタ、ディープ部は非線形GNNである。 トレーニング時に、ジョイントワイドとディープアーキテクチャはデータから非線形表現を学習する。 試験時には、広く直線的な部分は再訓練され、深い非線形な部分は固定されている。 これはしばしば凸の定式化につながる。 さらに,分散環境で実装可能な分散オンライン学習アルゴリズムを提案する。 また,基礎となるグラフの変化に対するwd-gnnの安定性を示し,提案するオンライン学習手順の収束を分析する。 映画レコメンデーション、ソースローカライゼーション、ロボット群制御の実験は理論的知見を裏付け、分散オンライン学習におけるWD-GNNの可能性を示す。

Graph neural networks (GNNs) are naturally distributed architectures for learning representations from network data. This renders them suitable candidates for decentralized tasks. In these scenarios, the underlying graph often changes with time due to link failures or topology variations, creating a mismatch between the graphs on which GNNs were trained and the ones on which they are tested. Online learning can be leveraged to retrain GNNs at testing time to overcome this issue. However, most online algorithms are centralized and usually offer guarantees only on convex problems, which GNNs rarely lead to. This paper develops the Wide and Deep GNN (WD-GNN), a novel architecture that can be updated with distributed online learning mechanisms. The WD-GNN consists of two components: the wide part is a linear graph filter and the deep part is a nonlinear GNN. At training time, the joint wide and deep architecture learns nonlinear representations from data. At testing time, the wide, linear part is retrained, while the deep, nonlinear one remains fixed. This often leads to a convex formulation. We further propose a distributed online learning algorithm that can be implemented in a decentralized setting. We also show the stability of the WD-GNN to changes of the underlying graph and analyze the convergence of the proposed online learning procedure. Experiments on movie recommendation, source localization and robot swarm control corroborate theoretical findings and show the potential of the WD-GNN for distributed online learning.
翻訳日:2021-07-21 14:49:27 公開日:2021-07-19
# シンボリック回帰による摩擦系の予測と要因変数による遺伝的プログラミング

Predicting Friction System Performance with Symbolic Regression and Genetic Programming with Factor Variables ( http://arxiv.org/abs/2107.09484v1 )

ライセンス: Link先を確認
Gabriel Kronberger, Michael Kommenda, Andreas Promberger, Falk Nickel(参考訳) 摩擦システムは、摩擦が力伝達に用いられる機械システムである(例)。 機械式ブレーキシステムまたは自動ギアボックス)。 最適かつ安全な設計パラメータを見つけるには、エンジニアは摩擦システムの性能を予測する必要がある。 実世界のアプリケーションでは、多くのパラメータに影響されるため、これは特に難しいです。 我々は,この課題の正確かつ信頼性の高い予測モデルを見つけるために,記号回帰と遺伝的プログラミングを用いた。 しかし、どのように名目変数を含めるかは、直接ではない。 特に1ホットエンコーディングは、遺伝的プログラミングがそのような指標変数を除去する傾向があるため、満足できない。 したがって、記号回帰モデルにおいて名目変数を表すためにいわゆる因子変数を用いた。 以上の結果から,GPは人工ニューラルネットワークに匹敵する予測精度で摩擦性能を予測できるシンボリック回帰モデルを生成することができることがわかった。 因子変数を持つシンボリック回帰モデルは、ワンホットエンコーディングを用いたモデルよりも複雑ではない。

Friction systems are mechanical systems wherein friction is used for force transmission (e.g. mechanical braking systems or automatic gearboxes). For finding optimal and safe design parameters, engineers have to predict friction system performance. This is especially difficult in real-world applications, because it is affected by many parameters. We have used symbolic regression and genetic programming for finding accurate and trustworthy prediction models for this task. However, it is not straight-forward how nominal variables can be included. In particular, a one-hot-encoding is unsatisfactory because genetic programming tends to remove such indicator variables. We have therefore used so-called factor variables for representing nominal variables in symbolic regression models. Our results show that GP is able to produce symbolic regression models for predicting friction performance with predictive accuracy that is comparable to artificial neural networks. The symbolic regression models with factor variables are less complex than models using a one-hot encoding.
翻訳日:2021-07-21 14:47:47 公開日:2021-07-19
# 野生の瞬間的ストレス検出におけるモダリティ融合ネットワークとパーソナライズされた注意

Modality Fusion Network and Personalized Attention in Momentary Stress Detection in the Wild ( http://arxiv.org/abs/2107.09510v1 )

ライセンス: Link先を確認
Han Yu, Thomas Vaessen, Inez Myin-Germeys, Akane Sano(参考訳) 日常生活におけるマルチモーダルウェアラブルの生理的データは,自己報告されたストレスラベルの推定に用いられているが,データ収集におけるデータモダリティの欠如は,収集されたすべてのサンプルを活用するのに困難である。 さらに、個人間の異種センサデータやラベルは、堅牢なストレス検出モデルを構築する上での課題をもたらす。 本稿では,MFN(Modality fusion Network)を提案し,完全・不完全両条件下でモデルと自己申告二元応力ラベルを推定する。 さらに、パーソナライズされた注目(PA)戦略を適用し、パーソナライズされた表現と一般化されたワンサイズフィットオールモデルを適用した。 本手法を,GSR (Galvanic skin response) と心電図 (ECG) を含むマルチモーダルウェアラブルセンサデータセット (N=41) を用いて評価した。 完全モダリティのサンプルを用いたベースライン法と比較して,f1スコアにおいてMFNの性能は1.6\%向上した。 一方,2.3\%のストレス検出f1スコア,最大70\%のパーソナライズされたモデルパラメータサイズ (9.1 MB) が,従来の技術移転学習戦略 (29.3 MB) と比較された。

Multimodal wearable physiological data in daily life settings have been used to estimate self-reported stress labels.However, missing data modalities in data collection make it challenging to leverage all the collected samples. Besides, heterogeneous sensor data and labels among individuals add challenges in building robust stress detection models. In this paper, we proposed a modality fusion network (MFN) to train models and infer self-reported binary stress labels under both complete and incomplete modality condition. In addition, we applied a personalized attention (PA) strategy to leverage personalized representation along with the generalized one-size-fits-all model. We evaluated our methods on a multimodal wearable sensor dataset (N=41) including galvanic skin response (GSR) and electrocardiogram (ECG). Compared to the baseline method using the samples with complete modalities, the performance of the MFN improved by 1.6\% in f1-scores. On the other hand, the proposed PA strategy showed a 2.3\% higher stress detection f1-score and approximately up to 70\% reduction in personalized model parameter size (9.1 MB) compared to the previous state-of-the-art transfer learning strategy (29.3 MB).
翻訳日:2021-07-21 14:47:37 公開日:2021-07-19
# 学習量子回路のサンプル複雑性

Sample Complexity of Learning Quantum Circuits ( http://arxiv.org/abs/2107.09078v1 )

ライセンス: Link先を確認
Haoyuan Cai, Qi Ye, Dong-Ling Deng(参考訳) 量子コンピュータは機械学習アプリケーションに先例のない可能性を持っている。 ここで、物理量子回路は、経験的リスク最小化により、量子コンピュータ上でpac(おそらくほぼ正しい)学習可能であることを証明する: 最大$n^c$ゲートと一定数の量子ビットに作用する各ゲートを持つ量子回路を学習するには、サンプル複雑性は$\tilde{o}(n^{c+1})$で制限される。 特に、固定パターンで配置された$O(n^{c+1})$小数点ゲートを持つ変分量子回路の族を明示的に構成し、少なくとも$n^c$小数点ゲートからなる全ての物理量子回路を表現できる。 我々の結果は、理論と実験の両方において量子機械学習のための貴重なガイドを提供する。

Quantum computers hold unprecedented potentials for machine learning applications. Here, we prove that physical quantum circuits are PAC (probably approximately correct) learnable on a quantum computer via empirical risk minimization: to learn a quantum circuit with at most $n^c$ gates and each gate acting on a constant number of qubits, the sample complexity is bounded by $\tilde{O}(n^{c+1})$. In particular, we explicitly construct a family of variational quantum circuits with $O(n^{c+1})$ elementary gates arranged in a fixed pattern, which can represent all physical quantum circuits consisting of at most $n^c$ elementary gates. Our results provide a valuable guide for quantum machine learning in both theory and experiment.
翻訳日:2021-07-21 14:46:13 公開日:2021-07-19
# dpnnet-2.0: 原始惑星間円盤ギャップのシミュレーション画像から隠れた惑星を見つける

DPNNet-2.0 Part I: Finding hidden planets from simulated images of protoplanetary disk gaps ( http://arxiv.org/abs/2107.09086v1 )

ライセンス: Link先を確認
Sayantan Auddy, Ramit Dey, Min-Kai Lin (ASIAA, NCTS Physics Division), Cassandra Hall(参考訳) 原始惑星円盤からの塵の放出における環状の隙間のような観測されたサブ構造は、しばしば埋め込み惑星の記号として解釈される。 カスタマイズされたシミュレーションや経験的関係を用いて、これらの観測された特徴に惑星ギャップのモデルを適用することで、隠れた惑星の特徴を明らかにすることができる。 しかし、サンプルサイズの増加とディスクプラネタリー相互作用の複雑さのため、カスタマイズされたフィッティングはしばしば実用的ではない。 本稿では,1つの惑星をホストする原始惑星円盤のシミュレーション画像から直接外惑星質量を予測するために,畳み込みニューラルネットワーク(CNN,特にResNet50)を用いて設計したDPNNet-2.0のアーキテクチャについて紹介する。 さらにDPNNet-2.0は、画像とディスクパラメータを同時に処理するためにCNNと多層パーセプトロンの両方を使用するマルチ入力フレームワークで構成されている。 これにより、DPNNet-2.0を直接画像を用いてトレーニングすることができ、ディスクパラメータ(ディスク粘度、ディスク温度、ディスク表面密度プロファイル、塵量、粒子ストークス数)を入力として生成するオプションが追加された。 この研究は必要な枠組みを提供し、アタカマ大 (sub-)Millimeter Array) のような望遠鏡で観測された塵面密度マップから外惑星の質量を直接抽出するコンピュータビジョン(CNNの実装)を使用するための第一歩である。

The observed sub-structures, like annular gaps, in dust emissions from protoplanetary disk, are often interpreted as signatures of embedded planets. Fitting a model of planetary gaps to these observed features using customized simulations or empirical relations can reveal the characteristics of the hidden planets. However, customized fitting is often impractical owing to the increasing sample size and the complexity of disk-planet interaction. In this paper we introduce the architecture of DPNNet-2.0, second in the series after DPNNet \citep{aud20}, designed using a Convolutional Neural Network ( CNN, here specifically ResNet50) for predicting exoplanet masses directly from simulated images of protoplanetary disks hosting a single planet. DPNNet-2.0 additionally consists of a multi-input framework that uses both a CNN and multi-layer perceptron (a class of artificial neural network) for processing image and disk parameters simultaneously. This enables DPNNet-2.0 to be trained using images directly, with the added option of considering disk parameters (disk viscosities, disk temperatures, disk surface density profiles, dust abundances, and particle Stokes numbers) generated from disk-planet hydrodynamic simulations as inputs. This work provides the required framework and is the first step towards the use of computer vision (implementing CNN) to directly extract mass of an exoplanet from planetary gaps observed in dust-surface density maps by telescopes such as the Atacama Large (sub-)Millimeter Array.
翻訳日:2021-07-21 14:45:58 公開日:2021-07-19
# 暗くも暗くはない:ニューラルネットを用いた銀河センターの震源数分布の抽出

Dim but not entirely dark: Extracting the Galactic Center Excess' source-count distribution with neural nets ( http://arxiv.org/abs/2107.09070v1 )

ライセンス: Link先を確認
Florian List, Nicholas L. Rodd, Geraint F. Lewis(参考訳) GCE(Galactic Center Excess)の2つの主要な仮説は、$\textit{Fermi}$ data(英語版)において、暗ミリ秒パルサー(MSP)と暗物質消滅(DM)の未解決の集団である。 これらの説明の間の二分法は通常、それらを2つの別々の放出成分としてモデル化することによって反映される。 しかし、MSPのような点源(PSs)は、極薄の極限においてスムーズなポアソン放射によって統計的に退化し(一般に、各光源は平均で1光子よりもはるかに少ないコントリビューションを期待される)、自然界においてその放出がPS様かポアソン的かといった問題を引き起こす曖昧さをもたらす。 本稿では,ps と poisson の放射を統一的に記述し,得られた結果から poisson 成分の制約を導出する概念的な新しいアプローチを提案する。 このアプローチの実装には,ニューラルネットワークに基づくヒストグラム回帰法を中心に,量子論の観点から不確実性を表現したディープラーニング技術を活用する。 本手法は,従来の手法,特にdm/psの誤帰属に苦しむ多くの体系に対して頑健であることを示す。 in the $\textit{Fermi}$ data, we find a faint GCE described by a central source-count distribution (SCD) peaked at a flux of $\sim4 \times 10^{-11} \ \text{counts} \ \text{cm}^{-2} \ \text{s}^{-1}$ (=\sim3 - 4$ expected counts per PS) which would would would $N \sim \mathcal{O}(10^4)$ sources to explain the excess (median value $N = \text{29,300}$ across the sky)。 しかし、このSCDはGCEフラックスのポアソン分数に対する制約$\eta_P \leq 66\%$を95%の信頼度で導出することができ、GCEフラックスのかなりの量はPSによるものであることを示唆している。

The two leading hypotheses for the Galactic Center Excess (GCE) in the $\textit{Fermi}$ data are an unresolved population of faint millisecond pulsars (MSPs) and dark-matter (DM) annihilation. The dichotomy between these explanations is typically reflected by modeling them as two separate emission components. However, point-sources (PSs) such as MSPs become statistically degenerate with smooth Poisson emission in the ultra-faint limit (formally where each source is expected to contribute much less than one photon on average), leading to an ambiguity that can render questions such as whether the emission is PS-like or Poissonian in nature ill-defined. We present a conceptually new approach that describes the PS and Poisson emission in a unified manner and only afterwards derives constraints on the Poissonian component from the so obtained results. For the implementation of this approach, we leverage deep learning techniques, centered around a neural network-based method for histogram regression that expresses uncertainties in terms of quantiles. We demonstrate that our method is robust against a number of systematics that have plagued previous approaches, in particular DM / PS misattribution. In the $\textit{Fermi}$ data, we find a faint GCE described by a median source-count distribution (SCD) peaked at a flux of $\sim4 \times 10^{-11} \ \text{counts} \ \text{cm}^{-2} \ \text{s}^{-1}$ (corresponding to $\sim3 - 4$ expected counts per PS), which would require $N \sim \mathcal{O}(10^4)$ sources to explain the entire excess (median value $N = \text{29,300}$ across the sky). Although faint, this SCD allows us to derive the constraint $\eta_P \leq 66\%$ for the Poissonian fraction of the GCE flux $\eta_P$ at 95% confidence, suggesting that a substantial amount of the GCE flux is due to PSs.
翻訳日:2021-07-21 14:42:31 公開日:2021-07-19
# (参考訳) 自己微分可能なアンサンブルカルマンフィルタ

Auto-differentiable Ensemble Kalman Filters ( http://arxiv.org/abs/2107.07687v2 )

ライセンス: CC BY 4.0
Yuming Chen, Daniel Sanz-Alonso, Rebecca Willett(参考訳) データ同化は、時間発展状態の逐次推定に関係している。 このタスクは、幅広い科学的・工学的応用で発生し、状態が高次元で状態空間のダイナミクスが未知である場合、特に困難である。 本稿では,データ同化における動的システム学習のための機械学習フレームワークを提案する。 我々の自動微分可能アンサンブルカルマンフィルタ(AD-EnKF)は、状態回復のためのアンサンブルカルマンフィルタと、ダイナミックスを学ぶための機械学習ツールをブレンドする。 その際、ad-enkfsはアンサンブルカルマンフィルタの高次元状態へのスケールと自動微分のパワーを利用して、ダイナミックスのための高次元サーロゲートモデルを訓練する。 Lorenz-96モデルを用いて計算した結果、AD-EnKFは期待最大化や粒子フィルタを用いてデータ同化と機械学習をマージする既存の手法よりも優れていた。 さらに、AD-EnKFは実装が容易で、最小限のチューニングを必要とする。

Data assimilation is concerned with sequentially estimating a temporally-evolving state. This task, which arises in a wide range of scientific and engineering applications, is particularly challenging when the state is high-dimensional and the state-space dynamics are unknown. This paper introduces a machine learning framework for learning dynamical systems in data assimilation. Our auto-differentiable ensemble Kalman filters (AD-EnKFs) blend ensemble Kalman filters for state recovery with machine learning tools for learning the dynamics. In doing so, AD-EnKFs leverage the ability of ensemble Kalman filters to scale to high-dimensional states and the power of automatic differentiation to train high-dimensional surrogate models for the dynamics. Numerical results using the Lorenz-96 model show that AD-EnKFs outperform existing methods that use expectation-maximiza tion or particle filters to merge data assimilation and machine learning. In addition, AD-EnKFs are easy to implement and require minimal tuning.
翻訳日:2021-07-21 13:58:13 公開日:2021-07-19
# (参考訳) 3次元データ処理のための学習点埋め込み [全文訳有]

Learning point embedding for 3D data processing ( http://arxiv.org/abs/2107.08565v1 )

ライセンス: CC BY 4.0
Zhenpeng Chen(参考訳) ポイントクラウド上の2次元畳み込みネットワークのうち、ポイントベースアプローチは固定サイズのポイントクラウドを直接消費する。 点集合にディープラーニングを導入する先駆者であるPointNetの分析により,現在の点ベース手法が本質的に空間関係処理ネットワークであることを明らかにした。 この論文では、異なるアプローチを取ります。 私たちのアーキテクチャはpe-netと呼ばれ、高次元空間における点雲の表現を学習し、整列されていない入力点を特徴ベクトルに符号化します。 推奨されたネットワークは、現在のメソッドの制限である入力ポイントの数の変化に適応することができる。 実験により、PE-Netは分類と部分分割のタスクにおいて、ModelNetやShapeNetPartといった複数の挑戦的なデータセットで最先端のパフォーマンスを達成することが示された。

Among 2D convolutional networks on point clouds, point-based approaches consume point clouds of fixed size directly. By analysis of PointNet, a pioneer in introducing deep learning into point sets, we reveal that current point-based methods are essentially spatial relationship processing networks. In this paper, we take a different approach. Our architecture, named PE-Net, learns the representation of point clouds in high-dimensional space, and encodes the unordered input points to feature vectors, which standard 2D CNNs can be applied to. The recommended network can adapt to changes in the number of input points which is the limit of current methods. Experiments show that in the tasks of classification and part segmentation, PE-Net achieves the state-of-the-art performance in multiple challenging datasets, such as ModelNet and ShapeNetPart.
翻訳日:2021-07-21 02:03:07 公開日:2021-07-19
# (参考訳) データ品質問題に対するニューラルネットワークロバスト性向上のための変調層 [全文訳有]

A Modulation Layer to Increase Neural Network Robustness Against Data Quality Issues ( http://arxiv.org/abs/2107.08574v1 )

ライセンス: CC BY 4.0
Mohamed Abdelhack, Jiaming Zhang, Sandhya Tripathi, Bradley Fritz, Michael Avidan, Yixin Chen, Christopher King(参考訳) データ品質は機械学習において一般的な問題であり、特に医療などの高度な設定では問題となる。 データの欠如は、複雑なパターンにおける精度、キャリブレーション、特徴帰属に影響する。 開発者はしばしば、欠落したデータバイアスを最小限に抑えるために、慎重にキュレートされたデータセットでモデルをトレーニングする。 機械学習モデルを欠落データに対して堅牢にすることは、実践的な応用にとって不可欠である。 一部の分類器は自然に欠落したデータを扱うが、ディープニューラルネットワークのような他の分類器は未知の値のために設計されていない。 我々は、欠落データの影響を軽減するために、新しいニューラルネットワーク修正を提案する。 このアプローチは、生物学的ニューラルネットワークによって実行される神経調節にインスパイアされている。 本提案では,完全連結層の固定重みを各入力における付加入力(信頼度スコア)の関数に置き換え,他のデータの存在に基づいて,皮質のアップウェイトとダウンウェイト入力の能力を模倣する。 変調関数は、多層パーセプトロンを用いてメインタスクと共同で学習される。 我々は、複数の分類、回帰、インプテーション問題において、完全接続層をテストし、入力に対する信頼性を連結した従来のニューラルネットワークアーキテクチャと同等の性能または性能を発生させた。 層を変調したモデルは、データ品質の劣化に対して、評価時にさらなる欠陥を導入することでより堅牢になった。 これらの結果は,完全接続層を変調することで,情報品質の低下を明示的に考慮し,リアルタイムに人工知能システムを展開できることを示唆する。

Data quality is a common problem in machine learning, especially in high-stakes settings such as healthcare. Missing data affects accuracy, calibration, and feature attribution in complex patterns. Developers often train models on carefully curated datasets to minimize missing data bias; however, this reduces the usability of such models in production environments, such as real-time healthcare records. Making machine learning models robust to missing data is therefore crucial for practical application. While some classifiers naturally handle missing data, others, such as deep neural networks, are not designed for unknown values. We propose a novel neural network modification to mitigate the impacts of missing data. The approach is inspired by neuromodulation that is performed by biological neural networks. Our proposal replaces the fixed weights of a fully-connected layer with a function of an additional input (reliability score) at each input, mimicking the ability of cortex to up- and down-weight inputs based on the presence of other data. The modulation function is jointly learned with the main task using a multi-layer perceptron. We tested our modulating fully connected layer on multiple classification, regression, and imputation problems, and it either improved performance or generated comparable performance to conventional neural network architectures concatenating reliability to the inputs. Models with modulating layers were more robust against degradation of data quality by introducing additional missingness at evaluation time. These results suggest that explicitly accounting for reduced information quality with a modulating fully connected layer can enable the deployment of artificial intelligence systems in real-time settings.
翻訳日:2021-07-21 01:57:32 公開日:2021-07-19
# (参考訳) 特徴的自己注意による行動予測 [全文訳有]

Action Forecasting with Feature-wise Self-Attention ( http://arxiv.org/abs/2107.08579v1 )

ライセンス: CC BY 4.0
Yan Bin Ng, Basura Fernando(参考訳) ビデオからの人間の行動予測のための新しいアーキテクチャを提案する。 テンポラルリカレントエンコーダは入力ビデオの時間情報をキャプチャし、セルフアテンションモデルは入力空間の関連する特徴次元に付随する。 観察ビデオデータの時間的変動に対処するために,特徴マスキング技術を用いる。 これまでに起こったことを理解するのに役立つ補助分類器を用いて,観察した動作を正確に分類する。 そして、復号器は、再帰エンコーダと自己保持モデルの出力に基づいて、未来のアクションを生成する。 実験では,各コンポーネントの検証を行い,自己注意が関連する特徴量,時間的マスキング,観察された補助的分類器に与えた影響を検証した。 提案手法を2つの標準行動予測ベンチマークで評価し,その結果を得た。

We present a new architecture for human action forecasting from videos. A temporal recurrent encoder captures temporal information of input videos while a self-attention model is used to attend on relevant feature dimensions of the input space. To handle temporal variations in observed video data, a feature masking techniques is employed. We classify observed actions accurately using an auxiliary classifier which helps to understand what has happened so far. Then the decoder generates actions for the future based on the output of the recurrent encoder and the self-attention model. Experimentally, we validate each component of our architecture where we see that the impact of self-attention to identify relevant feature dimensions, temporal masking, and observed auxiliary classifier. We evaluate our method on two standard action forecasting benchmarks and obtain state-of-the-art results.
翻訳日:2021-07-21 01:43:54 公開日:2021-07-19
# (参考訳) UNIK: 現実の骨格に基づく行動認識のための統一フレームワーク [全文訳有]

UNIK: A Unified Framework for Real-world Skeleton-based Action Recognition ( http://arxiv.org/abs/2107.08580v1 )

ライセンス: CC BY 4.0
Di Yang, Yaohui Wang, Antitza Dantcheva, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond(参考訳) 骨格データに基づく行動認識は、最近注目と進歩の高まりを目撃している。 グラフ畳み込みネットワーク(gcns)を採用する最先端のアプローチは、予め定義された人間のトポロジーに依存する人間の骨格の特徴を効果的に抽出することができる。 関連する進歩にもかかわらず、GCNベースの手法は、特に異なるヒトのトポロジー構造を持つ領域をまたいだ一般化が困難である。 この文脈では,人間の骨格配列の時空間的特徴を学習するだけでなく,データセット全体にわたって一般化できる新しい骨格に基づく行動認識手法であるUNIKを導入する。 これはマルチヘッドアテンション機構に基づいて一様分布から最適な依存性行列を学習することによって達成される。 次に,実世界ビデオにおけるスケルトンベース行動認識のクロスドメイン一般化可能性について検討するため,新たなポスティクスデータセットに照らして,最先端のアプローチを再評価する。 このデータセットはkinetics-400ビデオから作成され、ポーズを推定、精製、フィルタリングする。 本稿では,アクション分類タスクのためのポーズ項目を事前トレーニングした後,より小さなベンチマークデータセットにおいて,パフォーマンスがどの程度向上するかを分析する。 実験結果から,提案したUNIKは,Toyota Smarthome, Penn Action, NTU-RGB+D 60, NTU-RGB+D 120の4つの目標行動分類データセットに移行した場合に,Poseticsを事前学習した上で,その精度を向上し,最先端を達成できることが示唆された。

Action recognition based on skeleton data has recently witnessed increasing attention and progress. State-of-the-art approaches adopting Graph Convolutional networks (GCNs) can effectively extract features on human skeletons relying on the pre-defined human topology. Despite associated progress, GCN-based methods have difficulties to generalize across domains, especially with different human topological structures. In this context, we introduce UNIK, a novel skeleton-based action recognition method that is not only effective to learn spatio-temporal features on human skeleton sequences but also able to generalize across datasets. This is achieved by learning an optimal dependency matrix from the uniform distribution based on a multi-head attention mechanism. Subsequently, to study the cross-domain generalizability of skeleton-based action recognition in real-world videos, we re-evaluate state-of-the-art approaches as well as the proposed UNIK in light of a novel Posetics dataset. This dataset is created from Kinetics-400 videos by estimating, refining and filtering poses. We provide an analysis on how much performance improves on smaller benchmark datasets after pre-training on Posetics for the action classification task. Experimental results show that the proposed UNIK, with pre-training on Posetics, generalizes well and outperforms state-of-the-art when transferred onto four target action classification datasets: Toyota Smarthome, Penn Action, NTU-RGB+D 60 and NTU-RGB+D 120.
翻訳日:2021-07-21 01:33:26 公開日:2021-07-19
# (参考訳) 言語モデルと読み理解のギャップを埋める:セルフスーパービジョンによる教師なしMRC [全文訳有]

Bridging the Gap between Language Model and Reading Comprehension: Unsupervised MRC via Self-Supervision ( http://arxiv.org/abs/2107.08582v1 )

ライセンス: CC BY 4.0
Ning Bian, Xianpei Han, Bo Chen, Hongyu Lin, Ben He, Le Sun(参考訳) 近年の機械読み取り理解(MRC)の成功にもかかわらず、高品質のMRCモデルを学習するには、強力な事前学習言語モデル(PLM)を使用しても、大規模なラベル付きトレーニングデータが必要である。 PLM の事前訓練タスクは質問応答や MRC ベースのタスクではなく、既存の PLM は教師なし MRC に直接使用できない。 特に、mrcは与えられた文書から正確な回答スパンを見つけることを目指しているが、plmは文中のトークンの記入に焦点を当てている。 本稿では,教師なしMCCのための新しいフレームワークを提案する。 まず,MRC-Sptting-MLMのための自己超越型プリテキストタスクを設計し,自己教師型学習を用いて文書中の回答の範囲を抽出することを提案する。 この問題を解決するには文書中の文間の深い相互作用を捉える必要がある。 次に,質問と文書間の表現ミスマッチを緩和するために,単純な文書き換え戦略を推論段階で適用する。 実験の結果,本手法は教師なしMRCの最先端性能を実現する。

Despite recent success in machine reading comprehension (MRC), learning high-quality MRC models still requires large-scale labeled training data, even using strong pre-trained language models (PLMs). The pre-training tasks for PLMs are not question-answering or MRC-based tasks, making existing PLMs unable to be directly used for unsupervised MRC. Specifically, MRC aims to spot an accurate answer span from the given document, but PLMs focus on token filling in sentences. In this paper, we propose a new framework for unsupervised MRC. Firstly, we propose to learn to spot answer spans in documents via self-supervised learning, by designing a self-supervision pretext task for MRC - Spotting-MLM. Solving this task requires capturing deep interactions between sentences in documents. Secondly, we apply a simple sentence rewriting strategy in the inference stage to alleviate the expression mismatch between questions and documents. Experiments show that our method achieves a new state-of-the-art performance for unsupervised MRC.
翻訳日:2021-07-21 01:15:38 公開日:2021-07-19
# (参考訳) 画像分類のためのNon-binary Deep Transfer Learning [全文訳有]

Non-binary deep transfer learning for imageclassification ( http://arxiv.org/abs/2107.08585v1 )

ライセンス: CC BY 4.0
Jo Plested, Xuyang Shen, and Tom Gedeon(参考訳) ラベル付きトレーニングの少ない例を使ったコンピュータビジョンタスクの現在の標準は、ImageNetのような大規模な画像分類データセットで事前トレーニングされた重みから微調整することである。 転送学習と転送学習の応用は、厳密に二分される傾向にある。 モデルは事前訓練されるか、事前訓練されないかのいずれかである。 モデルの事前トレーニングはパフォーマンスを高めるか、それを減らすかのいずれかで、後者は負の転送として定義される。 L2-SP正則化の適用は、事前訓練された値に対して重みを減衰させるか、あるいは全ての重みを0。 本稿ではこれらの仮定を再検討する。 提案手法は, 最適な結果を得るために, 非バイナリアプローチの適用を実証する広範な経験的評価に基づいている。 1) 各データセットで最高の性能を得るには,転送する層数,異なる層での学習率,L2SPとL2の正則化の異なる組み合わせなど,通常考慮されない様々な移動学習ハイパーパラメータを慎重に調整する必要がある。 2) 最適なハイパーパラメータを導出するために, トレーニング済み重量がターゲットデータセットにどの程度収まるか, 様々な測定方法を用いて, ベストプラクティスを達成できる。 本稿では,L2SPとL2正規化を組み合わせた非バイナリ変換学習と,非従来の微調整ハイパーパラメータ探索を行う手法を提案する。 最後に, 最適伝達学習ハイパーパラメータを決定するためのヒューリスティックスを提案する。 非バイナリアプローチを使用することのメリットは、従来より転送学習が困難だったさまざまなタスクにおいて、アートパフォーマンスの状態をほぼあるいは超えている最終結果によって支えられている。

The current standard for a variety of computer vision tasks using smaller numbers of labelled training examples is to fine-tune from weights pre-trained on a large image classification dataset such as ImageNet. The application of transfer learning and transfer learning methods tends to be rigidly binary. A model is either pre-trained or not pre-trained. Pre-training a model either increases performance or decreases it, the latter being defined as negative transfer. Application of L2-SP regularisation that decays the weights towards their pre-trained values is either applied or all weights are decayed towards 0. This paper re-examines these assumptions. Our recommendations are based on extensive empirical evaluation that demonstrate the application of a non-binary approach to achieve optimal results. (1) Achieving best performance on each individual dataset requires careful adjustment of various transfer learning hyperparameters not usually considered, including number of layers to transfer, different learning rates for different layers and different combinations of L2SP and L2 regularization. (2) Best practice can be achieved using a number of measures of how well the pre-trained weights fit the target dataset to guide optimal hyperparameters. We present methods for non-binary transfer learning including combining L2SP and L2 regularization and performing non-traditional fine-tuning hyperparameter searches. Finally we suggest heuristics for determining the optimal transfer learning hyperparameters. The benefits of using a non-binary approach are supported by final results that come close to or exceed state of the art performance on a variety of tasks that have traditionally been more difficult for transfer learning.
翻訳日:2021-07-21 00:59:19 公開日:2021-07-19
# (参考訳) Face.evoLVe:高性能顔認識ライブラリ [全文訳有]

Face.evoLVe: A High-Performance Face Recognition Library ( http://arxiv.org/abs/2107.08621v1 )

ライセンス: CC BY 4.0
Qingzhong Wang, Pengfei Zhang, Haoyi Xiong and Jian Zhao(参考訳) 本稿では,顔認識のための多種多様な深層学習手法を収集・実装する包括的ライブラリであるface.evoLVeを開発する。 まず、face.evoLVeは顔のアライメント、データ処理、様々なバックボーン、損失、代替品など、顔分析の全プロセスをカバーする重要なコンポーネントで構成されている。 その後、Face.evoLVeはPyTorchやPaddlePaddleなど、さまざまなディープラーニングプラットフォーム上でマルチGPUトレーニングをサポートする。 さらに重要なのは、face.evoLVeとともに、共通のベンチマークデータセットの前後のイメージにソースコードとトレーニングされたモデルが提供されることだ。 これらすべての取り組みは、既存の比較手法を再現する際の技術的負担を減らし、ライブラリのユーザは、より効率的に高度なアプローチを開発することに集中できる。 最後に、Face.evoLVeはよく設計され、活発に進化しているので、新しい顔認識アプローチを簡単にフレームワークにプラグインできる。 face.evoLVeを使って、多くの顔認識コンテストに参加し、第1位を確保しました。 PyTorchをサポートするバージョンはhttps://github.com/Z haoJ9014/face.evoLVe .PyTorchで、PaddlePaddleバージョンはhttps://github.com/Z haoJ9014/face.evoLVe .PyTorch/tree/master /paddleで公開されている。 Face.evoLVeは顔分析に広く使われ、2.4Kの恒星と622のフォークを受信している。

In this paper, we develop face.evoLVe -- a comprehensive library that collects and implements a wide range of popular deep learning-based methods for face recognition. First of all, face.evoLVe is composed of key components that cover the full process of face analytics, including face alignment, data processing, various backbones, losses, and alternatives with bags of tricks for improving performance. Later, face.evoLVe supports multi-GPU training on top of different deep learning platforms, such as PyTorch and PaddlePaddle, which facilitates researchers to work on both large-scale datasets with millions of images and low-shot counterparts with limited well-annotated data. More importantly, along with face.evoLVe, images before & after alignment in the common benchmark datasets are released with source codes and trained models provided. All these efforts lower the technical burdens in reproducing the existing methods for comparison, while users of our library could focus on developing advanced approaches more efficiently. Last but not least, face.evoLVe is well designed and vibrantly evolving, so that new face recognition approaches can be easily plugged into our framework. Note that we have used face.evoLVe to participate in a number of face recognition competitions and secured the first place. The version that supports PyTorch is publicly available at https://github.com/Z haoJ9014/face.evoLVe .PyTorch and the PaddlePaddle version is available at https://github.com/Z haoJ9014/face.evoLVe .PyTorch/tree/master /paddle. Face.evoLVe has been widely used for face analytics, receiving 2.4K stars and 622 forks.
翻訳日:2021-07-21 00:49:07 公開日:2021-07-19
# (参考訳) データ共有市場 [全文訳有]

Data Sharing Markets ( http://arxiv.org/abs/2107.08630v1 )

ライセンス: CC0 1.0
Mohammad Rasouli, Michael Jordan(参考訳) 分散機械学習技術の利用が拡大するにつれ、エージェントが互いにデータを共有することを可能にするデータ市場の必要性が高まっている。 それでもデータには、複製性、共有コスト、歪曲能力など、他の商品と区別するユニークな機能がある。 我々は、各エージェントがデータの買い手および売り手の両方になり得る設定を研究する。 このセットアップでは、双方向データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つのケースを考慮する。 本研究では,ネットワーク形成ゲームとしてのバイラテラル共有をモデル化し,下位エージェント特性下での強安定な結果の存在を限定的な相補性によって示す。 我々は,O(N^2)の安定な結果(Nはエージェント数)を得られる順序マッチングアルゴリズムを提案する。 一元的共有のために、付加的なコスト構造を前提として、社会福祉の最大化結果を実現できる競争価格を構築する。 最後に, エージェントがプライベート情報を持つ場合, 標準VCGメカニズムの正確な予算不均衡レベルに社会的に最適な結果を真に実装しつつ, 独立した影響でデータ共有のコストデータ歪みをゼロにする混合VCG機構を提案する。 Mixed-VCGはこの目的のためにデータお金としてデータ歪みを使用する。 さらに、歪み混合vcgの提案により、ゼロコストデータの歪み推定を緩和する。 モデルと結果も、インクリメンタルな問い合わせと差分プライバシーコストによるデータ共有に拡張しています。

With the growing use of distributed machine learning techniques, there is a growing need for data markets that allows agents to share data with each other. Nevertheless data has unique features that separates it from other commodities including replicability, cost of sharing, and ability to distort. We study a setup where each agent can be both buyer and seller of data. For this setup, we consider two cases: bilateral data exchange (trading data with data) and unilateral data exchange (trading data with money). We model bilateral sharing as a network formation game and show the existence of strongly stable outcome under the top agents property by allowing limited complementarity. We propose ordered match algorithm which can find the stable outcome in O(N^2) (N is the number of agents). For the unilateral sharing, under the assumption of additive cost structure, we construct competitive prices that can implement any social welfare maximizing outcome. Finally for this setup when agents have private information, we propose mixed-VCG mechanism which uses zero cost data distortion of data sharing with its isolated impact to achieve budget balance while truthfully implementing socially optimal outcomes to the exact level of budget imbalance of standard VCG mechanisms. Mixed-VCG uses data distortions as data money for this purpose. We further relax zero cost data distortion assumption by proposing distorted-mixed-VCG. We also extend our model and results to data sharing via incremental inquiries and differential privacy costs.
翻訳日:2021-07-21 00:32:32 公開日:2021-07-19
# (参考訳) 問題を解消する:最適輸送による確率シミュレーションのキャリブレーション [全文訳有]

Transport away your problems: Calibrating stochastic simulations with optimal transport ( http://arxiv.org/abs/2107.08648v1 )

ライセンス: CC BY 4.0
Chris Pollard, Philipp Windischhofer(参考訳) 確率的シミュレータは科学の多くの分野において必須のツールである。 しばしば第一原理に基づいて、分布が暗黙的に関心の現象を記述する確率測度を定義する一連のサンプルを提供する。 しかし、これらのシミュレータの忠実さは全ての科学的目的に必ずしも十分ではなく、シミュレーションを"校正"し、その出力が現実の忠実な表現であることを確実にするためには、アドホックな補正を構築する必要がある。 本稿では,輸送理論の手法を活用し,そのような補正を体系的に構築する。 ニューラルネットワークを用いてシミュレータが生成したサンプルの最小限の修正を計算し、その結果の分布を適切に調整する。 実験粒子物理学の文脈におけるこの手法とその利点について解説し, 校正確率シミュレータの必要性は特に顕著である。

Stochastic simulators are an indispensable tool in many branches of science. Often based on first principles, they deliver a series of samples whose distribution implicitly defines a probability measure to describe the phenomena of interest. However, the fidelity of these simulators is not always sufficient for all scientific purposes, necessitating the construction of ad-hoc corrections to "calibrate" the simulation and ensure that its output is a faithful representation of reality. In this paper, we leverage methods from transportation theory to construct such corrections in a systematic way. We use a neural network to compute minimal modifications to the individual samples produced by the simulator such that the resulting distribution becomes properly calibrated. We illustrate the method and its benefits in the context of experimental particle physics, where the need for calibrated stochastic simulators is particularly pronounced.
翻訳日:2021-07-21 00:13:53 公開日:2021-07-19
# (参考訳) マルチモーダルMRI画像を用いたアルツハイマー病分類のための入力非依存的深層学習 [全文訳有]

Input Agnostic Deep Learning for Alzheimer's Disease Classification Using Multimodal MRI Images ( http://arxiv.org/abs/2107.08673v1 )

ライセンス: CC BY 4.0
Aidana Massalimova and Huseyin Atakan Varol(参考訳) アルツハイマー病(Alzheimer's disease、AD)は、記憶障害や機能障害を引き起こす進行性脳疾患である。 機械学習と一般公開された医療データセットの進歩は、AD診断の複数の研究を開始した。 本研究では,OASIS-3データセットからの構造MRIおよび拡散テンソルイメージング(DTI)スキャンに基づいて,正常認知,軽度認知障害,ADクラスを分類するための多モードディープラーニングアプローチを利用する。 また,従来のマルチモーダルネットワークに加えて,従来のマルチモーダル機械学習法と区別するsmriまたはdtiスキャンによる診断を可能にする入力非依存アーキテクチャを提案する。 その結果, 構造的MRIとDTIスキャンの両方が入力として提供される場合, 入力非依存モデルでは0.96精度が得られた。

Alzheimer's disease (AD) is a progressive brain disorder that causes memory and functional impairments. The advances in machine learning and publicly available medical datasets initiated multiple studies in AD diagnosis. In this work, we utilize a multi-modal deep learning approach in classifying normal cognition, mild cognitive impairment and AD classes on the basis of structural MRI and diffusion tensor imaging (DTI) scans from the OASIS-3 dataset. In addition to a conventional multi-modal network, we also present an input agnostic architecture that allows diagnosis with either sMRI or DTI scan, which distinguishes our method from previous multi-modal machine learning-based methods. The results show that the input agnostic model achieves 0.96 accuracy when both structural MRI and DTI scans are provided as inputs.
翻訳日:2021-07-20 23:57:44 公開日:2021-07-19
# (参考訳) 機械学習攻撃に対するハードウェア完全性保護のための騙し論理ロック [全文訳有]

Deceptive Logic Locking for Hardware Integrity Protection against Machine Learning Attacks ( http://arxiv.org/abs/2107.08695v1 )

ライセンス: CC BY 4.0
Dominik Sisejkovic, Farhad Merchant, Lennart M. Reimann, Rainer Leupers(参考訳) 論理ロックは、集積回路の整合性を保護するための重要な鍵駆動技術として登場した。 しかし、新しい機械学習に基づく攻撃が最近導入され、ロックスキームのセキュリティ基盤に挑戦している。 これらの攻撃は、アクティベート回路にアクセスすることなく、キーのかなりの割合を回復することができる。 本稿は2つの焦点でこの問題に対処する。 まず、機械学習によって悪用されるキー関連構造漏洩に対するロッキングスキームをテストするための理論的モデルを提案する。 第二に、この理論モデルに基づいて、構造探索機械学習攻撃に対する耐性を持つ、擬似多重化に基づく論理ロック方式D-MUXを導入する。 D-MUXの設計を通じて、既存のマルチプレクサベースのロックスキームにおいて、構造解析攻撃の形で大きな誤りが明らかになった。 最後に,D-MUXのコスト評価について述べる。 我々の知る限りでは、D-MUXは、既知のすべての学習ベースの攻撃から保護できる、最初の機械学習耐性のロックスキームである。 そこで本研究では,機械学習時代における次世代論理ロックの設計と評価の出発点を提供する。

Logic locking has emerged as a prominent key-driven technique to protect the integrity of integrated circuits. However, novel machine-learning-bas ed attacks have recently been introduced to challenge the security foundations of locking schemes. These attacks are able to recover a significant percentage of the key without having access to an activated circuit. This paper address this issue through two focal points. First, we present a theoretical model to test locking schemes for key-related structural leakage that can be exploited by machine learning. Second, based on the theoretical model, we introduce D-MUX: a deceptive multiplexer-based logic-locking scheme that is resilient against structure-exploiting machine learning attacks. Through the design of D-MUX, we uncover a major fallacy in existing multiplexer-based locking schemes in the form of a structural-analysis attack. Finally, an extensive cost evaluation of D-MUX is presented. To the best of our knowledge, D-MUX is the first machine-learning-res ilient locking scheme capable of protecting against all known learning-based attacks. Hereby, the presented work offers a starting point for the design and evaluation of future-generation logic locking in the era of machine learning.
翻訳日:2021-07-20 23:49:19 公開日:2021-07-19
# (参考訳) マイルストーン対応カウンターファクトアプローチによるプロセス予測の解釈 [全文訳有]

Interpreting Process Predictions using a Milestone-Aware Counterfactual Approach ( http://arxiv.org/abs/2107.08697v1 )

ライセンス: CC BY 4.0
Chihcheng Hsieh and Catarina Moreira and Chun Ouyang(参考訳) 予測プロセス分析は、しばしば機械学習を適用して、実行中のビジネスプロセスの将来状態を予測します。 しかし、既存の多くの予測アルゴリズムの内部機構は不透明であり、人間の意思決定者は特定のアクティビティが予測されたことを理解することができない。 近年,予測モデルから人間に理解可能な説明を導き出すための対策が文献で提案されている。 現在のカウンターファクトのアプローチは、ある予測結果を覆すことができる最小限の特徴変化を見つけることで成り立っている。 多くのアルゴリズムが提案されているが、そのシーケンスやイベントログのような多次元データへの応用は研究されていない。 本稿では,最近普及しているモデルに依存しない反ファクトアルゴリズムであるDiCEの予測プロセス解析における利用について検討する。 解析の結果,(1)プロセス領域の知識が考慮されていないこと,(2)理解できない傾向の長いトレース,(3)カテゴリー変数による反事実探索の最適化が困難であることなどから,プロセス予測の説明を導出する場合にアルゴリズムが限定されることが明らかになった。 本稿では,プロセス予測のためのデファクトを生成可能なDiCEの拡張を設計し,トラストの異なる段階におけるマイルストーン対応デファクトの導出を支援するアプローチを提案する。 本手法をBPIC2012イベントログに適用し,提案手法の有効性を示す。

Predictive process analytics often apply machine learning to predict the future states of a running business process. However, the internal mechanisms of many existing predictive algorithms are opaque and a human decision-maker is unable to understand \emph{why} a certain activity was predicted. Recently, counterfactuals have been proposed in the literature to derive human-understandable explanations from predictive models. Current counterfactual approaches consist of finding the minimum feature change that can make a certain prediction flip its outcome. Although many algorithms have been proposed, their application to the sequence and multi-dimensional data like event logs has not been explored in the literature. In this paper, we explore the use of a recent, popular model-agnostic counterfactual algorithm, DiCE, in the context of predictive process analytics. The analysis reveals that the algorithm is limited when being applied to derive explanations of process predictions, due to (1) process domain knowledge not being taken into account, (2) long traces that often tend to be less understandable, and (3) difficulties in optimising the counterfactual search with categorical variables. We design an extension of DiCE that can generate counterfactuals for process predictions, and propose an approach that supports deriving milestone-aware counterfactuals at different stages of a trace to promote interpretability. We apply our approach to BPIC2012 event log and the analysis results demonstrate the effectiveness of the proposed approach.
翻訳日:2021-07-20 23:21:59 公開日:2021-07-19
# (参考訳) 量子ディープラーニング:量子アニーラによるニューラルネットワークのサンプリング [全文訳有]

Quantum Deep Learning: Sampling Neural Nets with a Quantum Annealer ( http://arxiv.org/abs/2107.08710v1 )

ライセンス: CC BY 4.0
Catherine F. Higham and Adrian Bedford(参考訳) 本研究では,古典的学習による深層ニューラルネットワークを,1ステップの量子アニーラで処理可能なエネルギーベースモデルとして構成することで,サンプリング時間の短縮を実現した。 本稿では,量子処理ユニット(QPU)における高分解能画像分類のための2つのハードルを克服する手法を提案する。 この新しい手法により、畳み込みニューラルネットワークをQPUに転送し、少なくとも1桁の分類スピードアップの可能性を示す。

We demonstrate the feasibility of framing a classically learned deep neural network as an energy based model that can be processed on a one-step quantum annealer in order to exploit fast sampling times. We propose approaches to overcome two hurdles for high resolution image classification on a quantum processing unit (QPU): the required number and binary nature of the model states. With this novel method we successfully transfer a convolutional neural network to the QPU and show the potential for classification speedup of at least one order of magnitude.
翻訳日:2021-07-20 23:09:12 公開日:2021-07-19
# (参考訳) cetransformer: トランスフォーマティブに基づく表現学習によるカジュアル効果の推定 [全文訳有]

CETransformer: Casual Effect Estimation via Transformer Based Representation Learning ( http://arxiv.org/abs/2107.08714v1 )

ライセンス: CC BY 4.0
Zhenyu Guo, Shuai Zheng, Zhizhe Liu, Kun Yan, Zhenfeng Zhu(参考訳) 因果効果を推定し因果関係の強さを測定することを目的とした治療効果推定は、多くの分野において非常に重要であるが、実際には難しい問題である。 現在、データ駆動因果効果推定は、選択バイアスと反事実の欠如という2つの大きな課題に直面している。 これら2つの問題に対処するため、既存のアプローチのほとんどは、バランスの取れた表現を学習することで選択バイアスを減らし、その表現を通して反事実を推定する傾向にある。 しかし、バランスのとれた表現を学ぶとき、彼らは手作りのメートル関数に強く依存しており、これは一般に、元の分布が複雑である状況ではうまく機能しない。 本稿では,変換器を用いた表現学習によるカジュアルエフェクト推定のためのCETransformerモデルを提案する。 共変量(特徴)の表現を頑健に学習するために,自己接続機構により共変量間の相関をうまく活用できる自己教師付きトランスを提案する。 さらに、その表現空間における処理群と制御群の分布のバランスをとるために、対向ネットワークを採用する。 3つの実世界のデータセットに対する実験結果から,提案したCETransformerの利点を,最先端処理効果推定法と比較した。

Treatment effect estimation, which refers to the estimation of causal effects and aims to measure the strength of the causal relationship, is of great importance in many fields but is a challenging problem in practice. As present, data-driven causal effect estimation faces two main challenges, i.e., selection bias and the missing of counterfactual. To address these two issues, most of the existing approaches tend to reduce the selection bias by learning a balanced representation, and then to estimate the counterfactual through the representation. However, they heavily rely on the finely hand-crafted metric functions when learning balanced representations, which generally doesn't work well for the situations where the original distribution is complicated. In this paper, we propose a CETransformer model for casual effect estimation via transformer based representation learning. To learn the representation of covariates(features) robustly, a self-supervised transformer is proposed, by which the correlation between covariates can be well exploited through self-attention mechanism. In addition, an adversarial network is adopted to balance the distribution of the treated and control groups in the representation space. Experimental results on three real-world datasets demonstrate the advantages of the proposed CETransformer, compared with the state-of-the-art treatment effect estimation methods.
翻訳日:2021-07-20 22:59:51 公開日:2021-07-19
# (参考訳) コボルディズムと可換分類文法 [全文訳有]

Cobordisms and commutative categorial grammars ( http://arxiv.org/abs/2107.08728v1 )

ライセンス: CC BY 4.0
Sergey Slavnov(参考訳) 本稿では,あるアルファベットの単語で装飾された特定の二部グラフである単語コボルディズム(cobordisms)やコワーディズム(cowordisms for short)のカテゴリにおける抽象的分類文法の具体的表面表現を提案し,線形論理証明ネットを一般化する。 また,コボルディズムに基づく線形論理文法を導入,研究し,古典的乗法的線形論理をタイピングシステムとして用いた。

We propose a concrete surface representation of abstract categorial grammars in the category of word cobordisms or cowordisms for short, which are certain bipartite graphs decorated with words in a given alphabet, generalizing linear logic proof-nets. We also introduce and study linear logic grammars, directly based on cobordisms and using classical multiplicative linear logic as a typing system.
翻訳日:2021-07-20 22:51:42 公開日:2021-07-19
# (参考訳) E-PDDL: 疫学計画問題の標準化方法 [全文訳有]

E-PDDL: A Standardized Way of Defining Epistemic Planning Problems ( http://arxiv.org/abs/2107.08739v1 )

ライセンス: CC BY 4.0
Francesco Fabiano, Biplav Srivastava, Jonathan Lenchner, Lior Horesh, Francesca Rossi, Marianna Bergamaschi Ganapini(参考訳) 認識計画(ep: epistemic planning)とは、エージェントが知識状態の領域で判断し、現在の状態から望ましい状態に到達する計画を見つけようとする自動計画設定を指す。 その一般的な形態であるMEP(Multi-agent Epistemic Planning)問題には、世界の状態とエージェント間の情報フローの両方を推論する必要がある複数のエージェントが含まれる。 MEP問題では、信念の考えを許さずに知識の概念のみを考えることや、動的共通知識を扱うために必要な「複雑な」モーダル作用素を許さないことなど、様々な制約を伴って複数のアプローチが近年開発されている。 アプローチの多様性は問題空間のより深い理解につながったが、ソリューションアプローチとは独立してmep問題を特定するための標準化された方法の欠如は、プランナーのパフォーマンスの比較、有望なテクニックの特定、アンサンブル法のような新しい戦略の探求、研究領域への新規研究者の貢献の容易化といった困難を生み出した。 本稿では,EP問題を特定する統一的な手法として,疫学計画ドメイン定義言語(E-PDDL)を提案する。 本稿では,E-PPDLを主要なMEPプランナによってサポートできることを示し,E-PDDLで指定されたEP問題を複数のプランナが処理可能な(M)EP問題に変換するパーサコードを提供する。 この研究は、E-PDDLの計画問題に対処するメタ認知モジュールを構想し、その特徴のいくつかを特定し評価し、どのプランナーがそれを解決するのに最適かを自律的に決定する、より一般的な疫学的計画環境の構築にも有用である。

Epistemic Planning (EP) refers to an automated planning setting where the agent reasons in the space of knowledge states and tries to find a plan to reach a desirable state from the current state. Its general form, the Multi-agent Epistemic Planning (MEP) problem involves multiple agents who need to reason about both the state of the world and the information flow between agents. In a MEP problem, multiple approaches have been developed recently with varying restrictions, such as considering only the concept of knowledge while not allowing the idea of belief, or not allowing for ``complex" modal operators such as those needed to handle dynamic common knowledge. While the diversity of approaches has led to a deeper understanding of the problem space, the lack of a standardized way to specify MEP problems independently of solution approaches has created difficulties in comparing performance of planners, identifying promising techniques, exploring new strategies like ensemble methods, and making it easy for new researchers to contribute to this research area. To address the situation, we propose a unified way of specifying EP problems - the Epistemic Planning Domain Definition Language, E-PDDL. We show that E-PPDL can be supported by leading MEP planners and provide corresponding parser code that translates EP problems specified in E-PDDL into (M)EP problems that can be handled by several planners. This work is also useful in building more general epistemic planning environments where we envision a meta-cognitive module that takes a planning problem in E-PDDL, identifies and assesses some of its features, and autonomously decides which planner is the best one to solve it.
翻訳日:2021-07-20 22:30:19 公開日:2021-07-19
# (参考訳) 多領域海馬セグメンテーションのための相反連続学習 [全文訳有]

Adversarial Continual Learning for Multi-Domain Hippocampal Segmentation ( http://arxiv.org/abs/2107.08751v1 )

ライセンス: CC BY 4.0
Marius Memmel, Camila Gonzalez, Anirban Mukhopadhyay(参考訳) 医学画像のディープラーニングは、時間的およびプライバシーに関連したデータ可用性の制限に苦しむ。 まだ実行可能なモデルを得るために、連続学習は、データが利用可能でいつ、連続的にトレーニングすることを目的としている。 連続学習法が直面する主な課題は、破滅的な忘れ、すなわち、先に遭遇したデータの性能低下を防ぐことである。 この問題により,医療用セグメンテーションモデルの継続的トレーニングが極めて困難になる。 しかし、多くの場合、ドメイン固有の情報を無視した方法でモデルをトレーニングするために、少なくとも2つの異なるドメインからのデータが利用可能です。 本稿では,2つ以上のデータセットを同時利用して,コンテンツとドメインの絡み合いを対角的に学習するアーキテクチャを提案する。 ドメイン不変のコンテンツ表現は、連続的なセマンティックセグメンテーションの基盤を置く。 提案手法は,脳MRIにおける海馬セグメンテーションの連続学習と,ドメイン適応からインスピレーションを得たものである。 本手法は破滅的な忘れ込みを減らし,最先端の継続的学習方法より優れていることを示す。

Deep learning for medical imaging suffers from temporal and privacy-related restrictions on data availability. To still obtain viable models, continual learning aims to train in sequential order, as and when data is available. The main challenge that continual learning methods face is to prevent catastrophic forgetting, i.e., a decrease in performance on the data encountered earlier. This issue makes continuous training of segmentation models for medical applications extremely difficult. Yet, often, data from at least two different domains is available which we can exploit to train the model in a way that it disregards domain-specific information. We propose an architecture that leverages the simultaneous availability of two or more datasets to learn a disentanglement between the content and domain in an adversarial fashion. The domain-invariant content representation then lays the base for continual semantic segmentation. Our approach takes inspiration from domain adaptation and combines it with continual learning for hippocampal segmentation in brain MRI. We showcase that our method reduces catastrophic forgetting and outperforms state-of-the-art continual learning methods.
翻訳日:2021-07-20 22:12:19 公開日:2021-07-19
# (参考訳) モデル不確かさの帰属のための経路積分 [全文訳有]

Path Integrals for the Attribution of Model Uncertainties ( http://arxiv.org/abs/2107.08756v1 )

ライセンス: CC BY 4.0
Iker Perez, Piotr Skalski, Alec Barns-Graham, Jason Wong, David Sutton(参考訳) モデル不確実性の解釈がベイズ機械学習の応用において重要である。 多くの場合、これは予測の不確実性を画像、テキスト、カテゴリ配列のソース特徴に有意義に分類する必要がある。 しかし、一般的な帰属法は分類と回帰スコアのために特に設計されている。 不確実性を説明するために、アートオルタナティブの状況は、通常、反事実的特徴ベクトルを入手し、直接比較して進む。 本稿では,経路積分を利用してベイズ微分可能モデルの不確かさを推定する。 本稿では,特徴ベクトルと反事実ベクトルを接続する分布内曲線に依存する新しいアルゴリズムを提案し,解釈可能性法の望ましい性質を保持する。 様々な解像度で画像データセットのベンチマークを検証し、既存の代替よりも解釈可能性を大幅に単純化することを示す。

Enabling interpretations of model uncertainties is of key importance in Bayesian machine learning applications. Often, this requires to meaningfully attribute predictive uncertainties to source features in an image, text or categorical array. However, popular attribution methods are particularly designed for classification and regression scores. In order to explain uncertainties, state of the art alternatives commonly procure counterfactual feature vectors, and proceed by making direct comparisons. In this paper, we leverage path integrals to attribute uncertainties in Bayesian differentiable models. We present a novel algorithm that relies on in-distribution curves connecting a feature vector to some counterfactual counterpart, and we retain desirable properties of interpretability methods. We validate our approach on benchmark image data sets with varying resolution, and show that it significantly simplifies interpretability over the existing alternatives.
翻訳日:2021-07-20 21:58:05 公開日:2021-07-19
# (参考訳) CVEfixes: 脆弱性の自動収集とオープンソースソフトウェアからの修正 [全文訳有]

CVEfixes: Automated Collection of Vulnerabilities and Their Fixes from Open-Source Software ( http://arxiv.org/abs/2107.08760v1 )

ライセンス: CC BY 4.0
Guru Prasad Bhandari, Amara Naseer and Leon Moonen (Simula Research Laboratory, Norway)(参考訳) ソースコードのセキュリティ脆弱性の自動発見と修復に関するデータ駆動リサーチは、実際の脆弱なコードの包括的なデータセットとその修正を必要とする。 本研究では,NVD(National Vulnerability Database)におけるCVE(Common Vulnerabilities and Exposures)レコードから,包括的脆弱性データセットを自動的に収集し,キュレートする手法を提案する。 我々は、完全に自動化されたデータセット収集ツールにアプローチを実装し、CVEfixesという脆弱性データセットの初期リリースを共有します。 CVEfixesコレクションツールは、NVDから利用可能なすべてのCVEレコードを自動的に取得し、脆弱性のあるコードと関連するオープンソースリポジトリからの修正を収集し、収集した情報をリレーショナルデータベースに整理する。 さらに、データセットにはプログラミング言語などのメタデータと、5つの抽象化レベルにおける詳細なコードとセキュリティメトリクスが組み込まれています。 コレクションは簡単に繰り返して、新しく発見されたまたはパッチされた脆弱性を最新に保つことができる。 CVEfixesの最初のリリースは、2021年6月9日までに公開されたすべてのCVEにまたがっており、合計5495の脆弱性修正コミットで対処された1754のオープンソースプロジェクトの5365のCVEレコードをカバーしている。 CVEfixesは、脆弱性予測、脆弱性分類、脆弱性重大度予測、脆弱性関連コード変更の分析、自動脆弱性修正など、さまざまなタイプのデータ駆動ソフトウェアセキュリティ研究をサポートしている。

Data-driven research on the automated discovery and repair of security vulnerabilities in source code requires comprehensive datasets of real-life vulnerable code and their fixes. To assist in such research, we propose a method to automatically collect and curate a comprehensive vulnerability dataset from Common Vulnerabilities and Exposures (CVE) records in the public National Vulnerability Database (NVD). We implement our approach in a fully automated dataset collection tool and share an initial release of the resulting vulnerability dataset named CVEfixes. The CVEfixes collection tool automatically fetches all available CVE records from the NVD, gathers the vulnerable code and corresponding fixes from associated open-source repositories, and organizes the collected information in a relational database. Moreover, the dataset is enriched with meta-data such as programming language, and detailed code and security metrics at five levels of abstraction. The collection can easily be repeated to keep up-to-date with newly discovered or patched vulnerabilities. The initial release of CVEfixes spans all published CVEs up to 9 June 2021, covering 5365 CVE records for 1754 open-source projects that were addressed in a total of 5495 vulnerability fixing commits. CVEfixes supports various types of data-driven software security research, such as vulnerability prediction, vulnerability classification, vulnerability severity prediction, analysis of vulnerability-relate d code changes, and automated vulnerability repair.
翻訳日:2021-07-20 21:42:49 公開日:2021-07-19
# (参考訳) 分散学習におけるサブサンプルシャッフルモデルのRenyi差分プライバシー [全文訳有]

Renyi Differential Privacy of the Subsampled Shuffle Model in Distributed Learning ( http://arxiv.org/abs/2107.08763v1 )

ライセンス: CC0 1.0
Antonious M. Girgis, Deepesh Data, Suhas Diggavi(参考訳) 我々は,プライバシを必要とするサーバとのインタラクションを通じて,クライアントが反復的に学習モデルを構築できる分散学習フレームワークでプライバシを研究する。 確率的最適化とフェデレートラーニング(FL)パラダイムによって動機付けられ、各ラウンドに少数のデータサンプルをランダムにサブサンプリングして学習プロセスに参加する場合に焦点を当て、プライバシーの増幅を可能にする。 さらに強力なローカルプライバシ保証を得るため、各クライアントがローカル差分プライベート(ldp)メカニズムを使用して応答をランダム化し、各クライアントに関連付けることなくクライアントの応答のランダムな置換(シャッフル)のみをサーバが受信する、shuffle privacy model(シャッフルプライバシモデル)で研究する。 本研究の主な成果は,サブサンプルシャッフルプライバシーモデルにおける離散ランダム化機構に対するプライバシー最適化性能トレードオフである。 これは、サブサンプルシャッフルモデルのRenyi差分プライバシー(RDP)を解析するための新しい理論的手法によって実現されている。 我々は、重要な体制において、我々の限定的な構成によって、サブサンプルシャッフルモデルに対する(強い構成で)最先端の近似微分プライバシ(DP)に対するプライバシー保証が大幅に改善されることを数値的に示す。 また,実データを用いたプライバシ学習性能の運用点の数値的改善を示す。

We study privacy in a distributed learning framework, where clients collaboratively build a learning model iteratively through interactions with a server from whom we need privacy. Motivated by stochastic optimization and the federated learning (FL) paradigm, we focus on the case where a small fraction of data samples are randomly sub-sampled in each round to participate in the learning process, which also enables privacy amplification. To obtain even stronger local privacy guarantees, we study this in the shuffle privacy model, where each client randomizes its response using a local differentially private (LDP) mechanism and the server only receives a random permutation (shuffle) of the clients' responses without their association to each client. The principal result of this paper is a privacy-optimization performance trade-off for discrete randomization mechanisms in this sub-sampled shuffle privacy model. This is enabled through a new theoretical technique to analyze the Renyi Differential Privacy (RDP) of the sub-sampled shuffle model. We numerically demonstrate that, for important regimes, with composition our bound yields significant improvement in privacy guarantee over the state-of-the-art approximate Differential Privacy (DP) guarantee (with strong composition) for sub-sampled shuffled models. We also demonstrate numerically significant improvement in privacy-learning performance operating point using real data sets.
翻訳日:2021-07-20 21:24:58 公開日:2021-07-19
# (参考訳) グラフニューラルネットワークによる適応伝達学習 [全文訳有]

Adaptive Transfer Learning on Graph Neural Networks ( http://arxiv.org/abs/2107.08765v1 )

ライセンス: CC BY 4.0
Xueting Han, Zhenhuan Huang, Bang An, Jing Bai(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの強力な表現を学ぶために広く利用されている。 最近の研究は、自己教師型タスクから下流タスクへの知識伝達がグラフ表現をさらに改善することを示した。 しかし、最適化目標とトレーニングデータの観点からは、自己監督タスクと下流タスクの間には固有のギャップがある。 従来の事前学習方法は、下流のタスクに適応しないため、知識伝達に十分な効果が得られない。 そこで本研究では,gnn上での自己教師付きタスクを補助タスクとして効果的に活用し,対象タスクを支援する新しいトランスファー学習パラダイムを提案する。 提案手法は,微調整段階において,異なる補助タスクと目標タスクを適応的に選択・結合する。 補助タスクと対象タスクの整合性を定量化し,補助タスクの重み付けを学習するための適応補助損失重み付けモデルを設計する。 さらに,メタ学習を通じて重み付けモデルを学習する。 本手法は,多タスク学習だけでなく,事前学習や微調整にも有効である。 複数の下流タスクに対する総合的な実験により,提案手法は目標タスクと補助タスクを効果的に組み合わせ,最先端手法と比較して性能を著しく向上できることを示した。

Graph neural networks (GNNs) is widely used to learn a powerful representation of graph-structured data. Recent work demonstrates that transferring knowledge from self-supervised tasks to downstream tasks could further improve graph representation. However, there is an inherent gap between self-supervised tasks and downstream tasks in terms of optimization objective and training data. Conventional pre-training methods may be not effective enough on knowledge transfer since they do not make any adaptation for downstream tasks. To solve such problems, we propose a new transfer learning paradigm on GNNs which could effectively leverage self-supervised tasks as auxiliary tasks to help the target task. Our methods would adaptively select and combine different auxiliary tasks with the target task in the fine-tuning stage. We design an adaptive auxiliary loss weighting model to learn the weights of auxiliary tasks by quantifying the consistency between auxiliary tasks and the target task. In addition, we learn the weighting model through meta-learning. Our methods can be applied to various transfer learning approaches, it performs well not only in multi-task learning but also in pre-training and fine-tuning. Comprehensive experiments on multiple downstream tasks demonstrate that the proposed methods can effectively combine auxiliary tasks with the target task and significantly improve the performance compared to state-of-the-art methods.
翻訳日:2021-07-20 20:47:28 公開日:2021-07-19
# (参考訳) VisDrone-CC2020: ドローンの群衆が挑戦を数えるビジョン [全文訳有]

VisDrone-CC2020: The Vision Meets Drone Crowd Counting Challenge Results ( http://arxiv.org/abs/2107.08766v1 )

ライセンス: CC BY 4.0
Dawei Du, Longyin Wen, Pengfei Zhu, Heng Fan, Qinghua Hu, Haibin Ling, Mubarak Shah, Junwen Pan, Ali Al-Ali, Amr Mohamed, Bakour Imene, Bin Dong, Binyu Zhang, Bouchali Hadia Nesma, Chenfeng Xu, Chenzhen Duan, Ciro Castiello, Corrado Mencar, Dingkang Liang, Florian Kr\"uger, Gennaro Vessio, Giovanna Castellano, Jieru Wang, Junyu Gao, Khalid Abualsaud, Laihui Ding, Lei Zhao, Marco Cianciotta, Muhammad Saqib, Noor Almaadeed, Omar Elharrouss, Pei Lyu, Qi Wang, Shidong Liu, Shuang Qiu, Siyang Pan, Somaya Al-Maadeed, Sultan Daud Khan, Tamer Khattab, Tao Han, Thomas Golda, Wei Xu, Xiang Bai, Xiaoqing Xu, Xuelong Li, Yanyun Zhao, Ye Tian, Yingnan Lin, Yongchao Xu, Yuehan Yao, Zhenyu Xu, Zhijian Zhao, Zhipeng Luo, Zhiwei Wei, Zhiyuan Zhao(参考訳) ドローンプラットフォームでの群衆のカウントは、コンピュータビジョンにおける興味深いトピックであり、小さなオブジェクト推論、背景のごちゃごちゃ、広い視点といった新しい課題をもたらす。 しかし、包括的なデータセットが欠如しているため、ドローンが捉えたデータに基づいて群衆をカウントするアルゴリズムはほとんどない。 この目的のために、大規模なデータセットを収集し、第16回欧州コンピュータビジョン会議(ECCV 2020)と合わせてVision Meets Drone Crowd Counting Challenge(VisDrone-C C2020)を組織し、関連分野の開発を促進する。 収集されたデータセットは、トレーニング用の2460ドルの画像と、テスト用の900ドルの画像を含む3360ドルの画像で構成されている。 具体的には、各ビデオフレームのポイントを手動でアノテートする。 VisDrone-CC2020 Challengeに提出された15ドルの研究所のアルゴリズムは14ドルだ。 評価結果の詳細な分析を行い,課題を結論づける。 詳細はウェブサイトで確認できる。

Crowd counting on the drone platform is an interesting topic in computer vision, which brings new challenges such as small object inference, background clutter and wide viewpoint. However, there are few algorithms focusing on crowd counting on the drone-captured data due to the lack of comprehensive datasets. To this end, we collect a large-scale dataset and organize the Vision Meets Drone Crowd Counting Challenge (VisDrone-CC2020) in conjunction with the 16th European Conference on Computer Vision (ECCV 2020) to promote the developments in the related fields. The collected dataset is formed by $3,360$ images, including $2,460$ images for training, and $900$ images for testing. Specifically, we manually annotate persons with points in each video frame. There are $14$ algorithms from $15$ institutes submitted to the VisDrone-CC2020 Challenge. We provide a detailed analysis of the evaluation results and conclude the challenge. More information can be found at the website: \url{http://www.aiskyeye. com/}.
翻訳日:2021-07-20 20:31:50 公開日:2021-07-19
# (参考訳) 深部ホログラフィー推定に基づく高精度航空画像マッチング [全文訳有]

Precise Aerial Image Matching based on Deep Homography Estimation ( http://arxiv.org/abs/2107.08768v1 )

ライセンス: CC BY 4.0
Myeong-Seok Oh, Yong-Ju Lee, Seong-Whan Lee(参考訳) 航空画像登録またはマッチングは、異なる環境で撮影された2つの航空画像を調整する幾何学的プロセスである。 正確な変換パラメータの推定は、時間、天気、視点といった様々な環境によって妨げられる。 航空画像の特徴は、主に建物や道路による直線で構成されている。 したがって、2つの画像間のホモグラフィパラメータを直接推定すると直線が歪む。 本稿では, 様々な変換パラメータを段階的に推定することにより, 2つの空中画像に精度よく一致する深層ホモグラフィアライメントネットワークを提案する。 提案するネットワークは,変換パラメータを段階的に解析することにより,高い自由度でマッチングネットワークを訓練することができる。 ホモグラフィ変換を適用することにより、精度マッチング性能が向上した。 さらに,学習が困難であるホモグラフィ推定ネットワークを効果的に学習する手法を提案する。 航空画像登録のための公開学習データが存在しないため,本稿では,ランダムホモグラフィ変換を一定の範囲で適用した一対の画像を用いて学習を行う。 したがって,ディープホモグラフィアライメントネットワークは従来の手法と比較して精度の高いマッチング性能を示すことが確認できた。

Aerial image registration or matching is a geometric process of aligning two aerial images captured in different environments. Estimating the precise transformation parameters is hindered by various environments such as time, weather, and viewpoints. The characteristics of the aerial images are mainly composed of a straight line owing to building and road. Therefore, the straight lines are distorted when estimating homography parameters directly between two images. In this paper, we propose a deep homography alignment network to precisely match two aerial images by progressively estimating the various transformation parameters. The proposed network is possible to train the matching network with a higher degree of freedom by progressively analyzing the transformation parameters. The precision matching performances have been increased by applying homography transformation. In addition, we introduce a method that can effectively learn the difficult-to-learn homography estimation network. Since there is no published learning data for aerial image registration, in this paper, a pair of images to which random homography transformation is applied within a certain range is used for learning. Hence, we could confirm that the deep homography alignment network shows high precision matching performance compared with conventional works.
翻訳日:2021-07-20 20:17:16 公開日:2021-07-19
# (参考訳) 不確実性推定を用いた関節皮膚病変分類と信頼度モデル [全文訳有]

Joint Dermatological Lesion Classification and Confidence Modeling with Uncertainty Estimation ( http://arxiv.org/abs/2107.08770v1 )

ライセンス: CC BY 4.0
Gun-Hee Lee, Han-Bin Ko, Seong-Whan Lee(参考訳) 深層学習は皮膚の欠陥や異常を検出するための皮膚鏡画像の解釈において重要な役割を果たしている。 しかし,現在の皮膚疾患解析の深層学習ソリューションは,不確実性の重要性を強調する確率論的予測の提供に限られている。 この不確実性の概念は各特徴に対する信頼度を与え、不明瞭なデータの一般化が不十分な過信予測を防止する。 本稿では,皮膚学的な分類と不確実性評価を共同で検討する枠組みを提案する。 遅延空間における入力画像の環境差に起因する不確実な特徴や望ましくない変化を避けるため、各特徴の信頼度を信頼ネットワークからプールする。 定性的な結果から,不確かさのモデル化は,各予測に対するモデル信頼度を定量化するだけでなく,信頼度に注目する階層の分類にも役立ち,皮膚疾患分類の精度を向上させることが示唆された。 提案手法の可能性を2つの最先端のdermoscopicデータセット(isic 2018とisic 2019)で実証する。

Deep learning has played a major role in the interpretation of dermoscopic images for detecting skin defects and abnormalities. However, current deep learning solutions for dermatological lesion analysis are typically limited in providing probabilistic predictions which highlights the importance of concerning uncertainties. This concept of uncertainty can provide a confidence level for each feature which prevents overconfident predictions with poor generalization on unseen data. In this paper, we propose an overall framework that jointly considers dermatological classification and uncertainty estimation together. The estimated confidence of each feature to avoid uncertain feature and undesirable shift, which are caused by environmental difference of input image, in the latent space is pooled from confidence network. Our qualitative results show that modeling uncertainties not only helps to quantify model confidence for each prediction but also helps classification layers to focus on confident features, therefore, improving the accuracy for dermatological lesion classification. We demonstrate the potential of the proposed approach in two state-of-the-art dermoscopic datasets (ISIC 2018 and ISIC 2019).
翻訳日:2021-07-20 20:03:30 公開日:2021-07-19
# (参考訳) 複数の超広帯域ラング計測による移動ロボットの相対的位置推定 [全文訳有]

Relative Localization of Mobile Robots with Multiple Ultra-WideBand Ranging Measurements ( http://arxiv.org/abs/2107.08842v1 )

ライセンス: CC0 1.0
Zhiqiang Cao and Ran Liu and Chau Yuen and Achala Athukorala and Benny Kai Kiat Ng and Muraleetharan Mathanraj and U-Xuan Tan(参考訳) 環境に関する事前知識の取得が不可能である緊急対応など、多くのアプリケーションにおいて、インフラストラクチャのない自律型ロボット間の相対的ローカライゼーションは、ナビゲーション、経路計画、および形成を達成するために不可欠である。 従来のUWB(Ultra-WideBand)ベースのアプローチは、ロボット間の距離を適切に推定するが、相対的なポーズ(変位と向きを含む)を得るのは難しい。 ロボット群間の相対的なポーズを,複数のUWB範囲のノードを各ロボットに装備することで推定する手法を提案する。 両ロボット間のポーズは、全UWBノードからの距離測定の残差を最小化することで決定する。 局所化精度を向上させるため,スライディングウインドウを用いた最適化により,オドメトリー制約を利用する。 最適化されたポーズは、移動ロボットのグループ間のポーズトラッキングのための粒子フィルターのオドメトリと融合される。 提案手法の有効性を検証するために広範な実験を行った。

Relative localization between autonomous robots without infrastructure is crucial to achieve their navigation, path planning, and formation in many applications, such as emergency response, where acquiring a prior knowledge of the environment is not possible. The traditional Ultra-WideBand (UWB)-based approach provides a good estimation of the distance between the robots, but obtaining the relative pose (including the displacement and orientation) remains challenging. We propose an approach to estimate the relative pose between a group of robots by equipping each robot with multiple UWB ranging nodes. We determine the pose between two robots by minimizing the residual error of the ranging measurements from all UWB nodes. To improve the localization accuracy, we propose to utilize the odometry constraints through a sliding window-based optimization. The optimized pose is then fused with the odometry in a particle filtering for pose tracking among a group of mobile robots. We have conducted extensive experiments to validate the effectiveness of the proposed approach.
翻訳日:2021-07-20 19:51:37 公開日:2021-07-19
# (参考訳) 軌道圧縮におけるニューラルネットワークの有効性の探索と逆問題 [全文訳有]

Exploring the efficacy of neural networks for trajectory compression and the inverse problem ( http://arxiv.org/abs/2107.08849v1 )

ライセンス: CC BY 4.0
Theodoros Ntakouris(参考訳) 本論文では, ニューラルネットワークを用いて, 非線形軌道の文脈における初期値問題の解を推定する。 このような軌道は、重力、推力、引力、遠心力、温度、周囲の空気密度、圧力に左右される。 まず、設計パラメータとして指定された一様密度を与えられた軌道点の格子を生成し、次に、圧縮および逆問題タスクにおけるニューラルネットワークの性能について調査する。 誤りの伝搬を考慮した回帰タスクとしてこれを考察する。 目標地点では、半径2kmまでの距離まで、モデルが軌道の初期状態を正確に予測することができ、メートル未満の偏差がある。 任意の次元の軌跡を計算できるシミュレーションベースのトレーニングプロセスと、新しい実世界の評価方法である。

In this document, a neural network is employed in order to estimate the solution of the initial value problem in the context of non linear trajectories. Such trajectories can be subject to gravity, thrust, drag, centrifugal force, temperature, ambient air density and pressure. First, we generate a grid of trajectory points given a specified uniform density as a design parameter and then we investigate the performance of a neural network in a compression and inverse problem task: the network is trained to predict the initial conditions of the dynamics model we used in the simulation, given a target point in space. We investigate this as a regression task, with error propagation in consideration. For target points, up to a radius of 2 kilometers, the model is able to accurately predict the initial conditions of the trajectories, with sub-meter deviation. This simulation-based training process and novel real-world evaluation method is capable of computing trajectories of arbitrary dimensions.
翻訳日:2021-07-20 19:37:09 公開日:2021-07-19
# (参考訳) Ab Initio Particle-based Object Manipulation [全文訳有]

Ab Initio Particle-based Object Manipulation ( http://arxiv.org/abs/2107.08865v1 )

ライセンス: CC BY 4.0
Siwei Chen, Xiao Ma, Yunfan Lu and David Hsu(参考訳) 本稿では,従来のオブジェクトモデルや大規模オブジェクトデータセットを事前学習することなく,新しいオブジェクトをロボット操作するための新しいアプローチであるParticle-based Object Manipulation (Prompt)を提案する。 プロンプトの主要な要素は粒子ベースのオブジェクト表現であり、各粒子は対象の点、その点の局所幾何学的、物理的、その他の特徴、および他の粒子との関係を表現する。 モデルに基づく操作分析のアプローチと同様に、粒子表現は、ロボットが適切な操作アクションを選択するために物体の幾何学とダイナミクスを判断することを可能にする。 データ駆動型アプローチと同様に、粒子表現は視覚センサー入力、特にマルチビューRGB画像からリアルタイムで学習される。 従って、粒子表現は視覚知覚とロボット制御を結びつける。 Promptはモデルベースの推論とデータ駆動学習の両方の利点を組み合わせる。 我々は、Promptが様々な日常的なオブジェクトをうまく扱えることを実証的に示す。 グルーピングやプッシュなど、さまざまな操作タスクを処理する。 我々の実験は、オフラインのトレーニングデータを使用しなくても、Pmptが日々のオブジェクトに対して最先端のデータ駆動の把握方法より優れていることも示している。

This paper presents Particle-based Object Manipulation (Prompt), a new approach to robot manipulation of novel objects ab initio, without prior object models or pre-training on a large object data set. The key element of Prompt is a particle-based object representation, in which each particle represents a point in the object, the local geometric, physical, and other features of the point, and also its relation with other particles. Like the model-based analytic approaches to manipulation, the particle representation enables the robot to reason about the object's geometry and dynamics in order to choose suitable manipulation actions. Like the data-driven approaches, the particle representation is learned online in real-time from visual sensor input, specifically, multi-view RGB images. The particle representation thus connects visual perception with robot control. Prompt combines the benefits of both model-based reasoning and data-driven learning. We show empirically that Prompt successfully handles a variety of everyday objects, some of which are transparent. It handles various manipulation tasks, including grasping, pushing, etc,. Our experiments also show that Prompt outperforms a state-of-the-art data-driven grasping method on the daily objects, even though it does not use any offline training data.
翻訳日:2021-07-20 19:32:44 公開日:2021-07-19
# (参考訳) RingFed:IIDデータのフェデレーション学習における通信コスト削減 [全文訳有]

RingFed: Reducing Communication Costs in Federated Learning on Non-IID Data ( http://arxiv.org/abs/2107.08873v1 )

ライセンス: CC BY 4.0
Guang Yang, Ke Mu, Chunhe Song, Zhijia Yang, and Tierui Gong(参考訳) フェデレートラーニング(Federated Learning)は、生データではなくモデルパラメータを交換することで、各クライアントのプライバシを保護する分散ディープラーニングフレームワークである。 しかし、フェデレートされた学習は、トレーニングプロセス中にかなりの数のモデルパラメータを何度も送信する必要があるため、特に通信ネットワーク帯域幅が限られている場合、高い通信コストに悩まされる。 本稿では,連合学習の学習過程における通信オーバーヘッドを低減する新しいフレームワークであるRingFedを提案する。 提案したRingFedでは、中央サーバと各クライアント間でパラメータを送信する代わりに、更新されたパラメータを各クライアント間で順番に送信し、最終結果のみを中央サーバに送信することで、通信オーバーヘッドを大幅に削減する。 複数回のローカルアップデートの後、クライアントはまずパラメータをセンターサーバに直接ではなく、別の近距離クライアントに送信し、事前集約する。 2つの異なる公開データセットの実験により、RingFedは高速収束、モデル精度、通信コストの低いことが示されている。

Federated learning is a widely used distributed deep learning framework that protects the privacy of each client by exchanging model parameters rather than raw data. However, federated learning suffers from high communication costs, as a considerable number of model parameters need to be transmitted many times during the training process, making the approach inefficient, especially when the communication network bandwidth is limited. This article proposes RingFed, a novel framework to reduce communication overhead during the training process of federated learning. Rather than transmitting parameters between the center server and each client, as in original federated learning, in the proposed RingFed, the updated parameters are transmitted between each client in turn, and only the final result is transmitted to the central server, thereby reducing the communication overhead substantially. After several local updates, clients first send their parameters to another proximal client, not to the center server directly, to preaggregate. Experiments on two different public datasets show that RingFed has fast convergence, high model accuracy, and low communication cost.
翻訳日:2021-07-20 19:17:34 公開日:2021-07-19
# (参考訳) 強化学習における効率的探索のためのマルチモーダル報酬形成 [全文訳有]

Multimodal Reward Shaping for Efficient Exploration in Reinforcement Learning ( http://arxiv.org/abs/2107.08888v1 )

ライセンス: CC BY 4.0
Mingqi Yuan, Mon-on Pun, Yi Chen, Dong Wang, Haojun Li(参考訳) 長期探査能力を維持することは、深層強化学習(DRL)の課題の1つである。 実際には、報酬形成に基づくアプローチを利用して、エージェントがモチベーションを動機付けるための本質的な報酬を提供する。 しかし、既存のIRSモジュールのほとんどは、学習手順を記録・解析するためにアテンダントモデルや追加メモリに依存しており、高い計算複雑性とロバスト性をもたらす。 さらに,グローバルな視点から探索性能を評価することができない,単一の状態が探索に与える影響を過度に強調する。 この問題に対処するために,状態エントロピーに基づく手法を提案し,エージェントが状態空間を公平に訪問することを奨励する。 しかし, 高次元観測環境を扱う場合, 推定誤差やサンプルの複雑さは認められない。 本稿では,余分なモデルやメモリを必要としないエントロピー正規化器の代わりに,ジャイナの公正度指数 (JFI) という新しい指標を導入する。 特に、JFIは本質的な報酬問題を克服し、任意のタスクに一般化することができる。 さらに, 変分オートエンコーダ(vae)モデルを用いて, 状態の終生の新規性を把握する。 最後に、グローバルjfiスコアとローカルステートノベルティを組み合わせることで、探索範囲をより正確に制御するマルチモーダル固有の報酬を形成する。 最後に,Multimodal reward shaping (MMRS)法は,他のベンチマーク手法と比較して高い性能が得られることを示す。

Maintaining long-term exploration ability remains one of the challenges of deep reinforcement learning (DRL). In practice, the reward shaping-based approaches are leveraged to provide intrinsic rewards for the agent to incentivize motivation. However, most existing IRS modules rely on attendant models or additional memory to record and analyze learning procedures, which leads to high computational complexity and low robustness. Moreover, they overemphasize the influence of a single state on exploration, which cannot evaluate the exploration performance from a global perspective. To tackle the problem, state entropy-based methods are proposed to encourage the agent to visit the state space more equitably. However, the estimation error and sample complexity are prohibitive when handling environments with high-dimensional observation. In this paper, we introduce a novel metric entitled Jain's fairness index (JFI) to replace the entropy regularizer, which requires no additional models or memory. In particular, JFI overcomes the vanishing intrinsic rewards problem and can be generalized into arbitrary tasks. Furthermore, we use a variational auto-encoder (VAE) model to capture the life-long novelty of states. Finally, the global JFI score and local state novelty are combined to form a multimodal intrinsic reward, controlling the exploration extent more precisely. Finally, extensive simulation results demonstrate that our multimodal reward shaping (MMRS) method can achieve higher performance in contrast to other benchmark schemes.
翻訳日:2021-07-20 19:00:13 公開日:2021-07-19
# (参考訳) 不確かさモーメントモデリングによる教師なし埋め込み学習 [全文訳有]

Unsupervised Embedding Learning from Uncertainty Momentum Modeling ( http://arxiv.org/abs/2107.08892v1 )

ライセンス: CC BY 4.0
Jiahuan Zhou, Yansong Tang, Bing Su, Ying Wu(参考訳) 既存の非教師なし埋め込み学習手法は、様々な負のデータを探索することによって、与えられた未ラベル画像のインスタンスレベルの局所的識別を強化することに重点を置いている。 しかし, クラス内差が大きく, クラス間差が小さいサンプルは, 学習成績を著しく制限する。 性能限界は、これらのサンプルの外れ値の勾配が消えることによって生じることを正当化する。 さらに、ポジティブなデータ不足やグローバル差別を無視することは教師なし学習にも重大な問題をもたらすが、常に既存の方法によって無視されている。 これらの問題に対処するために,与えられたラベルなし学習サンプルの不確かさを明示的にモデル化し,直接探索する新しい解を提案する。 埋め込み空間内の各サンプルに対する決定論的特徴点を学ぶ代わりに、サンプルの不確かさを表す空間の局在と共分散ベクトルを表す平均ベクトルを持つ確率ガウスによってサンプルを表現することを提案する。 このような不確実性モデリングを、外れ値に取り組むのに役立つ学習の勢いとして活用する。 さらに、上記の問題を緩和するためにさらに採用される学習されたインスタンス固有の分布から、豊富なポジティブな候補を容易に引き出すことができる。 我々の優越性を検証するために, 徹底的な理論的解析と広範な実験を行った。

Existing popular unsupervised embedding learning methods focus on enhancing the instance-level local discrimination of the given unlabeled images by exploring various negative data. However, the existed sample outliers which exhibit large intra-class divergences or small inter-class variations severely limit their learning performance. We justify that the performance limitation is caused by the gradient vanishing on these sample outliers. Moreover, the shortage of positive data and disregard for global discrimination consideration also pose critical issues for unsupervised learning but are always ignored by existing methods. To handle these issues, we propose a novel solution to explicitly model and directly explore the uncertainty of the given unlabeled learning samples. Instead of learning a deterministic feature point for each sample in the embedding space, we propose to represent a sample by a stochastic Gaussian with the mean vector depicting its space localization and covariance vector representing the sample uncertainty. We leverage such uncertainty modeling as momentum to the learning which is helpful to tackle the outliers. Furthermore, abundant positive candidates can be readily drawn from the learned instance-specific distributions which are further adopted to mitigate the aforementioned issues. Thorough rationale analyses and extensive experiments are presented to verify our superiority.
翻訳日:2021-07-20 18:45:44 公開日:2021-07-19
# (参考訳) MEGEX: グラディエントベースの説明可能なAIに対するデータフリーモデル抽出攻撃 [全文訳有]

MEGEX: Data-Free Model Extraction Attack against Gradient-Based Explainable AI ( http://arxiv.org/abs/2107.08909v1 )

ライセンス: CC BY 4.0
Takayuki Miura, Satoshi Hasegawa, Toshiki Shibahara(参考訳) 予測の理由を提供する説明可能な人工知能の進歩は、トレーニングされたモデルでクエリされたデータに対する予測を返すMLaaS(Machine Learning as a Service)のような現実世界でのディープニューラルネットワークの使用を加速することが期待されている。 MLaaSにデプロイされたディープニューラルネットワークは、モデル抽出攻撃の脅威に直面している。 モデル抽出攻撃は知的財産権とプライバシーを侵害する攻撃であり、敵は予測だけを使用してクラウド内の訓練されたモデルを盗む。 特に、データフリーモデル抽出攻撃が最近提案され、より重要になっている。 この攻撃では、敵は入力データを準備する代わりに生成モデルを使用する。 しかし、この攻撃の可能性は、サロゲートデータセットよりも多くのクエリを必要とするため、調査する必要がある。 本稿では、勾配に基づく説明可能なAIに対するデータフリーモデル抽出攻撃であるMEGEXを提案する。 この方法では、敵は説明を使って生成モデルを訓練し、モデルを盗むためのクエリの数を減らす。 提案手法は,svhn と cifar-10 の2m問合せデータに対して 0.97$\times$ と 0.98$\times$ の高精度モデルをそれぞれ再現することを示す。 これは、モデルの解釈可能性とそれらを盗むことの難しさの間にトレードオフがあることを意味する。

The advance of explainable artificial intelligence, which provides reasons for its predictions, is expected to accelerate the use of deep neural networks in the real world like Machine Learning as a Service (MLaaS) that returns predictions on queried data with the trained model. Deep neural networks deployed in MLaaS face the threat of model extraction attacks. A model extraction attack is an attack to violate intellectual property and privacy in which an adversary steals trained models in a cloud using only their predictions. In particular, a data-free model extraction attack has been proposed recently and is more critical. In this attack, an adversary uses a generative model instead of preparing input data. The feasibility of this attack, however, needs to be studied since it requires more queries than that with surrogate datasets. In this paper, we propose MEGEX, a data-free model extraction attack against a gradient-based explainable AI. In this method, an adversary uses the explanations to train the generative model and reduces the number of queries to steal the model. Our experiments show that our proposed method reconstructs high-accuracy models -- 0.97$\times$ and 0.98$\times$ the victim model accuracy on SVHN and CIFAR-10 datasets given 2M and 20M queries, respectively. This implies that there is a trade-off between the interpretability of models and the difficulty of stealing them.
翻訳日:2021-07-20 18:16:31 公開日:2021-07-19
# (参考訳) 機械学習におけるバイアス研究のための合成データセットファミリーの導入 [全文訳有]

Introducing a Family of Synthetic Datasets for Research on Bias in Machine Learning ( http://arxiv.org/abs/2107.08928v1 )

ライセンス: CC BY 4.0
William Blanzeisky, P\'adraig Cunningham, Kenneth Kennedy(参考訳) 機械学習(ML)におけるバイアスの研究の進展に対する重要な障害は、関連するデータセットの可用性である。 このようなデータの感度を考えると、この状況は大きく変わる可能性は低い。 そのため、この研究には合成データの役割がある。 本稿では,このような合成データセットの族について述べる。 データを概観し、偏りのレベルをどのように変化させるかを説明し、データに関する実験の簡単な例を示す。

A significant impediment to progress in research on bias in machine learning (ML) is the availability of relevant datasets. This situation is unlikely to change much given the sensitivity of such data. For this reason, there is a role for synthetic data in this research. In this short paper, we present one such family of synthetic data sets. We provide an overview of the data, describe how the level of bias can be varied, and present a simple example of an experiment on the data.
翻訳日:2021-07-20 18:05:36 公開日:2021-07-19
# (参考訳) MR-to-CT画像合成の周波数短縮 [全文訳有]

Frequency-Supervised MR-to-CT Image Synthesis ( http://arxiv.org/abs/2107.08962v1 )

ライセンス: CC BY 4.0
Zenglin Shi, Pascal Mettes, Guoyan Zheng, and Cees Snoek(参考訳) 本稿では磁気共鳴(MR)画像から合成CT画像を生成する。 この合成CT画像は、MR画像のみが利用可能である場合の放射線治療計画に有用である。 近年のアプローチでは、MR入力からCT出力へのマッピングを学習する畳み込みニューラルネットワークを用いて、この難解な合成問題を解くために大きな進歩を遂げている。 本稿では,既存手法のすべてに共通する限界があることを見いだし,CT画像の高周波領域内および周辺を再構成する手法について述べる。 この制限に対処するため,高頻度MR-CT画像再構成を明示的に向上するために,周波数教師付きディープネットワークを導入する。 本稿では,予測されたct出力を低周波数成分と高周波数成分に分解することを学ぶ周波数分解層を提案し,高周波数逆学習による高周波数再構成を改善するための改良モジュールを提案する。 45組のMR-CT脳画像を用いた新しいデータセットの実験結果から,提案手法の有効性と可能性を示した。 コードは \url{https://github.com/s hizenglin/ frequency-supervised -mr-to-ct-image- synthesis} で入手できる。

This paper strives to generate a synthetic computed tomography (CT) image from a magnetic resonance (MR) image. The synthetic CT image is valuable for radiotherapy planning when only an MR image is available. Recent approaches have made large strides in solving this challenging synthesis problem with convolutional neural networks that learn a mapping from MR inputs to CT outputs. In this paper, we find that all existing approaches share a common limitation: reconstruction breaks down in and around the high-frequency parts of CT images. To address this common limitation, we introduce frequency-supervised deep networks to explicitly enhance high-frequency MR-to-CT image reconstruction. We propose a frequency decomposition layer that learns to decompose predicted CT outputs into low- and high-frequency components, and we introduce a refinement module to improve high-frequency reconstruction through high-frequency adversarial learning. Experimental results on a new dataset with 45 pairs of 3D MR-CT brain images show the effectiveness and potential of the proposed approach. Code is available at \url{https://github.com/s hizenglin/Frequency- Supervised-MR-to-CT- Image-Synthesis}.
翻訳日:2021-07-20 18:00:39 公開日:2021-07-19
# (参考訳) 関連する先行事例の教師なし識別 [全文訳有]

Unsupervised Identification of Relevant Prior Cases ( http://arxiv.org/abs/2107.08973v1 )

ライセンス: CC BY 4.0
Shivangi Bithel, Sumitra S Malagi(参考訳) 文書検索は、法的領域を含むほとんどすべての知識理解領域において役割を担っている。 前例とは、同一または類似の事実または類似の法的問題を含む後続の事件を決定する権限と見なされる裁判所の判断をいう。 本研究では,あるクエリーケースに関連性のある前例を特定するタスクを解くために,異なる教師なしアプローチを提案する。 提案手法はword2vec,doc2vec,sen d2vecなどの単語埋め込みを用いて,tf-idfを用いたコサイン類似度の検出,bm25スコアを用いた関連文書の検索,事前学習モデルとsbertを用いた最も類似したドキュメントの検索,bm25とtf-idfスコアの積を用いたクエリの最も関連するドキュメントの検索である。 精度@10, recall@10, MRR に基づくすべてのメソッドを比較した。 比較分析の結果, TF-IDFスコアをBM25スコアに乗じた結果が最もよいことがわかった。 本稿では,bm25得点を改善するために行った分析についても述べる。

Document retrieval has taken its role in almost all domains of knowledge understanding, including the legal domain. Precedent refers to a court decision that is considered as authority for deciding subsequent cases involving identical or similar facts or similar legal issues. In this work, we propose different unsupervised approaches to solve the task of identifying relevant precedents to a given query case. Our proposed approaches are using word embeddings like word2vec, doc2vec, and sent2vec, finding cosine similarity using TF-IDF, retrieving relevant documents using BM25 scores, using the pre-trained model and SBERT to find the most similar document, and using the product of BM25 and TF-IDF scores to find the most relevant document for a given query. We compared all the methods based on precision@10, recall@10, and MRR. Based on the comparative analysis, we found that the TF-IDF score multiplied by the BM25 score gives the best result. In this paper, we have also presented the analysis that we did to improve the BM25 score.
翻訳日:2021-07-20 17:49:22 公開日:2021-07-19
# (参考訳) OODformer:Out-Of-Dis tribution Detection Transformer [全文訳有]

OODformer: Out-Of-Distribution Detection Transformer ( http://arxiv.org/abs/2107.08976v1 )

ライセンス: CC BY 4.0
Rajat Koner, Poulami Sinhamahapatra, Karsten Roscher, Stephan G\"unnemann, Volker Tresp(参考訳) 画像分類における深刻な問題は、トレーニングされたモデルが、モデルトレーニングで利用可能なデータと同じ分布から派生した入力データに対してうまく機能するが、アウト・オブ・ディストリビューション(OOD)のサンプルでは、はるかに悪化する可能性があることである。 特に、現実世界の安全クリティカルなアプリケーションでは、新しいデータポイントがOODであるかどうかを認識することが重要です。 これまでにOOD検出は、信頼スコア、オートエンコーダベースの再構築、あるいはコントラスト学習によって対処される。 しかし、グローバル画像コンテキストは、分布内とOODサンプルの非局所的対象性を識別するためにはまだ研究されていない。 本稿では,変換器の文脈化機能を利用するOODformerという,第1世代のOOD検出アーキテクチャを提案する。 Trans\-formerを主特徴抽出器として組み込むことで、視覚的注意による共起とともに、対象概念とその識別属性を活用できる。 文脈埋め込みを用いて,クラス条件付き遅延空間類似度とネットワーク信頼度を用いたOOD検出を実証する。 提案手法は,各種データセット間の一般化性の向上を示す。 我々は CIFAR-10/-100 と ImageNet30 で最新の結果を得た。

A serious problem in image classification is that a trained model might perform well for input data that originates from the same distribution as the data available for model training, but performs much worse for out-of-distribution (OOD) samples. In real-world safety-critical applications, in particular, it is important to be aware if a new data point is OOD. To date, OOD detection is typically addressed using either confidence scores, auto-encoder based reconstruction, or by contrastive learning. However, the global image context has not yet been explored to discriminate the non-local objectness between in-distribution and OOD samples. This paper proposes a first-of-its-kind OOD detection architecture named OODformer that leverages the contextualization capabilities of the transformer. Incorporating the trans\-former as the principal feature extractor allows us to exploit the object concepts and their discriminate attributes along with their co-occurrence via visual attention. Using the contextualised embedding, we demonstrate OOD detection using both class-conditioned latent space similarity and a network confidence score. Our approach shows improved generalizability across various datasets. We have achieved a new state-of-the-art result on CIFAR-10/-100 and ImageNet30.
翻訳日:2021-07-20 17:40:56 公開日:2021-07-19
# (参考訳) スキル遷移モデルを用いた階層型ファウショット模倣 [全文訳有]

Hierarchical Few-Shot Imitation with Skill Transition Models ( http://arxiv.org/abs/2107.08981v1 )

ライセンス: CC BY 4.0
Kourosh Hakhamaneshi, Ruihan Zhao, Albert Zhan, Pieter Abbeel, Michael Laskin(参考訳) 自律エージェントの望ましい特性は、長いホリゾン問題を解き、目に見えないタスクに一般化する能力である。 データ駆動型スキル学習の最近の進歩は、オフラインデータから行動優先事項を抽出することで、エージェントが強化学習による長期タスクの課題を解決することができることを示している。 しかし、行動訓練中に見つからないタスクへの一般化は、依然として顕著な課題である。 そこで本研究では,オフラインデータからスキルを抽出するアルゴリズムであるスキルトランジションモデル(fist)を用いて,数回のダウンストリームデモンストレーションを行い,非認識タスクを一般化する手法を提案する。 FISTは、逆スキルダイナミクスモデル、距離関数を学び、半パラメトリックアプローチを用いて模倣を行う。 その結果,fistは新しい作業に一般化でき,大迷路や7自由度ロボットアームの未発見部分の移動を必要とするナビゲーション実験において,従来は見えない物体をキッチンで操作する必要が生じた。

A desirable property of autonomous agents is the ability to both solve long-horizon problems and generalize to unseen tasks. Recent advances in data-driven skill learning have shown that extracting behavioral priors from offline data can enable agents to solve challenging long-horizon tasks with reinforcement learning. However, generalization to tasks unseen during behavioral prior training remains an outstanding challenge. To this end, we present Few-shot Imitation with Skill Transition Models (FIST), an algorithm that extracts skills from offline data and utilizes them to generalize to unseen tasks given a few downstream demonstrations. FIST learns an inverse skill dynamics model, a distance function, and utilizes a semi-parametric approach for imitation. We show that FIST is capable of generalizing to new tasks and substantially outperforms prior baselines in navigation experiments requiring traversing unseen parts of a large maze and 7-DoF robotic arm experiments requiring manipulating previously unseen objects in a kitchen.
翻訳日:2021-07-20 17:24:37 公開日:2021-07-19
# (参考訳) 因果推論がオンラインプラットフォーム上のエージェンシーと闘う [全文訳有]

Causal Inference Struggles with Agency on Online Platforms ( http://arxiv.org/abs/2107.08995v1 )

ライセンス: CC BY 4.0
Smitha Milli, Luca Belli, Moritz Hardt(参考訳) オンラインプラットフォームは、プラットフォームの変更が関心のさまざまな結果に因果的にどのように影響するかを理解するために、ランダム化実験を定期的に実施する。 しかし、オンラインプラットフォームにおける実験は、有意義な監視とユーザーの同意の欠如によって批判されている。 プラットフォームは利用者により大きなエージェンシーを与えるため、利用者が治療を受けるか否かを制御する実験の代替として、興味ある治療に自己選択する観察的研究を行うことが可能である。 本稿では,オンラインプラットフォーム上でのユーザ自己選択による観察研究の有効性を評価するために,Twitter上で4つの大規模内部スタディ比較を行った。 研究内比較では、同じ対象集団のランダム化実験の結果をいかに効果的に再現するかに基づいて、観察的研究による治療効果を評価する。 グループ平均推定器におけるナイーブな差異,正確なマッチング,回帰調整,逆重み付けの確率をテストし,その有効性を検証した。 いずれの場合においても、全ての観測推定値が類似したランダム化実験から地上推定値の回復に乏しい。 いずれの場合も、観測的な推定値がランダム化された推定値の反対の符号を持つ。 以上の結果から,オンラインプラットフォームにおけるランダム化実験に代わる,ユーザの自己選択による観察研究は不十分であることが示唆された。 以上の結果について考察した上で, 因果推論の成功は, 利用者により大きなエージェントを提供する当初の動機と矛盾する可能性があることを示唆する「catch-22」を仮定した。

Online platforms regularly conduct randomized experiments to understand how changes to the platform causally affect various outcomes of interest. However, experimentation on online platforms has been criticized for having, among other issues, a lack of meaningful oversight and user consent. As platforms give users greater agency, it becomes possible to conduct observational studies in which users self-select into the treatment of interest as an alternative to experiments in which the platform controls whether the user receives treatment or not. In this paper, we conduct four large-scale within-study comparisons on Twitter aimed at assessing the effectiveness of observational studies derived from user self-selection on online platforms. In a within-study comparison, treatment effects from an observational study are assessed based on how effectively they replicate results from a randomized experiment with the same target population. We test the naive difference in group means estimator, exact matching, regression adjustment, and inverse probability of treatment weighting while controlling for plausible confounding variables. In all cases, all observational estimates perform poorly at recovering the ground-truth estimate from the analogous randomized experiments. In all cases except one, the observational estimates have the opposite sign of the randomized estimate. Our results suggest that observational studies derived from user self-selection are a poor alternative to randomized experimentation on online platforms. In discussing our results, we postulate "Catch-22"s that suggest that the success of causal inference in these settings may be at odds with the original motivations for providing users with greater agency.
翻訳日:2021-07-20 17:08:23 公開日:2021-07-19
# (参考訳) 構造化確率勾配MCMC [全文訳有]

Structured Stochastic Gradient MCMC ( http://arxiv.org/abs/2107.09028v1 )

ライセンス: CC BY 4.0
Antonios Alexos, Alex Boyd, Stephan Mandt(参考訳) 確率的勾配マルコフ連鎖モンテカルロ(sgmcmc)は、ベイズニューラルネットワークのような大規模モデルにおけるベイズ推論の金標準であると考えられている。 これらのモデルでは、実践者は速度と精度のトレードオフに直面しているため、変分推論(VI)が好まれる。 残念ながら、VI は後部の分解と機能形式の両方について強い仮定をする。 本研究では,非パラメトリックな変分近似を新たに提案し,近似した後続の関数形式を仮定することなく,アルゴリズムが尊重または破壊すべき正確な依存関係を指定できるようにする。 このアプローチは、修正エネルギー関数で動く新しいランゲヴィン型アルゴリズムに依存しており、潜在変数の一部がマルコフ連鎖の以前の反復のサンプル上で平均化される。 この方法では、統計的依存関係を制御された方法で壊すことができ、チェーンの混合がより速くなる。 このスキームは'ドロップアウト'の方法でさらに変更することができ、さらにスケーラビリティが向上する。 ResNet-20アーキテクチャ上でのスキームの実装により、完全なSGMCMCよりも優れた予測可能性と有効サンプルサイズが得られる。

Stochastic gradient Markov chain Monte Carlo (SGMCMC) is considered the gold standard for Bayesian inference in large-scale models, such as Bayesian neural networks. Since practitioners face speed versus accuracy tradeoffs in these models, variational inference (VI) is often the preferable option. Unfortunately, VI makes strong assumptions on both the factorization and functional form of the posterior. In this work, we propose a new non-parametric variational approximation that makes no assumptions about the approximate posterior's functional form and allows practitioners to specify the exact dependencies the algorithm should respect or break. The approach relies on a new Langevin-type algorithm that operates on a modified energy function, where parts of the latent variables are averaged over samples from earlier iterations of the Markov chain. This way, statistical dependencies can be broken in a controlled way, allowing the chain to mix faster. This scheme can be further modified in a ''dropout'' manner, leading to even more scalability. By implementing the scheme on a ResNet-20 architecture, we obtain better predictive likelihoods and larger effective sample sizes than full SGMCMC.
翻訳日:2021-07-20 16:55:25 公開日:2021-07-19
# (参考訳) 音声分類における局所的・モデル非依存的説明の妥当性について--敵対的事例を用いた対象的調査 [全文訳有]

On the Veracity of Local, Model-agnostic Explanations in Audio Classification: Targeted Investigations with Adversarial Examples ( http://arxiv.org/abs/2107.09045v1 )

ライセンス: CC BY 4.0
Verena Praher, Katharina Prinz, Arthur Flexer, Gerhard Widmer(参考訳) LIMEのような局所的な説明法は、モデルの分類決定に関するモデルに依存しない、ポストホックな説明を生成するツールとして、MIRで人気を博している。 基本的な考え方は、分類器の予測に最も影響を及ぼす分類例の、人間の理解可能な少数の特徴を特定することである。 これらは説明として提示される。 出版物におけるそのような説明の評価は、しばしば、その説明が実際にモデルの予測を引き起こした原因であるかどうかを実際に確かめることなく、人間の期待に合致するものを受け入れる。 本稿では,音声分類タスクにおけるlimeの説明の妥当性についてより深く理解するために,対象とする調査について報告する。 分類器の逆例を意図的に設計し、入力のどの部分がモデルの(強い)予測に対して潜在的に責任を持つかを知る方法を提供します。 LIMEにこれらの敵の予測を説明することで、局所的な説明が実際にこれらの関心領域を検出しているかどうかを調べることができる。 また、LIMEが人間にとってより顕著で容易に気づく摂動を見つけることに成功しているかどうかについても検討する。 以上の結果から,limeは必ずしも最も関連する入力特徴を特定できないため,説明が有用か,あるいは誤解を招くかは明らかでない。

Local explanation methods such as LIME have become popular in MIR as tools for generating post-hoc, model-agnostic explanations of a model's classification decisions. The basic idea is to identify a small set of human-understandable features of the classified example that are most influential on the classifier's prediction. These are then presented as an explanation. Evaluation of such explanations in publications often resorts to accepting what matches the expectation of a human without actually being able to verify if what the explanation shows is what really caused the model's prediction. This paper reports on targeted investigations where we try to get more insight into the actual veracity of LIME's explanations in an audio classification task. We deliberately design adversarial examples for the classifier, in a way that gives us knowledge about which parts of the input are potentially responsible for the model's (wrong) prediction. Asking LIME to explain the predictions for these adversaries permits us to study whether local explanations do indeed detect these regions of interest. We also look at whether LIME is more successful in finding perturbations that are more prominent and easily noticeable for a human. Our results suggest that LIME does not necessarily manage to identify the most relevant input features and hence it remains unclear whether explanations are useful or even misleading.
翻訳日:2021-07-20 16:35:52 公開日:2021-07-19
# (参考訳) 表現学習のための遊び的インタラクション [全文訳有]

Playful Interactions for Representation Learning ( http://arxiv.org/abs/2107.09046v1 )

ライセンス: CC BY 4.0
Sarah Young, Jyothish Pari, Pieter Abbeel, Lerrel Pinto(参考訳) 視覚模倣学習における重要な課題の1つは、与えられたタスクに対して大量の専門家のデモンストレーションを集めることである。 遠隔操作や低コストの補助ツールの使用により,人間によるデモンストレーションの収集が容易になる一方で,視覚的な表現や方針を学ぶためには,各タスクに対して100~1000のデモンストレーションが必要であることも少なくない。 これを解決するために、タスク固有のデモを必要としない代替形式のデータに目を向けます。 遊びは、子どもたちが早期学習でスキル、行動、視覚的表現のセットを学ぶために使う基本的な方法である。 重要なのは、playデータは多様でタスクに依存しず、比較的安価であることです。 本研究では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。 19の多様な環境で2時間の遊び心のあるデータを収集し,自己予測学習を用いて視覚的表現を抽出する。 これらの表現から、我々は2つの下流タスク、PushingとStackingの模倣学習を使ってポリシーをトレーニングします。 視覚表現は, 標準行動クローニングよりも一般化し, 必要な実演数の半分しか持たず, 同様の性能を実現できることを示した。 スクラッチからトレーニングされた私たちの表現は、imagenetプリトレーニングされた表現と好意的に比較します。 最後に,様々な事前学習モードが下流タスク学習に与える影響について実験的に分析する。

One of the key challenges in visual imitation learning is collecting large amounts of expert demonstrations for a given task. While methods for collecting human demonstrations are becoming easier with teleoperation methods and the use of low-cost assistive tools, we often still require 100-1000 demonstrations for every task to learn a visual representation and policy. To address this, we turn to an alternate form of data that does not require task-specific demonstrations -- play. Playing is a fundamental method children use to learn a set of skills and behaviors and visual representations in early learning. Importantly, play data is diverse, task-agnostic, and relatively cheap to obtain. In this work, we propose to use playful interactions in a self-supervised manner to learn visual representations for downstream tasks. We collect 2 hours of playful data in 19 diverse environments and use self-predictive learning to extract visual representations. Given these representations, we train policies using imitation learning for two downstream tasks: Pushing and Stacking. We demonstrate that our visual representations generalize better than standard behavior cloning and can achieve similar performance with only half the number of required demonstrations. Our representations, which are trained from scratch, compare favorably against ImageNet pretrained representations. Finally, we provide an experimental analysis on the effects of different pretraining modes on downstream task learning.
翻訳日:2021-07-20 16:22:45 公開日:2021-07-19
# (参考訳) ロボット認識による移動可能な視覚運動制御 [全文訳有]

Know Thyself: Transferable Visuomotor Control Through Robot-Awareness ( http://arxiv.org/abs/2107.09047v1 )

ライセンス: CC BY 4.0
Edward S. Hu, Kun Huang, Oleh Rybkin, Dinesh Jayaraman(参考訳) 新しいロボットをスクラッチからトレーニングするには、通常大量のロボット固有のデータを生成する必要がある。 以前他のロボットで収集したデータを活用して、ロボット固有のデータの必要性を減らしたり、完全に取り除いたりできますか? そこで本研究では,プロピオセプションやキネマティクス,カメラキャリブレーションといった,手軽に利用可能なロボット「知識」を活用した「ロボット認識」ソリューションパラダイムを提案する。 まず, 移動可能でロボットに依存しないworld dynamicsモジュールと, ロボット固有の解析ロボットダイナミクスモジュールを組み合わせるモジュラーダイナミクスモデルを学ぶ。 次に,ロボットの自己と世界を区別する視覚的計画コストを設定した。 シミュレーションおよび実際のロボットにおけるテーブルトップ操作タスクの実験では、これらのプラグインの改善により、ビジュモータコントローラの転送性が劇的に向上し、新規ロボットへのゼロショット転送が可能になった。 プロジェクトウェブサイト: https://hueds.github .io/rac/

Training visuomotor robot controllers from scratch on a new robot typically requires generating large amounts of robot-specific data. Could we leverage data previously collected on another robot to reduce or even completely remove this need for robot-specific data? We propose a "robot-aware" solution paradigm that exploits readily available robot "self-knowledge" such as proprioception, kinematics, and camera calibration to achieve this. First, we learn modular dynamics models that pair a transferable, robot-agnostic world dynamics module with a robot-specific, analytical robot dynamics module. Next, we set up visual planning costs that draw a distinction between the robot self and the world. Our experiments on tabletop manipulation tasks in simulation and on real robots demonstrate that these plug-in improvements dramatically boost the transferability of visuomotor controllers, even permitting zero-shot transfer onto new robots for the very first time. Project website: https://hueds.github .io/rac/
翻訳日:2021-07-20 16:02:48 公開日:2021-07-19
# 推論変調表現

Reasoning-Modulated Representations ( http://arxiv.org/abs/2107.08881v1 )

ライセンス: Link先を確認
Petar Veli\v{c}kovi\'c, Matko Bo\v{s}njak, Thomas Kipf, Alexander Lerchner, Raia Hadsell, Razvan Pascanu, Charles Blundell(参考訳) ニューラルネットワークは、一般化するために堅牢な内部表現を利用する。 それらを学ぶことは難しく、データ分布を密にカバーする大きなトレーニングセットを必要とすることが多い。 我々は、タスクが純粋に不透明ではない共通の設定を研究します。 実際、基盤となるシステムに関する情報(例えば)にアクセスできることが多い。 観測は特定の物理法則に従う必要がある) あらゆる「タブララザ」ニューラルネットワークは、スクラッチから再学習し、データ効率を低下させる必要がある。 我々は,この情報を事前学習した推論モジュールに組み込んで,画素から多種多様な自己教師付き学習環境において,その表現を形作る役割について検討する。 我々のアプローチは、新しいデータ効率表現学習の道を開く。

Neural networks leverage robust internal representations in order to generalise. Learning them is difficult, and often requires a large training set that covers the data distribution densely. We study a common setting where our task is not purely opaque. Indeed, very often we may have access to information about the underlying system (e.g. that observations must obey certain laws of physics) that any "tabula rasa" neural network would need to re-learn from scratch, penalising data efficiency. We incorporate this information into a pre-trained reasoning module, and investigate its role in shaping the discovered representations in diverse self-supervised learning settings from pixels. Our approach paves the way for a new class of data-efficient representation learning.
翻訳日:2021-07-20 15:21:13 公開日:2021-07-19
# 認識型ニューラルネットワーク

Epistemic Neural Networks ( http://arxiv.org/abs/2107.08924v1 )

ライセンス: Link先を確認
Ian Osband, Zheng Wen, Mohammad Asghari, Morteza Ibrahimi, Xiyuan Lu, and Benjamin Van Roy(参考訳) 深層学習における不確実性モデリングのためのインタフェースとして, ENN(textit{epistemic Neural Network)を導入した。 既存の不確実性モデリングのアプローチはすべて ENN として表現でき、任意の ENN はベイズニューラルネットワークと同一視できる。 しかし、この新しい視点は将来の研究に有望ないくつかの方向性をもたらす。 従来の研究では、ニューラルネットワークの確率的推論ツールを開発したが、代わりに、どのニューラルネットワークが確率的推論のツールに適しているのか? 対象分布に対するKL偏差(KL-divergence)を提案する。 ニューラルネットワークガウス過程の推論に基づいて計算テストベッドを開発し、ベンチマークとして \url{https://github.com/d eepmind/enn} でコードをリリースする。 ディープラーニングにおける不確実性モデリングに対するいくつかの標準的アプローチを評価し,その性能に大きな変化があることを見いだした。 我々は,これらの結果の感度に関する洞察を提供し,各指標が逐次的決定問題における性能と高い相関関係にあることを示す。 最後に,新しいENNアーキテクチャが,統計的品質と計算コストの両方で性能を向上させることを示す。

We introduce the \textit{epistemic neural network} (ENN) as an interface for uncertainty modeling in deep learning. All existing approaches to uncertainty modeling can be expressed as ENNs, and any ENN can be identified with a Bayesian neural network. However, this new perspective provides several promising directions for future research. Where prior work has developed probabilistic inference tools for neural networks; we ask instead, `which neural networks are suitable as tools for probabilistic inference?'. We propose a clear and simple metric for progress in ENNs: the KL-divergence with respect to a target distribution. We develop a computational testbed based on inference in a neural network Gaussian process and release our code as a benchmark at \url{https://github.com/d eepmind/enn}. We evaluate several canonical approaches to uncertainty modeling in deep learning, and find they vary greatly in their performance. We provide insight to the sensitivity of these results and show that our metric is highly correlated with performance in sequential decision problems. Finally, we provide indications that new ENN architectures can improve performance in both the statistical quality and computational cost.
翻訳日:2021-07-20 15:21:02 公開日:2021-07-19
# Just Train Twice: グループ情報のトレーニングなしでグループロバスト性を改善する

Just Train Twice: Improving Group Robustness without Training Group Information ( http://arxiv.org/abs/2107.09044v1 )

ライセンス: Link先を確認
Evan Zheran Liu, Behzad Haghgoo, Annie S. Chen, Aditi Raghunathan, Pang Wei Koh, Shiori Sagawa, Percy Liang, Chelsea Finn(参考訳) 経験的リスク最小化(ERM)による標準トレーニングは、特に入力とラベルの間に急激な相関が存在する場合に、特定のグループで平均的かつ低い精度で高い精度を達成するモデルを生成することができる。 群分布的ロバストな最適化 (group DRO) のような、高い最悪のグループ精度を達成する以前のアプローチでは、トレーニングポイントごとに高価なグループアノテーションが必要であるが、そのようなグループアノテーションを使用しないアプローチは通常、満足のいく最悪のグループ精度を達成する。 本稿では,複数のエポックに対して標準ERMモデルを訓練し,次に第1モデルが誤分類したトレーニング例を重み付けする第2モデルを訓練する,単純な2段階アプローチであるJTTを提案する。 直感的には、このアップウェイトは標準ERMモデルが不十分なグループの例であり、最悪のグループのパフォーマンスが向上する。 jttは4つ以上の画像分類と自然言語処理タスクをスプリアス相関で平均し、標準ermとグループdroの間の最悪のグループ精度の75%を閉じる一方で、ハイパーパラメータをチューニングするために小さな検証セットにグループアノテーションを必要とする。

Standard training via empirical risk minimization (ERM) can produce models that achieve high accuracy on average but low accuracy on certain groups, especially in the presence of spurious correlations between the input and label. Prior approaches that achieve high worst-group accuracy, like group distributionally robust optimization (group DRO) require expensive group annotations for each training point, whereas approaches that do not use such group annotations typically achieve unsatisfactory worst-group accuracy. In this paper, we propose a simple two-stage approach, JTT, that first trains a standard ERM model for several epochs, and then trains a second model that upweights the training examples that the first model misclassified. Intuitively, this upweights examples from groups on which standard ERM models perform poorly, leading to improved worst-group performance. Averaged over four image classification and natural language processing tasks with spurious correlations, JTT closes 75% of the gap in worst-group accuracy between standard ERM and group DRO, while only requiring group annotations on a small validation set in order to tune hyperparameters.
翻訳日:2021-07-20 15:20:44 公開日:2021-07-19
# 畳み込みニューラルネットワークによる表情認識

Facial Expressions Recognition with Convolutional Neural Networks ( http://arxiv.org/abs/2107.08640v1 )

ライセンス: Link先を確認
Subodh Lonkar(参考訳) 何世紀もの間、人間は様々なコミュニケーション方法を開発してきた。 しかし、顔の表情ほど自然で本能的な人はほとんどいない。 一方、ニューラルネットワークは嵐によって世界を席巻している。 コンピュータビジョンの領域と表情認識の問題は、まだ触れていないままです。 様々な技術が応用されているが、極めて高い精度を実現し、高度に堅牢なFERシステムを構築することは、人間の顔の不均一な詳細のため、依然として課題である。 本稿では,ニューラルネットワーク,具体的には畳み込みニューラルネットワーク(convolutional neural networks,cnns)を活用して,表情認識システム(fer)の実現に深く取り組む。 我々は、様々なアーキテクチャによるディープラーニングとコンピュータビジョンの基本的な概念を採用し、ハイパーパラメーターを微調整し、様々な最適化手法を実験し、追加のトレーニングデータを使わずにfer2013データセット上で70.10%の最先端のシングルネットワーク精度を示す。

Over the centuries, humans have developed and acquired a number of ways to communicate. But hardly any of them can be as natural and instinctive as facial expressions. On the other hand, neural networks have taken the world by storm. And no surprises, that the area of Computer Vision and the problem of facial expressions recognitions hasn't remained untouched. Although a wide range of techniques have been applied, achieving extremely high accuracies and preparing highly robust FER systems still remains a challenge due to heterogeneous details in human faces. In this paper, we will be deep diving into implementing a system for recognition of facial expressions (FER) by leveraging neural networks, and more specifically, Convolutional Neural Networks (CNNs). We adopt the fundamental concepts of deep learning and computer vision with various architectures, fine-tune it's hyperparameters and experiment with various optimization methods and demonstrate a state-of-the-art single-network-accur acy of 70.10% on the FER2013 dataset without using any additional training data.
翻訳日:2021-07-20 15:19:37 公開日:2021-07-19
# 顔識別のためのシステム解法

A Systematical Solution for Face De-identification ( http://arxiv.org/abs/2107.08581v1 )

ライセンス: Link先を確認
Songlin Yang, Wei Wang, Yuehua Cheng and Jing Dong(参考訳) 顔データのID情報は、個人の信用と財産のセキュリティとより密接に関連しているため、人々は顔データのプライバシー保護に注意を払う。 異なるタスクにおいて、人々は顔の特定(De-ID)に様々な要件を持っているので、これらのDe-ID操作に適合する体系的なソリューションを提案する。 まず、顔の2つの部分(口、鼻、目のような顔の特徴)と表情(表情、ポーズ、照明を含む)を符号化するために、属性のゆがみと生成ネットワークを構築する。 顔交換により、元のIDを完全に削除できる。 第2に,従来の逆解析法とは異なる,顔画像の潜在符号を乱すための逆ベクトルマッピングネットワークを追加する。 これにより、モデルによって認識されるID類似度を低減するために、制限のない逆画像を構築することができる。 本手法は,様々な方法で顔データを柔軟に識別し,画像の画質が向上する。

With the identity information in face data more closely related to personal credit and property security, people pay increasing attention to the protection of face data privacy. In different tasks, people have various requirements for face de-identification (De-ID), so we propose a systematical solution compatible for these De-ID operations. Firstly, an attribute disentanglement and generative network is constructed to encode two parts of the face, which are the identity (facial features like mouth, nose and eyes) and expression (including expression, pose and illumination). Through face swapping, we can remove the original ID completely. Secondly, we add an adversarial vector mapping network to perturb the latent code of the face image, different from previous traditional adversarial methods. Through this, we can construct unrestricted adversarial image to decrease ID similarity recognized by model. Our method can flexibly de-identify the face data in various ways and the processed images have high image quality.
翻訳日:2021-07-20 15:18:37 公開日:2021-07-19
# 機械学習を用いた設計初期における構造設計勧告

Structural Design Recommendations in the Early Design Phase using Machine Learning ( http://arxiv.org/abs/2107.08567v1 )

ライセンス: Link先を確認
Spyridon Ampanavos, Mehdi Nourbakhsh, Chin-Yi Cheng(参考訳) 構造工学の知識は、設計初期段階のアーキテクチャ設計チームにとって重要な意味を持つ。 しかし、アーキテクトやエンジニアは通常、概念的なフェーズで一緒に働くのではなく、実際、構造的エンジニアはしばしばプロセスの後半に呼ばれる。 その結果、設計の更新は難しくなり、完成するのに時間がかかる。 同時に、構造的なフィードバックによってよりよい設計探索を行う機会が失われている。 一般的に、イテレーションが行われる設計プロセスの早い段階では、コスト効率のメリットが大きくなり、デサイン探索が通知されるため、高品質な創造的な結果が得られます。 初期の設計段階における情報探索を容易にするため,基本構造工学タスクの自動化を提案し,計画スケッチから構造レイアウトを自動的に生成する機械学習システムであるApproxiFramerをリアルタイムで導入する。 このシステムは、設計者が構造的含意について十分な知識を持って設計を進めるために、概念段階で実現可能な構造的解決策を提示することでアーキテクトを支援することを目的としている。 本稿では, 直交, 金属, 剛体構造の領域における概念実証実装の性能について述べる。 合成データセットを用いたスケッチレベルの構築計画のための構造設計ソリューションを反復的に生成するために畳み込みニューラルネットワークを訓練し,予測された列の位置において平均2.2%の誤差を達成した。

Structural engineering knowledge can be of significant importance to the architectural design team during the early design phase. However, architects and engineers do not typically work together during the conceptual phase; in fact, structural engineers are often called late into the process. As a result, updates in the design are more difficult and time-consuming to complete. At the same time, there is a lost opportunity for better design exploration guided by structural feedback. In general, the earlier in the design process the iteration happens, the greater the benefits in cost efficiency and informed de-sign exploration, which can lead to higher-quality creative results. In order to facilitate an informed exploration in the early design stage, we suggest the automation of fundamental structural engineering tasks and introduce ApproxiFramer, a Machine Learning-based system for the automatic generation of structural layouts from building plan sketches in real-time. The system aims to assist architects by presenting them with feasible structural solutions during the conceptual phase so that they proceed with their design with adequate knowledge of its structural implications. In this paper, we describe the system and evaluate the performance of a proof-of-concept implementation in the domain of orthogonal, metal, rigid structures. We trained a Convolutional Neural Net to iteratively generate structural design solutions for sketch-level building plans using a synthetic dataset and achieved an average error of 2.2% in the predicted positions of the columns.
翻訳日:2021-07-20 15:16:58 公開日:2021-07-19
# 生成モデルを用いた早期性能駆動設計

Early-Phase Performance-Driven Design using Generative Models ( http://arxiv.org/abs/2107.08572v1 )

ライセンス: Link先を確認
Spyridon Ampanavos, Ali Malkawi(参考訳) 現在のパフォーマンス駆動設計手法は、典型的な設計プロセスへの統合が難しいいくつかの理由から、研究分野以外では広く採用されていない。 初期の設計段階では、特に、最適化とフォームパラメトリゼーションに関連する時間強度と認知負荷は、迅速なイテレーションを必要とする設計探索と相容れない。 本研究では,3次元モデリング環境において直接の相互作用を可能とし,明示的なパラメトリゼーションの必要性を排除し,等価な形状最適化よりも高速な性能駆動幾何生成手法を提案する。 この方法は機械学習技術を使って生成モデルをオフラインでトレーニングする。 生成モデルは、関心のあるパフォーマンス(s)に対処するデータセットに基づいて、最適な実行ジオメトリとそのシミュレーションコンテキストの分布を学習する。 生成モデルの潜在空間をナビゲートすることで、所望の特性を持つジオメトリを迅速に生成することができる。 ケーススタディでは、合成データセットの生成と変分オートエンコーダ(VAE)を最適なソーラーゲインを持つ測地線の生成モデルとして用いることを実証した。 その結果,VAE生成したジオメトリは,少なくとも最適化されたジオメトリと同様に平均的に動作し,より直感的でインタラクティブな早期段階の性能駆動設計支援への道のりが示唆された。

Current performance-driven building design methods are not widely adopted outside the research field for several reasons that make them difficult to integrate into a typical design process. In the early design phase, in particular, the time-intensity and the cognitive load associated with optimization and form parametrization are incompatible with design exploration, which requires quick iteration. This research introduces a novel method for performance-driven geometry generation that can afford interaction directly in the 3d modeling environment, eliminating the need for explicit parametrization, and is multiple orders faster than the equivalent form optimization. The method uses Machine Learning techniques to train a generative model offline. The generative model learns a distribution of optimal performing geometries and their simulation contexts based on a dataset that addresses the performance(s) of interest. By navigating the generative model's latent space, geometries with the desired characteristics can be quickly generated. A case study is presented, demonstrating the generation of a synthetic dataset and the use of a Variational Autoencoder (VAE) as a generative model for geometries with optimal solar gain. The results show that the VAE-generated geometries perform on average at least as well as the optimized ones, suggesting that the introduced method shows a feasible path towards more intuitive and interactive early-phase performance-driven design assistance.
翻訳日:2021-07-20 15:16:37 公開日:2021-07-19
# POMDPにおける強化学習のための構造化世界信念

Structured World Belief for Reinforcement Learning in POMDP ( http://arxiv.org/abs/2107.08577v1 )

ライセンス: Link先を確認
Gautam Singh, Skand Peri, Junghyun Kim, Hyunseok Kim, Sungjin Ahn(参考訳) オブジェクト中心の世界モデルはシーンの構造的な表現を提供し、強化学習と計画において重要なバックボーンとなる。 しかし、既存のアプローチは、信念状態の欠如によって部分的に観測可能な環境に苦しむ。 本稿では,オブジェクト中心の信念状態の学習と推論のためのモデルである構造化世界信念を提案する。 シークエンシャルモンテカルロ(SMC)によって推定され、我々の信念状態は複数の対象中心のシーン仮説を提供する。 オブジェクト表現とSMC粒子の利点を相乗化するために,物体永続性の帰納バイアスを考慮した新しいオブジェクト中心力学モデルを提案する。 これにより、長い間見えない状態であっても、オブジェクトの状態を追跡することができる。 この方式でさらにオブジェクト追跡を容易にするために,従来のモデルでは制限されていた画像内の任意の空間的位置に対して柔軟に対応できるようにした。 実験では、オブジェクト中心の信念がフィルタリングと生成のためにより正確で堅牢な性能を提供することを示す。 さらに,強化学習,計画,指導的推論の性能向上に対する構造化世界信念の有効性を示す。

Object-centric world models provide structured representation of the scene and can be an important backbone in reinforcement learning and planning. However, existing approaches suffer in partially-observable environments due to the lack of belief states. In this paper, we propose Structured World Belief, a model for learning and inference of object-centric belief states. Inferred by Sequential Monte Carlo (SMC), our belief states provide multiple object-centric scene hypotheses. To synergize the benefits of SMC particles with object representations, we also propose a new object-centric dynamics model that considers the inductive bias of object permanence. This enables tracking of object states even when they are invisible for a long time. To further facilitate object tracking in this regime, we allow our model to attend flexibly to any spatial location in the image which was restricted in previous models. In experiments, we show that object-centric belief provides a more accurate and robust performance for filtering and generation. Furthermore, we show the efficacy of structured world belief in improving the performance of reinforcement learning, planning and supervised reasoning.
翻訳日:2021-07-20 15:16:17 公開日:2021-07-19
# Eコマースにおける文脈的ランクアグリゲーションによる学習とアンサンブル

Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce ( http://arxiv.org/abs/2107.08598v1 )

ライセンス: Link先を確認
Xuesi Wang, Guangda Huzhang, Qianying Lin, Qing Da, Dan Shen(参考訳) Eコマースにおけるアンサンブルモデルは、ランキングと収益改善のための複数のサブモデルの予測を組み合わせる。 産業アンサンブルモデルは一般的にディープニューラルネットワークであり、サブモデルから入力された変換率を推測する教師付き学習パラダイムに従っている。 しかし、このプロセスには以下の2つの問題がある。 まず、ポイントワイズスコアリングアプローチは、アイテム間の関係を無視し、均質な表示結果をもたらすが、多様化したディスプレイは、ユーザエクスペリエンスと収益の恩恵を受ける。 第二に、学習パラダイムはランキングメトリクスに焦点を当て、収益を直接最適化しない。 本研究では,文脈的ランクアグリゲータ (RA) でアンサンブルモデルを置き換え,評価器・ジェネレータ最適化 (EGO) によるサブモデルの最適な重み付けを探索する新しいラーニング・トゥ・アンサンブル(LTE)フレームワーク RAEGO を提案する。 従来のランクアグリゲータを改良した新しいランクアグリゲーションアルゴリズムを考案し,2次時間複雑性を持つすべてのアルゴリズムの中で最良平均重み付きkendall tau distance (ktd) を生成する。 最良出力リストはサブモデルのktdメトリック上でパレート最適であるという仮定の下で、我々のraアルゴリズムは最適重みの探索において高い効率と範囲を持つことを示した。 ベイズ最適化と勾配降下のアイデアと組み合わせて、選択されたRAモデルに対して最適な重みを求めるオンライン文脈ブラックボックス最適化タスクを解く。 RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。

Ensemble models in E-commerce combine predictions from multiple sub-models for ranking and revenue improvement. Industrial ensemble models are typically deep neural networks, following the supervised learning paradigm to infer conversion rate given inputs from sub-models. However, this process has the following two problems. Firstly, the point-wise scoring approach disregards the relationships between items and leads to homogeneous displayed results, while diversified display benefits user experience and revenue. Secondly, the learning paradigm focuses on the ranking metrics and does not directly optimize the revenue. In our work, we propose a new Learning-To-Ensemble (LTE) framework RAEGO, which replaces the ensemble model with a contextual Rank Aggregator (RA) and explores the best weights of sub-models by the Evaluator-Generator Optimization (EGO). To achieve the best online performance, we propose a new rank aggregation algorithm TournamentGreedy as a refinement of classic rank aggregators, which also produces the best average weighted Kendall Tau Distance (KTD) amongst all the considered algorithms with quadratic time complexity. Under the assumption that the best output list should be Pareto Optimal on the KTD metric for sub-models, we show that our RA algorithm has higher efficiency and coverage in exploring the optimal weights. Combined with the idea of Bayesian Optimization and gradient descent, we solve the online contextual Black-Box Optimization task that finds the optimal weights for sub-models given a chosen RA model. RA-EGO has been deployed in our online system and has improved the revenue significantly.
翻訳日:2021-07-20 15:16:05 公開日:2021-07-19
# 通信メッセージパッシング変換器を用いたグラフ表現の学習

Learning Attributed Graph Representations with Communicative Message Passing Transformer ( http://arxiv.org/abs/2107.08773v1 )

ライセンス: Link先を確認
Jianwen Chen, Shuangjia Zheng, Ying Song, Jiahua Rao, Yuedong Yang(参考訳) 分子の適切な表現を構築することは、物質科学、化学、薬物設計など多くのタスクの中核にある。 近年の研究では、抽象分子を属性グラフとして、分子表現学習にグラフニューラルネットワーク(GNN)を用いており、分子グラフモデリングにおいて顕著な成果を上げている。 強力だが、現在のモデルは局所的な集約操作に基づいており、高次のグラフ特性を見逃すか、エッジ情報を完全に使用せずにノード情報のみに集中する。 そこで本研究では,ノードとエッジ間のメッセージインタラクションをトランスフォーマアーキテクチャに基づいて強化することにより,分子グラフ表現を改善するための通信型メッセージパッシングトランスフォーマ(compt)ニューラルネットワークを提案する。 分子を完全連結グラフとして扱う従来のトランスフォーマースタイルのGNNとは異なり、グラフ接続誘導バイアスを利用したメッセージ拡散機構を導入し、メッセージエンリッチメント爆発を低減する。 広範な実験により、7つの化学特性データセット(グラフレベルタスク)と2つの化学シフトデータセット(ノードレベルタスク)の最先端ベースラインに対して、提案モデルが優れた性能(平均で約4$\%$)を得た。 また,さらなる可視化研究により,モデルによる表現能力の向上も示された。

Constructing appropriate representations of molecules lies at the core of numerous tasks such as material science, chemistry and drug designs. Recent researches abstract molecules as attributed graphs and employ graph neural networks (GNN) for molecular representation learning, which have made remarkable achievements in molecular graph modeling. Albeit powerful, current models either are based on local aggregation operations and thus miss higher-order graph properties or focus on only node information without fully using the edge information. For this sake, we propose a Communicative Message Passing Transformer (CoMPT) neural network to improve the molecular graph representation by reinforcing message interactions between nodes and edges based on the Transformer architecture. Unlike the previous transformer-style GNNs that treat molecules as fully connected graphs, we introduce a message diffusion mechanism to leverage the graph connectivity inductive bias and reduce the message enrichment explosion. Extensive experiments demonstrated that the proposed model obtained superior performances (around 4$\%$ on average) against state-of-the-art baselines on seven chemical property datasets (graph-level tasks) and two chemical shift datasets (node-level tasks). Further visualization studies also indicated a better representation capacity achieved by our model.
翻訳日:2021-07-20 15:15:37 公開日:2021-07-19
# 強化学習における探索と爆発の分離

Decoupling Exploration and Exploitation in Reinforcement Learning ( http://arxiv.org/abs/2107.08966v1 )

ライセンス: Link先を確認
Lukas Sch\"afer, Filippos Christianos, Josiah Hanna, Stefano V. Albrecht(参考訳) 固有報酬は、強化学習における探索を改善するために一般的に適用される。 しかし、これらのアプローチは非定常的な報酬形成とハイパーパラメータへの強い依存によって不安定に陥る。 本研究では,探索と利用のための個別政策を訓練するDecoupled RL(DeRL)を提案する。 derlはオンポリシーおよびオフポリシーrlアルゴリズムで適用することができる。 複数種類の固有報酬を持つスパース・リワード環境におけるDeRLアルゴリズムの評価を行った。 我々は,derlが本質的報酬の縮小と縮小の速度に対してより頑健であることを示し,本質的動機付けベースラインよりも低い相互作用で同じ評価結果に収束することを示した。

Intrinsic rewards are commonly applied to improve exploration in reinforcement learning. However, these approaches suffer from instability caused by non-stationary reward shaping and strong dependency on hyperparameters. In this work, we propose Decoupled RL (DeRL) which trains separate policies for exploration and exploitation. DeRL can be applied with on-policy and off-policy RL algorithms. We evaluate DeRL algorithms in two sparse-reward environments with multiple types of intrinsic rewards. We show that DeRL is more robust to scaling and speed of decay of intrinsic rewards and converges to the same evaluation returns than intrinsically motivated baselines in fewer interactions.
翻訳日:2021-07-20 15:14:48 公開日:2021-07-19
# マラリア対策のための強化学習の分析

An Analysis of Reinforcement Learning for Malaria Control ( http://arxiv.org/abs/2107.08988v1 )

ライセンス: Link先を確認
Ndivhuwo Makondo, Arinze Lawrence Folarin, Simphiwe Nhlahla Zitha, Sekou Lionel Remy(参考訳) マラリア対策のための政策学習に関する研究は、目的関数と探索空間が特定の構造を持つと仮定して、最適化問題としてしばしば定式化されてきた。 この問題は、マルチアームのバンディット、コンテキストのバンディット、マルコフ決定過程を分離して定式化されている。 さらに、文献における単純で一般的なアルゴリズムの多さを無視しながら、マラリア制御のインスタンスに特有の新しいアルゴリズムの開発に重点を置いている。 本研究は,マラリア対策の定式化を正式に検討し,文献で用いられるいくつかの定式化の包括的分析を行った。 さらに,すべての定式化において複数の強化学習アルゴリズムを実装し解析し,ブラックボックスの最適化と比較する。 従来の研究とは対照的に,高い信頼度に基づく単純なアルゴリズムは優れたマラリア政策を学ぶのに十分であり,マラリアのopenai体育館環境において,より先進的なアルゴリズムよりも優れる傾向を示した。

Previous work on policy learning for Malaria control has often formulated the problem as an optimization problem assuming the objective function and the search space have a specific structure. The problem has been formulated as multi-armed bandits, contextual bandits and a Markov Decision Process in isolation. Furthermore, an emphasis is put on developing new algorithms specific to an instance of Malaria control, while ignoring a plethora of simpler and general algorithms in the literature. In this work, we formally study the formulation of Malaria control and present a comprehensive analysis of several formulations used in the literature. In addition, we implement and analyze several reinforcement learning algorithms in all formulations and compare them to black box optimization. In contrast to previous work, our results show that simple algorithms based on Upper Confidence Bounds are sufficient for learning good Malaria policies, and tend to outperform their more advanced counterparts on the malaria OpenAI Gym environment.
翻訳日:2021-07-20 15:14:38 公開日:2021-07-19
# 安全オフライン強化学習のための制約強化q-learning

Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning ( http://arxiv.org/abs/2107.09003v1 )

ライセンス: Link先を確認
Haoran Xu, Xianyuan Zhan, Xiangyu Zhu(参考訳) 安全オフライン強化学習(RL)の課題を考察し、オフラインデータのみに与えられる安全制約を満たしつつ長期報酬を最大化する政策を環境とのさらなる相互作用なく学習することを目的とする。 この問題は、データ収集が高価か危険である現実世界のRLアプリケーションにとってより魅力的である。 制約満足度を強制することは、特にオフライン環境では、ポリシー分布とデータ分布の間に大きな相違があり、安全制約の価値を見積もる誤りを引き起こすため、簡単ではない。 安全な RL とオフライン RL の手法を組み合わせれば,準最適解のみを学習できることを示す。 そこで我々は,この問題を解決するために,単純で効果的なアルゴリズム Constraints Penalized Q-Learning (CPQ) を開発した。 本手法は,混合行動ポリシーによって生成されたデータの利用を認める。 我々は理論解析を行い,本手法が様々なベンチマーク制御タスクにおいてロバストに学習できることを実証的に示す。

We study the problem of safe offline reinforcement learning (RL), the goal is to learn a policy that maximizes long-term reward while satisfying safety constraints given only offline data, without further interaction with the environment. This problem is more appealing for real world RL applications, in which data collection is costly or dangerous. Enforcing constraint satisfaction is non-trivial, especially in offline settings, as there is a potential large discrepancy between the policy distribution and the data distribution, causing errors in estimating the value of safety constraints. We show that na\"ive approaches that combine techniques from safe RL and offline RL can only learn sub-optimal solutions. We thus develop a simple yet effective algorithm, Constraints Penalized Q-Learning (CPQ), to solve the problem. Our method admits the use of data generated by mixed behavior policies. We present a theoretical analysis and demonstrate empirically that our approach can learn robustly across a variety of benchmark control tasks, outperforming several baselines.
翻訳日:2021-07-20 15:14:21 公開日:2021-07-19
# モデルに基づくハイパーパラメータ最適化の実験的検討

Experimental Investigation and Evaluation of Model-based Hyperparameter Optimization ( http://arxiv.org/abs/2107.08761v1 )

ライセンス: Link先を確認
Eva Bartz and Martin Zaefferer and Olaf Mersmann and Thomas Bartz-Beielstein(参考訳) ランダムフォレストやxgboostといった機械学習アルゴリズムは、より重要になってきており、包括的なデジタル化と可能な限りプロセスの自動化を可能にするために、生産プロセスに組み込まれている。 これらのアルゴリズムのハイパーパラメータは適切に設定されなければならず、ハイパーパラメータチューニングや最適化と呼ばれる。 本稿では、チューナビリティの概念に基づいて、一般的な機械学習アルゴリズムの理論的および実践的な結果の概要を述べる。 この概要には、6つの関連する機械学習アルゴリズムによる30のハイパーパラメータの実験分析が伴っている。 特に、(i)重要なハイパーパラメータのサーベイ、(ii)2つのパラメータチューニング研究、(iii)1つの広範なグローバルパラメータチューニング研究、および(iv)コンセンサスランキングに基づく新しい方法を提供し、複数のアルゴリズムから結果を分析する。 Rパッケージmlrは機械学習モデルの統一インターフェースとして使用される。 RパッケージSPOTは実際のチューニング(最適化)を実行するために使用される。 追加コードはすべて、この論文とともに提供されている。

Machine learning algorithms such as random forests or xgboost are gaining more importance and are increasingly incorporated into production processes in order to enable comprehensive digitization and, if possible, automation of processes. Hyperparameters of these algorithms used have to be set appropriately, which can be referred to as hyperparameter tuning or optimization. Based on the concept of tunability, this article presents an overview of theoretical and practical results for popular machine learning algorithms. This overview is accompanied by an experimental analysis of 30 hyperparameters from six relevant machine learning algorithms. In particular, it provides (i) a survey of important hyperparameters, (ii) two parameter tuning studies, and (iii) one extensive global parameter tuning study, as well as (iv) a new way, based on consensus ranking, to analyze results from multiple algorithms. The R package mlr is used as a uniform interface to the machine learning models. The R package SPOT is used to perform the actual tuning (optimization). All additional code is provided together with this paper.
翻訳日:2021-07-20 15:13:19 公開日:2021-07-19
# GenRadar: レーダ周波数に基づく自己教師型確率カメラ合成

GenRadar: Self-supervised Probabilistic Camera Synthesis based on Radar Frequencies ( http://arxiv.org/abs/2107.08948v1 )

ライセンス: Link先を確認
Carsten Ditzel and Klaus Dietmayer(参考訳) 自律システムは、ナビゲーションと意思決定のために連続的で信頼性の高い環境認識を必要とする。 レーダーは、安定した情報の流入を保証するため、カメラが故障した状況下で頑強に機能し続けている。 しかし、カメラ画像はより直感的で容易に世界への印象を与える。 本研究は, 環境条件下での確率的シーン再構築のための独自の自己学習融合アプローチにおいて, 両センサタイプの相補的強度を組み合わせる。 切り離された確率的自己教師圧縮技術により、両方の高次元測定のメモリ要求を低減した後、提案アルゴリズムは類似性を活用し、訓練中に異なる特徴レベルで両方のドメイン間の対応を確立する。 そして、無線周波数のみに依存する推論時に、自己回帰的で自己完結したプロセスにおいて、カメラ構成要素を逐次予測する。 これらの離散トークンは、最終的にそれぞれの周囲のインストラクティブなビューに変換され、重要なタスクの潜在的な危険を視覚的に知覚することができる。

Autonomous systems require a continuous and dependable environment perception for navigation and decision-making, which is best achieved by combining different sensor types. Radar continues to function robustly in compromised circumstances in which cameras become impaired, guaranteeing a steady inflow of information. Yet, camera images provide a more intuitive and readily applicable impression of the world. This work combines the complementary strengths of both sensor types in a unique self-learning fusion approach for a probabilistic scene reconstruction in adverse surrounding conditions. After reducing the memory requirements of both high-dimensional measurements through a decoupled stochastic self-supervised compression technique, the proposed algorithm exploits similarities and establishes correspondences between both domains at different feature levels during training. Then, at inference time, relying exclusively on radio frequencies, the model successively predicts camera constituents in an autoregressive and self-contained process. These discrete tokens are finally transformed back into an instructive view of the respective surrounding, allowing to visually perceive potential dangers for important tasks downstream.
翻訳日:2021-07-20 15:12:14 公開日:2021-07-19
# CNNによるMPEG-4ビデオの二重圧縮検出

Detection of Double Compression in MPEG-4 Videos Using Refined Features-based CNN ( http://arxiv.org/abs/2107.08939v1 )

ライセンス: Link先を確認
Seung-Hun Nam, Wonhyuk Ahn, Myung-Joon Kwon, In-Jae Yu(参考訳) ダブル圧縮には様々なタイプのビデオ操作が伴い、そのトレースを利用してビデオが偽物かどうかを判断することができる。 このレターはMPEG-4ビデオの二重圧縮を検出する畳み込みニューラルネットワークを提供する。 符号化過程の解析により,二重圧縮によって生じる微妙なアーティファクトを捉えるために,2つの洗練された特徴を生かした。 離散コサイン変換(dct)ヒストグラム特徴は、dct係数の統計特性の変化を効果的に検出し、パラメータに基づく特徴を補助情報として、ネットワークが二重圧縮アーチファクトを学ぶのに役立つ。 現状のネットワークや法医学的手法と比較すると,提案手法は高い性能を示す。

Double compression is accompanied by various types of video manipulation and its traces can be exploited to determine whether a video is a forgery. This Letter presents a convolutional neural network for detecting double compression in MPEG-4 videos. Through analysis of the intra-coding process, we utilize two refined features for capturing the subtle artifacts caused by double compression. The discrete cosine transform (DCT) histogram feature effectively detects the change of statistical characteristics in DCT coefficients and the parameter-based feature is utilized as auxiliary information to help the network learn double compression artifacts. When compared with state-of-the-art networks and forensic method, the results show that the proposed approach achieves a higher performance.
翻訳日:2021-07-20 15:11:59 公開日:2021-07-19
# Translatotron 2:Robust direct speech-to-speech translation

Translatotron 2: Robust direct speech-to-speech translation ( http://arxiv.org/abs/2107.08661v1 )

ライセンス: Link先を確認
Ye Jia, Michelle Tadmor Ramanovich, Tal Remez, Roi Pomerantz(参考訳) 本稿では,エンドツーエンドで訓練可能なニューラル直接音声から音声への翻訳モデルであるtranslatotron 2を提案する。 Translatotron 2は、音声エンコーダ、音素デコーダ、メル-スペクトログラムシンセサイザー、および以前の3つのコンポーネント全てを接続するアテンションモジュールからなる。 実験結果から,トランスラトトロン2は翻訳品質と予測音声の自然性において,トランスラトトロンの限界を大きく上回り,バブリングや長時間停止などの過大世代を緩和することにより,予測音声の堅牢性を大幅に向上させることがわかった。 また,翻訳音声中の音源話者の声を保持する新しい方法を提案する。 トレーニングされたモデルは、ソース話者の声を維持するために制限されており、オリジナルのTranslatotronとは異なり、異なる話者の声で音声を生成することはできない。 新しい手法が単純な連結に基づくデータ拡張と共に使われる場合、訓練されたトランスラトトロン2モデルは各話者の声をスピーカーターンで入力するために保持することができる。

We present Translatotron 2, a neural direct speech-to-speech translation model that can be trained end-to-end. Translatotron 2 consists of a speech encoder, a phoneme decoder, a mel-spectrogram synthesizer, and an attention module that connects all the previous three components. Experimental results suggest that Translatotron 2 outperforms the original Translatotron by a large margin in terms of translation quality and predicted speech naturalness, and drastically improves the robustness of the predicted speech by mitigating over-generation, such as babbling or long pause. We also propose a new method for retaining the source speaker's voice in the translated speech. The trained model is restricted to retain the source speaker's voice, and unlike the original Translatotron, it is not able to generate speech in a different speaker's voice, making the model more robust for production deployment, by mitigating potential misuse for creating spoofing audio artifacts. When the new method is used together with a simple concatenation-based data augmentation, the trained Translatotron 2 model is able to retain each speaker's voice for input with speaker turns.
翻訳日:2021-07-20 15:10:44 公開日:2021-07-19
# BERTの文脈埋め込みを用いた金融ニュースによる株価変動予測

Stock Movement Prediction with Financial News using Contextualized Embedding from BERT ( http://arxiv.org/abs/2107.08721v1 )

ライセンス: Link先を確認
Qinkai Chen(参考訳) ニュースイベントは株式市場に大きな影響を与える可能性がある。 本稿では,ニュースの見出しのみを用いて,金融ニュースイベント後の株価の短期的変動を予測することに関心がある。 そこで本研究では,FT-CE-RNN(Fun-Tuned Contextualized-Embed ding Recurrent Neural Network)と呼ばれるテキストマイニング手法を提案する。 ニュースの静的ベクトル表現(静的埋め込み)を使用する従来のアプローチと比較して,トランスフォーマ(bert)からの双方向エンコーダ表現から生成された見出し(コンテキスト付き埋め込み)のコンテキスト化ベクトル表現を用いる。 本モデルでは,このストックムーブメント予測タスクの最新の結果を得る。 他のベースラインモデルと比較して、精度とトレーディングシミュレーションの両方において大幅に改善されている。 Bloomberg Newsの数百万の見出しに基づくさまざまなトレーディングシミュレーションを通じて、実際のシナリオでこのモデルの有効性を実演する。

News events can greatly influence equity markets. In this paper, we are interested in predicting the short-term movement of stock prices after financial news events using only the headlines of the news. To achieve this goal, we introduce a new text mining method called Fine-Tuned Contextualized-Embed ding Recurrent Neural Network (FT-CE-RNN). Compared with previous approaches which use static vector representations of the news (static embedding), our model uses contextualized vector representations of the headlines (contextualized embeddings) generated from Bidirectional Encoder Representations from Transformers (BERT). Our model obtains the state-of-the-art result on this stock movement prediction task. It shows significant improvement compared with other baseline models, in both accuracy and trading simulations. Through various trading simulations based on millions of headlines from Bloomberg News, we demonstrate the ability of this model in real scenarios.
翻訳日:2021-07-20 15:10:22 公開日:2021-07-19
# トランスフォーマーモデルを用いた臨床関係抽出

Clinical Relation Extraction Using Transformer-based Models ( http://arxiv.org/abs/2107.08957v1 )

ライセンス: Link先を確認
Xi Yang, Zehao Yu, Yi Guo, Jiang Bian and Yonghui Wu(参考訳) 新たに登場したトランスフォーマー技術はnlp研究に多大な影響を与えている。 一般的な英語領域では、トランスフォーマーベースのモデルは様々なNLPベンチマークで最先端のパフォーマンスを達成した。 臨床領域では、臨床応用のためのトランスフォーマーモデルも研究されている。 本研究の目的は,臨床関連抽出に広く用いられている3つのトランスフォーマモデル(bert,roberta,xlnet) を体系的に検討し,臨床領域の情報抽出を容易にするために,臨床前訓練トランスフォーマモデルを用いたオープンソースパッケージを開発することである。 我々は,BERT,RoBERTa,XLNetという3つのトランスフォーマーアーキテクチャに基づいた臨床REモデルを開発した。 これらのモデルを2018 made1.0と2018 n2c2の課題の2つの公開データセットを用いて評価した。 我々は,2つの分類戦略(バイナリ対マルチクラス分類)を比較し,異なる実験環境で候補関係を生成する2つの方法を検討した。 本研究では,3つの変換器モデル(BERT,RoBERTa,XLNet) を比較し,関係抽出を行った。 我々は、RoBERTa-clinical REモデルが2018 MADE1.0データセットにおいて、F1スコア0.8958で最高のパフォーマンスを達成したことを実証した。 2018年のn2c2データセットでは、xlnet-clinicalモデルは最高のf1-score 0.9610を達成した。 以上の結果から,二分分類戦略は臨床関係抽出のための多類分類戦略を一貫して上回っていることが示唆された。 私たちのメソッドとモデルは、https://github.com/u f-hobi-informatics-l ab/ClinicalTransform erRelationExtraction で公開されています。 本研究は,生物医学領域における臨床関係抽出やその他のNLPタスクの実践を改善できると考えている。

The newly emerged transformer technology has a tremendous impact on NLP research. In the general English domain, transformer-based models have achieved state-of-the-art performances on various NLP benchmarks. In the clinical domain, researchers also have investigated transformer models for clinical applications. The goal of this study is to systematically explore three widely used transformer-based models (i.e., BERT, RoBERTa, and XLNet) for clinical relation extraction and develop an open-source package with clinical pre-trained transformer-based models to facilitate information extraction in the clinical domain. We developed a series of clinical RE models based on three transformer architectures, namely BERT, RoBERTa, and XLNet. We evaluated these models using 2 publicly available datasets from 2018 MADE1.0 and 2018 n2c2 challenges. We compared two classification strategies (binary vs. multi-class classification) and investigated two approaches to generate candidate relations in different experimental settings. In this study, we compared three transformer-based (BERT, RoBERTa, and XLNet) models for relation extraction. We demonstrated that the RoBERTa-clinical RE model achieved the best performance on the 2018 MADE1.0 dataset with an F1-score of 0.8958. On the 2018 n2c2 dataset, the XLNet-clinical model achieved the best F1-score of 0.9610. Our results indicated that the binary classification strategy consistently outperformed the multi-class classification strategy for clinical relation extraction. Our methods and models are publicly available at https://github.com/u f-hobi-informatics-l ab/ClinicalTransform erRelationExtraction . We believe this work will improve current practice on clinical relation extraction and other related NLP tasks in the biomedical domain.
翻訳日:2021-07-20 15:10:08 公開日:2021-07-19
# 容器トラクション用ディープオープンスネークトラッカー

Deep Open Snake Tracker for Vessel Tracing ( http://arxiv.org/abs/2107.09049v1 )

ライセンス: Link先を確認
Li Chen, Wenjin Liu, Niranjan Balu, Mahmud Mossa-Basha, Thomas S. Hatsukami, Jenq-Neng Hwang, Chun Yuan(参考訳) 3次元医用画像における血管構造のモデル化による血管の追跡は、血管の健康に有用な情報を提供することができる。 既存のアルゴリズムは開発されているが、特に頭蓋内動脈のような複雑な血管床では、不完全または不正確な血管の追跡のような永続的な問題が存在する。 本稿では3次元画像中の容器をトレースする深層学習に基づく開曲線アクティブな輪郭モデル(DOST)を提案する。 中心線セグメンテーションニューラルネットワークから初期曲線を提案した。 次に、データ駆動型機械知識を用いて初期曲線の伸び方向と血管半径を予測し、アクティブな輪郭モデル(人間の知識として)は曲線の滑らかさと強度の適合性を維持した。 最後に,ほとんどの血管の非ループトポロジーを考慮し,大域接続グラフに最小スパンニング木アルゴリズムを適用して,個別にトレースした容器を木トポロジーに接続した。 Time-of-Flight (TOF) MRA(Time-of-Flight)の頭蓋内動脈データセットを用いてDOSTを評価し,既存のセグメンテーションおよび追跡に基づく血管追跡法よりも優れた性能を示した。 さらに, DOSTは, 異なる画像モダリティ (CTA, MR T1 SPACE) と血管底 (冠動脈) に強い適応性を示した。

Vessel tracing by modeling vascular structures in 3D medical images with centerlines and radii can provide useful information for vascular health. Existing algorithms have been developed but there are certain persistent problems such as incomplete or inaccurate vessel tracing, especially in complicated vascular beds like the intracranial arteries. We propose here a deep learning based open curve active contour model (DOST) to trace vessels in 3D images. Initial curves were proposed from a centerline segmentation neural network. Then data-driven machine knowledge was used to predict the stretching direction and vessel radius of the initial curve, while the active contour model (as human knowledge) maintained smoothness and intensity fitness of curves. Finally, considering the nonloop topology of most vasculatures, individually traced vessels were connected into a tree topology by applying a minimum spanning tree algorithm on a global connection graph. We evaluated DOST on a Time-of-Flight (TOF) MRA intracranial artery dataset and demonstrated its superior performance over existing segmentation-based and tracking-based vessel tracing methods. In addition, DOST showed strong adaptability on different imaging modalities (CTA, MR T1 SPACE) and vascular beds (coronary arteries).
翻訳日:2021-07-20 15:07:53 公開日:2021-07-19
# ブラウン場とスパース格子による高次元シミュレーション最適化

High-Dimensional Simulation Optimization via Brownian Fields and Sparse Grids ( http://arxiv.org/abs/2107.08595v1 )

ライセンス: Link先を確認
Liang Ding, Rui Tuo, Xiaowei Zhang(参考訳) 高次元シミュレーション最適化は、非常に難しい。 本稿では,大域的最適解に収束し,次元の呪いを最小に抑える新しいサンプリングアルゴリズムを提案する。 アルゴリズムは2つの段階からなる。 まず、スパースグリッド実験設計に従ってサンプルを採取し、ブラウン場カーネルを用いたカーネルリッジ回帰により応答面を近似する。 第2に,スパースグリッドの次のレベルからの反復的なサンプリングに,アルゴリズムのサンプリング効率を高める重要な修正を加えて,期待される改善戦略に従う。 応答面の平滑さとシミュレーションノイズの穏やかな条件下において,無騒音および無騒音シミュレーション試料の収束率の上界を定式化する。 これらの上限速度は、実現可能な集合の次元においてわずかにしか劣化せず、目的関数が高次の滑らかさであることが分かっていれば改善することができる。 広範な数値実験により,提案手法が従来の代替案を劇的に上回っていることが示された。

High-dimensional simulation optimization is notoriously challenging. We propose a new sampling algorithm that converges to a global optimal solution and suffers minimally from the curse of dimensionality. The algorithm consists of two stages. First, we take samples following a sparse grid experimental design and approximate the response surface via kernel ridge regression with a Brownian field kernel. Second, we follow the expected improvement strategy -- with critical modifications that boost the algorithm's sample efficiency -- to iteratively sample from the next level of the sparse grid. Under mild conditions on the smoothness of the response surface and the simulation noise, we establish upper bounds on the convergence rate for both noise-free and noisy simulation samples. These upper rates deteriorate only slightly in the dimension of the feasible set, and they can be improved if the objective function is known be of a higher-order smoothness. Extensive numerical experiments demonstrate that the proposed algorithm dramatically outperforms typical alternatives in practice.
翻訳日:2021-07-20 15:06:53 公開日:2021-07-19
# 等変多様体フロー

Equivariant Manifold Flows ( http://arxiv.org/abs/2107.08596v1 )

ライセンス: Link先を確認
Isay Katsman, Aaron Lou, Derek Lim, Qingxuan Jiang, Ser-Nam Lim, Christopher De Sa(参考訳) 多様体上の従順なモデリング分布は、自然科学において長い間重要な目標であった。 近年,このような分布を学習するための汎用機械学習モデルの開発が注目されている。 しかし、多くの応用において、これらの分布は多様体対称性を尊重しなければならない。 本稿では, 任意の多様体上の対称性不変分布を等変多様体フローで学習する理論的基礎について述べる。 量子場理論の文脈で、SU(n)$以上のゲージ不変密度を学習するためにこの手法の実用性を実証する。

Tractably modelling distributions over manifolds has long been an important goal in the natural sciences. Recent work has focused on developing general machine learning models to learn such distributions. However, for many applications these distributions must respect manifold symmetries -- a trait which most previous models disregard. In this paper, we lay the theoretical foundations for learning symmetry-invariant distributions on arbitrary manifolds via equivariant manifold flows. We demonstrate the utility of our approach by using it to learn gauge invariant densities over $SU(n)$ in the context of quantum field theory.
翻訳日:2021-07-20 15:06:38 公開日:2021-07-19
# 確率最適化のための学習率の改善:2つの理論的視点

Improved Learning Rates for Stochastic Optimization: Two Theoretical Viewpoints ( http://arxiv.org/abs/2107.08686v1 )

ライセンス: Link先を確認
Shaojie Li and Yong Liu(参考訳) 確率最適化の一般化性能は、機械学習において中心的な位置を占める。 本稿では,経験的リスク最小化 (ERM) と確率勾配降下 (SGD) の2つの一般的な確率最適化手法について,過剰リスク性能と学習率の向上について検討する。 教師あり学習のためのermとsgdの豊富な一般化解析が存在するが、ermとsgdの現在の理論的理解は、強い凸条件のような凸学習においてより強い仮定を持つか、遅い速度を示し、非凸学習においてあまり研究されない。 これらの課題に乗じて、凸学習における軽度の仮定の下で改善率を提供し、非凸学習における高速化率の導出を目指す。 我々の分析は、安定性と一様収束という2つの一般的な理論的視点にまたがっている。 具体的には、安定状態において、次数 $\mathcal{o} (1/n)$ w.r.t の高い確率率を示す。 ERM と SGD のサンプルサイズ$n$ は、凸学習において軽度な仮定と、予想よりも非凸学習において$\mathcal{O} (1/n)$ のような高い確率率を持つ。 さらに、このタイプの学習速度は、一様収束状態においてより高速に$\mathcal{O} (1/n^2)$に改善される。 ERMとSGDの知識を最大限に活用するために、本論文で提示される学習率は、すべて最先端である。

Generalization performance of stochastic optimization stands a central place in machine learning. In this paper, we investigate the excess risk performance and towards improved learning rates for two popular approaches of stochastic optimization: empirical risk minimization (ERM) and stochastic gradient descent (SGD). Although there exists plentiful generalization analysis of ERM and SGD for supervised learning, current theoretical understandings of ERM and SGD are either have stronger assumptions in convex learning, e.g., strong convexity condition, or show slow rates and less studied in nonconvex learning. Motivated by these problems, we aim to provide improved rates under milder assumptions in convex learning and derive faster rates in nonconvex learning. It is notable that our analysis span two popular theoretical viewpoints: stability and uniform convergence. To be specific, in stability regime, we present high probability rates of order $\mathcal{O} (1/n)$ w.r.t. the sample size $n$ for ERM and SGD with milder assumptions in convex learning and similar high probability rates of order $\mathcal{O} (1/n)$ in nonconvex learning, rather than in expectation. Furthermore, this type of learning rate is improved to faster order $\mathcal{O} (1/n^2)$ in uniform convergence regime. To the best of our knowledge, for ERM and SGD, the learning rates presented in this paper are all state-of-the-art.
翻訳日:2021-07-20 15:06:31 公開日:2021-07-19
# 音響分類における過パラメータ化と一般化

Over-Parameterizatio n and Generalization in Audio Classification ( http://arxiv.org/abs/2107.08933v1 )

ライセンス: Link先を確認
Khaled Koutini, Hamid Eghbal-zadeh, Florian Henkel, Jan Schl\"uter, Gerhard Widmer(参考訳) 畳み込みニューラルネットワーク(CNN)は、マシンビジョン、マシンリスニング、自然言語処理など、さまざまな領域の分類タスクを支配している。 マシンリスニングでは、一般的に非常に優れた一般化能力を示すが、cnnは使用する特定のオーディオ録音装置に敏感であり、音響シーン分類(dcase)コミュニティにおいて重大な問題と認識されている。 本研究では,音響シーン分類モデルの過度パラメータ化と結果の一般化能力との関係について検討する。 具体的には,cnnの幅と深さを異なる条件下でテストする。 その結果,パラメータ数の増加を伴わずとも,視認できないデバイスへの一般化が向上することが示唆された。

Convolutional Neural Networks (CNNs) have been dominating classification tasks in various domains, such as machine vision, machine listening, and natural language processing. In machine listening, while generally exhibiting very good generalization capabilities, CNNs are sensitive to the specific audio recording device used, which has been recognized as a substantial problem in the acoustic scene classification (DCASE) community. In this study, we investigate the relationship between over-parameterizatio n of acoustic scene classification models, and their resulting generalization abilities. Specifically, we test scaling CNNs in width and depth, under different conditions. Our results indicate that increasing width improves generalization to unseen devices, even without an increase in the number of parameters.
翻訳日:2021-07-20 15:06:01 公開日:2021-07-19
# 病理組織像からの髄膜腫の自動評価

Automatic and explainable grading of meningiomas from histopathology images ( http://arxiv.org/abs/2107.08850v1 )

ライセンス: Link先を確認
Jonathan Ganz, Tobias Kirsch, Lucas Hoffmann, Christof A. Bertram, Christoph Hoffmann, Andreas Maier, Katharina Breininger, Ingmar Bl\"umcke, Samir Jabari, Marc Aubreville(参考訳) 髄膜腫は成人で最も多い脳腫瘍の1つである。 悪性度を決定するには、who基準により病理医によって3段階に分類される。 この等級は治療において決定的な役割を担っており、それでも格間不一致の対象となる可能性がある。 本研究は,全スライド画像から得られた全自動髄膜腫に対する3つのアプローチについて述べる。 すべてのアプローチは2段階のパラダイムに従っており、私たちはまず、最先端のオブジェクト検出深層学習ネットワークを用いてスライド中のミトティックな人物の検出に基づいて関心領域を識別する。 この分裂率の高い領域は、生物学的腫瘍の挙動に特徴的なものであると考えられている。 第2段階では,この領域に含まれる情報に基づいて腫瘍悪性度に対応するスコアを3つの異なる設定で算出する。 最初のアプローチでは、この領域からイメージパッチをサンプリングし、回帰はresnetベースのネットワークでエンコードされた形態的特徴に基づいている。 これを、容易にトレース可能かつ説明可能なアプローチである決定された分裂数からロジスティック回帰を学ぶことと比較する。 最後に、両方のアプローチをひとつのネットワークに組み合わせます。 341名の患者から951名のスライドをトレーニングし,43名の患者から141名のスライドを分離して評価した。 すべてのアプローチはWHOグレードと高い相関関係を持つ。 ロジスティック回帰 (logistic regression) と結合アプローチ (combinated approach) は, それぞれ32例, 33例で正しい予測を行い, 画像ベースアプローチでは25例のみを正しく予測した。 スピアマンの相関は0.716、0.792、0.790である。 画像パッチによって提供される形態的特徴がモデル性能を向上しないのは、最初は直感的に思えるかもしれない。 しかし、これはマイトティックカウントが唯一の明確なパラメータであるグレーディングスキームの基準を反映している。

Meningioma is one of the most prevalent brain tumors in adults. To determine its malignancy, it is graded by a pathologist into three grades according to WHO standards. This grade plays a decisive role in treatment, and yet may be subject to inter-rater discordance. In this work, we present and compare three approaches towards fully automatic meningioma grading from histology whole slide images. All approaches are following a two-stage paradigm, where we first identify a region of interest based on the detection of mitotic figures in the slide using a state-of-the-art object detection deep learning network. This region of highest mitotic rate is considered characteristic for biological tumor behavior. In the second stage, we calculate a score corresponding to tumor malignancy based on information contained in this region using three different settings. In a first approach, image patches are sampled from this region and regression is based on morphological features encoded by a ResNet-based network. We compare this to learning a logistic regression from the determined mitotic count, an approach which is easily traceable and explainable. Lastly, we combine both approaches in a single network. We trained the pipeline on 951 slides from 341 patients and evaluated them on a separate set of 141 slides from 43 patients. All approaches yield a high correlation to the WHO grade. The logistic regression and the combined approach had the best results in our experiments, yielding correct predictions in 32 and 33 of all cases, respectively, with the image-based approach only predicting 25 cases correctly. Spearman's correlation was 0.716, 0.792 and 0.790 respectively. It may seem counterintuitive at first that morphological features provided by image patches do not improve model performance. Yet, this mirrors the criteria of the grading scheme, where mitotic count is the only unequivocal parameter.
翻訳日:2021-07-20 15:05:49 公開日:2021-07-19
# 非凸学習のためのTUSLAアルゴリズムの非漸近推定とReLUアクティベーション機能を持つニューラルネットワークへの応用

Non-asymptotic estimates for TUSLA algorithm for non-convex learning with applications to neural networks with ReLU activation function ( http://arxiv.org/abs/2107.08649v1 )

ライセンス: Link先を確認
Dong-Young Lim, Ariel Neufeld, Sotirios Sabanis, Ying Zhang(参考訳) 対象関数が超線形に成長し不連続な確率勾配を持つ非凸確率最適化問題を考える。 このような環境では、Lovasらで導入された未調整確率Langevinアルゴリズム(TUSLA)の非漸近解析を提供する。 (2021). 特に,wasserstein-1とwasserstein-2距離におけるtuslaアルゴリズムの非漸近誤差境界を定式化する。 後者の結果は、予想される過剰リスクの非漸近推定をさらに導出することを可能にする。 主な結果の適用性を説明するために,機械学習の重要なパラダイムであるreluニューラルネットワークを用いたトランスファー学習の例を考察する。 理論的な知見を裏付ける例として数値実験を行った。 そこで本研究では,tuslaアルゴリズムがreluアクティベーション関数を持つニューラルネットワークを含む最適化問題を解くことができることを理論的および数値的に証明する。 さらに, 一般的なアルゴリズム, 例えば, 合成例のシミュレーション結果も提供する。 ADAM, AMSGrad, RMSProp, (vanilla) SGD は超線形成長と対応する確率勾配の不連続性による目的関数の最小化に失敗し, TUSLA アルゴリズムは最適解に急速に収束する。

We consider non-convex stochastic optimization problems where the objective functions have super-linearly growing and discontinuous stochastic gradients. In such a setting, we provide a non-asymptotic analysis for the tamed unadjusted stochastic Langevin algorithm (TUSLA) introduced in Lovas et al. (2021). In particular, we establish non-asymptotic error bounds for the TUSLA algorithm in Wasserstein-1 and Wasserstein-2 distances. The latter result enables us to further derive non-asymptotic estimates for the expected excess risk. To illustrate the applicability of the main results, we consider an example from transfer learning with ReLU neural networks, which represents a key paradigm in machine learning. Numerical experiments are presented for the aforementioned example which supports our theoretical findings. Hence, in this setting, we demonstrate both theoretically and numerically that the TUSLA algorithm can solve the optimization problem involving neural networks with ReLU activation function. Besides, we provide simulation results for synthetic examples where popular algorithms, e.g. ADAM, AMSGrad, RMSProp, and (vanilla) SGD, may fail to find the minimizer of the objective functions due to the super-linear growth and the discontinuity of the corresponding stochastic gradient, while the TUSLA algorithm converges rapidly to the optimal solution.
翻訳日:2021-07-20 15:05:05 公開日:2021-07-19
# テキストを意味的関連画像に置き換えたマルチモーダル対話データセットの構築

Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images ( http://arxiv.org/abs/2107.08685v1 )

ライセンス: Link先を確認
Nyoungwoo Lee, Suwon Shin, Jaegul Choo, Ho-Jin Choi, Sung-Hyun Myaeng(参考訳) マルチモーダル対話システムでは,マルチターン会話の一部として画像を使用することが重要である。 このような対話システムを訓練するには、画像を含むマルチターン対話からなる大規模なデータセットが必要であるが、そのようなデータセットはほとんど存在しない。 本稿では,人間の介入を最小限に抑える45kのマルチモーダル対話データセットを提案する。 このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈類似性に基づくフィルタリング手法を用いて,データセットのコンテキストコヒーレンスを保証する。 データセットの有効性を評価するために,対話文予測タスクの簡単な検索モデルを提案する。 このようなタスクにおける自動計測と人的評価の結果から,我々のデータセットは,文脈に配慮した画像やテキストの理解を必要とするマルチモーダル対話システムのトレーニングデータとして有効に利用できることを示す。 データセットと生成コードはhttps://github.com/s hh1574/multi-modal-d ialogue-datasetで利用可能です。

In multi-modal dialogue systems, it is important to allow the use of images as part of a multi-turn conversation. Training such dialogue systems generally requires a large-scale dataset consisting of multi-turn dialogues that involve images, but such datasets rarely exist. In response, this paper proposes a 45k multi-modal dialogue dataset created with minimal human intervention. Our method to create such a dataset consists of (1) preparing and pre-processing text dialogue datasets, (2) creating image-mixed dialogues by using a text-to-image replacement technique, and (3) employing a contextual-similarit y-based filtering step to ensure the contextual coherence of the dataset. To evaluate the validity of our dataset, we devise a simple retrieval model for dialogue sentence prediction tasks. Automatic metrics and human evaluation results on such tasks show that our dataset can be effectively used as training data for multi-modal dialogue systems which require an understanding of images and text in a context-aware manner. Our dataset and generation code is available at https://github.com/s hh1574/multi-modal-d ialogue-dataset.
翻訳日:2021-07-20 15:03:57 公開日:2021-07-19
# 低リソース言語のための教師なしデータ生成と自己教師なしニューラルマシン翻訳の統合

Integrating Unsupervised Data Generation into Self-Supervised Neural Machine Translation for Low-Resource Languages ( http://arxiv.org/abs/2107.08772v1 )

ライセンス: Link先を確認
Dana Ruiter, Dietrich Klakow, Josef van Genabith, Cristina Espa\~na-Bonet(参考訳) ほとんどの言語の組み合わせでは、並列データはほとんど使用できないか、単に使用できない。 これに対処するために、unsupervised machine translation (umt) はバックトランスレーションやノージングのような合成データ生成技術を用いて大量の単言語データを利用する一方、自己教師付きnmt (ssnmt) はより小さな比較データで並列文を識別し、それらを訓練する。 これまで,SSNMTにUTTデータ生成技術が組み込まれているかは検討されていない。 SSNMT に UMT を組み込むことで,SSNMT と UMT を全テスト言語対で有意に上回り,+4.3 BLEU,+50.8 BLEU,+51.5 over SSNMT,統計的 UMT とハイブリッド UMT をそれぞれ英語と英語で比較した。 さらに,多言語発声自動符号化,ssnmtとバックトランスレーション,バイリンガル微調整の組み合わせにより,少ない単言語データしか利用できない遠隔言語ペアであっても,機械翻訳を学習できることを示した。 BLEUスコアは11.6(スワヒリ語)。

For most language combinations, parallel data is either scarce or simply unavailable. To address this, unsupervised machine translation (UMT) exploits large amounts of monolingual data by using synthetic data generation techniques such as back-translation and noising, while self-supervised NMT (SSNMT) identifies parallel sentences in smaller comparable data and trains on them. To date, the inclusion of UMT data generation techniques in SSNMT has not been investigated. We show that including UMT techniques into SSNMT significantly outperforms SSNMT and UMT on all tested language pairs, with improvements of up to +4.3 BLEU, +50.8 BLEU, +51.5 over SSNMT, statistical UMT and hybrid UMT, respectively, on Afrikaans to English. We further show that the combination of multilingual denoising autoencoding, SSNMT with backtranslation and bilingual finetuning enables us to learn machine translation even for distant language pairs for which only small amounts of monolingual data are available, e.g. yielding BLEU scores of 11.6 (English to Swahili).
翻訳日:2021-07-20 15:03:38 公開日:2021-07-19
# ライブサブタイリングのための同時音声翻訳:遅延からディスプレイへ

Simultaneous Speech Translation for Live Subtitling: from Delay to Display ( http://arxiv.org/abs/2107.08807v1 )

ライセンス: Link先を確認
Alina Karakanta, Sara Papi, Matteo Negri, Marco Turchi(参考訳) コミュニケーションのオーディオヴィジュアル化の増大により、多言語イベントにおけるライブ字幕の必要性はこれまで以上に重要になっている。 プロセスの自動化を目的として,ライブサブタイピングのための同時音声翻訳(SimulST)の実現可能性を探究する。 しかし、SimulSTシステム生成のワード・フォー・ワード・レートは、理解しやすく読みやすい方法で字幕を表示するのに最適ではない。 そこで本研究では,SimulSTシステムを用いて字幕分割の予測を行う。 次に,字幕をスクロール行に表示することで,予測ブレーク構造を利用した表示モードを提案する。 提案手法は, 読み込み速度と遅延の点で, 1) ワードフォーワード, 2) ブロックの表示モードと比較した。 3つの言語対の実験(en$\rightarrow$it, de, fr)では、スクロールラインが許容される読み込み速度を達成する唯一のモードであり、遅延は4秒の閾値に近づいた。 読解可能な字幕の同時翻訳は依然として課題に直面しており,翻訳品質の低下が主な問題であり,今後の研究の方向性を提案する。

With the increased audiovisualisation of communication, the need for live subtitles in multilingual events is more relevant than ever. In an attempt to automatise the process, we aim at exploring the feasibility of simultaneous speech translation (SimulST) for live subtitling. However, the word-for-word rate of generation of SimulST systems is not optimal for displaying the subtitles in a comprehensible and readable way. In this work, we adapt SimulST systems to predict subtitle breaks along with the translation. We then propose a display mode that exploits the predicted break structure by presenting the subtitles in scrolling lines. We compare our proposed mode with a display 1) word-for-word and 2) in blocks, in terms of reading speed and delay. Experiments on three language pairs (en$\rightarrow$it, de, fr) show that scrolling lines is the only mode achieving an acceptable reading speed while keeping delay close to a 4-second threshold. We argue that simultaneous translation for readable live subtitles still faces challenges, the main one being poor translation quality, and propose directions for steering future research.
翻訳日:2021-07-20 15:03:12 公開日:2021-07-19
# MemSum:多段階マルコフ決定過程を用いた長期文書の抽出要約

MemSum: Extractive Summarization of Long Documents using Multi-step Episodic Markov Decision Processes ( http://arxiv.org/abs/2107.08929v1 )

ライセンス: Link先を確認
Nianlong Gu, Elliott Ash, Richard H.R. Hahnloser(参考訳) そこで本研究では,任意の時間段階に富んだ強化学習型抽出要約器であるmemsum(multi-step episodic markov decision process extractive summaryr)を紹介する。 以前のモデルと同様、memsumは要約文を反復的に選択する。 我々の革新は、このタスクにおいて人間が直感的に使用するような要約を行う際に、より広範な情報集合を考えることである: 1) 文章のテキスト内容、2) 文書の全体的テキストコンテキスト、3) 既に抽出された文の集合からなる抽出履歴。 軽量アーキテクチャでは、MemSumは、長いドキュメントデータセット(PubMed、arXiv、GovReport)の最先端のテストセットパフォーマンス(ROUGEスコア)を取得する。 分析の支援は、抽出履歴に対する認識が加わり、ソースドキュメントの冗長性に対するmemsumロバスト性が増すことを示しています。

We introduce MemSum (Multi-step Episodic Markov decision process extractive SUMmarizer), a reinforcement-learni ng-based extractive summarizer enriched at any given time step with information on the current extraction history. Similar to previous models in this vein, MemSum iteratively selects sentences into the summary. Our innovation is in considering a broader information set when summarizing that would intuitively also be used by humans in this task: 1) the text content of the sentence, 2) the global text context of the rest of the document, and 3) the extraction history consisting of the set of sentences that have already been extracted. With a lightweight architecture, MemSum nonetheless obtains state-of-the-art test-set performance (ROUGE score) on long document datasets (PubMed, arXiv, and GovReport). Supporting analysis demonstrates that the added awareness of extraction history gives MemSum robustness against redundancy in the source document.
翻訳日:2021-07-20 15:02:53 公開日:2021-07-19
# 意味的画像分割のための二重相似蒸留

Double Similarity Distillation for Semantic Image Segmentation ( http://arxiv.org/abs/2107.08591v1 )

ライセンス: Link先を確認
Yingchao Feng, Xian Sun, Wenhui Diao, Jihao Li, Xin Gao(参考訳) 高精度と高速のバランスは、セマンティックイメージセグメンテーションにおいて常に難しい課題であった。 コンパクトセグメンテーションネットワークは限られた資源ではより広く使われるが、その性能は制限されている。 本稿では,残差学習とグローバルアグリゲーションに動機づけられた2重相似蒸留(dsd)と呼ばれる簡易かつ汎用的かつ効果的な知識蒸留フレームワークを提案し,画素次元とカテゴリ次元の相似性知識をそれぞれ捉えることにより,既存の全てのコンパクトネットワークの分類精度を向上させる。 具体的には,複数の層にまたがるより詳細な空間依存性を捉えるために,残像マップを用いたPSDモジュールを提案する。 出口法と比較すると、PSDモジュールは計算量を大幅に削減し、拡張が容易である。 さらに,セマンティックセグメンテーションタスクと他のコンピュータビジョンタスクの特性の違いを考慮して,この相関行列を構築することにより,コンパクトセグメンテーションネットワークがグローバルカテゴリ相関を強化するのに役立つカテゴリ別類似性蒸留(csd)モジュールを提案する。 これら2つのモジュールを組み合わせることで、dsdフレームワークには余分なパラメータがなく、フロップの最小増加しかありません。 cityscapes、camvid、ade20k、pascal voc 2012を含む4つの挑戦的なデータセットに関する広範な実験では、dsdが現在の最先端の手法よりも優れており、その効果と汎用性が証明されている。 コードとモデルは一般公開される予定だ。

The balance between high accuracy and high speed has always been a challenging task in semantic image segmentation. Compact segmentation networks are more widely used in the case of limited resources, while their performances are constrained. In this paper, motivated by the residual learning and global aggregation, we propose a simple yet general and effective knowledge distillation framework called double similarity distillation (DSD) to improve the classification accuracy of all existing compact networks by capturing the similarity knowledge in pixel and category dimensions, respectively. Specifically, we propose a pixel-wise similarity distillation (PSD) module that utilizes residual attention maps to capture more detailed spatial dependencies across multiple layers. Compared with exiting methods, the PSD module greatly reduces the amount of calculation and is easy to expand. Furthermore, considering the differences in characteristics between semantic segmentation task and other computer vision tasks, we propose a category-wise similarity distillation (CSD) module, which can help the compact segmentation network strengthen the global category correlation by constructing the correlation matrix. Combining these two modules, DSD framework has no extra parameters and only a minimal increase in FLOPs. Extensive experiments on four challenging datasets, including Cityscapes, CamVid, ADE20K, and Pascal VOC 2012, show that DSD outperforms current state-of-the-art methods, proving its effectiveness and generality. The code and models will be publicly available.
翻訳日:2021-07-20 14:58:29 公開日:2021-07-19
# LeViT-UNet: 医療画像セグメンテーションのためのトランスフォーマーによるより高速なエンコーダ

LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2107.08623v1 )

ライセンス: Link先を確認
Guoping Xu, Xingrong Wu, Xuan Zhang, Xinwei He(参考訳) 医療画像セグメンテーションはコンピュータによる診断・治療システムの開発において重要な役割を担っているが、多くの課題に直面している。 ここ数年、CNN(例えばU-Net)に基づく一般的なエンコーダデコーダアーキテクチャは、医療画像セグメンテーションのタスクにうまく適用されてきた。 しかし、畳み込み操作の局所性から、グローバルな文脈と長距離空間関係の学習における限界を示す。 近年、数名の研究者がエンコーダとデコーダの両方のコンポーネントにトランスフォーマーを導入して有望な結果を得たが、その効率はトランスフォーマーの計算量が高いためさらなる改善が必要となる。 本稿では,u-netアーキテクチャにレビットトランスフォーマーモジュールを組み込んだ,高速かつ正確な医用画像セグメンテーションを実現するrevit-unetを提案する。 具体的には、LeViT-UNetのエンコーダとしてLeViTを使用し、Transformerブロックの精度と効率をよりよくトレードオフする。 さらに、トランスフォーマーブロックと浮揚の畳み込みブロックからのマルチスケール特徴マップをスキップ接続によりデコーダに渡すことにより、特徴マップの空間情報を効果的に再利用することができる。 提案手法は,synapse や acdc などいくつかの難解な医用画像セグメンテーションベンチマークにおいて,様々な手法と比較し,優れた性能が得られることを示す。 コードとモデルはhttps://github.com/a pple 1986/LeViT_UNetで公開されている。

Medical image segmentation plays an essential role in developing computer-assisted diagnosis and therapy systems, yet still faces many challenges. In the past few years, the popular encoder-decoder architectures based on CNNs (e.g., U-Net) have been successfully applied in the task of medical image segmentation. However, due to the locality of convolution operations, they demonstrate limitations in learning global context and long-range spatial relations. Recently, several researchers try to introduce transformers to both the encoder and decoder components with promising results, but the efficiency requires further improvement due to the high computational complexity of transformers. In this paper, we propose LeViT-UNet, which integrates a LeViT Transformer module into the U-Net architecture, for fast and accurate medical image segmentation. Specifically, we use LeViT as the encoder of the LeViT-UNet, which better trades off the accuracy and efficiency of the Transformer block. Moreover, multi-scale feature maps from transformer blocks and convolutional blocks of LeViT are passed into the decoder via skip-connection, which can effectively reuse the spatial information of the feature maps. Our experiments indicate that the proposed LeViT-UNet achieves better performance comparing to various competing methods on several challenging medical image segmentation benchmarks including Synapse and ACDC. Code and models will be publicly available at https://github.com/a pple1986/LeViT_UNet.
翻訳日:2021-07-20 14:58:02 公開日:2021-07-19
# 時間一貫性を用いた時間経過画像における半教師付き細胞検出

Semi-supervised Cell Detection in Time-lapse Images Using Temporal Consistency ( http://arxiv.org/abs/2107.08639v1 )

ライセンス: Link先を確認
Kazuya Nishimura and Hyeonwoo Cho and Ryoma Bise(参考訳) 細胞検出は、顕微鏡画像から細胞中心体の近似位置を検出するタスクである。 近年,畳み込みニューラルネットワークに基づくアプローチが有望な性能を達成している。 しかし,これらの手法では,各撮影条件に対して一定量のアノテーションが必要となる。 このアノテーションは時間がかかり、労力がかかるタスクです。 そこで本研究では,ラベル付き画像とラベル付き画像との時間差シーケンスを効果的に利用する半教師付きセル検出手法を提案する。 まず,一方のラベル付き画像を用いたセル検出ネットワークを訓練し,未ラベル付き画像と訓練されたネットワークを推定する。 次に, 検出された細胞をラベル付きフレームから遠方へ追跡することで, 高信頼位置を推定から選択する。 次に、追跡結果から擬似ラベルを生成し、擬似ラベルを用いてネットワークを訓練する。 提案手法を公開データセットの7つの条件で評価し,他の半教師付き手法と比較して最良の結果を得た。 私たちのコードはhttps://github.com/n aivete5656/SCDTCで利用可能です。

Cell detection is the task of detecting the approximate positions of cell centroids from microscopy images. Recently, convolutional neural network-based approaches have achieved promising performance. However, these methods require a certain amount of annotation for each imaging condition. This annotation is a time-consuming and labor-intensive task. To overcome this problem, we propose a semi-supervised cell-detection method that effectively uses a time-lapse sequence with one labeled image and the other images unlabeled. First, we train a cell-detection network with a one-labeled image and estimate the unlabeled images with the trained network. We then select high-confidence positions from the estimations by tracking the detected cells from the labeled frame to those far from it. Next, we generate pseudo-labels from the tracking results and train the network by using pseudo-labels. We evaluated our method for seven conditions of public datasets, and we achieved the best results relative to other semi-supervised methods. Our code is available at https://github.com/n aivete5656/SCDTC
翻訳日:2021-07-20 14:57:36 公開日:2021-07-19
# マルチフォーカスgaussian neighbor attentionと大規模ベンチマークによる映像群像定位

Video Crowd Localization with Multi-focus Gaussian Neighbor Attention and a Large-Scale Benchmark ( http://arxiv.org/abs/2107.08645v1 )

ライセンス: Link先を確認
Haopeng Li, Lingbo Liu, Kunlin Yang, Shinan Liu, Junyu Gao, Bin Zhao, Rui Zhang, Jun Hou(参考訳) これは、混雑したビデオの中で人間の頭の位置を正確に推定することを目的としている。 本研究では,人間のモビリティの空間的-時間的依存性をモデル化するために,入力映像の空間トポロジ構造を維持しつつ,長距離対応を効果的に活用できるマルチフォーカスガウス近傍注意(gna)を提案する。 特に我々のGNAは、装備されたマルチフォーカス機構を用いて、人間の頭部のスケールの変動をうまく捉えることができる。 マルチフォーカスGNAをベースとして,シーンモデリングモジュールとコンテキストクロスアテンションモジュールを介して空間的情報を完全に集約することにより,映像クリップ内の頭部を正確に検出する,GNANetと呼ばれる統合ニューラルネットワークを開発した。 さらに,この分野での今後の研究を促進するために,様々な監視シナリオでキャプチャされた60K以上のフレームと2M以上のヘッドアノテーションからなる大規模ビデオベンチマーク「SenseCrowd」を導入する。 最後に,senseicrowdを含む3つのデータセットについて広範な実験を行い,実験結果から,提案手法が動画群集のローカライズとカウントの両方において最先端のパフォーマンスを実現することができることを示した。 コードとデータセットがリリースされます。

Video crowd localization is a crucial yet challenging task, which aims to estimate exact locations of human heads in the given crowded videos. To model spatial-temporal dependencies of human mobility, we propose a multi-focus Gaussian neighbor attention (GNA), which can effectively exploit long-range correspondences while maintaining the spatial topological structure of the input videos. In particular, our GNA can also capture the scale variation of human heads well using the equipped multi-focus mechanism. Based on the multi-focus GNA, we develop a unified neural network called GNANet to accurately locate head centers in video clips by fully aggregating spatial-temporal information via a scene modeling module and a context cross-attention module. Moreover, to facilitate future researches in this field, we introduce a large-scale crowded video benchmark named SenseCrowd, which consists of 60K+ frames captured in various surveillance scenarios and 2M+ head annotations. Finally, we conduct extensive experiments on three datasets including our SenseCrowd, and the experiment results show that the proposed method is capable to achieve state-of-the-art performance for both video crowd localization and counting. The code and the dataset will be released.
翻訳日:2021-07-20 14:57:21 公開日:2021-07-19
# 側方損失を伴う生体画像の複合図形分離

Compound Figure Separation of Biomedical Images with Side Loss ( http://arxiv.org/abs/2107.08650v1 )

ライセンス: Link先を確認
Tianyuan Yao, Chang Qu, Quan Liu, Ruining Deng, Yuanhan Tian, Jiachen Xu, Aadarsh Jha, Shunxing Bao, Mengyang Zhao, Agnes B. Fogo, Bennett A.Landman, Catie Chang, Haichun Yang, Yuankai Huo(参考訳) 教師なし学習アルゴリズム(例えば、自己教師付き学習、オートエンコーダ、コントラスト学習)により、ディープラーニングモデルは大規模なラベルなしデータから効果的な画像表現を学ぶことができる。 医用画像解析では、注釈のないデータでも個々の研究室では入手が困難である。 幸いなことに、以前の科学出版物からバイオメディカル画像データを得るための効率的なアクセスを提供するための全国レベルの努力がなされている。 たとえばnihは、大規模な画像データベースに無料アクセスを提供するopen-i検索エンジンを立ち上げた。 しかし、科学出版物にある画像は、相当量の複写と副題で構成されている。 個々のサブプロットを抽出し、キュレートするために、特に近年の深層学習の進歩により、多くの異なる複合図形分離アプローチが開発されている。 しかし、従来のアプローチでは、検出モデルをトレーニングするためにリソースの広範なバウンディングボックスアノテーションが必要であった。 本稿では,個々の画像からの弱い分類アノテーションを用いた単純な複合図形分離(SimCFS)フレームワークを提案する。 1)複合図形分離用に設計された新たなサイドロスの導入,(2)ハードケースをシミュレートするためのクラス内画像拡張手法の導入,(3)提案するフレームワークは,リソースの豊富な境界ボックスアノテーションを必要とせずに,画像の新たなクラスへの効率的な展開を可能にする。 結果から、SimCFSはImageCLEF 2016 Compound Figure Separation Database上で、最先端のパフォーマンスを新たに達成した。 SimCFSのソースコードはhttps://github.com/h rlblab/ImageSeperati onで公開されている。

Unsupervised learning algorithms (e.g., self-supervised learning, auto-encoder, contrastive learning) allow deep learning models to learn effective image representations from large-scale unlabeled data. In medical image analysis, even unannotated data can be difficult to obtain for individual labs. Fortunately, national-level efforts have been made to provide efficient access to obtain biomedical image data from previous scientific publications. For instance, NIH has launched the Open-i search engine that provides a large-scale image database with free access. However, the images in scientific publications consist of a considerable amount of compound figures with subplots. To extract and curate individual subplots, many different compound figure separation approaches have been developed, especially with the recent advances in deep learning. However, previous approaches typically required resource extensive bounding box annotation to train detection models. In this paper, we propose a simple compound figure separation (SimCFS) framework that uses weak classification annotations from individual images. Our technical contribution is three-fold: (1) we introduce a new side loss that is designed for compound figure separation; (2) we introduce an intra-class image augmentation method to simulate hard cases; (3) the proposed framework enables an efficient deployment to new classes of images, without requiring resource extensive bounding box annotations. From the results, the SimCFS achieved a new state-of-the-art performance on the ImageCLEF 2016 Compound Figure Separation Database. The source code of SimCFS is made publicly available at https://github.com/h rlblab/ImageSeperati on.
翻訳日:2021-07-20 14:56:58 公開日:2021-07-19
# Pseudo-Cell-Position Heatmap を用いた領域シフト問題における細胞検出

Cell Detection in Domain Shift Problem Using Pseudo-Cell-Position Heatmap ( http://arxiv.org/abs/2107.08653v1 )

ライセンス: Link先を確認
Hyeonwoo Cho, Kazuya Nishimura, Kazuhide Watanabe and Ryoma Bise(参考訳) ドメインシフト問題は自動細胞検出において重要な問題である。 特定の条件(ソースドメイン)でトレーニングされたデータで訓練された検出ネットワークは、他の条件(ターゲットドメイン)でのデータではうまく動作しない。 本研究では,セル中心がガウス分布を持つピークとなる擬似セル配置ヒートマップを用いて,セル検出のための教師なし領域適応法を提案する。 対象領域の予測結果では、ピーク位置が正しい場合でも、ピーク周辺の信号分布はアニオン・ガウス形状であることが多い。 擬似セル配置熱マップは、予測熱マップのピーク位置を用いて再生成され、透明なガウス形状を有する。 本手法はベイジアンネットワークを用いて疑似セル配置熱マップを選択し,次のイテレーションでトレーニングデータに追加する。 この方法は、ドメインをソースドメインからターゲットドメインに半教師付きで漸進的に拡張することができる。 8種類のドメインの組み合わせを用いた実験では,提案手法が既存のドメイン適応法を上回った。

The domain shift problem is an important issue in automatic cell detection. A detection network trained with training data under a specific condition (source domain) may not work well in data under other conditions (target domain). We propose an unsupervised domain adaptation method for cell detection using the pseudo-cell-position heatmap, where a cell centroid becomes a peak with a Gaussian distribution in the map. In the prediction result for the target domain, even if a peak location is correct, the signal distribution around the peak often has anon-Gaussian shape. The pseudo-cell-position heatmap is re-generated using the peak positions in the predicted heatmap to have a clear Gaussian shape. Our method selects confident pseudo-cell-position heatmaps using a Bayesian network and adds them to the training data in the next iteration. The method can incrementally extend the domain from the source domain to the target domain in a semi-supervised manner. In the experiments using 8 combinations of domains, the proposed method outperformed the existing domain adaptation methods.
翻訳日:2021-07-20 14:56:34 公開日:2021-07-19
# 複雑な自己教師型表現学習のための集合類似性の探索

Exploring Set Similarity for Dense Self-supervised Representation Learning ( http://arxiv.org/abs/2107.08712v1 )

ライセンス: Link先を確認
Zhaoqing Wang, Qiang Li, Guoxin Zhang, Pengfei Wan, Wen Zheng, Nannan Wang, Mingming Gong, Tongliang Liu(参考訳) 空間対応を考慮し、密集した自己教師付き表現学習は、様々な密集予測タスクにおいて優れた性能を発揮した。 しかし、画素レベルの対応は、背景など多くの類似の誤解を招く画素のため、ノイズが多い傾向にある。 この問題に対処するため,本稿では,密な自己教師付き表現学習のためのsetsim(setbf{set} \textbf{sim}ilarity)について検討する。 ピクセルワイドの類似性学習をセットワイドに一般化し,よりセマンティックで構造的な情報を含むため,ロバスト性を向上させる。 具体的には,ビューの注意的特徴を活用して対応する集合を確立し,不正確な対応を引き起こす可能性のあるノイズの背景をフィルタリングする。 一方、これらの注意的特徴は、意味的不整合を軽減するために、異なる視点で同じ画像のコヒーレンスを維持することができる。 さらに,集合の直交近傍を探索し,構造化された近傍情報を用いてロバスト性を高める。 実証的な評価では、SetSimはオブジェクト検出、キーポイント検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端メソッドよりも優れている。

By considering the spatial correspondence, dense self-supervised representation learning has achieved superior performance on various dense prediction tasks. However, the pixel-level correspondence tends to be noisy because of many similar misleading pixels, e.g., backgrounds. To address this issue, in this paper, we propose to explore \textbf{set} \textbf{sim}ilarity (SetSim) for dense self-supervised representation learning. We generalize pixel-wise similarity learning to set-wise one to improve the robustness because sets contain more semantic and structure information. Specifically, by resorting to attentional features of views, we establish corresponding sets, thus filtering out noisy backgrounds that may cause incorrect correspondences. Meanwhile, these attentional features can keep the coherence of the same image across different views to alleviate semantic inconsistency. We further search the cross-view nearest neighbours of sets and employ the structured neighbourhood information to enhance the robustness. Empirical evaluations demonstrate that SetSim is superior to state-of-the-art methods on object detection, keypoint detection, instance segmentation, and semantic segmentation.
翻訳日:2021-07-20 14:56:20 公開日:2021-07-19
# RECIST-Net:RECISTアノテーションに基づくグループ化キーポイントによる病変検出

RECIST-Net: Lesion detection via grouping keypoints on RECIST-based annotation ( http://arxiv.org/abs/2107.08715v1 )

ライセンス: Link先を確認
Cong Xie, Shilei Cao, Dong Wei, Hongyu Zhou, Kai Ma, Xianli Zhang, Buyue Qian, Liansheng Wang, Yefeng Zheng(参考訳) CT画像における普遍的病変検出は,病変の種類,大きさ,形状,外観に大きな変化があるため,重要な課題である。 臨床経過データ(DeepLesion データセットなど)は,通常,固形腫瘍 (RECIST) 径の反応評価基準(ReCIST-Net)に従って,長径,短径のアノテートされるので,ReCIST 直径の極端点と中心点を検出できる新しい病変検出法である。 キーポイントとして病変を検知することにより、より概念的に簡単な定式化を行い、既存の境界ボックスベースの手法のいくつかの欠点(例えば、データ適切なアンカーを設計し、形状情報を失うこと)を克服し、一方的な1段階のアプローチを他のRECISTベースのアプローチと比較する。 実験の結果、RECIST-Netは画像毎に4つの偽陽性で92.49%の感度を達成し、マルチタスク学習など他の手法よりも優れていることがわかった。

Universal lesion detection in computed tomography (CT) images is an important yet challenging task due to the large variations in lesion type, size, shape, and appearance. Considering that data in clinical routine (such as the DeepLesion dataset) are usually annotated with a long and a short diameter according to the standard of Response Evaluation Criteria in Solid Tumors (RECIST) diameters, we propose RECIST-Net, a new approach to lesion detection in which the four extreme points and center point of the RECIST diameters are detected. By detecting a lesion as keypoints, we provide a more conceptually straightforward formulation for detection, and overcome several drawbacks (e.g., requiring extensive effort in designing data-appropriate anchors and losing shape information) of existing bounding-box-based methods while exploring a single-task, one-stage approach compared to other RECIST-based approaches. Experiments show that RECIST-Net achieves a sensitivity of 92.49% at four false positives per image, outperforming other recent methods including those using multi-task learning.
翻訳日:2021-07-20 14:55:56 公開日:2021-07-19
# ガイド付き深度超解像のための関節インシシット画像機能

Joint Implicit Image Function for Guided Depth Super-Resolution ( http://arxiv.org/abs/2107.08717v1 )

ライセンス: Link先を確認
Jiaxiang Tang, Xiaokang Chen, Gang Zeng(参考訳) 誘導深度超解像は、高解像度RGBガイド画像の助けを借りて低解像度でノイズの多い入力深度マップを高解像度版に復元する実用的な課題である。 既存の手法では、通常このタスクを、明示的なフィルタと客観的関数の設計に依存する一般化されたフィルタリング問題、あるいはディープニューラルネットワークによってターゲットイメージを直接予測する集中回帰問題と見なす。 これらの方法は、モデル能力または解釈可能性に悩まされる。 暗黙的ニューラル表現の最近の進歩に触発されて、ガイド付き超解像をニューラル暗黙的画像補間問題として定式化し、一般画像補間の形式を採るが、新しいジョイントインプリシット画像関数(JIIF)表現を用いて補間重みと値の両方を学習する。 JIIFは、入力画像とガイド画像から抽出された空間分布ローカル潜時符号で対象画像領域を表現し、グラフ注意機構を用いて、1つの統合された深い暗黙関数で補間重みを同時に学習する。 JIIF表現が誘導深度超分解能タスクに及ぼす影響を実証し、3つの公開ベンチマークにおける最先端手法を著しく上回った。 コードは \url{https://git.io/JC2sU } にある。

Guided depth super-resolution is a practical task where a low-resolution and noisy input depth map is restored to a high-resolution version, with the help of a high-resolution RGB guide image. Existing methods usually view this task as a generalized guided filtering problem that relies on designing explicit filters and objective functions, or a dense regression problem that directly predicts the target image via deep neural networks. These methods suffer from either model capability or interpretability. Inspired by the recent progress in implicit neural representation, we propose to formulate the guided super-resolution as a neural implicit image interpolation problem, where we take the form of a general image interpolation but use a novel Joint Implicit Image Function (JIIF) representation to learn both the interpolation weights and values. JIIF represents the target image domain with spatially distributed local latent codes extracted from the input image and the guide image, and uses a graph attention mechanism to learn the interpolation weights at the same time in one unified deep implicit function. We demonstrate the effectiveness of our JIIF representation on guided depth super-resolution task, significantly outperforming state-of-the-art methods on three public benchmarks. Code can be found at \url{https://git.io/JC2sU }.
翻訳日:2021-07-20 14:55:36 公開日:2021-07-19
# 遠近法とベクトル化:魚眼カメラを用いた自律走行のための3次元視覚認識アプローチ

Disentangling and Vectorization: A 3D Visual Perception Approach for Autonomous Driving Based on Surround-View Fisheye Cameras ( http://arxiv.org/abs/2107.08862v1 )

ライセンス: Link先を確認
Zizhang Wu, Wenkai Zhang, Jizheng Wang, Man Wang, Yuanzhu Gan, Xinchao Gou, Muqing Fang, Jing Song(参考訳) サラウンドビュー・フィッシュアイ・カメラ・システムを搭載した車両の3d視覚認識は、低コストな都市自動運転にとって重要かつ挑戦的な課題である。 既存のモノクロ3dオブジェクト検出手法は、大量生産のための魚眼画像では十分に機能しないが、一部は3dデータセットの欠如によるものである。 本稿では,車両の接触点検出,タイプ分類,再同定,ユニット組立などのサブタスクに3dオブジェクト検出タスクを分割することにより,高精度な3dラベル付き真理データを取得することの難しさを克服し,回避する。 特に,鳥眼ビュー (BEV) や8点立方体に対する記述的アプローチの代わりに,多次元ベクトルの概念を用いて,異なる次元や段階で生成される実用的情報を含むことを提案する。 実魚眼画像実験により,本手法は実時間で最先端の精度を達成できることを示した。

The 3D visual perception for vehicles with the surround-view fisheye camera system is a critical and challenging task for low-cost urban autonomous driving. While existing monocular 3D object detection methods perform not well enough on the fisheye images for mass production, partly due to the lack of 3D datasets of such images. In this paper, we manage to overcome and avoid the difficulty of acquiring the large scale of accurate 3D labeled truth data, by breaking down the 3D object detection task into some sub-tasks, such as vehicle's contact point detection, type classification, re-identification and unit assembling, etc. Particularly, we propose the concept of Multidimensional Vector to include the utilizable information generated in different dimensions and stages, instead of the descriptive approach for the bird's eye view (BEV) or a cube of eight points. The experiments of real fisheye images demonstrate that our solution achieves state-of-the-art accuracy while being real-time in practice.
翻訳日:2021-07-20 14:55:11 公開日:2021-07-19
# Few-Shot Class-Incremental Learning のための自己促進型プロトタイプリファインメント

Self-Promoted Prototype Refinement for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2107.08918v1 )

ライセンス: Link先を確認
Kai Zhu, Yang Cao, Wei Zhai, Jie Cheng, Zheng-Jun Zha(参考訳) クラスインクリメンタルな学習は、サンプルが少ないと新しいクラスを認識し、古いクラスを忘れないことである。 表現の最適化とプロトタイプの再編成は、わずかな監督の下でしか達成できないので、これは難しいタスクです。 そこで本研究では,新しいインクリメンタルプロトタイプ学習手法を提案する。 本手法は,様々な生成したインクリメンタルエピソードに特徴表現を適応させ,対応する拡張性を高めるランダムエピソード選択戦略と,異なるクラス間の依存関係を明示的に考慮し,新しいクラスの表現能力を強化する自己プロモートプロトタイプ改良機構からなる。 特に、共有埋め込み空間における関係行列を計算し、プロトタイプのアップデートをブートストラップする要因として活用するために動的関係投影モジュールが提案されている。 3つのベンチマークデータセットに関する広範な実験は、上記のほぼインクリメンタルなパフォーマンスを示し、最先端のメソッドを13%、17%、11%のマージンで上回っている。

Few-shot class-incremental learning is to recognize the new classes given few samples and not forget the old classes. It is a challenging task since representation optimization and prototype reorganization can only be achieved under little supervision. To address this problem, we propose a novel incremental prototype learning scheme. Our scheme consists of a random episode selection strategy that adapts the feature representation to various generated incremental episodes to enhance the corresponding extensibility, and a self-promoted prototype refinement mechanism which strengthens the expression ability of the new classes by explicitly considering the dependencies among different classes. Particularly, a dynamic relation projection module is proposed to calculate the relation matrix in a shared embedding space and leverage it as the factor for bootstrapping the update of prototypes. Extensive experiments on three benchmark datasets demonstrate the above-par incremental performance, outperforming state-of-the-art methods by a margin of 13%, 17% and 11%, respectively.
翻訳日:2021-07-20 14:54:51 公開日:2021-07-19
# トランスダクティブ画像分割:自己学習と不確かさ推定の効果

Transductive image segmentation: Self-training and effect of uncertainty estimation ( http://arxiv.org/abs/2107.08964v1 )

ライセンス: Link先を確認
Konstantinos Kamnitsas, Stefan Winzeck, Evgenios N. Kornaropoulos, Daniel Whitehouse, Cameron Englman, Poe Phyu, Norman Pao, David K. Menon, Daniel Rueckert, Tilak Das, Virginia F.J. Newcombe, Ben Glocker(参考訳) 半教師付き学習(SSL)は、トレーニング中にラベルのないデータを使用してより良いモデルを学ぶ。 医療画像セグメンテーションのためのSSLに関する研究は、主に見えないデータに対するモデル一般化の改善に重点を置いていた。 しかし,本研究の主な関心は一般化ではなく,モデル開発中に利用可能となる特定のラベルのないデータベース上での最適な予測を得ることである。 例えば、画像表現型を抽出するための集団研究がある。 この研究はSSL、トランスダクションの見落とされがちな側面を調査します。 一般化を改善するのではなく、トレーニング中の最適化に含まれた非ラベルデータに対する予測の質に焦点を当てている。 自己学習フレームワークに注目し,トランスダクションの可能性を探る。 我々は、情報ゲインのレンズを通して分析し、キャリブレートモデルやアンダー信頼モデルの学習効果を明らかにする。 外傷性脳病変のマルチクラスセグメンテーションのための大脳mriデータベースに関する広範な実験は、トランスダクティブとインダクティブ予測の比較において有望な結果を示している。 この研究は、医用画像解析のパラダイムであるトランスダクティブラーニング(transductive learning)のさらなる研究を促すだろうと考えている。

Semi-supervised learning (SSL) uses unlabeled data during training to learn better models. Previous studies on SSL for medical image segmentation focused mostly on improving model generalization to unseen data. In some applications, however, our primary interest is not generalization but to obtain optimal predictions on a specific unlabeled database that is fully available during model development. Examples include population studies for extracting imaging phenotypes. This work investigates an often overlooked aspect of SSL, transduction. It focuses on the quality of predictions made on the unlabeled data of interest when they are included for optimization during training, rather than improving generalization. We focus on the self-training framework and explore its potential for transduction. We analyze it through the lens of Information Gain and reveal that learning benefits from the use of calibrated or under-confident models. Our extensive experiments on a large MRI database for multi-class segmentation of traumatic brain lesions shows promising results when comparing transductive with inductive predictions. We believe this study will inspire further research on transductive learning, a well-suited paradigm for medical image analysis.
翻訳日:2021-07-20 14:54:34 公開日:2021-07-19
# InsPose:シングルステージマルチパーソンポーズ推定のためのインスタンス対応ネットワーク

InsPose: Instance-Aware Networks for Single-Stage Multi-Person Pose Estimation ( http://arxiv.org/abs/2107.08982v1 )

ライセンス: Link先を確認
Dahu Shi, Xing Wei, Xiaodong Yu, Wenming Tan, Ye Ren, Shiliang Pu(参考訳) 複数人のポーズ推定は魅力的で困難なタスクです。 既存のメソッドは主にトップダウンとボトムアップの2段階のフレームワークに基づいている。 2段階の方法は、追加の人物検出器に対する高い計算冗長性に苦しむか、インスタンスに依存しない全てのキーポイントを予測した後、ヒューリスティックにキーポイントをグループ化する必要がある。 シングルステージパラダイムは、多人数のポーズ推定パイプラインを単純化し、多くの注目を集めることを目的としている。 しかし,近年のシングルステージ手法では,特徴ベクトルから様々なフルボディポーズを退避させることが困難であるため,低性能の限界がある。 複雑なヒューリスティック設計を伴う以前のソリューションとは異なり、インスタンス対応動的ネットワークを使用することにより、シンプルで効果的なソリューションを提供する。 具体的には,各インスタンスのネットワークパラメータを適応的に調整(一部)するインスタンス対応モジュールを提案する。 我々のソリューションは、コンパクトなエンドツーエンドのトレーニングパイプラインを維持しながら、様々なポーズを認識するためのネットワークの容量と適応性を大幅に向上させることができる。 MS-COCOデータセットの大規模な実験により,本手法は既存の単段法よりも大幅に改善され,最先端の2段法と比較して精度と効率のバランスが良くなった。

Multi-person pose estimation is an attractive and challenging task. Existing methods are mostly based on two-stage frameworks, which include top-down and bottom-up methods. Two-stage methods either suffer from high computational redundancy for additional person detectors or they need to group keypoints heuristically after predicting all the instance-agnostic keypoints. The single-stage paradigm aims to simplify the multi-person pose estimation pipeline and receives a lot of attention. However, recent single-stage methods have the limitation of low performance due to the difficulty of regressing various full-body poses from a single feature vector. Different from previous solutions that involve complex heuristic designs, we present a simple yet effective solution by employing instance-aware dynamic networks. Specifically, we propose an instance-aware module to adaptively adjust (part of) the network parameters for each instance. Our solution can significantly increase the capacity and adaptive-ability of the network for recognizing various poses, while maintaining a compact end-to-end trainable pipeline. Extensive experiments on the MS-COCO dataset demonstrate that our method achieves significant improvement over existing single-stage methods, and makes a better balance of accuracy and efficiency compared to the state-of-the-art two-stage approaches.
翻訳日:2021-07-20 14:54:19 公開日:2021-07-19
# マルチKinect SDASによる咬合下歩行認識のベンチマーク

A Benchmark for Gait Recognition under Occlusion Collected by Multi-Kinect SDAS ( http://arxiv.org/abs/2107.08990v1 )

ライセンス: Link先を確認
Na Li and Xinbo Zhao(参考訳) 人間の歩行は、人間を遠隔で識別するための重要な生体計測特性の1つである。 実際には、閉塞は通常発生し、歩行認識の精度に深刻な影響を及ぼす。 しかし,この問題を深く研究するためのデータベースは存在せず,最先端の歩容認識手法が十分に注目されていないため,咬合下での歩容認識に焦点をあてる。 我々は、OG RGB+Dデータベースと呼ばれる新しい歩行認識データベースを収集し、他の歩行データベースの制限を突破し、セキュリティ状況にも適用可能な複数の同期Azure Kinect DKセンサーデータ取得システム(マルチKinect SDAS)による様々な閉塞(自己閉塞、アクティブ閉塞、受動閉塞)のマルチモーダル歩行データを含む。 Azure Kinect DKは、異なる種類の歩行認識アルゴリズムをサポートするために、同時にマルチモーダルデータを収集できるため、特にカメラ中心のマルチパーソン3Dポーズを効果的に取得することができる。 特に、OG RGB+Dデータベースは、人間の擬似表現においてより正確であるマルチKinectによって収集されたデータを融合することにより、正確なシルエットと最適化されたヒト3D関節データ(OJ)を提供する。 また,ojデータを用いて高度な3次元多人数ポーズ推定モデルを訓練し,咬合下でのポーズ推定の精度を向上させる。 また,ヒトのポーズは外見よりもオクルージョンに敏感ではないため,シアメーゼ時空間グラフ畳み込みネットワーク(シアメーゼST-GCN)の枠組みを用いて,人間の二重骨格モデルに基づく新しい歩行認識手法SkeletonGaitを提案する。 評価結果から,SkeletonGaitはOG RGB+DデータベースやCAISA-Bデータベース上での最先端歩行認識手法と比較して,競合性能が高いことが示された。

Human gait is one of important biometric characteristics for human identification at a distance. In practice, occlusion usually occurs and seriously affects accuracy of gait recognition. However, there is no available database to support in-depth research of this problem, and state-of-arts gait recognition methods have not paid enough attention to it, thus this paper focuses on gait recognition under occlusion. We collect a new gait recognition database called OG RGB+D database, which breaks through the limitation of other gait databases and includes multimodal gait data of various occlusions (self-occlusion, active occlusion, and passive occlusion) by our multiple synchronous Azure Kinect DK sensors data acquisition system (multi-Kinect SDAS) that can be also applied in security situations. Because Azure Kinect DK can simultaneously collect multimodal data to support different types of gait recognition algorithms, especially enables us to effectively obtain camera-centric multi-person 3D poses, and multi-view is better to deal with occlusion than single-view. In particular, the OG RGB+D database provides accurate silhouettes and the optimized human 3D joints data (OJ) by fusing data collected by multi-Kinects which are more accurate in human pose representation under occlusion. We also use the OJ data to train an advanced 3D multi-person pose estimation model to improve its accuracy of pose estimation under occlusion for universality. Besides, as human pose is less sensitive to occlusion than human appearance, we propose a novel gait recognition method SkeletonGait based on human dual skeleton model using a framework of siamese spatio-temporal graph convolutional networks (siamese ST-GCN). The evaluation results demonstrate that SkeletonGait has competitive performance compared with state-of-art gait recognition methods on OG RGB+D database and popular CAISA-B database.
翻訳日:2021-07-20 14:53:58 公開日:2021-07-19
# 画像融合変換器

Image Fusion Transformer ( http://arxiv.org/abs/2107.09011v1 )

ライセンス: Link先を確認
Vibashan VS, Jeya Maria Jose Valanarasu, Poojan Oza and Vishal M. Patel(参考訳) 画像融合では、異なるセンサから得られた画像が融合され、情報強化された単一の画像を生成する。 近年,画像融合に有効な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)を採用している。 具体的には,局所的な特徴を融合させて画像融合を行う。 しかし、画像に存在する長距離依存関係は考慮していない。 トランスフォーマーベースのモデルは、セルフアテンションメカニズムの助けを借りて、長距離依存をモデル化することで、これを克服するように設計されている。 そこで我々は,局所的・長期的情報(あるいはグローバルな文脈)に対応する,トランスフォーマーベースのマルチスケールフュージョン戦略を開発する新しいイメージフュージョントランスフォーマー (IFT) を提案する。 提案手法は2段階の訓練手法に従う。 最初の段階では、複数のスケールで深い特徴を抽出するオートエンコーダを訓練する。 第2段階では、スペーシ・トランスフォーマー(ST)融合戦略を用いてマルチスケール機能を融合する。 ST融合ブロックは、それぞれ局所特徴と長距離特徴をキャプチャするCNNと変圧器分岐から構成される。 複数のベンチマークデータセットに対する大規模な実験により,提案手法は多くの競合融合アルゴリズムよりも優れた性能を示した。 さらに,提案するst核融合戦略のアブレーション解析による有効性を示す。 ソースコードは、https://github.com/V ibashan/Image-Fusion -Transformer}{https://github.com/V ibashan/Image-Fusion -Transformerで入手できる。

In image fusion, images obtained from different sensors are fused to generate a single image with enhanced information. In recent years, state-of-the-art methods have adopted Convolution Neural Networks (CNNs) to encode meaningful features for image fusion. Specifically, CNN-based methods perform image fusion by fusing local features. However, they do not consider long-range dependencies that are present in the image. Transformer-based models are designed to overcome this by modeling the long-range dependencies with the help of self-attention mechanism. This motivates us to propose a novel Image Fusion Transformer (IFT) where we develop a transformer-based multi-scale fusion strategy that attends to both local and long-range information (or global context). The proposed method follows a two-stage training approach. In the first stage, we train an auto-encoder to extract deep features at multiple scales. In the second stage, multi-scale features are fused using a Spatio-Transformer (ST) fusion strategy. The ST fusion blocks are comprised of a CNN and a transformer branch which capture local and long-range features, respectively. Extensive experiments on multiple benchmark datasets show that the proposed method performs better than many competitive fusion algorithms. Furthermore, we show the effectiveness of the proposed ST fusion strategy with an ablation analysis. The source code is available at: https://github.com/V ibashan/Image-Fusion -Transformer}{https://github.com/V ibashan/Image-Fusion -Transformer.
翻訳日:2021-07-20 14:53:24 公開日:2021-07-19
# データ収集のためのヒューマン・イン・ザ・ループ:オンラインヘイトスピーチに対抗するマルチターゲットカウンタナラティブデータセット

Human-in-the-Loop for Data Collection: a Multi-Target Counter Narrative Dataset to Fight Online Hate Speech ( http://arxiv.org/abs/2107.08720v1 )

ライセンス: Link先を確認
Margherita Fanton, Helena Bonaldi, Serra Sinem Tekiroglu, Marco Guerini(参考訳) ヘイトフルコンテンツとインフォームドおよび非攻撃的反応、いわゆるカウンターナラティブの効果を損なうことは、より健康的なオンラインコミュニティの解決策として浮上している。 このように、NLP研究は反物語生成の課題に対処し始めている。 このような研究は、ニューラルジェネレーションのためのヘイトスピーチ/カウンターナラティブ(hs/cn)データセットの構築に尽力しているが、高品質と高質のいずれにも到達できない。 本稿では,前回のループから得られたデータを用いて,生成言語モデルを反復的に洗練し,専門家がレビューや編集後の新たなトレーニングサンプルを生成する,新しいヒューマン・イン・ザ・ループデータ収集手法を提案する。 我々の実験は、動的変動を含むいくつかのループで構成された。 その結果、この方法論はスケーラブルであり、多種多様で斬新で費用対効果の高いデータ収集を促進することが示されている。 私たちの知る限り、得られたデータセットは、コミュニティで利用可能な、エキスパートベースのマルチターゲットHS/CNデータセットである。

Undermining the impact of hateful content with informed and non-aggressive responses, called counter narratives, has emerged as a possible solution for having healthier online communities. Thus, some NLP studies have started addressing the task of counter narrative generation. Although such studies have made an effort to build hate speech / counter narrative (HS/CN) datasets for neural generation, they fall short in reaching either high-quality and/or high-quantity. In this paper, we propose a novel human-in-the-loop data collection methodology in which a generative language model is refined iteratively by using its own data from the previous loops to generate new training samples that experts review and/or post-edit. Our experiments comprised several loops including dynamic variations. Results show that the methodology is scalable and facilitates diverse, novel, and cost-effective data collection. To our knowledge, the resulting dataset is the only expert-based multi-target HS/CN dataset available to the community.
翻訳日:2021-07-20 14:52:03 公開日:2021-07-19
# グラフクラスタリングのためのグラフオートエンコーダモデルの再考

Rethinking Graph Autoencoder Models for Attributed Graph Clustering ( http://arxiv.org/abs/2107.08562v1 )

ライセンス: Link先を確認
Nairouz Mrabah, Mohamed Bouguessa, Mohamed Fawzi Touati, Riadh Ksantini(参考訳) 最近のグラフクラスタリング手法は、グラフオートエンコーダ(GAE)を利用して、共同クラスタリングと埋め込み学習を行っている。 しかし、2つの重大な問題が見過ごされている。 まず, クラスタリングモデルの有効性と頑健性を低下させるため, クラスタリング課題の学習によって生じる累積誤差について検討する。 この問題は特徴ランダムネス(Feature Randomness)と呼ばれる。 第二に、隣接行列の再構成は、クラスタリングタスクの無関係な類似性を学ぶためにモデルをセットする。 この問題はFeature Driftと呼ばれる。 興味深いことに、上記の問題の理論的関係はまだ研究されていない。 本研究では,(1)クラスタリングと再構成を行う際の特徴ランダム性と特徴ドリフトのトレードオフの存在,(2)グラフ畳み込み操作とグラフデコード設計によるバニラオートエンコーダモデルと比較して,特徴ドリフトの問題はGAEモデルにおいてより顕著である,という2つの側面から検討する。 これらの知見により,GAEに基づくクラスタリング手法を再構築した。 我々の解決策は2つある。 まず、ノイズの多いクラスタリング代入に対する保護機構をトリガーするサンプリング演算子$\Xi$を提案する。 次に,再構成されたグラフをクラスタリング指向に徐々に変換することにより,特徴ドリフトに対する補正機構を起動する演算子$\upsilon$を提案する。 主な利点として、このソリューションはクラスタリングの有効性と堅牢性を大幅に改善し、既存のgaeモデルに簡単に対応できる。

Most recent graph clustering methods have resorted to Graph Auto-Encoders (GAEs) to perform joint clustering and embedding learning. However, two critical issues have been overlooked. First, the accumulative error, inflicted by learning with noisy clustering assignments, degrades the effectiveness and robustness of the clustering model. This problem is called Feature Randomness. Second, reconstructing the adjacency matrix sets the model to learn irrelevant similarities for the clustering task. This problem is called Feature Drift. Interestingly, the theoretical relation between the aforementioned problems has not yet been investigated. We study these issues from two aspects: (1) the existence of a trade-off between Feature Randomness and Feature Drift when clustering and reconstruction are performed at the same level, and (2) the problem of Feature Drift is more pronounced for GAE models, compared with vanilla auto-encoder models, due to the graph convolutional operation and the graph decoding design. Motivated by these findings, we reformulate the GAE-based clustering methodology. Our solution is two-fold. First, we propose a sampling operator $\Xi$ that triggers a protection mechanism against the noisy clustering assignments. Second, we propose an operator $\Upsilon$ that triggers a correction mechanism against Feature Drift by gradually transforming the reconstructed graph into a clustering-oriented one. As principal advantages, our solution grants a considerable improvement in clustering effectiveness and robustness and can be easily tailored to existing GAE models.
翻訳日:2021-07-20 14:50:44 公開日:2021-07-19
# モデル転送を用いた高能率マルチタスク強化学習

Provably Efficient Multi-Task Reinforcement Learning with Model Transfer ( http://arxiv.org/abs/2107.08622v1 )

ライセンス: Link先を確認
Chicheng Zhang and Zhi Wang(参考訳) 表層マルコフ決定過程(MDP)におけるマルチタスク強化学習(RL)について検討した。 我々は、プレイヤー同士の情報共有による集合的パフォーマンスの向上を目標として、プレイヤー群が同一のMDPと同時に対面する異種マルチプレイヤーRL問題を定式化する。 我々は,モデル伝達の考え方に基づくアルゴリズムを設計・解析し,問題の本質的複雑性を特徴付けるギャップ依存およびギャップ非依存の上下境界を提供する。

We study multi-task reinforcement learning (RL) in tabular episodic Markov decision processes (MDPs). We formulate a heterogeneous multi-player RL problem, in which a group of players concurrently face similar but not necessarily identical MDPs, with a goal of improving their collective performance through inter-player information sharing. We design and analyze an algorithm based on the idea of model transfer, and provide gap-dependent and gap-independent upper and lower bounds that characterize the intrinsic complexity of the problem.
翻訳日:2021-07-20 14:50:17 公開日:2021-07-19
# クエリセレクタによる長期連続予測 --スパースアテンションの効率的なモデル

Long-term series forecasting with Query Selector -- efficient model of sparse attention ( http://arxiv.org/abs/2107.08687v1 )

ライセンス: Link先を確認
Jacek Klimek, Jakub Klimek, Witold Kraskiewicz, Mateusz Topolewski(参考訳) 時系列予測問題を解くために, Transformer の様々な改良が最近行われた。 本稿では,スパースアテンション行列に対する効率的な決定論的アルゴリズムであるクエリセレクタを提案する。 実験の結果,ETTデータセット上での最先端の成果が得られた。

Various modifications of TRANSFORMER were recently used to solve time-series forecasting problem. We propose Query Selector - an efficient, deterministic algorithm for sparse attention matrix. Experiments show it achieves state-of-the art results on ETT data set.
翻訳日:2021-07-20 14:50:09 公開日:2021-07-19
# VolcanoML: スケーラブル検索空間分割によるエンドツーエンドAutoMLの高速化

VolcanoML: Speeding up End-to-End AutoML via Scalable Search Space Decomposition ( http://arxiv.org/abs/2107.08861v1 )

ライセンス: Link先を確認
Yang Li, Yu Shen, Wentao Zhang, Jiawei Jiang, Bolin Ding, Yaliang Li, Jingren Zhou, Zhi Yang, Wentao Wu, Ce Zhang and Bin Cui(参考訳) エンドツーエンドのAutoMLは、機能エンジニアリング、アルゴリズム/モデル選択、ハイパーパラメータチューニングによって誘導される空間内のMLパイプラインを自動的に検索する学術と産業の両方から、大きな関心を集めている。 しかし、既存のAutoMLシステムは、大規模で高次元の検索空間を持つアプリケーションドメインに適用する際のスケーラビリティの問題に悩まされている。 本稿では,大規模AutoML検索空間の体系的な探索を容易にするスケーラブルで拡張可能なフレームワークであるVolcanoMLを提案する。 VolcanoMLは、大規模な検索スペースを小さなものに分解する基本的なビルディングブロックを導入し、実装している。 VolcanoMLはさらに、現在のデータベースシステムでサポートされているような、Volcanoスタイルの実行モデルをサポートし、構築された計画を実行する。 評価の結果,VolcanoMLは,AutoMLにおける検索空間分解の表現性を向上するだけでなく,Auto-sklearnのような最先端のAutoMLシステムで採用されているものよりもはるかに効率的な分解戦略の実際の発見につながることが示された。

End-to-end AutoML has attracted intensive interests from both academia and industry, which automatically searches for ML pipelines in a space induced by feature engineering, algorithm/model selection, and hyper-parameter tuning. Existing AutoML systems, however, suffer from scalability issues when applying to application domains with large, high-dimensional search spaces. We present VolcanoML, a scalable and extensible framework that facilitates systematic exploration of large AutoML search spaces. VolcanoML introduces and implements basic building blocks that decompose a large search space into smaller ones, and allows users to utilize these building blocks to compose an execution plan for the AutoML problem at hand. VolcanoML further supports a Volcano-style execution model - akin to the one supported by modern database systems - to execute the plan constructed. Our evaluation demonstrates that, not only does VolcanoML raise the level of expressiveness for search space decomposition in AutoML, it also leads to actual findings of decomposition strategies that are significantly more efficient than the ones employed by state-of-the-art AutoML systems such as auto-sklearn.
翻訳日:2021-07-20 14:50:06 公開日:2021-07-19
# 時系列予測のためのトポロジカルアテンション

Topological Attention for Time Series Forecasting ( http://arxiv.org/abs/2107.09031v1 )

ライセンス: Link先を確認
Sebastian Zeng, Florian Graf, Christoph Hofer, Roland Kwitt(参考訳) ポイント予測の問題は、$ \textit{univariate} $ 時系列である。 従来の統計手法から最近のニューラルネットワークによる学習に基づく手法まで、ほとんどのアプローチは、生の時系列観測に基づいて直接動作する。 拡張として、永続ホモロジーによってキャプチャされた$\textit{local topological properties}$が、予測する学習に補完的な情報を提供する信頼できるシグナルとして機能するかどうかを調べる。 この目的のために,歴史データの時系列内における局所的なトポロジ的特徴への出席を可能にする,$\textit{topological attention}$を提案する。 このアプローチは,$\texttt{N-BEATS}$のような既存のエンドツーエンドのトレーニング可能な予測モデルに容易に統合でき,後者と組み合わせることで,異なるドメインから10万の多様な時系列の大規模M4ベンチマークデータセットに最先端のパフォーマンスを示す。 アブレーション実験は、訓練に1つの時系列のみを利用できる設定において、幅広い予測方法との比較と同様に、注意機構を介して局所的なトポロジー情報を含む有益な性質を補足する。

The problem of (point) forecasting $ \textit{univariate} $ time series is considered. Most approaches, ranging from traditional statistical methods to recent learning-based techniques with neural networks, directly operate on raw time series observations. As an extension, we study whether $\textit{local topological properties}$, as captured via persistent homology, can serve as a reliable signal that provides complementary information for learning to forecast. To this end, we propose $\textit{topological attention}$, which allows attending to local topological features within a time horizon of historical data. Our approach easily integrates into existing end-to-end trainable forecasting models, such as $\texttt{N-BEATS}$, and in combination with the latter exhibits state-of-the-art performance on the large-scale M4 benchmark dataset of 100,000 diverse time series from different domains. Ablation experiments, as well as a comparison to a broad range of forecasting methods in a setting where only a single time series is available for training, corroborate the beneficial nature of including local topological information through an attention mechanism.
翻訳日:2021-07-20 14:49:45 公開日:2021-07-19
# evilmodel:ニューラルネットワークモデル内にマルウェアを隠す

EvilModel: Hiding Malware Inside of Neural Network Models ( http://arxiv.org/abs/2107.08590v1 )

ライセンス: Link先を確認
Zhi Wang, Chaoge Liu, Xiang Cui(参考訳) マルウェアを隠蔽して検出回避することは、先進的なマルウェアキャンペーンにとって重要である。 本稿では,ニューラルネットワークモデルを用いてマルウェアを隠蔽して検出回避する手法を提案する。 ニューラルネットワークモデルは説明が不十分で、一般化能力に優れています。 マルウェアをニューロンに埋め込むことで、ニューラルネットワークの性能に小さな、あるいはまったく影響を与えないマルウェアを秘密裏に届けることができる。 一方、ニューラルネットワークモデルの構造は変わっていないため、アンチウイルスエンジンのセキュリティスキャンをパスすることができる。 実験の結果、36.9MBのマルウェアが178MB-AlexNetモデルに1%の精度で埋め込むことができ、ウイルスTotalのアンチウイルスエンジンが疑わしいことはないことが判明した。 人工知能の応用が広まれば、ニューラルネットワークの利用はマルウェアの前進のトレンドとなる。 この研究が、ニューラルネットワーク支援攻撃の防御に参照可能なシナリオを提供することを願っている。

Delivering malware covertly and detection-evadingly is critical to advanced malware campaigns. In this paper, we present a method that delivers malware covertly and detection-evadingly through neural network models. Neural network models are poorly explainable and have a good generalization ability. By embedding malware into the neurons, malware can be delivered covertly with minor or even no impact on the performance of neural networks. Meanwhile, since the structure of the neural network models remains unchanged, they can pass the security scan of antivirus engines. Experiments show that 36.9MB of malware can be embedded into a 178MB-AlexNet model within 1% accuracy loss, and no suspicious are raised by antivirus engines in VirusTotal, which verifies the feasibility of this method. With the widespread application of artificial intelligence, utilizing neural networks becomes a forwarding trend of malware. We hope this work could provide a referenceable scenario for the defense on neural network-assisted attacks.
翻訳日:2021-07-20 14:47:57 公開日:2021-07-19
# 潜時空間因子化と局所重みを用いた顔合成(拡張版)

Synthesizing Human Faces using Latent Space Factorization and Local Weights (Extended Version) ( http://arxiv.org/abs/2107.08737v1 )

ライセンス: Link先を確認
Minyoung Kim and Young J. Kim(参考訳) 本研究では,局所的な重みを持つ3次元顔生成モデルを提案する。 提案モデルは、顔メッシュ全体を学習しながら、顔の部分的な操作を可能にする。 そこで本研究では,全データから局所的な顔特徴を抽出し,全体的生成時の操作方法を検討するための効果的な手法を提案する。 まず、顔全体の潜在空間を、顔の異なる部分を示す部分空間に分解する。 さらに、非負行列分解によって生じる局所重みを因子化潜在空間に適用し、分解された部分空間が意味論的に意味を持つようにする。 我々は,本モデルを用いて,効果的な顔部分操作が可能であり,表現性が向上することが確認された。

We propose a 3D face generative model with local weights to increase the model's variations and expressiveness. The proposed model allows partial manipulation of the face while still learning the whole face mesh. For this purpose, we address an effective way to extract local facial features from the entire data and explore a way to manipulate them during a holistic generation. First, we factorize the latent space of the whole face to the subspace indicating different parts of the face. In addition, local weights generated by non-negative matrix factorization are applied to the factorized latent space so that the decomposed part space is semantically meaningful. We experiment with our model and observe that effective facial part manipulation is possible and that the model's expressiveness is improved.
翻訳日:2021-07-20 14:44:42 公開日:2021-07-19
# 医療診断における深層ニューラルネットワークの解釈性の向上 : 個別単位の探索による検討

Improving Interpretability of Deep Neural Networks in Medical Diagnosis by Investigating the Individual Units ( http://arxiv.org/abs/2107.08767v1 )

ライセンス: Link先を確認
Woo-Jeoung Nam, Seong-Whan Lee(参考訳) ディープニューラルネットワーク(DNN)導入の障害として解釈可能性が指摘されているように、目覚ましいパフォーマンスを保証するために透明性問題を解決することへの関心が高まっている。 本稿では,近年の帰属技術の有効性を実証し,入力画像における重要な要素を可視化することで診断決定を説明する。 DNNが学習した目的性の特性を利用して、ネットワーク予測を完全に分解することで、標的病変の明確な局在を可視化する。 我々の研究を検証するために,公開データセットを用いた胸部X線診断実験を行った。 説明の直感的評価指標として,視覚説明と病変境界箱との結合の交点性能について報告する。 実験の結果,最近提案された帰属法は従来のcamと比較して診断判断の正確な位置を可視化できることがわかった。 さらに,人間とDNN間の意図の不整合を分析する。 関連する要因を可視化することにより,意思決定基準が学習戦略と一致していることを確認することができる。 アンマキングマシンインテリジェンスの分析は、診断決定における説明可能性の必要性を示している。

As interpretability has been pointed out as the obstacle to the adoption of Deep Neural Networks (DNNs), there is an increasing interest in solving a transparency issue to guarantee the impressive performance. In this paper, we demonstrate the efficiency of recent attribution techniques to explain the diagnostic decision by visualizing the significant factors in the input image. By utilizing the characteristics of objectness that DNNs have learned, fully decomposing the network prediction visualizes clear localization of target lesion. To verify our work, we conduct our experiments on Chest X-ray diagnosis with publicly accessible datasets. As an intuitive assessment metric for explanations, we report the performance of intersection of Union between visual explanation and bounding box of lesions. Experiment results show that recently proposed attribution methods visualize the more accurate localization for the diagnostic decision compared to the traditionally used CAM. Furthermore, we analyze the inconsistency of intentions between humans and DNNs, which is easily obscured by high performance. By visualizing the relevant factors, it is possible to confirm that the criterion for decision is in line with the learning strategy. Our analysis of unmasking machine intelligence represents the necessity of explainability in the medical diagnostic decision.
翻訳日:2021-07-20 14:44:32 公開日:2021-07-19
# CodeMapping:コンパクトシーン表現を用いたスパースSLAMのためのリアルタイムDense Mapping

CodeMapping: Real-Time Dense Mapping for Sparse SLAM using Compact Scene Representations ( http://arxiv.org/abs/2107.08994v1 )

ライセンス: Link先を確認
Hidenobu Matsuki, Raluca Scona, Jan Czarnowski and Andrew J. Davison(参考訳) 本稿では,コンパクトなシーン表現を活かした,スパースビジュアルスラムシステムのための新しい高密度マッピングフレームワークを提案する。 最先端の疎視的SLAMシステムは、カメラ軌跡とランドマークの位置の正確かつ信頼性の高い推定を提供する。 これらのスパースマップはローカライゼーションに有用であるが、障害物回避やシーン理解といった他のタスクには使用できない。 本稿では,カメラのポーズ,キーフレーム,スパースポイントを入力として,各キーフレームの深度を推定する,疎視的SLAMシステムを補完する高密度マッピングフレームワークを提案する。 我々は,CodeSLAM上に構築し,Sparse SLAMからの強度,スパース深さ,再投影誤差の画像に基づいて,変分オートエンコーダ(VAE)を用いて不確実性を認識した深度マップを推定する。 VAEを用いることで、重なり合うフレームの整合性を改善するマルチビュー最適化により、深度画像の精細化が可能となる。 私たちのmapperは、SLAMシステムと並行して、疎結合で別々のスレッドで動作します。 この柔軟な設計は、メインのSLAMプロセスを遅らせることなく、任意のメトリックスパースSLAMシステムとの統合を可能にする。 高密度マッパーは局所マッピングだけでなく,tsdf融合によるグローバルに一貫した高密度3次元再構成にも利用できる。 我々は,ORB-SLAM3で動作するシステムを実演し,ロボット工学や拡張現実などの応用を可能にする,高精度な深度推定を行う。

We propose a novel dense mapping framework for sparse visual SLAM systems which leverages a compact scene representation. State-of-the-art sparse visual SLAM systems provide accurate and reliable estimates of the camera trajectory and locations of landmarks. While these sparse maps are useful for localization, they cannot be used for other tasks such as obstacle avoidance or scene understanding. In this paper we propose a dense mapping framework to complement sparse visual SLAM systems which takes as input the camera poses, keyframes and sparse points produced by the SLAM system and predicts a dense depth image for every keyframe. We build on CodeSLAM and use a variational autoencoder (VAE) which is conditioned on intensity, sparse depth and reprojection error images from sparse SLAM to predict an uncertainty-aware dense depth map. The use of a VAE then enables us to refine the dense depth images through multi-view optimization which improves the consistency of overlapping frames. Our mapper runs in a separate thread in parallel to the SLAM system in a loosely coupled manner. This flexible design allows for integration with arbitrary metric sparse SLAM systems without delaying the main SLAM process. Our dense mapper can be used not only for local mapping but also globally consistent dense 3D reconstruction through TSDF fusion. We demonstrate our system running with ORB-SLAM3 and show accurate dense depth estimation which could enable applications such as robotics and augmented reality.
翻訳日:2021-07-20 14:44:14 公開日:2021-07-19
# チャネルワイドGated Res2Net:合成音声攻撃のロバスト検出に向けて

Channel-wise Gated Res2Net: Towards Robust Detection of Synthetic Speech Attacks ( http://arxiv.org/abs/2107.08803v1 )

ライセンス: Link先を確認
Xu Li, Xixin Wu, Hui Lu, Xunying Liu, Helen Meng(参考訳) 自動話者検証(ASV)における既存のアンチスプーフィングのアプローチは、未確認攻撃に対する一般化性に欠ける。 Res2Netアプローチは、1ブロック内の特徴群間の残差のような接続を設計する。 しかし、そのような残差のような接続は、チャネルワイド優先のない特徴群間の直接追加によって実行される。 本論では,チャネル間の情報交換はスプーフィングキューに等しく寄与しない可能性があり,また,次の機能グループに付加する前に,関連性の低いチャネルを抑えることが期待できる。 この議論は、res2netを修飾し、特徴群間の接続においてチャネルワイズゲーティング機構を有効にする新しいチャネルワイズゲート型res2net(cg-res2net)を提示する現在の仕事の動機付けとなる。 このゲーティング機構は、入力に基づいてチャネルワイズ特徴を動的に選択し、少ないチャネルを抑え、検出一般化性を高める。 異なる構造を持つ3つのゲーティング機構が提案され、Res2Netに統合される。 asvspoof 2019 logical access (la) で行った実験の結果,提案するcg-res2netは,la評価セット全体のres2netと,他の最先端シングルシステムよりも優れており,本手法の有効性を示す。

Existing approaches for anti-spoofing in automatic speaker verification (ASV) still lack generalizability to unseen attacks. The Res2Net approach designs a residual-like connection between feature groups within one block, which increases the possible receptive fields and improves the system's detection generalizability. However, such a residual-like connection is performed by a direct addition between feature groups without channel-wise priority. We argue that the information across channels may not contribute to spoofing cues equally, and the less relevant channels are expected to be suppressed before adding onto the next feature group, so that the system can generalize better to unseen attacks. This argument motivates the current work that presents a novel, channel-wise gated Res2Net (CG-Res2Net), which modifies Res2Net to enable a channel-wise gating mechanism in the connection between feature groups. This gating mechanism dynamically selects channel-wise features based on the input, to suppress the less relevant channels and enhance the detection generalizability. Three gating mechanisms with different structures are proposed and integrated into Res2Net. Experimental results conducted on ASVspoof 2019 logical access (LA) demonstrate that the proposed CG-Res2Net significantly outperforms Res2Net on both the overall LA evaluation set and individual difficult unseen attacks, which also outperforms other state-of-the-art single systems, depicting the effectiveness of our method.
翻訳日:2021-07-20 14:42:44 公開日:2021-07-19
# T-RECS:レコメンダシステムの社会的影響を研究するためのシミュレーションツール

T-RECS: A Simulation Tool to Study the Societal Impact of Recommender Systems ( http://arxiv.org/abs/2107.08959v1 )

ライセンス: Link先を確認
Eli Lucherini, Matthew Sun, Amy Winecoff, Arvind Narayanan(参考訳) シミュレーションは、レコメンダシステムの長期的な社会的影響を研究する一般的な方法として登場した。 このアプローチにより、研究者は理論モデルを明示的に指定し、時間とともにシステムレベルの結果の進化を観察できる。 しかし、シミュレーションベースの研究を行うには、しばしば研究者がゼロから独自のシミュレーション環境を構築する必要があるため、導入障壁が高くなり、実装エラーの余地が生まれ、観察結果がモデルによるものか実装によるものなのかを判断することが難しくなる。 研究者がレコメンデーションシステムや,ユーザやコンテンツクリエーターといった複数の利害関係者間のインタラクションをアルゴリズムが仲介する,他のタイプの社会学的システムをシミュレートするために設計された,オープンソースのpythonパッケージであるt-recsを紹介する。 T-RECSの柔軟性を実証するため,2つの従来のシミュレーションに基づく社会工学研究の再現を行った。 さらに、T-RECSを用いて、オーバーヘッドを最小限に抑えた新しい洞察を生成する方法を示す。 本ツールは,この研究領域における再現性を促進し,社会学的システムをシミュレートするための統一言語を提供し,シミュレーション実装の摩擦をスクラッチから除去する。

Simulation has emerged as a popular method to study the long-term societal consequences of recommender systems. This approach allows researchers to specify their theoretical model explicitly and observe the evolution of system-level outcomes over time. However, performing simulation-based studies often requires researchers to build their own simulation environments from the ground up, which creates a high barrier to entry, introduces room for implementation error, and makes it difficult to disentangle whether observed outcomes are due to the model or the implementation. We introduce T-RECS, an open-sourced Python package designed for researchers to simulate recommendation systems and other types of sociotechnical systems in which an algorithm mediates the interactions between multiple stakeholders, such as users and content creators. To demonstrate the flexibility of T-RECS, we perform a replication of two prior simulation-based research on sociotechnical systems. We additionally show how T-RECS can be used to generate novel insights with minimal overhead. Our tool promotes reproducibility in this area of research, provides a unified language for simulating sociotechnical systems, and removes the friction of implementing simulations from scratch.
翻訳日:2021-07-20 14:42:14 公開日:2021-07-19
# Chef: ラベルの不確実性を反復的にクリーニングするための安価で高速なパイプライン

Chef: a cheap and fast pipeline for iteratively cleaning label uncertainties ( http://arxiv.org/abs/2107.08588v1 )

ライセンス: Link先を確認
Yinjun Wu, James Weimer, Susan B. Davidson(参考訳) 高品質なラベルは、医用画像分類タスクなど、多くの機械学習タスクで取得するには高価である。 したがって、弱い監視ツールによって生成された確率的(弱く)ラベルを用いて、弱いラベルを持つ影響力のあるサンプルを複数の人間の注釈者によって識別・浄化し、モデル性能を向上させるプロセスをシードする。 このプロセス全体のコストと計算オーバーヘッドを低減するため、chef(cheap and fast label cleaning)と呼ばれるソリューションを提案し、以下の3つのコンポーネントからなる。 まず,人間のアノテータのコストを削減するために,最も影響力のあるトレーニングサンプルを優先するinflを使用し,1人のアノテータのコストを削減するためにラベルをクリーニングする。 第二に、サンプルセレクタフェーズとモデルコンストラクタフェーズを高速化するために、イントレム-Inflをインクリメンタルに生成し、DeltaGrad-Lをインクリメンタルにモデルを更新します。 第三に、一般的なラベルのクリーニングパイプラインを再設計し、人間のアノテータが1つの大きなサンプルではなく、小さなサンプルを反復的にクリーニングできるようにします。 これにより、すべてのモデルパフォーマンスが向上し、期待されるモデルパフォーマンスが達成された時点での早期終了が可能になる。 広範な実験により,本手法は大きなスピードアップを達成しつつ,優れたモデル予測性能をもたらすことが示された。

High-quality labels are expensive to obtain for many machine learning tasks, such as medical image classification tasks. Therefore, probabilistic (weak) labels produced by weak supervision tools are used to seed a process in which influential samples with weak labels are identified and cleaned by several human annotators to improve the model performance. To lower the overall cost and computational overhead of this process, we propose a solution called Chef(CHEap and Fast label cleaning), which consists of the following three components. First, to reduce the cost of human annotators, we use Infl, which prioritizes the most influential training samples for cleaning and provides cleaned labels to save the cost of one human annotator. Second, to accelerate the sample selector phase and the model constructor phase, we use Increm-Infl to incrementally produce influential samples, and DeltaGrad-L to incrementally update the model. Third, we redesign the typical label cleaning pipeline so that human annotators iteratively clean smaller batch of samples rather than one big batch of samples. This yields better over all model performance and enables possible early termination when the expected model performance has been achieved. Extensive experiments show that our approach gives good model prediction performance while achieving significant speed-ups.
翻訳日:2021-07-20 14:38:22 公開日:2021-07-19
# サーバーレスクエリのための最適リソース割り当て

Optimal Resource Allocation for Serverless Queries ( http://arxiv.org/abs/2107.08594v1 )

ライセンス: Link先を確認
Anish Pimpley, Shuo Li, Anubha Srivastava, Vishal Rohra, Yi Zhu, Soundararajan Srinivasan, Alekh Jindal, Hiren Patel, Shi Qiao, Rathijit Sen(参考訳) 分析ワークロードに対するリソース割り当ての最適化は、クラウドサービスのコスト削減に不可欠である。 同時に、サーバーレス処理システムでは、クエリ毎にリソースを割り当てることが非常に難しく、多くの場合、桁違いに配置を間違えます。 残念なことに、以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。 さらに、これらの手法は過去に観測されていないクエリの割り当てを予測できない。 本稿では,これら2つの問題に対処する。 本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。 本稿では,資源と性能の関係をコンパクトに把握できるパラメータ化表現として,性能特性曲線(PCC)の概念を導入する。 トレーニングデータの分散性に対処するために,クエリの単一実行を用いてPCC全体を効率的に合成する新しいデータ拡張手法を提案する。 最後に、従来のML手法よりもGNNと結合した制約付き損失関数の利点を、MicrosoftのSCOPEビッグデータワークロードに対する広範な実験的評価を通じて、ドメイン固有の振る舞いをキャプチャする利点を示す。

Optimizing resource allocation for analytical workloads is vital for reducing costs of cloud-data services. At the same time, it is incredibly hard for users to allocate resources per query in serverless processing systems, and they frequently misallocate by orders of magnitude. Unfortunately, prior work focused on predicting peak allocation while ignoring aggressive trade-offs between resource allocation and run-time. Additionally, these methods fail to predict allocation for queries that have not been observed in the past. In this paper, we tackle both these problems. We introduce a system for optimal resource allocation that can predict performance with aggressive trade-offs, for both new and past observed queries. We introduce the notion of a performance characteristic curve (PCC) as a parameterized representation that can compactly capture the relationship between resources and performance. To tackle training data sparsity, we introduce a novel data augmentation technique to efficiently synthesize the entire PCC using a single run of the query. Lastly, we demonstrate the advantages of a constrained loss function coupled with GNNs, over traditional ML methods, for capturing the domain specific behavior through an extensive experimental evaluation over SCOPE big data workloads at Microsoft.
翻訳日:2021-07-20 14:37:57 公開日:2021-07-19
# 動的配車における配車のための待ち行列理論の枠組み [in japanese]

A Queueing-Theoretic Framework for Vehicle Dispatching in Dynamic Car-Hailing [technical report] ( http://arxiv.org/abs/2107.08662v1 )

ライセンス: Link先を確認
Peng Cheng, Jiabao Jin, Lei Chen, Xuemin Lin, Libin Zheng(参考訳) スマートモバイルデバイスの急速な開発に伴い、自動車配車プラットフォーム(例えばUberやLyft)は、学術と産業の両方から多くの注目を集めている。 本稿では,利用者の要求が動的に到着し,プラットフォーム全体の収益が最大化されるよう,ドライバーが可能な限り多くの乗客にサービスを提供する必要がある,重要な動的自動車配車問題,すなわち「textit{maximum revenue vehicle dispatching}」(MRVD)について考察する。 MRVD問題はNPハードで難解であることを示す。 さらに、ダイナミックカー配車プラットフォームは将来のライダーに関する情報を持っていないため、問題をさらに難しくする。 MRVD問題に対処するため,まず既存の機械学習アルゴリズムを用いて各領域の将来の車両需要を予測し,各領域の待ち時間モデルを用いてドライバーのアイドル時間を推定する,待ち時間に基づく配車フレームワークを提案する。 予測された車両要求情報と運転者のアイドル時間推定情報を用いて,各バッチ処理毎にプラットフォーム全体の収益を最大化するように,最適なドライバーを乗客に効率的に割り当てる2つのバッチ型車両派遣アルゴリズムを提案する。 広範にわたる実験を通じて,実データと合成データの両方に対する提案手法の有効性と有効性を示す。

With the rapid development of smart mobile devices, the car-hailing platforms (e.g., Uber or Lyft) have attracted much attention from both the academia and the industry. In this paper, we consider an important dynamic car-hailing problem, namely \textit{maximum revenue vehicle dispatching} (MRVD), in which rider requests dynamically arrive and drivers need to serve as many riders as possible such that the entire revenue of the platform is maximized. We prove that the MRVD problem is NP-hard and intractable. In addition, the dynamic car-hailing platforms have no information of the future riders, which makes the problem even harder. To handle the MRVD problem, we propose a queueing-based vehicle dispatching framework, which first uses existing machine learning algorithms to predict the future vehicle demand of each region, then estimates the idle time periods of drivers through a queueing model for each region. With the information of the predicted vehicle demands and estimated idle time periods of drivers, we propose two batch-based vehicle dispatching algorithms to efficiently assign suitable drivers to riders such that the expected overall revenue of the platform is maximized during each batch processing. Through extensive experiments, we demonstrate the efficiency and effectiveness of our proposed approaches over both real and synthetic datasets.
翻訳日:2021-07-20 14:37:38 公開日:2021-07-19
# 畳み込みニューラルネットワーク学習としての非線形schr\"odinger方程式の逆問題

Inverse Problem of Nonlinear Schr\"odinger Equation as Learning of Convolutional Neural Network ( http://arxiv.org/abs/2107.08593v1 )

ライセンス: Link先を確認
Yiran Wang, Zhen Li(参考訳) 本研究では,光ファイバー通信において広く用いられている非線形schr\"odinger方程式の逆問題を解くために,説明可能な畳み込みニューラルネットワーク(nls-net)を用いる。 学習問題の非凸損失関数のランドスケープと最小化を経験的に研究した。 メソッドのハイパーパラメータを選択するためのガイダンスを提供する。 NLS-Netとデータの表現力の観点から最適解の推定誤差を考察する。 さらに、ディープラーニングで人気のあるトレーニングアルゴリズムの性能を比較した。 提案手法を用いて,パラメータの相対的精度を推定できることを示す。 この研究は、深層学習を伴う非線形偏微分方程式の逆問題を解く自然な枠組みを提供する。

In this work, we use an explainable convolutional neural network (NLS-Net) to solve an inverse problem of the nonlinear Schr\"odinger equation, which is widely used in fiber-optic communications. The landscape and minimizers of the non-convex loss function of the learning problem are studied empirically. It provides a guidance for choosing hyper-parameters of the method. The estimation error of the optimal solution is discussed in terms of expressive power of the NLS-Net and data. Besides, we compare the performance of several training algorithms that are popular in deep learning. It is shown that one can obtain a relatively accurate estimate of the considered parameters using the proposed method. The study provides a natural framework of solving inverse problems of nonlinear partial differential equations with deep learning.
翻訳日:2021-07-20 14:36:27 公開日:2021-07-19
# 散在・GPS検出環境におけるマルチUAV探索・目標探索システム

A Multi-UAV System for Exploration and Target Finding in Cluttered and GPS-Denied Environments ( http://arxiv.org/abs/2107.08834v1 )

ライセンス: Link先を確認
Xiaolong Zhu, Fernando Vanegas, Felipe Gonzalez, Conrad Sanderson(参考訳) 多回転無人航空機(UAV)の捜索・救助およびリモートセンシングへの利用は急速に増加している。 しかし、マルチローターUAVは耐久に限界がある。 複数のUAVチームが使用すれば、UAVアプリケーションの範囲を広げることができる。 複雑なGPSを用いた複雑な環境において,UAVチームが協調して目標を探究するための枠組みを提案する。 UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。 そのような環境の例としては、屋内のシナリオ、都市や自然の峡谷、洞窟、トンネルがあり、GPS信号が制限または遮断されている。 このフレームワークは、センシングと環境の不確実性を考慮した確率的分散部分可観測マルコフ決定プロセスに基づいている。 チームは効率よく協力でき、各UAVはミッションの間、限られた処理された観測と位置しか共有しない。 このシステムは、ロボットオペレーティングシステムとgazeboを使ってシミュレートされる。 障害物のある屋内シナリオにおいて,UAVの数が増加するシステムの性能を検証した。 その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。

The use of multi-rotor Unmanned Aerial Vehicles (UAVs) for search and rescue as well as remote sensing is rapidly increasing. Multi-rotor UAVs, however, have limited endurance. The range of UAV applications can be widened if teams of multiple UAVs are used. We propose a framework for a team of UAVs to cooperatively explore and find a target in complex GPS-denied environments with obstacles. The team of UAVs autonomously navigates, explores, detects, and finds the target in a cluttered environment with a known map. Examples of such environments include indoor scenarios, urban or natural canyons, caves, and tunnels, where the GPS signal is limited or blocked. The framework is based on a probabilistic decentralised Partially Observable Markov Decision Process which accounts for the uncertainties in sensing and the environment. The team can cooperate efficiently, with each UAV sharing only limited processed observations and their locations during the mission. The system is simulated using the Robotic Operating System and Gazebo. Performance of the system with an increasing number of UAVs in several indoor scenarios with obstacles is tested. Results indicate that the proposed multi-UAV system has improvements in terms of time-cost, the proportion of search area surveyed, as well as successful rates for search and rescue missions.
翻訳日:2021-07-20 14:36:16 公開日:2021-07-19
# 条件付きグラフ型変分オートエンコーダによる小分子の訓練と種子バイアスの解析 -ai駆動分子生成のための洞察-

Analysis of training and seed bias in small molecules generated with a conditional graph-based variational autoencoder -- Insights for practical AI-driven molecule generation ( http://arxiv.org/abs/2107.08987v1 )

ライセンス: Link先を確認
Seung-gu Kang, Joseph A. Morrone, Jeffrey K. Weber, Wendy D. Cornell(参考訳) 生成分子設計への深層学習の適用は、リードシリーズ開発を加速させる早期の約束を示している。 しかしながら、トレーニングやデータセット、シードバイアスといった要因が、医学や計算化学者に対する技術の有用性に与える影響について疑問が残る。 本研究では,活動条件付きグラフベース変分オートエンコーダ(VAE)の出力に及ぼすシードおよびトレーニングバイアスの影響を分析する。 ドパミンD2受容体に対応する大規模ラベル付きデータセットを用いて, グラフベース生成モデルを用いて, 所望の条件付活性と生成分子における好ましくない物理特性を発現させる。 本研究では, 分子種子の活性の活性化, 脱活性化, 維持を可能にする活性スワッピング法を実装し, 独立な深層学習分類法を適用し, 生成結果の検証を行う。 全体として、ノイズ、分子種、トレーニングセットの選択の関係を、様々な潜在空間サンプリング手順で明らかにし、実用的なAI駆動分子生成のための重要な洞察を提供する。

The application of deep learning to generative molecule design has shown early promise for accelerating lead series development. However, questions remain concerning how factors like training, dataset, and seed bias impact the technology's utility to medicine and computational chemists. In this work, we analyze the impact of seed and training bias on the output of an activity-conditioned graph-based variational autoencoder (VAE). Leveraging a massive, labeled dataset corresponding to the dopamine D2 receptor, our graph-based generative model is shown to excel in producing desired conditioned activities and favorable unconditioned physical properties in generated molecules. We implement an activity swapping method that allows for the activation, deactivation, or retention of activity of molecular seeds, and we apply independent deep learning classifiers to verify the generative results. Overall, we uncover relationships between noise, molecular seeds, and training set selection across a range of latent-space sampling procedures, providing important insights for practical AI-driven molecule generation.
翻訳日:2021-07-20 14:35:43 公開日:2021-07-19
# 非線形時間フローエンタングルメントに基づく波ベースの極深学習

Wave-based extreme deep learning based on non-linear time-Floquet entanglement ( http://arxiv.org/abs/2107.08564v1 )

ライセンス: Link先を確認
Ali Momeni and Romain Fleury(参考訳) 波ベースのアナログ信号処理は、人工的に設計された媒体を介して波が伝播するときに発生する非常に高速でオンザフライで電力効率の良いデータ処理の可能性を秘めている。 しかし、従来の波動材料の基本的な非線形性のため、そのようなアナログプロセッサは画像エッジ検出や行列乗算のような単純な線形射影に限られている。 複雑なニューロモルフィックコンピューティングタスクは、本質的に強い非線形性を必要とするが、これまではウェーブベースソリューションの限界外にとどまっており、デジタルフロントに非線形性を実装したり、弱く柔軟性のない非線形センサを使用して学習性能を阻害したりしている。 本稿では,信号入力間の周波数差の強い非線形絡み合いを誘導し,一様変調誘電体層と散乱媒質を含むアナログ極深層学習のための高効率・多目的波プラットフォームを実現するため,時間-フロケット物理の関連性を示す。 我々は,カオス時系列の予測から,異なるデータセットの同時分類に至るまで,学習課題を解くために,極端な学習マシンと貯水池コンピューティングの手法の有効性を実証する。 その結果, 高エネルギー効率, 高速, 拡張性を備えたウェーブベース機械学習が実現した。

Wave-based analog signal processing holds the promise of extremely fast, on-the-fly, power-efficient data processing, occurring as a wave propagates through an artificially engineered medium. Yet, due to the fundamentally weak non-linearities of traditional wave materials, such analog processors have been so far largely confined to simple linear projections such as image edge detection or matrix multiplications. Complex neuromorphic computing tasks, which inherently require strong non-linearities, have so far remained out-of-reach of wave-based solutions, with a few attempts that implemented non-linearities on the digital front, or used weak and inflexible non-linear sensors, restraining the learning performance. Here, we tackle this issue by demonstrating the relevance of Time-Floquet physics to induce a strong non-linear entanglement between signal inputs at different frequencies, enabling a power-efficient and versatile wave platform for analog extreme deep learning involving a single, uniformly modulated dielectric layer and a scattering medium. We prove the efficiency of the method for extreme learning machines and reservoir computing to solve a range of challenging learning tasks, from forecasting chaotic time series to the simultaneous classification of distinct datasets. Our results open the way for wave-based machine learning with high energy efficiency, speed, and scalability.
翻訳日:2021-07-20 14:35:03 公開日:2021-07-19
# 生成型adversarial networkの学習のための新しい分散手法

A New Distributed Method for Training Generative Adversarial Networks ( http://arxiv.org/abs/2107.08681v1 )

ライセンス: Link先を確認
Jinke Ren, Chonghe Liu, Guanding Yu, Dongning Guo(参考訳) GAN(Generative Adversarial Network)は、ジェネレータと識別器を共同で訓練することにより、実データに似た合成データを生成する機械学習モデルである。 多くのアプリケーションでは、データリソースと計算リソースが多くのデバイスに分散しているため、プライバシーや通信の制約により、一箇所のすべてのデータを集中的に処理することは不可能である。 本稿では,各デバイスがローカルデータを用いてローカル識別器を演算し,単一のサーバが結果を集約し,グローバルGANを算出する,分散方式でGANをトレーニングするための新しいフレームワークを提案する。 具体的には、各イテレーションでサーバがグローバルなGANをデバイスに送信し、そのデバイスがローカルなディスクリミネータを更新し、その結果をサーバに送信し、そのデバイスがグローバルなディスクリミネータとして平均を計算し、それに従ってグローバルなジェネレータを更新する。 2つの異なるアップデートスケジュールは、デバイスとサーバ間の異なるレベルの並列性で設計されている。 3つの一般的なデータセットを用いて得られた数値結果から,提案手法は収束速度の点で最先端のフレームワークより優れていることが示された。

Generative adversarial networks (GANs) are emerging machine learning models for generating synthesized data similar to real data by jointly training a generator and a discriminator. In many applications, data and computational resources are distributed over many devices, so centralized computation with all data in one location is infeasible due to privacy and/or communication constraints. This paper proposes a new framework for training GANs in a distributed fashion: Each device computes a local discriminator using local data; a single server aggregates their results and computes a global GAN. Specifically, in each iteration, the server sends the global GAN to the devices, which then update their local discriminators; the devices send their results to the server, which then computes their average as the global discriminator and updates the global generator accordingly. Two different update schedules are designed with different levels of parallelism between the devices and the server. Numerical results obtained using three popular datasets demonstrate that the proposed framework can outperform a state-of-the-art framework in terms of convergence speed.
翻訳日:2021-07-20 14:34:31 公開日:2021-07-19
# (参考訳) 視覚・言語ナビゲーションのための近隣ビュー強化モデル [全文訳有]

Neighbor-view Enhanced Model for Vision and Language Navigation ( http://arxiv.org/abs/2107.07201v2 )

ライセンス: CC BY 4.0
Dong An, Yuankai Qi, Yan Huang, Qi Wu, Liang Wang, Tieniu Tan(参考訳) vision and language navigation (vln) は、エージェントが自然言語命令に従うことによってターゲットの場所へナビゲートする必要がある。 既存の作品のほとんどは、候補が属する単一のビューの特徴によってナビゲーション候補を表す。 しかし、命令は単一のビューのランドマークを参照として参照し、既存のメソッドのテキストと視覚のマッチングが失敗する可能性がある。 本研究では,隣接ビューからの視覚コンテキストを適応的に組み込んでテキストと視覚のマッチングを改善するマルチモジュールNvEMを提案する。 特に、nvemは、サブジェクトモジュールと参照モジュールを使用して、隣り合うビューからコンテキストを収集します。 対象モジュールはグローバルレベルで隣のビューをヒューズし、参照モジュールはローカルレベルで隣のオブジェクトをヒューズする。 対象と参照は注意機構によって適応的に決定される。 私たちのモデルは、命令の強い方向指示(例えば ``turn left''')を利用するアクションモジュールも含んでいます。 各モジュールは別々にナビゲーションアクションを予測し、重み付き和を最終アクションの予測に使用する。 大規模な実験結果から,提案手法がいくつかの最先端ナビゲータに対してR2RとR4Rのベンチマークに与える影響が示され,NvEMが事前学習した手法よりも優れていた。 私たちのコードはhttps://github.com/m arsaki/nvemで利用可能です。

Vision and Language Navigation (VLN) requires an agent to navigate to a target location by following natural language instructions. Most of existing works represent a navigation candidate by the feature of the corresponding single view where the candidate lies in. However, an instruction may mention landmarks out of the single view as references, which might lead to failures of textual-visual matching of existing methods. In this work, we propose a multi-module Neighbor-View Enhanced Model (NvEM) to adaptively incorporate visual contexts from neighbor views for better textual-visual matching. Specifically, our NvEM utilizes a subject module and a reference module to collect contexts from neighbor views. The subject module fuses neighbor views at a global level, and the reference module fuses neighbor objects at a local level. Subjects and references are adaptively determined via attention mechanisms. Our model also includes an action module to utilize the strong orientation guidance (e.g., ``turn left'') in instructions. Each module predicts navigation action separately and their weighted sum is used for predicting the final action. Extensive experimental results demonstrate the effectiveness of the proposed method on the R2R and R4R benchmarks against several state-of-the-art navigators, and NvEM even beats some pre-training ones. Our code is available at https://github.com/M arSaKi/NvEM.
翻訳日:2021-07-20 11:33:32 公開日:2021-07-19
# (参考訳) 予後マーカーの類似性に基づく最善の治療法の推薦 [全文訳有]

Recommending best course of treatment based on similarities of prognostic markers ( http://arxiv.org/abs/2107.07500v2 )

ライセンス: CC BY 4.0
Sudhanshu, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) あらゆる分野にまたがる技術分野の進歩により、膨大な情報の流入は避けられない。 テクノロジーの進歩がもたらしたあらゆる機会のうちの1つは、効率的なデータ検索ソリューションを提案することである。 つまり、膨大な量のデータから、検索方法は、ユーザが関連データや最近のデータを時間とともに取得できるようにすべきである。 エンターテイメントとeコマースの分野では、前述のものを提供するためにレコメンダシステムが機能している。 医療領域で同じシステムを使うことは、さまざまな方法で役に立つことは間違いなく証明できます。 そこで本研究では, 医療分野における協調フィルタリング型レコメンダシステムを提案し, 患者が経験した症状に基づいて治療を推奨する。 さらに、データの可用性の限界に対処するため、様々な疾患に関する治療法からなる新しいデータセットを開発する。 提案システムでは、患者の予後マーカーを入力として受け入れ、最良の治療コースを生成する。 いくつかの実験的実験により、提案されたモデルは、与えられた予後マーカーに対する治療を推奨する有望な結果を得た。

With the advancement in the technology sector spanning over every field, a huge influx of information is inevitable. Among all the opportunities that the advancements in the technology have brought, one of them is to propose efficient solutions for data retrieval. This means that from an enormous pile of data, the retrieval methods should allow the users to fetch the relevant and recent data over time. In the field of entertainment and e-commerce, recommender systems have been functioning to provide the aforementioned. Employing the same systems in the medical domain could definitely prove to be useful in variety of ways. Following this context, the goal of this paper is to propose collaborative filtering based recommender system in the healthcare sector to recommend remedies based on the symptoms experienced by the patients. Furthermore, a new dataset is developed consisting of remedies concerning various diseases to address the limited availability of the data. The proposed recommender system accepts the prognostic markers of a patient as the input and generates the best remedy course. With several experimental trials, the proposed model achieved promising results in recommending the possible remedy for given prognostic markers.
翻訳日:2021-07-20 11:16:11 公開日:2021-07-19
# 多次元投影のクラスタ間信頼性の測定と説明

Measuring and Explaining the Inter-Cluster Reliability of Multidimensional Projections ( http://arxiv.org/abs/2107.07859v2 )

ライセンス: Link先を確認
Hyeon Jeon, Hyung-Kwon Ko, Jaemin Jo, Youngtaek Kim, and Jinwook Seo(参考訳) 本研究では,多次元射影(mdp)のクラスタ間信頼性を測定するための2つの新しい指標である定常性と凝集性,特に,クラスター間構造が元の高次元空間と低次元射影空間の間で保存されているかを示す。 クラスタ間信頼性の測定は、クラスタ間タスク(例えば、プロジェクションされたビューから元の空間におけるクラスタ間関係を識別する)がどの程度適切に実行されるかに直接影響を与えるため、非常に重要であるが、クラスタ間タスクの重要性にもかかわらず、信頼性や継続性といった以前のメトリクスではクラスタ間信頼性の測定に失敗していることがわかった。 我々のメトリクスはクラスタ間信頼性の2つの側面を考察している。定常性は、投影された空間内のクラスタが元の空間内のクラスタを形成する度合いを測り、結合性は逆の度合いを測る。 任意の形状と位置を持つランダムなクラスタを1つの空間で抽出し、クラスタが他の空間でどれだけ伸びるか、分散しているかを評価する。 さらに、我々のメトリクスはポイントワイズ歪みを定量化することができ、プロジェクションにおけるクラスタ間信頼性の可視化を可能にします。 定量的実験により,クラスタ間信頼性を損なう歪みを正確に把握すると同時に,以前の測定値では歪みの捕捉が困難であることを確認した。 ケーススタディでは,我々のメトリクスと信頼性マップが,適切なプロジェクション技術やハイパーパラメータの選択を支援するとともに,クラスタ間タスクの実行中に誤解釈を防止し,クラスタ間構造を適切に識別できるようにする。

We propose Steadiness and Cohesiveness, two novel metrics to measure the inter-cluster reliability of multidimensional projection (MDP), specifically how well the inter-cluster structures are preserved between the original high-dimensional space and the low-dimensional projection space. Measuring inter-cluster reliability is crucial as it directly affects how well inter-cluster tasks (e.g., identifying cluster relationships in the original space from a projected view) can be conducted; however, despite the importance of inter-cluster tasks, we found that previous metrics, such as Trustworthiness and Continuity, fail to measure inter-cluster reliability. Our metrics consider two aspects of the inter-cluster reliability: Steadiness measures the extent to which clusters in the projected space form clusters in the original space, and Cohesiveness measures the opposite. They extract random clusters with arbitrary shapes and positions in one space and evaluate how much the clusters are stretched or dispersed in the other space. Furthermore, our metrics can quantify pointwise distortions, allowing for the visualization of inter-cluster reliability in a projection, which we call a reliability map. Through quantitative experiments, we verify that our metrics precisely capture the distortions that harm inter-cluster reliability while previous metrics have difficulty capturing the distortions. A case study also demonstrates that our metrics and the reliability map 1) support users in selecting the proper projection techniques or hyperparameters and 2) prevent misinterpretation while performing inter-cluster tasks, thus allow an adequate identification of inter-cluster structure.
翻訳日:2021-07-20 10:47:20 公開日:2021-07-19
# 軌道予測のための部分観測歩行者のスパース相互作用グラフの学習

Learning Sparse Interaction Graphs of Partially Observed Pedestrians for Trajectory Prediction ( http://arxiv.org/abs/2107.07056v2 )

ライセンス: Link先を確認
Zhe Huang, Ruohua Li, Kazuki Shin, Katherine Driggs-Campbell(参考訳) マルチペデストリアン軌道予測は、非構造環境における群衆と相互作用する自律システムの必然的な安全要素である。 近年,歩行者運動の背後にある社会的規範の理解に着目した軌道予測アルゴリズムが開発されている。 しかし、これらの研究は、通常2つの仮定を持ち、ロボットの応用にスムーズな適用を妨げている:全ての歩行者の位置は一貫して追跡されている;ターゲットエージェントは現場の歩行者全員に注意を払う。 第1の仮定は不完全な歩行者データとのバイアス付き相互作用モデリングにつながり,第2の仮定は不要な外乱を引き起こし,凍結ロボット問題を引き起こす。 そこで,Gumbel Social Transformerを提案する。Edge Gumbel Selectorは,時間ステップ毎に部分的に観察された歩行者のスパース相互作用グラフをサンプリングする。 Node Transformer EncoderとMasked LSTMは、歩行者の特徴をサンプルのスパースグラフでエンコードし、軌跡を予測する。 我々は,本モデルが仮定によって引き起こされる潜在的な問題を克服し,そのアプローチがベンチマーク評価で関連する作業を上回ることを実証する。

Multi-pedestrian trajectory prediction is an indispensable safety element of autonomous systems that interact with crowds in unstructured environments. Many recent efforts have developed trajectory prediction algorithms with focus on understanding social norms behind pedestrian motions. Yet we observe these works usually hold two assumptions that prevent them from being smoothly applied to robot applications: positions of all pedestrians are consistently tracked; the target agent pays attention to all pedestrians in the scene. The first assumption leads to biased interaction modeling with incomplete pedestrian data, and the second assumption introduces unnecessary disturbances and leads to the freezing robot problem. Thus, we propose Gumbel Social Transformer, in which an Edge Gumbel Selector samples a sparse interaction graph of partially observed pedestrians at each time step. A Node Transformer Encoder and a Masked LSTM encode the pedestrian features with the sampled sparse graphs to predict trajectories. We demonstrate that our model overcomes the potential problems caused by the assumptions, and our approach outperforms the related works in benchmark evaluation.
翻訳日:2021-07-20 10:46:51 公開日:2021-07-19