このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20201129)

# 物質場ハミルトンの量子位相図i : 忠実性、バーズ距離、絡み合い

Quantum Phase Diagrams of Matter-Field Hamiltonians I: Fidelity, Bures Distance, and Entanglement ( http://arxiv.org/abs/2002.02491v4 )

ライセンス: Link先を確認
Sergio Cordero, Eduardo Nahmad-Achar, Ram\'on L\'opez-Pe\~na and Octavio Casta\~nos(参考訳) 有限物質場ハミルトニアンモデルの量子位相図を計算するための一般的な手順が確立される。 モデルの異なる対称性に関連する最小エネルギー曲面は、物質場結合強度の関数として計算される。 基底状態波動関数を用いて、パラメータの観点から最小の忠実度または最大バーズ距離曲面を求め、そこからそれらの表面の臨界領域が有限量子相転移を特徴づける。 このN_a=1$およびN_a=4$粒子の手順に従って、一般化されたTavis-CummingsとDickeモデルの量子位相図を2ドルの電磁場モードで双極的に相互作用させる。 N_a=1$の場合、物質の還元密度行列は、物質とフィールドセクターの間の量子相関の測定とともに、異なる3$レベルの原子配置に基づいて、2$-シプレックス(一般的な3次元密度行列に関連する)の位相領域を決定することができる。 占有確率を実験的に測定できるので、有限系に対する量子位相図の存在を確立することができる。

A general procedure is established to calculate the quantum phase diagrams for finite matter-field Hamiltonian models. The minimum energy surface associated to the different symmetries of the model is calculated as a function of the matter-field coupling strengths. By means of the ground state wave functions, one looks for minimal fidelity or maximal Bures distance surfaces in terms of the parameters, and from them the critical regions of those surfaces characterize the finite quantum phase transitions. Following this procedure for $N_a=1$ and $N_a=4$ particles, the quantum phase diagrams are calculated for the generalised Tavis-Cummings and Dicke models of 3-level systems interacting dipolarly with $2$ modes of electromagnetic field. For $N_a=1$, the reduced density matrix of the matter allows us to determine the phase regions in a $2$-simplex (associated to a general three dimensional density matrix), on the different $3$-level atomic configurations, together with a measurement of the quantum correlations between the matter and field sectors. As the occupation probabilities can be measured experimentally, the existence of a quantum phase diagram for a finite system can be established.
翻訳日:2023-06-04 13:55:25 公開日:2020-11-29
# 染料充填マイクロキャビティ内光の輸送と局在

Transport and localization of light inside a dye-filled microcavity ( http://arxiv.org/abs/2009.00094v2 )

ライセンス: Link先を確認
Himadri S. Dhar, Jo\~ao D. Rodrigues, Benjamin T. Walker, Rupert F. Oulton, Robert A. Nyman, Florian Mintert(参考訳) マルチモードの染料充填マイクロキャビティ内の光-物質相互作用の駆動散逸性は、輸送のような非平衡現象を研究するのに理想的なシステムである。 本研究では, マイクロキャビティ内で光がどのように効率的に輸送され, 非コヒーレント吸収とエミッションプロセスによって媒介されるかを検討する。 特に, 色素分子の加熱効果と駆動と損失の非平衡の影響との複雑な相互作用から生じる, 伝導性, 局在性の2つの異なる輸送形態が存在することを示す。 導電性状態における光の伝播は、いくつかの局所化されたキャビティモードが動的相転移し、凝縮状態または溶離状態に遷移するときに起こる。 また, この輸送はキャビティ電位の弱い障害に対して頑健であるが, 良好な熱化条件下でも, 強い障害は光の局在に繋がる可能性がある。 重要なことに、光の輸送と局在は、系のどのコヒーレント干渉よりも非平衡ダイナミクスの現れである。

The driven-dissipative nature of light-matter interaction inside a multimode, dye-filled microcavity makes it an ideal system to study nonequilibrium phenomena, such as transport. In this work, we investigate how light is efficiently transported inside such a microcavity, mediated by incoherent absorption and emission processes. In particular, we show that there exist two distinct regimes of transport, viz. conductive and localized, arising from the complex interplay between the thermalizing effect of the dye molecules and the nonequilibrium influence of driving and loss. The propagation of light in the conductive regime occurs when several localized cavity modes undergo dynamical phase transitions to a condensed, or lasing, state. Further, we observe that while such transport is robust for weak disorder in the cavity potential, strong disorder can lead to localization of light even under good thermalizing conditions. Importantly, the exhibited transport and localization of light is a manifestation of the nonequilibrium dynamics rather than any coherent interference in the system.
翻訳日:2023-05-04 05:13:48 公開日:2020-11-29
# 物質場ハミルトニアンの量子位相図II:ワイグナー関数解析

Quantum Phase Diagrams of Matter-Field Hamiltonians II: Wigner Function Analysis ( http://arxiv.org/abs/2009.13663v2 )

ライセンス: Link先を確認
Ram\'on L\'opez-Pe\~na, Sergio Cordero, Eduardo Nahmad-Achar, Octavio Casta\~nos(参考訳) 非古典的状態は量子計算や量子メトロロジーにおいて実用的関心を持つ。 これらの状態は、一部の地域ではウィグナー関数陰性性によって検出できる。 本稿では,1つの原子に対する3レベル一般化ディックモデルの基底状態を計算し,その位相図の構造を忠実度基準を用いて決定する。 また, 基底状態の電磁モードのウィグナー関数を, 対応する還元密度行列を用いて計算し, エンタングルメントが存在する領域を位相図で示す。 連続相転移のより微細な分類は、最大バーズ距離の表面の計算によって得られる。

Non-classical states are of practical interest in quantum computing and quantum metrology. These states can be detected through their Wigner function negativity in some regions. In this paper, we calculate the ground state of the three-level generalised Dicke model for a single atom and determine the structure of its phase diagram using a fidelity criterion. We also calculate the Wigner function of the electromagnetic modes of the ground state through the corresponding reduced density matrix, and show in the phase diagram the regions where entanglement is present. A finer classification for the continuous phase transitions is obtained through the computation of the surface of maximum Bures distance.
翻訳日:2023-04-30 18:21:14 公開日:2020-11-29
# ボース・アインシュタイン凝縮体の光学集光

Optical focusing of Bose-Einstein condensates ( http://arxiv.org/abs/2011.14470v1 )

ライセンス: Link先を確認
A. M. Kordbacheh, S. S. Szigeti and A. M. Martin(参考訳) ルービジウムボース・アインシュタイン凝縮体の平面表面への光学的焦点について理論的に検討する。 本分析では,2体原子-原子相互作用と3体組換え損失の効果を含むガウス変分法を用いる。 表面の集中型BECプロファイルの幅, ピーク密度, 原子損失率などの重要な要因をGross-Pitaevskii数値シミュレーションと比較検討した。 我々は,解析手法と数値シミュレーションの結果に合理的な一致を見出した。 我々の分析は、10^5$原子の縮合は10^5$原子より大きい10^5$原子の最大密度を持つナノスケール原子沈着を許容する10$10$nmの幅に焦点を合わせることができると予測している。

We theoretically investigate the optical focusing of a rubidium Bose-Einstein condensate onto a planar surface. Our analysis uses a Gaussian variational method that includes the effects of two-body atom-atom interactions and three-body recombination losses. The essential factors such as the width, peak density and atom loss rate of the focused BEC profile on the surface are investigated and compared to Gross-Pitaevskii numerical simulations. We find a reasonable agreement in the results between our analytical approach and the numerical simulations. Our analysis predicts that condensates of $10^5$ atoms could be focused down to $\sim 10$nm widths, potentially allowing nanometer-scale atomic deposition with peak densities greater than $10^5$ atoms/$\mu$m$^2$.
翻訳日:2023-04-22 16:43:28 公開日:2020-11-29
# サウジアラビアにおけるgoogle検索とcovid-19感染者の相関研究

Google Searches and COVID-19 Cases in Saudi Arabia: A Correlation Study ( http://arxiv.org/abs/2011.14386v1 )

ライセンス: Link先を確認
Btool Hamoui, Abdulaziz Alashaikh, Eisa Alanazi(参考訳) 背景:新型コロナウイルス(COVID-19)の流行は、世界規模で人間の生活に大きな影響を与えている。 新型コロナウイルスの感染拡大を受け、公衆衛生専門家は感染拡大の追跡と定量化が困難な状況に陥った。 目的: サウジアラビア王国における新型コロナウイルスの流行状況を監視するために, Google Trends (GT) を用いたデジタル監視モデルの有効性を検討する。 方法:2020年3月2日から10月31日までの10種類の共通症状関連キーワードを用いてGTデータを検索する。 新型コロナウイルスとGoogle検索語との相関を判定するために,スピアマン相関を行った。 結果: Cough と Sore Throat に関連する GT データは,サウジアラビアのインターネット利用者によって最も検索された症状である。 毎日の最も高い相関関係は、"Los of Smell" であり、"Los of Taste" と "Droprrhea" が続く。 また,週毎の報告例と,嗅覚の喪失,味覚の喪失,下垂れの症状との間にも強い相関関係が認められた。 結論: 新型コロナウイルスの症状に関連するインターネット検索を, パンデミックの監視に活用する調査を行った。 この研究は、サウジアラビアにおける新型コロナウイルス監視の補助的監視ツールとしてGoogle検索が利用できることを文書化した。

Background: The outbreak of the new coronavirus disease (COVID-19) has affected human life to a great extent on a worldwide scale. During the coronavirus pandemic, public health professionals at the early outbreak faced an extraordinary challenge to track and quantify the spread of disease. Objective: To investigate whether a digital surveillance model using google trends (GT) is feasible to monitor the outbreak of coronavirus in the Kingdom of Saudi Arabia. Methods: We retrieve GT data using ten common COVID-19 symptoms related keywords from March 2, 2020, to October 31, 2020. Spearman correlation were performed to determine the correlation between COVID-19 cases and the Google search terms. Results: GT data related to Cough and Sore Throat were the most searched symptoms by the Internet users in Saudi Arabia. The highest daily correlation found with the Loss of Smell followed by Loss of Taste and Diarrhea. Strong correlation as well was found between the weekly confirmed cases and the same symptoms: Loss of Smell, Loss of Taste and Diarrhea. Conclusions: We conducted an investigation study utilizing Internet searches related to COVID-19 symptoms for surveillance of the pandemic spread. This study documents that google searches can be used as a supplementary surveillance tool in COVID-19 monitoring in Saudi Arabia.
翻訳日:2023-04-22 16:42:40 公開日:2020-11-29
# マイクロトンネルシステムのための量子センサ

Quantum Sensors for Microscopic Tunneling Systems ( http://arxiv.org/abs/2011.14327v1 )

ライセンス: Link先を確認
Alexander Bilmes and Serhii Volosheniuk and Jan D. Brehm and Alexey V. Ustinov and J\"urgen Lisenfeld(参考訳) ガラスの異常な低温特性は、何十年にもわたって固体物理学者を悩ませてきた、固有の励起性物質、いわゆるトンネル2層系(TLS)から生じる。 TLSは超伝導量子ビットなどのマイクロファブリック量子デバイスにおいて特に重要となり、それらはデコヒーレンスの主要な源となっている。 本稿では,薄膜として堆積した任意の材料において,個々のTLSを特徴付ける手法を提案する。 この材料は超伝導量子ビットのジョセフソン接合を切断するコンデンサの誘電体として使用される。 このようなハイブリッド量子システムでは、キュービットは個々のTLSを検出し制御するためのインタフェースとして機能する。 本研究では,TLS共鳴の分光学的測定を行い,適用ひずみと直流電界との結合性を評価し,試料中のコヒーレントTLS間の強い相互作用を示す。 提案手法は,超伝導量子コンピュータの進展に緊急に必要なトンネル欠陥の構造を解明し,低損失誘電体を開発するために,量子材料分光の道を開く。

The anomalous low-temperature properties of glasses arise from intrinsic excitable entities, so-called tunneling Two-Level-Systems (TLS), whose microscopic nature has been baffling solid-state physicists for decades. TLS have become particularly important for micro-fabricated quantum devices such as superconducting qubits, where they are a major source of decoherence. Here, we present a method to characterize individual TLS in virtually arbitrary materials deposited as thin-films. The material is used as the dielectric in a capacitor that shunts the Josephson junction of a superconducting qubit. In such a hybrid quantum system the qubit serves as an interface to detect and control individual TLS. We demonstrate spectroscopic measurements of TLS resonances, evaluate their coupling to applied strain and DC-electric fields, and find evidence of strong interaction between coherent TLS in the sample material. Our approach opens avenues for quantum material spectroscopy to investigate the structure of tunneling defects and to develop low-loss dielectrics that are urgently required for the advancement of superconducting quantum computers.
翻訳日:2023-04-22 16:42:07 公開日:2020-11-29
# 統合的技術受容モデルを用いた臨床判断支援ツールの受容評価

Assessing the Acceptance of Clinical Decision Support Tools using an Integrated Technology Acceptance Model ( http://arxiv.org/abs/2011.14315v1 )

ライセンス: Link先を確認
Soliman Aljarboa, Shah J Miah(参考訳) 近年の医療の発展に伴い,臨床診断支援システム (CDSS) のような先進医療情報技術 (HIT) の活用は, 一般開業医(GP) を支援する上で必要とされている。 CDSSは、GPがCDSSを受け入れる原因を理解できなかったために失敗する可能性がある。 CDSSの受容を促進する要因を同定することは、その実施の成功に欠かせない側面である。 本研究は,サウジアラビアにおけるCDSSの受容に影響を与える要因をGPによって同定することを目的とする。 本研究は,タスク・テクノロジー・フィット(TTF)モデルと統合され,12GPの半構造化インタビューを用いてデータ収集に定性的手法を適用した,テクノロジーの受容と利用の統一理論(UTAUT)に大きく依存する。 本研究の結果から,CDSSの受容には,性能期待,努力期待,ファシリテート条件,タスクに適した技術,技術特性,タスク特性などの影響が認められた。 また, UTAUTモデルを拡張して, GPsのCDSS受容における他の要因を調査し, 検討することの必要性が示唆された。

With the medical development in recent decades, the multiplicity of different diseases, and an increased number of patients, the use of an advanced healthcare information technology (HIT) such as a clinical decision support system (CDSS) has been of necessary to help general practitioners (GPs). CDSS may fail due to the failure to understand the factors influencing the GP's acceptance of CDSS. Identifying factors that promote acceptance of CDSS can be a vital aspect for its successful implementation. This study seeks to identify factors that influence the acceptance of CDSS in Saudi Arabia by GPs. This study relies mainly on the unified theory of acceptance and use of technology (UTAUT) which has been integrated with a task-technology fit (TTF) model and has applied a qualitative method to collect the data through using semi-structured interviews with 12 GPs. The study's results indicated that performance expectancy, effort expectancy, facilitating conditions, technology fit for the task, technology characteristics and task characteristics have all influenced the acceptance of CDSS. The results also indicated the need to extend the UTAUT model to investigate and explore other factors in GPs' acceptance of CDSS.
翻訳日:2023-04-22 16:41:49 公開日:2020-11-29
# アベリアおよび非アベリア量子幾何テンソルの位相空間定式化

Phase space formulation of the Abelian and non-Abelian quantum geometric tensor ( http://arxiv.org/abs/2011.14310v1 )

ライセンス: Link先を確認
Diego Gonzalez, Daniel Gutierrez-Ruiz, J. David Vergara(参考訳) パラメータ空間の幾何学は量子幾何学的テンソルによって符号化され、量子状態に関する基本的な情報を取り込み、量子計量テンソルとベリー接続の曲率の両方を含む。 本稿では、位相空間あるいはウィグナー関数形式論の枠組みにおけるベリー接続と量子幾何学テンソルの定式化について述べる。 この定式化は、考慮中の幾何学構造へのワイル対応の直接適用によって得られる。 特に、量子計量テンソルはウィグナー関数のみを用いて計算できることを示し、このテンソルの成分を実験的に測定する別の方法を開く。 また、非アベリア一般化に対処し、ウィルツェク・ゼー接続と非アベリア量子幾何テンソルの位相空間定式化を得る。 この場合、非可換量子計量テンソルは非対角ウィグナー関数のみを含む。 そこで,本手法を実例で検証し,これを$N$結合調和振動子系に適用し,関連するベリー接続が消滅し,量子計量テンソルの解析式を得ることを示す。 その結果, 量子多体系に関連するパラメータ空間の研究に, 開発手法が適していることが示唆された。

The geometry of the parameter space is encoded by the quantum geometric tensor, which captures fundamental information about quantum states and contains both the quantum metric tensor and the curvature of the Berry connection. We present a formulation of the Berry connection and the quantum geometric tensor in the framework of the phase space or Wigner function formalism. This formulation is obtained through the direct application of the Weyl correspondence to the geometric structure under consideration. In particular, we show that the quantum metric tensor can be computed using only the Wigner functions, which opens an alternative way to experimentally measure the components of this tensor. We also address the non-Abelian generalization and obtain the phase space formulation of the Wilczek-Zee connection and the non-Abelian quantum geometric tensor. In this case, the non-Abelian quantum metric tensor involves only the non-diagonal Wigner functions. Then, we verify our approach with examples and apply it to a system of $N$ coupled harmonic oscillators, showing that the associated Berry connection vanishes and obtaining the analytic expression for the quantum metric tensor. Our results indicate that the developed approach is well adapted to study the parameter space associated with quantum many-body systems.
翻訳日:2023-04-22 16:41:27 公開日:2020-11-29
# 複数のサンプルの同時処理による変分回路における高速教師付き学習アルゴリズム

An Algorithm for Fast Supervised Learning in Variational Circuits through Simultaneous Processing of Multiple Samples ( http://arxiv.org/abs/2011.14297v1 )

ライセンス: Link先を確認
Siddharth Dangwal, Ritvik Sharma, Debanjan Bhowmik(参考訳) 本稿では,複数のサンプルを並列に処理し,変分分類器の高速学習のための新しいアルゴリズムを提案する。 このアルゴリズムは変分回路で使用される任意のアンザッツに適応することができる。 提案アルゴリズムは、前方通過におけるqRAMや他の量子回路を利用する。 さらに,損失を古典的に計算する通常の手法ではなく,スワップテスト回路を用いて損失を計算する。 このアルゴリズムは、Nサンプルのデータセット上での通常のO(N)whenトレーニングから、変分分類器のトレーニングコストをO(logN)に下げる。 論文では二分分類のみについて論じるが、アルゴリズムは容易に多クラス分類に一般化できる。

We propose a novel algorithm for fast training of variational classifiers by processing multiple samples parallelly. The algorithm can be adapted for any ansatz used in the variational circuit. The presented algorithm utilizes qRAM and other quantum circuits in the forward pass. Further, instead of the usual practice of computing the loss classically, we calculate the loss using a Swap-test circuit. The algorithm thus brings down the training cost of a variational classifier to O(logN)from the usual O(N)when training on a dataset of N samples. Although we discuss only binary classification in the paper, the algorithm can be easily generalized to multi-class classification.
翻訳日:2023-04-22 16:40:54 公開日:2020-11-29
# 分類ラベルを用いた画像分割学習

Learning to segment images with classification labels ( http://arxiv.org/abs/1912.12533v2 )

ライセンス: Link先を確認
Ozan Ciga, Anne L. Martel(参考訳) 医用画像における最も一般的な課題は分類と分割である。 いずれのタスクも、専門家が注釈付けしたラベル付きデータを必要とします。 セグメンテーションのためのアノテータは一般的に、クラスラベルにイメージパッチを割り当てるのではなく、関心のある領域の境界を引き回さなければならないため、より手間がかかると考えられている。 さらに、乳がんの病理組織学のようなタスクでは、実際の臨床応用にはスライド画像全体を扱うことがしばしば含まれるが、最も一般に公開されているトレーニングデータは、クラスラベルが与えられるイメージパッチの形式である。 本稿では,データキュレーションに要する時間を削減するために,画像レベルラベルを用いることで,セグメンテーションレベル基底真理の要件を緩和できるアーキテクチャを提案する。 さらに、このアーキテクチャは、少数の関心領域に注釈を付けて、セグメンテーションタスクで予め取得したイメージレベルのデータセットの可能性を解き放つのに役立つ。 実験では,クラス毎に1つのセグメンテーションレベルのアノテーションしか使用せず,完全に注釈付けされたデータセットに匹敵する性能が得られることを示した。

Two of the most common tasks in medical imaging are classification and segmentation. Either task requires labeled data annotated by experts, which is scarce and expensive to collect. Annotating data for segmentation is generally considered to be more laborious as the annotator has to draw around the boundaries of regions of interest, as opposed to assigning image patches a class label. Furthermore, in tasks such as breast cancer histopathology, any realistic clinical application often includes working with whole slide images, whereas most publicly available training data are in the form of image patches, which are given a class label. We propose an architecture that can alleviate the requirements for segmentation-level ground truth by making use of image-level labels to reduce the amount of time spent on data curation. In addition, this architecture can help unlock the potential of previously acquired image-level datasets on segmentation tasks by annotating a small number of regions of interest. In our experiments, we show using only one segmentation-level annotation per class, we can achieve performance comparable to a fully annotated dataset.
翻訳日:2023-01-17 13:04:43 公開日:2020-11-29
# 機械学習による軌道制約の近似 -- 周波数制約付きマイクログリッド島化

Approximating Trajectory Constraints with Machine Learning -- Microgrid Islanding with Frequency Constraints ( http://arxiv.org/abs/2001.05775v3 )

ライセンス: Link先を確認
Yichen Zhang and Chen Chen and Guodong Liu and Tianqi Hong and Feng Qiu(参考訳) 本稿では,周波数制約型マイクログリッドスケジューリング問題に取り組むための深層学習支援制約符号化手法を提案する。 システム動作条件と周波数ナディア間の非線形関数をニューラルネットワークを用いて近似し、正確な混合整数定式化(MIP)を実現する。 この定式化は、周波数制約を符号化するスケジューリング問題と統合される。 ニューラルネットワークのより強固な表現力により、結果として得られるコマンドは、上陸の成功に加えて、現実的な設定で適切な周波数応答を保証することができる。 提案手法は修正33ノードシステム上で検証される。 シミュリンクの詳細な三相モデルを用いて、セキュアな応答で島を上陸させることをスケジュールされたコマンドでシミュレートする。 本モデルの利点は風力タービン発電機の慣性エミュレーション機能を考慮した場合,特に顕著である。

In this paper, we introduce a deep learning aided constraint encoding method to tackle the frequency-constraint microgrid scheduling problem. The nonlinear function between system operating condition and frequency nadir is approximated by using a neural network, which admits an exact mixed-integer formulation (MIP). This formulation is then integrated with the scheduling problem to encode the frequency constraint. With the stronger representation power of the neural network, the resulting commands can ensure adequate frequency response in a realistic setting in addition to islanding success. The proposed method is validated on a modified 33-node system. Successful islanding with a secure response is simulated under the scheduled commands using a detailed three-phase model in Simulink. The advantages of our model are particularly remarkable when the inertia emulation functions from wind turbine generators are considered.
翻訳日:2023-01-11 01:05:27 公開日:2020-11-29
# 対称要素の学習集合について

On Learning Sets of Symmetric Elements ( http://arxiv.org/abs/2002.08599v4 )

ライセンス: Link先を確認
Haggai Maron, Or Litany, Gal Chechik, Ethan Fetaya(参考訳) 非順序集合からの学習は基本的な学習設定であり、最近注目を集めている。 この領域の研究は、集合の要素が特徴ベクトルで表される場合に焦点を当てており、集合の要素自体が自身の対称性に固執する一般的な場合よりも、はるかに強調されていない。 このケースは、画像バーストの劣化から多視点3D形状認識・再構成に至るまで、多くの応用に関係している。 本稿では,一般対称要素の集合を学習するための原則的アプローチを提案する。 まず、要素の再順序付けと、画像の場合の翻訳のような要素の固有対称性の両方に同値である線形層の空間を特徴づける。 さらに、これらの層から構成されるネットワークは、DSS(Deep Sets for Symmetric Elements)層と呼ばれ、不変関数と同変関数の両方の普遍近似器であり、これらのネットワークはシームズネットワークよりも厳密に表現可能であることを示す。 DSSレイヤの実装も簡単です。 最後に、画像、グラフ、ポイントクラウドを用いた一連の実験において、既存の集合学習アーキテクチャよりも改善されていることを示す。

Learning from unordered sets is a fundamental learning setup, recently attracting increasing attention. Research in this area has focused on the case where elements of the set are represented by feature vectors, and far less emphasis has been given to the common case where set elements themselves adhere to their own symmetries. That case is relevant to numerous applications, from deblurring image bursts to multi-view 3D shape recognition and reconstruction. In this paper, we present a principled approach to learning sets of general symmetric elements. We first characterize the space of linear layers that are equivariant both to element reordering and to the inherent symmetries of elements, like translation in the case of images. We further show that networks that are composed of these layers, called Deep Sets for Symmetric Elements (DSS) layers, are universal approximators of both invariant and equivariant functions, and that these networks are strictly more expressive than Siamese networks. DSS layers are also straightforward to implement. Finally, we show that they improve over existing set-learning architectures in a series of experiments with images, graphs, and point-clouds.
翻訳日:2022-12-30 06:40:33 公開日:2020-11-29
# アナロジーによる学習:教師なし光フロー推定のための変換からの信頼性の高いスーパービジョン

Learning by Analogy: Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation ( http://arxiv.org/abs/2003.13045v2 )

ライセンス: Link先を確認
Liang Liu, Jiangning Zhang, Ruifei He, Yong Liu, Yabiao Wang, Ying Tai, Donghao Luo, Chengjie Wang, Jilin Li, Feiyue Huang(参考訳) ビュー合成の監督を利用する光フローの教師なし学習は、教師付き手法に代わる有望な代替手段として登場した。 しかし、教師なし学習の目的は困難な場面では信頼できない可能性が高い。 本研究では,トランスフォーメーションからより信頼性の高い監視を行うためのフレームワークを提案する。 これは単に、拡張から変換されたデータと、オリジナルのデータの変換予測を自己超越信号として使用することで、一般的な教師なし学習パイプラインをツイストする。 さらに,高共有フローデコーダによる複数フレームの軽量ネットワークについても紹介する。 提案手法は, 深い教師なし手法の中で, 最高の精度で, いくつかのベンチマークで連続的に性能を向上する。 また,近年の完全教師あり手法に対して,パラメータをはるかに少なくして競合結果を得る。

Unsupervised learning of optical flow, which leverages the supervision from view synthesis, has emerged as a promising alternative to supervised methods. However, the objective of unsupervised learning is likely to be unreliable in challenging scenes. In this work, we present a framework to use more reliable supervision from transformations. It simply twists the general unsupervised learning pipeline by running another forward pass with transformed data from augmentation, along with using transformed predictions of original data as the self-supervision signal. Besides, we further introduce a lightweight network with multiple frames by a highly-shared flow decoder. Our method consistently gets a leap of performance on several benchmarks with the best accuracy among deep unsupervised methods. Also, our method achieves competitive results to recent fully supervised methods while with much fewer parameters.
翻訳日:2022-12-18 13:50:21 公開日:2020-11-29
# ゼロショット学習と自動運転車からのCOVID-19診断への応用 : レビュー

Zero-Shot Learning and its Applications from Autonomous Vehicles to COVID-19 Diagnosis: A Review ( http://arxiv.org/abs/2004.14143v3 )

ライセンス: Link先を確認
Mahdi Rezaei and Mahsa Shahidi(参考訳) ゼロショット学習(ZSL)という,新たな概念や対象,あるいは新たな医学的疾患の認識を事前に受け取らずに学べることが課題である。 医学画像やその他の実世界の応用におけるディープラーニングベースの方法論における大きな問題の1つは、臨床医や専門家がモデルを訓練するために準備した大規模な注釈付きデータセットの必要性である。 zslは、既知または訓練済みの概念と既存の補助情報のみに依存することで、人間の介入を最小限に抑えることで知られている。 これによりZSLは、自動運転車の未知の物体検出から医療画像、CXR(COVID-19 Chest X-Ray)ベースの診断など、多くの現実のシナリオに適用できる。 本稿では,Few/One-shot Learningと呼ばれる新しい広義の解を導入し,ZSL問題の定義を,数発学習の極端な場合として提示する。 我々は、ゼロショットラーニングの基本と、最先端のソリューションカテゴリ、推奨ソリューション、それぞれのアプローチの背後にあるモチベーション、臨床医とAI研究者の両方がアプリケーションに基づいたベストプラクティスと実践を進めるためのそれぞれのカテゴリに対するアドバンテージなど、挑戦的なステップについてレビューする。 次に、医用画像と非医療用画像の異なるデータセット、さまざまな分割、これまでに提案されている評価プロトコルについてレビューする。 最後に、ZSLの最近の応用と今後の方向性について述べる。 我々は,人間の学習方法に近い複雑な学習タスクを扱うという目的に向けて,本論文を通して有用な直観を伝えることを目指している。 新型コロナウイルスの早期かつ迅速な診断に対処し、ZSLを使った他の類似のAIベースの自動検出/認識システムの開発を読者に促す。

The challenge of learning a new concept, object, or a new medical disease recognition without receiving any examples beforehand is called Zero-Shot Learning (ZSL). One of the major issues in deep learning based methodologies such as in Medical Imaging and other real-world applications is the requirement of large annotated datasets prepared by clinicians or experts to train the model. ZSL is known for having minimal human intervention by relying only on previously known or trained concepts plus currently existing auxiliary information. This makes the ZSL applicable in many real-world scenarios, from unknown object detection in autonomous vehicles to medical imaging and unforeseen diseases such as COVID-19 Chest X-Ray (CXR) based diagnosis. We introduce a novel and broaden solution called Few/one-shot learning, and present the definition of the ZSL problem as an extreme case of the few-shot learning. We review over fundamentals and the challenging steps of Zero-Shot Learning, including state-of-the-art categories of solutions, as well as our recommended solution, motivations behind each approach, their advantages over each category to guide both clinicians and AI researchers to proceed with the best techniques and practices based on their applications. We then review through different datasets inducing medical and non-medical images, the variety of splits, and the evaluation protocols proposed so far. Finally, we discuss the recent applications and future directions of ZSL. We aim to convey a useful intuition through this paper towards the goal of handling complex learning tasks more similar to the way humans learn. We mainly focus on two applications in the current modern yet challenging era: coping with an early and fast diagnosis of COVID-19 cases, and also encouraging the readers to develop other similar AI-based automated detection/recognition systems using ZSL.
翻訳日:2022-12-08 10:16:27 公開日:2020-11-29
# モノリンガルデータによる非自己回帰型ニューラルマシン翻訳の改善

Improving Non-autoregressive Neural Machine Translation with Monolingual Data ( http://arxiv.org/abs/2005.00932v3 )

ライセンス: Link先を確認
Jiawei Zhou, Phillip Keung(参考訳) 非自己回帰(NAR)ニューラルマシン翻訳は通常、自己回帰(AR)モデルからの知識蒸留によって行われる。 この枠組みでは,arモデルの一般化能力の伝達と過剰適合の防止を目標として,大規模単言語コーパスを用いてnarモデルの性能を向上させる。 WMT14 En-De と WMT16 En-Ro のニュース翻訳タスクの実験結果から、単言語データの拡張は、教師ARモデルの性能にアプローチするために、NARモデルの性能を一貫して改善し、文献における最高の非イテレーティブな NAR 手法と同等または良い結果をもたらし、トレーニングプロセスにおける過度な適合を抑えるのに役立ちます。

Non-autoregressive (NAR) neural machine translation is usually done via knowledge distillation from an autoregressive (AR) model. Under this framework, we leverage large monolingual corpora to improve the NAR model's performance, with the goal of transferring the AR model's generalization ability while preventing overfitting. On top of a strong NAR baseline, our experimental results on the WMT14 En-De and WMT16 En-Ro news translation tasks confirm that monolingual data augmentation consistently improves the performance of the NAR model to approach the teacher AR model's performance, yields comparable or better results than the best non-iterative NAR methods in the literature and helps reduce overfitting in the training process.
翻訳日:2022-12-07 11:48:15 公開日:2020-11-29
# 新型コロナウイルスの臨床予測モデル : 系統的研究

Clinical Predictive Models for COVID-19: Systematic Study ( http://arxiv.org/abs/2005.08302v2 )

ライセンス: Link先を確認
Patrick Schwab, August DuMont Sch\"utte, Benedikt Dietz, Stefan Bauer(参考訳) コロナウイルス病2019(Coronavirus Disease 2019、COVID-19)は、重症急性呼吸器症候群ウイルス2(SARS-CoV-2)による急激な呼吸器疾患である。 SARS-CoV-2の迅速な人対人感染により、多くの医療システムは、特にSARS-CoV-2テスト、病院と集中治療室(ICU)ベッドと機械式換気器の点で、医療能力を超えるリスクを抱えている。 予測アルゴリズムは、正のSARS-CoV-2テストを受ける可能性が最も高い患者をICUに入院または入院させることで、医療システムの緊張を緩和する可能性がある。 そこで本研究では,SARS-CoV-2陽性の患者が入院や集中治療を要しうる臨床データに基づいて,機械学習を用いた臨床予測モデルについて検討した。 本モデルの予測性能を評価するため,5644名のコホート患者を対象に,臨床および血液分析データの振り返り評価を行った。 実験結果から,我々の予測モデルが同定できることが示唆された。 (i)SARS-CoV-2に陽性で75%(95%CI:67%,81%)、特異性は49%(95%CI:46%,51%)であった。 (ii)SARS-CoV-2陽性患者は0.92 AUC(95% CI: 0.81, 0.98)、 (iii) sars-cov-2陽性患者は0.98 auc (95% ci: 0.95, 1.00)であった。 さらに, 上記の各臨床課題について, どの臨床特徴がどの程度に予測可能かを決定する。 以上の結果から,日常的に収集された臨床データに基づく予測モデルは,covid-19の臨床経路予測に有用であることが示唆された。

Coronavirus Disease 2019 (COVID-19) is a rapidly emerging respiratory disease caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). Due to the rapid human-to-human transmission of SARS-CoV-2, many healthcare systems are at risk of exceeding their healthcare capacities, in particular in terms of SARS-CoV-2 tests, hospital and intensive care unit (ICU) beds and mechanical ventilators. Predictive algorithms could potentially ease the strain on healthcare systems by identifying those who are most likely to receive a positive SARS-CoV-2 test, be hospitalised or admitted to the ICU. Here, we study clinical predictive models that estimate, using machine learning and based on routinely collected clinical data, which patients are likely to receive a positive SARS-CoV-2 test, require hospitalisation or intensive care. To evaluate the predictive performance of our models, we perform a retrospective evaluation on clinical and blood analysis data from a cohort of 5644 patients. Our experimental results indicate that our predictive models identify (i) patients that test positive for SARS-CoV-2 a priori at a sensitivity of 75% (95% CI: 67%, 81%) and a specificity of 49% (95% CI: 46%, 51%), (ii) SARS-CoV-2 positive patients that require hospitalisation with 0.92 AUC (95% CI: 0.81, 0.98), and (iii) SARS-CoV-2 positive patients that require critical care with 0.98 AUC (95% CI: 0.95, 1.00). In addition, we determine which clinical features are predictive to what degree for each of the aforementioned clinical tasks. Our results indicate that predictive models trained on routinely collected clinical data could be used to predict clinical pathways for COVID-19, and therefore help inform care and prioritise resources.
翻訳日:2022-12-02 05:17:53 公開日:2020-11-29
# 人間の運転行動のモデル化と予測のためのアルゴリズムの分類とレビュー

A Taxonomy and Review of Algorithms for Modeling and Predicting Human Driver Behavior ( http://arxiv.org/abs/2006.08832v3 )

ライセンス: Link先を確認
Kyle Brown and Katherine Driggs-Campbell and Mykel J. Kochenderfer(参考訳) 本稿では,ドライバ行動モデリングに関する文献から,200モデルのレビューと分類について述べる。 まず,対話型マルチエージェントトラフィックのダイナミクスを記述する数学的枠組みを導入する。 部分的に観察可能な確率ゲームに基づいて、このフレームワークは異なるドライバモデリング技術について議論する基礎を提供する。 本分類は, 状態推定, 意図推定, 特性推定, 動き予測のコアモデリングタスクを中心に構築され, リスク推定, 異常検出, 行動模倣, 微視的交通シミュレーションの補助タスクについても論じる。 既存のドライバモデルは、対処する特定のタスクとアプローチの重要な属性に基づいて分類される。

We present a review and taxonomy of 200 models from the literature on driver behavior modeling. We begin by introducing a mathematical framework for describing the dynamics of interactive multi-agent traffic. Based on the partially observable stochastic game, this framework provides a basis for discussing different driver modeling techniques. Our taxonomy is constructed around the core modeling tasks of state estimation, intention estimation, trait estimation, and motion prediction, and also discusses the auxiliary tasks of risk estimation, anomaly detection, behavior imitation and microscopic traffic simulation. Existing driver models are categorized based on the specific tasks they address and key attributes of their approach.
翻訳日:2022-11-21 05:02:24 公開日:2020-11-29
# DREAM: アドバンテージベースラインとモデルフリー学習によるDeep Regret最小化

DREAM: Deep Regret minimization with Advantage baselines and Model-free learning ( http://arxiv.org/abs/2006.10410v2 )

ライセンス: Link先を確認
Eric Steinberger, Adam Lerer, Noam Brown(参考訳) 複数のエージェントによる不完全情報ゲームにおいて最適な戦略を見出す深層強化学習アルゴリズムdreamを提案する。 形式的には、ドリームは2人プレイのゼロサムゲームではナッシュ均衡に収束し、他の全てのゲームでは広範囲にわたる粗相関均衡に収束する。 我々の主要な革新は、他の後悔に基づくディープラーニングアルゴリズムとは対照的に、優れたパフォーマンスを達成するために、ゲームの完璧なシミュレータにアクセスする必要のない効果的なアルゴリズムである。 我々は,DREAMが一般的なベンチマークゲームにおいて,モデルフリーアルゴリズムの最先端性能を実証的に達成し,完全シミュレータを用いたアルゴリズムと競合することを示した。

We introduce DREAM, a deep reinforcement learning algorithm that finds optimal strategies in imperfect-information games with multiple agents. Formally, DREAM converges to a Nash Equilibrium in two-player zero-sum games and to an extensive-form coarse correlated equilibrium in all other games. Our primary innovation is an effective algorithm that, in contrast to other regret-based deep learning algorithms, does not require access to a perfect simulator of the game to achieve good performance. We show that DREAM empirically achieves state-of-the-art performance among model-free algorithms in popular benchmark games, and is even competitive with algorithms that do use a perfect simulator.
翻訳日:2022-11-19 13:22:27 公開日:2020-11-29
# スペクトルウェーブレットから頂点伝播へ:テイラー近似に基づくグラフ畳み込みネットワーク

From Spectrum Wavelet to Vertex Propagation: Graph Convolutional Networks Based on Taylor Approximation ( http://arxiv.org/abs/2007.00730v2 )

ライセンス: Link先を確認
Songyang Zhang, Han Zhang, Shuguang Cui, Zhi Ding(参考訳) グラフ畳み込みネットワーク(GCN)は、最近、ラベル付きデータと高次元特徴を持つデータセットの基盤構造を抽出するために利用されている。 既存のGCNは、主にグラフウェーブレットカーネルの1次チェビシェフ近似に依存している。 このような一般的な伝搬モデルは、常に様々なデータセットとその特徴に適合しない。 この研究は、グラフウェーブレットの基本を再検討し、スペクトルウェーブレット-カーネルを近似する頂点領域における信号伝播の有用性を探求する。 まず、頂点伝播によるグラフウェーブレットカーネルの表現条件を導出する。 次に、Taylor拡張に基づくGCN層に対する代替伝搬モデルを提案する。 さらに、TGCNの詳細なグラフ表現の選択について分析する。 引用ネットワーク、マルチメディアデータセット、合成グラフに関する実験は、従来のGCN法に対するノード分類問題におけるTaylor-based GCN(TGCN)の利点を示す。

Graph convolutional networks (GCN) have been recently utilized to extract the underlying structures of datasets with some labeled data and high-dimensional features. Existing GCNs mostly rely on a first-order Chebyshev approximation of graph wavelet-kernels. Such a generic propagation model does not always suit the various datasets and their features. This work revisits the fundamentals of graph wavelet and explores the utility of signal propagation in the vertex domain to approximate the spectral wavelet-kernels. We first derive the conditions for representing the graph wavelet-kernels via vertex propagation. We next propose alternative propagation models for GCN layers based on Taylor expansions. We further analyze the choices of detailed graph representations for TGCNs. Experiments on citation networks, multimedia datasets and synthetic graphs demonstrate the advantage of Taylor-based GCN (TGCN) in the node classification problems over the traditional GCN methods.
翻訳日:2022-11-14 23:28:43 公開日:2020-11-29
# 映像からの物理系の因果発見

Causal Discovery in Physical Systems from Videos ( http://arxiv.org/abs/2007.00631v3 )

ライセンス: Link先を確認
Yunzhu Li, Antonio Torralba, Animashree Anandkumar, Dieter Fox, Animesh Garg(参考訳) 因果発見は人間の認知の核心にある。 これにより、環境を判断し、これまでの経験と大きく異なる、目に見えないシナリオに関する反現実的な予測を行うことができます。 本研究では,ビデオの因果発見の課題を,地層構造を監督せずにエンドツーエンドで検討する。 特に, 動的システムの挙動に因果的影響を与える相互作用のタイプと強度を推定することで, 環境変数とオブジェクト変数間の構造的依存関係を発見することが目的である。 私たちのモデルは (a)画像から意味的に有意義で時間的に一貫したキーポイント表現を抽出する知覚モジュール (b)検出されたキーポイントによって引き起こされるグラフ分布を決定する推論モジュール、 (c)推定グラフの条件付けにより未来を予測することのできる動力学モジュール。 異なる構成や環境条件、すなわち基盤となるシステム上の未知の介入からのデータへのアクセスを想定し、明示的な介入なしに正確な因果グラフを発見できることを期待する。 提案手法を,シャツやパンツなどの異なる形状の布地を含む平面多体インタラクション環境とシナリオで評価した。 実験により,短時間の画像列からのインタラクションを正しく識別し,長期予測できることが実証された。 モデルが仮定した因果構造は、反事実的な予測や、見当たらない相互作用グラフや様々な大きさのグラフのシステムへの外挿を可能にする。

Causal discovery is at the core of human cognition. It enables us to reason about the environment and make counterfactual predictions about unseen scenarios that can vastly differ from our previous experiences. We consider the task of causal discovery from videos in an end-to-end fashion without supervision on the ground-truth graph structure. In particular, our goal is to discover the structural dependencies among environmental and object variables: inferring the type and strength of interactions that have a causal effect on the behavior of the dynamical system. Our model consists of (a) a perception module that extracts a semantically meaningful and temporally consistent keypoint representation from images, (b) an inference module for determining the graph distribution induced by the detected keypoints, and (c) a dynamics module that can predict the future by conditioning on the inferred graph. We assume access to different configurations and environmental conditions, i.e., data from unknown interventions on the underlying system; thus, we can hope to discover the correct underlying causal graph without explicit interventions. We evaluate our method in a planar multi-body interaction environment and scenarios involving fabrics of different shapes like shirts and pants. Experiments demonstrate that our model can correctly identify the interactions from a short sequence of images and make long-term future predictions. The causal structure assumed by the model also allows it to make counterfactual predictions and extrapolate to systems of unseen interaction graphs or graphs of various sizes.
翻訳日:2022-11-14 21:52:28 公開日:2020-11-29
# 速く学び、高速で安定したタスク適応によって遅くなる

Learn Faster and Forget Slower via Fast and Stable Task Adaptation ( http://arxiv.org/abs/2007.01388v2 )

ライセンス: Link先を確認
Farshid Varno and Lucas May Petry and Lisa Di Jorio and Stan Matwin(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングはまだ非常に時間と計算集約性が高い。 事前訓練されたモデルを適用することで、このプロセスが大幅に加速することが示されている。 分類に焦点を絞って,現在の微調整手法により,新しいタスクが学習される前にも,事前学習されたモデルが伝達された知識を壊滅的に忘れてしまうことが示されている。 このような素早い知識喪失は、伝達学習のメリットを損なうものであり、最大知識量を利用する場合と比較して、収束率がはるかに遅くなる可能性がある。 本稿では,この問題の原因を異なる視点から検討し,その緩和を図るため,Fast And Staable Task-Adaptation (FAST)を導入し,微調整の容易なアルゴリズムを提案する。 この論文は、ソースとターゲットタスクの損失状況が、異なるトランスファー学習戦略にどのように関連しているかに関する、新しい幾何学的視点を提供する。 実験により,FASTはより高速に目標タスクを学習し,ソースタスクの遅さを忘れることを示した。

Training Deep Neural Networks (DNNs) is still highly time-consuming and compute-intensive. It has been shown that adapting a pretrained model may significantly accelerate this process. With a focus on classification, we show that current fine-tuning techniques make the pretrained models catastrophically forget the transferred knowledge even before anything about the new task is learned. Such rapid knowledge loss undermines the merits of transfer learning and may result in a much slower convergence rate compared to when the maximum amount of knowledge is exploited. We investigate the source of this problem from different perspectives and to alleviate it, introduce Fast And Stable Task-adaptation (FAST), an easy to apply fine-tuning algorithm. The paper provides a novel geometric perspective on how the loss landscape of source and target tasks are linked in different transfer learning strategies. We empirically show that compared to prevailing fine-tuning practices, FAST learns the target task faster and forgets the source task slower.
翻訳日:2022-11-14 12:50:45 公開日:2020-11-29
# ClassMix: 半教師付き学習のためのセグメンテーションに基づくデータ拡張

ClassMix: Segmentation-Based Data Augmentation for Semi-Supervised Learning ( http://arxiv.org/abs/2007.07936v2 )

ライセンス: Link先を確認
Viktor Olsson, Wilhelm Tranheden, Juliano Pinto, Lennart Svensson(参考訳) セマンティックセグメンテーションにおける技術の現状は、パフォーマンスが着実に増加しており、多くの異なるアプリケーションにおいてより正確で信頼性の高いセグメンテーションをもたらす。 しかし、訓練用のラベルを作成するコストによって進歩は制限され、単一の画像に何時間もかかる場合もある。 このため、この課題に準教師付き手法が適用され、成功の度合いは様々である。 重要な課題は、半教師付き分類で使われる共通の拡張が意味的セグメンテーションにはあまり効果がないことである。 本研究では,オブジェクト境界を尊重するネットワークの予測を活用することで,未ラベルのサンプルを混合して拡張を生成するClassMixと呼ばれる新しいデータ拡張機構を提案する。 この拡張手法を2つの一般的な半教師付きセグメンテーションベンチマークで評価し,最新の結果を得た。 最後に,異なる設計決定と訓練レジームを比較した広範なアブレーション研究を行う。

The state of the art in semantic segmentation is steadily increasing in performance, resulting in more precise and reliable segmentations in many different applications. However, progress is limited by the cost of generating labels for training, which sometimes requires hours of manual labor for a single image. Because of this, semi-supervised methods have been applied to this task, with varying degrees of success. A key challenge is that common augmentations used in semi-supervised classification are less effective for semantic segmentation. We propose a novel data augmentation mechanism called ClassMix, which generates augmentations by mixing unlabelled samples, by leveraging on the network's predictions for respecting object boundaries. We evaluate this augmentation technique on two common semi-supervised semantic segmentation benchmarks, showing that it attains state-of-the-art results. Lastly, we also provide extensive ablation studies comparing different design decisions and training regimes.
翻訳日:2022-11-10 06:12:24 公開日:2020-11-29
# DACS: クロスドメイン混合サンプリングによるドメイン適応

DACS: Domain Adaptation via Cross-domain Mixed Sampling ( http://arxiv.org/abs/2007.08702v2 )

ライセンス: Link先を確認
Wilhelm Tranheden, Viktor Olsson, Juliano Pinto, Lennart Svensson(参考訳) 畳み込みニューラルネットワークに基づく意味セグメンテーションモデルは最近、多くのアプリケーションで顕著な性能を示している。 しかし、これらのモデルは通常、新しい領域、特に合成データから実データへの変換において、うまく一般化しない。 本稿では、あるドメイン(ソースドメイン)からラベル付きデータをトレーニングし、関心領域(ターゲットドメイン)の未ラベルデータから同時に学習しようとする、教師なしドメイン適応(UDA)の問題に対処する。 既存の手法では、これらの未ラベル画像のための擬似ラベルのトレーニングが成功している。 ドメインシフトから生じる低品質の擬似ラベルを緩和するために、様々な手法が提案されている。 我々は2つの領域の画像と対応するラベルと擬似ラベルを混合した、クロスドメイン混合サンプリングによるドメイン適応を提案する。 これらの混合サンプルはラベル付きデータ自体に加えてトレーニングされる。 本稿では,GTA5 から Cityscapes へ,UDA の共通合成・実意味セマンティックセグメンテーションベンチマークを適用し,提案手法の有効性を実証する。

Semantic segmentation models based on convolutional neural networks have recently displayed remarkable performance for a multitude of applications. However, these models typically do not generalize well when applied on new domains, especially when going from synthetic to real data. In this paper we address the problem of unsupervised domain adaptation (UDA), which attempts to train on labelled data from one domain (source domain), and simultaneously learn from unlabelled data in the domain of interest (target domain). Existing methods have seen success by training on pseudo-labels for these unlabelled images. Multiple techniques have been proposed to mitigate low-quality pseudo-labels arising from the domain shift, with varying degrees of success. We propose DACS: Domain Adaptation via Cross-domain mixed Sampling, which mixes images from the two domains along with the corresponding labels and pseudo-labels. These mixed samples are then trained on, in addition to the labelled data itself. We demonstrate the effectiveness of our solution by achieving state-of-the-art results for GTA5 to Cityscapes, a common synthetic-to-real semantic segmentation benchmark for UDA.
翻訳日:2022-11-09 13:47:10 公開日:2020-11-29
# 制約付き対向ネットワークを用いた構造物体の効率的な生成

Efficient Generation of Structured Objects with Constrained Adversarial Networks ( http://arxiv.org/abs/2007.13197v2 )

ライセンス: Link先を確認
Luca Di Liello, Pierfrancesco Ardino, Jacopo Gobbi, Paolo Morettin, Stefano Teso, Andrea Passerini(参考訳) generative adversarial networks (gans) は分子やゲームマップのような構造化オブジェクトの生成に苦労している。 問題は、構造化された物体は、サンプルのみから取得することが難しいハード要件(例えば分子は化学的に有効でなければならない)を満たさなければならないことである。 そこで,本研究では,学習中にモデルに制約を組み込むganの拡張であるconstricted adversarial network (cans)を提案する。 これは、ジェネレータが割り当てる質量に比例して不正な構造にペナルティを課すことによって達成される。 他の生成モデルとは対照的に、CANは(高い確率で)有効構造の効率的な推論をサポートし、推論時に学習された制約をオン/オフすることができる。 CANは任意の論理的制約を処理し、知識コンパイル技術を利用してモデルと制約の間の不一致を効率的に評価する。 私たちのセットアップは、グラフの到達可能性のような非常に複雑な制約をキャプチャするためのハイブリッド論理-神経制約にさらに拡張されます。 広範な実証分析により、CANは高品質かつ新規な有効な構造を効率よく生成することを示した。

Generative Adversarial Networks (GANs) struggle to generate structured objects like molecules and game maps. The issue is that structured objects must satisfy hard requirements (e.g., molecules must be chemically valid) that are difficult to acquire from examples alone. As a remedy, we propose Constrained Adversarial Networks (CANs), an extension of GANs in which the constraints are embedded into the model during training. This is achieved by penalizing the generator proportionally to the mass it allocates to invalid structures. In contrast to other generative models, CANs support efficient inference of valid structures (with high probability) and allows to turn on and off the learned constraints at inference time. CANs handle arbitrary logical constraints and leverage knowledge compilation techniques to efficiently evaluate the disagreement between the model and the constraints. Our setup is further extended to hybrid logical-neural constraints for capturing very complex constraints, like graph reachability. An extensive empirical analysis shows that CANs efficiently generate valid structures that are both high-quality and novel.
翻訳日:2022-11-06 19:36:31 公開日:2020-11-29
# 深層強化学習と不完全情報ゲーム検索の併用

Combining Deep Reinforcement Learning and Search for Imperfect-Information Games ( http://arxiv.org/abs/2007.13544v2 )

ライセンス: Link先を確認
Noam Brown, Anton Bakhtin, Adam Lerer, Qucheng Gong(参考訳) 訓練時間とテスト時間の両方における深い強化学習と検索の組み合わせは、alphazeroが例示するように、単一エージェント設定と完璧な情報ゲームで多くの成功をもたらした強力なパラダイムである。 しかし、この形式の先行アルゴリズムは不完全情報ゲームには対応できない。 本稿では,任意の2プレイヤーゼロサムゲームにおいて,ナッシュ均衡に確実に収束する自己学習と探索のための一般的なフレームワークであるReBeLを提案する。 完全情報ゲームのより単純な設定では、ReBeLはAlphaZeroに似たアルゴリズムに還元される。 2つの異なる情報ゲームの結果、rebelは近似ナッシュ均衡に収束する。 また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、ピークのないテキサスホールドエムポーカーにおいて超人的なパフォーマンスを達成することを示す。

The combination of deep reinforcement learning and search at both training and test time is a powerful paradigm that has led to a number of successes in single-agent settings and perfect-information games, best exemplified by AlphaZero. However, prior algorithms of this form cannot cope with imperfect-information games. This paper presents ReBeL, a general framework for self-play reinforcement learning and search that provably converges to a Nash equilibrium in any two-player zero-sum game. In the simpler setting of perfect-information games, ReBeL reduces to an algorithm similar to AlphaZero. Results in two different imperfect-information games show ReBeL converges to an approximate Nash equilibrium. We also show ReBeL achieves superhuman performance in heads-up no-limit Texas hold'em poker, while using far less domain knowledge than any prior poker AI.
翻訳日:2022-11-06 08:11:39 公開日:2020-11-29
# LoCo: ローカルコントラスト表現学習

LoCo: Local Contrastive Representation Learning ( http://arxiv.org/abs/2008.01342v2 )

ライセンス: Link先を確認
Yuwen Xiong, Mengye Ren, Raquel Urtasun(参考訳) ディープニューラルネットは通常、重みを学習するためにエンドツーエンドのバックプロパゲーションを行う。 教師なしコントラスト表現学習の最近の進歩は、学習アルゴリズムをローカルにすることも可能であるかどうかという問題、すなわち下位層の更新は上層層の計算に直接依存しない。 greedy infomaxは各ブロックを局所的な目的で別々に学習するが、最先端の教師なしコントラスト学習アルゴリズムにおける読み出し精度を常に損なうことが判明した。 本研究では,各ブロックが重なり合うことで,デコーダの深さを効果的に増加させ,上位ブロックが暗黙的に下位ブロックにフィードバックを送ることを可能にする。 このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。 標準のImageNet実験とは別に、オブジェクト検出やインスタンスセグメンテーションといった複雑な下流タスクにおいて、読み出し機能を直接使用して結果を示す。

Deep neural nets typically perform end-to-end backpropagation to learn the weights, a procedure that creates synchronization constraints in the weight update step across layers and is not biologically plausible. Recent advances in unsupervised contrastive representation learning point to the question of whether a learning algorithm can also be made local, that is, the updates of lower layers do not directly depend on the computation of upper layers. While Greedy InfoMax separately learns each block with a local objective, we found that it consistently hurts readout accuracy in state-of-the-art unsupervised contrastive learning algorithms, possibly due to the greedy objective as well as gradient isolation. In this work, we discover that by overlapping local blocks stacking on top of each other, we effectively increase the decoder depth and allow upper blocks to implicitly send feedbacks to lower blocks. This simple design closes the performance gap between local learning and end-to-end contrastive learning algorithms for the first time. Aside from standard ImageNet experiments, we also show results on complex downstream tasks such as object detection and instance segmentation directly using readout features.
翻訳日:2022-11-02 23:22:04 公開日:2020-11-29
# 脳腫瘍の3次元セマンティクスによる全生存予測

3D Semantic Segmentation of Brain Tumor for Overall Survival Prediction ( http://arxiv.org/abs/2008.11576v2 )

ライセンス: Link先を確認
Rupal Agravat, Mehul S Raval(参考訳) 悪性脳腫瘍であるグリオーマは、患者の生存を改善するために直ちに治療を必要とする。 グリオーマの異種性は、特に壊死、腫瘍の増強、非拡張性腫瘍、浮腫などのサブ領域において、セグメンテーションを困難にする。 完全畳み込みニューラルネットワークや完全畳み込みニューラルネットワークなどのディープニューラルネットワークは、グリオーマのセグメンテーションに成功している。 本稿では,3層エンコーダデコーダを用いた3次元完全畳み込みニューラルネットワークを用いた層配置について述べる。 エンコーダブロックは密集したモジュールを含み、デコーダブロックは畳み込みモジュールを含む。 ネットワークへの入力は3Dパッチである。 損失関数はサイコロ損失関数と焦点損失関数を組み合わせたものである。 ネットワークの検証セットダイススコアは、それぞれ0.74、0.88、0.73であり、腫瘍、全腫瘍、腫瘍コアを増強する。 ランダムフォレスト回帰器は、全体生存予測のために、地上の真実から抽出された形状、体積、年齢の特徴を使用する。 レグレッサーは検証セット上で44.8%の精度を達成する。

Glioma, the malignant brain tumor, requires immediate treatment to improve the survival of patients. Gliomas heterogeneous nature makes the segmentation difficult, especially for sub-regions like necrosis, enhancing tumor, non-enhancing tumor, and Edema. Deep neural networks like full convolution neural networks and ensemble of fully convolution neural networks are successful for Glioma segmentation. The paper demonstrates the use of a 3D fully convolution neural network with a three layer encoder decoder approach for layer arrangement. The encoder blocks include the dense modules, and decoder blocks include convolution modules. The input to the network is 3D patches. The loss function combines dice loss and focal loss functions. The validation set dice score of the network is 0.74, 0.88, and 0.73 for enhancing tumor, whole tumor, and tumor core, respectively. The Random Forest Regressor uses shape, volumetric, and age features extracted from ground truth for overall survival prediction. The regressor achieves an accuracy of 44.8% on the validation set.
翻訳日:2022-10-25 03:34:00 公開日:2020-11-29
# なぜ単に翻訳しないのか? 意味的類似性に関する最初のスウェーデン評価ベンチマーク

Why Not Simply Translate? A First Swedish Evaluation Benchmark for Semantic Similarity ( http://arxiv.org/abs/2009.03116v2 )

ライセンス: Link先を確認
Tim Isbister and Magnus Sahlgren(参考訳) 本稿では,スウェーデン初のテキスト意味類似性評価ベンチマークを提案する。 ベンチマークは、Googleの機械翻訳APIを通じて、単に英語のSTS-Bデータセットを実行することでコンパイルされる。 本稿では,スウェーデン評価ベンチマークのコンパイルにおいて,翻訳誤り,語彙変動,生産的複合化などの単純な手法を用いる場合の潜在的な問題について述べる。 結果のデータセットに明らかな問題がいくつかあるが、このベンチマークを使用して、既存のスウェーデンのテキスト表現の大部分を比較し、ネイティブモデルが多言語モデルよりも優れており、単純な単語の袋が驚くほどうまく機能していることを示した。

This paper presents the first Swedish evaluation benchmark for textual semantic similarity. The benchmark is compiled by simply running the English STS-B dataset through the Google machine translation API. This paper discusses potential problems with using such a simple approach to compile a Swedish evaluation benchmark, including translation errors, vocabulary variation, and productive compounding. Despite some obvious problems with the resulting dataset, we use the benchmark to compare the majority of the currently existing Swedish text representations, demonstrating that native models outperform multilingual ones, and that simple bag of words performs remarkably well.
翻訳日:2022-10-21 02:56:38 公開日:2020-11-29
# 固定データセット政策最適化における悲観主義の重要性

The Importance of Pessimism in Fixed-Dataset Policy Optimization ( http://arxiv.org/abs/2009.06799v3 )

ライセンス: Link先を確認
Jacob Buckman, Carles Gelada, Marc G. Bellemare(参考訳) 固定データセットポリシー最適化アルゴリズムの戻り値に対する最悪の保証について検討する。 私たちの中核的な貢献は、この体制におけるアルゴリズムの研究のための統一された概念的および数学的枠組みである。 この分析により, 誤った値過大評価の可能性は, ほぼ最適であるポリシを選択することを保証するため, あらゆるポリシの価値を知らせるためにデータセットが必要であることが判明した。 これを避けるために、アルゴリズムは悲観主義の原則に従うことができる。 我々は、データセットがすべてのポリシーに通知されない場合でも、悲観的アルゴリズムが優れた性能を達成できる理由を示し、この原則に従うアルゴリズムのファミリーを導出する。 これらの理論的な知見は、表グリッドワールドの実験と、4つのMinAtar環境におけるディープラーニング実験によって検証される。

We study worst-case guarantees on the expected return of fixed-dataset policy optimization algorithms. Our core contribution is a unified conceptual and mathematical framework for the study of algorithms in this regime. This analysis reveals that for naive approaches, the possibility of erroneous value overestimation leads to a difficult-to-satisfy requirement: in order to guarantee that we select a policy which is near-optimal, we may need the dataset to be informative of the value of every policy. To avoid this, algorithms can follow the pessimism principle, which states that we should choose the policy which acts optimally in the worst possible world. We show why pessimistic algorithms can achieve good performance even when the dataset is not informative of every policy, and derive families of algorithms which follow this principle. These theoretical findings are validated by experiments on a tabular gridworld, and deep learning experiments on four MinAtar environments.
翻訳日:2022-10-18 05:31:12 公開日:2020-11-29
# 経済学におけるパネルデータ分析のための解釈可能なニューラルネットワーク

Interpretable Neural Networks for Panel Data Analysis in Economics ( http://arxiv.org/abs/2010.05311v3 )

ライセンス: Link先を確認
Yucheng Yang, Zhong Zheng, Weinan E(参考訳) 解釈可能性や透明性の欠如は、経済学者がニューラルネットワークのような高度なツールを経験的な研究で使うのを妨げている。 本稿では,高い予測精度と解釈可能性の両立が可能な,解釈可能なニューラルネットワークモデルを提案する。 このモデルは、ニューラルネットワークでエンコードされた解釈可能な関数の結果である、規則化された多数の解釈可能な特徴の単純な関数として書くことができる。 研究者はタスクの性質に基づいて様々な形の解釈可能な関数を設計できる。 特に,ニューラルネットワークにおける永続的変化フィルタと呼ばれる解釈可能な関数のクラスを符号化し,時系列横断データを調べる。 高次元の行政データを用いて、個人の月間雇用状況を予測するモデルを適用した。 テストセットの精度は94.5%で、従来の機械学習手法に匹敵する。 さらに、モデルの解釈可能性により、予測の根底にあるメカニズムを理解できるようになる:個人の雇用状況は、彼女が異なるタイプの保険を支払うかどうかに密接に関連している。 我々の研究は、ニューラルネットワークのブラックボックス問題を克服するための有用なステップであり、経済学者が管理的およびプロプライエタリなビッグデータを研究するための新しいツールを提供する。

The lack of interpretability and transparency are preventing economists from using advanced tools like neural networks in their empirical research. In this paper, we propose a class of interpretable neural network models that can achieve both high prediction accuracy and interpretability. The model can be written as a simple function of a regularized number of interpretable features, which are outcomes of interpretable functions encoded in the neural network. Researchers can design different forms of interpretable functions based on the nature of their tasks. In particular, we encode a class of interpretable functions named persistent change filters in the neural network to study time series cross-sectional data. We apply the model to predicting individual's monthly employment status using high-dimensional administrative data. We achieve an accuracy of 94.5% in the test set, which is comparable to the best performed conventional machine learning methods. Furthermore, the interpretability of the model allows us to understand the mechanism that underlies the prediction: an individual's employment status is closely related to whether she pays different types of insurances. Our work is a useful step towards overcoming the black-box problem of neural networks, and provide a new tool for economists to study administrative and proprietary big data.
翻訳日:2022-10-08 12:49:41 公開日:2020-11-29
# Chart-to-Text: 変換器モデルの適用によるチャートの自然言語記述の生成

Chart-to-Text: Generating Natural Language Descriptions for Charts by Adapting the Transformer Model ( http://arxiv.org/abs/2010.09142v2 )

ライセンス: Link先を確認
Jason Obeid and Enamul Hoque(参考訳) バーチャートやラインチャートのような情報視覚化は、データ探索と洞察の伝達に非常に人気がある。 このような視覚化の解釈と理解は、視覚障害者や視覚リテラシーの低さなど、一部の人にとっては困難である。 本稿では,新しいデータセットを導入し,グラフの自然言語要約を自動的に生成するニューラルモデルを提案する。 生成された要約は、チャートの解釈を提供し、チャート内の重要な洞察を伝える。 我々のニューラルモデルは、トランスフォーマーベースのエンコーダデコーダアーキテクチャを利用するデータ・テキスト生成タスクの最先端モデルを拡張して開発されている。 当社のアプローチは,コンテンツ選択指標のベースモデルを広いマージン(55.42%対8.49%)で上回っており,より情報的,簡潔,一貫性のある要約を生成する。

Information visualizations such as bar charts and line charts are very popular for exploring data and communicating insights. Interpreting and making sense of such visualizations can be challenging for some people, such as those who are visually impaired or have low visualization literacy. In this work, we introduce a new dataset and present a neural model for automatically generating natural language summaries for charts. The generated summaries provide an interpretation of the chart and convey the key insights found within that chart. Our neural model is developed by extending the state-of-the-art model for the data-to-text generation task, which utilizes a transformer-based encoder-decoder architecture. We found that our approach outperforms the base model on a content selection metric by a wide margin (55.42% vs. 8.49%) and generates more informative, concise, and coherent summaries.
翻訳日:2022-10-06 03:48:25 公開日:2020-11-29
# 舗装難易度分類のための深層学習フレームワーク--比較分析

Deep Learning Frameworks for Pavement Distress Classification: A Comparative Analysis ( http://arxiv.org/abs/2010.10681v2 )

ライセンス: Link先を確認
Vishal Mandal, Abdul Rashid Mussah, Yaw Adu-Gyamfi(参考訳) 舗装面の自動検出と分類は, 舗装面の経時的維持・修復に重要である。 ディープラーニングとハイパフォーマンスコンピューティングの進化により、視覚に基づく舗装欠陥評価の実現性は大幅に向上した。 本研究では,異なるネットワークのバックボーンをベースとした最先端のディープラーニングアルゴリズムをデプロイし,舗装障害の検出と特徴付けを行う。 cspdarknet53, hourglass-104, efficientnetなどの異なるバックボーンモデルの影響について検討した。 モデルは、日本、チェコ、インドの都市部および農村部で撮影された21,041枚の画像を用いて訓練された。 最後に, 予測・分類能力に基づいてモデルを評価し, 統計的精度とリコール値から得られたf1スコアを用いて評価した。 最高のパフォーマンスモデルは、IEEE Global Road Damage Detection Challengeがリリースした2つのテストデータセットでF1スコア0.58と0.57を達成した。 トレーニングされたモデルを含むソースコードは[1]で利用可能である。

Automatic detection and classification of pavement distresses is critical in timely maintaining and rehabilitating pavement surfaces. With the evolution of deep learning and high performance computing, the feasibility of vision-based pavement defect assessments has significantly improved. In this study, the authors deploy state-of-the-art deep learning algorithms based on different network backbones to detect and characterize pavement distresses. The influence of different backbone models such as CSPDarknet53, Hourglass-104 and EfficientNet were studied to evaluate their classification performance. The models were trained using 21,041 images captured across urban and rural streets of Japan, Czech Republic and India. Finally, the models were assessed based on their ability to predict and classify distresses, and tested using F1 score obtained from the statistical precision and recall values. The best performing model achieved an F1 score of 0.58 and 0.57 on two test datasets released by the IEEE Global Road Damage Detection Challenge. The source code including the trained models are made available at [1].
翻訳日:2022-10-05 00:18:55 公開日:2020-11-29
# 樹木イジングモデルのサンプル最適かつ効率的な学習

Sample-Optimal and Efficient Learning of Tree Ising models ( http://arxiv.org/abs/2010.14864v2 )

ライセンス: Link先を確認
Constantinos Daskalakis and Qinxuan Pan(参考訳) n$-variable tree-structured ising model は、全変動距離で計算効率良く学習できる。 $\epsilon$ 最適な $o(n \ln n/\epsilon^2)$ サンプルから、$o(\cdot)$ が絶対定数を隠す。 我々の保証は、実のところ、Chow-Liu [1968]アルゴリズムに対して、相互情報を推定するためのプラグイン推定器を用いて成り立っている。 While this (or any other) algorithm may fail to identify the structure of the underlying model correctly from a finite sample, we show that it will still learn a tree-structured model that is $\epsilon$-close to the true one in total variation distance, a guarantee called "proper learning." Our guarantees do not follow from known results for the Chow-Liu algorithm and the ensuing literature on learning graphical models, including a recent renaissance of algorithms on this learning challenge, which only yield asymptotic consistency results, or sample-inefficient and/or time-inefficient algorithms, unless further assumptions are placed on the graphical model, such as bounds on the "strengths" of the model's edges/hyperedges. 我々は広く知られた単純なアルゴリズムの保証を確立する一方で、このアルゴリズムが成功し、サンプル最適化であるという分析は非常に複雑であり、その強さによって異なる再構成保証層にエッジを階層的に分類する必要がある。

We show that $n$-variable tree-structured Ising models can be learned computationally-efficiently to within total variation distance $\epsilon$ from an optimal $O(n \ln n/\epsilon^2)$ samples, where $O(\cdot)$ hides an absolute constant which, importantly, does not depend on the model being learned - neither its tree nor the magnitude of its edge strengths, on which we place no assumptions. Our guarantees hold, in fact, for the celebrated Chow-Liu [1968] algorithm, using the plug-in estimator for estimating mutual information. While this (or any other) algorithm may fail to identify the structure of the underlying model correctly from a finite sample, we show that it will still learn a tree-structured model that is $\epsilon$-close to the true one in total variation distance, a guarantee called "proper learning." Our guarantees do not follow from known results for the Chow-Liu algorithm and the ensuing literature on learning graphical models, including a recent renaissance of algorithms on this learning challenge, which only yield asymptotic consistency results, or sample-inefficient and/or time-inefficient algorithms, unless further assumptions are placed on the graphical model, such as bounds on the "strengths" of the model's edges/hyperedges. While we establish guarantees for a widely known and simple algorithm, the analysis that this algorithm succeeds and is sample-optimal is quite complex, requiring a hierarchical classification of the edges into layers with different reconstruction guarantees, depending on their strength, combined with delicate uses of the subadditivity of the squared Hellinger distance over graphical models to control the error accumulation.
翻訳日:2022-10-02 05:10:50 公開日:2020-11-29
# インテリジェントエッジデバイスにおける深層学習の最適化のための融合型プルーニング

Fusion-Catalyzed Pruning for Optimizing Deep Learning on Intelligent Edge Devices ( http://arxiv.org/abs/2010.16165v2 )

ライセンス: Link先を確認
Guangli Li, Xiu Ma, Xueying Wang, Lei Liu, Jingling Xue and Xiaobing Feng(参考訳) ディープニューラルネットワークモデルの計算コストの増大は、リソース制約のあるエッジデバイス上でのインテリジェントアプリケーションの適用性を制限する。 モデル圧縮のために多くのニューラルネットワークプルーニング手法が提案されているが、一般的なアプローチはパラメトリック演算子(例えば畳み込み)のみに焦点を当てており、最適化の機会を逃す可能性がある。 本稿では,ニューラルネットの高速化のためのパラメトリック演算子と非パラメトリック演算子を同時に最適化する,FuPrunerと呼ばれる新しい核融合触媒プルーニング手法を提案する。 そこで本研究では,パラメトリック演算子と同様に非パラメトリック演算子をプルーニングできるモデルに等価に変換する攻撃的融合法を提案し,精度を維持しつつモデルの計算コストを削減するために動的フィルタプルーニング法を適用した。 さらにfuprunerは、fusionとpruningを制御するための設定可能な最適化オプションを提供し、より柔軟なパフォーマンスと正確性のトレードオフを実現できる。 5つの代表的なインテリジェントエッジプラットフォームであるJetson TX2,Jetson Nano,Edge TPU, NCS, NCS2上での最先端残差ニューラルネットワークによる評価により,CIFAR-10およびImageNetデータセット上のモデル推定を高速化する手法の有効性が示された。

The increasing computational cost of deep neural network models limits the applicability of intelligent applications on resource-constrained edge devices. While a number of neural network pruning methods have been proposed to compress the models, prevailing approaches focus only on parametric operators (e.g., convolution), which may miss optimization opportunities. In this paper, we present a novel fusion-catalyzed pruning approach, called FuPruner, which simultaneously optimizes the parametric and non-parametric operators for accelerating neural networks. We introduce an aggressive fusion method to equivalently transform a model, which extends the optimization space of pruning and enables non-parametric operators to be pruned in a similar manner as parametric operators, and a dynamic filter pruning method is applied to decrease the computational cost of models while retaining the accuracy requirement. Moreover, FuPruner provides configurable optimization options for controlling fusion and pruning, allowing much more flexible performance-accuracy trade-offs to be made. Evaluation with state-of-the-art residual neural networks on five representative intelligent edge platforms, Jetson TX2, Jetson Nano, Edge TPU, NCS, and NCS2, demonstrates the effectiveness of our approach, which can accelerate the inference of models on CIFAR-10 and ImageNet datasets.
翻訳日:2022-10-01 15:52:38 公開日:2020-11-29
# open4business(o4b):ビジネスドキュメントを要約するオープンアクセスデータセット

Open4Business(O4B): An Open Access Dataset for Summarizing Business Documents ( http://arxiv.org/abs/2011.07636v3 )

ライセンス: Link先を確認
Amanpreet Singh, Niranjan Balasubramanian(参考訳) 自動要約のためのディープラーニングモデルの微調整における大きな課題は、大規模なドメイン固有データセットの必要性である。 オンライン出版などのリソースからこのようなデータを収集する障壁の1つは、特に商業目的のために、再使用に適用されるライセンス規制をナビゲートすることである。 その結果、いくつかのビジネスジャーナルが利用可能であるにもかかわらず、ビジネス文書を要約するための大規模なデータセットは存在しない。 本稿では,オープンアクセスビジネス記事17,458件とその参照要約のデータセットであるOpen4Business(O4B)を紹介する。 このデータセットは、ビジネスドメインの要約に新たな課題を導入し、既存のデータセットと比較して、高度に抽象的で簡潔な要約を必要とする。 さらに,既存のモデルを評価することにより,o4b と 7 倍大きな非オープンアクセスデータセット でトレーニングされたモデルが,要約において同等の性能が得られることを示す。 同様に複数のドメインのデータ収集に活用できるコードとともに、データセットをリリースしています。

A major challenge in fine-tuning deep learning models for automatic summarization is the need for large domain specific datasets. One of the barriers to curating such data from resources like online publications is navigating the license regulations applicable to their re-use, especially for commercial purposes. As a result, despite the availability of several business journals there are no large scale datasets for summarizing business documents. In this work, we introduce Open4Business(O4B),a dataset of 17,458 open access business articles and their reference summaries. The dataset introduces a new challenge for summarization in the business domain, requiring highly abstractive and more concise summaries as compared to other existing datasets. Additionally, we evaluate existing models on it and consequently show that models trained on O4B and a 7x larger non-open access dataset achieve comparable performance on summarization. We release the dataset, along with the code which can be leveraged to similarly gather data for multiple domains.
翻訳日:2022-09-25 06:56:16 公開日:2020-11-29
# クラス表現ベクトルのランダム化による分類層の再設計

Redesigning the classification layer by randomizing the class representation vectors ( http://arxiv.org/abs/2011.08704v2 )

ライセンス: Link先を確認
Gabi Shalev and Gal-Lev Shalev and Joseph Keshet(参考訳) 神経画像分類モデルは、典型的には2つの構成要素からなる。 1つ目はイメージエンコーダで、与えられた生画像を代表ベクトルに符号化する。 2つ目は分類要素であり、しばしば対象のクラスベクトルに代表ベクトルを投影することで実装される。 対象のクラスベクトルは、残りのモデルパラメータとともに、損失関数を最小限に抑えるために推定される。 本稿では,分類層の設計選択が学習力学にどのように影響するかを解析する。 標準のクロスエントロピートレーニングは、異なるクラス間の視覚的類似性を暗黙的に捉え、精度を低下させたり、いくつかのモデルが収束するのを防いだりする。 我々は,クラスベクトルをランダムに描画し,トレーニング中に固定化することで,これらのベクトルで符号化された視覚類似性を無効化する。 本研究では,クラスベクトルの固定性に着目し,クラス間分離性,クラス内コンパクト性,モデル全体の精度を向上し,画像破損に対する頑健性と学習概念の一般化を維持できることを示す。

Neural image classification models typically consist of two components. The first is an image encoder, which is responsible for encoding a given raw image into a representative vector. The second is the classification component, which is often implemented by projecting the representative vector onto target class vectors. The target class vectors, along with the rest of the model parameters, are estimated so as to minimize the loss function. In this paper, we analyze how simple design choices for the classification layer affect the learning dynamics. We show that the standard cross-entropy training implicitly captures visual similarities between different classes, which might deteriorate accuracy or even prevents some models from converging. We propose to draw the class vectors randomly and set them as fixed during training, thus invalidating the visual similarities encoded in these vectors. We analyze the effects of keeping the class vectors fixed and show that it can increase the inter-class separability, intra-class compactness, and the overall model accuracy, while maintaining the robustness to image corruptions and the generalization of the learned concepts.
翻訳日:2022-09-25 00:51:49 公開日:2020-11-29
# グラフニューラルネットワークと距離符号化の実用的展望

Revisiting graph neural networks and distance encoding from a practical view ( http://arxiv.org/abs/2011.12228v3 )

ライセンス: Link先を確認
Haoteng Yin, Yanbang Wang, Pan Li(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類やリンク予測といったグラフ構造化データに基づくアプリケーションで広く利用されている。 しかしながら、GNNはブラックボックスツールとしてよく使われ、様々な特性を持つアプリケーションに適合するかどうかを詳細に調査することは滅多にない。 最近提案された技術距離符号化 (DE) (Li et al. 2020) により、GNNはノード分類やリンク予測など多くのアプリケーションでうまく機能する。 Li et al. 2020)で提供される理論は、DeがGNNの表現力を改善することを証明することによってDeを支持する。 しかし、この理論がアプリケーションをどのように支援するかは明らかではない。 ここでは、より実践的な視点から、GNNとDを再考する。 私たちは、ノード分類とリンク予測にどのようにGNNを適合させるかを説明したいと思います。 具体的には、リンク予測のために、deは一対のノード表現間の相関を確立する方法と見なすことができる。 ノード分類では、異なる分類タスクが異なる物理的意味を示すノードラベルを保持するため、問題はより複雑になる。 我々は、最も広く考えられたノード分類シナリオに注目し、ノードラベルをコミュニティタイプと構造タイプという2つのタイプに分類し、GNNがこれら2つのタイプのラベルを予測するために採用する様々なメカニズムを分析する。 また、8つの実世界のグラフ上でノードラベルを予測するために、DECと組み合わせた8つの異なるGNNの構成を比較するための広範な実験を行った。 その結果,deは構造型ラベルの予測に一様の有効性を示す。 最後に、ノード分類のタスクでgnnとdeを適切に使う方法について、3つの結論に達した。

Graph neural networks (GNNs) are widely used in the applications based on graph structured data, such as node classification and link prediction. However, GNNs are often used as a black-box tool and rarely get in-depth investigated regarding whether they fit certain applications that may have various properties. A recently proposed technique distance encoding (DE) (Li et al. 2020) magically makes GNNs work well in many applications, including node classification and link prediction. The theory provided in (Li et al. 2020) supports DE by proving that DE improves the representation power of GNNs. However, it is not obvious how the theory assists the applications accordingly. Here, we revisit GNNs and DE from a more practical point of view. We want to explain how DE makes GNNs fit for node classification and link prediction. Specifically, for link prediction, DE can be viewed as a way to establish correlations between a pair of node representations. For node classification, the problem becomes more complicated as different classification tasks may hold node labels that indicate different physical meanings. We focus on the most widely-considered node classification scenarios and categorize the node labels into two types, community type and structure type, and then analyze different mechanisms that GNNs adopt to predict these two types of labels. We also run extensive experiments to compare eight different configurations of GNNs paired with DE to predict node labels over eight real-world graphs. The results demonstrate the uniform effectiveness of DE to predict structure-type labels. Lastly, we reach three pieces of conclusions on how to use GNNs and DE properly in tasks of node classification.
翻訳日:2022-09-22 12:16:00 公開日:2020-11-29
# GANにおける異方性マニフォールドの無監督発見

Unsupervised Discovery of Disentangled Manifolds in GANs ( http://arxiv.org/abs/2011.11842v2 )

ライセンス: Link先を確認
Yu-Ding Lu, Hsin-Ying Lee, Hung-Yu Tseng, Ming-Hsuan Yang(参考訳) 最近の生成モデルはフォトリアリスティックな画像を生成することができるため、人々は生成プロセスの背後にあるメカニズムを理解しようとします。 解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。 本研究では,任意の事前学習された生成対向ネットワークが与えられた潜在空間における解釈可能な方向を見つけるための枠組みを提案する。 本稿では, 先行学習モデルを用いて, 異なる属性を表す1ホットベクトルから潜在空間への変換について述べる。 さらに, 異なる方向を横断しながら, 一貫性と滑らかさを向上させるために, 遠心損失関数を適用した。 提案するフレームワークの幅広いデータセットに対する有効性を示す。 検出された方向ベクトルは、様々な異なる属性に視覚的に対応し、属性編集を可能にする。

As recent generative models can generate photo-realistic images, people seek to understand the mechanism behind the generation process. Interpretable generation process is beneficial to various image editing applications. In this work, we propose a framework to discover interpretable directions in the latent space given arbitrary pre-trained generative adversarial networks. We propose to learn the transformation from prior one-hot vectors representing different attributes to the latent space used by pre-trained models. Furthermore, we apply a centroid loss function to improve consistency and smoothness while traversing through different directions. We demonstrate the efficacy of the proposed framework on a wide range of datasets. The discovered direction vectors are shown to be visually corresponding to various distinct attributes and thus enable attribute editing.
翻訳日:2022-09-21 13:20:14 公開日:2020-11-29
# 今まで誰も見なかったものを見せつける: 多目的景観を視覚化するダッシュボード

To Boldly Show What No One Has Seen Before: A Dashboard for Visualizing Multi-objective Landscapes ( http://arxiv.org/abs/2011.14395v1 )

ライセンス: Link先を確認
Lennart Sch\"apermeier, Christian Grimme, Pascal Kerschke(参考訳) 連続多目的最適化問題 (MOP) の意思決定と目的空間を同時に可視化し, ランドスケープの構造を理解する上で重要な貢献をした。 近年の知見を推し進めるため,1つのRパッケージ (moPLOT) に最先端の可視化手法をすべてコンパイルした。 さらに,これらの手法を3次元決定空間に拡張し,得られたデータ量を可視化する2つの方法を提案する。 これにより、3次元MOPのランドスケープ構造を初めて説明できる。 ユーザがmoplotを使ってmopのランドスケープを作成、探索できるように、私たちはさらに、インタラクティブな(webベースの)ユーザインターフェースを通じて、さまざまな共通ベンチマーク関数の最先端の可視化を計算できるダッシュボードも提供しています。

Simultaneously visualizing the decision and objective space of continuous multi-objective optimization problems (MOPs) recently provided key contributions in understanding the structure of their landscapes. For the sake of advancing these recent findings, we compiled all state-of-the-art visualization methods in a single R-package (moPLOT). Moreover, we extended these techniques to handle three-dimensional decision spaces and propose two solutions for visualizing the resulting volume of data points. This enables - for the first time - to illustrate the landscape structures of three-dimensional MOPs. However, creating these visualizations using the aforementioned framework still lays behind a high barrier of entry for many people as it requires basic skills in R. To enable any user to create and explore MOP landscapes using moPLOT, we additionally provide a dashboard that allows to compute the state-of-the-art visualizations for a wide variety of common benchmark functions through an interactive (web-based) user interface.
翻訳日:2022-09-19 19:28:34 公開日:2020-11-29
# (参考訳) 潜在空間分布の複雑さに及ぼすバックドア攻撃の影響

Effect of backdoor attacks over the complexity of the latent space distribution ( http://arxiv.org/abs/2012.01931v1 )

ライセンス: CC BY 4.0
Henry D. Chacon and Paul Rad(参考訳) 入力空間の複雑性は、モデルが知識を抽出し、属性の空間を一般に仮定された関数に変換する能力を決定する。 バックドア攻撃が存在する場合、空間の複雑さは変化し、モデルのトレーニングに直接影響を及ぼすクラス間の類似性を誘発する。 その結果、モデルは入力セットに過度に適合する傾向にある。 本研究では,D-vine Copula Auto-Encoder (VCAE) をバックドアトリガの存在下での潜伏空間分布の推定ツールとして提案する。 変分オートエンコーダ (VAE) のように, 分布推定には仮定が存在しない。 非攻撃カテゴリでランダムに生成されたバックドアスタンプを観察することができる。 我々は, クリーンモデル (ベースライン) と攻撃対象モデル (バックドア) の違いを, 分布のペアワイズ表現で示す。 バックドアの特徴によって引き起こされる入力空間の依存性構造の変化を説明する。 最後に、エントロピーの変化とモデル間のクルバック・リーブラーのばらつきを定量化する。 その結果,入力にバックドアトリガーが加えられたことにより,潜在空間のエントロピーが約27\%増加することがわかった。

The input space complexity determines the model's capabilities to extract their knowledge and translate the space of attributes into a function which is assumed in general, as a concatenation of non-linear functions between layers. In the presence of backdoor attacks, the space complexity changes, and induces similarities between classes that directly affect the model's training. As a consequence, the model tends to overfit the input set. In this research, we suggest the D-vine Copula Auto-Encoder (VCAE) as a tool to estimate the latent space distribution under the presence of backdoor triggers. Since no assumptions are made on the distribution estimation, like in Variational Autoencoders (VAE). It is possible to observe the backdoor stamp in non-attacked categories randomly generated. We exhibit the differences between a clean model (baseline) and the attacked one (backdoor) in a pairwise representation of the distribution. The idea is to illustrate the dependency structure change in the input space induced by backdoor features. Finally, we quantify the entropy's changes and the Kullback-Leibler divergence between models. In our results, we found the entropy in the latent space increases by around 27\% due to the backdoor trigger added to the input
翻訳日:2021-06-08 17:02:34 公開日:2020-11-29
# (参考訳) gumbel-crfsによる潜伏テンプレート誘導

Latent Template Induction with Gumbel-CRFs ( http://arxiv.org/abs/2011.14244v1 )

ライセンス: CC BY 4.0
Yao Fu, Chuanqi Tan, Bin Bi, Mosha Chen, Yansong Feng, Alexander M. Rush(参考訳) 文の構造を制御することは、テキスト生成において難しい問題である。 既存の作業は単純な決定論的アプローチかRLベースのハード構造に依存している。 本研究では,再パラメータ化を訓練に活用するために,ゆるやかで連続的なリラクゼーションを用いた文生成における潜在テンプレート推定のための構造的変分オートエンコーダの利用について検討する。 具体的には, Gumbel-CRFを提案する。これは, 緩和されたフォワード・フィラリング・バック・サンプリング (FFBS) 手法を用いて, CRFサンプリングアルゴリズムの連続緩和である。 再パラメータ化勾配推定器として、Gumbel-CRFはスコア関数に基づく推定器よりも安定な勾配を与える。 構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習し、テスト中にデコーダを制御することができることを示す。 我々は,データ・テキスト生成と教師なしパラフレーズ生成における実験による手法の有効性を実証する。

Learning to control the structure of sentences is a challenging problem in text generation. Existing work either relies on simple deterministic approaches or RL-based hard structures. We explore the use of structured variational autoencoders to infer latent templates for sentence generation using a soft, continuous relaxation in order to utilize reparameterization for training. Specifically, we propose a Gumbel-CRF, a continuous relaxation of the CRF sampling algorithm using a relaxed Forward-Filtering Backward-Sampling (FFBS) approach. As a reparameterized gradient estimator, the Gumbel-CRF gives more stable gradients than score-function based estimators. As a structured inference network, we show that it learns interpretable templates during training, which allows us to control the decoder during testing. We demonstrate the effectiveness of our methods with experiments on data-to-text generation and unsupervised paraphrase generation.
翻訳日:2021-06-07 14:37:08 公開日:2020-11-29
# (参考訳) 2次元格子上の単一のターゲット探索ゲームに対するモンテカルロ木探索

Monte Carlo Tree Search for a single target search game on a 2-D lattice ( http://arxiv.org/abs/2011.14246v1 )

ライセンス: CC BY 4.0
Elana Kozak and Scott Hottovy(参考訳) Monte Carlo Tree Search (MCTS) は、決定木を最適化に利用し、主に人工知能(AI)ゲームプレイヤーに適用する確率モデリングの分野である。 このプロジェクトは、AIプレイヤーが2次元格子内で静止目標を探索するゲームを想像する。 対象分布の異なる個体群で行動解析を行い,その効率を動物採餌行動のモデルであるlevy flight searchと比較した。 シミュレーションデータ解析に加えて,計算制約を無視した場合のMCTSの収束に関する2つの定理を証明した。

Monte Carlo Tree Search (MCTS) is a branch of stochastic modeling that utilizes decision trees for optimization, mostly applied to artificial intelligence (AI) game players. This project imagines a game in which an AI player searches for a stationary target within a 2-D lattice. We analyze its behavior with different target distributions and compare its efficiency to the Levy Flight Search, a model for animal foraging behavior. In addition to simulated data analysis we prove two theorems about the convergence of MCTS when computation constraints neglected.
翻訳日:2021-06-07 14:14:11 公開日:2020-11-29
# (参考訳) 周期整合性を有するセマンティックセグメンテーションと深さ補完のためのマルチタスクGAN

Multi-task GANs for Semantic Segmentation and Depth Completion with Cycle Consistency ( http://arxiv.org/abs/2011.14272v1 )

ライセンス: CC BY 4.0
Chongzhen Zhang, Yang Tang, Chaoqiang Zhao, Qiyu Sun, Zhencheng Ye and J\"urgen Kurths(参考訳) セマンティックセグメンテーションと奥行き完了は、シーン理解において2つの困難なタスクであり、ロボット工学や自動運転で広く使われている。 これら2つのタスクを,最後のレイヤの変更など,いくつかの小さな修正によって共同でトレーニングする作業が提案されているが,これら2つのタスクの間に類似点があるにも関わらず,一方のタスクの結果は他方のパフォーマンス向上には利用されない。 本稿では, セマンティックセグメンテーションや深度補完に適するだけでなく, 生成したセマンティックイメージによる深度補完の精度を向上させるマルチタスク生成対向ネットワーク(Multi-task GANs)を提案する。 さらに,マルチスケール空間プーリングブロックと構造的類似性再構築損失を導入することにより,CycleGANに基づく生成セマンティックイメージの詳細を改善する。 さらに, 意味構造と幾何学構造の内部的一貫性を考慮して, 奥行き完了結果を改善するために, 意味的に導かれた滑らかさ損失を開発した。 CityscapesデータセットとKITTI深度補完ベンチマークの大規模な実験により、マルチタスクGANはセマンティックセグメンテーションと深度完了タスクの両方で競合性能を達成することができることが示された。

Semantic segmentation and depth completion are two challenging tasks in scene understanding, and they are widely used in robotics and autonomous driving. Although several works are proposed to jointly train these two tasks using some small modifications, like changing the last layer, the result of one task is not utilized to improve the performance of the other one despite that there are some similarities between these two tasks. In this paper, we propose multi-task generative adversarial networks (Multi-task GANs), which are not only competent in semantic segmentation and depth completion, but also improve the accuracy of depth completion through generated semantic images. In addition, we improve the details of generated semantic images based on CycleGAN by introducing multi-scale spatial pooling blocks and the structural similarity reconstruction loss. Furthermore, considering the inner consistency between semantic and geometric structures, we develop a semantic-guided smoothness loss to improve depth completion results. Extensive experiments on Cityscapes dataset and KITTI depth completion benchmark show that the Multi-task GANs are capable of achieving competitive performance for both semantic segmentation and depth completion tasks.
翻訳日:2021-06-07 13:51:24 公開日:2020-11-29
# (参考訳) ベイジアンディープネットワークによるMCMCアルゴリズムの高速化

Accelerating MCMC algorithms through Bayesian Deep Networks ( http://arxiv.org/abs/2011.14276v1 )

ライセンス: CC BY 4.0
Hector J. Hortua, Riccardo Volpi, Dimitri Marinelli, Luigi Malago(参考訳) マルコフ連鎖モンテカルロ(mcmc)アルゴリズムは、複雑な確率分布からのサンプリングにおける汎用性のために一般的に用いられる。 しかし,分布の次元が大きくなるにつれて,サンプリング空間を十分に探索するための計算コストが困難になる。 提案分布の選択を用いた適応MCMC法は収束を高速化するこの問題に対処できる。 本稿では,マルコフ連鎖の最初の提案としてベイズニューラルネットワークの結果を用いて,適応MCMCの実行方法を示す。 この組み合わせアプローチは、メトロポリス・ハスティングアルゴリズムの受け入れ率を高め、MCMCの収束を加速し、同じ最終的な精度に達する。 最後に、宇宙マイクロ波背景マップから直接宇宙パラメータを制約することにより、このアプローチの主な利点を示す。

Markov Chain Monte Carlo (MCMC) algorithms are commonly used for their versatility in sampling from complicated probability distributions. However, as the dimension of the distribution gets larger, the computational costs for a satisfactory exploration of the sampling space become challenging. Adaptive MCMC methods employing a choice of proposal distribution can address this issue speeding up the convergence. In this paper we show an alternative way of performing adaptive MCMC, by using the outcome of Bayesian Neural Networks as the initial proposal for the Markov Chain. This combined approach increases the acceptance rate in the Metropolis-Hasting algorithm and accelerate the convergence of the MCMC while reaching the same final accuracy. Finally, we demonstrate the main advantages of this approach by constraining the cosmological parameters directly from Cosmic Microwave Background maps.
翻訳日:2021-06-07 13:26:53 公開日:2020-11-29
# (参考訳) 3次元点雲生成のための幾何学画像の学習

Learning geometry-image representation for 3D point cloud generation ( http://arxiv.org/abs/2011.14289v1 )

ライセンス: CC BY 4.0
Lei Wang, Yuchun Huang, Pengjie Tao, Yaolin Hou, Yuxuan Liu(参考訳) 3次元物体の点雲生成の問題点について考察する。 計算コストと解像度の制約を伴ってオブジェクトを3次元ボクセルに識別する代わりに、3次元点雲生成問題を2次元幾何画像生成問題に変換するための新しい幾何画像ベースジェネレータ(GIG)を提案する。 幾何学像は3dオブジェクトの表面点を含む完全に正則な2dアレイであるため、2dアレイの正則性と3d表面の測地線近傍の両方を利用する。 したがって、GIGの大きな利点の1つは、効率的な2D画像生成ネットワークを用いて、3Dポイントクラウドを直接生成できることです。 剛性および非剛性の両方の3Dオブジェクトデータセットの実験は、可塑性および新規な3Dオブジェクトを作成するだけでなく、補間や算術のような形状編集をうまくサポートする確率的潜在空間を学習するために、我々の手法の有望な性能を実証した。

We study the problem of generating point clouds of 3D objects. Instead of discretizing the object into 3D voxels with huge computational cost and resolution limitations, we propose a novel geometry image based generator (GIG) to convert the 3D point cloud generation problem to a 2D geometry image generation problem. Since the geometry image is a completely regular 2D array that contains the surface points of the 3D object, it leverages both the regularity of the 2D array and the geodesic neighborhood of the 3D surface. Thus, one significant benefit of our GIG is that it allows us to directly generate the 3D point clouds using efficient 2D image generation networks. Experiments on both rigid and non-rigid 3D object datasets have demonstrated the promising performance of our method to not only create plausible and novel 3D objects, but also learn a probabilistic latent space that well supports the shape editing like interpolation and arithmetic.
翻訳日:2021-06-07 13:20:29 公開日:2020-11-29
# (参考訳) イデオロギーと話題の関連性 : 社会的話題検出モデルにおける政治的イデオロギーバイアスのケーススタディ

Inflating Topic Relevance with Ideology: A Case Study of Political Ideology Bias in Social Topic Detection Models ( http://arxiv.org/abs/2011.14293v1 )

ライセンス: CC BY 4.0
Meiqi Guo, Rebecca Hwa, Yu-Ru Lin, Wen-Ting Chung(参考訳) トレーニングデータにおける政治的イデオロギーバイアスの影響について検討する。 比較研究を通じて, 広く使用されているNLPモデルにおけるバイアスの伝播と, 総合的検索精度への影響について検討した。 本研究は,人間の選択した入力からのバイアスを伝達する,大規模で複雑なモデルの感受性に着目し,検索精度の低下と,これらのバイアスに対する制御の重要性について考察した。 最後に、バイアスを軽減する方法として、政治イデオロギーに不変なテキスト表現を学習し、トピックの関連性を判断することを提案する。

We investigate the impact of political ideology biases in training data. Through a set of comparison studies, we examine the propagation of biases in several widely-used NLP models and its effect on the overall retrieval accuracy. Our work highlights the susceptibility of large, complex models to propagating the biases from human-selected input, which may lead to a deterioration of retrieval accuracy, and the importance of controlling for these biases. Finally, as a way to mitigate the bias, we propose to learn a text representation that is invariant to political ideology while still judging topic relevance.
翻訳日:2021-06-07 13:03:03 公開日:2020-11-29
# (参考訳) マラリアの検出と分類

Malaria Detection and Classificaiton ( http://arxiv.org/abs/2011.14329v1 )

ライセンス: CC BY 4.0
Ruskin Raj Manku and Ayush Sharma and Anand Panchbhai(参考訳) 世界保健機関(who)によると、マラリアは世界的な懸念の病である。 世界中の何十億という人々が マラリアのリスクにさらされています 顕微鏡検査はマラリア診断における金の基準と考えられている。 血液サンプルの微視的評価には、マラリアが問題となっている農村部では使用できない訓練を受けた専門家が必要となる。 マラリア診断の完全自動化は難しい課題である。 本研究では,マラリアの診断のための枠組みを提唱した。 我々は,第1層のFaster-RCNNを用いて感染細胞を検知し,収穫した細胞を分離したニューラルネットワークに供給して分類する2層アプローチを採用する。 提案手法は公開されているデータセットでテストされ、マラリア診断の結果が報告される一般的なデータセットがないため、将来のメソッドのベースラインとして機能する。

Malaria is a disease of global concern according to the World Health Organization. Billions of people in the world are at risk of Malaria today. Microscopy is considered the gold standard for Malaria diagnosis. Microscopic assessment of blood samples requires the need of trained professionals who at times are not available in rural areas where Malaria is a problem. Full automation of Malaria diagnosis is a challenging task. In this work, we put forward a framework for diagnosis of malaria. We adopt a two layer approach, where we detect infected cells using a Faster-RCNN in the first layer, crop them out, and feed the cropped cells to a seperate neural network for classification. The proposed methodology was tested on an openly available dataset, this will serve as a baseline for the future methods as currently there is no common dataset on which results are reported for Malaria Diagnosis.
翻訳日:2021-06-07 12:08:27 公開日:2020-11-29
# (参考訳) ProtoPShare: 解釈可能な画像分類と類似性発見のためのプロトタイプ共有

ProtoPShare: Prototype Sharing for Interpretable Image Classification and Similarity Discovery ( http://arxiv.org/abs/2011.14340v1 )

ライセンス: CC BY 4.0
Dawid Rymarczyk, {\L}ukasz Struski, Jacek Tabor, Bartosz Zieli\'nski(参考訳) 本稿では,その予測を説明するために,原型的部分のパラダイムを取り入れた自己説明型手法 protopshare を提案する。 ProtoPShareの主な特徴は、データ依存のマージプルーニングのおかげで、クラス間でプロトタイプ部品を効率的に共有できることである。 さらに、プロトタイプはより一貫性があり、モデルはartメソッドのprotopnetの状態よりも画像の摂動に頑健である。 CUB-200-2011とStanford Carsの2つのデータセットでこの結果を検証する。

In this paper, we introduce ProtoPShare, a self-explained method that incorporates the paradigm of prototypical parts to explain its predictions. The main novelty of the ProtoPShare is its ability to efficiently share prototypical parts between the classes thanks to our data-dependent merge-pruning. Moreover, the prototypes are more consistent and the model is more robust to image perturbations than the state of the art method ProtoPNet. We verify our findings on two datasets, the CUB-200-2011 and the Stanford Cars.
翻訳日:2021-06-07 12:02:22 公開日:2020-11-29
# (参考訳) 現実世界のアプリケーションのためのレーダーデータをシミュレートする学習

There and Back Again: Learning to Simulate Radar Data for Real-World Applications ( http://arxiv.org/abs/2011.14389v1 )

ライセンス: CC BY 4.0
Rob Weston, Oiwi Parker Jones and Ingmar Posner(参考訳) 現実的なレーダデータのシミュレーションは、レーダ処理に対するデータ駆動アプローチの開発を著しく加速する可能性がある。 しかし、画像形成の過程が複雑であることから、難易度が高い。 本研究では,高度マップシミュレーションに基づく忠実なレーダ観測を合成可能なレーダセンサモデルを提案する。 特に,不整合レーダの例から前方センサモデルを学習するための対角的アプローチを採用する。 さらに、後方モデルのモデリングは、循環的一貫性基準を通じて出力を世界状態と一致させるように促す。 後方モデルはさらに、対応するlidarスキャンから得られた部分的な測定によって接地された実際のレーダーデータから標高マップを予測するために制約される。 どちらのモデルも共同最適化で訓練されている。 実環境におけるシミュレーションデータに基づいて純粋に訓練された下流セグメンテーションモデルを評価することにより,本手法の有効性を実証する。 これにより、実際のデータに基づいてトレーニングされた同じモデルの4パーセントのパフォーマンスが得られる。

Simulating realistic radar data has the potential to significantly accelerate the development of data-driven approaches to radar processing. However, it is fraught with difficulty due to the notoriously complex image formation process. Here we propose to learn a radar sensor model capable of synthesising faithful radar observations based on simulated elevation maps. In particular, we adopt an adversarial approach to learning a forward sensor model from unaligned radar examples. In addition, modelling the backward model encourages the output to remain aligned to the world state through a cyclical consistency criterion. The backward model is further constrained to predict elevation maps from real radar data that are grounded by partial measurements obtained from corresponding lidar scans. Both models are trained in a joint optimisation. We demonstrate the efficacy of our approach by evaluating a down-stream segmentation model trained purely on simulated data in a real-world deployment. This achieves performance within four percentage points of the same model trained entirely on real data.
翻訳日:2021-06-07 10:49:32 公開日:2020-11-29
# (参考訳) クラウドソーシング型都市デリバリのための深層強化学習:システム状態評価、ヒューリスティックス誘導行動選択、ルール間統合

Deep Reinforcement Learning for Crowdsourced Urban Delivery: System States Characterization, Heuristics-guided Action Choice, and Rule-Interposing Integration ( http://arxiv.org/abs/2011.14430v1 )

ライセンス: CC BY 4.0
Tanvir Ahamed, Bo Zou, Nahid Parvez Farazi and Theja Tulabandhula(参考訳) 本稿では,クラウドソーシングによる都市配送において,アドホックな配送業者に配送要求を割り当てるという課題について検討する。 配送要求は、ピックアップの早い時間と配達の最新の時間の間に、それぞれ限られた時間枠で空間的に分散される。 crowdsourcees(クラウドソース)と呼ばれるアドホック・クーリエも、時間的可用性とキャパシティに制限がある。 本稿では,この課題に対処するための新しい深層強化学習(DRL)アプローチを提案する。 DRLトレーニングの効率性,収束性,安定性を高めるために,経験リプレイとターゲットネットワークの2つの優れた特徴を持つディープQネットワーク(DQN)アルゴリズムを訓練する。 More importantly, this paper makes three methodological contributions: 1) presenting a comprehensive and novel characterization of crowdshipping system states that encompasses spatial-temporal and capacity information of crowdsourcees and requests; 2) embedding heuristics that leverage the information offered by the state representation and are based on intuitive reasoning to guide specific actions to take, to preserve tractability and enhance efficiency of training; and 3) integrating rule-interposing to prevent repeated visiting of the same routes and node sequences during routing improvement, thereby further enhancing the training efficiency by accelerating learning. 提案手法の有効性を広範囲な数値解析により実証した。 以上の結果から,drl訓練におけるヒューリスティックス誘導行動選択と規則間相互作用の利点と,提案手法がソリューション品質,時間,スケーラビリティにおいて既存のヒューリスティックスよりも優れていることが示された。 クラウドシッピング作業計画の効率を向上させる可能性に加えて,提案手法は車両のルーティング状況における他の問題に対して,新たな経路と汎用的な枠組みを提供する。

This paper investigates the problem of assigning shipping requests to ad hoc couriers in the context of crowdsourced urban delivery. The shipping requests are spatially distributed each with a limited time window between the earliest time for pickup and latest time for delivery. The ad hoc couriers, termed crowdsourcees, also have limited time availability and carrying capacity. We propose a new deep reinforcement learning (DRL)-based approach to tackling this assignment problem. A deep Q network (DQN) algorithm is trained which entails two salient features of experience replay and target network that enhance the efficiency, convergence, and stability of DRL training. More importantly, this paper makes three methodological contributions: 1) presenting a comprehensive and novel characterization of crowdshipping system states that encompasses spatial-temporal and capacity information of crowdsourcees and requests; 2) embedding heuristics that leverage the information offered by the state representation and are based on intuitive reasoning to guide specific actions to take, to preserve tractability and enhance efficiency of training; and 3) integrating rule-interposing to prevent repeated visiting of the same routes and node sequences during routing improvement, thereby further enhancing the training efficiency by accelerating learning. The effectiveness of the proposed approach is demonstrated through extensive numerical analysis. The results show the benefits brought by the heuristics-guided action choice and rule-interposing in DRL training, and the superiority of the proposed approach over existing heuristics in both solution quality, time, and scalability. Besides the potential to improve the efficiency of crowdshipping operation planning, the proposed approach also provides a new avenue and generic framework for other problems in the vehicle routing context.
翻訳日:2021-06-07 09:41:58 公開日:2020-11-29
# (参考訳) パラメータ化近傍メモリ適応を用いた意味的役割ラベルの改善

Improved Semantic Role Labeling using Parameterized Neighborhood Memory Adaptation ( http://arxiv.org/abs/2011.14459v1 )

ライセンス: CC BY 4.0
Ishan Jindal, Ranit Aharonov, Siddhartha Brahma, Huaiyu Zhu, Yunyao Li(参考訳) ディープニューラルモデルは、セマンティックロールラベリングの最良の結果を達成する。 低周波文脈特化トレーニングサンプルの処理に近隣住民を利用したインスタンスベース学習に着想を得て,深部神経モデルにおけるメモリ適応技術の利用について検討した。 本稿では,アクティベーションメモリにおけるトークン近傍のパラメータ化表現を用いたパラメータ化近傍メモリ適応(PNMA)手法を提案し,トレーニングデータに最も類似したサンプルに基づいて予測を行う。 単語埋め込みの種類に関係なく,PNMAはベースモデルのSRL性能を一貫して改善することを示す。 PNMAは、BERTから派生した文脈化された単語埋め込みと組み合わせて、特にドメイン外のテキストで、スパンと依存性のセマンティックパーシングデータセットの既存のモデルの改善を行い、それぞれ80.2点、CoNLL2005で84.97点、CoNLL2009点に到達した。

Deep neural models achieve some of the best results for semantic role labeling. Inspired by instance-based learning that utilizes nearest neighbors to handle low-frequency context-specific training samples, we investigate the use of memory adaptation techniques in deep neural models. We propose a parameterized neighborhood memory adaptive (PNMA) method that uses a parameterized representation of the nearest neighbors of tokens in a memory of activations and makes predictions based on the most similar samples in the training data. We empirically show that PNMA consistently improves the SRL performance of the base model irrespective of types of word embeddings. Coupled with contextualized word embeddings derived from BERT, PNMA improves over existing models for both span and dependency semantic parsing datasets, especially on out-of-domain text, reaching F1 scores of 80.2, and 84.97 on CoNLL2005, and CoNLL2009 datasets, respectively.
翻訳日:2021-06-07 09:28:12 公開日:2020-11-29
# ソーシャルメディアにおける予備抑うつ状態推定のための新しい感性分析エンジン

A Novel Sentiment Analysis Engine for Preliminary Depression Status Estimation on Social Media ( http://arxiv.org/abs/2011.14280v1 )

ライセンス: Link先を確認
Sudhir Kumar Suman, Hrithwik Shalu, Lakshya A Agrawal, Archit Agrawal, Juned Kadiwala(参考訳) ソーシャルメディア上でのユーザの予備的な抑うつ状態推定のためのテキスト感情分析は、広く実行可能かつ実現可能な方法であるが、ソーシャルメディアwebサイトへのアクセスや語彙の多種多様な混合によって、深層学習に基づく分類器が一般的に適用されることは困難である。 さらに、従来の教師付き機械学習の適応性の欠如は多くのレベルで問題となる可能性がある。 本稿では,twitterソーシャルメディア上で主に抑うつ検出を行うための,ディープラーニングベースのバックエンドを備えた,クラウドベースのスマートフォンアプリケーションを提案する。 バックエンドモデルは、所定のツイート(クエリ)とラベル付きツイートのセットを既知の感情(標準コーパス)と比較するRoBERTaベースのシアム文分類器で構成されている。 標準コーパスは、モデルの信頼性を改善するために、専門家の意見によって時間とともに変化する。 心理学者(患者の許可を得て)は、カウンセリングの前に患者の抑うつ状態を評価するためにこの応用を活用し、患者の精神状態に関するより良い洞察を提供することができる。 さらに、同じように、心理学者は、より効果的な治療に役立つ同様の特徴の事例を参照することができる。 公開データセットで微調整した後、バックエンドモデルを評価します。 探索調律モデルは、ランダムなノイズ要因を持つ大量のツイートサンプルに対して抑うつを予測する。 このモデルは、試験精度87.23%、auc 0.8621でピンナクル結果を達成した。

Text sentiment analysis for preliminary depression status estimation of users on social media is a widely exercised and feasible method, However, the immense variety of users accessing the social media websites and their ample mix of vocabularies makes it difficult for commonly applied deep learning-based classifiers to perform. To add to the situation, the lack of adaptability of traditional supervised machine learning could hurt at many levels. We propose a cloud-based smartphone application, with a deep learning-based backend to primarily perform depression detection on Twitter social media. The backend model consists of a RoBERTa based siamese sentence classifier that compares a given tweet (Query) with a labeled set of tweets with known sentiment ( Standard Corpus ). The standard corpus is varied over time with expert opinion so as to improve the model's reliability. A psychologist ( with the patient's permission ) could leverage the application to assess the patient's depression status prior to counseling, which provides better insight into the mental health status of a patient. In addition, to the same, the psychologist could be referred to cases of similar characteristics, which could in turn help in more effective treatment. We evaluate our backend model after fine-tuning it on a publicly available dataset. The find tuned model is made to predict depression on a large set of tweet samples with random noise factors. The model achieved pinnacle results, with a testing accuracy of 87.23% and an AUC of 0.8621.
翻訳日:2021-06-07 09:07:31 公開日:2020-11-29
# 検索と分類のための大容量メモリマッチング

Coarse-to-Fine Memory Matching for Joint Retrieval and Classification ( http://arxiv.org/abs/2012.02287v1 )

ライセンス: Link先を確認
Allen Schmaltz and Andrew Beam(参考訳) 本稿では,双方向およびクロスエンコーダの強みを,学習と推論のための大雑把なメモリマッチング探索手順を通じて単一言語モデルに統一した,統合検索と分類のための新しいエンド・ツー・エンド言語モデルを提案する。 FEVERファクト検証データセットの標準的なブラインドテストセットに基づいて評価すると、分類精度は、言語モデルパラメータを知識ベースとしてのみ依存するアプローチよりも著しく高く、メモリ層を付加した単一のBERTベースモデルのみを使用して、最近の複数のモデルパイプラインシステムにアプローチする。 我々はさらに,低信頼なインスタンスを識別するために検索と分類の結合をどのように活用するかを実証し,モデルの分析と制約のためにexemplar auditingをこの設定に拡張する。 その結果,提案手法は2つの異なるメカニズムによって言語モデルの振る舞いを更新する手段が得られた。

We present a novel end-to-end language model for joint retrieval and classification, unifying the strengths of bi- and cross- encoders into a single language model via a coarse-to-fine memory matching search procedure for learning and inference. Evaluated on the standard blind test set of the FEVER fact verification dataset, classification accuracy is significantly higher than approaches that only rely on the language model parameters as a knowledge base, and approaches some recent multi-model pipeline systems, using only a single BERT base model augmented with memory layers. We further demonstrate how coupled retrieval and classification can be leveraged to identify low confidence instances, and we extend exemplar auditing to this setting for analyzing and constraining the model. As a result, our approach yields a means of updating language model behavior through two distinct mechanisms: The retrieved information can be updated explicitly, and the model behavior can be modified via the exemplar database.
翻訳日:2021-06-07 09:07:08 公開日:2020-11-29
# クラスタに基づくトップk勧告のための深層文脈強化学習

Cluster Based Deep Contextual Reinforcement Learning for top-k Recommendations ( http://arxiv.org/abs/2012.02291v1 )

ライセンス: Link先を確認
Anubha Kabra, Anu Agarwal, Anil Singh Parihar(参考訳) 過去数十年間のEコマース分野の急速な進歩は、パーソナライズされ、効率的で、ダイナミックなレコメンデーションシステムの必要性を差し迫った。 このニーズを十分に満たすために,強化学習によるクラスタリングのアンサンブルを作成することにより,トップk推薦を生成する新しい手法を提案する。 我々は,DB Scanクラスタリングを導入し,膨大なアイテム空間に対処した。 さらに, 深層文脈強化学習を用いて, ユーザ特徴を最大限に活用する手法を提案する。 部分的な更新とバッチ更新によって、モデルはユーザパターンを継続的に学習する。 デュエル・バンディットに基づく探検は、その適応性による最先端の戦略と比較して、堅牢な探査を提供する。 公開データセット上で実施した詳細な実験は,既存の技術と同等の手法の効率性について,我々の主張を検証するものである。

Rapid advancements in the E-commerce sector over the last few decades have led to an imminent need for personalised, efficient and dynamic recommendation systems. To sufficiently cater to this need, we propose a novel method for generating top-k recommendations by creating an ensemble of clustering with reinforcement learning. We have incorporated DB Scan clustering to tackle vast item space, hence in-creasing the efficiency multi-fold. Moreover, by using deep contextual reinforcement learning, our proposed work leverages the user features to its full potential. With partial updates and batch updates, the model learns user patterns continuously. The Duelling Bandit based exploration provides robust exploration as compared to the state-of-art strategies due to its adaptive nature. Detailed experiments conducted on a public dataset verify our claims about the efficiency of our technique as com-pared to existing techniques.
翻訳日:2021-06-07 09:06:51 公開日:2020-11-29
# 畳み込みニューラルネットワークを用いたグリアソン評価に基づく前立腺癌自動診断

Automated Prostate Cancer Diagnosis Based on Gleason Grading Using Convolutional Neural Network ( http://arxiv.org/abs/2011.14301v1 )

ライセンス: Link先を確認
Haotian Xie, Yong Zhang, Jun Wang, Jingjing Zhang, Yifan Ma, Zhaogang Yang(参考訳) 組織像を用いたGleason grading systemは前立腺癌の診断および予後予測の最も強力な方法である。 現在の標準検査は、病理学者によるGleason H&Eによる病理像の評価である。 しかし、それは複雑で、時間がかかり、観察対象となる。 画像特徴を自動的に学習し,高度な一般化能力を実現するディープラーニング(DL)ベースの手法が注目されている。 しかしながら、現在の診断における主要な臨床ソースであるスライド画像全体(WSI)のトレーニングには、数十億画素のピクセル、形態的不均一性、アーティファクトをDLで用い続けている。 そこで本研究では,PCaの精度向上のための畳み込みニューラルネットワーク(CNN)を用いた自動分類法を提案する。 本稿では,高分解能化とWSIの多様性向上のために,PBIR(Patch-Based Image Reconstruction)というデータ拡張手法を提案する。 さらに,データ分布を調整することにより,事前学習したモデルのターゲットデータセットへの適応性を高めるために,分布補正(DC)モジュールを開発した。 さらに, 重み付き平均角誤差(QWMSE)関数を提示し, ユークリッド距離による誤診を低減した。 実験の結果, pbir, dc, qwmse関数の組み合わせは, 優れたエキスパートレベル性能を達成するために必要であり, 最高の結果(0.8885倍重み付きkappa係数)をもたらした。

The Gleason grading system using histological images is the most powerful diagnostic and prognostic predictor of prostate cancer. The current standard inspection is evaluating Gleason H&E-stained histopathology images by pathologists. However, it is complicated, time-consuming, and subject to observers. Deep learning (DL) based-methods that automatically learn image features and achieve higher generalization ability have attracted significant attention. However, challenges remain especially using DL to train the whole slide image (WSI), a predominant clinical source in the current diagnostic setting, containing billions of pixels, morphological heterogeneity, and artifacts. Hence, we proposed a convolutional neural network (CNN)-based automatic classification method for accurate grading of PCa using whole slide histopathology images. In this paper, a data augmentation method named Patch-Based Image Reconstruction (PBIR) was proposed to reduce the high resolution and increase the diversity of WSIs. In addition, a distribution correction (DC) module was developed to enhance the adaption of pretrained model to the target dataset by adjusting the data distribution. Besides, a Quadratic Weighted Mean Square Error (QWMSE) function was presented to reduce the misdiagnosis caused by equal Euclidean distances. Our experiments indicated the combination of PBIR, DC, and QWMSE function was necessary for achieving superior expert-level performance, leading to the best results (0.8885 quadratic-weighted kappa coefficient).
翻訳日:2021-06-07 09:06:40 公開日:2020-11-29
# ターン型確率ゲームにおけるミニマックスサンプル複雑さ

Minimax Sample Complexity for Turn-based Stochastic Game ( http://arxiv.org/abs/2011.14267v1 )

ライセンス: Link先を確認
Qiwen Cui and Lin F. Yang(参考訳) マルチエージェント強化学習の実証的な成功は奨励されているが、理論的な保証はほとんど明らかにされていない。 本研究では,おそらく最も自然な強化学習アルゴリズムであるプラグインソルバ手法が,ターンベース確率ゲーム(TBSG)の最小値サンプル複雑性を実現することを証明する。 具体的には、任意の状態-作用対からのサンプリングが可能な「シミュレータ」を利用して、実証的なTBSGを計画する。 実験的なナッシュ均衡戦略は、真のTBSGにおける近似ナッシュ均衡戦略であり、問題依存的および問題非依存的境界を与えることを示す。 複雑な統計依存性に取り組むために,吸収性tbsgと報酬摂動法を開発した。 鍵となる考え方は、人工的にTBSGに準最適ギャップを導入し、ナッシュ均衡戦略は有限集合にある。

The empirical success of Multi-agent reinforcement learning is encouraging, while few theoretical guarantees have been revealed. In this work, we prove that the plug-in solver approach, probably the most natural reinforcement learning algorithm, achieves minimax sample complexity for turn-based stochastic game (TBSG). Specifically, we plan in an empirical TBSG by utilizing a `simulator' that allows sampling from arbitrary state-action pair. We show that the empirical Nash equilibrium strategy is an approximate Nash equilibrium strategy in the true TBSG and give both problem-dependent and problem-independent bound. We develop absorbing TBSG and reward perturbation techniques to tackle the complex statistical dependence. The key idea is artificially introducing a suboptimality gap in TBSG and then the Nash equilibrium strategy lies in a finite set.
翻訳日:2021-06-07 09:06:02 公開日:2020-11-29
# 機械学習によるヘモグロビンレベルの非侵襲的推定のためのスマートフォン型マルチ入力ワークフロー

A smartphone based multi input workflow for non-invasive estimation of haemoglobin levels using machine learning techniques ( http://arxiv.org/abs/2011.14370v1 )

ライセンス: Link先を確認
Sarah, S.Sidhartha Narayan, Irfaan Arif, Hrithwik Shalu, Juned Kadiwala(参考訳) 我々は,低費用で非侵襲的にヘモグロビン濃度を測定し,貧血の予備診断試験として使用できる医療システムを提案する。 画像処理、機械学習、ディープラーニング技術を組み合わせて、ヘモグロビンレベルを測定するための予測モデルを開発した。 これは、患者の指爪床、頭蓋結膜、舌の色解析によって達成される。 この予測モデルは、医療アプリケーションにカプセル化される。 このアプリケーションはデータ収集を迅速化し、モデルのアクティブな学習を促進する。 また,各患者のヘモグロビン濃度の連続的なモニタリングを支援するため,各患者ごとに個別にモデルのキャリブレーションを行う。 データを用いてこのフレームワークを検証すると、アナ血症の高精度な予備診断テストとして機能する。

We suggest a low cost, non invasive healthcare system that measures haemoglobin levels in patients and can be used as a preliminary diagnostic test for anaemia. A combination of image processing, machine learning and deep learning techniques are employed to develop predictive models to measure haemoglobin levels. This is achieved through the color analysis of the fingernail beds, palpebral conjunctiva and tongue of the patients. This predictive model is then encapsulated in a healthcare application. This application expedites data collection and facilitates active learning of the model. It also incorporates personalized calibration of the model for each patient, assisting in the continual monitoring of the haemoglobin levels of the patient. Upon validating this framework using data, it can serve as a highly accurate preliminary diagnostic test for anaemia.
翻訳日:2021-06-07 09:05:48 公開日:2020-11-29
# 建築上の対立性ロバスト性--Deep Pursuitの場合

Architectural Adversarial Robustness: The Case for Deep Pursuit ( http://arxiv.org/abs/2011.14427v1 )

ライセンス: Link先を確認
George Cazenavette, Calvin Murdock, Simon Lucey(参考訳) 適合しない性能にもかかわらず、深いニューラルネットワークは、ほとんど認識不能なレベルの敵対的ノイズによる標的攻撃の影響を受けやすいままである。 この感度の根本的な原因はよく理解されていないが、スパース符号問題に対する近似解としてフィードフォワードネットワークの各層をフレーミングすることで理論解析を単純化することができる。 基底探索を用いた反復解は理論上より安定であり、対向ロバスト性を改善している。 しかしcascading layer-wise pursuit実装は深いネットワークでエラーの蓄積に苦しむ。 対照的に,新しい深層追跡手法では,単一のグローバル最適化問題として全層活性化を近似し,残差ネットワークなどのスキップ接続を用いたより深い実世界のアーキテクチャを検討することができる。 実験により, 対向雑音に対するロバスト性の改善が示された。

Despite their unmatched performance, deep neural networks remain susceptible to targeted attacks by nearly imperceptible levels of adversarial noise. While the underlying cause of this sensitivity is not well understood, theoretical analyses can be simplified by reframing each layer of a feed-forward network as an approximate solution to a sparse coding problem. Iterative solutions using basis pursuit are theoretically more stable and have improved adversarial robustness. However, cascading layer-wise pursuit implementations suffer from error accumulation in deeper networks. In contrast, our new method of deep pursuit approximates the activations of all layers as a single global optimization problem, allowing us to consider deeper, real-world architectures with skip connections such as residual networks. Experimentally, our approach demonstrates improved robustness to adversarial noise.
翻訳日:2021-06-07 09:05:36 公開日:2020-11-29
# 中国語モデルの内在的知識評価

Intrinsic Knowledge Evaluation on Chinese Language Models ( http://arxiv.org/abs/2011.14277v1 )

ライセンス: Link先を確認
Zhiruo Wang, Renfen Hu(参考訳) 最近のNLPタスクは、様々な側面の知識をエンコードできるため、事前訓練された言語モデル(LM)から多くの恩恵を受けている。 しかし、現在のLM評価は下流のパフォーマンスに重点を置いているため、どの側面とどの程度の知識をコード化しているかを包括的に検査することができない。 本稿では,中国語における言語知識と世界知識の両方を網羅する合計39,308ドルの質問に対して,構文,意味,常識,事実知識の4つのタスクを提案する。 実験を通して、我々の調査と知識データは、事前訓練された中国のLMを評価するための信頼性の高いベンチマークであることが証明された。 私たちの作品はhttps://github.com/ZhiruoWang/ChnEval.comで公開されています。

Recent NLP tasks have benefited a lot from pre-trained language models (LM) since they are able to encode knowledge of various aspects. However, current LM evaluations focus on downstream performance, hence lack to comprehensively inspect in which aspect and to what extent have they encoded knowledge. This paper addresses both queries by proposing four tasks on syntactic, semantic, commonsense, and factual knowledge, aggregating to a total of $39,308$ questions covering both linguistic and world knowledge in Chinese. Throughout experiments, our probes and knowledge data prove to be a reliable benchmark for evaluating pre-trained Chinese LMs. Our work is publicly available at https://github.com/ZhiruoWang/ChnEval.
翻訳日:2021-06-07 09:05:23 公開日:2020-11-29
# スペンスの表現と予測によるパラフレーズ生成のための生成事前学習

Generative Pre-training for Paraphrase Generation by Representing and Predicting Spans in Exemplars ( http://arxiv.org/abs/2011.14344v1 )

ライセンス: Link先を確認
Tien-Cuong Bui, Van-Duc Le, Hai-Thien To and Sang Kyun Cha(参考訳) パラフレーズ生成は長年の問題であり、多くの自然言語処理問題において重要な役割を果たす。 奨励的な結果にもかかわらず、最近の手法では、ジェネリックな発話を好むという問題に直面したり、新しいデータセットごとにモデルをスクラッチから再トレーニングする必要がある。 本稿では, GPT-2モデルから拡張した言い換え文に対する新しいアプローチを提案する。 本研究では,POSタグを用いたテンプレートマスキング手法を開発し,無関係な単語をマスクアウトする。 そのため、パラフレーズタスクは、マスク付きテンプレートでスパンを予測するように変更される。 提案手法は,特に意味保存の面で,競争ベースラインを上回っている。 モデルが与えられたテンプレートに偏りを生じないように,Bernolli分布を用いた2次マスキングと呼ばれる手法を導入し,その1次マスキングテンプレートのトークンの可視性を制御する。 さらに,この手法により,2次マスキングレベルを調整することで,様々なパラフレーズ文をテストで提供することができる。 本稿では,2種類のテンプレート選択手法の性能を比較し,意味情報の保存に等価であることを示す。

Paraphrase generation is a long-standing problem and serves an essential role in many natural language processing problems. Despite some encouraging results, recent methods either confront the problem of favoring generic utterance or need to retrain the model from scratch for each new dataset. This paper presents a novel approach to paraphrasing sentences, extended from the GPT-2 model. We develop a template masking technique, named first-order masking, to masked out irrelevant words in exemplars utilizing POS taggers. So that, the paraphrasing task is changed to predicting spans in masked templates. Our proposed approach outperforms competitive baselines, especially in the semantic preservation aspect. To prevent the model from being biased towards a given template, we introduce a technique, referred to as second-order masking, which utilizes Bernoulli distribution to control the visibility of the first-order-masked template's tokens. Moreover, this technique allows the model to provide various paraphrased sentences in testing by adjusting the second-order-masking level. For scale-up objectives, we compare the performance of two alternatives template-selection methods, which shows that they were equivalent in preserving semantic information.
翻訳日:2021-06-07 09:05:11 公開日:2020-11-29
# 深部画像マッチングのための学習親和性を考慮したアップサンプリング

Learning Affinity-Aware Upsampling for Deep Image Matting ( http://arxiv.org/abs/2011.14288v1 )

ライセンス: Link先を確認
Yutong Dai, Hao Lu, Chunhua Shen(参考訳) upsamplingにおける学習親和性は,ディープネットワークにおけるペアワイズインタラクションを利用するための効果的かつ効率的なアプローチを提供する。 2階機能は、非局所ブロックのようなアップサンプリング後の学習可能なモジュールとの隣接関係を構築するために、密接な予測に一般的に使用される。 アップサンプリングが不可欠であるため、アップサンプリングにおける学習親和性は、さらなる伝播層を避けることができ、コンパクトなモデルを構築する可能性を提供する。 統一数学的観点から既存のアップサンプリング演算子を二階形式に一般化し、親和性アウェアアップサンプリング(a2u)を導入し、アップサンプリングカーネルを軽量低ランク双線型モデルを用いて生成し、二階特徴を条件とする。 アップサンプリング演算子もダウンサンプリングに拡張できます。 a2uの代替実装について検討し,おもちゃデータセット上の画像再構成と,親和性に基づくアイデアがメインストリームのマットングアプローチを構成する大規模イメージマットングタスクという,2つのディテールに敏感なタスクの有効性を検証する。 特に, コンポジション1kマッチングデータセットの結果から, A2Uはパラメータの無視できる増加率(0.5%)の強いベースラインに対して, SAD測定値の14%の相対的な改善を達成していることがわかった。 最先端のマッティングネットワークと比較すると、モデルの複雑さはたった40%で8%高いパフォーマンスを実現しています。

We show that learning affinity in upsampling provides an effective and efficient approach to exploit pairwise interactions in deep networks. Second-order features are commonly used in dense prediction to build adjacent relations with a learnable module after upsampling such as non-local blocks. Since upsampling is essential, learning affinity in upsampling can avoid additional propagation layers, offering the potential for building compact models. By looking at existing upsampling operators from a unified mathematical perspective, we generalize them into a second-order form and introduce Affinity-Aware Upsampling (A2U) where upsampling kernels are generated using a light-weight lowrank bilinear model and are conditioned on second-order features. Our upsampling operator can also be extended to downsampling. We discuss alternative implementations of A2U and verify their effectiveness on two detail-sensitive tasks: image reconstruction on a toy dataset; and a largescale image matting task where affinity-based ideas constitute mainstream matting approaches. In particular, results on the Composition-1k matting dataset show that A2U achieves a 14% relative improvement in the SAD metric against a strong baseline with negligible increase of parameters (<0.5%). Compared with the state-of-the-art matting network, we achieve 8% higher performance with only 40% model complexity.
翻訳日:2021-06-07 09:04:29 公開日:2020-11-29
# BSNet: きめ細かい画像分類のための二相性ネットワーク

BSNet: Bi-Similarity Network for Few-shot Fine-grained Image Classification ( http://arxiv.org/abs/2011.14311v1 )

ライセンス: Link先を確認
Xiaoxu Li, Jijie Wu, Zhuo Sun, Zhanyu Ma, Jie Cao, Jing-Hao Xue(参考訳) 微粒化画像分類のための画像学習はコンピュータビジョンにおいて近年注目されている。 単純さと有効性のため、最小ショット学習のアプローチの中で、メトリックベースのメソッドは多くのタスクにおいて最先端の手法である。 計量に基づく手法の多くは単一の類似度尺度を仮定し、単一の特徴空間を得る。 しかし、もしサンプルを2つの異なる類似度尺度で同時に分類できるなら、クラス内のサンプルはより小さな特徴空間でよりコンパクトに分布し、より識別的な特徴写像を生成することができる。 そこで本研究では, 単一の埋め込みモジュールと2つの類似度尺度を持つ双類似性モジュールからなるいわゆる \textit{Bi-Similarity Network} (\textit{BSNet}) を提案する。 サポート画像とクエリ画像が畳み込みベースの埋め込みモジュールを通過した後、双方向モジュールは、多様な特徴の2つの類似度尺度に従って特徴マップを学習する。 このようにして、このモデルは、微粒画像のわずかなショットからより識別的で類似度の低い特徴を学習することができ、モデル一般化能力を大幅に改善することができる。 確立されたメトリック/類似性ベースのネットワークを少し変更することで、広範囲な実験を通じて、提案手法がいくつかのきめ細かな画像ベンチマークデータセットに対して大幅に改善することを示す。 https://github.com/spraise/bsnet

Few-shot learning for fine-grained image classification has gained recent attention in computer vision. Among the approaches for few-shot learning, due to the simplicity and effectiveness, metric-based methods are favorably state-of-the-art on many tasks. Most of the metric-based methods assume a single similarity measure and thus obtain a single feature space. However, if samples can simultaneously be well classified via two distinct similarity measures, the samples within a class can distribute more compactly in a smaller feature space, producing more discriminative feature maps. Motivated by this, we propose a so-called \textit{Bi-Similarity Network} (\textit{BSNet}) that consists of a single embedding module and a bi-similarity module of two similarity measures. After the support images and the query images pass through the convolution-based embedding module, the bi-similarity module learns feature maps according to two similarity measures of diverse characteristics. In this way, the model is enabled to learn more discriminative and less similarity-biased features from few shots of fine-grained images, such that the model generalization ability can be significantly improved. Through extensive experiments by slightly modifying established metric/similarity based networks, we show that the proposed approach produces a substantial improvement on several fine-grained image benchmark datasets. Codes are available at: https://github.com/spraise/BSNet
翻訳日:2021-06-07 09:03:26 公開日:2020-11-29
# 深層ニューラルネットワークのためのファジブル残差畳み込みブロックによる層破砕

Layer Pruning via Fusible Residual Convolutional Block for Deep Neural Networks ( http://arxiv.org/abs/2011.14356v1 )

ライセンス: Link先を確認
Pengtao Xu, Jian Cao, Fanhua Shang, Wenyu Sun, Pu Li(参考訳) リソース制限されたデバイスにディープ畳み込みニューラルネットワーク(CNN)をデプロイするために、フィルタと重み付けのための多くのモデルプルーニング法が開発され、レイヤープルーニングはごくわずかである。 しかし,フィルタプルーニングやウェイトプルーニングと比較して,レイヤプルーニングによって得られるコンパクトモデルは,同じFLOPとパラメータ数がメモリ内での移動が少ないため,推論時間や実行時のメモリ使用量が少なくなる。 本稿では,学習可能な情報制御パラメータとのショートカット接続を単一畳み込み層に挿入して実装した,可溶性残差畳み込みブロック(ResConv)を用いた単純な層切断法を提案する。 ResConv構造をトレーニングに使用すると、ネットワークの精度が向上し、ディーププレーンネットワークのトレーニングが可能になる。 レイヤプルーニングでは,ネットワークの畳み込み層をレイヤスケーリング係数でresconvに変換する。 トレーニング工程では、L1正則化を採用してスケーリング係数を小さくし、重要でない層を自動的に識別して除去し、その結果、層縮小のモデルとなる。 本手法は, 異なるデータセット上での圧縮と加速の優れた性能を実現し, 低プルーニング率の場合の再学習は不要である。 例えば、ResNet-110では、パラメータの55.5%を除去することで65.5%のFLOPを削減でき、CIFAR-10でトップ1の精度が0.13%しか失われていない。

In order to deploy deep convolutional neural networks (CNNs) on resource-limited devices, many model pruning methods for filters and weights have been developed, while only a few to layer pruning. However, compared with filter pruning and weight pruning, the compact model obtained by layer pruning has less inference time and run-time memory usage when the same FLOPs and number of parameters are pruned because of less data moving in memory. In this paper, we propose a simple layer pruning method using fusible residual convolutional block (ResConv), which is implemented by inserting shortcut connection with a trainable information control parameter into a single convolutional layer. Using ResConv structures in training can improve network accuracy and train deep plain networks, and adds no additional computation during inference process because ResConv is fused to be an ordinary convolutional layer after training. For layer pruning, we convert convolutional layers of network into ResConv with a layer scaling factor. In the training process, the L1 regularization is adopted to make the scaling factors sparse, so that unimportant layers are automatically identified and then removed, resulting in a model of layer reduction. Our pruning method achieves excellent performance of compression and acceleration over the state-of-the-arts on different datasets, and needs no retraining in the case of low pruning rate. For example, with ResNet-110, we achieve a 65.5%-FLOPs reduction by removing 55.5% of the parameters, with only a small loss of 0.13% in top-1 accuracy on CIFAR-10.
翻訳日:2021-06-07 09:03:02 公開日:2020-11-29
# 大規模3次元シーン理解のための深部3次元空間符号化の探索

Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene Understanding ( http://arxiv.org/abs/2011.14358v1 )

ライセンス: Link先を確認
Saqib Ali Khan, Yilei Shi, Muhammad Shahzad, Xiao Xiang Zhu(参考訳) 生の3D点雲のセマンティックセグメンテーションは3Dシーン解析において重要な要素であるが、主に3D点雲の非ユークリッド性のためにいくつかの課題が生じる。 しかし、そのほとんどが従来の畳み込みニューラルネットワーク(cnn)からの潜在的(グローバル)特徴表現を使うことに重点を置いており、空間情報の深刻な損失をもたらし、それによって基盤となる3dオブジェクトの形状のモデル化に失敗し、3dシーンのリモートセンシングにおいて重要な役割を果たす。 本稿では,生の3次元点雲の空間的特徴を非向対称グラフモデルにエンコードすることにより,cnnに基づくアプローチの限界を克服するための代替手法を提案する。 これらのエンコーディングは、従来のCNNから抽出された高次元特徴ベクトルと結合して、必要な3次元分割マップを出力する局所グラフ畳み込み演算子となる。 2つの標準ベンチマークデータセット(屋外空中リモートセンシングデータセットと屋内合成データセットを含む)について実験を行った。 提案手法は,訓練時間とモデルの安定性を向上し,同等の精度を実現し,3次元シーン理解のための一般化された最先端手法へのさらなる研究の可能性を示唆する。

Semantic segmentation of raw 3D point clouds is an essential component in 3D scene analysis, but it poses several challenges, primarily due to the non-Euclidean nature of 3D point clouds. Although, several deep learning based approaches have been proposed to address this task, but almost all of them emphasized on using the latent (global) feature representations from traditional convolutional neural networks (CNN), resulting in severe loss of spatial information, thus failing to model the geometry of the underlying 3D objects, that plays an important role in remote sensing 3D scenes. In this letter, we have proposed an alternative approach to overcome the limitations of CNN based approaches by encoding the spatial features of raw 3D point clouds into undirected symmetrical graph models. These encodings are then combined with a high-dimensional feature vector extracted from a traditional CNN into a localized graph convolution operator that outputs the required 3D segmentation map. We have performed experiments on two standard benchmark datasets (including an outdoor aerial remote sensing dataset and an indoor synthetic dataset). The proposed method achieves on par state-of-the-art accuracy with improved training time and model stability thus indicating strong potential for further research towards a generalized state-of-the-art method for 3D scene understanding.
翻訳日:2021-06-07 09:02:32 公開日:2020-11-29
# 肺CTの学習画像登録におけるボリューム変化の抑制

Constraining Volume Change in Learned Image Registration for Lung CTs ( http://arxiv.org/abs/2011.14372v1 )

ライセンス: Link先を確認
Alessa Hering, Stephanie H\"ager, Jan Moltz, Nikolas Lessmann, Stefan Heldmann and Bram van Ginneken(参考訳) ディープラーニングに基づく登録手法は,従来の登録方式の高速代替として出現した。 しかし、これらの手法は、小さな変形に制限されたり、大きな変形や小さな変形の重ね合わせに対処できず、内部に折りたたみのある目立たない変形場を生じさせることなく、従来の登録法と同等の性能を達成できないことが多い。 本稿では,従来の肺登録法の重要な戦略を特定し,深層学習法の開発に成功した。 我々は,gaussian-pyramid-based multilevel frameworkを用いて画像登録の最適化を粗い方法で解決する。 さらに, 変形場の折り畳みを防止し, 損失関数における体積変化ペナルティと曲率調整器を組み合わせることにより, ヤコビアンを生理的に有意義な値に限定する。 キーポイント対応は、より小さな構造のアライメントに集中するために統合される。 我々は, 登録手法の精度, 頑健性, 推定変形場の可能性, 移動性を評価するため, 広範囲な評価を行った。 本研究は, COPDGeneデータセット上で, 従来の登録方式と比較して, より短い実行時間で, 結果のアーカイブを行うことを示す。

Deep-learning-based registration methods emerged as a fast alternative to conventional registration methods. However, these methods often still cannot achieve the same performance as conventional registration methods, because they are either limited to small deformation or they fail to handle a superposition of large and small deformations without producing implausible deformation fields with foldings inside. In this paper, we identify important strategies of conventional registration methods for lung registration and successfully developed the deep-learning counterpart. We employ a Gaussian-pyramid-based multilevel framework that can solve the image registration optimization in a coarse-to-fine fashion. Furthermore, we prevent foldings of the deformation field and restrict the determinant of the Jacobian to physiologically meaningful values by combining a volume change penalty with a curvature regularizer in the loss function. Keypoint correspondences are integrated to focus on the alignment of smaller structures. We perform an extensive evaluation to assess the accuracy, the robustness, the plausibility of the estimated deformation fields, and the transferability of our registration approach. We show that it archives state-of-the-art results on the COPDGene dataset compared to the challenge winning conventional registration method with much shorter execution time.
翻訳日:2021-06-07 09:02:11 公開日:2020-11-29
# 文書画像の内在的分解

Intrinsic Decomposition of Document Images In-the-Wild ( http://arxiv.org/abs/2011.14447v1 )

ライセンス: Link先を確認
Sagnik Das, Hassan Ahmed Sial, Ke Ma, Ramon Baldrich, Maria Vanrell, Dimitris Samaras(参考訳) 自動文書コンテンツ処理は、紙の形状、不均一で多様な照明条件によって引き起こされるアーティファクトに影響される。 実データ上の完全な教師付きメソッドは、大量のデータを必要とするため不可能である。 したがって、アートディープラーニングモデルの現状は、完全にあるいは部分的に合成された画像で訓練される。 しかし、文書陰影やシェーディング除去の結果は、 (a) 従来の手法は局所的な色統計の均一性に依存しており、これは、複雑な文書形状とテクスチャを持つ実シナリオへの適用を制限するものであり、 (b) 非現実的でシミュレートされた照明条件を持つ合成またはハイブリッドデータセットは、モデルを訓練するために使用される。 本稿では,これらの課題を2つの大きな貢献で解決する。 第1に,本質的画像形成に基づく文書反射率を直接推定し,照明条件の課題に一般化する,物理的制約のある学習に基づく手法である。 第2に、さまざまな現実的なシェーディングと多様な多照度条件を追加して、従来の合成データを明確に改善する新しいデータセット。 提案アーキテクチャは, 合成テクスチャのみを弱い訓練信号として使用する自己教師型方式で機能する(シェーディングと反射の非絡み合いバージョンによる, 非常にコストのかかる真実の必要性を回避)。 提案手法は,現実のシーンにおける文書反射率推定の顕著な一般化につながる。 本研究は,本質的な画像分解および文書陰影除去作業に利用可能な実ベンチマークデータセットを広範囲に評価する。 ocrパイプラインの前処理ステップとして使用する際の反射率推定手法では,文字誤り率(cer)が26%向上し,実用性が実証された。

Automatic document content processing is affected by artifacts caused by the shape of the paper, non-uniform and diverse color of lighting conditions. Fully-supervised methods on real data are impossible due to the large amount of data needed. Hence, the current state of the art deep learning models are trained on fully or partially synthetic images. However, document shadow or shading removal results still suffer because: (a) prior methods rely on uniformity of local color statistics, which limit their application on real-scenarios with complex document shapes and textures and; (b) synthetic or hybrid datasets with non-realistic, simulated lighting conditions are used to train the models. In this paper we tackle these problems with our two main contributions. First, a physically constrained learning-based method that directly estimates document reflectance based on intrinsic image formation which generalizes to challenging illumination conditions. Second, a new dataset that clearly improves previous synthetic ones, by adding a large range of realistic shading and diverse multi-illuminant conditions, uniquely customized to deal with documents in-the-wild. The proposed architecture works in a self-supervised manner where only the synthetic texture is used as a weak training signal (obviating the need for very costly ground truth with disentangled versions of shading and reflectance). The proposed approach leads to a significant generalization of document reflectance estimation in real scenes with challenging illumination. We extensively evaluate on the real benchmark datasets available for intrinsic image decomposition and document shadow removal tasks. Our reflectance estimation scheme, when used as a pre-processing step of an OCR pipeline, shows a 26% improvement of character error rate (CER), thus, proving the practical applicability.
翻訳日:2021-06-07 09:01:33 公開日:2020-11-29
# カテゴリ簡易キーポイント検出の条件付きリンク予測

Conditional Link Prediction of Category-Implicit Keypoint Detection ( http://arxiv.org/abs/2011.14462v1 )

ライセンス: Link先を確認
Ellen Yi-Ge, Rui Fan, Zechun Liu, Zhiqiang Shen(参考訳) オブジェクトのキーポイントはその簡潔な抽象化を反映し、対応する接続リンク(CL)はキーポイント間の固有の関係を検出してスケルトンを構築する。 既存のアプローチは典型的には計算集約的であり、複数のクラスに属するインスタンスには適用できない。 上記の課題に対処するため,マルチクラスインスタンスの同時意味的キーポイント検出とCL再生のための最初のアプローチである,エンドツーエンドのキーポイントとリンク予測ネットワーク(KLPNet)を提案する。 KLPNetでは、予め定義されたカテゴリに付随するキーポイント間のリンク予測のために、新しい条件付きリンク予測グラフを提案する。 さらに、粗いキーポイントローカライゼーションのための特徴集約を探索するために、CKLM(Cross-stage Keypoint Localization Module)を導入する。 3つの公開ベンチマークで実施された総合的な実験は、我々のKLPNetが他の最先端のアプローチよりも一貫して優れていることを示している。 さらに, CL予測実験の結果から, 閉塞問題に対するKLPNetの有効性が示された。

Keypoints of objects reflect their concise abstractions, while the corresponding connection links (CL) build the skeleton by detecting the intrinsic relations between keypoints. Existing approaches are typically computationally-intensive, inapplicable for instances belonging to multiple classes, and/or infeasible to simultaneously encode connection information. To address the aforementioned issues, we propose an end-to-end category-implicit Keypoint and Link Prediction Network (KLPNet), which is the first approach for simultaneous semantic keypoint detection (for multi-class instances) and CL rejuvenation. In our KLPNet, a novel Conditional Link Prediction Graph is proposed for link prediction among keypoints that are contingent on a predefined category. Furthermore, a Cross-stage Keypoint Localization Module (CKLM) is introduced to explore feature aggregation for coarse-to-fine keypoint localization. Comprehensive experiments conducted on three publicly available benchmarks demonstrate that our KLPNet consistently outperforms all other state-of-the-art approaches. Furthermore, the experimental results of CL prediction also show the effectiveness of our KLPNet with respect to occlusion problems.
翻訳日:2021-06-07 09:00:35 公開日:2020-11-29
# ラベルシフト下の領域適応における重み付け量の推定と一般化

Importance Weight Estimation and Generalization in Domain Adaptation under Label Shift ( http://arxiv.org/abs/2011.14251v1 )

ライセンス: Link先を確認
Kamyar Azizzadenesheli(参考訳) 本研究では,学習者が対象領域からラベル付きサンプルにアクセス可能な領域適応におけるラベルシフトの下での一般化について検討する。 以前の作業ではラベル分類器をデプロイし、ソースからターゲットドメインへの重み付けを見積もるために様々な方法を導入する。 彼らはこれらの推定値を重み付けされた経験的リスク最小化で分類器を学習する。 本研究では,従来の手法を理論的に比較し,その強い仮定を緩和し,ラベル分類器から一般関数へ一般化する。 この後者の一般化は、フォワード作用素のスペクトルをより広く活用することで、誘導された逆問題に対する逆作用素の条件付けを改善する。 ラベルシフトの研究における先行研究は分類ラベル空間に限られている。 本研究では,任意のノルムラベル空間に対する重み関数の重要性を推定する一連の手法を提案する。 ラベル上で定義される(共変量ではなく)ヒルベルト空間間の新しい作用素学習手法を導入し、コンパクト作用素の摂動逆問題を引き起こすことを示す。 摂動の存在下で逆問題を解くための新しい手法を提案する。 このような問題は偏微分方程式や強化学習でよく発生するため、この解析は独自の関心を持っている。 圏と一般ノルム空間の両方に対して、提案された推定量に対して濃度境界を与える。 Rademacher複雑性に基づく既存の一般化解析、R'enyi divergence、MDFR lemma in Azizzadenesheli et al。 [2019]では、重要度重み付けされた実験的リスク最小化の一般化特性を示す。

We study generalization under label shift in domain adaptation where the learner has access to labeled samples from the source domain but unlabeled samples from the target domain. Prior works deploy label classifiers and introduce various methods to estimate the importance weights from source to target domains. They use these estimates in importance weighted empirical risk minimization to learn classifiers. In this work, we theoretically compare the prior approaches, relax their strong assumptions, and generalize them from requiring label classifiers to general functions. This latter generalization improves the conditioning on the inverse operator of the induced inverse problems by allowing for broader exploitation of the spectrum of the forward operator. The prior works in the study of label shifts are limited to categorical label spaces. In this work, we propose a series of methods to estimate the importance weight functions for arbitrary normed label spaces. We introduce a new operator learning approach between Hilbert spaces defined on labels (rather than covariates) and show that it induces a perturbed inverse problem of compact operators. We propose a novel approach to solve the inverse problem in the presence of perturbation. This analysis has its own independent interest since such problems commonly arise in partial differential equations and reinforcement learning. For both categorical and general normed spaces, we provide concentration bounds for the proposed estimators. Using the existing generalization analysis based on Rademacher complexity, R\'enyi divergence, and MDFR lemma in Azizzadenesheli et al. [2019], we show the generalization property of the importance weighted empirical risk minimization on the unseen target domain.
翻訳日:2021-06-07 09:00:17 公開日:2020-11-29
# 複数学習回帰モデルのためのアクティブアウトプット選択戦略

Active Output Selection Strategies for Multiple Learning Regression Models ( http://arxiv.org/abs/2011.14307v1 )

ライセンス: Link先を確認
Adrian Prochaska and Julien Pillas and Bernard B\"aker(参考訳) アクティブラーニングはモデルベースドレイバビリティキャリブレーションにおけるテストベンチ時間の短縮を約束している。 本稿では,キャリブレーションタスクのニーズに合わせて,アクティブな出力選択のための新しい戦略を提案する。 戦略は同じ入力空間で複数の出力を積極的に学習する。 高いクロスバリデーションエラーをリードとして出力モデルを選択する。 提案手法は,実世界範囲のノイズを伴う3つの異なる玩具例と,ベンチマークデータセットに適用する。 結果は分析され、他の既存の戦略と比較される。 最良のシナリオでは、提示された戦略は、他の既存のアクティブな学習戦略を上回りながら、逐次的な空間充足設計と比較してポイント数を最大30%削減することができる。 結果は有望だが,雑音環境に対するロバスト性を高めるためにはアルゴリズムの改善が必要であることも示している。 さらなる研究は、アルゴリズムの改善と現実世界の例に適用に焦点をあてる。

Active learning shows promise to decrease test bench time for model-based drivability calibration. This paper presents a new strategy for active output selection, which suits the needs of calibration tasks. The strategy is actively learning multiple outputs in the same input space. It chooses the output model with the highest cross-validation error as leading. The presented method is applied to three different toy examples with noise in a real world range and to a benchmark dataset. The results are analyzed and compared to other existing strategies. In a best case scenario, the presented strategy is able to decrease the number of points by up to 30% compared to a sequential space-filling design while outperforming other existing active learning strategies. The results are promising but also show that the algorithm has to be improved to increase robustness for noisy environments. Further research will focus on improving the algorithm and applying it to a real-world example.
翻訳日:2021-06-07 08:59:51 公開日:2020-11-29
# 複数行動ポリシーを用いたオフポリシィ評価のための最適混合重量

Optimal Mixture Weights for Off-Policy Evaluation with Multiple Behavior Policies ( http://arxiv.org/abs/2011.14359v1 )

ライセンス: Link先を確認
Jinlin Lai, Lixin Zou, Jiaxing Song(参考訳) オフポリシー評価は、行動ポリシーから収集したオフラインデータを用いてターゲットポリシーを評価する強化学習の重要な要素である。 安全強化学習への重要なステップであり、広告やレコメンデーションシステムなど、多くのアプリケーションで使用されている。 これらのアプリケーションでは、オフラインデータは複数の行動ポリシーから収集されることがある。 以前の研究では、異なる行動ポリシーからのデータを等しく扱う。 それでも、いくつかの行動方針は優れた推定器を作り出すのに優れているが、他の政策はそうではない。 本稿では,行動ポリシーの異なる推定器を正しく混合する方法について論じる。 我々は,すべてのサブ推定器が偏りのない場合や漸近的に偏りのない場合,混合推定器の分散を減少させる3つの方法を提案する。 さらに,シミュレーションリコメンデータシステムを用いた実験により,提案手法は推定平均二乗誤差の低減に有効であることが示された。

Off-policy evaluation is a key component of reinforcement learning which evaluates a target policy with offline data collected from behavior policies. It is a crucial step towards safe reinforcement learning and has been used in advertisement, recommender systems and many other applications. In these applications, sometimes the offline data is collected from multiple behavior policies. Previous works regard data from different behavior policies equally. Nevertheless, some behavior policies are better at producing good estimators while others are not. This paper starts with discussing how to correctly mix estimators produced by different behavior policies. We propose three ways to reduce the variance of the mixture estimator when all sub-estimators are unbiased or asymptotically unbiased. Furthermore, experiments on simulated recommender systems show that our methods are effective in reducing the Mean-Square Error of estimation.
翻訳日:2021-06-07 08:59:38 公開日:2020-11-29
# リカレントニューラルネットワークによる局所ロカスト群分布の予測

Predicting Regional Locust Swarm Distribution with Recurrent Neural Networks ( http://arxiv.org/abs/2011.14371v1 )

ライセンス: Link先を確認
Hadia Mohmmed Osman Ahmed Samil, Annabelle Martin, Arnav Kumar Jain, Susan Amin and Samira Ebrahimi Kahou(参考訳) アフリカ、アジア、中東を含む世界の一部の地域での流行は、何百万人もの人々の健康と生活に影響を与える可能性がある問題となっている。 この点に関して、衛星やセンサーを用いたロカスト繁殖領域の検出とモニタリング、あるいは群れの形成を防ぐための化学物質の使用により、この問題の深刻さを解消または軽減する試みがある。 しかし,このような手法はロカストの出現や集団行動を抑えることはできなかった。 一方、形成前にロカスト群の位置を予測できる能力は、人々がより効果的に感染の問題を準備し対処するのに役立ちます。 ここでは、国連食糧農業機関が公表した利用可能なデータを用いて、機械学習を用いてロカスト群の位置を予測する。 データは、観測された群れの位置と、土壌の水分や植生の密度を含む環境情報を含んでいる。 得られた結果から,提案モデルでは,ロカスト群の位置を精度良く予測できるだけでなく,密度の概念による損傷の程度も予測できることがわかった。

Locust infestation of some regions in the world, including Africa, Asia and Middle East has become a concerning issue that can affect the health and the lives of millions of people. In this respect, there have been attempts to resolve or reduce the severity of this problem via detection and monitoring of locust breeding areas using satellites and sensors, or the use of chemicals to prevent the formation of swarms. However, such methods have not been able to suppress the emergence and the collective behaviour of locusts. The ability to predict the location of the locust swarms prior to their formation, on the other hand, can help people get prepared and tackle the infestation issue more effectively. Here, we use machine learning to predict the location of locust swarms using the available data published by the Food and Agriculture Organization of the United Nations. The data includes the location of the observed swarms as well as environmental information, including soil moisture and the density of vegetation. The obtained results show that our proposed model can successfully, and with reasonable precision, predict the location of locust swarms, as well as their likely level of damage using a notion of density.
翻訳日:2021-06-07 08:59:26 公開日:2020-11-29
# オフライン強化学習ハンズオン

Offline Reinforcement Learning Hands-On ( http://arxiv.org/abs/2011.14379v1 )

ライセンス: Link先を確認
Louis Monier, Jakub Kmec, Alexandre Laterre, Thomas Pierrot, Valentin Courgeau, Olivier Sigaud and Karim Beguir(参考訳) オフライン強化学習(RL)は、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。 この大きな約束は、RLがシミュレーション設定で経験した成功を再現したいと考えている多くの研究の動機となった。 この仕事は、実践者の視点からこれらの取り組みを反映する野心がある。 まず、最も成功したオフラインメソッドのタイプを特徴付けることができると仮定するデータセットプロパティについて議論する。 次に、これらの主張を一連の実験を通して検証し、離散的かつ連続的なアクション空間を持つ環境から生成されたデータセットを設計する。 データの多様性と高復帰例がオフラインRLの成功に不可欠であることを実験的に検証し、現在よりも行動的クローンが強力な競合相手であることを示す。 全体として、この作業は、今日のオフラインのRLメソッドとその適用性に関する直感の構築を支援するためのチュートリアルである。

Offline Reinforcement Learning (RL) aims to turn large datasets into powerful decision-making engines without any online interactions with the environment. This great promise has motivated a large amount of research that hopes to replicate the success RL has experienced in simulation settings. This work ambitions to reflect upon these efforts from a practitioner viewpoint. We start by discussing the dataset properties that we hypothesise can characterise the type of offline methods that will be the most successful. We then verify these claims through a set of experiments and designed datasets generated from environments with both discrete and continuous action spaces. We experimentally validate that diversity and high-return examples in the data are crucial to the success of offline RL and show that behavioural cloning remains a strong contender compared to its contemporaries. Overall, this work stands as a tutorial to help people build their intuition on today's offline RL methods and their applicability.
翻訳日:2021-06-07 08:59:05 公開日:2020-11-29
# オブジェクト中心表現を用いた自己教師付き視覚強化学習

Self-supervised Visual Reinforcement Learning with Object-centric Representations ( http://arxiv.org/abs/2011.14381v1 )

ライセンス: Link先を確認
Andrii Zadaianchuk, Maximilian Seitzer, Georg Martius(参考訳) 自律エージェントは、これまで見たことのない新しいタスクで合理的に振る舞うために、大きなスキルのレパートリーを必要とします。 しかし、これらのスキルは、高次元、非構造、ラベルなしの観察ストリームのみを使用して取得することは、自律エージェントにとって難しい課題である。 以前の手法では変分オートエンコーダを使用してシーンを低次元ベクトルに符号化し、エージェントが新しいスキルを発見するための目標として使用できる。 それでも、構成的/多重対象環境においては、すべての要因をシーン全体の固定長表現に分解することは困難である。 合成生成世界モデルを用いて学習したモジュラー・構造化された観測空間としてオブジェクト中心表現を用いることを提案する。 目標条件付注意政策と組み合わせた表現の構造は,自律エージェントが有用なスキルを発見し,学習するのに役立つことを示す。 これらのスキルは、いくつかの異なるオブジェクトの操作のような構成的なタスクにさらに組み合わせることができる。

Autonomous agents need large repertoires of skills to act reasonably on new tasks that they have not seen before. However, acquiring these skills using only a stream of high-dimensional, unstructured, and unlabeled observations is a tricky challenge for any autonomous agent. Previous methods have used variational autoencoders to encode a scene into a low-dimensional vector that can be used as a goal for an agent to discover new skills. Nevertheless, in compositional/multi-object environments it is difficult to disentangle all the factors of variation into such a fixed-length representation of the whole scene. We propose to use object-centric representations as a modular and structured observation space, which is learned with a compositional generative world model. We show that the structure in the representations in combination with goal-conditioned attention policies helps the autonomous agent to discover and learn useful skills. These skills can be further combined to address compositional tasks like the manipulation of several different objects.
翻訳日:2021-06-07 08:58:52 公開日:2020-11-29
# 新型コロナウイルスの自動検出のための胸部X線画像に人工知能を適用する。 思慮深い評価アプローチ

Artificial Intelligence applied to chest X-Ray images for the automatic detection of COVID-19. A thoughtful evaluation approach ( http://arxiv.org/abs/2011.14259v1 )

ライセンス: Link先を確認
Julian D. Arias-Londo\~no, Jorge A. Gomez-Garcia, Laureano Moro-Velazquez, Juan I. Godino-Llorente(参考訳) 新型コロナウイルスの診断に使用される現在の標準プロトコルには、分子または抗原検査が含まれており、通常は平たい胸部X線で補完される。 この組み合わせ分析は、これらの検査のかなりの数の偽陰性を減らし、また疾患の存在と重症度に関する補完的な証拠を提供することを目的としている。 しかし、この手順には誤りはなく、胸部x線解釈はその複雑さのため、放射線科医にのみ制限されている。 本稿では,この診断の新たなエビデンスを提供するための長期的目標として,深層ニューラルネットワークに基づく異なる手法の評価を提案する。 これらは、胸部x線画像を用いた新型コロナウイルスの自動診断ツールを開発する最初のステップであり、コントロール、肺炎、およびcovid-19グループを区別する。 論文は、さまざまなソースからコンパイルされた79,500以上のx線画像のデータセットで畳み込みニューラルネットワークをトレーニングするためのプロセスについて説明している。 モデルの評価と比較のために、3つの前処理方式で3つの異なる実験を行った。 目的は、データの事前処理が結果に与える影響を評価し、その説明可能性を改善することである。 同様に、システムと性能への影響を損なう可能性のある様々な変数の問題について、批判的な分析が行われる。 採用法では、91.5%の分類精度が得られ、最低でも最も説明可能な実験は87.4%の平均的リコールで、以前の肺領域の自動分節を必要とする。

Current standard protocols used in the clinic for diagnosing COVID-19 include molecular or antigen tests, generally complemented by a plain chest X-Ray. The combined analysis aims to reduce the significant number of false negatives of these tests, but also to provide complementary evidence about the presence and severity of the disease. However, the procedure is not free of errors, and the interpretation of the chest X-Ray is only restricted to radiologists due to its complexity. With the long term goal to provide new evidence for the diagnosis, this paper presents an evaluation of different methods based on a deep neural network. These are the first steps to develop an automatic COVID-19 diagnosis tool using chest X-Ray images, that would additionally differentiate between controls, pneumonia or COVID-19 groups. The paper describes the process followed to train a Convolutional Neural Network with a dataset of more than 79,500 X-Ray images compiled from different sources, including more than 8,500 COVID-19 examples. For the sake of evaluation and comparison of the models developed, three different experiments were carried out following three preprocessing schemes. The aim is to evaluate how preprocessing the data affects the results and improves its explainability. Likewise, a critical analysis is carried out about different variability issues that might compromise the system and the effects on the performance. With the employed methodology, a 91.5% classification accuracy is obtained, with a 87.4% average recall for the worst but most explainable experiment, which requires a previous automatic segmentation of the lungs region.
翻訳日:2021-06-07 08:58:37 公開日:2020-11-29
# 自己注意を伴う点雲のより深い、より広いネットワーク?

Deeper or Wider Networks of Point Clouds with Self-attention? ( http://arxiv.org/abs/2011.14285v1 )

ライセンス: Link先を確認
Haoxi Ran, Li Lu(参考訳) セルフ・アテンションによる深いネットワークの普及は、未熟なポイントベース手法とは全く対照的である。 本稿では,ネットワーク構築のための基本ブロックとしてグループ的自己意識を提案する: SepNet。 提案モジュールは,ローカルおよびグローバル両方の依存関係を効果的にキャプチャする。 このモジュールは、グループ内の任意の点の重み付けされた特徴の和に基づいて、グループの特徴を計算する。 利便性のため、このモジュールを組み立てるためにグループ操作を一般化する。 ネットワークをさらに促進するため、セグメンテーションと分類のタスクについてSepNetを深く拡張し、その実用性を検証する。 特にsepnetは、ほとんどのデータセットの分類とセグメンテーションのタスクの最先端を実現する。 SepNetは, 幅や深さの増大により, 分類やセグメンテーションの精度が向上することを示す。

Prevalence of deeper networks driven by self-attention is in stark contrast to underexplored point-based methods. In this paper, we propose groupwise self-attention as the basic block to construct our network: SepNet. Our proposed module can effectively capture both local and global dependencies. This module computes the features of a group based on the summation of the weighted features of any point within the group. For convenience, we generalize groupwise operations to assemble this module. To further facilitate our networks, we deepen and widen SepNet on the tasks of segmentation and classification respectively, and verify its practicality. Specifically, SepNet achieves state-of-the-art for the tasks of classification and segmentation on most of the datasets. We show empirical evidence that SepNet can obtain extra accuracy in classification or segmentation from increased width or depth, respectively.
翻訳日:2021-06-07 08:57:50 公開日:2020-11-29
# 衛星画像用スイッチ型ハイブリッドネットワークを用いた単一画像超解像

Single Image Super-resolution with a Switch Guided Hybrid Network for Satellite Images ( http://arxiv.org/abs/2011.14380v1 )

ライセンス: Link先を確認
Shreya Roy, Anirban Chakraborty (Indian Institute of Science, Bangalore)(参考訳) 衛星画像の主な欠点は低解像度であり、低解像度は衛星画像に存在する物体を特定するのを困難にしている。 我々は,spacenetデータセット上で単一画像の超解像が可能な深層モデルをいくつか実験し,衛星画像データにおける各画像の性能評価を行った。 この数年間、SISRの文脈における深層モデルの最近の進化を掘り下げ、これらのモデルの比較研究を示す。 エリアの衛星画像全体は等サイズのパッチに分割される。 各パッチは独立してトレーニングに使用される。 これらのパッチは本質的に異なります。 例えば、都市部のパッチには、車、建物、道路など、さまざまな種類のオブジェクトがあるため、非均質な背景があります。 一方、ジャングル上のパッチは自然界においてより均質である。 したがって、異なるディープモデルが異なる種類のパッチに適合する。 本研究では,スイッチング畳み込みネットワークの助けを借りて,この問題をさらに探究する。 そのアイデアは、パッチを最も適した1つのカテゴリに自動的に分類するスイッチ分類器をトレーニングすることだ。

The major drawbacks with Satellite Images are low resolution, Low resolution makes it difficult to identify the objects present in Satellite images. We have experimented with several deep models available for Single Image Superresolution on the SpaceNet dataset and have evaluated the performance of each of them on the satellite image data. We will dive into the recent evolution of the deep models in the context of SISR over the past few years and will present a comparative study between these models. The entire Satellite image of an area is divided into equal-sized patches. Each patch will be used independently for training. These patches will differ in nature. Say, for example, the patches over urban areas have non-homogeneous backgrounds because of different types of objects like vehicles, buildings, roads, etc. On the other hand, patches over jungles will be more homogeneous in nature. Hence, different deep models will fit on different kinds of patches. In this study, we will try to explore this further with the help of a Switching Convolution Network. The idea is to train a switch classifier that will automatically classify a patch into one category of models best suited for it.
翻訳日:2021-06-07 08:57:11 公開日:2020-11-29
# RGBD-Net:新しいビュー合成のための色と深度画像の予測

RGBD-Net: Predicting color and depth images for novel views synthesis ( http://arxiv.org/abs/2011.14398v1 )

ライセンス: Link先を確認
Phong Nguyen, Animesh Karnewar, Lam Huynh, Esa Rahtu, Jiri Matas, Janne Heikkila(参考訳) 本稿では,非構造化参照画像からの新規ビュー合成の問題に対処する。 rgbd-netと呼ばれる新しい手法により、深度マップとターゲットのカラーイメージをマルチスケールで予測する。 参照ビューはターゲットのポーズにワープされ、マルチスケールの平面スイープボリュームを取得し、その後、新しいビューの深さマップを予測する階層的な深度回帰ネットワークである第1モジュールに渡される。 第二に、深度対応ジェネレータネットワークは、歪んだ新規ビューを洗練し、最終ターゲットイメージをレンダリングする。 これら2つのネットワークは、深度監視の有無に関わらずトレーニングすることができる。 実験評価において,RGBD-Netは従来の最先端手法よりも高品質な新規なビューを生成するだけでなく,得られた深度マップにより,既存のマルチビューステレオ方式よりも高精度な3次元点雲の再構成を可能にする。 その結果、rgbd-netは、未発見のデータに対して十分に一般化していることが示された。

We address the problem of novel view synthesis from an unstructured set of reference images. A new method called RGBD-Net is proposed to predict the depth map and the color images at the target pose in a multi-scale manner. The reference views are warped to the target pose to obtain multi-scale plane sweep volumes, which are then passed to our first module, a hierarchical depth regression network which predicts the depth map of the novel view. Second, a depth-aware generator network refines the warped novel views and renders the final target image. These two networks can be trained with or without depth supervision. In experimental evaluation, RGBD-Net not only produces novel views with higher quality than the previous state-of-the-art methods, but also the obtained depth maps enable reconstruction of more accurate 3D point clouds than the existing multi-view stereo methods. The results indicate that RGBD-Net generalizes well to previously unseen data.
翻訳日:2021-06-07 08:56:56 公開日:2020-11-29
# スマートビデオサーベイランスによるスマートシティにおけるクリティカルインフラストラクチャ保護のための再構成可能なサイバー物理システム

Reconfigurable Cyber-Physical System for Critical Infrastructure Protection in Smart Cities via Smart Video-Surveillance ( http://arxiv.org/abs/2011.14416v1 )

ライセンス: Link先を確認
Juan Isern, Francisco Barranco, Daniel Deniz, Juho Lesonen, Jari Hannuksela, Richard R. Carrillo(参考訳) 自動化された監視は、将来のスマートシティにおけるクリティカルインフラストラクチャ(CI)の保護に不可欠である。 動的環境と帯域幅要求は、関心のあるイベントが発生したときに反応するシステムを要求する。 分散クラウドエッジスマートビデオ監視を用いたCI保護のための再構成可能なサイバー物理システムを提案する。 ローカルエッジノードは、Deep Learningを介して人検出を行います。 処理はハイパフォーマンスなsoc(system-on-chip)に埋め込まれ、リアルタイムのパフォーマンスを実現し(約100fps - フレーム/秒)、より少ないフレームレートでより多くのカメラソースのビデオストリームを効率的に管理できる。 cloud serverは、生体認証、追跡、周囲監視を行うために、ノードから結果を収集する。 Quality and Resource Managementモジュールは、データ帯域幅を監視し、送信されたビデオ解像度に適応した再構成をトリガーする。 これにより、生体認証の精度を維持しつつ、複数のカメラによるネットワークの柔軟な利用が可能になる。 実例では、無再構成シナリオに対する帯域幅使用量の約75\%削減を示す。

Automated surveillance is essential for the protection of Critical Infrastructures (CIs) in future Smart Cities. The dynamic environments and bandwidth requirements demand systems that adapt themselves to react when events of interest occur. We present a reconfigurable Cyber Physical System for the protection of CIs using distributed cloud-edge smart video surveillance. Our local edge nodes perform people detection via Deep Learning. Processing is embedded in high performance SoCs (System-on-Chip) achieving real-time performance ($\approx$ 100 fps - frames per second) which enables efficiently managing video streams of more cameras source at lower frame rate. Cloud server gathers results from nodes to carry out biometric facial identification, tracking, and perimeter monitoring. A Quality and Resource Management module monitors data bandwidth and triggers reconfiguration adapting the transmitted video resolution. This also enables a flexible use of the network by multiple cameras while maintaining the accuracy of biometric identification. A real-world example shows a reduction of $\approx$ 75\% bandwidth use with respect to the no-reconfiguration scenario.
翻訳日:2021-06-07 08:56:38 公開日:2020-11-29
# 医用画像生成によるデータ共有の障壁を克服する:包括的評価

Overcoming Barriers to Data Sharing with Medical Image Generation: A Comprehensive Evaluation ( http://arxiv.org/abs/2012.03769v1 )

ライセンス: Link先を確認
August DuMont Sch\"utte, J\"urgen Hetzel, Sergios Gatidis, Tobias Hepp, Benedikt Dietz, Stefan Bauer and Patrick Schwab(参考訳) 個人識別可能な情報の共有に関するプライバシー上の懸念は、医学研究におけるデータ共有の大きな障壁である。 しかし、多くの場合、研究者は特定の個人の情報に興味がなく、むしろコホートレベルでの洞察を導き出そうとしている。 本稿では、GAN(Generative Adversarial Networks)を用いて、合成患者データからなる医用画像データセットを作成する。 合成画像は、理想的には、ソースデータセットと類似した統計特性を持つが、機密性の高い個人情報は含まない。 胸部x線写真における2種類のganモデルによる合成データの品質について検討し,14種類の放射線画像と6種類の頭蓋内出血を伴う脳ctスキャンについて検討した。 合成データと実データの両方で訓練された予測モデルの性能差から合成画像品質を測定する。 合成データの性能は,一意のラベルの組み合わせを減らし,クラスごとの過剰適合効果がGANトレーニングに支配的になるかどうかを判断する。 オープンソースベンチマークの結果は、合成データ生成が空間分解能の高レベルから恩恵を受けることを示唆している。 また,データモダリティを統計的に有意な範囲で合成画像と実際の医用画像の判別において,訓練された放射線技師がランダムに評価しない読者調査を行った。 本研究は, 医用画像から得られた洞察が, 実際の画像データから得られたものと類似しているという実践的条件を概説し, 有用なガイドラインを提供する。 以上の結果から, 人工的データ共有は, 患者レベルのデータを適切な設定で共有するよりも, 魅力的かつプライバシ保護的な手段である可能性が示唆された。

Privacy concerns around sharing personally identifiable information are a major practical barrier to data sharing in medical research. However, in many cases, researchers have no interest in a particular individual's information but rather aim to derive insights at the level of cohorts. Here, we utilize Generative Adversarial Networks (GANs) to create derived medical imaging datasets consisting entirely of synthetic patient data. The synthetic images ideally have, in aggregate, similar statistical properties to those of a source dataset but do not contain sensitive personal information. We assess the quality of synthetic data generated by two GAN models for chest radiographs with 14 different radiology findings and brain computed tomography (CT) scans with six types of intracranial hemorrhages. We measure the synthetic image quality by the performance difference of predictive models trained on either the synthetic or the real dataset. We find that synthetic data performance disproportionately benefits from a reduced number of unique label combinations and determine at what number of samples per class overfitting effects start to dominate GAN training. Our open-source benchmark findings also indicate that synthetic data generation can benefit from higher levels of spatial resolution. We additionally conducted a reader study in which trained radiologists do not perform better than random on discriminating between synthetic and real medical images for both data modalities to a statistically significant extent. Our study offers valuable guidelines and outlines practical conditions under which insights derived from synthetic medical images are similar to those that would have been derived from real imaging data. Our results indicate that synthetic data sharing may be an attractive and privacy-preserving alternative to sharing real patient-level data in the right settings.
翻訳日:2021-06-07 08:56:23 公開日:2020-11-29
# グラフ畳み込みネットワークにおける汎用的攻撃

A Targeted Universal Attack on Graph Convolutional Network ( http://arxiv.org/abs/2011.14365v1 )

ライセンス: Link先を確認
Jiazhu Dai, Weifeng Zhu, Xiangfeng Luo(参考訳) グラフ構造化データは、現実の多くのアプリケーションに存在する。 最先端のグラフニューラルネットワークとして、グラフ畳み込みネットワーク(GCN)は、グラフ構造化データの処理において重要な役割を果たす。 しかし、最近の研究では、GCNは敵の攻撃にも弱いことが報告されており、これはGCNモデルがデータに目立たない変更を加えると悪意のある攻撃を受ける可能性があることを意味している。 gcnに対するすべての敵の攻撃の中で、universal adversarial attackと呼ばれる特殊な攻撃方法があり、任意のサンプルに適用可能な摂動を生成し、gcnモデルが不正確な結果を出力する。 コンピュータビジョンにおける普遍的敵攻撃は広く研究されているが、グラフ構造データに対する普遍的敵攻撃に関する研究は少ない。 本稿では,GCNに対する汎用的攻撃を提案する。 本手法は攻撃ノードとしていくつかのノードを用いる。 攻撃ノードの攻撃能力は、接続された少数の偽ノードを通じて強化される。 攻撃中、任意の犠牲者ノードは、GCNによってそれらにリンクされている限り、攻撃ノードクラスとして誤って分類される。 3つの一般的なデータセットに対する実験では、3つの攻撃ノードと6つの偽ノードのみを使用すると、グラフ内の任意の犠牲者ノードに対する攻撃が平均83%に達することが示されている。 我々は、このタイプの攻撃の脅威をコミュニティに認識させ、将来の防衛に向けられた注意を喚起することを期待している。

Graph-structured data exist in numerous applications in real life. As a state-of-the-art graph neural network, the graph convolutional network (GCN) plays an important role in processing graph-structured data. However, a recent study reported that GCNs are also vulnerable to adversarial attacks, which means that GCN models may suffer malicious attacks with unnoticeable modifications of the data. Among all the adversarial attacks on GCNs, there is a special kind of attack method called the universal adversarial attack, which generates a perturbation that can be applied to any sample and causes GCN models to output incorrect results. Although universal adversarial attacks in computer vision have been extensively researched, there are few research works on universal adversarial attacks on graph structured data. In this paper, we propose a targeted universal adversarial attack against GCNs. Our method employs a few nodes as the attack nodes. The attack capability of the attack nodes is enhanced through a small number of fake nodes connected to them. During an attack, any victim node will be misclassified by the GCN as the attack node class as long as it is linked to them. The experiments on three popular datasets show that the average attack success rate of the proposed attack on any victim node in the graph reaches 83% when using only 3 attack nodes and 6 fake nodes. We hope that our work will make the community aware of the threat of this type of attack and raise the attention given to its future defense.
翻訳日:2021-06-07 08:55:57 公開日:2020-11-29
# 対角的視覚表現を用いた音声・視覚音声分離

Audio-visual Speech Separation with Adversarially Disentangled Visual Representation ( http://arxiv.org/abs/2011.14334v1 )

ライセンス: Link先を確認
Peng Zhang, Jiaming Xu, Jing shi, Yunzhe Hao, Bo Xu(参考訳) 音声分離は、複数の同時話者の音声混合から個々の音声を分離することを目的としている。 オーディオのみのアプローチは十分な性能を発揮するが、事前定義された条件を扱う戦略を構築し、複雑な聴覚シーンでの使用を制限する。 カクテルパーティ問題に向けて,新しい音声・視覚音声分離モデルを提案する。 本モデルでは,顔検出器を用いてシーン内の話者数を検知し,視覚情報を用いて順列問題を回避する。 未知話者に対するモデルの一般化能力を向上させるため,逆アンタングル法による視覚入力から音声関連視覚特徴を抽出し,この特徴を用いて音声分離を支援する。 さらに、時間領域アプローチを採用することで、時間周波数ドメインモデルに存在する位相再構成の問題を回避することができる。 モデルの性能を他のモデルと比較するため、GRIDとTCDTIMITのオーディオ・ビジュアル・データセットから2話者混合のベンチマークデータセットを作成する。 実験により,提案モデルが最先端の音声のみのモデルと3つのオーディオ視覚モデルより優れていることを示す。

Speech separation aims to separate individual voice from an audio mixture of multiple simultaneous talkers. Although audio-only approaches achieve satisfactory performance, they build on a strategy to handle the predefined conditions, limiting their application in the complex auditory scene. Towards the cocktail party problem, we propose a novel audio-visual speech separation model. In our model, we use the face detector to detect the number of speakers in the scene and use visual information to avoid the permutation problem. To improve our model's generalization ability to unknown speakers, we extract speech-related visual features from visual inputs explicitly by the adversarially disentangled method, and use this feature to assist speech separation. Besides, the time-domain approach is adopted, which could avoid the phase reconstruction problem existing in the time-frequency domain models. To compare our model's performance with other models, we create two benchmark datasets of 2-speaker mixture from GRID and TCDTIMIT audio-visual datasets. Through a series of experiments, our proposed model is shown to outperform the state-of-the-art audio-only model and three audio-visual models.
翻訳日:2021-06-07 08:55:27 公開日:2020-11-29
# 新型コロナウイルス(covid-19)の音声・音声・言語・信号処理

Audio, Speech, Language, & Signal Processing for COVID-19: A Comprehensive Overview ( http://arxiv.org/abs/2011.14445v1 )

ライセンス: Link先を確認
Gauri Deshpande, Bj\"orn W. Schuller(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが2020年の世界的研究の中心となっている。 新型コロナウイルス患者のデータ収集からウイルス検出のための検査まで、いくつかの取り組みが厳格に行われている。 新型コロナウイルスの症状の大部分は、人間の音声生成システムに重要な影響を与える呼吸器系の機能に関連している。 これにより、covid-19のマーカーを音声や他の人間が生成した音声信号で識別する研究が進められている。 本稿では,人工知能を用いた音声およびその他の音声信号,言語,一般信号処理に基づく作業の概要について述べる。 また、これまでに行われた新型コロナウイルスの症状の一致を検出するための研究についても簡単に説明します。 私たちは、この集団的な情報が、covid-19のコンテキストにおいて、音声、音声、言語といった非強迫的かつ使いやすいモダリティを使用して役立つ自動システムの開発に有用であると確信しています。

The Coronavirus (COVID-19) pandemic has been the research focus world-wide in the year 2020. Several efforts, from collection of COVID-19 patients' data to screening them for the virus's detection are taken with rigour. A major portion of COVID-19 symptoms are related to the functioning of the respiratory system, which in-turn critically influences the human speech production system. This drives the research focus towards identifying the markers of COVID-19 in speech and other human generated audio signals. In this paper, we give an overview of the speech and other audio signal, language and general signal processing-based work done using Artificial Intelligence techniques to screen, diagnose, monitor, and spread the awareness aboutCOVID-19. We also briefly describe the research related to detect accord-ing COVID-19 symptoms carried out so far. We aspire that this collective information will be useful in developing automated systems, which can help in the context of COVID-19 using non-obtrusive and easy to use modalities such as audio, speech, and language.
翻訳日:2021-06-07 08:54:56 公開日:2020-11-29
# センサデータと機械学習を用いたビデオゲームプレーヤーのバーンアウト検出

Detecting Video Game Player Burnout with the Use of Sensor Data and Machine Learning ( http://arxiv.org/abs/2012.02299v1 )

ライセンス: Link先を確認
Anton Smerdov, Andrey Somov, Evgeny Burnaev, Bo Zhou, Paul Lukowicz(参考訳) eSportsの現在の研究は、適切なゲーム練習とパフォーマンス分析のためのツールが欠けている。 以前の作業の大半は、プレイヤーにより良いパフォーマンスをアドバイスするためのゲーム内データにのみ依存していた。 しかし、ゲーム内ログのみにトレーニングされたモデルの寿命を制限する新しいパッチによって、ゲーム内力学とトレンドは頻繁に変化する。 本稿では,センサデータ分析に基づいて,プレイヤーが今後の出会いに勝つかどうかを予測する手法を提案する。 センサデータはリーグ・オブ・レジェンドの22試合の参加者10名から収集された。 われわれはTransformerやGated Recurrent Unitといった機械学習モデルを訓練し、将来一定時間後にプレイヤーが遭遇するかどうかを予測する。 水平線予測の10秒間、トランスフォーマーニューラルネットワークアーキテクチャはROC AUCスコア0.706を達成する。 このモデルは、73.5%の精度で88.3%のケースでプレイヤーが10秒で発生した遭遇を予測できる検出器にさらに開発されている。 これはプレイヤーのバーンアウトまたは疲労検知装置として使用され、プレイヤーが撤退するよう助言する。 また,どの生理的特徴が勝敗に影響を及ぼすかについても検討した。

Current research in eSports lacks the tools for proper game practising and performance analytics. The majority of prior work relied only on in-game data for advising the players on how to perform better. However, in-game mechanics and trends are frequently changed by new patches limiting the lifespan of the models trained exclusively on the in-game logs. In this article, we propose the methods based on the sensor data analysis for predicting whether a player will win the future encounter. The sensor data were collected from 10 participants in 22 matches in League of Legends video game. We have trained machine learning models including Transformer and Gated Recurrent Unit to predict whether the player wins the encounter taking place after some fixed time in the future. For 10 seconds forecasting horizon Transformer neural network architecture achieves ROC AUC score 0.706. This model is further developed into the detector capable of predicting that a player will lose the encounter occurring in 10 seconds in 88.3% of cases with 73.5% accuracy. This might be used as a players' burnout or fatigue detector, advising players to retreat. We have also investigated which physiological features affect the chance to win or lose the next in-game encounter.
翻訳日:2021-06-07 08:54:21 公開日:2020-11-29