このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201210となっている論文です。

PDF登録状況(公開日: 20201210)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子非局所性をテストする2秒モーメントと2人の観測者

Second-second moments and two observers testing quantum nonlocality ( http://arxiv.org/abs/2003.10201v2 )

ライセンス: Link先を確認
Adam Bednorz(参考訳) 量子力学における局所的リアリズムの拒絶は、2つの観測者および連続および非有界観測者の低次モーメントに対するベル型不等式によって検証できることを示す。 最大エンタングル状態に対して各観測者には3つの観測可能条件と、非最大エンタングル状態に対して2つの観測可能条件が必要であることを証明し、適切な不等式を書き留め、量子例によって違反を示す。 二次数や位置や運動量の例を見つけることは、オープン問題として残されている。

We show that rejection of local realism in quantum mechanics can be tested by Bell-type inequalities for two observers and low-order moments of continuous and unbounded observables. We prove that one requires three observables for each observer for a maximally entangled state and two observables for a non-maximally entangled state and write down appropriate inequalities and show violation by quantum examples. Finding an example for quadratures or position and momentum is left as an open problem.
翻訳日:2023-05-28 07:47:02 公開日:2020-12-10
# 量子プロセッサにおける非マルコフ過程のキャラクタリゼーションと制御の実証

Demonstration of non-Markovian process characterisation and control on a quantum processor ( http://arxiv.org/abs/2004.14018v2 )

ライセンス: Link先を確認
Gregory A. L. White, Charles D. Hill, Felix A. Pollock, Lloyd C. L. Hollenberg, Kavan Modi(参考訳) 量子コンピュータのスケールアップにおいて、フォールトトレランスの基盤となるフレームワークは一般に、量子ビット論理に影響を及ぼす環境ノイズが非相関であるという強い仮定に依存している(マルコフアン)。 しかし、物理デバイスが複雑なマルチキュービット体制にうまく進出するにつれて、相関性のある-または非マルコフノイズの出現と緩和を理解することに注意が向けられ、量子技術の進歩に深刻な課題が生じる。 このエラータイプは、これまでも文字化技術に着想があった。 本稿では,量子系における非マルコフダイナミクスを特徴付けるフレームワークを開発し,マルチ量子ビット超伝導量子デバイス上で実験的にテストする。 標準的なマルコフ的手法では雑音の過程を考慮できないが、この再構成は装置の振舞いを10^{-3}$で予測する。 その結果, この特徴化手法は非マルコフ環境から効果的に分離することで, 優れた量子制御とコヒーレンス時間の延長をもたらすことがわかった。 このフレームワークは,制御された任意の量子デバイスに適用可能であり,最適なデバイス操作とノイズ低減に向けた重要なステップを提供する。

In the scale-up of quantum computers, the framework underpinning fault-tolerance generally relies on the strong assumption that environmental noise affecting qubit logic is uncorrelated (Markovian). However, as physical devices progress well into the complex multi-qubit regime, attention is turning to understanding the appearance and mitigation of correlated -- or non-Markovian -- noise, which poses a serious challenge to the progression of quantum technology. This error type has previously remained elusive to characterisation techniques. Here, we develop a framework for characterising non-Markovian dynamics in quantum systems and experimentally test it on multi-qubit superconducting quantum devices. Where noisy processes cannot be accounted for using standard Markovian techniques, our reconstruction predicts the behaviour of the devices with an infidelity of $10^{-3}$. Our results show this characterisation technique leads to superior quantum control and extension of coherence time by effective decoupling from the non-Markovian environment. This framework, validated by our results, is applicable to any controlled quantum device and offers a significant step towards optimal device operation and noise reduction.
翻訳日:2023-05-21 19:47:08 公開日:2020-12-10
# 均一磁場中におけるツイスト電子の一般量子力学解

General quantum-mechanical solution for twisted electrons in a uniform magnetic field ( http://arxiv.org/abs/2005.06408v2 )

ライセンス: Link先を確認
Liping Zou, Pengming Zhang, Alexander J. Silenko(参考訳) 一様磁場におけるねじれ(および他の構造を持つ)準軸電子の理論が展開される。 相対論的同軸方程式の一般量子力学的解は、非構造電子波の特定の場合として一般に受け入れられる結果を含む。 弱場極限では、解は(既存の理論とは異なり)自由ねじれ電子ビームのよく知られた方程式と一致する。 自由空間から磁場に侵入する軌道角運動量と反対方向の相対論的ラゲール・ガウスビームの異なる挙動の観測可能な効果を予測した。 均一磁場中における速度の量子化と構造電子の有効質量の識別特性を解析した。

A theory of twisted (and other structured) paraxial electrons in a uniform magnetic field is developed. The obtained general quantum-mechanical solution of the relativistic paraxial equation contains the commonly accepted result as a specific case of unstructured electron waves. In the weak-field limit, our solution (unlike the existing theory) is consistent with the well-known equation for free twisted electron beams. The observable effect of a different behavior of relativistic Laguerre-Gauss beams with opposite directions of the orbital angular momentum penetrating from the free space into a magnetic field is predicted. Distinguishing features of the quantization of the velocity and the effective mass of structured electrons in the uniform magnetic field are analyzed.
翻訳日:2023-05-20 07:52:26 公開日:2020-12-10
# 超伝導体を用いたテンソルモノポールの実験的観察

Experimental Observation of Tensor Monopoles with a Superconducting Qudit ( http://arxiv.org/abs/2006.11770v2 )

ライセンス: Link先を確認
Xinsheng Tan, Dan-Wei Zhang, Wen Zheng, Xiaopei Yang, Shuqing Song, Zhikun Han, Yuqian Dong, Zhimin Wang, Dong Lan, Hui Yan, Shi-Liang Zhu, and Yang Yu(参考訳) モノポールはゲージ理論やトポロジカルな物質において中心的な役割を果たす。 物理学には、ベクトルモノポールとテンソルモノポールの2つの基本型がある。 ベクトルモノポールの例としては、3Dのディラックモノポールや5Dのヤンモノポールがあり、凝縮物質や人工システムで広く研究され観察されている。 しかし、テンソルモノポールの研究は少なく、その観測は報告されていない。 ここでは、可変スピン-1ハミルトニアンを実験的に構築し、テンソルモノポールを生成し、超伝導量子回路でその特徴を測定する。 テンソルモノポールとして作用する3次元縮退点を持つ4次元ワイル様ハミルトニアンのエネルギー構造を撮像する。 量子測定により、テンソルモノポールのトポロジカル電荷であるDixmier-Douady不変量を測定する最初の実験を報告する。 さらに、奇次元空間における従来のモノポールに対して用いられるチャーン数ではなく、トポロジカルディクシエ・ドゥアディ不変量によって特徴づけられる位相相転移を観察する。

Monopoles play a center role in gauge theories and topological matter. There are two fundamental types of monopoles in physics: vector monopoles and tensor monopoles. Examples of vector monopoles include the Dirac monopole in 3D and Yang monopole in 5D, which have been extensively studied and observed in condensed matter or artificial systems. However, tensor monopoles are less studied, and their observation has not been reported. Here we experimentally construct a tunable spin-1 Hamiltonian to generate a tensor monopole and then measure its unique features with superconducting quantum circuits. The energy structure of a 4D Weyl-like Hamiltonian with three-fold degenerate points acting as tensor monopoles is imaged. Through quantum-metric measurements, we report the first experiment that measures the Dixmier-Douady invariant, the topological charge of the tensor monopole. Moreover, we observe topological phase transitions characterized by the topological Dixmier-Douady invariant, rather than the Chern numbers as used for conventional monopoles in odd-dimensional spaces.
翻訳日:2023-05-13 05:27:28 公開日:2020-12-10
# オープン量子システムにおけるエネルギー輸送のためのディジタル量子シミュレーションフレームワーク

Digital quantum simulation framework for energy transport in an open quantum system ( http://arxiv.org/abs/2006.14136v2 )

ライセンス: Link先を確認
Pragati Gupta and C. M. Chandrashekar(参考訳) 光合成Fenna-Mathews-Olson (FMO) 複合体に現れる環境支援量子輸送(ENAQT)のような量子効果は、アナログ量子シミュレーター上でシミュレートされている。 デジタル量子シミュレーションはアナログシミュレーションよりも普遍性と柔軟性が高い。 しかし、オープン量子系のデジタル量子シミュレーションは理論上の問題に直面しており、量子ゲート演算子を開発するための連続時間マスター方程式の解を知らない。 我々は、新しい量子進化演算子を導入することにより、ENAQTのデジタル量子シミュレーションのための理論的枠組みを提供する。 演算子に対する力学方程式を開発し、それがマスター方程式の分析解であることを証明する。 例えば、力学方程式を用いて、デジタル設定におけるfmo複合体をシミュレートし、力学の理論的および実験的証拠を再現する。 このフレームワークは {quantum circuit} の実装に最適な方法を提供し、既知のメソッドよりも複雑性のログを減少させる。 ジェネリックフレームワークは、他のオープン量子システムを研究するために外挿することができる。

Quantum effects such as the environment assisted quantum transport (ENAQT) displayed in photosynthetic Fenna-Mathews-Olson (FMO) complex has been simulated on analog quantum simulators. Digital quantum simulations offer greater universality and flexibility over analog simulations. However, digital quantum simulations of open quantum systems face a theoretical challenge; one does not know the solutions of the continuous time master equation for developing quantum gate operators. We give a theoretical framework for digital quantum simulation of ENAQT by introducing new quantum evolution operators. We develop the dynamical equation for the operators and prove that it is an analytical solution of the master equation. As an example, using the dynamical equations, we simulate the FMO complex in the digital setting, reproducing theoretical and experimental evidence of the dynamics. The framework gives an optimal method for {quantum circuit} implementation, giving a log reduction in complexity over known methods. The generic framework can be extrapolated to study other open quantum systems.
翻訳日:2023-05-12 20:13:10 公開日:2020-12-10
# 量子サイクロトロンの回避型検出器バックアクション

Circumventing Detector Backaction on a Quantum Cyclotron ( http://arxiv.org/abs/2008.01898v4 )

ライセンス: Link先を確認
Xing Fan and Gerald Gabrielse(参考訳) 検出器のバックアクションは、1電子量子サイクロトロンの状態が検出されると完全に回避できるが、それでもサイクロトロン周波数を推定できる量子ジャンプ共鳴線を著しく広げる。 これは、電子磁気モーメントが標準モデルの最も正確な予測をテストするために決定できる精度を制限する。 オープン量子サイクロトロン系の最初の量子計算であるマスター方程式に対する定常解は、測定された周波数に対する検出バックアクションを回避する方法を示している。

Detector backaction can be completely evaded when the state of a one-electron quantum cyclotron is detected, but it nonetheless significantly broadens the quantum-jump resonance lineshapes from which the cyclotron frequency can be deduced. This limits the accuracy with which the electron magnetic moment can be determined to test the standard model's most precise prediction. A steady state solution to a master equation, the first quantum calculation for the open quantum cyclotron system, illustrates a method to circumvent the detection backaction upon the measured frequency.
翻訳日:2023-05-07 02:27:21 公開日:2020-12-10
# 工学的電磁環境に埋め込まれた量子ビットによる単一光子スイッチ制御

Single-photon switch controlled by a qubit embedded in an engineered electromagnetic environment ( http://arxiv.org/abs/2009.00746v3 )

ライセンス: Link先を確認
Eugene Stolyarov(参考訳) 単一光子スイッチはスケーラブルな量子ネットワークを構築する上で重要な要素である。 本稿では,効率的な単一光子スイッチングを実現するための提案手法を提案する。 提案するスイッチは、共振器に結合された3レベルシステム(qutrit)の最低レベルのペアによって形成された量子ビットの状態によって制御される。 検討されたセットアップのスイッチングユニットを含む共振器・量子システム。 制御キュービットのパーセル緩和を抑制するため、スイッチングユニットは、キュービット遷移周波数の帯域ギャップを有するエンジニアリングされた電磁環境として機能する結合共振器アレイに埋め込まれる。 マイクロ波回路QEDアーキテクチャにおける単一光子スイッチの実現の可能性について論じる。 最先端超電導回路のqed設定で実現可能なパラメータについて,高スイッチングコントラストが得られることを実証する。

A single-photon switch is an important element for the building of scalable quantum networks. In this paper, we propose a feasible scheme for efficient single-photon switching. The proposed switch is controlled by a state of a qubit formed by the pair of the lowest levels of a three-level system (qutrit) coupled to a resonator. This resonator-qutrit system comprises a switching unit of the considered setup. For suppression of the Purcell relaxation of the control qubit, the switching unit is embedded into a coupled-resonator array serving as an engineered electromagnetic environment with a band gap on a qubit transition frequency. We discuss the possible implementation of the considered single-photon switch on the microwave circuit QED architecture. We demonstrate that high switching contrasts can be attained for the parameters achievable for the state-of-the-art superconducting circuit QED setups.
翻訳日:2023-05-04 03:05:07 公開日:2020-12-10
# アト秒レーザーパルスによるネオンのアライメント励起状態の光イオン化

Photoionization of aligned excited states in neon by attosecond laser pulses ( http://arxiv.org/abs/2011.05659v2 )

ライセンス: Link先を確認
Juan J. Omiste and Lars Bojer Madsen(参考訳) 線形および円偏光したxuvアト秒レーザーパルスにより誘導されるイオン化過程、特に励起状態ne$^*(1s^22s^22p^5[{}^2\text{p}^\text{o}_{1/2}]3s[^1\text{p}^o])$を数値的に記述する。 我々は,時間依存型非活性空間自己整合場(TD-RASSCF)法を適用して励起原子状態を計算する。 相関型イオン化チャネルは、相関なくアクセス可能なチャネルで支配することができる。 また, イオン化チャネルの違いから, 円偏光レーザーパルスによる光電子運動量分布の回転を線形偏光の場合と比較して説明できることを示した。 本研究は、アライメント励起状態から光電子放出ダイナミクスを正確に記述するために電子相関効果を含めることが不可欠であることを示す。

We describe numerically the ionization process induced by linearly and circularly polarized XUV attosecond laser pulses on an aligned atomic target, specifically, the excited state Ne$^*(1s^22s^22p^5[{}^2\text{P}^\text{o}_{1/2}]3s[^1\text{P}^o])$. We compute the excited atomic state by applying the time-dependent restricted-active-space self-consistent field (TD-RASSCF) method to fully account for the electronic correlation. We find that correlation-assisted ionization channels can dominate over channels accessible without correlation. We also observe that the rotation of the photoelectron momentum distribution by circularly polarized laser pulses compared to the case of linear polarization can be explained in terms of differences in accessible ionization channels. This study shows that it is essential to include electron correlation effects to obtain an accurate description of the photoelectron emission dynamics from aligned excited states.
翻訳日:2023-04-24 12:01:03 公開日:2020-12-10
# AIを用いたシステム開発とデプロイにおけるイマジネーションの失敗の克服

Overcoming Failures of Imagination in AI Infused System Development and Deployment ( http://arxiv.org/abs/2011.13416v3 )

ライセンス: Link先を確認
Margarita Boyarskaya, Alexandra Olteanu, Kate Crawford(参考訳) NeurIPS 2020は研究論文に「潜在的な悪用と失敗の結果」に関するインパクトステートメントを含むよう要求した。 しかし、研究者、実践家、システムデザイナーとして、リスクを予想する上で重要な課題は、クラーク(1962年)が「想像力不足」と呼んだものを克服することである。 計算システムにおけるバイアス、公平性、透明性に関する研究は、害を照らし緩和することを目的としており、それによって特定の技術的作業のネガティブな影響についてリフレクションを伝えるのに役立つ。 計算的危害(computation harms)という一般的な概念は、アロケーション的あるいは表現的危害(representational harms)として狭義に解釈されているが、aiが注入する幅広いシステムにおいて、害のオープン、コンテキスト依存、および観測不能な性質を完全に捉えていない。 システムアフォーアンスはまた、システムアウトプットの使用方法や操作方法に対するステークホルダーのコントロール(非ユーザを含む)を決定するため、予測不能な方法で損害を悪化させる可能性がある。 有害な使用を効果的に予測するためには、害の枠組みは文脈に配慮し、潜在的利害関係者、システム余裕、および最も広い意味での害を評価するための実行可能なプロキシを考える必要がある。

NeurIPS 2020 requested that research paper submissions include impact statements on "potential nefarious uses and the consequences of failure." However, as researchers, practitioners and system designers, a key challenge to anticipating risks is overcoming what Clarke (1962) called 'failures of imagination.' The growing research on bias, fairness, and transparency in computational systems aims to illuminate and mitigate harms, and could thus help inform reflections on possible negative impacts of particular pieces of technical work. The prevalent notion of computational harms -- narrowly construed as either allocational or representational harms -- does not fully capture the open, context dependent, and unobservable nature of harms across the wide range of AI infused systems.The current literature focuses on a small range of examples of harms to motivate algorithmic fixes, overlooking the wider scope of probable harms and the way these harms might affect different stakeholders. The system affordances may also exacerbate harms in unpredictable ways, as they determine stakeholders' control(including of non-users) over how they use and interact with a system output. To effectively assist in anticipating harmful uses, we argue that frameworks of harms must be context-aware and consider a wider range of potential stakeholders, system affordances, as well as viable proxies for assessing harms in the widest sense.
翻訳日:2023-04-22 22:34:14 公開日:2020-12-10
# ibmqにおける系統的ゲートエラーの簡易緩和戦略

Simple Mitigation Strategy for a Systematic Gate Error in IBMQ ( http://arxiv.org/abs/2012.00831v3 )

ライセンス: Link先を確認
Daniel Bultrini, Max Hunter Gordon, Esperanza L\'opez, Germ\.an Sierra(参考訳) 我々は,IBM量子コンピュータにおける$U_3$ゲートの実装において,システムエラーの観察と特徴付けを行う。 この誤差はゲートの角度の1つで一貫した変化として現れ、その大きさはクリフォードのランダム化ベンチマークを用いて計算されたIBMの引用誤差と相関しない。 我々は,CHSH不等式に対する観測値の改善につながる簡単な緩和手順を提案し,短深さ量子回路における単純な緩和戦略の有用性を強調した。

We report the observation and characterisation of a systematic error in the implementation of $U_3$ gates in the IBM quantum computers. The error appears as a consistent shift in one of the angles of the gate, whose magnitude does not correlate with IBM's cited errors calculated using Clifford randomized benchmarking. We propose a simple mitigation procedure, leading to an improvement in the observed value for the CHSH inequality, highlighting the utility of simple mitigation strategies for short-depth quantum circuits.
翻訳日:2023-04-22 11:48:46 公開日:2020-12-10
# 嗜好に基づくプライバシ取引

Preference-Based Privacy Trading ( http://arxiv.org/abs/2012.05484v1 )

ライセンス: Link先を確認
Ranjan Pal, Yixuan Wang, Swades De, Bodhibrata Nag, Pan Hui(参考訳) 消費者の個人情報を正式な同意(許可)で取引し、その見返りにインセンティブ(金銭的またはその他の)を提供することは経済的に可能か? . 立場から (a)人間は「妥協」し、プライバシーを優先しているという行動的仮定。 (b)厳格な境界のない善としてのプライバシー c)データリリースサプライチェーンの下流にあるデータホルダによる不適切なデータ漏洩の実用的必然性について,簡易販売業者・ブローカー市場における新たな選好関数入札手法を用いて,オリゴポリデータ取引市場における規制された効率的・境界的非効率な経済メカニズムの設計を提案する。 本手法は、ある妥協レベルまで(グループ化された消費者、すなわちアプリ、レベルにおいて)不均一なプライバシー保護の制約を保ち、同時に、ターゲットとなる行動広告のためにクライアントデータを収集する代理店(広告組織など)の情報要求を満足させる。

The question we raise through this paper is: Is it economically feasible to trade consumer personal information with their formal consent (permission) and in return provide them incentives (monetary or otherwise)?. In view of (a) the behavioral assumption that humans are `compromising' beings and have privacy preferences, (b) privacy as a good not having strict boundaries, and (c) the practical inevitability of inappropriate data leakage by data holders downstream in the data-release supply-chain, we propose a design of regulated efficient/bounded inefficient economic mechanisms for oligopoly data trading markets using a novel preference function bidding approach on a simplified sellers-broker market. Our methodology preserves the heterogeneous privacy preservation constraints (at a grouped consumer, i.e., app, level) upto certain compromise levels, and at the same time satisfies information demand (via the broker) of agencies (e.g., advertising organizations) that collect client data for the purpose of targeted behavioral advertising.
翻訳日:2023-04-21 06:04:21 公開日:2020-12-10
# 鉛およびスズ含有カルコゲナイドおよびハロゲン化ペロブスカイトにおける散逸誘起対称性の破断

Dissipation-induced symmetry breaking: Emphanitic transitions in lead- and tin-containing chalcogenides and halide perovskites ( http://arxiv.org/abs/2012.05478v1 )

ライセンス: Link先を確認
Kingshuk Mukhuti, Sudip Sinha, Subhasis Sinha, and Bhavtosh Bansal(参考訳) PbTeやSnSeのような鉛およびスズ系カルコゲナイド半導体は、非常に魅力的な熱電材料となる異常に低い熱伝導率を示すことが知られている。 明らかに無関係な事実として、これらの物質の励起電子バンドギャップは温度とともに増加するが、ほとんどの半導体では逆の傾向を観測する。 これら2つの異常な特徴は、cspbbr3のようなハロゲン化ペロブスカイトのような非常に異なる種類の太陽電池材料でも見られる。 局所対称性を破る現象である幻覚は、これらの特異な特徴の共通の起源であると考えられている。 10年前に発見されたエンファニシス(emphanisis)は、鉛やスズイオンの立方対称基底状態から、高温で局所的に歪んだ相への移動を観測した名前である。 この現象は、高温状態が縮退した基底状態よりも低い対称性であることは珍しいため、混乱している。 アンモニア分子の振動反転共鳴を動機とし,温度上昇に伴う局所対称性の破断にデコヒーレンスが関与するエンファニシスの量子トンネルモデルを提案する。 トンネル分割の温度依存性の解析式(秩序パラメータとして機能する)から, イオン変位の観測温度依存性を捉える3パラメータフィッティング式, およびすべての関連材料における励起バンドギャップの異常増加について検討した。

Lead and tin-based chalcogenide semiconductors like PbTe or SnSe have long been known to exhibit an unusually low thermal conductivity that makes them very attractive thermoelectric materials. An apparently unrelated fact is that the excitonic bandgap in these materials increases with temperature, whereas for most semiconductors one observes the opposite trend. These two anomalous features are also seen in a very different class of photovoltaic materials, namely the halide-perovskites such as CsPbBr3. It has been previously proposed that emphanisis, a local symmetry-breaking phenomenon, is the one common origin of these unusual features. Discovered a decade ago, emphanisis is the name given to the observed displacement of the lead or the tin ions from their cubic symmetry ground state to a locally distorted phase at high temperature. This phenomenon has been puzzling because it is unusual for the high-temperature state to be of a lower symmetry than the degenerate ground state. Motivated by the celebrated vibration-inversion resonance of the ammonia molecule, we propose a quantum tunneling-based model for emphanisis where decoherence is responsible for the local symmetry breaking with increasing temperature. From the analytic expression of the temperature dependence of the tunnel splitting (which serves as an order parameter), we provide three-parameter fitting formulae which capture the observed temperature dependence of the ionic displacements as well as the anomalous increase of the excitonic bandgap in all the relevant materials.
翻訳日:2023-04-21 06:04:02 公開日:2020-12-10
# 有限状態空間上のデコヒーレンスをもつ時間不均一量子マルコフ鎖

Time-inhomogeneous Quantum Markov Chains with Decoherence on Finite State Spaces ( http://arxiv.org/abs/2012.05449v1 )

ライセンス: Link先を確認
Chia-Han Chou and Wei-Shih Yang(参考訳) 有限空間上のパラメータ $\zeta \ge 0$ とデコヒーレンスパラメータ $0 \leq p \leq 1$ の時間不均一量子マルコフ連鎖とその大規模平衡特性について紹介・研究する。 ここでは、$\zeta$はアニーリングランダム過程の逆温度に似ており、$p$は量子系のデコヒーレンス強度である。 数値的な評価によると、$ \zeta$ が小さいなら、量子マルコフ連鎖はすべての$0 < p \le 1$ に対してエルゴードであり、$ \zeta $ が大きいなら、すべての$0 < p \le 1$ に対して複数の制限分布を持つ。 本稿では, 高温領域のエルゴード特性を0 \le \zeta \le 1$で証明する。 相転移は臨界点 $\zeta_c=1$ で起こると期待する。 コヒーレンスの場合、p=0$ の場合、周期性の臨界挙動も臨界点 $\zeta_o=2$ に現れる。

We introduce and study time-inhomogeneous quantum Markov chains with parameter $\zeta \ge 0$ and decoherence parameter $0 \leq p \leq 1$ on finite spaces and their large scale equilibrium properties. Here $\zeta$ resembles the inverse temperature in the annealing random process and $p$ is the decoherence strength of the quantum system. Numerical evaluations show that if $ \zeta$ is small, then quantum Markov chain is ergodic for all $0 < p \le 1$ and if $ \zeta $ is large, then it has multiple limiting distributions for all $0 < p \le 1$. In this paper, we prove the ergodic property in the high temperature region $0 \le \zeta \le 1$. We expect that the phase transition occurs at the critical point $\zeta_c=1$. For coherence case $p=0$, a critical behavior of periodicity also appears at critical point $\zeta_o=2$.
翻訳日:2023-04-21 06:02:08 公開日:2020-12-10
# 量子情報処理のための12モードユニバーサルフォトニックプロセッサ

A 12-mode Universal Photonic Processor for Quantum Information Processing ( http://arxiv.org/abs/2012.05673v1 )

ライセンス: Link先を確認
Caterina Taballione, Reinier van der Meer, Henk J. Snijders, Peter Hooijschuur, J\"orn P. Epping, Michiel de Goede, Ben Kassenberg, Pim Venderbosch, Chris Toebes, Hans van den Vlekkert, Pepijn W.H. Pinkse, and Jelmer J. Renema(参考訳) フォトニックプロセッサは、光を用いた量子情報処理タスクと古典情報処理タスクの両方において重要である。 特に、線形光学量子情報処理は、大規模および低損失のプログラマブルフォトニックプロセッサを必要とする。 本稿では, 窒化ケイ素導波路をベースとした全結合型低損失12モード完全可変線形干渉計について, 従来で最大の量子フォトニックプロセッサの実証を行った。

Photonic processors are pivotal for both quantum and classical information processing tasks using light. In particular, linear optical quantum information processing requires both largescale and low-loss programmable photonic processors. In this paper, we report the demonstration of the largest universal quantum photonic processor to date: a low-loss, 12-mode fully tunable linear interferometer with all-to-all coupling based on stoichiometric silicon nitride waveguides.
翻訳日:2023-04-21 05:56:52 公開日:2020-12-10
# 強結合量子ビット系における強調支援エンタングルメント

Dephasing-assisted entanglement in a system of strongly coupled qubits ( http://arxiv.org/abs/2012.05650v1 )

ライセンス: Link先を確認
I. V. Vovcenko, V. Yu. Shishkov, and E. S. Andrianov(参考訳) 低デコヒーレンス率の量子系の絡み合った状態の生成は、量子計算の実用的な実装の基盤である。 実験的に実現可能なシステムでは、各キュービットで個別に強調するプロセスは、エンタングルメントを破壊するために一般的に受け入れられる。 本研究では, 2つの強く結合した量子ビットの系について検討する。 非ゼロコンカレンスを伴う長寿命混合絡み合い状態の形成に, 脱落型貯水池との相互作用が寄与することを示した。 この混合状態における準ラジアント状態の重みは、デファスレートが放射速度よりも大きく、キュービット間の結合定数よりも小さい場合、一様になる傾向がある。 この状態の寿命は、結合定数と環境温度の比の指数に比例し、システムの特性的強調時間や散逸時間よりも桁違いに大きい。 したがって、強い結合性とともに高い劣化は長い寿命を持つ絡み合った状態の生成に寄与する。 この結果は長寿命の絡み合った状態を作り出す道を開く。

Creation of entangled states of quantum systems with low decoherence rates is a cornerstone in practical implementation of quantum computations. Processes of separate dephasing in each qubit in experimentally feasible systems is commonly accepted to destroy entanglement. In this work, we consider a system of two strongly coupled qubits that interact with dephasing reservoirs. We demonstrate that interaction with dephasing reservoirs can contribute to the formation of a long-lived mixed entangled state with nonzero concurrence. The weight of the subradiant state in this mixed state tends toward unity if the dephasing rate is much larger than the radiative rate and less than the coupling constant between qubits. The lifetime of this state is proportional to the exponent of the ratio of the coupling constant to environmental temperature and can be, by orders of magnitude, larger than the system's characteristic dephasing and dissipation times. Therefore, high dephasing, along with strong coupling, contributes to the creation of an entangled state with a long lifetime. This result paves the way for creation of long-lived entangled states.
翻訳日:2023-04-21 05:56:46 公開日:2020-12-10
# 決定図を用いた量子回路シミュレーションにおけるデコヒーレンス誤差の検討

Considering Decoherence Errors in the Simulation of Quantum Circuits Using Decision Diagrams ( http://arxiv.org/abs/2012.05629v1 )

ライセンス: Link先を確認
Thomas Grurl, J\"urgen Fu{\ss}, Robert Wille(参考訳) 量子力学的効果を用いることで、量子コンピュータは従来のコンピュータでは難解な問題を解決する上で大きなスピードアップを約束する。 しかし、近年の進歩にもかかわらず、スケーリングと可用性向上の量子ソフトウェアとハードウェア開発は、従来のハードウェア上で動作する量子シミュレータに大きく依存している。 しかし、これらのシミュレータのほとんどは完全な量子コンピュータを模倣しており、従って実際の量子デバイスでしばしばデコヒーレンスエラーをもたらす量子力学的効果の脆弱な性質を無視している。 シミュレーション中のエラーを考えるのは複雑ですが、特定のデバイス向けに量子アルゴリズムを調整するために必要です。 これまでのところ、デコヒーレンスエラーを考慮した最先端のシミュレータのほとんどは、大規模な配列表現に依存している。 代替として、決定ダイアグラムに基づくシミュレータは一般に量子回路のシミュレーションに非常に有望であるが、デコヒーレンスエラーをまだサポートしていない。 この作業では、このギャップを埋めています。 本稿では,デコヒーレンス誤差の考慮が決定図に基づく手法のシミュレーション性能に与える影響を考察し,ネガティブな効果を緩和するための高度な解を提案する。 実験により、これは誤りの単純な考慮よりも数桁の改善をもたらすことが確かめられた。

By using quantum mechanical effects, quantum computers promise significant speedups in solving problems intractable for conventional computers. However, despite recent progress they remain limited in scaling and availability-making quantum software and hardware development heavily reliant on quantum simulators running on conventional hardware. However, most of those simulators mimic perfect quantum computers and, hence, ignore the fragile nature of quantum mechanical effects which frequently yield to decoherence errors in real quantum devices. Considering those errors during the simulation is complex, but necessary in order to tailor quantum algorithms for specific devices. Thus far, most state-of-the-art simulators considering decoherence errors rely on (exponentially) large array representations. As an alternative, simulators based on decision diagrams have been shown very promising for simulation of quantum circuits in general, but have not supported decoherence errors yet. In this work, we are closing this gap. We investigate how the consideration of decoherence errors affects the simulation performance of approaches based on decision diagrams and propose advanced solutions to mitigate negative effects. Experiments confirm that this yields improvements of several orders of magnitudes compared to a naive consideration of errors.
翻訳日:2023-04-21 05:56:32 公開日:2020-12-10
# 決定図を用いた確率量子回路シミュレーション

Stochastic Quantum Circuit Simulation Using Decision Diagrams ( http://arxiv.org/abs/2012.05620v1 )

ライセンス: Link先を確認
Thomas Grurl, Richard Kueng, J\"urgen Fu{\ss}, Robert Wille(参考訳) 近年、量子コンピュータの設計と制御は前例のない進歩を遂げている。 それでも、その適用性はまだ制限されており、アクセスは高価である。 したがって、多くの量子アルゴリズムの研究は依然として古典的ハードウェア上の量子回路のシミュレーションに頼っている。 しかし、実際の量子コンピュータをシミュレートする非常に複雑なため、多くのシミュレーターは問題を非現実的に単純化し、代わりに完全な量子ハードウェアをシミュレートする。 確率的量子シミュレーション(Stochastic quantum Simulation)は、この問題に対する概念的に適切な解決策を提供する。 本研究では,確率的量子回路シミュレーションのための資源要求量を大幅に削減するために,決定ダイアグラムと並行実行を用いることを提案する。 厳密な理論によって裏付けられた実証的な研究は、このアプローチによって特定の量子回路のより高速でよりスケーラブルなシミュレーションが可能になることを示した。

Recent years have seen unprecedented advance in the design and control of quantum computers. Nonetheless, their applicability is still restricted and access remains expensive. Therefore, a substantial amount of quantum algorithms research still relies on simulating quantum circuits on classical hardware. However, due to the sheer complexity of simulating real quantum computers, many simulators unrealistically simplify the problem and instead simulate perfect quantum hardware, i.e., they do not consider errors caused by the fragile nature of quantum systems. Stochastic quantum simulation provides a conceptually suitable solution to this problem: physically motivated errors are applied in a probabilistic fashion throughout the simulation. In this work, we propose to use decision diagrams, as well as concurrent executions, to substantially reduce resource-requirements-which are still daunting-for stochastic quantum circuit simulation. Backed up by rigorous theory, empirical studies show that this approach allows for a substantially faster and much more scalable simulation for certain quantum circuits.
翻訳日:2023-04-21 05:56:14 公開日:2020-12-10
# 必要な精度、有効性:DDに基づく量子回路シミュレーションにおける近似

As Accurate as Needed, as Efficient as Possible: Approximations in DD-based Quantum Circuit Simulation ( http://arxiv.org/abs/2012.05615v1 )

ライセンス: Link先を確認
Stefan Hillmich, Richard Kueng, Igor L. Markov, and Robert Wille(参考訳) 量子コンピュータは従来のコンピュータよりも早く重要な問題を解決することを約束する。 しかし、この力を解き放つことは難しかった。 特に、設計自動化は(1)量子計算の確率論的性質と(2)量子以外のハードウェアにおける計算資源の指数的要求に関係している。 量子回路シミュレーションにおいて、決定図(DD)は、多くの重要なケースにおいて、量子状態の冗長性を利用して必要なメモリを減らすことを以前に示してきた。 本稿では,量子コンピュータの確率的性質を利用して,よりコンパクトな表現を実現することで,この低減を増幅できることを示す。 具体的には,よりコンパクトな表現を実現するために,量子状態の近似を行うddベースの2つの新しいシミュレーション戦略を提案する。 また,複数の近似が到達精度に与える影響を解析的に証明し,その結果得られたシミュレーション手法が最大数桁の速度アップを可能にすることを示す。

Quantum computers promise to solve important problems faster than conventional computers. However, unleashing this power has been challenging. In particular, design automation runs into (1) the probabilistic nature of quantum computation and (2) exponential requirements for computational resources on non-quantum hardware. In quantum circuit simulation, Decision Diagrams (DDs) have previously shown to reduce the required memory in many important cases by exploiting redundancies in the quantum state. In this paper, we show that this reduction can be amplified by exploiting the probabilistic nature of quantum computers to achieve even more compact representations. Specifically, we propose two new DD-based simulation strategies that approximate the quantum states to attain more compact representations, while, at the same time, allowing the user to control the resulting degradation in accuracy. We also analytically prove the effect of multiple approximations on the attained accuracy and empirically show that the resulting simulation scheme enables speed-ups up to several orders of magnitudes.
翻訳日:2023-04-21 05:55:46 公開日:2020-12-10
# 独立貯水池が量子ゼノおよび反ゼノ効果に及ぼす影響

Impact of independent reservoirs on the quantum Zeno and anti-Zeno effects ( http://arxiv.org/abs/2012.05574v1 )

ライセンス: Link先を確認
Irfan Javed, Mohsin Raza, Adam Zaman Chaudhry(参考訳) 本稿では,2つの独立した貯水池と相互作用する場合,繰り返し測定された量子系に何が起こるかを検討する。 特に,高調波発振器からなる貯水池と相互作用する2段階系の挙動を考察する。 一方の貯水池との相互作用は散逸型カップリングと弱いが、他方の貯水池との相互作用は脱落型カップリングと強い。 偏光子変換を用いて,強い結合を持つ貯水池の存在は,弱結合型貯水池の効果により,実際に量子系の崩壊率を減少させることができることを示した。

In this paper, we look into what happens to a quantum system under repeated measurements if it interacts with two independent reservoirs. In particular, we look at the behavior of a two-level system interacting with reservoirs consisting of harmonic oscillators. The interaction with one reservoir is weak with a dissipative-type coupling, while the interaction with the other reservoir is strong with a dephasing-type coupling. Using a polaron transformation, we show that the presence of the strongly coupled reservoir can actually reduce the decay rate of the quantum system due to the effect of the weakly-coupled reservoir.
翻訳日:2023-04-21 05:55:18 公開日:2020-12-10
# 固体量子シミュレータを用いたフロッケ位相位相のディジタル量子シミュレーション

Digital Quantum Simulation of Floquet Topological Phases with a Solid-State Quantum Simulator ( http://arxiv.org/abs/2012.05495v1 )

ライセンス: Link先を確認
Bing Chen, Shuo Li, Xianfei Hou, Feifei Zhou, Peng Qian, Feng Mei, Suotang Jia, Nanyang Xu, and Heng Shen(参考訳) 複雑な量子システムのダイナミクスを活用できる量子シミュレータは、エキゾチックな位相位相を探索するための有望なプラットフォームとして登場した。 様々な制御可能な量子システムによって提供される柔軟性により、このような複雑な問題の量子シミュレーションに対する洞察を得ることができたため、アナログ量子シミュレータは、最近トポロジカルな位相を探索する問題に取り組むことができることを示した。 しかし、デジタル量子シミュレーションとトポロジカル位相の検出はいまだに解明されていない。 本研究では,固体量子シミュレータによる位相相のディジタル量子シミュレーションを室内温度で開発し,実験的に実現する。 静的位相を扱う以前の研究とは違い、ここでエミュレートされた位相位相はフロケ位相である。 さらに,量子クエンチをデジタルシミュレートし,フロッケ位相の非平衡ダイナミクスを観測する手法についても述べる。 量子クエンチによって、0-および {\pi}-エネルギー位相不変量は、時間平均スピン分極の測定によって曖昧に検出される。 我々の実験は、高速なプログラム可能な量子シミュレータでフロケ位相をデジタル的にシミュレートし、検出するための新しい道を開く。

Quantum simulator with the ability to harness the dynamics of complex quantum systems has emerged as a promising platform for probing exotic topological phases. Since the flexibility offered by various controllable quantum systems has enabled to gain insight into quantum simulation of such complicated problems, analog quantum simulator has recently shown its feasibility to tackle problems of exploring topological phases. However, digital quantum simulation and detection of topological phases still remain elusive. Here, we develop and experimentally realize the digital quantum simulation of topological phase with a solid-state quantum simulator at room temperature. Distinct from previous works dealing with static topological phases, the topological phases emulated here are Floquet topological phases. Furthermore, we also illustrate the procedure of digitally simulating a quantum quench and observing the nonequilibrium dynamics of Floquet topological phases. By means of quantum quench, the 0- and {\pi}-energy topological invariants are unambiguously detected through measuring time-averaged spin polarizations. Our experiment opens up a new avenue to digitally simulate and detect Floquet topological phases with fast-developed programmable quantum simulators.
翻訳日:2023-04-21 05:54:20 公開日:2020-12-10
# ハイパーグラフ製品コードに対する超越ゲートの制限

Limitations on transversal gates for hypergraph product codes ( http://arxiv.org/abs/2012.05842v1 )

ライセンス: Link先を確認
Simon Burton and Dan Browne(参考訳) 我々は、曲面符号を一般化する量子符号のクラスから論理演算子の構造を分析する。 これらはhypergraph製品コードであり、垂直セクターに限定されている。 Bravyi と K\"onig" の議論を一般化することにより、これらの符号の逆ゲートはクリフォード群に制限されなければならないことが分かる。

We analyze the structure of the logical operators from a class of quantum codes that generalizes the surface codes. These are the hypergraph product codes, restricted to the vertical sector. By generalizing an argument of Bravyi and K\"onig, we find that transversal gates for these codes must be restricted to the Clifford group.
翻訳日:2023-04-21 05:46:42 公開日:2020-12-10
# 物理学からフリーフローティング:量子力学のメタフィジカルス

Floating free from physics: the metaphysics of quantum mechanics ( http://arxiv.org/abs/2012.05822v1 )

ライセンス: Link先を確認
Raoni W. Arroyo and Jonas R. B. Arenhart(参考訳) 我々は、非相対論的量子力学の場合を特に扱うことにより、物理学とメタ物理の関係の方法論的側面について論じる。 我々の主張は、現在の量子力学とメタ物理を生産的に統合しようとする試みは、「科学のメタ物理」と呼ばれるもので、既存のメタ物理の概念を科学理論に適用することによって開発されている。 この観点から、メタフィジカルは自律的な分野として理解されなければならないと論じている。 その結果、このメタ物理学者は科学から何らかの正当化を望んでいない。 このようにして、科学的に正当な正当化が得られ、科学的理論の実証物への単一の真のメタフィジカルプロファイルの帰属が決定されるという、そのような計画の主な動機の1つは、当初からメタフィジカルな不確定性の出現によって消滅する。 もしメタ物理が物理学から解放され、この2つの領域の統合計画の前提であるなら、物理要素を1つ以上のメタ物理プロファイルに当てはめることは常に可能である。

We discuss some methodological aspects of the relation between physics and metaphysics by dealing specifically with the case of non-relativistic quantum mechanics. Our main claim is that current attempts to productively integrate quantum mechanics and metaphysics are best seen as approaches of what should be called `the metaphysics of science', which is developed by applying already existing metaphysical concepts to scientific theories. We argue that, in this perspective, metaphysics must be understood as an autonomous discipline. It results that this metaphysics cannot hope to derive any kind of justification from science. Thus, one of the main motivations of such project, which is the obtaining of a scientifically respectable justification for the attribution of a single true metaphysical profile to the posits of a scientific theory, is doomed because of the emergence of metaphysical underdetermination from the outset. If metaphysics floats free from physics, which is a premise of such project of integration between these two areas, then it is always possible to attribute more than one metaphysical profile to dress physical entities.
翻訳日:2023-04-21 05:46:13 公開日:2020-12-10
# 非線形ブラッグトラップ干渉計

Non-linear Bragg trap interferometer ( http://arxiv.org/abs/2012.05792v1 )

ライセンス: Link先を確認
Robin Corgier and Luca Pezz\`e and Augusto Smerzi(参考訳) 相互作用するボース・アインシュタイン凝縮体を用いた原子間干渉法を提案する。 凝縮体は、直列ブラッグパルスを介して2つの閉じ込められた外部運動量モードで制御され空間的に分裂する。 提案された計画 i) 原子間相互作用によって引き起こされる一軸ねじれダイナミクスによるトラップ干渉計構成における大きな絡み合いの発生を可能にし、 (ii)位相符号化前後の状態を慎重に操作することにより干渉計シーケンス中の相互作用の抑制を回避する。 干渉計は標準量子限界を超える感度で重力の測定に使用できる。

We propose a scheme for trapped atom interferometry using an interacting Bose-Einstein condensate. The condensate is controlled and spatially split in two confined external momentum modes through a series Bragg pulses. The proposed scheme (i) allows the generation of large entanglement in a trapped-interferometer configuration via one-axis twisting dynamic induced by interatomic interaction, and (ii) avoids the suppression of interactions during the interferometer sequence by a careful manipulation of the state before and after phase encoding. The interferometer can be used for the measurement of gravity with a sensitivity beyond the standard quantum limit.
翻訳日:2023-04-21 05:45:50 公開日:2020-12-10
# CVD成長ダイヤモンド中の常磁性欠陥の光学的検出

Optical Detection of Paramagnetic Defects in a CVD-grown Diamond ( http://arxiv.org/abs/2012.05791v1 )

ライセンス: Link先を確認
C. Pellet-Mary, P. Huillery, M. Perdriat, A. Tallaire, G. H\'etet(参考訳) CVD(Chemical-Vapor-Deposition)における窒素空孔中心(NV中心)の電子スピンは、量子情報処理のための有望なquビットだけでなく、磁場と温度の理想的なプローブを形成する。 このような高純度結晶におけるNV中心の磁気環境の研究と制御はこれらの応用に不可欠である。 CVD成長ダイヤモンド中の水素関連錯体などの常磁性種の光学的検出を行った。 これらの種の電子スピンへのNV中心の偏光電子スピンの共鳴移動は、[100]結晶方向の磁場スキャンを用いて、NVフォトルミネッセンスにおいて顕著な特徴を生じる。 本研究は,超偏極型常磁性種の新種のスピンのコヒーレント制御とCVD成長過程のより詳細な研究の展望を提供する。

The electronic spins of the nitrogen-vacancy centers (NV centers) in Chemical-Vapor-Deposition (CVD) grown diamonds form ideal probes of magnetic fields and temperature, as well as promising qu-bits for quantum information processing. Studying and controlling the magnetic environment of NV centers in such high purity crystals is thus essential for these applications. We demonstrate optical detection of paramagnetic species, such as hydrogen-related complexes, in a CVD-grown diamond. The resonant transfer of the NV centers' polarized electronic spins to the electronic spins of these species generates conspicuous features in the NV photoluminescence by employing magnetic field scans along the [100] crystal direction. Our results offer prospects for more detailed studies of CVD-grown processes as well as for coherent control of the spin of novel classes of hyper-polarized paramagnetic species.
翻訳日:2023-04-21 05:45:44 公開日:2020-12-10
# 軸対称場の渦粒子と量子ブッシュ定理の応用

Vortex particles in axially symmetric fields and applications of the quantum Busch theorem ( http://arxiv.org/abs/2012.05741v1 )

ライセンス: Link先を確認
Dmitry Karlovets(参考訳) 相対論的エネルギーへの軌道角運動量(OAM)による渦電子の加速と渦イオン、陽子、その他の荷電粒子の生成の可能性は、加速中にOAMが保存されているかどうかと、ウェーブパケットの位相空間がどのように進化するかに大きく依存する。 oamとパケットの平均放射率、後者はschr\"odingerの不確かさ関係に従うが、加速器や電子顕微鏡やペニングトラップと同様に、電気および磁気レンズの軸対称場に保存されているのに対し、弱い不均質な場の線形近似は古典的ビームよりも単一のパケットにはるかによく作用する。 パケットの半径 $\langle\rho^2\rangle$ の量子力学を解析し、この力学をファン・シッター・ツェルニケの定理の一般化形式に関連付け、ソースと非ガウスパケットとの任意の距離で適用し、クーラント・スナイダー形式を適用して波パケットの位相空間の進化を記述する。 したがって渦粒子は加速し、集中し、操舵し、閉じ込められ、また古典的な角モメンタム支配ビームに類似した方位対称場やトラップに格納される。 さらに、バッホの定理の量子バージョンとして、磁場または光電子のいずれにおいても磁化陰極で渦電子を生成でき、また、イオンの電荷状態を変えるために用いられる磁化ストリップフォイルを用いて渦イオンと陽子を生成できることを示す。 パケットの空間的コヒーレンスがこれらの応用において重要な役割を担っており、異なる質量の粒子に対する必要な見積もりを提供する。

The possibilities to accelerate vortex electrons with orbital angular momentum (OAM) to relativistic energies and to produce vortex ions, protons, and other charged particles crucially depend on whether the OAM is conserved during the acceleration and on how phase space of the wave packet evolves. We show that both the OAM and a mean emittance of the packet, the latter obeying the Schr\"odinger uncertainty relation, are conserved in axially symmetric fields of electric and magnetic lenses, typical for accelerators and electron microscopes, as well as in Penning traps, while a linear approximation of weakly inhomogeneous fields works much better for single packets than for classical beams. We analyze quantum dynamics of the packet's rms radius $\langle\rho^2\rangle$, relate this dynamics to a generalized form of the van Cittert-Zernike theorem, applicable at arbitrary distances from a source and for non-Gaussian packets, and adapt the Courant-Snyder formalism to describe the evolution of the wave packet's phase space. The vortex particles can therefore be accelerated, focused, steered, trapped, and even stored in azimuthally symmetric fields and traps, somewhat analogously to the classical angular-momentum-dominated beams. Moreover, we give a quantum version of the Busch theorem, which states how one can produce vortex electrons with a magnetized cathode during either field- or photoemission, as well as vortex ions and protons by using a magnetized stripping foil employed to change a charge state of ions. Spatial coherence of the packets plays a crucial role in these applications and we provide the necessary estimates for particles of different masses.
翻訳日:2023-04-21 05:44:36 公開日:2020-12-10
# マルチモードガウス量子光学と光検出の一般的な枠組み:フィルター付き単一光子源を用いたホン・ウー・マンデル干渉への応用

A general framework for multimode Gaussian quantum optics and photo-detection: application to Hong-Ou-Mandel interference with filtered heralded single photon sources ( http://arxiv.org/abs/2012.05991v1 )

ライセンス: Link先を確認
Oliver F. Thomas, Will McCutcheon, Dara P. S. McCutcheon(参考訳) パラメトリックヘラルド単一光子源を用いた大規模量子情報処理の課題要件は、許容される光子発生率を維持しながら干渉の可視性を最大化することである。 線形および非線形光学素子と多数の空間およびスペクトルモードを併用できる一般的な理論的枠組みを考案し、スペクトルおよび光子数の不純物がパラメトリック光子源の計測されたhong-ou-mandel干渉の可視性に及ぼす影響を、しきい値と数分解検出器の両方を、スペクトルフィルタリングの影響と合わせて検討した。 いずれのスペクトル不純物においても、光子発生率の増加は、数分解検出を用いても干渉可視性を低下させる。 低出力でのスペクトル純度と干渉視認性の向上のためには, 強いスペクトルフィルタリングを用いることができるが, 誘導光子数不純物は, ポンプ動力による干渉視認性および保持効率を低下させ, 最大生成率も低下させる。

The challenging requirements of large scale quantum information processing using parametric heralded single photon sources involves maximising the interference visibility whilst maintaining an acceptable photon generation rate. By developing a general theoretical framework that allows us to include large numbers of spatial and spectral modes together with linear and non-linear optical elements, we investigate the combined effects of spectral and photon number impurity on the measured Hong--Ou--Mandel interference visibility of parametric photon sources, considering both threshold and number resolving detectors, together with the effects of spectral filtering. We find that for any degree of spectral impurity, increasing the photon generation rate necessarily decreases the interference visibility, even when using number resolving detection. While tight spectral filtering can be used to enforce spectral purity and increased interference visibility at low powers, we find that the induced photon number impurity results in a decreasing interference visibility and heralding efficiency with pump power, while the maximum generation rate is also reduced.
翻訳日:2023-04-21 05:38:01 公開日:2020-12-10
# ゼノ効果と反ゼノ効果:強い系と弱い系-環境カップリングを持つスピンボーソンモデルの変形減衰率の研究

The Zeno and anti-Zeno effects: studying modified decay rates for spin-boson models with both strong and weak system-environment couplings ( http://arxiv.org/abs/2012.05911v1 )

ライセンス: Link先を確認
Irfan Javed and Mohsin Raza(参考訳) 本稿では、各測定を行う前にシステム進化を取り除いた場合、繰り返し測定された量子系に何が起こるかを検討する。 2つの独立した高調波発振器の浴槽に結合した1つの2レベルシステムの調査から始め、そのようなシステムの大規模なコレクションに置き換えることで、大きなスピンボソンモデルを呼び起こす。 2段階のシステムはそれぞれ、前述の浴槽の1つと強く相互作用するが、他方と弱い相互作用をする。 ポーラロン変換は、強結合状態における問題を摂動理論で扱うことができるようにするために用いられる。 単一二段階系を包含するケースは、それらの集合を含むケースと定性的かつ定量的な差異を示すが、強い結合と弱い結合の一般的な効果は、システム進化の存在下でのものと同一であることが判明し、システム進化がこれらの効果に実践的な影響を持たないことが証明できる。

In this paper, we look into what happens to a quantum system under repeated measurements if system evolution is removed before each measurement is performed. Beginning with investigating a single two-level system coupled to two independent baths of harmonic oscillators, we move to replacing it with a large collection of such systems, thereby invoking the large spin-boson model. Whereas each of our two-level systems interacts strongly with one of the aforementioned baths, it interacts weakly with the other. A polaron transformation is used to make it possible for the problem in the strong coupling regime to be treated with perturbation theory. We find that the case involving a single two-level system exhibits qualitative and quantitative differences from the case involving a collection of them; however, the general effects of strong and weak couplings turn out to be the same as those in the presence of system evolution, something which allows us to establish that system evolution has no practical bearing on any of these effects.
翻訳日:2023-04-21 05:37:10 公開日:2020-12-10
# 2020年アメリカ合衆国大統領選挙におけるデジタル広告戦略の展開

Evolution of Digital Advertising Strategies during the 2020 US Presidential Primary ( http://arxiv.org/abs/2012.05859v1 )

ライセンス: Link先を確認
NaLette Brodnax and Piotr Sapiezynski(参考訳) デジタルプラットフォーム上での政治広告は近年劇的に成長し、キャンペーンは支持者や潜在的有権者をターゲットとする新しい方法を採用している。 以前の奨学金は、デジタル広告が有権者の知識と参加を増やすことで民主主義政治に肯定的な影響を及ぼし、ユーザー操作、意見の反響、プライバシーの低下によるネガティブな影響があることを示している。 しかし、選挙キャンペーン戦略の研究は主にテレビのような伝統的なメディアに焦点を当てている。 そこで本研究では,2020年アメリカ合衆国大統領選挙における広告戦略を解析し,デジタルメディアの成長に対応して,政治キャンペーンのダイナミクスがいかに進化したかを考察する。 地理的および時間的傾向を特定するために、Facebookで発行された60万近い広告に対するキャンペーン費のレグレッション分析を採用する。 選挙運動は「見えない予備選挙」の段階で候補者の故郷の有権者を強く標的にし、初期予備選挙では州に移行した。

Political advertising on digital platforms has grown dramatically in recent years as campaigns embrace new ways of targeting supporters and potential voters. Previous scholarship shows that digital advertising has both positive effects on democratic politics through increased voter knowledge and participation, and negative effects through user manipulation, opinion echo-chambers, and diminished privacy. However, research on election campaign strategies has focused primarily on traditional media, such as television. Here, we examine how political campaign dynamics have evolved in response to the growth of digital media by analyzing the advertising strategies of US presidential election campaigns during the 2020 primary cycle. To identify geographic and temporal trends, we employ regression analyses of campaign spending across nearly 600,000 advertisements published on Facebook. We show that campaigns heavily target voters in candidates' home states during the "invisible primary" stage before shifting to states with early primaries.
翻訳日:2023-04-21 05:35:24 公開日:2020-12-10
# 高等教育機関におけるクラウド指向型持続可能な学習環境設計ツールとしてのグリーンIT

Green IT as a tool for design cloud-oriented sustainable learning environment of a higher education institution ( http://arxiv.org/abs/2012.07744v1 )

ライセンス: Link先を確認
Tetiana Vakaliuk, Dmitry Antoniuk, Andrii Morozov, Mariia Medvedieva, and Mykhailo Medvediev(参考訳) 本稿では,高等教育機関のためのクラウド指向の持続可能な学習環境を設計するためのツールとして,グリーンITの利用を提案する。 この記事は、ウクライナの持続可能な発展のための前提条件として、そのような環境を設計することの迅速さを強調する。 2030年のウクライナの持続可能な発展の目標の1つは、公正な質の教育を提供し、生涯学習の機会を促進することである。 Green ITは、持続可能なコンピューティングと情報技術に関連する一連のアプローチである。 海外の科学者の業績を分析し,グリーンコンピューティングを用いた学習環境設計の問題を検討した。 その結果、cloud lmsはグリーンitの一種であり、高等教育機関のクラウド指向の持続可能な学習環境を設計するためのツールとして機能できることが確立された。 クラウドLMSを用いた高等教育機関のクラウド指向型持続可能な学習環境のモデルを提案する。 クラウド指向の持続可能な学習環境の応用は、電子ジャーナルの維持、オンラインサービスの利用、対応の実施、オンライン知識の評価などを提供する。 そして、これらすべてが、学習環境の持続可能な発展の鍵です。

The paper proposes the use of green IT as a tool for designing a cloud-oriented sustainable learning environment for a higher education institution. The article substantiates the expediency of designing such an environment as a prerequisite for the sustainable development of Ukraine. It is established that one of the goals of Ukraine's sustainable development for 2030 is to provide fair quality education and to promote lifelong learning opportunities for all. Green IT is a set of approaches related to sustainable computing and information technology. The work of foreign scientists was analyzed, which considered the issues of designing the learning environment using green computing. As a result, Cloud LMS has been established that cloud LMS is a type of green IT and can serve as a tool for designing a cloud-oriented sustainable learning environment of a higher education institution. A model of a cloud-oriented sustainable learning environment of a higher education institution using cloud LMS is proposed. The application of a cloud-oriented sustainable learning environment will provide such capabilities: keep electronic journals; use on-line services; conduct correspondence, assessment of knowledge on-line; and more. And all of the above is the key to a sustainable development of the learning environment.
翻訳日:2023-04-21 05:28:38 公開日:2020-12-10
# 今後の入院の早期警戒信号としてシンドロミックサーベイランスが報告された従業員のCOVID-19症状の二次的活用

Secondary Use of Employee COVID-19 Symptom Reporting as Syndromic Surveillance as an Early Warning Signal of Future Hospitalizations ( http://arxiv.org/abs/2012.07742v1 )

ライセンス: Link先を確認
Steven Horng, Ashley O'Donoghue, Tenzin Dechen, Matthew Rabesa, Ayad Shammout, Lawrence Markson, Venkat Jegadeesan, Manu Tandon, Jennifer P. Stevens(参考訳) 重要性: 病院利用予測の代替手法, 病院危機計画に不可欠な情報は, 疾患検査などの従来のデータソースが限られている場合に, 新たなパンデミックにおいて必要である。 目的: 従業員が居住する地域において、新型コロナウイルス(COVID-19)の入院を予知するために、毎日の症状検査データをシナドロミック監視として使用できるかどうかを決定する。 デザイン:反省的なコホート研究。 設定: 大規模な学術病院ネットワーク 10の病院が、合計2,384のベッドと136,000の退院を抱えている。 参加者:2020年4月2日から2020年11月4日まで、病院1の現場で働く6,841人の従業員。 介入: 自動テキストメッセージシステムを用いて, 日々の従業員自記症状を収集した。 主な成果: 平均絶対誤差 (MAE) と重み付き平均絶対誤差 (WMAPE) は、各病院における毎日のCOVID-19病院国勢調査の7日間の予測である。 結果: 平均年齢40.8名 (sd=13.6名), 8.8歳 (sd=10.4名), 74.8% (n=5,120名) の職員6,841名であった。 当モデルは6.9人の患者を対象とし,wmapeは病院ネットワーク全体の入院率1.5%である。 個々の病院には0.9から4.5の患者(WMAPEは2.1%から16.1%)のMAEがある。 病院1では、症状を報告する従業員数(病院1の平均で症状を報告する従業員4人に相当する)の2倍は、病院1日で5パーセント増加している(95%ci: (0.02, 0.07))。 結論: 1つの病院で使用されているリアルタイムの従業員健康検査ツールを使用して,ニューイングランドの病院ネットワーク全体を通じて,7日間の入院を予測できることがわかった。

Importance: Alternative methods for hospital utilization forecasting, essential information in hospital crisis planning, are necessary in a novel pandemic when traditional data sources such as disease testing are limited. Objective: Determine whether mandatory daily employee symptom attestation data can be used as syndromic surveillance to forecast COVID-19 hospitalizations in the communities where employees live. Design: Retrospective cohort study. Setting: Large academic hospital network of 10 hospitals accounting for a total of 2,384 beds and 136,000 discharges in New England. Participants: 6,841 employees working on-site of Hospital 1 from April 2, 2020 to November 4, 2020, who live in the 10 hospitals' service areas. Interventions: Mandatory, daily employee self-reported symptoms were collected using an automated text messaging system. Main Outcomes: Mean absolute error (MAE) and weighted mean absolute percentage error (WMAPE) of 7 day forecasts of daily COVID-19 hospital census at each hospital. Results: 6,841 employees, with a mean age of 40.8 (SD = 13.6), 8.8 years of service (SD = 10.4), and 74.8% were female (n = 5,120), living in the 10 hospitals' service areas. Our model has an MAE of 6.9 COVID-19 patients and a WMAPE of 1.5% for hospitalizations for the entire hospital network. The individual hospitals had an MAE that ranged from 0.9 to 4.5 patients (WMAPE ranged from 2.1% to 16.1%). At Hospital 1, a doubling of the number of employees reporting symptoms (which corresponds to 4 additional employees reporting symptoms at the mean for Hospital 1) is associated with a 5% increase in COVID-19 hospitalizations at Hospital 1 in 7 days (95% CI: (0.02, 0.07)). Conclusions: We found that a real-time employee health attestation tool used at a single hospital could be used to predict subsequent hospitalizations in 7 days at hospitals throughout a larger hospital network in New England.
翻訳日:2023-04-21 05:28:18 公開日:2020-12-10
# 量子コンピュータによる量子ダーウィン状態の実験的実現

Experimental Realization of Quantum Darwinism State on Quantum Computers ( http://arxiv.org/abs/2012.07562v1 )

ライセンス: Link先を確認
Rakesh Saini and Bikash K. Behera(参考訳) デコヒーレンスが様々な量子情報処理タスクを実現する上で重要な障壁であることはよく知られている。一方、量子システムの脆弱な状態が強固な古典的状態にどのようにつながるかを説明する上で重要な役割を担っている。 Zurek [Nat. Phys. 5, 181-188 (2009)] は、環境によって導入されたデコヒーレンスによって量子系の古典的客観性の出現をうまく記述する理論を開発した。 ここでは、第1の系がランダムな量子状態を示し、もう1の系が環境を表すモデル宇宙の2つの系を考える。 2-, 3-, 4-, 5- および 6-量子回路を持ち、1つの量子ビットからなり、残りの量子ビットは環境量子ビットを表す。 我々は,このシステムのアンサンブルによって構築されたダーウィン状態,ibmq_athens と ibmq_16_melbourne を実験的に実現した。 この結果を用いて,量子古典的相関とシステムと環境間の相互情報について検討した。

It is well-known that decoherence is a crucial barrier in realizing various quantum information processing tasks; on the other hand, it plays a pivotal role in explaining how a quantum system's fragile state leads to the robust classical state. Zurek [Nat. Phys. 5, 181-188 (2009)] has developed the theory which successfully describes the emergence of classical objectivity of quantum system via decoherence, introduced by the environment. Here, we consider two systems for a model universe, in which the first system shows a random quantum state, and the other represents the environment. We take 2-, 3-, 4-, 5- and 6-qubit quantum circuits, where the system consists of one qubit and the rest qubits represent the environment qubits. We experimentally realize the Darwinism state constructed by this system's ensemble on two real devices, ibmq_athens and ibmq_16_melbourne. We then use the results to investigate quantum-classical correlation and the mutual information present between the system and the environment.
翻訳日:2023-04-21 05:27:23 公開日:2020-12-10
# 確率論への量子的招待

A quantum invitation to probability theory ( http://arxiv.org/abs/2012.06355v1 )

ライセンス: Link先を確認
Sebastian Schlei{\ss}inger(参考訳) 子どもの量子確率論と複素解析

Quantum probability theory and complex analysis for children.
翻訳日:2023-04-21 05:26:31 公開日:2020-12-10
# 雑音情報に対する量子生成逆学習の強化法

How to enhance quantum generative adversarial learning of noisy information ( http://arxiv.org/abs/2012.05996v1 )

ライセンス: Link先を確認
Paolo Braccia, Filippo Caruso and Leonardo Banchi(参考訳) 量子機械学習は、現在機械学習が量子情報科学と出会う場所である。 新たな量子技術のためにこの新しいパラダイムを実装するためには、実際の問題に対処する新しいアルゴリズムを提案する前に、その基盤となるメカニズムをより深く理解する必要がある。 この文脈では、量子生成逆学習は、量子推定や生成機械学習タスクに量子デバイスを使用するための有望な戦略である。 しかし、量子プロセッサの実用的な実装に不可欠であるその訓練プロセスの収束挙動は、まだ詳細には調査されていない。 実際、ここでは、リミットサイクルの出現など、最適化プロセス中に異なるトレーニング問題が発生する可能性があることを示す。 後者は、既に利用可能なノイズのある中間スケール量子デバイスにおいて重要な役割を果たす混合量子状態のシナリオにおける収束時間を著しく延長する可能性がある。 そこで我々は,あらゆる運用体制において,より高速な収束を実現するための新しい戦略を提案する。 本研究は,このようなハイブリッドな古典量子プロトコルの実験的実験を行い,古典的プロトコルに対する潜在的優位性を評価するための方法である。

Quantum Machine Learning is where nowadays machine learning meets quantum information science. In order to implement this new paradigm for novel quantum technologies, we still need a much deeper understanding of its underlying mechanisms, before proposing new algorithms to feasibly address real problems. In this context, quantum generative adversarial learning is a promising strategy to use quantum devices for quantum estimation or generative machine learning tasks. However, the convergence behaviours of its training process, which is crucial for its practical implementation on quantum processors, have not been investigated in detail yet. Indeed here we show how different training problems may occur during the optimization process, such as the emergence of limit cycles. The latter may remarkably extend the convergence time in the scenario of mixed quantum states playing a crucial role in the already available noisy intermediate scale quantum devices. Then, we propose new strategies to achieve a faster convergence in any operating regime. Our results pave the way for new experimental demonstrations of such hybrid classical-quantum protocols allowing to evaluate the potential advantages over their classical counterparts.
翻訳日:2023-04-21 05:25:30 公開日:2020-12-10
# 集積型ナノワイヤ電荷センサを用いたInAsナノワイヤトリプル量子ドットの電荷状態検出

Detection of charge states of an InAs nanowire triple quantum dot with an integrated nanowire charge sensor ( http://arxiv.org/abs/2012.05992v1 )

ライセンス: Link先を確認
Weijie Li, Jingwei Mu, Shaoyun Huang, Dong Pan, Jianhua Zhao, and H. Q. Xu(参考訳) 量子ドット(QD)電荷センサと一体化した線形三重量子ドット(TQD)を実現する。 TQDとチャージセンサーは、隣接する2つのInAsナノワイヤから細指ゲート技術で作られている。 ナノワイヤTQDの電荷状態構成は、TQDの直接輸送信号の測定と、ナノワイヤQDセンサを介してTQDの電荷状態遷移を検出することによって研究される。 直接輸送測定および電荷状態遷移検出測定により得られたTQDの電荷安定性図における優れた一致を実現する。 電荷安定図は, tqd中の3つの個別qdの電子占有数の変化に対応して, 異なる斜面の電荷状態遷移線の3つのグループによって特徴付けられることを示した。 また、集積ナノワイヤQDセンサは感度が高く、TQDの直接輸送信号が弱すぎて測定できない場合の電荷状態遷移を検出することができる。 TQDの3つのQDが、ソースおよびドレイン貯水池のフェルミレベルと共鳴し、三重点と四重点の共存が可能である状態に調整することは、TQDの直接輸送信号がほとんど見えない領域における電荷センサの助けを借りても証明されている。

A linear triple quantum dot (TQD) integrated with a quantum dot (QD) charge sensor is realized. The TQD and the charge sensor are built from two adjacent InAs nanowires by fine finger gate technique. The charge state configurations of the nanowire TQD are studied by measurements of the direct transport signals of the TQD and by detection of the charge state transitions in the TQD via the nanowire QD sensor. Excellent agreements in the charge stability diagrams of the TQD obtained by the direct transport measurements and by the charge-state transition detection measurements are achieved. It is shown that the charge stability diagrams are featured by three groups of charge state transition lines of different slopes, corresponding to the changes in the electron occupation numbers of the three individual QDs in the TQD. It is also shown that the integrated nanowire QD sensor is highly sensitive and can detect the charge state transitions in the cases where the direct transport signals of the TQD are too weak to be measurable. Tuning to a regime, where all the three QDs in the TQD are close to be on resonance with the Fermi level of the source and drain reservoirs and co-existence of triple and quadruple points becomes possible, has also been demonstrated with the help of the charge sensor in the region where the direct transport signals of the TQD are hardly visible.
翻訳日:2023-04-21 05:25:13 公開日:2020-12-10
# 分解経路切断による大容量アークルータの分割・並列化問題

Divide-and-Conquer Large Scale Capacitated Arc Routing Problems with Route Cutting Off Decomposition ( http://arxiv.org/abs/1912.12667v2 )

ライセンス: Link先を確認
Yuzhou Zhang, Yi Mei, Buzhong Zhang, Keqin Jiang(参考訳) 容量アークルーティング問題は、多くの実用的応用において非常に重要な問題である。 本稿では大規模容量アークルーティング問題に焦点をあてる。 従来のソリューション最適化アプローチはスケーラビリティが低いため、通常は失敗する。 分割・分散戦略は、元の大きな問題を小さなサブプロブレムに分解し、個別に解決することで、大規模最適化問題の解決に大きな成功を収めた。 アークルーティングでは、タスクをサブセットに分割し、タスクサブセットによって引き起こされるサブプロブレムを解決するのが一般的である。 しかし、分割と分割戦略の成功は、タスク間の複雑な相互作用のために自明ではない適切なタスク分割に依存する。 本稿では,タスク間のインタラクションを洗練された方法で考慮し,経路切断演算子という新しい問題分解演算子を提案する。 経路カットオフ演算子の有効性を検討するために,2つの最先端の分割・結合アルゴリズムと統合し,幅広いベンチマークインスタンスで元のものと比較した。 その結果, 演算子を切断する経路は, 分解効率を向上し, 特に問題サイズが非常に大きく, 時間予算が非常にきつい場合には, 極めて良好な結果が得られることがわかった。

The capacitated arc routing problem is a very important problem with many practical applications. This paper focuses on the large scale capacitated arc routing problem. Traditional solution optimization approaches usually fail because of their poor scalability. The divide-and-conquer strategy has achieved great success in solving large scale optimization problems by decomposing the original large problem into smaller sub-problems and solving them separately. For arc routing, a commonly used divide-and-conquer strategy is to divide the tasks into subsets, and then solve the sub-problems induced by the task subsets separately. However, the success of a divide-and-conquer strategy relies on a proper task division, which is non-trivial due to the complex interactions between the tasks. This paper proposes a novel problem decomposition operator, named the route cutting off operator, which considers the interactions between the tasks in a sophisticated way. To examine the effectiveness of the route cutting off operator, we integrate it with two state-of-the-art divide-and-conquer algorithms, and compared with the original counterparts on a wide range of benchmark instances. The results show that the route cutting off operator can improve the effectiveness of the decomposition, and lead to significantly better results especially when the problem size is very large and the time budget is very tight.
翻訳日:2023-01-17 07:37:14 公開日:2020-12-10
# 3つの結果を持ついくつかの量子測定は、すべての2アウトカムの測定が失敗する非古典性を明らかにすることができる。

Some quantum measurements with three outcomes can reveal nonclassicality where all two-outcome measurements fail to do so ( http://arxiv.org/abs/2001.03514v2 )

ライセンス: Link先を確認
H. Chau Nguyen and Otfried G\"uhne(参考訳) 測定は、量子世界と古典的知覚の間の中間的なコミュニケーション層として機能する。 したがって、量子システムから効率的に情報を抽出する問題は中心的な関心事である。 量子ステアリングを非古典現象として用いると、すべての二元測定結果が古典的方法で説明できる例が存在するが、いくつかの三元測定結果では説明できないことが分かる。 これは、量子系に隠された非古典性を明らかにする結果の数の重要性を示す。 さらに, 量子ステアリングの新しい基準を提供し, 局所隠れ変数モデルの構築方法を改良することにより, 量子相関の理解を深める。

Measurements serve as the intermediate communication layer between the quantum world and our classical perception. So, the question which measurements efficiently extract information from quantum systems is of central interest. Using quantum steering as a nonclassical phenomenon, we show that there are instances, where the results of all two-outcome measurements can be explained in a classical manner, while the results of some three-outcome measurements cannot. This points at the important role of the number of outcomes in revealing the nonclassicality hidden in a quantum system. Moreover, our methods allow to improve the understanding of quantum correlations by delivering novel criteria for quantum steering and improved ways to construct local hidden variable models.
翻訳日:2023-01-12 23:21:59 公開日:2020-12-10
# カリキュラムラベリング:半教師付き学習のための擬似ラベリングの再検討

Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised Learning ( http://arxiv.org/abs/2001.06001v2 )

ライセンス: Link先を確認
Paola Cascante-Bonilla, Fuwen Tan, Yanjun Qi, Vicente Ordonez(参考訳) 本稿では,学習アルゴリズムがラベル付きサンプルの小さなセットとラベルなしサンプルの大規模なセットにアクセスできる半教師付き学習の文脈において,擬似ラベル付けの考え方を再考する。 擬似ラベルは、ラベル付きサンプルと以前の擬似ラベル付きサンプルの組み合わせで訓練されたモデルを用いて、未ラベルセットのサンプルに擬似ラベルを適用し、このプロセスを自己学習サイクルで反復的に繰り返す。 現在の手法では、ラベルなしサンプルの異なるスタイルでの自己教師付き損失とラベル付きサンプルの標準教師付き損失の組み合わせでモデルを訓練する一貫性の正規化法に賛成して、このアプローチを放棄したようである。 実験により,偽ラベルは非ラベル集合の分散サンプルに対してより弾力性を持ちながら,最先端技術と実際に競合することを実証する。 そこで本研究では, カリキュラム学習原則の適用と, 自己学習サイクルに先立ってモデルパラメータを再開することで, 概念ドリフトを回避することの2つの重要な要因を明らかにした。 CIFAR-10で94.91%、Imagenet-ILSVRCで68.87%、ラベル付きサンプルで68.87%の精度で94.91%の精度を得る。 コードはhttps://github.com/uvavision/Curriculum-Labelingで入手できる。

In this paper we revisit the idea of pseudo-labeling in the context of semi-supervised learning where a learning algorithm has access to a small set of labeled samples and a large set of unlabeled samples. Pseudo-labeling works by applying pseudo-labels to samples in the unlabeled set by using a model trained on the combination of the labeled samples and any previously pseudo-labeled samples, and iteratively repeating this process in a self-training cycle. Current methods seem to have abandoned this approach in favor of consistency regularization methods that train models under a combination of different styles of self-supervised losses on the unlabeled samples and standard supervised losses on the labeled samples. We empirically demonstrate that pseudo-labeling can in fact be competitive with the state-of-the-art, while being more resilient to out-of-distribution samples in the unlabeled set. We identify two key factors that allow pseudo-labeling to achieve such remarkable results (1) applying curriculum learning principles and (2) avoiding concept drift by restarting model parameters before each self-training cycle. We obtain 94.91% accuracy on CIFAR-10 using only 4,000 labeled samples, and 68.87% top-1 accuracy on Imagenet-ILSVRC using only 10% of the labeled samples. The code is available at https://github.com/uvavision/Curriculum-Labeling
翻訳日:2023-01-10 23:26:35 公開日:2020-12-10
# VGAI:ロボット群のためのビジョンベース分散型コントローラのエンドツーエンド学習

VGAI: End-to-End Learning of Vision-Based Decentralized Controllers for Robot Swarms ( http://arxiv.org/abs/2002.02308v2 )

ライセンス: Link先を確認
Ting-Kuei Hu, Fernando Gama, Tianlong Chen, Zhangyang Wang, Alejandro Ribeiro, Brian M. Sadler(参考訳) ロボット集団の分散協調は、局所的な知覚と行動の緊張とグローバルな目標の達成に対処しなければならない。 本研究では,ビジュアル入力のみに基づいて分散制御系を学習することを提案する。 初めて、それは2つの重要なコンポーネント、コミュニケーションと視覚知覚の学習を1つのエンドツーエンドフレームワークに統合する。 より具体的には、各ロボットは、周辺環境の視覚的認識と、他の隣接するロボットからのメッセージの送信と受信を行う通信能力にアクセスできると考えている。 提案する学習フレームワークは,各ロボットが視覚入力からメッセージを抽出するための畳み込みニューラルネットワーク(CNN)と,Swarm全体のグラフニューラルネットワーク(GNN)を組み合わせて,これらのメッセージを送信,受信,処理し,アクションを決定する。 GNNとローカルに実行されるCNNの使用は、自然に分散化されたコントローラで実現される。 私たちは、cnnとgnnを共同で訓練し、各ロボットがチーム全体に適した画像からメッセージを抽出するようにします。 私たちの実験では,提案するアーキテクチャをドローン群集問題において実証し,75機のドローンからなる大規模群集に対して,その有望な性能と拡張性を示す。

Decentralized coordination of a robot swarm requires addressing the tension between local perceptions and actions, and the accomplishment of a global objective. In this work, we propose to learn decentralized controllers based on solely raw visual inputs. For the first time, that integrates the learning of two key components: communication and visual perception, in one end-to-end framework. More specifically, we consider that each robot has access to a visual perception of the immediate surroundings, and communication capabilities to transmit and receive messages from other neighboring robots. Our proposed learning framework combines a convolutional neural network (CNN) for each robot to extract messages from the visual inputs, and a graph neural network (GNN) over the entire swarm to transmit, receive and process these messages in order to decide on actions. The use of a GNN and locally-run CNNs results naturally in a decentralized controller. We jointly train the CNNs and the GNN so that each robot learns to extract messages from the images that are adequate for the team as a whole. Our experiments demonstrate the proposed architecture in the problem of drone flocking and show its promising performance and scalability, e.g., achieving successful decentralized flocking for large-sized swarms consisting of up to 75 drones.
翻訳日:2023-01-03 13:24:56 公開日:2020-12-10
# 深層学習によるプレゼンス検出のためのハーベッティング環境RF

Harvesting Ambient RF for Presence Detection Through Deep Learning ( http://arxiv.org/abs/2002.05770v3 )

ライセンス: Link先を確認
Yang Liu, Tiexing Wang, Yuexin Jiang, Biao Chen(参考訳) 本稿では,深層学習による人的存在検出における環境無線周波数(RF)信号の利用について検討する。 wifi信号の例として,受信機で取得したチャネル状態情報(csi)が伝搬環境に関する情報を豊富に含むことを示す。 推定したCSIの予備処理と深層学習により、信頼性の高い存在検出が可能となる。 受動RFセンシングにおけるいくつかの課題に対処する。 存在検出では、人間の存在によるトレーニングデータの収集方法が、パフォーマンスに大きな影響を与える可能性がある。 これは、特定の動きパターンが興味がある場合のアクティビティ検出とは対照的である。 第2の課題は、RF信号が複素値であることである。 複雑な値の入力をディープラーニングで処理するには、注意深いデータ表現とネットワークアーキテクチャ設計が必要である。 最後に、人間の存在は多次元のcsi変動に影響を与えるが、そのような変動はしばしばタイミングや周波数オフセットといったシステムの障害によって隠蔽される。 これらの課題に対処すべく,本学習システムは,人間の運動誘発チャネル変動を他の障害に対して遮断しながら保存するために前処理を用いる。 畳み込みニューラルネットワーク(CNN)は、大きさと位相情報を適切に訓練し、信頼性の高い存在検出を実現するように設計されている。 大規模な実験が行われている。 市販のWiFiデバイスを用いて,複数回の試験でほぼ完全に近い存在検出を実現し,先進のエッジ受動赤外線センサと比較して優れた性能を示す。 既存のRFに基づく人的存在検出と比較しても、特に全く新しい環境に配備された場合、その性能の堅牢性を示す。

This paper explores the use of ambient radio frequency (RF) signals for human presence detection through deep learning. Using WiFi signal as an example, we demonstrate that the channel state information (CSI) obtained at the receiver contains rich information about the propagation environment. Through judicious pre-processing of the estimated CSI followed by deep learning, reliable presence detection can be achieved. Several challenges in passive RF sensing are addressed. With presence detection, how to collect training data with human presence can have a significant impact on the performance. This is in contrast to activity detection when a specific motion pattern is of interest. A second challenge is that RF signals are complex-valued. Handling complex-valued input in deep learning requires careful data representation and network architecture design. Finally, human presence affects CSI variation along multiple dimensions; such variation, however, is often masked by system impediments such as timing or frequency offset. Addressing these challenges, the proposed learning system uses pre-processing to preserve human motion induced channel variation while insulating against other impairments. A convolutional neural network (CNN) properly trained with both magnitude and phase information is then designed to achieve reliable presence detection. Extensive experiments are conducted. Using off-the-shelf WiFi devices, the proposed deep learning based RF sensing achieves near perfect presence detection during multiple extended periods of test and exhibits superior performance compared with leading edge passive infrared sensors. Comparison with existing RF based human presence detection also demonstrates its robustness in performance, especially when deployed in a completely new environment.
翻訳日:2023-01-01 13:03:46 公開日:2020-12-10
# PAキャッシュ:エッジネットワークにおける学習ベースの人気コンテンツキャッシュの進化

PA-Cache: Evolving Learning-Based Popularity-Aware Content Caching in Edge Networks ( http://arxiv.org/abs/2002.08805v2 )

ライセンス: Link先を確認
Qilin Fan, Xiuhua Li, Jian Li, Qiang He, Kai Wang, Junhao Wen(参考訳) ユビキタスでパーソナライズされたサービスが急成長するにつれ、巨大なモバイルデバイスによってネットワーク上で大量のトラフィックが生成されるようになっている。 その結果、コンテンツキャッシングは徐々にネットワークエッジに拡張され、低レイテンシサービスを提供し、サービスの品質を改善し、冗長なデータトラフィックを減らすことができる。 従来のコンテンツ配信ネットワークと比較して、サイズが小さいエッジネットワークのキャッシュは、通常、よりバーストな要求に対応する必要がある。 本稿では,エッジネットワークにおけるPAキャッシュという,学習ベースのコンテンツキャッシュポリシを提案する。 時間変化のあるコンテンツの人気を適応的に学習し、キャッシュが満杯になったらどのコンテンツを置き換えるべきかを判断する。 計算複雑性の高いトレーニングデータセット全体を使用して、微調整された、あるいは時代遅れあるいは偏りのある予測モデルを学ぶ従来のディープニューラルネットワーク(dnns)とは異なり、pa-cacheは大量のコンテンツ機能を重み付け、より多くのリクエストが経つにつれて、多層リカレントニューラルネットワークを浅層から深層へとトレーニングする。 提案するPAキャッシュの性能を,大規模オンラインビデオオンデマンドサービスプロバイダによる実世界のトレースで広く評価した。 その結果、PA-Cacheは既存の一般的なキャッシュアルゴリズムより優れており、キャッシュパーセンテージが1.0\%のとき、パフォーマンスギャップがわずか3.8\%の最適アルゴリズムを近似していることがわかった。 PAキャッシュは従来のDNNベースのアプローチに比べて計算コストを大幅に削減する。

As ubiquitous and personalized services are growing boomingly, an increasingly large amount of traffic is generated over the network by massive mobile devices. As a result, content caching is gradually extending to network edges to provide low-latency services, improve quality of service, and reduce redundant data traffic. Compared to the conventional content delivery networks, caches in edge networks with smaller sizes usually have to accommodate more bursty requests. In this paper, we propose an evolving learning-based content caching policy, named PA-Cache in edge networks. It adaptively learns time-varying content popularity and determines which contents should be replaced when the cache is full. Unlike conventional deep neural networks (DNNs), which learn a fine-tuned but possibly outdated or biased prediction model using the entire training dataset with high computational complexity, PA-Cache weighs a large set of content features and trains the multi-layer recurrent neural network from shallow to deeper when more requests arrive over time. We extensively evaluate the performance of our proposed PA-Cache on real-world traces from a large online video-on-demand service provider. \rb{The results show that PA-Cache outperforms existing popular caching algorithms and approximates the optimal algorithm with only a 3.8\% performance gap when the cache percentage is 1.0\%}. PA-Cache also significantly reduces the computational cost compared to conventional DNN-based approaches.
翻訳日:2022-12-30 08:20:36 公開日:2020-12-10
# 線形非分離データ分類のためのニューラルネットワーク学習における低速から高速なウェイト進化のグローバル収束と幾何学的特徴

Global Convergence and Geometric Characterization of Slow to Fast Weight Evolution in Neural Network Training for Classifying Linearly Non-Separable Data ( http://arxiv.org/abs/2002.12563v3 )

ライセンス: Link先を確認
Ziang Long and Penghang Yin and Jack Xin(参考訳) 本稿では,分類問題に対するニューラルネットワーク学習における勾配降下のダイナミクスについて検討する。 既存の研究とは異なり、異なるクラスのトレーニングデータが直交部分空間に置かれる線形に非分離なケースを考える。 ネットワークに十分な数のニューロンが存在する場合,(1) 対応する最小化問題は,すべての臨界点が完全分類された大域最小値である所望の景観を持ち,(2) 勾配降下は大域最小値に収束することが保証されることを示す。 さらに, ネットワークウェイトの幾何学的条件を見出し, 満足すると, 重みの進行速度の遅い位相から重みの収束の速い段階へと重みの進化が遷移することを示した。 幾何学的条件は、単位球面上に射影される重みの凸包が原点を含むことを意味する。

In this paper, we study the dynamics of gradient descent in learning neural networks for classification problems. Unlike in existing works, we consider the linearly non-separable case where the training data of different classes lie in orthogonal subspaces. We show that when the network has sufficient (but not exceedingly large) number of neurons, (1) the corresponding minimization problem has a desirable landscape where all critical points are global minima with perfect classification; (2) gradient descent is guaranteed to converge to the global minima. Moreover, we discovered a geometric condition on the network weights so that when it is satisfied, the weight evolution transitions from a slow phase of weight direction spreading to a fast phase of weight convergence. The geometric condition says that the convex hull of the weights projected on the unit sphere contains the origin.
翻訳日:2022-12-28 01:56:57 公開日:2020-12-10
# 自己監督型マルチモーダル学習における密度推定を用いた雑音推定

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning ( http://arxiv.org/abs/2003.03186v3 )

ライセンス: Link先を確認
Elad Amrani, Rami Ben-Ari, Daniel Rotman and Alex Bronstein(参考訳) 機械学習モデルが現実のタスクを理解し、解決できるようにする重要な要因の1つは、マルチモーダルデータを活用することである。 残念ながら、マルチモーダルデータのアノテーションは困難で高価です。 近年,アノテーションなしでマルチモーダル表現を学ぶために,視覚と言語を組み合わせた自己教師付きマルチモーダル手法が提案されている。 しかし、これらの手法は高レベルのノイズの存在を無視することが多いため、最適ではない結果が得られる。 本研究では,マルチモーダルデータに対するノイズ推定の問題をマルチモーダル密度推定タスクに還元できることを示す。 マルチモーダル密度推定を用いて,異なるモーダル性間の固有相関を厳密に基礎としたマルチモーダル表現学習のための雑音推定構築ブロックを提案する。 提案手法は,映像質問応答とテキスト・トゥ・ビデオ検索の2つの課題に対して,5つのベンチマークデータセットにおける最先端性能に匹敵する結果が得られることを示す。 さらに,実験結果を裏付ける理論的確率的誤差境界を提供し,故障事例を解析する。 コード: https://github.com/elad-amrani/ssml。

One of the key factors of enabling machine learning models to comprehend and solve real-world tasks is to leverage multimodal data. Unfortunately, annotation of multimodal data is challenging and expensive. Recently, self-supervised multimodal methods that combine vision and language were proposed to learn multimodal representations without annotation. However, these methods often choose to ignore the presence of high levels of noise and thus yield sub-optimal results. In this work, we show that the problem of noise estimation for multimodal data can be reduced to a multimodal density estimation task. Using multimodal density estimation, we propose a noise estimation building block for multimodal representation learning that is based strictly on the inherent correlation between different modalities. We demonstrate how our noise estimation can be broadly integrated and achieves comparable results to state-of-the-art performance on five different benchmark datasets for two challenging multimodal tasks: Video Question Answering and Text-To-Video Retrieval. Furthermore, we provide a theoretical probabilistic error bound substantiating our empirical results and analyze failure cases. Code: https://github.com/elad-amrani/ssml.
翻訳日:2022-12-26 01:29:02 公開日:2020-12-10
# 生体画像分割のためのカプセル

Capsules for Biomedical Image Segmentation ( http://arxiv.org/abs/2004.04736v2 )

ライセンス: Link先を確認
Rodney LaLonde, Ziyue Xu, Ismail Irmakci, Sanjay Jain, Ulas Bagci(参考訳) 私たちの研究は、カプセルネットワークの利用を、文献の中で初めてオブジェクトセグメンテーションのタスクに拡張しています。 これは、パラメータ/メモリの負担を軽減し、大きな解像度でオブジェクトのセグメンテーションを可能にする、ローカル制約付きルーティングと変換マトリックス共有の導入によって実現されている。 ルーティングの制約によるグローバル情報の損失を補うため,SegCapsと呼ばれるディープエンコーダ・デコーダスタイルのネットワークを構築するために,デコンボリューショナルカプセルの概念を提案する。 本手法では,マスキング復元の規則化をセグメント化のタスクに拡張し,各成分について徹底的なアブレーション実験を行う。 提案するconvolutional-deconvolutional capsule network(segcaps)は,一般的なセグメンテーションネットワークのパラメータのごく一部を用いて,最先端の結果を示す。 提案法の有効性を検証するため,臨床および臨床・臨床・臨床・臨床の胸部CTによる病理肺の分画と筋の分画実験を行い,MRIによるヒト大腿部病変の鑑別を行った。 特に, 肺分画実験は, 臨床患者と臨床前患者の両方を含む5つの極めて困難なデータセットおよび2000近いctスキャンを用いて, 病理的肺分画における最大規模の研究である。 新たに開発したセグメンテーションプラットフォームは,一般的なu-netのパラメータの5%未満を生体画像セグメンテーションに利用しながら,全データセットで他の手法を上回っている。 さらに、カプセルが自然画像上で見えない回転/反射を一般化する能力を示す。

Our work expands the use of capsule networks to the task of object segmentation for the first time in the literature. This is made possible via the introduction of locally-constrained routing and transformation matrix sharing, which reduces the parameter/memory burden and allows for the segmentation of objects at large resolutions. To compensate for the loss of global information in constraining the routing, we propose the concept of "deconvolutional" capsules to create a deep encoder-decoder style network, called SegCaps. We extend the masked reconstruction regularization to the task of segmentation and perform thorough ablation experiments on each component of our method. The proposed convolutional-deconvolutional capsule network, SegCaps, shows state-of-the-art results while using a fraction of the parameters of popular segmentation networks. To validate our proposed method, we perform experiments segmenting pathological lungs from clinical and pre-clinical thoracic computed tomography (CT) scans and segmenting muscle and adipose (fat) tissue from magnetic resonance imaging (MRI) scans of human subjects' thighs. Notably, our experiments in lung segmentation represent the largest-scale study in pathological lung segmentation in the literature, where we conduct experiments across five extremely challenging datasets, containing both clinical and pre-clinical subjects, and nearly 2000 computed-tomography scans. Our newly developed segmentation platform outperforms other methods across all datasets while utilizing less than 5% of the parameters in the popular U-Net for biomedical image segmentation. Further, we demonstrate capsules' ability to generalize to unseen rotations/reflections on natural images.
翻訳日:2022-12-15 02:47:27 公開日:2020-12-10
# 1つまたは複数のサンプルからイジングモデルを学ぶ

Learning Ising models from one or multiple samples ( http://arxiv.org/abs/2004.09370v3 )

ライセンス: Link先を確認
Yuval Dagan, Constantinos Daskalakis, Nishanth Dikkala, Anthimos Vardis Kandiros(参考訳) イジングモデルの推定には,(1)モデルの相互作用行列を最小限の仮定で複数の独立したサンプルから推定すること,(2)限定的な設定で1つのサンプルから推定すること,の2つの異なる作業ラインがある。 これら2つの設定をスムーズに補間し、1、数、または多くのサンプルからよりリッチな推定保証を可能にする統一フレームワークを提案する。 我々の主定理は1サンプル推定の保証を提供し、相互作用行列の族における計量エントロピーの観点から推定誤差を定量化する。 主定理の系として、モデルの相互作用行列が既知の行列の(まばらな)線型結合であるとき、あるいはそれが有限集合に属するとき、あるいは高次元多様体に境界を導出する。 実際、本研究の主な成果は、複数の独立したサンプルを、より大きなモデルから1つのサンプルと見なすことで処理し、前述した複数サンプルの文献と定性的に類似した推定境界を導出することができる。 我々の技術的アプローチは、モデルの相互作用ネットワークをスパース化し、結果の条件分布への依存性を十分に弱める変数のサブセットを条件付けすることの恩恵を受ける。 我々は,このスパーシフィケーション手法を用いて,本論文の範囲を超えて応用できると考えられるイジングモデルの強い濃度と反集中性を証明する。

There have been two separate lines of work on estimating Ising models: (1) estimating them from multiple independent samples under minimal assumptions about the model's interaction matrix; and (2) estimating them from one sample in restrictive settings. We propose a unified framework that smoothly interpolates between these two settings, enabling significantly richer estimation guarantees from one, a few, or many samples. Our main theorem provides guarantees for one-sample estimation, quantifying the estimation error in terms of the metric entropy of a family of interaction matrices. As corollaries of our main theorem, we derive bounds when the model's interaction matrix is a (sparse) linear combination of known matrices, or it belongs to a finite set, or to a high-dimensional manifold. In fact, our main result handles multiple independent samples by viewing them as one sample from a larger model, and can be used to derive estimation bounds that are qualitatively similar to those obtained in the afore-described multiple-sample literature. Our technical approach benefits from sparsifying a model's interaction network, conditioning on subsets of variables that make the dependencies in the resulting conditional distribution sufficiently weak. We use this sparsification technique to prove strong concentration and anti-concentration results for the Ising model, which we believe have applications beyond the scope of this paper.
翻訳日:2022-12-11 19:22:25 公開日:2020-12-10
# CFAN-VAEによる表面の非教師付き幾何学的歪み

Unsupervised Geometric Disentanglement for Surfaces via CFAN-VAE ( http://arxiv.org/abs/2005.11622v2 )

ライセンス: Link先を確認
N. Joseph Tatro, Stefan C. Schonsheck, Rongjie Lai(参考訳) 幾何学的非絡み合い(geometric disentanglement)とは、内在的(アイデンティティ)と外在的(ポーズ)幾何学の遅延符号の分離であり、3次元変形可能なモデルのような非ユークリッドデータの生成モデルのための顕著なタスクである。 これは潜在空間のより深い解釈可能性を提供し、世代におけるさらなる制御をもたらす。 この研究は、メッシュ畳み込みオートエンコーダで使用するメッシュ機能、コンフォーマルファクタ、正規機能(CFAN)を導入している。 さらに、CFAN機能を用いて識別とポーズをアンタングル化する新しいアーキテクチャであるCFAN-VAEを提案する。 CFAN-VAEは、訓練中にアイデンティティやポーズに関するラベル情報を必要としないため、教師なし経路における幾何学的ゆがみを実現する。 再構成,補間,生成,同一性/目的移動を含む包括的実験により,CFAN-VAEが非教師視的幾何学的歪曲に対する最先端の性能を実証した。 また,xyz座標を直接符号化するメッシュ畳み込みオートエンコーダにおいて,その潜在空間をCFAN-VAEに登録することで,幾何学的歪みのレベルを検出することに成功した。

Geometric disentanglement, the separation of latent codes for intrinsic (i.e. identity) and extrinsic(i.e. pose) geometry, is a prominent task for generative models of non-Euclidean data such as 3D deformable models. It provides greater interpretability of the latent space, and leads to more control in generation. This work introduces a mesh feature, the conformal factor and normal feature (CFAN),for use in mesh convolutional autoencoders. We further propose CFAN-VAE, a novel architecture that disentangles identity and pose using the CFAN feature. Requiring no label information on the identity or pose during training, CFAN-VAE achieves geometric disentanglement in an unsupervisedway. Our comprehensive experiments, including reconstruction, interpolation, generation, and identity/pose transfer, demonstrate CFAN-VAE achieves state-of-the-art performance on unsupervised geometric disentanglement. We also successfully detect a level of geometric disentanglement in mesh convolutional autoencoders that encode xyz-coordinates directly by registering its latent space to that of CFAN-VAE.
翻訳日:2022-11-30 03:19:37 公開日:2020-12-10
# 多次元非線形場上の物理的解釈可能な機械学習アルゴリズム

Physically interpretable machine learning algorithm on multidimensional non-linear fields ( http://arxiv.org/abs/2005.13912v2 )

ライセンス: Link先を確認
Rem-Sophia Mouradi, C\'edric Goeury, Olivier Thual, Fabrice Zaoui and Pablo Tassi(参考訳) 本稿では,機械学習(ML)と良好なデータ開発コンテキストへの関心が高まっている中で,データに基づく2次元物理場の予測手法を提案する。 Uncertainty Quantification Community (UQ) で広く使われているポリノミアルカオス拡張(PCE)は、確率的入出力マッピングの堅牢な表現として長年使われてきた。 最近、純粋なMLコンテキストでテストされ、ポイントワイズ予測のための古典的なML技術と同じくらい強力であることが示されている。 いくつかの利点は、関連する確率的フレームワークに加えて、その明示性と小さなトレーニングセットへの適応性など、この手法に固有のものである。 同時に、パターン認識やデータ圧縮に次元還元(dr)技術がますます使われ、データ品質の向上によって関心を集めている。 本研究では, 統計的予測モデル構築における適切な直交分解(POD)の関心を示す。 PODとPCEはどちらも、それぞれのフレームワークでその価値を十分に証明している。 本研究の目的は,フィールド計測に基づく予測に組み合わせることである。 説明されたステップは、データ分析にも役立ちます。 例えば、データが少ない場合など、多次元のフィールド計測で発生する問題に対処する。 POD-PCE結合手法は入力データの特徴と学習セットの選択に特に焦点をあてたものである。 各物理パラメータの重要性を評価するための簡単な手法をPCEモデルに提案し,POD-PCE結合に拡張した。

In an ever-increasing interest for Machine Learning (ML) and a favorable data development context, we here propose an original methodology for data-based prediction of two-dimensional physical fields. Polynomial Chaos Expansion (PCE), widely used in the Uncertainty Quantification community (UQ), has long been employed as a robust representation for probabilistic input-to-output mapping. It has been recently tested in a pure ML context, and shown to be as powerful as classical ML techniques for point-wise prediction. Some advantages are inherent to the method, such as its explicitness and adaptability to small training sets, in addition to the associated probabilistic framework. Simultaneously, Dimensionality Reduction (DR) techniques are increasingly used for pattern recognition and data compression and have gained interest due to improved data quality. In this study, the interest of Proper Orthogonal Decomposition (POD) for the construction of a statistical predictive model is demonstrated. Both POD and PCE have amply proved their worth in their respective frameworks. The goal of the present paper was to combine them for a field-measurement-based forecasting. The described steps are also useful to analyze the data. Some challenging issues encountered when using multidimensional field measurements are addressed, for example when dealing with few data. The POD-PCE coupling methodology is presented, with particular focus on input data characteristics and training-set choice. A simple methodology for evaluating the importance of each physical parameter is proposed for the PCE model and extended to the POD-PCE coupling.
翻訳日:2022-11-27 05:01:08 公開日:2020-12-10
# MAMLオブジェクトはいつ、ランドスケープに相応しいのか?

When Does MAML Objective Have Benign Landscape? ( http://arxiv.org/abs/2006.00453v2 )

ライセンス: Link先を確認
Igor Molybog and Javad Lavaei(参考訳) 本稿では,モデル非依存メタラーニング(MAML)アルゴリズムの背後にある最適化問題の複雑性について検討する。 本研究の目的は,共通構造を有する逐次的意思決定タスクにおけるMAMLのグローバルコンバージェンスを決定することである。 基礎となるタスクの良質なランドスケープが、対応するmamlの目的の良質なランドスケープにいつつながるのか、私たちは知りたいのです。 図示として、LQRタスクにおけるMAML目標のランドスケープを分析し、その構造においてどの種類の類似性がアルゴリズムをグローバルに最適解に収束させるかを決定する。

The paper studies the complexity of the optimization problem behind the Model-Agnostic Meta-Learning (MAML) algorithm. The goal of the study is to determine the global convergence of MAML on sequential decision-making tasks possessing a common structure. We are curious to know when, if at all, the benign landscape of the underlying tasks results in a benign landscape of the corresponding MAML objective. For illustration, we analyze the landscape of the MAML objective on LQR tasks to determine what types of similarities in their structures enable the algorithm to converge to the globally optimal solution.
翻訳日:2022-11-26 12:31:49 公開日:2020-12-10
# 非連結多様体を学習する:非ガンス陸

Learning disconnected manifolds: a no GANs land ( http://arxiv.org/abs/2006.04596v3 )

ライセンス: Link先を確認
Ugo Tanielian, Thibaut Issenhuth, Elvis Dohmatob, Jeremie Mary(参考訳) 生成型adversarialnetworksの典型的なアーキテクチャは、連続生成器によって変換される一様潜在分布を利用する。 したがって、モデル化された分布は常に連結な支持を持ち、多様体の切断集合を学習するときは面倒である。 我々は、対象分布の精度の上限を述べた非連結多様体学習に対する自由弁当定理を定式化することによって、この問題を定式化する。 これは、ジェネレータが2つの非接続モード間でデータを継続的にサンプリングする低品質領域が必要とされることに基づいて行われる。 最後に, ジェネレータヤコビアンのノルムに基づく拒絶サンプリング法を導出し, その効率をBigGANを含む複数のジェネレータで示す。

Typical architectures of Generative AdversarialNetworks make use of a unimodal latent distribution transformed by a continuous generator. Consequently, the modeled distribution always has connected support which is cumbersome when learning a disconnected set of manifolds. We formalize this problem by establishing a no free lunch theorem for the disconnected manifold learning stating an upper bound on the precision of the targeted distribution. This is done by building on the necessary existence of a low-quality region where the generator continuously samples data between two disconnected modes. Finally, we derive a rejection sampling method based on the norm of generators Jacobian and show its efficiency on several generators including BigGAN.
翻訳日:2022-11-24 00:41:55 公開日:2020-12-10
# MeshWalker: ランダムウォークによるディープメッシュ理解

MeshWalker: Deep Mesh Understanding by Random Walks ( http://arxiv.org/abs/2006.05353v3 )

ライセンス: Link先を確認
Alon Lahav, Ayellet Tal(参考訳) ディープラーニングのための3d形状を表現するほとんどの試みは、ボリュームグリッド、マルチビューイメージ、ポイントクラウドに焦点を当てている。 本稿では,コンピュータグラフィックスにおける最も一般的な3d形状表現である三角形メッシュについて考察し,ディープラーニングでどのように活用できるかを問う。 この質問に答えようとする数少ない試みは、畳み込みとプーリングを畳み込みニューラルネットワーク(CNN)に適合させることである。 本稿では,meshwalkerと呼ばれる,与えられたメッシュから直接形状を学習する手法を提案する。 重要なアイデアは、メッシュの幾何学とトポロジーを「展開」する、表面をランダムに歩くことでメッシュを表現することである。 各ウォークは頂点のリストとして整理され、何らかの方法でメッシュに規則性を課す。 ウォークはリカレントニューラルネットワーク(RNN)に入力され、ウォークの歴史を「記憶」する。 提案手法は,2つの基本形状解析課題である形状分類と意味的セグメンテーションに対して,最新の結果が得られることを示す。 さらに、ごく少数の例でさえ、学習に十分である。 メッシュの大きなデータセットは取得が難しいため、これは非常に重要です。

Most attempts to represent 3D shapes for deep learning have focused on volumetric grids, multi-view images and point clouds. In this paper we look at the most popular representation of 3D shapes in computer graphics - a triangular mesh - and ask how it can be utilized within deep learning. The few attempts to answer this question propose to adapt convolutions & pooling to suit Convolutional Neural Networks (CNNs). This paper proposes a very different approach, termed MeshWalker, to learn the shape directly from a given mesh. The key idea is to represent the mesh by random walks along the surface, which "explore" the mesh's geometry and topology. Each walk is organized as a list of vertices, which in some manner imposes regularity on the mesh. The walk is fed into a Recurrent Neural Network (RNN) that "remembers" the history of the walk. We show that our approach achieves state-of-the-art results for two fundamental shape analysis tasks: shape classification and semantic segmentation. Furthermore, even a very small number of examples suffices for learning. This is highly important, since large datasets of meshes are difficult to acquire.
翻訳日:2022-11-23 14:46:16 公開日:2020-12-10
# 空間確率ネットワークを用いた低歪みブロックサンプリング

Low Distortion Block-Resampling with Spatially Stochastic Networks ( http://arxiv.org/abs/2006.05394v2 )

ライセンス: Link先を確認
Sarah Jane Hong, Martin Arjovsky, Darryl Barnhart, Ian Thompson(参考訳) 私たちは、可能な限り多様な古い画像から新しい画像を生成する問題を形式化し、攻撃します。 これは生成的モデリングで見られる典型的な状況を含み、生成したデータの一部に満足しているが、他のものを再サンプリングしたい(この生成された城は全体として好きだが、この塔は非現実的に見える。 この問題に対処するために、我々は最適な条件付き無条件生成モデルから構築し、新しいネットワークアーキテクチャ、トレーニング手順、および画像の一部を必要に応じて再サンプリングするためのアルゴリズムを導入する。

We formalize and attack the problem of generating new images from old ones that are as diverse as possible, only allowing them to change without restrictions in certain parts of the image while remaining globally consistent. This encompasses the typical situation found in generative modelling, where we are happy with parts of the generated data, but would like to resample others ("I like this generated castle overall, but this tower looks unrealistic, I would like a new one"). In order to attack this problem we build from the best conditional and unconditional generative models to introduce a new network architecture, training procedure, and algorithm for resampling parts of the image as desired.
翻訳日:2022-11-23 13:59:27 公開日:2020-12-10
# ディープニューラルネットワークの脆弱性を探る:パラメータ破壊の研究

Exploring the Vulnerability of Deep Neural Networks: A Study of Parameter Corruption ( http://arxiv.org/abs/2006.05620v2 )

ライセンス: Link先を確認
Xu Sun, Zhiyuan Zhang, Xuancheng Ren, Ruixuan Luo, Liangyou Li(参考訳) モデルパラメータの脆弱性はモデルロバスト性や一般化の研究に不可欠であるが、この問題を理解するための研究はほとんど行われていない。 本研究では,ニューラルネットワークのパラメーターのロバスト性を測定する指標を提案する。 提案する指標は,パラメータ劣化時の非自明な最悪のシナリオにおける最大損失変動を示す。 実用上,グラデーションに基づく推定は,不正な腐敗試験よりもはるかに効果的であり,最悪の精度低下を引き起こすことがほとんどない。 理論的な支援と経験的検証を備えており、異なるモデルパラメータのロバスト性を調査し、これまでほとんど注目されなかった深層ニューラルネットワークの脆弱性を明らかにすることができる。 さらに, パラメータの頑健性を向上するだけでなく, 精度向上にも寄与する, 逆汚職耐性トレーニングにより, モデルを強化することができる。

We argue that the vulnerability of model parameters is of crucial value to the study of model robustness and generalization but little research has been devoted to understanding this matter. In this work, we propose an indicator to measure the robustness of neural network parameters by exploiting their vulnerability via parameter corruption. The proposed indicator describes the maximum loss variation in the non-trivial worst-case scenario under parameter corruption. For practical purposes, we give a gradient-based estimation, which is far more effective than random corruption trials that can hardly induce the worst accuracy degradation. Equipped with theoretical support and empirical validation, we are able to systematically investigate the robustness of different model parameters and reveal vulnerability of deep neural networks that has been rarely paid attention to before. Moreover, we can enhance the models accordingly with the proposed adversarial corruption-resistant training, which not only improves the parameter robustness but also translates into accuracy elevation.
翻訳日:2022-11-23 04:20:36 公開日:2020-12-10
# Reward-Free RLフレームワークのためのR\enyiエントロピーの最大化による探索

Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework ( http://arxiv.org/abs/2006.06193v3 )

ライセンス: Link先を確認
Chuheng Zhang, Yuanying Cai, Longbo Huang, Jian Li(参考訳) 強化学習(RL)には探索が不可欠である。 探索の課題に直面するためには,探索とエクスプロイトを完全に分離し,探索アルゴリズムに新たな課題をもたらす,報酬のないrlフレームワークを検討する。 探索段階において、エージェントは報酬のない環境と相互作用して探索ポリシーを学び、ポリシーを実行して遷移のデータセットを収集する。 計画段階では、エージェントは、さらに環境と相互作用することなくデータセットに基づいて報酬関数の適切なポリシーを算出する。 このフレームワークは、多くの報酬関数があるメタRL設定に適している。 探索段階では、状態-作用空間上のレーニーエントロピーを最大化し、理論的にこの目的を正当化する。 renyiエントロピーを目標とする成功は、到達しにくい状態行動の探求を奨励した結果である。 さらに,この目的に対する政策勾配の定式化を推定し,複雑な環境に対処可能な実用的な探索アルゴリズムを設計する。 計画段階では、バッチRLアルゴリズムを用いて任意の報酬関数を与えられた適切なポリシーを解く。 実験の結果,探索アルゴリズムは効果的でサンプル効率が良く,計画段階で任意の報酬関数に対して優れた方針が得られた。

Exploration is essential for reinforcement learning (RL). To face the challenges of exploration, we consider a reward-free RL framework that completely separates exploration from exploitation and brings new challenges for exploration algorithms. In the exploration phase, the agent learns an exploratory policy by interacting with a reward-free environment and collects a dataset of transitions by executing the policy. In the planning phase, the agent computes a good policy for any reward function based on the dataset without further interacting with the environment. This framework is suitable for the meta RL setting where there are many reward functions of interest. In the exploration phase, we propose to maximize the Renyi entropy over the state-action space and justify this objective theoretically. The success of using Renyi entropy as the objective results from its encouragement to explore the hard-to-reach state-actions. We further deduce a policy gradient formulation for this objective and design a practical exploration algorithm that can deal with complex environments. In the planning phase, we solve for good policies given arbitrary reward functions using a batch RL algorithm. Empirically, we show that our exploration algorithm is effective and sample efficient, and results in superior policies for arbitrary reward functions in the planning phase.
翻訳日:2022-11-22 09:43:52 公開日:2020-12-10
# ニューラルネットワークにおける再発と自己注意の無意味なトレードオフ

Untangling tradeoffs between recurrence and self-attention in neural networks ( http://arxiv.org/abs/2006.09471v2 )

ライセンス: Link先を確認
Giancarlo Kerg, Bhargav Kanuparthi, Anirudh Goyal, Kyle Goyette, Yoshua Bengio, Guillaume Lajoie(参考訳) 注意とセルフアテンションのメカニズムは、シーケンシャルなタスクに関する最先端のディープラーニングの中心となっている。 しかし、最近の進歩は、モデル最適化と計算における注意の役割を限定的に理解したヒューリスティックなアプローチに基づき、低スケールのメモリと計算資源に依存している。 本研究では,再帰的ネットワークにおける勾配伝播に自己注意がどう影響するかを形式的に解析し,勾配ノルムの具体的境界を確立することにより,長期的依存性を捉えようとする場合の勾配の消失問題を軽減することを実証する。 これらの結果に基づいて,記憶統合の認知過程にインスパイアされた関連性スクリーニング機構を提案する。 勾配の消失を避けるための保証を提供する一方で,注意と再帰のバランスを効率的にとることで,性能と計算資源のトレードオフを単純な数値実験で実証する。 そこで本研究では,ネットワークのスケーラビリティ向上に向けた具体的な研究方向を提案する。

Attention and self-attention mechanisms, are now central to state-of-the-art deep learning on sequential tasks. However, most recent progress hinges on heuristic approaches with limited understanding of attention's role in model optimization and computation, and rely on considerable memory and computational resources that scale poorly. In this work, we present a formal analysis of how self-attention affects gradient propagation in recurrent networks, and prove that it mitigates the problem of vanishing gradients when trying to capture long-term dependencies by establishing concrete bounds for gradient norms. Building on these results, we propose a relevancy screening mechanism, inspired by the cognitive process of memory consolidation, that allows for a scalable use of sparse self-attention with recurrence. While providing guarantees to avoid vanishing gradients, we use simple numerical experiments to demonstrate the tradeoffs in performance and computational resources by efficiently balancing attention and recurrence. Based on our results, we propose a concrete direction of research to improve scalability of attentive networks.
翻訳日:2022-11-20 19:47:48 公開日:2020-12-10
# 偏微分方程式に対する2層ニューラルネットワークの最適化と一般化理論

Two-Layer Neural Networks for Partial Differential Equations: Optimization and Generalization Theory ( http://arxiv.org/abs/2006.15733v2 )

ライセンス: Link先を確認
Tao Luo and Haizhao Yang(参考訳) 偏微分方程式(PDE)を解く問題は、ニューラルネットワークを用いてPDE解をパラメータ化する最小二乗最小化問題に定式化することができる。 大域最小化器は、与えられたPDEを解決するニューラルネットワークに対応する。 本稿では,2層ニューラルネットワークを用いた2次線形PDEを過度なパラメータ化を前提とした最小二乗最適化のグローバル最小化手法を提案する。 また、二階線形PDEと二層ニューラルネットワークの最小二乗最適化の一般化誤差を、PDEの右辺関数がバロン型空間にあり、最小二乗最適化がバロン型ノルムで正規化されるときにも解析する。

The problem of solving partial differential equations (PDEs) can be formulated into a least-squares minimization problem, where neural networks are used to parametrize PDE solutions. A global minimizer corresponds to a neural network that solves the given PDE. In this paper, we show that the gradient descent method can identify a global minimizer of the least-squares optimization for solving second-order linear PDEs with two-layer neural networks under the assumption of over-parametrization. We also analyze the generalization error of the least-squares optimization for second-order linear PDEs and two-layer neural networks, when the right-hand-side function of the PDE is in a Barron-type space and the least-squares optimization is regularized with a Barron-type norm, without the over-parametrization assumption.
翻訳日:2022-11-16 03:07:21 公開日:2020-12-10
# SCE: スパストカットを組み込んだスケーラブルネットワーク

SCE: Scalable Network Embedding from Sparsest Cut ( http://arxiv.org/abs/2006.16499v4 )

ライセンス: Link先を確認
Shengzhong Zhang, Zengfeng Huang, Haicang Zhou and Ziang Zhou(参考訳) 大規模ネットワーク埋め込みは、基礎となるグラフの固有の特性と構造情報をキャプチャする教師なしの方法で各ノードの潜在表現を学ぶことである。 この分野では、多くのポピュラーなアプローチが自然言語処理からのスキップグラムモデルの影響を受けている。 それらの多くは、類似のペアの埋め込みを近く、負のサンプルの埋め込みを遠くに強制するエンコーダを訓練するために、対照的な目的を使っている。 このような対照的な学習手法の成功の鍵は、正と負のサンプルを引き出す方法である。 ストレートなランダムサンプリングによって生成される負のサンプルはしばしば満足しているが、ポジティブな例を描く方法がホットトピックである。 本稿では, 負のサンプルのみを用いた教師なしネットワーク埋め込みのためのSCEを提案する。 本手法は,よく知られたスパルセストカット問題に触発された新しい対照目標に基づいている。 そこで我々は,グラフ畳み込み演算子を低域通過フィルタとしてノード表現の平滑化に用いるラプラシアン平滑化手法を提案する。 結果として得られるモデルは、エンコーダとしてのGCN型構造と単純な損失関数からなる。 特に,本モデルでは,正のサンプルではなく負のサンプルのみをトレーニングに用いており,実装やチューニングの容易化だけでなく,トレーニング時間を大幅に短縮する。 最後に,実世界のデータセットに関する広範な実験研究を行った。 その結果、GraphSAGE、G2G、DGIといった強力なベースラインと比較して、精度とスケーラビリティの両方において、新しいモデルの利点が明らかとなった。

Large-scale network embedding is to learn a latent representation for each node in an unsupervised manner, which captures inherent properties and structural information of the underlying graph. In this field, many popular approaches are influenced by the skip-gram model from natural language processing. Most of them use a contrastive objective to train an encoder which forces the embeddings of similar pairs to be close and embeddings of negative samples to be far. A key of success to such contrastive learning methods is how to draw positive and negative samples. While negative samples that are generated by straightforward random sampling are often satisfying, methods for drawing positive examples remains a hot topic. In this paper, we propose SCE for unsupervised network embedding only using negative samples for training. Our method is based on a new contrastive objective inspired by the well-known sparsest cut problem. To solve the underlying optimization problem, we introduce a Laplacian smoothing trick, which uses graph convolutional operators as low-pass filters for smoothing node representations. The resulting model consists of a GCN-type structure as the encoder and a simple loss function. Notably, our model does not use positive samples but only negative samples for training, which not only makes the implementation and tuning much easier, but also reduces the training time significantly. Finally, extensive experimental studies on real world data sets are conducted. The results clearly demonstrate the advantages of our new model in both accuracy and scalability compared to strong baselines such as GraphSAGE, G2G and DGI.
翻訳日:2022-11-15 04:46:18 公開日:2020-12-10
# ディープニューラルネットワークによる多次元ベイズ最適化

Multi-Fidelity Bayesian Optimization via Deep Neural Networks ( http://arxiv.org/abs/2007.03117v4 )

ライセンス: Link先を確認
Shibo Li, Wei Xing, Mike Kirby and Shandian Zhe(参考訳) ベイズ最適化(BO)はブラックボックス関数を最適化する一般的なフレームワークである。 多くのアプリケーションでは、目的関数は複数のフィディティで評価でき、コストと精度のトレードオフを可能にする。 最適化コストを削減するため,多要素BO法が多数提案されている。 その成功にもかかわらず、これらの手法は繊維全体にわたって強固で複雑な相関を無視または過度に単純化するので、目的関数を推定するのに非効率である。 この問題に対処するために,多種多目的ベイズ最適化(dnn-mfbo,deep neural network multi-fidelity bayesian optimization,deep neural network multi-fidelity bayesian optimization, dnn-mfbo)を提案する。 我々は,相互情報に基づく獲得関数を実現するために,逐次的,忠実なガウス・ハーマイト四次数とモーメントマッチングを用いる。 本手法の利点は, 人工ベンチマークと実世界の工学設計への応用の両方にある。

Bayesian optimization (BO) is a popular framework to optimize black-box functions. In many applications, the objective function can be evaluated at multiple fidelities to enable a trade-off between the cost and accuracy. To reduce the optimization cost, many multi-fidelity BO methods have been proposed. Despite their success, these methods either ignore or over-simplify the strong, complex correlations across the fidelities, and hence can be inefficient in estimating the objective function. To address this issue, we propose Deep Neural Network Multi-Fidelity Bayesian Optimization (DNN-MFBO) that can flexibly capture all kinds of complicated relationships between the fidelities to improve the objective function estimation and hence the optimization performance. We use sequential, fidelity-wise Gauss-Hermite quadrature and moment-matching to fulfill a mutual information-based acquisition function, which is computationally tractable and efficient. We show the advantages of our method in both synthetic benchmark datasets and real-world applications in engineering design.
翻訳日:2022-11-13 01:52:04 公開日:2020-12-10
# 確率的ヤコビアン分布図攻撃

Probabilistic Jacobian-based Saliency Maps Attacks ( http://arxiv.org/abs/2007.06032v4 )

ライセンス: Link先を確認
Th\'eo Combey, Ant\'onio Loison, Maxime Faucher and Hatem Hajri(参考訳) ニューラルネットワーク分類器(nncs)は、sparseまたは$l_0$アタックと呼ばれる入力機能のごく一部を変更することを含む、入力の悪意のある敵対的な摂動に対して脆弱であることが知られている。 広く使われているJacobianベースのSaliency Map Attack (JSMA)のような、効果的で高速な$L_0$攻撃は、NNCを騙すには実用的だが、その堅牢性も向上する。 本稿では,出力確率とNNCの入力特徴により,JSMAのサリエンシマップを解析することにより,各入力の特性を考慮に入れたより強力な攻撃アルゴリズムが得られることを示す。 これにより、JSMAの改良版であるWeighted JSMA (WJSMA) とTaylor JSMA (TJSMA) を導入し、3つの異なるデータセット(MNIST、CIFAR-10、GTSRB)で様々なホワイトボックスとブラックボックスの実験を行い、JSMAの元々のターゲットおよび非ターゲットバージョンよりも大幅に高速かつ効率的であることを実証した。 また、いくつかのケースでは、Carini-Wagner (CW) $L_0$攻撃と比較して非常に競合的な結果を示したが、JSMAのように残りの方がかなり高速である(CIFAR-10では、WJSMAとTJSMAはCW $L_0$よりも50倍以上高速である)。 したがって、新しいアタックは、以前引用したようなデータセット上でl_0$ real-time adversarial testingに対して、jsmaとcwの間の良いトレードオフを提供します。 コードはhttps://github.com/probabilistic-jsmas/probabilistic-jsmasで公開されている。

Neural network classifiers (NNCs) are known to be vulnerable to malicious adversarial perturbations of inputs including those modifying a small fraction of the input features named sparse or $L_0$ attacks. Effective and fast $L_0$ attacks, such as the widely used Jacobian-based Saliency Map Attack (JSMA) are practical to fool NNCs but also to improve their robustness. In this paper, we show that penalising saliency maps of JSMA by the output probabilities and the input features of the NNC allows to obtain more powerful attack algorithms that better take into account each input's characteristics. This leads us to introduce improved versions of JSMA, named Weighted JSMA (WJSMA) and Taylor JSMA (TJSMA), and demonstrate through a variety of white-box and black-box experiments on three different datasets (MNIST, CIFAR-10 and GTSRB), that they are both significantly faster and more efficient than the original targeted and non-targeted versions of JSMA. Experiments also demonstrate, in some cases, very competitive results of our attacks in comparison with the Carlini-Wagner (CW) $L_0$ attack, while remaining, like JSMA, significantly faster (WJSMA and TJSMA are more than 50 times faster than CW $L_0$ on CIFAR-10). Therefore, our new attacks provide good trade-offs between JSMA and CW for $L_0$ real-time adversarial testing on datasets such as the ones previously cited. Codes are publicly available through the link https://github.com/probabilistic-jsmas/probabilistic-jsmas.
翻訳日:2022-11-11 05:48:32 公開日:2020-12-10
# 利害が高ければ - Model-Agnostic Interpretable Data-driven surrogates による正確性と透明性のバランス

When stakes are high: balancing accuracy and transparency with Model-Agnostic Interpretable Data-driven suRRogates ( http://arxiv.org/abs/2007.06894v2 )

ライセンス: Link先を確認
Roel Henckaerts and Katrien Antonio and Marie-Pier C\^ot\'e(参考訳) 銀行や保険のような高度に規制された産業は、透明な意思決定アルゴリズムを求めます。 同時に、競争市場は複雑なブラックボックスモデルの使用を推進している。 そこで我々は,構造化表データに適したモデル非依存型解釈型データ駆動型SuRRogate(maidrr)を提案する。 知識は部分依存効果によってブラックボックスから抽出される。 これらは可変値のグループ化によってスマートな機能エンジニアリングを実行するために使用される。 これにより、自動変数選択による特徴空間のセグメンテーションが実現される。 透過的一般化線形モデル(glm)は、カテゴリー形式とその関連する相互作用の特徴に適合する。 6つの公開データセットに対する一般保険請求頻度モデリングのケーススタディでRパッケージメイドルを実証した。 我々のメイドラーGLMは、勾配押し上げ機(GBM)のブラックボックスを近似し、ベンチマークとして線形と木のサロゲートの両方に優れる。

Highly regulated industries, like banking and insurance, ask for transparent decision-making algorithms. At the same time, competitive markets are pushing for the use of complex black box models. We therefore present a procedure to develop a Model-Agnostic Interpretable Data-driven suRRogate (maidrr) suited for structured tabular data. Knowledge is extracted from a black box via partial dependence effects. These are used to perform smart feature engineering by grouping variable values. This results in a segmentation of the feature space with automatic variable selection. A transparent generalized linear model (GLM) is fit to the features in categorical format and their relevant interactions. We demonstrate our R package maidrr with a case study on general insurance claim frequency modeling for six publicly available datasets. Our maidrr GLM closely approximates a gradient boosting machine (GBM) black box and outperforms both a linear and tree surrogate as benchmarks.
翻訳日:2022-11-10 13:49:11 公開日:2020-12-10
# DeePKS: 化学的に正確な密度汎関数論への包括的データ駆動アプローチ

DeePKS: a comprehensive data-driven approach towards chemically accurate density functional theory ( http://arxiv.org/abs/2008.00167v2 )

ライセンス: Link先を確認
Yixiao Chen, Linfeng Zhang, Han Wang and E Weinan(参考訳) 本稿では,一般化コーン・シャム密度汎関数理論の枠組みの中で,正確かつ広く適用可能なエネルギー汎関数を構築するための汎用機械学習に基づくフレームワークを提案する。 この目的のために,異なるシステムと異なる種類のラベルから大規模データセットを取得できる自己整合モデルのトレーニング方法を開発した。 実験の結果得られた機能によって, 分子のエネルギー, 力, 双極子, 電子密度を化学的に正確に予測できることを実証した。 より多くのデータが利用可能になったら、継続的に改善できる。

We propose a general machine learning-based framework for building an accurate and widely-applicable energy functional within the framework of generalized Kohn-Sham density functional theory. To this end, we develop a way of training self-consistent models that are capable of taking large datasets from different systems and different kinds of labels. We demonstrate that the functional that results from this training procedure gives chemically accurate predictions on energy, force, dipole, and electron density for a large class of molecules. It can be continuously improved when more and more data are available.
翻訳日:2022-11-04 01:12:23 公開日:2020-12-10
# Kullback-Leiblerの量子分布と上界のばらつき

Kullback-Leibler divergence between quantum distributions, and its upper-bound ( http://arxiv.org/abs/2008.05932v3 )

ライセンス: Link先を確認
Vincenzo Bonnici(参考訳) この研究は、Kullback-Leibler (KL) の発散が量子分布 (QD) と呼ばれる確率分布のクラスに到達できる上限値を示す。 目的は、与えられた離散量である量子を分配することによって、$P$と$U$が生成されたという仮定のもと、与えられた分布からKLの発散を最大化する分布$U$を見つけることである。 量子分布は自然に幅広い確率分布を表し、実用的な応用に用いられる。 さらに、そのような分布のクラスは任意の確率分布の近似として得ることができる。 ここでは、エントロピーの発散に対する上界の取り出しは、比較分布が同じ量子値上の量子分布であるという条件の下で可能であることが示される。 したがって、エントロピーの発散は、同等の分布に適用されたときにより強力な意味を得る。 この側面は、将来の多様性の発展において考慮されるべきである。 この理論的な発見は、既知測度と異なる振る舞いを実証的に示す正規化KL発散の概念を提案するために用いられる。

This work presents an upper-bound to value that the Kullback-Leibler (KL) divergence can reach for a class of probability distributions called quantum distributions (QD). The aim is to find a distribution $U$ which maximizes the KL divergence from a given distribution $P$ under the assumption that $P$ and $U$ have been generated by distributing a given discrete quantity, a quantum. Quantum distributions naturally represent a wide range of probability distributions that are used in practical applications. Moreover, such a class of distributions can be obtained as an approximation of any probability distribution. The retrieving of an upper-bound for the entropic divergence is here shown to be possible under the condition that the compared distributions are quantum distributions over the same quantum value, thus they become comparable. Thus, entropic divergence acquires a more powerful meaning when it is applied to comparable distributions. This aspect should be taken into account in future developments of divergences. The theoretical findings are used for proposing a notion of normalized KL divergence that is empirically shown to behave differently from already known measures.
翻訳日:2022-10-31 00:06:36 公開日:2020-12-10
# m2caiseg:畳み込みニューラルネットワークを用いた腹腔鏡像のセグメンテーション

m2caiSeg: Semantic Segmentation of Laparoscopic Images using Convolutional Neural Networks ( http://arxiv.org/abs/2008.10134v2 )

ライセンス: Link先を確認
Salman Maqbool, Aqsa Riaz, Hasan Sajid, Osman Hasan(参考訳) 自律手術、特に最小限の侵襲的な手術は、人工知能研究の次のフロンティアである。 しかし、既存の課題には、人間の解剖と外科的設定の正確な同定、自律エージェントの訓練のための環境のモデリングが含まれる。 ヒトの解剖学と外科的設定の同定に取り組むために,人間の胴部の内視鏡的ビデオフィードにおいて,組織と臓器を識別しラベル付けするための深層学習に基づく意味セグメンテーションアルゴリズムを提案する。 実際の外科手術の内視鏡的映像フィードから作成した注釈付きデータセットm2caiSegを提案する。 全体として、データは307枚の画像で構成されており、それぞれが臓器と現場に存在するさまざまな手術器具に注釈付けされている。 セマンティックセグメンテーションタスクのための深層畳み込みニューラルネットワークを提案し,訓練する。 注釈付きデータの少ない量に対応するために、教師なし事前学習とデータ拡張を用いる。 トレーニングされたモデルは、提案されたデータセットの独立したテストセットで評価される。 セグメンテーションタスクのラベル付きカテゴリを全て使用しながら,F1スコア0.33を得た。 第2に,全ての楽器を「楽器」スーパークラスに分類し,各種臓器の識別におけるモデルの性能を評価し,f1スコア0.57を得た。 内視鏡手術シーンにおける様々な臓器や器具の画素レベル同定のための新しいデータセットと深層学習法を提案する。 手術シーン理解は外科手術の自動化に向けた最初のステップの1つである。

Autonomous surgical procedures, in particular minimal invasive surgeries, are the next frontier for Artificial Intelligence research. However, the existing challenges include precise identification of the human anatomy and the surgical settings, and modeling the environment for training of an autonomous agent. To address the identification of human anatomy and the surgical settings, we propose a deep learning based semantic segmentation algorithm to identify and label the tissues and organs in the endoscopic video feed of the human torso region. We present an annotated dataset, m2caiSeg, created from endoscopic video feeds of real-world surgical procedures. Overall, the data consists of 307 images, each of which is annotated for the organs and different surgical instruments present in the scene. We propose and train a deep convolutional neural network for the semantic segmentation task. To cater for the low quantity of annotated data, we use unsupervised pre-training and data augmentation. The trained model is evaluated on an independent test set of the proposed dataset. We obtained a F1 score of 0.33 while using all the labeled categories for the semantic segmentation task. Secondly, we labeled all instruments into an 'Instruments' superclass to evaluate the model's performance on discerning the various organs and obtained a F1 score of 0.57. We propose a new dataset and a deep learning method for pixel level identification of various organs and instruments in a endoscopic surgical scene. Surgical scene understanding is one of the first steps towards automating surgical procedures.
翻訳日:2022-10-26 02:37:34 公開日:2020-12-10
# 原子学学習における特徴空間の役割

The role of feature space in atomistic learning ( http://arxiv.org/abs/2009.02741v4 )

ライセンス: Link先を確認
Alexander Goscinski and Guillaume Fraux and Giulio Imbalzano and Michele Ceriotti(参考訳) 分子と物質の構造と構成に関する、物理的にインスパイアされた記述子は、原子論的シミュレーションへの機械学習技術の適用において重要な役割を果たす。 アプローチの拡散は、機能の選択が、例えば、非線形カーネルと非ユークリッドメトリクスを導入してそれらを操作することによって、異なるメソッドを客観的に比較し、ある機能空間が他の機能空間とどのように関係しているかという根本的な問題に対処するなど、それらがどのように使用されるかによって、非常に異なる振る舞いをもたらすことにつながる。 本研究では、異なる記述子の集合と、それらが引き起こす特徴空間の構造の観点から、メトリクスとカーネルによってそれらを変換する方法を比較するためのフレームワークを導入する。 我々は,代替特徴空間が等価な情報量を含むか,共通情報が機能空間から他の特徴空間へ移動する際に実質的に歪んでいるかを決定するための診断ツールを定義する。 特に、原子密度のn体相関の観点から構築された表現を比較し、低次特徴の使用に伴う情報損失を定量的に評価する。 また、広く使われているSOAPおよびBehler-Parrinello特徴の基底関数とハイパーパラメータの異なる選択の影響について検討し、非線形カーネルとワッサーシュタイン型計量を用いて、より単純な線形特徴空間と比較して特徴空間の構造を変化させる方法について検討する。

Eficient, physically-inspired descriptors of the structure and composition of molecules and materials play a key role in the application of machine-learning techniques to atomistic simulations. The proliferation of approaches, as well as the fact that each choice of features can lead to very different behavior depending on how they are used, e.g. by introducing non-linear kernels and non-Euclidean metrics to manipulate them, makes it difficult to objectively compare different methods, and to address fundamental questions on how one feature space is related to another. In this work we introduce a framework to compare different sets of descriptors, and different ways of transforming them by means of metrics and kernels, in terms of the structure of the feature space that they induce. We define diagnostic tools to determine whether alternative feature spaces contain equivalent amounts of information, and whether the common information is substantially distorted when going from one feature space to another. We compare, in particular, representations that are built in terms of n-body correlations of the atom density, quantitatively assessing the information loss associated with the use of low-order features. We also investigate the impact of different choices of basis functions and hyperparameters of the widely used SOAP and Behler-Parrinello features, and investigate how the use of non-linear kernels, and of a Wasserstein-type metric, change the structure of the feature space in comparison to a simpler linear feature space.
翻訳日:2022-10-21 08:40:10 公開日:2020-12-10
# Sachdev-Ye-Kitaev熱電場ダブルの変分法

Variational Preparation of the Sachdev-Ye-Kitaev Thermofield Double ( http://arxiv.org/abs/2009.04488v2 )

ライセンス: Link先を確認
Vincent Paul Su(参考訳) Sachdev-Ye-Kitaevモデルの熱場二重状態(TFD)を補助浴を必要とせずに生成するアルゴリズムを提案する。 以前の研究の後、TFD はハミルトニアンの近似基底状態 $H_{\text{TFD}}$ としてキャストできる。 変分量子回路を用いて,この基底状態を求めるパラメータを学習するための勾配に基づくアルゴリズムを提案し,実装する。 具体的には、$q=4$SYKモデルに対して$H_{\text{TFD}}$の基底状態を作成する量子回路を$N=12$まで見つける。

We provide an algorithm for preparing the thermofield double (TFD) state of the Sachdev-Ye-Kitaev model without the need for an auxiliary bath. Following previous work, the TFD can be cast as the approximate ground state of a Hamiltonian, $H_{\text{TFD}}$. Using variational quantum circuits, we propose and implement a gradient-based algorithm for learning parameters that find this ground state, an application of the variational quantum eigensolver. Concretely, we find quantum circuits that prepare the ground state of $H_{\text{TFD}}$ for the $q=4$ SYK model up to $N=12$.
翻訳日:2022-10-20 12:25:01 公開日:2020-12-10
# ReLeaSER: 一時的クラウドリソースの利用を最適化するための強化学習戦略

ReLeaSER: A Reinforcement Learning Strategy for Optimizing Utilization Of Ephemeral Cloud Resources ( http://arxiv.org/abs/2009.11208v4 )

ライセンス: Link先を確認
Mohamed Handaoui and Jean-Emile Dartois and Jalil Boukhobza and Olivier Barais and Laurent d'Orazio(参考訳) クラウドデータセンタの能力は、需要ピークとハードウェア障害に対処するために過剰にプロビジョニングされ、リソース使用量の削減につながる。 資源利用の改善と総所有コストの削減の1つの方法は、未使用の資源(短命の資源)を低コストで提供することである。 しかし、リソースの再販は品質・オブ・サービスの観点から顧客の期待に応える必要がある。 目標は、SLAの罰則を避けながら、再利用されたリソースの量を最大化することです。 これを実現するために、クラウドプロバイダは、可用性を保証するために、将来の利用を見積もる必要がある。 予測は、予測不能なワークロードに対応するリソースの安全性マージンを考慮すべきである。 課題は、再利用するリソースの量とSLA違反のリスクの間の最良のトレードオフを提供する安全マージンを見つけることです。 ほとんどの最先端ソリューションでは、すべてのタイプのメトリクス(cpu、ramなど)に対して一定の安全性マージンが考慮されている。 しかし、ユニークな固定マージンは、SLA違反や低利用につながる可能性のあるさまざまなワークロードの変動を時間とともに考慮していない。 これらの課題に対処するために,クラウド上での短命資源の利用を最適化するための強化学習戦略であるReLeaSERを提案する。 ReLeaSERは、各リソースメトリックのホストレベルの安全マージンを動的に調整する。 戦略は過去の予測エラー(SLA違反を引き起こした)から学ぶ。 私たちのソリューションはSLA違反の罰則を平均2.7倍、最大3.4倍に大幅に削減します。 またCPの貯蓄率を平均で27.6%、最大で43.6%向上させる。

Cloud data center capacities are over-provisioned to handle demand peaks and hardware failures which leads to low resources' utilization. One way to improve resource utilization and thus reduce the total cost of ownership is to offer unused resources (referred to as ephemeral resources) at a lower price. However, reselling resources needs to meet the expectations of its customers in terms of Quality of Service. The goal is so to maximize the amount of reclaimed resources while avoiding SLA penalties. To achieve that, cloud providers have to estimate their future utilization to provide availability guarantees. The prediction should consider a safety margin for resources to react to unpredictable workloads. The challenge is to find the safety margin that provides the best trade-off between the amount of resources to reclaim and the risk of SLA violations. Most state-of-the-art solutions consider a fixed safety margin for all types of metrics (e.g., CPU, RAM). However, a unique fixed margin does not consider various workloads variations over time which may lead to SLA violations or/and poor utilization. In order to tackle these challenges, we propose ReLeaSER, a Reinforcement Learning strategy for optimizing the ephemeral resources' utilization in the cloud. ReLeaSER dynamically tunes the safety margin at the host-level for each resource metric. The strategy learns from past prediction errors (that caused SLA violations). Our solution reduces significantly the SLA violation penalties on average by 2.7x and up to 3.4x. It also improves considerably the CPs' potential savings by 27.6% on average and up to 43.6%.
翻訳日:2022-10-15 17:04:07 公開日:2020-12-10
# トランスネプツニアン物体のダークエネルギーサーベイ探索のための機械学習

Machine Learning for Searching the Dark Energy Survey for Trans-Neptunian Objects ( http://arxiv.org/abs/2009.12856v2 )

ライセンス: Link先を確認
B. Henghes, O. Lahav, D. W. Gerdes, E. Lin, R. Morgan, T. M. C. Abbott, M. Aguena, S. Allam, J. Annis, S. Avila, E. Bertin, D. Brooks, D. L. Burke, A. CarneroRosell, M. CarrascoKind, J. Carretero, C. Conselice, M. Costanzi, L. N. da Costa, J. DeVicente, S. Desai, H. T. Diehl, P. Doel, S. Everett, I. Ferrero, J. Frieman, J. Garc\'ia-Bellido, E. Gaztanaga, D. Gruen, R. A. Gruendl, J. Gschwend, G. Gutierrez, W. G. Hartley, S. R. Hinton, K. Honscheid, B. Hoyle, D. J. James, K. Kuehn, N. Kuropatkin, J. L. Marshall, P. Melchior, F. Menanteau, R. Miquel, R. L. C. Ogando, A. Palmese, F. Paz-Chinch\'on, A. A. Plazas, A. K. Romer, C. S\'anchez, E. Sanchez, V. Scarpine, M. Schubnell, S. Serrano, M. Smith, M. Soares-Santos, E. Suchyta, G. Tarle, C. To, and R. D. Wilkinson (DES collaboration)(参考訳) 本稿では,ダークエネルギーサーベイ(des)データ中のトランスネプツニアン物体(tnos)の探索を軌道フィッティングと共に行うことで,機械学習の実装により効率が向上することを示す。 軌道パラメータに類似性を示す複数のtnoの発見は、1つ以上の発見されていない惑星、すなわち未発見の「惑星9」が太陽系外惑星に存在する可能性を示唆している。 DESはそのような惑星を検出するのによく使われており、すでに多くのTNOを発見している。 本稿では,実desノイズデータに埋もれたシミュレーションtnoからなるデータセットを用いて,8種類の教師付き機械学習アルゴリズムでテストを行う。 最善の分類器はランダム・フォレストであり,最適化された場合,希少物体の検出に優れていた。 受信機動作特性(roc)曲線の下の領域は、 (auc) $= 0.996 \pm 0.001$である。 ランダムフォレストの決定閾値を最適化した後、精度0.80を維持しながら0.96のリコールを達成する。 最後に、最適化された分類器を使ってオブジェクトを事前選択することで、検出パイプラインの軌道適合ステージを5倍高速に実行できる。

In this paper we investigate how implementing machine learning could improve the efficiency of the search for Trans-Neptunian Objects (TNOs) within Dark Energy Survey (DES) data when used alongside orbit fitting. The discovery of multiple TNOs that appear to show a similarity in their orbital parameters has led to the suggestion that one or more undetected planets, an as yet undiscovered "Planet 9", may be present in the outer Solar System. DES is well placed to detect such a planet and has already been used to discover many other TNOs. Here, we perform tests on eight different supervised machine learning algorithms, using a dataset consisting of simulated TNOs buried within real DES noise data. We found that the best performing classifier was the Random Forest which, when optimised, performed well at detecting the rare objects. We achieve an area under the receiver operating characteristic (ROC) curve, (AUC) $= 0.996 \pm 0.001$. After optimizing the decision threshold of the Random Forest, we achieve a recall of 0.96 while maintaining a precision of 0.80. Finally, by using the optimized classifier to pre-select objects, we are able to run the orbit-fitting stage of our detection pipeline five times faster.
翻訳日:2022-10-14 04:00:20 公開日:2020-12-10
# 言語ゲームから描画ゲームへ

From Language Games to Drawing Games ( http://arxiv.org/abs/2010.02820v2 )

ライセンス: Link先を確認
Chrisantha Fernando, Daria Zenkova, Stanislav Nikolov, Simon Osindero(参考訳) コミュニケーションゲームにおける創発的言語研究のアプローチに類似した,一組の描画ゲームを発明することで,様々な芸術的プロセスを自動化する。 重要な違いは、描画ゲームは言語ゲームよりもレシーバーからの労力がはるかに少ないことである。 アーティストは、アーティストの特定の表現慣習を学ぶのにほとんど時間を費やすが、その代わりに、環境の視覚的な余裕をある程度理解して、世界の行動に最適化された事前訓練された視覚システムを持つ、事前訓練済みの視聴者と協力しなければならない。 様々な種類の描画ゲームを検討した後、生成臨界ループを閉じて画像を生成する予備実験を行った。

We attempt to automate various artistic processes by inventing a set of drawing games, analogous to the approach taken by emergent language research in inventing communication games. A critical difference is that drawing games demand much less effort from the receiver than do language games. Artists must work with pre-trained viewers who spend little time learning artist specific representational conventions, but who instead have a pre-trained visual system optimized for behaviour in the world by understanding to varying extents the environment's visual affordances. After considering various kinds of drawing game we present some preliminary experiments which have generated images by closing the generative-critical loop.
翻訳日:2022-10-10 04:53:06 公開日:2020-12-10
# ニューラル・マシーンの翻訳は、性別の基準を正しく翻訳しない

Neural Machine Translation Doesn't Translate Gender Coreference Right Unless You Make It ( http://arxiv.org/abs/2010.05332v2 )

ライセンス: Link先を確認
Danielle Saunders and Rosie Sallis and Bill Byrne(参考訳) ニューラル・マシーン・トランスレーション(NMT)は、人間の参照者の性別に依存する文法的な性別に苦しむことが示されている。 この問題に対する既存の多くのアプローチは、通常文レベルで、ソース文に明示的にまたは暗黙的に性別特徴を加えることによって、ターゲット言語における性差を制御しようとする。 本論文では,NMTに明示的な単語レベルの性差タグを組み込む手法を提案する。 性別特徴が人間の参照から決定できる場合や、英語とスペイン語と英語とドイツ語の翻訳に基づいて、テスト文を自動で性別タグ付けできる場合、この性差制御翻訳の可能性を検討する。 既存の単純なアプローチは、文中の複数のエンティティに男女関係を過度に一般化し、タグ付きコア参照適応データという形で効果的な代替案を提案する。 また,対象言語において,非バイナリ的帰納法のような対応する言語規則が与えられた英語からの性中立的実体の翻訳を評価する拡張も提案する。

Neural Machine Translation (NMT) has been shown to struggle with grammatical gender that is dependent on the gender of human referents, which can cause gender bias effects. Many existing approaches to this problem seek to control gender inflection in the target language by explicitly or implicitly adding a gender feature to the source sentence, usually at the sentence level. In this paper we propose schemes for incorporating explicit word-level gender inflection tags into NMT. We explore the potential of this gender-inflection controlled translation when the gender feature can be determined from a human reference, or when a test sentence can be automatically gender-tagged, assessing on English-to-Spanish and English-to-German translation. We find that simple existing approaches can over-generalize a gender-feature to multiple entities in a sentence, and suggest effective alternatives in the form of tagged coreference adaptation data. We also propose an extension to assess translations of gender-neutral entities from English given a corresponding linguistic convention, such as a non-binary inflection, in the target language.
翻訳日:2022-10-08 13:33:48 公開日:2020-12-10
# ロボット操作のための3次元動的シーン表現の学習

Learning 3D Dynamic Scene Representations for Robot Manipulation ( http://arxiv.org/abs/2011.01968v2 )

ライセンス: Link先を確認
Zhenjia Xu, Zhanpeng He, Jiajun Wu, Shuran Song(参考訳) ロボット操作のための3Dシーン表現は、3つの重要なオブジェクト特性をキャプチャする必要がある: 永続性 -- 時間が経つにつれて隠蔽されるオブジェクト - モーダル完全性 -- オブジェクトは部分的な観察しかできない場合でも3D占有力を持つ。 本稿では,3つの特性を同時に検出し,追跡し,再構成する3次元ボリュームシーン表現である3次元ダイナミックシーン表現(DSR)を紹介する。 さらにDSR-Netを提案する。DSRを徐々に構築・洗練するために、複数の相互作用を通して視覚的観察を集約することを学ぶ。 シミュレーションデータと実データの両方でDSRを用いた3次元シーンダイナミクスのモデリングにおける最先端性能を実現する。 DSR-Netはモデル予測制御と組み合わせて、平面プッシュのような下流ロボット操作タスクの正確な計画を可能にする。 ビデオはhttps://youtu.be/gqjyg3nqj80で閲覧できる。

3D scene representation for robot manipulation should capture three key object properties: permanency -- objects that become occluded over time continue to exist; amodal completeness -- objects have 3D occupancy, even if only partial observations are available; spatiotemporal continuity -- the movement of each object is continuous over space and time. In this paper, we introduce 3D Dynamic Scene Representation (DSR), a 3D volumetric scene representation that simultaneously discovers, tracks, reconstructs objects, and predicts their dynamics while capturing all three properties. We further propose DSR-Net, which learns to aggregate visual observations over multiple interactions to gradually build and refine DSR. Our model achieves state-of-the-art performance in modeling 3D scene dynamics with DSR on both simulated and real data. Combined with model predictive control, DSR-Net enables accurate planning in downstream robotic manipulation tasks such as planar pushing. Video is available at https://youtu.be/GQjYG3nQJ80.
翻訳日:2022-09-30 05:56:16 公開日:2020-12-10
# 韓国における深層学習型地域気候区分のための高品質トレーニングサンプルの開発

Developing High Quality Training Samples for Deep Learning Based Local Climate Zone Classification in Korea ( http://arxiv.org/abs/2011.01436v2 )

ライセンス: Link先を確認
Minho Kim, Doyoung Jeong, Hyoungwoo Choi, Yongil Kim(参考訳) 国連が計画している2050年までに3人に2人が都市部に住み、持続可能な都市開発とモニタリングの必要性を強調している。 一般的な都市フットプリントデータは、高解像度の都市範囲を提供するが、分布、パターン、特徴に関する必須情報はない。 地域気候帯(LCZ)は、都市部の内部構造と特徴を記述できる効率的で標準化された枠組みを提供している。 グローバルスケールLCZマッピングが検討されているが、低精度、可変ラベル付け品質、ドメイン適応の課題によって制限されている。 そこで本研究では,マルチスケール畳み込みニューラルネットワークを用いて,韓国の主要都市を地図化するカスタムlczデータを開発した。 その結果、新しいカスタムLCZデータとディープラーニングを用いることで、従来のコミュニティベースのLCZマッピングと機械学習、グローバルなSo2Satデータセットの転送学習と比較して、LCZマップ結果がより正確になることを示した。

Two out of three people will be living in urban areas by 2050, as projected by the United Nations, emphasizing the need for sustainable urban development and monitoring. Common urban footprint data provide high-resolution city extents but lack essential information on the distribution, pattern, and characteristics. The Local Climate Zone (LCZ) offers an efficient and standardized framework that can delineate the internal structure and characteristics of urban areas. Global-scale LCZ mapping has been explored, but are limited by low accuracy, variable labeling quality, or domain adaptation challenges. Instead, this study developed a custom LCZ data to map key Korean cities using a multi-scale convolutional neural network. Results demonstrated that using a novel, custom LCZ data with deep learning can generate more accurate LCZ map results compared to conventional community-based LCZ mapping with machine learning as well as transfer learning of the global So2Sat dataset.
翻訳日:2022-09-30 04:34:45 公開日:2020-12-10
# 任意の自然画像上の合成コンテキストの重ね合わせによる深層交通光検出

Deep traffic light detection by overlaying synthetic context on arbitrary natural images ( http://arxiv.org/abs/2011.03841v3 )

ライセンス: Link先を確認
Jean Pablo Vieira de Mello, Lucas Tabelini, Rodrigo F. Berriel, Thiago M. Paix\~ao, Alberto F. de Souza, Claudine Badue, Nicu Sebe, Thiago Oliveira-Santos(参考訳) ディープニューラルネットワークは、自動運転に関連する多くの問題に対する効果的な解決策となる。 実際の画像サンプルにトラフィックコンテキストをネットワークに提供することで,歩行者や交通標識,信号機などの関心要素を検出し,分類することが可能になる。 しかし、実際のデータの取得と注釈付けは、時間と労力の面で非常にコストがかかる。 そこで本研究では,深部交通光検出器のための人工交通関連トレーニングデータを生成する手法を提案する。 このデータは、基本的な非現実的コンピュータグラフィックスを使用して、トラフィックドメインとは無関係な任意の画像背景の上に偽のトラフィックシーンをブレンドする。 これにより、アノテーションの努力なしに大量のトレーニングデータを生成することができる。 さらに,イエロー状態のサンプル量が少ないことを中心に,トラヒックライトデータセットにおける本質的データ不均衡問題にも対処している。 実験により,問題領域から得られた実トレーニングデータに匹敵する結果が得られ,実世界の基準モデルで得られた各指標よりも平均mAPと平均F1スコアが約4 pp高い結果が得られることがわかった。

Deep neural networks come as an effective solution to many problems associated with autonomous driving. By providing real image samples with traffic context to the network, the model learns to detect and classify elements of interest, such as pedestrians, traffic signs, and traffic lights. However, acquiring and annotating real data can be extremely costly in terms of time and effort. In this context, we propose a method to generate artificial traffic-related training data for deep traffic light detectors. This data is generated using basic non-realistic computer graphics to blend fake traffic scenes on top of arbitrary image backgrounds that are not related to the traffic domain. Thus, a large amount of training data can be generated without annotation efforts. Furthermore, it also tackles the intrinsic data imbalance problem in traffic light datasets, caused mainly by the low amount of samples of the yellow state. Experiments show that it is possible to achieve results comparable to those obtained with real training data from the problem domain, yielding an average mAP and an average F1-score which are each nearly 4 p.p. higher than the respective metrics obtained with a real-world reference model.
翻訳日:2022-09-28 22:43:15 公開日:2020-12-10
# FakeSafe: サイクル一貫性対向ネットワークを用いた情報マッピングによる人間レベルのデータ保護

FakeSafe: Human Level Data Protection by Disinformation Mapping using Cycle-consistent Adversarial Network ( http://arxiv.org/abs/2011.11278v2 )

ライセンス: Link先を確認
He Zhu and Dianbo Liu(参考訳) 偽情報の概念は、偽のメッセージを使って人々を混乱させ、実際の情報を保護することである。 この戦略は、価値あるプライベートおよびセンシティブなデータを保護するために、データサイエンスに適応することができる。 近年、スマートフォンやウェアラブルなどのパーソナルデバイスから大量のプライベートデータが生成されるようになっている。 これらの個人データを利用できれば、パーソナライズされた製品の設計、精密医療、そして過去には不可能だった多くのタスクに大きなチャンスをもたらすだろう。 しかし、プライバシ、安全、規制上の理由から、元の形式でデータを転送したり、保存したりすることは、しばしば困難である。 プライバシを保護するためのセキュアなデータ転送とストレージインフラストラクチャの構築は、ほとんどの場合、コストがかかります。 本研究では,サイクル一貫性を有する生成的敵ネットワークを用いた人間レベルのデータ保護を実現するためのfakesafeという手法を提案し,ベンチマークと実世界のデータセットを用いてfakesafeの応用可能性を示す実験を行った。

The concept of disinformation is to use fake messages to confuse people in order to protect the real information. This strategy can be adapted into data science to protect valuable private and sensitive data. Huge amount of private data are being generated from personal devices such as smart phone and wearable in recent years. Being able to utilize these personal data will bring big opportunities to design personalized products, conduct precision healthcare and many other tasks that were impossible in the past. However, due to privacy, safety and regulation reasons, it is often difficult to transfer or store data in its original form while keeping them safe. Building a secure data transfer and storage infrastructure to preserving privacy is costly in most cases and there is always a concern of data security due to human errors. In this study, we propose a method, named FakeSafe, to provide human level data protection using generative adversarial network with cycle consistency and conducted experiments using both benchmark and real world data sets to illustrate potential applications of FakeSafe.
翻訳日:2022-09-22 02:12:46 公開日:2020-12-10
# バロン空間と多層空間における偏微分方程式に関するいくつかの観測

Some observations on partial differential equations in Barron and multi-layer spaces ( http://arxiv.org/abs/2012.01484v2 )

ライセンス: Link先を確認
Weinan E and Stephan Wojtowytsch(参考訳) 明示的な表現公式を用いて、ある偏微分方程式の解が、もしPDEデータがそのような函数空間にあるなら、バロン空間や多層空間にあることを示す。 したがって、これらの解は高次元でもニューラルネットワークを用いて効率的に表現することができる。 逆に、検討中のニューラルネットワークに関連する関数空間に解が配置されない例を示す。

We use explicit representation formulas to show that solutions to certain partial differential equations lie in Barron spaces or multilayer spaces if the PDE data lie in such function spaces. Consequently, these solutions can be represented efficiently using artificial neural networks, even in high dimension. Conversely, we present examples in which the solution fails to lie in the function space associated to a neural network under consideration.
翻訳日:2021-05-25 03:44:02 公開日:2020-12-10
# 複数物体追跡のための確率的トラックレットスコーリングと塗装

Probabilistic Tracklet Scoring and Inpainting for Multiple Object Tracking ( http://arxiv.org/abs/2012.02337v2 )

ライセンス: Link先を確認
Fatemeh Saleh, Sadegh Aliakbarian, Hamid Rezatofighi, Mathieu Salzmann, Stephen Gould(参考訳) 複数物体追跡(MOT)の最近の進歩は共同検出と追跡によって達成されているが、長い閉塞処理は依然として課題である。 これは、このような技術が長期動作情報を無視する傾向があるためである。 本稿では,確率論的自己回帰運動モデルを導入し,その可能性を直接測定してトラックレットの提案を評価する。 これは,自然トラッカーの分布を学習するために,我々のモデルを訓練することによって達成される。 そのため,本モデルでは,既存のトラックレットに新たな検出を割り当てるだけでなく,物体が長い間失われていた場合,例えば,検出ミスによるギャップを埋めるために,トラックレットをサンプリングすることで,トラックレットを塗布することができる。 提案手法は,MOT16,MOT17,MOT20を含む複数のMOTベンチマークデータセットにおいて,ほとんどの標準MOTメトリクスにおいて,オブジェクトの追跡におけるアプローチの優位性を上回っている。

Despite the recent advances in multiple object tracking (MOT), achieved by joint detection and tracking, dealing with long occlusions remains a challenge. This is due to the fact that such techniques tend to ignore the long-term motion information. In this paper, we introduce a probabilistic autoregressive motion model to score tracklet proposals by directly measuring their likelihood. This is achieved by training our model to learn the underlying distribution of natural tracklets. As such, our model allows us not only to assign new detections to existing tracklets, but also to inpaint a tracklet when an object has been lost for a long time, e.g., due to occlusion, by sampling tracklets so as to fill the gap caused by misdetections. Our experiments demonstrate the superiority of our approach at tracking objects in challenging sequences; it outperforms the state of the art in most standard MOT metrics on multiple MOT benchmark datasets, including MOT16, MOT17, and MOT20.
翻訳日:2021-05-23 14:51:00 公開日:2020-12-10
# メタグラフの折り畳みと展開

Folding and Unfolding on Metagraphs ( http://arxiv.org/abs/2012.01759v3 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 型付きメタグラフは、ハイパーエッジとそのターゲットに割り当てられた型を持つハイパーグラフとして定義され、ハイパーエッジのターゲットがリンク全体およびターゲットに接続される可能性がある。 Directed Typed Metagraphs (DTMG) は、入力、出力、および横セットに入力された各エッジのターゲットを分割することで導入され、エッジの出力セットが他のエッジの入力セットにリンクされている「メタパス」を見ることができる。 DTMGの初期代数的アプローチとして、DTMGを構築するためのコンストラクタの導入や、これらのコンストラクタを使用する複数の方法間の関係に関する法則が紹介されている。 有用な射タイプのメナゲリーは、dtmgs(catamorphisms, anamorphisms, histomorphisms, futumorphisms, hylomorphisms, chronomorphisms, metamorphisms and metachronomorphisms)上で定義される。 タイプ付きメタグラフ上の決定的および確率的過程は、共通のTMG上に定義されたDTMGの森で表現される。 非指向型メタグラフへのアプローチのバリエーションを提示し、そのフレームワークの概要を、依存型や確率型、多次元値、エッジの挿入や削除を含む動的処理といった複雑な現実的メタグラフに適用できることを示す。

Typed metagraphs are defined as hypergraphs with types assigned to hyperedges and their targets, and the potential to have targets of hyperedges connect to whole links as well as targets. Directed typed metagraphs (DTMGs) are introduced via partitioning the targets of each edge in a typed metagraph into input, output and lateral sets; one can then look at "metapaths" in which edges' output-sets are linked to other edges' input-sets. An initial algebra approach to DTMGs is presented, including introduction of constructors for building up DTMGs and laws regarding relationships among multiple ways of using these constructors. A menagerie of useful morphism types is then defined on DTMGs (catamorphisms, anamorphisms, histomorphisms, futumorphisms, hylomorphisms, chronomorphisms, metamorphisms and metachronomorphisms), providing a general abstract framework for formulating a broad variety of metagraph operations. Deterministic and stochastic processes on typed metagraphs are represented in terms of forests of DTMGs defined over a common TMG, where the various morphisms can be straightforwardly extended to these forests. A variation of the approach to undirected typed metagraphs is presented; and it is indicated how the framework outlined can applied to realistic metagraphs involving complexities like dependent and probabilistic types, multidimensional values and dynamic processing including insertion and deletion of edges.
翻訳日:2021-05-23 14:47:31 公開日:2020-12-10
# (参考訳) 勾配平均化に基づく勾配Descentアルゴリズムの一変数

A Variant of Gradient Descent Algorithm Based on Gradient Averaging ( http://arxiv.org/abs/2012.02387v2 )

ライセンス: CC BY 4.0
Saugata Purkayastha and Sukannya Purkayastha(参考訳) 本研究では,誤り関数を最適化する最適化器Grad-Avgについて検討する。 数学的にはGrad-Avgの反復列を最小化(有界性仮定)に収束させる。 Grad-Avgとレグレッションと分類タスクで人気のある最適化ツールを併用する。 回帰作業では,Grad-Avgの挙動はSGD(Stochastic Gradient Descent)とほぼ同一であることが観察された。 我々はこの事実を数学的に正当化する。 分類タスクの場合,パラメータを適切にスケーリングすることでgrad-avgの性能を向上させることができる。 実験結果から,Grad-Avgは2つのベンチマークデータセットの分類タスクに対して,他の最先端最適化よりも高速に収束することが示された。

In this work, we study an optimizer, Grad-Avg to optimize error functions. We establish the convergence of the sequence of iterates of Grad-Avg mathematically to a minimizer (under boundedness assumption). We apply Grad-Avg along with some of the popular optimizers on regression as well as classification tasks. In regression tasks, it is observed that the behaviour of Grad-Avg is almost identical with Stochastic Gradient Descent (SGD). We present a mathematical justification of this fact. In case of classification tasks, it is observed that the performance of Grad-Avg can be enhanced by suitably scaling the parameters. Experimental results demonstrate that Grad-Avg converges faster than the other state-of-the-art optimizers for the classification task on two benchmark datasets.
翻訳日:2021-05-23 11:22:25 公開日:2020-12-10
# (参考訳) フォトサーマル超解像イメージングのための学習ブロック反復収縮閾値決定アルゴリズム

Learned Block Iterative Shrinkage Thresholding Algorithm for Photothermal Super Resolution Imaging ( http://arxiv.org/abs/2012.03547v2 )

ライセンス: CC BY 4.0
Samim Ahmadi, Jan Christian Hauffen, Linh K\"astner, Peter Jung, Giuseppe Caire, Mathias Ziegler(参考訳) ブロックスパース正則化は熱イメージングにおいて既によく知られており、逆問題に基づく複数の測定に用いられている。 この方法の主なボトルネックは、実験ごとに異なる正規化パラメータを選択することである。 時間を要する手動で選択した正規化パラメータを避けるために,ディープニューラルネットワークに展開した反復アルゴリズムを用いた学習ブロックスパース最適化手法を提案する。 より正確には、正規化パラメータの選択を学習できる学習ブロック反復縮小しきい値アルゴリズムを使用することの利点を示す。 さらに、このアルゴリズムは、基礎となる逆問題を解くのに適切な重み行列の決定を可能にする。 そこで本論文では,本アルゴリズムを,人工的に生成した試験データと能動サーモグラフィによる欠陥復元実験データを用いて,アートブロック反復収縮閾値付けの状態と比較する。 この結果から,学習したブロックスパース最適化手法を用いることで,最小限の反復数に対する正規化平均二乗誤差が学習なしでより小さくなることがわかった。 したがって、この新しいアプローチは収束速度を向上し、光熱分解能画像における正確な欠陥再構成を生成するために、数回の反復しか必要としない。

Block-sparse regularization is already well-known in active thermal imaging and is used for multiple measurement based inverse problems. The main bottleneck of this method is the choice of regularization parameters which differs for each experiment. To avoid time-consuming manually selected regularization parameter, we propose a learned block-sparse optimization approach using an iterative algorithm unfolded into a deep neural network. More precisely, we show the benefits of using a learned block iterative shrinkage thresholding algorithm that is able to learn the choice of regularization parameters. In addition, this algorithm enables the determination of a suitable weight matrix to solve the underlying inverse problem. Therefore, in this paper we present the algorithm and compare it with state of the art block iterative shrinkage thresholding using synthetically generated test data and experimental test data from active thermography for defect reconstruction. Our results show that the use of the learned block-sparse optimization approach provides smaller normalized mean square errors for a small fixed number of iterations than without learning. Thus, this new approach allows to improve the convergence speed and only needs a few iterations to generate accurate defect reconstruction in photothermal super resolution imaging.
翻訳日:2021-05-21 02:40:46 公開日:2020-12-10
# (参考訳) ニューラルラーニング正規化による惑星地図

Planet cartography with neural learned regularization ( http://arxiv.org/abs/2012.04460v2 )

ライセンス: CC BY 4.0
A. Asensio Ramos and E. Pall\'e(参考訳) 地球外生命体の発見は、太陽系外科学の目的の一つだ。 太陽系外惑星の生命のシグネチャを検出するためには、反射・透過分光法を用いて惑星大気のバルク組成を決定する必要がある。 しかし、居住性条件を完全に理解するには、液体水、大陸および/または雲の存在をマッピングする必要がある。 スピン軌道トモグラフィー(spin-orbit tomography)は、惑星表面が散乱する光を用いて、他の恒星の周囲にある太陽系外惑星の表面の地図を得る技術である。 深層学習の可能性を活用し,模型表面から正規化を学習する外地球へのマッピング手法を提案する。 逆マッピング問題の解決策は、適切なトレーニングデータでエンドツーエンドにトレーニング可能なディープニューラルネットワークとして設定される。 本研究は、地球上の発見に触発された惑星の手続き的生成に基づく手法の利用を提案する。 また、雲状惑星における表面の回復と永続的な雲の存在のマッピングも検討している。 単一帯域での観測においても, 信頼性の高い写像を我々のアプローチで実行し, 非常にコンパクトな大陸を創出できることが示される。 さらに重要なのは、太陽系外惑星が地球のように部分的に曇っている場合、常に同じ位置(地形や海面温度に関連する)で発生する永続的な雲の分布と、表面を横切る非永続的な雲の分布をマッピングできることである。 これは、活動的な気候システムを検出するために太陽系外惑星で実行できる最初のテストとなる。 恒星の居住可能な領域にある小さな岩石惑星の場合、この気象システムは水によって駆動され、検出は真に居住可能な条件の強力な指標と見なされる。

Finding potential life harboring exo-Earths is one of the aims of exoplanetary science. Detecting signatures of life in exoplanets will likely first be accomplished by determining the bulk composition of the planetary atmosphere via reflected/transmitted spectroscopy. However, a complete understanding of the habitability conditions will surely require mapping the presence of liquid water, continents and/or clouds. Spin-orbit tomography is a technique that allows us to obtain maps of the surface of exoplanets around other stars using the light scattered by the planetary surface. We leverage the potential of deep learning and propose a mapping technique for exo-Earths in which the regularization is learned from mock surfaces. The solution of the inverse mapping problem is posed as a deep neural network that can be trained end-to-end with suitable training data. We propose in this work to use methods based on the procedural generation of planets, inspired by what we found on Earth. We also consider mapping the recovery of surfaces and the presence of persistent cloud in cloudy planets. We show that the a reliable mapping can be carried out with our approach, producing very compact continents, even when using single passband observations. More importantly, if exoplanets are partially cloudy like the Earth is, we show that one can potentially map the distribution of persistent clouds that always occur on the same position on the surface (associated to orography and sea surface temperatures) together with non-persistent clouds that move across the surface. This will become the first test one can perform on an exoplanet for the detection of an active climate system. For small rocky planets in the habitable zone of their stars, this weather system will be driven by water, and the detection can be considered as a strong proxy for truly habitable conditions.
翻訳日:2021-05-17 05:34:51 公開日:2020-12-10
# MorphGAN:認識バイアス検出のためのワンショット顔合成GAN

MorphGAN: One-Shot Face Synthesis GAN for Detecting Recognition Bias ( http://arxiv.org/abs/2012.05225v2 )

ライセンス: Link先を確認
Nataniel Ruiz, Barry-John Theobald, Anurag Ranjan, Ahmed Hussein Abdelaziz, Nicholas Apostoloff(参考訳) 顔認証ネットワークのバイアスを検出するには,特定の属性のみが何らかの制御方法で異なるサンプルを用いて,テスト中のネットワークを探索することが有用である。 しかし、興味のある属性を特定の制御で十分に大きなデータセットを取得することは困難である。 本研究では,前例のない人物の画像に特定の頭部ポーズと表情調整を適用するシミュレータについて述べる。 シミュレータはまず、提供された画像に3Dモデルに適合し、所望の頭部ポーズと表情制御を適用し、その後モデルを画像にレンダリングする。 次に、原画像に条件付けされた条件付き生成反転ネットワーク(GAN)とレンダリング可能なモデルを用いて、新規な表情と頭部ポーズを有する原人物の画像を生成する。 この条件付き GAN を MorphGAN と呼ぶ。 MorphGANを用いて生成された画像は、原画像中の人物の身元を保存し、提供された頭部ポーズと表情に対する制御により、顔と表情に関する顔認識深層ネットワークの堅牢性問題を識別するためのテストセットを作成することができる。 MorphGANが生成した画像は、トレーニングデータが不足している場合にデータ拡張としても機能する。 顔の小さなデータセットを新しいポーズと表現で拡張することで、増強やデータの不足に応じて、認識性能を最大9%向上することを示す。

To detect bias in face recognition networks, it can be useful to probe a network under test using samples in which only specific attributes vary in some controlled way. However, capturing a sufficiently large dataset with specific control over the attributes of interest is difficult. In this work, we describe a simulator that applies specific head pose and facial expression adjustments to images of previously unseen people. The simulator first fits a 3D morphable model to a provided image, applies the desired head pose and facial expression controls, then renders the model into an image. Next, a conditional Generative Adversarial Network (GAN) conditioned on the original image and the rendered morphable model is used to produce the image of the original person with the new facial expression and head pose. We call this conditional GAN -- MorphGAN. Images generated using MorphGAN conserve the identity of the person in the original image, and the provided control over head pose and facial expression allows test sets to be created to identify robustness issues of a facial recognition deep network with respect to pose and expression. Images generated by MorphGAN can also serve as data augmentation when training data are scarce. We show that by augmenting small datasets of faces with new poses and expressions improves the recognition performance by up to 9% depending on the augmentation and data scarcity.
翻訳日:2021-05-16 02:17:02 公開日:2020-12-10
# 多次元多層ディープネットワークによるロバストな顔ランドマーク検出

Robust Facial Landmark Detection by Multi-order Multi-constraint Deep Networks ( http://arxiv.org/abs/2012.04927v2 )

ライセンス: Link先を確認
Jun Wan, Zhihui Lai, Jing Li, Jie Zhou, Can Gao(参考訳) 近年,顔のランドマーク検出において熱マップの回帰が広く研究され,優れた性能が得られた。 しかしながら、既存のヒートマップ回帰に基づく顔ランドマーク検出手法のほとんどは、高次特徴相関の探索を怠り、より代表的特徴を学び、形状制約を強化するために非常に重要である。 さらに、最終的な予測されたランドマークに明示的なグローバル形状の制約が加えられていないため、精度が低下する。 本稿では,より強力な特徴相関と形状制約学習のためのマルチオーダーマルチ制約ディープネットワーク(MMDN)を提案する。 具体的には、より識別的な表現のための多階空間相関と多階チャネル相関を導入するために、IMCGモデルを提案する。 さらに, 明示的確率に基づく境界適応回帰法 (EPBR) を開発し, 大域的な形状制約を強化し, 予測境界における意味的に整合性のあるランドマークを探索し, 頑健な顔のランドマーク検出を行う。 提案したMDDNは、より正確な境界適応型ランドマークマップを生成し、大きなポーズのバリエーションと重いオクルージョンを持つ顔の予測されたランドマークに対する形状制約を効果的に強化できることは興味深い。 挑戦的なベンチマークデータセットの実験結果は、最先端の顔ランドマーク検出法よりもMDNの方が優れていることを示している。 コードはhttps://github.com/junwan 2014/MMDN-masterで公開されている。

Recently, heatmap regression has been widely explored in facial landmark detection and obtained remarkable performance. However, most of the existing heatmap regression-based facial landmark detection methods neglect to explore the high-order feature correlations, which is very important to learn more representative features and enhance shape constraints. Moreover, no explicit global shape constraints have been added to the final predicted landmarks, which leads to a reduction in accuracy. To address these issues, in this paper, we propose a Multi-order Multi-constraint Deep Network (MMDN) for more powerful feature correlations and shape constraints learning. Specifically, an Implicit Multi-order Correlating Geometry-aware (IMCG) model is proposed to introduce the multi-order spatial correlations and multi-order channel correlations for more discriminative representations. Furthermore, an Explicit Probability-based Boundary-adaptive Regression (EPBR) method is developed to enhance the global shape constraints and further search the semantically consistent landmarks in the predicted boundary for robust facial landmark detection. It's interesting to show that the proposed MMDN can generate more accurate boundary-adaptive landmark heatmaps and effectively enhance shape constraints to the predicted landmarks for faces with large pose variations and heavy occlusions. Experimental results on challenging benchmark datasets demonstrate the superiority of our MMDN over state-of-the-art facial landmark detection methods. The code has been publicly available at https://github.com/junwan2014/MMDN-master.
翻訳日:2021-05-16 02:04:00 公開日:2020-12-10
# スクリブルラインを用いたシーンテキスト検出

Scene Text Detection with Scribble Lines ( http://arxiv.org/abs/2012.05030v2 )

ライセンス: Link先を確認
Wenqing Zhang, Yang Qiu, Minghui Liao, Rui Zhang, Xiaolin Wei, Xiang Bai(参考訳) アカデミアと産業の両方でもっとも人気のあるトピックの一つであるシーンテキスト検出は、十分なトレーニングデータで素晴らしいパフォーマンスを達成できます。 しかし、シーンテキスト検出のアノテーションコストは、テキストの様々な形状のために従来のラベリング手法と大きく異なる。 したがって、検出性能を損なうことなく、より単純なラベル付け手法を研究することは実用的で洞察に富む。 本稿では,テキスト検出のためのポリゴンの代わりに,テキストをスクリブルラインでアノテートすることを提案する。 様々な形状のテキストの一般的なラベリング手法であり、低ラベリングコストを必要とする。 さらに,テキスト検出にスクリブルラインを使用するために,弱教師付きシーンテキスト検出フレームワークを提案する。 いくつかのベンチマーク実験により,提案手法は弱いラベル付け法と元のポリゴンラベリング法の間の性能ギャップを橋渡しし,性能が向上することを示した。 我々の実験でベンチマークの弱いアノテーションをリリースし、シンプルなアノテーションでより良いパフォーマンスを達成するためにシーンテキスト検出の分野に利益をもたらすことを期待します。

Scene text detection, which is one of the most popular topics in both academia and industry, can achieve remarkable performance with sufficient training data. However, the annotation costs of scene text detection are huge with traditional labeling methods due to the various shapes of texts. Thus, it is practical and insightful to study simpler labeling methods without harming the detection performance. In this paper, we propose to annotate the texts by scribble lines instead of polygons for text detection. It is a general labeling method for texts with various shapes and requires low labeling costs. Furthermore, a weakly-supervised scene text detection framework is proposed to use the scribble lines for text detection. The experiments on several benchmarks show that the proposed method bridges the performance gap between the weakly labeling method and the original polygon-based labeling methods, with even better performance. We will release the weak annotations of the benchmarks in our experiments and hope it will benefit the field of scene text detection to achieve better performance with simpler annotations.
翻訳日:2021-05-16 02:02:19 公開日:2020-12-10
# E3D:イベントベースの3次元形状再構成

E3D: Event-Based 3D Shape Reconstruction ( http://arxiv.org/abs/2012.05214v2 )

ライセンス: Link先を確認
Alexis Baudron, Zihao W. Wang, Oliver Cossairt and Aggelos K. Katsaggelos(参考訳) 3次元形状再構成は拡張現実/仮想現実の主要な構成要素である。 高度な技術にもかかわらず、既存のRGB、RGB-D、Lidarセンサーベースのソリューションは電力とデータ集約であり、エッジデバイスへのデプロイの課題をもたらす。 我々は,高ダイナミックレンジを実現しつつ,消費電力,遅延,データ費用を大幅に低減したセンサ,イベントカメラによる3D再構成にアプローチした。 従来のイベントベース3D再構成法は主に立体視に基づいているが,単眼のイベントカメラを用いたシルエットの多視点形状を課題としている。 動くイベントカメラからの出力は、空間時間勾配のスパースポイントセットであり、主にシーン/オブジェクトのエッジと輪郭をスケッチする。 まず,イベント・ツー・シルエット(e2s)ニューラルネットワークモジュールを導入し,イベントフレームのスタックを対応するシルエットに変換する。 第2に,3次元微分可能なレンダラ(pytorch3d)を用いてクロスビュー3dメッシュの一貫性を強制し,e2sとポージングネットワークを微調整するe3dを紹介する。 最後に,3d-to-eventsシミュレーションパイプラインを導入し,公開利用可能なオブジェクトデータセットに適用し,教師付き学習のための合成イベント/シルエットトレーニングペアを生成する。

3D shape reconstruction is a primary component of augmented/virtual reality. Despite being highly advanced, existing solutions based on RGB, RGB-D and Lidar sensors are power and data intensive, which introduces challenges for deployment in edge devices. We approach 3D reconstruction with an event camera, a sensor with significantly lower power, latency and data expense while enabling high dynamic range. While previous event-based 3D reconstruction methods are primarily based on stereo vision, we cast the problem as multi-view shape from silhouette using a monocular event camera. The output from a moving event camera is a sparse point set of space-time gradients, largely sketching scene/object edges and contours. We first introduce an event-to-silhouette (E2S) neural network module to transform a stack of event frames to the corresponding silhouettes, with additional neural branches for camera pose regression. Second, we introduce E3D, which employs a 3D differentiable renderer (PyTorch3D) to enforce cross-view 3D mesh consistency and fine-tune the E2S and pose network. Lastly, we introduce a 3D-to-events simulation pipeline and apply it to publicly available object datasets and generate synthetic event/silhouette training pairs for supervised learning.
翻訳日:2021-05-16 02:00:34 公開日:2020-12-10
# 地方選挙における有権者の説得

Persuading Voters in District-based Elections ( http://arxiv.org/abs/2012.05002v2 )

ライセンス: Link先を確認
Matteo Castiglioni, Nicola Gatti(参考訳) 我々は、エージェントが自分の情報を利用して選挙の結果を操作することができるシナリオに焦点を当てる。 特に,選挙の勝者が地区の大半で勝利する候補者である2人の候補者を対象に,地区ベースの選挙について検討した。 選挙区ベースの選挙は世界中で採用され(例えばイギリスやアメリカ)、広く研究されている投票機構(例えばk投票や複数投票)の自然な拡張である。 そこでは、マニピュレータ(sender)が、自らの信念を合理的に更新する投票者(receivers)に戦略的に情報を開示する。 送信者が受信者ごとにプライベート通信チャネルを使用できるプライベートシグナリングと、送信者が全ての受信者に対して単一の通信チャネルを使用できるパブリックシグナリングの両方について検討する。 さらに,まず,送信者が地域毎に1つの通信チャネルを使用できる半公開信号方式を導入する。 我々は,プライベート信号と(セミ)パブリック信号の区別が顕著であることを示す。 特に、最適なプライベートシグナリングスキームは、(半)公開シグナリングよりも任意に優れた勝利確率を提供し、P=NPでない限り、最適(半)公開シグナリングスキームを多項式時間内で近似することはできない。 しかし, 適切な緩和により, 多基準PTASを最適(半)公開シグナリング方式に設計できることを示す。 そこで我々は,比較安定性という新たな特性を導入し,送信者の効用関数が状態依存である場合に,選挙を超えた一般ベイズ的説得問題における公開シグナリングのための双基準PTASを設計する。

We focus on the scenario in which an agent can exploit his information advantage to manipulate the outcome of an election. In particular, we study district-based elections with two candidates, in which the winner of the election is the candidate that wins in the majority of the districts. District-based elections are adopted worldwide (e.g., UK and USA) and are a natural extension of widely studied voting mechanisms (e.g., k-voting and plurality voting). We resort to the Bayesian persuasion framework, where the manipulator (sender) strategically discloses information to the voters (receivers) that update their beliefs rationally. We study both private signaling, in which the sender can use a private communication channel per receiver, and public signaling, in which the sender can use a single communication channel for all the receivers. Furthermore, for the first time, we introduce semi-public signaling in which the sender can use a single communication channel per district. We show that there is a sharp distinction between private and (semi-)public signaling. In particular, optimal private signaling schemes can provide an arbitrarily better probability of victory than (semi-)public ones and can be computed efficiently, while optimal (semi-)public signaling schemes cannot be approximated to within any factor in polynomial time unless P=NP. However, we show that reasonable relaxations allow the design of multi-criteria PTASs for optimal (semi-)public signaling schemes. In doing so, we introduce a novel property, namely comparative stability, and we design a bi-criteria PTAS for public signaling in general Bayesian persuasion problems beyond elections when the sender's utility function is state-dependent.
翻訳日:2021-05-16 01:56:23 公開日:2020-12-10
# (参考訳) ソースデータのない教師なしドメイン適応オブジェクト検出のための無料ランチ

A Free Lunch for Unsupervised Domain Adaptive Object Detection without Source Data ( http://arxiv.org/abs/2012.05400v1 )

ライセンス: CC BY 4.0
Xianfeng Li and Weijie Chen and Di Xie and Shicai Yang and Peng Yuan and Shiliang Pu and Yueting Zhuang(参考訳) 教師なしのドメイン適応(UDA)は、ソースとターゲットのドメインデータが自由に利用可能であり、通常、ドメインギャップを減らすために一緒に訓練されていると仮定する。 しかし、データプライバシとデータ転送の非効率を考えると、実際のシナリオでは実用的ではない。 したがって、ラベル付きソースデータにアクセスすることなく、ターゲットドメイン内のネットワークを最適化する。 オブジェクト検出におけるこの方向を探索するため,我々はまず,ノイズのあるラベルで学習する問題のモデル化を通じて,ソースデータフリーなドメイン適応オブジェクト検出(SFOD)フレームワークを提案する。 一般に、ソースドメインから事前訓練されたネットワークを活用して、ターゲットドメイン最適化のための擬似ラベルを生成する。 しかし,対象ドメインにラベルが存在しないため,擬似ラベルの品質評価は困難である。 本稿では,自己エントロピー降下 (SED) は,手作りラベルを使わずに,信頼できる擬似ラベル生成のための適切な信頼度しきい値を求めるための指標である。 それでも、完全にクリーンなラベルはまだ達成できない。 徹底的な実験分析の結果,生成する雑音ラベルにおいて偽陰性が支配的であることが判明した。 間違いなく、偽陰性のマイニングはパフォーマンス改善に役立ち、モザイクのようなデータ拡張を通じて偽陰性のシミュレーションを容易にする。 4つの代表的な適応タスクで実施された広範囲な実験により,提案手法が最先端の性能を容易に達成できることが実証された。 別の見方では、ラベル付きソースデータが既存のメソッドで完全に活用されていないことをUDAコミュニティに思い出させる。

Unsupervised domain adaptation (UDA) assumes that source and target domain data are freely available and usually trained together to reduce the domain gap. However, considering the data privacy and the inefficiency of data transmission, it is impractical in real scenarios. Hence, it draws our eyes to optimize the network in the target domain without accessing labeled source data. To explore this direction in object detection, for the first time, we propose a source data-free domain adaptive object detection (SFOD) framework via modeling it into a problem of learning with noisy labels. Generally, a straightforward method is to leverage the pre-trained network from the source domain to generate the pseudo labels for target domain optimization. However, it is difficult to evaluate the quality of pseudo labels since no labels are available in target domain. In this paper, self-entropy descent (SED) is a metric proposed to search an appropriate confidence threshold for reliable pseudo label generation without using any handcrafted labels. Nonetheless, completely clean labels are still unattainable. After a thorough experimental analysis, false negatives are found to dominate in the generated noisy labels. Undoubtedly, false negatives mining is helpful for performance improvement, and we ease it to false negatives simulation through data augmentation like Mosaic. Extensive experiments conducted in four representative adaptation tasks have demonstrated that the proposed framework can easily achieve state-of-the-art performance. From another view, it also reminds the UDA community that the labeled source data are not fully exploited in the existing methods.
翻訳日:2021-05-16 00:24:22 公開日:2020-12-10
# (参考訳) 個人差分テキスト生成機構の設計における研究課題

Research Challenges in Designing Differentially Private Text Generation Mechanisms ( http://arxiv.org/abs/2012.05403v1 )

ライセンス: CC BY 4.0
Oluwaseyi Feyisetan, Abhinav Aggarwal, Zekun Xu, Nathanael Teissier(参考訳) ユーザのデータから正確に学習し、定量化されたプライバシ保証を確保しながら、ユーザの信頼を維持しながら、よりよい機械学習(ML)モデルを構築する機会を提供する。 近年の文献は、テキストクエリの保証を提供するために、一般化された微分プライバシーの適用性を示している。 このようなメカニズムは、高次元のテキストのベクトル表現にプライバシー保護ノイズを加え、ノイズの多いベクトルのテキストベースの投影を返す。 しかし、これらのメカニズムはプライバシとユーティリティのトレードオフにおいて最適ではない。 これは、固定された大域感度などの要因により、高密度空間に過剰なノイズが付加され、同時にセンシティブな外れ値に対する保護が保証される。 本稿では,これらの差分的プライベートテキスト機構におけるプライバシとユーティリティのトレードオフのバランスをとる上での課題について述べる。 高レベルでは、(1)プライバシーの増幅ステップにノイズの一部を否定するlacと呼ばれるフレームワークと、(2)単語周辺の局所領域に基づいてノイズを校正するための3つの異なるテクニックのスイートという2つの提案がある。 この論文の目標は,単一ソリューションの評価ではなく,これらの課題とより優れたメカニズムを構築するためのチャートパスに関する議論をさらに進めることである。

Accurately learning from user data while ensuring quantifiable privacy guarantees provides an opportunity to build better Machine Learning (ML) models while maintaining user trust. Recent literature has demonstrated the applicability of a generalized form of Differential Privacy to provide guarantees over text queries. Such mechanisms add privacy preserving noise to vectorial representations of text in high dimension and return a text based projection of the noisy vectors. However, these mechanisms are sub-optimal in their trade-off between privacy and utility. This is due to factors such as a fixed global sensitivity which leads to too much noise added in dense spaces while simultaneously guaranteeing protection for sensitive outliers. In this proposal paper, we describe some challenges in balancing the tradeoff between privacy and utility for these differentially private text mechanisms. At a high level, we provide two proposals: (1) a framework called LAC which defers some of the noise to a privacy amplification step and (2), an additional suite of three different techniques for calibrating the noise based on the local region around a word. Our objective in this paper is not to evaluate a single solution but to further the conversation on these challenges and chart pathways for building better mechanisms.
翻訳日:2021-05-16 00:10:26 公開日:2020-12-10
# (参考訳) エッジにおける人工知能

Artificial Intelligence at the Edge ( http://arxiv.org/abs/2012.05410v1 )

ライセンス: CC BY 4.0
Elisa Bertino and Sujata Banerjee(参考訳) IoT(Internet of Things)とエッジコンピューティングアプリケーションは、世界が現在経験している世界的なパンデミックや自然災害への対応など、さまざまな社会的ニーズをサポートすることを目指している。 没入型ビデオ会議、拡張現実(ar)、自動運転車、教育、医療、災害復旧などの分野におけるリアルタイムインタラクティブなアプリケーションの必要性は、これまで以上に高まっている。 同時に、人工知能(ai)/機械学習(ml)、高度な通信システム(5g以降)、プライバシ保存計算、ハードウェアアクセラレータなど、非常に関連性の高い分野における最近の技術ブレークスルーがある。 5g モバイル通信ネットワークは通信能力を高め,伝送遅延とエラーを低減し,新たなアプリケーションに必要な省エネを実現している。 将来の6G技術は、可視光通信など多くの技術を統合し、ホログラフィー通信や高精度製造など、画期的なアプリケーションをサポートする。 これらのアプリケーションの多くは、アプリケーションのエンドポイントに近い計算と分析を必要とします。 エッジに適用されるAI技術は、新しいアプリケーションを動かすことと、エッジインフラストラクチャのより効率的な運用の必要性の両方において、大きな可能性を秘めている。 しかし、高度なアプリケーションとAIシステムに対する特定のリアルタイム要求からなる複雑なエコシステムにAIシステムをデプロイする方法を理解することは、非常に重要である。

The Internet of Things (IoT) and edge computing applications aim to support a variety of societal needs, including the global pandemic situation that the entire world is currently experiencing and responses to natural disasters. The need for real-time interactive applications such as immersive video conferencing, augmented/virtual reality, and autonomous vehicles, in education, healthcare, disaster recovery and other domains, has never been higher. At the same time, there have been recent technological breakthroughs in highly relevant fields such as artificial intelligence (AI)/machine learning (ML), advanced communication systems (5G and beyond), privacy-preserving computations, and hardware accelerators. 5G mobile communication networks increase communication capacity, reduce transmission latency and error, and save energy -- capabilities that are essential for new applications. The envisioned future 6G technology will integrate many more technologies, including for example visible light communication, to support groundbreaking applications, such as holographic communications and high precision manufacturing. Many of these applications require computations and analytics close to application end-points: that is, at the edge of the network, rather than in a centralized cloud. AI techniques applied at the edge have tremendous potential both to power new applications and to need more efficient operation of edge infrastructure. However, it is critical to understand where to deploy AI systems within complex ecosystems consisting of advanced applications and the specific real-time requirements towards AI systems.
翻訳日:2021-05-15 23:53:10 公開日:2020-12-10
# (参考訳) 医用画像のための遠方ドメイン転送学習

Distant Domain Transfer Learning for Medical Imaging ( http://arxiv.org/abs/2012.06346v1 )

ライセンス: CC BY-SA 4.0
Shuteng Niu, Meryl Liu, Yongxin Liu, Jian Wang, Houbing Song(参考訳) 医用画像処理は、医用モノのインターネット(IoMT)分野において最も重要なトピックの1つである。 近年,深層学習手法が医用画像タスクにおいて最先端の成果を上げている。 しかし,従来のディープラーニングには,1)訓練データ不足,2)訓練データと試験データとのドメインミスマッチという2つの欠点がある。 本稿では,医療画像分類のための遠隔ドメイン転送学習(DDTL)手法を提案する。 さらに,本手法を最近の問題(コロナウイルス診断)に適用した。 いくつかの研究は、肺CT画像が、迅速かつ正確な新型コロナウイルスの診断に使用できることを示唆している。 しかし,病気の新規性やプライバシポリシの多さから,十分にラベルされたトレーニングデータへのアクセスは容易ではない。 さらに,提案手法は,DFF分類モデルと小型Unetセグメンテーションモデルという2つの要素を持つ。 DDTL(Distant Domain Transfer Learning)と呼ばれる、よく研究されていないが重要な転帰学習問題に関連している。 DDTLは、ドメインやタスクが全く異なる場合でも、効率的に転送することを目的としている。 本研究では,未ラベルのOffice-31,Catech-256,胸部X線画像データセットをソースデータとし,ターゲットデータとして少量のCOVID-19肺CTを用いた診断用DDTLモデルを開発した。 本研究の主な貢献は,1) 提案手法は, 容易にアクセス可能な遠隔ドメインから収集したラベル付きデータの恩恵を受け, 2) トレーニングデータとテストデータ間の分散シフトを効果的に処理し, 3) 96 % の分類精度を達成し, 「非転送」 アルゴリズムよりも13 % の分類精度を達成し, 既存の転送アルゴリズムや遠隔転送アルゴリズムよりも8 % 高い分類精度を実現したことである。

Medical image processing is one of the most important topics in the field of the Internet of Medical Things (IoMT). Recently, deep learning methods have carried out state-of-the-art performances on medical image tasks. However, conventional deep learning have two main drawbacks: 1) insufficient training data and 2) the domain mismatch between the training data and the testing data. In this paper, we propose a distant domain transfer learning (DDTL) method for medical image classification. Moreover, we apply our methods to a recent issue (Coronavirus diagnose). Several current studies indicate that lung Computed Tomography (CT) images can be used for a fast and accurate COVID-19 diagnosis. However, the well-labeled training data cannot be easily accessed due to the novelty of the disease and a number of privacy policies. Moreover, the proposed method has two components: Reduced-size Unet Segmentation model and Distant Feature Fusion (DFF) classification model. It is related to a not well-investigated but important transfer learning problem, termed Distant Domain Transfer Learning (DDTL). DDTL aims to make efficient transfers even when the domains or the tasks are entirely different. In this study, we develop a DDTL model for COVID-19 diagnose using unlabeled Office-31, Catech-256, and chest X-ray image data sets as the source data, and a small set of COVID-19 lung CT as the target data. The main contributions of this study: 1) the proposed method benefits from unlabeled data collected from distant domains which can be easily accessed, 2) it can effectively handle the distribution shift between the training data and the testing data, 3) it has achieved 96\% classification accuracy, which is 13\% higher classification accuracy than "non-transfer" algorithms, and 8\% higher than existing transfer and distant transfer algorithms.
翻訳日:2021-05-15 23:50:04 公開日:2020-12-10
# (参考訳) デモグラフィック, スタンス, 市民性, トピックスを用いたアノテーション付きソーシャルメディアコーパス作成フレームワーク

A Framework for Generating Annotated Social Media Corpora with Demographics, Stance, Civility, and Topicality ( http://arxiv.org/abs/2012.05444v1 )

ライセンス: CC BY-SA 4.0
Shubhanshu Mishra, Daniel Collier(参考訳) 本稿では,ソーシャルメディアのテキストコーパスを様々なカテゴリにアノテートするためのフレームワークを提案する。 ソーシャルメディアデータは個人によって生成されるため、個人統計属性のテキストに注釈を付け、コーパスの社会技術的分析を可能にすることが重要である。 さらに、大規模なデータセットを分析する際、小さなデータサンプルに注釈を付け、このサンプルを使用して予測モデルをトレーニングして、関連するカテゴリの完全なデータをアノテートすることができる。 facebookのコメントコーポラを、性別、軍事関係、年齢グループ、政治的傾倒、人種、スタンス、トピックアリーティ、ネオリベラルな見解、コメントの市民性にアノテートした学生ローン議論のケーススタディを用いています。 https://github.com/socialmediaie/studentdebtfbcomments.com/facebookコメントのデータセットを3つリリースし、さらなる調査を行っています。

In this paper we introduce a framework for annotating a social media text corpora for various categories. Since, social media data is generated via individuals, it is important to annotate the text for the individuals demographic attributes to enable a socio-technical analysis of the corpora. Furthermore, when analyzing a large data-set we can often annotate a small sample of data and then train a prediction model using this sample to annotate the full data for the relevant categories. We use a case study of a Facebook comment corpora on student loan discussion which was annotated for gender, military affiliation, age-group, political leaning, race, stance, topicalilty, neoliberlistic views and civility of the comment. We release three datasets of Facebook comments for further research at: https://github.com/socialmediaie/StudentDebtFbComments
翻訳日:2021-05-15 23:33:48 公開日:2020-12-10
# (参考訳) 航空機ダイナミクスと多層パーセプトロンニューラルネットワークを用いたクイックアクセスレコーダからの航空機質量推定のためのデータ駆動方式

Data-driven Method for Estimating Aircraft Mass from Quick Access Recorder using Aircraft Dynamics and Multilayer Perceptron Neural Network ( http://arxiv.org/abs/2012.05907v1 )

ライセンス: CC BY 4.0
Xinyu He, Fang He, Xinting Zhu, Lishuai Li(参考訳) 安全管理と性能最適化の観点から、正確な航空機質量推定は航空会社にとって重要である。 乗客と荷物を積載する航空機は、安全上の危険をもたらす可能性がある。 対照的に、航空機のペイロード輸送能力を完全に活用していないことは、その運用効率と航空会社の収益性を損なう。 しかし、飛行毎の航空機質量の正確な決定は、ペイロードを含む各航空機部品の重量を測ることは現実的ではないため実現不可能である。 既存の航空機質量推定法は、通常プロプライエタリな情報と見なされる航空機およびエンジンの性能パラメータに依存する。 さらに、これらのパラメータの値は異なる操作条件下で異なるが、他のパラメータは大きな推定誤差を受ける可能性がある。 本稿では,全機にデジタル飛行データレコーダであるクイックアクセスレコーダ(QAR)を用いて,各飛行中に初期航空機の上昇量を記録するためのデータ駆動方式を提案する。 物理モデルを用いてQARが記録した数千のパラメータの中から適切なパラメータを選択する必要がある。 その後、選択したデータを処理し、初期上昇航空機質量予測モデルを構築するための多層パーセプトロンニューラルネットワークへの入力として提供する。 提案手法は,航空機質量推定におけるモデルベースおよびデータ駆動手法の利点を提供する。 この方法は航空機やエンジンパラメーターに明示的に依存していないため、全ての航空機タイプに普遍的に適用される。 本研究はボーイング777-300erの航空機に提案手法を適用し,その精度を実証した。 このツールを使って航空機のペイロードをよりよく活用することができる。

Accurate aircraft-mass estimation is critical to airlines from the safety-management and performance-optimization viewpoints. Overloading an aircraft with passengers and baggage might result in a safety hazard. In contrast, not fully utilizing an aircraft's payload-carrying capacity undermines its operational efficiency and airline profitability. However, accurate determination of the aircraft mass for each operating flight is not feasible because it is impractical to weigh each aircraft component, including the payload. The existing methods for aircraft-mass estimation are dependent on the aircraft- and engine-performance parameters, which are usually considered proprietary information. Moreover, the values of these parameters vary under different operating conditions while those of others might be subject to large estimation errors. This paper presents a data-driven method involving use of the quick access recorder (QAR)-a digital flight-data recorder-installed on all aircrafts to record the initial aircraft climb mass during each flight. The method requires users to select appropriate parameters among several thousand others recorded by the QAR using physical models. The selected data are subsequently processed and provided as input to a multilayer perceptron neural network for building the model for initial-climb aircraft-mass prediction. Thus, the proposed method offers the advantages of both the model-based and data-driven approaches for aircraft-mass estimation. Because this method does not explicitly rely on any aircraft or engine parameter, it is universally applicable to all aircraft types. In this study, the proposed method was applied to a set of Boeing 777-300ER aircrafts, the results of which demonstrated reasonable accuracy. Airlines can use this tool to better utilize aircraft's payload.
翻訳日:2021-05-15 22:53:57 公開日:2020-12-10
# (参考訳) T-WaveNet:センサによる時系列解析のための木構造ウェーブレットニューラルネットワーク

T-WaveNet: Tree-Structured Wavelet Neural Network for Sensor-Based Time Series Analysis ( http://arxiv.org/abs/2012.05456v1 )

ライセンス: CC BY 4.0
Minhao Liu, Ailing Zeng, Qiuxia Lai, Qiang Xu(参考訳) センサに基づく時系列分析は、アクティビティ認識や脳-コンピュータインタフェースといったアプリケーションに不可欠なタスクである。 近年、ディープニューラルネットワーク(DNN)によって抽出された特徴は、従来の手作りのものよりも効果的であることが示されている。 しかし、これらのソリューションのほとんどは、センサデータに格納されたアプリケーション固有の情報を抽出するために、ネットワークのみに依存している。 通常、周波数成分の小さなサブセットがセンサーデータの主要な情報を持っているという事実から、センサデータ解析のための新しい木構造ウェーブレットニューラルネットワーク、すなわち 'emph{T-WaveNet} を提案する。 具体的には、T-WaveNetを用いて、センサデータのパワースペクトル分析を行い、入力信号を様々な周波数サブバンドに分解する。 そして、木構造ネットワークを構築し、木上の各ノード(周波数サブバンドに対応する)は、可逆ニューラルネットワーク(INN)ベースのウェーブレット変換で構築する。 これにより、T-WaveNetは既存のDNNベースの技術よりも効果的なセンサ情報表現を提供し、活動認識のためのUCI-HAR、ジェスチャー認識のためのOPPORTUNITY、意図認識のためのBCICIV2a、筋肉運動認識のためのNinaPro DB1など、さまざまなセンサデータセット上で最先端のパフォーマンスを実現する。

Sensor-based time series analysis is an essential task for applications such as activity recognition and brain-computer interface. Recently, features extracted with deep neural networks (DNNs) are shown to be more effective than conventional hand-crafted ones. However, most of these solutions rely solely on the network to extract application-specific information carried in the sensor data. Motivated by the fact that usually a small subset of the frequency components carries the primary information for sensor data, we propose a novel tree-structured wavelet neural network for sensor data analysis, namely \emph{T-WaveNet}. To be specific, with T-WaveNet, we first conduct a power spectrum analysis for the sensor data and decompose the input signal into various frequency subbands accordingly. Then, we construct a tree-structured network, and each node on the tree (corresponding to a frequency subband) is built with an invertible neural network (INN) based wavelet transform. By doing so, T-WaveNet provides more effective representation for sensor information than existing DNN-based techniques, and it achieves state-of-the-art performance on various sensor datasets, including UCI-HAR for activity recognition, OPPORTUNITY for gesture recognition, BCICIV2a for intention recognition, and NinaPro DB1 for muscular movement recognition.
翻訳日:2021-05-15 22:42:33 公開日:2020-12-10
# (参考訳) モデル説明を用いた画像分類におけるバイアスの調査

Investigating Bias in Image Classification using Model Explanations ( http://arxiv.org/abs/2012.05463v1 )

ライセンス: CC BY 4.0
Schrasing Tong (1), Lalana Kagal (1) ((1) Massachusetts Institute of Technology)(参考訳) 本研究では,識別特徴を強調表示することで,画像分類におけるバイアスを効率的に検出できるかどうかを評価した。 この目的のために,バイアス検出の重要な特性を定式化し,モデルのバイアスの程度が変化するにつれて説明がどのように変化するかを観察した。 この論文は、説明を用いてバイアスを検出するための強みとベストプラクティス、および3つの主な弱点を識別する: 説明はバイアスの程度を十分に見積もらず、分析にさらなるバイアスをもたらす可能性があり、時には人的労力の面で非効率である。

We evaluated whether model explanations could efficiently detect bias in image classification by highlighting discriminating features, thereby removing the reliance on sensitive attributes for fairness calculations. To this end, we formulated important characteristics for bias detection and observed how explanations change as the degree of bias in models change. The paper identifies strengths and best practices for detecting bias using explanations, as well as three main weaknesses: explanations poorly estimate the degree of bias, could potentially introduce additional bias into the analysis, and are sometimes inefficient in terms of human effort involved.
翻訳日:2021-05-15 22:26:34 公開日:2020-12-10
# (参考訳) 繰り返し構築されたガンマ・ミニマックス推定器による一般モデルにおけるあいまいな事前情報活用

Leveraging vague prior information in general models via iteratively constructed Gamma-minimax estimators ( http://arxiv.org/abs/2012.05465v1 )

ライセンス: CC BY 4.0
Hongxiang Qiu, Alex Luedtke(参考訳) ガンマ・ミニマックス推定(gamma-minimax estimation)は、ある特定の事前分布を特定できない場合に、事前情報を推定手順に組み込む手法である。 提案手法では,事前分布の$\Gamma$に対して,最悪のベイズリスクを最小限に抑える推定器を提案する。 伝統的に、ガンマ・ミニマックス推定はパラメトリックモデルに対して定義される。 本稿では,一般モデルに対するガンマ最小性を定義し,一般モデル空間に対するガンマ最小推定器と一般化モーメントに制約された事前分布の集合を計算するための収束保証付き反復アルゴリズムを提案する。 また,ニューラルネットワークによる候補推定器の空間の符号化も提案する。 本手法は,生物多様性研究におけるエントロピー推定と問題点の2つの設定で説明する。

Gamma-minimax estimation is an approach to incorporate prior information into an estimation procedure when it is implausible to specify one particular prior distribution. In this approach, we aim for an estimator that minimizes the worst-case Bayes risk over a set $\Gamma$ of prior distributions. Traditionally, Gamma-minimax estimation is defined for parametric models. In this paper, we define Gamma-minimaxity for general models and propose iterative algorithms with convergence guarantees to compute Gamma-minimax estimators for a general model space and a set of prior distributions constrained by generalized moments. We also propose encoding the space of candidate estimators by neural networks to enable flexible estimation. We illustrate our method in two settings, namely entropy estimation and a problem that arises in biodiversity studies.
翻訳日:2021-05-15 22:17:01 公開日:2020-12-10
# (参考訳) 能動転写学習を用いた臨床テキストの因果的マイニングへの実践的アプローチ

A Practical Approach towards Causality Mining in Clinical Text using Active Transfer Learning ( http://arxiv.org/abs/2012.07563v1 )

ライセンス: CC BY 4.0
Musarrat Hussain, Fahad Ahmed Satti, Jamil Hussain, Taqdir Ali, Syed Imran Ali, Hafiz Syed Muhammad Bilal, Gwang Hoon Park, Sungyoung Lee(参考訳) 目的:因果関係のマイニングは、最先端の自然言語処理技術の応用を必要とする活発な研究領域である。 医療分野において、医療専門家は、明確に定義されたスキーマ駆動の情報システムの限界を克服するために臨床テキストを作成する。 本研究の目的は,臨床テキストを因果知識に変換する枠組みを構築することである。 方法:用語展開,フレーズ生成,BERTに基づくフレーズ埋め込みと意味マッチング,セマンティックエンリッチメント,専門家による検証,モデル進化に基づく実践的アプローチを用いて,包括的な因果的マイニングの枠組みを構築した。 このactive transfer learningベースのフレームワークは、補足サービスとともに、臨床テキストから因果関係とその関連エンティティを抽出・強化することができる。 結果:マルチモデルトランスファー学習手法は,複数のイテレーションを繰り返すことで,精度の向上と再現性の向上を実現し,精度を一定に保ちながらリコールを行う。 また,提案手法と共通する手法の比較分析を行い,提案手法の正しさとほとんどの因果関係を捉える能力を示す。 結論: このフレームワークは医療領域において最先端の結果を提供している。 しかし、他のドメインで因果検出を提供するためにフレームワークを微調整することもできる。 意義: 提示されたフレームワークは、あらゆるドメインで利用できるほど汎用的であり、医療サービスは、そのデータの輝かしく多様な性質のために、大きな利益を得ることができる。 この因果知識抽出フレームワークは、臨床テキストの要約、ペルソナの作成、医療知識の発見、臨床意思決定への証拠の提供に使用することができる。

Objective: Causality mining is an active research area, which requires the application of state-of-the-art natural language processing techniques. In the healthcare domain, medical experts create clinical text to overcome the limitation of well-defined and schema driven information systems. The objective of this research work is to create a framework, which can convert clinical text into causal knowledge. Methods: A practical approach based on term expansion, phrase generation, BERT based phrase embedding and semantic matching, semantic enrichment, expert verification, and model evolution has been used to construct a comprehensive causality mining framework. This active transfer learning based framework along with its supplementary services, is able to extract and enrich, causal relationships and their corresponding entities from clinical text. Results: The multi-model transfer learning technique when applied over multiple iterations, gains performance improvements in terms of its accuracy and recall while keeping the precision constant. We also present a comparative analysis of the presented techniques with their common alternatives, which demonstrate the correctness of our approach and its ability to capture most causal relationships. Conclusion: The presented framework has provided cutting-edge results in the healthcare domain. However, the framework can be tweaked to provide causality detection in other domains, as well. Significance: The presented framework is generic enough to be utilized in any domain, healthcare services can gain massive benefits due to the voluminous and various nature of its data. This causal knowledge extraction framework can be used to summarize clinical text, create personas, discover medical knowledge, and provide evidence to clinical decision making.
翻訳日:2021-05-15 22:16:11 公開日:2020-12-10
# (参考訳) 音声認識のための統一ストリームと非ストリーミング2パスエンドツーエンドモデル

Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition ( http://arxiv.org/abs/2012.05481v1 )

ライセンス: CC BY 4.0
Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu, Chao Yang, Liyong Guo, Yaguang Hu, Lei Xie, Xin Lei(参考訳) 本稿では,ストリーミングと非ストリーミングのエンドツーエンド(E2E)音声認識を単一モデルで統一する新しい2パス手法を提案する。 このモデルでは,エンコーダのコンフォメータ層を変更するハイブリッドCTC/アテンションアーキテクチャを採用している。 任意のコンテキスト長を許容する動的チャンクに基づく注意戦略を提案する。 推論時、CTCデコーダはストリーミング方式でn-best仮説を生成する。 推測遅延はチャンクサイズを変更するだけで簡単に制御できる。 CTC仮説は、最終的な結果を得るためにアテンションデコーダによって再描画される。 この効率的な再描画プロセスは、文レベルの遅延を非常に少なくする。 オープンな170時間AISHELL-1データセットに対する実験により,提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統合できることを示した。 AISHELL-1テストセットでは、標準の非ストリーミング変換器と比較して、ASRの相対的文字誤り率(CER)が5.60%減少する。 同じモデルはストリーミングasrシステムで640msのレイテンシを持つ5.42%のcerを実現する。

In this paper, we present a novel two-pass approach to unify streaming and non-streaming end-to-end (E2E) speech recognition in a single model. Our model adopts the hybrid CTC/attention architecture, in which the conformer layers in the encoder are modified. We propose a dynamic chunk-based attention strategy to allow arbitrary right context length. At inference time, the CTC decoder generates n-best hypotheses in a streaming way. The inference latency could be easily controlled by only changing the chunk size. The CTC hypotheses are then rescored by the attention decoder to get the final result. This efficient rescoring process causes very little sentence-level latency. Our experiments on the open 170-hour AISHELL-1 dataset show that, the proposed method can unify the streaming and non-streaming model simply and efficiently. On the AISHELL-1 test set, our unified model achieves 5.60% relative character error rate (CER) reduction in non-streaming ASR compared to a standard non-streaming transformer. The same model achieves 5.42% CER with 640ms latency in a streaming ASR system.
翻訳日:2021-05-15 22:15:01 公開日:2020-12-10
# (参考訳) 臨床実習ガイドラインからAIによる知識抽出:研究を実践に変える

AI Driven Knowledge Extraction from Clinical Practice Guidelines: Turning Research into Practice ( http://arxiv.org/abs/2012.05489v1 )

ライセンス: CC BY 4.0
Musarrat Hussain, Jamil Hussain, Taqdir Ali, Fahad Ahmed Satti, Sungyoung Lee(参考訳) 背景と目的:臨床実習ガイドライン(CPGs)は、医療領域における最先端の研究成果を医療従事者と共有するための最前線の方法論であり、診療のバリエーションを制限し、臨床費用を削減し、医療の質を改善し、エビデンスベースの治療を提供する。 しかし, CPGの多量から関連する知識を抽出することは, すでに重荷を負っている医療従事者にとって不可能であり, 臨床所見と実際の実践との間に大きなギャップが生じる。 したがって、最先端のコンピューティング研究、特に機械学習は、cpgから知識を抽出し、医療研究と実践の間のギャップを減らすための人工知能ベースのソリューションを提供するために使用される。 方法: 本研究は, CPGから知識を抽出し, ギャップを減らし, 最新の研究成果を臨床実践に転換する手法を提案する。 まず,cpg文を条件処理,条件対応,動作,および文中の情報に基づいて適用できない4つのクラスに分類する。 我々は、最先端の単語埋め込みによる深層学習を用いて、分類過程における単語ベクトル法の改良を行った。 第二に、分類文中の条件や動作句の認識を支援する分類文の修飾語を識別する。 最後に、条件とアクションフレーズは処理され、普通のルールに変換されます if Condition(s) Then Actionフォーマット。 結果: 高血圧, 鼻鼻腔炎, 喘息の3つの領域のガイドラインについて検討した。 ディープラーニングモデルは、CPG文を95%の精度で分類する。 ルール抽出はユーザ中心のアプローチで検証され、jaccard係数は0.6、0.7、0.4となり、それぞれ3人の人間専門家がルールを抽出した。

Background and Objectives: Clinical Practice Guidelines (CPGs) represent the foremost methodology for sharing state-of-the-art research findings in the healthcare domain with medical practitioners to limit practice variations, reduce clinical cost, improve the quality of care, and provide evidence based treatment. However, extracting relevant knowledge from the plethora of CPGs is not feasible for already burdened healthcare professionals, leading to large gaps between clinical findings and real practices. It is therefore imperative that state-of-the-art Computing research, especially machine learning is used to provide artificial intelligence based solution for extracting the knowledge from CPGs and reducing the gap between healthcare research/guidelines and practice. Methods: This research presents a novel methodology for knowledge extraction from CPGs to reduce the gap and turn the latest research findings into clinical practice. First, our system classifies the CPG sentences into four classes such as condition-action, condition-consequences, action, and not-applicable based on the information presented in a sentence. We use deep learning with state-of-the-art word embedding, improved word vectors technique in classification process. Second, it identifies qualifier terms in the classified sentences, which assist in recognizing the condition and action phrases in a sentence. Finally, the condition and action phrase are processed and transformed into plain rule If Condition(s) Then Action format. Results: We evaluate the methodology on three different domains guidelines including Hypertension, Rhinosinusitis, and Asthma. The deep learning model classifies the CPG sentences with an accuracy of 95%. While rule extraction was validated by user-centric approach, which achieved a Jaccard coefficient of 0.6, 0.7, and 0.4 with three human experts extracted rules, respectively.
翻訳日:2021-05-15 21:42:00 公開日:2020-12-10
# (参考訳) 解釈可能性に対するシャプリークレジット割当について

On Shapley Credit Allocation for Interpretability ( http://arxiv.org/abs/2012.05506v1 )

ライセンス: CC0 1.0
Debraj Basu(参考訳) 学習モデルの判断を解釈する際に適切な質問を行うことの重要性を強調する。 我々はjanzing et から理論機械の自然な拡張について論じる。 アル なぜ私のモデルは、ある人が癌を患っていると予測したのか? より関係のある質問に答えるために、"なぜ私のモデルは癌を予測したのか? 前者はモデルに対する変数の直接的な影響を定量化するが、後者は間接的な効果も考慮し、人間が原因や効果の観点から推論できる意味のある洞察を与える。 我々は,観察的,モデル特異的,因果的という3つの解釈の広いカテゴリを提案する。 さらに,本論文では,解釈の性質を異なる尺度で織り込むことによって特徴の関連性を定量化する。 また,このモデルの予測値の他に,情報的候補としての統計的不確実性と分散の尺度や,各データポイントについての説明を生成する上でのメリットについても論じる。 これらの尺度は, モデル出力に対する変数の影響を調べるだけでなく, モデルの予測性能にも有効である。

We emphasize the importance of asking the right question when interpreting the decisions of a learning model. We discuss a natural extension of the theoretical machinery from Janzing et. al. 2020, which answers the question "Why did my model predict a person has cancer?" for answering a more involved question, "What caused my model to predict a person has cancer?" While the former quantifies the direct effects of variables on the model, the latter also accounts for indirect effects, thereby providing meaningful insights wherever human beings can reason in terms of cause and effect. We propose three broad categories for interpretations: observational, model-specific and causal each of which are significant in their own right. Furthermore, this paper quantifies feature relevance by weaving different natures of interpretations together with different measures as characteristic functions for Shapley symmetrization. Besides the widely used expected value of the model, we also discuss measures of statistical uncertainty and dispersion as informative candidates, and their merits in generating explanations for each data point, some of which are used in this context for the first time. These measures are not only useful for studying the influence of variables on the model output, but also on the predictive performance of the model, and for that we propose relevant characteristic functions that are also used for the first time.
翻訳日:2021-05-15 21:19:35 公開日:2020-12-10
# (参考訳) バッチサイズパラメータの違いがcovid-19の予測に及ぼす影響

Effect of Different Batch Size Parameters on Predicting of COVID19 Cases ( http://arxiv.org/abs/2012.05534v1 )

ライセンス: CC BY 4.0
Ali Narin and Ziynet Pamuk(参考訳) 新型コロナウイルス感染症(COVID19)は、2019年12月以来数千人、あるいは数百万人が死亡している非常に深刻な流行だ。 2020年3月に世界保健機関によってパンデミックとして定義された。 このウイルスは、通常、くしゃみによって引き起こされる液滴や、感染した表面に触れることによって伝染する。 ウイルスの存在は、鼻や喉から採取したスワブの助けを借りてリアルタイム逆転写酵素ポリメラーゼ連鎖反応(rRT-PCR)によって検出される。 また、X線およびCTイメージング法もこの方法をサポートするために用いられる。 rRT-PCR検査の精度は低いことが知られているため、補助的診断法は非常に重要である。 コンピュータ支援診断・検出システムは特にX線とCT画像の助けを借りて開発されている。 文献中のcovid-19の検出に関する研究は日々増加している。 本研究では,BH=3,10,20,30,40,50の異なるバッチサイズ (BH=3,10,20,30,40,50) のパラメータ値が,4つの異なる(ウイルス性肺炎,COVID19,正常,細菌性肺炎)クラスに属するデータから検出した。 この研究は、事前訓練されたResNet50畳み込みニューラルネットワークを用いて行われた。 得られた結果から,トレーニングデータとテストデータに密着した評価を行った。 しかし, バッチサイズが大きくなるにつれて, テストデータの定常状態が遅れることが観察された。 BH = 3では95.17%、BH = 20では97.97%であった。 その結果,バッチサイズ値は全体の性能に大きく影響しないが,バッチサイズ値の増加は安定した結果を得るのに遅れることがわかった。

The new coronavirus 2019, also known as COVID19, is a very serious epidemic that has killed thousands or even millions of people since December 2019. It was defined as a pandemic by the world health organization in March 2020. It is stated that this virus is usually transmitted by droplets caused by sneezing or coughing, or by touching infected surfaces. The presence of the virus is detected by real-time reverse transcriptase polymerase chain reaction (rRT-PCR) tests with the help of a swab taken from the nose or throat. In addition, X-ray and CT imaging methods are also used to support this method. Since it is known that the accuracy sensitivity in rRT-PCR test is low, auxiliary diagnostic methods have a very important place. Computer-aided diagnosis and detection systems are developed especially with the help of X-ray and CT images. Studies on the detection of COVID19 in the literature are increasing day by day. In this study, the effect of different batch size (BH=3, 10, 20, 30, 40, and 50) parameter values on their performance in detecting COVID19 and other classes was investigated using data belonging to 4 different (Viral Pneumonia, COVID19, Normal, Bacterial Pneumonia) classes. The study was carried out using a pre-trained ResNet50 convolutional neural network. According to the obtained results, they performed closely on the training and test data. However, it was observed that the steady state in the test data was delayed as the batch size value increased. The highest COVID19 detection was 95.17% for BH = 3, while the overall accuracy value was 97.97% with BH = 20. According to the findings, it can be said that the batch size value does not affect the overall performance significantly, but the increase in the batch size value delays obtaining stable results.
翻訳日:2021-05-15 19:56:54 公開日:2020-12-10
# (参考訳) トポロジー適応型メッシュ変形による表面進化・モーフィング・多視点再構成

Topology-Adaptive Mesh Deformation for Surface Evolution, Morphing, and Multi-View Reconstruction ( http://arxiv.org/abs/2012.05536v1 )

ライセンス: CC BY 4.0
Andrei Zaharescu, Edmond Boyer, and Radu Horaud(参考訳) 三角メッシュはユビキタスな離散曲面表現となっている。 本稿では, 表面の多様体特性の維持に関する問題に対処し, 位相変化を引き起こすような強い変形を経験する。 我々は,新しい自己切断除去アルゴリズムであるTransforMeshを導入し,このアルゴリズムに基づくメッシュ進化フレームワークを提案する。 多くの形状モデリングアプリケーションは、外観や精度などの形状特性を改善するために表面進化を使用する。 明示的表現も暗黙的表現もその目的のために考慮できる。 しかしながら、明示的なメッシュ表現は、正確な表面モデリングを可能にする一方で、自己切断やマージやスプリットといったトポロジカルな変化を確実に扱うことが本質的に困難になる。 その結果、多くのメソッドは、例えば、表面の暗黙的な表現に依存する。 これらの問題を自然に克服するレベルセット。 それでもこれらの手法は、望ましくない精度・複雑さのトレードオフをもたらすボリュームの離散化に基づいている。 提案手法はロバストな方法でトポロジカルな変化を処理し,自己交点を除去し,メッシュベースのアプローチの従来の制限を克服するものである。 TransforMeshの有効性を説明するために,表面改質と3次元再構成の2つの課題について述べる。

Triangulated meshes have become ubiquitous discrete-surface representations. In this paper we address the problem of how to maintain the manifold properties of a surface while it undergoes strong deformations that may cause topological changes. We introduce a new self-intersection removal algorithm, TransforMesh, and we propose a mesh evolution framework based on this algorithm. Numerous shape modelling applications use surface evolution in order to improve shape properties, such as appearance or accuracy. Both explicit and implicit representations can be considered for that purpose. However, explicit mesh representations, while allowing for accurate surface modelling, suffer from the inherent difficulty of reliably dealing with self-intersections and topological changes such as merges and splits. As a consequence, a majority of methods rely on implicit representations of surfaces, e.g. level-sets, that naturally overcome these issues. Nevertheless, these methods are based on volumetric discretizations, which introduce an unwanted precision-complexity trade-off. The method that we propose handles topological changes in a robust manner and removes self intersections, thus overcoming the traditional limitations of mesh-based approaches. To illustrate the effectiveness of TransforMesh, we describe two challenging applications, namely surface morphing and 3-D reconstruction.
翻訳日:2021-05-15 19:50:08 公開日:2020-12-10
# (参考訳) 敵対的防御の実証的考察

An Empirical Review of Adversarial Defenses ( http://arxiv.org/abs/2012.06332v1 )

ライセンス: CC BY-SA 4.0
Ayush Goel(参考訳) スマートフォンに搭載された顔認識システムから自動運転車まで、AIの分野は急速な変革を目の当たりにしており、私たちの日常生活に驚くほどのペースで統合されている。 これらのシステムの予測の大きな失敗は、破壊的になり、機密情報を漏らしたり、(自動運転車の場合のように)命を犠牲にすることさえある。 しかし、そのようなシステムの基礎を形成するディープニューラルネットワークは、敵攻撃と呼ばれる特定のタイプの攻撃に非常に影響を受けやすい。 ハッカーは、最小限の計算でも、敵対的な例(他のクラスに属するイメージやデータポイント)を生成し、そのアルゴリズムの基礎を壊すことができる。 本稿では,このような攻撃から防御するための多数のアプローチをコンパイルし,テストする。 調査した結果,DropoutとDenoising Autoencodersという2つの効果的なテクニックが発見され,そのような攻撃がモデルを騙すのを防ぐことに成功した。 これらの手法は、高いノイズレベルと異なる種類の敵対的攻撃の両方にも耐えられることを実証する(全てに対してテストはされないが)。 また,ディープニューラルネットワークのアプリケーションの性質と資源制約に基づき,攻撃に対する適切な防御手法を決定するフレームワークを開発した。

From face recognition systems installed in phones to self-driving cars, the field of AI is witnessing rapid transformations and is being integrated into our everyday lives at an incredible pace. Any major failure in these system's predictions could be devastating, leaking sensitive information or even costing lives (as in the case of self-driving cars). However, deep neural networks, which form the basis of such systems, are highly susceptible to a specific type of attack, called adversarial attacks. A hacker can, even with bare minimum computation, generate adversarial examples (images or data points that belong to another class, but consistently fool the model to get misclassified as genuine) and crumble the basis of such algorithms. In this paper, we compile and test numerous approaches to defend against such adversarial attacks. Out of the ones explored, we found two effective techniques, namely Dropout and Denoising Autoencoders, and show their success in preventing such attacks from fooling the model. We demonstrate that these techniques are also resistant to both higher noise levels as well as different kinds of adversarial attacks (although not tested against all). We also develop a framework for deciding the suitable defense technique to use against attacks, based on the nature of the application and resource constraints of the Deep Neural Network.
翻訳日:2021-05-15 19:26:41 公開日:2020-12-10
# (参考訳) 大規模生成データフリー蒸留

Large-Scale Generative Data-Free Distillation ( http://arxiv.org/abs/2012.05578v1 )

ライセンス: CC BY 4.0
Liangchen Luo, Mark Sandler, Zi Lin, Andrey Zhmoginov, Andrew Howard(参考訳) 知識蒸留は知識伝達、モデル圧縮、半教師あり学習において最も一般的で効果的な技術の一つである。 既存の蒸留手法のほとんどは、オリジナルまたは強化されたトレーニングサンプルへのアクセスを必要とする。 しかしこれは、プライバシ、プロプライエタリ、可用性の懸念から、実際には問題となる可能性がある。 最近の研究でこの問題に対処する方法がいくつか提案されているが、それは非常に時間がかかるか、大規模なデータセットにスケールできないかのいずれかである。 そこで本研究では,教師ネットワークの固有正規化レイヤの統計情報を活用することによって,生成画像モデルをトレーニングする手法を提案する。 これにより、後続蒸留のための代替入力を効率的に生成できるトレーニングデータなしで、ジェネレータのアンサンブルを構築することができる。 提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。 さらに、imagenetデータセットにスケールすることが可能で、私たちの知る限りでは、データフリーな設定で生成モデルを使ったことがない。

Knowledge distillation is one of the most popular and effective techniques for knowledge transfer, model compression and semi-supervised learning. Most existing distillation approaches require the access to original or augmented training samples. But this can be problematic in practice due to privacy, proprietary and availability concerns. Recent work has put forward some methods to tackle this problem, but they are either highly time-consuming or unable to scale to large datasets. To this end, we propose a new method to train a generative image model by leveraging the intrinsic normalization layers' statistics of the trained teacher network. This enables us to build an ensemble of generators without training data that can efficiently produce substitute inputs for subsequent distillation. The proposed method pushes forward the data-free distillation performance on CIFAR-10 and CIFAR-100 to 95.02% and 77.02% respectively. Furthermore, we are able to scale it to ImageNet dataset, which to the best of our knowledge, has never been done using generative models in a data-free setting.
翻訳日:2021-05-15 18:56:10 公開日:2020-12-10
# (参考訳) スケール調整による画像マッチング

Image Matching with Scale Adjustment ( http://arxiv.org/abs/2012.05582v1 )

ライセンス: CC BY 4.0
Yves Dufournaud, Cordelia Schmid, and Radu Horaud(参考訳) 本稿では,高分解能画像と低分解能画像の2つの異なる解像度とのマッチングの問題に対処する。 2つの画像間の解像度の差は分かっておらず、一般性を失うことなく1つの画像が高解像度画像であると仮定する。 解像度変化がスケール変化と同等の平滑化として働くことを前提として、高解像度画像のスケール空間表現を作成する。 したがって、1対1の古典画像マッチングパラダイムは、低解像度画像が高解像度画像のすべてのスケール空間表現と比較されるため、一対多となる。 このようなプロセスの成功の鍵は、スケールスペースでマッチする機能の適切な表現である。 可変スケールでの利得点の表現と抽出方法を示し、2つの異なる解像度で2つの画像を比較する方法を提案する。 本発明の方法は、測光および回転不変ディスクリプタの使用と、高分解能画像を低解像度の画像領域にマッピングする幾何学モデルと、局所的な制約と、この幾何学モデルのロバストな推定に基づく画像マッチング戦略とを含む。 大規模な実験により, 一致法は6。

In this paper we address the problem of matching two images with two different resolutions: a high-resolution image and a low-resolution one. The difference in resolution between the two images is not known and without loss of generality one of the images is assumed to be the high-resolution one. On the premise that changes in resolution act as a smoothing equivalent to changes in scale, a scale-space representation of the high-resolution image is produced. Hence the one-to-one classical image matching paradigm becomes one-to-many because the low-resolution image is compared with all the scale-space representations of the high-resolution one. Key to the success of such a process is the proper representation of the features to be matched in scale-space. We show how to represent and extract interest points at variable scales and we devise a method allowing the comparison of two images at two different resolutions. The method comprises the use of photometric- and rotation-invariant descriptors, a geometric model mapping the high-resolution image onto a low-resolution image region, and an image matching strategy based on local constraints and on the robust estimation of this geometric model. Extensive experiments show that our matching method can be used for scale changes up to a factor of 6.
翻訳日:2021-05-15 18:40:41 公開日:2020-12-10
# (参考訳) 事前学習畳み込みニューラルネットワークを用いた平衡・非平衡癌データセットの性能比較

Performance Comparison of Balanced and Unbalanced Cancer Datasets using Pre-Trained Convolutional Neural Network ( http://arxiv.org/abs/2012.05585v1 )

ライセンス: CC BY 4.0
Ali Narin(参考訳) ガン病は世界中で主要な死因の1つだ。 乳がんは、特に女性に多いがん疾患であり、非常に一般的である。 診断に長い期間を要するこのタイプの早期発見に使用される最も重要なツールは、生検で採取した病理組織像である。 これらの画像は病理医によって検査され、確定診断がなされる。 このプロセスはコンピュータの助けを借りて検出することが一般的である。 良性腫瘍や悪性腫瘍の検出は,特に拡大率の異なるデータを用いて行う。 本研究では,breakhisデータセットの病理組織学的データを用いて,バランスとバランスの異なる2つの研究グループを作成した。 腫瘍検出において,バランスとバランスのとれないデータセットの性能がどのように変化するかを検討した。 結論として,inceptionv3畳み込みニューラルネットワークモデルを用いて行った研究では,平衡データに対して93.55%の精度,99.19%のリコール,87.10%の特異値,89.75%の精度,82.89%のリコール,91.51%の特異値が得られた。 2つの異なる研究で得られた結果によると、データのバランスは、良性腫瘍と悪性腫瘍の両方の検出性能と同様に、全体的な性能を高める。 バランスの取れた方法で作成されたデータセットの助けを借りてトレーニングされたモデルは、病理の専門家により高い正確な結果を与えると言えます。

Cancer disease is one of the leading causes of death all over the world. Breast cancer, which is a common cancer disease especially in women, is quite common. The most important tool used for early detection of this cancer type, which requires a long process to establish a definitive diagnosis, is histopathological images taken by biopsy. These obtained images are examined by pathologists and a definitive diagnosis is made. It is quite common to detect this process with the help of a computer. Detection of benign or malignant tumors, especially by using data with different magnification rates, takes place in the literature. In this study, two different balanced and unbalanced study groups have been formed by using the histopathological data in the BreakHis data set. We have examined how the performances of balanced and unbalanced data sets change in detecting tumor type. In conclusion, in the study performed using the InceptionV3 convolution neural network model, 93.55% accuracy, 99.19% recall and 87.10% specificity values have been obtained for balanced data, while 89.75% accuracy, 82.89% recall and 91.51% specificity values have been obtained for unbalanced data. According to the results obtained in two different studies, the balance of the data increases the overall performance as well as the detection performance of both benign and malignant tumors. It can be said that the model trained with the help of data sets created in a balanced way will give pathology specialists higher and accurate results.
翻訳日:2021-05-15 18:29:22 公開日:2020-12-10
# (参考訳) 圧縮ビデオバックグラウンドサブトラクションのためのDenoising-based Turbo Message Passing

Denoising-based Turbo Message Passing for Compressed Video Background Subtraction ( http://arxiv.org/abs/2012.05626v1 )

ライセンス: CC BY 4.0
Zhipeng Xue, Xiaojun Yuan, Yang Yang(参考訳) 本稿では,ビデオの背景と前景を圧縮した測定値から分離する圧縮ビデオ背景減算問題について考察する。 ビデオの背景は通常低次元空間に存在し、前景は通常スパースである。 さらに重要なのは、それぞれのビデオフレームがテキストパターンを持つ自然なイメージであることだ。 これらの特性を利用して、オフラインデノナイジングベースターボメッセージパッシング(DTMP)と呼ばれるメッセージパッシングアルゴリズムを開発する。 本稿では,これらの構造特性をturboメッセージパッシングフレームワーク下で既存のデノイジング手法により効率的に処理できることを示す。 さらに、DTMPアルゴリズムをオンライン形式でビデオデータが収集されるオンラインシナリオに拡張する。 この拡張は、隣接するビデオフレーム間の類似性/連続性に基づいている。 我々は、前景の推定を洗練するために光学フロー法を採用する。 また,スライディングウインドウに基づく背景推定を適用し,複雑さを低減した。 メッセージのガウス性を利用して、オフラインおよびオンラインDTMPの照会性能を特徴付ける状態進化を開発する。 既存のアルゴリズムと比較して、dtmpはより低い圧縮率で動作し、低い平均二乗誤差と、オフラインとオンラインの圧縮ビデオ背景減算の両方でより良いビジュアル品質でバックグラウンドを減算することができる。

In this paper, we consider the compressed video background subtraction problem that separates the background and foreground of a video from its compressed measurements. The background of a video usually lies in a low dimensional space and the foreground is usually sparse. More importantly, each video frame is a natural image that has textural patterns. By exploiting these properties, we develop a message passing algorithm termed offline denoising-based turbo message passing (DTMP). We show that these structural properties can be efficiently handled by the existing denoising techniques under the turbo message passing framework. We further extend the DTMP algorithm to the online scenario where the video data is collected in an online manner. The extension is based on the similarity/continuity between adjacent video frames. We adopt the optical flow method to refine the estimation of the foreground. We also adopt the sliding window based background estimation to reduce complexity. By exploiting the Gaussianity of messages, we develop the state evolution to characterize the per-iteration performance of offline and online DTMP. Comparing to the existing algorithms, DTMP can work at much lower compression rates, and can subtract the background successfully with a lower mean squared error and better visual quality for both offline and online compressed video background subtraction.
翻訳日:2021-05-15 16:53:59 公開日:2020-12-10
# (参考訳) 新しいものと同じくらい。 英語のgpt-2を再利用して他の言語のモデルを作る方法

As good as new. How to successfully recycle English GPT-2 to make models for other languages ( http://arxiv.org/abs/2012.05628v1 )

ライセンス: CC BY 4.0
Wietse de Vries, Malvina Nissim(参考訳) 大規模な生成言語モデルは英語では非常に成功しているが、他の言語はデータと計算の制限のために遅れている。 本稿では,既存の事前学習言語モデルを新しい言語に適応させることで,これらの問題を克服できる手法を提案する。 具体的には、Transformer層をチューニングせずに語彙埋め込みをトレーニングすることで、英語のGPT-2をイタリア語とオランダ語に適応させる方法について述べる。 結果として、原英語の語彙埋め込みと整合したイタリア語とオランダ語の語彙埋め込みを取得し、このアライメントからバイリンガル辞書を誘導する。 さらに, GPT-2小径の語彙埋め込みを GPT-2 媒体埋め込み空間に変換することで, 複雑さを増大させる方法を示す。 この方法はトレーニングの量を最小化し、GPT-2で学習した適応中に情報を失うのを防ぐ。 英語のgpt-2モデルはイタリア語とオランダ語で現実的な文を生成することができるが、平均してこれらの文は人間によって人工的に識別できる。 パープレキシティスコアと人間の判断に基づいて、生成された文はよりリアルになり、追加のフルモデルの微調整(特にオランダ語)が行われる。 イタリア語では、それらがGPT-2モデルでゼロから完全に訓練された文と同等に評価されている。 我々の研究は、他の言語のためのGPT-2sをトレーニングするための青写真として考えられます。

Large generative language models have been very successful for English, but other languages lag behind due to data and computational limitations. We propose a method that may overcome these problems by adapting existing pre-trained language models to new languages. Specifically, we describe the adaptation of English GPT-2 to Italian and Dutch by retraining lexical embeddings without tuning the Transformer layers. As a result, we obtain lexical embeddings for Italian and Dutch that are aligned with the original English lexical embeddings and induce a bilingual lexicon from this alignment. Additionally, we show how to scale up complexity by transforming relearned lexical embeddings of GPT-2 small to the GPT-2 medium embedding space. This method minimises the amount of training and prevents losing information during adaptation that was learned by GPT-2. English GPT-2 models with relearned lexical embeddings can generate realistic sentences in Italian and Dutch, but on average these sentences are still identifiable as artificial by humans. Based on perplexity scores and human judgements, we find that generated sentences become more realistic with some additional full model finetuning, especially for Dutch. For Italian, we see that they are evaluated on par with sentences generated by a GPT-2 model fully trained from scratch. Our work can be conceived as a blueprint for training GPT-2s for other languages, and we provide a 'recipe' to do so.
翻訳日:2021-05-15 16:35:14 公開日:2020-12-10
# (参考訳) 構造解明のための因子グラフ分子ネットワーク

Factor Graph Molecule Network for Structure Elucidation ( http://arxiv.org/abs/2012.05665v1 )

ライセンス: CC0 1.0
Hieu Le Trung and Yiqing Xu and Wee Sun Lee(参考訳) 物理化学的性質から分子構造を学習するネットワークを設計することは難しい問題であるが、薬物発見タスクには有用である。 本稿では,ニューラルネットワークの強力な近似力を持つ因子グラフの高次関係学習を取り入れ,強汎化力を有し,高次関係と原子価制約を強制できる分子構造学習ネットワークを構築する。 さらに, 因子ノードの効率的な設計, 因子間の条件パラメータ共有, 分子構造予測における対称性問題などの問題に取り組む手法を提案する。 実験の結果,因子学習は有効であり,関連する手法よりも優れていた。

Designing a network to learn a molecule structure given its physical/chemical properties is a hard problem, but is useful for drug discovery tasks. In this paper, we incorporate higher-order relational learning of Factor Graphs with strong approximation power of Neural Networks to create a molecule-structure learning network that has strong generalization power and can enforce higher-order relationship and valence constraints. We further propose methods to tackle problems such as the efficient design of factor nodes, conditional parameter sharing among factors, and symmetry problems in molecule structure prediction. Our experiment evaluation shows that the factor learning is effective and outperforms related methods.
翻訳日:2021-05-15 15:55:16 公開日:2020-12-10
# (参考訳) プライバシー保護医療画像解析

Privacy-preserving medical image analysis ( http://arxiv.org/abs/2012.06354v1 )

ライセンス: CC BY 4.0
Alexander Ziller, Jonathan Passerat-Palmbach, Th\'eo Ryffel, Dmitrii Usynin, Andrew Trask, Ion\'esio Da Lima Costa Junior, Jason Mancuso, Marcus Makowski, Daniel Rueckert, Rickmer Braren, Georgios Kaissis(参考訳) 医療と医療における人工知能の利用は、いくつかの領域で臨床応用に成功している。 このようなシステムにおけるデータ利用とプライバシー保護要件の衝突は、倫理的および法的コンプライアンスだけでなく、最適な結果のために解決されなければならない。 これにより、プライバシー保護機械学習(PPML)のような革新的なソリューションが求められている。 医用画像解析におけるPPMLのためのソフトウェアフレームワークであるPriMIA(Privacy-Preserving Medical Image Analysis)を提案する。 実生活のケーススタディでは、未発見データセットの人間専門家と比較して、セキュアに集約されたフェデレーション学習モデルの分類性能が有意に高いことが示されています。 さらに、エンドツーエンドの暗号化診断のための推論・アズ・ア・サービスシナリオを示し、データもモデルも明らかにしない。 最後に,グラデーションに基づくモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価し,モデルから使用可能な情報を復元できないことを示す。

The utilisation of artificial intelligence in medicine and healthcare has led to successful clinical applications in several domains. The conflict between data usage and privacy protection requirements in such systems must be resolved for optimal results as well as ethical and legal compliance. This calls for innovative solutions such as privacy-preserving machine learning (PPML). We present PriMIA (Privacy-preserving Medical Image Analysis), a software framework designed for PPML in medical imaging. In a real-life case study we demonstrate significantly better classification performance of a securely aggregated federated learning model compared to human experts on unseen datasets. Furthermore, we show an inference-as-a-service scenario for end-to-end encrypted diagnosis, where neither the data nor the model are revealed. Lastly, we empirically evaluate the framework's security against a gradient-based model inversion attack and demonstrate that no usable information can be recovered from the model.
翻訳日:2021-05-15 15:44:26 公開日:2020-12-10
# (参考訳) リカレントポイントレビューモデル

Recurrent Point Review Models ( http://arxiv.org/abs/2012.05684v1 )

ライセンス: CC BY 4.0
Kostadin Cvejoski, Ramses J. Sanchez, Bogdan Georgiev, Christian Bauckhage and Cesar Ojeda(参考訳) ディープニューラルネットワークモデルは、自然言語処理の最先端の方法論を表している。 ここでは、これらの方法論に基づいて、時間的情報を導入し、時間とともにデータ変更をレビューする方法をモデル化する。 具体的には、ビジネスやサービスレビューの受信履歴をエンコードしたリカレントポイントプロセスモデルの動的表現を用いて、予測能力を向上させた即時言語モデルを生成する。 同時に,提案手法は,要約されたレビューコンテンツ表現を取り入れることで,ポイントプロセスモデルの予測力を高める。 レビューコンテンツをモデル化するための繰り返しネットワークおよび時間畳み込みソリューションを提供する。 提案手法をレコメンデーションシステムのコンテキストに展開し,ユーザの嗜好や嗜好の変化を時間的変化とともに効果的に特徴づける。 ソースコードは[1]で利用可能である。

Deep neural network models represent the state-of-the-art methodologies for natural language processing. Here we build on top of these methodologies to incorporate temporal information and model how to review data changes with time. Specifically, we use the dynamic representations of recurrent point process models, which encode the history of how business or service reviews are received in time, to generate instantaneous language models with improved prediction capabilities. Simultaneously, our methodologies enhance the predictive power of our point process models by incorporating summarized review content representations. We provide recurrent network and temporal convolution solutions for modeling the review content. We deploy our methodologies in the context of recommender systems, effectively characterizing the change in preference and taste of users as time evolves. Source code is available at [1].
翻訳日:2021-05-15 15:37:46 公開日:2020-12-10
# (参考訳) 段階的議論フレームワークとしてのニューラルネットワークの解釈(証明付録を含む)

Interpreting Neural Networks as Gradual Argumentation Frameworks (Including Proof Appendix) ( http://arxiv.org/abs/2012.05738v1 )

ライセンス: CC BY 4.0
Nico Potyka(参考訳) フィードフォワードニューラルネットワークの興味深いクラスを定量的な議論フレームワークとして理解できることを示す。 この接続は、形式的議論と機械学習の間の橋渡しとなる。 フィードフォワードニューラルネットワークの非巡回グラフへのセマンティクスを一般化し,議論グラフにおける計算およびセマンティクス特性について検討する。 結論として、セマンティクスは、議論設定用に作られた既存のセマンティクスよりも強力な保証を提供する。 機械学習の観点からは、接続はすぐには役に立たない。 いくつかのフィードフォワードニューラルネットワークに直感的な意味を与えるが、その大きさと密度のために理解しにくい。 しかし、この関係は、疎な議論ネットワークと、補足的な目的のために訓練された密集したニューラルネットワークの形で背景知識を結合し、データからエンドツーエンドの方法で量的議論フレームワークのパラメータを学習するのに有用である。

We show that an interesting class of feed-forward neural networks can be understood as quantitative argumentation frameworks. This connection creates a bridge between research in Formal Argumentation and Machine Learning. We generalize the semantics of feed-forward neural networks to acyclic graphs and study the resulting computational and semantical properties in argumentation graphs. As it turns out, the semantics gives stronger guarantees than existing semantics that have been tailor-made for the argumentation setting. From a machine-learning perspective, the connection does not seem immediately helpful. While it gives intuitive meaning to some feed-forward-neural networks, they remain difficult to understand due to their size and density. However, the connection seems helpful for combining background knowledge in form of sparse argumentation networks with dense neural networks that have been trained for complementary purposes and for learning the parameters of quantitative argumentation frameworks in an end-to-end fashion from data.
翻訳日:2021-05-15 15:02:49 公開日:2020-12-10
# (参考訳) hrcenternet:歴史文書における漢字セグメンテーションへのアンカーレスアプローチ

HRCenterNet: An Anchorless Approach to Chinese Character Segmentation in Historical Documents ( http://arxiv.org/abs/2012.05739v1 )

ライセンス: CC BY 4.0
Chia-Wei Tang, Chao-Lin Liu and Po-Sen Chiu(参考訳) 史料から得られる情報は常に人類文明の伝達に欠かせないものであるが、これらの書物は様々な要因により損害を受けやすいものでもある。 最近の技術により、これらの文書の自動デジタル化は、最も迅速かつ効果的な保存方法の1つである。 自動テキストデジタル化の主なステップは、主に文字分割と文字認識の2段階に分けられる。 そこで本研究では,中国古文書の文字分割にのみ注目する。 本研究では,HRCenterNetというモデルと,アンカーレスオブジェクト検出手法と並列化アーキテクチャを組み合わせたモデルを提案する。 MTHv2データセットは、3000以上の中国古文書画像と100万以上の漢字で構成されており、これらの膨大なデータにより、我々のモデルのセグメンテーション能力は平均でIoU 0.81を達成する。 ソースコードはhttps://github.com/tverous/hrcenternetで入手できます。

The information provided by historical documents has always been indispensable in the transmission of human civilization, but it has also made these books susceptible to damage due to various factors. Thanks to recent technology, the automatic digitization of these documents are one of the quickest and most effective means of preservation. The main steps of automatic text digitization can be divided into two stages, mainly: character segmentation and character recognition, where the recognition results depend largely on the accuracy of segmentation. Therefore, in this study, we will only focus on the character segmentation of historical Chinese documents. In this research, we propose a model named HRCenterNet, which is combined with an anchorless object detection method and parallelized architecture. The MTHv2 dataset consists of over 3000 Chinese historical document images and over 1 million individual Chinese characters; with these enormous data, the segmentation capability of our model achieves IoU 0.81 on average with the best speed-accuracy trade-off compared to the others. Our source code is available at https://github.com/Tverous/HRCenterNet.
翻訳日:2021-05-15 14:39:38 公開日:2020-12-10
# (参考訳) ニューラルスタイル転送によるバングラデシュ絵画の復元画像 : 総合的な実験, 評価, 人間の視点

Restyling Images with the Bangladeshi Paintings Using Neural Style Transfer: A Comprehensive Experiment, Evaluation, and Human Perspective ( http://arxiv.org/abs/2101.05077v1 )

ライセンス: CC BY 4.0
Manal, Ali Hasan Md. Linkon, Md. Mahir Labib, Marium-E-Jannat and Md Saiful Islam(参考訳) 今日の世界では、ニューラル・スタイル・トランスファー(NST)が流行語となっている。 NSTは、コンテンツ画像と参照画像の2つのスタイル(著名な画家の作品など)を組み合わせることで、出力画像が素材の画像のように見えるが、参照画像の形式でレンダリングされる。 しかし、バングラデシュの画家の作品や絵画を用いた研究はない。 バングラデシュの絵画は2千年以上の歴史があり、現在もバングラデシュの画家によって実践されている。 本研究では,バングラデシュ絵画におけるNSTのスタイリング画像を生成し,バングラデシュ絵画におけるNSTの美的嗜好に関する人間の視点を分析した。 本研究の受容性を保証するため,年齢・性別の異なる60人を対象に,生成したスタイリゼーション画像の質的評価を行った。 我々は,NSTがバングラデシュの絵画に対してどのように機能し,NSTアルゴリズムを質的に,定量的に評価するかを説明した。 本研究は,バングラデシュ絵画を用いたNSTスタイリング画像がモバイルUI/GUIおよび人的視点からの資料翻訳に与える影響の前提条件として機能する。 本研究は,NST関連研究の促進とバングラデシュ美術の活用を促進することを目的としている。

In today's world, Neural Style Transfer (NST) has become a trendsetting term. NST combines two pictures, a content picture and a reference image in style (such as the work of a renowned painter) in a way that makes the output image look like an image of the material, but rendered with the form of a reference picture. However, there is no study using the artwork or painting of Bangladeshi painters. Bangladeshi painting has a long history of more than two thousand years and is still being practiced by Bangladeshi painters. This study generates NST stylized image on Bangladeshi paintings and analyzes the human point of view regarding the aesthetic preference of NST on Bangladeshi paintings. To assure our study's acceptance, we performed qualitative human evaluations on generated stylized images by 60 individual humans of different age and gender groups. We have explained how NST works for Bangladeshi paintings and assess NST algorithms, both qualitatively \& quantitatively. Our study acts as a pre-requisite for the impact of NST stylized image using Bangladeshi paintings on mobile UI/GUI and material translation from the human perspective. We hope that this study will encourage new collaborations to create more NST related studies and expand the use of Bangladeshi artworks.
翻訳日:2021-05-15 14:24:41 公開日:2020-12-10
# (参考訳) ライトウェイトCNNアーキテクチャとトランスファーラーニングを組み合わせた深層学習アプローチ:バングラデシュ紙幣の自動検出と認識のためのアプローチ

Deep Learning Approach Combining Lightweight CNN Architecture with Transfer Learning: An Automatic Approach for the Detection and Recognition of Bangladeshi Banknotes ( http://arxiv.org/abs/2101.05081v1 )

ライセンス: CC BY 4.0
Ali Hasan Md. Linkon, Md. Mahir Labib, Faisal Haque Bappy, Soumik Sarker, Marium-E-Jannat and Md Saiful Islam(参考訳) 紙幣の自動検出と認識は、視覚障害者や銀行自身にとって、異なる紙幣を扱うための効率的な管理を提供することで、非常に有用な技術である。 軽量モデルは、あらゆる便利なIoTベースのガジェット/デバイスに簡単に統合できる。 本稿では,移動学習と組み合わせた軽量畳み込みニューラルネットワークアーキテクチャに基づく最先端の深層学習手法について述べる。 バングラデシュの紙幣画像を含む2つの異なるデータセットを持つベースモデルとして、ResNet152v2、MobileNet、NASNetMobileが使用された。 バングラ通貨のデータセットは、バングラデシュの銀行券8000枚で、バングラ通貨のデータセットは1970年の画像で構成されている。 モデルの性能は、データセットと2つのデータセットの組み合わせの両方を用いて測定した。 最大効率を達成するために,様々な拡張,ハイパーパラメータチューニング,最適化技術を用いた。 我々は、MobileNetを用いた8000の画像データセットで98.88\%、NASNetMobileを用いた1970年の画像データセットで100\%、MobileNetを用いた組み合わせデータセット(9970画像)で97.77\%の最大テスト精度を達成した。

Automatic detection and recognition of banknotes can be a very useful technology for people with visual difficulties and also for the banks itself by providing efficient management for handling different paper currencies. Lightweight models can easily be integrated into any handy IoT based gadgets/devices. This article presents our experiments on several state-of-the-art deep learning methods based on Lightweight Convolutional Neural Network architectures combining with transfer learning. ResNet152v2, MobileNet, and NASNetMobile were used as the base models with two different datasets containing Bangladeshi banknote images. The Bangla Currency dataset has 8000 Bangladeshi banknote images where the Bangla Money dataset consists of 1970 images. The performances of the models were measured using both the datasets and the combination of the two datasets. In order to achieve maximum efficiency, we used various augmentations, hyperparameter tuning, and optimizations techniques. We have achieved maximum test accuracy of 98.88\% on 8000 images dataset using MobileNet, 100\% on the 1970 images dataset using NASNetMobile, and 97.77\% on the combined dataset (9970 images) using MobileNet.
翻訳日:2021-05-15 14:17:39 公開日:2020-12-10
# (参考訳) CVaRバンドのためのトンプソンサンプリング

Thompson Sampling for CVaR Bandits ( http://arxiv.org/abs/2012.05754v1 )

ライセンス: CC BY 4.0
Dorian Baudry, Romain Gautron, Emilie Kaufmann, Odalric-Ambryn Maillard(参考訳) リスク認識は、様々な現実世界の問題を定式化する重要な特徴である。 本稿では,報奨分布のあるレベル {\alpha} におけるリスク条件値 (cvar) を用いて各アームの品質を測定するマルチアームバンディット問題について検討する。 この環境での既存の研究は主にアッパー信頼境界アルゴリズムに焦点を当てているが、CVaRバンディットに対する最初のトンプソンサンプリングアプローチを導入する。 リオウとホンダによる最近の研究に基づいて、有界報酬に対する {\alpha}-NPTS と多項分布に対する {\alpha}-Multinomial-TS を提案する。 本稿では,CVaR の反響的最適性の概念をCVaR の帯域に拡張し,この下界を最初に達成したアルゴリズムは {\alpha}-Multinomial-TS であることを示す。 最後に,彼らのucbに対するトンプソンサンプリングアプローチの利点を実証的に示す。

Risk awareness is an important feature to formulate a variety of real world problems. In this paper we study a multi-arm bandit problem in which the quality of each arm is measured by the Conditional Value at Risk (CVaR) at some level {\alpha} of the reward distribution. While existing works in this setting mainly focus on Upper Confidence Bound algorithms, we introduce the first Thompson Sampling approaches for CVaR bandits. Building on a recent work by Riou and Honda (2020), we propose {\alpha}-NPTS for bounded rewards and {\alpha}-Multinomial-TS for multinomial distributions. We provide a novel lower bound on the CVaR regret which extends the concept of asymptotic optimality to CVaR bandits and prove that {\alpha}-Multinomial-TS is the first algorithm to achieve this lower bound. Finally, we demonstrate empirically the benefit of Thompson Sampling approaches over their UCB counterparts.
翻訳日:2021-05-15 14:12:05 公開日:2020-12-10
# (参考訳) マルチセンス言語モデリング

Multi-Sense Language Modelling ( http://arxiv.org/abs/2012.05776v1 )

ライセンス: CC BY 4.0
Andrea Lekkas, Peter Schneider-Kamp, Isabelle Augenstein(参考訳) 言語モデルの有効性は、そのトークン表現に影響され、文脈情報をエンコードし、複数の意味(ポリセミー)を持つ同じ単語形式を扱う必要がある。 現在、共通言語モデリングアーキテクチャのどれも、明確にポリセミをモデル化していない。 我々は,次の単語を予測できるだけでなく,文脈における意味を予測できる言語モデルを提案する。 我々は、この高い予測粒度は、補助的な記述のようなエンドタスクに有用であり、言語モデルと知識ベースをより正確に結びつけることができると主張している。 マルチセンス言語モデリングには,標準言語モデルを超えるアーキテクチャを必要とすることが判明し,そのタスクを単語に分解し,その後に感覚予測タスクを付加する構造化予測フレームワークを提案する。 感覚予測には,定義や単語感覚の例を符号化したグラフ注意ネットワークを利用する。 全体として、マルチセンス言語モデリングは極めて困難なタスクであり、将来の作業はより注釈付きトレーニングデータセットの作成に重点を置くことを示唆している。

The effectiveness of a language model is influenced by its token representations, which must encode contextual information and handle the same word form having a plurality of meanings (polysemy). Currently, none of the common language modelling architectures explicitly model polysemy. We propose a language model which not only predicts the next word, but also its sense in context. We argue that this higher prediction granularity may be useful for end tasks such as assistive writing, and allow for more a precise linking of language models with knowledge bases. We find that multi-sense language modelling requires architectures that go beyond standard language models, and here propose a structured prediction framework that decomposes the task into a word followed by a sense prediction task. For sense prediction, we utilise a Graph Attention Network, which encodes definitions and example uses of word senses. Overall, we find that multi-sense language modelling is a highly challenging task, and suggest that future work focus on the creation of more annotated training datasets.
翻訳日:2021-05-15 13:27:39 公開日:2020-12-10
# (参考訳) 論点マイニングによるピアレビューの分析

Argument Mining Driven Analysis of Peer-Reviews ( http://arxiv.org/abs/2012.07743v1 )

ライセンス: CC BY 4.0
Michael Fromm, Evgeniy Faerman, Max Berrendorf, Siddharth Bhargava, Ruoxia Qi, Yao Zhang, Lukas Dennert, Sophia Selle, Yang Mao, Thomas Seidl(参考訳) ピアレビューは現代の研究の中心的なプロセスであり、出版物の品質と信頼性を確保するのに不可欠である。 同時に、時間を要するプロセスであり、新興分野への関心が高まっているため、特にこの分野の上級研究者にとって、高いレビュー作業負荷が生じることが多い。 この問題に対処する方法はオープンな問題であり、主要なカンファレンスすべてで活発に議論されている。 本研究では,編集者,メタレビュアー,レビュアーの支援を目的としたArgument Miningに基づくアプローチを提案する。 学術論文の分野における意思決定プロセスは議論によって駆動され,様々なユースケースにおいて自動議論識別が有用であることを示す。 以上の知見の1つは、ピアレビュープロセスで使われる引数が他のドメインの引数とは異なるため、事前学習されたモデルの転送が困難であるということです。 そこで我々は,異なるコンピュータサイエンスカンファレンスから,注釈付き議論を伴う新たなピアレビューデータセットをコミュニティに提供する。 広範な経験的評価において,議論のマイニングは,出版決定に最も重要なレビューから,最も関連性の高い部分を効率的に抽出できることを示した。 抽出された引数は、コンテキストから切り離すことなく、レビューでハイライトできるため、プロセスは解釈可能である。

Peer reviewing is a central process in modern research and essential for ensuring high quality and reliability of published work. At the same time, it is a time-consuming process and increasing interest in emerging fields often results in a high review workload, especially for senior researchers in this area. How to cope with this problem is an open question and it is vividly discussed across all major conferences. In this work, we propose an Argument Mining based approach for the assistance of editors, meta-reviewers, and reviewers. We demonstrate that the decision process in the field of scientific publications is driven by arguments and automatic argument identification is helpful in various use-cases. One of our findings is that arguments used in the peer-review process differ from arguments in other domains making the transfer of pre-trained models difficult. Therefore, we provide the community with a new peer-review dataset from different computer science conferences with annotated arguments. In our extensive empirical evaluation, we show that Argument Mining can be used to efficiently extract the most relevant parts from reviews, which are paramount for the publication decision. The process remains interpretable since the extracted arguments can be highlighted in a review without detaching them from their context.
翻訳日:2021-05-15 13:14:45 公開日:2020-12-10
# (参考訳) ヘッセン近似のノルム制御による確率減衰型L-BFGS

Stochastic Damped L-BFGS with Controlled Norm of the Hessian Approximation ( http://arxiv.org/abs/2012.05783v1 )

ライセンス: CC BY-SA 4.0
Sanae Lotfi and Tiphaine Bonniot de Ruisselet and Dominique Orban and Andrea Lodi(参考訳) そこで我々は,ヘシアン近似の最大値と最小値の境界を推定し,その品質と条件のバランスをとる新しい確率分散減衰型l-bfgsアルゴリズムを提案する。 我々のアルゴリズムであるVARCHENは、SdLBFGSと呼ばれる新しい確率減衰L-BFGSアルゴリズムを提案している。 我々はほぼ確実に定常点への収束と複雑性の境界を確立する。 我々は,sdlbfgs-vr や svrg よりも sdlbfgs-vr や svrg が sdlbfgs-vr や svrg よりも,深層学習の文脈で発生する高度に非凸で不条件な問題である修正 davidnet 問題に対して頑健であることを実証的に証明し,その性能はロジスティック回帰問題や非凸支持ベクトルマシン問題に匹敵することを示した。

We propose a new stochastic variance-reduced damped L-BFGS algorithm, where we leverage estimates of bounds on the largest and smallest eigenvalues of the Hessian approximation to balance its quality and conditioning. Our algorithm, VARCHEN, draws from previous work that proposed a novel stochastic damped L-BFGS algorithm called SdLBFGS. We establish almost sure convergence to a stationary point and a complexity bound. We empirically demonstrate that VARCHEN is more robust than SdLBFGS-VR and SVRG on a modified DavidNet problem -- a highly nonconvex and ill-conditioned problem that arises in the context of deep learning, and their performance is comparable on a logistic regression problem and a nonconvex support-vector machine problem.
翻訳日:2021-05-15 12:59:17 公開日:2020-12-10
# (参考訳) インド語のためのペアワイズNMTの探索

Exploring Pair-Wise NMT for Indian Languages ( http://arxiv.org/abs/2012.05786v1 )

ライセンス: CC BY 4.0
Kartheek Akella, Sai Himal Allu, Sridhar Suresh Ragupathi, Aman Singhal, Zeeshan Khan, Vinay P. Namboodiri, C V Jawahar(参考訳) 本稿では、特定の低資源インド語に対するペアワイズ機械翻訳の改善という課題に対処する。 多言語NMTモデルは資源不足言語に対して妥当な有効性を示した。 そこで本研究では,フィルタした逆翻訳プロセスと,制限されたペアワイド言語コーパスの微調整により,これらのモデルの性能を著しく向上できることを示す。 本稿では,本手法が多言語モデルのベースライン上での性能を著しく向上し,インド諸言語における最新の結果が得られることを示す。

In this paper, we address the task of improving pair-wise machine translation for specific low resource Indian languages. Multilingual NMT models have demonstrated a reasonable amount of effectiveness on resource-poor languages. In this work, we show that the performance of these models can be significantly improved upon by using back-translation through a filtered back-translation process and subsequent fine-tuning on the limited pair-wise language corpora. The analysis in this paper suggests that this method can significantly improve a multilingual model's performance over its baseline, yielding state-of-the-art results for various Indian languages.
翻訳日:2021-05-15 12:42:37 公開日:2020-12-10
# (参考訳) マイクロモーメントスマートプラグを用いたアプライアンスレベルモニタリング

Appliance-Level Monitoring with Micro-Moment Smart Plugs ( http://arxiv.org/abs/2012.05787v1 )

ライセンス: CC BY 4.0
Abdullah Alsalemi, Yassine Himeur, Faycal Bensaali, Abbes Amira(参考訳) 人口は社会や世界の発展に影響を及ぼすだけでなく、地球温暖化を引き起こすエネルギー関連の問題に対して努力している。 様々な幅広いアプローチが、産業と研究コミュニティの両方によって開発されている。 しかし、デバイスメトリクスやベンチマークではなく、人間の行動を変えることを目的とした包括的なエンドツーエンドソリューションの必要性は、ますます高まっている。 本稿では,より大規模なマルチアプライアンスエネルギー効率プログラムの一環として,マイクロモーメントベースのスマートプラグシステムを提案する。 電力消費ユニットと環境監視ユニットの2つのサブユニットを含むスマートプラグは、それぞれ温度、湿度、光度、部屋の占有といったコンテキスト情報とともに家電製品のエネルギー消費量を収集する。 プラグはホームオートメーション機能も備えている。 付随するモバイルアプリケーションにより、エンドユーザーは環境情報とともにエネルギー消費データを可視化することができる。 提案方式は,適切な計算と無線性能を維持しつつ,コスト効率の高いデプロイメントを実現する。

Human population are striving against energy-related issues that not only affects society and the development of the world, but also causes global warming. A variety of broad approaches have been developed by both industry and the research community. However, there is an ever increasing need for comprehensive, end-to-end solutions aimed at transforming human behavior rather than device metrics and benchmarks. In this paper, a micro-moment-based smart plug system is proposed as part of a larger multi-appliance energy efficiency program. The smart plug, which includes two sub-units: the power consumption unit and environmental monitoring unit collect energy consumption of appliances along with contextual information, such as temperature, humidity, luminosity and room occupancy respectively. The plug also allows home automation capability. With the accompanying mobile application, end-users can visualize energy consumption data along with ambient environmental information. Current implementation results show that the proposed system delivers cost-effective deployment while maintaining adequate computation and wireless performance.
翻訳日:2021-05-15 12:32:25 公開日:2020-12-10
# (参考訳) 因子モデルを用いた前処理ノイズ関数データ

Preprocessing noisy functional data using factor models ( http://arxiv.org/abs/2012.05824v1 )

ライセンス: CC BY 4.0
Siegfried H\"ormann and Fatima Jammoul(参考訳) 離散的な観測点の集合で測定される関数的データを考察する。 このようなデータはノイズで測定されることが多く、ターゲットは基礎となる信号の復元である。 最も一般的に、実践者は、例えば、\ kernel smoothing や spline fit のような、スムージングのアプローチを用いている。 このような曲線フィッティング技法の欠点は、それらが関数によって機能し、サンプル全体の情報を考慮していないことである。 本稿では,信号と雑音を因子モデルの共通成分と特異成分として自然に表現することができることを論じる。 そこで本研究では,因子モデルに基づく推定手法を提案する。 本研究の目的は,提案手法の背景にある理由を説明し,シミュレーションおよび実データの性能を競合手法と比較することである。

We consider functional data which are measured on a discrete set of observation points. Often such data are measured with noise, and then the target is to recover the underlying signal. Most commonly, practitioners use some smoothing approach, e.g.,\ kernel smoothing or spline fitting towards this goal. The drawback of such curve fitting techniques is that they act function by function, and don't take into account information from the entire sample. In this paper we argue that signal and noise can be naturally represented as the common and idiosyncratic component, respectively, of a factor model. Accordingly, we propose to an estimation scheme which is based on factor models. The purpose of this paper is to explain the reasoning behind our approach and to compare its performance on simulated and on real data to competing methods.
翻訳日:2021-05-15 12:22:35 公開日:2020-12-10
# (参考訳) 口語ペルシア語の自動標準化

Automatic Standardization of Colloquial Persian ( http://arxiv.org/abs/2012.05879v1 )

ライセンス: CC BY 4.0
Mohammad Sadegh Rasooli, Farzane Bakhtyari, Fatemeh Shafiei, Mahsa Ravanbakhsh, Chris Callison-Burch(参考訳) ペルシア語には標準語と口語という2つの種類がある。 ペルシャのほとんどの自然言語処理ツールは、テキストが標準形式であると仮定している: この仮定は、多くの実際のアプリケーション、特にwebコンテンツにおいて誤りである。 本稿では,シーケンシャル・ツー・シーケンス変換に基づく簡易かつ効果的な標準化手法について述べる。 逐次モデル学習のための人工的並列言語から標準語へのデータを生成するアルゴリズムを設計した。 さらに,多種多様なドメインから得られた1912文の公開評価データをアノテートする。 我々の本質的評価では,本書のbleuスコアが46.4である既定規則に基づく標準化モデルと比較して,62.8 対 61.7 のbleuスコアが高かった。 また,本モデルでは,開発データの絶対bleuスコアが1.4,テストデータが0.8で,訓練データがペルシャ語から派生したシナリオにおいて,英語からペルシア語への機械翻訳が向上することを示す。

The Iranian Persian language has two varieties: standard and colloquial. Most natural language processing tools for Persian assume that the text is in standard form: this assumption is wrong in many real applications especially web content. This paper describes a simple and effective standardization approach based on sequence-to-sequence translation. We design an algorithm for generating artificial parallel colloquial-to-standard data for learning a sequence-to-sequence model. Moreover, we annotate a publicly available evaluation data consisting of 1912 sentences from a diverse set of domains. Our intrinsic evaluation shows a higher BLEU score of 62.8 versus 61.7 compared to an off-the-shelf rule-based standardization model in which the original text has a BLEU score of 46.4. We also show that our model improves English-to-Persian machine translation in scenarios for which the training data is from colloquial Persian with 1.4 absolute BLEU score difference in the development data, and 0.8 in the test data.
翻訳日:2021-05-15 11:05:13 公開日:2020-12-10
# (参考訳) ロバスト一貫性ビデオ深度推定

Robust Consistent Video Depth Estimation ( http://arxiv.org/abs/2012.05901v1 )

ライセンス: CC BY 4.0
Johannes Kopf, Xuejian Rong, Jia-Bin Huang(参考訳) 本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。 我々は,一像深度推定のために訓練された畳み込みニューラルネットワークと幾何学的最適化を併用して,スムーズなカメラ軌跡を推定し,詳細かつ安定した深度再構成を行う。 本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。 従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。 提案手法は,深度とポーズの両面でSintelベンチマークの精度を定量的に上回り,様々な野生のデータセットの質的な結果が得られる。

We present an algorithm for estimating consistent dense depth maps and camera poses from a monocular video. We integrate a learning-based depth prior, in the form of a convolutional neural network trained for single-image depth estimation, with geometric optimization, to estimate a smooth camera trajectory as well as detailed and stable depth reconstruction. Our algorithm combines two complementary techniques: (1) flexible deformation-splines for low-frequency large-scale alignment and (2) geometry-aware depth filtering for high-frequency alignment of fine depth details. In contrast to prior approaches, our method does not require camera poses as input and achieves robust reconstruction for challenging hand-held cell phone captures containing a significant amount of noise, shake, motion blur, and rolling shutter deformations. Our method quantitatively outperforms state-of-the-arts on the Sintel benchmark for both depth and pose estimations and attains favorable qualitative results across diverse wild datasets.
翻訳日:2021-05-15 10:26:21 公開日:2020-12-10
# (参考訳) 『Let's Eat Grandma』:感性分析のための文表現における句読点の意義

"Let's Eat Grandma": When Punctuation Matters in Sentence Representation for Sentiment Analysis ( http://arxiv.org/abs/2101.03029v1 )

ライセンス: CC BY 4.0
Mansooreh Karami, Ahmadreza Mosallanezhad, Michelle V Mancenido, Huan Liu(参考訳) ニューラルネットワークベースの埋め込みは、語彙的および意味的類似性と類似性を捉えるために、テキストのベクトル表現を作成するための主流のアプローチである。 一般に、既存の符号化法は句読点を重要でない情報として無視するので、タスク性能を向上させるために前処理段階では日常的に削除される。 本稿では,句読点が感情分析において重要な役割を果たすと仮定し,構文的・文脈的パフォーマンスを改善する新しい表現モデルを提案する。 我々は、公開データセットで実験を行い、我々のモデルが他の最先端のベースライン手法よりも正確に感情を識別できることを検証することで、我々の発見を裏付ける。

Neural network-based embeddings have been the mainstream approach for creating a vector representation of the text to capture lexical and semantic similarities and dissimilarities. In general, existing encoding methods dismiss the punctuation as insignificant information; consequently, they are routinely eliminated in the pre-processing phase as they are shown to improve task performance. In this paper, we hypothesize that punctuation could play a significant role in sentiment analysis and propose a novel representation model to improve syntactic and contextual performance. We corroborate our findings by conducting experiments on publicly available datasets and verify that our model can identify the sentiments more accurately over other state-of-the-art baseline methods.
翻訳日:2021-05-15 09:54:09 公開日:2020-12-10
# (参考訳) commpool:階層グラフ表現学習のための解釈可能なグラフプーリングフレームワーク

CommPOOL: An Interpretable Graph Pooling Framework for Hierarchical Graph Representation Learning ( http://arxiv.org/abs/2012.05980v1 )

ライセンス: CC BY 4.0
Haoteng Tang, Guixiang Ma, Lifang He, Heng Huang, Liang Zhan(参考訳) 近年,グラフ分類などのグラフレベルのタスクに有効なグラフ表現学習手法である階層型グラフプーリングニューラルネットワーク(HGPNN)の出現と発展を目撃している。 しかし、現在のHGPNNはグラフ固有の構造(例えば、コミュニティ構造)を十分に活用していない。 さらに,既存のHGPNNにおけるプール操作の解釈は困難である。 本稿では,グラフ表現学習プロセスにおけるグラフの階層的コミュニティ構造をキャプチャし,保存することのできる,新しい解釈可能なグラフプーリングフレームワークであるCommPOOLを提案する。 具体的には、CommPOOLにおけるコミュニティプーリング機構は、教師なしアプローチを用いて、グラフ固有のコミュニティ構造を解釈可能な方法でキャプチャする。 CommPOOLは階層的なグラフ表現学習のための汎用的で柔軟なフレームワークであり、様々なグラフレベルのタスクをさらに促進することができる。 5つのベンチマークデータセットと1つの合成データセットの評価は、グラフ分類のためのグラフ表現学習におけるcommpoolの優れた性能と、グラフのコミュニティ構造を捉えて保存する効果を示している。

Recent years have witnessed the emergence and flourishing of hierarchical graph pooling neural networks (HGPNNs) which are effective graph representation learning approaches for graph level tasks such as graph classification. However, current HGPNNs do not take full advantage of the graph's intrinsic structures (e.g., community structure). Moreover, the pooling operations in existing HGPNNs are difficult to be interpreted. In this paper, we propose a new interpretable graph pooling framework - CommPOOL, that can capture and preserve the hierarchical community structure of graphs in the graph representation learning process. Specifically, the proposed community pooling mechanism in CommPOOL utilizes an unsupervised approach for capturing the inherent community structure of graphs in an interpretable manner. CommPOOL is a general and flexible framework for hierarchical graph representation learning that can further facilitate various graph-level tasks. Evaluations on five public benchmark datasets and one synthetic dataset demonstrate the superior performance of CommPOOL in graph representation learning for graph classification compared to the state-of-the-art baseline methods, and its effectiveness in capturing and preserving the community structure of graphs.
翻訳日:2021-05-15 08:47:34 公開日:2020-12-10
# (参考訳) MDCNN分類器を用いた心疾患予測のためのIoTフレームワーク

An IoT Framework for Heart Disease Prediction based on MDCNN Classifier ( http://arxiv.org/abs/2012.05999v1 )

ライセンス: CC BY 4.0
Mohammad Ayoub Khan(参考訳) 現在、心臓病が世界中で死因となっている。 高度な知識とともに経験を必要とするため、心臓病の予測は複雑な作業である。 IoT(Internet of Things)技術は近年,心臓疾患の診断と予測のためのセンサ値収集に採用されている。 多くの研究者は心疾患の診断に焦点を当てているが、診断結果の正確さは低い。 この問題に対処するため、MDCNN(Modified Deep Convolutional Neural Network)を用いて、心疾患をより正確に評価するためのIoTフレームワークが提案されている。 患者に取り付けられたスマートウォッチ及び心臓モニタ装置は、血圧と心電図(ECG)を監視する。 MDCNNは、受信したセンサデータを正常かつ異常に分類するために使用される。 本システムの性能は,提案するmdcnnと既存のディープラーニングニューラルネットワーク,ロジスティック回帰を比較して解析する。 その結果, MDCNN を用いた心疾患予測システムは, 他の方法よりも優れていた。 提案手法は,最大レコード数に対して,既存の分類器よりも優れた98.2の精度が得られることを示す。

Nowadays, heart disease is the leading cause of death worldwide. Predicting heart disease is a complex task since it requires experience along with advanced knowledge. Internet of Things (IoT) technology has lately been adopted in healthcare systems to collect sensor values for heart disease diagnosis and prediction. Many researchers have focused on the diagnosis of heart disease, yet the accuracy of the diagnosis results is low. To address this issue, an IoT framework is proposed to evaluate heart disease more accurately using a Modified Deep Convolutional Neural Network (MDCNN). The smartwatch and heart monitor device that is attached to the patient monitors the blood pressure and electrocardiogram (ECG). The MDCNN is utilized for classifying the received sensor data into normal and abnormal. The performance of the system is analyzed by comparing the proposed MDCNN with existing deep learning neural networks and logistic regression. The results demonstrate that the proposed MDCNN based heart disease prediction system performs better than other methods. The proposed method shows that for the maximum number of records, the MDCNN achieves an accuracy of 98.2 which is better than existing classifiers.
翻訳日:2021-05-15 08:30:01 公開日:2020-12-10
# (参考訳) メタ強化学習のための性能評価政策サンプリング

Performance-Weighed Policy Sampling for Meta-Reinforcement Learning ( http://arxiv.org/abs/2012.06016v1 )

ライセンス: CC BY 4.0
Ibrahim Ahmed, Marcos Quinones-Grueiro, Gautam Biswas(参考訳) 本稿では,新しい学習課題に適用した場合に,少数の学習例からポリシー関数の高速収束を生成する拡張モデル非依存メタラーニング(E-MAML)アルゴリズムについて述べる。 Model-Agnostic Meta-Learning (MAML)上に構築されたE-MAMLは、以前のタスクの環境で学んだポリシーパラメータのセットを維持している。 動的システムのための強化学習(RL)に基づくオンラインフォールトトレラント制御手法の開発にE-MAMLを適用した。 この強化は、新しい障害が発生したときに適用され、新しい障害によるシステム動作の少数のサンプルでより高速な適応を実現する新しいrlポリシーのパラメータを再初期化する。 これはMAMLのランダムなタスクサンプリングステップを置き換える。 代わりに、すでに生成されたコントローラのエクスペリエンスを利用する。 この拡張は、パラメータ空間に最大にまたがって新しい障害への適応を容易にするためにサンプルされる。 本稿では,E-MAMLとPPOを組み合わせたアプローチの有効性を,よく知られたカートポールの例に示すとともに,航空機の燃料輸送システムについて述べる。

This paper discusses an Enhanced Model-Agnostic Meta-Learning (E-MAML) algorithm that generates fast convergence of the policy function from a small number of training examples when applied to new learning tasks. Built on top of Model-Agnostic Meta-Learning (MAML), E-MAML maintains a set of policy parameters learned in the environment for previous tasks. We apply E-MAML to developing reinforcement learning (RL)-based online fault tolerant control schemes for dynamic systems. The enhancement is applied when a new fault occurs, to re-initialize the parameters of a new RL policy that achieves faster adaption with a small number of samples of system behavior with the new fault. This replaces the random task sampling step in MAML. Instead, it exploits the extant previously generated experiences of the controller. The enhancement is sampled to maximally span the parameter space to facilitate adaption to the new fault. We demonstrate the performance of our approach combining E-MAML with proximal policy optimization (PPO) on the well-known cart pole example, and then on the fuel transfer system of an aircraft.
翻訳日:2021-05-15 08:11:38 公開日:2020-12-10
# (参考訳) 圧縮可変精度ウェイトをサポートしたMACレスニューラルネットワークプロセッサ

A MAC-less Neural Inference Processor Supporting Compressed, Variable Precision Weights ( http://arxiv.org/abs/2012.06018v1 )

ライセンス: CC BY 4.0
Vincenzo Liguori(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の2つのアーキテクチャを紹介する。 どちらのアーキテクチャも計算複雑性と帯域幅を減らすために重みの幅と圧縮を利用する。 最初のアーキテクチャは multiply-accumulators (macs) を使用するが、ゼロウェイトをスキップすることで不要な乗算を避ける。 第2のアーキテクチャは、より小さなビット層乗算器(BLMAC)でリソース集約MACを置換することで、ビット表現のレベルでの重みの幅を利用する。 BLMACを使用すると、可変サイズの整数や浮動小数点として、可変精度の重み付けが可能である。 第2のアーキテクチャの実装に関するいくつかの詳細が述べられている。 演算符号化による重み圧縮や帯域幅の影響についても論じる。 最後に,パスファインダー設計と各種技術の実装結果について述べる。

This paper introduces two architectures for the inference of convolutional neural networks (CNNs). Both architectures exploit weight sparsity and compression to reduce computational complexity and bandwidth. The first architecture uses multiply-accumulators (MACs) but avoids unnecessary multiplications by skipping zero weights. The second architecture exploits weight sparsity at the level of their bit representation by substituting resource-intensive MACs with much smaller Bit Layer Multiply Accumulators (BLMACs). The use of BLMACs also allows variable precision weights as variable size integers and even floating points. Some details of an implementation of the second architecture are given. Weight compression with arithmetic coding is also discussed as well as bandwidth implications. Finally, some implementation results for a pathfinder design and various technologies are presented.
翻訳日:2021-05-15 08:01:51 公開日:2020-12-10
# (参考訳) 圧縮モデルに対する普遍攻撃のロバスト性と伝達性

Robustness and Transferability of Universal Attacks on Compressed Models ( http://arxiv.org/abs/2012.06024v1 )

ライセンス: CC BY 4.0
Alberto G. Matachana, Kenneth T. Co, Luis Mu\~noz-Gonz\'alez, David Martinez, Emil C. Lupu(参考訳) プルーニングや量子化のようなニューラルネットワーク圧縮手法は、エッジデバイスにディープニューラルネットワーク(DNN)を効率的にデプロイするのに非常に効果的である。 しかし、DNNは、これらのモデルを騙すために特別に設計された敵の例に目立たない入力に弱いままである。 特に、UAP(Universal Adversarial Perturbations)は、大規模な入力セットをまたいで一般化可能な敵の摂動を生成する強力な種類の敵攻撃である。 本研究では, 様々な圧縮技術がUAP攻撃に与える影響を解析し, プルーニングと量子化の異なる形態を含む。 CIFAR-10とSVHNデータセットの非圧縮モデルと比較し、圧縮モデルからホワイトボックスとトランスファー攻撃への堅牢性を検証した。 評価の結果,ソフトフィルタやポストトレーニングプルーニングなど,プルーニング法の違いが明らかとなった。 我々は,prunedモデルとfullモデル間のuap転送攻撃は限定的であり,これらのモデル間のシステム的脆弱性が異なることを示唆する。 この発見は、異なる圧縮技術を用いることで、ブラックボックス転送攻撃の有効性を損なうおそれがある。 いくつかのシナリオでは、量子化は勾配マスキングを生じさせ、誤ったセキュリティ感覚を与える。 最後に,uap攻撃に対する圧縮モデルのロバスト性に関する結論はアプリケーションに依存し,実験で使用した2つのデータセットで異なる現象を観測する。

Neural network compression methods like pruning and quantization are very effective at efficiently deploying Deep Neural Networks (DNNs) on edge devices. However, DNNs remain vulnerable to adversarial examples-inconspicuous inputs that are specifically designed to fool these models. In particular, Universal Adversarial Perturbations (UAPs), are a powerful class of adversarial attacks which create adversarial perturbations that can generalize across a large set of inputs. In this work, we analyze the effect of various compression techniques to UAP attacks, including different forms of pruning and quantization. We test the robustness of compressed models to white-box and transfer attacks, comparing them with their uncompressed counterparts on CIFAR-10 and SVHN datasets. Our evaluations reveal clear differences between pruning methods, including Soft Filter and Post-training Pruning. We observe that UAP transfer attacks between pruned and full models are limited, suggesting that the systemic vulnerabilities across these models are different. This finding has practical implications as using different compression techniques can blunt the effectiveness of black-box transfer attacks. We show that, in some scenarios, quantization can produce gradient-masking, giving a false sense of security. Finally, our results suggest that conclusions about the robustness of compressed models to UAP attacks is application dependent, observing different phenomena in the two datasets used in our experiments.
翻訳日:2021-05-15 07:38:54 公開日:2020-12-10
# (参考訳) ツイートの感情分析のためのディープニューラルネットワークとトランスファー学習の検討

Exploring Deep Neural Networks and Transfer Learning for Analyzing Emotions in Tweets ( http://arxiv.org/abs/2012.06025v1 )

ライセンス: CC BY 4.0
Yasas Senarath, Uthayasanker Thayasivam(参考訳) 本稿では,ツイート中の感情分析に深層学習と伝達学習を用いる実験を行い,深層学習モデルを解釈する方法を提案する。 感情分析のための提案手法は,Long Short Term Memory(LSTM)ネットワークと畳み込みニューラルネットワーク(CNN)を組み合わせたものである。 次に,この手法を伝達学習手法を用いて感情強度予測に拡張する。 さらに,モデルの理解を深めるために,ツイート中の各単語の重要性を可視化する手法を提案する。 実験では,提案モデルが感情の強度を予測するための競争結果を保ちながら,感情分類の最先端を上回っていることを示す。

In this paper, we present an experiment on using deep learning and transfer learning techniques for emotion analysis in tweets and suggest a method to interpret our deep learning models. The proposed approach for emotion analysis combines a Long Short Term Memory (LSTM) network with a Convolutional Neural Network (CNN). Then we extend this approach for emotion intensity prediction using transfer learning technique. Furthermore, we propose a technique to visualize the importance of each word in a tweet to get a better understanding of the model. Experimentally, we show in our analysis that the proposed models outperform the state-of-the-art in emotion classification while maintaining competitive results in predicting emotion intensity.
翻訳日:2021-05-15 07:23:12 公開日:2020-12-10
# (参考訳) Ubisoftのローラーチャンピオンのための強化学習エージェント

Reinforcement Learning Agents for Ubisoft's Roller Champions ( http://arxiv.org/abs/2012.06031v1 )

ライセンス: CC BY-SA 4.0
Nancy Iskander, Aurelien Simoni, Eloi Alonso, Maxim Peter(参考訳) 近年、強化学習(RL)は研究や大衆文化で人気が高まっている。 しかし、懐疑論は現代のビデオゲーム開発におけるRLの実用性を取り巻くものである。 本稿では,現代,非自明なビデオゲームにおいて,RLが人工知能(AI)設計の優れたツールとなることを実例で示す。 我々は,オバル型スケート競技場での3v3対戦型スポーツゲームであるubisofts roller championsに対して,rlシステムを提案する。 私たちのシステムは,ゲームプレイの変更に伴って新しいモデルをトレーニングするために1~4日を要し,アジャイルで迅速な開発に追随するように設計されています。 AIは2v2モード、ボットモードでのトレーニング、そして非接続のプレイヤーを置き換えるクラシックゲームモードなど様々なゲームモードに対応している。 我々はAIが高度な協調戦略を開発し、ボーナスとしてゲームのバランスをとるのに役立つことを観察する。 関連動画はhttps://vimeo.com/466780171 (password: rollerRWRL2020)でご覧ください。

In recent years, Reinforcement Learning (RL) has seen increasing popularity in research and popular culture. However, skepticism still surrounds the practicality of RL in modern video game development. In this paper, we demonstrate by example that RL can be a great tool for Artificial Intelligence (AI) design in modern, non-trivial video games. We present our RL system for Ubisoft's Roller Champions, a 3v3 Competitive Multiplayer Sports Game played on an oval-shaped skating arena. Our system is designed to keep up with agile, fast-paced development, taking 1--4 days to train a new model following gameplay changes. The AIs are adapted for various game modes, including a 2v2 mode, a Training with Bots mode, in addition to the Classic game mode where they replace players who have disconnected. We observe that the AIs develop sophisticated co-ordinated strategies, and can aid in balancing the game as an added bonus. Please see the accompanying video at https://vimeo.com/466780171 (password: rollerRWRL2020) for examples.
翻訳日:2021-05-15 07:15:26 公開日:2020-12-10
# (参考訳) 人工知能と協力

Artificial Intelligence & Cooperation ( http://arxiv.org/abs/2012.06034v1 )

ライセンス: CC BY 4.0
Elisa Bertino, Finale Doshi-Velez, Maria Gini, Daniel Lopresti, and David Parkes(参考訳) 人工知能(AI)の台頭は、意思決定を機械に委譲する意志の高まりをもたらします。 しかし、機械に私たちに影響を与える決定権を与えるのではなく、AIシステムと協調して働く方法が必要だ。 人とのAIシステムとAIシステムがどのように協調行動をもたらすかを理解するために、「AIと協力」の研究が不可欠である。 aiへの信頼も重要だ – 本質的に信頼であり、時間とともにのみ得られる信頼である。 ここでは「AI」という言葉を最も広義に用いており、最近の20年にわたるAI研究のコミュニティロードマップ(Gil and Selman, 2019)で採用されている。 成功すれば、人間とAIの協力は、人間と人間の協力と同じように社会を構築することができる。 助けを求める本質的な意志からでも、自己利益を通じても、人間社会は強くなり、人類は協力を通じて成功している。 家族ユニットとして、隣人と、同僚として、見知らぬ人たちと「小さな」協力し、商業、気候変動、軍縮に関する問題に関する協力的な成果を求めるグローバルコミュニティとして「大規模」に協力します。 自然界では、細胞や動物の間でも協力が進化している。 人間とaiの協力に関わる多くのケースは非対称であり、最終的には人間が制御するが、aiシステムはあまりにも複雑になり、今日でも人間が単に受動的オブザーバーとして機能するときに、理性、推奨、行動を完全に理解することは不可能である。

The rise of Artificial Intelligence (AI) will bring with it an ever-increasing willingness to cede decision-making to machines. But rather than just giving machines the power to make decisions that affect us, we need ways to work cooperatively with AI systems. There is a vital need for research in "AI and Cooperation" that seeks to understand the ways in which systems of AIs and systems of AIs with people can engender cooperative behavior. Trust in AI is also key: trust that is intrinsic and trust that can only be earned over time. Here we use the term "AI" in its broadest sense, as employed by the recent 20-Year Community Roadmap for AI Research (Gil and Selman, 2019), including but certainly not limited to, recent advances in deep learning. With success, cooperation between humans and AIs can build society just as human-human cooperation has. Whether coming from an intrinsic willingness to be helpful, or driven through self-interest, human societies have grown strong and the human species has found success through cooperation. We cooperate "in the small" -- as family units, with neighbors, with co-workers, with strangers -- and "in the large" as a global community that seeks cooperative outcomes around questions of commerce, climate change, and disarmament. Cooperation has evolved in nature also, in cells and among animals. While many cases involving cooperation between humans and AIs will be asymmetric, with the human ultimately in control, AI systems are growing so complex that, even today, it is impossible for the human to fully comprehend their reasoning, recommendations, and actions when functioning simply as passive observers.
翻訳日:2021-05-15 07:03:40 公開日:2020-12-10
# 文脈的類似性を考慮したフレキシブルFew-Shot学習

Flexible Few-Shot Learning with Contextual Similarity ( http://arxiv.org/abs/2012.05895v1 )

ライセンス: Link先を確認
Mengye Ren, Eleni Triantafillou, Kuan-Chieh Wang, James Lucas, Jake Snell, Xaq Pitkow, Andreas S. Tolias, Richard Zemel(参考訳) 既存の数ショット学習アプローチは、永続的で厳密なクラス概念を持つタスクを扱う。 通常、学習者は、トレーニング時に一定の数のクラスからのみデータを観察し、テスト時に新しいクラスのセットに一般化するように要求される。 同じクラスの2つの例は、どのエピソードでも常に同じラベルが割り当てられる。 本研究では,学習者には与えられない課題状況に応じて,事例間の類似性がエピソードごとに変化しうる現実的な環境について考察する。 このフレキシブルな数ショットシナリオのために、タスクは顔(Celeb-A)、靴(Zappos50K)、一般的なオブジェクト(ImageNet-with-Attributes)の画像に基づいて、新しいベンチマークデータセットを定義する。 分類基準とエピソード的アプローチは、標準的な数ショット学習に適する表現を学習する一方で、テスト中に新しい類似性の定義が生じると、柔軟なタスクに苦しむ。 本稿では,最近のコントラストのない非教師付き学習技術を構築し,汎用性と柔軟な特徴の獲得を目的とした,インスタンスとクラス不変学習の組み合わせを提案する。 我々のアプローチは,新しいフレキシブルなマイズショット学習ベンチマークに強く依存し,教師なし学習がより一般化可能な表現を得ることを実証した。

Existing approaches to few-shot learning deal with tasks that have persistent, rigid notions of classes. Typically, the learner observes data only from a fixed number of classes at training time and is asked to generalize to a new set of classes at test time. Two examples from the same class would always be assigned the same labels in any episode. In this work, we consider a realistic setting where the similarities between examples can change from episode to episode depending on the task context, which is not given to the learner. We define new benchmark datasets for this flexible few-shot scenario, where the tasks are based on images of faces (Celeb-A), shoes (Zappos50K), and general objects (ImageNet-with-Attributes). While classification baselines and episodic approaches learn representations that work well for standard few-shot learning, they suffer in our flexible tasks as novel similarity definitions arise during testing. We propose to build upon recent contrastive unsupervised learning techniques and use a combination of instance and class invariance learning, aiming to obtain general and flexible features. We find that our approach performs strongly on our new flexible few-shot learning benchmarks, demonstrating that unsupervised learning obtains more generalizable representations.
翻訳日:2021-05-15 06:40:45 公開日:2020-12-10
# AutoSelect:3Dマルチオブジェクト追跡のための自動および動的検出選択

AutoSelect: Automatic and Dynamic Detection Selection for 3D Multi-Object Tracking ( http://arxiv.org/abs/2012.05894v1 )

ライセンス: Link先を確認
Xinshuo Weng, Kris Kitani(参考訳) 3Dマルチオブジェクトトラッキングは、自動運転車のようなロボット認識システムにおいて重要なコンポーネントである。 最近の研究は、過去のトラックレットと現在のフレーム内の検出とをマッチングすることを目的とした、トラッキングバイ検出パイプラインに従っている。 偽陽性検出との整合を避けるために、先行作業はしきい値を介して低い信頼度で検出をフィルタリングする。 しかし、適切なしきい値を見つけることは簡単ではなく、アブレーションによる広範囲な手動探索を必要とする。 また、この閾値はターゲットオブジェクトカテゴリなどの多くの要因に敏感であるため、これらの要因が変わった場合、しきい値を再調査する必要がある。 そこで本研究では,高品質な検出を自動的に選択し,手動しきい値探索に必要な作業を取り除くことを提案する。 また、以前の作業では、特定のフレームや特定のオブジェクトに対して、サブ最適であるデータシーケンス毎に単一のしきい値を使用することが多い。 代わりに、フレームごとまたはオブジェクトごとのしきい値を動的に検索し、パフォーマンスをさらに向上します。 kittiとnuscenesの実験を通じて、リコールを維持しながら45.7\%$ false positivesをフィルタリングし、新しいs.o.t.a.を得る。 パフォーマンスと手動のしきい値調整の必要性の排除。

3D multi-object tracking is an important component in robotic perception systems such as self-driving vehicles. Recent work follows a tracking-by-detection pipeline, which aims to match past tracklets with detections in the current frame. To avoid matching with false positive detections, prior work filters out detections with low confidence scores via a threshold. However, finding a proper threshold is non-trivial, which requires extensive manual search via ablation study. Also, this threshold is sensitive to many factors such as target object category so we need to re-search the threshold if these factors change. To ease this process, we propose to automatically select high-quality detections and remove the efforts needed for manual threshold search. Also, prior work often uses a single threshold per data sequence, which is sub-optimal in particular frames or for certain objects. Instead, we dynamically search threshold per frame or per object to further boost performance. Through experiments on KITTI and nuScenes, our method can filter out $45.7\%$ false positives while maintaining the recall, achieving new S.O.T.A. performance and removing the need for manually threshold tuning.
翻訳日:2021-05-15 06:40:24 公開日:2020-12-10
# オートマチック・ニューロナレ(TAN)におけるPr{\'e}の判断に関する定量的研究

Approches quantitatives de l'analyse des pr{\'e}dictions en traduction automatique neuronale (TAN) ( http://arxiv.org/abs/2012.05541v1 )

ライセンス: Link先を確認
Maria Zimina-Poirot (CLILLAC-ARP), Nicolas Ballier (CLILLAC-ARP), Jean-Baptiste Yun\`es (IRIF)(参考訳) ニューラルマシン翻訳における最適学習条件に関する大規模プロジェクトの一環として,翻訳エンジンの特性学習フェーズについて検討する。 全実験はOpenNMT-Pyを用いて行われ、前処理ステップはEuroparlトレーニングコーパスを使用して実施され、InterSECTコーパスは検証に使用される。 トレーニングフェーズの縦断解析は、翻訳の進行が必ずしも線形であるとは限らないことを示唆する。 本研究は,神経機械翻訳 (nmt) における作業中の異なる過程をマッピングするために,時系列進行に関連する現象の重要性を明らかにすることを目的とした。

As part of a larger project on optimal learning conditions in neural machine translation, we investigate characteristic training phases of translation engines. All our experiments are carried out using OpenNMT-Py: the pre-processing step is implemented using the Europarl training corpus and the INTERSECT corpus is used for validation. Longitudinal analyses of training phases suggest that the progression of translations is not always linear. Following the results of textometric explorations, we identify the importance of the phenomena related to chronological progression, in order to map different processes at work in neural machine translation (NMT).
翻訳日:2021-05-15 06:39:36 公開日:2020-12-10
# 時空間グラフニューラルネットワークを用いたビデオオブジェクト分割のためのマスク再構成

Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation ( http://arxiv.org/abs/2012.05499v1 )

ライセンス: Link先を確認
Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou(参考訳) 本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。 従来の検出に基づく手法は比較的優れた性能を示すが、これらの手法は、選択された候補の外で局所パッチの詳細を失う可能性のある、欲求戦略によって最良の提案を抽出する。 本稿では,ビデオオブジェクトセグメンテーションのためのより正確なマスクを再構成するための新しい時空間グラフニューラルネットワーク(STG-Net)を提案する。 空間グラフでは、フレームのオブジェクト提案をノードとして扱い、それらの相関をマスクコンテキストアグリゲーションのためのエッジウェイト戦略で表現する。 過去のフレームから時間情報を取得するために,メモリネットワークを用いて,過去のマスクを時間グラフで検索し,現在のフレームのマスクを洗練する。 局所パッチの詳細と時間的関係の両方を組み合わせることで、オブジェクトの閉塞や欠落といった課題にもっと対処できるのです。 オンライン学習や微調整がなければ、私たちのstg-netは4つの大きなベンチマーク(davis、youtube-vos、segtrack-v2、youtube-objects)で最先端のパフォーマンスを実現します。

This paper addresses the task of segmenting class-agnostic objects in semi-supervised setting. Although previous detection based methods achieve relatively good performance, these approaches extract the best proposal by a greedy strategy, which may lose the local patch details outside the chosen candidate. In this paper, we propose a novel spatiotemporal graph neural network (STG-Net) to reconstruct more accurate masks for video object segmentation, which captures the local contexts by utilizing all proposals. In the spatial graph, we treat object proposals of a frame as nodes and represent their correlations with an edge weight strategy for mask context aggregation. To capture temporal information from previous frames, we use a memory network to refine the mask of current frame by retrieving historic masks in a temporal graph. The joint use of both local patch details and temporal relationships allow us to better address the challenges such as object occlusion and missing. Without online learning and fine-tuning, our STG-Net achieves state-of-the-art performance on four large benchmarks (DAVIS, YouTube-VOS, SegTrack-v2, and YouTube-Objects), demonstrating the effectiveness of the proposed approach.
翻訳日:2021-05-15 06:39:00 公開日:2020-12-10
# 視覚に基づくオンライン中古品の価格提案

Vision-based Price Suggestion for Online Second-hand Items ( http://arxiv.org/abs/2012.06009v1 )

ライセンス: Link先を確認
Liang Han, Zhaozheng Yin, Zhurong Xia, Li Guo, Mingqian Tang, Rong Jin(参考訳) 購入決定を下す前に商品(例えば、tシャツの表面に触れたり、香水の匂いを嗅ぐなど)を詳しくチェックする機会がある物理的な店舗での買い物とは異なり、オンライン買い物客はアップロードされた商品画像に大きく依存して購入決定を行う。 商品の価格を見積もるのは簡単ではないため、オンラインで中古品の売買や購入は難しい。 本研究では,オンライン中古品購入プラットフォームにおける視覚に基づく価格提案システムを提案する。 ビジョンベースの価格提案の目標は、売り手がオンラインプラットフォームにアップロードされた画像を使って、中古リストの効果的な価格を設定することにある。 まず,他の画像に基づく項目情報(カテゴリ,ブランドなど)の助けを借りて,画像から代表的視覚的特徴を抽出することを提案する。 そこで,我々は,抽出した視覚的特徴とショッピングプラットフォームからの統計的特徴を取り入れた視覚的価格提案モジュールを設計し,バイナリ分類モデルにより,アップロードされたアイテムイメージが価格提案に適しているかを判断し,回帰モデルにより商品の価格提案を行う。 プラットフォームからの2つの要求により、分類モデルと回帰モデルとを協調的に最適化する2つの異なる目的関数が提案される。 モデルトレーニングを改善するため,共同最適化のためのウォームアップトレーニング戦略を提案する。 大規模実世界のデータセットに関する広範囲な実験は、我々のビジョンに基づく価格予測システムの有効性を実証する。

Different from shopping in physical stores, where people have the opportunity to closely check a product (e.g., touching the surface of a T-shirt or smelling the scent of perfume) before making a purchase decision, online shoppers rely greatly on the uploaded product images to make any purchase decision. The decision-making is challenging when selling or purchasing second-hand items online since estimating the items' prices is not trivial. In this work, we present a vision-based price suggestion system for the online second-hand item shopping platform. The goal of vision-based price suggestion is to help sellers set effective prices for their second-hand listings with the images uploaded to the online platforms. First, we propose to better extract representative visual features from the images with the aid of some other image-based item information (e.g., category, brand). Then, we design a vision-based price suggestion module which takes the extracted visual features along with some statistical item features from the shopping platform as the inputs to determine whether an uploaded item image is qualified for price suggestion by a binary classification model, and provide price suggestions for items with qualified images by a regression model. According to two demands from the platform, two different objective functions are proposed to jointly optimize the classification model and the regression model. For better model training, we also propose a warm-up training strategy for the joint optimization. Extensive experiments on a large real-world dataset demonstrate the effectiveness of our vision-based price prediction system.
翻訳日:2021-05-15 06:38:22 公開日:2020-12-10
# Ensemble Squared: メタオートMLシステム

Ensemble Squared: A Meta AutoML System ( http://arxiv.org/abs/2012.05390v1 )

ライセンス: Link先を確認
Jason Yoo, Tony Joseph, Dylan Yung, S. Ali Nasseri, Frank Wood(参考訳) 機械学習ソリューションに適応できる問題の数は増え続け、コンピューティングパワーとさまざまな機械学習技術の両方が同時に成長し、自動化機械学習(automl)への関心が爆発的に高まっている。 本稿では,AutoMLシステムのレベルでのアンサンブルを行う「メタ」オートMLシステムであるEnsemble Squared(Ensemble$^2$)を提案する。 アンサンブル$^2$は、既存の競合であるautomlシステムの多様性を利用して、それらセットによって同時に生成されたトップパフォーマンスモデルをセンセンシングする。 我々の研究は、AutoMLシステムの多様性がAutoMLシステムのレベルでのアンサンブルを正当化するのに十分であることを示している。 また、これを実証するために、OpenML分類チャレンジに基づいてAutoML結果の新たな状態を確立する。

The continuing rise in the number of problems amenable to machine learning solutions, coupled with simultaneous growth in both computing power and variety of machine learning techniques has led to an explosion of interest in automated machine learning (AutoML). This paper presents Ensemble Squared (Ensemble$^2$), a "meta" AutoML system that ensembles at the level of AutoML systems. Ensemble$^2$ exploits the diversity of existing, competing AutoML systems by ensembling the top-performing models simultaneously generated by a set of them. Our work shows that diversity in AutoML systems is sufficient to justify ensembling at the AutoML system level. In demonstrating this, we also establish a new state of the art AutoML result on the OpenML classification challenge.
翻訳日:2021-05-15 06:37:37 公開日:2020-12-10
# 深層学習理論の留意点

Notes on Deep Learning Theory ( http://arxiv.org/abs/2012.05760v1 )

ライセンス: Link先を確認
Eugene A. Golikov(参考訳) これは、私が2020年秋にモスクワ物理技術研究所(MIPT)とYandex School of Data Analysis(YSDA)で行った講義のメモです。 このノートは初期化、損失ランドスケープ、一般化、ニューラルネットワークカーネル理論のいくつかの側面をカバーしている。 他の多くの話題(例: 表現性,平均場理論,二重降下現象)は現在のバージョンでは欠落しており,今後の改訂で追加する予定である。

These are the notes for the lectures that I was giving during Fall 2020 at the Moscow Institute of Physics and Technology (MIPT) and at the Yandex School of Data Analysis (YSDA). The notes cover some aspects of initialization, loss landscape, generalization, and a neural tangent kernel theory. While many other topics (e.g. expressivity, a mean-field theory, a double descent phenomenon) are missing in the current version, we plan to add them in future revisions.
翻訳日:2021-05-15 06:36:52 公開日:2020-12-10
# グラフニューラルネットワークにおける破滅的予測の克服

Overcoming Catastrophic Forgetting in Graph Neural Networks ( http://arxiv.org/abs/2012.06002v1 )

ライセンス: Link先を確認
Huihui Liu, Yiding Yang, Xinchao Wang(参考訳) 破滅的な忘れは、ニューラルネットワークが新しいタスクを学ぶ際に、以前の学習した知識を「忘れる」傾向があることを指す。 従来の手法では、グリッドドメインに画像のような入力サンプルがある畳み込みニューラルネットワーク(CNN)でこの問題を克服することに重点を置いていたが、非グリッドデータを処理するグラフニューラルネットワーク(GNN)は概ね見過ごされている。 本稿では,大惨な忘れ難題を克服し,GNNにおける継続学習を強化するための新しいスキームを提案する。 我々のアプローチの核心は汎用モジュールであり、トポロジー対応の重み保存~(TWP)と呼ばれ、プラグイン・アンド・プレイ方式で任意の形式のGNNに適用できる。 下流タスクで重要なパラメータの更新を遅くするだけに依存するcnnベースの連続学習のメインストリームとは異なり、twpは入力グラフの局所構造を明示的に探索し、トポロジー集約において重要な役割を果たすパラメータの安定化を試みる。 いくつかのデータセット上で異なるGNNバックボーン上でのTWPを評価し,その性能が最先端であることを示す。 コードは \url{https://github.com/hhliu79/TWP} で公開されている。

Catastrophic forgetting refers to the tendency that a neural network "forgets" the previous learned knowledge upon learning new tasks. Prior methods have been focused on overcoming this problem on convolutional neural networks (CNNs), where the input samples like images lie in a grid domain, but have largely overlooked graph neural networks (GNNs) that handle non-grid data. In this paper, we propose a novel scheme dedicated to overcoming catastrophic forgetting problem and hence strengthen continual learning in GNNs. At the heart of our approach is a generic module, termed as topology-aware weight preserving~(TWP), applicable to arbitrary form of GNNs in a plug-and-play fashion. Unlike the main stream of CNN-based continual learning methods that rely on solely slowing down the updates of parameters important to the downstream task, TWP explicitly explores the local structures of the input graph, and attempts to stabilize the parameters playing pivotal roles in the topological aggregation. We evaluate TWP on different GNN backbones over several datasets, and demonstrate that it yields performances superior to the state of the art. Code is publicly available at \url{https://github.com/hhliu79/TWP}.
翻訳日:2021-05-15 06:36:42 公開日:2020-12-10
# xRAI: AIによる説明可能な表現

xRAI: Explainable Representations through AI ( http://arxiv.org/abs/2012.06006v1 )

ライセンス: Link先を確認
Christiann Bartelt and Sascha Marton and Heiner Stuckenschmidt(参考訳) 本稿では,ニューラルネットワークがトレーニングされたネットワークから学習すべき数学的関数の記号表現を抽出する手法を提案する。 この手法は、訓練されたネットワークの重みとバイアスを入力として受け取り、ネットワークが学習する関数の数値表現をシンボル表現に直接変換できるいわゆる解釈ネットワークを訓練する考え方に基づいている。 ブール関数と低階多項式を例に、関数の異なるクラスに対する解釈ネットをオフラインで学習可能であることを示す。 トレーニングはかなり効率的で、結果の品質が有望であることを示す。 我々の研究は,目標関数を明確化することで,神経決定の理解を深める問題への貢献を提供することを目的としている。

We present xRAI an approach for extracting symbolic representations of the mathematical function a neural network was supposed to learn from the trained network. The approach is based on the idea of training a so-called interpretation network that receives the weights and biases of the trained network as input and outputs the numerical representation of the function the network was supposed to learn that can be directly translated into a symbolic representation. We show that interpretation nets for different classes of functions can be trained on synthetic data offline using Boolean functions and low-order polynomials as examples. We show that the training is rather efficient and the quality of the results are promising. Our work aims to provide a contribution to the problem of better understanding neural decision making by making the target function explicit
翻訳日:2021-05-15 06:36:20 公開日:2020-12-10
# 市場のボラティリティ予測に対する感情分析的アプローチ

A Sentiment Analysis Approach to the Prediction of Market Volatility ( http://arxiv.org/abs/2012.05906v1 )

ライセンス: Link先を確認
Justina Deveikyte, Helyette Geman, Carlo Piccari, Alessandro Provetti(参考訳) 将来のボラティリティとリターンの予測と定量化は、ポートフォリオ最適化とリスク管理の両方において、金融モデリングにおいて重要な役割を果たす。 今日の自然言語処理は、ニュースやソーシャルメディアのコメントを処理し、投資家の自信のシグナルを検出する。 金融ニュースとつぶやきから抽出した感情とFTSE100の動きとの関係について検討した。 本研究は, ある日のセンチメント尺度と市場のボラティリティと翌日のリターンの相関関係の強さを検討した。 ニュースの見出しから得られた感情は、市場のリターンを予測するシグナルとして使われる可能性があり、ボラティリティには当てはまらない。 また、驚くべき発見として、twitterのコメントに見られる感情の相関係数は-0.7、p値は0.05以下であり、これは、ある日のツイートから得られたポジティブな感情と翌日に観測されたボラティリティとの間に強い負の相関を示している。 潜在ディリクレ割当に基づくトピックモデリングを展開することで,新しい情報の到来に対応して,市場変動予測のための正確な分類器を開発し,ツイートや金融ニュースの収集から特徴ベクトルを抽出する。 得られた特徴を分類器に追加入力として使用した。 感情とトピックモデリングの組み合わせにより,分類器は63%のボラティリティの方向予測精度を得た。

Prediction and quantification of future volatility and returns play an important role in financial modelling, both in portfolio optimization and risk management. Natural language processing today allows to process news and social media comments to detect signals of investors' confidence. We have explored the relationship between sentiment extracted from financial news and tweets and FTSE100 movements. We investigated the strength of the correlation between sentiment measures on a given day and market volatility and returns observed the next day. The findings suggest that there is evidence of correlation between sentiment and stock market movements: the sentiment captured from news headlines could be used as a signal to predict market returns; the same does not apply for volatility. Also, in a surprising finding, for the sentiment found in Twitter comments we obtained a correlation coefficient of -0.7, and p-value below 0.05, which indicates a strong negative correlation between positive sentiment captured from the tweets on a given day and the volatility observed the next day. We developed an accurate classifier for the prediction of market volatility in response to the arrival of new information by deploying topic modelling, based on Latent Dirichlet Allocation, to extract feature vectors from a collection of tweets and financial news. The obtained features were used as additional input to the classifier. Thanks to the combination of sentiment and topic modelling our classifier achieved a directional prediction accuracy for volatility of 63%.
翻訳日:2021-05-15 06:36:08 公開日:2020-12-10
# DA-HGT:ドメイン適応不均一グラフ変換器

DA-HGT: Domain Adaptive Heterogeneous Graph Transformer ( http://arxiv.org/abs/2012.05688v1 )

ライセンス: Link先を確認
Tiancheng Huang, Ke Xu, Donglin Wang(参考訳) グラフネットワークを用いたドメイン適応は、グラフパラメータを共有することでラベル識別ノードとネットワーク不変ノードの埋め込みを学習する。 既存の作品の多くは均質ネットワークのドメイン適応に焦点を当てており、共有ノードタイプのみを考慮しつつ、個々のネットワーク内のプライベートノードタイプを無視する異質なケースを研究し始めた作品も少なくない。 しかし、特定のソースとターゲットの異種ネットワークでは、一般に共有ノードタイプとプライベートノードタイプが含まれており、プライベートタイプはグラフドメイン適応に余分な困難をもたらす。 本稿では、部分共有ノード型を持つ異種情報ネットワーク(HIN)について検討し、その間のドメインシフトを処理するための新しいドメイン適応異種グラフ変換器(DA-HGT)を提案する。 DA-HGTは、2つのHINにおいて同一のノードとエッジの分布を調整するだけでなく、知識伝達の性能を向上させるために異なるタイプのノードとエッジをフル活用する。 いくつかのデータセットに対する大規模な実験により、DA-HGTは異種ネットワークをまたいだ様々な領域適応タスクにおいて最先端の手法より優れていることが示された。

Domain adaptation using graph networks is to learn label-discriminative and network-invariant node embeddings by sharing graph parameters. Most existing works focus on domain adaptation of homogeneous networks, and just a few works begin to study heterogeneous cases that only consider the shared node types but ignore the private node types in individual networks. However, for a given source and target heterogeneous networks, they generally contain shared and private node types, where private types bring an extra challenge for graph domain adaptation. In this paper, we investigate Heterogeneous Information Networks (HINs) with partial shared node types and propose a novel domain adaptive heterogeneous graph transformer (DA-HGT) to handle the domain shift between them. DA-HGT can not only align the distributions of identical-type nodes and edges in two HINs but also make full use of different-type nodes and edges to improve the performance of knowledge transfer. Extensive experiments on several datasets demonstrate that DA-HGT can outperform state-of-the-art methods in various domain adaptation tasks across heterogeneous networks.
翻訳日:2021-05-15 06:35:14 公開日:2020-12-10
# シンプルな機械学習による接触追跡

A Simplistic Machine Learning Approach to Contact Tracing ( http://arxiv.org/abs/2012.05940v1 )

ライセンス: Link先を確認
Carlos G\'omez, Niamh Belton, Boi Quach, Jack Nicholls, Devanshu Anand(参考訳) このレポートは、ML-Labs (SFI Centre for Machine Learning) が提供する修正NISTの課題である Too Close For Too Long に基づいている。 修正された課題は、時間計算の側面(長すぎる)を除外する。 携帯機器データから特徴を手作りすることにより、GBMとMLPという2つの機械学習モデルを開発し、2つの携帯電話間の距離を推定する。 本手法は,香港科学技術大学(HKUST)によるNISTの課題を,かなりの差で克服することができる。

This report is based on the modified NIST challenge, Too Close For Too Long, provided by the SFI Centre for Machine Learning (ML-Labs). The modified challenge excludes the time calculation (too long) aspect. By handcrafting features from phone instrumental data we develop two machine learning models, a GBM and an MLP, to estimate distance between two phones. Our method is able to outperform the leading NIST challenge result by the Hong Kong University of Science and Technology (HKUST) by a significant margin.
翻訳日:2021-05-15 06:34:55 公開日:2020-12-10
# 芸術作品の調和を検知できるのか? 機械学習のアプローチ

Can we detect harmony in artistic compositions? A machine learning approach ( http://arxiv.org/abs/2012.05633v1 )

ライセンス: Link先を確認
Adam Vandor, Marie van Vollenhoven, Gerhard Weiss, Gerasimos Spanakis(参考訳) 視覚構成における調和は、人間でも数学的に定義または容易に表現できない概念である。 本研究の目的は,異なるレベルの調和を持つ芸術作品の数値表現を見出すことであった。 我々は人間に、伝達する調和に基づいて、グレースケール画像のコレクションを評価するよう依頼する。 画像を表現するため、一連の特殊特徴を設計・抽出した。 これにより、主観的に判断された構成に客観的な措置を割り当てることが可能となった。 評価と抽出された特徴から,調和分類問題において,これらの表現の効率を評価するために機械学習アルゴリズムを用いた。 最高の演奏モデル(SVM)は、調和の概念を人間によって評価できる数学的方法で表現できるという仮定を補強し、調和画像と不規則画像の区別において80%の精度を達成した。

Harmony in visual compositions is a concept that cannot be defined or easily expressed mathematically, even by humans. The goal of the research described in this paper was to find a numerical representation of artistic compositions with different levels of harmony. We ask humans to rate a collection of grayscale images based on the harmony they convey. To represent the images, a set of special features were designed and extracted. By doing so, it became possible to assign objective measures to subjectively judged compositions. Given the ratings and the extracted features, we utilized machine learning algorithms to evaluate the efficiency of such representations in a harmony classification problem. The best performing model (SVM) achieved 80% accuracy in distinguishing between harmonic and disharmonic images, which reinforces the assumption that concept of harmony can be expressed in a mathematical way that can be assessed by humans.
翻訳日:2021-05-15 06:34:47 公開日:2020-12-10
# 視覚表現学習における概念一般化

Concept Generalization in Visual Representation Learning ( http://arxiv.org/abs/2012.05649v1 )

ライセンス: Link先を確認
Mert Bulent Sariyildiz, Yannis Kalantidis, Diane Larlus, Karteek Alahari(参考訳) 概念の一般化の測定、すなわち、(seen)視覚概念のセットでトレーニングされたモデルが、新しい(seen)概念のセットを認識するために使用できる範囲は、視覚表現を評価する一般的な方法であり、特に、自己教師付き学習で学習される場合である。 それでも、使われない概念の選択は、通常任意に行われ、表現を訓練するために使用される概念とは独立して行われ、したがって両者のセマンティックな関係は無視される。 本稿では,目に見える概念と目に見えない概念のセマンティックな関係が一般化性能に与える影響を論じ,概念の一般化を原則的に測定できるImageNetデータセットの新しいベンチマークであるImageNet-CoGを提案する。 我々のベンチマークでは、WordNetから得られた専門家の知識を活用して、ユビキタストレーニングセットであるImageNet-1Kサブセットから意味的に、より遠く離れたImageNet概念セットのシーケンスを定義する。 私たちは、概念一般化のプリズムの下で、教師付き、半教師付き、自己監督型のアプローチから、これらのモデルを分析し、我々のベンチマークが興味深い洞察をいかに明らかにできるかを示します。 ベンチマークのリソースはhttps://europe.naverlabs.com/cog-benchmark.comで提供します。

Measuring concept generalization, i.e., the extent to which models trained on a set of (seen) visual concepts can be used to recognize a new set of (unseen) concepts, is a popular way of evaluating visual representations, especially when they are learned with self-supervised learning. Nonetheless, the choice of which unseen concepts to use is usually made arbitrarily, and independently from the seen concepts used to train representations, thus ignoring any semantic relationships between the two. In this paper, we argue that semantic relationships between seen and unseen concepts affect generalization performance and propose ImageNet-CoG, a novel benchmark on the ImageNet dataset that enables measuring concept generalization in a principled way. Our benchmark leverages expert knowledge that comes from WordNet in order to define a sequence of unseen ImageNet concept sets that are semantically more and more distant from the ImageNet-1K subset, a ubiquitous training set. This allows us to benchmark visual representations learned on ImageNet-1K out-of-the box: we analyse a number of such models from supervised, semi-supervised and self-supervised approaches under the prism of concept generalization, and show how our benchmark is able to uncover a number of interesting insights. We will provide resources for the benchmark at https://europe.naverlabs.com/cog-benchmark.
翻訳日:2021-05-15 06:34:33 公開日:2020-12-10
# フルGlow:よりリアルな画像生成のための条件付きGlow

Full-Glow: Fully conditional Glow for more realistic image generation ( http://arxiv.org/abs/2012.05846v1 )

ライセンス: Link先を確認
Moein Sorkhei, Gustav Eje Henter, Hedvig Kjellstr\"om(参考訳) 自動運転車のような自律エージェントは、トレーニングのために大量のラベル付きビジュアルデータを必要とする。 このようなデータを取得するための有効なアプローチは、収集した実データで生成モデルをトレーニングし、収集した実データセットをモデルからの合成画像で拡張し、シーンレイアウトと基底真理ラベルを制御して生成する。 本稿では,シーンレイアウトを表す意味的セグメンテーションマップを与えられた新しい街路シーンの多目的かつ現実的な画像を生成するためのフルグレー,フル条件のグローベースアーキテクチャを提案する。 ベンチマーク比較では,事前学習したpspnetのセグメンテーション性能の観点から,最近の研究よりも優れるモデルを示す。 これは、モデルからのイメージが、他のモデルよりも高い程度に、同じ種類のシーンやオブジェクトの実際のイメージに似ており、視覚的意味セグメンテーションやオブジェクト認識システムのトレーニングデータとして適していることを示している。

Autonomous agents, such as driverless cars, require large amounts of labeled visual data for their training. A viable approach for acquiring such data is training a generative model with collected real data, and then augmenting the collected real dataset with synthetic images from the model, generated with control of the scene layout and ground truth labeling. In this paper we propose Full-Glow, a fully conditional Glow-based architecture for generating plausible and realistic images of novel street scenes given a semantic segmentation map indicating the scene layout. Benchmark comparisons show our model to outperform recent works in terms of the semantic segmentation performance of a pretrained PSPNet. This indicates that images from our model are, to a higher degree than from other models, similar to real images of the same kinds of scenes and objects, making them suitable as training data for a visual semantic segmentation or object recognition system.
翻訳日:2021-05-15 06:34:10 公開日:2020-12-10
# ボディーショット学習のラベルは少ないか?

Are Fewer Labels Possible for Few-shot Learning? ( http://arxiv.org/abs/2012.05899v1 )

ライセンス: Link先を確認
Suichan Li and Dongdong Chen and Yinpeng Chen and Lu Yuan and Lei Zhang and Qi Chu and Nenghai Yu(参考訳) ごく限られたデータとラベルのため、わずかなショット学習は難しい。 近年のBiT (Big Transfer) 研究は、異なる領域における大規模ラベル付きデータセットの事前トレーニングによって、少数ショット学習が大きな恩恵を受けることを示した。 ラベルのない)プレトレーニングと(ラベルが少ない)微調整の両方で、可能な限り少数のショット学習にラベルを使用できるか? 私たちのキーとなる洞察は、機能領域におけるターゲットサンプルのクラスタリングが、数ショットの微調整に必要なすべてであるということです。 これは、バニラが教師なしのプリトレイン(poor clustering)が教師なしのプリトレインより悪い理由を説明する。 本稿では,その量が非常に限られているにもかかわらず,ターゲットデータを含むことにより,より優れたクラスタリングを実現するトランスダクティブな教師なし事前学習を提案する。 改良されたクラスタリングの結果は、ユーザがラベル付けする最も代表的なサンプル(固有サンプル)を特定する上で大きな価値があり、代わりにラベル付き固有サンプルとの微調整がさらに改善される。 そこで本研究では,ファインチューニングにおけるクラスタリングと固有サンプルの共進化を活かし,ショット学習の削減を図る。 我々は10の異なる少数ショットのターゲットデータセットで実験を行い、平均的な少数ショットのパフォーマンスはバニラインダクティブな非教師付き転送と教師付き転送の両方を大きなマージンで上回っている。 例えば、各対象カテゴリが10個のラベル付きサンプルしか持たない場合、上記の2つのベースラインの平均精度は、それぞれ9.2%と3.42である。

Few-shot learning is challenging due to its very limited data and labels. Recent studies in big transfer (BiT) show that few-shot learning can greatly benefit from pretraining on large scale labeled dataset in a different domain. This paper asks a more challenging question: "can we use as few as possible labels for few-shot learning in both pretraining (with no labels) and fine-tuning (with fewer labels)?". Our key insight is that the clustering of target samples in the feature space is all we need for few-shot finetuning. It explains why the vanilla unsupervised pretraining (poor clustering) is worse than the supervised one. In this paper, we propose transductive unsupervised pretraining that achieves a better clustering by involving target data even though its amount is very limited. The improved clustering result is of great value for identifying the most representative samples ("eigen-samples") for users to label, and in return, continued finetuning with the labeled eigen-samples further improves the clustering. Thus, we propose eigen-finetuning to enable fewer shot learning by leveraging the co-evolution of clustering and eigen-samples in the finetuning. We conduct experiments on 10 different few-shot target datasets, and our average few-shot performance outperforms both vanilla inductive unsupervised transfer and supervised transfer by a large margin. For instance, when each target category only has 10 labeled samples, the mean accuracy gain over the above two baselines is 9.2% and 3.42 respectively.
翻訳日:2021-05-15 06:33:55 公開日:2020-12-10
# 動画における行動認識のためのモーションコード埋め込みの開発

Developing Motion Code Embedding for Action Recognition in Videos ( http://arxiv.org/abs/2012.05438v1 )

ライセンス: Link先を確認
Maxat Alibayev, David Paulius, and Yu Sun(参考訳) 本研究では,動きのベクトル化表現であるモーションコード (motion codes) と呼ばれる動き埋め込み戦略を提案する。 これらの運動符号は頑健な運動表現を提供し、運動分類と呼ばれる特徴階層を用いて得られる。 我々は、視覚的特徴と意味的特徴を組み合わせたディープニューラルネットワークモデルを開発し、訓練し、モーション分類で見られる特徴を特定し、動画をモーションコードで埋め込んだり、注釈付けしたりしました。 機械学習タスクの特徴としてモーションコードの可能性を示すために,モーション埋め込みモデルから抽出した特徴を,現在最先端のアクション認識モデルに統合した。 得られたモデルは,EPIC-KITCHENSデータセットから得られたエゴセントリックビデオの動詞分類タスクのベースラインモデルよりも高い精度を実現した。

In this work, we propose a motion embedding strategy known as motion codes, which is a vectorized representation of motions based on a manipulation's salient mechanical attributes. These motion codes provide a robust motion representation, and they are obtained using a hierarchy of features called the motion taxonomy. We developed and trained a deep neural network model that combines visual and semantic features to identify the features found in our motion taxonomy to embed or annotate videos with motion codes. To demonstrate the potential of motion codes as features for machine learning tasks, we integrated the extracted features from the motion embedding model into the current state-of-the-art action recognition model. The obtained model achieved higher accuracy than the baseline model for the verb classification task on egocentric videos from the EPIC-KITCHENS dataset.
翻訳日:2021-05-15 06:33:28 公開日:2020-12-10
# R-AGNO-RPN:分解能非依存検出のためのLIDARカメラ領域ディープネットワーク

R-AGNO-RPN: A LIDAR-Camera Region Deep Network for Resolution-Agnostic Detection ( http://arxiv.org/abs/2012.05740v1 )

ライセンス: Link先を確認
Ruddy Th\'eodose, Dieumet Denis, Thierry Chateau, Vincent Fr\'emont, Paul Checchin(参考訳) 現在のニューラルネットワークベースのオブジェクト検出アプローチは、LiDARポイントクラウドを処理し、通常、ある種類のLiDARセンサーからトレーニングされる。 しかし、その性能は、異なるLiDARセンサーから来るデータ、すなわち異なる点のクラウド解像度で使用されるデータでテストされると低下する。 本稿では,3次元点雲とRGB画像の融合に基づく領域提案ネットワークであるR-AGNO-RPNを提案する。 提案手法は,低点のクラウド解像度にも適用可能なように設計されているため,削減されたデータ上で精製されたボックスを推定するのではなく,オブジェクトのローカライズに焦点をあてる。 低解像度ポイントクラウドへのレジリエンスは、鳥の目視に正確にマッピングされた画像特徴と、rgb画像の寄与を改善する特定のデータ拡張手順によって得られる。 提案手法を用いて,kitti 3dオブジェクト検出とnuscenesデータセットから得られたデータについて実験を行った。 さらに,その性能を評価するために,よく知られた3D検出ネットワークであるPointPillarsと比較した。 実験結果から, 原点の80 % の値に削減された点群においても, 提案手法のローカライゼーションが可能であることがわかった。

Current neural networks-based object detection approaches processing LiDAR point clouds are generally trained from one kind of LiDAR sensors. However, their performances decrease when they are tested with data coming from a different LiDAR sensor than the one used for training, i.e., with a different point cloud resolution. In this paper, R-AGNO-RPN, a region proposal network built on fusion of 3D point clouds and RGB images is proposed for 3D object detection regardless of point cloud resolution. As our approach is designed to be also applied on low point cloud resolutions, the proposed method focuses on object localization instead of estimating refined boxes on reduced data. The resilience to low-resolution point cloud is obtained through image features accurately mapped to Bird's Eye View and a specific data augmentation procedure that improves the contribution of the RGB images. To show the proposed network's ability to deal with different point clouds resolutions, experiments are conducted on both data coming from the KITTI 3D Object Detection and the nuScenes datasets. In addition, to assess its performances, our method is compared to PointPillars, a well-known 3D detection network. Experimental results show that even on point cloud data reduced by $80\%$ of its original points, our method is still able to deliver relevant proposals localization.
翻訳日:2021-05-15 06:33:16 公開日:2020-12-10
# プライバシー保護接点追跡のための説明可能なリンク予測

Explainable Link Prediction for Privacy-Preserving Contact Tracing ( http://arxiv.org/abs/2012.05516v1 )

ライセンス: Link先を確認
Balaji Ganesan, Hima Patel, Sameep Mehta(参考訳) 接触追跡は、SARS-Cov2ウイルスに感染した人に近い人を特定するために使用されている。 物理的な接触追跡を容易にまたは補完するために、多くのデジタルコントラクトトレースアプリケーションが導入された。 しかし、コントラクトトレースアプリケーションの実装には多くのプライバシー上の問題があるため、これらのアプリケーションに感染状況のインストールや更新を嫌がらせている。 本稿では,これらのアプリケーションに対する信頼を向上し,人々による採用を促進する,グラフニューラルネットワークと説明可能性のアイデアを紹介する。

Contact Tracing has been used to identify people who were in close proximity to those infected with SARS-Cov2 coronavirus. A number of digital contract tracing applications have been introduced to facilitate or complement physical contact tracing. However, there are a number of privacy issues in the implementation of contract tracing applications, which make people reluctant to install or update their infection status on these applications. In this concept paper, we present ideas from Graph Neural Networks and explainability, that could improve trust in these applications, and encourage adoption by people.
翻訳日:2021-05-15 06:32:55 公開日:2020-12-10
# 大規模ヘテロジニアス知識グラフに対するスケーラブルかつ解釈可能なルールベースリンク予測

Scalable and interpretable rule-based link prediction for large heterogeneous knowledge graphs ( http://arxiv.org/abs/2012.05750v1 )

ライセンス: Link先を確認
Simon Ott, Laura Graf, Asan Agibetov, Christian Meilicke, Matthias Samwald(参考訳) ニューラルネットワークを用いた機械学習モデルは、バイオメディカル知識グラフにおける新しいリンクを予測することを約束している。 残念ながら、実用性は解釈可能性の欠如によって低下している。 近年、AnyBURLは完全に解釈可能なルールベースのアルゴリズムが、多くの汎用リンク予測ベンチマークで高い競争力を得た。 しかしながら、複雑な生物医学的知識ベースにおける大規模予測タスクへの適用性は、長い推論時間と複数のルールによる予測の集約の困難によって制限される。 スケーラブルなクラスタリングアルゴリズムを通じてルールを集約するsafran rule application frameworkを導入することで、anyburlを改善した。 SAFRANは、確立された汎用ベンチマーク FB15K-237 と大規模バイオメディカルベンチマーク OpenBioLink 上で、完全に解釈可能なリンク予測のための新しい最先端の結果を得る。 さらに、fb15k-237上で確立された複数の組込みベースのアルゴリズムの結果を超え、openbiolink上のルールベースと組込みベースのアルゴリズムのギャップを狭める。 また、SAFRANは最大2桁の推論速度を増大させることを示した。

Neural embedding-based machine learning models have shown promise for predicting novel links in biomedical knowledge graphs. Unfortunately, their practical utility is diminished by their lack of interpretability. Recently, the fully interpretable, rule-based algorithm AnyBURL yielded highly competitive results on many general-purpose link prediction benchmarks. However, its applicability to large-scale prediction tasks on complex biomedical knowledge bases is limited by long inference times and difficulties with aggregating predictions made by multiple rules. We improve upon AnyBURL by introducing the SAFRAN rule application framework which aggregates rules through a scalable clustering algorithm. SAFRAN yields new state-of-the-art results for fully interpretable link prediction on the established general-purpose benchmark FB15K-237 and the large-scale biomedical benchmark OpenBioLink. Furthermore, it exceeds the results of multiple established embedding-based algorithms on FB15K-237 and narrows the gap between rule-based and embedding-based algorithms on OpenBioLink. We also show that SAFRAN increases inference speeds by up to two orders of magnitude.
翻訳日:2021-05-15 06:32:19 公開日:2020-12-10
# 適応脚歩行のマルチエキスパート学習

Multi-expert learning of adaptive legged locomotion ( http://arxiv.org/abs/2012.05810v1 )

ライセンス: Link先を確認
Chuanyu Yang, Kai Yuan, Qiuguo Zhu, Wanming Yu, Zhibin Li(参考訳) 万能ロボットの移動を実現するには、これまで目に見えない状況に適応できるモータースキルが必要である。 代表的専門家のスキル群から適応的なスキルを生み出すことを学ぶマルチエキスパート学習アーキテクチャ(MELA)を提案する。 トレーニング中、MELAはまず、個別の深層ニューラルネットワーク(DNN)で、個別にトレーニング済みのエキスパートセットによって初期化される。 そして、これらのDNNの組み合わせをGating Neural Network(GNN)を使って学習することにより、MELAは、さまざまな移動モードを通じて、より専門的な専門家と移行スキルを取得することができる。 実行中、MELAは複数のDNNを常にブレンドし、新しいDNNを動的に合成し、状況の変化に応じて適応的な振る舞いを生成する。 このアプローチは、訓練された専門家スキルの利点と、適応ポリシーの高速オンライン合成を利用して、タスク変更時の応答性モータースキルを生成する。 統合されたMELAフレームワークを用いて,コヒーレントトロッティング,ステアリング,転倒回復を自律的に行う実四足歩行ロボットのマルチスキル・ロコモーションを実演し,未知のシナリオに適応可能なマルチエキスパート学習生成のメリットを示した。

Achieving versatile robot locomotion requires motor skills which can adapt to previously unseen situations. We propose a Multi-Expert Learning Architecture (MELA) that learns to generate adaptive skills from a group of representative expert skills. During training, MELA is first initialised by a distinct set of pre-trained experts, each in a separate deep neural network (DNN). Then by learning the combination of these DNNs using a Gating Neural Network (GNN), MELA can acquire more specialised experts and transitional skills across various locomotion modes. During runtime, MELA constantly blends multiple DNNs and dynamically synthesises a new DNN to produce adaptive behaviours in response to changing situations. This approach leverages the advantages of trained expert skills and the fast online synthesis of adaptive policies to generate responsive motor skills during the changing tasks. Using a unified MELA framework, we demonstrated successful multi-skill locomotion on a real quadruped robot that performed coherent trotting, steering, and fall recovery autonomously, and showed the merit of multi-expert learning generating behaviours which can adapt to unseen scenarios.
翻訳日:2021-05-15 06:32:02 公開日:2020-12-10
# 高次元運動計画のためのコスト・ツー・ゴー関数生成ネットワーク

Cost-to-Go Function Generating Networks for High Dimensional Motion Planning ( http://arxiv.org/abs/2012.06023v1 )

ライセンス: Link先を確認
Jinwook Huh, Volkan Isler, and Daniel D. Lee(参考訳) 本稿では,マニピュレータ動作計画のためのコスト・ツー・ゴー関数を学習するc2g-HOFネットワークを提案する。 c2g-HOFアーキテクチャは、ニューラルネットワーク(c2g-network)として表される構成空間上のコスト対Go関数と、与えられた入力ワークスペースのc2g-networkの重みを出力する高次関数(HOF)ネットワークで構成される。 どちらのネットワークも、従来のモーションプランナーから計算したコストを使って、教師付きでエンドツーエンドでトレーニングされる。 トレーニングされたc2g-hofは、ワークスペースセンサ入力(3dのポイントクラウドまたは2dのイメージとして表現される)から直接、滑らかで連続的なコスト・ツー・ゴー関数を生成することができる。 推論時には、c2g-ネットワークの重みを極めて効率的に計算し、コスト対号関数の勾配を単純に追従することで、最適軌道を生成する。 我々は,c2g-HOFと従来のロボットの計画アルゴリズムを比較した。 実験結果から, c2g-HOF を用いた計画は他の動作計画アルゴリズムよりもかなり高速であり, 衝突チェックを含む場合の桁違いの改善が得られた。 さらに、c2g-HOFは、スムーズなサンプル軌道から構成空間で訓練されているにもかかわらず、スムーズで低コストな軌道を生成するために一般化されている。 複雑な作業空間における動作計画が軌道全体に対してわずか0.13秒しか必要としない7DoFマニピュレータアーム上でのコスト・ツー・ゴー・プランニングを実証する。

This paper presents c2g-HOF networks which learn to generate cost-to-go functions for manipulator motion planning. The c2g-HOF architecture consists of a cost-to-go function over the configuration space represented as a neural network (c2g-network) as well as a Higher Order Function (HOF) network which outputs the weights of the c2g-network for a given input workspace. Both networks are trained end-to-end in a supervised fashion using costs computed from traditional motion planners. Once trained, c2g-HOF can generate a smooth and continuous cost-to-go function directly from workspace sensor inputs (represented as a point cloud in 3D or an image in 2D). At inference time, the weights of the c2g-network are computed very efficiently and near-optimal trajectories are generated by simply following the gradient of the cost-to-go function. We compare c2g-HOF with traditional planning algorithms for various robots and planning scenarios. The experimental results indicate that planning with c2g-HOF is significantly faster than other motion planning algorithms, resulting in orders of magnitude improvement when including collision checking. Furthermore, despite being trained from sparsely sampled trajectories in configuration space, c2g-HOF generalizes to generate smoother, and often lower cost, trajectories. We demonstrate cost-to-go based planning on a 7 DoF manipulator arm where motion planning in a complex workspace requires only 0.13 seconds for the entire trajectory.
翻訳日:2021-05-15 06:31:39 公開日:2020-12-10
# 大規模非定常雑音共分散行列:クロスバリデーションアプローチ

Large Non-Stationary Noisy Covariance Matrices: A Cross-Validation Approach ( http://arxiv.org/abs/2012.05757v1 )

ライセンス: Link先を確認
Vincent W. C. Tan, Stefan Zohren(参考訳) 指数重み付けされた移動平均を用いて、クロスバリデーションによりサンプル内固有値を縮小することにより、金融時系列の非定常性を利用する新しい共分散推定器を導入する。 私たちの推定器は、行列のランダムなエントリや共分散行列の構造の分布を仮定しないという点で、モデルに依存しない。 さらに,推定器の力学の時間スケールを特徴付けるハイパーパラメータの自動チューニングのガイダンスを,ランダム行列理論によってどのように提供できるかを示す。 断面次元と時系列次元の両方のノイズを減衰させることにより、指数重み付けと一様重み付けの共分散行列に基づく競合する推定器に対する推定器の優位性を実証的に証明する。

We introduce a novel covariance estimator that exploits the heteroscedastic nature of financial time series by employing exponential weighted moving averages and shrinking the in-sample eigenvalues through cross-validation. Our estimator is model-agnostic in that we make no assumptions on the distribution of the random entries of the matrix or structure of the covariance matrix. Additionally, we show how Random Matrix Theory can provide guidance for automatic tuning of the hyperparameter which characterizes the time scale for the dynamics of the estimator. By attenuating the noise from both the cross-sectional and time-series dimensions, we empirically demonstrate the superiority of our estimator over competing estimators that are based on exponentially-weighted and uniformly-weighted covariance matrices.
翻訳日:2021-05-15 06:31:08 公開日:2020-12-10
# マルチクラスX線胸部画像を用いた畳み込みニューラルネットワークによるCovid-19の検出

Detection of Covid-19 Patients with Convolutional Neural Network Based Features on Multi-class X-ray Chest Images ( http://arxiv.org/abs/2012.05525v1 )

ライセンス: Link先を確認
Ali Narin(参考訳) コビッドウイルスは深刻な致命的な病気で、世界保健機関(WHO)がパンデミックとして発表した。 世界中で新型コロナウイルス(covid-19)パンデミック(covid-19)の終結に向けて全力を挙げている。 最も重要なのは、Covid-19を入手した人を特定することだ。 逆転写ポリメラーゼ鎖反応(RT-PCR)試験を支援する方法と方法が文献で紹介されている。 本研究では,コビッドウイルスが呼吸器系を攻撃したことから,胸部X線画像のアクセスを容易かつ迅速に行うことができた。 これらの画像からの畳み込みニューラルネットワークモデルである残差ネットワーク(ResNet-50)で抽出した特徴を用いて,サポートベクタマシンを用いた分類性能を得た。 Covid-19は5倍のクロスバリデーション法で96.35%の感度を持つサポートベクターマシン(SVM)クアドラティックで検出されるが、SVMクアドラティックとSVMキュービックの両方で最高性能値が99%以上検出されている。 これらの結果から,本手法は放射線医学の専門家に有効であり,誤検出率の低減に役立つと考えられる。

Covid-19 is a very serious deadly disease that has been announced as a pandemic by the world health organization (WHO). The whole world is working with all its might to end Covid-19 pandemic, which puts countries in serious health and economic problems, as soon as possible. The most important of these is to correctly identify those who get the Covid-19. Methods and approaches to support the reverse transcription polymerase chain reaction (RT-PCR) test have begun to take place in the literature. In this study, chest X-ray images, which can be accessed easily and quickly, were used because the covid-19 attacked the respiratory systems. Classification performances with support vector machines have been obtained by using the features extracted with residual networks (ResNet-50), one of the convolutional neural network models, from these images. While Covid-19 detection is obtained with support vector machines (SVM)-quadratic with the highest sensitivity value of 96.35% with the 5-fold cross-validation method, the highest overall performance value has been detected with both SVM-quadratic and SVM-cubic above 99%. According to these high results, it is thought that this method, which has been studied, will help radiology specialists and reduce the rate of false detection.
翻訳日:2021-05-15 06:30:55 公開日:2020-12-10
# Debiased-CAMによる深層畳み込みネットワークの偏見に依存しない忠実な視覚的説明

Debiased-CAM for bias-agnostic faithful visual explanations of deep convolutional networks ( http://arxiv.org/abs/2012.05567v1 )

ライセンス: Link先を確認
Wencan Zhang, Mariella Dimiccoli, Brian Y. Lim(参考訳) クラスアクティベーションマップ(cams)は、突出したピクセルを識別することで畳み込みニューラルネットワークの予測を説明するが、バイアス下の画像(画像が誤ってぼやけたり、プライバシ保護のために故意にぼやけたり、不適切なホワイトバランスの画像など)で予測を説明すると、誤ったアライメントと誤解を招く。 これらのバイアス画像の予測性能を改善するためにモデル微調整を行ったが、画像バイアスの増加に伴いCAM説明がより逸脱し、不誠実になることを示す。 我々は,CAMとバイアスレベル予測のための補助タスクを備えた多入力マルチタスクモデルを訓練することにより,様々なバイアスタイプやレベルにわたる説明の忠実さを回復する。 CAMを予測タスクとし、主モデル層を再トレーニングし、不偏像のCAMから自己教師付き学習を行うことにより、説明が調整可能となる。 このモデルは、偏りのない形態から生成されたかのようにバイアス画像上の予測について、代表的でバイアスに依存しないCAMの説明を提供する。 バイアスと予測タスクが異なる4つのシミュレーション研究において、Debiased-CAMはCAMの忠実さとタスクパフォーマンスを改善した。 さらに,その真理と有用性を検証するために,制御されたユーザ調査を2回実施した。 参加者の反応の定量的、質的な分析により、Debiased-CAMはより真実で役に立つと確認された。 したがって、Debiased-CAMは様々なバイアス源を持つ幅広い現実世界のアプリケーションに対してより忠実で関連する説明を生成する基盤を提供する。

Class activation maps (CAMs) explain convolutional neural network predictions by identifying salient pixels, but they become misaligned and misleading when explaining predictions on images under bias, such as images blurred accidentally or deliberately for privacy protection, or images with improper white balance. Despite model fine-tuning to improve prediction performance on these biased images, we demonstrate that CAM explanations become more deviated and unfaithful with increased image bias. We present Debiased-CAM to recover explanation faithfulness across various bias types and levels by training a multi-input, multi-task model with auxiliary tasks for CAM and bias level predictions. With CAM as a prediction task, explanations are made tunable by retraining the main model layers and made faithful by self-supervised learning from CAMs of unbiased images. The model provides representative, bias-agnostic CAM explanations about the predictions on biased images as if generated from their unbiased form. In four simulation studies with different biases and prediction tasks, Debiased-CAM improved both CAM faithfulness and task performance. We further conducted two controlled user studies to validate its truthfulness and helpfulness, respectively. Quantitative and qualitative analyses of participant responses confirmed Debiased-CAM as more truthful and helpful. Debiased-CAM thus provides a basis to generate more faithful and relevant explanations for a wide range of real-world applications with various sources of bias.
翻訳日:2021-05-15 06:30:30 公開日:2020-12-10
# 容積医用画像データにおける3次元バウンディングボックス検出 : 体系的文献レビュー

3D Bounding Box Detection in Volumetric Medical Image Data: A Systematic Literature Review ( http://arxiv.org/abs/2012.05745v1 )

ライセンス: Link先を確認
Daria Kern, Andre Mastmeyer(参考訳) 本稿では,ボリューム医療画像データにおける3次元境界ボックス検出の現状と動向について論じる。 この目的のために、近年の関連論文の概要を述べる。 2Dと3Dの実装について議論し比較する。 解剖学的構造をローカライズするための複数のアプローチを示す。 その結果,最近の研究は,畳み込みニューラルネットワークや手作業による特徴工学の手法など,ディープラーニングの手法に焦点が当てられている。 ランダム回帰。 境界ボックス検出オプションの概要を示し、研究者がターゲットオブジェクトに対して最も有望なアプローチを選択するのに役立つ。

This paper discusses current methods and trends for 3D bounding box detection in volumetric medical image data. For this purpose, an overview of relevant papers from recent years is given. 2D and 3D implementations are discussed and compared. Multiple identified approaches for localizing anatomical structures are presented. The results show that most research recently focuses on Deep Learning methods, such as Convolutional Neural Networks vs. methods with manual feature engineering, e.g. Random-Regression-Forests. An overview of bounding box detection options is presented and helps researchers to select the most promising approach for their target objects.
翻訳日:2021-05-15 06:30:06 公開日:2020-12-10
# クラウド分野に適したアーキテクチャを用いたディープラーニングによる3次元散乱トモグラフィ

3D Scattering Tomography by Deep Learning with Architecture Tailored to Cloud Fields ( http://arxiv.org/abs/2012.05960v1 )

ライセンス: Link先を確認
Yael Sde-Chen, Yoav Y. Schechner, Vadim Holodovsky, Eshkol Eytan(参考訳) 本研究では,マルチビュー画像からの散乱量の3次元再構成を行う,コンピュータ断層撮影用深層ニューラルネットワークである3deepctを提案する。 私たちのアーキテクチャは、大気の雲の静止した性質によって決定される。 体積散乱トモグラフィーの課題は、その2次元投影から体積を回復することである。 この問題は広範に研究され、信号処理と物理モデルに基づく様々な逆法が導かれた。 しかし、そのような手法は通常反復的であり、高い計算負荷と長い収束時間を示す。 また, 3DeepCTは, 計算時間の大幅な改善とともに, 物理に基づく逆散乱法よりも精度が高いことを示す。 本研究では3DeepCTと物理に基づく手法を組み合わせたハイブリッドモデルを提案する。 得られたハイブリッド技術は、高速な推論時間と回復性能の向上を享受する。

We present 3DeepCT, a deep neural network for computed tomography, which performs 3D reconstruction of scattering volumes from multi-view images. Our architecture is dictated by the stationary nature of atmospheric cloud fields. The task of volumetric scattering tomography aims at recovering a volume from its 2D projections. This problem has been studied extensively, leading, to diverse inverse methods based on signal processing and physics models. However, such techniques are typically iterative, exhibiting high computational load and long convergence time. We show that 3DeepCT outperforms physics-based inverse scattering methods in term of accuracy as well as offering a significant orders of magnitude improvement in computational time. To further improve the recovery accuracy, we introduce a hybrid model that combines 3DeepCT and physics-based method. The resultant hybrid technique enjoys fast inference time and improved recovery performance.
翻訳日:2021-05-15 06:29:55 公開日:2020-12-10
# Neural-Swarm2:学習インタラクションを用いた異種マルチロータ群の設計と制御

Neural-Swarm2: Planning and Control of Heterogeneous Multirotor Swarms using Learned Interactions ( http://arxiv.org/abs/2012.05457v1 )

ライセンス: Link先を確認
Guanya Shi, Wolfgang H\"onig, Xichen Shi, Yisong Yue, Soon-Jo Chung(参考訳) 本稿では,群れ内の異種マルチロータを安全に近接飛行させる運動計画・制御のための学習ベース手法であるneural-swarm2を提案する。 このようなドローンの運用は、近くのドローンが生み出すダウンウォッシュや地上効果のような複雑な空気力学的相互作用力のために困難である。 従来の計画と制御方法はこれらの相互作用力の捕獲を怠り、飛行中にスウォーム構成が疎遠になった。 本手法は,物理学に基づく名目ダイナミクスモデルと学習型深層ニューラルネットワーク(dnns)と強いリプシッツ特性を組み合わせたものである。 我々は,不均一なマルチロータ間の空力的相互作用を正確に予測する2つの手法を進化させた。i)不均一なデータに対するスペクトル正規化と一般化保証,i)不均一な近傍を表現性を低下させることなく置換不変に支持するための不均一な深度集合。 学習された残差ダイナミクスは、学習された相互作用力がモデリング誤差を減少させるため、対話認識型マルチロボット動作計画と非線形追従制御設計の両方に有益である。 実験結果から、Neural-Swarm2はトレーニングケースを超えてより大きなSwarmに一般化でき、最低ケース追跡エラーの最大3倍の削減でベースラインの非線形トラッキングコントローラよりも大幅に優れていた。

We present Neural-Swarm2, a learning-based method for motion planning and control that allows heterogeneous multirotors in a swarm to safely fly in close proximity. Such operation for drones is challenging due to complex aerodynamic interaction forces, such as downwash generated by nearby drones and ground effect. Conventional planning and control methods neglect capturing these interaction forces, resulting in sparse swarm configuration during flight. Our approach combines a physics-based nominal dynamics model with learned Deep Neural Networks (DNNs) with strong Lipschitz properties. We evolve two techniques to accurately predict the aerodynamic interactions between heterogeneous multirotors: i) spectral normalization for stability and generalization guarantees of unseen data and ii) heterogeneous deep sets for supporting any number of heterogeneous neighbors in a permutation-invariant manner without reducing expressiveness. The learned residual dynamics benefit both the proposed interaction-aware multi-robot motion planning and the nonlinear tracking control designs because the learned interaction forces reduce the modelling errors. Experimental results demonstrate that Neural-Swarm2 is able to generalize to larger swarms beyond training cases and significantly outperforms a baseline nonlinear tracking controller with up to three times reduction in worst-case tracking errors.
翻訳日:2021-05-15 06:29:43 公開日:2020-12-10
# 翻訳をデータ拡張として用いたQAのための多言語変換学習

Multilingual Transfer Learning for QA Using Translation as Data Augmentation ( http://arxiv.org/abs/2012.05958v1 )

ライセンス: Link先を確認
Mihaela Bornea, Lin Pan, Sara Rosenthal, Radu Florian, Avirup Sil(参考訳) 多言語質問応答に関する先行研究は、英語でQAモデルを訓練し、他の言語でテストするゼロショット言語学習を実行するために、大規模な多言語事前学習言語モデル(LM)を使うことに主に焦点を合わせてきた。 本研究では,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。 最初の戦略は、機械翻訳生成データによる英語のトレーニングデータを強化する。 この結果、元々のトレーニングセットの14倍の大きさの多言語銀ラベルQAペアのコーパスが得られる。 さらに,(ゼロリソース)言語間転送性能を著しく向上させ,言語変化の少ないlm埋め込みを実現する,言語敵訓練と言語調停フレームワークを提案する。 実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。

Prior work on multilingual question answering has mostly focused on using large multilingual pre-trained language models (LM) to perform zero-shot language-wise learning: train a QA model on English and test on other languages. In this work, we explore strategies that improve cross-lingual transfer by bringing the multilingual embeddings closer in the semantic space. Our first strategy augments the original English training data with machine translation-generated data. This results in a corpus of multilingual silver-labeled QA pairs that is 14 times larger than the original training set. In addition, we propose two novel strategies, language adversarial training and language arbitration framework, which significantly improve the (zero-resource) cross-lingual transfer performance and result in LM embeddings that are less language-variant. Empirically, we show that the proposed models outperform the previous zero-shot baseline on the recently introduced multilingual MLQA and TyDiQA datasets.
翻訳日:2021-05-15 06:28:00 公開日:2020-12-10
# 等価因果モデル

Equivalent Causal Models ( http://arxiv.org/abs/2012.05603v1 )

ライセンス: Link先を確認
Sander Beckers(参考訳) 本研究の目的は,両モデルが同一変数で構成されていない状況下で,等価因果モデルの最初の体系的探索と定義を提供することである。 この考え方は、2つのモデルが共通変数を使って表現できるすべての「重要」因果情報に同意するときに等価である。 私は因果モデルの2つの主な特徴、すなわち構造的関係と機能的関係に注目してそうします。 特に、因果関係のいくつかの関係と因果関係のいくつかの関係を定義し、これらの関係の最も一般的なものは等価なモデルで保存されることを要求する。

The aim of this paper is to offer the first systematic exploration and definition of equivalent causal models in the context where both models are not made up of the same variables. The idea is that two models are equivalent when they agree on all "essential" causal information that can be expressed using their common variables. I do so by focussing on the two main features of causal models, namely their structural relations and their functional relations. In particular, I define several relations of causal ancestry and several relations of causal sufficiency, and require that the most general of these relations are preserved across equivalent models.
翻訳日:2021-05-15 06:27:43 公開日:2020-12-10
# GNN-XML:超多ラベルテキスト分類のためのグラフニューラルネットワーク

GNN-XML: Graph Neural Networks for Extreme Multi-label Text Classification ( http://arxiv.org/abs/2012.05860v1 )

ライセンス: Link先を確認
Daoming Zong and Shiliang Sun(参考訳) extreme multi-label text classification (xmtc) は、非常に大きなラベルセットから最も関連するラベルのサブセットでテキストインスタンスをタグ付けすることを目的としている。 XMTCは、ニュースアノテーションや製品レコメンデーションといったモダンな応用によって生み出された膨大なラベルセットによって、近年注目を集めている。 XMTCの主な課題は、データのスケーラビリティとスパーシリティであり、その結果、2つの問題に繋がる: i) 極端なラベル設定にスケールする難しさ、i) 長い尾を持つラベル分布の存在。 これらの問題を解決するために,XMTC問題に適したスケーラブルグラフニューラルネットワークフレームワークであるGNN-XMLを提案する。 具体的には,共起パターンをマイニングし,相関行列に基づいてラベルグラフを構築することでラベル相関を利用する。 次に,低パスグラフフィルタとグラフ畳み込みを行い,ラベル依存とラベル特徴を共同でモデル化し,意味的ラベルクラスタを誘導する。 さらに、表現学習と分類器学習を分離し、末尾ラベルをモデル化する両分岐グラフ同型ネットワークを提案する。 複数のベンチマークデータセットによる実験結果から、GNN-XMLは予測効率とモデルサイズを同等に保ちながら最先端の手法を大幅に上回ることがわかった。

Extreme multi-label text classification (XMTC) aims to tag a text instance with the most relevant subset of labels from an extremely large label set. XMTC has attracted much recent attention due to massive label sets yielded by modern applications, such as news annotation and product recommendation. The main challenges of XMTC are the data scalability and sparsity, thereby leading to two issues: i) the intractability to scale to the extreme label setting, ii) the presence of long-tailed label distribution, implying that a large fraction of labels have few positive training instances. To overcome these problems, we propose GNN-XML, a scalable graph neural network framework tailored for XMTC problems. Specifically, we exploit label correlations via mining their co-occurrence patterns and build a label graph based on the correlation matrix. We then conduct the attributed graph clustering by performing graph convolution with a low-pass graph filter to jointly model label dependencies and label features, which induces semantic label clusters. We further propose a bilateral-branch graph isomorphism network to decouple representation learning and classifier learning for better modeling tail labels. Experimental results on multiple benchmark datasets show that GNN-XML significantly outperforms state-of-the-art methods while maintaining comparable prediction efficiency and model size.
翻訳日:2021-05-15 06:26:52 公開日:2020-12-10
# 抽象辞書フレームワークの強い適応性

Strong Admissibility for Abstract Dialectical Frameworks ( http://arxiv.org/abs/2012.05997v1 )

ライセンス: Link先を確認
Atefeh Keshavarzi Zafarghandi, Rineke Verbrugge and Bart Verheij(参考訳) 抽象弁証法フレームワーク(ADF)は、一般的な論理的満足度条件を満たす議論をモデル化し評価するための形式主義として導入された。 引数の受け入れを解決するために使われる異なる基準はセマンティクスと呼ばれる。 ADFのセマンティックスは主に許容性の概念に基づいて定義されている。 しかし、抽象的議論フレームワークで研究されている強許容意味論の概念は、adfsにはまだ導入されていない。 本研究は,AFFに対する解釈の強い許容性の概念を提示する。 さらに, ADFの強い許容可能な解釈は, 基底解釈をトップ要素として格子を形成することを示す。

Abstract dialectical frameworks (ADFs) have been introduced as a formalism for modeling and evaluating argumentation allowing general logical satisfaction conditions. Different criteria used to settle the acceptance of arguments are called semantics. Semantics of ADFs have so far mainly been defined based on the concept of admissibility. However, the notion of strongly admissible semantics studied for abstract argumentation frameworks has not yet been introduced for ADFs. In the current work we present the concept of strong admissibility of interpretations for ADFs. Further, we show that strongly admissible interpretations of ADFs form a lattice with the grounded interpretation as top element.
翻訳日:2021-05-15 06:26:27 公開日:2020-12-10
# 医療AIの3つのゴースト:ブラックボックスは実現可能か?

The Three Ghosts of Medical AI: Can the Black-Box Present Deliver? ( http://arxiv.org/abs/2012.06000v1 )

ライセンス: Link先を確認
Thomas P. Quinn, Stephan Jacobs, Manisha Senadeera, Vuong Le, Simon Coghlan(参考訳) 私たちのタイトルは、Ebenezer Scrooge氏がthe past, present, and future of Christmas holiday eventsをガイドした『textit{A Christmas Carol}』で遭遇した3つのクリスマスゴーストに言及しています。 同様に、私たちの記事は、医療AIの過去、現在、未来を読者に伝える。 そのために私たちは、現代の機械学習の要点である、強力だが本質的に不透明なモデルに依存しています。 医療領域に適用された場合、これらのモデルは、臨床医や患者エンドユーザが必要とする透明性の必要性を満たさない。 この失敗の意義を概観し,(1)不透明モデルには品質保証が欠如していること,(2)信頼が得られないこと,(3)医師と患者との対話が制限されていることを論じる。 次に、モデル設計とモデル検証のあらゆる面における透明性の維持が、医療AIの信頼性の確保にどのように役立つかについて議論する。

Our title alludes to the three Christmas ghosts encountered by Ebenezer Scrooge in \textit{A Christmas Carol}, who guide Ebenezer through the past, present, and future of Christmas holiday events. Similarly, our article will take readers through a journey of the past, present, and future of medical AI. In doing so, we focus on the crux of modern machine learning: the reliance on powerful but intrinsically opaque models. When applied to the healthcare domain, these models fail to meet the needs for transparency that their clinician and patient end-users require. We review the implications of this failure, and argue that opaque models (1) lack quality assurance, (2) fail to elicit trust, and (3) restrict physician-patient dialogue. We then discuss how upholding transparency in all aspects of model design and model validation can help ensure the reliability of medical AI.
翻訳日:2021-05-15 06:26:18 公開日:2020-12-10
# 競合に基づく探索によるマルチエージェントパス探索のための競合を解決する学習

Learning to Resolve Conflicts for Multi-Agent Path Finding with Conflict-Based Search ( http://arxiv.org/abs/2012.06005v1 )

ライセンス: Link先を確認
Taoan Huang, Bistra Dilkina, Sven Koenig(参考訳) conflict-based search (cbs) はマルチエージェントパス探索のための最先端アルゴリズムである。 ハイレベルでは、CBSはコンフリクトを繰り返し検出し、現在の問題を2つのサブプロブレムに分割して解決する。 以前の作業では、対立を3つのクラスに分類し、常に上位優先度のクラスから対立を選択することで解決すべき対立を選択する。 本研究では,コンフリクト選択のためのオラクルを提案し,その結果,従来よりも探索木のサイズが小さくなった。 しかし、オラクルの計算は遅い。 そこで我々は,oracle の意思決定を観察し,oracle の判断を正確かつ迅速に模倣する線形ランキング関数で表される競合選択戦略を学習する,コンフリクト選択のための機械学習フレームワークを提案する。 ベンチマークマップ実験により,現状のCBSソルバに比べて,本手法は成功率,探索木サイズ,実行時間を大幅に向上することが示された。

Conflict-Based Search (CBS) is a state-of-the-art algorithm for multi-agent path finding. At the high level, CBS repeatedly detects conflicts and resolves one of them by splitting the current problem into two subproblems. Previous work chooses the conflict to resolve by categorizing the conflict into three classes and always picking a conflict from the highest-priority class. In this work, we propose an oracle for conflict selection that results in smaller search tree sizes than the one used in previous work. However, the computation of the oracle is slow. Thus, we propose a machine-learning framework for conflict selection that observes the decisions made by the oracle and learns a conflict-selection strategy represented by a linear ranking function that imitates the oracle's decisions accurately and quickly. Experiments on benchmark maps indicate that our method significantly improves the success rates, the search tree sizes and runtimes over the current state-of-the-art CBS solver.
翻訳日:2021-05-15 06:25:59 公開日:2020-12-10
# テキストと画像を用いたオンライン中古品の価格提案

Price Suggestion for Online Second-hand Items with Texts and Images ( http://arxiv.org/abs/2012.06008v1 )

ライセンス: Link先を確認
Liang Han, Zhaozheng Yin, Zhurong Xia, Mingqian Tang, Rong Jin(参考訳) 本稿では、アップロードされた画像とテキスト記述に基づいて、オンライン中古リストの知的価格提案システムを提案する。 価格予測の目標は、売り手がオンラインプラットフォームにアップロードされた画像とテキスト記述を使って、中古品の有効で合理的な価格を設定することにある。 具体的には、抽出した視覚的特徴とテキスト的特徴と、その抽出した商品購入プラットフォームから収集した統計的特徴とを合わせて、バイナリ分類モデルを用いて、アップロードされた中古品目の画像とテキストが妥当な価格提案に適しているかを判断し、回帰モデルを用いて、中古品目の価格提案を行うマルチモーダル価格提案システムを設計する。 異なる要求を満たすために、2つの異なる制約が分類モデルと回帰モデルの合同訓練に追加される。 さらに、リグレッションモデルを最適化して中古品の価格提案を提供するようにカスタマイズした損失関数をデザインし、売り手の利得を最大化できるだけでなく、オンライン取引を容易にする。 また,提案する価格提案システムを評価するための指標を導出する。 大規模実世界のデータセットに関する広範な実験は、提案されたマルチモーダル価格提案システムの有効性を示している。

This paper presents an intelligent price suggestion system for online second-hand listings based on their uploaded images and text descriptions. The goal of price prediction is to help sellers set effective and reasonable prices for their second-hand items with the images and text descriptions uploaded to the online platforms. Specifically, we design a multi-modal price suggestion system which takes as input the extracted visual and textual features along with some statistical item features collected from the second-hand item shopping platform to determine whether the image and text of an uploaded second-hand item are qualified for reasonable price suggestion with a binary classification model, and provide price suggestions for second-hand items with qualified images and text descriptions with a regression model. To satisfy different demands, two different constraints are added into the joint training of the classification model and the regression model. Moreover, a customized loss function is designed for optimizing the regression model to provide price suggestions for second-hand items, which can not only maximize the gain of the sellers but also facilitate the online transaction. We also derive a set of metrics to better evaluate the proposed price suggestion system. Extensive experiments on a large real-world dataset demonstrate the effectiveness of the proposed multi-modal price suggestion system.
翻訳日:2021-05-15 06:25:44 公開日:2020-12-10
# 判別埋め込みを用いた大域的相関ネットワークを用いた医療画像のマイナショットセグメンテーション

Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding ( http://arxiv.org/abs/2012.05440v1 )

ライセンス: Link先を確認
Liyan Sun, Chenxin Li, Xinghao Ding, Yue Huang, Guisheng Wang and Yizhou Yu(参考訳) 深層畳み込みニューラルネットワークは、医用画像の計算と分析において顕著な進歩を遂げたにもかかわらず、教師付き学習のパラダイムは、過剰な適合を避け、有望な結果を達成するために、トレーニングのための大量のアノテーションを要求する。 臨床実践においては, 専門的な生物医学的知識を必要とする状況において, 大量の意味的アノテーションを得ることは困難であり, 注釈付きクラスがほとんど存在しない場合も一般的である。 本研究では,訓練画像の少ない未発見クラスにセグメンテーションモデルを高速に一般化する,医療画像セグメンテーションのための新しい手法を提案する。 我々は, 深層畳み込みネットワークを用いて, エピソディカルに訓練した画像分割器を構築した。 医用画像の空間的一貫性と規則性により,サポート画像とクエリ画像の相関を捕捉し,グローバル相関ネットワークと呼ばれるディープネットワークに組み込む,効率的なグローバル相関モジュールを開発した。 さらに,異なる臓器の機能ドメインを遠くに保ちながら,同一クラスの特徴ドメインのクラスタリングを促進するために,深層埋め込みの識別性を高める。 アブレーション研究は,大域相関モジュールと判別埋め込み損失の有効性を実証した。 解剖学的腹部像のCT像とMRI像の併用実験を行い,本モデルの有効性を実証した。

Despite deep convolutional neural networks achieved impressive progress in medical image computing and analysis, its paradigm of supervised learning demands a large number of annotations for training to avoid overfitting and achieving promising results. In clinical practices, massive semantic annotations are difficult to acquire in some conditions where specialized biomedical expert knowledge is required, and it is also a common condition where only few annotated classes are available. In this work, we proposed a novel method for few-shot medical image segmentation, which enables a segmentation model to fast generalize to an unseen class with few training images. We construct our few-shot image segmentor using a deep convolutional network trained episodically. Motivated by the spatial consistency and regularity in medical images, we developed an efficient global correlation module to capture the correlation between a support and query image and incorporate it into the deep network called global correlation network. Moreover, we enhance discriminability of deep embedding to encourage clustering of the feature domains of the same class while keep the feature domains of different organs far apart. Ablation Study proved the effectiveness of the proposed global correlation module and discriminative embedding loss. Extensive experiments on anatomical abdomen images on both CT and MRI modalities are performed to demonstrate the state-of-the-art performance of our proposed model.
翻訳日:2021-05-15 06:25:21 公開日:2020-12-10
# 視覚関係予測のためのテンソル構成ネット

Tensor Composition Net for Visual Relationship Prediction ( http://arxiv.org/abs/2012.05473v1 )

ライセンス: Link先を確認
Yuting Qiang, Yongxin Yang, Yanwen Guo and Timothy M. Hospedales(参考訳) 画像中の視覚的関係を予測するための新しいテンソル合成ネットワーク(TCN)を提案する。 subject-predicate-object形式の視覚的関係は、単純な画像タグよりも強力なクエリモダリティを提供する。 しかし、視覚関係予測(vrp)は従来の画像タグ付けよりも画像理解のより難しいテストを提供しており、大きなラベル空間と不完全なアノテーションのため学習が困難である。 TCNのキーとなる考え方は、視覚的関係テンソルの低階特性を利用して、オブジェクトとリレーション間の相関を利用して、画像内のすべてのオブジェクトとその関係を構造化した予測を行うことである。 提案手法の有効性を示すために,まずVRP上の複数ラベルの分類方法と比較し,そのモデルが最先端のMLIC法より優れていることを示す。 次に、テンソル(de)コンポジション層のおかげで、トレーニングデータセットで見たことのない視覚的な関係を予測できることを示します。 最後に,TNの画像レベルの視覚的関係予測が,関係に基づく画像検索のシンプルかつ効率的なメカニズムを提供することを示す。

We present a novel Tensor Composition Network (TCN) to predict visual relationships in images. Visual Relationships in subject-predicate-object form provide a more powerful query modality than simple image tags. However Visual Relationship Prediction (VRP) also provides a more challenging test of image understanding than conventional image tagging, and is difficult to learn due to a large label-space and incomplete annotation. The key idea of our TCN is to exploit the low rank property of the visual relationship tensor, so as to leverage correlations within and across objects and relationships, and make a structured prediction of all objects and their relations in an image. To show the effectiveness of our method, we first empirically compare our model with multi-label classification alternatives on VRP, and show that our model outperforms state-of-the-art MLIC methods. We then show that, thanks to our tensor (de)composition layer, our model can predict visual relationships which have not been seen in training dataset. We finally show our TCN's image-level visual relationship prediction provides a simple and efficient mechanism for relation-based image retrieval.
翻訳日:2021-05-15 06:24:58 公開日:2020-12-10
# Auto-MVCNN:マルチビュー3次元形状認識のためのニューラルネットワーク検索

Auto-MVCNN: Neural Architecture Search for Multi-view 3D Shape Recognition ( http://arxiv.org/abs/2012.05493v1 )

ライセンス: Link先を確認
Zhaoqun Li, Hongren Wang, Jinxing Li(参考訳) 3次元形状認識において、多視点法は人間の視点を利用して3次元形状を解析し、大きな成果を上げている。 ディープラーニングにおける既存の研究の多くは、機能抽出能力の高さから、手作りネットワークをバックボーンとして採用している。 しかし、これらのネットワークアーキテクチャが3D解析に適しているかどうかは不明だ。 本稿では,マルチビュー3次元形状認識におけるアーキテクチャの最適化を目的とした,Auto-MVCNNというニューラルアーキテクチャ探索手法を提案する。 Auto-MVCNNは、統合セルを自動的に検索してビュー特徴間の固有の相関を探索することで、勾配ベースのフレームワークを拡張してマルチビュー画像を処理する。 さらに,トレードオフパラメータ探索による検索性能向上のためのエンドツーエンド手法を開発した。 広範な実験結果から,検索したアーキテクチャは,手作業で設計したアーキテクチャよりも様々な面で著しく優れており,同時に最先端の性能を実現する。

In 3D shape recognition, multi-view based methods leverage human's perspective to analyze 3D shapes and have achieved significant outcomes. Most existing research works in deep learning adopt handcrafted networks as backbones due to their high capacity of feature extraction, and also benefit from ImageNet pretraining. However, whether these network architectures are suitable for 3D analysis or not remains unclear. In this paper, we propose a neural architecture search method named Auto-MVCNN which is particularly designed for optimizing architecture in multi-view 3D shape recognition. Auto-MVCNN extends gradient-based frameworks to process multi-view images, by automatically searching the fusion cell to explore intrinsic correlation among view features. Moreover, we develop an end-to-end scheme to enhance retrieval performance through the trade-off parameter search. Extensive experimental results show that the searched architectures significantly outperform manually designed counterparts in various aspects, and our method achieves state-of-the-art performance at the same time.
翻訳日:2021-05-15 06:24:41 公開日:2020-12-10
# 3次元シーンにおける長期人間の動作と相互作用の合成

Synthesizing Long-Term 3D Human Motion and Interaction in 3D Scenes ( http://arxiv.org/abs/2012.05522v1 )

ライセンス: Link先を確認
Jiashun Wang and Huazhe Xu and Jingwei Xu and Sifei Liu and Xiaolong Wang(参考訳) 人間の3D動作の合成は多くのグラフィックアプリケーションにおいて重要な役割を担い、人間の活動を理解する。 現実的で自然な人間の動きを生み出すために多くの努力がなされてきたが、ほとんどのアプローチは人間とシーンの相互作用と余裕をモデル化することの重要性を無視している。 一方、手頃な推論(例えば、床に立ったり、椅子に座ったり)は、主に静的な人間のポーズやジェスチャーで研究されており、人間の動きで対処されることはめったにない。 本稿では,人間の動作合成とシーン余裕推論の橋渡しを提案する。 本研究では,3次元シーン構造上での長期動作条件を合成する階層的生成フレームワークを提案する。 このフレームワークを基盤として,現実的な合成を改善するために,人間のメッシュとシーンポイントクラウド間の幾何的制約をさらに強化する。 実験では,自然および物理的に再現可能な人間の動きをシーン内で生成する従来の手法よりも大幅に改善した。

Synthesizing 3D human motion plays an important role in many graphics applications as well as understanding human activity. While many efforts have been made on generating realistic and natural human motion, most approaches neglect the importance of modeling human-scene interactions and affordance. On the other hand, affordance reasoning (e.g., standing on the floor or sitting on the chair) has mainly been studied with static human pose and gestures, and it has rarely been addressed with human motion. In this paper, we propose to bridge human motion synthesis and scene affordance reasoning. We present a hierarchical generative framework to synthesize long-term 3D human motion conditioning on the 3D scene structure. Building on this framework, we further enforce multiple geometry constraints between the human mesh and scene point clouds via optimization to improve realistic synthesis. Our experiments show significant improvements over previous approaches on generating natural and physically plausible human motion in a scene.
翻訳日:2021-05-15 06:24:23 公開日:2020-12-10
# ステレオマッチングのための直接深度学習ネットワーク

Direct Depth Learning Network for Stereo Matching ( http://arxiv.org/abs/2012.05570v1 )

ライセンス: Link先を確認
Hong Zhang and Haojie Li and Shenglun Chen and Tiantian Yan and Zhihui Wang and Guo Lu and Wanli Ouyang(参考訳) ステレオマッチングは、自動運転の重要なタスクであり、近年は大きな進歩を遂げている。 既存のステレオマッチング法は、深さの代わりに差を推定する。 三角法則に従って深度から深度を算出できるため, 深度推定誤差の評価基準として不一致誤差を扱い, 深度推定誤差を評価する。 しかし, 深さの誤差は, 差の誤差だけでなく, 点の深さ範囲にも依存することがわかった。 したがって、たとえ差分誤差が低いとしても、特に遠点の場合、深さ誤差は大きい。 本稿では,ステレオマッチングのための新しい直接深層学習ネットワーク(ddl-net)を提案する。 DDL-Netは、粗度推定段階と適応勾配深度補正段階の2段階で構成されており、これらは全て不均一性ではなく深さによって監督されている。 特に、粗深さ推定段階は、対応する候補を深さ範囲に応じて均一にサンプリングし、コストボリュームを構築し、粗深さを出力する。 適応細粒度微細化ステージは粗深さ付近でさらなるマッチングを行い、不正確な一致と誤一致を補正する。 粗い深さに頑健で、各点の深さ範囲に適応させるために、アダプティブグラインドデプスリファインメントステージにグラニュラリティ不確実性を導入する。 粒度不確かさはマッチング範囲を調整し、粗い予測信頼度と深さ範囲に応じて候補の特徴を選択する。 SceneFlowデータセットとDrivingStereoデータセットにおけるDDL-Netの性能を、異なる深さのメトリクスで検証する。 その結果、DDL-NetはSceneFlowデータセットで25%、DrivingStereoデータセットで12.%の平均的な改善を実現していることがわかった。 さらに重要なことは,大距離で最先端の精度を実現することだ。

Being a crucial task of autonomous driving, Stereo matching has made great progress in recent years. Existing stereo matching methods estimate disparity instead of depth. They treat the disparity errors as the evaluation metric of the depth estimation errors, since the depth can be calculated from the disparity according to the triangulation principle. However, we find that the error of the depth depends not only on the error of the disparity but also on the depth range of the points. Therefore, even if the disparity error is low, the depth error is still large, especially for the distant points. In this paper, a novel Direct Depth Learning Network (DDL-Net) is designed for stereo matching. DDL-Net consists of two stages: the Coarse Depth Estimation stage and the Adaptive-Grained Depth Refinement stage, which are all supervised by depth instead of disparity. Specifically, Coarse Depth Estimation stage uniformly samples the matching candidates according to depth range to construct cost volume and output coarse depth. Adaptive-Grained Depth Refinement stage performs further matching near the coarse depth to correct the imprecise matching and wrong matching. To make the Adaptive-Grained Depth Refinement stage robust to the coarse depth and adaptive to the depth range of the points, the Granularity Uncertainty is introduced to Adaptive-Grained Depth Refinement stage. Granularity Uncertainty adjusts the matching range and selects the candidates' features according to coarse prediction confidence and depth range. We verify the performance of DDL-Net on SceneFlow dataset and DrivingStereo dataset by different depth metrics. Results show that DDL-Net achieves an average improvement of 25% on the SceneFlow dataset and $12\%$ on the DrivingStereo dataset comparing the classical methods. More importantly, we achieve state-of-the-art accuracy at a large distance.
翻訳日:2021-05-15 06:23:48 公開日:2020-12-10
# 差分推定のための低分解能完全マッチング

Full Matching on Low Resolution for Disparity Estimation ( http://arxiv.org/abs/2012.05586v1 )

ライセンス: Link先を確認
Hong Zhang and Shenglun Chen and Zhihui Wang and Haojie Li and Wanli Ouyang(参考訳) 本研究では,マルチステージ完全一致不一致推定法(MFM)を提案する。 低解像度の4Dボリュームを最適化することに集中して、低解像度の3Dコストボリュームを推定する代わりに、低解像度の4Dボリュームステップから直接、すべての類似度スコアを段階的に切り離すことを実証する。 そこで我々はまず,全整合タスクをコスト集約モジュールの複数の段階に分解することを提案する。 具体的には、高分解能予測結果を複数のグループに分解し、新しく設計されたコストアグリゲーションモジュールの各ステージは、ポイントのグループの結果を見積もるためにのみ学習する。 これにより、1段階からの低解像度4Dボリューム出力から、全ての候補の類似度スコアを学習する際に、機能内部の競合が軽減される。 そこで本研究では,複数段階の関係を利用して各段階の類似度スコアを推定し,複数段階の連続多段階フレームワークによる不均衡予測を解消する,多段階間相互援助戦略を提案する。 実験により,提案手法はより精度の高い不均一性推定を行い,Scene Flow,KITTI 2012,KITTI 2015データセットの最先端手法より優れていた。

A Multistage Full Matching disparity estimation scheme (MFM) is proposed in this work. We demonstrate that decouple all similarity scores directly from the low-resolution 4D volume step by step instead of estimating low-resolution 3D cost volume through focusing on optimizing the low-resolution 4D volume iteratively leads to more accurate disparity. To this end, we first propose to decompose the full matching task into multiple stages of the cost aggregation module. Specifically, we decompose the high-resolution predicted results into multiple groups, and every stage of the newly designed cost aggregation module learns only to estimate the results for a group of points. This alleviates the problem of feature internal competitive when learning similarity scores of all candidates from one low-resolution 4D volume output from one stage. Then, we propose the strategy of \emph{Stages Mutual Aid}, which takes advantage of the relationship of multiple stages to boost similarity scores estimation of each stage, to solve the unbalanced prediction of multiple stages caused by serial multistage framework. Experiment results demonstrate that the proposed method achieves more accurate disparity estimation results and outperforms state-of-the-art methods on Scene Flow, KITTI 2012 and KITTI 2015 datasets.
翻訳日:2021-05-15 06:23:20 公開日:2020-12-10
# 低光度画像強調のための協調事前探索によるretinexインスパイアアンロール

Retinex-inspired Unrolling with Cooperative Prior Architecture Search for Low-light Image Enhancement ( http://arxiv.org/abs/2012.05609v1 )

ライセンス: Link先を確認
Risheng Liu and Long Ma and Jiaao Zhang and Xin Fan and Zhongxuan Luo(参考訳) 低照度画像強調は低レベルの視野において非常に重要な役割を果たす。 最近の研究は、この課題に対処する様々なディープラーニングモデルを構築している。 しかし、これらのアプローチは主に重要なアーキテクチャ工学に依存しており、高い計算負荷を抱えている。 本稿では,Retinex-inspired Unrolling with Architecture Search (RUAS) という新しい手法を提案する。 具体的には、retinexルールに基づいて、ruasはまず、低光度画像の固有の未公開構造を特徴付けるモデルを確立し、それらの最適化プロセスを展開して、我々の全体的伝播構造を構築する。 そして、コンパクトな検索空間から低照度先行アーキテクチャを発見するための協調参照フリー学習戦略を設計することにより、russは高速で計算資源の少ないトップパフォーマンス画像拡張ネットワークを得ることができる。 最近提案された最先端手法に対するRUASフレームワークの優位性を検証する。

Low-light image enhancement plays very important roles in low-level vision field. Recent works have built a large variety of deep learning models to address this task. However, these approaches mostly rely on significant architecture engineering and suffer from high computational burden. In this paper, we propose a new method, named Retinex-inspired Unrolling with Architecture Search (RUAS), to construct lightweight yet effective enhancement network for low-light images in real-world scenario. Specifically, building upon Retinex rule, RUAS first establishes models to characterize the intrinsic underexposed structure of low-light images and unroll their optimization processes to construct our holistic propagation structure. Then by designing a cooperative reference-free learning strategy to discover low-light prior architectures from a compact search space, RUAS is able to obtain a top-performing image enhancement network, which is with fast speed and requires few computational resources. Extensive experiments verify the superiority of our RUAS framework against recently proposed state-of-the-art methods.
翻訳日:2021-05-15 06:22:23 公開日:2020-12-10
# パーセプタリー・グラウンドド・スタイル・トランスファー・ラーニングによる古代花瓶絵画におけるポーズ推定の強化

Enhancing Human Pose Estimation in Ancient Vase Paintings via Perceptually-grounded Style Transfer Learning ( http://arxiv.org/abs/2012.05616v1 )

ライセンス: Link先を確認
Prathmesh Madhu, Angel Villar-Corrales, Ronak Kosti, Torsten Bendschus, Corinna Reinhardt, Peter Bell, Andreas Maier, Vincent Christlein(参考訳) 人間のポーズ推定(HPE)は、ギリシアの花瓶絵などの絵画コレクションに描かれている人物の視覚的ナレーションと身体の動きを理解する中心的な部分である。 残念ながら、既存のHPE法はドメインをまたいでうまく一般化しないため、認識されていないポーズが生じる。 そこで本研究では,(1) 既知の人物の自然像のデータセットを適応させ, 画像スタイル変換によるギリシアの花瓶絵画の様式にアノテーションを付加する2つのアプローチを提案する。 知覚的一貫性を強制するために,知覚的接地型トランスファートレーニングを導入する。 そして、この新しく作成されたデータセットでベースモデルを微調整します。 スタイル変換学習を用いることで,平均精度(mAP)が6%以上,平均リコール(mAR)が6%以上向上することがわかった。 2) より強固な結果を改善するため,紀元前6~5世紀の古代ギリシアの花瓶絵と注釈を添えた小さなデータセット(ClassArch)を作成した。 このデータに対するスタイル変換モデルによる微調整により、パフォーマンスがさらに向上することを示す。 徹底的なアブレーション研究では,スタイル強度の影響を対象とした解析を行い,モデルが汎用的なドメインスタイルを学習していることを明らかにする。 さらに,提案手法の有効性を示すために,ポーズに基づく画像検索を行う。

Human pose estimation (HPE) is a central part of understanding the visual narration and body movements of characters depicted in artwork collections, such as Greek vase paintings. Unfortunately, existing HPE methods do not generalise well across domains resulting in poorly recognized poses. Therefore, we propose a two step approach: (1) adapting a dataset of natural images of known person and pose annotations to the style of Greek vase paintings by means of image style-transfer. We introduce a perceptually-grounded style transfer training to enforce perceptual consistency. Then, we fine-tune the base model with this newly created dataset. We show that using style-transfer learning significantly improves the SOTA performance on unlabelled data by more than 6% mean average precision (mAP) as well as mean average recall (mAR). (2) To improve the already strong results further, we created a small dataset (ClassArch) consisting of ancient Greek vase paintings from the 6-5th century BCE with person and pose annotations. We show that fine-tuning on this data with a style-transferred model improves the performance further. In a thorough ablation study, we give a targeted analysis of the influence of style intensities, revealing that the model learns generic domain styles. Additionally, we provide a pose-based image retrieval to demonstrate the effectiveness of our method.
翻訳日:2021-05-15 06:22:08 公開日:2020-12-10
# 3次元点雲上の幾何学的逆襲と防御

Geometric Adversarial Attacks and Defenses on 3D Point Clouds ( http://arxiv.org/abs/2012.05657v1 )

ライセンス: Link先を確認
Itai Lang, Uriel Kotlicki, Shai Avidan(参考訳) ディープニューラルネットワークは、ネットワークの結果を悪質に変化させる敵の例が多い。 安全クリティカルシステムにおける3Dセンサの普及と3Dポイントセットのためのディープラーニングモデルの大規模展開により、このようなモデルに対する敵の攻撃や防御への関心が高まっている。 これまでのところ、研究はセマンティックレベル、すなわちdeep point cloudの分類に重点を置いてきた。 しかし、点雲は幾何学的関係の形で広く使われており、幾何のエンコーディングと再構成を含む。 本研究は,幾何学的レベルでの逆例を考察する。 つまり、クリーンなソースポイントクラウドへの小さな変更は、autoencoderモデルを通過した後、異なるターゲットクラスからの形状へと導かれる。 防御側では,敵の入力に防御を施した後も,攻撃対象形状の残余が再建された出力に残っていることを示す。 私たちのコードはhttps://github.com/itailang/geometric_advで公開されています。

Deep neural networks are prone to adversarial examples that maliciously alter the network's outcome. Due to the increasing popularity of 3D sensors in safety-critical systems and the vast deployment of deep learning models for 3D point sets, there is a growing interest in adversarial attacks and defenses for such models. So far, the research has focused on the semantic level, namely, deep point cloud classifiers. However, point clouds are also widely used in a geometric-related form that includes encoding and reconstructing the geometry. In this work, we explore adversarial examples at a geometric level. That is, a small change to a clean source point cloud leads, after passing through an autoencoder model, to a shape from a different target class. On the defense side, we show that remnants of the attack's target shape are still present at the reconstructed output after applying the defense to the adversarial input. Our code is publicly available at https://github.com/itailang/geometric_adv.
翻訳日:2021-05-15 06:21:45 公開日:2020-12-10
# 合成活動認識のための多レベル特徴の相互融合

Interactive Fusion of Multi-level Features for Compositional Activity Recognition ( http://arxiv.org/abs/2012.05689v1 )

ライセンス: Link先を確認
Rui Yan, Lingxi Xie, Xiangbo Shu, and Jinhui Tang(参考訳) 複雑な動作を理解するには、外観、位置、意味的特徴を含む複数の情報ソースを統合する必要がある。 しかし、これらの特徴はしばしばモダリティや次元において大きく異なるため、融合することは困難である。 本稿では,異なる空間にまたがる特徴を投影し,補助的な予測タスクを用いて誘導することで,この目標を達成する新しいフレームワークを提案する。 具体的には,特徴抽出,意味的特徴相互作用,意味的特徴予測という3つのステップでフレームワークを実装した。 我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。 interactive fusionは、市販のアクション認識アルゴリズム以上の一貫性のある精度を実現している。 特に something-else では、何か何かの合成設定では、interactive fusion は top-1 の精度で2.9%の大幅な向上を報告している。

To understand a complex action, multiple sources of information, including appearance, positional, and semantic features, need to be integrated. However, these features are difficult to be fused since they often differ significantly in modality and dimensionality. In this paper, we present a novel framework that accomplishes this goal by interactive fusion, namely, projecting features across different spaces and guiding it using an auxiliary prediction task. Specifically, we implement the framework in three steps, namely, positional-to-appearance feature extraction, semantic feature interaction, and semantic-to-positional prediction. We evaluate our approach on two action recognition datasets, Something-Something and Charades. Interactive fusion achieves consistent accuracy gain beyond off-the-shelf action recognition algorithms. In particular, on Something-Else, the compositional setting of Something-Something, interactive fusion reports a remarkable gain of 2.9% in terms of top-1 accuracy.
翻訳日:2021-05-15 06:21:32 公開日:2020-12-10
# OneNet: エンドツーエンドのワンステージオブジェクト検出を目指す

OneNet: Towards End-to-End One-Stage Object Detection ( http://arxiv.org/abs/2012.05780v1 )

ライセンス: Link先を確認
Peize Sun, Yi Jiang, Enze Xie, Zehuan Yuan, Changhu Wang, Ping Luo(参考訳) 終端から終端までの1段階の物体検出は、これまで続いた。 本稿では,ラベル割り当てにおける試料と地表面の分類コストの欠如が,非最大抑制(nms)を除去しエンドツーエンドに到達するための1段階検出器の主な障害であることを示す。 既存の1段階のオブジェクト検出器は、ラベルをロケーションコストのみに割り当てる。 ボックスIoUまたはポイント距離。 分類コストがなければ、唯一の位置コストは推論における高い信頼度スコアの冗長なボックスにつながるため、NMSは後処理を必要とする。 エンド・ツー・エンドのワンステージ物体検出器を設計するために,最小コスト割り当てを提案する。 コストは、サンプルと地表面の間の分類コストと位置コストの合計である。 各対象の接地真実に対して、最小コストの1つのサンプルのみが正のサンプルとして割り当てられ、他のサンプルはすべて負のサンプルである。 提案手法の有効性を評価するため,OneNetという超単純なワンステージ検出器を設計した。 以上の結果から,OneNetは最小コスト割当でトレーニングした場合,複製箱の生成を回避し,エンド・ツー・エンドの検出器を実現することができた。 COCOデータセットでは、OneNetは画像サイズ512ピクセルの35.0 AP/80 FPSと37.7 AP/50 FPSを達成した。 OneNetがエンドツーエンドのワンステージオブジェクト検出の効果的なベースラインになることを期待しています。 コードは以下の通り。 \url{https://github.com/PeizeSun/OneNet}。

End-to-end one-stage object detection trailed thus far. This paper discovers that the lack of classification cost between sample and ground-truth in label assignment is the main obstacle for one-stage detectors to remove Non-maximum Suppression(NMS) and reach end-to-end. Existing one-stage object detectors assign labels by only location cost, e.g. box IoU or point distance. Without classification cost, sole location cost leads to redundant boxes of high confidence scores in inference, making NMS necessary post-processing. To design an end-to-end one-stage object detector, we propose Minimum Cost Assignment. The cost is the summation of classification cost and location cost between sample and ground-truth. For each object ground-truth, only one sample of minimum cost is assigned as the positive sample; others are all negative samples. To evaluate the effectiveness of our method, we design an extremely simple one-stage detector named OneNet. Our results show that when trained with Minimum Cost Assignment, OneNet avoids producing duplicated boxes and achieves to end-to-end detector. On COCO dataset, OneNet achieves 35.0 AP/80 FPS and 37.7 AP/50 FPS with image size of 512 pixels. We hope OneNet could serve as an effective baseline for end-to-end one-stage object detection. The code is available at: \url{https://github.com/PeizeSun/OneNet}.
翻訳日:2021-05-15 06:21:17 公開日:2020-12-10
# SPAA: ディープイメージ分類器に対するステルスプロジェクターによる敵攻撃

SPAA: Stealthy Projector-based Adversarial Attacks on Deep Image Classifiers ( http://arxiv.org/abs/2012.05858v1 )

ライセンス: Link先を確認
Bingyao Huang, Haibin Ling(参考訳) 光ベースの敵対攻撃は、プロジェクタなどの制御可能な光源を用いて物理的光条件を変更することによって、ディープラーニングベースの画像分類器を騙すことを目的としている。 慎重にデザインされたステッカーや印刷された逆さまのオブジェクトを配置する物理的な攻撃と比較すると、プロジェクターベースの攻撃は物理的なエンティティを変更することを妨げる。 さらに、プロジェクションパターンを変更することにより、プロジェクターベースの攻撃を過渡的かつ動的に行うことができる。 しかし、既存のアプローチでは、カメラが捉えた混乱をはっきりと認識できるような敵のパターンを投影することに重点を置いている。 本稿では,この問題をエンド・ツー・エンドの微分可能なプロセスとして初めて定式化し,ステルスプロジェクタに基づく逆アタック(SPAA)を提案する。 SPAAでは、PCNetと呼ばれるディープニューラルネットワークを用いて実際のプロジェクト・アンド・キャプチャ操作を近似し、生成した対角投影が物理的に妥当であるようなプロジェクタベースの攻撃の最適化にPCNetを含める。 最後に,頑健かつステルス性のある対向射影を生成するために,最小摂動と対向信頼しきい値を用いて対向損失とステルス損失の最適化を交互に行う最適化アルゴリズムを提案する。 実験の結果,SPAAは攻撃成功率の向上とステルス性の向上により,他の手法よりも優れていることがわかった。

Light-based adversarial attacks aim to fool deep learning-based image classifiers by altering the physical light condition using a controllable light source, e.g., a projector. Compared with physical attacks that place carefully designed stickers or printed adversarial objects, projector-based ones obviate modifying the physical entities. Moreover, projector-based attacks can be performed transiently and dynamically by altering the projection pattern. However, existing approaches focus on projecting adversarial patterns that result in clearly perceptible camera-captured perturbations, while the more interesting yet challenging goal, stealthy projector-based attack, remains an open problem. In this paper, for the first time, we formulate this problem as an end-to-end differentiable process and propose Stealthy Projector-based Adversarial Attack (SPAA). In SPAA, we approximate the real project-and-capture operation using a deep neural network named PCNet, then we include PCNet in the optimization of projector-based attacks such that the generated adversarial projection is physically plausible. Finally, to generate robust and stealthy adversarial projections, we propose an optimization algorithm that uses minimum perturbation and adversarial confidence thresholds to alternate between the adversarial loss and stealthiness loss optimization. Our experimental evaluations show that the proposed SPAA clearly outperforms other methods by achieving higher attack success rates and meanwhile being stealthier.
翻訳日:2021-05-15 06:20:29 公開日:2020-12-10
# 自動符号化による画像グラフ画像翻訳

Image-Graph-Image Translation via Auto-Encoding ( http://arxiv.org/abs/2012.05975v1 )

ライセンス: Link先を確認
Chenyang Lu and Gijs Dubbelman(参考訳) この研究は、外部の監視を必要とせず、画像から画像への変換タスクを学習する最初の畳み込みニューラルネットワークを示す。 オブジェクトをノードとして表現し、それらの関係をエッジとして表現する画像コンテンツのグラフ表現を得ることは、シーン理解において重要なタスクである。 現在のアプローチは、十分に管理されたアプローチに従っており、綿密なアノテーションを必要とする。 これを解決するために、我々は、ボトルネックがグラフのノードとエッジをエンコードする完全微分可能なオートエンコーダに基づく自己教師型アプローチを初めて提示する。 この自己教師付きアプローチは、現在単純な線引きをグラフにエンコードでき、トリプレットマッチングのf1スコアで完全に教師付きベースラインと同等の結果を得ることができる。 これらの有望な結果に加えて、より複雑な画像をカバーするために我々のアプローチをどのように拡張できるかについて、今後の研究の方向性を示す。

This work presents the first convolutional neural network that learns an image-to-graph translation task without needing external supervision. Obtaining graph representations of image content, where objects are represented as nodes and their relationships as edges, is an important task in scene understanding. Current approaches follow a fully-supervised approach thereby requiring meticulous annotations. To overcome this, we are the first to present a self-supervised approach based on a fully-differentiable auto-encoder in which the bottleneck encodes the graph's nodes and edges. This self-supervised approach can currently encode simple line drawings into graphs and obtains comparable results to a fully-supervised baseline in terms of F1 score on triplet matching. Besides these promising results, we provide several directions for future research on how our approach can be extended to cover more complex imagery.
翻訳日:2021-05-15 06:20:01 公開日:2020-12-10
# 検出駆動型水中画像強調のための生成的アプローチ

A Generative Approach for Detection-driven Underwater Image Enhancement ( http://arxiv.org/abs/2012.05990v1 )

ライセンス: Link先を確認
Chelsey Edge, Md Jahidul Islam, Christopher Morse, Junaed Sattar(参考訳) 本稿では,水中領域におけるダイバー検出を改善するために,画像強調のための生成モデルを提案する。 特に,GAN(Generative Adversarial Network)に基づく画像強調とダイバー検出タスクを統合したモデルを提案する。 提案手法は,GAN目標関数を再構成し,事前学習したダイバー検出器からの情報を含むことにより,視覚条件が悪ければ検出者の精度を向上する画像を生成する。 検出器出力をジェネレータと識別器ネットワークの両方に組み込むことで、美的品質以上の画像の改善、特にスキューバダイバーのロボットによる検出の改善に焦点を絞ることができる。 我々は、最先端のダイバー検出器を用いて、スキューバダイバーの大規模なデータセット上でネットワークをトレーニングし、人間のロボットチームの海洋探査から収集した画像にその有用性を実証する。 実験により,本手法は生画像のダイバー検出性能を大幅に向上させるとともに,最先端水中画像強調アルゴリズムの出力における検出性能も向上することが示された。 最後に,組込みデバイス上でのネットワークの推論性能を実証し,モバイルロボットプラットフォーム上での動作可能性を強調した。

In this paper, we introduce a generative model for image enhancement specifically for improving diver detection in the underwater domain. In particular, we present a model that integrates generative adversarial network (GAN)-based image enhancement with the diver detection task. Our proposed approach restructures the GAN objective function to include information from a pre-trained diver detector with the goal to generate images which would enhance the accuracy of the detector in adverse visual conditions. By incorporating the detector output into both the generator and discriminator networks, our model is able to focus on enhancing images beyond aesthetic qualities and specifically to improve robotic detection of scuba divers. We train our network on a large dataset of scuba divers, using a state-of-the-art diver detector, and demonstrate its utility on images collected from oceanic explorations of human-robot teams. Experimental evaluations demonstrate that our approach significantly improves diver detection performance over raw, unenhanced images, and even outperforms detection performance on the output of state-of-the-art underwater image enhancement algorithms. Finally, we demonstrate the inference performance of our network on embedded devices to highlight the feasibility of operating on board mobile robotic platforms.
翻訳日:2021-05-15 06:19:46 公開日:2020-12-10
# 不確実性を考慮した深部校正サルエント物体検出

Uncertainty-Aware Deep Calibrated Salient Object Detection ( http://arxiv.org/abs/2012.06020v1 )

ライセンス: Link先を確認
Jing Zhang, Yuchao Dai, Xin Yu, Mehrtash Harandi, Nick Barnes, Richard Hartley(参考訳) 既存のディープニューラルネットワークに基づくサルエントオブジェクト検出(SOD)手法は主に高いネットワーク精度の追求に重点を置いている。 しかし,ネットワークの精度と予測信頼性のギャップを克服する手法は,信頼性の非校正問題として知られる。 したがって、最先端のSODネットワークは過信されがちである。 言い換えれば、予測されたネットワークの信頼性は、サルエントオブジェクト検出の正しさの実際の確率を反映していないため、実際の適用性が著しく阻害される。 本稿では,不確実性を考慮した深部SODネットワークを提案し,深部SODネットワークの過信を防止するための2つの戦略を提案する。 第1の戦略、すなわち境界分布平滑化(BDS)は、画素ワイドの不確実性に関して元のバイナリ基底を滑らかにすることで連続的なラベルを生成する。 第2の戦略、すなわち、不確実性認識温度スケーリング(UATS)は、空間変化温度スケーリングによるトレーニングとテストの両方で緩和されたシグモイド関数を利用して、軟化出力を生成する。 どちらの戦略も最小限の努力で既存のディープSODネットワークに組み込むことができる。 さらに, あるデータセット上でモデルがどのようにキャリブレーションされるかを測定するために, より密度の高いキャリブレーション尺度Cを提案する。 7つのベンチマークデータセットの大規模な実験結果から,SODモデルの校正だけでなく,ネットワークの精度も向上できることがわかった。

Existing deep neural network based salient object detection (SOD) methods mainly focus on pursuing high network accuracy. However, those methods overlook the gap between network accuracy and prediction confidence, known as the confidence uncalibration problem. Thus, state-of-the-art SOD networks are prone to be overconfident. In other words, the predicted confidence of the networks does not reflect the real probability of correctness of salient object detection, which significantly hinder their real-world applicability. In this paper, we introduce an uncertaintyaware deep SOD network, and propose two strategies from different perspectives to prevent deep SOD networks from being overconfident. The first strategy, namely Boundary Distribution Smoothing (BDS), generates continuous labels by smoothing the original binary ground-truth with respect to pixel-wise uncertainty. The second strategy, namely Uncertainty-Aware Temperature Scaling (UATS), exploits a relaxed Sigmoid function during both training and testing with spatially-variant temperature scaling to produce softened output. Both strategies can be incorporated into existing deep SOD networks with minimal efforts. Moreover, we propose a new saliency evaluation metric, namely dense calibration measure C, to measure how the model is calibrated on a given dataset. Extensive experimental results on seven benchmark datasets demonstrate that our solutions can not only better calibrate SOD models, but also improve the network accuracy.
翻訳日:2021-05-15 06:19:27 公開日:2020-12-10
# この顔は存在しない。 しかし、それはあなたのものだ。 生成モデルにおけるアイデンティティリーク

This Face Does Not Exist ... But It Might Be Yours! Identity Leakage in Generative Models ( http://arxiv.org/abs/2101.05084v1 )

ライセンス: Link先を確認
Patrick Tinsley, Adam Czajka, Patrick Flynn(参考訳) generative adversarial network (gans) は「存在しない」物体の高解像度フォトリアリスティック画像を生成することができる。 これらの合成画像は、偽物として検出することがかなり難しい。 しかし、これらの生成モデルを訓練する方法は、特に合成顔の文脈において、供給されたトレーニングデータから情報漏洩の可能性を示すヒントとなる。 本稿では,顔画像中の識別情報を学習コーパスから合成サンプルに流し,既存モデルの構築・使用時の敵対的動作を伴わないことを示す実験を行う。 これはプライバシーに関する疑問を提起する一方で、(a)特徴空間における顔多様体の特徴と(b)画像が訓練に使われた実際の被験者のアイデンティティ情報を不注意に明らかにしない生成モデルの作成方法についての議論を刺激する。 顔認識,FaceNet,ArcFace,SphereFace,Neurotechnology MegaMatcherの5つの異なる顔マッチングモデルとStyleGAN2合成モデルを用いて,このID漏洩が存在することを示す。 では、これらの合成された顔は本当に存在しないと言えるだろうか? 本論文では,実顔と合成顔のデータベースを作成し,本研究で論じられた結果の完全な再現性を実現する。

Generative adversarial networks (GANs) are able to generate high resolution photo-realistic images of objects that "do not exist." These synthetic images are rather difficult to detect as fake. However, the manner in which these generative models are trained hints at a potential for information leakage from the supplied training data, especially in the context of synthetic faces. This paper presents experiments suggesting that identity information in face images can flow from the training corpus into synthetic samples without any adversarial actions when building or using the existing model. This raises privacy-related questions, but also stimulates discussions of (a) the face manifold's characteristics in the feature space and (b) how to create generative models that do not inadvertently reveal identity information of real subjects whose images were used for training. We used five different face matchers (face_recognition, FaceNet, ArcFace, SphereFace and Neurotechnology MegaMatcher) and the StyleGAN2 synthesis model, and show that this identity leakage does exist for some, but not all methods. So, can we say that these synthetically generated faces truly do not exist? Databases of real and synthetically generated faces are made available with this paper to allow full replicability of the results discussed in this work.
翻訳日:2021-05-15 06:19:01 公開日:2020-12-10
# Bew: ビジネスエンティティ関連のWeb質問に答える

Bew: Towards Answering Business-Entity-Related Web Questions ( http://arxiv.org/abs/2012.05818v1 )

ライセンス: Link先を確認
Qingqing Cao, Oriana Riva, Aruna Balasubramanian, Niranjan Balasubramanian(参考訳) bewqaは、bew questionsと呼ばれる一連の質問に答えるために特別に設計されたシステムです。 レストラン、ホテル、映画館などのビジネスやサービスに関連する質問は、「何時まで幸せな時間か?」などである。 これらの質問は、答がオープンドメインのWebで見出され、周囲のコンテキストなしで短い文で表示され、Webページ情報が頻繁に更新されるため、答えが難しい。 これらの条件下では、既存のQAシステムは性能が良くない。 我々は,ビジネス関連のwebページのテンプレートをマイニングし,テンプレートを用いて検索のガイドを行う,bewqaと呼ばれる実用的なアプローチを提案する。 ドメイン内のビジネスエンティティに関する情報を集約するアグリゲータWebサイト(レストランなど)を利用してテンプレートを自動的に抽出する方法を示す。 私たちは、最も答えを含む可能性が高い抽出されたテンプレートからセクションを識別することで、ある質問に答えます。 そうすることで、回答が十分なコンテキストを持っていなくても、答えを抽出できます。 重要な点として、BewQAはトレーニングを一切必要としない。 レストランのドメインで1066 Bewの質問と真実の回答のデータセットをクラウドソースしています。 最先端のQAモデルと比較して、BewQAはF1スコアの27%改善している。 商用検索エンジンと比較すると、BewQAは正確に29%以上のBew質問に答えた。

We present BewQA, a system specifically designed to answer a class of questions that we call Bew questions. Bew questions are related to businesses/services such as restaurants, hotels, and movie theaters; for example, "Until what time is happy hour?". These questions are challenging to answer because the answers are found in open-domain Web, are present in short sentences without surrounding context, and are dynamic since the webpage information can be updated frequently. Under these conditions, existing QA systems perform poorly. We present a practical approach, called BewQA, that can answer Bew queries by mining a template of the business-related webpages and using the template to guide the search. We show how we can extract the template automatically by leveraging aggregator websites that aggregate information about business entities in a domain (e.g., restaurants). We answer a given question by identifying the section from the extracted template that is most likely to contain the answer. By doing so we can extract the answers even when the answer span does not have sufficient context. Importantly, BewQA does not require any training. We crowdsource a new dataset of 1066 Bew questions and ground-truth answers in the restaurant domain. Compared to state-of-the-art QA models, BewQA has a 27 percent point improvement in F1 score. Compared to a commercial search engine, BewQA answered correctly 29% more Bew questions.
翻訳日:2021-05-15 06:18:12 公開日:2020-12-10
# クラス条件仮定を超えて:インスタンス依存のラベルノイズと戦うための第一の試み

Beyond Class-Conditional Assumption: A Primary Attempt to Combat Instance-Dependent Label Noise ( http://arxiv.org/abs/2012.05458v1 )

ライセンス: Link先を確認
Pengfei Chen, Junjie Ye, Guangyong Chen, Jingwei Zhao, Pheng-Ann Heng(参考訳) ラベルノイズ下での教師付き学習は近年多くの進歩を遂げているが、既存の理論的知見と経験的結果は、そのノイズが真のラベルが与えられた入力特徴とは無関係であるというクラス条件ノイズ(CCN)の仮定に基づいて大きく裏付けられている。 本研究では,実世界のデータセットにおけるノイズがccnである可能性は低いという理論的仮説を検証し,ラベルノイズがインスタンスに依存することを確認し,ccnの仮定を超越する緊急必要性を正当化するものであることを証明し,より一般的かつ実用的なインスタンス依存ノイズ(idn)の研究を動機付ける。 我々は,IDNに関する理論と方法論の発達を促進するために,制御可能なIDNを生成するアルゴリズムを形式化し,IDNが意味論的かつ困難なものであることを示す理論的および実証的な証拠を提示する。 idnに対抗するための第一の試みとして、様々なノイズ分数を持つidnの下で際立っている、自己進化平均ラベル(seal)と呼ばれる小さなアルゴリズムを提案する。 私たちのコードはリリースされます。 特に、第2節における我々の理論的分析は、IDNを研究するための厳格な動機を与えています。

Supervised learning under label noise has seen numerous advances recently, while existing theoretical findings and empirical results broadly build up on the class-conditional noise (CCN) assumption that the noise is independent of input features given the true label. In this work, we present a theoretical hypothesis testing and prove that noise in real-world dataset is unlikely to be CCN, which confirms that label noise should depend on the instance and justifies the urgent need to go beyond the CCN assumption.The theoretical results motivate us to study the more general and practical-relevant instance-dependent noise (IDN). To stimulate the development of theory and methodology on IDN, we formalize an algorithm to generate controllable IDN and present both theoretical and empirical evidence to show that IDN is semantically meaningful and challenging. As a primary attempt to combat IDN, we present a tiny algorithm termed self-evolution average label (SEAL), which not only stands out under IDN with various noise fractions, but also improves the generalization on real-world noise benchmark Clothing1M. Our code is released. Notably, our theoretical analysis in Section 2 provides rigorous motivations for studying IDN, which is an important topic that deserves more research attention in future.
翻訳日:2021-05-15 06:17:51 公開日:2020-12-10
# 最適トレーニング重量と活性化量子化ネットワークの再現性

Recurrence of Optimum for Training Weight and Activation Quantized Networks ( http://arxiv.org/abs/2012.05529v1 )

ライセンス: Link先を確認
Ziang Long, Penghang Yin, Jack Xin(参考訳) リソース制約のあるプラットフォーム上での効率的な推論のために、ディープニューラルネットワーク(DNN)が量子化される。 しかし、低精度の重みとアクティベーションを持つディープラーニングモデルのトレーニングには、離散的なセット制約を受ける段階的損失関数を最小化する要求の最適化タスクが伴う。 多くのトレーニング手法が提案されているが、DNNの完全量子化のための既存の研究はほとんど経験的である。 理論的観点から,ネットワーク量子化の組合せ的性質を克服する実践的手法を考察する。 具体的には, 量子化された重みで評価される損失関数(いわゆる粗勾配)のヒューリスティックな \emph{fake}勾配の否定において, 浮き重みで1段階ずつ繰り返し移動させることにより, 2-線型層ネットワークを定量化する, 単純かつ強力な投影勾配様アルゴリズムについて検討した。 軽度条件下では、量子化重みの列が完全量子化ネットワークのトレーニングのための離散化最小化問題の大域的最適度を繰り返すことが初めて証明された。 また,訓練用量子化深層ネットワークにおける重み進化の繰り返し現象の数値的証拠を示す。

Deep neural networks (DNNs) are quantized for efficient inference on resource-constrained platforms. However, training deep learning models with low-precision weights and activations involves a demanding optimization task, which calls for minimizing a stage-wise loss function subject to a discrete set-constraint. While numerous training methods have been proposed, existing studies for full quantization of DNNs are mostly empirical. From a theoretical point of view, we study practical techniques for overcoming the combinatorial nature of network quantization. Specifically, we investigate a simple yet powerful projected gradient-like algorithm for quantizing two-linear-layer networks, which proceeds by repeatedly moving one step at float weights in the negation of a heuristic \emph{fake} gradient of the loss function (so-called coarse gradient) evaluated at quantized weights. For the first time, we prove that under mild conditions, the sequence of quantized weights recurrently visits the global optimum of the discrete minimization problem for training fully quantized network. We also show numerical evidence of the recurrence phenomenon of weight evolution in training quantized deep networks.
翻訳日:2021-05-15 06:17:27 公開日:2020-12-10
# 学習できないことを学ぶ: 帰納的分布検出のための正規化アンサンブル

Learn what you can't learn: Regularized Ensembles for Transductive Out-of-distribution Detection ( http://arxiv.org/abs/2012.05825v1 )

ライセンス: Link先を確認
Alexandru \c{T}ifrea, Eric Stavarache, Fanny Yang(参考訳) マシンラーニングモデルは、id(in-distribution)ホールドアウトデータで優れた一般化結果を達成した場合によく使用される。 野生で働いている場合は、予測できないサンプルも検出できるはずだ。 ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。 OODデータが目に見えないクラスまたは破損した測定値で構成されている場合。 本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。 このトランスダクティブ・セッティングは、わずかに遅延したOOD検出の利点が追加チューニングの金銭的コストを上回る場合に有効である。 本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。 我々は,CIFAR-10/CIFAR-100の未確認クラス,CIFAR-C,強共変量シフト(ImageNet vs ObjectNet)など,難解なOOD検出シナリオにおいて,インダクティブベースラインとトランスダクティブベースラインの両方を大幅に上回っていることを示す。

Machine learning models are often used in practice if they achieve good generalization results on in-distribution (ID) holdout data. When employed in the wild, they should also be able to detect samples they cannot predict well. We show that current out-of-distribution (OOD) detection algorithms for neural networks produce unsatisfactory results in a variety of OOD detection scenarios, e.g. when OOD data consists of unseen classes or corrupted measurements. This paper studies how such "hard" OOD scenarios can benefit from adjusting the detection method after observing a batch of the test data. This transductive setting is relevant when the advantage of even a slightly delayed OOD detection outweighs the financial cost for additional tuning. We propose a novel method that uses an artificial labeling scheme for the test data and regularization to obtain ensembles of models that produce contradictory predictions only on the OOD samples in a test batch. We show via comprehensive experiments that our approach is indeed able to significantly outperform both inductive and transductive baselines on difficult OOD detection scenarios, such as unseen classes on CIFAR-10/CIFAR-100, severe corruptions(CIFAR-C), and strong covariate shift (ImageNet vs ObjectNet).
翻訳日:2021-05-15 06:16:05 公開日:2020-12-10
# 学習報酬機能を理解する

Understanding Learned Reward Functions ( http://arxiv.org/abs/2012.05862v1 )

ライセンス: Link先を確認
Eric J. Michaud, Adam Gleave, Stuart Russell(参考訳) 多くの実世界のタスクでは、RLエージェントの報酬関数を手続き的に指定することはできない。 このような場合、報酬関数は人間との相互作用や観察から学ぶ必要がある。 しかし、現在の報酬学習技術は、ユーザの好みを正確に反映した報酬関数を生成できない場合がある。 報酬学習の大幅な進歩は、学習した報酬関数を監査して、本当にユーザの好みを捉えているかどうかを確認することが重要である。 本稿では,学習報酬関数の解釈手法について検討する。 特に,障害モードを識別し,報酬関数のロバスト性を予測するために,敬礼法を適用した。 学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。 また,既存の解釈手法が報酬出力の無関係な変化にしばしば対応していることが判明し,報酬解釈手法とポリシー解釈可能性とは大きく異なる方法が必要であることが示唆された。

In many real-world tasks, it is not possible to procedurally specify an RL agent's reward function. In such cases, a reward function must instead be learned from interacting with and observing humans. However, current techniques for reward learning may fail to produce reward functions which accurately reflect user preferences. Absent significant advances in reward learning, it is thus important to be able to audit learned reward functions to verify whether they truly capture user preferences. In this paper, we investigate techniques for interpreting learned reward functions. In particular, we apply saliency methods to identify failure modes and predict the robustness of reward functions. We find that learned reward functions often implement surprising algorithms that rely on contingent aspects of the environment. We also discover that existing interpretability techniques often attend to irrelevant changes in reward output, suggesting that reward interpretability may need significantly different methods from policy interpretability.
翻訳日:2021-05-15 06:15:41 公開日:2020-12-10
# 相互情報最大化による二部グラフ埋め込み

Bipartite Graph Embedding via Mutual Information Maximization ( http://arxiv.org/abs/2012.05442v1 )

ライセンス: Link先を確認
Jiangxia Cao, Xixun Lin, Shu Guo, Luchen Liu, Tingwen Liu, Bin Wang(参考訳) バイパートグラフの埋め込みは、様々なアプリケーションドメインで広く使われているため、最近多くの注目を集めている。 ランダムなウォークベースやレコンストラクションベースの目的を用いる従来の手法のほとんどは、ローカルグラフ構造を学ぶのに効果的である。 しかし、均質ノードのコミュニティ構造や異種ノードの長距離依存性を含む二成分グラフの全体的性質はよく保存されていない。 本稿では,BiGIと呼ばれる二部グラフを埋め込んで,そのグローバルな特性をとらえる手法を提案する。 具体的には、BiGIはまず、2つのプロトタイプ表現からなるグローバル表現を生成する。 BiGIはサンプルエッジを,提案したサブグラフレベルのアテンション機構を通じて局所表現として符号化する。 局所表現とグローバル表現の相互情報を最大化することにより、BiGIは二部グラフのノードをグローバルに関連付けることができる。 提案モデルは,top-kレコメンデーションとリンク予測のための様々なベンチマークデータセット上で評価される。 大規模な実験により、BiGIは最先端のベースラインよりも一貫した、重要な改善を達成している。 詳細な解析は、二部グラフのグローバル特性をモデル化する高い効果を検証する。

Bipartite graph embedding has recently attracted much attention due to the fact that bipartite graphs are widely used in various application domains. Most previous methods, which adopt random walk-based or reconstruction-based objectives, are typically effective to learn local graph structures. However, the global properties of bipartite graph, including community structures of homogeneous nodes and long-range dependencies of heterogeneous nodes, are not well preserved. In this paper, we propose a bipartite graph embedding called BiGI to capture such global properties by introducing a novel local-global infomax objective. Specifically, BiGI first generates a global representation which is composed of two prototype representations. BiGI then encodes sampled edges as local representations via the proposed subgraph-level attention mechanism. Through maximizing the mutual information between local and global representations, BiGI enables nodes in bipartite graph to be globally relevant. Our model is evaluated on various benchmark datasets for the tasks of top-K recommendation and link prediction. Extensive experiments demonstrate that BiGI achieves consistent and significant improvements over state-of-the-art baselines. Detailed analyses verify the high effectiveness of modeling the global properties of bipartite graph.
翻訳日:2021-05-15 06:15:04 公開日:2020-12-10
# メタ学習者による冷間開始シーケンス勧告

Cold-start Sequential Recommendation via Meta Learner ( http://arxiv.org/abs/2012.05462v1 )

ライセンス: Link先を確認
Yujia Zheng, Siyi Liu, Zekun Li, Shu Wu(参考訳) 本稿では,メタラーニングを逐次推奨することで,アイテムコールドスタート問題を緩和する。 シークエンシャルレコメンデーションは、過去の行動シーケンスに基づいてユーザの動的嗜好を捉え、ほとんどのオンラインレコメンデーションシナリオの重要なコンポーネントとして機能することを目的としている。 しかし、ほとんどの以前の手法ではコールドスタートアイテムを推奨するのに苦労している。 シーケンシャルなレコメンデーションタスクの設定には概して副次的な情報がないため、ユーザとイテムのインタラクションしか利用できない場合、従来のコールドスタートメソッドは適用できない。 そこで本研究では,メタラーニングに基づくコールドスタート・シーケンシャルレコメンデーションフレームワーク,mecosを提案する。 このタスクは、新しくて挑戦的なコンテキストにおいて重要な問題をターゲットにしているため、非自明である。 mecosは限られたインタラクションからユーザの好みを効果的に抽出し、ターゲットのコールドスタートアイテムと潜在的なユーザとのマッチングを学ぶ。 さらに、このフレームワークはニューラルネットワークベースのモデルと無痛に統合できます。 3つの実世界のデータセットで実施された大規模な実験により、平均的な改善は99%、91%、HR@10の70%に向上した。

This paper explores meta-learning in sequential recommendation to alleviate the item cold-start problem. Sequential recommendation aims to capture user's dynamic preferences based on historical behavior sequences and acts as a key component of most online recommendation scenarios. However, most previous methods have trouble recommending cold-start items, which are prevalent in those scenarios. As there is generally no side information in the setting of sequential recommendation task, previous cold-start methods could not be applied when only user-item interactions are available. Thus, we propose a Meta-learning-based Cold-Start Sequential Recommendation Framework, namely Mecos, to mitigate the item cold-start problem in sequential recommendation. This task is non-trivial as it targets at an important problem in a novel and challenging context. Mecos effectively extracts user preference from limited interactions and learns to match the target cold-start item with the potential user. Besides, our framework can be painlessly integrated with neural network-based models. Extensive experiments conducted on three real-world datasets verify the superiority of Mecos, with the average improvement up to 99%, 91%, and 70% in HR@10 over state-of-the-art baseline methods.
翻訳日:2021-05-15 06:14:47 公開日:2020-12-10
# 音声と画像の直接マルチモーダル数ショット学習

Direct multimodal few-shot learning of speech and images ( http://arxiv.org/abs/2012.05680v1 )

ライセンス: Link先を確認
Leanne Nortje, Herman Kamper(参考訳) 音声単語と画像の共有埋め込み空間を,わずかにペア化された例から学習する,直接マルチモーダルな複数ショットモデルを提案する。 例えば、エージェントが画像のオブジェクトを記述する言葉とともに画像を表示することを想像してください。 ペン、本、消しゴム。 各クラスのいくつかのペア例を観察した後、モデルは、目に見えない一連の写真の中で「本」を識別するよう依頼される。 先行研究は、学習された一助表現に依存する2段階の間接的アプローチを用いており、音声音声と画像画像の比較は、与えられた音声画像ペアの支持セット間で行われる。 本稿では,マルチモーダル三重項ネットワーク(MTriplet)とマルチモーダル対応オートエンコーダ(MCAE)という,異なるモーダルからの入力が直接的に比較される単一マルチモーダル空間を学習する2つの直接モデルを提案する。 これらの直接モデルを訓練するために、言語画像対を抽出する: サポートセットは、未実装のドメイン内音声と画像のペアリングに使用される。 音声と画像の桁マッチングタスクでは、直接モデルは間接モデルより優れ、MTripletは最高のマルチモーダル5ショット精度を達成する。 この改善は、直接モデルにおける教師なし学習と転送学習の組み合わせと、2段階の複合化誤差の欠如によるものである。

We propose direct multimodal few-shot models that learn a shared embedding space of spoken words and images from only a few paired examples. Imagine an agent is shown an image along with a spoken word describing the object in the picture, e.g. pen, book and eraser. After observing a few paired examples of each class, the model is asked to identify the "book" in a set of unseen pictures. Previous work used a two-step indirect approach relying on learned unimodal representations: speech-speech and image-image comparisons are performed across the support set of given speech-image pairs. We propose two direct models which instead learn a single multimodal space where inputs from different modalities are directly comparable: a multimodal triplet network (MTriplet) and a multimodal correspondence autoencoder (MCAE). To train these direct models, we mine speech-image pairs: the support set is used to pair up unlabelled in-domain speech and images. In a speech-to-image digit matching task, direct models outperform indirect models, with the MTriplet achieving the best multimodal five-shot accuracy. We show that the improvements are due to the combination of unsupervised and transfer learning in the direct models, and the absence of two-step compounding errors.
翻訳日:2021-05-15 06:13:57 公開日:2020-12-10
# 複合敵攻撃

Composite Adversarial Attacks ( http://arxiv.org/abs/2012.05434v1 )

ライセンス: Link先を確認
Xiaofeng Mao, Yuefeng Chen, Shuhui Wang, Hang Su, Yuan He, Hui Xue(参考訳) 敵攻撃は機械学習(ML)モデルを識別する技法であり、敵の堅牢性を評価する手段を提供する。 実際には、攻撃アルゴリズムは人間の専門家によって人工的に選択され、調整され、MLシステムを破る。 しかし、攻撃者の手動による選択は準最適であり、誤ってモデルのセキュリティを評価する。 本稿では,攻撃アルゴリズムとそれらのハイパーパラメータの最適な組み合わせを, \textbf{32 base attack} の候補プールから自動的に探索する手法である composite adversarial attack (caa) を提案する。 我々は,攻撃方針を攻撃シーケンスとして表現する探索空間,すなわち,先行する攻撃者の出力を後継者の初期化入力として使用する。 多目的NSGA-II遺伝的アルゴリズムは、最小限の複雑さで最強の攻撃ポリシーを見つけるために用いられる。 実験の結果、caaは11の異なる防御で上位10人の攻撃者を打ち負かし(\textbf{6 $\times$ faster than autoattack})、l_{\infty}$, $l_{2}$, unrestricted adversarial attackの新たな最先端を実現した。

Adversarial attack is a technique for deceiving Machine Learning (ML) models, which provides a way to evaluate the adversarial robustness. In practice, attack algorithms are artificially selected and tuned by human experts to break a ML system. However, manual selection of attackers tends to be sub-optimal, leading to a mistakenly assessment of model security. In this paper, a new procedure called Composite Adversarial Attack (CAA) is proposed for automatically searching the best combination of attack algorithms and their hyper-parameters from a candidate pool of \textbf{32 base attackers}. We design a search space where attack policy is represented as an attacking sequence, i.e., the output of the previous attacker is used as the initialization input for successors. Multi-objective NSGA-II genetic algorithm is adopted for finding the strongest attack policy with minimum complexity. The experimental result shows CAA beats 10 top attackers on 11 diverse defenses with less elapsed time (\textbf{6 $\times$ faster than AutoAttack}), and achieves the new state-of-the-art on $l_{\infty}$, $l_{2}$ and unrestricted adversarial attacks.
翻訳日:2021-05-15 06:13:36 公開日:2020-12-10
# 低レベル視覚のための制御機構とアーキテクチャ拡張を用いた学習最適化による画像伝搬

Learning Optimization-inspired Image Propagation with Control Mechanisms and Architecture Augmentations for Low-level Vision ( http://arxiv.org/abs/2012.05435v1 )

ライセンス: Link先を確認
Risheng Liu, Zhu Liu, Pan Mu, Zhouchen Lin, Xin Fan, Zhongxuan Luo(参考訳) 近年、最適化の観点からディープラーニングモデルを構築することは、低レベルの視覚問題を解決する上で有望な方向となっている。 既存のアプローチの主な考え方は、数値的な反復と手動で設計されたネットワークアーキテクチャを組み合わせることで、特定の種類の最適化モデルのための画像伝搬を生成することである。 しかしながら、これらのヒューリスティック学習モデルは、伝播を制御するメカニズムを欠き、アーキテクチャ工学に大きく依存することが多い。 上記の問題を緩和するために,多種多様な低レベル視覚タスクに対する生成,識別,補正(GDC)の原則を集約する,統一的な最適化にインスパイアされた深部画像伝搬フレームワークを提案する。 具体的には,まず汎用的最適化目標を用いて低レベル視覚タスクを定式化し,3つの異なる視点から基本伝播モジュールを構築する。 画像伝搬を誘導する制御機構を設計することにより、完全かつ部分的に定義された最適化定式化のGDCの収束保証を得る。 さらに,2つのアーキテクチャ拡張戦略(正規化と自動探索)を導入し,それぞれ伝播安定性とタスク/データ適応能力を高める。 異なる低レベルビジョンアプリケーションに関する広範囲な実験は、gdcの有効性と柔軟性を示している。

In recent years, building deep learning models from optimization perspectives has becoming a promising direction for solving low-level vision problems. The main idea of most existing approaches is to straightforwardly combine numerical iterations with manually designed network architectures to generate image propagations for specific kinds of optimization models. However, these heuristic learning models often lack mechanisms to control the propagation and rely on architecture engineering heavily. To mitigate the above issues, this paper proposes a unified optimization-inspired deep image propagation framework to aggregate Generative, Discriminative and Corrective (GDC for short) principles for a variety of low-level vision tasks. Specifically, we first formulate low-level vision tasks using a generic optimization objective and construct our fundamental propagative modules from three different viewpoints, i.e., the solution could be obtained/learned 1) in generative manner; 2) based on discriminative metric, and 3) with domain knowledge correction. By designing control mechanisms to guide image propagations, we then obtain convergence guarantees of GDC for both fully- and partially-defined optimization formulations. Furthermore, we introduce two architecture augmentation strategies (i.e., normalization and automatic search) to respectively enhance the propagation stability and task/data-adaption ability. Extensive experiments on different low-level vision applications demonstrate the effectiveness and flexibility of GDC.
翻訳日:2021-05-15 06:13:14 公開日:2020-12-10
# 指紋認識のための超解像誘導細孔検出

Super-resolution Guided Pore Detection for Fingerprint Recognition ( http://arxiv.org/abs/2012.05959v1 )

ライセンス: Link先を確認
Syeda Nyma Ferdous, Ali Dabouei, Jeremy Dawson, Nasser M Nasrabadi(参考訳) 指紋認識アルゴリズムの性能は、指紋から抽出した細かな特徴に依存する。 マイナスのパターンとリッジパターンは別として、細孔の特徴は指紋認識に有用であることが証明されている。 微視的特徴や隆起的特徴は低解像度画像からかなり得ることができるが, 細部を保存した従来の500ppiレガシ指紋の画質向上モデルを必要とする高解像度の指紋画像の場合のみ, 細孔的特徴を用いることができる。 低解像度指紋から細孔情報を復元するソリューションを見つけるために,超高解像度と細孔検出ネットワークを組み合わせた共同学習方式を採用する。 修正したsrgan(single image super- resolution generative adversarial network)フレームワークは,細孔検出ネットワークを補助する低解像度の指紋から高精度に高分解能の指紋サンプルを再構成し,高精度に細孔を同定する。 ネットワークは、実際の低解像度指紋サンプルから特徴的特徴表現を共同で学習し、それから高解像度サンプルをうまく合成する。 全被験者に識別情報と一意性を加えるため,srgan quality discriminatorを用いた深部指紋検査装置から抽出した特徴を統合した。 また,抽出した特徴を最大限活用するために,隆起パターンを利用した隆起再建損失も加えた。 提案手法は,指紋画像の品質向上により認識問題を解決する。 オリジナル高分解能画像を用いて得られた精度に近い合成試料の高認識精度は,提案モデルの有効性を検証した。

Performance of fingerprint recognition algorithms substantially rely on fine features extracted from fingerprints. Apart from minutiae and ridge patterns, pore features have proven to be usable for fingerprint recognition. Although features from minutiae and ridge patterns are quite attainable from low-resolution images, using pore features is practical only if the fingerprint image is of high resolution which necessitates a model that enhances the image quality of the conventional 500 ppi legacy fingerprints preserving the fine details. To find a solution for recovering pore information from low-resolution fingerprints, we adopt a joint learning-based approach that combines both super-resolution and pore detection networks. Our modified single image Super-Resolution Generative Adversarial Network (SRGAN) framework helps to reliably reconstruct high-resolution fingerprint samples from low-resolution ones assisting the pore detection network to identify pores with a high accuracy. The network jointly learns a distinctive feature representation from a real low-resolution fingerprint sample and successfully synthesizes a high-resolution sample from it. To add discriminative information and uniqueness for all the subjects, we have integrated features extracted from a deep fingerprint verifier with the SRGAN quality discriminator. We also add ridge reconstruction loss, utilizing ridge patterns to make the best use of extracted features. Our proposed method solves the recognition problem by improving the quality of fingerprint images. High recognition accuracy of the synthesized samples that is close to the accuracy achieved using the original high-resolution images validate the effectiveness of our proposed model.
翻訳日:2021-05-15 06:11:48 公開日:2020-12-10
# particle swarm optimizationからコンセンサスベース最適化へ:確率モデリングと平均場限界

From particle swarm optimization to consensus based optimization: stochastic modeling and mean-field limit ( http://arxiv.org/abs/2012.05613v1 )

ライセンス: Link先を確認
Sara Grassi, Lorenzo Pareschi(参考訳) 本稿では,大域的最適化問題の解法として人気粒子群最適化法 (PSO) の確率微分方程式に基づいて連続的な記述を考察し, フラソフ-フォッカー-プランク型方程式に基づく対応する平均場近似を大粒子制限で導出する。 局所的最良位置を保存する必要性によって引き起こされる記憶効果の欠点は、局所的最良の進化を記述する追加の微分方程式の導入によって克服される。 グローバルベストの正規化プロセスは、各平均フィールド記述を正式に導出することを許可する。 その後,小慣性限界において,最近導入されたコンセンサスベース最適化 (cbo) 法との関係を明らかにするマクロ流体力学方程式を計算した。 いくつかの数値的な例は、平均場過程、小さな慣性限界、そしてこの大域最適化法の一般的なクラスの可能性を示している。

In this paper we consider a continuous description based on stochastic differential equations of the popular particle swarm optimization (PSO) process for solving global optimization problems and derive in the large particle limit the corresponding mean-field approximation based on Vlasov-Fokker-Planck-type equations. The disadvantage of memory effects induced by the need to store the local best position is overcome by the introduction of an additional differential equation describing the evolution of the local best. A regularization process for the global best permits to formally derive the respective mean-field description. Subsequently, in the small inertia limit, we compute the related macroscopic hydrodynamic equations that clarify the link with the recently introduced consensus based optimization (CBO) methods. Several numerical examples illustrate the mean field process, the small inertia limit and the potential of this general class of global optimization methods.
翻訳日:2021-05-15 06:11:20 公開日:2020-12-10
# 銀河系ダークマターハロースへのハイブリッド分析および機械学習バリオン特性挿入

Hybrid analytic and machine-learned baryonic property insertion into galactic dark matter haloes ( http://arxiv.org/abs/2012.05820v1 )

ライセンス: Link先を確認
Ben Moews, Romeel Dav\'e, Sourav Mitra, Sultan Hassan, Weiguang Cui(参考訳) 重力効果のみに依存する宇宙論的なダークマターのみのシミュレーションは計算が容易であるが、シミュレーション銀河のバロン特性は計算コストがかかる複雑な流体力学シミュレーションを必要とする。 我々は、銀河の恒星、ガス、金属含有量の進化を記述する解析的形式論である平衡モデルの拡張バージョンを機械学習フレームワークにマージすることを検討する。 これにより、解析形式だけで得られる以上の特性を回復することができ、バリオン特性を持つN体シミュレーションにおいて銀河の暗黒物質ハローを発生させる高速な流体力学シミュレーションエミュレータを作成できる。 到達した精度とこのアプローチがもたらす速度の優位性との間にはトレードオフがあるが、我々の結果は、バリオニクス特性のサブセットに対する機械学習のみを用いたアプローチよりも優れている。 本研究では,このハイブリッドシステムにより,フル流体力学スイートの特性をある程度模倣することで,ダークマターのみの情報の迅速な補完が可能であることを実証し,ハイブリッドと機械学習のみのフレームワークの利点とデメリットについて論じる。 宇宙論において、よくデプロイされるシミュレーションの加速を提供する。

While cosmological dark matter-only simulations relying solely on gravitational effects are comparably fast to compute, baryonic properties in simulated galaxies require complex hydrodynamic simulations that are computationally costly to run. We explore the merging of an extended version of the equilibrium model, an analytic formalism describing the evolution of the stellar, gas, and metal content of galaxies, into a machine learning framework. In doing so, we are able to recover more properties than the analytic formalism alone can provide, creating a high-speed hydrodynamic simulation emulator that populates galactic dark matter haloes in N-body simulations with baryonic properties. While there exists a trade-off between the reached accuracy and the speed advantage this approach offers, our results outperform an approach using only machine learning for a subset of baryonic properties. We demonstrate that this novel hybrid system enables the fast completion of dark matter-only information by mimicking the properties of a full hydrodynamic suite to a reasonable degree, and discuss the advantages and disadvantages of hybrid versus machine learning-only frameworks. In doing so, we offer an acceleration of commonly deployed simulations in cosmology.
翻訳日:2021-05-15 06:11:05 公開日:2020-12-10
# N体シミュレーションにおける宇宙の進化の学習

Learning the Evolution of the Universe in N-body Simulations ( http://arxiv.org/abs/2012.05472v1 )

ライセンス: Link先を確認
Chang Chen, Yin Li, Francisco Villaescusa-Navarro, Shirley Ho, Anthony Pullen(参考訳) 大規模な宇宙探査の物理を小さな(非線形)スケールまで理解すれば、宇宙に関する我々の知識が大幅に向上する。 非線型状態の予測を得るために、大規模なN体シミュレーションが構築されている。 しかし、N体シミュレーションは計算コストが高く、大量のデータを生成し、ストレージに負担をかける。 これらのデータは、異なる時刻にシミュレーションされた宇宙のスナップショットであり、正確な履歴を保存するには、精密なサンプリングが必要である。 2つの広範囲なスナップショットから中間時間段階における非線形n体シミュレーションを予測するために,ディープニューラルネットワークモデルを用いた。 この結果は,N体シミュレーションにおいて,立方体ヘルミット補間ベンチマーク法より優れている。 この研究は、ストレージ要件を大幅に削減し、宇宙のスナップショットから宇宙の歴史を再構築することができる。

Understanding the physics of large cosmological surveys down to small (nonlinear) scales will significantly improve our knowledge of the Universe. Large N-body simulations have been built to obtain predictions in the non-linear regime. However, N-body simulations are computationally expensive and generate large amount of data, putting burdens on storage. These data are snapshots of the simulated Universe at different times, and fine sampling is necessary to accurately save its whole history. We employ a deep neural network model to predict the nonlinear N-body simulation at an intermediate time step given two widely separated snapshots. Our results outperform the cubic Hermite interpolation benchmark method in interpolating N-body simulations. This work can greatly reduce the storage requirement and allow us to reconstruct the cosmic history from far fewer snapshots of the universe.
翻訳日:2021-05-15 06:10:46 公開日:2020-12-10
# デジタルオキシメトリーバイオマーカーを用いた慢性閉塞性肺疾患の夜間診断のための機械学習

Machine learning for nocturnal diagnosis of chronic obstructive pulmonary disease using digital oximetry biomarkers ( http://arxiv.org/abs/2012.05492v1 )

ライセンス: Link先を確認
Jeremy Levy, Daniel Alvarez, Felix del Campo, and Joachim A. Behar(参考訳) 目的:慢性閉塞性肺疾患(COPD)は非常に多い慢性疾患である。 COPDは死亡率、死亡率、医療費の主な源である。 スピロメトリーは, COPDの診断および重症度評価のための金標準検査である。 しかし、PD患者の多くは未診断で治療を受けていない。 COPDの頻度が高いこと、その臨床的重要性を考えると、特に睡眠障害の呼吸などリスクのある特定のグループにおいて、未診断のCOPDを識別するための新しいアルゴリズムを開発することが重要である。 我々の知る限り、夜間オキシメトリー時系列による COPD 診断の可能性は研究されていない。 アプローチ: COPD患者は、この状態に特有の一晩のオキシメトリー時系列の特定のパターンおよび/またはダイナミクスを発揮できると仮定する。 本研究は,44のオキシメトリデジタルバイオマーカーと5つの人口動態を用いた夜間 COPD 診断への新しいアプローチを導入し,睡眠時無呼吸のリスクがある集団検体の性能評価を行った。 総計350名の独特な患者がpsg(polysomnography)記録を行った。 これらの特徴を用いてランダムフォレスト(rf)分類器を訓練し、ネストクロスバリデーション法を用いて評価する。 意義:我々の研究は数多くの新しい科学的貢献をしている。 まず,睡眠障害呼吸のリスクのある個体群を対象に,夜間オキシメトリー時系列からの COPD 診断の可能性について実験を行った。 デジタルオキシメトリバイオマーカーは、PDが一晩でどのように現れるかを最もよく反映している。 その結果,一晩一チャンネルオキシメトリーは COPD 診断に有用であることが示唆された。

Objective: Chronic obstructive pulmonary disease (COPD) is a highly prevalent chronic condition. COPD is a major source of morbidity, mortality and healthcare costs. Spirometry is the gold standard test for a definitive diagnosis and severity grading of COPD. However, a large proportion of individuals with COPD are undiagnosed and untreated. Given the high prevalence of COPD and its clinical importance, it is critical to develop new algorithms to identify undiagnosed COPD, especially in specific groups at risk, such as those with sleep disorder breathing. To our knowledge, no research has looked at the feasibility of COPD diagnosis from the nocturnal oximetry time series. Approach: We hypothesize that patients with COPD will exert certain patterns and/or dynamics of their overnight oximetry time series that are unique to this condition. We introduce a novel approach to nocturnal COPD diagnosis using 44 oximetry digital biomarkers and 5 demographic features and assess its performance in a population sample at risk of sleep-disordered breathing. A total of n=350 unique patients polysomnography (PSG) recordings. A random forest (RF) classifier is trained using these features and evaluated using the nested cross-validation procedure. Significance: Our research makes a number of novel scientific contributions. First, we demonstrated for the first time, the feasibility of COPD diagnosis from nocturnal oximetry time series in a population sample at risk of sleep disordered breathing. We highlighted what digital oximetry biomarkers best reflect how COPD manifests overnight. The results motivate that overnight single channel oximetry is a valuable pathway for COPD diagnosis.
翻訳日:2021-05-15 06:10:34 公開日:2020-12-10
# SE-ECGNet:ECG信号分類のためのSqueeze-and-Excitationモジュール付きマルチスケールディープ残留ネットワーク

SE-ECGNet: A Multi-scale Deep Residual Network with Squeeze-and-Excitation Module for ECG Signal Classification ( http://arxiv.org/abs/2012.05510v1 )

ライセンス: Link先を確認
Haozhen Zhang, Wei Zhao, Shuang Liu(参考訳) 心電図(ECG)信号の分類は、多くの時間がかかり、高い誤診率に悩まされるが、心臓科医にとって非常に難しい課題である。 ECG信号の分類の難しさは、長期のシーケンス依存によって引き起こされる。 ECG信号分類の既存のアプローチでは、LSTMやGRUといった、長いシーケンスの正確な特徴を抽出できないリカレントニューラルネットワークモデルが使われている。 その他のアプローチでは、ResNetなどの1次元畳み込みニューラルネットワーク(CNN)を利用し、ECG信号からのマルチリード情報をうまく利用できないため、上記の観測に基づいて、ECG信号分類タスクのためのマルチスケールディープ残差ネットワークを開発する。 我々は,マルチリード信号を2次元行列として扱うことを提案し,マルチスケールの2次元畳み込みブロックと1次元畳み込みブロックを組み合わせて特徴抽出を行う。 提案モデルは,MIT-BIHデータセットの99.2%F1スコア,Alibabaデータセットの89.4%F1スコアを達成し,最先端のパフォーマンスを2%と3%で上回り,関連するコードとデータをhttps://github.com/Amadeuszhao/SE-ECGNetで閲覧する。

The classification of electrocardiogram (ECG) signals, which takes much time and suffers from a high rate of misjudgment, is recognized as an extremely challenging task for cardiologists. The major difficulty of the ECG signals classification is caused by the long-term sequence dependencies. Most existing approaches for ECG signal classification use Recurrent Neural Network models, e.g., LSTM and GRU, which are unable to extract accurate features for such long sequences. Other approaches utilize 1-Dimensional Convolutional Neural Network (CNN), such as ResNet or its variant, and they can not make good use of the multi-lead information from ECG signals.Based on the above observations, we develop a multi-scale deep residual network for the ECG signal classification task. We are the first to propose to treat the multi-lead signal as a 2-dimensional matrix and combines multi-scale 2-D convolution blocks with 1-D convolution blocks for feature extraction. Our proposed model achieves 99.2% F1-score in the MIT-BIH dataset and 89.4% F1-score in Alibaba dataset and outperforms the state-of-the-art performance by 2% and 3%, respectively, view related code and data at https://github.com/Amadeuszhao/SE-ECGNet
翻訳日:2021-05-15 06:10:11 公開日:2020-12-10
# 深部畳み込みニューラルネットワークを用いた弱監視不整脈検出

Weakly Supervised Arrhythmia Detection Based on Deep Convolutional Neural Network ( http://arxiv.org/abs/2012.05641v1 )

ライセンス: Link先を確認
Yang Liu, Kuanquan Wang, Qince Li, Runnan He, Yongfeng Yuan, and Henggui Zhang(参考訳) 改良されたディープラーニングは、大規模なデータセットの十分なアノテーションから大きく恩恵を受ける自動ECG分類の研究で広く利用されている。 しかし、既存の大きなECGデータセットは概ねアノテートされているため、それらに基づいて訓練された分類モデルは、レコード全体の異常を検出できるだけでなく、正確な発生時刻を決定できない。 さらに、細かな注釈付きECGデータセットを構築するには膨大な時間と経済的コストがかかる可能性がある。 そこで本研究では,異常心電図と発生時刻を検出するための弱教師付き深層学習モデルを提案する。 モデルの利用可能な監督情報は、各イベントの特定の発生時間を除いて、ecgレコード内のイベントタイプに制限される。 深層畳み込みニューラルネットワークの特徴的局所性を利用することで、まずモデルが局所的特徴に基づく予測を行い、次に局所的予測を集約してレコード全体における各事象の存在を推測する。 トレーニングを通じて、局所的な予測は、各イベントの特定の発生時刻を反映することが期待される。 AFDBデータセットとMITDBデータセットを用いて心臓のリズム不整脈と形態的不整脈を検出するモデルを適用した。 その結果、このモデルは心房細動の検出において99.09%、完全な教師付き学習モデルに匹敵する形態的不整脈の検出において99.13%のビートレベルアキュラシーを達成し、その効果を示した。 この手法によって明らかになった局所予測マップは、記録レベルの分類モデルの決定論理の解析と診断にも有用である。

Supervised deep learning has been widely used in the studies of automatic ECG classification, which largely benefits from sufficient annotation of large datasets. However, most of the existing large ECG datasets are roughly annotated, so the classification model trained on them can only detect the existence of abnormalities in a whole recording, but cannot determine their exact occurrence time. In addition, it may take huge time and economic cost to construct a fine-annotated ECG dataset. Therefore, this study proposes weakly supervised deep learning models for detecting abnormal ECG events and their occurrence time. The available supervision information for the models is limited to the event types in an ECG record, excluding the specific occurring time of each event. By leverage of feature locality of deep convolution neural network, the models first make predictions based on the local features, and then aggregate the local predictions to infer the existence of each event during the whole record. Through training, the local predictions are expected to reflect the specific occurring time of each event. To test their potentials, we apply the models for detecting cardiac rhythmic and morphological arrhythmias by using the AFDB and MITDB datasets, respectively. The results show that the models achieve beat-level accuracies of 99.09% in detecting atrial fibrillation, and 99.13% in detecting morphological arrhythmias, which are comparable to that of fully supervised learning models, demonstrating their effectiveness. The local prediction maps revealed by this method are also helpful to analyze and diagnose the decision logic of record-level classification models.
翻訳日:2021-05-15 06:09:31 公開日:2020-12-10
# 夜間スリープ脳波を用いた運転シミュレーション環境下での自動マイクロスリープ検出

Automatic Micro-sleep Detection under Car-driving Simulation Environment using Night-sleep EEG ( http://arxiv.org/abs/2012.05705v1 )

ライセンス: Link先を確認
Young-Seok Kweon, Gi-Hwan Shin, Heon-Gyu Kwak, Minji Lee(参考訳) マイクロスリープ(micro-sleep)は、1秒から30秒続く短い睡眠である。 運転中の検出は、多くの人の命を請求する事故を防ぐために不可欠です。 脳電図(EEG)は、脳波が意識と睡眠と関連していたため、微小睡眠を検出するのに適している。 ディープラーニングは脳の状態を認識する上で優れた性能を示したが、十分なデータが必要である。 しかし、運転中のマイクロスリープデータの収集は非効率であり、騒音によるデータ品質低下のリスクが高い。 自宅での睡眠データは、運転中のマイクロ睡眠データよりも収集が容易である。 そこで我々は,睡眠時脳波を用いた深層学習手法を提案し,睡眠時脳波の検出性能を向上した。 夜間脳波を用いて5クラス睡眠ステージを分類するためにU-Netを事前訓練し,U-Netが推定した睡眠ステージを用いて運転中のマイクロ睡眠を検出する。 このマイクロスリープ検出性能は従来の手法と比較して約30%向上した。 提案手法は,マイクロスリープが非ラピッドアイムーブメント(NREM)睡眠の初期に対応するという仮説に基づいていた。 睡眠時と睡眠時における脳波分布はNREM睡眠時と同様の分布を示した。 以上の結果から, NREM睡眠早期とマイクロスリープの類似性が示唆され, 運転時のマイクロスリープ防止に有効であった。

A micro-sleep is a short sleep that lasts from 1 to 30 secs. Its detection during driving is crucial to prevent accidents that could claim a lot of people's lives. Electroencephalogram (EEG) is suitable to detect micro-sleep because EEG was associated with consciousness and sleep. Deep learning showed great performance in recognizing brain states, but sufficient data should be needed. However, collecting micro-sleep data during driving is inefficient and has a high risk of obtaining poor data quality due to noisy driving situations. Night-sleep data at home is easier to collect than micro-sleep data during driving. Therefore, we proposed a deep learning approach using night-sleep EEG to improve the performance of micro-sleep detection. We pre-trained the U-Net to classify the 5-class sleep stages using night-sleep EEG and used the sleep stages estimated by the U-Net to detect micro-sleep during driving. This improved micro-sleep detection performance by about 30\% compared to the traditional approach. Our approach was based on the hypothesis that micro-sleep corresponds to the early stage of non-rapid eye movement (NREM) sleep. We analyzed EEG distribution during night-sleep and micro-sleep and found that micro-sleep has a similar distribution to NREM sleep. Our results provide the possibility of similarity between micro-sleep and the early stage of NREM sleep and help prevent micro-sleep during driving.
翻訳日:2021-05-15 06:09:04 公開日:2020-12-10
# 患者のノーショー行動予測による医療アクセス管理の改善

Improving healthcare access management by predicting patient no-show behaviour ( http://arxiv.org/abs/2012.05724v1 )

ライセンス: Link先を確認
David Barrera Ferro, Sally Brailsford, Cristi\'an Bravo, Honora Smith(参考訳) 医療アポイントメントの出席率の低さは、サービス提供者の健康状態や効率上の問題と関連している。 この問題に対処するため、ヘルスケアマネージャは、出席率の向上や、リソース割り当てポリシーの適用によるノーショーの運用効果の最小化を目標とすることができる。 しかし, 患者行動の不確実性を考えると, ノンショー確率に関する関連情報の生成は, 両者の意思決定プロセスを支援する可能性がある。 この文脈では、多くの研究者が複数の回帰モデルを使用して患者とアポイントメントの特徴を識別している。 本研究は,コロンビア・ボゴット・アの未保存地域を対象とした予防ケアプログラムにおいて,参加を促す戦略の実施を支援するための意思決定支援システム(DSS)を開発する。 私たちの文学への貢献は3倍です。 まず,回帰モデルの精度を向上させるために,異なる機械学習手法の有効性を評価する。 特にランダムフォレストとニューラルネットワークは、非線形性と可変相互作用の問題をモデル化するために使用される。 次に,ニューラルネットの予測の解法を改良し,モデリングステップから洞察を得るために,層間相関伝播の新たな利用を提案する。 第3に,発展途上国における無表示確率を説明する変数を特定し,その政策的意義と医療アクセス改善の可能性について検討する。 過去の研究で報告された関係の定量化に加えて、所得と近隣犯罪統計が無表示確率に影響を与えることが判明した。 パイロット行動介入における患者優先化を支援するとともに,予定決定を通知する。

Low attendance levels in medical appointments have been associated with poor health outcomes and efficiency problems for service providers. To address this problem, healthcare managers could aim at improving attendance levels or minimizing the operational impact of no-shows by adapting resource allocation policies. However, given the uncertainty of patient behaviour, generating relevant information regarding no-show probabilities could support the decision-making process for both approaches. In this context many researchers have used multiple regression models to identify patient and appointment characteristics than can be used as good predictors for no-show probabilities. This work develops a Decision Support System (DSS) to support the implementation of strategies to encourage attendance, for a preventive care program targeted at underserved communities in Bogot\'a, Colombia. Our contribution to literature is threefold. Firstly, we assess the effectiveness of different machine learning approaches to improve the accuracy of regression models. In particular, Random Forest and Neural Networks are used to model the problem accounting for non-linearity and variable interactions. Secondly, we propose a novel use of Layer-wise Relevance Propagation in order to improve the explainability of neural network predictions and obtain insights from the modelling step. Thirdly, we identify variables explaining no-show probabilities in a developing context and study its policy implications and potential for improving healthcare access. In addition to quantifying relationships reported in previous studies, we find that income and neighbourhood crime statistics affect no-show probabilities. Our results will support patient prioritization in a pilot behavioural intervention and will inform appointment planning decisions.
翻訳日:2021-05-15 06:08:42 公開日:2020-12-10
# 自律室内ナビゲーションのためのライダーセグメンテーションの自己教師付き学習

Self-Supervised Learning of Lidar Segmentation for Autonomous Indoor Navigation ( http://arxiv.org/abs/2012.05897v1 )

ライセンス: Link先を確認
Hugues Thomas, Ben Agro, Mona Gridseth, Jian Zhang and Timothy D. Barfoot(参考訳) ライダーフレームのセマンティックセグメンテーションのための自己教師型学習手法を提案する。 本手法は,人間のアノテーションを使わずに,ディープポイントクラウドセグメンテーションアーキテクチャをトレーニングするために用いられる。 アノテーションプロセスは、同時ローカライゼーションとマッピング(SLAM)とレイトレーシングアルゴリズムを組み合わせて自動化される。 同じ環境で複数のナビゲーションセッションを行うことで,壁などの永続的な構造を識別し,人やテーブルなどの短期的・長期的な移動物体を分離することができる。 新しいセッションは、これらの意味ラベルを予測するためにトレーニングされたネットワークを使って実行することができる。 私たちは、あるセッションから次のセッションまで、時間とともに自分自身を改善するアプローチの能力を示しています。 意味的にフィルタリングされたポイントクラウドによって、ロボットはより複雑なシナリオをナビゲートし、トレーニングプールに追加すると、ネットワーク予測を改善するのに役立つ。 ネットワーク予測に対する洞察を提供し、我々のアプローチが共通のローカライズ手法の性能を向上させることを示す。

We present a self-supervised learning approach for the semantic segmentation of lidar frames. Our method is used to train a deep point cloud segmentation architecture without any human annotation. The annotation process is automated with the combination of simultaneous localization and mapping (SLAM) and ray-tracing algorithms. By performing multiple navigation sessions in the same environment, we are able to identify permanent structures, such as walls, and disentangle short-term and long-term movable objects, such as people and tables, respectively. New sessions can then be performed using a network trained to predict these semantic labels. We demonstrate the ability of our approach to improve itself over time, from one session to the next. With semantically filtered point clouds, our robot can navigate through more complex scenarios, which, when added to the training pool, help to improve our network predictions. We provide insights into our network predictions and show that our approach can also improve the performances of common localization techniques.
翻訳日:2021-05-15 06:08:11 公開日:2020-12-10
# マルチマルジナル最適輸送問題に対する硬度結果

Hardness results for Multimarginal Optimal Transport problems ( http://arxiv.org/abs/2012.05398v1 )

ライセンス: Link先を確認
Jason M. Altschuler and Enric Boix-Adsera(参考訳) マルチマルジナル最適輸送(MOT)は、固定辺を持つ結合確率分布に対する線形プログラミングの問題である。 多くのアプリケーションにおいて鍵となる問題はmotの解決の複雑さである: 線形プログラムは、辺数 k とそのサポートサイズ n の指数関数的な大きさを持つ。最近の作業で、mot はpoly(n,k)-time であり、poly(n,k)-size implicit representations を持つ特定のコストファミリーに対して可解であることが示されている。 しかし、この一連のアルゴリズム研究がどのようなコストがかかるのかは明らかではない。 これらの基本的制約を理解するために,本論文はMOTの難読化結果の研究を開始する。 我々の主な技術的貢献は、MOT問題に対するNP硬さと不適応性を示すツールキットの開発である。 本手法は,過去のアルゴリズム的試みに抵抗した文献で研究されているmot問題の難解性を確立するために,このツールキットを用いて実証する。 例えば、抑止コストがMOTを誘引しやすくする証拠として、そのような関心事のいくつかがNP困難であることを示す。

Multimarginal Optimal Transport (MOT) is the problem of linear programming over joint probability distributions with fixed marginals. A key issue in many applications is the complexity of solving MOT: the linear program has exponential size in the number of marginals k and their support sizes n. A recent line of work has shown that MOT is poly(n,k)-time solvable for certain families of costs that have poly(n,k)-size implicit representations. However, it is unclear what further families of costs this line of algorithmic research can encompass. In order to understand these fundamental limitations, this paper initiates the study of intractability results for MOT. Our main technical contribution is developing a toolkit for proving NP-hardness and inapproximability results for MOT problems. We demonstrate this toolkit by using it to establish the intractability of a number of MOT problems studied in the literature that have resisted previous algorithmic efforts. For instance, we provide evidence that repulsive costs make MOT intractable by showing that several such problems of interest are NP-hard to solve--even approximately.
翻訳日:2021-05-15 06:07:35 公開日:2020-12-10
# 人力・連系・自動車両の混在交通に対するデータ駆動断面積管理ソリューション

Data-Driven Intersection Management Solutions for Mixed Traffic of Human-Driven and Connected and Automated Vehicles ( http://arxiv.org/abs/2012.05402v1 )

ライセンス: Link先を確認
Masoud Bashiri(参考訳) この論文は、コネクテッドカーとオートマチックカーの存在下での都市交通制御のための2つの解決策を提案する。 まず, 1つの交差点で高速かつスムーズな交通流を生成するために, 小隊システムとV2I通信を利用する協調的交差点管理問題に対して, 集中型小隊制御器を提案する。 第二に,コネクテッドカーの存在下での適応信号制御のためのデータ駆動手法を提案する。 提案方式は、最適信号タイミングのデータ駆動手法と、ルーティング決定を推定するためのデータ駆動ヒューリスティック手法に依存する。 追加のセンサーを交点に設置する必要はなく、現在の適応型信号制御装置の典型的な設定と比べて設置コストを削減できる。 提案するトラヒックコントローラは、最適な信号タイミングモジュールとトラヒック状態推定器を含む。 信号タイミングモジュールは、微視的シミュレーションデータに基づいて訓練されたニューラルネットワークモデルであり、車両遅延や平均待ち時間のような所定の性能指標に従って最適な結果を得る。 交通状態推定器は、接続された車両の情報に基づいて、交通の経路決定を推定する。 推定誤差を最小化するヒューリスティックな手法を提案する。 パラメータチューニングが十分であれば,コネクテッドカーの市場浸透率(mpr)が増加するにつれて,推定誤差が減少する。 推定誤差は10%のMPRで30%以下であり、MPRが30%以上大きくなると20%以下に低下する。 シミュレーションにより,提案手法は高速道路容量マニュアルの手法を上回り,適切なオフラインパラメータチューニングを行うことで,車両平均遅延を最大25%低減できることを示した。

This dissertation proposes two solutions for urban traffic control in the presence of connected and automated vehicles. First a centralized platoon-based controller is proposed for the cooperative intersection management problem that takes advantage of the platooning systems and V2I communication to generate fast and smooth traffic flow at a single intersection. Second, a data-driven approach is proposed for adaptive signal control in the presence of connected vehicles. The proposed system relies on a data-driven method for optimal signal timing and a data-driven heuristic method for estimating routing decisions. It requires no additional sensors to be installed at the intersection, reducing the installation costs compared to typical settings of state-of-the-practice adaptive signal controllers. The proposed traffic controller contains an optimal signal timing module and a traffic state estimator. The signal timing module is a neural network model trained on microscopic simulation data to achieve optimal results according to a given performance metric such as vehicular delay or average queue length. The traffic state estimator relies on connected vehicles' information to estimate the traffic's routing decisions. A heuristic method is proposed to minimize the estimation error. With sufficient parameter tuning, the estimation error decreases as the market penetration rate (MPR) of connected vehicles grows. Estimation error is below 30% for an MPR of 10% and it shrinks below 20% when MPR grows larger than 30%. Simulations showed that the proposed traffic controller outperforms Highway Capacity Manual's methodology and given proper offline parameter tuning, it can decrease average vehicular delay by up to 25%.
翻訳日:2021-05-15 06:07:14 公開日:2020-12-10
# TNNベースのニューロモルフィックプロセッサ実装のためのカスタム7nmCMOS標準セルライブラリ

A Custom 7nm CMOS Standard Cell Library for Implementing TNN-based Neuromorphic Processors ( http://arxiv.org/abs/2012.05419v1 )

ライセンス: Link先を確認
Harideep Nair, Prabhu Vellaisamy, Santha Bhasuthkar, and John Paul Shen(参考訳) 極端エネルギー効率で脳のような感覚処理を模倣できるテンポラルニューラルネットワーク(TNN)を実装するための7nm CMOSセルライブラリのために、高度に最適化されたカスタムマクロ拡張セットを開発した。 MNISTのTNNプロトタイプ(13,750ニューロンと315,000シナプス)は1.56mm2ダイ面積しか必要とせず、1.69mWしか消費しない。

A set of highly-optimized custom macro extensions is developed for a 7nm CMOS cell library for implementing Temporal Neural Networks (TNNs) that can mimic brain-like sensory processing with extreme energy efficiency. A TNN prototype (13,750 neurons and 315,000 synapses) for MNIST requires only 1.56mm2 die area and consumes only 1.69mW.
翻訳日:2021-05-15 06:06:47 公開日:2020-12-10
# 複数音源の2次元定位学習

Learning Multiple Sound Source 2D Localization ( http://arxiv.org/abs/2012.05515v1 )

ライセンス: Link先を確認
Guillaume Le Moing, Phongtharin Vinayavekhin, Tadanobu Inoue, Jayakorn Vongkulbhisal, Asim Munawar, Ryuki Tachibana, Don Joven Agravante(参考訳) 本稿では,複数音源定位のための深層学習に基づく新しいアルゴリズムを提案する。 具体的には、複数のマイクロホンアレイを用いて、囲んだ環境で複数の音源の2次元カルト座標を求める。 この目的のために,符号化復号化アーキテクチャを用いて2つの改良点を提案する。 さらに,精度を向上させる2つの新しい局在表現を提案する。 最後に、解像度に基づく複数ソースアソシエーションに基づいて、異なるローカライズアプローチの評価と比較を可能にする新しいメトリクスを開発した。 本手法を合成データと実データの両方でテストした。 その結果,本手法は従来のベースラインアプローチにより改善することが判明した。

In this paper, we propose novel deep learning based algorithms for multiple sound source localization. Specifically, we aim to find the 2D Cartesian coordinates of multiple sound sources in an enclosed environment by using multiple microphone arrays. To this end, we use an encoding-decoding architecture and propose two improvements on it to accomplish the task. In addition, we also propose two novel localization representations which increase the accuracy. Lastly, new metrics are developed relying on resolution-based multiple source association which enables us to evaluate and compare different localization approaches. We tested our method on both synthetic and real world data. The results show that our method improves upon the previous baseline approach for this problem.
翻訳日:2021-05-15 06:06:01 公開日:2020-12-10
# カテゴリー認識:深層学習のための基礎研究

Categorical Perception: A Groundwork for Deep Learning ( http://arxiv.org/abs/2012.05549v1 )

ライセンス: Link先を確認
Laurent Bonnasse-Gahot and Jean-Pierre Nadal(参考訳) 分類は、ディープラーニングがうまく取り組んでいる主なタスクの1つです。 分類もまた基本的な認知能力である。 カテゴリー内圧縮とカテゴリー間分離が特徴であり、入力空間に近接する2つの項目は、異なるカテゴリに属する場合と同一のカテゴリに属する場合とでは、より近く知覚される。 本稿では,認知科学の実験的および理論的結果について検討し,ニューラルネットワークのカテゴリー的効果について考察する。 我々の形式的および数値的な分析は、深い層における神経表現の幾何学に関する洞察を与え、圏境界付近の空間の拡大と圏境界から遠く離れた収縮をもたらす。 2つの相補的なアプローチを用いて分類表現を考察する: 1つは、異なるカテゴリーの刺激間の形態的連続性によって精神物理学と認知神経科学の実験を模倣し、もう1つは、集団レベルでのクラスの分離性(ニューラルネットワークの所定の層)を定量化する分類性指数を導入する。 浅層ニューラルネットワークと深層ニューラルネットワークの両方に,学習が自動的にカテゴリー知覚を誘発することを示す。 さらに、層が深くなるほど、分類学的効果が強くなることを示す。 我々の分析の重要な成果は、ドロップアウト正規化手法の異なるヒューリスティックな実践の有効性の一貫性と統一性を提供することである。 隠れた層に注入されたノイズは、カテゴリの組織に従って構造化され、クラス全体よりもカテゴリ内でより可変性が許容されます。

Classification is one of the major tasks that deep learning is successfully tackling. Categorization is also a fundamental cognitive ability. A well-known perceptual consequence of categorization in humans and other animals, called categorical perception, is characterized by a within-category compression and a between-category separation: two items, close in input space, are perceived closer if they belong to the same category than if they belong to different categories. Elaborating on experimental and theoretical results in cognitive science, here we study categorical effects in artificial neural networks. Our formal and numerical analysis provides insights into the geometry of the neural representation in deep layers, with expansion of space near category boundaries and contraction far from category boundaries. We investigate categorical representation by using two complementary approaches: one mimics experiments in psychophysics and cognitive neuroscience by means of morphed continua between stimuli of different categories, while the other introduces a categoricality index that quantifies the separability of the classes at the population level (a given layer in the neural network). We show on both shallow and deep neural networks that category learning automatically induces categorical perception. We further show that the deeper a layer, the stronger the categorical effects. An important outcome of our analysis is to provide a coherent and unifying view of the efficacy of different heuristic practices of the dropout regularization technique. Our views, which find echoes in the neuroscience literature, insist on the differential role of noise as a function of the level of representation and in the course of learning: noise injected in the hidden layers gets structured according to the organization of the categories, more variability being allowed within a category than across classes.
翻訳日:2021-05-15 06:05:39 公開日:2020-12-10
# HpGAN: 生成逆ネットワークを用いたシーケンス検索

HpGAN: Sequence Search with Generative Adversarial Networks ( http://arxiv.org/abs/2012.05645v1 )

ライセンス: Link先を確認
Mingxing Zhang, Zhengchun Zhou, Lanping Li, Zilong Liu, Meng Yang, and Yanghe Feng(参考訳) シーケンスは多くのエンジニアリングアプリケーションやシステムで重要な役割を果たす。 望ましい性質を持つ配列の探索は、長い間興味深いが困難な研究トピックであった。 本稿では, GAN (Generative Adversarial Network) を用いて, 所望の配列をアルゴリズム的に探索するHpGANを提案する。 HpGANはゼロサムゲームに基づいて生成モデルをトレーニングし、トレーニングシーケンスに類似した特徴を持つシーケンスを生成する。 HpGANでは,離散データ生成におけるGANの制限を回避するために,ホップフィールドネットワークをエンコーダとして設計する。 代数ツールによる伝統的なシーケンス構築と比較すると、HpGANは数学的な解析を防ぐ複雑な目的を持つ難解な問題に特に適している。 1) HpGANは, 相互直交相補的符号集合 (MOCCS) と最適奇長Z-補的ペア (OB-ZCPs) の2つの用途で, 訓練セットに含まれない多くの異なる相互直交相補的符号集合 (MOCCS) を発見した。 文献では、MOCSSとOB-ZCPの両方が無線通信に広く応用されている。 2) hpganはパルス圧縮レーダシステムにおけるミスマッチフィルタ(mmf)推定器の有名なレジェンド列に対して4倍の信号対干渉比を達成する新しいシーケンスを発見した。 これらの配列はalphaseqで発見された配列よりも優れている。

Sequences play an important role in many engineering applications and systems. Searching sequences with desired properties has long been an interesting but also challenging research topic. This article proposes a novel method, called HpGAN, to search desired sequences algorithmically using generative adversarial networks (GAN). HpGAN is based on the idea of zero-sum game to train a generative model, which can generate sequences with characteristics similar to the training sequences. In HpGAN, we design the Hopfield network as an encoder to avoid the limitations of GAN in generating discrete data. Compared with traditional sequence construction by algebraic tools, HpGAN is particularly suitable for intractable problems with complex objectives which prevent mathematical analysis. We demonstrate the search capabilities of HpGAN in two applications: 1) HpGAN successfully found many different mutually orthogonal complementary code sets (MOCCS) and optimal odd-length Z-complementary pairs (OB-ZCPs) which are not part of the training set. In the literature, both MOCSSs and OB-ZCPs have found wide applications in wireless communications. 2) HpGAN found new sequences which achieve four-times increase of signal-to-interference ratio--benchmarked against the well-known Legendre sequence--of a mismatched filter (MMF) estimator in pulse compression radar systems. These sequences outperform those found by AlphaSeq.
翻訳日:2021-05-15 06:05:11 公開日:2020-12-10