このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210620となっている論文です。

PDF登録状況(公開日: 20210620)

TitleAuthorsAbstract論文公表日・翻訳日
# オフ対角級数展開を用いたハミルトニアンダイナミクスの量子アルゴリズム

Quantum Algorithm for Simulating Hamiltonian Dynamics with an Off-diagonal Series Expansion ( http://arxiv.org/abs/2006.02539v4 )

ライセンス: Link先を確認
Amir Kalev and Itay Hen(参考訳) 一般的なハミルトニアン系のダイナミクスをシミュレートする効率的な量子アルゴリズムを提案する。 本手法は,時間進化演算子を非対角的に拡張した電力系列に基づく。 この展開は、ハミルトニアンの対角成分による力学と、その対角部分から生成される力学とを分離するものであり、ユニタリスの線形結合を用いて符号化する。 提案手法は所望の精度に最適に依存しており、概して現在の最先端技術よりもはるかに少ない資源を必要とする。 いくつかのサンプルモデルに対する資源コストの分析を行う。

We propose an efficient quantum algorithm for simulating the dynamics of general Hamiltonian systems. Our technique is based on a power series expansion of the time-evolution operator in its off-diagonal terms. The expansion decouples the dynamics due to the diagonal component of the Hamiltonian from the dynamics generated by its off-diagonal part, which we encode using the linear combination of unitaries technique. Our method has an optimal dependence on the desired precision and, as we illustrate, generally requires considerably fewer resources than the current state-of-the-art. We provide an analysis of resource costs for several sample models.
翻訳日:2023-05-17 06:21:54 公開日:2021-06-20
# 球面上の粒子:磁気単極子の存在下での群理論量子化

Particle on the sphere: group-theoretic quantization in the presence of a magnetic monopole ( http://arxiv.org/abs/2011.04888v2 )

ライセンス: Link先を確認
Rodrigo Andrade e Silva, Ted Jacobson(参考訳) 2次元球面上の粒子を量子化する問題は、相空間上で推移的に作用するシンプレクティック対称性群のユニタリ表現に基づくイザムの大域的方法を含む多くのアプローチによって扱われてきた。 ここでは、イザムのスキームを用いて、シンプレクティックな形状の修正を通じて、球を通して磁束に富んだこの単純なモデルを再考する。 完全一般性を維持するために、はしご作用素を用いて明らかにゲージ不変である対称性代数から直接ヒルベルト空間を構築する。 このようにして、量子化の完全な分類と粒子の対応するエネルギースペクトルを代数的に復元する。 モノポール電荷に対する有名なディラック量子化条件は、古典的および量子カシミール不変量と一致するという要求に従う。 付録では、このアプローチと、球面上の非自明な直線束の切断である波動関数のヒルベルト空間のアウトセットから仮定するより一般的なものとの関係を説明し、代数のカシミール不変量がどのようにバンドル位相を決定するかを示す。

The problem of quantizing a particle on a 2-sphere has been treated by numerous approaches, including Isham's global method based on unitary representations of a symplectic symmetry group that acts transitively on the phase space. Here we reconsider this simple model using Isham's scheme, enriched by a magnetic flux through the sphere via a modification of the symplectic form. To maintain complete generality we construct the Hilbert space directly from the symmetry algebra, which is manifestly gauge-invariant, using ladder operators. In this way, we recover algebraically the complete classification of quantizations, and the corresponding energy spectra for the particle. The famous Dirac quantization condition for the monopole charge follows from the requirement that the classical and quantum Casimir invariants match. In an appendix we explain the relation between this approach and the more common one that assumes from the outset a Hilbert space of wave functions that are sections of a nontrivial line bundle over the sphere, and show how the Casimir invariants of the algebra determine the bundle topology.
翻訳日:2023-04-24 19:25:26 公開日:2021-06-20
# 2つのi型エンタングルフォトニック量子ビットのエントロピーと量子コヒーレンス特性の測定

Measurement of entropy and quantum coherence properties of two type-I entangled photonic qubits ( http://arxiv.org/abs/2012.02658v2 )

ライセンス: Link先を確認
Ali Motazedifard, Seyed Ahmad Madani, and N. S. Vayaghan(参考訳) BBO非線形結晶(NLC)のタイプI SPDCプロセスを用いて、HV(DA)ベースで98.50 \pm 1.33 ~ \% $(87.71 \pm 4.45 ~ \% $)高視認性(高明度)のベル状態に近い偏光絡状態を生成する。 ベルの不等式 chsh バージョンを非局所実数論検定として計算し、古典物理学や隠れ変数理論(hvt)から強い違反を見つけ、s = 2.71 \pm 0.10 $ を得る。 SPDCプロセスにおける一致数(CC)率を測定することにより、単光子検出器(SPD)の量子効率を約$ (25.5\pm 3.4) \%$とすることで、製造会社とよく一致している。 想定通り,ccレートと入力cwレーザーのポンプパワーの線形依存性を検証した。 量子ビットの測定理論を用いて、16の偏光測定の線形集合による量子状態のトモグラフィー的再構成と、数値最適化に基づく最大様相技術(MLT)を用いて、準備状態の非分離性と絡み合いに基づく物理非負の定値密度行列を計算する。 最大極大密度演算子を持つことにより、コンカレンス、生成の絡み合い、絡み合い、対数的負性、および線形エントロピー、フォン・ノイマンエントロピー、レニー2エントロピーなどの異なる絡み合いエントロピーなどの絡み合い尺度を正確に計算する。 最後に、この高輝度かつ低レートの光子源は、ラボ内の短距離量子測定に使用できる。

Using the type-I SPDC process in BBO nonlinear crystal (NLC), we generate a polarization-entangled state near to the maximally-entangled Bell-state with high-visibility (high-brightness) $ 98.50 \pm 1.33 ~ \% $ ($ 87.71 \pm 4.45 ~ \% $) for HV (DA) basis. We calculate the CHSH version of the Bell inequality, as a nonlocal realism test, and find a strong violation from the classical physics or any hidden variable theory (HVT), $ S= 2.71 \pm 0.10 $. Via measuring the coincidence count (CC) rate in the SPDC process, we obtain the quantum efficiency of single-photon detectors (SPDs) around $ (25.5\pm 3.4) \% $, which is in good agreement to their manufacturer company. As expected, we verify the linear dependency of the CC rate vs. pump power of input CW-laser, which may yield to find the effective second-order susceptibility crystal. Using the theory of the measurement of qubits, includes a tomographic reconstruction of quantum states due to the linear set of 16 polarization-measurement, together with a maximum-likelihood-technique (MLT), which is based on the numerical optimization, we calculate the physical non-negative definite density matrices, which implies on the non-separability and entanglement of prepared state. By having the maximum likelihood density operator, we calculate precisely the entanglement measures such as Concurrence, entanglement of formation, tangle, logarithmic negativity, and different entanglement entropies such as linear entropy, Von-Neumann entropy, and Renyi 2-entropy. Finally, this high-brightness and low-rate entangled photons source can be used for short-range quantum measurements in the Lab.
翻訳日:2023-04-22 02:53:21 公開日:2021-06-20
# Sagnac-based type-II polarization-entanglement SPDC-sourceにおける非局所リアリズム試験と量子状態トモグラフィー

Nonlocal realism tests and quantum state tomography in Sagnac-based type-II polarization-entanglement SPDC-source ( http://arxiv.org/abs/2012.04086v2 )

ライセンス: Link先を確認
Ali Motazedifard, and Seyed Ahmad Madani and J. Jafari Dashkasan and N. Sobhkhiz Vayaghan(参考訳) 我々は, サニャック干渉計(SI)内のKTiOPO$ _4 $ (PPKTP)コリニア結晶において, タイプIIの自発パラメトリックダウンコンバージョン (SPDC) プロセスを用いて, 最大絡み合うベル状態に近い高強度, 超高輝度, 位相安定な偏光結合状態を実験的に生成した。 ベルの不等式測定、フリードマンの検定、CHSHの不等式の違い、およびこれら全てを非局所的リアリズムテストと見なす可視性テストは、我々の生成した絡み合った状態が古典物理学や隠れ変数理論に強く違反していることを示している。 s=2.78 \pm 0.01 $ with high brightness $ \mathcal{v}_{\rm hv}= \% (99.969 \pm 0.003) $ and $\mathcal{v}_{\rm da}= \% (96.751 \pm 0.002) $ であり、フリードマンテストによる$ \delta_{\rm f} = 0.01715 \pm 0.00001 $ という非常に強い違反がある。 さらに, 量子状態のトモグラフィー再構成と最大相似テクニーク(mlt)を数値最適化として用いることにより, 生成した状態の非分離性と絡み合いを示す物理的非負定密度作用素を得る。 最大極大密度演算子を持つことで、重要な絡み値と絡み値のエントロピーを計算する。 sagnac構成は、量子通信、センシング、メトロロジー、量子情報プロトコルに非常に応用され、量子照明ベースのlidarおよび自由空間量子鍵分布(qkd)で使用される可能性を持つ、高速エンタングルメント源への双方向結晶励起率を提供する。

We have experimentally created a robust, ultrabright and phase-stable polarization-entangled state close to maximally entangled Bell-state with $ \% 98 $-fidelity using the type-II spontaneous parametric down-conversion (SPDC) process in periodically-poled KTiOPO$ _4 $ (PPKTP) collinear crystal inside a Sagnac interferometer (SI). Bell inequality measurement, Freedman's test, as the different versions of CHSH inequality, and also visibility test which all can be seen as the nonlocal realism tests, imply that our created entangled state shows a strong violation from the classical physics or any hidden-variable theory. We have obtained very reliable and very strong Bell violation as $ S=2.78 \pm 0.01 $ with high brightness $ \mathcal{V}_{\rm HV}= \% (99.969 \pm 0.003) $ and $\mathcal{V}_{\rm DA}= \% (96.751 \pm 0.002) $ and very strong violation due to Freedman test as $ \delta_{\rm F} = 0.01715 \pm 0.00001 $. Furthermore, using the tomographic reconstruction of quantum states together a maximum-likelihood-technique (MLT) as the numerical optimization, we obtain the physical non-negative definite density operator which shows the nonseparability and entanglement of our prepared state. By having the maximum likelihood density operator, we calculate some important entanglement-measures and entanglement entropies. The Sagnac configuration provides bidirectional crystal pumping yields to high-rate entanglement source which is very applicable in quantum communication, sensing and metrology as well as quantum information protocols, and has potential to be used in quantum illumination-based LIDAR and free-space quantum key distribution (QKD).
翻訳日:2023-04-22 02:47:04 公開日:2021-06-20
# 量子力学におけるポテンシャル-基底状態写像の諸性質

Some properties of the potential-to-ground state map in quantum mechanics ( http://arxiv.org/abs/2012.04054v2 )

ライセンス: Link先を確認
Louis Garrigue(参考訳) 静的多体量子力学において、ポテンシャルから基底状態への写像を解析する。 まず、結合ポテンシャルの空間が経路連結であることを証明する。 すると、写像は局所的に弱強連続であり、その微分はコンパクトであることを示す。 特に、これはコーン・シャム逆問題の不備を意味する。

We analyze the map from potentials to the ground state in static many-body quantum mechanics. We first prove that the space of binding potentials is path-connected. Then we show that the map is locally weak-strong continuous and that its differential is compact. In particular, this implies the ill-posedness of the Kohn-Sham inverse problem.
翻訳日:2023-04-21 20:34:58 公開日:2021-06-20
# 都市庭園の訪問者の地理空間的行動の解析:スマートフォンによる位置決めは有効な解決策か?

Analysis of geospatial behaviour of visitors of urban gardens: is positioning via smartphones a valid solution? ( http://arxiv.org/abs/2107.03925v1 )

ライセンス: Link先を確認
Francesco Pirotti, Alberto Guarnieri, Marco Piragnolo, Marco Boscaro, Raffaele Cavalli(参考訳) 位置追跡はスマートフォンで実用的で、全デバイスで比較的安価で、同じボックスに位置情報とネットワークを組み込むために必要なセンサーを備えている。 近年のモデルは、複数の星座を受信できるGNSSアンテナを搭載している。 本研究は,都市庭園における人々の行動の空間的分析において,スマートフォンで直接記録されたGNSS位置が有効な解である,という仮説を検証した。 特定の行動は、訪問者の健康と幸福を促進する治療スポットと関連付けられる。 以下の3つが報告されている。 (i)基準軌道に対する位置の精度の評価 (ii)位置情報の送信・処理を自動化するフレームワークの実装 (iii)空間分析による好みスポットの分析 異なる時期、異なる方法、すなわち所有者のポケットや硬いフレームで調査するために、異なるデバイスが使用されました。 各位置点から基準軌道までの距離を用いて精度を推定し,静的多重測定により精度を推定した。 Telegramアプリケーションによるチャットボットが実装され、ユーザーはデータを集中型コンピューティング環境に送信し、空間分析を自動化する。 結果は、95%の信頼度で ~2.3 m 以下の水平精度で、調査の間に有意な差はなく、デバイス間の差もごくわずかである。 gnssのみおよび電話セルによる補助ナビゲーションも有意差は認められなかった。 時間と空間における残差の自己相関は残差の強い一貫性を示し,歩行行動の空間的分析に有効な解となった。

Tracking locations is practical and speditive with smartphones, as they are omnipresent devices, relatively cheap, and have the necessary sensors for positioning and networking integrated in the same box. Nowadays recent models have GNSS antennas capable of receiving multiple constellations. In the proposed work we test the hypothesis that GNSS positions directly recorded by smartphones can be a valid solution for spatial analysis of people's behaviour in an urban garden. Particular behaviours can be linked to therapeutic spots that promote health and well-being of visitors. Three parts are reported: (i) assessment of the accuracy of the positions relative to a reference track, (ii) implementation of a framework for automating transmission and processing of the location information, (iii) analysis of preferred spots via spatial analytics. Different devices were used to survey at different times and with different methods, i.e. in the pocket of the owner or on a rigid frame. Accuracy was estimated using distance of each located point to the reference track, and precision was estimated with static multiple measures. A chat-bot through the Telegram application was implemented to allow users to send their data to a centralized computing environment thus automating the spatial analysis. Results report a horizontal accuracy below ~2.3 m at 95% confidence level, without significant difference between surveys, and very little differences between devices. GNSS-only and assisted navigation with telephone cells also did not show significant difference. Autocorrelation of the residuals over time and space showed strong consistency of the residuals, thus proving a valid solution for spatial analysis of walking behaviour.
翻訳日:2023-03-26 01:15:16 公開日:2021-06-20
# 量子コンピュータを用いた凝縮位相分光のシミュレーション

Simulation of Condensed-Phase Spectroscopy with Near-term Digital Quantum Computer ( http://arxiv.org/abs/2106.10767v1 )

ライセンス: Link先を確認
Chee-Kong Lee, Chang-Yu Hsieh, Shengyu Zhang, Liang Shi(参考訳) 分光法は分子系の構造と力学を理解するのに欠かせない道具である。 しかし、急激な近似を行わない限り、システムサイズによる計算複雑性の指数的スケーリングのため、分光の計算モデリングは困難である。 量子コンピュータは、これらの古典的に難解な計算タスクを克服する可能性があるが、量子コンピュータを用いて分光をシミュレートする既存のアプローチは、孤立分子と静的分子のみを扱うことができる。 本研究では,マルチスケールモデリングと時間依存変動量子アルゴリズムを組み合わせたワークフローを構築し,関連する時間相関関数を用いて,凝縮相環境と相互作用するシステムの線形分光を計算する。 有機半導体の紫外吸収スペクトルを数値シミュレーションすることで,本手法の有効性を実証する。 我々の動的アプローチは、静的手法で見落としているいくつかのスペクトル特徴を捉えていることを示す。 この手法は他の線形凝縮相分光法に直接適用することができ、非線形多次元分光法に拡張することができる。

Spectroscopy is an indispensable tool in understanding the structures and dynamics of molecular systems. However computational modelling of spectroscopy is challenging due to the exponential scaling of computational complexity with system sizes unless drastic approximations are made. Quantum computer could potentially overcome these classically intractable computational tasks, but existing approaches using quantum computers to simulate spectroscopy can only handle isolated and static molecules. In this work we develop a workflow that combines multi-scale modeling and time-dependent variational quantum algorithm to compute the linear spectroscopy of systems interacting with their condensed-phase environment via the relevant time correlation function. We demonstrate the feasibility of our approach by numerically simulating the UV-Vis absorption spectra of organic semiconductors. We show that our dynamical approach captures several spectral features that are otherwise overlooked by static methods. Our method can be directly used for other linear condensed-phase spectroscopy and could potentially be extended to nonlinear multi-dimensional spectroscopy.
翻訳日:2023-03-26 01:14:53 公開日:2021-06-20
# 異方性と傾斜したディラックフォトニック格子の量子電気力学

Quantum electrodynamics in anisotropic and tilted Dirac photonic lattices ( http://arxiv.org/abs/2106.10743v1 )

ライセンス: Link先を確認
J.Redondo-Yuste, M. Blanco de Paz, P.A. Huidobro, A.Gonz\'alez-Tudela(参考訳) 量子電磁力学の最も顕著な予測の1つは、電磁場の真空揺らぎが原子の自発的な放出と光子による相互作用をもたらす可能性があることである。 これらの過程は光浴の性質に強く依存するため、現在の発芽場は光子の存在を非自明なエネルギー分散(例えば、フォトニック結晶に閉じ込められたもの)で変化させる研究である。 顕著な例は等方性ディラック光子の場合であり、これは近年、非指数自然放出や散逸のない長距離エミッタ相互作用をもたらすことが示されている。 本研究では、傾いた半ディラック、最近発見されたタイプIIおよびIIIディラック点を含む異方性ディラックコーン分散を考慮し、これらの過程を更に調整する方法を示す。 特に,格子の異方性を変化させることで,相互作用の空間的形状とコヒーレント/非コヒーレントな性質の両方を変えることができることを示す。 最後に,これらのエネルギー分散を,サブ波長原子配列に基づく量子エミッタと通信可能な実装について検討する。

One of the most striking predictions of quantum electrodynamics is that vacuum fluctuations of the electromagnetic field can lead to spontaneous emission of atoms as well as photon-mediated interactions among them. Since these processes strongly depend on the nature of the photonic bath, a current burgeoning field is the study of their modification in the presence of photons with non-trivial energy dispersions, e.g., the ones confined in photonic crystals. A remarkable example is the case of isotropic Dirac-photons, which has been recently shown to lead to non-exponential spontaneous emission as well as dissipation-less long-range emitter interactions. In this work, we show how to further tune these processes by considering anisotropic Dirac cone dispersions, which include tilted, semi-Dirac, and the recently discovered type II and III Dirac points. In particular, we show how by changing the anisotropy of the lattice one can change both the spatial shape of the interactions as well as its coherent/incoherent nature. Finally, we discuss a possible implementation where these energy dispersions can be engineered and interfaced with quantum emitters based on subwavelength atomic arrays.
翻訳日:2023-03-26 01:14:39 公開日:2021-06-20
# 量子光学における1光子および2光子局在

One- and Two-Photon Localization in Quantum Optics ( http://arxiv.org/abs/2106.10739v1 )

ライセンス: Link先を確認
Joseph Kraisler and John C. Schotland(参考訳) ランダム媒質中における一光子および二光子状態の伝播について,最近提案された連続体モデルの格子類似性を考える。 我々は、原子の共鳴エネルギーを中心にしたエネルギーバンドに単一光子の局在があることを見出した。 さらに、任意に大きいエネルギーでの光子の局在も見られる。 2つの光子の場合、共振周波数の2倍のエネルギー帯域に局在している。

We consider the lattice analog of a recently proposed continuum model for the propagation of one- and two-photon states in a random medium. We find that there is localization of single photons in an energy band centered at the resonant energy of the atoms. Moreover, there is also localization of photons at arbitrarily large energies. For the case of two photons, there is localization in an energy band centered at twice the resonant frequency.
翻訳日:2023-03-26 01:14:17 公開日:2021-06-20
# スピン1/2xxz鎖におけるブロッホ振動

Bloch oscillations in the spin-1/2 XXZ chain ( http://arxiv.org/abs/2106.10695v1 )

ライセンス: Link先を確認
Yankang Liu, Yohei Fuji, Haruki Watanabe(参考訳) 完全な周期ポテンシャルの下では、一定の電場によって誘導される電流密度は非自明な振動(いわゆるブロッホ振動)を示し、その振幅は大きなシステムサイズ制限ではゼロである。 このような振動は、ほとんど相互作用しない粒子に対してよく研究され、実験で観察されている。 本研究では,強相互作用系におけるブロッホ振動を再検討する。 スピンレス電子のモデルにマッピングできるスピン-1/2 XXZ鎖を解析することにより、強磁性ギャップ状態における異方性パラメータ $\Delta=-\cos(\pi/p)$$$(p=3,4,5,\cdots$) の電流密度が、弱い電界極限においても非相互作用の場合 $\Delta=0$) と同じ質的に振舞うことを示した。 これらの値から$\Delta$が逸脱すると、弱い電場の下での振動の振幅は系の大きさの因子によって抑制される。 ランドウ・ツェナー公式を用いて,そのような挙動を観測するのに要する電界の強さを推定した。

Under a perfect periodic potential, the electric current density induced by a constant electric field may exhibit nontrivial oscillations, so-called Bloch oscillations, with an amplitude that remains nonzero in the large system size limit. Such oscillations have been well studied for nearly noninteracting particles and observed in experiments. In this work, we revisit Bloch oscillations in strongly interacting systems. By analyzing the spin-1/2 XXZ chain, which can be mapped to a model of spinless electrons, we demonstrate that the current density at special values of the anisotropy parameter $\Delta=-\cos(\pi/p)$ ($p=3,4,5,\cdots$) in the ferromagnetic gapless regime behaves qualitatively the same as in the noninteracting case ($\Delta=0$) even in the weak electric field limit. When $\Delta$ deviates from these values, the amplitude of the oscillation under a weak electric field is suppressed by a factor of the system size. We estimate the strength of the electric field required to observe such a behavior using the Landau--Zener formula.
翻訳日:2023-03-26 01:14:12 公開日:2021-06-20
# 単イオン異方性を持つスピン-1ハイゼンベルク鎖の量子相転移のプローブとしての真の三成分の絡み合い

Genuine tripartite entanglement as a probe of quantum phase transitions in a spin-1 Heisenberg chain with single-ion anisotropy ( http://arxiv.org/abs/2106.10690v1 )

ライセンス: Link先を確認
Chon-Fai Kam and Yang Chen(参考訳) スピン-1 ハイゼンベルク鎖の量子相転移について、簡単な軸異方性 $\Delta$ と一軸単イオン異方性 $D$ を多部交絡法を用いて検討する。 量子再正規化群法では, スピンブロック間の真の三部配位が三部配位子超行列式によって測定される。 このアプローチを用いて、トポロジカル Haldane, large-D および anti-ferromagnetic N\'eel phase の位相境界は、$\Delta>0$ の半$\Delta-D$平面で決定される。 スピンブロックの大きさが大きくなると、ブロック間の真の三成分の絡み合いは位相ハルダン相において非ゼロの高原を示し、スピン系における位相相のプローブとしての真の多成分の絡み合いの使用を正当化するハルダン-大型d相とハルダン-n-eel相の間の相境界の両方で急降下する。

We study the quantum phase transitions of spin-1 Heisenberg chains with an easy-axis anisotropy $\Delta$ and a uniaxial single-ion anisotropy $D$ using a multipartite entanglement approach. The genuine tripartite entanglement between the spin blocks, measured by the tripartite qutrit hyperdeterminant, is calculated within the quantum renormalization group method. Using this approach, the phase boundaries between the topological Haldane, large-D and anti-ferromagnetic N\'eel phases are determined in the half $\Delta-D$ plane with $\Delta>0$. When the size of the spin blocks increases, the genuine tripartite entanglement between the blocks exhibits a nonzero plateau in the topological Haldane phase, and experiences abrupt drops at both the phase boundaries between the Haldane--large-D and Haldane--N\'eel phases, which justifies the usage of genuine multipartite entanglement as a probe of topological phases in spin systems.
翻訳日:2023-03-26 01:13:45 公開日:2021-06-20
# 多ビットグラフ状態の絡み合いの幾何学的測定とその量子コンピュータ上の検出

Geometric measure of entanglement of multi-qubit graph states and its detection on a quantum computer ( http://arxiv.org/abs/2106.10688v1 )

ライセンス: Link先を確認
Kh. P. Gnatenko, N. A. Susulovska(参考訳) 制御相シフト演算子の系における分離可能な量子状態に対する作用によって生成されるマルチキュービットグラフ状態は、全てのキュービットが任意の同一状態にある。 任意のグラフで表されるグラフ状態に対して、キュービットと他のキュービットの絡み合いの幾何学的測度が見つかる。 絡み合いは、量子ビットを表す頂点の度合い、位相シフトゲートのパラメータの絶対値、ゲートが作用している状態のパラメータに依存する。 また、グラフ状態の絡み合いの幾何学的測度は量子コンピュータ $\textrm{ibmq\_athens}$ で定量化される。 量子デバイスで得られた結果は解析結果とよく一致している。

Multi-qubit graph states generated by the action of controlled phase shift operators on a separable quantum state of a system, in which all the qubits are in arbitrary identical states, are examined. The geometric measure of entanglement of a qubit with other qubits is found for the graph states represented by arbitrary graphs. The entanglement depends on the degree of the vertex representing the qubit, the absolute values of the parameter of the phase shift gate, and the parameter of state the gate is acting on. Also, the geometric measure of entanglement of the graph states is quantified on the quantum computer $\textrm{ibmq\_athens}$. The results obtained on the quantum device are in good agreement with analytical ones.
翻訳日:2023-03-26 01:13:17 公開日:2021-06-20
# 無限水平環境における強化学習における値関数の統計的推定

Statistical Inference of the Value Function for Reinforcement Learning in Infinite Horizon Settings ( http://arxiv.org/abs/2001.04515v2 )

ライセンス: Link先を確認
C. Shi, S. Zhang, W. Lu and R. Song(参考訳) 強化学習はエージェントが最適な方針を学習し、逐次的な意思決定問題において環境と対話することを可能にする一般的な技術である。 ポリシーの良さは、初期状態から始まる値関数によって測定される。 本稿では,決定点数が無限大に分散する無限地平線設定において,政策値の信頼区間(CI)を構築することを目的とする。 本稿では,その信頼区間を導出するために series/sieve 法に基づくポリシーに付随する動作値状態関数 (q関数) をモデル化する。 対象のポリシーが観測データにも依存する場合、推定したポリシーとその値推定器を再帰的に更新するシーケンシャル・バリュー・アセスメント(save)手法を提案する。 軌道数と決定点数のいずれかが無限大に発散する限り, 最適方針が一意でない場合においても, 提案するciは名目カバレッジを達成できることを示す。 シミュレーション研究は理論的な知見を裏付けるために行われます。 提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。 提案されたプロシージャのPython実装はhttps://github.com/shengzhang37/SAVEで公開されている。

Reinforcement learning is a general technique that allows an agent to learn an optimal policy and interact with an environment in sequential decision making problems. The goodness of a policy is measured by its value function starting from some initial state. The focus of this paper is to construct confidence intervals (CIs) for a policy's value in infinite horizon settings where the number of decision points diverges to infinity. We propose to model the action-value state function (Q-function) associated with a policy based on series/sieve method to derive its confidence interval. When the target policy depends on the observed data as well, we propose a SequentiAl Value Evaluation (SAVE) method to recursively update the estimated policy and its value estimator. As long as either the number of trajectories or the number of decision points diverges to infinity, we show that the proposed CI achieves nominal coverage even in cases where the optimal policy is not unique. Simulation studies are conducted to back up our theoretical findings. We apply the proposed method to a dataset from mobile health studies and find that reinforcement learning algorithms could help improve patient's health status. A Python implementation of the proposed procedure is available at https://github.com/shengzhang37/SAVE.
翻訳日:2023-01-11 22:38:28 公開日:2021-06-20
# ロボット強化学習のための円滑な探索

Smooth Exploration for Robotic Reinforcement Learning ( http://arxiv.org/abs/2005.05719v2 )

ライセンス: Link先を確認
Antonin Raffin, Jens Kober, Freek Stulp(参考訳) 強化学習(rl)は、ロボットが現実世界とのインタラクションからスキルを学習することを可能にする。 実際には、深層rlで使用される非構造的なステップベースの探索は、しばしばシミュレーションで非常に成功し、実際のロボットの不安定な動きパターンに繋がる。 結果として生じる不安定な行動の結果は、探索の貧弱さや、ロボットにダメージを与えることさえある。 本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。 この適応を可能にするために,より汎用的な特徴を用い,ノイズを周期的に再サンプリングする2つのsde拡張を提案し,新たな探索法である一般化状態依存探索 (gsde) を提案する。 我々は、シミュレーション、PyBullet連続制御タスク、および、腱駆動弾性ロボット、四輪車、RCカーの3つの異なる現実ロボット上で、gSDEを評価した。 gSDEのノイズサンプリング間隔は、性能と滑らかさを妥協させ、パフォーマンスを損なうことなく実際のロボットを直接訓練することができる。 コードはhttps://github.com/dlr-rm/stable-baselines3で入手できる。

Reinforcement learning (RL) enables robots to learn skills from interactions with the real world. In practice, the unstructured step-based exploration used in Deep RL -- often very successful in simulation -- leads to jerky motion patterns on real robots. Consequences of the resulting shaky behavior are poor exploration, or even damage to the robot. We address these issues by adapting state-dependent exploration (SDE) to current Deep RL algorithms. To enable this adaptation, we propose two extensions to the original SDE, using more general features and re-sampling the noise periodically, which leads to a new exploration method generalized state-dependent exploration (gSDE). We evaluate gSDE both in simulation, on PyBullet continuous control tasks, and directly on three different real robots: a tendon-driven elastic robot, a quadruped and an RC car. The noise sampling interval of gSDE permits to have a compromise between performance and smoothness, which allows training directly on the real robots without loss of performance. The code is available at https://github.com/DLR-RM/stable-baselines3.
翻訳日:2022-12-03 18:42:23 公開日:2021-06-20
# PIVEN: 特定の値予測を伴う予測間隔のためのディープニューラルネットワーク

PIVEN: A Deep Neural Network for Prediction Intervals with Specific Value Prediction ( http://arxiv.org/abs/2006.05139v3 )

ライセンス: Link先を確認
Eli Simhayev, Gilad Katz, Lior Rokach(参考訳) 回帰タスクにおけるニューラルネットの堅牢性の改善は、複数のドメインにおける彼らの応用の鍵となる。 深層学習に基づくアプローチは、特定の値(すなわち点予測)の予測を改善するか、不確実性を定量化する予測間隔(PI)を作成することによって、この目標を達成することを目指している。 PIと値予測の両方を生成するディープニューラルネットワークであるPIVENを提案する。 損失関数は,上界と下界の関数として値予測を表現し,モデル複雑性を増大させることなく,間隔内に収まることを保証する。 さらに,本手法はPI内のデータ分布を仮定せず,実世界の様々な問題に対してその価値予測をより効果的にする。 既知のベンチマーク実験およびアブレーション試験により、我々の手法は、現在のPI生産における最先端のアプローチよりも厳密な不確実性を生み出す一方で、値予測に対する最先端のアプローチと同等の性能を維持していることが示された。 さらに、過去の研究を超えて、PIVENと現代のニューラルネットを組み合わせた大規模な画像データセットを評価に含めています。

Improving the robustness of neural nets in regression tasks is key to their application in multiple domains. Deep learning-based approaches aim to achieve this goal either by improving their prediction of specific values (i.e., point prediction), or by producing prediction intervals (PIs) that quantify uncertainty. We present PIVEN, a deep neural network for producing both a PI and a value prediction. Our loss function expresses the value prediction as a function of the upper and lower bounds, thus ensuring that it falls within the interval without increasing model complexity. Moreover, our approach makes no assumptions regarding data distribution within the PI, making its value prediction more effective for various real-world problems. Experiments and ablation tests on known benchmarks show that our approach produces tighter uncertainty bounds than the current state-of-the-art approaches for producing PIs, while maintaining comparable performance to the state-of-the-art approach for value-prediction. Additionally, we go beyond previous work and include large image datasets in our evaluation, where PIVEN is combined with modern neural nets.
翻訳日:2022-11-23 13:53:11 公開日:2021-06-20
# VAEにおけるラベル特性の捕捉

Capturing Label Characteristics in VAEs ( http://arxiv.org/abs/2006.10102v2 )

ライセンス: Link先を確認
Tom Joy, Sebastian M. Schmon, Philip H. S. Torr, N. Siddharth and Tom Rainforth(参考訳) 本稿では,これらのラベルに関連付けられたリッチな特徴情報をキャプチャするラベルをvaesに組み込むための原則的アプローチを提案する。 先行研究はラベル値に直接対応する潜在変数を学習することでこれらを和らげてきたが、vaes-capturing rich label characteristics with the latents における監視の効果とは逆であると主張する。 例えば、単に人の年齢ではなく、若く見えるような顔の特徴を捉えたいかもしれない。 そこで我々は,新しいVAEモデルであるCCVAEを開発し,ラベル特性を潜在空間内で明示的に捉え,ラベル値と潜在空間の直接対応を推定する。 CCVAEは,このような特徴のあるラベルとラベルのマッピングの司法的構造化を通じて,様々な監督スキームを通じて,興味のある特徴の有意義な表現を効果的に学習できることを示す。 特に,CCVAEは,与えられたラベルの特性内におけるスムーズなトラバーサル,多様な条件生成,データポイント間の特性の伝達など,より効果的で汎用的な介入を可能にすることを示す。

We present a principled approach to incorporating labels in VAEs that captures the rich characteristic information associated with those labels. While prior work has typically conflated these by learning latent variables that directly correspond to label values, we argue this is contrary to the intended effect of supervision in VAEs-capturing rich label characteristics with the latents. For example, we may want to capture the characteristics of a face that make it look young, rather than just the age of the person. To this end, we develop the CCVAE, a novel VAE model and concomitant variational objective which captures label characteristics explicitly in the latent space, eschewing direct correspondences between label values and latents. Through judicious structuring of mappings between such characteristic latents and labels, we show that the CCVAE can effectively learn meaningful representations of the characteristics of interest across a variety of supervision schemes. In particular, we show that the CCVAE allows for more effective and more general interventions to be performed, such as smooth traversals within the characteristics for a given label, diverse conditional generation, and transferring characteristics across datapoints.
翻訳日:2022-11-19 19:52:22 公開日:2021-06-20
# 制約に基づくニューラルネットワークの規則化

Constraint-Based Regularization of Neural Networks ( http://arxiv.org/abs/2006.10114v2 )

ライセンス: Link先を確認
Benedict Leimkuhler, Timoth\'ee Pouchon, Tiffany Vlaar and Amos Storkey(参考訳) 本稿では,制約を確率勾配Langevinフレームワークに効率よく組み込んで深層ニューラルネットワークのトレーニングを行う手法を提案する。 制約はモデルのパラメータ空間を直接制御することを可能にする。 適切に設計され、消失/爆発勾配の問題、重みの大きさの制御、ディープニューラルネットワークの安定化を削減し、トレーニングアルゴリズムの堅牢性とトレーニングされたニューラルネットワークの一般化能力を向上させる。 重み行列の直交保存と明示的な重み正規化による制約付きトレーニング手法の例を示す。 本稿では,ランジュバン力学の過減衰定式化と過減衰形式において,momentaがサンプリング効率の向上に寄与する手法について述べる。 これらの手法は画像分類と自然言語処理の試験例で検討されている。

We propose a method for efficiently incorporating constraints into a stochastic gradient Langevin framework for the training of deep neural networks. Constraints allow direct control of the parameter space of the model. Appropriately designed, they reduce the vanishing/exploding gradient problem, control weight magnitudes and stabilize deep neural networks and thus improve the robustness of training algorithms and the generalization capabilities of the trained neural network. We present examples of constrained training methods motivated by orthogonality preservation for weight matrices and explicit weight normalizations. We describe the methods in the overdamped formulation of Langevin dynamics and the underdamped form, in which momenta help to improve sampling efficiency. The methods are explored in test examples in image classification and natural language processing.
翻訳日:2022-11-19 19:51:34 公開日:2021-06-20
# アルツハイマー連続体における未観測コンバウンディングの存在による因果効果の推定

Estimation of Causal Effects in the Presence of Unobserved Confounding in the Alzheimer's Continuum ( http://arxiv.org/abs/2006.13135v4 )

ライセンス: Link先を確認
Sebastian P\"olsterl, Christian Wachinger(参考訳) アルツハイマー病による神経解剖学と認知低下の関係についての研究は、ここ10年で大きな研究課題となっている。 しかし、観測データから単純な関連よりも因果関係を推測するには、 (i)図形モデルにおける認知的低下につながる因果関係を表現し、 (ii)収集したデータから利害の因果効果が特定可能であることを保証する。 アルツハイマー病連続体における原因と効果に関する現在の臨床知識から因果グラフを導出し,因果効果の同定にはすべての共同創設者を把握・測定する必要があることを示した。 しかし、複雑な神経画像研究では、すべての潜在的な共同創設者を知らないし、データも持っていない。 この要件を緩和するために、代替共同創設者を確率的潜在因子モデルを通じて導出することにより、複数の原因間の依存関係を活用する。 理論解析では, 代替共著者を用いることで, 神経解剖学が認知に与える影響を同定できることを実証する。 半合成データにおけるアプローチの有効性を定量的に評価し、真の因果効果を把握し、アルツハイマー病連続体における実際のデータにその使用法を説明している。

Studying the relationship between neuroanatomy and cognitive decline due to Alzheimer's has been a major research focus in the last decade. However, to infer cause-effect relationships rather than simple associations from observational data, we need to (i) express the causal relationships leading to cognitive decline in a graphical model, and (ii) ensure the causal effect of interest is identifiable from the collected data. We derive a causal graph from the current clinical knowledge on cause and effect in the Alzheimer's disease continuum, and show that identifiability of the causal effect requires all confounders to be known and measured. However, in complex neuroimaging studies, we neither know all potential confounders nor do we have data on them. To alleviate this requirement, we leverage the dependencies among multiple causes by deriving a substitute confounder via a probabilistic latent factor model. In our theoretical analysis, we prove that using the substitute confounder enables identifiability of the causal effect of neuroanatomy on cognition. We quantitatively evaluate the effectiveness of our approach on semi-synthetic data, where we know the true causal effects, and illustrate its use on real data on the Alzheimer's disease continuum, where it reveals important causes that otherwise would have been missed.
翻訳日:2022-11-18 00:01:54 公開日:2021-06-20
# DisCO PAL: 心理学的・感情的なラベルを持つダイアクロニック・スパニッシュ・ソネット

DISCO PAL: Diachronic Spanish Sonnet Corpus with Psychological and Affective Labels ( http://arxiv.org/abs/2007.04626v3 )

ライセンス: Link先を確認
Alberto Barbado, V\'ictor Fresno, \'Angeles Manjarr\'es Riesco, Salvador Ros(参考訳) 今日では、様々な言語からのコーパスにテキストマイニングの応用が数多く存在する。 しかし、その多くは散文のテキストに基づいており、詩のテキストを扱うアプリケーションがない。 詩におけるテキストマイニングの応用例として、個々の単語から派生した特徴を用いて、語彙的、亜語彙的、インターレクシカルな意味を捉え、そのテキストの一般的な感情的意味(GAM)を推測することがある。 しかし、この提案はいくつかの言語で詩に有用であることが証明されているものの、スペイン語詩とソネットのような高度に構造化された詩作品の両方についての研究は欠如している。 本稿では,スペイン語ソネットの注釈付きコーパスについて,GAMを予測するために個々の単語から特徴を構築できるかどうかを解析するために検討する。 この目的は、感情レベルでソネットをモデル化することである。 この記事は、ソネットのGAMとコンテンツ自体との関係についても分析している。 そこで本稿では,ソネットが特定の用語に関連付けられている場合のタグを識別し,心理学的観点からその内容を考察する。 次に,GAMがそれぞれの心理的条件に応じてどのように変化するかを検討する。 このコーパスは、15世紀から19世紀にかけての異なる世紀の著者による274のスペインのソネットを含んでいる。 このコーパスは異なるドメインの専門家によって注釈付けされた。 専門家らは、詩に情緒的・語彙的特徴と、心理学に属する領域の概念を注釈した。 これにより、ソネットのコーパスは、詩推薦システム、著者のパーソナリティテキストマイニング研究、治療目的の詩の使用など、様々な用途で使用することができる。

Nowadays, there are many applications of text mining over corpora from different languages. However, most of them are based on texts in prose, lacking applications that work with poetry texts. An example of an application of text mining in poetry is the usage of features derived from their individual words in order to capture the lexical, sublexical and interlexical meaning, and infer the General Affective Meaning (GAM) of the text. However, even though this proposal has been proved as useful for poetry in some languages, there is a lack of studies for both Spanish poetry and for highly-structured poetic compositions such as sonnets. This article presents a study over an annotated corpus of Spanish sonnets, in order to analyse if it is possible to build features from their individual words for predicting their GAM. The purpose of this is to model sonnets at an affective level. The article also analyses the relationship between the GAM of the sonnets and the content itself. For this, we consider the content from a psychological perspective, identifying with tags when a sonnet is related to a specific term. Then, we study how GAM changes according to each of those psychological terms. The corpus used contains 274 Spanish sonnets from authors of different centuries, from 15th to 19th. This corpus was annotated by different domain experts. The experts annotated the poems with affective and lexico-semantic features, as well as with domain concepts that belong to psychology. Thanks to this, the corpus of sonnets can be used in different applications, such as poetry recommender systems, personality text mining studies of the authors, or the usage of poetry for therapeutic purposes.
翻訳日:2022-11-12 04:16:16 公開日:2021-06-20
# 文書レベルの異種グラフ注意ネットワークを用いた対話関係抽出

Dialogue Relation Extraction with Document-level Heterogeneous Graph Attention Networks ( http://arxiv.org/abs/2009.05092v3 )

ライセンス: Link先を確認
Hui Chen, Pengfei Hong, Wei Han, Navonil Majumder, Soujanya Poria(参考訳) 対話関係抽出(DRE)は,多人数対話で言及される2つのエンティティ間の関係を検出することを目的としている。 インターネット上の会話データから知識グラフを構築する上で重要な役割を担い、インテリジェントな対話システムの開発を促進する。 DREの従来の手法は、話者情報を有意に活用していない。 したがって、それらは代名詞とトリガーを通じて関連する引数エンティティに追加のコンテキストを与える重要な話者間関係をモデル化できない。 しかし,本稿では,有意に接続された話者,エンティティタイプ,エンティティタイプ,発話ノードを含むグラフを構築可能なDREのためのグラフアテンションネットワーク方式を提案する。 このグラフは、関連するノード間のコンテキスト伝播のためのグラフ注意ネットワークに供給され、対話コンテキストを効果的にキャプチャする。 このグラフベースのアプローチは,対話における異なるエンティティペア間の関係を効果的に捉えており,ベンチマークデータセットのダイアログにおいて,最先端のアプローチをかなり有意なマージンで上回っていることを実証的に示す。 私たちのコードは、https://github.com/declare-lab/dialog-hgatでリリースされます。

Dialogue relation extraction (DRE) aims to detect the relation between two entities mentioned in a multi-party dialogue. It plays an important role in constructing knowledge graphs from conversational data increasingly abundant on the internet and facilitating intelligent dialogue system development. The prior methods of DRE do not meaningfully leverage speaker information-they just prepend the utterances with the respective speaker names. Thus, they fail to model the crucial inter-speaker relations that may give additional context to relevant argument entities through pronouns and triggers. We, however, present a graph attention network-based method for DRE where a graph, that contains meaningfully connected speaker, entity, entity-type, and utterance nodes, is constructed. This graph is fed to a graph attention network for context propagation among relevant nodes, which effectively captures the dialogue context. We empirically show that this graph-based approach quite effectively captures the relations between different entity pairs in a dialogue as it outperforms the state-of-the-art approaches by a significant margin on the benchmark dataset DialogRE. Our code is released at: https://github.com/declare-lab/dialog-HGAT
翻訳日:2022-10-20 03:28:12 公開日:2021-06-20
# RetiNerveNet: Recursive Deep Learning を用いて網膜構造に基づくポイントワイド24-2視野データの推定

RetiNerveNet: Using Recursive Deep Learning to Estimate Pointwise 24-2 Visual Field Data based on Retinal Structure ( http://arxiv.org/abs/2010.07488v2 )

ライセンス: Link先を確認
Shounak Datta and Eduardo B. Mariottoni and David Dov and Alessandro A. Jammal and Lawrence Carin and Felipe A. Medeiros(参考訳) 緑内障は世界でも不可逆的な盲目の原因であり、7000万人以上の人々に影響を与えている。 カンバーソーム標準自動周囲測定(sap)テストは、緑内障による視力低下を検出するために最も頻繁に用いられる。 SAPテストの自然的困難さと高いテスト-再テストのばらつきから,SAP視野の推定値を得るための深層畳み込み再帰型ニューラルネットワークRetiNerveNetを提案する。 RetiNerveNetはより客観的なSpectral-Domain Optical Coherence Tomography (SDOCT)からの情報を使用する。 retinervenetは、視神経線維層(rnfl)の厚さから始まり、個々の年齢補正された24-2 sap値を推定するために、網膜神経線維の弧状の収束を追跡しようと試みている。 提案するネットワークを通過する再帰的パスは、光学ディスクから徐々に遠ざかる視覚位置の推定結果を生成する。 本実験で用いた全ての手法は, 進行性疾患群に対して低い性能を示すが, 提案したネットワークは, 個々の視野値を評価するためのベースラインよりも精度が高い。 我々はさらにRetiNerveNetを拡張して、SAP平均偏差値の予測とRetiNerveNetのアンサンブルを作成し、トレーニングデータの未表現部分の重み付けを増大させることにより、パフォーマンスをさらに向上させる。

Glaucoma is the leading cause of irreversible blindness in the world, affecting over 70 million people. The cumbersome Standard Automated Perimetry (SAP) test is most frequently used to detect visual loss due to glaucoma. Due to the SAP test's innate difficulty and its high test-retest variability, we propose the RetiNerveNet, a deep convolutional recursive neural network for obtaining estimates of the SAP visual field. RetiNerveNet uses information from the more objective Spectral-Domain Optical Coherence Tomography (SDOCT). RetiNerveNet attempts to trace-back the arcuate convergence of the retinal nerve fibers, starting from the Retinal Nerve Fiber Layer (RNFL) thickness around the optic disc, to estimate individual age-corrected 24-2 SAP values. Recursive passes through the proposed network sequentially yield estimates of the visual locations progressively farther from the optic disc. While all the methods used for our experiments exhibit lower performance for the advanced disease group, the proposed network is observed to be more accurate than all the baselines for estimating the individual visual field values. We further augment RetiNerveNet to additionally predict the SAP Mean Deviation values and also create an ensemble of RetiNerveNets that further improves the performance, by increasingly weighting-up underrepresented parts of the training data.
翻訳日:2022-10-07 03:43:41 公開日:2021-06-20
# 不連続音声コンテンツとスタイル表現の教師なし学習

Unsupervised Learning of Disentangled Speech Content and Style Representation ( http://arxiv.org/abs/2010.12973v2 )

ライセンス: Link先を確認
Andros Tjandra, Ruoming Pang, Yu Zhang, Shigeki Karita(参考訳) 本稿では,音声表現の教師なし学習へのアプローチについて述べる。 本モデルは,(1)フレーム単位の情報を取り込むローカルエンコーダ,(2)発話単位の情報を取り込むグローバルエンコーダ,(3)ローカル変数とグローバル潜在変数を与えられた音声を再構成する条件付きデコーダからなる。 本実験では,(1)局所的潜在変数が音声コンテンツを符号化し,(2)低単語誤り率 (wer) のasrによって認識可能であること,(2)大域的潜在変数が話者スタイルを符号化すること,(2)大域的符号化の音源発話による話者同一性を示すこと,などが示されている。 さらに,事前学習したモデルから,グローバルな潜在変数から話者認識モデルを訓練し,話者毎のラベルとして少ないデータで微調整することで,高精度な話者認識を実現できることを示す。

We present an approach for unsupervised learning of speech representation disentangling contents and styles. Our model consists of: (1) a local encoder that captures per-frame information; (2) a global encoder that captures per-utterance information; and (3) a conditional decoder that reconstructs speech given local and global latent variables. Our experiments show that (1) the local latent variables encode speech contents, as reconstructed speech can be recognized by ASR with low word error rates (WER), even with a different global encoding; (2) the global latent variables encode speaker style, as reconstructed speech shares speaker identity with the source utterance of the global encoding. Additionally, we demonstrate an useful application from our pre-trained model, where we can train a speaker recognition model from the global latent variables and achieve high accuracy by fine-tuning with as few data as one label per speaker.
翻訳日:2022-10-03 13:29:54 公開日:2021-06-20
# 前景セグメンテーションの監督を伴わない教師付き手法

Using a Supervised Method without supervision for foreground segmentation ( http://arxiv.org/abs/2011.07954v4 )

ライセンス: Link先を確認
Levi Kassel, Michael Werman(参考訳) ニューラルネットワークは、静的カメラが取得したビデオの前景セグメンテーションのための強力なフレームワークであり、さまざまな困難なシナリオにおいて、バックグラウンドで動くオブジェクトを堅牢な方法でセグメンテーションする。 第一の方法は、特定の静的カメラから数十から数百の手動画像のデータベース上で最終訓練段階を必要とする監督に基づくものである。 本研究では,教師なし手法よりも優れた性能を実現するために,教師付き手法を訓練するのに十分な「人工的」データベースを自動的に作成する手法を提案する。 教師付き手法と比較して、弱い前景セグメンタを組み合わせることで、トレーニング画像から適切なオブジェクトを抽出し、ランダムにこれらのオブジェクトを背景画像に挿入する。 テスト結果はCDnetのテストシーケンスに表示される。

Neural networks are a powerful framework for foreground segmentation in video acquired by static cameras, segmenting moving objects from the background in a robust way in various challenging scenarios. The premier methods are those based on supervision requiring a final training stage on a database of tens to hundreds of manually segmented images from the specific static camera. In this work, we propose a method to automatically create an "artificial" database that is sufficient for training the supervised methods so that it performs better than current unsupervised methods. It is based on combining a weak foreground segmenter, compared to the supervised method, to extract suitable objects from the training images and randomly inserting these objects back into a background image. Test results are shown on the test sequences in CDnet.
翻訳日:2022-10-02 19:22:16 公開日:2021-06-20
# 行動頂点のハイパーグラフとしての行動値表現の学習

Learning to Represent Action Values as a Hypergraph on the Action Vertices ( http://arxiv.org/abs/2010.14680v2 )

ライセンス: Link先を確認
Arash Tavakoli, Mehdi Fatemi, Petar Kormushev(参考訳) アクション値推定は、多くの強化学習(RL)手法の重要な要素であり、サンプルの複雑さは、アクション値の優れた推定器の学習速度に大きく依存する。 この問題を表現学習のレンズを通して見ることにより、状態と動作のよい表現は、アクション値の推定を容易にすることができる。 深層学習の進歩は、RLに対するエージェンシーの概念の特異性を考えると、状態表現の学習をシームレスに進める一方で、行動表現の学習にはほとんど注意が払われていない。 多次元の作用空間の組合せ構造を活用することが、作用のよい表現を学ぶための鍵となる要素であると推測する。 これをテストするために、構造的帰納バイアスを伴う多次元離散的行動空間における行動表現を学習する関数のクラスである、アクションハイパーグラフネットワークフレームワークを構築した。 このフレームワークを使用して、ハイパーグラフqネットワークをダビングするディープqネットワークとの組み合わせに基づいてエージェントクラスを実現する。 Atari 2600のゲームや、離散化された物理制御ベンチマークなど、最小限の制約効果下でのイラストレーション予測問題に対して、我々のアプローチの有効性を示す。

Action-value estimation is a critical component of many reinforcement learning (RL) methods whereby sample complexity relies heavily on how fast a good estimator for action value can be learned. By viewing this problem through the lens of representation learning, good representations of both state and action can facilitate action-value estimation. While advances in deep learning have seamlessly driven progress in learning state representations, given the specificity of the notion of agency to RL, little attention has been paid to learning action representations. We conjecture that leveraging the combinatorial structure of multi-dimensional action spaces is a key ingredient for learning good representations of action. To test this, we set forth the action hypergraph networks framework -- a class of functions for learning action representations in multi-dimensional discrete action spaces with a structural inductive bias. Using this framework we realise an agent class based on a combination with deep Q-networks, which we dub hypergraph Q-networks. We show the effectiveness of our approach on a myriad of domains: illustrative prediction problems under minimal confounding effects, Atari 2600 games, and discretised physical control benchmarks.
翻訳日:2022-10-02 04:45:14 公開日:2021-06-20
# 最小強制部分集合を用いたモデル非依存な説明

Model-Agnostic Explanations using Minimal Forcing Subsets ( http://arxiv.org/abs/2011.00639v3 )

ライセンス: Link先を確認
Xing Han, Joydeep Ghosh(参考訳) 複雑なブラックボックス機械学習モデルによる特定の予測に最も責任があるトレーニングサンプルのサブセットを見つけるには、どうすればよいのでしょう? より一般的に、モデルの決定をエンドユーザに透過的な方法でどのように説明できますか? そこで本研究では,特定のテストポイントにおいて与えられたモデルの判断に欠かせない,最小限のトレーニングサンプルを識別する新しいモデル非依存アルゴリズムを提案する。 本アルゴリズムは,制約付き最適化問題を解くことにより,このような「欠かせない」サンプルの集合を反復的に同定する。 さらに,効率的な近似によってアルゴリズムを高速化し,その性能を理論的に正当化する。 このアプローチの適用性と有効性を示すために,我々は,データ中毒検出,トレーニングセットデバッグ,ローン決定の理解など,さまざまなタスクに適用した。 その結果,本アルゴリズムは,局所的なモデル行動の理解を深める上で有効で理解しやすいツールであり,そのような理解が必須な領域における機械学習の導入を促進する。

How can we find a subset of training samples that are most responsible for a specific prediction made by a complex black-box machine learning model? More generally, how can we explain the model's decisions to end-users in a transparent way? We propose a new model-agnostic algorithm to identify a minimal set of training samples that are indispensable for a given model's decision at a particular test point, i.e., the model's decision would have changed upon the removal of this subset from the training dataset. Our algorithm identifies such a set of "indispensable" samples iteratively by solving a constrained optimization problem. Further, we speed up the algorithm through efficient approximations and provide theoretical justification for its performance. To demonstrate the applicability and effectiveness of our approach, we apply it to a variety of tasks including data poisoning detection, training set debugging and understanding loan decisions. The results show that our algorithm is an effective and easy-to-comprehend tool that helps to better understand local model behavior, and therefore facilitates the adoption of machine learning in domains where such understanding is a requisite.
翻訳日:2022-09-30 23:38:30 公開日:2021-06-20
# 機械学習支援光性能モニタリング技術の概要

An Overview of Machine Learning-aided Optical Performance Monitoring Techniques ( http://arxiv.org/abs/2107.07338v1 )

ライセンス: Link先を確認
Dativa K. Tizikara, Jonathan Serugunda, and Andrew Katumba(参考訳) 将来の通信システムは、高容量、動的帯域幅、信頼性、異種トラフィックの需要の増加に直面している。 これらの要件を満たすために、ネットワークはより複雑になり、自律性へと進化するにつれて、新しい設計方法や監視技術が必要になる。 近年、機械学習は、この進化を支援する有望な技術として、最前線に来ている。 光ファイバ通信は、ほとんどのアプリケーションに必要な高い容量を提供することができるが、ユーザ要求の変化とリンク条件へのスケーラビリティと適応性の向上が必要である。 正確なパフォーマンス監視は、この変換の不可欠な部分です。 本稿では,機械学習アルゴリズムを適用した光学性能モニタリング手法について述べる。 さらに,OPMのアロットは信号型の知識に依存するため,変調形式認識やビットレート識別の作業も検討する。 さらに,この領域に最近適用されたばかりの新しい技術として,opmに対する神経形態的アプローチを簡潔に紹介する。

Future communication systems are faced with increased demand for high capacity, dynamic bandwidth, reliability and heterogeneous traffic. To meet these requirements, networks have become more complex and thus require new design methods and monitoring techniques, as they evolve towards becoming autonomous. Machine learning has come to the forefront in recent years as a promising technology to aid in this evolution. Optical fiber communications can already provide the high capacity required for most applications, however, there is a need for increased scalability and adaptability to changing user demands and link conditions. Accurate performance monitoring is an integral part of this transformation. In this paper we review optical performance monitoring techniques where machine learning algorithms have been applied. Moreover, since alot of OPM depends on knowledge of the signal type, we also review work for modulation format recognition and bitrate identification. We additionally briefly introduce a neuromorphic approach to OPM as an emerging technique that has only recently been applied to this domain.
翻訳日:2021-07-18 12:19:55 公開日:2021-06-20
# (参考訳) サイバーセキュリティのためのニューラルネットワーク:包括的レビュー

Artificial Neural Network for Cybersecurity: A Comprehensive Review ( http://arxiv.org/abs/2107.01185v1 )

ライセンス: CC BY 4.0
Prajoy Podder, Subrato Bharati, M. Rubaiyat Hossain Mondal, Pinto Kumar Paul, Utku Kose(参考訳) サイバーセキュリティは、デジタル攻撃からシステム、ネットワーク、データを保護する非常に新興の分野である。 インターネットの規模の拡大とサイバー攻撃の進化により、特にIoT(Internet of Things)ネットワークにおいて、新しいサイバーセキュリティツールの開発が重要になっている。 本稿では,サイバーセキュリティへの深層学習(dl)アプローチの適用に関する体系的レビューを行う。 本稿では,深層信念ネットワーク,生成的敵ネットワーク,リカレントニューラルネットワークなど,サイバーセキュリティで使用されるdlメソッドの簡単な説明を提供する。 次に,浅層学習とDLの違いについて述べる。 さらに、IoTや他のネットワークにおける現在普及しているサイバーアタックと、これらのアタックを管理するためのDLメソッドの有効性について議論する。 さらに, DL技術, サイバーセキュリティアプリケーション, およびデータセットのソースを明らかにする研究について述べる。 次に,マルウェアの検出と分類,侵入検出,ファイルタイプ,スパム,ネットワークトラフィックなどのサイバー攻撃に対するdlシステムの実現可能性に関する議論を行う。 我々のレビューでは、カスタムデータセットに適用した場合、制限されたボルツマンマシン(RBM)によって99.72%の高い分類精度が得られ、長い短期記憶(LSTM)はKDDカップ99の99.80%の精度が得られる。 最後に、信頼性と実践可能なIoT駆動医療システムにおけるサイバーセキュリティの重要性について論じる。

Cybersecurity is a very emerging field that protects systems, networks, and data from digital attacks. With the increase in the scale of the Internet and the evolution of cyber attacks, developing novel cybersecurity tools has become important, particularly for Internet of things (IoT) networks. This paper provides a systematic review of the application of deep learning (DL) approaches for cybersecurity. This paper provides a short description of DL methods which is used in cybersecurity, including deep belief networks, generative adversarial networks, recurrent neural networks, and others. Next, we illustrate the differences between shallow learning and DL. Moreover, a discussion is provided on the currently prevailing cyber-attacks in IoT and other networks, and the effectiveness of DL methods to manage these attacks. Besides, this paper describes studies that highlight the DL technique, cybersecurity applications, and the source of datasets. Next, a discussion is provided on the feasibility of DL systems for malware detection and classification, intrusion detection, and other frequent cyber-attacks, including identifying file type, spam, and network traffic. Our review indicates that high classification accuracy of 99.72% is obtained by restricted Boltzmann machine (RBM) when applied to a custom dataset, while long short-term memory (LSTM) achieves an accuracy of 99.80% for KDD Cup 99 dataset. Finally, this article discusses the importance of cybersecurity for reliable and practicable IoT-driven healthcare systems.
翻訳日:2021-07-11 13:20:51 公開日:2021-06-20
# (参考訳) ニューラルネットワークによる多凸異方性超弾性

Polyconvex anisotropic hyperelasticity with neural networks ( http://arxiv.org/abs/2106.14623v1 )

ライセンス: CC BY 4.0
Dominik Klein, Mauricio Fern\'andez, Robert J. Martin, Patrizio Neff and Oliver Weeger(参考訳) 本研究では,有限変形に対する2つの機械学習に基づく構成モデルを提案する。 入力凸ニューラルネットワークを使用すると、モデルは超弾性、異方性を持ち、多凸性条件を満たす。 最初の構成モデルは、多凸、異方性および客観的不変量の集合に基づいている。 第2のアプローチは、変形勾配、その共因子および行列式で定式化され、材料対称性条件を満たすために群対称性を使い、データ拡張によりほぼ客観性を満たす。 データ拡張アプローチのためのデータセットの拡張は、機械的考慮に基づいており、追加の実験データやシミュレーションデータを必要としない。 モデルは、有限変形や格子不安定性を含む立方体格子メタマテリアルの非常に困難なシミュレーションデータで校正される。 実験調査に一般的に適用される変形に基づいて、適度な量の校正データを用いる。 不変モデルでは, 変形モードの欠点を示すが, 変形勾配のみに基づくモデルでは, 有効物質挙動の再現と予測が極めて良好であり, 優れた一般化能力を示す。 したがって、特に第2のモデルは、数学的によく考えられた問題につながる非常に柔軟な構成的モデリングアプローチを示す。

In the present work, two machine learning based constitutive models for finite deformations are proposed. Using input convex neural networks, the models are hyperelastic, anisotropic and fulfill the polyconvexity condition, which implies ellipticity and thus ensures material stability. The first constitutive model is based on a set of polyconvex, anisotropic and objective invariants. The second approach is formulated in terms of the deformation gradient, its cofactor and determinant, uses group symmetrization to fulfill the material symmetry condition, and data augmentation to fulfill objectivity approximately. The extension of the dataset for the data augmentation approach is based on mechanical considerations and does not require additional experimental or simulation data. The models are calibrated with highly challenging simulation data of cubic lattice metamaterials, including finite deformations and lattice instabilities. A moderate amount of calibration data is used, based on deformations which are commonly applied in experimental investigations. While the invariant-based model shows drawbacks for several deformation modes, the model based on the deformation gradient alone is able to reproduce and predict the effective material behavior very well and exhibits excellent generalization capabilities. Thus, in particular the second model presents a highly flexible constitutive modeling approach, that leads to a mathematically well-posed problem.
翻訳日:2021-07-04 22:40:28 公開日:2021-06-20
# さらなる影響: 意思決定における破壊的干渉

More Causes Less Effect: Destructive Interference in Decision Making ( http://arxiv.org/abs/2106.13320v1 )

ライセンス: Link先を確認
Irina Basieva, Vijitashwa Pandey, Polina Khrennikova(参考訳) 製品故障の条件付き確率の顧客推定における破壊的干渉を示す新しい実験を行った。 消費者製品のメーカーの視点から、原因と効果の2つの状況を考察する。 個々の原因の影響は似ているが、結合すると2つの原因が反対の効果を生み出すことが観察される。 このような2つ以上の理由に対する否定的な干渉は、顧客の心の中で起こる認知過程をよりよくモデル化するために利用することができる。 そうすることで、製造業者がより良い製品やその中の機能の設計ができる可能性を高めることができる。 量子確率は、疑問順序や応答の再現性効果などのよく見られる偏差や、確実な原理違反やマキナとエルスベルクのパラドックスなどパラドックスを説明するために用いられる。 本研究では,複数の症状が車両の乾燥性に及ぼす影響について調査した結果を報告する。 応答の集合は古典的確率では説明できないが、量子定式化はイベント間の正と負の両方の「干渉」を可能にするので、容易にそれをモデル化できる。 量子ホルマリズムは古典確率の予測にも関係しているため、工学設計や行動経済学における意思決定の振る舞いをモデル化するよりリッチなパラダイムとして機能する。

We present a new experiment demonstrating destructive interference in customers' estimates of conditional probabilities of product failure. We take the perspective of a manufacturer of consumer products, and consider two situations of cause and effect. Whereas individually the effect of the causes is similar, it is observed that when combined, the two causes produce the opposite effect. Such negative interference of two or more reasons may be exploited for better modeling the cognitive processes taking place in the customers' mind. Doing so can enhance the likelihood that a manufacturer will be able to design a better product, or a feature within it. Quantum probability has been used to explain some commonly observed deviations such as question order and response replicability effects, as well as in explaining paradoxes such as violations of the sure-thing principle, and Machina and Ellsberg paradoxes. In this work, we present results from a survey conducted regarding the effect of multiple observed symptoms on the drivability of a vehicle. We demonstrate that the set of responses cannot be explained using classical probability, but quantum formulation easily models it, as it allows for both positive and negative "interference" between events. Since quantum formulism also accounts for classical probability's predictions, it serves as a richer paradigm for modeling decision making behavior in engineering design and behavioral economics.
翻訳日:2021-07-04 19:41:01 公開日:2021-06-20
# (参考訳) 予測符号化とバックプロパゲーションの関係について

On the relationship between predictive coding and backpropagation ( http://arxiv.org/abs/2106.13082v1 )

ライセンス: CC BY 4.0
Robert Rosenbaum(参考訳) 本稿では,教師付き学習タスクにおけるニューラルネットワーク学習のための予測符号化とバックプロパゲーションの関係について概説する。 また,これらの結果が生物学習モデルとして予測符号化とディープニューラルネットワークの解釈に与える影響について論じ,pytorchニューラルネットワークモデルを用いた予測符号化を行うための関数リポジトリtorch2pcについて述べる。

In this manuscript, I review and extend recent work on the relationship between predictive coding and backpropagation for training artificial neural networks on supervised learning tasks. I also discuss some implications of these results for the interpretation of predictive coding and deep neural networks as models of biological learning and I describe a repository of functions, Torch2PC, for performing predictive coding with PyTorch neural network models.
翻訳日:2021-06-26 13:05:30 公開日:2021-06-20
# 差分プライバシーを持つ無線チャネル上での低レイテンシフェデレーション学習

Low-Latency Federated Learning over Wireless Channels with Differential Privacy ( http://arxiv.org/abs/2106.13039v1 )

ライセンス: Link先を確認
Kang Wei, Jun Li, Chuan Ma, Ming Ding, Cailian Chen, Shi Jin, Zhu Han and H. Vincent Poor(参考訳) 統合学習(FL)では、モデルトレーニングはクライアントに分散され、ローカルモデルは中央サーバによって集約される。 このような状況下でのアップロードされたモデルの性能は、不均衡なデータ分散、プライバシー保護に対する潜在的な要求、および送信品質によって大きく異なる可能性がある。 本稿では,各クライアントのディファレンシャルプライバシ(dp)要件に加えて,全体的なトレーニング性能によって制約される無線チャネル上でのflトレーニング遅延を最小限に抑えることを目的とする。 本稿では,マルチエージェントマルチアーム付きバンディット(mamab)の枠組みでこの問題を解決し,チャネルフェージングや干渉など,未知の伝送環境を複数のクライアントで強制する状況に対処する。 具体的には、まず、学習性能と各クライアントのDPの長期的制約をリアプノフドリフト技術に基づく仮想キューに変換する。 次に,MAMABを各通信ラウンドにおける最大二分項マッチング問題に変換し,上限信頼度(UCB)アプローチで報酬を推定する。 より重要なことは、このマッチング問題に対する2つの効率的な解、すなわち、改良されたハンガリーのアルゴリズムとより優れた代替案(GMBA)との欲求整合(greedy matching)を提案することである。 さらに,このMAMABをベースとしたFLフレームワークは,通信ラウンドの対数に対して線形に成長し,その理論的実現可能性の正当化を図る。 また,提案アルゴリズムの有効性を検証するために広範囲な実験を行い,無線エッジネットワーク上でのfl性能に対する各種パラメータの影響について検討した。

In federated learning (FL), model training is distributed over clients and local models are aggregated by a central server. The performance of uploaded models in such situations can vary widely due to imbalanced data distributions, potential demands on privacy protections, and quality of transmissions. In this paper, we aim to minimize FL training delay over wireless channels, constrained by overall training performance as well as each client's differential privacy (DP) requirement. We solve this problem in the framework of multi-agent multi-armed bandit (MAMAB) to deal with the situation where there are multiple clients confornting different unknown transmission environments, e.g., channel fading and interferences. Specifically, we first transform the long-term constraints on both training performance and each client's DP into a virtual queue based on the Lyapunov drift technique. Then, we convert the MAMAB to a max-min bipartite matching problem at each communication round, by estimating rewards with the upper confidence bound (UCB) approach. More importantly, we propose two efficient solutions to this matching problem, i.e., modified Hungarian algorithm and greedy matching with a better alternative (GMBA), in which the first one can achieve the optimal solution with a high complexity while the second one approaches a better trade-off by enabling a verified low-complexity with little performance loss. In addition, we develop an upper bound on the expected regret of this MAMAB based FL framework, which shows a linear growth over the logarithm of communication rounds, justifying its theoretical feasibility. Extensive experimental results are conducted to validate the effectiveness of our proposed algorithms, and the impacts of various parameters on the FL performance over wireless edge networks are also discussed.
翻訳日:2021-06-25 14:52:30 公開日:2021-06-20
# (参考訳) 数値気象予報システムにおけるグローバル降水量改善のための深層学習

Deep learning for improved global precipitation in numerical weather prediction systems ( http://arxiv.org/abs/2106.12045v1 )

ライセンス: CC BY 4.0
Manmeet Singh, Bipin Kumar, Dev Niyogi, Suryachandra Rao, Sukhpal Singh Gill, Rajib Chattopadhyay, Ravi S Nanjundiah(参考訳) 最先端の気象と気候モデルにおける降水の形成は重要な過程である。 他の変数との関係を理解することは、特に降雨に依存するモンスーン地域において、生活支援として無限の利益をもたらす可能性がある。 様々な要因が降雨の形成に重要な役割を担い、これらの物理過程は運用天気予報に重大なバイアスをもたらす。 我々は, 残留学習を概念実証として, 深層畳み込みニューラルネットワークのunetアーキテクチャを用いて, 降水量のグローバルデータ駆動モデルを学ぶ。 モデルでは、球面の歪みによる誤差を最小限に抑えるため、立方体球面投影に投影されたデータセットの再分析を訓練する。 その結果,インド気象局が使用した操作力学モデルと比較した。 理論的深層学習に基づくモデルでは、グリッド点の倍増と、運用システムに対するピアソン相関係数で測定された領域平均スキルが示される。 本研究は, 残差学習に基づくUNETが, 目標降水に対する物理的関係を解き明かし, 降水予測の改善に向けた動的操作モデルにおいて, それらの物理的制約を利用できることを示す概念実証である。 私たちの結果は、将来的にオンラインハイブリッドモデルの開発への道を開くものです。

The formation of precipitation in state-of-the-art weather and climate models is an important process. The understanding of its relationship with other variables can lead to endless benefits, particularly for the world's monsoon regions dependent on rainfall as a support for livelihood. Various factors play a crucial role in the formation of rainfall, and those physical processes are leading to significant biases in the operational weather forecasts. We use the UNET architecture of a deep convolutional neural network with residual learning as a proof of concept to learn global data-driven models of precipitation. The models are trained on reanalysis datasets projected on the cubed-sphere projection to minimize errors due to spherical distortion. The results are compared with the operational dynamical model used by the India Meteorological Department. The theoretical deep learning-based model shows doubling of the grid point, as well as area averaged skill measured in Pearson correlation coefficients relative to operational system. This study is a proof-of-concept showing that residual learning-based UNET can unravel physical relationships to target precipitation, and those physical constraints can be used in the dynamical operational models towards improved precipitation forecasts. Our results pave the way for the development of online, hybrid models in the future.
翻訳日:2021-06-25 04:41:09 公開日:2021-06-20
# (参考訳) フェデレーションエッジ学習のエネルギー効率向上のための微粒化データ選択

Fine-Grained Data Selection for Improved Energy Efficiency of Federated Edge Learning ( http://arxiv.org/abs/2106.12561v1 )

ライセンス: CC BY 4.0
Abdullatif Albaseer, Mohamed Abdallah, Ala Al-Fuqaha, Aiman Erbad(参考訳) フェデレーションエッジ学習(FEEL)では、ネットワークエッジのエネルギー制約されたデバイスは、ローカル機械学習モデルのトレーニングとアップロード時にかなりのエネルギーを消費し、寿命を短縮する。 本研究は,ローカルトレーニングデータ,利用可能な計算資源,通信資源,エネルギー消費削減のためのフェルトラウンドの期限制約を共同で考慮し,エネルギー効率の良い感触のための新しいソリューションを提案する。 本稿では、エッジサーバにビームフォーミング技術を用いた複数のアンテナを組み、直交チャネルを介してローカルユーザと通信するシステムモデルについて考察する。 具体的には,コミュニケーション・ラウンドの制限を満たした総エネルギー消費量を最小化することを目的として,関連するトレーニングサンプル,帯域幅,伝送電力,ビームフォーミング重量,処理速度の細粒度選択など,ユーザの最適なリソースを求めることを目的とした。 そこで,まず,より関係の低いトレーニングサンプルを除外し,モデルの性能を向上させるサンプルのみを効果的に選択する,新しいきめ細かいトレーニングアルゴリズムを提案する。 その後、閉形式解を導出し、続いてGolden-Sectionに基づく反復アルゴリズムを用いて、エネルギー消費を最小限に抑える最適な計算と通信資源を求める。 MNISTとCIFAR-10データセットを用いた実験により,提案アルゴリズムはMNISTの79%,CIFAR-10データセットの73%のエネルギー消費が減少し,最先端のソリューションを著しく上回った。

In Federated edge learning (FEEL), energy-constrained devices at the network edge consume significant energy when training and uploading their local machine learning models, leading to a decrease in their lifetime. This work proposes novel solutions for energy-efficient FEEL by jointly considering local training data, available computation, and communications resources, and deadline constraints of FEEL rounds to reduce energy consumption. This paper considers a system model where the edge server is equipped with multiple antennas employing beamforming techniques to communicate with the local users through orthogonal channels. Specifically, we consider a problem that aims to find the optimal user's resources, including the fine-grained selection of relevant training samples, bandwidth, transmission power, beamforming weights, and processing speed with the goal of minimizing the total energy consumption given a deadline constraint on the communication rounds of FEEL. Then, we devise tractable solutions by first proposing a novel fine-grained training algorithm that excludes less relevant training samples and effectively chooses only the samples that improve the model's performance. After that, we derive closed-form solutions, followed by a Golden-Section-based iterative algorithm to find the optimal computation and communication resources that minimize energy consumption. Experiments using MNIST and CIFAR-10 datasets demonstrate that our proposed algorithms considerably outperform the state-of-the-art solutions as energy consumption decreases by 79% for MNIST and 73% for CIFAR-10 datasets.
翻訳日:2021-06-25 04:27:58 公開日:2021-06-20
# シャッフルおよびオンラインPSNGDの反復によるプライバシ増幅

Privacy Amplification via Iteration for Shuffled and Online PNSGD ( http://arxiv.org/abs/2106.11767v1 )

ライセンス: Link先を確認
Matteo Sordello, Zhiqi Bu, Jinshuo Dong(参考訳) 本稿では,feldmanらによって提唱された反復によるプライバシ増幅の枠組みについて考察する。 そしてAsoodehらによって単純化された。 収縮係数を通して分析します この一連の研究は、隠れた中間更新を伴う雑音性確率勾配勾配(PNSGD)アルゴリズムによって得られるプライバシー保証の研究に焦点を当てている。 既存の文献では、早期に停止したNSGDのみが研究されているが、より広く使われているNSGDがシャッフルデータセットに適用されることは証明されていない。 また、新しいデータがオンライン形式で受信された場合の注入ノイズの低減方法については、まだ提案されていない。 本研究は,まず,Shuffled PNSGDのプライバシ保証を証明し,サンプルサイズ毎のノイズが$n$で固定されるが,$n$が増加すると所定の速度で低減され,プライバシ損失の収束を実現するための漸近的に検討する。 次に、オンライン設定を分析し、注入されたノイズの大きさのより高速な減衰スキームを提供し、プライバシー損失の収束を保証します。

In this paper, we consider the framework of privacy amplification via iteration, which is originally proposed by Feldman et al. and subsequently simplified by Asoodeh et al. in their analysis via the contraction coefficient. This line of work focuses on the study of the privacy guarantees obtained by the projected noisy stochastic gradient descent (PNSGD) algorithm with hidden intermediate updates. A limitation in the existing literature is that only the early stopped PNSGD has been studied, while no result has been proved on the more widely-used PNSGD applied on a shuffled dataset. Moreover, no scheme has been yet proposed regarding how to decrease the injected noise when new data are received in an online fashion. In this work, we first prove a privacy guarantee for shuffled PNSGD, which is investigated asymptotically when the noise is fixed for each sample size $n$ but reduced at a predetermined rate when $n$ increases, in order to achieve the convergence of privacy loss. We then analyze the online setting and provide a faster decaying scheme for the magnitude of the injected noise that also guarantees the convergence of privacy loss.
翻訳日:2021-06-23 15:02:31 公開日:2021-06-20
# 自己教師付き学習と注意機構を用いた唇画像からの超音波舌画像再構成の改善

Improving Ultrasound Tongue Image Reconstruction from Lip Images Using Self-supervised Learning and Attention Mechanism ( http://arxiv.org/abs/2106.11769v1 )

ライセンス: Link先を確認
Haiyang Liu, Jihan Zhang(参考訳) 音声生成は、舌、顎、唇を含む複数の人間の器官を含むダイナミックな手順である。 声道変形のダイナミクスのモデル化は、人間の日常コミュニケーションの最も一般的な方法である音声を理解するための基本的な問題である。 研究者は複数の感覚の流れを使って同時にプロセスを記述する。 本稿では, 唇の観察可能な画像列が与えられた場合, 対応する舌の動きを画像化することができる。 本研究では,この問題を自己教師付き学習問題として定式化し,学習課題に2ストリーム畳み込みネットワークと長短メモリネットワークを用いた。 提案手法の性能評価は,未ラベルのリップビデオを用いて,今後の超音波舌画像列の予測を行う。 以上の結果から,本モデルでは実際の超音波舌画像に近い画像を生成することができ,2つの画像モダリティの一致が得られた。

Speech production is a dynamic procedure, which involved multi human organs including the tongue, jaw and lips. Modeling the dynamics of the vocal tract deformation is a fundamental problem to understand the speech, which is the most common way for human daily communication. Researchers employ several sensory streams to describe the process simultaneously, which are incontrovertibly statistically related to other streams. In this paper, we address the following question: given an observable image sequences of lips, can we picture the corresponding tongue motion. We formulated this problem as the self-supervised learning problem, and employ the two-stream convolutional network and long-short memory network for the learning task, with the attention mechanism. We evaluate the performance of the proposed method by leveraging the unlabeled lip videos to predict an upcoming ultrasound tongue image sequence. The results show that our model is able to generate images that close to the real ultrasound tongue images, and results in the matching between two imaging modalities.
翻訳日:2021-06-23 15:02:14 公開日:2021-06-20
# DeepMesh: 微分可能なアイソ面抽出

DeepMesh: Differentiable Iso-Surface Extraction ( http://arxiv.org/abs/2106.11795v1 )

ライセンス: Link先を確認
Benoit Guillard, Edoardo Remelli, Artem Lukoianov, Stephan Richter, Timur Bagautdinov, Pierre Baque and Pascal Fua(参考訳) Geometric Deep Learningは最近、継続的なDeep Implicit Fieldsの出現で大きな進歩を遂げた。 これにより、3次元ユークリッド格子に依存しない任意のトポロジーの水密な曲面の詳細なモデリングが可能となり、学習可能なパラメータ化が可能となり、解像度は無制限となる。 残念ながらこれらの手法は、暗黙の場をそのような表現に変換するため、暗黙の場に対して区別できないマーチングキューブアルゴリズムに依存するため、明示的なメッシュベースの表面表現を必要とするアプリケーションには適さないことが多い。 本研究では,この制限を除去し,Deep Implicit Fieldsから表面メッシュを明示的に表現する方法を提案する。 私たちの重要な洞察は、暗黙的場の摂動が局所的な表面幾何にどのように影響するかを推論することで、基礎となる深い暗黙的場に関して最終的に表面サンプルの3d位置を区別できるということです。 これはdeepmesh -- トポロジーを変更可能なエンドツーエンドの差別化可能なメッシュ表現を定義するために利用します。 我々は2つの異なるアプリケーションを用いて理論的な洞察を検証している: 微分レンダリングによる単一ビュー3D再構成と物理的駆動形状最適化。 どちらの場合も、エンドツーエンドの微分可能なパラメータ化は最先端のアルゴリズムよりも優れている。

Geometric Deep Learning has recently made striking progress with the advent of continuous Deep Implicit Fields. They allow for detailed modeling of watertight surfaces of arbitrary topology while not relying on a 3D Euclidean grid, resulting in a learnable parameterization that is unlimited in resolution. Unfortunately, these methods are often unsuitable for applications that require an explicit mesh-based surface representation because converting an implicit field to such a representation relies on the Marching Cubes algorithm, which cannot be differentiated with respect to the underlying implicit field. In this work, we remove this limitation and introduce a differentiable way to produce explicit surface mesh representations from Deep Implicit Fields. Our key insight is that by reasoning on how implicit field perturbations impact local surface geometry, one can ultimately differentiate the 3D location of surface samples with respect to the underlying deep implicit field. We exploit this to define DeepMesh -- end-to-end differentiable mesh representation that can vary its topology. We use two different applications to validate our theoretical insight: Single view 3D Reconstruction via Differentiable Rendering and Physically-Driven Shape Optimization. In both cases our end-to-end differentiable parameterization gives us an edge over state-of-the-art algorithms.
翻訳日:2021-06-23 14:56:30 公開日:2021-06-20
# 局所-グローバル背景モデリングによる微弱な時間的行動局在化

Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling ( http://arxiv.org/abs/2106.11811v1 )

ライセンス: Link先を確認
Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Yuanjie Shao, Nong Sang(参考訳) weakly-supervised temporal action localization (ws-tal)タスクは、ビデオレベルのラベル監督だけで、未トリミングビデオ内のアクションインスタンスの時間的開始と終了を認識し、ローカライズすることを目的としている。 背景カテゴリーの負のサンプルが欠如しているため、ネットワークが前景と背景を分離することは困難であり、結果として検出性能が低下する。 本稿では,BaSNetをベースとした2021 HACS Challenge-Weakly-supervised Learning Trackソリューションについて述べる。 具体的には、まず、事前訓練されたCSN、Slowfast、TDN、ViViTを特徴抽出器として採用し、特徴系列を得る。 次に,提案するlgbm-net(local-global background modeling network)を用いて,マルチインスタンス学習(multi-instance learning,mil)に基づくビデオレベルラベルのみを用いて,インスタンスのローカライズを行う。 最後に、複数のモデルをアンサンブルして最終検出結果を取得し、テストセット上で22.45% mAPに達する。

Weakly-Supervised Temporal Action Localization (WS-TAL) task aims to recognize and localize temporal starts and ends of action instances in an untrimmed video with only video-level label supervision. Due to lack of negative samples of background category, it is difficult for the network to separate foreground and background, resulting in poor detection performance. In this report, we present our 2021 HACS Challenge - Weakly-supervised Learning Track solution that based on BaSNet to address above problem. Specifically, we first adopt pre-trained CSN, Slowfast, TDN, and ViViT as feature extractors to get feature sequences. Then our proposed Local-Global Background Modeling Network (LGBM-Net) is trained to localize instances by using only video-level labels based on Multi-Instance Learning (MIL). Finally, we ensemble multiple models to get the final detection results and reach 22.45% mAP on the test set
翻訳日:2021-06-23 14:55:43 公開日:2021-06-20
# 時間的行動検出のための提案関係ネットワーク

Proposal Relation Network for Temporal Action Detection ( http://arxiv.org/abs/2106.11812v1 )

ライセンス: Link先を確認
Xiang Wang, Zhiwu Qing, Ziyuan Huang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Changxin Gao, Nong Sang(参考訳) 本報告では, acitivitynet challenge 2021における時間的行動検出タスクの解法を提案する。 このタスクの目的は、長い未編集ビデオの興味ある行動を特定し、特定することである。 タスクの重要な課題は、アクションの時間的持続時間が劇的に変化し、ターゲットアクションが通常、無関係なアクティビティのバックグラウンドに埋め込まれることである。 本ソリューションはBMN上に構築され,1) Slowfast, CSN, ViViTによる動作分類と特徴符号化, 2)提案生成の3段階を含む。 本研究では,提案するprn(prn)を組み込んだbmnの改良を行い,高品質な提案を実現する。 提案提案を対応する分類結果に割り当てて検出結果を算出する。 最後に、異なる設定下で結果をアンサンブルし、テストセットで44.7%を達成することで、平均的なマップの観点から、activitynet 2020のチャンピオン結果が1.9%向上する。

This technical report presents our solution for temporal action detection task in AcitivityNet Challenge 2021. The purpose of this task is to locate and identify actions of interest in long untrimmed videos. The crucial challenge of the task comes from that the temporal duration of action varies dramatically, and the target actions are typically embedded in a background of irrelevant activities. Our solution builds on BMN, and mainly contains three steps: 1) action classification and feature encoding by Slowfast, CSN and ViViT; 2) proposal generation. We improve BMN by embedding the proposed Proposal Relation Network (PRN), by which we can generate proposals of high quality; 3) action detection. We calculate the detection results by assigning the proposals with corresponding classification results. Finally, we ensemble the results under different settings and achieve 44.7% on the test set, which improves the champion result in ActivityNet 2020 by 1.9% in terms of average mAP.
翻訳日:2021-06-23 14:55:23 公開日:2021-06-20
# SISA:Selective Alterationによる画像のセキュア化

SISA: Securing Images by Selective Alteration ( http://arxiv.org/abs/2106.11770v1 )

ライセンス: Link先を確認
Prutha Gaherwar, Shraddha Joshi, Raviraj Joshi, Rahul Khengare(参考訳) モバイルやカメラ機器の人気が高まり、画像形式のデジタルコンテンツは劇的に増加した。 個人生活が継続的に写真に記録されているため、盗難者を失うリスクは重大な懸念事項である。 二次記憶装置は、個人や他の画像の保存に最も好まれる媒体である。 私たちの仕事はそのような画像のセキュリティに関するものです。 暗号化は画像のセキュリティを確保する最善の方法だが、完全な暗号化と復号化は計算集約的なプロセスである。 さらに、毎日カメラが良くなっているため、画質が向上し、ピクセル密度が大幅に向上した。 ピクセル密度の増大により、暗号化と復号化はより高価になる。 したがって、興味のある領域に基づいて、選択的暗号化と選択的ぼやけを掘り下げる。 写真全体を暗号化したり、ぼかす代わりに、選択した領域だけをエンコードする。 画像の部分暗号化と完全暗号化の比較分析を行った。 このようなエンコーディングは、セキュリティを損なうことなく、暗号化オーバーヘッドの低減に役立ちます。 この技術を利用したアプリケーションは、復号化時間の短縮により、より使いやすくなるだろう。 さらに、ぼやけた画像は暗号化画像よりも読みやすく、セキュリティレベルを定義することができます。 Mask-RCNN(Regionベースの畳み込みニューラルネットワーク)やYOLO(You Only Look Once)といった機械学習アルゴリズムを利用して、関心のある領域を選択する。 これらのアルゴリズムは、オブジェクト認識の新しいベンチマークを設定した。 我々は、選択的暗号化のアイデアを実証するエンド・ツー・エンド・システムを開発した。

With an increase in mobile and camera devices' popularity, digital content in the form of images has increased drastically. As personal life is being continuously documented in pictures, the risk of losing it to eavesdroppers is a matter of grave concern. Secondary storage is the most preferred medium for the storage of personal and other images. Our work is concerned with the security of such images. While encryption is the best way to ensure image security, full encryption and decryption is a computationally-intensive process. Moreover, as cameras are getting better every day, image quality, and thus, the pixel density has increased considerably. The increased pixel density makes encryption and decryption more expensive. We, therefore, delve into selective encryption and selective blurring based on the region of interest. Instead of encrypting or blurring the entire photograph, we only encode selected regions of the image. We present a comparative analysis of the partial and full encryption of the photos. This kind of encoding will help us lower the encryption overhead without compromising security. The applications utilizing this technique will become more usable due to the reduction in the decryption time. Additionally, blurred images being more readable than encrypted ones, allowed us to define the level of security. We leverage the machine learning algorithms like Mask-RCNN (Region-based convolutional neural network) and YOLO (You Only Look Once) to select the region of interest. These algorithms have set new benchmarks for object recognition. We develop an end to end system to demonstrate our idea of selective encryption.
翻訳日:2021-06-23 14:42:51 公開日:2021-06-20
# (参考訳) 低ランク特性テンソル密度推定 第2報:圧縮および潜在密度推定

Low-rank Characteristic Tensor Density Estimation Part II: Compression and Latent Density Estimation ( http://arxiv.org/abs/2106.10591v1 )

ライセンス: CC BY 4.0
Magda Amiridi, Nikos Kargas, and Nicholas D. Sidiropoulos(参考訳) 生成確率モデルの学習は機械学習の中核的な問題であり、次元の呪いによって大きな課題が生じる。 本稿では、入力データの適切な縮小次元表現の基底分布を明示的に把握できる新しい推定器を用いて、共同次元減少と非パラメトリック密度推定フレームワークを提案する。 この考え方は、非線形次元還元オートエンコーダを共同で設計し、潜在確率変数の並列集合を用いてトレーニングデータをモデル化し、フーリエ領域における潜在変数の結合分布の正準低ランクテンソルモデルを学ぶことである。 提案する潜在密度モデルは、変分オートエンコーダで想定される事前定義とは対照的に、非パラメトリックで普遍的である。 潜在ドメインにおける負のログ様相と自己エンコーダ再構成損失の組合せを最小化することにより学習する定式化により、オートエンコーダと潜在密度推定器の合同最適化を追求する。 提案モデルは, 回帰作業, サンプリング, 異常検出における玩具, 表, 画像データセットに対して, 極めて有望な結果が得られることを示す。

Learning generative probabilistic models is a core problem in machine learning, which presents significant challenges due to the curse of dimensionality. This paper proposes a joint dimensionality reduction and non-parametric density estimation framework, using a novel estimator that can explicitly capture the underlying distribution of appropriate reduced-dimension representations of the input data. The idea is to jointly design a nonlinear dimensionality reducing auto-encoder to model the training data in terms of a parsimonious set of latent random variables, and learn a canonical low-rank tensor model of the joint distribution of the latent variables in the Fourier domain. The proposed latent density model is non-parametric and universal, as opposed to the predefined prior that is assumed in variational auto-encoders. Joint optimization of the auto-encoder and the latent density estimator is pursued via a formulation which learns both by minimizing a combination of the negative log-likelihood in the latent domain and the auto-encoder reconstruction loss. We demonstrate that the proposed model achieves very promising results on toy, tabular, and image datasets on regression tasks, sampling, and anomaly detection.
翻訳日:2021-06-23 14:37:27 公開日:2021-06-20
# (参考訳) 専門的多様性を持つ異種多タスク学習

Heterogeneous Multi-task Learning with Expert Diversity ( http://arxiv.org/abs/2106.10595v1 )

ライセンス: CC BY 4.0
Raquel Aoki, Frederick Tung and Gabriel L. Oliveira(参考訳) 複数の異質な生物学的および医学的ターゲットを予測することは、従来のディープラーニングモデルの課題である。 目標毎に個別のモデルを訓練するシングルタスク学習とは対照的に、マルチタスク学習(MTL)は単一のモデルを最適化し、複数の関連するターゲットを同時に予測する。 この課題に対処するため,MMOEEx(Multi-gate Mixture-of-Experts with Exclusivity)を提案する。 本研究の目的は、同一モデルが異なる特徴を持つ複数のタスクを最適化する異種MPL設定に取り組むことである。 このようなシナリオは、共有およびタスク固有の表現のバランスと、競合する最適化パスでタスクを最適化する必要があるため、現在のmtlアプローチを圧倒することができる。 提案手法は2つの重要な貢献をする: まず, 専門家間でより多様性を誘導する手法を導入し, 高度に不均衡で不均質なmtl学習に適した表現を作成する。 本手法は,MIMIC-III (Messical Information Mart for Intensive Care) とPCBA (PubChem BioAssay) の3つのMTLベンチマークデータセットに対して検証を行った。

Predicting multiple heterogeneous biological and medical targets is a challenge for traditional deep learning models. In contrast to single-task learning, in which a separate model is trained for each target, multi-task learning (MTL) optimizes a single model to predict multiple related targets simultaneously. To address this challenge, we propose the Multi-gate Mixture-of-Experts with Exclusivity (MMoEEx). Our work aims to tackle the heterogeneous MTL setting, in which the same model optimizes multiple tasks with different characteristics. Such a scenario can overwhelm current MTL approaches due to the challenges in balancing shared and task-specific representations and the need to optimize tasks with competing optimization paths. Our method makes two key contributions: first, we introduce an approach to induce more diversity among experts, thus creating representations more suitable for highly imbalanced and heterogenous MTL learning; second, we adopt a two-step optimization [6, 11] approach to balancing the tasks at the gradient level. We validate our method on three MTL benchmark datasets, including Medical Information Mart for Intensive Care (MIMIC-III) and PubChem BioAssay (PCBA).
翻訳日:2021-06-23 14:18:22 公開日:2021-06-20
# (参考訳) アイテムとアノテーションの協調モデリングによるラベル品質の向上

Improving Label Quality by Jointly Modeling Items and Annotators ( http://arxiv.org/abs/2106.10600v1 )

ライセンス: CC BY 4.0
Tharindu Cyril Weerasooriya, Alexander G. Ororbia, Christopher M. Homan(参考訳) 雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。 我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。 初期の研究では、ラベルの分布を完全に組み込んでおらず、注釈者のみによるクラスタリングやデータのみを調査していなかった。 筆者らのフレームワークは, これらすべての特性を包含している: 1) 'emph{any} ブラックボックス教師付き学習アルゴリズムの入力としてアノテータ応答の基底的真理推定を提供するように設計されたグラフィカルモデル, (2) 内部構造がグラフィカルモデルの多くの特性を捉える独立したニューラルモデル。 両方のモデルを用いて教師あり学習実験を行い,1つのベースラインと最先端モデルのパフォーマンスと比較した。

We propose a fully Bayesian framework for learning ground truth labels from noisy annotators. Our framework ensures scalability by factoring a generative, Bayesian soft clustering model over label distributions into the classic David and Skene joint annotator-data model. Earlier research along these lines has neither fully incorporated label distributions nor explored clustering by annotators only or data only. Our framework incorporates all of these properties as: (1) a graphical model designed to provide better ground truth estimates of annotator responses as input to \emph{any} black box supervised learning algorithm, and (2) a standalone neural model whose internal structure captures many of the properties of the graphical model. We conduct supervised learning experiments using both models and compare them to the performance of one baseline and a state-of-the-art model.
翻訳日:2021-06-23 14:04:57 公開日:2021-06-20
# (参考訳) rego: イメージの参照ガイド付きアウトペインティング

ReGO: Reference-Guided Outpainting for Scenery Image ( http://arxiv.org/abs/2106.10601v1 )

ライセンス: CC BY 4.0
Yaxiong Wang, Yunchao Wei, Xueming Qian, Li Zhu and Yi Yang(参考訳) 本研究の課題は, 現実的かつ困難な景観イメージに対処することである。 近年,画像のセマンティックな一貫したコンテンツを生成することによって,生成的対角学習が画像の画質を著しく向上させている。 しかし、既存の手法は常にぼやけたテクスチャや生成部分のアーティファクトに苦しむため、全体的な老朽化の結果は正確性に欠ける。 この弱さを克服するため、近隣のピクセル(参考画像)から「textbf{Re}ference-\textbf{G}uided \textbf{O}utpainting (ReGO)」を借用し、テクスチャに富んだ結果を合成する原理を考察した。 特に、ReGOは、ターゲット画像のテクスチャ補償のための参照画像のピクセルを転送するための適応コンテンツ選択(ACS)モジュールを設計する。 生成された部分のスタイルが参照画像の影響を受けないようにするために、ReGOを増強し、スタイル一貫性のある結果を合成するスタイルランキングロスが提案されている。 NS6K~\cite{yangzx} と NS8K~\cite{wang} の2つの人気のあるベンチマーク実験は、我々のReGOの有効性をよく示している。

We aim to tackle the challenging yet practical scenery image outpainting task in this work. Recently, generative adversarial learning has significantly advanced the image outpainting by producing semantic consistent content for the given image. However, the existing methods always suffer from the blurry texture and the artifacts of the generative part, making the overall outpainting results lack authenticity. To overcome the weakness, this work investigates a principle way to synthesize texture-rich results by borrowing pixels from its neighbors (\ie, reference images), named \textbf{Re}ference-\textbf{G}uided \textbf{O}utpainting (ReGO). Particularly, the ReGO designs an Adaptive Content Selection (ACS) module to transfer the pixel of reference images for texture compensating of the target one. To prevent the style of the generated part from being affected by the reference images, a style ranking loss is further proposed to augment the ReGO to synthesize style-consistent results. Extensive experiments on two popular benchmarks, NS6K~\cite{yangzx} and NS8K~\cite{wang}, well demonstrate the effectiveness of our ReGO.
翻訳日:2021-06-23 13:41:43 公開日:2021-06-20
# (参考訳) 自己監督型コントラスト学習法を用いた一般リモートセンシングビジョンモデルを用いたリモートセンシング画像セマンティックセマンティックセグメンテーション

Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method ( http://arxiv.org/abs/2106.10605v1 )

ライセンス: CC BY 4.0
Haifeng Li, Yi Li, Guo Zhang, Ruoyun Liu, Haozhe Huang, Qing Zhu, Chao Tao(参考訳) 新しい学習パラダイムであるself-supervised learning(ssl)は、大きなラベルのない画像で一般的なモデルを事前学習し、ラベル付きサンプルの少ない下流タスクを微調整することで、このような問題を解決するのに使用できる。 対照的な学習はSSLの典型的な方法であり、一般的な不変機能を学ぶことができる。 しかし、既存のコントラスト学習のほとんどは画像レベルの表現を得るために分類タスクのために設計されており、ピクセルレベルの識別を必要とする意味的セグメンテーションタスクには最適ではないかもしれない。 そこで我々は,リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。 具体的には、グローバルなスタイルのコントラッシブモジュールは、画像レベルの表現をより良く学習するために使用され、スタイルの特徴が全体像の特徴をよりよく表現できると考えている。 本研究では,4つのリモートセンシングセマンティクスセグメンテーションデータセットを評価し,本手法が最先端の自己教師付き手法やイメージネットの事前学習よりも優れていることを示す。 具体的には、元のデータセットからの1\%のアノテーションで、ISPRS Potsdamデータセットでは6\%、Deep Globe Land Cover Classificationデータセットでは3\%の改善を行った。 さらに,上流タスクのデータセットと下流タスクの差異がある場合,教師あり学習よりも優れる。 本研究は,リモートセンシング意味セグメンテーションにおける自己教師あり学習の開発を促進する。 ソースコードはhttps://github.com/GeoX-Lab/G-RSIMで入手できる。

A new learning paradigm, self-supervised learning (SSL), can be used to solve such problems by pre-training a general model with large unlabeled images and then fine-tuning on a downstream task with very few labeled samples. Contrastive learning is a typical method of SSL, which can learn general invariant features. However, most of the existing contrastive learning is designed for classification tasks to obtain an image-level representation, which may be sub-optimal for semantic segmentation tasks requiring pixel-level discrimination. Therefore, we propose Global style and Local matching Contrastive Learning Network (GLCNet) for remote sensing semantic segmentation. Specifically, the global style contrastive module is used to learn an image-level representation better, as we consider the style features can better represent the overall image features; The local features matching contrastive module is designed to learn representations of local regions which is beneficial for semantic segmentation. We evaluate four remote sensing semantic segmentation datasets, and the experimental results show that our method mostly outperforms state-of-the-art self-supervised methods and ImageNet pre-training. Specifically, with 1\% annotation from the original dataset, our approach improves Kappa by 6\% on the ISPRS Potsdam dataset and 3\% on Deep Globe Land Cover Classification dataset relative to the existing baseline. Moreover, our method outperforms supervised learning when there are some differences between the datasets of upstream tasks and downstream tasks. Our study promotes the development of self-supervised learning in the field of remote sensing semantic segmentation. The source code is available at https://github.com/GeoX-Lab/G-RSIM.
翻訳日:2021-06-23 13:21:32 公開日:2021-06-20
# (参考訳) 凝集不均質データの疫学的モデリングにおける相違

Discrepancies in Epidemiological Modeling of Aggregated Heterogeneous Data ( http://arxiv.org/abs/2106.10610v1 )

ライセンス: CC BY 4.0
Anna L. Trella, Peniel N. Argaw, Michelle M. Li, James A. Hay(参考訳) 疫学のモデルでは、分析の大半は地対地データを生成するための単一の流行過程を想定している。 しかし,この推定データ生成プロセスは,地域やコミュニティにまたがって集約されることが多いため,非現実的である可能性がある。 結果として、複雑なシステムに直面すると、例えば〜送信率などの疫学パラメータを推定するための最先端モデルが不適切となる。 我々の研究は、集合データセットに疫学モデルを適用する際のいくつかの限界を実証的に示している。 異なるパラメータのSEIRモデルを用いて個別にシミュレートされた複数の流行からの入射曲線を組み合わせることで、複雑なアウトブレイクシナリオを3つ生成する。 これらのシナリオを用いて,ウイルスの負荷監視データから流行経路を推定する最先端ベイズ推定法のロバスト性を評価する。 我々は,このベイズ推定フレームワークにおける2つのデータ生成モデルを評価する:単純な指数関数的成長モデルと高度に柔軟なガウス過程事前モデルである。 以上の結果から, 両モデルとも, 発生頻度曲線の正確な伝達率推定を, 発病率の偏りを発生させるコストで生成し, 人口動態を反映していることがわかった。 指数的成長モデルは解釈可能であるが、根底にある流行の複雑さを捉えることはできない。 十分な監視データがあれば、ガウス過程の先行モデルは複雑な軌道の形状を捉えるが、データカバレッジが低い期間は不正確である。 以上の結果から,データ生成プロセスにおける複雑さや不均一性を無視する潜在的な落とし穴が浮き彫りになる。

Within epidemiological modeling, the majority of analyses assume a single epidemic process for generating ground-truth data. However, this assumed data generation process can be unrealistic, since data sources for epidemics are often aggregated across geographic regions and communities. As a result, state-of-the-art models for estimating epidemiological parameters, e.g.~transmission rates, can be inappropriate when faced with complex systems. Our work empirically demonstrates some limitations of applying epidemiological models to aggregated datasets. We generate three complex outbreak scenarios by combining incidence curves from multiple epidemics that are independently simulated via SEIR models with different sets of parameters. Using these scenarios, we assess the robustness of a state-of-the-art Bayesian inference method that estimates the epidemic trajectory from viral load surveillance data. We evaluate two data-generating models within this Bayesian inference framework: a simple exponential growth model and a highly flexible Gaussian process prior model. Our results show that both models generate accurate transmission rate estimates for the combined incidence curve at the cost of generating biased estimates for each underlying epidemic, reflecting highly heterogeneous underlying population dynamics. The exponential growth model, while interpretable, is unable to capture the complexity of the underlying epidemics. With sufficient surveillance data, the Gaussian process prior model captures the shape of complex trajectories, but is imprecise for periods of low data coverage. Thus, our results highlight the potential pitfalls of neglecting complexity and heterogeneity in the data generation process, which can mask underlying location- and population-specific epidemic dynamics.
翻訳日:2021-06-23 13:00:07 公開日:2021-06-20
# (参考訳) 意味的損失を伴う生成対話モデルの訓練効果に関する簡単な研究

A Brief Study on the Effects of Training Generative Dialogue Models with a Semantic loss ( http://arxiv.org/abs/2106.10619v1 )

ライセンス: CC BY 4.0
Prasanna Parthasarathi, Mohamed Abdelsalam, Joelle Pineau, Sarath Chandar(参考訳) 対話タスクにおける次の発話生成のために訓練されたニューラルモデルは、負の対数類似度(NLL)やクロスエントロピーといったトレーニング目標を持つトレーニングセットのn-gramシーケンスを模倣することを学ぶ。 このような一般的なトレーニング目標は、コンテキストに対する代替応答の生成を助長しない。 しかし, モデルが生成し, セマンティックな類似度にスコアを付けるための代替学習目標を最小化する効果は, 十分に研究されていない。 言語生成モデルは、学習中に代替テキストを生成し、意味的損失を補助目的として最小化することで、その多様性を向上させることができると仮定する。 目標指向対話における次の発話生成タスクにおける2つの異なるデータセットについて、このアイデアを探求する。 意味的目的を最小化する 小さいデータセット(フレーム)の応答の多様性を改善するが、大きなデータセット(multiwoz)のnllを最小化するのと同様に、単に、大きな言語モデル埋め込みは、トークン埋め込みの初期化よりも意味的損失目標として有用である。

Neural models trained for next utterance generation in dialogue task learn to mimic the n-gram sequences in the training set with training objectives like negative log-likelihood (NLL) or cross-entropy. Such commonly used training objectives do not foster generating alternate responses to a context. But, the effects of minimizing an alternate training objective that fosters a model to generate alternate response and score it on semantic similarity has not been well studied. We hypothesize that a language generation model can improve on its diversity by learning to generate alternate text during training and minimizing a semantic loss as an auxiliary objective. We explore this idea on two different sized data sets on the task of next utterance generation in goal oriented dialogues. We make two observations (1) minimizing a semantic objective improved diversity in responses in the smaller data set (Frames) but only as-good-as minimizing the NLL in the larger data set (MultiWoZ) (2) large language model embeddings can be more useful as a semantic loss objective than as initialization for token embeddings.
翻訳日:2021-06-23 12:47:01 公開日:2021-06-20
# (参考訳) Apache Sparkに組み込む大規模ネットワーク

Large-Scale Network Embedding in Apache Spark ( http://arxiv.org/abs/2106.10620v1 )

ライセンス: CC0 1.0
Wenqing Lin(参考訳) ネットワーク埋め込みは、リコメンデーションシステムやグラフによる異常検出など、ソーシャルレコメンデーションやネットワーク分析に広く利用されている。 しかし、グラフ上の計算はコストがかかることが多く、(ii)グラフのサイズやベクトルの中間結果が禁止的に大きくなり、単一のマシンで処理することが難しくなるため、従来のアプローチでは大きなグラフを効率的に処理することはできない。 本稿では,Apache Sparkを用いてグラフを複数の小さなサブグラフに再帰的に分割してノードの内部および外部構造情報をキャプチャし,各サブグラフに対するネットワーク埋め込みを並列に計算する,大規模グラフへのネットワーク埋め込みのための効率的かつ効率的な分散アルゴリズムを提案する。 最後に、すべての部分グラフの出力を集約することにより、線形コストでノードの埋め込みを得る。 その後、さまざまな実験において、提案手法が数十億のエッジを持つグラフを数時間で処理でき、最先端のアプローチよりも少なくとも4倍高速であることを示す。 さらに、リンク予測とノード分類タスクで最大4.25 %$と4.27 %$の改善が達成されている。 最終的に、提案されたアルゴリズムをTencentの2つのオンラインゲームに、友人の推薦とアイテムレコメンデーションの応用で展開し、実行時に最大911.11\%、対応する評価指標で最大12.80\%の競争力を向上させる。

Network embedding has been widely used in social recommendation and network analysis, such as recommendation systems and anomaly detection with graphs. However, most of previous approaches cannot handle large graphs efficiently, due to that (i) computation on graphs is often costly and (ii) the size of graph or the intermediate results of vectors could be prohibitively large, rendering it difficult to be processed on a single machine. In this paper, we propose an efficient and effective distributed algorithm for network embedding on large graphs using Apache Spark, which recursively partitions a graph into several small-sized subgraphs to capture the internal and external structural information of nodes, and then computes the network embedding for each subgraph in parallel. Finally, by aggregating the outputs on all subgraphs, we obtain the embeddings of nodes in a linear cost. After that, we demonstrate in various experiments that our proposed approach is able to handle graphs with billions of edges within a few hours and is at least 4 times faster than the state-of-the-art approaches. Besides, it achieves up to $4.25\%$ and $4.27\%$ improvements on link prediction and node classification tasks respectively. In the end, we deploy the proposed algorithms in two online games of Tencent with the applications of friend recommendation and item recommendation, which improve the competitors by up to $91.11\%$ in running time and up to $12.80\%$ in the corresponding evaluation metrics.
翻訳日:2021-06-23 12:38:01 公開日:2021-06-20
# (参考訳) タスクに関する十分な情報を符号化する生成対話モデルのエンコーダ表現

Do Encoder Representations of Generative Dialogue Models Encode Sufficient Information about the Task ? ( http://arxiv.org/abs/2106.10622v1 )

ライセンス: CC BY 4.0
Prasanna Parthasarathi, Joelle Pineau, Sarath Chandar(参考訳) 対話における次の発話の予測は、ユーザの入力テキストのエンコーディングに基づいて、データ駆動アプローチにおける適切な応答を生成する。 生成した言語の意味的・統語的品質は評価されるが、多くの場合、符号化された入力表現は評価されない。 適切な応答を予測するにはエンコーダの表現が不可欠であるため、エンコーダの表現の評価は困難だが重要な問題である。 本研究では,対話モデルにおける言語理解の健全さを適切に評価するには,人為的あるいは自動的な指標によるテキストの評価が不十分であることを示すとともに,対話モデルで一般的に使用される異なる言語エンコーダのエンコーダ表現を評価するためのプローブタスクのセットを提案する。 実験から、探索タスクのいくつかは簡単で、さらに高度なモデルアーキテクチャを学ぶのが難しいものもあります。 また,実験により,RNNベースのアーキテクチャはトランスフォーマーモデルよりもテキスト生成における自動メトリクスの性能が低いが,トランスフォーマーよりもタスク情報を保存できることを示すプローブタスクにおいて,トランスフォーマーモデルよりも優れていた。

Predicting the next utterance in dialogue is contingent on encoding of users' input text to generate appropriate and relevant response in data-driven approaches. Although the semantic and syntactic quality of the language generated is evaluated, more often than not, the encoded representation of input is not evaluated. As the representation of the encoder is essential for predicting the appropriate response, evaluation of encoder representation is a challenging yet important problem. In this work, we showcase evaluating the text generated through human or automatic metrics is not sufficient to appropriately evaluate soundness of the language understanding of dialogue models and, to that end, propose a set of probe tasks to evaluate encoder representation of different language encoders commonly used in dialogue models. From experiments, we observe that some of the probe tasks are easier and some are harder for even sophisticated model architectures to learn. And, through experiments we observe that RNN based architectures have lower performance on automatic metrics on text generation than transformer model but perform better than the transformer model on the probe tasks indicating that RNNs might preserve task information better than the Transformers.
翻訳日:2021-06-23 11:15:17 公開日:2021-06-20
# (参考訳) 複合高分解能ネットワークを用いた病理組織像におけるクリアセル腎細胞癌の核移植

Nuclei Grading of Clear Cell Renal Cell Carcinoma in Histopathological Image by Composite High-Resolution Network ( http://arxiv.org/abs/2106.10641v1 )

ライセンス: CC BY 4.0
Zeyu Gao, Jiangbo Shi, Xianli Zhang, Yang Li, Haichuan Zhang, Jialun Wu, Chunbao Wang, Deyu Meng, Chen Li(参考訳) 明確な細胞腎細胞癌 (ccRCC) のグレードは重要な予後因子であり, ccRCC核はRCCの病態解析において重要な役割を担っている。 コンピュータ支援核グレーディングは、病理組織像中の腫瘍核のグレードを自動的に識別することにより、病理学者の作業効率を向上させることを目的としている。 そのようなタスクは原子核を正確に分割し、正確に分類する必要がある。 しかし、既存の核セグメンテーションと分類法のほとんどは、核グレーディングのクラス間類似性を処理できないため、直接ccrccグレーディングタスクに適用することはできない。 本稿では,ccRCC核グレーディングのための複合高分解能ネットワークを提案する。 具体的には、クラスター化された核を分離できるW-Netと呼ばれるセグメンテーションネットワークを提案する。 次に,これらの課題を学習するために提案する2つの高分解能特徴抽出器(hrfes)に基づいて,核の細粒度分類を2つのクロスカテゴリ分類タスクに再キャストする。 2つのhrfeはw-netと同じバックボーンエンコーダを複合接続で共有するので、セグメンテーションタスクの有意義な特徴を分類タスクに継承することができる。 最後に、各核の予測ラベルを生成するためにヘッドフュージョンブロックを適用する。 さらに,70945のアノテート核を含む1000個の画像パッチを含む,ccRCC核グレーディングのためのデータセットも導入した。 提案手法は,この大規模ccRCCグレーディングデータセット上の既存手法と比較して,最先端性能を実現する。

The grade of clear cell renal cell carcinoma (ccRCC) is a critical prognostic factor, making ccRCC nuclei grading a crucial task in RCC pathology analysis. Computer-aided nuclei grading aims to improve pathologists' work efficiency while reducing their misdiagnosis rate by automatically identifying the grades of tumor nuclei within histopathological images. Such a task requires precisely segment and accurately classify the nuclei. However, most of the existing nuclei segmentation and classification methods can not handle the inter-class similarity property of nuclei grading, thus can not be directly applied to the ccRCC grading task. In this paper, we propose a Composite High-Resolution Network for ccRCC nuclei grading. Specifically, we propose a segmentation network called W-Net that can separate the clustered nuclei. Then, we recast the fine-grained classification of nuclei to two cross-category classification tasks, based on two high-resolution feature extractors (HRFEs) which are proposed for learning these two tasks. The two HRFEs share the same backbone encoder with W-Net by a composite connection so that meaningful features for the segmentation task can be inherited for the classification task. Last, a head-fusion block is applied to generate the predicted label of each nucleus. Furthermore, we introduce a dataset for ccRCC nuclei grading, containing 1000 image patches with 70945 annotated nuclei. We demonstrate that our proposed method achieves state-of-the-art performance compared to existing methods on this large ccRCC grading dataset.
翻訳日:2021-06-23 11:01:18 公開日:2021-06-20
# (参考訳) 非ペア画像キャプションにおける意味関係の検討

Exploring Semantic Relationships for Unpaired Image Captioning ( http://arxiv.org/abs/2106.10658v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Meng Gao, Tianhao Zhang, Yuexian Zou(参考訳) 近年、画像キャプションは学術界と産業界の両方に大きな関心を集めている。 既存のシステムの多くは、画像と文のペアからなる大規模なデータセット上に構築されている。 また、最新の画像キャプションシステムにおいても、深い画像理解を実現することは依然として困難である。 本研究では,視覚領域と言語領域をハイレベルな意味情報で橋渡しすることで,非ペア画像キャプションを実現する。 この動機は、画像と記述の両方から同じモダリティを持つ意味概念を抽出できるという事実に由来する。 モデルが生成するキャプションの品質をさらに向上するため,画像の理解を深めるために,意味概念間の関係を探索するセマンティック・リレーションシップ・エクスプローラを提案する。 mscocoデータセットの広範な実験は、ペアデータセットなしで望ましいキャプションを生成することができることを示している。 さらに,提案手法は,ciderスコアの大幅な改善が8%に達するペア設定下での5つの強力なベースラインを強化し,その効果を実証し,幅広いモデルにうまく一般化する。

Recently, image captioning has aroused great interest in both academic and industrial worlds. Most existing systems are built upon large-scale datasets consisting of image-sentence pairs, which, however, are time-consuming to construct. In addition, even for the most advanced image captioning systems, it is still difficult to realize deep image understanding. In this work, we achieve unpaired image captioning by bridging the vision and the language domains with high-level semantic information. The motivation stems from the fact that the semantic concepts with the same modality can be extracted from both images and descriptions. To further improve the quality of captions generated by the model, we propose the Semantic Relationship Explorer, which explores the relationships between semantic concepts for better understanding of the image. Extensive experiments on MSCOCO dataset show that we can generate desirable captions without paired datasets. Furthermore, the proposed approach boosts five strong baselines under the paired setting, where the most significant improvement in CIDEr score reaches 8%, demonstrating that it is effective and generalizes well to a wide range of models.
翻訳日:2021-06-23 10:51:07 公開日:2021-06-20
# (参考訳) 外乱検出と空間解析アルゴリズム

Outlier Detection and Spatial Analysis Algorithms ( http://arxiv.org/abs/2106.10669v1 )

ライセンス: CC BY 4.0
Jacob John(参考訳) 異常検出はデータマイニングにおいて重要な領域である。 分析に先立ってデータを前処理したり、アウトレーヤの有効性やその重要性に応じて処理フェーズ(視覚化前)をポストするために使用することができる。 外乱検出は、クレジットカード詐欺の検出、ネットワーク侵入、機械故障予測、潜在的なテロ攻撃など、いくつかの分野に及んでいる。 外れ値(outlier)は、特性がかなり異なるデータポイントである。 彼らは分析中に不整合、ノイズ、異常を引き起こすデータセットから逸脱し、元のポイントを変更するが、一般的な誤解は、アウトレーヤはデータセットから即座に削除または置き換えなければならないということである。 このような点は、研究問題に完全に重要となる別のメカニズムから得ることができるので、別々に分析すれば有用であると考えられる。 本研究では,空間解析のための異常検出法について検討する。 空間データまたは地理空間データは、位置や領域などの地理的特性や特性を示すものである。 例えば、降水量、気温、風速などの気象データが特定の地域で収集される。

Outlier detection is a significant area in data mining. It can be either used to pre-process the data prior to an analysis or post the processing phase (before visualization) depending on the effectiveness of the outlier and its importance. Outlier detection extends to several fields such as detection of credit card fraud, network intrusions, machine failure prediction, potential terrorist attacks, and so on. Outliers are those data points with characteristics considerably different. They deviate from the data set causing inconsistencies, noise and anomalies during analysis and result in modification of the original points However, a common misconception is that outliers have to be immediately eliminated or replaced from the data set. Such points could be considered useful if analyzed separately as they could be obtained from a separate mechanism entirely making it important to the research question. This study surveys the different methods of outlier detection for spatial analysis. Spatial data or geospatial data are those that exhibit geographic properties or attributes such as position or areas. An example would be weather data such as precipitation, temperature, wind velocity, and so on collected for a defined region.
翻訳日:2021-06-23 10:32:06 公開日:2021-06-20
# (参考訳) 対話型ボリューム画像分割のための品質認識メモリネットワーク

Quality-Aware Memory Network for Interactive Volumetric Image Segmentation ( http://arxiv.org/abs/2106.10686v1 )

ライセンス: CC BY 4.0
Tianfei Zhou, Liulei Li, Gustav Bredell, Jianwu Li, Ender Konukoglu(参考訳) 近年の自動画像分割技術が進歩しているにもかかわらず、完全に自動的な結果は通常、臨床使用に間に合わないため、さらなる改善が必要である。 本研究では,3次元医用画像の対話的セグメンテーションのための品質認識型メモリネットワークを提案する。 任意のスライス上のユーザガイダンスにより、対話ネットワークを最初に使用して、初期2dセグメンテーションを得る。 その後、品質認識メモリネットワークは、初期セグメンテーション推定をボリューム全体にわたって双方向に伝搬する。 他のスライスに対する追加のユーザガイダンスに基づくその後の改良も同じように組み込むことができる。 さらにインタラクティブなセグメンテーションを容易にするために、各スライスの現在のセグメンテーション品質に基づいて、次のスライスをセグメントに提案する品質評価モジュールを導入する。 提案するネットワークは,1) メモリ拡張ネットワークは,他のスライスのセグメンテーションのために検索される過去のセグメンテーション情報を迅速にエンコードする機能を提供し,2) 品質評価モジュールは,セグメンテーション予測の質を直接推定し,ユーザが優先的に低品質スライスをマルチラウンドリファインメント用にラベル付けするアクティブラーニングパラダイムを実現する。 提案したネットワークは、様々な種類のユーザアノテーション(例えば、スクリブル、ボックス)をうまく一般化できる、堅牢な対話型セグメンテーションエンジンに導かれる。 各種医療データセットに対する実験結果から,既存手法と比較してアプローチの優位性が示された。

Despite recent progress of automatic medical image segmentation techniques, fully automatic results usually fail to meet the clinical use and typically require further refinement. In this work, we propose a quality-aware memory network for interactive segmentation of 3D medical images. Provided by user guidance on an arbitrary slice, an interaction network is firstly employed to obtain an initial 2D segmentation. The quality-aware memory network subsequently propagates the initial segmentation estimation bidirectionally over the entire volume. Subsequent refinement based on additional user guidance on other slices can be incorporated in the same manner. To further facilitate interactive segmentation, a quality assessment module is introduced to suggest the next slice to segment based on the current segmentation quality of each slice. The proposed network has two appealing characteristics: 1) The memory-augmented network offers the ability to quickly encode past segmentation information, which will be retrieved for the segmentation of other slices; 2) The quality assessment module enables the model to directly estimate the qualities of segmentation predictions, which allows an active learning paradigm where users preferentially label the lowest-quality slice for multi-round refinement. The proposed network leads to a robust interactive segmentation engine, which can generalize well to various types of user annotations (e.g., scribbles, boxes). Experimental results on various medical datasets demonstrate the superiority of our approach in comparison with existing techniques.
翻訳日:2021-06-23 10:23:18 公開日:2021-06-20
# (参考訳) NeuS:多視点再構成のためのボリュームレンダリングによるニューラルインシシデント表面の学習

NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction ( http://arxiv.org/abs/2106.10689v1 )

ライセンス: CC0 1.0
Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, Wenping Wang(参考訳) 2次元画像入力から高い忠実度でオブジェクトやシーンを再構成するためのニューラルサーフェス再構成法neusを提案する。 DVRやIDRのような既存の神経表面再構成アプローチでは、フォアグラウンドマスクを監督し、局所的なミニマに簡単に閉じ込められ、激しい自己閉塞や細い構造を持つ物体の再構築に苦労する。 一方、NeRFなどの新しいビュー合成のための最近のニューラルメソッドでは、ボリュームレンダリングを使用して、高度に複雑なオブジェクトであっても、最適化の堅牢性を持ったニューラルシーン表現を生成する。 しかし、この学習された暗黙表現から高品質な曲面を抽出することは、表現に十分な表面制約がないため困難である。 NeuSでは,表面を符号付き距離関数(SDF)のゼロレベル集合として表現し,ニューラルなSDF表現を訓練するための新しいボリュームレンダリング法を提案する。 従来のボリュームレンダリング手法は、固有の幾何学的誤り(すなわち、)を引き起こす。 偏り) 表面の再構成のための新しい定式化の提案であり, 第一次近似では偏りのないため, マスク監督なしでもより正確な表面の再構成が可能である。 DTUデータセットとBlendedMVSデータセットの実験によると、NeuSは、特に複雑な構造と自己閉塞を持つオブジェクトやシーンにおいて、高品質な表面再構成における最先端技術よりも優れている。

We present a novel neural surface reconstruction method, called NeuS, for reconstructing objects and scenes with high fidelity from 2D image inputs. Existing neural surface reconstruction approaches, such as DVR and IDR, require foreground mask as supervision, easily get trapped in local minima, and therefore struggle with the reconstruction of objects with severe self-occlusion or thin structures. Meanwhile, recent neural methods for novel view synthesis, such as NeRF and its variants, use volume rendering to produce a neural scene representation with robustness of optimization, even for highly complex objects. However, extracting high-quality surfaces from this learned implicit representation is difficult because there are not sufficient surface constraints in the representation. In NeuS, we propose to represent a surface as the zero-level set of a signed distance function (SDF) and develop a new volume rendering method to train a neural SDF representation. We observe that the conventional volume rendering method causes inherent geometric errors (i.e. bias) for surface reconstruction, and therefore propose a new formulation that is free of bias in the first order of approximation, thus leading to more accurate surface reconstruction even without the mask supervision. Experiments on the DTU dataset and the BlendedMVS dataset show that NeuS outperforms the state-of-the-arts in high-quality surface reconstruction, especially for objects and scenes with complex structures and self-occlusion.
翻訳日:2021-06-23 10:12:08 公開日:2021-06-20
# (参考訳) 深部圧縮センシングのための生成モデル反転学習

Generative Model Adversarial Training for Deep Compressed Sensing ( http://arxiv.org/abs/2106.10696v1 )

ライセンス: CC BY 4.0
Ashkan Esmaeili(参考訳) 深部圧縮センシングは、データは潜在空間、すなわち本質的に低次元であるスパース表現を持つと仮定する。 原データは、低次元空間から低次元発生器を介してマッピングされると仮定する。 本研究では,そのような低次元から高次元の深層学習型発電機を圧縮センシングに適した設計法を提案し,潜在領域における普遍的逆摂動に対する頑健性に満足する手法を提案する。 また、このノイズが潜在空間で考慮される理由も正当化する。 この研究は、対向的な摂動に対する訓練された発電機の堅牢性に関する理論的解析に支えられている。 実世界のデータセットに関する実験は、深部圧縮センシングのためのemph{generative model adversarial trainingの提案の有効性を裏付けるものである。

Deep compressed sensing assumes the data has sparse representation in a latent space, i.e., it is intrinsically of low-dimension. The original data is assumed to be mapped from a low-dimensional space through a low-to-high-dimensional generator. In this work, we propound how to design such a low-to-high dimensional deep learning-based generator suiting for compressed sensing, while satisfying robustness to universal adversarial perturbations in the latent domain. We also justify why the noise is considered in the latent space. The work is also buttressed with theoretical analysis on the robustness of the trained generator to adversarial perturbations. Experiments on real-world datasets are provided to substantiate the efficacy of the proposed \emph{generative model adversarial training for deep compressed sensing.}
翻訳日:2021-06-23 09:52:26 公開日:2021-06-20
# (参考訳) ディープラーニングのためのメモリ拡張最適化

Memory Augmented Optimizers for Deep Learning ( http://arxiv.org/abs/2106.10708v1 )

ライセンス: CC BY 4.0
Paul-Aymeric McRae, Prasanna Parthasarathi, Mahmoud Assran, Sarath Chandar(参考訳) データ駆動学習における損失を最小化するための一般的なアプローチは、しばしば効率的なパラメータ更新のために勾配の歴史を抽象化または明示的に保持する。 勾配の集約された履歴は、任意のステップの勾配が情報的でない場合でも、パラメータを正しい方向に更新する。 メタパラメータにまとめられたり、メモリに明示的に格納された勾配の歴史は理論と実践において有効であることが示されているが、パラメータ更新を決定するのに$all$または一部の勾配しか不十分かどうかという問題は未解決のままである。 本稿では,内部メモリにおける勾配履歴の限られたビューを保持するメモリ拡張型勾配降下最適化器の枠組みを提案する。 このようなオプティマイザは、大規模なリアルタイムデータセットによく拡張でき、標準オプティマイザのメモリ拡張拡張は、私たちが検討したコンピュータビジョンや言語タスクの大部分において、収束の加速とパフォーマンスの向上を享受できることを示した。 さらに,提案する固定サイズのメモリを持つオプティマイザのクラスは,どの勾配が選択されるか,どのように線形に結合して更新ステップを形成するかに関わらず,強い凸性の仮定のもとに収束することを示す。

Popular approaches for minimizing loss in data-driven learning often involve an abstraction or an explicit retention of the history of gradients for efficient parameter updates. The aggregated history of gradients nudges the parameter updates in the right direction even when the gradients at any given step are not informative. Although the history of gradients summarized in meta-parameters or explicitly stored in memory has been shown effective in theory and practice, the question of whether $all$ or only a subset of the gradients in the history are sufficient in deciding the parameter updates remains unanswered. In this paper, we propose a framework of memory-augmented gradient descent optimizers that retain a limited view of their gradient history in their internal memory. Such optimizers scale well to large real-life datasets, and our experiments show that the memory augmented extensions of standard optimizers enjoy accelerated convergence and improved performance on a majority of computer vision and language tasks that we considered. Additionally, we prove that the proposed class of optimizers with fixed-size memory converge under assumptions of strong convexity, regardless of which gradients are selected or how they are linearly combined to form the update step.
翻訳日:2021-06-23 09:42:59 公開日:2021-06-20
# (参考訳) 量子機械学習:fadか未来か?

Quantum Machine Learning: Fad or Future? ( http://arxiv.org/abs/2106.10714v1 )

ライセンス: CC BY 4.0
Arhum Ishtiaq, Sara Mahmood(参考訳) 過去数十年間、古典的な機械学習は、自動化、自然言語処理、予測分析などを通じて多くの人の生活を改善してきました。 しかし、大きな懸念は、CPU、GPU、アプリケーション固有集積回路(ASIC)を含む古典的なコンピューティングデバイスによって、私たちが利用可能な最大計算容量のしきい値に迅速にアプローチしているという事実である。 これは、今や数十億と数兆のパラメータを持つモデルサイズが指数関数的に増加し、1つのモデルを収束させるのに、かなりの時間をかけて大量のコンピューティングリソースを必要とするためである。 量子コンピューティングを特定の機械学習タスクに使用することの有効性を観察し、ノイズデータに対する収束、エラー低減、堅牢性の向上の可能性を検討するため、量子機械学習が従来の機械学習アプローチよりも改善する上で役立つ側面を検証し検証するとともに、量子アプローチが主流になるのを妨げる可能性のある制限についても考察する。 主な焦点は、farhiらによる研究を再現し、tensorflow量子ドキュメントの助けを借りて、量子コンテキストで機械学習を実行するという彼らの理論を使って実験を行うことだ。

For the last few decades, classical machine learning has allowed us to improve the lives of many through automation, natural language processing, predictive analytics and much more. However, a major concern is the fact that we're fast approach the threshold of the maximum possible computational capacity available to us by the means of classical computing devices including CPUs, GPUs and Application Specific Integrated Circuits (ASICs). This is due to the exponential increase in model sizes which now have parameters in the magnitude of billions and trillions, requiring a significant amount of computing resources across a significant amount of time, just to converge one single model. To observe the efficacy of using quantum computing for certain machine learning tasks and explore the improved potential of convergence, error reduction and robustness to noisy data, this paper will look forth to test and verify the aspects in which quantum machine learning can help improve over classical machine learning approaches while also shedding light on the likely limitations that have prevented quantum approaches to become the mainstream. A major focus will be to recreate the work by Farhi et al and conduct experiments using their theory of performing machine learning in a quantum context, with assistance from the Tensorflow Quantum documentation.
翻訳日:2021-06-23 09:18:47 公開日:2021-06-20
# (参考訳) 社会・健康科学における機械学習

Machine learning in the social and health sciences ( http://arxiv.org/abs/2106.10716v1 )

ライセンス: CC BY 4.0
Anja K. Leist, Matthias Klee, Jung Hyun Kim, David H. Rehkopf, St\'ephane P. A. Bordas, Graciela Muniz-Terrera, Sara Wade(参考訳) 社会・健康科学における機械学習(ML)アプローチの取り込みは、かなり遅く、社会・健康研究におけるMLを用いた研究は、いまだに断片化されている。 これは、計算/データと社会・健康科学の研究が別々に発達したことと、非データサイエンス研究者のためのML技術におけるアクセス可能な概要と適切なトレーニングの欠如による可能性がある。 本稿では、これらの分野における統計的分析に必要な要件を取り入れ、社会・健康科学における研究課題のメタマッピングを適切なMLアプローチに適用する。 確立された分類を、有害な健康や社会的成果の有病率の推定、事象のリスクの予測、リスク要因や有害な結果の原因の特定など、共通の研究目標に対する説明、予測、因果推論にマッピングする。 このメタマッピングは、学際的障壁を克服し、社会科学と健康科学の研究者と方法論的に訓練された研究者の対話を開始することを目的としている。 このようなマッピングは、社会・健康科学に関連する領域固有の側面を考慮しながら、MLの利点を十分に活用する上でも有効であり、基本的および応用的な社会・健康科学研究を前進させるために、MLアプリケーションの取り込みの加速に寄与することが望まれる。

The uptake of machine learning (ML) approaches in the social and health sciences has been rather slow, and research using ML for social and health research questions remains fragmented. This may be due to the separate development of research in the computational/data versus social and health sciences as well as a lack of accessible overviews and adequate training in ML techniques for non data science researchers. This paper provides a meta-mapping of research questions in the social and health sciences to appropriate ML approaches, by incorporating the necessary requirements to statistical analysis in these disciplines. We map the established classification into description, prediction, and causal inference to common research goals, such as estimating prevalence of adverse health or social outcomes, predicting the risk of an event, and identifying risk factors or causes of adverse outcomes. This meta-mapping aims at overcoming disciplinary barriers and starting a fluid dialogue between researchers from the social and health sciences and methodologically trained researchers. Such mapping may also help to fully exploit the benefits of ML while considering domain-specific aspects relevant to the social and health sciences, and hopefully contribute to the acceleration of the uptake of ML applications to advance both basic and applied social and health sciences research.
翻訳日:2021-06-23 09:10:27 公開日:2021-06-20
# (参考訳) 意思決定理論オンライン学習の最適戦略

Optimal Strategies for Decision Theoretic Online Learning ( http://arxiv.org/abs/2106.10717v1 )

ライセンス: CC BY 4.0
Yoav Freund(参考訳) ドリフトゲーム解析を連続時間まで拡張し、値関数が厳密な正の微分を持つときの最適逆数がブロニアン運動であることを示す。

We extend the drifting games analysis to continuous time and show that the optimal adversary, if the value function has strictly positive derivative up to fourth order is bronian motion.
翻訳日:2021-06-23 08:32:56 公開日:2021-06-20
# (参考訳) 多言語ユーザ生成コンテンツにおける感情翻訳の課題:Twitterを事例として

Challenges in Translation of Emotions in Multilingual User-Generated Content: Twitter as a Case Study ( http://arxiv.org/abs/2106.10719v1 )

ライセンス: CC BY 4.0
Hadeel Saadany, Constantin Orasan, Rocio Caro Quintana, Felix do Carmo, Leonardo Zilio(参考訳) 感情は普遍的な概念であるが、感情の異なる色合いをある言語から別の言語に移すことは、機械翻訳システムだけでなく、人間の翻訳者にとって必ずしも単純ではない。 さらに、認知状態は、言語と文化の両方の文脈によって形成される経験の言葉による説明によって確立される。 感情の表現がメッセージの重要な構成要素となる、多くの言葉の文脈が存在する。 ユーザ生成コンテンツ(UGC)には特に当てはまります。製品やサービス、ツイート、ソーシャルメディアポストのレビューという形でもよいのです。 近年,Twitter などの多言語 Web サイトが UGC の自動翻訳を提供し,言語的に多様な利用者にリーチすることが一般的になっている。 このようなシナリオでは、ユーザーの感情を翻訳するプロセスは完全に自動化され、人間の介入なしに、ポスト編集や正確性チェックも行わない。 本研究では,自動翻訳ツールが,つぶやきなどの多言語データにおける感情伝達に有効であるかどうかを評価する。 異なる言語における感情の翻訳において課題となるtwitterデータに特有の言語現象が存在することを示す。 我々はこれらの課題を言語的特徴の一覧にまとめ、これらの特徴が異なる言語対でどれだけ頻度が高いかを示す。 また、ソーステキストにおける感情の保存に関して、mtシステムの性能を評価するための一般的な手法の能力を評価する。

Although emotions are universal concepts, transferring the different shades of emotion from one language to another may not always be straightforward for human translators, let alone for machine translation systems. Moreover, the cognitive states are established by verbal explanations of experience which is shaped by both the verbal and cultural contexts. There are a number of verbal contexts where expression of emotions constitutes the pivotal component of the message. This is particularly true for User-Generated Content (UGC) which can be in the form of a review of a product or a service, a tweet, or a social media post. Recently, it has become common practice for multilingual websites such as Twitter to provide an automatic translation of UGC to reach out to their linguistically diverse users. In such scenarios, the process of translating the user's emotion is entirely automatic with no human intervention, neither for post-editing nor for accuracy checking. In this research, we assess whether automatic translation tools can be a successful real-life utility in transferring emotion in user-generated multilingual data such as tweets. We show that there are linguistic phenomena specific of Twitter data that pose a challenge in translation of emotions in different languages. We summarise these challenges in a list of linguistic features and show how frequent these features are in different language pairs. We also assess the capacity of commonly used methods for evaluating the performance of an MT system with respect to the preservation of emotion in the source text.
翻訳日:2021-06-23 08:22:56 公開日:2021-06-20
# (参考訳) 新しいクラス発見のための近所のコントラスト学習

Neighborhood Contrastive Learning for Novel Class Discovery ( http://arxiv.org/abs/2106.10731v1 )

ライセンス: CC BY 4.0
Zhun Zhong, Enrico Fini, Subhankar Roy, Zhiming Luo, Elisa Ricci, Nicu Sebe(参考訳) 本稿では,既知のクラスを持つラベル付きデータセットを与えられた無ラベルサンプルのセットで新しいクラスを公開するタスクであるnovell class discovery(ncd)について述べる。 我々はNCDの特徴を利用してNCL(Neighborhood Contrastive Learning)と呼ばれる新しいフレームワークを構築し、クラスタリング性能に重要な識別表現を学習する。 私たちの貢献は2倍です。 まず、ラベル付き集合で訓練された特徴抽出器が、一般的なクエリサンプルとその隣人が同じクラスを共有しそうな表現を生成する。 我々は,この観察を利用して擬陽性のペアを比較学習で収集し,より識別的な表現を学習するよう促す。 第二に、ほとんどのインスタンスは容易にネットワークによって識別され、対照的な損失にはあまり寄与しない。 この問題を克服するために,ラベル付きサンプルとラベルなしサンプルを混合して,ハードネガを生成することを提案する。 この2つの成分がクラスタリング性能に大きく寄与していることを実験的に証明し,最先端の手法よりも大きなマージン(例えば,cifar-100ではクラスタリング精度+13%,imagenetでは+8%)で評価した。

In this paper, we address Novel Class Discovery (NCD), the task of unveiling new classes in a set of unlabeled samples given a labeled dataset with known classes. We exploit the peculiarities of NCD to build a new framework, named Neighborhood Contrastive Learning (NCL), to learn discriminative representations that are important to clustering performance. Our contribution is twofold. First, we find that a feature extractor trained on the labeled set generates representations in which a generic query sample and its neighbors are likely to share the same class. We exploit this observation to retrieve and aggregate pseudo-positive pairs with contrastive learning, thus encouraging the model to learn more discriminative representations. Second, we notice that most of the instances are easily discriminated by the network, contributing less to the contrastive loss. To overcome this issue, we propose to generate hard negatives by mixing labeled and unlabeled samples in the feature space. We experimentally demonstrate that these two ingredients significantly contribute to clustering performance and lead our model to outperform state-of-the-art methods by a large margin (e.g., clustering accuracy +13% on CIFAR-100 and +8% on ImageNet).
翻訳日:2021-06-23 08:11:55 公開日:2021-06-20
# (参考訳) 交通における多目的アプリケーションのためのモバイルセンシング

Mobile Sensing for Multipurpose Applications in Transportation ( http://arxiv.org/abs/2106.10733v1 )

ライセンス: CC BY 4.0
Armstrong Aboah, Michael Boeding, Yaw Adu-Gyamfi(参考訳) 現代の交通問題に対処するためには、日常的で一貫性のあるデータ収集が必要であり、高度なマシンがデータ収集に使用されると、データ収集のコストが大幅に増加する。 この制約のため、運輸省は、交通問題をタイムリーに分析・解決するための一貫したデータ収集に苦慮している。 スマートフォンに内蔵されたセンサの最近の進歩は、より手頃なデータ収集方法となり、本研究の主な目的は、データ収集のためのスマートフォンアプリケーションの開発と実装であり、現在設計されているアプリは、フロントエンドグラフィカルユーザインタフェース(GUI)、センサーモジュール、バックエンドモジュールの3つの主要なモジュールから構成されている。 フロントエンドのユーザインターフェースはアプリとのインタラクションを可能にするが、センサーモジュールはアプリが使用されている間、ビデオや加速度計などの関連データを収集する。 The backend, on the other hand, is made up of firebase storage, which is used to store the gathered data.In comparison to other developed apps for collecting pavement information, this current app is not overly reliant on the internet enabling the app to be used in areas of restricted internet access.The developed application was evaluated by collecting data on the i70W highway connecting Columbia, Missouri, and Kansas City, Missouri.The data was analyzed for a variety of purposes, including calculating the International Roughness Index (IRI), identifying pavement distresses, and understanding driver's behaviour and environment .The results of the application indicate that the data collected by the app is of high quality.

Routine and consistent data collection is required to address contemporary transportation issues.The cost of data collection increases significantly when sophisticated machines are used to collect data. Due to this constraint, State Departments of Transportation struggles to collect consistent data for analyzing and resolving transportation problems in a timely manner. Recent advancements in the sensors integrated into smartphones have resulted in a more affordable method of data collection.The primary objective of this study is to develop and implement a smartphone application for data collection.The currently designed app consists of three major modules: a frontend graphical user interface (GUI), a sensor module, and a backend module. While the frontend user interface enables interaction with the app, the sensor modules collect relevant data such as video and accelerometer readings while the app is in use. The backend, on the other hand, is made up of firebase storage, which is used to store the gathered data.In comparison to other developed apps for collecting pavement information, this current app is not overly reliant on the internet enabling the app to be used in areas of restricted internet access.The developed application was evaluated by collecting data on the i70W highway connecting Columbia, Missouri, and Kansas City, Missouri.The data was analyzed for a variety of purposes, including calculating the International Roughness Index (IRI), identifying pavement distresses, and understanding driver's behaviour and environment .The results of the application indicate that the data collected by the app is of high quality.
翻訳日:2021-06-23 07:54:09 公開日:2021-06-20
# (参考訳) Shapley Valueはフェアか? フェデレーション学習におけるmavericksのクライアント選択の改善

Is Shapley Value fair? Improving Client Selection for Mavericks in Federated Learning ( http://arxiv.org/abs/2106.10734v1 )

ライセンス: CC BY 4.0
Jiyue Huang, Chi Hong, Lydia Y. Chen, Stefanie Roos(参考訳) shapleyの値は一般的に、連合学習における顧客参加の計測とインセンティブとして採用されている。 本稿では、理論的およびシミュレーションを通して、Shapley Valueが共通のタイプのクライアントであるMaverickの貢献を過小評価していることを示す。 Mavericksはデータ分散とデータ量の両方が異なるクライアントであり、特定のタイプのデータの唯一の所有者である。 適切なタイミングで適切なクライアントを選択することは、フェデレーション学習において、収束時間を短縮し、精度を向上させるために重要である。 我々は、ローカルデータとグローバルデータの間のワッサースタイン距離に基づく適応的なクライアント選択戦略であるFedEMDを提案する。 FedEMDは、希少なクラスの改善によりモデルが恩恵を受けるとき、マベリックが選択されることが好ましい選択確率に適応するため、異なる種類のマベリックの存在下での高速収束を一貫して保証する。 Shapley Valueベースのものを含む既存の戦略と比較して、FedEMDはFedAvgアグリゲーションに対して少なくとも26.9%のニューラルネットワーク分類器の収束を改善している。

Shapley Value is commonly adopted to measure and incentivize client participation in federated learning. In this paper, we show -- theoretically and through simulations -- that Shapley Value underestimates the contribution of a common type of client: the Maverick. Mavericks are clients that differ both in data distribution and data quantity and can be the sole owners of certain types of data. Selecting the right clients at the right moment is important for federated learning to reduce convergence times and improve accuracy. We propose FedEMD, an adaptive client selection strategy based on the Wasserstein distance between the local and global data distributions. As FedEMD adapts the selection probability such that Mavericks are preferably selected when the model benefits from improvement on rare classes, it consistently ensures the fast convergence in the presence of different types of Mavericks. Compared to existing strategies, including Shapley Value-based ones, FedEMD improves the convergence of neural network classifiers by at least 26.9% for FedAvg aggregation compared with the state of the art.
翻訳日:2021-06-23 07:46:55 公開日:2021-06-20
# (参考訳) Calliar:アラビア文字のオンライン手書きデータセット

Calliar: An Online Handwritten Dataset for Arabic Calligraphy ( http://arxiv.org/abs/2106.10745v1 )

ライセンス: CC BY 4.0
Zaid Alyafeai, Maged S. Al-shaibani, Mustafa Ghaleb, Yousif Ahmed Al-Wajih(参考訳) 書道はアラビア語の遺産と文化の重要な部分である。 過去には家屋やモスクの装飾に使われたことがある。 通常、こうした書風は美学の専門家によって手作業で設計される。 ここ数年、装飾された建物の写真を撮ったり、デジタルデバイスで描いたりすることで、このような芸術をデジタル化する努力が続けられてきた。 後者は、例えば電子ペンである装置の動きを画面上に記録することにより、描画が追跡されるオンライン形式と考えられる。 文献では、書道のアラビア語スタイルを多用したオフラインデータセットが多数収集されている。 しかし、アラビア文字のオンラインデータセットは存在しない。 本稿では,2500文からなるアラビア語書体Calliarのオンラインデータセットの収集とアノテーションに対するアプローチについて述べる。 Calliarは、ストローク、文字、単語、および文レベルの予測のために注釈付けされる。

Calligraphy is an essential part of the Arabic heritage and culture. It has been used in the past for the decoration of houses and mosques. Usually, such calligraphy is designed manually by experts with aesthetic insights. In the past few years, there has been a considerable effort to digitize such type of art by either taking a photo of decorated buildings or drawing them using digital devices. The latter is considered an online form where the drawing is tracked by recording the apparatus movement, an electronic pen for instance, on a screen. In the literature, there are many offline datasets collected with a diversity of Arabic styles for calligraphy. However, there is no available online dataset for Arabic calligraphy. In this paper, we illustrate our approach for the collection and annotation of an online dataset for Arabic calligraphy called Calliar that consists of 2,500 sentences. Calliar is annotated for stroke, character, word and sentence level prediction.
翻訳日:2021-06-23 07:24:58 公開日:2021-06-20
# (参考訳) 実世界のネットワークにおけるグラフ測度空間分割の機会と課題

Opportunities and challenges in partitioning the graph measure space of real-world networks ( http://arxiv.org/abs/2106.10753v1 )

ライセンス: CC BY 4.0
M\'at\'e J\'ozsa, Alp\'ar S. L\'az\'ar and Zsolt I. L\'az\'ar(参考訳) 遺伝的、タンパク質相互作用、代謝ネットワークから脳、言語、生態、およびソーシャルネットワークまで、何千もの現実世界のネットワークを含む巨大なデータセットに基づいて、異なる複雑なネットワークドメイン(cnd)の構造的尺度を定義する。 全ネットワークの208指標を計算し,統計および機械学習の包括的かつ精巧なワークフローを用いて,cndsのキーグラフ尺度の同定の限界と可能性について検討した。 提案手法により,ネットワークドメインの識別と,それらの特徴の参照が可能となった。 これらの特徴はCND特有のものであり、個々のCNDのレベルでもユニークではないことが判明した。 提示された方法論は、高度に不均衡で歪んだデータセットを含む他の類似のシナリオにも適用できる。

Based on a large dataset containing thousands of real-world networks ranging from genetic, protein interaction, and metabolic networks to brain, language, ecology, and social networks we search for defining structural measures of the different complex network domains (CND). We calculate 208 measures for all networks and using a comprehensive and scrupulous workflow of statistical and machine learning methods we investigated the limitations and possibilities of identifying the key graph measures of CNDs. Our approach managed to identify well distinguishable groups of network domains and confer their relevant features. These features turn out to be CND specific and not unique even at the level of individual CNDs. The presented methodology may be applied to other similar scenarios involving highly unbalanced and skewed datasets.
翻訳日:2021-06-23 07:16:38 公開日:2021-06-20
# (参考訳) モデルベース手法によるロバスト回帰

Robust Regression via Model Based Methods ( http://arxiv.org/abs/2106.10759v1 )

ライセンス: CC BY 4.0
Armin Moharrer, Khashayar Kamran, Edmund Ye, and Stratis Ioannidis(参考訳) 平均二乗誤差損失は、オートエンコーダ、マルチターゲット回帰、行列分解など、多くのアプリケーションで広く使われている。 微分可能性による計算上の優位性にもかかわらず、外れ値には堅牢ではない。 対照的に、l_pノルムはロバストであることが知られているが、例えば確率的勾配降下(英語版)によって最適化することはできない。 モデルベース最適化 (MBO) [35, 36] にインスパイアされたアルゴリズムを提案し, 非凸対象を凸モデル関数に置き換え, モデル関数の最適化と解の更新を交互に行う。 これを頑健な回帰に適用し、MBOの内部最適化を解くために、OADM(Online Alternating Direction Method of Multipliers) [50] の確率的変種であるSADMを提案する。 SADM は O(log T/T) に収束することを示す。 最後に, (a) 外れ値に対するl_pノルムのロバスト性, (b) 提案するモデルに基づくアルゴリズムの効率を, オートエンコーダの勾配法や多目標回帰法と比較して実験的に示す。

The mean squared error loss is widely used in many applications, including auto-encoders, multi-target regression, and matrix factorization, to name a few. Despite computational advantages due to its differentiability, it is not robust to outliers. In contrast, l_p norms are known to be robust, but cannot be optimized via, e.g., stochastic gradient descent, as they are non-differentiable. We propose an algorithm inspired by so-called model-based optimization (MBO) [35, 36], which replaces a non-convex objective with a convex model function and alternates between optimizing the model function and updating the solution. We apply this to robust regression, proposing SADM, a stochastic variant of the Online Alternating Direction Method of Multipliers (OADM) [50] to solve the inner optimization in MBO. We show that SADM converges with the rate O(log T/T). Finally, we demonstrate experimentally (a) the robustness of l_p norms to outliers and (b) the efficiency of our proposed model-based algorithms in comparison with gradient methods on autoencoders and multi-target regression.
翻訳日:2021-06-23 07:04:12 公開日:2021-06-20
# (参考訳) 適応性の面における一般化:ベイズ的視点

Generalization in the Face of Adaptivity: A Bayesian Perspective ( http://arxiv.org/abs/2106.10761v1 )

ライセンス: CC BY 4.0
Moshe Shenfeld and Katrina Ligett(参考訳) 適応的に選択されたクエリによるデータサンプルの反復使用は、すぐに過剰フィッティングにつながり、発行されたクエリは、基礎となるデータ分散上のクエリの値と大きく異なるサンプルの回答を導き出す。 ディファレンシャルプライバシは、適応的なchosenクエリにもかかわらず、一般化を保証するツールを提供するが、最悪の場合、例えば、低分散クエリに対する結果が改善されないことを意味する。 本稿では,適応型データ解析の核となる問題を照らし出す簡易な新しいキャラクタリゼーションを提案する。 適応性の悪影響は,過去のクエリに対する応答において,データサンプルに関する情報がどの程度エンコードされたかを示すベイズ因子に基づく尺度と,将来のクエリの振る舞いの共分散から生じることを示す。 私たちはこの直観を利用して新しい安定性概念を導入し、最も基本的なノイズ付加機構(ラプラスノイズとガウスノイズ付加)の新たな一般化結果を証明するためにそれを使い、その範囲の2乗ではなく、クエリの分散にスケールすることを保証します。 適応データ解析における一般化の基本的な問題に対する新しい洞察と新しいアルゴリズムの扉を開く。

Repeated use of a data sample via adaptively chosen queries can rapidly lead to overfitting, wherein the issued queries yield answers on the sample that differ wildly from the values of those queries on the underlying data distribution. Differential privacy provides a tool to ensure generalization despite adaptively-chosen queries, but its worst-case nature means that it cannot, for example, yield improved results for low-variance queries. In this paper, we give a simple new characterization that illuminates the core problem of adaptive data analysis. We show explicitly that the harms of adaptivity come from the covariance between the behavior of future queries and a Bayes factor-based measure of how much information about the data sample was encoded in the responses given to past queries. We leverage this intuition to introduce a new stability notion; we then use it to prove new generalization results for the most basic noise-addition mechanisms (Laplace and Gaussian noise addition), with guarantees that scale with the variance of the queries rather than the square of their range. Our characterization opens the door to new insights and new algorithms for the fundamental problem of achieving generalization in adaptive data analysis.
翻訳日:2021-06-23 06:31:42 公開日:2021-06-20
# (参考訳) 咬合による物体位置追跡の学習

Learning to Track Object Position through Occlusion ( http://arxiv.org/abs/2106.10766v1 )

ライセンス: CC BY 4.0
Satyaki Chakraborty, Martial Hebert(参考訳) 閉塞は物体探知機や追跡装置が遭遇する最も重大な課題の1つである。 オブジェクトの検出と追跡は過去にも多くの注目を集めてきたが、この領域の既存のほとんどのメソッドは、オブジェクトが隠されているときの検出や追跡を目標としていない。 しかし、隠蔽によって興味のある物体を検出したり追跡したりすることは、様々な自律的なタスクにおいて長年の課題であった。 視覚オブジェクトトラッカーと明示的なオクルージョンモデリングの経験を取り入れた従来の手法では、データについていくつかの基本的な仮定がなされている。 そこで本稿では,領域ベースビデオオブジェクト検出装置の成功を基盤とした「トラッキング・バイ・検出」手法を提案する。 ビデオレベル物体検出装置は, 咬合下においても物体特徴の長期伝播を可能にする, 新たな再帰計算ユニットをコアとして使用する。 最後に,現状の映像物体検出装置と比較し,インターネットから収集した家具組立ビデオのデータセットにおいて,ネジやナッツ,ボルトなどの小型物体がカメラの視点からしばしば目立たないほど優れた結果が得られることを示す。

Occlusion is one of the most significant challenges encountered by object detectors and trackers. While both object detection and tracking has received a lot of attention in the past, most existing methods in this domain do not target detecting or tracking objects when they are occluded. However, being able to detect or track an object of interest through occlusion has been a long standing challenge for different autonomous tasks. Traditional methods that employ visual object trackers with explicit occlusion modeling experience drift and make several fundamental assumptions about the data. We propose to address this with a `tracking-by-detection` approach that builds upon the success of region based video object detectors. Our video level object detector uses a novel recurrent computational unit at its core that enables long term propagation of object features even under occlusion. Finally, we compare our approach with existing state-of-the-art video object detectors and show that our approach achieves superior results on a dataset of furniture assembly videos collected from the internet, where small objects like screws, nuts, and bolts often get occluded from the camera viewpoint.
翻訳日:2021-06-23 06:30:38 公開日:2021-06-20
# (参考訳) 深層学習を用いた文脈対応法的引用推薦

Context-Aware Legal Citation Recommendation using Deep Learning ( http://arxiv.org/abs/2106.10776v1 )

ライセンス: CC BY 4.0
Zihan Huang, Charles Low, Mengqiu Teng, Hongyi Zhang, Daniel E. Ho, Mark S. Krass, Matthias Grabmair(参考訳) 弁護士や裁判官は、決定を起草しながら引用する適切な法的権限を研究するのに多くの時間を費やしている。 本稿では,意見草案作成プロセスにおける効率向上に役立つ引用推薦ツールを開発した。 引用リストに基づく手法(コラボレーティブフィルタリング)と3つのコンテキストベース手法(text similarity, bilstm, roberta分類器)を含む4種類の機械学習モデルをトレーニングした。 実験では,局所的なテクストコンテキストの活用がレコメンデーションを向上し,ディープニューラルモデルが良好なパフォーマンスを実現することを示す。 非ディープテキストベースの手法は、構造化されたケースメタデータへのアクセスの恩恵を受けるが、深層モデルは、長さ不足の文脈から予測した場合のみそのようなアクセスの恩恵を受ける。 また,RoBERTaは,事前トレーニングの利点があるにもかかわらず,反復神経モデルよりも優れていないことも確認した。 ロバータモデルの挙動解析により、予測性能は時間と引用クラス間で安定であることが示される。

Lawyers and judges spend a large amount of time researching the proper legal authority to cite while drafting decisions. In this paper, we develop a citation recommendation tool that can help improve efficiency in the process of opinion drafting. We train four types of machine learning models, including a citation-list based method (collaborative filtering) and three context-based methods (text similarity, BiLSTM and RoBERTa classifiers). Our experiments show that leveraging local textual context improves recommendation, and that deep neural models achieve decent performance. We show that non-deep text-based methods benefit from access to structured case metadata, but deep models only benefit from such access when predicting from context of insufficient length. We also find that, even after extensive training, RoBERTa does not outperform a recurrent neural model, despite its benefits of pretraining. Our behavior analysis of the RoBERTa model further shows that predictive performance is stable across time and citation classes.
翻訳日:2021-06-23 06:19:17 公開日:2021-06-20
# (参考訳) 生成モデルのためのDeep Metric Learningによる逆マニフォールドマッチング

Adversarial Manifold Matching via Deep Metric Learning for Generative Modeling ( http://arxiv.org/abs/2106.10777v1 )

ライセンス: CC BY 4.0
Mengyu Dai and Haibin Hang(参考訳) 本稿では,分布生成器(データ生成器)と距離生成器を含む生成モデルに対する多様体マッチング手法を提案する。 我々のフレームワークでは、実データセットを高次元ユークリッド空間に埋め込まれた多様体として捉えている。 分布生成器は、実データ多様体の周りに凝縮された分布に従うサンプルを生成することを目的としている。 幾何形状記述子であるCentroid と $p$-diameter の2つの点集合を学習距離メートル法とマッチングすることにより、距離生成器は実データと生成されたサンプルの両方を用いて、実データ多様体上の固有の測地線距離に近い距離メートル法を学習する。 生成した距離計量はさらに多様体マッチングに使用される。 2つのネットワークはトレーニングプロセス中に同時に学習される。 非教師なし学習タスクと教師なし学習タスクの両方にアプローチを適用する: 無条件画像生成タスクにおいて、提案手法は既存の生成モデルと比較して競争結果を得る; 超解像タスクでは、知覚に基づくモデルにこの枠組みを取り入れ、より自然なテクスチャのサンプルを生成することにより、視覚品質を向上させる。 理論解析と実データ実験の両方が提案フレームワークの有効性と有効性を保証する。

We propose a manifold matching approach to generative models which includes a distribution generator (or data generator) and a metric generator. In our framework, we view the real data set as some manifold embedded in a high-dimensional Euclidean space. The distribution generator aims at generating samples that follow some distribution condensed around the real data manifold. It is achieved by matching two sets of points using their geometric shape descriptors, such as centroid and $p$-diameter, with learned distance metric; the metric generator utilizes both real data and generated samples to learn a distance metric which is close to some intrinsic geodesic distance on the real data manifold. The produced distance metric is further used for manifold matching. The two networks are learned simultaneously during the training process. We apply the approach on both unsupervised and supervised learning tasks: in unconditional image generation task, the proposed method obtains competitive results compared with existing generative models; in super-resolution task, we incorporate the framework in perception-based models and improve visual qualities by producing samples with more natural textures. Both theoretical analysis and real data experiments guarantee the feasibility and effectiveness of the proposed framework.
翻訳日:2021-06-23 06:00:43 公開日:2021-06-20
# フォア攻撃とディープ・ネットワークの解説

Attack to Fool and Explain Deep Networks ( http://arxiv.org/abs/2106.10606v1 )

ライセンス: Link先を確認
Naveed Akhtar, Muhammad A. A. K. Jalwana, Mohammed Bennamoun, Ajmal Mian(参考訳) 深い視覚モデルは入力に対する敵対的な摂動に影響を受けやすい。 これらの信号は慎重に作られていますが、それでも人間にはノイズのようなパターンがあります。 この観察は、深い視覚表現が人間の知覚とミスアライメントされているという議論につながった。 我々は,敵の摂動における人為的なパターンの証拠を提供することで対抗する。 まず、ネットワークを騙してオブジェクトのカテゴリ(ソースクラス)全体をターゲットラベルと混同する攻撃を提案する。 我々の攻撃はまた、非ソースクラスからのサンプルによる意図しない不正行為を制限し、ネットワーク不正に対する人間定義のセマンティックな概念を包含する。 提案した攻撃は,摂動の規則的な幾何学的パターンの出現に繋がるだけでなく,深層モデルの決定境界に関する洞察に富んだ情報も明らかにする。 さらにこの現象を探索し、攻撃の「敵」の目的を変更し、深い視覚表現を「説明」するためのツールとして使用する。 提案手法によって計算された摂動の注意深いチャネル化と投影により,人間の定義した意味概念に対するモデルの理解を可視化できることを示す。 最後に、摂動の説明可能性を利用して、敵対的堅牢な「分類者」を攻撃することにより、画像生成、塗装、インタラクティブな画像操作を行い、その主な貢献は、視覚モデルを解釈するツールに変換される新しい現実的対人攻撃である。 記事はまた、複数の興味深いアプリケーションで敵の目的を超えて攻撃の効用を確立するという点で、二次的な貢献も行っています。

Deep visual models are susceptible to adversarial perturbations to inputs. Although these signals are carefully crafted, they still appear noise-like patterns to humans. This observation has led to the argument that deep visual representation is misaligned with human perception. We counter-argue by providing evidence of human-meaningful patterns in adversarial perturbations. We first propose an attack that fools a network to confuse a whole category of objects (source class) with a target label. Our attack also limits the unintended fooling by samples from non-sources classes, thereby circumscribing human-defined semantic notions for network fooling. We show that the proposed attack not only leads to the emergence of regular geometric patterns in the perturbations, but also reveals insightful information about the decision boundaries of deep models. Exploring this phenomenon further, we alter the `adversarial' objective of our attack to use it as a tool to `explain' deep visual representation. We show that by careful channeling and projection of the perturbations computed by our method, we can visualize a model's understanding of human-defined semantic notions. Finally, we exploit the explanability properties of our perturbations to perform image generation, inpainting and interactive image manipulation by attacking adversarialy robust `classifiers'.In all, our major contribution is a novel pragmatic adversarial attack that is subsequently transformed into a tool to interpret the visual models. The article also makes secondary contributions in terms of establishing the utility of our attack beyond the adversarial objective with multiple interesting applications.
翻訳日:2021-06-22 16:03:41 公開日:2021-06-20
# CAMERAS:画像の高解像度化と高衛生化のためのクラス活性化マッピング

CAMERAS: Enhanced Resolution And Sanity preserving Class Activation Mapping for image saliency ( http://arxiv.org/abs/2106.10649v1 )

ライセンス: Link先を確認
Mohammad A. A. K. Jalwana, Naveed Akhtar, Mohammed Bennamoun, Ajmal Mian(参考訳) backpropagation image saliencyは、入力における個々のピクセルのモデル中心の重要性を推定することで、モデル予測を説明することを目的としている。 しかしながら、ネットワーク内の初期のレイヤのクラス非感受性は、より深いレイヤの解像度の低いアクティベーションマップでのみサリエンシー計算を可能にするため、イメージのサリエンシーが損なわれる。 これを修正すれば、健全性が損なわれる可能性がある。 我々は,外部の事前設定を必要とせず,かつ地図の健全性を保つための高忠実度バックプロパゲーション・サリエンシーマップの計算手法であるカメラを提案する。 本手法は,活性化マップと逆伝播勾配のマルチスケール蓄積と融合を行い,精度の高い塩分分布を求める。 画像の正確さから、異なるモデルに対する入力特徴の相対的重要性の明瞭化、および視覚的に類似した物体のモデル知覚の正確な識別に至るまで、高解像度マッピングは、論文で紹介したブラックボックスの深部視覚モデルに対する複数の新しい洞察を提供する。 また,我々の地図が特定した正確な領域に焦点をあてることで,攻撃信号の規範を劇的に削減することにより,対向的設定におけるサリエンシーマップの有用性を実証する。 また,本手法は,新たな評価指標と,本研究の方向性の健全性チェックを誘導する。 コードはhttps://github.com/VisMIL/CAMERASで入手できる。

Backpropagation image saliency aims at explaining model predictions by estimating model-centric importance of individual pixels in the input. However, class-insensitivity of the earlier layers in a network only allows saliency computation with low resolution activation maps of the deeper layers, resulting in compromised image saliency. Remedifying this can lead to sanity failures. We propose CAMERAS, a technique to compute high-fidelity backpropagation saliency maps without requiring any external priors and preserving the map sanity. Our method systematically performs multi-scale accumulation and fusion of the activation maps and backpropagated gradients to compute precise saliency maps. From accurate image saliency to articulation of relative importance of input features for different models, and precise discrimination between model perception of visually similar objects, our high-resolution mapping offers multiple novel insights into the black-box deep visual models, which are presented in the paper. We also demonstrate the utility of our saliency maps in adversarial setup by drastically reducing the norm of attack signals by focusing them on the precise regions identified by our maps. Our method also inspires new evaluation metrics and a sanity check for this developing research direction. Code is available here https://github.com/VisMIL/CAMERAS
翻訳日:2021-06-22 16:03:16 公開日:2021-06-20
# 画像処理と機械学習を用いた植物病検出

Plant Disease Detection Using Image Processing and Machine Learning ( http://arxiv.org/abs/2106.10698v1 )

ライセンス: Link先を確認
Pranesh Kulkarni, Atharva Karwande, Tejas Kolhe, Soham Kamble, Akshay Joshi, Medha Wyawahare(参考訳) 農業実践における重要かつ退屈な仕事の1つは、作物に対する病気の検出である。 膨大な時間と熟練した労働を必要とする。 本稿では,コンピュータビジョンと機械学習技術を用いた作物病の検出手法を提案する。 提案システムは,93%の精度で5種の共通植物の20種類の疾患を検出できる。

One of the important and tedious task in agricultural practices is the detection of the disease on crops. It requires huge time as well as skilled labor. This paper proposes a smart and efficient technique for detection of crop disease which uses computer vision and machine learning techniques. The proposed system is able to detect 20 different diseases of 5 common plants with 93% accuracy.
翻訳日:2021-06-22 16:02:48 公開日:2021-06-20
# tag, copy, predict: シーケンスを用いた視覚情報抽出のための統一的弱教師付き学習フレームワーク

Tag, Copy or Predict: A Unified Weakly-Supervised Learning Framework for Visual Information Extraction using Sequences ( http://arxiv.org/abs/2106.10681v1 )

ライセンス: Link先を確認
Jiapeng Wang, Tianwei Wang, Guozhi Tang, Lianwen Jin, Weihong Ma, Kai Ding, Yichao Huang(参考訳) 近年,視覚情報抽出(VIE)が注目されている。 既存の手法は通常、光学文字認識(OCR)によってプレーンテキストとなり、トークンレベルのエンティティアノテーションを使用してシーケンスタグ付けモデルをトレーニングする。 しかし、アノテーションのコストが大きくなり、ラベルの混乱に晒される可能性があり、ocrエラーも最終的なパフォーマンスに大きな影響を与える。 In this paper, we propose a unified weakly-supervised learning framework called TCPN (Tag, Copy or Predict Network), which introduces 1) an efficient encoder to simultaneously model the semantic and layout information in 2D OCR results; 2) a weakly-supervised training strategy that utilizes only key information sequences as supervision; and 3) a flexible and switchable decoder which contains two inference modes: one (Copy or Predict Mode) is to output key information sequences of different categories by copying a token from the input or predicting one in each time step, and the other (Tag Mode) is to directly tag the input sequence in a single forward pass. 提案手法は,いくつかの公開ベンチマークにおいて新しい最先端性能を示す。

Visual information extraction (VIE) has attracted increasing attention in recent years. The existing methods usually first organized optical character recognition (OCR) results into plain texts and then utilized token-level entity annotations as supervision to train a sequence tagging model. However, it expends great annotation costs and may be exposed to label confusion, and the OCR errors will also significantly affect the final performance. In this paper, we propose a unified weakly-supervised learning framework called TCPN (Tag, Copy or Predict Network), which introduces 1) an efficient encoder to simultaneously model the semantic and layout information in 2D OCR results; 2) a weakly-supervised training strategy that utilizes only key information sequences as supervision; and 3) a flexible and switchable decoder which contains two inference modes: one (Copy or Predict Mode) is to output key information sequences of different categories by copying a token from the input or predicting one in each time step, and the other (Tag Mode) is to directly tag the input sequence in a single forward pass. Our method shows new state-of-the-art performance on several public benchmarks, which fully proves its effectiveness.
翻訳日:2021-06-22 16:01:05 公開日:2021-06-20
# TGRNet:テーブル構造認識のためのテーブルグラフ再構成ネットワーク

TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition ( http://arxiv.org/abs/2106.10598v1 )

ライセンス: Link先を確認
Wenyuan Xue and Baosheng Yu and Wen Wang and Dacheng Tao and Qingyong Li(参考訳) 列と列にデータを配置するテーブルは非常に効果的なデータ構造であり、ビジネスや科学研究で広く使われている。 オンライン文書とオフライン文書の大規模表データを考えると、自動テーブル認識は文書分析コミュニティから注目を集めている。 人間はテーブルの構造を容易に理解することができるが、特に様々なテーブルレイアウトやスタイルのために、マシンがそれを理解することは依然として困難である。 既存の方法は通常、テーブルを異なるテーブルセル間のマークアップシーケンスまたは隣接マトリックスのいずれかとしてモデル化し、テーブルセルの論理的な位置の重要性に対処できない。 本稿では,テーブル構造認識の問題をテーブルグラフ再構成として再構成し,テーブル構造認識のためのエンドツーエンドトレーサブルテーブルグラフ再構築ネットワーク(tgrnet)を提案する。 具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。 3つのテーブル認識データセットとテーブルグラフアノテーション(TableGraph-350K)を用いた新しいデータセットの実験結果から,テーブル構造認識におけるTGRNetの有効性が示された。 コードとアノテーションは公開される予定だ。

A table arranging data in rows and columns is a very effective data structure, which has been widely used in business and scientific research. Considering large-scale tabular data in online and offline documents, automatic table recognition has attracted increasing attention from the document analysis community. Though human can easily understand the structure of tables, it remains a challenge for machines to understand that, especially due to a variety of different table layouts and styles. Existing methods usually model a table as either the markup sequence or the adjacency matrix between different table cells, failing to address the importance of the logical location of table cells, e.g., a cell is located in the first row and the second column of the table. In this paper, we reformulate the problem of table structure recognition as the table graph reconstruction, and propose an end-to-end trainable table graph reconstruction network (TGRNet) for table structure recognition. Specifically, the proposed method has two main branches, a cell detection branch and a cell logical location branch, to jointly predict the spatial location and the logical location of different cells. Experimental results on three popular table recognition datasets and a new dataset with table graph annotations (TableGraph-350K) demonstrate the effectiveness of the proposed TGRNet for table structure recognition. Code and annotations will be made publicly available.
翻訳日:2021-06-22 15:58:46 公開日:2021-06-20
# 雑音ラベルを用いた大規模ロングテール認識の解法

Solution for Large-scale Long-tailed Recognition with Noisy Labels ( http://arxiv.org/abs/2106.10683v1 )

ライセンス: Link先を確認
Yuqiao Xian, Jia-Xin Zhuang, Fufu Yu(参考訳) これはCVPR 2021 AliProducts Challengeの技術的レポートである。 AliProducts Challenge(アリプロダクツチャレンジ)は、世界展開するeコマース企業が直面する大規模かつきめ細かい商品画像認識問題を研究するために提案されるコンテストである。 大規模な製品認識は、ノイズの多いアノテーション、不均衡な(長い尾の)データ分布、きめ細かい分類といった課題を同時に満たす。 我々のソリューションでは、ResNeSt、EfficientNetV2、DeiTを含むCNNとTransformerの最先端モデルアーキテクチャを採用しています。 その結果,反復的データクリーニング,分類器重み正規化,高分解能微調整,テスト時間拡張が,ノイズと不均衡なデータセットによるトレーニング性能向上の鍵となることがわかった。 最後に,アンサンブルモデルを用いてリーダボードに6.4365%の平均クラスエラー率を求める。

This is a technical report for CVPR 2021 AliProducts Challenge. AliProducts Challenge is a competition proposed for studying the large-scale and fine-grained commodity image recognition problem encountered by worldleading ecommerce companies. The large-scale product recognition simultaneously meets the challenge of noisy annotations, imbalanced (long-tailed) data distribution and fine-grained classification. In our solution, we adopt stateof-the-art model architectures of both CNNs and Transformer, including ResNeSt, EfficientNetV2, and DeiT. We found that iterative data cleaning, classifier weight normalization, high-resolution finetuning, and test time augmentation are key components to improve the performance of training with the noisy and imbalanced dataset. Finally, we obtain 6.4365% mean class error rate in the leaderboard with our ensemble model.
翻訳日:2021-06-22 15:58:27 公開日:2021-06-20
# ディープラーニングを用いた高速PDNインピーダンス予測

Fast PDN Impedance Prediction Using Deep Learning ( http://arxiv.org/abs/2106.10693v1 )

ライセンス: Link先を確認
Ling Zhang, Jack Juang, Zurab Kiguradze, Bo Pu, Shuai Jin, Songping Wu, Zhiping Yang, Chulsoon Hwang(参考訳) 基板形状が不規則なプリント基板(PCB)の電力分配ネットワーク(PDN)のモデル化とシミュレーションは、フルウェーブシミュレーションを用いて計算的に非効率である。 本稿では,PDNインピーダンス予測にディープラーニングを用いた新しい概念を提案する。 任意の基板形状と積み重ねに対するインピーダンスを効率的に計算するために境界要素法(BEM)を適用する。 次に、異なる形状、スタックアップ、ICロケーション、デキャップ配置を持つ100万以上のボードがランダムに生成され、ディープニューラルネットワーク(DNN)をトレーニングする。 訓練されたdnnは、トレーニングに使用されていない新しいボード構成のインピーダンスを正確に予測することができる。 トレーニングされたDNNの使用時間は0.1秒に過ぎず、これはBEM法より100倍以上、フルウェーブシミュレーションより5000倍高速である。

Modeling and simulating a power distribution network (PDN) for printed circuit boards (PCBs) with irregular board shapes and multi-layer stackup is computationally inefficient using full-wave simulations. This paper presents a new concept of using deep learning for PDN impedance prediction. A boundary element method (BEM) is applied to efficiently calculate the impedance for arbitrary board shape and stackup. Then over one million boards with different shapes, stackup, IC location, and decap placement are randomly generated to train a deep neural network (DNN). The trained DNN can predict the impedance accurately for new board configurations that have not been used for training. The consumed time using the trained DNN is only 0.1 seconds, which is over 100 times faster than the BEM method and 5000 times faster than full-wave simulations.
翻訳日:2021-06-22 15:56:16 公開日:2021-06-20
# 重み制約付き確率力学を用いたより良いトレーニング

Better Training using Weight-Constrained Stochastic Dynamics ( http://arxiv.org/abs/2106.10704v1 )

ライセンス: Link先を確認
Benedict Leimkuhler, Tiffany Vlaar, Timoth\'ee Pouchon and Amos Storkey(参考訳) 我々は、トレーニングを通してディープニューラルネットワークのパラメータ空間を制御するために制約を用いる。 カスタマイズされた適切な設計の制約を使用することで、グラデーションの消滅/拡大問題を低減し、分類境界の滑らかさを改善し、重み付けを制御し、ディープニューラルネットワークを安定化し、トレーニングアルゴリズムの堅牢性とニューラルネットワークの一般化能力を高めることができる。 我々は,確率勾配ランジュバンフレームワークに制約を効率的に組み込むための一般的なアプローチを提案する。 また、重み行列の直交保存と明示的な重み正規化による制約付きトレーニング手法の具体例を示す。 離散化スキームはランゲヴィン力学の過度な定式化とアンダーダム形式の両方に提供され、モータはサンプリング効率をさらに向上する。 これらの最適化スキームは、ニューラルネットワークアーキテクチャ設計の選択に適応したり、正規化の用語で目標を変更したり、分類タスクのパフォーマンス向上を見る必要なしに、直接使用できる。

We employ constraints to control the parameter space of deep neural networks throughout training. The use of customized, appropriately designed constraints can reduce the vanishing/exploding gradients problem, improve smoothness of classification boundaries, control weight magnitudes and stabilize deep neural networks, and thus enhance the robustness of training algorithms and the generalization capabilities of neural networks. We provide a general approach to efficiently incorporate constraints into a stochastic gradient Langevin framework, allowing enhanced exploration of the loss landscape. We also present specific examples of constrained training methods motivated by orthogonality preservation for weight matrices and explicit weight normalizations. Discretization schemes are provided both for the overdamped formulation of Langevin dynamics and the underdamped form, in which momenta further improve sampling efficiency. These optimization schemes can be used directly, without needing to adapt neural network architecture design choices or to modify the objective with regularization terms, and see performance improvements in classification tasks.
翻訳日:2021-06-22 15:52:41 公開日:2021-06-20
# ニューラルネットワークのマルチレートトレーニング

Multirate Training of Neural Networks ( http://arxiv.org/abs/2106.10771v1 )

ライセンス: Link先を確認
Tiffany Vlaar and Benedict Leimkuhler(参考訳) ニューラルネットワークパラメータを「高速」と「スロー」に分割し、異なる学習率で同時にトレーニングするニューラルネットワークのマルチレートトレーニングを提案する。 適切な分割を選択することで、転送学習タスクのための大きな計算スピードアップを得ることができる。 視覚およびNLPにおける様々な伝達学習アプリケーションに対して、結果の一般化性能を低下させることなく、ほぼ半分の時間でディープニューラルネットワークを微調整できることを示す。 また、ニューラルネットワークをスクラッチからトレーニングする環境での一般化性能を高めるのに役立つ、ニューラルネットワークパラメータの他の分割選択についても論じる。 最後に,異なる時間スケールで全ネットワークをトレーニングすることにより,データに存在するさまざまな特徴を同時に学習するマルチレート手法を提案する。 このアプローチの利点は、イメージデータ上のResNetアーキテクチャに説明されている。 本稿は,ニューラルネットワークのトレーニングにマルチレート技術を使うことの可能性を解き明かし,この分野における今後の作業に多くの出発点を提供する。

We propose multirate training of neural networks: partitioning neural network parameters into "fast" and "slow" parts which are trained simultaneously using different learning rates. By choosing appropriate partitionings we can obtain large computational speed-ups for transfer learning tasks. We show that for various transfer learning applications in vision and NLP we can fine-tune deep neural networks in almost half the time, without reducing the generalization performance of the resulting model. We also discuss other splitting choices for the neural network parameters which are beneficial in enhancing generalization performance in settings where neural networks are trained from scratch. Finally, we propose an additional multirate technique which can learn different features present in the data by training the full network on different time scales simultaneously. The benefits of using this approach are illustrated for ResNet architectures on image data. Our paper unlocks the potential of using multirate techniques for neural network training and provides many starting points for future work in this area.
翻訳日:2021-06-22 15:52:25 公開日:2021-06-20
# 神経スペクトルマーク点過程

Neural Spectral Marked Point Processes ( http://arxiv.org/abs/2106.10773v1 )

ライセンス: Link先を確認
Shixiang Zhu and Haoyun Wang and Xiuyuan Cheng and Yao Xie(参考訳) 自己と相互に引き出すポイントプロセスは、依存する離散イベントデータに対する機械学習や統計学で一般的なモデルである。 現在まで、ほとんどの既存モデルは静止核(古典的ホークス過程を含む)と単純なパラメトリックモデルを仮定している。 複雑なイベントデータを持つ現代のアプリケーションは、時間的および位置的情報に加えて、マークと呼ばれるイベントのコンテキスト情報を含む、より一般的なポイントプロセスモデルを必要とする。 さらに、そのようなアプリケーションはより複雑な時空間依存を捉えるために非定常モデルを必要とすることが多い。 これらの課題に対処するためには、ポイントプロセスモデルに汎用的な影響カーネルを考案することが重要な課題である。 本稿では,複雑な離散イベントデータを扱うための表現性が高く,理論的な性能保証を提供しながら,ニューラルネットワークベースの非定常影響カーネルを提案する。 提案手法は, 合成および実データにおける最先端技術と比較して, 優れた性能を示す。

Self- and mutually-exciting point processes are popular models in machine learning and statistics for dependent discrete event data. To date, most existing models assume stationary kernels (including the classical Hawkes processes) and simple parametric models. Modern applications with complex event data require more general point process models that can incorporate contextual information of the events, called marks, besides the temporal and location information. Moreover, such applications often require non-stationary models to capture more complex spatio-temporal dependence. To tackle these challenges, a key question is to devise a versatile influence kernel in the point process model. In this paper, we introduce a novel and general neural network-based non-stationary influence kernel with high expressiveness for handling complex discrete events data while providing theoretical performance guarantees. We demonstrate the superior performance of our proposed method compared with the state-of-the-art on synthetic and real data.
翻訳日:2021-06-22 15:52:12 公開日:2021-06-20
# 数発学習のためのメタラーニングの課題

Task Attended Meta-Learning for Few-Shot Learning ( http://arxiv.org/abs/2106.10642v1 )

ライセンス: Link先を確認
Aroof Aimen, Sahil Sidheekh, Narayanan C. Krishnan(参考訳) メタラーニング(ml)は、少数ショット学習のような制約付きリソース設定下での学習モデルにおいて有望な方向性として現れてきた。 mlの一般的なアプローチは、エピソディックトレーニングを通じて一般化可能な初期モデルやジェネリックパラメトリックオプティマイザを学習する。 前者のアプローチは、タスクのバッチから得た知識を活用して最適な事前学習を行う。 本研究では,MLにおけるバッチの重要性について検討する。 具体的には,ジェネリックパラメトリックオプティマイザの学習を改善するために,まずバッチ・エピソディック・トレーニング・レジームを組み込んだ。 また,バッチにおける各タスクが最適メタモデル学習に等しくなるという,バッチエピソジックトレーニングにおける一般的な仮定は真実ではない,という仮説を立てた。 本稿では,メタモデルの学習改善における「重要」に応じて,バッチ内のタスクを重み付けすることを提案する。 そこで本研究では,人間に選択的焦点をあてた学習カリキュラム「task attended meta-training」を導入し,タスクの重み付けを行う。 Task attentionは、任意のバッチエピソードトレーニングレギュレータと統合可能なスタンドアロンモジュールである。 miniImageNet や tieredImageNet のような複雑なデータセット上で、モデルと非タスク対応のモデルの比較は、その有効性を検証する。

Meta-learning (ML) has emerged as a promising direction in learning models under constrained resource settings like few-shot learning. The popular approaches for ML either learn a generalizable initial model or a generic parametric optimizer through episodic training. The former approaches leverage the knowledge from a batch of tasks to learn an optimal prior. In this work, we study the importance of a batch for ML. Specifically, we first incorporate a batch episodic training regimen to improve the learning of the generic parametric optimizer. We also hypothesize that the common assumption in batch episodic training that each task in a batch has an equal contribution to learning an optimal meta-model need not be true. We propose to weight the tasks in a batch according to their "importance" in improving the meta-model's learning. To this end, we introduce a training curriculum motivated by selective focus in humans, called task attended meta-training, to weight the tasks in a batch. Task attention is a standalone module that can be integrated with any batch episodic training regimen. The comparisons of the models with their non-task-attended counterparts on complex datasets like miniImageNet and tieredImageNet validate its effectiveness.
翻訳日:2021-06-22 15:49:10 公開日:2021-06-20
# コントラスト事例によるディープネットワークの一般化性能ロバスト性の実践評価

Practical Assessment of Generalization Performance Robustness for Deep Networks via Contrastive Examples ( http://arxiv.org/abs/2106.10653v1 )

ライセンス: Link先を確認
Xuanyu Wu, Xuhong Li, Haoyi Xiong, Xiao Zhang, Siyu Huang, Dejing Dou(参考訳) データ変換を伴うトレーニング画像は、ディープニューラルネットワーク(DNN)の一般化性能評価のためのテストセットを補完する対照的な例として提案されている。 本研究では,実用的な枠組みを提案する(contre はフランス語で "against" または "versus" を意味する)。 DNN geneRalization Performance EstimationにContrastiveの例を使用する。 具体的には、ContREは、優れた一般化性能を持つ堅牢なDNNモデルは、一貫した特徴の集合を抽出し、変化したデータ変換の下で同じ画像から一貫した予測を行うことができるという対照的な学習の仮定に従う。 トレーニングセット上で適切に設計されたデータ変換のためのランダム化戦略のセットを組み込んだContREでは、生成された比較例の分類誤差とフィッシャー比を採用して、テストセットを補完するディープモデルの一般化性能を評価し解析する。 ContREの有効性と効率性を示すため、3つのオープンソースベンチマークデータセット上で様々なDNNモデルを用いて、徹底的なアブレーション研究と適用可能性分析を行った。 実験の結果,(1) 比較例における深部モデルの挙動はテストセットと強く相関していること,(2) ContRE は様々な環境でのテストセットを補完する一般化性能の頑健な尺度であることを確認した。

Training images with data transformations have been suggested as contrastive examples to complement the testing set for generalization performance evaluation of deep neural networks (DNNs). In this work, we propose a practical framework ContRE (The word "contre" means "against" or "versus" in French.) that uses Contrastive examples for DNN geneRalization performance Estimation. Specifically, ContRE follows the assumption in contrastive learning that robust DNN models with good generalization performance are capable of extracting a consistent set of features and making consistent predictions from the same image under varying data transformations. Incorporating with a set of randomized strategies for well-designed data transformations over the training set, ContRE adopts classification errors and Fisher ratios on the generated contrastive examples to assess and analyze the generalization performance of deep models in complement with a testing set. To show the effectiveness and the efficiency of ContRE, extensive experiments have been done using various DNN models on three open source benchmark datasets with thorough ablation studies and applicability analyses. Our experiment results confirm that (1) behaviors of deep models on contrastive examples are strongly correlated to what on the testing set, and (2) ContRE is a robust measure of generalization performance complementing to the testing set in various settings.
翻訳日:2021-06-22 15:48:51 公開日:2021-06-20
# 非ニューラルネットワーク協調フィルタリングレコメンデーションシステムに関する包括的レビュー

A Comprehensive Review on Non-Neural Networks Collaborative Filtering Recommendation Systems ( http://arxiv.org/abs/2106.10679v1 )

ライセンス: Link先を確認
Carmel Wenga (1 and 2), Majirus Fansi (2), S\'ebastien Chabrier (1), Jean-Martial Mari (1), Alban Gabillon (1) ((1) University of French Polynesia, (2) NzhinuSoft)(参考訳) 過去20年間で、オンラインアプリケーションにおけるデータ量の増加により、レコメンダシステムは多くの関心を集めている。 情報レコメンデーションを含むアプリケーションで最も広く使われているコラボレーティブフィルタリングには、特に注意が払われている。 コラボレーティブフィルタリング(cf)は、既知のユーザの選好を使用して、他のユーザの未知の選好に関する予測とレコメンデーションを行う(ユーザの過去の行動に基づいて推奨が行われる)。 1990年代に初めて導入されたが、様々なモデルが提案されている。 多くの分野で機械学習技術が成功しているため、レコメンデーションシステムにおけるそのようなアルゴリズムの適用に重点が置かれている。 本稿では,レコメンダシステムのためのcfアプローチの概要,2つの主要なカテゴリ,評価指標について述べる。 我々は,従来の機械学習アルゴリズムをCFレコメンデータシステムに適用するために,最初のユースケースから高度な機械学習モデルへの進化を示す。 我々は、この分野における研究と実践のガイドラインとして機能するcfシステム(python実装)の包括的かつ比較的な概要を提供しようとしている。

Over the past two decades, recommender systems have attracted a lot of interest due to the explosion in the amount of data in online applications. A particular attention has been paid to collaborative filtering, which is the most widely used in applications that involve information recommendations. Collaborative filtering (CF) uses the known preference of a group of users to make predictions and recommendations about the unknown preferences of other users (recommendations are made based on the past behavior of users). First introduced in the 1990s, a wide variety of increasingly successful models have been proposed. Due to the success of machine learning techniques in many areas, there has been a growing emphasis on the application of such algorithms in recommendation systems. In this article, we present an overview of the CF approaches for recommender systems, their two main categories, and their evaluation metrics. We focus on the application of classical Machine Learning algorithms to CF recommender systems by presenting their evolution from their first use-cases to advanced Machine Learning models. We attempt to provide a comprehensive and comparative overview of CF systems (with python implementations) that can serve as a guideline for research and practice in this area.
翻訳日:2021-06-22 15:44:04 公開日:2021-06-20
# TD-GEN:木分解によるグラフ生成

TD-GEN: Graph Generation With Tree Decomposition ( http://arxiv.org/abs/2106.10656v1 )

ライセンス: Link先を確認
Hamed Shirzad, Hossein Hajimirsadeghi, Amir H. Abdi, Greg Mori(参考訳) 本稿では,木分解に基づくグラフ生成フレームワークであるtd-genを提案し,グラフ生成に必要な最大決定数の上限を削減した。 このフレームワークは、グラフ生成のバックボーンを形成する置換不変ツリー生成モデルを含む。 ツリーノードはスーパーノードであり、それぞれがグラフ内のノードのクラスタを表す。 グラフノードとエッジは、ツリースーパーノードをトラバースし、ツリー分解の構造を尊重し、クラスタ間のノード共有の決定に従って、クラスタ内で漸進的に生成される。 最後に,生成したグラフの統計特性に基づく標準評価基準の欠点を性能指標として論じる。 我々はモデルの性能を可能性に基づいて比較する。 各種標準グラフ生成データセットにおける実験結果から,本手法の優れた性能を示す。

We propose TD-GEN, a graph generation framework based on tree decomposition, and introduce a reduced upper bound on the maximum number of decisions needed for graph generation. The framework includes a permutation invariant tree generation model which forms the backbone of graph generation. Tree nodes are supernodes, each representing a cluster of nodes in the graph. Graph nodes and edges are incrementally generated inside the clusters by traversing the tree supernodes, respecting the structure of the tree decomposition, and following node sharing decisions between the clusters. Finally, we discuss the shortcomings of standard evaluation criteria based on statistical properties of the generated graphs as performance measures. We propose to compare the performance of models based on likelihood. Empirical results on a variety of standard graph generation datasets demonstrate the superior performance of our method.
翻訳日:2021-06-22 15:42:06 公開日:2021-06-20
# プライバシー保護機械学習のための圧縮マルチカーネル法

A compressive multi-kernel method for privacy-preserving machine learning ( http://arxiv.org/abs/2106.10671v1 )

ライセンス: Link先を確認
Thee Chanyaswad, J. Morris Chang, S.Y. Kung(参考訳) 分析ツールがより強力になり、より多くのデータが日々生成されるようになると、データプライバシの問題が発生する。 これにより、プライバシ保存型機械学習アルゴリズムの設計が研究される。 ユーティリティの最大化とプライバシロスの最小化という2つの目標を前提として,この作業は,これまで非干渉的であった圧縮プライバシとマルチカーネルメソッドに基づくものだ。 圧縮プライバシ(compressive privacy)は、データプライバシを保護するためにユーティリティ保存のロスエンコーディング(lossy-encoding)スキームを使用するプライバシフレームワークである。一方、マルチカーネル(multi-kernel)法は、より優れた予測器を構築するために複数のカーネルを使用するアイデアを探求するカーネルベースのマシンラーニングレジームである。 圧縮マルチカーネル法は圧縮ステージとマルチカーネルステージの2段階からなる。 圧縮段階は、望ましいプライバシ保護を提供するための圧縮プライバシパラダイムに従う。 各カーネルマトリクスは、識別成分分析(dca)から派生した損失の投影マトリクスで圧縮される。 マルチカーネルステージでは、各カーネルの信号対雑音比(SNR)スコアを使用して、複数の圧縮カーネルを均一に結合する。 提案手法は,MHEALTHとHARの2つのモバイルセンシングデータセットで評価され,アクティビティ認識はユーティリティとして,個人識別はプライバシとして定義される。 その結果,すべての実験において,プライバシ分類の精度がほぼ無作為レベルであるため,圧縮方式はプライバシ保護に成功していることがわかった。 一方,新しいsnrベースのマルチカーネルは,両データセットの最先端における実用的分類精度の向上を示す。 これらの結果は、プライバシー保護機械学習の研究における有望な方向性を示している。

As the analytic tools become more powerful, and more data are generated on a daily basis, the issue of data privacy arises. This leads to the study of the design of privacy-preserving machine learning algorithms. Given two objectives, namely, utility maximization and privacy-loss minimization, this work is based on two previously non-intersecting regimes -- Compressive Privacy and multi-kernel method. Compressive Privacy is a privacy framework that employs utility-preserving lossy-encoding scheme to protect the privacy of the data, while multi-kernel method is a kernel based machine learning regime that explores the idea of using multiple kernels for building better predictors. The compressive multi-kernel method proposed consists of two stages -- the compression stage and the multi-kernel stage. The compression stage follows the Compressive Privacy paradigm to provide the desired privacy protection. Each kernel matrix is compressed with a lossy projection matrix derived from the Discriminant Component Analysis (DCA). The multi-kernel stage uses the signal-to-noise ratio (SNR) score of each kernel to non-uniformly combine multiple compressive kernels. The proposed method is evaluated on two mobile-sensing datasets -- MHEALTH and HAR -- where activity recognition is defined as utility and person identification is defined as privacy. The results show that the compression regime is successful in privacy preservation as the privacy classification accuracies are almost at the random-guess level in all experiments. On the other hand, the novel SNR-based multi-kernel shows utility classification accuracy improvement upon the state-of-the-art in both datasets. These results indicate a promising direction for research in privacy-preserving machine learning.
翻訳日:2021-06-22 15:41:56 公開日:2021-06-20
# 単周期ニューロン学習の暗号的困難性について

On the Cryptographic Hardness of Learning Single Periodic Neurons ( http://arxiv.org/abs/2106.10744v1 )

ライセンス: Link先を確認
Min Jae Song, Ilias Zadik, Joan Bruna(参考訳) ノイズの存在下での等方性ガウス分布より単一周期ニューロンを学習する際の暗号的難易度を簡易に低減することを示す。 より正確には、そのような関数を小さな雑音下で学習するための多項式時間アルゴリズム(必ずしも勾配ベースではない)は、最悪の場合の格子問題を解く多項式時間量子アルゴリズムを意味する。 1層ニューラルネットワークによって近似された我々のコアハード関数群は、データのアフィン射影に適用される不定周期関数の一般的な形を取る。 これらの関数は、勾配に基づくアルゴリズム(Shamir'18)や統計クエリ(SQ)アルゴリズム(Song et al.'17)に対する硬さを示す以前の基礎研究に現れている。 ラベルに(ポリノミカルに)小さなノイズを加えると、これらの関数を学習する難易度は上記の暗号仮定の下で全ての多項式時間アルゴリズムに適用できることを示す。 さらに,このような関数の特定の族を指数的に小さな対向雑音下で学習する多項式時間アルゴリズムを設計することにより,難易度結果におけるノイズの必要性を示す。 提案アルゴリズムは勾配ベースやSQアルゴリズムではなく,Lenstra-Lenstra-Lov\asz (LLL) 格子ベース削減アルゴリズムに基づいている。 さらに、ノイズがない場合には、このアルゴリズムを直接適用してCLWE検出を解くことができる(Bruna et al)。 '21) と最適試料量$d+1$サンプルの位相検索を行った。 前者の場合、これは (Bruna et al.'21) で必要とされる2次対価のサンプル複雑性により改善される。 後者の場合、これは最先端のAMPベースのアルゴリズムを改善し、約1.128d$サンプル(Barbier et al)を必要とする。 '19).

We show a simple reduction which demonstrates the cryptographic hardness of learning a single periodic neuron over isotropic Gaussian distributions in the presence of noise. More precisely, our reduction shows that any polynomial-time algorithm (not necessarily gradient-based) for learning such functions under small noise implies a polynomial-time quantum algorithm for solving worst-case lattice problems, whose hardness form the foundation of lattice-based cryptography. Our core hard family of functions, which are well-approximated by one-layer neural networks, take the general form of a univariate periodic function applied to an affine projection of the data. These functions have appeared in previous seminal works which demonstrate their hardness against gradient-based (Shamir'18), and Statistical Query (SQ) algorithms (Song et al.'17). We show that if (polynomially) small noise is added to the labels, the intractability of learning these functions applies to all polynomial-time algorithms under the aforementioned cryptographic assumptions. Moreover, we demonstrate the necessity of noise in the hardness result by designing a polynomial-time algorithm for learning certain families of such functions under exponentially small adversarial noise. Our proposed algorithm is not a gradient-based or an SQ algorithm, but is rather based on the celebrated Lenstra-Lenstra-Lov\'asz (LLL) lattice basis reduction algorithm. Furthermore, in the absence of noise, this algorithm can be directly applied to solve CLWE detection (Bruna et al.'21) and phase retrieval with an optimal sample complexity of $d+1$ samples. In the former case, this improves upon the quadratic-in-$d$ sample complexity required in (Bruna et al.'21). In the latter case, this improves upon the state-of-the-art AMP-based algorithm, which requires approximately $1.128d$ samples (Barbier et al.'19).
翻訳日:2021-06-22 15:38:57 公開日:2021-06-20
# 不均衡データを用いたマルチペアテキストスタイル転送

Multi-Pair Text Style Transfer on Unbalanced Data ( http://arxiv.org/abs/2106.10608v1 )

ライセンス: Link先を確認
Xing Han, Jessica Lundin(参考訳) text-style transferは、テキストをパラフレーズしたり、キーワードを置換したりすることで、あるドメインで与えられたテキストを別のドメインに変換することを目的としている。 必要により、最先端の手法は非並列トレーニングデータに適合するように進化し、ラベル付き文とラベルなし文が混在する複数のデータソースが存在する場合が多い。 さらに、各ソース内で定義された固有のスタイルは別物かもしれない。 一般的な双方向(例えば、フォーマルな$\Leftrightarrow$official)スタイルの転送は、異なる群に関係なく、異なるアプリケーションに対してうまく一般化できない。 本研究では,タスク適応型メタラーニングフレームワークを開発し,単一モデルを用いてマルチペアテキスト形式の転送を同時に行うことができる。 提案手法は,複数のタスク間でメタ知識の違いを適応的にバランスさせることができる。 その結果,提案手法はコヒーレントなスタイルのバリエーションとともに,定量的性能の向上につながることがわかった。 非バランスなデータとミスマッチしたドメインの共通の課題は、この方法でうまく処理される。

Text-style transfer aims to convert text given in one domain into another by paraphrasing the sentence or substituting the keywords without altering the content. By necessity, state-of-the-art methods have evolved to accommodate nonparallel training data, as it is frequently the case there are multiple data sources of unequal size, with a mixture of labeled and unlabeled sentences. Moreover, the inherent style defined within each source might be distinct. A generic bidirectional (e.g., formal $\Leftrightarrow$ informal) style transfer regardless of different groups may not generalize well to different applications. In this work, we developed a task adaptive meta-learning framework that can simultaneously perform a multi-pair text-style transfer using a single model. The proposed method can adaptively balance the difference of meta-knowledge across multiple tasks. Results show that our method leads to better quantitative performance as well as coherent style variations. Common challenges of unbalanced data and mismatched domains are handled well by this method.
翻訳日:2021-06-22 15:37:48 公開日:2021-06-20
# CPM-2:大規模費用対効果事前訓練言語モデル

CPM-2: Large-scale Cost-effective Pre-trained Language Models ( http://arxiv.org/abs/2106.10715v1 )

ライセンス: Link先を確認
Zhengyan Zhang, Yuxian Gu, Xu Han, Shengqi Chen, Chaojun Xiao, Zhenbo Sun, Yuan Yao, Fanchao Qi, Jian Guan, Pei Ke, Yanzheng Cai, Guoyang Zeng, Zhixing Tan, Zhiyuan Liu, Minlie Huang, Wentao Han, Yang Liu, Xiaoyan Zhu, Maosong Sun(参考訳) 近年,事前学習型言語モデル (PLM) のサイズは跳躍と境界によって増大している。 しかし、これらの大規模PLMの効率問題は現実のシナリオでの利用を制限する。 本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。 1)スクラッチからトレーニングモデルに代えて既存のplmを活用し,事前学習プロセスを高速化するために知識継承を導入する。 2)大規模PLMを用いた即時チューニングのベストプラクティスを検討する。 従来の微調整に比べて、プロンプトチューニングはタスク固有のパラメータの数を大幅に減少させる。 (3)計算資源が限られている大規模PLMを使用するための新しい推論ツールキットInfMoEを実装した。 コスト効率のよいパイプラインに基づいて、100億のパラメータを持つエンコーダ・デコーダバイリンガルモデル(CPM-2)と、1980億のパラメータを持つMoEバージョンという2つのモデルを事前訓練する。 実験では,下流タスクにおけるCPM-2とmT5を比較した。 実験の結果, CPM-2は汎用言語知能に優れていた。 さらに,InfMoEを1つのGPU上で数千億のパラメータを持つ大規模モデルの推論を行う際の効率を検証する。 すべてのソースコードとモデルパラメータはhttps://github.com/TsinghuaAI/CPMで入手できる。

In recent years, the size of pre-trained language models (PLMs) has grown by leaps and bounds. However, efficiency issues of these large-scale PLMs limit their utilization in real-world scenarios. We present a suite of cost-effective techniques for the use of PLMs to deal with the efficiency issues of pre-training, fine-tuning, and inference. (1) We introduce knowledge inheritance to accelerate the pre-training process by exploiting existing PLMs instead of training models from scratch. (2) We explore the best practice of prompt tuning with large-scale PLMs. Compared with conventional fine-tuning, prompt tuning significantly reduces the number of task-specific parameters. (3) We implement a new inference toolkit, namely InfMoE, for using large-scale PLMs with limited computational resources. Based on our cost-effective pipeline, we pre-train two models: an encoder-decoder bilingual model with 11 billion parameters (CPM-2) and its corresponding MoE version with 198 billion parameters. In our experiments, we compare CPM-2 with mT5 on downstream tasks. Experimental results show that CPM-2 has excellent general language intelligence. Moreover, we validate the efficiency of InfMoE when conducting inference of large-scale models having tens of billions of parameters on a single GPU. All source code and model parameters are available at https://github.com/TsinghuaAI/CPM.
翻訳日:2021-06-22 15:37:34 公開日:2021-06-20
# Augmented 2D-TAN:Human-centric Spatio-Temporal Video Groundingのための2段階的アプローチ

Augmented 2D-TAN: A Two-stage Approach for Human-centric Spatio-Temporal Video Grounding ( http://arxiv.org/abs/2106.10634v1 )

ライセンス: Link先を確認
Chaolei Tan, Zihang Lin, Jian-Fang Hu, Xiang Li, Wei-Shi Zheng(参考訳) 本稿では,Human-centric Spatio-Temporal Video Grounding (HC-STVG) 課題に対する効果的な2段階的アプローチを提案する。 第1段階では、与えられた記述に対応する目標モーメントを時間的に接地する拡張された2次元時間隣接ネットワーク(augmented 2d-tan)を提案する。 まず、時間的文脈を考慮したBi-LSTMアグリゲーションモジュールを開発し、クリップレベルの表現を集約し、元のマックスプールを置き換える。 第2に,訓練段階でランダム結合強化(rca)機構を採用することを提案する。 第2段階では、事前訓練されたMDETRモデルを用いて、言語クエリを介してフレーム単位のバウンディングボックスを生成し、手作りルールのセットを設計し、グラウンドドモーメント内の各フレームに対してMDETRが出力する最良のマッチングバウンディングボックスを選択する。

We propose an effective two-stage approach to tackle the problem of language-based Human-centric Spatio-Temporal Video Grounding (HC-STVG) task. In the first stage, we propose an Augmented 2D Temporal Adjacent Network (Augmented 2D-TAN) to temporally ground the target moment corresponding to the given description. Primarily, we improve the original 2D-TAN from two aspects: First, a temporal context-aware Bi-LSTM Aggregation Module is developed to aggregate clip-level representations, replacing the original max-pooling. Second, we propose to employ Random Concatenation Augmentation (RCA) mechanism during the training phase. In the second stage, we use pretrained MDETR model to generate per-frame bounding boxes via language query, and design a set of hand-crafted rules to select the best matching bounding box outputted by MDETR for each frame within the grounded moment.
翻訳日:2021-06-22 15:33:13 公開日:2021-06-20
# FloorPP-Net:Scan-to-BIMのためのポイントピラーを用いたフロアプランの再構築

FloorPP-Net: Reconstructing Floor Plans using Point Pillars for Scan-to-BIM ( http://arxiv.org/abs/2106.10635v1 )

ライセンス: Link先を確認
Yijie Wu and Fan Xue(参考訳) 本稿では,Scan-to-BIM(ビルディング情報モデル)の課題に対して,FloorPP-Netという深層学習に基づくポイントクラウド処理手法を提案する。 FloorPP-Netはまず、ビルディングストーリーの入力ポイントクラウドをポイントピラー(PP)に変換し、次にコーナーとエッジを予測してフロアプランを出力する。 さらに、FloorPP-NetはScan-to-Flan(Scan2FP)タスクのためのエンドツーエンドの教師あり学習フレームワークを確立する。 第1回国際スキャン・ツー・BIMチャレンジはCVPR 2021と共同で開催され、フロアPP-Netはフロアプラン再建トラックで2位にランクインした。 今後の作業には、汎用エッジの提案、2Dプランの正規化、3D BIMの再構築が含まれる。

This paper presents a deep learning-based point cloud processing method named FloorPP-Net for the task of Scan-to-BIM (building information model). FloorPP-Net first converts the input point cloud of a building story into point pillars (PP), then predicts the corners and edges to output the floor plan. Altogether, FloorPP-Net establishes an end-to-end supervised learning framework for the Scan-to-Floor-Plan (Scan2FP) task. In the 1st International Scan-to-BIM Challenge held in conjunction with CVPR 2021, FloorPP-Net was ranked the second runner-up in the floor plan reconstruction track. Future work includes general edge proposals, 2D plan regularization, and 3D BIM reconstruction.
翻訳日:2021-06-22 15:32:55 公開日:2021-06-20
# ディープフェイク自動検出

Automated Deepfake Detection ( http://arxiv.org/abs/2106.10705v1 )

ライセンス: Link先を確認
Ping Liu(参考訳) 本稿では,Deepfake検出のためのアーキテクチャを自動検索する機械学習を提案する。 従来の手法とは異なり,本手法は,手作業によるネットワーク設計プロセスにおける高作業コストを軽減しつつ,ディープラーニングの優れた能力の恩恵を受ける。 提案手法は,従来の非深層学習法より優れているだけでなく,従来の深層学習法と同等あるいはそれ以上の精度で予測できることを示す。 本手法の汎用性を向上させるため,特に異なる手法でデータやテストデータを操作する場合に,ネットワーク学習におけるマルチタスク戦略を提案し,与えられたサンプル中の潜在的な操作領域を推定し,サンプルが本物かどうかを推定する。 従来と類似した手法を用いた手法と比較して,操作方法の使い方や利用の有無を知る必要がなくなるなど,従来の知識よりもはるかに少ない。 2つのベンチマークデータセットの広範な実験結果から,提案手法がディープフェイク検出に有効であることを示す。

In this paper, we propose to utilize Automated Machine Learning to automatically search architecture for deepfake detection. Unlike previous works, our method benefits from the superior capability of deep learning while relieving us from the high labor cost in the manual network design process. It is experimentally proved that our proposed method not only outperforms previous non-deep learning methods but achieves comparable or even better prediction accuracy compared to previous deep learning methods. To improve the generality of our method, especially when training data and testing data are manipulated by different methods, we propose a multi-task strategy in our network learning process, making it estimate potential manipulation regions in given samples as well as predict whether the samples are real. Comparing to previous works using similar strategies, our method depends much less on prior knowledge, such as no need to know which manipulation method is utilized and whether it is utilized already. Extensive experimental results on two benchmark datasets demonstrate the effectiveness of our proposed method on deepfake detection.
翻訳日:2021-06-22 15:32:41 公開日:2021-06-20
# 依存型学習のためのcogradient Descent

Cogradient Descent for Dependable Learning ( http://arxiv.org/abs/2106.10617v1 )

ライセンス: Link先を確認
Runqi Wang, Baochang Zhang, Li'an Zhuo, Qixiang Ye, David Doermann(参考訳) 従来の勾配降下法は偏微分を通じて複数の変数の勾配を計算する。 しかし、相互作用を無視しながら結合変数を独立に扱うと、双線型モデルの最適化が不十分になる。 本稿では、双線形最適化問題に対処するCoGDアルゴリズムに基づく信頼度学習を提案し、カーネル化された投影関数に基づいて結合変数の勾配を調整する体系的な方法を提案する。 CoGDは、現代の学習パラダイムでよく見られるように、ある変数がスパース性制約を持つ場合の双線形問題を解くために導入された。 cogdは特徴量と重みの結合を分解するためにも使用することができ、この方法をさらに一般化し、畳み込みニューラルネットワーク(cnns)を訓練し、モデルの容量を向上させる。 CoGDは、画像再構成、画像インペインティング、ネットワークプルーニング、CNNトレーニングなど、代表的な双線形問題に適用される。 大規模な実験により、CoGDは最先端の技術をかなりのマージンで改善することが示された。 コードはhttps://github.com/bczhangbczhang/cogd}で入手できる。

Conventional gradient descent methods compute the gradients for multiple variables through the partial derivative. Treating the coupled variables independently while ignoring the interaction, however, leads to an insufficient optimization for bilinear models. In this paper, we propose a dependable learning based on Cogradient Descent (CoGD) algorithm to address the bilinear optimization problem, providing a systematic way to coordinate the gradients of coupling variables based on a kernelized projection function. CoGD is introduced to solve bilinear problems when one variable is with sparsity constraint, as often occurs in modern learning paradigms. CoGD can also be used to decompose the association of features and weights, which further generalizes our method to better train convolutional neural networks (CNNs) and improve the model capacity. CoGD is applied in representative bilinear problems, including image reconstruction, image inpainting, network pruning and CNN training. Extensive experiments show that CoGD improves the state-of-the-arts by significant margins. Code is available at {https://github.com/bczhangbczhang/CoGD}.
翻訳日:2021-06-22 15:24:41 公開日:2021-06-20
# スタイン変分ニューラルネットワークアンサンブルについて

On Stein Variational Neural Network Ensembles ( http://arxiv.org/abs/2106.10760v1 )

ライセンス: Link先を確認
Francesco D'Angelo, Vincent Fortuin, Florian Wenzel(参考訳) ディープニューラルネットワークのアンサンブルは近年大きな成功を収めているが、適切なベイズ的正当化は提供していない。 さらに、いくつかの仮説に対する予測の平均化を可能にするが、それらの多様性の保証は提供せず、関数空間における冗長な解をもたらす。 対照的に、スタイン変分勾配降下(SVGD)のような粒子ベースの推論法はベイズフレームワークを提供するが、アンサンブルメンバー間の類似度を測定するためにカーネルの選択に依存する。 本研究では,重み空間,関数空間,ハイブリッド環境で動作する様々なSVGD法について検討する。 %)で、ニューラルネットワーク関数上でカーネルを直接定義することは、ディープアンサンブルの制限を克服すると期待できる。 しかし,SVGDの理論的保証を維持しながら関数空間の多様性を確保することは容易ではない。 本研究は,重み空間と関数空間における異なるアンサンブル法とSVGD法の概要を述べるとともに,合成および実世界のタスクにおける理論的および経験的特性を新たに提案する。 SVGD法と他のアンサンブル法を理論的特性の観点から比較し, 実世界の課題における経験的性能を評価する。 機能的およびハイブリッドカーネルを用いたSVGDは,深いアンサンブルの限界を克服できることがわかった。 関数の多様性と不確実性の推定を改善し、真のベイズ後方に接近する。 さらに,svgdの確率的更新は,標準決定論的更新とは対照的に,さらなる性能向上が期待できることを示す。

Ensembles of deep neural networks have achieved great success recently, but they do not offer a proper Bayesian justification. Moreover, while they allow for averaging of predictions over several hypotheses, they do not provide any guarantees for their diversity, leading to redundant solutions in function space. In contrast, particle-based inference methods, such as Stein variational gradient descent (SVGD), offer a Bayesian framework, but rely on the choice of a kernel to measure the similarity between ensemble members. In this work, we study different SVGD methods operating in the weight space, function space, and in a hybrid setting. % Defining the kernel directly on the neural network functions seems promising to overcome the limitations of deep ensembles. % However, ensuring diversity in function space while maintaining SVGD's theoretical guarantees is not trivial. % In this work, we provide an overview over different ensembling and SVGD methods in weight space and function space and propose new and assess their theoretical and empirical properties on synthetic and real-world tasks. We compare the SVGD approaches to other ensembling-based methods in terms of their theoretical properties and assess their empirical performance on synthetic and real-world tasks. We find that SVGD using functional and hybrid kernels can overcome the limitations of deep ensembles. It improves on functional diversity and uncertainty estimation and approaches the true Bayesian posterior more closely. Moreover, we show that using stochastic SVGD updates, as opposed to the standard deterministic ones, can further improve the performance.
翻訳日:2021-06-22 15:24:23 公開日:2021-06-20
# 患者デジタル双生児のサイリコ臨床試験における最適パーソナライズド治療計算

Optimal personalised treatment computation through in silico clinical trials on patient digital twins ( http://arxiv.org/abs/2106.10684v1 )

ライセンス: Link先を確認
Stefano Sinisi, Vadim Alimguzhin, Toni Mancini, Enrico Tronci, Federico Mari, Brigitte Leeners(参考訳) サイリコ臨床試験 (istc) では、コンピュータシミュレーションによる臨床実験キャンペーン、薬理学的治療の安全性と有効性の評価の時間とコストの削減、動物と人間のテストの必要性の低減、精密医療の実現を約束する。 本稿では,知的検索によって誘導される広範囲なコンピュータシミュレーションに基づく実験キャンペーン(ISTC)を用いて,患者に対する薬理学的治療(精密医療)を最適化する手法とアルゴリズムを提案する。 本研究は, 実薬理学的治療を含む症例研究, すなわち, ヒトの再生支援のための複雑な臨床プロトコルの低下段階に対するアプローチの有効性を示す。

In Silico Clinical Trials (ISTC), i.e., clinical experimental campaigns carried out by means of computer simulations, hold the promise to decrease time and cost for the safety and efficacy assessment of pharmacological treatments, reduce the need for animal and human testing, and enable precision medicine. In this paper we present methods and an algorithm that, by means of extensive computer simulation--based experimental campaigns (ISTC) guided by intelligent search, optimise a pharmacological treatment for an individual patient (precision medicine). e show the effectiveness of our approach on a case study involving a real pharmacological treatment, namely the downregulation phase of a complex clinical protocol for assisted reproduction in humans.
翻訳日:2021-06-22 15:19:12 公開日:2021-06-20
# Encoder 以上: Transformer Decoder の Upsample 導入

More than Encoder: Introducing Transformer Decoder to Upsample ( http://arxiv.org/abs/2106.10637v1 )

ライセンス: Link先を確認
Yijiang Li, Wentian Cai, Ying Gao and Xiping Hu(参考訳) 一般的なセグメンテーションモデルは画像をダウンサンプルし、アップサンプルしてピクセルレベルの予測のために解像度を復元する。 このようなスキーマでは、アップサンプル技術はより良いパフォーマンスのために情報の維持に不可欠である。 本稿では,AU(Attention Upsample)という新しいアップサンプル手法を提案する。これは一般的なアップサンプル手法として機能し,横方向接続を持つ任意のセグメンテーションモデルに組み込むことができる。 AUは画素レベルの注意力を活用して、長距離依存とグローバル情報をモデル化し、再構築を改善する。 Attention Decoder (AD) と Bilinear Upsample で構成されており、アップサンプリングされた特徴を補完する残差接続である。 ADは、コンバータからデコーダのアイデアを採用し、コンバータパスからローカルおよび詳細情報に条件付けられた特徴をアップサンプルする。 さらに,画素レベルの注意の広範なメモリと計算コストを考慮すると,グローバルレンジではなく,ローカルウィンドウの注意計算を制限するために,ウィンドウアテンション方式を提案する。 ウィンドウアテンションを組み込んだデコーダをウィンドウアテンションデコーダ (WAD) とし、アップサンプルをウィンドウアテンションアップサンプレット (WAU) と呼ぶ。 従来のu-net構造を横接続でテストし,契約経路からの情報を配信し,synapse (80.30 dsc, 23.12 hd) とmsd brain (74.75 dsc) データセット上での最先端性能を実現する。

General segmentation models downsample images and then upsample to restore resolution for pixel level prediction. In such schema, upsample technique is vital in maintaining information for better performance. In this paper, we present a new upsample approach, Attention Upsample (AU), that could serve as general upsample method and be incorporated into any segmentation model that possesses lateral connections. AU leverages pixel-level attention to model long range dependency and global information for better reconstruction. It consists of Attention Decoder (AD) and bilinear upsample as residual connection to complement the upsampled features. AD adopts the idea of decoder from transformer which upsamples features conditioned on local and detailed information from contracting path. Moreover, considering the extensive memory and computation cost of pixel-level attention, we further propose to use window attention scheme to restrict attention computation in local windows instead of global range. Incorporating window attention, we denote our decoder as Window Attention Decoder (WAD) and our upsample method as Window Attention Upsample (WAU). We test our method on classic U-Net structure with lateral connection to deliver information from contracting path and achieve state-of-the-arts performance on Synapse (80.30 DSC and 23.12 HD) and MSD Brain (74.75 DSC) datasets.
翻訳日:2021-06-22 15:18:04 公開日:2021-06-20
# 肺超音波画像とディープラーニングを用いたcovid-19検出システムの実現

Implementing a Detection System for COVID-19 based on Lung Ultrasound Imaging and Deep Learning ( http://arxiv.org/abs/2106.10651v1 )

ライセンス: Link先を確認
Carlos Rojas-Azabache, Karen Vilca-Janampa, Renzo Guerrero-Huayta, Dennis N\'u\~nez-Fern\'andez(参考訳) 新型コロナウイルスのパンデミックは2019年12月に中国で始まり、急速に複数の国に広がった。 このパンデミックの結果は計り知れず、何百万人もの人々が死亡し、世界経済に打撃を与えている。 このパンデミックを大規模にコントロールするには、患者の検出と治療のための高速ツールが必要である。 このように、正確かつ自動化されたツールが入手できないため、新型コロナウイルスの診断のための代替ツールの需要は劇的に増加している。 本稿では,超音波イメージングとDeep Learning技術を用いた新型コロナウイルス検出システムについて述べる。 さらに、このようなシステムはraspberry pi上に実装され、インターネット接続なしでポータブルで、遠隔地でも簡単に使用できる。

The COVID-19 pandemic started in China in December 2019 and quickly spread to several countries. The consequences of this pandemic are incalculable, causing the death of millions of people and damaging the global economy. To achieve large-scale control of this pandemic, fast tools for detection and treatment of patients are needed. Thus, the demand for alternative tools for the diagnosis of COVID-19 has increased dramatically since accurated and automated tools are not available. In this paper we present the ongoing work on a system for COVID-19 detection using ultrasound imaging and using Deep Learning techniques. Furthermore, such a system is implemented on a Raspberry Pi to make it portable and easy to use in remote regions without an Internet connection.
翻訳日:2021-06-22 15:17:35 公開日:2021-06-20
# コントラスト学習と実世界データセットによる水中画像復元

Underwater Image Restoration via Contrastive Learning and a Real-world Dataset ( http://arxiv.org/abs/2106.10718v1 )

ライセンス: Link先を確認
Junlin Han, Mehrdad Shoeiby, Tim Malthus, Elizabeth Botha, Janet Anstee, Saeed Anwar, Ran Wei, Mohammad Ali Armin, Hongdong Li, Lars Petersson(参考訳) 水中画像の復元は、水中の世界を明らかにする上で非常に重要である。 過去数十年で多くの技術とアルゴリズムが開発されてきた。 しかし、画像・センシング、照明、屈折幾何学的歪みに関する根本的な困難さから、鮮明な水中画像の撮影には包括的な評価は行われていない。 このギャップに対処するため,我々は,既存の手法をベンチマークし,新たな深層学習手法の開発を支援するため,HICRD(Heron Island Coral Reef Dataset)と呼ばれる大規模水中画像データセットを構築した。 参照画像の生成には正確な水パラメータ(拡散減衰係数)を用いる。 未完成の訓練セットには2000点の復元画像と6003点のオリジナル水中画像がある。 さらに,教師なし画像から画像への翻訳フレームワークに基づく水中画像復元手法を提案する。 提案手法は,原画像と復元画像の相互情報を最大化するために,コントラスト学習と生成敵ネットワークを利用した。 最近の手法との比較による広範な実験により,提案手法の優越性がさらに証明された。 コードとデータセットはGitHubで公開されています。

Underwater image restoration is of significant importance in unveiling the underwater world. Numerous techniques and algorithms have been developed in the past decades. However, due to fundamental difficulties associated with imaging/sensing, lighting, and refractive geometric distortions, in capturing clear underwater images, no comprehensive evaluations have been conducted of underwater image restoration. To address this gap, we have constructed a large-scale real underwater image dataset, dubbed `HICRD' (Heron Island Coral Reef Dataset), for the purpose of benchmarking existing methods and supporting the development of new deep-learning based methods. We employ accurate water parameter (diffuse attenuation coefficient) in generating reference images. There are 2000 reference restored images and 6003 original underwater images in the unpaired training set. Further, we present a novel method for underwater image restoration based on unsupervised image-to-image translation framework. Our proposed method leveraged contrastive learning and generative adversarial networks to maximize the mutual information between raw and restored images. Extensive experiments with comparisons to recent approaches further demonstrate the superiority of our proposed method. Our code and dataset are publicly available at GitHub.
翻訳日:2021-06-22 15:17:24 公開日:2021-06-20
# ミッションクリティカル無線ネットワークにおけるリレーノードの最適耐故障配置のためのMILP, 擬似ブール, OMTソルバ

MILP, pseudo-boolean, and OMT solvers for optimal fault-tolerant placements of relay nodes in mission critical wireless networks ( http://arxiv.org/abs/2106.10685v1 )

ライセンス: Link先を確認
Quian Matteo Chen, Alberto Finzi, Toni Mancini, Igor Melatti, Enrico Tronci(参考訳) 空港のような重要なインフラでは、外部の電磁干渉から無線通信ネットワークを保護するために多くの注意が必要である。 このようなミッションクリティカルな無線通信ネットワークの保護は、少なくとも3つの適切な配備された無線ゴニメーターと、それらから情報を収集するゲートウェイを使用して、監視エリアに存在しない電磁放射源の監視とローカライズを行う。 通常、ラジオゴニメーターは中継ノードを介してゲートウェイに接続される。 その結果、信頼性の高い監視を実現するためには、中継ノードのネットワークに対するある程度のフォールトトレランスが不可欠となる。 一方、リレーノードの配置は一般的に非常に高価である。 結果として、私たちは2つの矛盾する要件を持っています。 本稿では、リレーノードの一部(最大数まで)が故障した場合でも、リレーノードネットワークのコストを最小化しつつ、ネットワークの適切な動作を保証するリレーノードの配置を演算する問題に対処する(フォールトトレランス)。 HPC インフラストラクチャ上での計算集約的な事前処理により、上述の最適化問題を 0/1 線形プログラムとして符号化することができ、MILP、PB-SAT、SMT/OMT などの標準人工知能推論器にアプローチするのに適していることを示す。 この問題定式化により,イタリア・ローマのレオナルド・ダ・ヴィンチ空港における中継ノードネットワーク配置の実例で,これら3つの解法の性能を比較する実験結果が得られた。

In critical infrastructures like airports, much care has to be devoted in protecting radio communication networks from external electromagnetic interference. Protection of such mission-critical radio communication networks is usually tackled by exploiting radiogoniometers: at least three suitably deployed radiogoniometers, and a gateway gathering information from them, permit to monitor and localise sources of electromagnetic emissions that are not supposed to be present in the monitored area. Typically, radiogoniometers are connected to the gateway through relay nodes. As a result, some degree of fault-tolerance for the network of relay nodes is essential in order to offer a reliable monitoring. On the other hand, deployment of relay nodes is typically quite expensive. As a result, we have two conflicting requirements: minimise costs while guaranteeing a given fault-tolerance. In this paper, we address the problem of computing a deployment for relay nodes that minimises the relay node network cost while at the same time guaranteeing proper working of the network even when some of the relay nodes (up to a given maximum number) become faulty (fault-tolerance). We show that, by means of a computation-intensive pre-processing on a HPC infrastructure, the above optimisation problem can be encoded as a 0/1 Linear Program, becoming suitable to be approached with standard Artificial Intelligence reasoners like MILP, PB-SAT, and SMT/OMT solvers. Our problem formulation enables us to present experimental results comparing the performance of these three solving technologies on a real case study of a relay node network deployment in areas of the Leonardo da Vinci Airport in Rome, Italy.
翻訳日:2021-06-22 15:16:13 公開日:2021-06-20
# eegクロスサブジェクトチャネル選択のための学習信号表現と試行分類

Learning Signal Representations for EEG Cross-Subject Channel Selection and Trial Classification ( http://arxiv.org/abs/2106.10633v1 )

ライセンス: Link先を確認
Michela C. Massi, Francesca Ieva(参考訳) EEG技術はいくつかの領域で応用を見出す。 現在、ほとんどの脳波系では、被験者は頭皮に複数の電極を装着する必要がある。 しかし、いくつかのチャネルにはノイズ情報、冗長信号、より長い準備時間、EEG復号のための自動システムの計算時間の増加が含まれる。 信号対雑音比を減らし、分類精度を向上させる一つの方法は、チャネル選択と特徴抽出を組み合わせることであるが、脳波信号は高い対象間変動を示すことが知られている。 本稿では,脳波記録の被写体非依存チャネル選択のための新しいアルゴリズムを提案する。 Considering multi-channel trial recordings as statistical units and the EEG decoding task as the class of reference, the algorithm (i) exploits channel-specific 1D-Convolutional Neural Networks (1D-CNNs) as feature extractors in a supervised fashion to maximize class separability; (ii) it reduces a high dimensional multi-channel trial representation into a unique trial vector by concatenating the channels' embeddings and (iii) recovers the complex inter-channel relationships during channel selection, by exploiting an ensemble of AutoEncoders (AE) to identify from these vectors the most relevant channels to perform classification. トレーニング後、選択されたチャネル固有1D-CNNのパラメータ化されたサブグループのみを新しい被験者の新たな信号に転送し、任意の分類器に供給する低次元かつ高情報な試行ベクトルを得る。

EEG technology finds applications in several domains. Currently, most EEG systems require subjects to wear several electrodes on the scalp to be effective. However, several channels might include noisy information, redundant signals, induce longer preparation times and increase computational times of any automated system for EEG decoding. One way to reduce the signal-to-noise ratio and improve classification accuracy is to combine channel selection with feature extraction, but EEG signals are known to present high inter-subject variability. In this work we introduce a novel algorithm for subject-independent channel selection of EEG recordings. Considering multi-channel trial recordings as statistical units and the EEG decoding task as the class of reference, the algorithm (i) exploits channel-specific 1D-Convolutional Neural Networks (1D-CNNs) as feature extractors in a supervised fashion to maximize class separability; (ii) it reduces a high dimensional multi-channel trial representation into a unique trial vector by concatenating the channels' embeddings and (iii) recovers the complex inter-channel relationships during channel selection, by exploiting an ensemble of AutoEncoders (AE) to identify from these vectors the most relevant channels to perform classification. After training, the algorithm can be exploited by transferring only the parametrized subgroup of selected channel-specific 1D-CNNs to new signals from new subjects and obtain low-dimensional and highly informative trial vectors to be fed to any classifier.
翻訳日:2021-06-22 15:14:02 公開日:2021-06-20
# TinyML:ESP32 SoCによるニューラルネットワーク用Xtensa LX6マイクロプロセッサの解析

TinyML: Analysis of Xtensa LX6 microprocessor for Neural Network Applications by ESP32 SoC ( http://arxiv.org/abs/2106.10652v1 )

ライセンス: Link先を確認
Md Ziaul Haque Zim(参考訳) 近年、機械学習(ml)は多くのコンピューティングアプリケーションで非常に重要になっている。 ESP32やESP32 Camのような、小さな機械学習(tinyML)アプリケーションによる超低消費電力の組み込みデバイスの普及は、人工知能搭載の組み込みIoTデバイスの大量増殖を可能にする。 ここ数年、マイクロコントローラ装置(Espressif ESP32)は小型/小型の機械学習(tinyML)タスクに使えるほど強力になった。 Arduino IDE、MicroPython、TensorFlow Lite(TF)などのプラットフォームを小さなMLアプリケーションで簡単に使えるようにすることで、モバイルロボティクス、現代のコンピュータ科学、電気工学の研究に欠かせないトピックとなっている。 本研究の目的は,ニューラルネットワークアプリケーションを実行することで,Xtensaデュアルコア32ビットLX6マイクロプロセッサの速度を分析することである。 異なる入力数(9,36,144,576)は1層と2層隠れたニューラルネットワークの異なるニューロン数を通して入力される。 Xtensa LX6マイクロプロセッサは、IoTデバイスの使用、プラグ、プレイが非常に容易なEspressif ESP32とESP32 Camの内部にあるため、分析されている。 本稿では,フィードフォワードモードにおけるXtensa LX6マイクロプロセッサの速度解析を行った。

In recent decades, Machine Learning (ML) has become extremely important for many computing applications. The pervasiveness of ultra-low-power embedded devices such as ESP32 or ESP32 Cam with tiny Machine Learning (tinyML) applications will enable the mass proliferation of Artificial Intelligent powered Embedded IoT Devices. In the last few years, the microcontroller device (Espressif ESP32) became powerful enough to be used for small/tiny machine learning (tinyML) tasks. The ease of use of platforms like Arduino IDE, MicroPython and TensorFlow Lite (TF) with tinyML application make it an indispensable topic of research for mobile robotics, modern computer science and electrical engineering. The goal of this paper is to analyze the speed of the Xtensa dual core 32-bit LX6 microprocessor by running a neural network application. The different number of inputs (9, 36, 144 and 576) inputted through the different number of neurons in neural networks with one and two hidden layers. Xtensa LX6 microprocessor has been analyzed because it comes inside with Espressif ESP32 and ESP32 Cam which are very easy to use, plug and play IoT device. In this paper speed of the Xtensa LX6 microprocessor in feed-forward mode has been analyzed.
翻訳日:2021-06-22 15:13:40 公開日:2021-06-20
# FedXGBoost: フェデレートラーニングのためのプライバシ保護XGBoost

FedXGBoost: Privacy-Preserving XGBoost for Federated Learning ( http://arxiv.org/abs/2106.10662v1 )

ライセンス: Link先を確認
Nhan Khanh Le and Yang Liu and Quang Minh Nguyen and Qingchen Liu and Fangzhou Liu and Quanwei Cai and Sandra Hirche(参考訳) フェデレーション学習(Federated Learning)は、データプライバシを確保しながら、複数のパーティ間で協調的なトレーニングを可能にする分散機械学習フレームワークである。 従来のプライバシ保存手法がもたらす高コストのため,最先端のツリー強化フレームワークであるXGBoostのフェデレーション学習への実践的適応は依然として限られている。 本稿では,FedXGBoost-SMMとFedXGBoost-LDPの2種類のフェデレートXGBoostをプライバシ保証として提案する。 弊社の最初のプロトコルであるFedXGBoost-SMMは、セキュアな行列乗法を導入し、プライバシーを無害な精度で保存し、暗号化技術よりもオーバーヘッドを低くする。 独立に開発された第2のプロトコルfedexgboost-ldpは、局所微分プライバシーのためのノイズ摂動でヒューリスティックに設計され、実世界および合成データセットで実証的に評価される。

Federated learning is the distributed machine learning framework that enables collaborative training across multiple parties while ensuring data privacy. Practical adaptation of XGBoost, the state-of-the-art tree boosting framework, to federated learning remains limited due to high cost incurred by conventional privacy-preserving methods. To address the problem, we propose two variants of federated XGBoost with privacy guarantee: FedXGBoost-SMM and FedXGBoost-LDP. Our first protocol FedXGBoost-SMM deploys enhanced secure matrix multiplication method to preserve privacy with lossless accuracy and lower overhead than encryption-based techniques. Developed independently, the second protocol FedXGBoost-LDP is heuristically designed with noise perturbation for local differential privacy, and empirically evaluated on real-world and synthetic datasets.
翻訳日:2021-06-22 15:13:19 公開日:2021-06-20
# 予測研究は生産性をもたらす

On predicting research grants productivity ( http://arxiv.org/abs/2106.10700v1 )

ライセンス: Link先を確認
Jorge A. V. Tohalino and Diego R. Amancio(参考訳) 提案の成功に関連する理由を理解することは、評価プロセスを改善する上で最重要となる。 この文脈で,文献学的特徴が研究助成金の成功を予測できるかどうかを解析した。 研究テーマ,提携,出版数,視認性など,ブラジルの研究者の学歴を特徴付ける特徴を抽出した。 抽出された特徴は、医学、歯科医学、獣医学の3大研究分野における機械学習による補助金の生産性予測に使用された。 研究対象と出版史が生産性を予測する役割を担っていることがわかった。 加えて、機関ベースの機能は、他の機能と組み合わせると関係があることがわかった。 最高の結果がテキストベースの属性よりも優れているが,評価された特徴は識別性に乏しかった。 以上の結果から,少なくとも文献学的特徴のセットを考慮すれば,予測が成功をもたらすことは自明な作業ではないことが示唆された。

Understanding the reasons associated with successful proposals is of paramount importance to improve evaluation processes. In this context, we analyzed whether bibliometric features are able to predict the success of research grants. We extracted features aiming at characterizing the academic history of Brazilian researchers, including research topics, affiliations, number of publications and visibility. The extracted features were then used to predict grants productivity via machine learning in three major research areas, namely Medicine, Dentistry and Veterinary Medicine. We found that research subject and publication history play a role in predicting productivity. In addition, institution-based features turned out to be relevant when combined with other features. While the best results outperformed text-based attributes, the evaluated features were not highly discriminative. Our findings indicate that predicting grants success, at least with the considered set of bibliometric features, is not a trivial task.
翻訳日:2021-06-22 15:12:59 公開日:2021-06-20
# 重み付き自由エネルギー最小化による伝達ベイズメタラーニング

Transfer Bayesian Meta-learning via Weighted Free Energy Minimization ( http://arxiv.org/abs/2106.10711v1 )

ライセンス: Link先を確認
Yunchuan Zhang, Sharu Theresa Jose, Osvaldo Simeone(参考訳) メタラーニングは、複数の補助タスクからサンプリングされたデータに基づいて、初期化、カーネル、学習率などのトレーニング手順のハイパーパラメータを最適化する。 主要な前提として、メタトレーニングタスクとして知られる補助タスクは、メタテストタスクとして知られるデプロイメント時に遭遇するタスクと同じ生成分布を共有する。 しかし、これはテスト環境がメタトレーニング条件と異なる場合ではないかもしれない。 メタトレーニングとメタテストフェーズ間のタスク生成分布の変化に対処するために,トランスファーメタラーニングのための重み付け自由エネルギー最小化(WFEM)を提案する。 本稿では,非パラメトリックベイズ回帰法とガウス過程(GP)による分類法を提案する。 本手法は, PACOHによるGP前の標準メタラーニングとの比較により, おもちゃの正弦波回帰問題と, miniImagenet と CUB データセットを用いた分類で検証した。

Meta-learning optimizes the hyperparameters of a training procedure, such as its initialization, kernel, or learning rate, based on data sampled from a number of auxiliary tasks. A key underlying assumption is that the auxiliary tasks, known as meta-training tasks, share the same generating distribution as the tasks to be encountered at deployment time, known as meta-test tasks. This may, however, not be the case when the test environment differ from the meta-training conditions. To address shifts in task generating distribution between meta-training and meta-testing phases, this paper introduces weighted free energy minimization (WFEM) for transfer meta-learning. We instantiate the proposed approach for non-parametric Bayesian regression and classification via Gaussian Processes (GPs). The method is validated on a toy sinusoidal regression problem, as well as on classification using miniImagenet and CUB data sets, through comparison with standard meta-learning of GP priors as implemented by PACOH.
翻訳日:2021-06-22 15:12:46 公開日:2021-06-20
# twitterとfacebookの2面人間: パーソナリティプロファイルのためのソーシャルマルチメディアの収集

Two-Faced Humans on Twitter and Facebook: Harvesting Social Multimedia for Human Personality Profiling ( http://arxiv.org/abs/2106.10673v1 )

ライセンス: Link先を確認
Qi Yang, Aleksandr Farseev, Andrey Filchenkov(参考訳) 人格特性は、私たちの意思決定の背後にある重要な要因であり、私たちの生活経路に日々影響を与えます。 myers-briggsのパーソナリティタイプのようなパーソナリティ特性の推論や、パーソナリティ特性とさまざまなソーシャルメディアプラットフォームにおけるユーザの行動の依存性の理解は、現代の研究や産業応用において重要な意味を持つ。 多様な多目的ソーシャルメディアの出現により、複数のデータモダリティにまたがるデータに基づいて、ユーザパーソナリティのプロファイリングを自動かつ効率的に行うことができる。 しかし,マルチモーダルソーシャルメディアデータからのパーソナリティ・プロファイリングに関する研究は,比較的まばらであり,異なるソーシャルネットワークデータによる機械学習性能への影響は未だ総合評価されていない。 さらに、ベンチマークを行うデータセットは研究コミュニティには存在しない。 この研究は、このような重要な研究ギャップを埋める最初の試みの1つです。 具体的には,Mers-Briggs Personality Typeインジケータを"PERS"と呼ばれる新しい多視点融合フレームワークに適用し,データモダリティだけでなく,異なるソーシャルネットワークデータソースについても,結果を比較して推定する。 実験の結果,多視点データからパーソナリティ・プロファイリングを学習する能力は,多様なソーシャル・マルチメディア・ソースからやってくるデータを効率的に活用できることが示唆された。 また、ソーシャルネットワークデータソースを選択する際には、機械学習アプローチの選択が極めて重要であることや、ソーシャルメディアのさまざまな道筋において、人の個性の複数の面を明らかにする傾向があることもわかりました。 当社がリリースしたソーシャルマルチメディアデータセットは,この方向性に関する今後の研究を促進する。

Human personality traits are the key drivers behind our decision-making, influencing our life path on a daily basis. Inference of personality traits, such as Myers-Briggs Personality Type, as well as an understanding of dependencies between personality traits and users' behavior on various social media platforms is of crucial importance to modern research and industry applications. The emergence of diverse and cross-purpose social media avenues makes it possible to perform user personality profiling automatically and efficiently based on data represented across multiple data modalities. However, the research efforts on personality profiling from multi-source multi-modal social media data are relatively sparse, and the level of impact of different social network data on machine learning performance has yet to be comprehensively evaluated. Furthermore, there is not such dataset in the research community to benchmark. This study is one of the first attempts towards bridging such an important research gap. Specifically, in this work, we infer the Myers-Briggs Personality Type indicators, by applying a novel multi-view fusion framework, called "PERS" and comparing the performance results not just across data modalities but also with respect to different social network data sources. Our experimental results demonstrate the PERS's ability to learn from multi-view data for personality profiling by efficiently leveraging on the significantly different data arriving from diverse social multimedia sources. We have also found that the selection of a machine learning approach is of crucial importance when choosing social network data sources and that people tend to reveal multiple facets of their personality in different social media avenues. Our released social multimedia dataset facilitates future research on this direction.
翻訳日:2021-06-22 15:07:11 公開日:2021-06-20
# 化学発見における伝達可能な機械学習モデルの表現と戦略

Representations and Strategies for Transferable Machine Learning Models in Chemical Discovery ( http://arxiv.org/abs/2106.10768v1 )

ライセンス: Link先を確認
Daniel R. Harper, Aditya Nandy, Naveen Arunachalam, Chenru Duan, Jon Paul Janet, and Heather J. Kulik(参考訳) 材料合成空間にまたがる一般的な機械学習(ML)加速発見の戦略は不可欠であるが、MLの実証は主に狭い構成のバリエーションに限られている。 オープンシェル遷移金属錯体のような挑戦的なターゲットのために、化学空間の有望な領域におけるデータの不足に対処することによって、既存のデータの既知の関係を利用する一般的な表現や転送可能なMLモデルが発見を加速する。 a large set (ca)。 等価遷移金属錯体の1000) 周期表の列(すなわち3d/4d金属と2p/3p配位子)間の異なる性質(スピンスプリッティングと配位子解離)の明らかな関係を定量化する。 グラフに基づく修正自己相関(RAC)表現の拡張(eRAC)を示す。これは核電荷ヒューリスティックとともに有効核電荷を組み込むもので、そうでなければ同価錯体の相似性を過大評価する。 データの制限が限定された新しい空間における発見の共通課題に対処するために,周期表の1行から大量のデータに基づいてトレーニングされたモデルを,追加行から少数のデータポイントでシードする転送学習手法を提案する。 モデル性能を安定的に向上させるために,この伝達学習戦略とともにeRACの相乗的価値を示す。 これらのモデルの解析は、錯体間の距離を周期表とより整合的に並べ替えることによって、アプローチがどのように成功するかを明らかにする。

Strategies for machine-learning(ML)-accelerated discovery that are general across materials composition spaces are essential, but demonstrations of ML have been primarily limited to narrow composition variations. By addressing the scarcity of data in promising regions of chemical space for challenging targets like open-shell transition-metal complexes, general representations and transferable ML models that leverage known relationships in existing data will accelerate discovery. Over a large set (ca. 1000) of isovalent transition-metal complexes, we quantify evident relationships for different properties (i.e., spin-splitting and ligand dissociation) between rows of the periodic table (i.e., 3d/4d metals and 2p/3p ligands). We demonstrate an extension to graph-based revised autocorrelation (RAC) representation (i.e., eRAC) that incorporates the effective nuclear charge alongside the nuclear charge heuristic that otherwise overestimates dissimilarity of isovalent complexes. To address the common challenge of discovery in a new space where data is limited, we introduce a transfer learning approach in which we seed models trained on a large amount of data from one row of the periodic table with a small number of data points from the additional row. We demonstrate the synergistic value of the eRACs alongside this transfer learning strategy to consistently improve model performance. Analysis of these models highlights how the approach succeeds by reordering the distances between complexes to be more consistent with the periodic table, a property we expect to be broadly useful for other materials domains.
翻訳日:2021-06-22 15:06:43 公開日:2021-06-20
# (参考訳) コンテキスト露出によるsiftマッチング

SIFT Matching by Context Exposed ( http://arxiv.org/abs/2106.09584v2 )

ライセンス: CC BY 4.0
Fabio Bellavia(参考訳) 本稿では、マッチングコンテキスト情報を利用して、ローカル画像記述子マッチングをステップアップする方法を検討する。 2つの主要なコンテキストが識別され、それぞれ記述子空間とキーポイント空間から導かれる。 前者は一般に実際のマッチング戦略の設計に使用され、後者は局所的な空間整合性に応じてフィルタする。 そこで, 新たなマッチング戦略と, それぞれblob matching と delaunay triangulation matching (dtm) と呼ばれる新しい局所空間フィルタを考案した。 ブロブマッチング(Blob matching)は、事前フィルタリングや多対多、対称マッチングなど、いくつかの戦略を統合することで、一般的なマッチングフレームワークを提供する。 DTMはデラウネー三角形の縮約と拡張を交互に切り換えて、キーポイント近傍の整合性を見つけ、調整する。 実験により、DTMは、特に非平面シーンにおいて、精度とロバストさの整合性の観点から、最先端技術よりも同等か優れていることが示された。 提案手法は,提案手法と参照のための共通SIFTマッチング手法を含む,平面と非平面の両方の正しい対応性の観点から,マッチングパイプラインを解析するために考案された新しいベンチマークに基づいて評価を行う。 この評価は、この分野の今後の研究を支援することができる。

This paper investigates how to step up local image descriptor matching by exploiting matching context information. Two main contexts are identified, originated respectively from the descriptor space and from the keypoint space. The former is generally used to design the actual matching strategy while the latter to filter matches according to the local spatial consistency. On this basis, a new matching strategy and a novel local spatial filter, named respectively blob matching and Delaunay Triangulation Matching (DTM) are devised. Blob matching provides a general matching framework by merging together several strategies, including pre-filtering as well as many-to-many and symmetric matching, enabling to achieve a global improvement upon each individual strategy. DTM alternates between Delaunay triangulation contractions and expansions to figure out and adjust keypoint neighborhood consistency. Experimental evaluation shows that DTM is comparable or better than the state-of-the-art in terms of matching accuracy and robustness, especially for non-planar scenes. Evaluation is carried out according to a new benchmark devised for analyzing the matching pipeline in terms of correct correspondences on both planar and non-planar scenes, including state-of-the-art methods as well as the common SIFT matching approach for reference. This evaluation can be of assistance for future research in this field.
翻訳日:2021-06-22 11:31:47 公開日:2021-06-20