このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201207となっている論文です。

PDF登録状況(公開日: 20201207)

TitleAuthorsAbstract論文公表日・翻訳日
# 極性分子の気体中における光波長可変コヒーレント放射の伝播

Propagation of optically tunable coherent radiation in a gas of polar molecules ( http://arxiv.org/abs/2002.05469v2 )

ライセンス: Link先を確認
Piotr G{\l}adysz, Piotr Wcis{\l}o and Karolina S{\l}owik(参考訳) 逆対称性を持たない2レベル分子系からなるコヒーレントな光合成媒体は、マイクロ波領域におけるコヒーレント放射を全光的に調整可能な源とみなす。 ガス相中の極性分子の媒質中における低周波光の発生と、そのような低周波信号の蓄積と伝播のダイナミクスを確かめるために、理論モデルと数値ツールボックスを開発した。 信号生成の物理的メカニズムは、反転対称性のない永久双極子モーメントを特徴付ける系に依存する。 分子は、常電双極子モーメントを研究所のフレームで生成する直流電場で分極され、モーメントの方向と大きさは分子状態に依存する。 システムは共鳴駆動されるため、双極子モーメントはラビ周波数で振動し、マイクロ波放射を生成する。 本稿では、駆動振幅とデチューニングによる出力信号周波数のチューニング能力を示す。 自発的放出などの非一貫性機構が出力フィールドを減衰させる可能性があるが、パルス照明に基づくシナリオでは、波長可変時間幅のコヒーレントなパルス出力が得られる。 最後に、異核二原子分子の気体アンサンブルの回転レベルを利用した実験シナリオについて論じる。

Coherent, optically dressed media composed of two-level molecular systems without inversion symmetry are considered as all-optically tunable sources of coherent radiation in the microwave domain. A theoretical model and a numerical toolbox are developed to confirm the main finding: the generation of a low-frequency radiation, and the buildup and propagation dynamics of such low-frequency signals in a medium of polar molecules in a gas phase. The physical mechanism of the signal generation relies on the permanent dipole moment characterizing systems without inversion symmetry. The molecules are polarized with a DC electric field yielding a permanent electric dipole moment in the laboratory frame; the direction and magnitude of the moment depend on the molecular state. As the system is resonantly driven, the dipole moment oscillates at the Rabi frequency and, hence, generates microwave radiation. We demonstrate the tuning capability of the output signal frequency with the drive amplitude and detuning. We find that even though decoherence mechanisms such as spontaneous emission may damp the output field, a scenario based on pulsed illumination yields a coherent, pulsed output of tunable temporal width. Finally, we discuss experimental scenarios exploiting rotational levels of gaseous ensembles of heteronuclear diatomic molecules.
翻訳日:2023-06-03 19:20:23 公開日:2020-12-07
# 部分関数のランダム化クエリ複雑性に対するタイトな合成定理

A Tight Composition Theorem for the Randomized Query Complexity of Partial Functions ( http://arxiv.org/abs/2002.10809v2 )

ライセンス: Link先を確認
Shalev Ben-David, Eric Blais(参考訳) 合成関数のランダム化クエリ複雑性に関する2つの新しい結果を示す。 まず、ランダム化合成予想は偽であることを示す: $r(f\circ) となる部分ブール関数 $f$ と $g$ の族が存在する。 g)\ll r である。 (f)R (g)$。 実際、左辺は右辺よりも多項式的に小さくすることができる(我々の構成では、両方の辺は入力サイズが$f$の多対数である)。 次に、すべての$f$と$g$に対して$R(f\circ)を示す。 g)=\Omega(\mathop{noisyR} (f)\cdot R (g))$, ここで$\mathop{noisyr} (f)$は、雑音の多いオラクル入力に対する$f$の計算コストを表す尺度である。 任意の測度$M(\cdot)$に対して$R(f\circ)を満たす。 g)=\Omega(M) (f)R (g))$ すべての$f$ と $g$ に対して、$\mathop{noisyr} を保持する必要がある。 (f)=\omega(m) (f))すべての$f$に対して$です。 また、測度 $\mathop{noisyR} のクリーンな特徴づけを与える。 (f)$:$\mathop{noisyr}を満たす (f)=\Theta(R(f\circ gapmaj_n)/R(gapmaj_n))$, ここで$n$は$f$の入力サイズであり、$gapmaj_n$は$n$上の$\sqrt{n}$-gap多数関数である。

We prove two new results about the randomized query complexity of composed functions. First, we show that the randomized composition conjecture is false: there are families of partial Boolean functions $f$ and $g$ such that $R(f\circ g)\ll R(f) R(g)$. In fact, we show that the left hand side can be polynomially smaller than the right hand side (though in our construction, both sides are polylogarithmic in the input size of $f$). Second, we show that for all $f$ and $g$, $R(f\circ g)=\Omega(\mathop{noisyR}(f)\cdot R(g))$, where $\mathop{noisyR}(f)$ is a measure describing the cost of computing $f$ on noisy oracle inputs. We show that this composition theorem is the strongest possible of its type: for any measure $M(\cdot)$ satisfying $R(f\circ g)=\Omega(M(f)R(g))$ for all $f$ and $g$, it must hold that $\mathop{noisyR}(f)=\Omega(M(f))$ for all $f$. We also give a clean characterization of the measure $\mathop{noisyR}(f)$: it satisfies $\mathop{noisyR}(f)=\Theta(R(f\circ gapmaj_n)/R(gapmaj_n))$, where $n$ is the input size of $f$ and $gapmaj_n$ is the $\sqrt{n}$-gap majority function on $n$ bits.
翻訳日:2023-06-02 00:07:09 公開日:2020-12-07
# 開放系力学のノイズ表現

Noise representations of open system dynamics ( http://arxiv.org/abs/2003.09688v5 )

ライセンス: Link先を確認
Piotr Sza\'nkowski and {\L}ukasz Cywi\'nski(参考訳) 与えられた環境に開放された量子システムのダイナミクスを、環境自由度の代理である外部ノイズ場を用いてシミュレートできる条件を解析する。 We show that such a field is either a subjective or an objective surrogate; the former is capable of simulating the dynamics only for the specific system--environment arrangement, while the latter is an universal simulator for any system interacting with the given environment. Consequently, whether the objective surrogate field exists and what are its properties is determined exclusively by the environment. Thus, we are able to formulate the sufficient criterion for the environment to facilitate its surrogate, and we identify a number of environment types that satisfy it. Finally, we discuss in what sense the objective surrogate field representation can be considered classical and we explain its relation to the formation of system--environment entanglement, and the back-action exerted by the system onto environment.

We analyze the conditions under which the dynamics of a quantum system open to a given environment can be simulated with an external noisy field that is a surrogate for the environmental degrees of freedom. We show that such a field is either a subjective or an objective surrogate; the former is capable of simulating the dynamics only for the specific system--environment arrangement, while the latter is an universal simulator for any system interacting with the given environment. Consequently, whether the objective surrogate field exists and what are its properties is determined exclusively by the environment. Thus, we are able to formulate the sufficient criterion for the environment to facilitate its surrogate, and we identify a number of environment types that satisfy it. Finally, we discuss in what sense the objective surrogate field representation can be considered classical and we explain its relation to the formation of system--environment entanglement, and the back-action exerted by the system onto environment.
翻訳日:2023-05-28 13:39:36 公開日:2020-12-07
# デ・シッター時空における量子化実クライン・ゴードン場の一般共変理論

A Generally Covariant Theory of Quantized Real Klein-Gordon Field in de Sitter Spacetime ( http://arxiv.org/abs/2003.09898v4 )

ライセンス: Link先を確認
Sze-Shiang Feng(参考訳) 本稿では,ド・ジッター時空における実クライン・ゴルドン場に対する量子化スキームを提案する。 このスキームは一般にビエルビンの助けを借りて共変であり、曲線時空におけるスピノル場に通常必要である。 まずハミルトニアン構造を示し、それから標準アプローチに従って場を量子化する。 自由場に対しては、時間依存量子化ハミルトニアンはボグルーボフ変換によって対角化され、各瞬間における固有状態は、その瞬間に観測された粒子状態として解釈される。 この解釈は、既知の宇宙論的赤方偏移公式と自由場に対する4モーメントのオンシェル条件によって支持される。 数学は利便性のために共形座標を用いて実行されるが、理論全体が一般的な共分散に基づいて他の座標に変換することができる。 特に真空状態のような粒子状態は時間に依存し、ある時点では真空状態は後に非真空状態へと進化する。 摂動の形式主義は拡張されたディラック画像を備える。

We propose in this paper a quantization scheme for real Klein-Gordon field in de Sitter spacetime. Our scheme is generally covariant with the help of vierbein, which is necessary usually for spinor field in curved spacetime. We first present a Hamiltonian structure, then quantize the field following the standard approach. For the free field, the time-dependent quantized Hamiltonian is diagonalized by Bogliubov transformation and the eigen-states at each instant are interpreted as the observed particle states at that instant. The interpretation is supported by the known cosmological red-shift formula and the on-shell condition of 4-momentum for a free field. Though the mathematics is carried out in term of conformal coordinates for the sake of convenience, the whole theory can be transformed into any other coordinates based on general covariance. It is concluded that particle states, such as vacuum states in particular are time-dependent and vacuum states at one time evolves into non-vacuum states at later times. Formalism of perturbational is provided with an extended Dirac picture.
翻訳日:2023-05-28 11:43:48 公開日:2020-12-07
# 個別試料の近似比に基づくQAOAの評価

Evaluation of QAOA based on the approximation ratio of individual samples ( http://arxiv.org/abs/2006.04831v2 )

ライセンス: Link先を確認
Jason Larkin, Mat\'ias Jonsson, Daniel Justice, and Gian Giacomo Guerreschi(参考訳) 量子近似最適化アルゴリズム (quantum approximation optimization algorithm,qaoa) は、二変数最適化問題を解決するためのハイブリッド量子古典アルゴリズムである。 回路の深さが短く、系統的エラーに対する堅牢性が期待できるため、短期的量子デバイス上で動作可能な有望な候補の一つである。 我々は、Max-Cut問題に適用されたQAOAの性能をシミュレートし、精度、近似、ヒューリスティックな解に対して、いくつかの古典的代替品と比較する。 解答器を比較する際、その性能は与えられた解の質を達成するのに要する計算時間によって特徴づけられる。 qaoaはサンプリングに基づくので、特定の品質以上のサンプルを観測する確率に基づいて、パフォーマンスメトリクスを利用する。 さらに,グラフの種類によってQAOA性能が著しく異なることを示す。 変動パラメータに適したオプティマイザを選択し、関数評価の回数を減らすことにより、QAOA性能は以前の推定よりも最大2桁向上する。 特に3次元正則ランダムグラフの場合、この設定は古典的代替品のパフォーマンスギャップを減少させる。 進化するQAOA計算複雑性理論のガイダンスにより、多数の問題インスタンスと古典的な3つのモダリティ(正確性、近似性、ヒューリスティック性)を組み込んだ量子優位性探索のためのフレームワークを利用する。

The Quantum Approximate Optimization Algorithm (QAOA) is a hybrid quantum-classical algorithm to solve binary-variable optimization problems. Due to the short circuit depth and its expected robustness to systematic errors, it is one of the promising candidates likely to run on near-term quantum devices. We simulate the performance of QAOA applied to the Max-Cut problem and compare it with some of the best classical alternatives, for exact, approximate and heuristic solution. When comparing solvers, their performance is characterized by the computational time taken to achieve a given quality of solution. Since QAOA is based on sampling, we utilize performance metrics based on the probability of observing a sample above a certain quality. In addition, we show that the QAOA performance varies significantly with the graph type. By selecting a suitable optimizer for the variational parameters and reducing the number of function evaluations, QAOA performance improves by up to 2 orders of magnitude compared to previous estimates. Especially for 3-regular random graphs, this setting decreases the performance gap with classical alternatives. Because of the evolving QAOA computational complexity-theoretic guidance, we utilize a framework for the search for quantum advantage which incorporates a large number of problem instances and all three classical solver modalities: exact, approximate, and heuristic.
翻訳日:2023-05-16 06:47:56 公開日:2020-12-07
# リカレントニューラルネットワークを用いた時間依存原子磁気計測

Time-dependent atomic magnetometry with a recurrent neural network ( http://arxiv.org/abs/2007.13562v2 )

ライセンス: Link先を確認
Maryam Khanahmadi, Klaus M{\o}lmer(参考訳) 我々は,原子アンサンブル上の連続光ファラデー回転測定から変動磁場を推定するために,リカレントニューラルネットワークを用いることを提案する。 エンコーダ・デコーダアーキテクチャのニューラルネットワークは,計測データを処理し,記録信号と時間依存磁界の間の正確なマップを学習できることを示す。 この手法の性能はカルマンフィルタに匹敵するが、特定の測定系や物理系への応用を制限する理論上の仮定からは自由である。

We propose to employ a recurrent neural network to estimate a fluctuating magnetic field from continuous optical Faraday rotation measurement on an atomic ensemble. We show that an encoder-decoder architecture neural network can process measurement data and learn an accurate map between recorded signals and the time-dependent magnetic field. The performance of this method is comparable to Kalman filters while it is free of the theory assumptions that restrict their application to particular measurements and physical systems.
翻訳日:2023-05-08 02:37:31 公開日:2020-12-07
# Covid-19パンデミックにおけるTwitterの公的なリスク認識と感情

Public risk perception and emotion on Twitter during the Covid-19 pandemic ( http://arxiv.org/abs/2008.00854v2 )

ライセンス: Link先を確認
Joel Dyer and Blas Kolic(参考訳) 新型コロナウイルスのパンデミックの航法は、安全対策や、感情や注意が重要な役割を果たすリスクの適切な認識と公衆の協力を前提にしている。 ソーシャルメディアデータには公共の感情や注意のサインが存在しており、このテキストの自然言語分析により、公共のリスク知覚の指標をほぼリアルタイムで監視することができる。 我々は、パンデミックの進展に関する主要な疫学的指標と、2020年3月10日から6月14日までに投稿された12か国から2000万近いユニークなcovid-19関連ツイートから構築されたパンデミックに対する国民の認識の指標を比較した。 Twitterユーザーはますます死亡率を固定するが、感情的にも分析的にも減少している。 単語共起に基づく意味ネットワーク分析は、この仮説と一致するコビッド19の犠牲者の感情的フレーミングの変化を明らかにする。 また,コビッド19の死亡率に対する平均的注意力は,Weber-Fechnerおよび知覚知覚のパワーロー機能と正確にモデル化されている。 これらのモデルのパラメータ推定は, 心理実験の結果と一致しており, このデータセットの利用者は, 全国のCovid-19死亡率に対して, 国によって異なる感度を示すことを示す。 本研究は,ソーシャルメディアが公衆のリスク認識を監視し,危機シナリオにおける公共コミュニケーションの指導に有用である可能性を示す。

Successful navigation of the Covid-19 pandemic is predicated on public cooperation with safety measures and appropriate perception of risk, in which emotion and attention play important roles. Signatures of public emotion and attention are present in social media data, thus natural language analysis of this text enables near-to-real-time monitoring of indicators of public risk perception. We compare key epidemiological indicators of the progression of the pandemic with indicators of the public perception of the pandemic constructed from ~20 million unique Covid-19-related tweets from 12 countries posted between 10th March -- 14th June 2020. We find evidence of psychophysical numbing: Twitter users increasingly fixate on mortality, but in a decreasingly emotional and increasingly analytic tone. Semantic network analysis based on word co-occurrences reveals changes in the emotional framing of Covid-19 casualties that are consistent with this hypothesis. We also find that the average attention afforded to national Covid-19 mortality rates is modelled accurately with the Weber-Fechner and power law functions of sensory perception. Our parameter estimates for these models are consistent with estimates from psychological experiments, and indicate that users in this dataset exhibit differential sensitivity by country to the national Covid-19 death rates. Our work illustrates the potential utility of social media for monitoring public risk perception and guiding public communication during crisis scenarios.
翻訳日:2023-05-07 06:36:04 公開日:2020-12-07
# ハミルトン対称性を破る可観測体の固有状態熱化と相互作用可積分系におけるその対応

Eigenstate thermalization for observables that break Hamiltonian symmetries and its counterpart in interacting integrable systems ( http://arxiv.org/abs/2008.01085v2 )

ライセンス: Link先を確認
Tyler LeBlond and Marcos Rigol(参考訳) スピンチェーンハミルトニアンの変換対称性を破るオブザーバブルの対角行列要素について検討し、異なる全準運動量セクタからのエネルギー固有状態と接続する。 我々は、ハミルトニアンの量子カオスおよび相互作用可能な可積分点を考え、スペクトルの中心における平均エネルギーに焦点をあてる。 量子カオスモデルでは、行列要素はガウス分布であり、その分散は{\omega=e_{\alpha}-e_{\beta}$ ({$e_{\alpha}$} は固有ネルギ) であり、スケールは 1/d$ (d$ はヒルベルト空間次元) である。 相互作用可能な可積分モデルでは、行列要素が歪んだ対数正規分布を示し、また1/d$でスケールする$\omega$の滑らかな関数である分散を持つことが分かる。 本研究では,行列要素の分散の低周波的挙動を詳細に検討し,拡散的あるいは弾道的スケーリングを示す状態を明らかにする。 量子カオスモデルでは、分散の挙動は、同一の固有状態と異なる準同項セクターを接続する行列要素と質的に類似していることが示される。 また、ハミルトニアンへの摂動として加えると可積分性を壊さない可観測系に対する相互作用可積分モデルでは、これはそうではないことも示している。

We study the off-diagonal matrix elements of observables that break the translational symmetry of a spin-chain Hamiltonian, and as such connect energy eigenstates from different total quasimomentum sectors. We consider quantum-chaotic and interacting integrable points of the Hamiltonian, and focus on average energies at the center of the spectrum. In the quantum-chaotic model, we find that there is eigenstate thermalization; specifically, the matrix elements are Gaussian distributed with a variance that is a smooth function of $\omega=E_{\alpha}-E_{\beta}$ ({$E_{\alpha}$} are the eigenenergies) and scales as $1/D$ ($D$ is the Hilbert space dimension). In the interacting integrable model, we find that the matrix elements exhibit a skewed log-normal-like distribution and have a variance that is also a smooth function of $\omega$ that scales as $1/D$. We study in detail the low-frequency behavior of the variance of the matrix elements to unveil the regimes in which it exhibits diffusive or ballistic scaling. We show that in the quantum-chaotic model the behavior of the variance is qualitatively similar for matrix elements that connect eigenstates from the same versus different quasimomentum sectors. We also show that this is not the case in the interacting integrable model for observables whose translationally invariant counterpart does not break integrability if added as a perturbation to the Hamiltonian.
翻訳日:2023-05-07 06:26:59 公開日:2020-12-07
# 動的c*-代数と動力学的摂動

Dynamical C*-algebras and kinetic perturbations ( http://arxiv.org/abs/2008.02034v4 )

ライセンス: Link先を確認
Detlev Buchholz, Klaus Fredenhagen(参考訳) ミンコフスキー空間のスカラー場に対する動的C*-代数の枠組みは、局所散乱作用素に基づいて、局所摂動的項を持つ理論に拡張される。 これらの用語は、基礎となる時空計量に関する情報をエンコードするので、散乱作用素間の因果関係を適切に調整する必要がある。 拡張代数は局所変形したミンコフスキー空間に伝播するスカラー量子場を記述することが示されている。 この動きを誘導する抽象散乱作用素の具体的表現は、フォック空間上に存在することが知られている。 これらの代表者が一般化因果関係も満たすという証明は、しかしながら、コホモロジー的な性質の新たな議論を必要とする。 彼らは、拡張力学 C*-代数のフォック空間表現が、場の運動的および点的な二次摂動を含むことを示唆している。

The framework of dynamical C*-algebras for scalar fields in Minkowski space, based on local scattering operators, is extended to theories with locally perturbed kinetic terms. These terms encode information about the underlying spacetime metric, so the causality relations between the scattering operators have to be adjusted accordingly. It is shown that the extended algebra describes scalar quantum fields, propagating in locally deformed Minkowski spaces. Concrete representations of the abstract scattering operators, inducing this motion, are known to exist on Fock space. The proof that these representers also satisfy the generalized causality relations requires, however, novel arguments of a cohomological nature. They imply that Fock space representations of the extended dynamical C*-algebra exist, involving linear as well as kinetic and pointlike quadratic perturbations of the field.
翻訳日:2023-05-07 02:23:32 公開日:2020-12-07
# 固体の非線形光学応答における微視的電子ダイナミクス

Microscopic electron dynamics in nonlinear optical response of solids ( http://arxiv.org/abs/2009.07527v3 )

ライセンス: Link先を確認
Daria Popova-Gorelova, Vladislav Guskov and Robin Santra(参考訳) Floquet理論における結晶性固体の非線形光学応答の微視的特性について検討し,光誘起の微視的電荷分布が複雑な空間構造と非自明な性質を示すことを示した。 その空間対称性と時間的挙動は結晶対称性によって支配される。 結晶の巨視的光学応答が禁止された場合でも、顕微鏡的光学応答は実際にはゼロではないことが分かる。 この場合、単位セル当たりの時間依存双極子モーメントのフーリエ成分が消えても、光学的に誘起される電荷の再分配は相当な量である。 我々は, サブサイクル分解x線光波混合法を用いて, 微視的電荷分布を完全に再構成する手法を開発した。 また, この枠組みの中で, 瞬時微視的電子電流流の方向が明らかにされることを示す。

We investigate the microscopic properties of the nonlinear optical response of crystalline solids within Floquet theory, and demonstrate that optically-induced microscopic charge distributions display complex spatial structure and nontrivial properties. Their spatial symmetry and temporal behavior are governed by crystal symmetries. We find that even when a macroscopic optical response of a crystal is forbidden, the microscopic optical response can, in fact, be nonzero. In such a case, the optically-induced charge redistribution can be considerable, even though the corresponding Fourier component of the time-dependent dipole moment per unit cell vanishes. We develop a method that makes it possible to completely reconstruct the microscopic optically-induced charge distributions by means of subcycle-resolved x-ray-optical wave mixing. We also show how, within this framework, the direction of the instantaneous microscopic optically-induced electron current flow can be revealed.
翻訳日:2023-05-02 02:27:37 公開日:2020-12-07
# 非相反マイクロ波増幅器を用いた効率的な量子ビット計測

Efficient qubit measurement with a nonreciprocal microwave amplifier ( http://arxiv.org/abs/2009.08863v2 )

ライセンス: Link先を確認
F. Lecocq, L. Ranzani, G. A. Peterson, K. Cicak, X. Y. Jin, R. W. Simmonds, J. D. Teufel and J. Aumentado(参考訳) 量子オブジェクトを観測する行為は、その状態が根本的に乱れ、その結果、測定作用素の固有状態に向かってランダムに歩く。 理想的には、測定は量子状態のすべてに責任がある。 実際、測定装置における不完全性は、測定効率によって定量化された効果である量子フィードバックプロトコルに必要な情報の流れを制限するか、破壊する。 本稿では,非相反パラメトリック増幅器を用いた超伝導量子ビットの効率的な測定を行い,読み出しキャビティのマイクロ波場を直接観測する。 キャビティと増幅器の間の損失を軽減し, 測定効率を72 %$とする。 増幅器の方向性は、増幅真空変動による過剰なバックアクションから読み出しキャビティとキュービットを保護する。 強射影計測の精度をさらに向上させるツールの提供に加えて、理想的弱測定の実験的な研究のためのテストベッドを作成し、状態安定化や誤り訂正といった弱測定に基づく量子フィードバックプロトコルへの道を開く。

The act of observing a quantum object fundamentally perturbs its state, resulting in a random walk toward an eigenstate of the measurement operator. Ideally, the measurement is responsible for all dephasing of the quantum state. In practice, imperfections in the measurement apparatus limit or corrupt the flow of information required for quantum feedback protocols, an effect quantified by the measurement efficiency. Here we demonstrate the efficient measurement of a superconducting qubit using a nonreciprocal parametric amplifier to directly monitor the microwave field of a readout cavity. By mitigating the losses between the cavity and the amplifier we achieve a measurement efficiency of $72\%$. The directionality of the amplifier protects the readout cavity and qubit from excess backaction caused by amplified vacuum fluctuations. In addition to providing tools for further improving the fidelity of strong projective measurement, this work creates a testbed for the experimental study of ideal weak measurements, and it opens the way towards quantum feedback protocols based on weak measurement such as state stabilization or error correction.
翻訳日:2023-05-01 22:06:59 公開日:2020-12-07
# ハイデン・プレスキルデコードとノイズホーキング放射

Hayden-Preskill decoding from noisy Hawking radiation ( http://arxiv.org/abs/2009.13493v2 )

ライセンス: Link先を確認
Ning Bao and Yuta Kikuchi(参考訳) ヘイデン・プレススキルの思考実験では、量子状態がブラックホールに投げ込まれる前に放出されるホーキング放射は、後に収集された放射と共に量子状態の復号のために用いられる。 自然問題は、保存された早期放射線が損傷したり、デコヒーレンスを受ける場合、またはデコヒーレンスプロトコルが不完全である場合、回復性がどう影響するかである。 早期放射線貯蔵における脱コヒーレンスやノイズの存在下での思考実験における回復可能性について検討した。

In the Hayden-Preskill thought experiment, the Hawking radiation emitted before a quantum state is thrown into the black hole is used along with the radiation collected later for the purpose of decoding the quantum state. A natural question is how the recoverability is affected if the stored early radiation is damaged or subject to decoherence, and/or the decoding protocol is imperfectly performed. We study the recoverability in the thought experiment in the presence of decoherence or noise in the storage of early radiation.
翻訳日:2023-04-30 18:30:09 公開日:2020-12-07
# ブセミ非局所性の量子資源理論の運用的意義

The operational significance of the quantum resource theory of Buscemi nonlocality ( http://arxiv.org/abs/2010.04585v2 )

ライセンス: Link先を確認
Patryk Lipka-Bartosik, Andr\'es Ducuara, Tom Purves, Paul Skrzypczyk(参考訳) ベル実験では非局所性観測には絡み合いが必要であるが、非局所相関を示すために決して使用できない絡み合い状態が存在する。 The seminal paper [PRL 108, 200401 (2012)] F. Buscemi は Alice と Bob が古典的な質問の代わりに量子を問うことを許し、標準ベルの実験を拡張した。 これはより広い非局所性の概念を生み出し、すべての絡み合った状態に対して観察することができる。 本研究では、このタイプの非局所性の資源理論をブッセミ非局所性と呼ぶ。 本研究では,ブッセミ非局所相関を導出し,その運用上の意義を確立するために,与えられた状態と局所的な測定能力を測定する幾何量化器を提案する。 特に,buscemi非局所相関を証明可能な任意の分散測定は,分散状態識別のタスクにおいて絡み合いを使用しない任意の分散測定よりも厳密な性能を提供することを示す。 また、与えられた状態を用いて生成できるブッセミ非局所性の最大量は、その絡み合いの内容と正確に等しいことを示す。 最後に, バスセム非局所性, 非古典的テレポーテーションを行う能力, 絡み合いの関係を定量的に証明する。 この関係を用いて,非古典的テレポーテーションと絡み合いが,古典的テレポーテーションよりも有利な新たな識別タスクを提案する。

Although entanglement is necessary for observing nonlocality in a Bell experiment, there are entangled states which can never be used to demonstrate nonlocal correlations. In a seminal paper [PRL 108, 200401 (2012)] F. Buscemi extended the standard Bell experiment by allowing Alice and Bob to be asked quantum, instead of classical, questions. This gives rise to a broader notion of nonlocality, one which can be observed for every entangled state. In this work we study a resource theory of this type of nonlocality referred to as Buscemi nonlocality. We propose a geometric quantifier measuring the ability of a given state and local measurements to produce Buscemi nonlocal correlations and establish its operational significance. In particular, we show that any distributed measurement which can demonstrate Buscemi nonlocal correlations provides strictly better performance than any distributed measurement which does not use entanglement in the task of distributed state discrimination. We also show that the maximal amount of Buscemi nonlocality that can be generated using a given state is precisely equal to its entanglement content. Finally, we prove a quantitative relationship between: Buscemi nonlocality, the ability to perform nonclassical teleportation, and entanglement. Using this relationship we propose new discrimination tasks for which nonclassical teleportation and entanglement lead to an advantage over their classical counterparts.
翻訳日:2023-04-29 13:20:23 公開日:2020-12-07
# 弱測定とポスト選択における状態識別性:統一システムとデバイス視点

State distinguishability under weak measurement and post-selection: A unified system and device perspective ( http://arxiv.org/abs/2011.04490v2 )

ライセンス: Link先を確認
Philipp Stammer(参考訳) 我々は、一連の観測を行う量子状態の乱れを定量化し、特に弱い測定に焦点をあてた後、選択後、これらの結果を投影状態と比較する。 システムとデバイスの両方の区別性を考慮すると,システム状態の乱れとデバイスポインタ状態の変化との正確なトレードオフが得られる。 本研究では,特定の選択後処理において,測定感度を低下させることなく,システムとデバイス間の結合強度を著しく低減できることを示す。 弱い測定だけではこの利点は得られないが, 測定感度の向上と状態乱れの低減の観点から, 選択後と組み合わせることで, 顕著な改善が見られた。 さらに,実際の実験条件下では,この状態乱れは小さいが,システム状態乱れを無視する場合に初期状態と最終状態の重なりによって与えられる近似値よりも正確な事後選択確率がかなり大きいことを示した。

We quantify the disturbance of a quantum state undergoing a sequence of observations, and particularly focus on a weak measurement followed by post-selection and compare these results to the projective counterpart. Taking into account the distinguishability of both, the system and the device, we obtain the exact trade-off between the system state disturbance and the change of the device pointer state. We show that for particular post-selection procedures the coupling strength between the system and the device can be significantly reduced without loosing measurement sensitivity, which is directly transferred to a reduced state disturbance of the system. We observe that a weak measurement alone does not provide this advantage but only in combination with post-selection a significant improvement in terms of increased measurement sensitivity and reduced state disturbance is found. We further show that under realistic experimental conditions this state disturbance is small, whereas the exact post-selection probability is considerably larger than the approximate value given by the overlap of the initial and final state when neglecting the system state disturbance.
翻訳日:2023-04-24 21:17:38 公開日:2020-12-07
# 温度のない予熱の厳密な理論

A Rigorous Theory of Prethermalization without Temperature ( http://arxiv.org/abs/2011.14583v2 )

ライセンス: Link先を確認
Wen Wei Ho, Wojciech De Roeck(参考訳) 予備熱化(英: Prethermalization)とは、システムが最終的に熱化する前に長期の非平衡定常状態に向かって進化する物理現象である。 この現象が起こる一般的なシナリオの1つは、実効的なハミルトニアン(ある回転枠)によって支配される力学を持つ駆動系において、後者のエルゴード性は前熱状態へのアプローチに寄与する。 このことは、有効ハミルトニアンと関係のない予熱状態を持つことが可能であるかどうかを疑問視する。 ここでは、この質問を肯定的に答える。 我々は、熱前状態が創発的大域的対称性によって定義される自然の系のクラスを示すが、この状態へシステムを取る力学が追加の保存則、特にエネルギーを持たない場合である。 このような条件下では, 従来議論されてきたものと異なり, 新規な予熱相が出現する可能性も説明できる。

Prethermalization refers to the physical phenomenon where a system evolves toward some long-lived non-equilibrium steady state before eventual thermalization sets in. One general scenario where this occurs is in driven systems with dynamics governed by an effective Hamiltonian (in some rotating frame), such that ergodicity of the latter is responsible for the approach to the prethermal state. This begs the question whether it is possible to have a prethermal state not associated to any effective Hamiltonian. Here, we answer this question in the affirmative. We exhibit a natural class of systems in which the prethermal state is defined by emergent, global symmetries, but where the dynamics that takes the system to this state has no additional conservation laws, in particular energy. We explain how novel prethermal phases of matter can nevertheless emerge under such settings, distinct from those previously discussed.
翻訳日:2023-04-22 14:49:18 公開日:2020-12-07
# Covid-19とAnderson Insulator予測のための量子強化機械学習

Quantum-Enhanced Machine Learning for Covid-19 and Anderson Insulator Predictions ( http://arxiv.org/abs/2012.03472v1 )

ライセンス: Link先を確認
Paul-Aymeric McRae and Michael Hilke(参考訳) 分類問題を解決する量子機械学習(QML)アルゴリズムは、近年の量子計算の進歩により利用可能になった。 量子ビットの数は依然として比較的少ないが、機械学習の「量子強化」に使われている。 重要な質問は、そのようなプロトコルの有効性に関するものである。 この効果は,最近の新型コロナウイルスの拡散データに加えて,3次元の量子金属絶縁体転移に加え,共通のベースラインデータセットを用いて評価する。 計算には16量子ビットのIBM量子コンピュータを使用しました。 量子エンハンスメント(quantum enhancement)"は汎用的ではなく、より複雑な機械学習タスクでは失敗する。

Quantum Machine Learning (QML) algorithms to solve classifications problems have been made available thanks to recent advancements in quantum computation. While the number of qubits are still relatively small, they have been used for "quantum enhancement" of machine learning. An important question is related to the efficacy of such protocols. We evaluate this efficacy using common baseline data sets, in addition to recent coronavirus spread data as well as the quantum metal-insulator transition in three dimensions. For the computation, we used the 16 qubit IBM quantum computer. We find that the "quantum enhancement" is not generic and fails for more complex machine learning tasks.
翻訳日:2023-04-21 21:12:40 公開日:2020-12-07
# 逆境界に対する問合せと通信の昇降について

On Query-to-Communication Lifting for Adversary Bounds ( http://arxiv.org/abs/2012.03415v1 )

ライセンス: Link先を確認
Anurag Anshu, Shalev Ben-David, Srijita Kundu(参考訳) 量子逆境界に関連するモデルに対する問合せ対通信昇降定理について検討する。 1) 古典的敵対的境界は, 一定の大きさのガジェットで, ランダム化通信の複雑さに対して, 低い限界まで持ち上げられることを示す。 また,従来は臨界ブロック感度 ( critical block sensitivity) として知られていた手法に比べ,古典的逆境界は厳密な下界手法であり,定サイズのガジェットを用いたランダム化通信の複雑化に対して,昇降定理が最強の昇降定理であることを示した。 2. 量子モデルに目を向けると、量子逆境界に対する昇降定理と、ある「正則」モデルにおけるセキュアな2者量子計算との間の関係を示す。 このようなセキュアな2要素計算が不可能な仮定の下では、正重対向境界の簡易版が、定数サイズのガジェットを用いて量子通信の下界へ持ち上げられることを示す。 また、境界の低い量子通信プロトコルを持つ無条件リフト定理を与える。 3. 最後に、クエリの複雑さに関する新しい結果を紹介します。 古典的逆境と正の重みを持つ量子逆境は二次的関係にあることを示す。 また、正の重みを持つ量子敵は、近似次数の平方よりも決して大きいものではないことも示している。 両方の関係は部分関数に対しても成り立つ。

We investigate query-to-communication lifting theorems for models related to the quantum adversary bounds. Our results are as follows: 1. We show that the classical adversary bound lifts to a lower bound on randomized communication complexity with a constant-sized gadget. We also show that the classical adversary bound is a strictly stronger lower bound technique than the previously-lifted measure known as critical block sensitivity, making our lifting theorem one of the strongest lifting theorems for randomized communication complexity using a constant-sized gadget. 2. Turning to quantum models, we show a connection between lifting theorems for quantum adversary bounds and secure 2-party quantum computation in a certain "honest-but-curious" model. Under the assumption that such secure 2-party computation is impossible, we show that a simplified version of the positive-weight adversary bound lifts to a quantum communication lower bound using a constant-sized gadget. We also give an unconditional lifting theorem which lower bounds bounded-round quantum communication protocols. 3. Finally, we give some new results in query complexity. We show that the classical adversary and the positive-weight quantum adversary are quadratically related. We also show that the positive-weight quantum adversary is never larger than the square of the approximate degree. Both relations hold even for partial functions.
翻訳日:2023-04-21 21:11:36 公開日:2020-12-07
# 空間リンクにおける量子キーレスプライバシと量子キー分散

Quantum Keyless Privacy vs. Quantum Key Distribution for Space Links ( http://arxiv.org/abs/2012.03407v1 )

ライセンス: Link先を確認
A. Vazquez-Castro, D. Rusca and H. Zbinden(参考訳) 衛星と地上局の空間リンクに関する情報理論的セキュリティについて検討する。 量子鍵分布(quantum key distribution, qkd)は、情報理論上のセキュアな通信の確立された方法であり、盗聴者がチャネルへの無制限アクセスと、量子物理学の法則によってのみ制限された技術資源を与える。 しかし、空間リンクのQKDは非常に困難であり、達成された鍵レートは極めて低く、日々の運用は不可能である。 しかし、軌道力学が課す制約を考えると、自由空間のチャネルでの盗聴は、気付かれずに複雑に思える。 また、エミッタと受信機周辺の特定の領域における盗聴者の存在を除外すれば、光信号のごく一部しかアクセスできないことが保証できる。 この設定では、ワイヤータップチャネルモデルに基づく量子キーレスプライベート(直接)通信は、情報理論的セキュリティを提供する有効な代替手段である。 QKDと同様に、正統なユーザは最先端技術によって制限されるが、潜在的な盗聴者は物理法則(Helstrom detector)と量子電磁力学(Holevo bound)によってのみ制限される。 それにもかかわらず、コヒーレント状態のオンオフキーを用いた古典量子ワイヤータップチャネル上での情報理論的にセキュアな通信速度(正のキーレスプライベート容量)を示す。 本稿では,Mcius衛星を用いた最近の実験と同等の設定について数値計算を行い,QKDの秘密鍵レートの基本的な限界と比較する。 我々は、低地球軌道(LEO)衛星の除外面積が13m未満のQKDと比較してはるかに高い速度を得る。 さらに,有線チャネルの量子キーレスプライバシはノイズや信号のダイナミクスにはるかに敏感であり,昼間の操作も可能であることを示す。

We study information theoretical security for space links between a satellite and a ground-station. Quantum key distribution (QKD) is a well established method for information theoretical secure communication, giving the eavesdropper unlimited access to the channel and technological resources only limited by the laws of quantum physics. But QKD for space links is extremely challenging, the achieved key rates are extremely low, and day-time operating impossible. However, eavesdropping on a channel in free-space without being noticed seems complicated, given the constraints imposed by orbital mechanics. If we also exclude eavesdropper's presence in a given area around the emitter and receiver, we can guarantee that he has only access to a fraction of the optical signal. In this setting, quantum keyless private (direct) communication based on the wiretap channel model is a valid alternative to provide information theoretical security. Like for QKD, we assume the legitimate users to be limited by state-of-the-art technology, while the potential eavesdropper is only limited by physical laws: physical measurement (Helstrom detector) and quantum electrodynamics (Holevo bound). Nevertheless, we demonstrate information theoretical secure communication rates (positive keyless private capacity) over a classical-quantum wiretap channel using on-off-keying of coherent states. We present numerical results for a setting equivalent to the recent experiments with the Micius satellite and compare them to the fundamental limit for the secret key rate of QKD. We obtain much higher rates compared with QKD with exclusion area of less than 13 meters for Low Earth Orbit (LEO) satellites. Moreover, we show that the wiretap channel quantum keyless privacy is much less sensitive to noise and signal dynamics and daytime operation is possible.
翻訳日:2023-04-21 21:11:13 公開日:2020-12-07
# 強結合二層エミッタ対からの光子-光子相関

Photon-photon Correlations from a Pair of Strongly Coupled Two-Level Emitters ( http://arxiv.org/abs/2012.03735v1 )

ライセンス: Link先を確認
Elnaz Darsheshdar, Mathilde Hugbart, Romain Bachelard and Celso Jorge Villas-Boas(参考訳) 強結合した2レベルエミッタから放射される光における2色光子相関について検討した。 スペクトルフィルタリングにより収集した光統計を操作でき、双極子-双極子相互作用によって引き起こされる共鳴が特定の相関を生み出し、相関の時間対称性が破られることを示す。 本研究は,光子が互いに特定の共鳴や古典的相関に関連付けられている実過程と,光子の対が古典的相関で放出される仮想過程の両方を包含する。

We investigate two-color photon correlations in the light emitted by strongly coupled two-level emitters. Spectral filtering allows us to manipulate the collected light statistics and we show that the resonances induced by dipole-dipole interactions give rise to specific correlations, where the time-symmetry of the correlations is broken. Based on the collective dressed states, our study encompasses both the case of real processes, where the photons are associated with specific resonances and classical correlations between each other, and virtual processes, where pairs of photons are emitted with non-classical correlations.
翻訳日:2023-04-21 21:04:31 公開日:2020-12-07
# 閉量子系における量子力学

Quantized dynamics in closed quantum systems ( http://arxiv.org/abs/2012.03714v1 )

ライセンス: Link先を確認
K. Ziegler(参考訳) 本稿では,閉量子系における干渉計測によるデータをランダムに処理する手法を提案する。 この目的のために,量子系の力学特性を抽出するための時間相関行列が導入された。 一般化された期待値を定義すると、時間スケールの分布、平均遷移時間、相関時間が得られる。 量子ゆらぎから分離される古典的な極限が存在する。 後者は一般化された期待値の極に関連する共鳴によって特徴づけられる。 その解析的挙動は研究され、いくつかの一般的な性質は量子化されたベリー相と結びついている。

We propose an approach to process data from interferometric measurements on a closed quantum system at random times. For this purpose a time correlation matrix is introduced which enables us to extract dynamical properties of the quantum system. After defining a generalized expectation value we obtain a distribution of time scales, an average transition time and a correlation time. A classical limit exists which is separated from the quantum fluctuations. The latter are characterized by resonances associated with poles of the generalized expectation value. Its analytic behavior is studied and some generic properties are linked to a quantized Berry phase.
翻訳日:2023-04-21 21:04:21 公開日:2020-12-07
# ディープニューラルネットワークを用いた短期記憶から長期記憶への遷移予測

Predicting the Transition from Short-term to Long-term Memory based on Deep Neural Network ( http://arxiv.org/abs/2012.03510v1 )

ライセンス: Link先を確認
Gi-Hwan Shin, Young-Seok Kweon, Minji Lee(参考訳) 記憶は、経験に基づく人々の日常生活において重要な要素である。 これまでに多くの研究が脳波信号を分析して後の記憶項目を予測するが、短期記憶を成功させる脳波信号でのみ長期記憶を予測する研究はほとんどない。 そこで我々は,ディープニューラルネットワークを用いた長期記憶予測を目標としている。 具体的には、短期記憶における記憶項目の脳波信号のスペクトルパワーを計算し、多層パーセプトロン(MLP)および畳み込みニューラルネットワーク(CNN)分類器に入力し、長期記憶を予測する。 17名の参加者が,画像メモリと位置メモリをエンコード順,即時検索(短期記憶),遅延検索(長期記憶)順に実行した。 予測モデルの評価にreft-one-subject-out cross-validationを適用した。 その結果,cnnでは最大kappa値が0.19,mlpでは最大kappa値が0.32であった。 これらの結果は、短期記憶中の脳波信号を用いて長期記憶を予測でき、学習効率が向上し、記憶障害や認知障害の人に役立つことを示した。

Memory is an essential element in people's daily life based on experience. So far, many studies have analyzed electroencephalogram (EEG) signals at encoding to predict later remembered items, but few studies have predicted long-term memory only with EEG signals of successful short-term memory. Therefore, we aim to predict long-term memory using deep neural networks. In specific, the spectral power of the EEG signals of remembered items in short-term memory was calculated and inputted to the multilayer perceptron (MLP) and convolutional neural network (CNN) classifiers to predict long-term memory. Seventeen participants performed visuo-spatial memory task consisting of picture and location memory in the order of encoding, immediate retrieval (short-term memory), and delayed retrieval (long-term memory). We applied leave-one-subject-out cross-validation to evaluate the predictive models. As a result, the picture memory showed the highest kappa-value of 0.19 on CNN, and location memory showed the highest kappa-value of 0.32 in MLP. These results showed that long-term memory can be predicted with measured EEG signals during short-term memory, which improves learning efficiency and helps people with memory and cognitive impairments.
翻訳日:2023-04-21 21:03:07 公開日:2020-12-07
# 調和非線形ポテンシャルにおける準古典ブラウン運動の感受性

Susceptibility of quasiclassical Brownian motion in harmonic nonlinear potentials ( http://arxiv.org/abs/2012.04033v1 )

ライセンス: Link先を確認
Pedro J. Colmenares(参考訳) この研究は、非線型調和ポテンシャルによって駆動される量子調和振動子の浴に浸されたブラウン粒子の準古典応答関数と感受性の正確な方程式を設定する。 デルタ力の摂動は、その感受性が調和振動子の所有する線形項の組み合わせである応答と、積分 \textcolor{black}{equation を含む非線形な応答をもたらす。 バナッハ空間における関数方程式に基づく解を見つけるための再帰法を提供する。 応答関数のODEは、上記の方法を用いて解を得る、非常に非線形に減衰した非自律ダッフィング方程式である。

This work sets the exact equations for the quasiclassical response function and susceptibility of a Brownian particle immersed in a bath of quantum harmonic oscillators driving by nonlinear harmonic potentials. A delta force perturbation gives rise to a response whose susceptibility is the combination of a linear term, own of the harmonic oscillator, plus a nonlinear one involving an integral \textcolor{black}{equation. It is provided a recursion method to find its solutions based on functional equations in the Banach space.} The ODE for the response function is a highly nonlinear damped non-autonomous Duffing equation for which the aforementioned method is used to get its solution.
翻訳日:2023-04-21 20:47:29 公開日:2020-12-07
# 準ド・ジッターの量子起源:モデル独立な量子宇宙論的傾き

The Quantum Origin of Quasi de Sitter: a Model Independent Quantum Cosmological Tilt ( http://arxiv.org/abs/2012.04003v1 )

ライセンス: Link先を確認
Cesar Gomez, Raul Jimenez(参考訳) 最も堅牢なインフレーション宇宙論の予測は、曲率ゆらぎのスペクトルに対する赤い傾きの存在であり、これは実験的に0.04$である。 この傾きは、状態 $\epsilon \equiv \frac{(p+\rho)}{\rho}$ の方程式で定義される準ド・ジッター背景の量子ゆらぎの正確な方程式を、$\epsilon$小さで解いたものである。 実験データは、異なる準 de Sitter インフラトンポテンシャルの中から選択される。 しかし、傾きに伴うスケール不変性の欠如の起源は本質的に古典的であり、インフロンポテンシャルの遅いロールによってパラメトリゼーションされる。 ここでは、純粋に量子力学とモデル独立な傾きの導出を示す。 この導出は、2つの基本的な観測に基づいている: ゲージ不変変数の相関器は、エネルギースケールパラメータ上の純粋デシッター真空の族(英語版)の量子依存を測定する {\it quantum Fisher function(英語版)と関係している; 第二に、この量子フィッシャー関数は、物理的興味のエネルギースケールにおいて、有効クエージ・ド・シッター予想と実験値に適合する非消滅スケール依存赤傾きを持つ。 これはモデル独立であり、デ・シッター・ヴァクア族(de Sitter vacua)の量子的特徴のみに基づく結果である。

The most robust prediction of inflationary cosmology is the existence of a red tilt for the spectrum of curvature fluctuations that is experimentally of order $0.04$. The tilt is derived solving the exact equation for quantum fluctuations in a quasi de Sitter background defined by a equation of state $\epsilon \equiv \frac{(p+\rho)}{\rho}$ with $\epsilon$ small but non vanishing. The experimental data selects among the different quasi de Sitter inflaton potentials. The origin of the lack of scale invariance associated with the tilt is however classical in essence and parametrized by the slow roll of the inflaton potential. Here we present a purely quantum mechanical and model independent derivation of the tilt. This derivation is based on two basic observations: first, the correlator for gauge invariant variables is related to the {\it quantum Fisher function} measuring the quantum dependence of the family of pure de Sitter vacua on the energy scale parameter; second, this quantum Fisher function has a non vanishing scale dependent red tilt that, at the energy scales of physical interest, fits the effective quasi de Sitter prediction as well as the experimental value. This is a result that is model independent and only based on the quantum features of the family of de Sitter vacua.
翻訳日:2023-04-21 20:47:18 公開日:2020-12-07
# Timetamp Membosonsamplingによる量子アドバンテージ

Quantum Advantage with Timestamp Membosonsampling ( http://arxiv.org/abs/2012.03967v1 )

ライセンス: Link先を確認
Jun Gao, Xiao-Wei Wang, Wen-Hao Zhou, Zhi-Qiang Jiao, Ruo-Jing Ren, Yu-Xuan Fu, Lu-Feng Qiao, Xiao-Yun Xu, Chao-Ni Zhang, Xiao-Ling Pang, Hang Li, Yao Wang, Xian-Min Jin(参考訳) 量子コンピュータは、並列計算能力を高めるために量子重ね合わせを利用しており、従来のものを上回ることを約束し、指数関数的に増大するスケーリングを提供する。 量子優位(quantum advantage)という用語は、量子システムを前例のないスケールで人工的に制御し、誤り訂正や既知の実用的応用なしに古典的に難解な問題を解くことができる重要なポイントである。 マルチモードフォトニクスネットワーク上の多光子の量子進化に関する問題であるボソンサンプリング(英語版)は、このマイルストーンに到達するための有望な候補と考えられている。 しかし、現在のフォトニックプラットフォームは、光子数と回路モードの両方においてスケーリングの問題に悩まされている。 本稿では,単一光子のタイムスタンプ情報を自由資源として活用するtimestamp membosonsamplingという新しい手法を提案する。 memristorにインスパイアされた自己ループ型フォトニックチップのスキームを実験的に検証し、ヒルベルト空間を最大10^{254}$で75万モードで56倍の多光子登録を得る。 我々の研究は、従来のシナリオをはるかに超え、フォトニックシステムの「量子優位」体制への統合的で費用効率の良いショートカットを示し、量子情報処理のためのスケーラブルで制御可能なプラットフォームを提供する。

Quantum computer, harnessing quantum superposition to boost a parallel computational power, promises to outperform its classical counterparts and offer an exponentially increased scaling. The term "quantum advantage" was proposed to mark the key point when people can solve a classically intractable problem by artificially controlling a quantum system in an unprecedented scale, even without error correction or known practical applications. Boson sampling, a problem about quantum evolutions of multi-photons on multimode photonic networks, as well as its variants, has been considered as a promising candidate to reach this milestone. However, the current photonic platforms suffer from the scaling problems, both in photon numbers and circuit modes. Here, we propose a new variant of the problem, timestamp membosonsampling, exploiting the timestamp information of single photons as free resources, and the scaling of the problem can be in principle extended to infinitely large. We experimentally verify the scheme on a self-looped photonic chip inspired by memristor, and obtain multi-photon registrations up to 56-fold in 750,000 modes with a Hilbert space up to $10^{254}$. Our work exhibits an integrated and cost-efficient shortcut stepping into the "quantum advantage" regime in a photonic system far beyond previous scenarios, and provide a scalable and controllable platform for quantum information processing.
翻訳日:2023-04-21 20:46:09 公開日:2020-12-07
# 量子コンピュータ上の有限温度状態の変分準備

Variational preparation of finite-temperature states on a quantum computer ( http://arxiv.org/abs/2012.03895v1 )

ライセンス: Link先を確認
R. Sagastizabal, S. P. Premaratne, B. A. Klaver, M. A. Rol, V. Neg\^irneac, M. Moreira, X. Zou, S. Johri, N. Muthusubramanian, M. Beekman, C. Zachariadis, V. P. Ostroukh, N. Haider, A. Bruno, A. Y. Matsuura, and L. DiCarlo(参考訳) 熱平衡状態の調製は、量子コンピュータを用いた凝縮物質と宇宙論系のシミュレーションに重要である。 本稿では, ゲート型量子プロセッサを用いて, ユニタリ演算子と混合状態を作成する手法を提案する。 本手法は,量子近似最適化アルゴリズムに動機づけられたハイブリッド量子古典変分法を用いて,数値シミュレーションによる最適変分パラメータの事前計算をすることなく,熱場二重状態の生成を目標とする。 熱平衡状態に対する生成状態の忠実性は、実験から導かれた誤差パラメータを持つ雑音量子プロセッサの数値シミュレーションと定量的に一致し、無限温度とゼロに近いシミュレーション温度の間に99から75%のばらつきがある。

The preparation of thermal equilibrium states is important for the simulation of condensed-matter and cosmology systems using a quantum computer. We present a method to prepare such mixed states with unitary operators, and demonstrate this technique experimentally using a gate-based quantum processor. Our method targets the generation of thermofield double states using a hybrid quantum-classical variational approach motivated by quantum-approximate optimization algorithms, without prior calculation of optimal variational parameters by numerical simulation. The fidelity of generated states to the thermal-equilibrium state smoothly varies from 99 to 75% between infinite and near-zero simulated temperature, in quantitative agreement with numerical simulations of the noisy quantum processor with error parameters drawn from experiment.
翻訳日:2023-04-21 20:44:27 公開日:2020-12-07
# 中空コアフォトニック結晶繊維中の4波混合を縮退させたポンプから発生した光に対する原子ファラデービームスプリッタ

An atomic Faraday beam splitter for light generated from pump degenerate four-wave mixing in a hollow-core photonic crystal fiber ( http://arxiv.org/abs/2012.03890v1 )

ライセンス: Link先を確認
Ioannis Caltzidis, Harald K\"ubler, Tilman Pfau, Robert L\"ow and Mark A. Zentile(参考訳) 本研究では,原子源内の4波混合を発生させるポンプから,信号場とアイドラー場を空間的に分離するのに適した原子ファラデー二色ビームスプリッタを示す。 一方のモードに対して90^{\circ}$の偏光平面を回転させることで、後続の偏光ビームスプリッターは、わずか13.6GHzで異なる2つの周波数を分離し、2つの出力で$(-26.3\pm0.1)$と$(-21.2\pm0.1)$dBの抑制を達成する。 この技術は、4波混合モードの空間分離を不要とし、導波路実験においてプロセス効率を高めるための扉を開く。 原理の証明として、中空コアフォトニック結晶ファイバにロードされた$^{87}$Rbの4波長混合により光を生成し、原子ファラデー二光子ビームスプリッターと接続する。

We demonstrate an atomic Faraday dichroic beam splitter suitable to spatially separate signal and idler fields from pump degenerate four-wave mixing in an atomic source. By rotating the plane of polarization of one mode $90^{\circ}$ with respect to the other, a subsequent polarizing beam splitter separates the two frequencies, which differ by only 13.6 GHz, and achieves a suppression of $(-26.3\pm0.1)$ and $(-21.2\pm0.1)$ dB in the two outputs, with a corresponding transmission of 97 and 99 %. This technique avoids the need to use spatial separation of four-wave mixing modes and thus opens the door for the process efficiency to be enhanced in waveguide experiments. As a proof-of-principle we generate light via four-wave mixing in $^{87}$Rb loaded into a hollow-core photonic crystal fiber and interface it with the atomic Faraday dichroic beam splitter.
翻訳日:2023-04-21 20:44:13 公開日:2020-12-07
# 新型コロナウイルスパンデミック時のフィンテック電子商取引アプリケーションユーザエクスペリエンス分析

FinTech E-Commerce Payment Application User Experience Analysis during COVID-19 Pandemic ( http://arxiv.org/abs/2012.07750v1 )

ライセンス: Link先を確認
Leon A. Abdillah(参考訳) ビッグデータやクラウドコンピューティングの時代における情報技術の応用は、金融技術(FinTech)による電子決済のトレンドにつながっている。 インドネシアで最も人気のあるFinTechアプリケーションのひとつは、GojekスタートアップアプリケーションのGo-Payである。 この研究は、Gojek上の取引とGojekと連携する商人の両方で、FinTech Go-Payのユーザー体験がどのように分析される。 ユーザエクスペリエンス(UX)は、6(6)変数(抽出性、パースペキュリティ、効率性、依存性、刺激性、ノベルティ)からなるユーザエクスペリエンスアンケートを用いて分析される。 データ収集総数は258件。 計算結果を解析した結果, 平均スコアは, 効率, 過度, 刺激, 誘引性, 依存性, ノベルティの順に得られた。 そして、ベンチマークデータと比較すると、効率性、パースペキュリティ、刺激性、魅力、依存性、ノベルティというシーケンスが得られます。 全体として、Go-Payサービスは効率的で目立たしいが、Go-Payサービスは斬新さを改善する必要がある。 この記事では、特にFinTechアプリケーションを用いたユーザエクスペリエンス分析について、追加の知識やノベルティコントリビューションを提供する。

The application of information technology in the era of big data and cloud computing has led to the trend of electronic payments through financial technology, or FinTech. One of the most popular FinTech applications in Indonesia is Go-Pay in the Gojek start-up application. This research will analyze how the FinTech Go-Pay user experience both for transactions on Gojek and at merchants that collaborate with Gojek. User Experience (UX) is analyzed using the User Experience Questionnaire which consists of 6 (six) variables (Attractiveness, Perspicuity, Efficiency, Dependability, Stimulation, and Novelty). Total data collected amounted to 258. After analyzing the calculation results, the mean scores are obtained in the following order: Efficiency, Perspicuity, Stimulation, Attractiveness, Dependability, and Novelty. Then when compared with benchmark data the following sequence is obtained: Efficiency, Perspicuity, Stimulation, Attractiveness, Dependability, and Novelty. Overall the Go-Pay service is efficient and perspicuity, but the Go-Pay service needs to improve its novelty. This article provides additional knowledge or novelty contributions, especially for user experience analysis using FinTech applications.
翻訳日:2023-04-21 20:37:20 公開日:2020-12-07
# 双曲型二重井戸ポテンシャルが支持する境界状態エネルギーの計算について

On the calculation of bound-state energies supported by hyperbolic double well potentials ( http://arxiv.org/abs/2012.05113v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 双曲型二重ウェルポテンシャルを持つschr\"{o}dinger方程式の固有値と固有関数を得る。 ポテンシャル強度パラメータの特定の値に対する正確な多項式解と、このモデルパラメータの任意の値に対する数値エネルギーを考える。 固有値に対する適切な漸近式を用いて数値法を検証し、ポテンシャルが支持する有界状態の数に関連する強度パラメータの臨界値を算出する。

We obtain eigenvalues and eigenfunctions of the Schr\"{o}dinger equation with a hyperbolic double-well potential. We consider exact polynomial solutions for some particular values of the potential-strength parameter and also numerical energies for arbitrary values of this model parameter. We test the numerical method by means of a suitable exact asymptotic expression for the eigenvalues and also calculate critical values of the strength parameter that are related to the number of bound states supported by the potential.
翻訳日:2023-04-21 20:36:58 公開日:2020-12-07
# オンライン配車システムのための多目的最適化フレームワーク

A multi-objective optimization framework for on-line ridesharing systems ( http://arxiv.org/abs/2012.05046v1 )

ライセンス: Link先を確認
Hamed Javidi, Dan Simon, Ling Zhu, Yan Wang(参考訳) ライドシェアリングシステムの究極の目標は、車両を持っていない旅行者と車両を共有することにある。 類似した日程やスケジュールを持つ人々の間では、よい試合が見られます。 この方法では、各ライダーは遅延なく提供でき、また、各ドライバーは元のルートから過度に逸脱することなく、できるだけ稼げる。 本稿では,生物地理学に基づく最適化を利用して,オンラインライドシェアリングにおける多目的最適化問題を解くアルゴリズムを提案する。 同時に考慮しなければならない重要な目的がいくつかあるので、多目的プロブレムとしてライドシェアリング問題を解決する必要があります。 北京のライドシェアリングデータセットで性能を評価することで,本アルゴリズムを検証した。 シミュレーションの結果、bboは最先端のライドシェアリング最適化アルゴリズムと競合するパフォーマンスを提供することがわかった。

The ultimate goal of ridesharing systems is to matchtravelers who do not have a vehicle with those travelers whowant to share their vehicle. A good match can be found amongthose who have similar itineraries and time schedules. In thisway each rider can be served without any delay and also eachdriver can earn as much as possible without having too muchdeviation from their original route. We propose an algorithmthat leverages biogeography-based optimization to solve a multi-objective optimization problem for online ridesharing. It isnecessary to solve the ridesharing problem as a multi-objectiveproblem since there are some important objectives that must beconsidered simultaneously. We test our algorithm by evaluatingperformance on the Beijing ridesharing dataset. The simulationresults indicate that BBO provides competitive performancerelative to state-of-the-art ridesharing optimization algorithms.
翻訳日:2023-04-21 20:36:50 公開日:2020-12-07
# 導波路量子電磁力学における3光子状態の分類

Classification of three-photon states in waveguide quantum electrodynamics ( http://arxiv.org/abs/2012.04113v1 )

ライセンス: Link先を確認
Janet Zhong, Alexander N. Poddubny(参考訳) 導波路に結合した2レベル原子の有限周期配列における3光子固有状態の最初の分類を提供する。 我々は,強いサブ波長限界に着目し,複素平面内の固有状態の階層構造を示す。 主特性固有状態はエンタングルメントエントロピーを特徴として検討する。 2光子系で見られる秩序、カオス、局所化から効果の豊富な相互作用は、自然に3光子系に拡張される。 また、結合三量体、コーナー状態、トリマーエッジ状態などの三光子系に特有の相互作用誘起局在状態が存在する。

We provide the first classification of three-photon eigenstates in a finite periodic array of two-level atoms coupled to a waveguide. We focus on the strongly subwavelength limit and show the hierarchical structure of the eigenstates in the complex plane. The main characteristic eigenstates are explored using entanglement entropy as a distinguishing feature. We show that the rich interplay of effects from order, chaos to localisation found in two-photon systems extends naturally to three-photon systems. There also exist interaction-induced localised states unique to three-photon systems such as bound trimers, corner states and trimer edge states.
翻訳日:2023-04-21 20:36:30 公開日:2020-12-07
# オープン量子システムのエンジニアリング制御のための二次モデル

Quadratic Models for Engineered Control of Open Quantum Systems ( http://arxiv.org/abs/2012.04083v1 )

ライセンス: Link先を確認
J. P. P. Vieira, A. Lazarides, T. Ala-Nissila(参考訳) 我々は、環境が瞬時に非ユニタリ進化段階を経る、オープン量子システムのクラスの進化をモデル化するフレームワークを提案する。 二次モデルの特別の場合、このアプローチが繰り返し相互作用の形式化を一般化し、システム環境相関の保存を可能にしていることを示す。 さらに、連続的なゼロ周期極限は、無視可能な定常状態における大きな環境と結合した小さなシステムの進化の自然な記述を与える。 簡単なホッピングリングにおける熱化と環境工学によるクビット鎖の初期化問題に対する実証的応用におけるこのアプローチの利点と限界について検討する。

We introduce a framework to model the evolution of a class of open quantum systems whose environments periodically undergo an instantaneous non-unitary evolution stage. For the special case of quadratic models, we show how this approach can generalise the formalism of repeated interactions to allow for the preservation of system-environment correlations. Furthermore, its continuous zero-period limit provides a natural description of the evolution of small systems coupled to large environments in negligibly perturbed steady states. We explore the advantages and limitations of this approach in illustrative applications to thermalisation in a simple hopping ring and to the problem of initialising a qubit chain via environmental engineering.
翻訳日:2023-04-21 20:36:00 公開日:2020-12-07
# 感性分析のための単語と文書埋め込みの生成

Generating Word and Document Embeddings for Sentiment Analysis ( http://arxiv.org/abs/2001.01269v2 )

ライセンス: Link先を確認
Cem R{\i}fk{\i} Ayd{\i}n, Tunga G\"ung\"or, Ali Erkan(参考訳) 単語の感情はコーパスによって異なる。 言語に対する一般的な感情のレキシコンを誘発し、それらを使用すると、一般的に異なるドメインに対して有意義な結果を生み出すことができない。 本稿では,文脈情報と教師情報と,辞書に含まれる単語の一般的な意味表現とを組み合わせる。 単語の文脈はドメイン固有の情報を捉えるのに役立ち、単語の教師付きスコアはそれらの単語の極性を示す。 単語の教師付き特徴と辞書の定義から抽出した特徴を組み合わせると,成功率の増加が観察される。 文脈、教師付き、辞書に基づくアプローチの組み合わせを試行し、元のベクトルを生成する。 また、Word2vecアプローチと手作りの機能を組み合わせています。 トルコ語で映画ドメインとtwitterデータセットである2つのコーパスに対して,ドメイン固有の感情ベクトルを誘導する。 その後、文書ベクトルを生成し、それらのベクトルを利用する支援ベクトルマシン手法を用いると、トルコのベースライン研究よりも大きなマージンを持つ手法が優れている。 また,2つの英単語コーパスのモデルも評価し,ワード2vecのアプローチよりも優れていた。 これは我々のアプローチがクロスドメインであり、他の言語に移植可能であることを示している。

Sentiments of words differ from one corpus to another. Inducing general sentiment lexicons for languages and using them cannot, in general, produce meaningful results for different domains. In this paper, we combine contextual and supervised information with the general semantic representations of words occurring in the dictionary. Contexts of words help us capture the domain-specific information and supervised scores of words are indicative of the polarities of those words. When we combine supervised features of words with the features extracted from their dictionary definitions, we observe an increase in the success rates. We try out the combinations of contextual, supervised, and dictionary-based approaches, and generate original vectors. We also combine the word2vec approach with hand-crafted features. We induce domain-specific sentimental vectors for two corpora, which are the movie domain and the Twitter datasets in Turkish. When we thereafter generate document vectors and employ the support vector machines method utilising those vectors, our approaches perform better than the baseline studies for Turkish with a significant margin. We evaluated our models on two English corpora as well and these also outperformed the word2vec approach. It shows that our approaches are cross-domain and portable to other languages.
翻訳日:2023-01-14 07:51:04 公開日:2020-12-07
# 超表面上の合意に基づく最適化--有効性と平均場限界

Consensus-Based Optimization on Hypersurfaces: Well-Posedness and Mean-Field Limit ( http://arxiv.org/abs/2001.11994v4 )

ライセンス: Link先を確認
Massimo Fornasier, Hui Huang, Lorenzo Pareschi, Philippe S\"unnen(参考訳) コンパクト超曲面上の非凸関数の大域的最適化のための新しい確率微分モデルを提案する。 このモデルは確率的クラモト・ヴィエクシステムにインスパイアされ、コンセンサスに基づく最適化手法のクラスに属する。 実際、粒子はドリフトによって駆動される超表面上を移動し、ラプラスの原理に従ってコスト関数によって重み付けられた粒子位置の凸結合として計算される。 コンセンサスポイントは、大域最小化器への近似を表す。 力学はさらにランダムなベクトル場によって摂動され、その分散は粒子から収束点までの距離の関数である探索を好む。 特に、合意に達するとすぐに確率成分は消滅する。 本稿では,モデルの有効性について検討し,大粒子限界に対する平均場近似を厳密に導出する。

We introduce a new stochastic differential model for global optimization of nonconvex functions on compact hypersurfaces. The model is inspired by the stochastic Kuramoto-Vicsek system and belongs to the class of Consensus-Based Optimization methods. In fact, particles move on the hypersurface driven by a drift towards an instantaneous consensus point, computed as a convex combination of the particle locations weighted by the cost function according to Laplace's principle. The consensus point represents an approximation to a global minimizer. The dynamics is further perturbed by a random vector field to favor exploration, whose variance is a function of the distance of the particles to the consensus point. In particular, as soon as the consensus is reached, then the stochastic component vanishes. In this paper, we study the well-posedness of the model and we derive rigorously its mean-field approximation for large particle limit.
翻訳日:2023-01-05 07:10:35 公開日:2020-12-07
# BigBiGANを用いたfMRIパターンからの自然シーンの再構成

Reconstructing Natural Scenes from fMRI Patterns using BigBiGAN ( http://arxiv.org/abs/2001.11761v3 )

ライセンス: Link先を確認
Milad Mozafari, Leila Reddy, Rufin VanRullen(参考訳) 脳画像データからの画像の復号と再構成は、非常に興味深い研究分野である。 深層生成ニューラルネットワークの最近の進歩は、この問題に対処する新たな機会をもたらした。 本稿では,fMRIパターンから自然シーンを復号・再構成するために,BigBiGANと呼ばれる大規模双方向生成対向ネットワークを提案する。 BigBiGANは、画像を120次元の潜伏空間に変換し、クラスと属性情報をエンコードし、潜伏ベクトルに基づいて画像を再構成する。 我々は、イメージネットの150のカテゴリから取得したfMRIデータと、対応するBigBiGAN潜在ベクトルの線形マッピングを計算した。 そこで本研究では,50の未確認カテゴリから得られた50の新たな画像から得られたfMRI活動パターンを用いて,その潜在ベクトルを検索し,対応する画像の再構成を行った。 予測された潜在ベクトルからのペア画像復号は高い精度(84%)であった。 さらに,質的・定量的評価により,得られた画像再構成は視覚的に有理であり,原画像の多くの属性を捉えることができ,原画像との知覚的類似度も高かった。 本手法は、fMRIに基づく自然画像再構成のための新しい最先端技術を確立し、自然画像の生成モデルの将来的な改善を考慮して柔軟に更新することができる。

Decoding and reconstructing images from brain imaging data is a research area of high interest. Recent progress in deep generative neural networks has introduced new opportunities to tackle this problem. Here, we employ a recently proposed large-scale bi-directional generative adversarial network, called BigBiGAN, to decode and reconstruct natural scenes from fMRI patterns. BigBiGAN converts images into a 120-dimensional latent space which encodes class and attribute information together, and can also reconstruct images based on their latent vectors. We computed a linear mapping between fMRI data, acquired over images from 150 different categories of ImageNet, and their corresponding BigBiGAN latent vectors. Then, we applied this mapping to the fMRI activity patterns obtained from 50 new test images from 50 unseen categories in order to retrieve their latent vectors, and reconstruct the corresponding images. Pairwise image decoding from the predicted latent vectors was highly accurate (84%). Moreover, qualitative and quantitative assessments revealed that the resulting image reconstructions were visually plausible, successfully captured many attributes of the original images, and had high perceptual similarity with the original content. This method establishes a new state-of-the-art for fMRI-based natural image reconstruction, and can be flexibly updated to take into account any future improvements in generative models of natural scene images.
翻訳日:2023-01-05 07:05:20 公開日:2020-12-07
# 埋め込み・タグ付けにおける弱ラベルの限界

Limitations of weak labels for embedding and tagging ( http://arxiv.org/abs/2002.01687v4 )

ライセンス: Link先を確認
Nicolas Turpault (MULTISPEECH), Romain Serizel (MULTISPEECH), Emmanuel Vincent (MULTISPEECH)(参考訳) Many datasets and approaches in ambient sound analysis use weakly labeled data.Weak labels are employed because annotating every data sample with a strong label is too expensive.Yet, their impact on the performance in comparison to strong labels remains unclear.Indeed, weak labels must often be dealt with at the same time as other challenges, namely multiple labels per sample, unbalanced classes and/or overlapping events.In this paper, we formulate a supervised learning problem which involves weak labels.We create a dataset that focuses on the difference between strong and weak labels as opposed to other challenges. 本稿では,組込みやエンドツーエンド分類器のトレーニングにおける弱ラベルの影響について検討し,弱ラベルデータに対して最も敏感なアプリケーションについて考察する。

Many datasets and approaches in ambient sound analysis use weakly labeled data.Weak labels are employed because annotating every data sample with a strong label is too expensive.Yet, their impact on the performance in comparison to strong labels remains unclear.Indeed, weak labels must often be dealt with at the same time as other challenges, namely multiple labels per sample, unbalanced classes and/or overlapping events.In this paper, we formulate a supervised learning problem which involves weak labels.We create a dataset that focuses on the difference between strong and weak labels as opposed to other challenges. We investigate the impact of weak labels when training an embedding or an end-to-end classifier.Different experimental scenarios are discussed to provide insights into which applications are most sensitive to weakly labeled data.
翻訳日:2023-01-03 21:10:43 公開日:2020-12-07
# 解釈可能な画像認識のためのコンセプトホワイトニング

Concept Whitening for Interpretable Image Recognition ( http://arxiv.org/abs/2002.01650v5 )

ライセンス: Link先を確認
Zhi Chen, Yijie Bei and Cynthia Rudin(参考訳) 階層を横切るとき、ニューラルネットワークは概念をコード化するのだろうか? 機械学習の解釈性は間違いなく重要だが、ニューラルネットワークの計算は非常に理解が難しい。 隠されたレイヤの内部を見る試みは、誤解を招くか、使用できないか、潜在空間に依存して、それが持っていないプロパティを持つかのどちらかである。 この研究では、ニューラルネットワークのポストホックを分析するのではなく、概念ホワイトニング(concept Whitening, CW)と呼ばれるメカニズムを導入し、ネットワークの特定の層を変更して、その層につながる計算をよりよく理解できるようにします。 概念のホワイト化モジュールがcnnに追加されると、潜在空間の軸は既知の興味のある概念と一致する。 実験により、cwはネットワークがどのように層を越えて概念を徐々に学習するかを、より明確に理解できることを示した。 CWは、バッチ正規化層に代わるもので、正規化され、また(白色の)遅延空間をデコレーションする。 CWは、予測性能を損なうことなく、ネットワークの任意の層で使用することができる。

What does a neural network encode about a concept as we traverse through the layers? Interpretability in machine learning is undoubtedly important, but the calculations of neural networks are very challenging to understand. Attempts to see inside their hidden layers can either be misleading, unusable, or rely on the latent space to possess properties that it may not have. In this work, rather than attempting to analyze a neural network posthoc, we introduce a mechanism, called concept whitening (CW), to alter a given layer of the network to allow us to better understand the computation leading up to that layer. When a concept whitening module is added to a CNN, the axes of the latent space are aligned with known concepts of interest. By experiment, we show that CW can provide us a much clearer understanding for how the network gradually learns concepts over layers. CW is an alternative to a batch normalization layer in that it normalizes, and also decorrelates (whitens) the latent space. CW can be used in any layer of the network without hurting predictive performance.
翻訳日:2023-01-03 20:44:54 公開日:2020-12-07
# 人物の行動認識のための動作と外観の自己監督的共同符号化

Self-Supervised Joint Encoding of Motion and Appearance for First Person Action Recognition ( http://arxiv.org/abs/2002.03982v2 )

ライセンス: Link先を確認
Mirco Planamente, Andrea Bottino, Barbara Caputo(参考訳) ウェアラブルカメラは、いくつかのアプリケーションでますます人気が高まり、ファーストパーソンの観点からアクションを認識するためのアプローチを開発する研究コミュニティの関心が高まっている。 エゴセントリックなアクション認識におけるオープンな課題は、ビデオがメインアクターのポーズに関する詳細な情報を欠いているため、操作タスクに焦点を合わせると、動きの一部のみを記録する傾向があることである。 したがって、アクション自体に関する情報量は限られており、操作されたオブジェクトとそのコンテキストの理解が極めて重要である。 以前の多くの作品は、2つのストリームアーキテクチャでこの問題に対処しており、1つのストリームはアクションに関連するオブジェクトの出現をモデル化すること、もう1つは光学フローから動きの特徴を抽出することである。 本稿では,これら2つの情報チャネルから学習する特徴が,両者の時空間的相関をよりよく捉えるのに有用である,と論じる。 そこで本稿では,プリテキスト動作予測タスクを用いて動作と外観の知識を連動させる自己教師付きブロックの追加により,これを実現する単一ストリームアーキテクチャを提案する。 いくつかの公開データベースの実験は、我々のアプローチの力を示しています。

Wearable cameras are becoming more and more popular in several applications, increasing the interest of the research community in developing approaches for recognizing actions from the first-person point of view. An open challenge in egocentric action recognition is that videos lack detailed information about the main actor's pose and thus tend to record only parts of the movement when focusing on manipulation tasks. Thus, the amount of information about the action itself is limited, making crucial the understanding of the manipulated objects and their context. Many previous works addressed this issue with two-stream architectures, where one stream is dedicated to modeling the appearance of objects involved in the action, and another to extracting motion features from optical flow. In this paper, we argue that learning features jointly from these two information channels is beneficial to capture the spatio-temporal correlations between the two better. To this end, we propose a single stream architecture able to do so, thanks to the addition of a self-supervised block that uses a pretext motion prediction task to intertwine motion and appearance knowledge. Experiments on several publicly available databases show the power of our approach.
翻訳日:2023-01-02 09:08:11 公開日:2020-12-07
# 介入による環境因果モデルにおけるスプリアス相関の解消

Resolving Spurious Correlations in Causal Models of Environments via Interventions ( http://arxiv.org/abs/2002.05217v2 )

ライセンス: Link先を確認
Sergei Volodin, Nevan Wichers, Jeremy Nixon(参考訳) 因果モデルは、入力分布の変化に対して解釈可能で、サンプル効率が高く、堅牢にすることで、意思決定システム(またはエージェント)に多くの利点をもたらします。 しかし、スプリアス相関は間違った因果モデルや予測につながる可能性がある。 本稿では,強化学習環境の因果関係を推定する問題を考察し,突発的相関に対処する手法を提案する。 具体的には,エージェントが因果モデルにおける誤りを見つけるための介入を動機付ける報酬関数を設計する。 介入によって得られたデータは因果モデルを改善するために使用される。 いくつかの介入設計手法を提案し、比較する。 グリッド・ワールド環境における実験結果は、我々のアプローチがベースラインと比較してより良い因果モデルをもたらすことを示している:ランダムなポリシーや、環境の報酬で訓練されたポリシーからデータモデルを学ぶ。 主な貢献は、スプリアス相関を解決するための介入を設計する方法である。

Causal models bring many benefits to decision-making systems (or agents) by making them interpretable, sample-efficient, and robust to changes in the input distribution. However, spurious correlations can lead to wrong causal models and predictions. We consider the problem of inferring a causal model of a reinforcement learning environment and we propose a method to deal with spurious correlations. Specifically, our method designs a reward function that incentivizes an agent to do an intervention to find errors in the causal model. The data obtained from doing the intervention is used to improve the causal model. We propose several intervention design methods and compare them. The experimental results in a grid-world environment show that our approach leads to better causal models compared to baselines: learning the model on data from a random policy or a policy trained on the environment's reward. The main contribution consists of methods to design interventions to resolve spurious correlations.
翻訳日:2023-01-01 19:29:55 公開日:2020-12-07
# train-by-reconnect: 重みの場所を値から切り離す

Train-by-Reconnect: Decoupling Locations of Weights from their Values ( http://arxiv.org/abs/2003.02570v6 )

ライセンス: Link先を確認
Yushi Qiu, Reiji Suda(参考訳) トレーニングされていないディープニューラルネットワーク(DNN)とトレーニングされたパフォーマンスニューラルネットワークとの違いは何ですか? 十分に訓練されたDNNで重みを拡大することにより、トレーニングによって符号化された情報のほとんどを保持する重みの位置が明らかになった。 この観測により、確率勾配法に基づくDNNの重みは、重みの位置とその正確な値の2次元に分けることができると仮定した。 本仮説を評価するために,重み付けを再接続してdnnを訓練するための新しい手法としてlookahead permutation (laperm)を提案する。 We empirically demonstrate the versatility of LaPerm while producing extensive evidence to support our hypothesis: when the initial weights are random and dense, our method demonstrates speed and performance similar to or better than that of regular optimizers, e.g., Adam; when the initial weights are random and sparse (many zeros), our method changes the way neurons connect and reach accuracy comparable to that of a well-trained fully initialized network; when the initial weights share a single value, our method finds weight agnostic neural network with far better-than-chance accuracy.

What makes untrained deep neural networks (DNNs) different from the trained performant ones? By zooming into the weights in well-trained DNNs, we found it is the location of weights that hold most of the information encoded by the training. Motivated by this observation, we hypothesize that weights in stochastic gradient-based method trained DNNs can be separated into two dimensions: the locations of weights and their exact values. To assess our hypothesis, we propose a novel method named Lookahead Permutation (LaPerm) to train DNNs by reconnecting the weights. We empirically demonstrate the versatility of LaPerm while producing extensive evidence to support our hypothesis: when the initial weights are random and dense, our method demonstrates speed and performance similar to or better than that of regular optimizers, e.g., Adam; when the initial weights are random and sparse (many zeros), our method changes the way neurons connect and reach accuracy comparable to that of a well-trained fully initialized network; when the initial weights share a single value, our method finds weight agnostic neural network with far better-than-chance accuracy.
翻訳日:2022-12-26 06:33:58 公開日:2020-12-07
# ラベル付き投影辞書対学習による中国語手書き数字の分類

Classification of Chinese Handwritten Numbers with Labeled Projective Dictionary Pair Learning ( http://arxiv.org/abs/2003.11700v3 )

ライセンス: Link先を確認
Rasool Ameri, Ali Alameer, Saideh Ferdowsi, Kianoush Nazarpour, and Vahid Abolghasemi(参考訳) 辞書学習は画像分類の基礎である。 我々は,辞書学習を分類に使用する長年の課題である,学習辞書の識別可能性とスパース表現力を同時に最大化することが課題である。 この前提のもと、識別可能性、空間性、分類誤差の3つの要素を組み込んだクラス固有辞書を設計した。 我々はこれらの指標を統一コスト関数に統合し、新しい特徴空間、すなわち向き付け勾配(HOG)のヒストグラムを採用して辞書原子を生成する。 辞書のデザインにHOG機能を使うことの理論的根拠は、混雑した画像の詳細を詳細に記述する際の長所である。 提案手法を中国語の手書き数分類に適用した結果,最先端のディープラーニング技術(swashnet,googlenet,mobilenetv2)と比較して分類性能が向上したが,パラメータはごくわずかであった。 さらに、HOG機能と辞書学習を組み合わせることで、ピクセルドメインデータのみを使用する場合と比較して、11\%の精度が向上する。 これらの結果は、アラビア文字と英語の手書き数字データベースに提案手法を適用したときに支持された。

Dictionary learning is a cornerstone of image classification. We set out to address a longstanding challenge in using dictionary learning for classification; that is to simultaneously maximise the discriminability and sparse-representability power of the learned dictionaries. Upon this premise, we designed class-specific dictionaries incorporating three factors: discriminability, sparsity and classification error. We integrated these metrics into a unified cost function and adopted a new feature space, i.e., histogram of oriented gradients (HOG), to generate the dictionary atoms. The rationale of using HOG features for designing the dictionaries is their strength in describing fine details of crowded images. The results of applying the proposed method in the classification of Chinese handwritten numbers demonstrated enhanced classification performance $(\sim98\%)$ compared to state-of-the-art deep learning techniques (i.e., SqueezeNet, GoogLeNet and MobileNetV2), but with a fraction of parameters. Furthermore, combination of the HOG features with dictionary learning enhances the accuracy by $11\%$ compared to the case where only pixel domain data are used. These results were supported when the proposed method was applied to both Arabic and English handwritten number databases.
翻訳日:2022-12-19 21:13:54 公開日:2020-12-07
# ソフトモジュール化によるマルチタスク強化学習

Multi-Task Reinforcement Learning with Soft Modularization ( http://arxiv.org/abs/2003.13661v2 )

ライセンス: Link先を確認
Ruihan Yang, Huazhe Xu, Yi Wu, Xiaolong Wang(参考訳) マルチタスク学習は強化学習において非常に難しい問題である。 複数のタスクを共同でトレーニングすることで、異なるタスク間でパラメータを共有することができるが、最適化の問題は簡単ではない: ネットワーク内のどのパラメータがタスク間で再利用されるべきなのか、異なるタスクからの勾配が相互に干渉する可能性があるのかは、まだ不明である。 したがって、タスク間でパラメータをナビゲートする代わりに、この最適化問題を緩和するためにポリシー表現に明示的なモジュール化手法を導入する。 基本ポリシーネットワークが与えられた場合、各タスクのベースネットワークを再構成するための異なるルーティング戦略を推定するルーティングネットワークを設計する。 タスクごとにルートを直接選択するのではなく、soft modularizationと呼ばれるメソッドを使用して、可能なすべてのルートをソフトに結合し、シーケンシャルなタスクに適合させます。 我々は,様々なロボット操作タスクをシミュレーションで実験し,サンプル効率と性能を,強いベースラインよりも大きなマージンで改善することを示す。

Multi-task learning is a very challenging problem in reinforcement learning. While training multiple tasks jointly allow the policies to share parameters across different tasks, the optimization problem becomes non-trivial: It remains unclear what parameters in the network should be reused across tasks, and how the gradients from different tasks may interfere with each other. Thus, instead of naively sharing parameters across tasks, we introduce an explicit modularization technique on policy representation to alleviate this optimization issue. Given a base policy network, we design a routing network which estimates different routing strategies to reconfigure the base network for each task. Instead of directly selecting routes for each task, our task-specific policy uses a method called soft modularization to softly combine all the possible routes, which makes it suitable for sequential tasks. We experiment with various robotics manipulation tasks in simulation and show our method improves both sample efficiency and performance over strong baselines by a large margin.
翻訳日:2022-12-18 06:23:59 公開日:2020-12-07
# 2種類の自由エネルギーとベイズ革命

The Two Kinds of Free Energy and the Bayesian Revolution ( http://arxiv.org/abs/2004.11763v4 )

ライセンス: Link先を確認
Sebastian Gottwald, Daniel A. Braun(参考訳) 自由エネルギーの概念は19世紀の熱力学に起源を持つが、近年は行動科学や神経科学に浸透し、その幅広い応用性のために推進され、知的行動と脳機能を理解する基本的な原理として提案されている。 現在の知的機関のモデルには本質的に2つの自由エネルギーの概念があり、どちらも行動選択問題に対するベイズ推論の応用と見なすことができる: 一般的な最大エントロピー原理に基づいて正確性と不確実性を切り離すときに現れるものと、与えられた参照モデルからの信念と方針の逸脱を定量化する誤差測度を最小化するものとして行動選択を定式化するものとである。 第一のアプローチは、モデル不確実性や情報処理能力の制限に直面した場合に、行動選択の規範的ルールを提供する。 第2のアプローチは、ベイジアン脳理論の文脈において、行動選択問題を推論問題として定式化することを直接目的としている。 我々は,これらの2つの自由エネルギー概念について,推論の高レベルな審議から知覚の低レベル情報処理まで,それぞれがあらゆるレベルの意思決定に適用すると主張する批判的技術的・概念的問題を明らかにする。

The concept of free energy has its origins in 19th century thermodynamics, but has recently found its way into the behavioral and neural sciences, where it has been promoted for its wide applicability and has even been suggested as a fundamental principle of understanding intelligent behavior and brain function. We argue that there are essentially two different notions of free energy in current models of intelligent agency, that can both be considered as applications of Bayesian inference to the problem of action selection: one that appears when trading off accuracy and uncertainty based on a general maximum entropy principle, and one that formulates action selection in terms of minimizing an error measure that quantifies deviations of beliefs and policies from given reference models. The first approach provides a normative rule for action selection in the face of model uncertainty or when information processing capabilities are limited. The second approach directly aims to formulate the action selection problem as an inference problem in the context of Bayesian brain theories, also known as Active Inference in the literature. We elucidate the main ideas and discuss critical technical and conceptual issues revolving around these two notions of free energy that both claim to apply at all levels of decision-making, from the high-level deliberation of reasoning down to the low-level information processing of perception.
翻訳日:2022-12-10 04:00:47 公開日:2020-12-07
# クロスセグメント注意によるテキスト分割

Text Segmentation by Cross Segment Attention ( http://arxiv.org/abs/2004.14535v2 )

ライセンス: Link先を確認
Michal Lukasik, Boris Dadachev, Gon\c{c}alo Sim\~oes, Kishore Papineni(参考訳) 文書と談話のセグメンテーションは、テキストを構成要素に分割することに関連する2つの基本的なnlpタスクである。 本研究では,3つのトランスフォーマーベースのアーキテクチャを提案し,従来提案していた3つの標準データセットのアプローチを包括的に比較する。 我々は新しい最先端技術を確立し、特にすべてのケースにおいてエラー率を大きなマージンで削減する。 モデルのサイズをさらに分析し、パフォーマンスを維持しながらパラメータの少ないモデルを構築することができることを見出し、実世界のアプリケーションを容易にします。

Document and discourse segmentation are two fundamental NLP tasks pertaining to breaking up text into constituents, which are commonly used to help downstream tasks such as information retrieval or text summarization. In this work, we propose three transformer-based architectures and provide comprehensive comparisons with previously proposed approaches on three standard datasets. We establish a new state-of-the-art, reducing in particular the error rates by a large margin in all cases. We further analyze model sizes and find that we can build models with many fewer parameters while keeping good performance, thus facilitating real-world applications.
翻訳日:2022-12-08 03:57:16 公開日:2020-12-07
# 街路対aerial view像のジオロカライズと方向推定の再検討

Revisiting Street-to-Aerial View Image Geo-localization and Orientation Estimation ( http://arxiv.org/abs/2005.11592v2 )

ライセンス: Link先を確認
Sijie Zhu and Taojiannan Yang and Chen Chen(参考訳) 近年,クエリストリートビュー画像とGPSタグ付き空中画像とを基準セットでマッチングするストリート・ツー・エアリアル画像のジオローカライゼーションが注目されている。 本稿では,この問題を再検討し,画像アライメント情報に関する無視された問題点を指摘する。 その結果,単純なシャムネットワークの性能はアライメント設定に大きく依存しており,異なる仮定を持つ場合,先行作品の比較は不公平であることがわかった。 アライメント仮定の下で特徴抽出に焦点を当てる代わりに、メトリック学習技術の改善がアライメントによらず、パフォーマンスを著しく向上させることを示した。 アライメント情報を活用することなく、パイプラインは、パノラマとクロッピングデータセットの両方の以前の作業よりも優れています。 さらに,学習モデルとGrad-CAMを用いたアライメント情報の効果を理解するために可視化を行う。 近似回転不変のアクティベーションマップの発見により、一対のクロスビュー画像と未知のアライメント情報との配向/配向を推定する新しい手法を提案する。 CVUSAデータセットで最先端の結果を達成する。

Street-to-aerial image geo-localization, which matches a query street-view image to the GPS-tagged aerial images in a reference set, has attracted increasing attention recently. In this paper, we revisit this problem and point out the ignored issue about image alignment information. We show that the performance of a simple Siamese network is highly dependent on the alignment setting and the comparison of previous works can be unfair if they have different assumptions. Instead of focusing on the feature extraction under the alignment assumption, we show that improvements in metric learning techniques significantly boost the performance regardless of the alignment. Without leveraging the alignment information, our pipeline outperforms previous works on both panorama and cropped datasets. Furthermore, we conduct visualization to help understand the learned model and the effect of alignment information using Grad-CAM. With our discovery on the approximate rotation-invariant activation maps, we propose a novel method to estimate the orientation/alignment between a pair of cross-view images with unknown alignment information. It achieves state-of-the-art results on the CVUSA dataset.
翻訳日:2022-11-30 03:45:56 公開日:2020-12-07
# Warm-start Gradient Tree Boosting を用いたハイブリッド戦略に基づく短期負荷予測

Short-term Load Forecasting Based on Hybrid Strategy Using Warm-start Gradient Tree Boosting ( http://arxiv.org/abs/2005.11478v2 )

ライセンス: Link先を確認
Yuexin Zhang, Jiahong Wang(参考訳) 短期負荷予測のためのディープラーニングに基づくハイブリッド戦略を提案する。 この戦略は,Warm-start Gradient Tree Boosting (WGTB) を用いた新しいアンサンブル手法を提案する。 現在の戦略は、1つのタイプのサブモデルをアンサンブルするか、異なる推論モデルの統計的強度を利用できない。 あるいは、全く異なる推論モデルの出力を単純にまとめるだけで、アンサンブルの可能性を最大化しない。 バイアス分散トレードオフにインスパイアされたWGTBは、精度、ボラティリティ、線形性に関する異なる推論モデル間での大きな相違に適応して提案される。 完全な戦略は、異なる能力の4つの異なる推論モデルを統合する。 wgtbはその出力をウォームスタートとバッキングとブースティングのハイブリッドでアンサンブルし、バイアスと分散を同時に低減する。 中国のstate grid corporationの1時間分解能の2つの実際のデータセットで検証される。 その結果,低バイアスおよび低分散推論モデルの統計的強みをハイブリダイゼーションする手法の有効性が示された。

A deep-learning-based hybrid strategy for short-term load forecasting is presented. The strategy proposes a novel tree-based ensemble method Warm-start Gradient Tree Boosting (WGTB). Current strategies either ensemble submodels of a single type, which fail to take advantage of the statistical strengths of different inference models. Or they simply sum the outputs from completely different inference models, which doesn't maximize the potential of ensemble. Inspired by the bias-variance trade-off, WGTB is proposed and tailored to the great disparity among different inference models on accuracy, volatility and linearity. The complete strategy integrates four different inference models of different capacities. WGTB then ensembles their outputs by a warm-start and a hybrid of bagging and boosting, which lowers bias and variance concurrently. It is validated on two real datasets from State Grid Corporation of China of hourly resolution. The result demonstrates the effectiveness of the proposed strategy that hybridizes the statistical strengths of both low-bias and low-variance inference models.
翻訳日:2022-11-30 03:28:59 公開日:2020-12-07
# 縦型ディープカーネルガウス過程回帰

Longitudinal Deep Kernel Gaussian Process Regression ( http://arxiv.org/abs/2005.11770v4 )

ライセンス: Link先を確認
Junjie Liang, Yanting Wu, Dongkuan Xu, Vasant Honavar(参考訳) ガウス過程は、縦断的なデータ、すなわち不規則にサンプリングされた、時間の経過とともに個人の集合からのスパースな観察から予測的モデリングを行うための魅力的な枠組みを提供する。 しかし、そのような手法には2つの欠点がある。 (i)効果的なカーネルを選択するには、アドホックなヒューリスティックスや高価な試行錯誤に頼る。 (ii)データ内の多レベル相関構造を処理できない。 我々は、L-DKGPR(Longitudinal Deep kernel Gaussian Process regression)を導入し、長手データから複雑なマルチレベル相関構造の発見を完全に自動化することで、これらの制限を克服する唯一の方法である。 特に、l-dkgprは、ディープニューラルネットワークの表現力と非パラメトリックカーネルメソッドの柔軟性を組み合わせたディープカーネル学習の新しい適応を用いて、アドホックなヒューリスティックスや試行錯誤の必要性をなくす。 L-DKGPRは、時間変化と時間不変の効果の両方を同時に許容する新規依存型カーネルとのマルチレベル相関を効果的に学習する。 そこで我々は,L-DKGPRを学習するための効率的なアルゴリズムを導出する。 いくつかのベンチマークデータセットに対する広範な実験の結果、L-DKGPRは最先端の経時的データ分析(LDA)法よりも著しく優れていることが示された。

Gaussian processes offer an attractive framework for predictive modeling from longitudinal data, i.e., irregularly sampled, sparse observations from a set of individuals over time. However, such methods have two key shortcomings: (i) They rely on ad hoc heuristics or expensive trial and error to choose the effective kernels, and (ii) They fail to handle multilevel correlation structure in the data. We introduce Longitudinal deep kernel Gaussian process regression (L-DKGPR), which to the best of our knowledge, is the only method to overcome these limitations by fully automating the discovery of complex multilevel correlation structure from longitudinal data. Specifically, L-DKGPR eliminates the need for ad hoc heuristics or trial and error using a novel adaptation of deep kernel learning that combines the expressive power of deep neural networks with the flexibility of non-parametric kernel methods. L-DKGPR effectively learns the multilevel correlation with a novel addictive kernel that simultaneously accommodates both time-varying and the time-invariant effects. We derive an efficient algorithm to train L-DKGPR using latent space inducing points and variational inference. Results of extensive experiments on several benchmark data sets demonstrate that L-DKGPR significantly outperforms the state-of-the-art longitudinal data analysis (LDA) methods.
翻訳日:2022-11-29 13:23:53 公開日:2020-12-07
# 自己監視学習による防汚モデルに対するブラックボックス攻撃の防御

Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised Learning ( http://arxiv.org/abs/2006.03214v3 )

ライセンス: Link先を確認
Haibin Wu, Andy T. Liu, Hung-yi Lee(参考訳) 自動話者検証(ASV)のための高性能なアンチスプーフィングモデルは,テキスト音声変換,音声再生などによって意図的に発生するスプーフィング音声を識別・フィルタリングすることで,ASVの保護に広く利用されている。 しかし、高性能なアンチスプーフィングモデルが敵攻撃に弱いことが示されている。 元のデータと区別できないが、誤った予測をもたらす敵攻撃は、偽造防止モデルにとって危険であり、いかなるコストでも検出すべきではない。 そこで本研究では,自己教師付き学習ベースモデルであるmockingjayを用いて,ブラックボックスシナリオにおける反スプーフィングモデルから攻撃的攻撃から保護する手法を提案する。 自己教師付き学習モデルは、電話分類やASRのような下流タスクのパフォーマンスを改善するのに効果的である。 しかし、敵の攻撃に対する防御効果はまだ検討されていない。 本研究では,自己指導型高次表現の堅牢性について,敵攻撃に対する防御に利用して検討する。 層状雑音対信号比 (LNSR) は, 対向雑音に対するディープモデルの有効性を定量化し, 測定するために提案される。 ASVspoof 2019データセットの実験結果によると、Mockingjayによって抽出されたハイレベルな表現は、敵のサンプルの転送を防止し、ブラックボックス攻撃に対抗することに成功した。

High-performance anti-spoofing models for automatic speaker verification (ASV), have been widely used to protect ASV by identifying and filtering spoofing audio that is deliberately generated by text-to-speech, voice conversion, audio replay, etc. However, it has been shown that high-performance anti-spoofing models are vulnerable to adversarial attacks. Adversarial attacks, that are indistinguishable from original data but result in the incorrect predictions, are dangerous for anti-spoofing models and not in dispute we should detect them at any cost. To explore this issue, we proposed to employ Mockingjay, a self-supervised learning based model, to protect anti-spoofing models against adversarial attacks in the black-box scenario. Self-supervised learning models are effective in improving downstream task performance like phone classification or ASR. However, their effect in defense for adversarial attacks has not been explored yet. In this work, we explore the robustness of self-supervised learned high-level representations by using them in the defense against adversarial attacks. A layerwise noise to signal ratio (LNSR) is proposed to quantize and measure the effectiveness of deep models in countering adversarial noise. Experimental results on the ASVspoof 2019 dataset demonstrate that high-level representations extracted by Mockingjay can prevent the transferability of adversarial examples, and successfully counter black-box attacks.
翻訳日:2022-11-25 04:30:02 公開日:2020-12-07
# Geo-PIFu:シングルビュー人体再構成のための幾何学と画素配向インシシシト関数

Geo-PIFu: Geometry and Pixel Aligned Implicit Functions for Single-view Human Reconstruction ( http://arxiv.org/abs/2006.08072v2 )

ライセンス: Link先を確認
Tong He, John Collomosse, Hailin Jin, Stefano Soatto(参考訳) 本研究では,着衣者の単眼カラー画像から3次元メッシュを回収する手法であるgeo-pifuを提案する。 提案手法は,構造を意識した3D U-Netを用いて潜在ボクセル特徴を学習し,クエリポイントエンコーディングにおける特徴のあいまいさを解決するために,第2に,高分解能メッシュを規則化し,大域的な形状規則性を促進するための粗い人間の形状プロキシとして機能する,という2つの方法でモデルを制約する。 潜在ボクセル特徴を用いて,クエリポイントをエンコードし,グローバル形状を制約することにより,ヒトメッシュの形状歪みを低減し,競合手法と比較して表面詳細が向上することを示す。 我々はGeo-PIFuを最近の人メッシュ公開データセットで評価し、PIFuやそれ以前のデリバティブな作業で使用されるプライベートな商用データセットよりも10 \times$の規模で評価した。 平均して、Chamfer と Point-to-Surface Distances の 42.7 % の削減と、通常の推定誤差の 19.4 % の削減によって、アートの状態を上回ります。

We propose Geo-PIFu, a method to recover a 3D mesh from a monocular color image of a clothed person. Our method is based on a deep implicit function-based representation to learn latent voxel features using a structure-aware 3D U-Net, to constrain the model in two ways: first, to resolve feature ambiguities in query point encoding, second, to serve as a coarse human shape proxy to regularize the high-resolution mesh and encourage global shape regularity. We show that, by both encoding query points and constraining global shape using latent voxel features, the reconstruction we obtain for clothed human meshes exhibits less shape distortion and improved surface details compared to competing methods. We evaluate Geo-PIFu on a recent human mesh public dataset that is $10 \times$ larger than the private commercial dataset used in PIFu and previous derivative work. On average, we exceed the state of the art by $42.7\%$ reduction in Chamfer and Point-to-Surface Distances, and $19.4\%$ reduction in normal estimation errors.
翻訳日:2022-11-21 04:10:55 公開日:2020-12-07
# ニューラルネットワークの深さ不確かさ

Depth Uncertainty in Neural Networks ( http://arxiv.org/abs/2006.08437v3 )

ライセンス: Link先を確認
Javier Antor\'an, James Urquhart Allingham, Jos\'e Miguel Hern\'andez-Lobato(参考訳) ディープラーニングにおける不確実性を推定する既存の方法は、複数のフォワードパスを必要とする傾向があるため、計算資源が限られているアプリケーションには適さない。 これを解決するために,ニューラルネットワークの深さについて確率的推論を行う。 異なる深さは重みを共有するサブネットワークに対応し、その予測はマージン化によって組み合わせられ、モデルの不確実性をもたらす。 フィードフォワードネットワークの逐次構造を利用することで、トレーニング目標の評価と予測を1回のフォワードパスで行うことができる。 実世界の回帰と画像分類タスクに対する我々のアプローチを検証する。 提案手法は,不確実性校正,データセットシフトの堅牢性,計算コストの高いベースラインとの競合性を提供する。

Existing methods for estimating uncertainty in deep learning tend to require multiple forward passes, making them unsuitable for applications where computational resources are limited. To solve this, we perform probabilistic reasoning over the depth of neural networks. Different depths correspond to subnetworks which share weights and whose predictions are combined via marginalisation, yielding model uncertainty. By exploiting the sequential structure of feed-forward networks, we are able to both evaluate our training objective and make predictions with a single forward pass. We validate our approach on real-world regression and image classification tasks. Our approach provides uncertainty calibration, robustness to dataset shift, and accuracies competitive with more computationally expensive baselines.
翻訳日:2022-11-21 03:16:34 公開日:2020-12-07
# ニューラルネットワークのデバイアス処理方法

Intra-Processing Methods for Debiasing Neural Networks ( http://arxiv.org/abs/2006.08564v2 )

ライセンス: Link先を確認
Yash Savani, Colin White, Naveen Sundar Govindarajulu(参考訳) 深層学習モデルが犯罪の解決、ローンの返済、法執行機関の顔認識など、人間の生活に影響を与える決定を下すようになるにつれ、偏見はますます懸念されている。 デバイアスアルゴリズムは通常、前処理、内処理、後処理の3つのパラダイムに分けられる。 しかし、コンピュータビジョンや自然言語アプリケーションでは、大きなジェネリックモデルから始めて、特定のユースケースに微調整することが一般的である。 プリプロセスまたはインプロセスメソッドは、モデル全体をスクラッチから再トレーニングする必要がありますが、後処理メソッドはモデルへのブラックボックスアクセスしか持たないので、トレーニングされたモデルの重みを活用しません。 この微調整ユースケースに特化したデバイアスアルゴリズムの作成は、ほとんど無視されている。 本研究では, プロセス内処理とプロセス後処理の中間に位置するデバイアス研究, プロセス内処理の新しいパラダイムの研究を開始する。 プロセス内処理は、一般的なデータセットでトレーニングされ、より特定のタスクで微調整された大きなモデルをデバイアスするように設計されている。 このユースケースのために既存の内部処理手法を再利用する方法を示し、また、ランダム摂動、階層最適化、逆調整の3つのベースラインアルゴリズムを提案する。 全ての手法は、等化奇数や統計的パリティ差などの一般的なグループフェアネス尺度に利用できる。 AIF360ツールキットとCelebAの顔データを用いて,これらの手法の評価を行った。 私たちのコードはhttps://github.com/abacusai/intraprocessing_debiasingで利用可能です。

As deep learning models become tasked with more and more decisions that impact human lives, such as criminal recidivism, loan repayment, and face recognition for law enforcement, bias is becoming a growing concern. Debiasing algorithms are typically split into three paradigms: pre-processing, in-processing, and post-processing. However, in computer vision or natural language applications, it is common to start with a large generic model and then fine-tune to a specific use-case. Pre- or in-processing methods would require retraining the entire model from scratch, while post-processing methods only have black-box access to the model, so they do not leverage the weights of the trained model. Creating debiasing algorithms specifically for this fine-tuning use-case has largely been neglected. In this work, we initiate the study of a new paradigm in debiasing research, intra-processing, which sits between in-processing and post-processing methods. Intra-processing methods are designed specifically to debias large models which have been trained on a generic dataset and fine-tuned on a more specific task. We show how to repurpose existing in-processing methods for this use-case, and we also propose three baseline algorithms: random perturbation, layerwise optimization, and adversarial fine-tuning. All of our techniques can be used for all popular group fairness measures such as equalized odds or statistical parity difference. We evaluate these methods across three popular datasets from the AIF360 toolkit, as well as on the CelebA faces dataset. Our code is available at https://github.com/abacusai/intraprocessing_debiasing.
翻訳日:2022-11-21 03:14:55 公開日:2020-12-07
# ドメインシフト下でのスプリアス機能を用いた自己学習回避

Self-training Avoids Using Spurious Features Under Domain Shift ( http://arxiv.org/abs/2006.10032v3 )

ライセンス: Link先を確認
Yining Chen, Colin Wei, Ananya Kumar, Tengyu Ma(参考訳) 教師なし領域適応では、既存の理論はソースとターゲットドメインが近接している状況に焦点を当てている。 実際には、条件付きエントロピー最小化と擬似ラベル処理は、既存の理論で解析されたものよりもはるかに大きい。 ドメインシフトが大きくなる可能性のある特定の設定を特定・分析するが、これらのアルゴリズムは確実に機能する: 特定のスパイラルな特徴はソースドメインのラベルと相関するが、ターゲットのラベルとは独立している。 本解析では,スプリアス特徴がガウス的であり,非スプリアス特徴が対数凸分布の混合である線形分類を考える。 本研究では,未ラベル対象データに対するエントロピー最小化が,非凸かつ複数の悪質な局所最小値を含むにもかかわらず,適切な精度のソース分類器で初期化した場合,スプリアス機能の使用を回避できることを示す。 半合成Celeb-AおよびMNISTデータセット上での素早い領域シフトタスクの理論を検証する。 この結果から,ラベル付けが実用的でない場合でも,大規模で多様なデータセットを用いて自己学習を行い,分類器のバイアスを低減することが示唆された。

In unsupervised domain adaptation, existing theory focuses on situations where the source and target domains are close. In practice, conditional entropy minimization and pseudo-labeling work even when the domain shifts are much larger than those analyzed by existing theory. We identify and analyze one particular setting where the domain shift can be large, but these algorithms provably work: certain spurious features correlate with the label in the source domain but are independent of the label in the target. Our analysis considers linear classification where the spurious features are Gaussian and the non-spurious features are a mixture of log-concave distributions. For this setting, we prove that entropy minimization on unlabeled target data will avoid using the spurious feature if initialized with a decently accurate source classifier, even though the objective is non-convex and contains multiple bad local minima using the spurious features. We verify our theory for spurious domain shift tasks on semi-synthetic Celeb-A and MNIST datasets. Our results suggest that practitioners collect and self-train on large, diverse datasets to reduce biases in classifiers even if labeling is impractical.
翻訳日:2022-11-19 19:53:37 公開日:2020-12-07
# データ効率の良いGANトレーニングのための微分拡張

Differentiable Augmentation for Data-Efficient GAN Training ( http://arxiv.org/abs/2006.10738v4 )

ライセンス: Link先を確認
Shengyu Zhao, Zhijian Liu, Ji Lin, Jun-Yan Zhu, Song Han(参考訳) 生成的敵ネットワーク(gans)の性能は、限られたトレーニングデータによって著しく低下する。 これは主に、判別者が正確な訓練セットを記憶しているためである。 そこで本研究では,実検体と偽検体の両方に様々な種類の微分可能拡張を付与することにより,GANのデータ効率を向上させる簡易な手法であるDiffAugment(DiffAugment)を提案する。 DiffAugmentは、生成したサンプルに対して差別化可能な拡張を適用できるようにし、トレーニングを効果的に安定化させ、より良い収束をもたらす。 実験により,GANアーキテクチャと非条件およびクラス条件の生成における損失関数に対して,本手法が一貫した利得を示す。 DiffAugmentでは、ImageNet 128x128でISが100.8、FFHQとLSUNで1000の画像に対してFIDが2-4倍の6.80の最先端FIDを実現している。 さらに、トレーニングデータは20%に過ぎず、CIFAR-10とCIFAR-100の上位性能と一致させることができる。 最後に,既存の移動学習アルゴリズムと同等でありながら,事前学習せずに100個の画像のみを用いて高忠実度画像を生成する。 コードはhttps://github.com/mit-han-lab/data- efficient-gansで入手できる。

The performance of generative adversarial networks (GANs) heavily deteriorates given a limited amount of training data. This is mainly because the discriminator is memorizing the exact training set. To combat it, we propose Differentiable Augmentation (DiffAugment), a simple method that improves the data efficiency of GANs by imposing various types of differentiable augmentations on both real and fake samples. Previous attempts to directly augment the training data manipulate the distribution of real images, yielding little benefit; DiffAugment enables us to adopt the differentiable augmentation for the generated samples, effectively stabilizes training, and leads to better convergence. Experiments demonstrate consistent gains of our method over a variety of GAN architectures and loss functions for both unconditional and class-conditional generation. With DiffAugment, we achieve a state-of-the-art FID of 6.80 with an IS of 100.8 on ImageNet 128x128 and 2-4x reductions of FID given 1,000 images on FFHQ and LSUN. Furthermore, with only 20% training data, we can match the top performance on CIFAR-10 and CIFAR-100. Finally, our method can generate high-fidelity images using only 100 images without pre-training, while being on par with existing transfer learning algorithms. Code is available at https://github.com/mit-han-lab/data-efficient-gans.
翻訳日:2022-11-19 13:42:45 公開日:2020-12-07
# 並列学習のためのランダム化ブロック対角前処理

Randomized Block-Diagonal Preconditioning for Parallel Learning ( http://arxiv.org/abs/2006.13591v2 )

ライセンス: Link先を確認
Celestine Mendler-D\"unner, Aurelien Lucchi(参考訳) プレコンディショニング行列がブロック対角形を持つプレコンディショニング勾配に基づく最適化手法について検討する。 このような構造的制約は、更新計算がブロック分離可能であり、複数の独立したタスクを並列化できるという利点がある。 本研究の主な貢献は,最適化過程におけるタスク間の座標の分割に対応するランダム化手法により,これらの手法の収束性を大幅に向上できることを示すことである。 様々な機械学習タスクにおいて、再帰の期待収束率を正確に特徴付けし、経験的に検証する理論解析を提供する。 実装の観点からは、ブロック分離モデルは並列化に適しており、共有メモリが利用可能であれば、収束を改善するために既存のメソッド上にランダム化を実装できる。

We study preconditioned gradient-based optimization methods where the preconditioning matrix has block-diagonal form. Such a structural constraint comes with the advantage that the update computation is block-separable and can be parallelized across multiple independent tasks. Our main contribution is to demonstrate that the convergence of these methods can significantly be improved by a randomization technique which corresponds to repartitioning coordinates across tasks during the optimization procedure. We provide a theoretical analysis that accurately characterizes the expected convergence gains of repartitioning and validate our findings empirically on various traditional machine learning tasks. From an implementation perspective, block-separable models are well suited for parallelization and, when shared memory is available, randomization can be implemented on top of existing methods very efficiently to improve convergence.
翻訳日:2022-11-17 10:00:32 公開日:2020-12-07
# bygars: 任意の数の攻撃者とのビザンチンsgd

ByGARS: Byzantine SGD with Arbitrary Number of Attackers ( http://arxiv.org/abs/2006.13421v2 )

ライセンス: Link先を確認
Jayanth Regatti, Hao Chen and Abhishek Gupta(参考訳) そこで本研究では,分散機械学習のための確率的勾配降下アルゴリズムbygarsとbygars++を提案する。 これらのアルゴリズムでは、サーバの補助データセットを用いて労働者の評判スコアを算出する。 この評価スコアは、確率勾配降下の勾配を集約するために使用される。 ByGARS++の計算複雑性は、通常の分散確率勾配勾配法と同じであり、各イテレーションで追加の内積計算しか行わない。 これらの評価スコアを勾配集計に用いることは、乗法的雑音の何れかに対して頑健であり、強い凸損失関数の収束性を証明するために、2時間スケール確率近似理論を用いることを示す。 MNISTとCIFAR-10データセットを用いた非凸学習問題に対するアルゴリズムの有効性を示す。 また,提案アルゴリズムは複数種類の攻撃に対して同時に堅牢であることを示す。

We propose two novel stochastic gradient descent algorithms, ByGARS and ByGARS++, for distributed machine learning in the presence of any number of Byzantine adversaries. In these algorithms, reputation scores of workers are computed using an auxiliary dataset at the server. This reputation score is then used for aggregating the gradients for stochastic gradient descent. The computational complexity of ByGARS++ is the same as the usual distributed stochastic gradient descent method with only an additional inner product computation in every iteration. We show that using these reputation scores for gradient aggregation is robust to any number of multiplicative noise Byzantine adversaries and use two-timescale stochastic approximation theory to prove convergence for strongly convex loss functions. We demonstrate the effectiveness of the algorithms for non-convex learning problems using MNIST and CIFAR-10 datasets against almost all state-of-the-art Byzantine attacks. We also show that the proposed algorithms are robust to multiple different types of attacks at the same time.
翻訳日:2022-11-17 09:49:57 公開日:2020-12-07
# LORCK: 学習可能なオブジェクトアセンブリ・コンボリューションカーネル

LORCK: Learnable Object-Resembling Convolution Kernels ( http://arxiv.org/abs/2007.05103v2 )

ライセンス: Link先を確認
Elizaveta Lazareva, Oleg Rogov, Olga Shegai, Denis Larionov, Dmitry V. Dylov(参考訳) 膀胱のような特定の中空器官の分節化は、その複雑な形状、軟組織におけるあいまいな強度勾配、およびデータアノテーションルーチンの面倒な手作業によって、特に自動化が困難である。 しかし, これらの臓器のX線画像における壁および癌領域の正確な局在化は, 腫瘍学における重要なステップである。 この問題に対処するために,セグメンテッドオルガンの輪郭を「模倣」し,その形状と構造的複雑さを効果的に再現する新しい中空カーネルを提案する。 提案したカーネルを用いて一連のU-Net型ニューラルネットワークをトレーニングし、様々な時空間畳み込みシナリオにおいてそのアイデアの優位性を示す。 具体的には、拡張された中空カーネルアーキテクチャは最先端の空間セグメンテーションモデルを上回るが、bi-lstmのような時間ブロックの追加は、膀胱セグメンテーションチャレンジのための新しいマルチクラスベースラインを確立する。 中空核に基づく時空間モデルでは,膀胱内壁,外壁,腫瘍領域の平均diceスコアは0.936,0.736,0.712であった。 この結果は、セグメンテーション結果を促進する適切な畳み込みカーネルを形成するために、セグメンテーションオブジェクトの形を使用できる他のドメイン固有のディープラーニングアプリケーションへの道を開くものだ。

Segmentation of certain hollow organs, such as the bladder, is especially hard to automate due to their complex geometry, vague intensity gradients in the soft tissues, and a tedious manual process of the data annotation routine. Yet, accurate localization of the walls and the cancer regions in the radiologic images of such organs is an essential step in oncology. To address this issue, we propose a new class of hollow kernels that learn to 'mimic' the contours of the segmented organ, effectively replicating its shape and structural complexity. We train a series of the U-Net-like neural networks using the proposed kernels and demonstrate the superiority of the idea in various spatio-temporal convolution scenarios. Specifically, the dilated hollow-kernel architecture outperforms state-of-the-art spatial segmentation models, whereas the addition of temporal blocks with, e.g., Bi-LSTM, establishes a new multi-class baseline for the bladder segmentation challenge. Our spatio-temporal model based on the hollow kernels reaches the mean dice scores of 0.936, 0.736, and 0.712 for the bladder's inner wall, the outer wall, and the tumor regions, respectively. The results pave the way towards other domain-specific deep learning applications where the shape of the segmented object could be used to form a proper convolution kernel for boosting the segmentation outcome.
翻訳日:2022-11-12 04:17:51 公開日:2020-12-07
# 表現理解の参考:方法とデータセットの調査

Referring Expression Comprehension: A Survey of Methods and Datasets ( http://arxiv.org/abs/2007.09554v2 )

ライセンス: Link先を確認
Yanyuan Qiao, Chaorui Deng, Qi Wu(参考訳) Referring Expression comprehension (REC)は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。 クエリされたオブジェクトラベルが事前に定義されたオブジェクト検出タスクとは異なり、REC問題はテスト中にのみクエリを観察できる。 したがって、従来のコンピュータビジョン問題よりも難しい。 このタスクはコンピュータビジョンと自然言語処理コミュニティの両方から多くの注目を集めており、cnn-rnnモデルからモジュラーネットワーク、複雑なグラフベースモデルまで、いくつかの作業が提案されている。 本調査では,問題に対する近代的アプローチを比較することにより,まず技術の現状を考察する。 視覚的およびテキスト的モダリティをエンコードするためのメカニズムによってメソッドを分類する。 特に,共同埋め込み画像と表現の共通特徴空間への共通アプローチについて検討する。 また、構造化グラフ表現とインタフェースするモジュラーアーキテクチャとグラフベースモデルについても論じる。 本調査の第2部では、RECシステムのトレーニングおよび評価に利用可能なデータセットについてレビューする。 次に、データセット、バックボーンモデル、設定に従って結果をグループ化し、比較できるようにします。 最後に,この分野の今後の方向性,特に,より長い推論チェーンを必要とする構成的参照表現理解について論じる。

Referring expression comprehension (REC) aims to localize a target object in an image described by a referring expression phrased in natural language. Different from the object detection task that queried object labels have been pre-defined, the REC problem only can observe the queries during the test. It thus more challenging than a conventional computer vision problem. This task has attracted a lot of attention from both computer vision and natural language processing community, and several lines of work have been proposed, from CNN-RNN model, modular network to complex graph-based model. In this survey, we first examine the state of the art by comparing modern approaches to the problem. We classify methods by their mechanism to encode the visual and textual modalities. In particular, we examine the common approach of joint embedding images and expressions to a common feature space. We also discuss modular architectures and graph-based models that interface with structured graph representation. In the second part of this survey, we review the datasets available for training and evaluating REC systems. We then group results according to the datasets, backbone models, settings so that they can be fairly compared. Finally, we discuss promising future directions for the field, in particular the compositional referring expression comprehension that requires longer reasoning chain to address.
翻訳日:2022-11-08 23:49:29 公開日:2020-12-07
# アンサンブル刺激によるオンライン神経接続推定

Online neural connectivity estimation with ensemble stimulation ( http://arxiv.org/abs/2007.13911v2 )

ライセンス: Link先を確認
Anne Draelos, Eva A. Naumann, John M. Pearson(参考訳) 神経科学の主要な目的の1つは、神経回路の構造と機能とを関連付けることであるが、生物の多くの個体から記録する際の接続パターンの確立は困難である。 従来の多くのアプローチは、観測データの統計的モデリングを用いてニューロン間の機能的接続を推定しようとしたが、これらのアプローチはパラメトリックな仮定に大きく依存しており、純粋に相関性がある。 しかし近年、ホログラフィック光刺激技術により、選択された神経細胞のアンサンブルを正確に標的にすることができ、直接因果関係を確立することが可能になった。 本稿では,分散ネットワークにおけるこのプロセスの効率を劇的に向上させる雑音群テストに基づく手法を提案する。 ニューロンの小さなアンサンブルを刺激することにより、最小の統計的仮定の下で、集団サイズと対数的にのみ成長する多数のテストで、二項化ネットワーク接続を回復できることを示す。 さらに,効率よく解ける凸最適化問題に還元される我々の手法は,二乗接続重みの変分ベイズ推定と関係があることを証明し,後縁辺の厳密な境界を導出する。 これにより、連続的に更新された後部が任意の停止を可能にするストリーミング設定にメソッドを拡張でき、最大数万のニューロンの接続をオンラインに推論する可能性を示す。 最後に,我々の作業が圧縮センシングアプローチと理論的にどのように結びついているかを示し,異なる設定における接続推定結果の比較を行う。

One of the primary goals of systems neuroscience is to relate the structure of neural circuits to their function, yet patterns of connectivity are difficult to establish when recording from large populations in behaving organisms. Many previous approaches have attempted to estimate functional connectivity between neurons using statistical modeling of observational data, but these approaches rely heavily on parametric assumptions and are purely correlational. Recently, however, holographic photostimulation techniques have made it possible to precisely target selected ensembles of neurons, offering the possibility of establishing direct causal links. Here, we propose a method based on noisy group testing that drastically increases the efficiency of this process in sparse networks. By stimulating small ensembles of neurons, we show that it is possible to recover binarized network connectivity with a number of tests that grows only logarithmically with population size under minimal statistical assumptions. Moreover, we prove that our approach, which reduces to an efficiently solvable convex optimization problem, can be related to Variational Bayesian inference on the binary connection weights, and we derive rigorous bounds on the posterior marginals. This allows us to extend our method to the streaming setting, where continuously updated posteriors allow for optional stopping, and we demonstrate the feasibility of inferring connectivity for networks of up to tens of thousands of neurons online. Finally, we show how our work can be theoretically linked to compressed sensing approaches, and compare results for connectivity inference in different settings.
翻訳日:2022-11-06 08:21:27 公開日:2020-12-07
# 電子健康記録のモデル化のための神経時空間過程

Neural Temporal Point Processes For Modelling Electronic Health Records ( http://arxiv.org/abs/2007.13794v2 )

ライセンス: Link先を確認
Joseph Enguehard, Dan Busbridge, Adam Bozson, Claire Woodcock and Nils Y. Hammerla(参考訳) 電子健康記録(EHR)のモデリングは、医療資源のより効率的な配分を促進する可能性があり、早期介入戦略とパーソナライズドヘルスケアの推進を可能にする。 しかし、EHRはノイズの多いマルチモーダルデータとして不規則な時間間隔で発生するため、モデル化が難しい。 それらの時間的性質に対処するため、時間的ポイントプロセス(TPP)によって生成されたサンプルとしてEHRを扱い、原則化された方法で発生した事象と関連する事象をモデル化する。 我々は、総称してneural tppsと呼ばれるtppのニューラルネットワークパラメータ化を収集し、提案する。 我々は,合成EHRと確立されたベンチマークのセットの評価を行う。 以上の結果から,TPP は EHR において非TPP よりも有意に優れていた。 また、クラス分布が時間に依存しない多くのニューラルTPPの仮定は、EHRの性能を低下させることを示す。 最後に,本提案手法を用いたニューラルTPPは,実世界の解釈可能性要件と整合しながら,既存のモデルと比較して良好に動作し,臨床診断支援システムの構成要素に向けた重要なステップである。

The modelling of Electronic Health Records (EHRs) has the potential to drive more efficient allocation of healthcare resources, enabling early intervention strategies and advancing personalised healthcare. However, EHRs are challenging to model due to their realisation as noisy, multi-modal data occurring at irregular time intervals. To address their temporal nature, we treat EHRs as samples generated by a Temporal Point Process (TPP), enabling us to model what happened in an event with when it happened in a principled way. We gather and propose neural network parameterisations of TPPs, collectively referred to as Neural TPPs. We perform evaluations on synthetic EHRs as well as on a set of established benchmarks. We show that TPPs significantly outperform their non-TPP counterparts on EHRs. We also show that an assumption of many Neural TPPs, that the class distribution is conditionally independent of time, reduces performance on EHRs. Finally, our proposed attention-based Neural TPP performs favourably compared to existing models, whilst aligning with real world interpretability requirements, an important step towards a component of clinical decision support systems.
翻訳日:2022-11-06 07:53:44 公開日:2020-12-07
# ヒルベルト空間における線形条件期待

The linear conditional expectation in Hilbert space ( http://arxiv.org/abs/2008.12070v2 )

ライセンス: Link先を確認
Ilja Klebanov and Bj\"orn Sprungk and T. J. Sullivan(参考訳) 線形条件付き期待値 (lce) は条件付き期待値の最良の線形(あるいはアフィン)推定を提供し、したがって近似ベイズ推定、特にベイズ線形アプローチにおいて重要な r\^ole となる。 本稿では、無限次元ヒルベルト空間文脈におけるLCEの解析的性質を確立する。 さらに、アフィンヒルベルト-シュミット作用素の空間において、この LCE の正規化手順を確立する。 重要な応用として,条件付き平均埋め込み公式の簡易な導出と直感的正当化を求める。これは機械学習で広く用いられている概念であり,それらをカーネルヒルベルト空間に埋め込むことで確率変数の条件付けを行う。

The linear conditional expectation (LCE) provides a best linear (or rather, affine) estimate of the conditional expectation and hence plays an important r\^ole in approximate Bayesian inference, especially the Bayes linear approach. This article establishes the analytical properties of the LCE in an infinite-dimensional Hilbert space context. In addition, working in the space of affine Hilbert--Schmidt operators, we establish a regularisation procedure for this LCE. As an important application, we obtain a simple alternative derivation and intuitive justification of the conditional mean embedding formula, a concept widely used in machine learning to perform the conditioning of random variables by embedding them into reproducing kernel Hilbert spaces.
翻訳日:2022-10-24 08:28:05 公開日:2020-12-07
# Devil's in the details: Aligning Visual Clues for Conditional Embedding in Person Re-Identification

Devil's in the Details: Aligning Visual Clues for Conditional Embedding in Person Re-Identification ( http://arxiv.org/abs/2009.05250v2 )

ライセンス: Link先を確認
Fufu Yu, Xinyang Jiang, Yifei Gong, Shizhen Zhao, Xiaowei Guo, Wei-Shi Zheng, Feng Zheng, Xing Sun(参考訳) Person Re-Identificationは目覚ましい進歩を遂げてきたが、オクルージョン、ビューポイントや類似の衣服の変更といった難しいケースは依然として大きな課題をもたらしている。 全体的なビジュアル機能に加えて、詳細な情報のマッチングと比較もこれらの課題に取り組む上で不可欠である。 本稿では,歩行者画像の詳細な情報をよりよく活用するための2つの重要な認識パターンを提案する。 まず、視覚的な手がかりアライメントでは、2つの画像から決定的な領域ペアを選択してアライメントする必要があるが、既存の手法では、高機能類似性や同じ意味ラベルのような事前定義されたルールのみをアライメントする必要がある。 第二に、条件付き特徴埋め込みでは、問い合わせ画像の全体的な特徴を、一致するギャラリー画像に基づいて動的に調整する必要があるが、既存の方法のほとんどは参照画像を無視している。 対応注意モジュールや不一致に基づくgcnといった新しい手法を導入することで、両パターンをcace-net((c)lue(a)lignmentと(c)onditional(e)mbeddingと呼ばれる統一フレームワークに統合するエンドツーエンドreid手法を提案する。 実験により、CACE-Netは3つの公開データセット上で最先端のパフォーマンスを達成することが示された。

Although Person Re-Identification has made impressive progress, difficult cases like occlusion, change of view-pointand similar clothing still bring great challenges. Besides overall visual features, matching and comparing detailed information is also essential for tackling these challenges. This paper proposes two key recognition patterns to better utilize the detail information of pedestrian images, that most of the existing methods are unable to satisfy. Firstly, Visual Clue Alignment requires the model to select and align decisive regions pairs from two images for pair-wise comparison, while existing methods only align regions with predefined rules like high feature similarity or same semantic labels. Secondly, the Conditional Feature Embedding requires the overall feature of a query image to be dynamically adjusted based on the gallery image it matches, while most of the existing methods ignore the reference images. By introducing novel techniques including correspondence attention module and discrepancy-based GCN, we propose an end-to-end ReID method that integrates both patterns into a unified framework, called CACE-Net((C)lue(A)lignment and (C)onditional (E)mbedding). The experiments show that CACE-Net achieves state-of-the-art performance on three public datasets.
翻訳日:2022-10-19 21:34:11 公開日:2020-12-07
# 適応ラベル平滑化

Adaptive Label Smoothing ( http://arxiv.org/abs/2009.06432v2 )

ライセンス: Link先を確認
Ujwal Krothapalli and A. Lynn Abbott(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)のキャリブレーション性能を改善するための対象性尺度の利用について述べる。 CNNは、非常に優れた分類器であり、一般にオブジェクトをローカライズすることが証明されているが、典型的には分類訓練に使用される損失関数は、オブジェクトをローカライズできないことや、オブジェクトの相対的なサイズを考慮に入れない。 imagenet-1kでのトレーニング中、ほとんどのアプローチは画像にランダムな作物を使用し、この変換はcnnに背景のみのサンプルを提供する。 これにより、分類器は文脈に依存する。 コンテキスト依存は安全クリティカルなアプリケーションには有害である。 本稿では,学習中の目的意識とラベルの平滑化を組み合わせた新しい分類手法を提案する。 従来の方法とは異なり、画像内の相対オブジェクトサイズに基づいて、平滑化係数を \emph{adaptive} と計算する。 これによって私たちのアプローチは、正しい予測を行うためにコンテキストに頼るのではなく、分類されるオブジェクトのサイズに基礎を置く自信を生み出すことができます。 我々はimagenetを用いて,適応ラベル平滑化を用いたcnnの学習が,その予測に自信過剰である可能性が低いことを示す。 クラスアクティベーションマップを用いた定性的な結果と、分類と伝達学習タスクを用いた定量的結果を示す。 提案手法は,ベースラインと比較した場合に,コンテキストのみの画像を予測した場合に,信頼度を大幅に低下させることができる。 転送学習を用いて,MS COCOの2.1mAPをハードラベル法と比較した。

This paper concerns the use of objectness measures to improve the calibration performance of Convolutional Neural Networks (CNNs). CNNs have proven to be very good classifiers and generally localize objects well; however, the loss functions typically used to train classification CNNs do not penalize inability to localize an object, nor do they take into account an object's relative size in the given image. During training on ImageNet-1K almost all approaches use random crops on the images and this transformation sometimes provides the CNN with background only samples. This causes the classifiers to depend on context. Context dependence is harmful for safety-critical applications. We present a novel approach to classification that combines the ideas of objectness and label smoothing during training. Unlike previous methods, we compute a smoothing factor that is \emph{adaptive} based on relative object size within an image. This causes our approach to produce confidences that are grounded in the size of the object being classified instead of relying on context to make the correct predictions. We present extensive results using ImageNet to demonstrate that CNNs trained using adaptive label smoothing are much less likely to be overconfident in their predictions. We show qualitative results using class activation maps and quantitative results using classification and transfer learning tasks. Our approach is able to produce an order of magnitude reduction in confidence when predicting on context only images when compared to baselines. Using transfer learning, we gain 2.1mAP on MS COCO compared to the hard label approach.
翻訳日:2022-10-18 11:22:25 公開日:2020-12-07
# F3RNet: 変形可能な画像登録のための完全解像残差登録ネットワーク

F3RNet: Full-Resolution Residual Registration Network for Deformable Image Registration ( http://arxiv.org/abs/2009.07151v3 )

ライセンス: Link先を確認
Zhe Xu, Jie Luo, Jiangpeng Yan, Xiu Li, Jagadeesan Jayender(参考訳) 変形性画像登録(DIR)は多くの画像誘導療法に必須である。 近年、ディープラーニングアプローチはDIRでかなりの人気と成功を収めている。 ほとんどのディープラーニングアプローチでは、いわゆるモノストリーム(high-to-low,low-to-high)ネットワーク構造を使い、十分な総合的な登録結果を得ることができる。 しかし, 外科的標的の特定に欠かせない, 高度に変形した地域の正確なアライメントは見過ごされがちである。 その結果、これらのアプローチは、例えば、変形した肝葉の患者内登録のような、硬変する領域に敏感ではない。 本稿では, 厳格な変形臓器の変形性登録のための新規な教師なし登録ネットワーク, すなわちフル解像度残留登録ネットワーク(F3RNet)を提案する。 提案手法は,残差学習方式で2つの並列処理ストリームを組み合わせる。 1つのストリームは、正確なvoxelレベルの登録を容易にする全解像度情報を利用する。 他のストリームは、深いマルチスケール残差表現を学習し、ロバストな認識を得る。 また,3次元畳み込みを分解してトレーニングパラメータを低減し,ネットワーク効率を向上させる。 臨床的に得られた腹腔内CT-MRIデータセットと公衆気胸CTデータセットを用いて,本法の有効性を検証した。 マルチモーダルおよびユニモーダルの登録実験は、最先端のアプローチと比較して有望な結果を示した。

Deformable image registration (DIR) is essential for many image-guided therapies. Recently, deep learning approaches have gained substantial popularity and success in DIR. Most deep learning approaches use the so-called mono-stream "high-to-low, low-to-high" network structure, and can achieve satisfactory overall registration results. However, accurate alignments for some severely deformed local regions, which are crucial for pinpointing surgical targets, are often overlooked. Consequently, these approaches are not sensitive to some hard-to-align regions, e.g., intra-patient registration of deformed liver lobes. In this paper, we propose a novel unsupervised registration network, namely the Full-Resolution Residual Registration Network (F3RNet), for deformable registration of severely deformed organs. The proposed method combines two parallel processing streams in a residual learning fashion. One stream takes advantage of the full-resolution information that facilitates accurate voxel-level registration. The other stream learns the deep multi-scale residual representations to obtain robust recognition. We also factorize the 3D convolution to reduce the training parameters and enhance network efficiency. We validate the proposed method on a clinically acquired intra-patient abdominal CT-MRI dataset and a public inspiratory and expiratory thorax CT dataset. Experiments on both multimodal and unimodal registration demonstrate promising results compared to state-of-the-art approaches.
翻訳日:2022-10-18 06:42:23 公開日:2020-12-07
# ニューラルネットワークに基づく機械学習の数学的理解に向けて--我々が知っていることと知らないこと

Towards a Mathematical Understanding of Neural Network-Based Machine Learning: what we know and what we don't ( http://arxiv.org/abs/2009.10713v3 )

ライセンス: Link先を確認
Weinan E, Chao Ma, Stephan Wojtowytsch and Lei Wu(参考訳) 本稿の目的は、ニューラルネットワークベースの機械学習の成功と微妙な性質の背後にある理由を理解するため、ここ数年の成果をレビューすることである。 古き良き応用数学の伝統では、厳密な数学的結果に留意するだけでなく、注意深い数値実験から得られた洞察や単純化されたモデルの分析にも注目する。 その過程では、さらに研究する上で最も重要なトピックであると思われるオープンな問題をリストアップする。 これは、この早い動きの分野に関する完全な概要ではないが、この分野の新しい研究者にとって特に役立つ視点を提供したいと考えている。

The purpose of this article is to review the achievements made in the last few years towards the understanding of the reasons behind the success and subtleties of neural network-based machine learning. In the tradition of good old applied mathematics, we will not only give attention to rigorous mathematical results, but also the insight we have gained from careful numerical experiments as well as the analysis of simplified models. Along the way, we also list the open problems which we believe to be the most important topics for further study. This is not a complete overview over this quickly moving field, but we hope to provide a perspective which may be helpful especially to new researchers in the area.
翻訳日:2022-10-15 22:06:55 公開日:2020-12-07
# 潜在的流れで泳ぐことを学ぶ

Learning to swim in potential flow ( http://arxiv.org/abs/2009.14280v2 )

ライセンス: Link先を確認
Yusheng Jiao, Feng Ling, Sina Heydari, Nicolas Heess, Josh Merel and Eva Kanso(参考訳) 魚は体をゆるめて泳ぐ。 これらの脈動運動は、流体環境と相互作用する物体の形状変化を必要とするが、ロバストな回転と水泳運動をもたらす特定の形状のコーディネーションはいまだに不明である。 水中運動計画の問題に対処するため,水流環境下で泳ぐ3本鎖魚の簡易モデルを提案し,形状制御にはモデルフリーの強化学習を用いる。 我々は、2つの水泳課題において最適な形状変化に到達し、望ましい方向に泳ぎ、既知の目標に向かって泳ぐ。 この魚のモデルは、ドリフトレス力学として知られる幾何学力学の一連の問題に属しており、魚の形状空間上の幾何学的位相で水泳の挙動を分析することができる。 これらの幾何学的手法はドリフトの存在下では直感的ではない。 ここでは,ドリフトのない強化学習によって得られる制御方針の評価,可視化,解釈を行うツールとして形状空間解析を用いる。 次に、ドリフト関連摂動に対するこれらの政策の堅牢性を検討する。 魚は漂流自体を直接制御することができないが、適度な漂流の存在を生かして目標に到達することを学ぶ。

Fish swim by undulating their bodies. These propulsive motions require coordinated shape changes of a body that interacts with its fluid environment, but the specific shape coordination that leads to robust turning and swimming motions remains unclear. To address the problem of underwater motion planning, we propose a simple model of a three-link fish swimming in a potential flow environment and we use model-free reinforcement learning for shape control. We arrive at optimal shape changes for two swimming tasks: swimming in a desired direction and swimming towards a known target. This fish model belongs to a class of problems in geometric mechanics, known as driftless dynamical systems, which allow us to analyze the swimming behavior in terms of geometric phases over the shape space of the fish. These geometric methods are less intuitive in the presence of drift. Here, we use the shape space analysis as a tool for assessing, visualizing, and interpreting the control policies obtained via reinforcement learning in the absence of drift. We then examine the robustness of these policies to drift-related perturbations. Although the fish has no direct control over the drift itself, it learns to take advantage of the presence of moderate drift to reach its target.
翻訳日:2022-10-13 00:28:25 公開日:2020-12-07
# 効率的な分割によるニューラルネットワークのロバスト性解析と制御系への応用

Robustness Analysis of Neural Networks via Efficient Partitioning with Applications in Control Systems ( http://arxiv.org/abs/2010.00540v2 )

ライセンス: Link先を確認
Michael Everett, Golnaz Habibi, Jonathan P. How(参考訳) ニューラルネットワーク(NN)は現在、不確実な環境で動作しなければならないシステムで定期的に実装されているが、この不確実性がどのようにNN出力に伝播するかを公式に解析するツールは、まだ一般的ではない。 NN出力セット(入力セット)の厳密なバウンダリの計算は、NN決定に関連する信頼性の尺度を提供し、安全クリティカルなシステムにNNをデプロイすることが不可欠である。 最近の研究は、非線形活性化による集合の伝播や不確実性集合の分割を近似し、可能なNN出力の集合に保証外界を与える。 しかし、境界のゆるさは過剰な保守主義を引き起こし、あるいはオンライン分析には計算が遅すぎる。 本稿では,同じ計算時間(あるいは所望の精度レベルでの計算労力の削減)に対して,既存の作業よりも厳密な境界を与えるロバストネス解析アルゴリズムのファミリーを提供するために,伝播と分割のアプローチを統一する。 さらに,現在の境界推定値と所望の境界形状(下限,重み付き$\ell_\infty$-ball,convex hullなど)を認識した新たな分割手法を提供し,計算・密接性トレードオフをさらに改善する。 本稿では,モデルフリーRLとフォワードキネマティックス学習の例を用いて,ロバストネス分析フレームワークの厳密な境界と保守性の低下を示す。

Neural networks (NNs) are now routinely implemented on systems that must operate in uncertain environments, but the tools for formally analyzing how this uncertainty propagates to NN outputs are not yet commonplace. Computing tight bounds on NN output sets (given an input set) provides a measure of confidence associated with the NN decisions and is essential to deploy NNs on safety-critical systems. Recent works approximate the propagation of sets through nonlinear activations or partition the uncertainty set to provide a guaranteed outer bound on the set of possible NN outputs. However, the bound looseness causes excessive conservatism and/or the computation is too slow for online analysis. This paper unifies propagation and partition approaches to provide a family of robustness analysis algorithms that give tighter bounds than existing works for the same amount of computation time (or reduced computational effort for a desired accuracy level). Moreover, we provide new partitioning techniques that are aware of their current bound estimates and desired boundary shape (e.g., lower bounds, weighted $\ell_\infty$-ball, convex hull), leading to further improvements in the computation-tightness tradeoff. The paper demonstrates the tighter bounds and reduced conservatism of the proposed robustness analysis framework with examples from model-free RL and forward kinematics learning.
翻訳日:2022-10-12 07:55:02 公開日:2020-12-07
# 医用画像におけるセマンティックセグメンテーションのための管状形状認識データ生成

Tubular Shape Aware Data Generation for Semantic Segmentation in Medical Imaging ( http://arxiv.org/abs/2010.00907v2 )

ライセンス: Link先を確認
Ilyas Sirazitdinov, Heinrich Schulz, Axel Saalbach, Steffen Renisch and Dmitry V. Dylov(参考訳) 胸部X線は人体の最も広く見られる検査の一つである。 インターベンション放射線学では、その使用は、穿刺針、導線、ワイヤー、カテーテルなど、様々なチューブ状の物体を可視化する必要性としばしば関連している。 X線画像中のこれらの管状物体の検出と正確な位置決めは、極端に価値があり、正確なターゲット特異的セグメンテーションアルゴリズムの開発を触媒する。 他の医療画像処理と同様に、チューブの手動ピクセルワイドアノテーションは資源消費のプロセスである。 本研究では,人工データを用いて注釈付き画像の欠如を軽減することを目的とする。 具体的には, 管状物体の合成データ生成において, 生成的逆ネットワークを事前の制約で定式化する手法を提案する。 提案手法は,ペア画像マスクデータの必要性を排除し,完全教師付きモデルの精度に到達するためには,弱いラベル付きデータセット(10~20画像)のみを必要とする。 また,X線画像における管およびカテーテルの分割作業に対するアプローチの適用性について報告し,他の画像モダリティについても検討する。

Chest X-ray is one of the most widespread examinations of the human body. In interventional radiology, its use is frequently associated with the need to visualize various tube-like objects, such as puncture needles, guiding sheaths, wires, and catheters. Detection and precise localization of these tube-like objects in the X-ray images is, therefore, of utmost value, catalyzing the development of accurate target-specific segmentation algorithms. Similar to the other medical imaging tasks, the manual pixel-wise annotation of the tubes is a resource-consuming process. In this work, we aim to alleviate the lack of the annotated images by using artificial data. Specifically, we present an approach for synthetic data generation of the tube-shaped objects, with a generative adversarial network being regularized with a prior-shape constraint. Our method eliminates the need for paired image--mask data and requires only a weakly-labeled dataset (10--20 images) to reach the accuracy of the fully-supervised models. We report the applicability of the approach for the task of segmenting tubes and catheters in the X-ray images, whereas the results should also hold for the other imaging modalities.
翻訳日:2022-10-12 02:17:49 公開日:2020-12-07
# 心血管造影検査における冠動脈自動抽出のためのマルチリゾリューション3次元畳み込みニューラルネットワーク

Multi-Resolution 3D Convolutional Neural Networks for Automatic Coronary Centerline Extraction in Cardiac CT Angiography Scans ( http://arxiv.org/abs/2010.00925v2 )

ライセンス: Link先を確認
Zohaib Salahuddin, Matthias Lenga and Hannes Nickisch(参考訳) 本稿では,Wolterink (arXiv:1810.03143) により血管トラッカーを拡張する深層学習型自動冠状動脈幹トラッカー (AuCoTrack) を提案する。 マルチスケール3次元入力で動作する2経路畳み込みニューラルネットワーク(CNN)は、冠状動脈の方向と分岐の有無を予測する。 同様のマルチスケールのdual pathway 3d cnnを訓練して冠動脈の終端を同定し、追跡プロセスを終了させる。 2つ以上の継続方向は分岐検出に基づいて導出される。 反復トラッカーは、心臓のモデルベースセグメンテーションに由来する2つのオスティウムランドマークのみに基づいて、左右の冠動脈ツリー全体を検出する。 3D CNNは43のCCTAスキャンからなるプロプライエタリなデータセットでトレーニングされた。 平均感度87.1%,臨床的に有意な重複89.1%を得た。 さらに、miccai 2008 coronary artery tracking challenge (cat08) のトレーニングとテストデータセットがアルゴリズムのベンチマークと一般化の評価に使用された。 平均オーバーラップ93.6%,臨床的に関連したオーバーラップ96.4%が得られた。 提案手法は, 船体検出率95%のCAT08データセットにおいて, 現在の最先端自動中心線抽出技術よりも高いオーバーラップスコアを得た。

We propose a deep learning-based automatic coronary artery tree centerline tracker (AuCoTrack) extending the vessel tracker by Wolterink (arXiv:1810.03143). A dual pathway Convolutional Neural Network (CNN) operating on multi-scale 3D inputs predicts the direction of the coronary arteries as well as the presence of a bifurcation. A similar multi-scale dual pathway 3D CNN is trained to identify coronary artery endpoints for terminating the tracking process. Two or more continuation directions are derived based on the bifurcation detection. The iterative tracker detects the entire left and right coronary artery trees based on only two ostium landmarks derived from a model-based segmentation of the heart. The 3D CNNs were trained on a proprietary dataset consisting of 43 CCTA scans. An average sensitivity of 87.1% and clinically relevant overlap of 89.1% was obtained relative to a refined manual segmentation. In addition, the MICCAI 2008 Coronary Artery Tracking Challenge (CAT08) training and test datasets were used to benchmark the algorithm and to assess its generalization. An average overlap of 93.6% and a clinically relevant overlap of 96.4% were obtained. The proposed method achieved better overlap scores than the current state-of-the-art automatic centerline extraction techniques on the CAT08 dataset with a vessel detection rate of 95%.
翻訳日:2022-10-12 02:17:31 公開日:2020-12-07
# 広域ニューラルネットワークにおける自然勾配の高速収束のための近似的漁業情報理解

Understanding Approximate Fisher Information for Fast Convergence of Natural Gradient Descent in Wide Neural Networks ( http://arxiv.org/abs/2010.00879v3 )

ライセンス: Link先を確認
Ryo Karakida and Kazuki Osawa(参考訳) Natural Gradient Descent (NGD)は勾配降下ダイナミクスの収束を加速するが、計算コストが高いため、大規模ディープニューラルネットワークでは近似を必要とする。 実験的な研究により、近似フィッシャー情報を持つNGD法が実際に十分に早く収束していることが確認された。 しかし、なぜそのようなヒューリスティック近似がうまく機能するのかという理論的な観点からは、いまだに明らかではない。 本研究では,特定の条件下では,漁獲情報に近似したngdが正確なngdと同程度の高速収束を実現することを明らかにする。 無限幅限界における深部ニューラルネットワークを考察し、ニューラルタンジェントカーネルを介して関数空間におけるNGDの漸近的トレーニングダイナミクスを解析する。 関数空間では、近似フィッシャー情報とトレーニングダイナミクスは、正確なフィッシャー情報を持つものと同一であり、それらは迅速に収束する。 例えばブロック対角近似では、各ブロックが層に対応し、ブロック三対角およびK-FAC近似では、高速収束が成り立つ。 また、単位近似はいくつかの仮定の下で同じ高速収束を達成する。 これらの異なる近似はすべて関数空間において等方勾配を持ち、トレーニングにおいて同じ収束特性を達成する上で重要な役割を果たす。 そこで本研究では,深層学習におけるngd法を理解するための新しい統一的理論的基礎を提示する。

Natural Gradient Descent (NGD) helps to accelerate the convergence of gradient descent dynamics, but it requires approximations in large-scale deep neural networks because of its high computational cost. Empirical studies have confirmed that some NGD methods with approximate Fisher information converge sufficiently fast in practice. Nevertheless, it remains unclear from the theoretical perspective why and under what conditions such heuristic approximations work well. In this work, we reveal that, under specific conditions, NGD with approximate Fisher information achieves the same fast convergence to global minima as exact NGD. We consider deep neural networks in the infinite-width limit, and analyze the asymptotic training dynamics of NGD in function space via the neural tangent kernel. In the function space, the training dynamics with the approximate Fisher information are identical to those with the exact Fisher information, and they converge quickly. The fast convergence holds in layer-wise approximations; for instance, in block diagonal approximation where each block corresponds to a layer as well as in block tri-diagonal and K-FAC approximations. We also find that a unit-wise approximation achieves the same fast convergence under some assumptions. All of these different approximations have an isotropic gradient in the function space, and this plays a fundamental role in achieving the same convergence properties in training. Thus, the current study gives a novel and unified theoretical foundation with which to understand NGD methods in deep learning.
翻訳日:2022-10-12 01:15:29 公開日:2020-12-07
# 熱帯サイクロン強度予測のための構造予測:ディープラーニングによる洞察の提供

Structural Forecasting for Tropical Cyclone Intensity Prediction: Providing Insight with Deep Learning ( http://arxiv.org/abs/2010.05783v3 )

ライセンス: Link先を確認
Trey McNeely, Niccol\`o Dalmasso, Kimberly M. Wood, Ann B. Lee(参考訳) 熱帯サイクロン(tc)の強度予測は最終的に人間の予測者によって発行される。 ヒトのイン・ザ・ループパイプラインは、ナショナル・ハリケーン・センターのような運用センターで採用されるためには、TCの専門家が予測ガイダンスを簡単に消化できなければならない。 提案するフレームワークはディープラーニングを活用して,予測モデルと従来の強度指導の両立を図り,物理的に重要な予測器の高次元時系列をモニタリングする強力なツールと,予測器が相互にどのように関連し,短期的な強度変化をもたらすかを理解する手段を提供する。

Tropical cyclone (TC) intensity forecasts are ultimately issued by human forecasters. The human in-the-loop pipeline requires that any forecasting guidance must be easily digestible by TC experts if it is to be adopted at operational centers like the National Hurricane Center. Our proposed framework leverages deep learning to provide forecasters with something neither end-to-end prediction models nor traditional intensity guidance does: a powerful tool for monitoring high-dimensional time series of key physically relevant predictors and the means to understand how the predictors relate to one another and to short-term intensity changes.
翻訳日:2022-10-10 00:21:52 公開日:2020-12-07
# l_{2,0}$-norm正規化最小化によるロバストなマルチクラス機能選択

Robust Multi-class Feature Selection via $l_{2,0}$-Norm Regularization Minimization ( http://arxiv.org/abs/2010.03728v3 )

ライセンス: Link先を確認
Zhenzhen Sun and Yuanlong Yu(参考訳) 特徴の選択は、データマイニングや機械学習において重要なデータ前処理であり、モデルの性能を損なうことなく機能のサイズを削減できる。 近年, スパース回帰に基づく特徴選択法は, 性能の良さから注目されている。 しかし、$l_{2,0}$-norm正規化項は非凸であるため、この問題は非常に解決が難しい。 本稿では, 近似問題のみを解く他の手法とは異なり, 重み行列に対する厳密な行分離解を生成できるマルチクラス特徴量選択のための$l_{2,0}$-ノルム正規化最小二乗問題を直接解くために, ホモトピー反復ハードしきい値(hiht)に基づく新しい手法を提案する。 さらに、HIHTの計算時間を短縮するために、HIHT(AHIHT)の加速度バージョンを導出する。 8つの生物学的データセットに対する広範囲な実験により,提案手法は最も少ない選択された特徴数 (No.fea) で高い分類精度(ACC)を達成できることが示されている。 また、正規化パラメータに対する分類精度の堅牢性と選択された特徴数も示す。

Feature selection is an important data pre-processing in data mining and machine learning, which can reduce feature size without deteriorating model's performance. Recently, sparse regression based feature selection methods have received considerable attention due to their good performance. However, because the $l_{2,0}$-norm regularization term is non-convex, this problem is very hard to solve. In this paper, unlike most of the other methods which only solve the approximate problem, a novel method based on homotopy iterative hard threshold (HIHT) is proposed to solve the $l_{2,0}$-norm regularization least square problem directly for multi-class feature selection, which can produce exact row-sparsity solution for the weights matrix. What'more, in order to reduce the computational time of HIHT, an acceleration version of HIHT (AHIHT) is derived. Extensive experiments on eight biological datasets show that the proposed method can achieve higher classification accuracy (ACC) with fewest number of selected features (No.fea) comparing with the approximate convex counterparts and state-of-the-art feature selection methods. The robustness of classification accuracy to the regularization parameter and the number of selected feature are also exhibited.
翻訳日:2022-10-09 12:32:59 公開日:2020-12-07
# 注意畳み込みネットワークを用いた顔画像からの年齢・性別予測

Age and Gender Prediction From Face Images Using Attentional Convolutional Network ( http://arxiv.org/abs/2010.03791v2 )

ライセンス: Link先を確認
Amirali Abdolrashidi, Mehdi Minaei, Elham Azimi, Shervin Minaee(参考訳) 近年,顔画像からの年齢・性別の自動予測が注目されている。 しかし、顔画像(照明、ポーズ、スケール、閉塞など)のクラス内での大きなバリエーションのため、既存のモデルは依然として望まれる精度のレベルに留まっており、現実のアプリケーションでこれらのモデルを使用するのに必要である。 本研究では,高精度で顔画像の性別・年齢グループを予測するために,注意と残差の畳み込みネットワークの合体に基づくディープラーニングフレームワークを提案する。 注意機構を用いることで、我々のモデルは顔の重要かつ情報的な部分に焦点を合わせることができ、より正確な予測を行うのに役立つ。 マルチタスク学習の方法でモデルをトレーニングし,年齢分類器の機能埋め込みを性別で強化することで,年齢予測の精度をさらに高めることができることを示す。 私たちのモデルは、一般的な顔年齢と性別データセットでトレーニングされ、有望な結果を得ました。 列車模型のアテンションマップの可視化により、我々のモデルは、顔の正しい領域に敏感になるように学習されていることを示す。

Automatic prediction of age and gender from face images has drawn a lot of attention recently, due it is wide applications in various facial analysis problems. However, due to the large intra-class variation of face images (such as variation in lighting, pose, scale, occlusion), the existing models are still behind the desired accuracy level, which is necessary for the use of these models in real-world applications. In this work, we propose a deep learning framework, based on the ensemble of attentional and residual convolutional networks, to predict gender and age group of facial images with high accuracy rate. Using attention mechanism enables our model to focus on the important and informative parts of the face, which can help it to make a more accurate prediction. We train our model in a multi-task learning fashion, and augment the feature embedding of the age classifier, with the predicted gender, and show that doing so can further increase the accuracy of age prediction. Our model is trained on a popular face age and gender dataset, and achieved promising results. Through visualization of the attention maps of the train model, we show that our model has learned to become sensitive to the right regions of the face.
翻訳日:2022-10-09 11:48:38 公開日:2020-12-07
# diaglossic and code-switched environmentにおけるマイクロダイアレクト同定に向けて

Toward Micro-Dialect Identification in Diaglossic and Code-Switched Environments ( http://arxiv.org/abs/2010.04900v2 )

ライセンス: Link先を確認
Muhammad Abdul-Mageed and Chiyu Zhang and AbdelRahim Elmadany and Lyle Ungar(参考訳) 方言の予測は重要な言語処理タスクであるが、様々な応用があるため、既存の作業は粗い粒度に限られている。 位置情報研究に着想を得て,MDI(Micro-Dialect Identification)の新たな課題を提案し,一つの短いメッセージが与えられた細粒度(都市のそれより小さい)を予測できる印象的な言語モデルであるMARBERTを提案する。 モデリングには,新しい空間的および言語的動機づけのあるマルチタスク学習モデルを提供する。 モデルの有用性を示すために、タスクに適したアラビアのマイクロ変数(低リソース)の大規模データセットを導入します。 MARBERTは9.9%のF1、76倍の精度のマイクロダイアレクトを予測している。 我々の新しい言語モデルはまた、いくつかの外部タスクに新しい最先端技術を確立する。

Although the prediction of dialects is an important language processing task, with a wide range of applications, existing work is largely limited to coarse-grained varieties. Inspired by geolocation research, we propose the novel task of Micro-Dialect Identification (MDI) and introduce MARBERT, a new language model with striking abilities to predict a fine-grained variety (as small as that of a city) given a single, short message. For modeling, we offer a range of novel spatially and linguistically-motivated multi-task learning models. To showcase the utility of our models, we introduce a new, large-scale dataset of Arabic micro-varieties (low-resource) suited to our tasks. MARBERT predicts micro-dialects with 9.9% F1, ~76X better than a majority class baseline. Our new language model also establishes new state-of-the-art on several external tasks.
翻訳日:2022-10-08 22:28:17 公開日:2020-12-07
# 非圧縮性流れに対する低次元モデルの演算子推論と物理インフォームドラーニング

Operator Inference and Physics-Informed Learning of Low-Dimensional Models for Incompressible Flows ( http://arxiv.org/abs/2010.06701v2 )

ライセンス: Link先を確認
Peter Benner, Pawan Goyal, Jan Heiland, Igor Pontes Duff(参考訳) 減数次モデリングは計算流体力学において長い伝統を持つ。 低次モデルの合成におけるデータの重要性は、動的モード分解や演算子推論のようなデータ駆動アプローチの最近の成功によく反映されている。 本研究では,制御,最適化,シミュレーションなどの工学研究に使用できるデータから非圧縮フローのための構造化低次モデルを学ぶための新しい手法を提案する。 そこで本研究では,非圧縮性流れに対するnavier-stokes方程式の固有構造を利用し,速度と圧力の学習ダイナミクスを分離できることを示す。 さらに,2つのベンチマーク問題を用いた低次モデル学習における演算子推論性能を示し,正規直交分解法や他のデータ駆動手法と比較した。

Reduced-order modeling has a long tradition in computational fluid dynamics. The ever-increasing significance of data for the synthesis of low-order models is well reflected in the recent successes of data-driven approaches such as Dynamic Mode Decomposition and Operator Inference. With this work, we suggest a new approach to learning structured low-order models for incompressible flow from data that can be used for engineering studies such as control, optimization, and simulation. To that end, we utilize the intrinsic structure of the Navier-Stokes equations for incompressible flows and show that learning dynamics of the velocity and pressure can be decoupled, thus leading to an efficient operator inference approach for learning the underlying dynamics of incompressible flows. Furthermore, we show the operator inference performance in learning low-order models using two benchmark problems and compare with an intrusive method, namely proper orthogonal decomposition, and other data-driven approaches.
翻訳日:2022-10-08 00:57:20 公開日:2020-12-07
# 1つの解決策:構造化MaxEnt RLによるFew-Shot外挿

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL ( http://arxiv.org/abs/2010.14484v2 )

ライセンス: Link先を確認
Saurabh Kumar, Aviral Kumar, Sergey Levine, Chelsea Finn(参考訳) 強化学習アルゴリズムは複雑なタスクに対する効果的なポリシーを学習することができるが、これらのポリシーは、特にトレーニング中に明らかにバリエーションが提供されない場合に、小さなタスクのバリエーションに対しても脆弱であることが多い。 この問題に対する自然なアプローチの1つは、トレーニングタスクや環境に手動で特定のバリエーションを持つエージェントを訓練することだ。 しかし、摂動が不可能であることや、性能を犠牲にすることなく適切な摂動戦略を選択する方法が不明確であることから、実際の状況では実現できない可能性がある。 この研究の重要な洞察は、タスクを達成するための多様な行動を学ぶことは、トレーニング中に明示的な摂動を行うことなく、様々な環境に一般化する行動に直接導くことができるということである。 トレーニング中にタスクの複数のソリューションを1つの環境で識別することで、このアプローチは、もはや効果のないソリューションを捨て、それを採用することによって、新しい状況に一般化することができます。 理論的には、アルゴリズムから生じる環境のロバスト性セットを特徴付け、我々の多様性駆動アプローチが環境やタスクのさまざまな変化に外挿できることを実証的に見出します。

While reinforcement learning algorithms can learn effective policies for complex tasks, these policies are often brittle to even minor task variations, especially when variations are not explicitly provided during training. One natural approach to this problem is to train agents with manually specified variation in the training task or environment. However, this may be infeasible in practical situations, either because making perturbations is not possible, or because it is unclear how to choose suitable perturbation strategies without sacrificing performance. The key insight of this work is that learning diverse behaviors for accomplishing a task can directly lead to behavior that generalizes to varying environments, without needing to perform explicit perturbations during training. By identifying multiple solutions for the task in a single environment during training, our approach can generalize to new situations by abandoning solutions that are no longer effective and adopting those that are. We theoretically characterize a robustness set of environments that arises from our algorithm and empirically find that our diversity-driven approach can extrapolate to various changes in the environment and task.
翻訳日:2022-10-02 12:32:31 公開日:2020-12-07
# 短文会話における潜在パターンの予測と利用

Predict and Use Latent Patterns for Short-Text Conversation ( http://arxiv.org/abs/2010.13982v2 )

ライセンス: Link先を確認
Hung-Ting Chen, Yu-Chieh Chao, Ta-Hsuan Chao, Wei-Yun Ma(参考訳) 現在、多くのニューラルネットワークモデルは、Chit-chat設定で有望なパフォーマンスを実現している。 大多数は、投稿を理解するためのエンコーダと、レスポンスを生成するためのデコーダに依存しています。 割り当てられたセマンティクスがなければ、投稿とレスポンス間のセマンティクスマッピングがエンドツーエンドのやり方でハエに隠されるため、モデルにはレスポンスに対するきめ細かい制御が欠けている。 以前の研究では、サンプル潜在単語を制御可能なセマンティックフォームとして使用して、作業のまわりで生成された応答を駆動していたが、より複雑なセマンティックパターンを使用して生成を誘導しようとする研究はほとんどなかった。 本稿では,その生成を誘導する制御可能なセマンティクスとして,対応する分布からサンプリングされた潜在応答や部分音声シーケンスを含む,より詳細なセマンティクス形式を提案する。 その結果,よりリッチなセマンティクスは,情報的かつ多様な応答を提供するだけでなく,フラレンスやコヒーレンスを含む応答品質の全体的な性能を向上させることができることがわかった。

Many neural network models nowadays have achieved promising performances in Chit-chat settings. The majority of them rely on an encoder for understanding the post and a decoder for generating the response. Without given assigned semantics, the models lack the fine-grained control over responses as the semantic mapping between posts and responses is hidden on the fly within the end-to-end manners. Some previous works utilize sampled latent words as a controllable semantic form to drive the generated response around the work, but few works attempt to use more complex semantic patterns to guide the generation. In this paper, we propose to use more detailed semantic forms, including latent responses and part-of-speech sequences sampled from the corresponding distributions, as the controllable semantics to guide the generation. Our results show that the richer semantics are not only able to provide informative and diverse responses, but also increase the overall performance of response quality, including fluency and coherence.
翻訳日:2022-10-02 11:04:09 公開日:2020-12-07
# 拡張カルマンフィルタを用いたIMUとRGBカメラデータの融合による足部運動追跡

Human Leg Motion Tracking by Fusing IMUs and RGB Camera Data Using Extended Kalman Filter ( http://arxiv.org/abs/2011.00574v2 )

ライセンス: Link先を確認
Omid Taheri, Hassan Salarieh, Aria Alasty(参考訳) ヒューマンモーションキャプチャは、リハビリテーションや臨床問題の研究や、エンターテイメント業界にリアルなアニメーションを提供するためによく用いられる。 imuベースのシステムやマーカーベースのモーショントラッキングシステムは、実装コストが低く軽量であるため、移動を追跡する最も一般的な方法である。 本稿では、カメラマーカーシステムデータと融合したIMUセンサデータを用いて、四元数に基づく拡張カルマンフィルタを用いて、人間の足のセグメントの動きを復元する手法を提案する。 本論文では,2台のIMUと1台のRGBカメラによる足の動き追跡のための拡張カルマンフィルタ手法を開発した。 新たに導入された計測モデルでは,慣性センサとカメラマーカシステムの相補的な特性に基づいて,上肢と下腿の向きデータを3つの計測式で更新する。 カメラマーカーシステムにより骨盤関節の位置追跡により人体の位置決めが可能となる。 数学的モデルを用いて関節の深さを2次元画像で推定する。 提案アルゴリズムの効率を光学式モーショントラッカシステムを用いて評価した。

Human motion capture is frequently used to study rehabilitation and clinical problems, as well as to provide realistic animation for the entertainment industry. IMU-based systems, as well as Marker-based motion tracking systems, are the most popular methods to track movement due to their low cost of implementation and lightweight. This paper proposes a quaternion-based Extended Kalman filter approach to recover the human leg segments motions with a set of IMU sensors data fused with camera-marker system data. In this paper, an Extended Kalman Filter approach is developed to fuse the data of two IMUs and one RGB camera for human leg motion tracking. Based on the complementary properties of the inertial sensors and camera-marker system, in the introduced new measurement model, the orientation data of the upper leg and the lower leg is updated through three measurement equations. The positioning of the human body is made possible by the tracked position of the pelvis joint by the camera marker system. A mathematical model has been utilized to estimate joints' depth in 2D images. The efficiency of the proposed algorithm is evaluated by an optical motion tracker system.
翻訳日:2022-09-30 23:29:01 公開日:2020-12-07
# Bait and Switch: 自律運転システムのオンライントレーニングデータ収集

Bait and Switch: Online Training Data Poisoning of Autonomous Driving Systems ( http://arxiv.org/abs/2011.04065v2 )

ライセンス: Link先を確認
Naman Patel, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami(参考訳) トレーニング済みのディープニューラルネットワーク(DNN)がオンラインで微調整されている物理的環境の一部を制御することで、敵はシステムの性能を低下させる微妙なデータ中毒攻撃を発生させることができる。 この攻撃は、一般にあらゆる知覚タスクに適用できるが、ある都市で訓練され、別の都市でオンラインで微調整されている自動運転車のDNNベースの信号分類器を考える。 そこで本研究では,トラヒックライト自体や地中ラベルを変更しない環境摂動を注入することで,オンライン学習の過程でディープネットワークがスプリアス概念を学習できることを示す。 攻撃者は、導入されたスプリアスの概念を環境に利用して、動作中にモデルの精度を低下させ、システムの故障を引き起こすことができる。

We show that by controlling parts of a physical environment in which a pre-trained deep neural network (DNN) is being fine-tuned online, an adversary can launch subtle data poisoning attacks that degrade the performance of the system. While the attack can be applied in general to any perception task, we consider a DNN based traffic light classifier for an autonomous car that has been trained in one city and is being fine-tuned online in another city. We show that by injecting environmental perturbations that do not modify the traffic lights themselves or ground-truth labels, the adversary can cause the deep network to learn spurious concepts during the online learning phase. The attacker can leverage the introduced spurious concepts in the environment to cause the model's accuracy to degrade during operation; therefore, causing the system to malfunction.
翻訳日:2022-09-28 08:55:09 公開日:2020-12-07
# 難解な視覚表現の教師なし学習

Unsupervised Learning of Dense Visual Representations ( http://arxiv.org/abs/2011.05499v2 )

ライセンス: Link先を確認
Pedro O. Pinheiro, Amjad Almahairi, Ryan Y. Benmalek, Florian Golemo, Aaron Courville(参考訳) 対照的な自己教師あり学習は教師なしの視覚表現学習に有望なアプローチとして現れてきた。 一般に、これらの手法は、同じ画像の異なるビュー(すなわちデータ拡張の構成)に不変なグローバル(イメージレベル)表現を学習する。 しかし、多くの視覚的理解タスクは密度(ピクセルレベル)の表現を必要とする。 本稿では,高密度表現の教師なし学習のためのVADeR(View-Agnostic Dense Representation)を提案する。 VADeRは、異なる視聴条件に対して局所的な特徴を一定に保ち続けるように強制することで、ピクセルワイズ表現を学習する。 特に、これはピクセルレベルのコントラスト学習によって達成される: マッチング機能(つまり、異なるビュー上のシーンの同じ位置を示す機能)は、埋め込み空間に近くなければならないが、非マッチング機能は分離されるべきである。 VADeRは、密度の高い予測タスクの自然な表現を提供し、下流タスクにうまく転送する。 提案手法は、複数の密集予測タスクにおいて、ImageNetの教師付き事前学習(および強力な教師なしベースライン)より優れる。

Contrastive self-supervised learning has emerged as a promising approach to unsupervised visual representation learning. In general, these methods learn global (image-level) representations that are invariant to different views (i.e., compositions of data augmentation) of the same image. However, many visual understanding tasks require dense (pixel-level) representations. In this paper, we propose View-Agnostic Dense Representation (VADeR) for unsupervised learning of dense representations. VADeR learns pixelwise representations by forcing local features to remain constant over different viewing conditions. Specifically, this is achieved through pixel-level contrastive learning: matching features (that is, features that describes the same location of the scene on different views) should be close in an embedding space, while non-matching features should be apart. VADeR provides a natural representation for dense prediction tasks and transfers well to downstream tasks. Our method outperforms ImageNet supervised pretraining (and strong unsupervised baselines) in multiple dense prediction tasks.
翻訳日:2022-09-27 00:17:43 公開日:2020-12-07
# クラスタリングに基づく契約からの法的実体知識ベースの自動構築

Clustering-based Automatic Construction of Legal Entity Knowledge Base from Contracts ( http://arxiv.org/abs/2012.01942v2 )

ライセンス: Link先を確認
Fuqi Song and \'Eric de la Clergerie(参考訳) 契約分析と契約自動化では、契約検証、契約生成、契約分析などのタスクを実行するための法的実体の知識ベース(kb)が基本である。 しかし、このようなKBは必ずしも存在せず、短期間で生産されることもある。 本稿では,所定の契約から法的実体の信頼できる知識ベースを,補足的な参照なしに自動生成するクラスタリングに基づくアプローチを提案する。 提案手法は,オプティカル文字認識 (OCR) や名前付きエンティティ認識 (NER) などの前処理によって生じる様々なエラーに対して,タイポスなどの編集エラーに対して頑健である。 本手法は,15クライアントの様々な品質を持つ800実契約からなるデータセット上で評価する。 収集された地中データと比較すると,本手法は知識の84\%を思い出すことができる。

In contract analysis and contract automation, a knowledge base (KB) of legal entities is fundamental for performing tasks such as contract verification, contract generation and contract analytic. However, such a KB does not always exist nor can be produced in a short time. In this paper, we propose a clustering-based approach to automatically generate a reliable knowledge base of legal entities from given contracts without any supplemental references. The proposed method is robust to different types of errors brought by pre-processing such as Optical Character Recognition (OCR) and Named Entity Recognition (NER), as well as editing errors such as typos. We evaluate our method on a dataset that consists of 800 real contracts with various qualities from 15 clients. Compared to the collected ground-truth data, our method is able to recall 84\% of the knowledge.
翻訳日:2022-09-24 03:19:03 公開日:2020-12-07
# Transdisciplinary AI Observatory --Retrospective Analyss and Future-Oriented Contradistinctions

Transdisciplinary AI Observatory -- Retrospective Analyses and Future-Oriented Contradistinctions ( http://arxiv.org/abs/2012.02592v2 )

ライセンス: Link先を確認
Nadisha-Marie Aliman, Leon Kester, and Roman Yampolskiy(参考訳) ここ数年、AIの安全性は、AIの幅広い有益な影響を覆すリスクを克服する不均一な安全クリティカルで倫理的な問題に照らして国際的に認識されるようになった。 この文脈では、AI観測の取り組みの実装は1つの重要な研究方向を表している。 本稿では,多様なふりかえりと反現実的視点を統合した,本質的に学際的なAI観測アプローチの必要性を示唆する。 具体的実例を活用しながら,目標と限界を明確にする。 意図的・意図的に引き起こされるAIリスクと、多様な社会-心理学的影響によるAIリスクの区別は、ふりかえりの説明的分析に続いて、ふりかえりの事実的リスク分析を例証する。 これらのAI観測ツールに基づいて、我々はAIの安全性に関する短期的な学際的ガイドラインを提示する。 さらなる貢献として、2つの異なる近代AI安全パラダイムのレンズを通して、差別化および調整された長期的な方向性について議論する。 単純性については、これら2つのパラダイムをそれぞれ、人工愚かさ(AS)と永遠創造性(EC)という用語で言及する。 asとecは、aiの安全性と多くの短期的考慮に関して、ハイブリッドな認知的-適応的アプローチの必要性を認識しているが、それらは、複数の長期的ソリューションパターンの性質において根本的に異なる。 基礎となる反証をコンパイルすることで、実用的および理論的ai安全性研究における建設的弁証法に対する将来のインセンティブを提供することを目標とする。

In the last years, AI safety gained international recognition in the light of heterogeneous safety-critical and ethical issues that risk overshadowing the broad beneficial impacts of AI. In this context, the implementation of AI observatory endeavors represents one key research direction. This paper motivates the need for an inherently transdisciplinary AI observatory approach integrating diverse retrospective and counterfactual views. We delineate aims and limitations while providing hands-on-advice utilizing concrete practical examples. Distinguishing between unintentionally and intentionally triggered AI risks with diverse socio-psycho-technological impacts, we exemplify a retrospective descriptive analysis followed by a retrospective counterfactual risk analysis. Building on these AI observatory tools, we present near-term transdisciplinary guidelines for AI safety. As further contribution, we discuss differentiated and tailored long-term directions through the lens of two disparate modern AI safety paradigms. For simplicity, we refer to these two different paradigms with the terms artificial stupidity (AS) and eternal creativity (EC) respectively. While both AS and EC acknowledge the need for a hybrid cognitive-affective approach to AI safety and overlap with regard to many short-term considerations, they differ fundamentally in the nature of multiple envisaged long-term solution patterns. By compiling relevant underlying contradistinctions, we aim to provide future-oriented incentives for constructive dialectics in practical and theoretical AI safety research.
翻訳日:2022-09-20 12:17:59 公開日:2020-12-07
# ビデオ質問応答のためのオープンエンドマルチモーダルリレーショナル理由

Open-Ended Multi-Modal Relational Reason for Video Question Answering ( http://arxiv.org/abs/2012.00822v2 )

ライセンス: Link先を確認
Haozheng Luo, Ruiyang Qin(参考訳) 視覚障害のある人は、オブジェクトの誘導や検索といった基本的なタスクだけでなく、新しい環境を撮影するといった高度なタスクにも助けを必要とします。 ガイド犬というよりは、言語的な相互作用を提供するデバイスを欲しがるかもしれません。 さまざまな研究文献に基づいて,ロボットエージェントと視覚障害者のインタラクションに関する研究を行う。 VQA技術を適用したロボットエージェントは、環境を分析し、発音された質問を処理し、理解し、人間のユーザにフィードバックを提供することができる。 本稿では,この種のインタラクション,本研究で使用する技術,研究の実施方法について,関連する質問について考察する。

People with visual impairments urgently need helps, not only on the basic tasks such as guiding and retrieving objects , but on the advanced tasks like picturing the new environments. More than a guiding dog, they might want some devices which are able to provide linguistic interaction. Building on various research literature, we aim to conduct a research on the interaction between the robot agent and visual impaired people. The robot agent, applied VQA techniques, is able to analyze the environment, process and understand the pronouncing questions, and provide feedback to the human user. In this paper, we are going to discuss the related questions about this kind of interaction, the techniques we used in this work, and how we conduct our research.
翻訳日:2021-05-30 19:37:11 公開日:2020-12-07
# (参考訳) 新型コロナウイルスのパンデミックでワクチンの感情が低下する機械学習のコンセプトドリフト

Addressing machine learning concept drift reveals declining vaccine sentiment during the COVID-19 pandemic ( http://arxiv.org/abs/2012.02197v2 )

ライセンス: CC BY 4.0
Martin M\"uller, Marcel Salath\'e(参考訳) ソーシャルメディア分析は、健康に関するトピックを含む様々なトピックに関する世論をほぼリアルタイムで評価するための一般的なアプローチとなっている。 ソーシャルメディアの投稿数の増加は、自然言語処理における現代の機械学習手法の利用の増加につながった。 ソーシャルメディアの急速なダイナミクスは、基盤となるトレンドを素早く捉えることができるが、同時に技術的な問題も生じている。 概念ドリフトとして知られるこの現象は、関心事自体の話題や話題の議論の仕方で急激な変化が起こる場合、特に問題となることがある。 ここでは、特にCOVID-19パンデミックにおいて重要な話題であるTwitter上で表現されたワクチンの感情に焦点をあてて、機械学習の概念が漂流する影響について検討する。 2020年の新型コロナウイルス(COVID-19)パンデミック(COVID-19)パンデミック(パンデミック)のパンデミック(パンデミック)前のデータで訓練されたアルゴリズムは、コンセプトの漂流のためにこの減少をほとんど見逃していただろう。 以上の結果から, ソーシャルメディア分析システムでは, データの体系的誤分類のリスクを回避するために, 概念の漂流を連続的に解決しなければならないことが示唆された。

Social media analysis has become a common approach to assess public opinion on various topics, including those about health, in near real-time. The growing volume of social media posts has led to an increased usage of modern machine learning methods in natural language processing. While the rapid dynamics of social media can capture underlying trends quickly, it also poses a technical problem: algorithms trained on annotated data in the past may underperform when applied to contemporary data. This phenomenon, known as concept drift, can be particularly problematic when rapid shifts occur either in the topic of interest itself, or in the way the topic is discussed. Here, we explore the effect of machine learning concept drift by focussing on vaccine sentiments expressed on Twitter, a topic of central importance especially during the COVID-19 pandemic. We show that while vaccine sentiment has declined considerably during the COVID-19 pandemic in 2020, algorithms trained on pre-pandemic data would have largely missed this decline due to concept drift. Our results suggest that social media analysis systems must address concept drift in a continuous fashion in order to avoid the risk of systematic misclassification of data, which is particularly likely during a crisis when the underlying data can change suddenly and rapidly.
翻訳日:2021-05-23 18:59:25 公開日:2020-12-07
# 能動学習によるスパース半監督行動認識

Sparse Semi-Supervised Action Recognition with Active Learning ( http://arxiv.org/abs/2012.01740v2 )

ライセンス: Link先を確認
Jingyuan Li and Eli Shlizerman(参考訳) スケルトンに基づく行動認識のための最先端の手法は監督され、ラベルに依存している。 アノテーションやラベルのつかないデータに関わる問題により、依存度はパフォーマンスを制限しています。 教師なしの手法が導入されたが、クラスタにシーケンスを整理し、クラスタとアクションを関連付けるためにラベルを必要とする。 本稿では,これらのアプローチをつなぐスケルトンベース行動認識のための新しいアプローチであるsesarを提案する。 SESARはラベルなしデータとラベル付けのためにアクティブに選択された少数のシーケンスの両方からの情報を活用する。 SESARは2つの主要コンポーネントから構成されており、第1のコンポーネントは、シーケンスを再構成するエンコーダ・デコーダRNNを介してラベルなしのアクションシーケンスの潜在表現を学習し、第2のコンポーネントはクラスタと分類の不確実性に基づいてラベル付けされるシーケンスを選択するアクティブ学習を行う。 2つのコンポーネントが骨格に基づくアクションシーケンスで同時にトレーニングされると、少数のラベル付きサンプルでのみ動作認識を行う堅牢なシステムに対応する。 我々は,NW UCLA,NTU RGB+D 60,UWA3Dなど,複数のシーケンスと動作を持つ共通データセット上で評価を行った。 その結果,スケルトンに基づく教師付き,クラスタ同定による教師なし,およびスパルトラベル標本に適用した場合の行動認識のためのアクティブラーニング手法を1%以下で上回った。

Current state-of-the-art methods for skeleton-based action recognition are supervised and rely on labels. The reliance is limiting the performance due to the challenges involved in annotation and mislabeled data. Unsupervised methods have been introduced, however, they organize sequences into clusters and still require labels to associate clusters with actions. In this paper, we propose a novel approach for skeleton-based action recognition, called SESAR, that connects these approaches. SESAR leverages the information from both unlabeled data and a handful of sequences actively selected for labeling, combining unsupervised training with sparsely supervised guidance. SESAR is composed of two main components, where the first component learns a latent representation for unlabeled action sequences through an Encoder-Decoder RNN which reconstructs the sequences, and the second component performs active learning to select sequences to be labeled based on cluster and classification uncertainty. When the two components are simultaneously trained on skeleton-based action sequences, they correspond to a robust system for action recognition with only a handful of labeled samples. We evaluate our system on common datasets with multiple sequences and actions, such as NW UCLA, NTU RGB+D 60, and UWA3D. Our results outperform standalone skeleton-based supervised, unsupervised with cluster identification, and active-learning methods for action recognition when applied to sparse labeled samples, as low as 1% of the data.
翻訳日:2021-05-23 15:07:32 公開日:2020-12-07
# (参考訳) trollhunter [evader]:covid-19パンデミックにおけるtwitterのトロルの自動検出 [エベイション]

TrollHunter [Evader]: Automated Detection [Evasion] of Twitter Trolls During the COVID-19 Pandemic ( http://arxiv.org/abs/2012.02586v2 )

ライセンス: CC BY 4.0
Peter Jachim and Filipo Sharevski and Paige Treebridge(参考訳) 本稿では、2020年の新型コロナウイルス(COVID-19)パンデミックでTwitterでトロルを探すために使った自動推論メカニズムであるTrollHunterを紹介する。 オンラインの会話を混乱させ、偽情報を広めるために準備されたトロルは、すぐにcovid-19に対する信頼できる対応の欠如を捉え、twitterで疑わしいコンテンツを公布することで、covid-19インフォデミックを生み出した。 新型コロナウイルス(COVID-19)のインフォデミックに対抗するために、TrollHunterは、Twitterの多次元コンテンツ機能のユニークな言語分析を利用して、ツイートがトロールを意図したかどうかを検出する。 TrollHunterは98.5%の精度、75.4%の精度、69.8%のリコールを達成した。 パンデミックの最終的な解決が見えなければ、トロールが脱落する可能性は低いが、自動狩猟を回避せざるを得ない可能性がある。 この戦略の可能性を探るため,我々は対人学習機構であるtrollhunter-evaderを開発した。 TrollHunter-Evaderは、オリジナルのトロルツイートをリサイクルするMarkovチェーンベースのメカニズムと組み合わせて、テストタイムエクスベイジョン(TTE)アプローチを採用している。 リサイクルされたツイートは、トロルハンガーのトロルツイートを正しく識別する能力において、顕著な40%の減少を達成することができた。 新型コロナウイルス(COVID-19)のインフォデミックが新型コロナウイルス(COVID-19)のパンデミックに悪影響を及ぼす可能性があるため、Twitterのトロルハントを避けるために、敵対的機械学習を採用することの意味について、精巧に議論する。

This paper presents TrollHunter, an automated reasoning mechanism we used to hunt for trolls on Twitter during the COVID-19 pandemic in 2020. Trolls, poised to disrupt the online discourse and spread disinformation, quickly seized the absence of a credible response to COVID-19 and created a COVID-19 infodemic by promulgating dubious content on Twitter. To counter the COVID-19 infodemic, the TrollHunter leverages a unique linguistic analysis of a multi-dimensional set of Twitter content features to detect whether or not a tweet was meant to troll. TrollHunter achieved 98.5% accuracy, 75.4% precision and 69.8% recall over a dataset of 1.3 million tweets. Without a final resolution of the pandemic in sight, it is unlikely that the trolls will go away, although they might be forced to evade automated hunting. To explore the plausibility of this strategy, we developed and tested an adversarial machine learning mechanism called TrollHunter-Evader. TrollHunter-Evader employs a Test Time Evasion (TTE) approach in a combination with a Markov chain-based mechanism to recycle originally trolling tweets. The recycled tweets were able to achieve a remarkable 40% decrease in the TrollHunter's ability to correctly identify trolling tweets. Because the COVID-19 infodemic could have a harmful impact on the COVID-19 pandemic, we provide an elaborate discussion about the implications of employing adversarial machine learning to evade Twitter troll hunts.
翻訳日:2021-05-23 05:06:42 公開日:2020-12-07
# (参考訳) TrollHunter2020:2020年の米国大統領選挙でTwitter上でのトロール記事のリアルタイム検出

TrollHunter2020: Real-Time Detection of Trolling Narratives on Twitter During the 2020 US Elections ( http://arxiv.org/abs/2012.02606v2 )

ライセンス: CC BY 4.0
Peter Jachim and Filipo Sharevski and Emma Pieroni(参考訳) 本稿は、2020年の米国大統領選挙でTwitter上でのトロール物語をリアルタイムに検出するメカニズムであるTrollHunter2020を提示する。 トロール的な物語は、2020年のアメリカ合衆国大統領選挙のような二極化イベントの代替説明としてtwitterで形成され、情報操作や感情的な反応を誘発することを目的としている。 したがって、トロリングの物語を検知することは、Twitter上の建設的な会話を保存し、誤情報の流入を取り除くための必須ステップである。 既存の技術を利用することで、時間と豊富なデータが必要となり、急速に変化する選挙サイクルでは、高い利害が得られない可能性がある。 この制限を克服するため、我々はTrollHunter2020を開発し、候補者の討論、選挙の夜、選挙の余波に対応する数十のトレンドTwitterトピックやハッシュタグをリアルタイムで探しました。 trollhunter2020はトレンドデータを収集し、twitter上に現れるトロール物語の構築に使用されるトップ名詞と動詞の有意義な関係を検出するために対応分析を利用する。 以上の結果から,トロルフンター2020は,未解決の偏光現象のごく初期の段階において,現生のトロール物語を捉えていることが示唆された。 本稿では,情報操作やトロールの早期検出におけるtrollhunter2020の有用性と,その利用が,分極化トピックに関するプラットフォーム上の制約的談話を支援する上での意義について考察する。

This paper presents TrollHunter2020, a real-time detection mechanism we used to hunt for trolling narratives on Twitter during the 2020 U.S. elections. Trolling narratives form on Twitter as alternative explanations of polarizing events like the 2020 U.S. elections with the goal to conduct information operations or provoke emotional response. Detecting trolling narratives thus is an imperative step to preserve constructive discourse on Twitter and remove an influx of misinformation. Using existing techniques, this takes time and a wealth of data, which, in a rapidly changing election cycle with high stakes, might not be available. To overcome this limitation, we developed TrollHunter2020 to hunt for trolls in real-time with several dozens of trending Twitter topics and hashtags corresponding to the candidates' debates, the election night, and the election aftermath. TrollHunter2020 collects trending data and utilizes a correspondence analysis to detect meaningful relationships between the top nouns and verbs used in constructing trolling narratives while they emerge on Twitter. Our results suggest that the TrollHunter2020 indeed captures the emerging trolling narratives in a very early stage of an unfolding polarizing event. We discuss the utility of TrollHunter2020 for early detection of information operations or trolling and the implications of its use in supporting a constrictive discourse on the platform around polarizing topics.
翻訳日:2021-05-23 04:27:57 公開日:2020-12-07
# 超自己性:pytorchによる画像の自己教師付き学習

Super-Selfish: Self-Supervised Learning on Images with PyTorch ( http://arxiv.org/abs/2012.02706v2 )

ライセンス: Link先を確認
Nicolas Wagner, Anirban Mukhopadhyay(参考訳) Super-Selfishは、イメージベースの自己教師型学習にPyTorchフレームワークを使用するのが簡単である。 シンプルな分類から、theartのコントラストプリテキストタスクのより複雑な状態まで、13のアルゴリズムで機能を学ぶことができる。 このフレームワークは使いやすく、2行のコードだけで任意のPyTorchニューラルネットワークを事前トレーニングすることができる。 同時に、完全な柔軟性はモジュール設計の選択によって維持される。 コードはhttps://github.com/MECLabTUDA/Super_Selfishで参照でき、pip install super-selfishを使ってインストールできる。

Super-Selfish is an easy to use PyTorch framework for image-based self-supervised learning. Features can be learned with 13 algorithms that span from simple classification to more complex state of theart contrastive pretext tasks. The framework is easy to use and allows for pretraining any PyTorch neural network with only two lines of code. Simultaneously, full flexibility is maintained through modular design choices. The code can be found at https://github.com/MECLabTUDA/Super_Selfish and installed using pip install super-selfish.
翻訳日:2021-05-22 20:39:31 公開日:2020-12-07
# (参考訳) John Simplex with Positive Dilation について

A Note on John Simplex with Positive Dilation ( http://arxiv.org/abs/2012.03427v1 )

ライセンス: CC BY 4.0
Zhou Lu(参考訳) 我々は、前述した$d^2$の上界を改善する正の拡張係数 $d+2$ を持つ$R^d$ の単純化に対するジョンズ定理を証明する。 このバウンドは$d$下限の観点からは厳密である。 さらに、$d$が$d=2$のときの最適下限ではないという例を示す。 以上の結果から, 正の拡張を伴う単純化に対するジョンズ定理に関する2つの疑問に答えることができた。

We prove a Johns theorem for simplices in $R^d$ with positive dilation factor $d+2$, which improves the previously known $d^2$ upper bound. This bound is tight in view of the $d$ lower bound. Furthermore, we give an example that $d$ isn't the optimal lower bound when $d=2$. Our results answered both questions regarding Johns theorem for simplices with positive dilation raised by \cite{leme2020costly}.
翻訳日:2021-05-21 09:15:33 公開日:2020-12-07
# (参考訳) 近似勾配降下によるグラフニューラルネットワークの学習

Learning Graph Neural Networks with Approximate Gradient Descent ( http://arxiv.org/abs/2012.03429v1 )

ライセンス: CC BY 4.0
Qunwei Li and Shaofeng Zou and Wenliang Zhong(参考訳) 本稿では,ノード情報畳み込みのための隠れ層を持つグラフニューラルネットワーク(GNN)を学習するアルゴリズムについて述べる。 ラベルがノードやグラフにアタッチされているかどうかによって、2種類のGNNが調査される。 gnnトレーニングアルゴリズムの設計と解析のための包括的なフレームワークを開発した。 提案アルゴリズムは,ReLU,Leaky ReLU,Sigmod,Softplus,Swishなど,幅広い活性化関数に適用可能である。 提案アルゴリズムは,GNNの根底にある真のパラメータに対する線形収束率を保証する。 いずれのタイプのgnnにおいても、ノード数やグラフ数の観点からのサンプル複雑性が特徴である。 特徴量とGNN構造が収束率に及ぼす影響も理論的に評価されている。 理論解析を検証するために, 数値実験も行われている。

The first provably efficient algorithm for learning graph neural networks (GNNs) with one hidden layer for node information convolution is provided in this paper. Two types of GNNs are investigated, depending on whether labels are attached to nodes or graphs. A comprehensive framework for designing and analyzing convergence of GNN training algorithms is developed. The algorithm proposed is applicable to a wide range of activation functions including ReLU, Leaky ReLU, Sigmod, Softplus and Swish. It is shown that the proposed algorithm guarantees a linear convergence rate to the underlying true parameters of GNNs. For both types of GNNs, sample complexity in terms of the number of nodes or the number of graphs is characterized. The impact of feature dimension and GNN structure on the convergence rate is also theoretically characterized. Numerical experiments are further provided to validate our theoretical analysis.
翻訳日:2021-05-21 09:10:29 公開日:2020-12-07
# (参考訳) mfst:カスタムセミリングとjupyterノートブックをサポートするpythonのopenfstラッパー

MFST: A Python OpenFST Wrapper With Support for Custom Semirings and Jupyter Notebooks ( http://arxiv.org/abs/2012.03437v1 )

ライセンス: CC BY 4.0
Matthew Francis-Landau(参考訳) 本稿では,OpenFSTに基づくFinite-State Machinesで動作する新しいPythonライブラリであるmFSTを紹介する。 mFSTはOpenFSTの薄いラッパーであり、FSTを操作するOpenFSTのすべてのメソッドを公開する。 さらに、mFSTはOpenFST用の唯一のPythonラッパーであり、OpenFSTのカスタムセミリングを定義する能力を公開する。 これによりmFSTは、FSTの重みを学習したり、ニューラルネットワークFSTを作成するモデルを開発するのに理想的になる。 mFSTは簡単に始められるように設計されており、以前はNLPクラスの宿題や、FSTとニューラルネットワークを統合するプロジェクトで使われてきた。 本稿では,mFST APIとmFSTを用いてPyTorchを用いた単純なニューラルネットワークFSTを構築する方法について述べる。

This paper introduces mFST, a new Python library for working with Finite-State Machines based on OpenFST. mFST is a thin wrapper for OpenFST and exposes all of OpenFST's methods for manipulating FSTs. Additionally, mFST is the only Python wrapper for OpenFST that exposes OpenFST's ability to define a custom semirings. This makes mFST ideal for developing models that involve learning the weights on a FST or creating neuralized FSTs. mFST has been designed to be easy to get started with and has been previously used in homework assignments for a NLP class as well in projects for integrating FSTs and neural networks. In this paper, we exhibit mFST API and how to use mFST to build a simple neuralized FST with PyTorch.
翻訳日:2021-05-21 07:29:26 公開日:2020-12-07
# (参考訳) 伝達学習を用いた軽量3次元CNNに基づくハイパースペクトル分類

Hyperspectral Classification Based on Lightweight 3-D-CNN With Transfer Learning ( http://arxiv.org/abs/2012.03439v1 )

ライセンス: CC BY 4.0
Haokui Zhang, Ying Li, Yenan Jiang, Peng Wang, Qiang Shen, and Chunhua Shen(参考訳) 近年,ディープラーニング(DL)モデルに基づくハイパースペクトル画像(HSI)分類手法が提案され,有望な性能を示した。 しかし、非常に限られたトレーニングサンプルと膨大なモデルパラメータのため、DLメソッドは過度な適合に悩まされる可能性がある。 本稿では,サンプルベースhsi分類のためのエンドツーエンドの3次元軽量畳み込みニューラルネットワーク(cnn,3d-lwnet)を提案する。 従来の3D-CNNモデルと比較して,提案した3D-LWNetはネットワーク構造が深く,パラメータが小さく,計算コストも低く,分類性能が向上した。 1) ラベル付きサンプルを多く含むソースhsiデータセットで3次元モデルをプリトレーニングし、その後ターゲットhsiデータセットに転送するクロスセンサ戦略、2) 多数のサンプルを含む2次元rgb画像データセットで3次元モデルをプリトレーニングし、ターゲットhsiデータセットに転送するクロスモーダル戦略、という2つのトランスファー学習戦略を提案する。 従来のアプローチとは対照的に、対象とするデータセットと同じセンサで収集する必要のない、ソースデータセットに対する制限は課しません。 異なるセンサで取得した3つのhsiデータセットを用いた実験により,本モデルがhsi分類の競合性能を達成することを実証した。

Recently, hyperspectral image (HSI) classification approaches based on deep learning (DL) models have been proposed and shown promising performance. However, because of very limited available training samples and massive model parameters, DL methods may suffer from overfitting. In this paper, we propose an end-to-end 3-D lightweight convolutional neural network (CNN) (abbreviated as 3-D-LWNet) for limited samples-based HSI classification. Compared with conventional 3-D-CNN models, the proposed 3-D-LWNet has a deeper network structure, less parameters, and lower computation cost, resulting in better classification performance. To further alleviate the small sample problem, we also propose two transfer learning strategies: 1) cross-sensor strategy, in which we pretrain a 3-D model in the source HSI data sets containing a greater number of labeled samples and then transfer it to the target HSI data sets and 2) cross-modal strategy, in which we pretrain a 3-D model in the 2-D RGB image data sets containing a large number of samples and then transfer it to the target HSI data sets. In contrast to previous approaches, we do not impose restrictions over the source data sets, in which they do not have to be collected by the same sensors as the target data sets. Experiments on three public HSI data sets captured by different sensors demonstrate that our model achieves competitive performance for HSI classification compared to several state-of-the-art methods
翻訳日:2021-05-21 07:21:34 公開日:2020-12-07
# (参考訳) リカレント生成モデルを用いたロボット経路計画のための効率的なヒューリスティック生成

Efficient Heuristic Generation for Robot Path Planning with Recurrent Generative Model ( http://arxiv.org/abs/2012.03449v1 )

ライセンス: CC BY 4.0
Zhaoting Li, Jiankun Wang and Max Q.-H. Meng(参考訳) 2次元環境においても、結果の最適性とアルゴリズムの複雑さの矛盾のため、ロボットパスの計画は困難である。 最適な経路を見つけるには、アルゴリズムは全ての状態空間を探索する必要がある。 本稿では,経路計画アルゴリズムの探索労力を削減するために,効率的なヒューリスティックを生成するrgm(recurrent generative model)を提案する。 このRGMモデルは、出力をリフレッシュすることでヒューリスティックを生成する新しいジェネレータと、ヒューリスティックの接続性や安全性をチェックする2つの識別器で構成されるGAN(General Generative Adversarial Network)の枠組みを採用する。 提案するRGMモジュールは, 各種2次元環境において実効性と効率性を示す。 その結果, RGM は, 目視と新しい目視マップの両方において, 高い精度で適切なヒューリスティックなヒューリスティックを生成できることが示され, このモデルの優れた一般化能力が示された。 また、高速探索ランダムツリースター(RRT*)と4つの異なるマップにおける従来のRT*とを比較した結果、生成したヒューリスティックは、より高速で効率的な方法で初期解と最適解の両方を見つけることができることがわかった。

Robot path planning is difficult to solve due to the contradiction between optimality of results and complexity of algorithms, even in 2D environments. To find an optimal path, the algorithm needs to search all the state space, which costs a lot of computation resource. To address this issue, we present a novel recurrent generative model (RGM) which generates efficient heuristic to reduce the search efforts of path planning algorithm. This RGM model adopts the framework of general generative adversarial networks (GAN), which consists of a novel generator that can generate heuristic by refining the outputs recurrently and two discriminators that check the connectivity and safety properties of heuristic. We test the proposed RGM module in various 2D environments to demonstrate its effectiveness and efficiency. The results show that the RGM successfully generates appropriate heuristic in both seen and new unseen maps with a high accuracy, demonstrating the good generalization ability of this model. We also compare the rapidly-exploring random tree star (RRT*) with generated heuristic and the conventional RRT* in four different maps, showing that the generated heuristic can guide the algorithm to find both initial and optimal solution in a faster and more efficient way.
翻訳日:2021-05-21 06:58:04 公開日:2020-12-07
# (参考訳) CX DB8: クエリ可能な抽出要約とセマンティック検索エンジン

CX DB8: A queryable extractive summarizer and semantic search engine ( http://arxiv.org/abs/2012.03942v1 )

ライセンス: CC BY 4.0
Allen Roush(参考訳) 競争力のあるDebateの技術的性質は、エビデンス生産を加速するツールを競争相手に求めている。 競争的討論者による一意的な抽出要約と特定の目的に対するバイアスは、教師なし事前学習テキストベクトル化モデルにおける最新の革新を用いて行うことができる。 本稿では,arbitarily size textの迅速かつ偏りのある要約を可能にする,クエリ可能な単語レベルの要約および証拠作成フレームワークであるcx_db8を紹介する。 CX_DB8は組み込みフレームワークであるFrairを使用するため、基盤となるモデルが改善されるにつれて、CX_DB8も改善される。 cx_db8はセマンティック検索エンジンとしても機能し、プログラムやウェブページの従来の「検索」機能の補足としてアプリケーションを備えている。 CX_DB8は現在競争相手によって使用されており、https://github.com/HellisotherPeople/CX_DB8で公開されている。

Competitive Debate's increasingly technical nature has left competitors looking for tools to accelerate evidence production. We find that the unique type of extractive summarization performed by competitive debaters - summarization with a bias towards a particular target meaning - can be performed using the latest innovations in unsupervised pre-trained text vectorization models. We introduce CX_DB8, a queryable word-level extractive summarizer and evidence creation framework, which allows for rapid, biasable summarization of arbitarily sized texts. CX_DB8s usage of the embedding framework Flair means that as the underlying models improve, CX_DB8 will also improve. We observe that CX_DB8 also functions as a semantic search engine, and has application as a supplement to traditional "find" functionality in programs and webpages. CX_DB8 is currently used by competitive debaters and is made available to the public at https://github.com/Hellisotherpeople/CX_DB8
翻訳日:2021-05-21 06:45:43 公開日:2020-12-07
# (参考訳) 眼科画像検索のための注意に基づくサリエンシハッシュ

Attention-based Saliency Hashing for Ophthalmic Image Retrieval ( http://arxiv.org/abs/2012.03466v1 )

ライセンス: CC BY 4.0
Jiansheng Fang, Yanwu Xu, Xiaoqing Zhang, Yan Hu, Jiang Liu(参考訳) 深部ハッシュ法は臨床医の参照ベース診断を支援する大規模医用画像検索に有効であることが証明されている。 しかし,眼底画像において有意な領域が最大の識別的役割を担っている場合,既存の深層ハッシュ法では,有意な領域の特徴を捉えるための深部ネットワークの学習能力を十分に活用できない。 眼科画像の異なるグレードやクラスは、全体的な性能は似ているが、突出した領域を採掘することで区別できる微妙な違いがある。 この問題に対処するため,我々は,眼科画像を表現するためのコンパクトなハッシュコードを学習するための,ASH (Attention-based Saliency Hashing) という新しいエンドツーエンドネットワークを提案する。 ASHは空間的注意モジュールを組み込んで、正常な領域の表現をより重視し、眼球画像の識別において重要な役割を強調している。 空間的アテンションモジュールから恩恵を受けることにより、局所領域の情報をハッシュコードにマッピングして類似性計算を行うことができる。 トレーニング段階では,ネットワークの重みを共有するためにイメージペアを入力し,ハッシュコードの識別性を最大化するためのペアワイズロスを設計する。 検索段階では、ASHは、画像をエンドツーエンドに入力してハッシュコードを取得し、ハッシュコードを類似性計算に使用して最も類似した画像を返却する。 眼画像データセットの2つの異なるモダリティに関する広範囲な実験により,提案するアッシュは,空間アテンションモジュールの多大な寄与により,最先端のディープハッシュ法に比べて検索性能がさらに向上することが示された。

Deep hashing methods have been proved to be effective for the large-scale medical image search assisting reference-based diagnosis for clinicians. However, when the salient region plays a maximal discriminative role in ophthalmic image, existing deep hashing methods do not fully exploit the learning ability of the deep network to capture the features of salient regions pointedly. The different grades or classes of ophthalmic images may be share similar overall performance but have subtle differences that can be differentiated by mining salient regions. To address this issue, we propose a novel end-to-end network, named Attention-based Saliency Hashing (ASH), for learning compact hash-code to represent ophthalmic images. ASH embeds a spatial-attention module to focus more on the representation of salient regions and highlights their essential role in differentiating ophthalmic images. Benefiting from the spatial-attention module, the information of salient regions can be mapped into the hash-code for similarity calculation. In the training stage, we input the image pairs to share the weights of the network, and a pairwise loss is designed to maximize the discriminability of the hash-code. In the retrieval stage, ASH obtains the hash-code by inputting an image with an end-to-end manner, then the hash-code is used to similarity calculation to return the most similar images. Extensive experiments on two different modalities of ophthalmic image datasets demonstrate that the proposed ASH can further improve the retrieval performance compared to the state-of-the-art deep hashing methods due to the huge contributions of the spatial-attention module.
翻訳日:2021-05-21 06:32:57 公開日:2020-12-07
# (参考訳) 肺結節を伴わない学習のためのメタ順序回帰フォレスト

Meta Ordinal Regression Forest For Learning with Unsure Lung Nodules ( http://arxiv.org/abs/2012.03480v1 )

ライセンス: CC BY 4.0
Yiming Lei, Haiping Zhu, Junping Zhang, Hongming Shan(参考訳) 深層学習に基づく手法は,肺結節の早期検出と分類において有望な性能を発揮している。 近年,この問題を正規回帰として定式化し,従来の二項分類よりも優れた性能を示す不確かさデータモデル (UDM) が提案されている。 肺結節分類の順序関係をさらに探究するため,本論文では,最先端の順序回帰法であるdeep ordinal regression forest (dorf) を3つの主要な方法で改良したmeta ordinal regression forest (morf)を提案する。 まず、MORFは深い特徴をフル活用することで予測のバイアスを軽減する一方、DORFはトレーニング前に決定木の構成を修正する必要がある。 第二に、morfは決定木の分割ノードを再サンプリングする新しいグループ化特徴選択(gfs)モジュールを持っている。 最後に、MORFはGFSと組み合わせて、GFSが選択した特徴をツリーワイドにマッピングするメタ学習ベースの重み付けスキームを備えており、DORFはすべての木に等しい重みを割り当てている。 LIDC-IDRIデータセットの実験結果は、最先端のDORFを含む既存の手法よりも優れた性能を示した。

Deep learning-based methods have achieved promising performance in early detection and classification of lung nodules, most of which discard unsure nodules and simply deal with a binary classification -- malignant vs benign. Recently, an unsure data model (UDM) was proposed to incorporate those unsure nodules by formulating this problem as an ordinal regression, showing better performance over traditional binary classification. To further explore the ordinal relationship for lung nodule classification, this paper proposes a meta ordinal regression forest (MORF), which improves upon the state-of-the-art ordinal regression method, deep ordinal regression forest (DORF), in three major ways. First, MORF can alleviate the biases of the predictions by making full use of deep features while DORF needs to fix the composition of decision trees before training. Second, MORF has a novel grouped feature selection (GFS) module to re-sample the split nodes of decision trees. Last, combined with GFS, MORF is equipped with a meta learning-based weighting scheme to map the features selected by GFS to tree-wise weights while DORF assigns equal weights for all trees. Experimental results on the LIDC-IDRI dataset demonstrate superior performance over existing methods, including the state-of-the-art DORF.
翻訳日:2021-05-21 06:17:44 公開日:2020-12-07
# (参考訳) ロバストな対向検出のための対向表現のクラスタを分離する学習

Learning to Separate Clusters of Adversarial Representations for Robust Adversarial Detection ( http://arxiv.org/abs/2012.03483v1 )

ライセンス: CC BY 4.0
Byunggill Joe, Jihun Hamm, Sung Ju Hwang, Sooel Son, Insik Shin(参考訳) ディープニューラルネットワークは様々なタスクで有望な性能を示すが、入力の小さな摂動によって引き起こされる誤った予測に影響を受けやすい。 敵の攻撃を検出するために多くの先行研究が提案された。 しかし、そのほとんどは、敵がモデルや防御方法の知識を持っている場合、適応的ホワイトボックス攻撃に対して効果的に検出することはできない。 本稿では,最近導入された非破壊的特徴を動機とする新しい確率的対角検出器を提案する。 我々は、非ロバスト特徴を逆例の共通性と考え、その性質に対応する表現空間におけるクラスタを見つけることができると推定する。 このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。

Although deep neural networks have shown promising performances on various tasks, they are susceptible to incorrect predictions induced by imperceptibly small perturbations in inputs. A large number of previous works proposed to detect adversarial attacks. Yet, most of them cannot effectively detect them against adaptive whitebox attacks where an adversary has the knowledge of the model and the defense method. In this paper, we propose a new probabilistic adversarial detector motivated by a recently introduced non-robust feature. We consider the non-robust features as a common property of adversarial examples, and we deduce it is possible to find a cluster in representation space corresponding to the property. This idea leads us to probability estimate distribution of adversarial representations in a separate cluster, and leverage the distribution for a likelihood based adversarial detector.
翻訳日:2021-05-21 06:10:27 公開日:2020-12-07
# (参考訳) スパイクニューラルネットワークを訓練するマルチエージェント進化型ロボットフレームワーク

A multi-agent evolutionary robotics framework to train spiking neural networks ( http://arxiv.org/abs/2012.03485v1 )

ライセンス: CC BY 4.0
Souvik Das, Anirudh Shankar, Vaneet Aggarwal(参考訳) 新しい多エージェント進化ロボット(ER)ベースのフレームワークは、自然界の競争的な進化環境に触発され、スパイキングニューラルネットワーク(SNN)のトレーニングのために実証されている。 ER環境下で制御するボットの形態的パラメータとともに、SNNの集団の重みが表現型として扱われる。 フレームワークのルールは、特定のボットとそのSNNを選択して、競争環境において食物を捕獲する効果に基づいて、その除去を行う。 ボットとそのSNNは、損失関数を介して生存または再生する明確な報酬を与えられていないが、これらのドライブは、食べ物を狩るために進化し、これらのルールの中で生き残るために暗黙的に現れる。 食品を世代関数として捕獲する効率は、時間的平衡の進化的特徴を示す。 表現型に関する2つの進化的遺伝アルゴリズムであるMutationとCrossover with Mutationが示されている。 これらのアルゴリズムの性能は、アルゴリズムごとに100の実験のアンサンブルを用いて比較される。 We found that Crossover with Mutation promotes 40% faster learning in the SNN than mere Mutation with a statistically significant margin。

A novel multi-agent evolutionary robotics (ER) based framework, inspired by competitive evolutionary environments in nature, is demonstrated for training Spiking Neural Networks (SNN). The weights of a population of SNNs along with morphological parameters of bots they control in the ER environment are treated as phenotypes. Rules of the framework select certain bots and their SNNs for reproduction and others for elimination based on their efficacy in capturing food in a competitive environment. While the bots and their SNNs are given no explicit reward to survive or reproduce via any loss function, these drives emerge implicitly as they evolve to hunt food and survive within these rules. Their efficiency in capturing food as a function of generations exhibit the evolutionary signature of punctuated equilibria. Two evolutionary inheritance algorithms on the phenotypes, Mutation and Crossover with Mutation, are demonstrated. Performances of these algorithms are compared using ensembles of 100 experiments for each algorithm. We find that Crossover with Mutation promotes 40% faster learning in the SNN than mere Mutation with a statistically significant margin.
翻訳日:2021-05-21 05:34:35 公開日:2020-12-07
# (参考訳) インテリジェント肺炎検出と統合へのアプローチ

An Approach to Intelligent Pneumonia Detection and Integration ( http://arxiv.org/abs/2012.03487v1 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou, Alena Iureva, Sayali R. Rajhans, Vamsi S. Pidikiti(参考訳) 毎年、250万人以上の人々が、そのほとんどが先進国で肺炎で死亡している([1])。 多くの研究が、タイムリーかつ正しく診断されたときに肺炎が治療可能であることを証明しているので、多くの診断補助薬が開発されている。 しかし、現在、肺炎検出におけるAIの使用は、特に局所的に達成された結果を一般化する上での課題のために制限されている。 本稿では,この課題を解決しようとするシステムの構築と統合のためのロードマップを提案する。 また、様々な技術的、法的、倫理的、物流的な問題にも対処し、可能な解決策の青写真を作成しています。

Each year, over 2.5 million people, most of them in developed countries, die from pneumonia [1]. Since many studies have proved pneumonia is successfully treatable when timely and correctly diagnosed, many of diagnosis aids have been developed, with AI-based methods achieving high accuracies [2]. However, currently, the usage of AI in pneumonia detection is limited, in particular, due to challenges in generalizing a locally achieved result. In this report, we propose a roadmap for creating and integrating a system that attempts to solve this challenge. We also address various technical, legal, ethical, and logistical issues, with a blueprint of possible solutions.
翻訳日:2021-05-21 05:25:25 公開日:2020-12-07
# (参考訳) 適応的ネットワークに基づくサンプリング型経路計画のためのヒューリスティックス

Generative Adversarial Network based Heuristics for Sampling-based Path Planning ( http://arxiv.org/abs/2012.03490v1 )

ライセンス: CC BY 4.0
Tianyi Zhang, Jiankun Wang and Max Q.-H. Meng(参考訳) サンプリングベースの経路計画は、ロボットパス計画の一般的な方法論である。 状態空間を探索するための均一なサンプリング戦略により、構成空間の複雑な幾何学的モデリングなしで実現可能な経路を見つけることができる。 しかし,初期解の質は保証されず,最適解への収束速度は遅い。 本稿では,これらの制約を克服する新しい画像ベース経路計画アルゴリズムを提案する。 具体的には、GAN(Generative Adversarial Network)は、環境マップ(RGBイメージ)を、他の前処理作業なしに入力として扱うように設計されている。 出力はRGBイメージでもあり、将来性のある領域(おそらく可能なパスが存在する)がセグメント化される。 この有望な領域をヒューリスティックとして利用し、パスプランナの非一様サンプリングを実現する。 提案手法の有効性を検証するため,多くのシミュレーション実験を行い,本手法が最適解に対する初期解の品質と収束速度において,より優れた性能を発揮することを示した。 さらに,本手法は,トレーニングセットに類似した環境とは別に,トレーニングセットと非常に異なる環境でも有効である。

Sampling-based path planning is a popular methodology for robot path planning. With a uniform sampling strategy to explore the state space, a feasible path can be found without the complex geometric modeling of the configuration space. However, the quality of initial solution is not guaranteed and the convergence speed to the optimal solution is slow. In this paper, we present a novel image-based path planning algorithm to overcome these limitations. Specifically, a generative adversarial network (GAN) is designed to take the environment map (denoted as RGB image) as the input without other preprocessing works. The output is also an RGB image where the promising region (where a feasible path probably exists) is segmented. This promising region is utilized as a heuristic to achieve nonuniform sampling for the path planner. We conduct a number of simulation experiments to validate the effectiveness of the proposed method, and the results demonstrate that our method performs much better in terms of the quality of initial solution and the convergence speed to the optimal solution. Furthermore, apart from the environments similar to the training set, our method also works well on the environments which are very different from the training set.
翻訳日:2021-05-21 05:05:02 公開日:2020-12-07
# (参考訳) グラフニューラルネットワークによる半教師付き土壌水分予測

Semi-supervised Soil Moisture Prediction through Graph Neural Networks ( http://arxiv.org/abs/2012.03506v1 )

ライセンス: CC BY 4.0
Anoushka Vyas, Sambaran Bandyopadhyay(参考訳) リモート衛星とIoTデータの最近の改良と可用性は、精密農業における人工知能の興味深い多様な応用を提供する。 土壌水分は農業と食料のサプライチェーンにおいて重要な要素である。 土壌のさまざまな深さに蓄積される水量を測定する。 土壌水分予測のための既存のデータ駆動アプローチは、時間とともに近傍の土壌水分値の動的依存性を捉えない従来のモデルを用いる。 本研究では,土壌水分予測の問題を時間グラフに基づく半教師付き学習として変換することを提案する。 本研究では,地域間の関連位置の依存性を利用して土壌水分を予測できる動的グラフニューラルネットワークを提案する。 しかし、社会や情報ネットワークとは異なり、土壌水分予測にはグラフ構造が明確に与えられていない。 そこで我々は,グラフ構造学習の問題を動的GNNの枠組みに取り入れた。 dglrと呼ばれるこのアルゴリズムは、地域内の複数の場所にわたって土壌水分を予測し、その間のグラフ構造を更新できるエンドツーエンド学習を提供する。 我々のソリューションは、既存の機械学習手法と比較して、現実世界の土壌水分データセットの最先端結果を達成する。

Recent improvement and availability of remote satellite and IoT data offers interesting and diverse applications of artificial intelligence in precision agriculture. Soil moisture is an important component of multiple agricultural and food supply chain practices. It measures the amount of water stored in various depth of soil. Existing data driven approaches for soil moisture prediction use conventional models which fail to capture the dynamic dependency of soil moisture values in near-by locations over time. In this work, we propose to convert the problem of soil moisture prediction as a semi-supervised learning on temporal graphs. We propose a dynamic graph neural network which can use the dependency of related locations over a region to predict soil moisture. However, unlike social or information networks, graph structure is not explicitly given for soil moisture prediction. Hence, we incorporate the problem of graph structure learning in the framework of dynamic GNN. Our algorithm, referred as DGLR, provides an end-to-end learning which can predict soil moisture over multiple locations in a region over time and also update the graph structure in between. Our solution achieves state-of-the-art results on real-world soil moisture datasets compared to existing machine learning approaches.
翻訳日:2021-05-21 04:27:37 公開日:2020-12-07
# (参考訳) モデルロバスト性に関する特異値視点

A Singular Value Perspective on Model Robustness ( http://arxiv.org/abs/2012.03516v1 )

ライセンス: CC BY 4.0
Malhar Jere, Maghav Kumar, Farinaz Koushanfar(参考訳) 畳み込みニューラルネットワーク(cnns)は、いくつかのコンピュータビジョンベンチマークで大きな進歩を遂げているが、悪意のあるサンプルに対する脆弱性など、多くの非人間バイアスに苦しめられている。 それらの説明可能性の欠如は、これらのバイアスの識別と修正を困難にし、それらの一般化行動を理解することは、依然として未解決の問題である。 本研究では,CNNの一般化行動と画像の特異値分解(SVD)との関係について検討する。 我々は、自然に訓練され、逆向きに堅牢なCNNが、同じデータセットに対して非常に異なる特徴を利用することを示す。 我々は,これらの特徴をImageNetとCIFAR-10訓練ネットワークのSVDで切り離すことを実証した。 最後に,画像のランクに対するcnnの依存性を理解する最初のランクベース特徴帰属法であるランク統合勾配(rig)を提案する。

Convolutional Neural Networks (CNNs) have made significant progress on several computer vision benchmarks, but are fraught with numerous non-human biases such as vulnerability to adversarial samples. Their lack of explainability makes identification and rectification of these biases difficult, and understanding their generalization behavior remains an open problem. In this work we explore the relationship between the generalization behavior of CNNs and the Singular Value Decomposition (SVD) of images. We show that naturally trained and adversarially robust CNNs exploit highly different features for the same dataset. We demonstrate that these features can be disentangled by SVD for ImageNet and CIFAR-10 trained networks. Finally, we propose Rank Integrated Gradients (RIG), the first rank-based feature attribution method to understand the dependence of CNNs on image rank.
翻訳日:2021-05-21 04:13:11 公開日:2020-12-07
# (参考訳) 遺伝的アルゴリズムを用いたCODLAG推進システムのガスタービン軸トルクと燃料流量の推定

Estimation of Gas Turbine Shaft Torque and Fuel Flow of a CODLAG Propulsion System Using Genetic Programming Algorithm ( http://arxiv.org/abs/2012.03527v1 )

ライセンス: CC BY 4.0
Nikola An{\dj}eli\'c, Sandi Baressi \v{S}egota, Ivan Lorencin and Zlatan Car(参考訳) 本稿では, 船舶用複合ディーゼル電気・ガス推進システム(CODLAG)の条件ベースメンテナンスデータセットを用いて, 遺伝的プログラミング(GP)アルゴリズムを用いて, ガスタービン軸トルクと燃料流量を推定できる記号式を得た。 データセット全体は、11934のサンプルで構成され、データセットのトレーニングとテストの一部を80:20の割合で分割した。 gpアルゴリズムのトレーニングデータセットは、ガスタービン軸トルクと燃料流量推定の象徴表現を得るために、9548のサンプルからなる。 ガスタービン軸トルクと燃料流量推定のための最適な記号式は, 上記の記号式に対するデータセットのテスト部分の適用により得られたR^2$スコアに基づいて得られた。 データセットのテスト部分は2386のサンプルから成っている。 ガスタービン軸トルク推定で得られた3つの最適記号式はそれぞれ0.999201, 0.999296, 0.999374のr^2$スコアを示した。 燃料流量推定で得られた3つの最良の記号式は,それぞれ0.995495,0.996465,0.996487のR^2$スコアを得た。

In this paper, the publicly available dataset of condition based maintenance of combined diesel-electric and gas (CODLAG) propulsion system for ships has been utilized to obtain symbolic expressions which could estimate gas turbine shaft torque and fuel flow using genetic programming (GP) algorithm. The entire dataset consists of 11934 samples that was divided into training and testing portions of dataset in an 80:20 ratio. The training dataset used to train the GP algorithm to obtain symbolic expressions for gas turbine shaft torque and fuel flow estimation consisted of 9548 samples. The best symbolic expressions obtained for gas turbine shaft torque and fuel flow estimation were obtained based on their $R^2$ score generated as a result of the application of the testing portion of the dataset on the aforementioned symbolic expressions. The testing portion of the dataset consisted of 2386 samples. The three best symbolic expressions obtained for gas turbine shaft torque estimation generated $R^2$ scores of 0.999201, 0.999296, and 0.999374, respectively. The three best symbolic expressions obtained for fuel flow estimation generated $R^2$ scores of 0.995495, 0.996465, and 0.996487, respectively.
翻訳日:2021-05-21 03:54:57 公開日:2020-12-07
# (参考訳) 教師なしのディープネットワークが一般化する理由

Why Unsupervised Deep Networks Generalize ( http://arxiv.org/abs/2012.03531v1 )

ライセンス: CC BY 4.0
Anita de Mello Koch, Ellen de Mello Koch, Robert de Mello Koch(参考訳) 一般化パズルの解法を仮定すると、深いネットワーク内のパラメータの実際の数は、単純な推定よりもはるかに小さい。 再正規化群(renormalization group)は、ナイーブな推定がそうではないことを示唆しているにもかかわらず、パラメータが極めて少ない問題の説得力のある例である。 我々の中心的な仮説は、再正規化群の背後にあるメカニズムも深層学習に取り組んでおり、これが一般化パズルの解決につながるということである。 トレーニングされたRBMが高運動量モードを捨てていることを示すことによって、RBMの仮説を証明する詳細な定量的証拠を示す。 本稿では,主にオートエンコーダに注目し,学習データセットから直接ネットワークのパラメータを決定するアルゴリズムを提案する。 その結果得られたオートエンコーダは,ディープラーニングによるトレーニングとほぼ同等の性能を持ち,トレーニング初期条件が良好であり,検討した実験では4~100倍のトレーニング時間を短縮できる。 さらに,特定の問題をディープネットワークで解決できるのか,あるいは解決できないのかを判断するための簡単な基準を提案することができる。

Promising resolutions of the generalization puzzle observe that the actual number of parameters in a deep network is much smaller than naive estimates suggest. The renormalization group is a compelling example of a problem which has very few parameters, despite the fact that naive estimates suggest otherwise. Our central hypothesis is that the mechanisms behind the renormalization group are also at work in deep learning, and that this leads to a resolution of the generalization puzzle. We show detailed quantitative evidence that proves the hypothesis for an RBM, by showing that the trained RBM is discarding high momentum modes. Specializing attention mainly to autoencoders, we give an algorithm to determine the network's parameters directly from the learning data set. The resulting autoencoder almost performs as well as one trained by deep learning, and it provides an excellent initial condition for training, reducing training times by a factor between 4 and 100 for the experiments we considered. Further, we are able to suggest a simple criterion to decide if a given problem can or can not be solved using a deep network.
翻訳日:2021-05-21 03:36:10 公開日:2020-12-07
# (参考訳) ベイズネットワークのための効率的かつスケーラブルな構造学習:アルゴリズムと応用

Efficient and Scalable Structure Learning for Bayesian Networks: Algorithms and Applications ( http://arxiv.org/abs/2012.03540v1 )

ライセンス: CC BY 4.0
Rong Zhu, Andreas Pfadler, Ziniu Wu, Yuxing Han, Xiaoke Yang, Feng Ye, Zhenping Qian, Jingren Zhou, Bin Cui(参考訳) ベイジアンネットワーク(BN)の構造学習は広範な研究において重要な問題である。 Alibaba Groupのさまざまなアプリケーションにおいて中心的な役割を果たす。 しかし、既存の構造学習アルゴリズムは、低効率でスケーラビリティが低いために、現実世界のアプリケーションにかなりの制限がある。 そこで本研究では,高い正確性,効率性,スケーラビリティを同時に達成し,ビジネス要件を包括的に満たす構造学習アルゴリズムを提案する。 LEASTの中核となる考え方は、構造学習を連続的な制約付き最適化問題に定式化することであり、結果として得られるグラフの非巡回性を測定する新しい微分可能制約関数である。 既存の研究とは異なり、我々の制約関数はグラフのスペクトル半径上に構築されており、ほぼ線形時間 w.r.t で評価することができる。 グラフノードのサイズ。 これに基づいて、LEASTは低ストレージオーバーヘッドで効率的に実装できる。 我々のベンチマーク評価によると、LEASTは同等の精度で最先端の手法よりも1~2桁高速に動作し、最大数十万の変数を持つBN上でスケールすることができる。 私たちの運用環境では、LEASTはデプロイされ、1日に何千もの実行を伴う20以上のアプリケーションに役立ちます。 本稿では,アリババのチケット予約サービスにおける具体的なシナリオについて述べる。LEASTを適用して,ほぼリアルタイムで自動異常検出とルートエラー原因解析システムを構築する。 また,大規模遺伝子発現データ解析や説明可能なレコメンデーションシステムなど,新しい領域におけるbn構造学習の適用可能性の最小化についても明らかにした。

Structure Learning for Bayesian network (BN) is an important problem with extensive research. It plays central roles in a wide variety of applications in Alibaba Group. However, existing structure learning algorithms suffer from considerable limitations in real world applications due to their low efficiency and poor scalability. To resolve this, we propose a new structure learning algorithm LEAST, which comprehensively fulfills our business requirements as it attains high accuracy, efficiency and scalability at the same time. The core idea of LEAST is to formulate the structure learning into a continuous constrained optimization problem, with a novel differentiable constraint function measuring the acyclicity of the resulting graph. Unlike with existing work, our constraint function is built on the spectral radius of the graph and could be evaluated in near linear time w.r.t. the graph node size. Based on it, LEAST can be efficiently implemented with low storage overhead. According to our benchmark evaluation, LEAST runs 1 to 2 orders of magnitude faster than state of the art method with comparable accuracy, and it is able to scale on BNs with up to hundreds of thousands of variables. In our production environment, LEAST is deployed and serves for more than 20 applications with thousands of executions per day. We describe a concrete scenario in a ticket booking service in Alibaba, where LEAST is applied to build a near real-time automatic anomaly detection and root error cause analysis system. We also show that LEAST unlocks the possibility of applying BN structure learning in new areas, such as large-scale gene expression data analysis and explainable recommendation system.
翻訳日:2021-05-21 03:14:05 公開日:2020-12-07
# (参考訳) SpotTune: パブリッククラウドにおけるコスト効率の高いハイパーパラメータチューニングのためのトランジェントリソースを活用する

SpotTune: Leveraging Transient Resources for Cost-efficient Hyper-parameter Tuning in the Public Cloud ( http://arxiv.org/abs/2012.03576v1 )

ライセンス: CC BY 4.0
Yan Li, Bo An, Junming Ma, Donggang Cao, Yasha Wang, Hong Mei(参考訳) ハイパーパラメータチューニング(HPT)は多くの機械学習(ML)アルゴリズムにおいて重要である。 しかし、大規模な検索スペースのため、HPTは通常時間とリソースを消費する。 現在、多くの研究者がパブリッククラウドリソースを使用して機械学習モデルをトレーニングしている。 hptプロセスをスピードアップすると同時にコストを削減することは、クラウドmlユーザにとって非常に重要だ。 本稿では,hptを並列かつコスト効率のよい方法で実現するための戦略として,パブリッククラウドにおける過渡的再利用可能なリソースを活用する手法であるspottuneを提案する。 一時的なサーバ上でHPTプロセスをオーケストレーションするSpotTuneは、HPTプロセスの金銭的コストと実行時間を削減するために、きめ細かなコスト対応リソースプロビジョニングとMLトレーニングトレンド予測という、2つの主要なテクニックを使用している。 評価の結果,SpotTuneは最大90%のコスト削減と16.61倍の性能向上を実現している。

Hyper-parameter tuning (HPT) is crucial for many machine learning (ML) algorithms. But due to the large searching space, HPT is usually time-consuming and resource-intensive. Nowadays, many researchers use public cloud resources to train machine learning models, convenient yet expensive. How to speed up the HPT process while at the same time reduce cost is very important for cloud ML users. In this paper, we propose SpotTune, an approach that exploits transient revocable resources in the public cloud with some tailored strategies to do HPT in a parallel and cost-efficient manner. Orchestrating the HPT process upon transient servers, SpotTune uses two main techniques, fine-grained cost-aware resource provisioning, and ML training trend predicting, to reduce the monetary cost and runtime of HPT processes. Our evaluations show that SpotTune can reduce the cost by up to 90% and achieve a 16.61x performance-cost rate improvement.
翻訳日:2021-05-21 02:01:23 公開日:2020-12-07
# (参考訳) リアルタイム線量最適化のためのディープラーニングct再構成のロバスト性の検討

Robustness Investigation on Deep Learning CT Reconstruction for Real-Time Dose Optimization ( http://arxiv.org/abs/2012.03579v1 )

ライセンス: CC BY-SA 4.0
Chang Liu, Yixing Huang, Joscha Maier, Laura Klein, Marc Kachelrie{\ss}, Andreas Maier(参考訳) CTでは、患者への放射線照射を減らすために自動被曝制御(AEC)が頻繁に用いられる。 臓器特異的aecでは,線量最適化のための臓器形状の推定には予備的ct再構成が必要である。 本研究では,多様体近似(AUTOMAP)による自動変換の性能について検討する。 概念実証のために、まずMNISTデータセットの性能を検証し、10桁を含むデータセットをランダムにトレーニングセットとテストセットに分割する。 2つのプロジェクションまたは4つのプロジェクションから直接画像再構成するために、AUTOMAPモデルを訓練する。 テストの結果、AUTOMAPは、それぞれ1.6%と6.8%の偽率で、ほとんどの桁をよく再構築できることを示した。 続く実験では、MNISTデータセットは、例えば「2」のように、テストセットが除外された桁のみを含む間のみ、トレーニングセットが9桁を含むように分割される。 試験結果では、再建に2つの投影を用いた場合、桁「2」を「3」または「5」と誤予測し、虚偽率94.4%に達する。 医用画像に応用するために、AUTOMAPは患者のCT画像でも訓練されている。 テスト画像は平均根平均二乗誤差290huに達する。 粗い体の輪郭はよく再建されているが、一部の臓器は誤造されている。

In computed tomography (CT), automatic exposure control (AEC) is frequently used to reduce radiation dose exposure to patients. For organ-specific AEC, a preliminary CT reconstruction is necessary to estimate organ shapes for dose optimization, where only a few projections are allowed for real-time reconstruction. In this work, we investigate the performance of automated transform by manifold approximation (AUTOMAP) in such applications. For proof of concept, we investigate its performance on the MNIST dataset first, where the dataset containing all the 10 digits are randomly split into a training set and a test set. We train the AUTOMAP model for image reconstruction from 2 projections or 4 projections directly. The test results demonstrate that AUTOMAP is able to reconstruct most digits well with a false rate of 1.6% and 6.8% respectively. In our subsequent experiment, the MNIST dataset is split in a way that the training set contains 9 digits only while the test set contains the excluded digit only, for instance "2". In the test results, the digit "2"s are falsely predicted as "3" or "5" when using 2 projections for reconstruction, reaching a false rate of 94.4%. For the application in medical images, AUTOMAP is also trained on patients' CT images. The test images reach an average root-mean-square error of 290 HU. Although the coarse body outlines are well reconstructed, some organs are misshaped.
翻訳日:2021-05-21 01:38:46 公開日:2020-12-07
# (参考訳) PSCNet: 群衆カウントのためのピラミッドスケールとグローバルコンテキストガイドネットワーク

PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd Counting ( http://arxiv.org/abs/2012.03597v1 )

ライセンス: CC BY 4.0
Guangshuai Gao, Qingjie Liu, Qi Wen, Yunhong Wang(参考訳) 画像中のオブジェクトの数を正確にカウントするクラウドカウントが、近年ますます注目を集めている。 しかし, 厳密な閉塞, 大規模変動, 複雑な背景干渉, 非一様密度分布による課題は, 群集数推定精度を制限している。 本稿では, ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) をベースとした, PSCNet と呼ばれる新しい群集カウント手法を提案する。 さらに、ベイジアンとカウントロス(BCL)を組み合わせた信頼性の高い監視手法を用いて、密度確率を学習し、各アノテーションポイントでカウント例外を算出する。 特にpsmは、画像スケールの異なる群衆の細かい境界を識別できるマルチスケール情報を適応的にキャプチャするために使用される。 GCMは、低複雑さで軽量な方法で設計され、特徴マップのチャネルをまたいだインタラクティブな情報をより効率的にし、一方、PSMからより適切なスケールを選択するようモデルに誘導する。 さらに、BLを利用して信頼性の高い密度寄与確率の監視方法を構築し、群衆の非一様密度分布をある程度緩和する。 4つの群集カウントデータセットの大規模な実験により,提案モデルの有効性と優位性を示した。 さらに、リモートセンシングオブジェクトカウント(RSOC)データセット上に拡張されたいくつかの実験は、モデルの一般化能力をさらに検証した。 当社のリソースコードは、この作業が受け入れられ次第、リリースされます。

Crowd counting, which towards to accurately count the number of the objects in images, has been attracted more and more attention by researchers recently. However, challenges from severely occlusion, large scale variation, complex background interference and non-uniform density distribution, limit the crowd number estimation accuracy. To mitigate above issues, this paper proposes a novel crowd counting approach based on pyramidal scale module (PSM) and global context module (GCM), dubbed PSCNet. Moreover, a reliable supervision manner combined Bayesian and counting loss (BCL) is utilized to learn the density probability and then computes the count exception at each annotation point. Specifically, PSM is used to adaptively capture multi-scale information, which can identify a fine boundary of crowds with different image scales. GCM is devised with low-complexity and lightweight manner, to make the interactive information across the channels of the feature maps more efficient, meanwhile guide the model to select more suitable scales generated from PSM. Furthermore, BL is leveraged to construct a credible density contribution probability supervision manner, which relieves non-uniform density distribution in crowds to a certain extent. Extensive experiments on four crowd counting datasets show the effectiveness and superiority of the proposed model. Additionally, some experiments extended on a remote sensing object counting (RSOC) dataset further validate the generalization ability of the model. Our resource code will be released upon the acceptance of this work.
翻訳日:2021-05-20 11:25:05 公開日:2020-12-07
# (参考訳) 大規模宇宙における原始物理学の位相エコー

Topological Echoes of Primordial Physics in the Universe at Large Scales ( http://arxiv.org/abs/2012.03616v1 )

ライセンス: CC BY 4.0
Alex Cole, Matteo Biagetti, Gary Shiu(参考訳) 本稿では,宇宙論における初期条件を永続ホモロジーを通じて特徴付け,制約するパイプラインを提案する。 興味を持つ宇宙学的な観測は、大規模構造の宇宙網であり、問題の初期条件は原始密度摂動の非ガウス性(NG)である。 我々は、ガウス初期条件と非ガウス初期条件による暗黒物質ハロのシミュレーションのための永続図と導出統計を計算する。 計算上の理由と実験的な観測に接触するために,本パイプラインは全シミュレーションのサブボックス内の永続性を計算し,シミュレーションを一様ハロー数にサブサンプリングする。 私たちは大きなng(f_{\rm nl}^{\rm loc}=250$)のシミュレーションを、マイルドなng(f_{\rm nl}^{\rm loc}=10$)のデータを識別するためのテンプレートとして使用し、パイプラインを40~(\textrm{gpc/h})^{3}$で実行し、$f_{\rm nl}^{\rm loc}=10$ at $97.5\%$ $\sim 85\%$で検出します。 統計的推論の入力としてのトポロジカル特徴の解釈可能性から,従来の第一原理計算と接触し,新たな予測を行うことができる。

We present a pipeline for characterizing and constraining initial conditions in cosmology via persistent homology. The cosmological observable of interest is the cosmic web of large scale structure, and the initial conditions in question are non-Gaussianities (NG) of primordial density perturbations. We compute persistence diagrams and derived statistics for simulations of dark matter halos with Gaussian and non-Gaussian initial conditions. For computational reasons and to make contact with experimental observations, our pipeline computes persistence in sub-boxes of full simulations and simulations are subsampled to uniform halo number. We use simulations with large NG ($f_{\rm NL}^{\rm loc}=250$) as templates for identifying data with mild NG ($f_{\rm NL}^{\rm loc}=10$), and running the pipeline on several cubic volumes of size $40~(\textrm{Gpc/h})^{3}$, we detect $f_{\rm NL}^{\rm loc}=10$ at $97.5\%$ confidence on $\sim 85\%$ of the volumes for our best single statistic. Throughout we benefit from the interpretability of topological features as input for statistical inference, which allows us to make contact with previous first-principles calculations and make new predictions.
翻訳日:2021-05-20 10:57:47 公開日:2020-12-07
# (参考訳) 長い列の埋め込みによる文書の局所的変化検出

Topical Change Detection in Documents via Embeddings of Long Sequences ( http://arxiv.org/abs/2012.03619v1 )

ライセンス: CC BY 4.0
Dennis Aumiller, Satya Almasian, Sebastian Lackner and Michael Gertz(参考訳) 長い文書では、トピックは、通常、意味的にコヒーレントなセグメントで示されるような、ある章から次の節へとわずかに変化することが多い。 この潜在構造を文書で発見することで読みやすさが向上し,文節検索や要約作業に不可欠である。 テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化し,トランスフォーマティブに基づく言語モデルの学習に適している。 類似セクションの段落を微調整することで、学習した特徴がトピック情報を符号化し、セクション境界を見つけ、テキストを一貫性のあるセグメントに分割することができることを示すことができる。 文レベルで運用される従来のアプローチとは異なり、段落全体のより広い文脈を一貫して使い、受理と継承の主題的独立を前提としています。 最後に、オンラインターム・オブ・サービス文書から構築した、新しい大規模データセットを紹介し、様々な従来のベースラインとディープラーニングベースラインを比較し、トランスフォーマーベースの方法のパフォーマンスを大幅に向上させる。

In a longer document, the topic often slightly shifts from one passage to the next, where topic boundaries are usually indicated by semantically coherent segments. Discovering this latent structure in a document improves the readability and is essential for passage retrieval and summarization tasks. We formulate the task of text segmentation as an independent supervised prediction task, making it suitable to train on Transformer-based language models. By fine-tuning on paragraphs of similar sections, we are able to show that learned features encode topic information, which can be used to find the section boundaries and divide the text into coherent segments. Unlike previous approaches, which mostly operate on sentence-level, we consistently use a broader context of an entire paragraph and assume topical independence of preceeding and succeeding text. We lastly introduce a novel large-scale dataset constructed from online Terms-of-Service documents, on which we compare against various traditional and deep learning baselines, showing significantly better performance of Transformer-based methods.
翻訳日:2021-05-20 10:48:07 公開日:2020-12-07
# (参考訳) 連合学習におけるプライバシと堅牢性:攻撃と防御

Privacy and Robustness in Federated Learning: Attacks and Defenses ( http://arxiv.org/abs/2012.06337v1 )

ライセンス: CC BY 4.0
Lingjuan Lyu, Han Yu, Xingjun Ma, Lichao Sun, Jun Zhao, Qiang Yang, Philip S. Yu(参考訳) データがさまざまなサイロに格納され、社会がデータプライバシの問題をより意識するようになるにつれ、従来の人工知能(AI)モデルの集中トレーニングは、効率性とプライバシの課題に直面している。 近年,フェデレーテッド・ラーニング (FL) が代替ソリューションとして登場し,新たな現実に発展し続けている。 既存のFLプロトコルの設計は、システム内外の敵に対して脆弱であり、データのプライバシとシステムの堅牢性を損なうことが示されている。 強力なグローバルモデルのトレーニングに加えて、プライバシー保証を持ち、さまざまな種類の敵に耐性を持つFLシステムを設計することが最重要となる。 本稿では,本トピックに関する初の総合的な調査を行う。 1)脅威モデル,2)ロバスト性に対する毒殺攻撃と防御,3)プライバシに対する推論攻撃と防御などを通じて、我々はこの重要なトピックについて、アクセス可能なレビューを提供する。 我々は、様々な攻撃や防御によって採用される基本的な前提だけでなく、直感や鍵となる技術も強調する。 最後に,堅牢でプライバシーを保った連合学習に向けた今後の研究の方向性について述べる。

As data are increasingly being stored in different silos and societies becoming more aware of data privacy issues, the traditional centralized training of artificial intelligence (AI) models is facing efficiency and privacy challenges. Recently, federated learning (FL) has emerged as an alternative solution and continue to thrive in this new reality. Existing FL protocol design has been shown to be vulnerable to adversaries within or outside of the system, compromising data privacy and system robustness. Besides training powerful global models, it is of paramount importance to design FL systems that have privacy guarantees and are resistant to different types of adversaries. In this paper, we conduct the first comprehensive survey on this topic. Through a concise introduction to the concept of FL, and a unique taxonomy covering: 1) threat models; 2) poisoning attacks and defenses against robustness; 3) inference attacks and defenses against privacy, we provide an accessible review of this important topic. We highlight the intuitions, key techniques as well as fundamental assumptions adopted by various attacks and defenses. Finally, we discuss promising future research directions towards robust and privacy-preserving federated learning.
翻訳日:2021-05-20 10:32:40 公開日:2020-12-07
# (参考訳) ストリーミングデータにおけるK平均問題に対するパッシブアプローチ

Passive Approach for the K-means Problem on Streaming Data ( http://arxiv.org/abs/2012.03628v1 )

ライセンス: CC BY 4.0
Arkaitz Bidaurrazaga, Aritz P\'erez and Marco Cap\'o(参考訳) 現在、世界中で生成されるデータ量は測定値を超えているため、教師なしデータの大量処理は継続して行わなければならない。 主要な教師なしデータ分析の1つはクラスタリングである。 ストリーミングデータシナリオでは、データは、概念ドリフト現象が起こる可能性のあるサンプルのバッチのシーケンスによって構成される。 本稿では,概念ドリフトが発生した場合のエラー関数の再起動を意味するStreaming $K$-means(S$K$M)問題を正式に定義する。 本稿では,概念ドリフト検出に依存しない代理誤差関数を提案する。 我々は、サロゲートがS$K$M誤差のよい近似であることを証明する。 したがって、新しいバッチが到着するたびに、この代替エラーを最小化するアルゴリズムを提案する。 ストリーミングデータシナリオの初期化手法についても紹介する。 理論的な結果を提供するだけでなく、実験は非自明な初期化法に対する収束誤差の改善を示す。

Currently the amount of data produced worldwide is increasing beyond measure, thus a high volume of unsupervised data must be processed continuously. One of the main unsupervised data analysis is clustering. In streaming data scenarios, the data is composed by an increasing sequence of batches of samples where the concept drift phenomenon may happen. In this paper, we formally define the Streaming $K$-means(S$K$M) problem, which implies a restart of the error function when a concept drift occurs. We propose a surrogate error function that does not rely on concept drift detection. We proof that the surrogate is a good approximation of the S$K$M error. Hence, we suggest an algorithm which minimizes this alternative error each time a new batch arrives. We present some initialization techniques for streaming data scenarios as well. Besides providing theoretical results, experiments demonstrate an improvement of the converged error for the non-trivial initialization methods.
翻訳日:2021-05-20 09:51:59 公開日:2020-12-07
# (参考訳) toeplitzペナルティによる非負行列因子分解

Nonnegative Matrix Factorization with Toeplitz Penalty ( http://arxiv.org/abs/2012.03694v1 )

ライセンス: CC BY 4.0
Matthew Corsetti and Ernest Fokou\'e(参考訳) 非負行列分解(Non negative Matrix Factorization、NMF)は、データ行列の線形部分に基づく近似を生成する教師なし学習アルゴリズムである。 NMFは、重みの非負の低ランク基底行列と非負の低ランク行列を構成する。 NMFアルゴリズムは、タスク固有の罰則や行列分解のコスト関数の制限を課す補助的制約を含むように修正することができる。 本稿では,基礎行列と重み行列の乗算更新にToeplitz行列を組み込んだ非データ依存型補助制約を用いた新しいNMFアルゴリズムを提案する。 我々は,新しいToeplitz Non negative Matrix Factorization (TNMF)アルゴリズムの顔認識性能と,データ依存的制約を用いたZellner Non negative Matrix Factorization (ZNMF)アルゴリズムの性能を比較した。 また、前述の2つのアルゴリズムの顔認識性能と、データに依存しない複数の制約付きNMFアルゴリズムの性能を比較する。 顔認識性能はCambridge ORL Database of FacesとYale Database of Facesを用いて評価する。

Nonnegative Matrix Factorization (NMF) is an unsupervised learning algorithm that produces a linear, parts-based approximation of a data matrix. NMF constructs a nonnegative low rank basis matrix and a nonnegative low rank matrix of weights which, when multiplied together, approximate the data matrix of interest using some cost function. The NMF algorithm can be modified to include auxiliary constraints which impose task-specific penalties or restrictions on the cost function of the matrix factorization. In this paper we propose a new NMF algorithm that makes use of non-data dependent auxiliary constraints which incorporate a Toeplitz matrix into the multiplicative updating of the basis and weight matrices. We compare the facial recognition performance of our new Toeplitz Nonnegative Matrix Factorization (TNMF) algorithm to the performance of the Zellner Nonnegative Matrix Factorization (ZNMF) algorithm which makes use of data-dependent auxiliary constraints. We also compare the facial recognition performance of the two aforementioned algorithms with the performance of several preexisting constrained NMF algorithms that have non-data-dependent penalties. The facial recognition performances are evaluated using the Cambridge ORL Database of Faces and the Yale Database of Faces.
翻訳日:2021-05-20 09:03:04 公開日:2020-12-07
# (参考訳) ローカルカーマニキュアの高速発電における経験から学ぶ

Learning from Experience for Rapid Generation of Local Car Maneuvers ( http://arxiv.org/abs/2012.03707v1 )

ライセンス: CC BY 4.0
Piotr Kicki, Tomasz Gawron, Krzysztof \'Cwian, Mete Ozay, Piotr Skrzypczy\'nski(参考訳) 変化する状況や交通状況に素早く対応できることは、自動車の自律性にとって重要な意味を持つ。 本稿では,車体に拘束された車両を一定時間で実現可能なほぼ最適経路を計画するために,ディープニューラルネットワーク(DNN)を訓練することを提案する。 我々のDNNモデルは、新しい弱教師付きアプローチと勾配に基づくポリシー探索を用いて訓練されている。 実演・模擬シーンと多数のローカルプランニング問題において,本手法が完了したタスク数に対して,既存のプランナーよりも優れていることを示す。 経路生成時間はおよそ40ミリ秒であるが、生成された経路はスムーズで、従来の経路プランナーと同等である。

Being able to rapidly respond to the changing scenes and traffic situations by generating feasible local paths is of pivotal importance for car autonomy. We propose to train a deep neural network (DNN) to plan feasible and nearly-optimal paths for kinematically constrained vehicles in small constant time. Our DNN model is trained using a novel weakly supervised approach and a gradient-based policy search. On real and simulated scenes and a large set of local planning problems, we demonstrate that our approach outperforms the existing planners with respect to the number of successfully completed tasks. While the path generation time is about 40 ms, the generated paths are smooth and comparable to those obtained from conventional path planners.
翻訳日:2021-05-20 08:51:50 公開日:2020-12-07
# (参考訳) クレジットカード不正検出のための深層学習法

Deep Learning Methods for Credit Card Fraud Detection ( http://arxiv.org/abs/2012.03754v1 )

ライセンス: CC BY 4.0
Thanh Thi Nguyen, Hammad Tahir, Mohamed Abdelrazek, Ali Babar(参考訳) クレジットカード詐欺は引き続き増加傾向にあり、金融業界では大きな問題となっている。 これらの詐欺により、カード利用者は購入をためらうことになり、商店も金融機関も大きな損失を被る。 クレジットカード詐欺におけるいくつかの大きな課題は、公開データの可用性、データの高レベルの不均衡、詐欺の性質の変化、誤報の多さである。 機械学習技術はクレジットカード詐欺を検出するのに使われてきたが、不正検出システムはこれまで大きな効率性を提供できなかった。 近年,様々な分野の複雑な問題解決に深層学習が応用されている。 本稿では,クレジットカード不正検出問題の深層学習手法を徹底的に検討し,その性能を3種類の金融データセットにおける各種機械学習アルゴリズムと比較する。 実験結果は,従来の機械学習モデルに対する深層学習手法の優れた性能を示すとともに,実世界のクレジットカード不正検出システムに対して,提案手法を効果的に実装できることを示唆する。

Credit card frauds are at an ever-increasing rate and have become a major problem in the financial sector. Because of these frauds, card users are hesitant in making purchases and both the merchants and financial institutions bear heavy losses. Some major challenges in credit card frauds involve the availability of public data, high class imbalance in data, changing nature of frauds and the high number of false alarms. Machine learning techniques have been used to detect credit card frauds but no fraud detection systems have been able to offer great efficiency to date. Recent development of deep learning has been applied to solve complex problems in various areas. This paper presents a thorough study of deep learning methods for the credit card fraud detection problem and compare their performance with various machine learning algorithms on three different financial datasets. Experimental results show great performance of the proposed deep learning methods against traditional machine learning models and imply that the proposed approaches can be implemented effectively for real-world credit card fraud detection systems.
翻訳日:2021-05-20 08:29:32 公開日:2020-12-07
# (参考訳) 適応逐次saaによる2段階確率線形プログラムの解法

Adaptive Sequential SAA for Solving Two-stage Stochastic Linear Programs ( http://arxiv.org/abs/2012.03761v1 )

ライセンス: CC BY 4.0
Raghu Pasupathy and Yongjia Song(参考訳) 大規模2段階確率線形プログラムを解くために,適応型逐次SAAアルゴリズムを提案する。 私たちが提案する反復アルゴリズムフレームワークは、以下のように \emph{outer} と \emph{inner} の反復にまとめられている: 各外部イテレーションの間、サンプルパス問題は観察または `scenarios" のサンプルを使って暗黙的に生成され、推定された統計エラーと解エラーのバランスをとることにより、 \emph{adaptively} を選択する許容範囲内でのみ解かれる。 先行イテレーションからの解は、(一方向線形凸)サンプルパス最適化問題の効率的な解を支援するために 'emph{warm start} として機能する。 生成したシナリオは、ラテンハイデルキューブサンプリング、アンチセティックバリアレート、ランダム化された準モンテカルロを用いたモンテカルロ生成のように、独立して(iid)、あるいは依存することができる。 まず,最適性ギャップの近似収束(平均収束)と生成した確率的イテレートの真の解集合への距離を特徴付ける。 次に、対応する反復複雑性と作業複雑性率をサンプルサイズスケジュールの関数として特徴付け、最も達成可能な作業複雑性率がモンテカルロ標準であり、非滑らか凸最適化のための最適複雑性$$\mathcal{O}(\epsilon^{-2})に類似していることを証明する。 最適なサンプルサイズスケジュールを持つシーケンシャルフレームワークの使用とウォームスタートの使用が主な原因で,良好な性能を示す広範な数値テストを行った。 提案アルゴリズムは,品質の確率論的保証が与えられた解を返すために,有限時間で停止することができる。

We present adaptive sequential SAA (sample average approximation) algorithms to solve large-scale two-stage stochastic linear programs. The iterative algorithm framework we propose is organized into \emph{outer} and \emph{inner} iterations as follows: during each outer iteration, a sample-path problem is implicitly generated using a sample of observations or ``scenarios," and solved only \emph{imprecisely}, to within a tolerance that is chosen \emph{adaptively}, by balancing the estimated statistical error against solution error. The solutions from prior iterations serve as \emph{warm starts} to aid efficient solution of the (piecewise linear convex) sample-path optimization problems generated on subsequent iterations. The generated scenarios can be independent and identically distributed (iid), or dependent, as in Monte Carlo generation using Latin-hypercube sampling, antithetic variates, or randomized quasi-Monte Carlo. We first characterize the almost-sure convergence (and convergence in mean) of the optimality gap and the distance of the generated stochastic iterates to the true solution set. We then characterize the corresponding iteration complexity and work complexity rates as a function of the sample size schedule, demonstrating that the best achievable work complexity rate is Monte Carlo canonical and analogous to the generic $\mathcal{O}(\epsilon^{-2})$ optimal complexity for non-smooth convex optimization. We report extensive numerical tests that indicate favorable performance, due primarily to the use of a sequential framework with an optimal sample size schedule, and the use of warm starts. The proposed algorithm can be stopped in finite-time to return a solution endowed with a probabilistic guarantee on quality.
翻訳日:2021-05-20 08:16:48 公開日:2020-12-07
# (参考訳) シーン・コンプリートからの文脈形状の学習によるSparse Single Sweep LiDAR Point Cloud Segmentation

Sparse Single Sweep LiDAR Point Cloud Segmentation via Learning Contextual Shape Priors from Scene Completion ( http://arxiv.org/abs/2012.03762v1 )

ライセンス: CC BY 4.0
Xu Yan, Jiantao Gao, Jie Li, Ruimao Zhang, Zhen Li, Rui Huang, Shuguang Cui(参考訳) LiDARポイントクラウド分析は、3Dコンピュータビジョン、特に自動運転のコアタスクである。 しかし、単一スイープlidar点雲の厳しいスパーシティとノイズ干渉のため、正確な意味セグメンテーションを達成することは容易ではない。 本稿では,学習した文脈形状の先行処理を支援する,新しい疎いLiDARポイントクラウドセマンティックセマンティックセグメンテーションフレームワークを提案する。 実際には、単一のスイープポイントクラウドの最初のセマンティックセグメンテーション(SS)は、魅力的なネットワークによって達成され、入力としてセマンティックシーン補完(SSC)モジュールに流れ込む。 最適化されたSSCモジュールは、LiDARシーケンス内の複数のフレームを監視としてマージすることにより、シーケンシャルなLiDARデータからコンテキスト形状を学習し、スパースな単一スイープポイントクラウドを高密度なものに仕上げる。 したがって、完全にエンドツーエンドのトレーニングによってSS最適化を本質的に改善する。 また,ポイント・ボクセル相互作用(pvi)モジュールは,ssタスクとsscタスクの知識融合,すなわち,ポイント・クラウドの不完全局所幾何と完全なボクセル・ワイズ・グローバル構造との相互作用を促進するために提案されている。 さらに、SSを余分に負担することなく、推論中に補助SSCおよびPVIモジュールを破棄することができる。 JS3C-NetはSemanticKITTIベンチマークとSemanticPOSSベンチマークの両方で優れたパフォーマンス、すなわち4%と3%の改善を実現しています。

LiDAR point cloud analysis is a core task for 3D computer vision, especially for autonomous driving. However, due to the severe sparsity and noise interference in the single sweep LiDAR point cloud, the accurate semantic segmentation is non-trivial to achieve. In this paper, we propose a novel sparse LiDAR point cloud semantic segmentation framework assisted by learned contextual shape priors. In practice, an initial semantic segmentation (SS) of a single sweep point cloud can be achieved by any appealing network and then flows into the semantic scene completion (SSC) module as the input. By merging multiple frames in the LiDAR sequence as supervision, the optimized SSC module has learned the contextual shape priors from sequential LiDAR data, completing the sparse single sweep point cloud to the dense one. Thus, it inherently improves SS optimization through fully end-to-end training. Besides, a Point-Voxel Interaction (PVI) module is proposed to further enhance the knowledge fusion between SS and SSC tasks, i.e., promoting the interaction of incomplete local geometry of point cloud and complete voxel-wise global structure. Furthermore, the auxiliary SSC and PVI modules can be discarded during inference without extra burden for SS. Extensive experiments confirm that our JS3C-Net achieves superior performance on both SemanticKITTI and SemanticPOSS benchmarks, i.e., 4% and 3% improvement correspondingly.
翻訳日:2021-05-18 14:14:54 公開日:2020-12-07
# (参考訳) テキストから不適切な質問を検出する:伝達学習アプローチ

Detecting Insincere Questions from Text: A Transfer Learning Approach ( http://arxiv.org/abs/2012.07587v1 )

ライセンス: CC BY 4.0
Ashwin Rachha and Gaurav Vanmane(参考訳) 今日インターネットは、quora、reddit、stackoverflow、twitterなどのコンテンツベースのウェブサイトで、疑わしい質問をしたり、知識を世界中と共有したりする、未解決の情報ソースになっている。 このようなウェブサイトで生じる大きな問題は、有害なコメントの拡散や、ユーザーが誠実なモチベーションを保ちながら、有害で異質なコンテンツを広めることである。 この状況に直面する直接的な行動は、そのようなコンテンツを事前に検出し、オンラインに登録するのを防ぐことである。 近年、自然言語処理におけるトランスファー学習は前例のない成長を遂げている。 今日、変圧器の存在と様々な技術革新の状況により、様々なNLPドメインで大きな成長を遂げている。 BERTの導入は、NLPコミュニティに大きな刺激を与えました。 前述のように、BERTはパフォーマンスベンチマークを支配し、他の多くの著者に同様のモデルの実験と公開を刺激した。 これによりBERTファミリー全体が開発され、各メンバーは別のタスクに特化していた。 本稿では, 切削年齢モデルviz BERT, RoBERTa, DistilBERT, ALBERT を微調整することで, インシンセア質問分類問題を解決する。

The internet today has become an unrivalled source of information where people converse on content based websites such as Quora, Reddit, StackOverflow and Twitter asking doubts and sharing knowledge with the world. A major arising problem with such websites is the proliferation of toxic comments or instances of insincerity wherein the users instead of maintaining a sincere motive indulge in spreading toxic and divisive content. The straightforward course of action in confronting this situation is detecting such content beforehand and preventing it from subsisting online. In recent times Transfer Learning in Natural Language Processing has seen an unprecedented growth. Today with the existence of transformers and various state of the art innovations, a tremendous growth has been made in various NLP domains. The introduction of BERT has caused quite a stir in the NLP community. As mentioned, when published, BERT dominated performance benchmarks and thereby inspired many other authors to experiment with it and publish similar models. This led to the development of a whole BERT-family, each member being specialized on a different task. In this paper we solve the Insincere Questions Classification problem by fine tuning four cutting age models viz BERT, RoBERTa, DistilBERT and ALBERT.
翻訳日:2021-05-18 13:55:42 公開日:2020-12-07
# (参考訳) 機械学習を用いた腎移植の生存予測モデル

A predictive model for kidney transplant graft survival using machine learning ( http://arxiv.org/abs/2012.03787v1 )

ライセンス: CC BY 4.0
Eric S. Pahl, W. Nick Street, Hans J. Johnson, Alan I. Reed(参考訳) 腎臓移植は末期腎不全患者に最適な治療法である。 腎臓品質評価に用いられる主な方法は、Cox回帰に基づく腎臓ドナーリスク指標である。 機械学習は、移植結果の予測を改善し、意思決定を支援する。 木をベースとした機械学習手法であるランダムフォレスト(ランダムフォレスト)を,1995-2005年の70,242件のリスク指標の開発に使用した同じデータを用いて訓練し,評価した。 ランダム・フォレストは、リスク指標よりも2,148回の移植を行い、II型エラー率は10%と予測した。 kaplan-meier 法による移植後240カ月までの生存率で予測結果を解析し,ランダム林はリスク指数 (p<0.05) よりも有意に良好であったことを確認した。 ランダムフォレストはリスク指数よりも成功し、長期生存できる移植を予測した。 ランダムフォレストやその他の機械学習モデルは移植決定を改善する可能性がある。

Kidney transplantation is the best treatment for end-stage renal failure patients. The predominant method used for kidney quality assessment is the Cox regression-based, kidney donor risk index. A machine learning method may provide improved prediction of transplant outcomes and help decision-making. A popular tree-based machine learning method, random forest, was trained and evaluated with the same data originally used to develop the risk index (70,242 observations from 1995-2005). The random forest successfully predicted an additional 2,148 transplants than the risk index with equal type II error rates of 10%. Predicted results were analyzed with follow-up survival outcomes up to 240 months after transplant using Kaplan-Meier analysis and confirmed that the random forest performed significantly better than the risk index (p<0.05). The random forest predicted significantly more successful and longer-surviving transplants than the risk index. Random forests and other machine learning models may improve transplant decisions.
翻訳日:2021-05-18 13:13:08 公開日:2020-12-07
# (参考訳) 連合学習における動的クラスタリング

Dynamic Clustering in Federated Learning ( http://arxiv.org/abs/2012.03788v1 )

ライセンス: CC BY-SA 4.0
Yeongwoo Kim, Ezeddin Al Hakim, Johan Haraldson, Henrik Eriksson, Jos\'e Mairton B. da Silva Jr., Carlo Fischione(参考訳) 無線ネットワークのリソース管理では、フェデレーション学習がハンドオーバの予測に使われている。 しかし、非独立で同一に分布するデータは、これらの予測の精度を低下させる。 この問題を解決するために、フェデレーション学習はデータクラスタリングアルゴリズムを活用し、各クラスタに機械学習モデルを構築することができる。 しかし、ハンドオーバ予測に適用された従来のデータクラスタリングアルゴリズムは、データのプライバシ侵害のリスク、クラスタの固定形、クラスタの非適応数という3つの大きな制限を示している。 本稿では,これらの制約を克服するために,3段階のデータクラスタリングアルゴリズム,すなわち,生成的対向的ネットワークベースのクラスタリング,クラスタキャリブレーション,クラスタ分割を提案する。 ネットワークベースのクラスタリングがプライバシを保護していることを示す。 クラスタキャリブレーションは、クラスタを変更することで動的環境を扱う。 さらに、分割クラスタリングは、クラスタを複数のクラスタに繰り返し選択して分割することで、異なるクラスタ数を探索する。 時系列予測タスクにおいて,ベースラインアルゴリズムと本アルゴリズムを検証した。 提案アルゴリズムは,セルラーネットワークハンドオーバを含む予測モデルの性能を43%向上させる。

In the resource management of wireless networks, Federated Learning has been used to predict handovers. However, non-independent and identically distributed data degrade the accuracy performance of such predictions. To overcome the problem, Federated Learning can leverage data clustering algorithms and build a machine learning model for each cluster. However, traditional data clustering algorithms, when applied to the handover prediction, exhibit three main limitations: the risk of data privacy breach, the fixed shape of clusters, and the non-adaptive number of clusters. To overcome these limitations, in this paper, we propose a three-phased data clustering algorithm, namely: generative adversarial network-based clustering, cluster calibration, and cluster division. We show that the generative adversarial network-based clustering preserves privacy. The cluster calibration deals with dynamic environments by modifying clusters. Moreover, the divisive clustering explores the different number of clusters by repeatedly selecting and dividing a cluster into multiple clusters. A baseline algorithm and our algorithm are tested on a time series forecasting task. We show that our algorithm improves the performance of forecasting models, including cellular network handover, by 43%.
翻訳日:2021-05-18 13:04:36 公開日:2020-12-07
# (参考訳) 心不整脈分類における心電図信号の超解像

ECG Signal Super-resolution by Considering Reconstruction and Cardiac Arrhythmias Classification Loss ( http://arxiv.org/abs/2012.03803v1 )

ライセンス: CC BY-SA 4.0
Tsai-Min Chen (1 and 2), Yuan-Hong Tsai (3 and 4), Huan-Hsin Tseng (2), Jhih-Yu Chen (5), Chih-Han Huang (6), Guo-Yuan Li (3 and 4), Chun-Yen Shen (1 and 7) and Yu Tsao (1 and 2) ((1) Graduate Program of Data Science, National Taiwan University and Academia Sinica, Taipei, Taiwan, (2) Research Center for Information Technology Innovation, Academia Sinica, Taipei, Taiwan, (3) Taiwan AI Academy, Science and Technology Ecosystem Development Foundation, Taipei, Taiwan, (4) Artificial Intelligence Foundation, Taipei, Taiwan, (5) Graduate Institute of Biomedical Electronics and Bioinformatics, National Taiwan University, Taipei, Taiwan, (6) Institute of Biomedical Sciences, Academia Sinica, Taipei, Taiwan, (7) Department of Mathematics, National Taiwan University, Taipei, Taiwan)(参考訳) 近年のディープラーニングアルゴリズムの進歩により、特にモバイルデバイスと組み合わせた場合、コンピュータ支援医療サービスが急速に成長している。 このような組み合わせは、連続測定のためのウェアラブルサービスとポータブルサービスを可能にし、心電図(ECG)からの心不整脈(CA)などの生理学的信号に基づいてリアルタイムの病気警報を促進する。 しかし、長期かつ継続的な監視は、バッテリーの制限やデバイスの伝送帯域から生じる課題に直面している。 そのため、ECGデータ伝送とストレージ効率を改善する効果的な方法の特定が課題となっている。 本研究では,深層学習に基づくECG信号超解像フレームワーク(ESRNet)を提案し,信号再構成とCA分類精度の併用効果を考慮した圧縮ECG信号を復元する。 実験では,CPSC 2018データセットからECG信号をサンプリングし,再構成誤差と分類精度の両方で超解像性能を評価した。 実験の結果,提案するESRNetフレームワークは10回圧縮されたデータからECG信号を十分に再構成できることがわかった。 さらに、ESRNetにより回収されたECG信号には、約半数のCA認識精度が維持された。 提案するESRNetフレームワークは,実世界のCA認識シナリオにおいて圧縮ECG信号を再構成するフロントエンドプロセスとして好適に利用できることを確認した。

With recent advances in deep learning algorithms, computer-assisted healthcare services have rapidly grown, especially for those that combine with mobile devices. Such a combination enables wearable and portable services for continuous measurements and facilitates real-time disease alarm based on physiological signals, e.g., cardiac arrhythmias (CAs) from electrocardiography (ECG). However, long-term and continuous monitoring confronts challenges arising from limitations of batteries, and the transmission bandwidth of devices. Therefore, identifying an effective way to improve ECG data transmission and storage efficiency has become an emerging topic. In this study, we proposed a deep-learning-based ECG signal super-resolution framework (termed ESRNet) to recover compressed ECG signals by considering the joint effect of signal reconstruction and CA classification accuracies. In our experiments, we downsampled the ECG signals from the CPSC 2018 dataset and subsequently evaluated the super-resolution performance by both reconstruction errors and classification accuracies. Experimental results showed that the proposed ESRNet framework can well reconstruct ECG signals from the 10-times compressed ones. Moreover, approximately half of the CA recognition accuracies were maintained within the ECG signals recovered by the ESRNet. The promising results confirm that the proposed ESRNet framework can be suitably used as a front-end process to reconstruct compressed ECG signals in real-world CA recognition scenarios.
翻訳日:2021-05-18 12:36:46 公開日:2020-12-07
# (参考訳) 選択問題における公平性とプライバシーの改善

Improving Fairness and Privacy in Selection Problems ( http://arxiv.org/abs/2012.03812v1 )

ライセンス: CC BY 4.0
Mohammad Mahdi Khalili, Xueru Zhang, Mahed Abroshan, Somayeh Sojoudi(参考訳) 教師付き学習モデルは、雇用、貸付、大学入学などのアプリケーションにおける個人に関する意思決定にますます使われてきた。 これらのモデルは、トレーニングデータセットから既存のバイアスを継承し、保護された属性(例えば、人種や性別)を識別する。 不公平さに加えて、モデルの使用が機密性の高い個人情報を明らかにすると、プライバシーの懸念が生じる。 さまざまなプライバシー概念の中で、ディファレンシャルプライバシは近年普及している。 本研究では,教師付き学習モデルの公平性とプライバシの両方を改善するための後処理ステップとして,微分的にプライベートな指数関数的メカニズムを用いる可能性について検討する。 既存の多くの作品と異なり、利用可能なポジションの数が限られているため、教師付きモデルを用いて限られた数の応募者を選定するシナリオを考える。 この仮定は、就職申請や大学入学など、様々なシナリオに適している。 我々は「平等の機会」を公平性の概念として使用し、指数関数的メカニズムによって意思決定プロセスが完全に公平になることを示す。 さらに,実世界のデータセットに関する実験では,指数関数的メカニズムがプライバシと公平性の両方を改善し,後処理を伴わないモデルと比較して精度をわずかに低下させることが示されている。

Supervised learning models have been increasingly used for making decisions about individuals in applications such as hiring, lending, and college admission. These models may inherit pre-existing biases from training datasets and discriminate against protected attributes (e.g., race or gender). In addition to unfairness, privacy concerns also arise when the use of models reveals sensitive personal information. Among various privacy notions, differential privacy has become popular in recent years. In this work, we study the possibility of using a differentially private exponential mechanism as a post-processing step to improve both fairness and privacy of supervised learning models. Unlike many existing works, we consider a scenario where a supervised model is used to select a limited number of applicants as the number of available positions is limited. This assumption is well-suited for various scenarios, such as job application and college admission. We use ``equal opportunity'' as the fairness notion and show that the exponential mechanisms can make the decision-making process perfectly fair. Moreover, the experiments on real-world datasets show that the exponential mechanism can improve both privacy and fairness, with a slight decrease in accuracy compared to the model without post-processing.
翻訳日:2021-05-18 11:48:58 公開日:2020-12-07
# (参考訳) 脆弱性予測:理論と実践

Vulnerability Forecasting: In theory and practice ( http://arxiv.org/abs/2012.03814v1 )

ライセンス: CC BY 4.0
\'Eireann Leverett, Matilda Rhode, Adam Wedgbury(参考訳) 事前に予測できたら、なぜゼロデイを待つのか? NVDで放出されるCVEの体積を1年前まで予測することが可能である。 これは実際の値の3%以内に行うことができ、異なる予測アルゴリズムは異なるルックアヘッド値でうまく機能する。 また、特定のベンダー、ソフトウェア、CVSSスコア、または脆弱性タイプに属する合計Volumnの割合を推定することもできる。 この不確実性を減らすことで、戦略的パッチ管理がより簡単になるはずだ。

Why wait for zero-days when you could predict them in advance? It is possible to predict the volume of CVEs released in the NVD as much as a year in advance. This can be done within 3 percent of the actual value, and different predictive algorithms perform well at different lookahead values. It is also possible to estimate the proportions of that total volumn belonging to specific vendors, software, CVSS scores, or vulnerability types. Strategic patch management should become much easier, with this uncertainty reduction.
翻訳日:2021-05-18 10:48:02 公開日:2020-12-07
# (参考訳) 差分プライバシーのための有界雑音機構

A bounded-noise mechanism for differential privacy ( http://arxiv.org/abs/2012.03817v1 )

ライセンス: CC BY 4.0
Yuval Dagan, Gil Kur(参考訳) 複数のカウントクエリを答えることが、差分プライバシーの最もよく研究されている問題のひとつだ。 その目標は、平均$\frac{1}{n}\sum_{i=1}^n \vec{x}^{(i)}$ of vectors $\vec{x}^{(i)} \in [0,1]^k$ の近似を出力し、任意の$\vec{x}^{(i)}$に対してプライバシを保存することである。 我々は、$\delta$のほとんどの値に対して最適な$\ell_\infty$エラーを持つ$(\epsilon,\delta)$-privateメカニズムを示す。 この結果は、これら$\delta$ の値に対するsteinke と ullman [2020] の予想を解消する。 このアルゴリズムは、k$座標のそれぞれに有界大小の独立なノイズを付加するが、以前の解はラプラスやガウス機構のような非有界なノイズに依存する。

Answering multiple counting queries is one of the best-studied problems in differential privacy. Its goal is to output an approximation of the average $\frac{1}{n}\sum_{i=1}^n \vec{x}^{(i)}$ of vectors $\vec{x}^{(i)} \in [0,1]^k$, while preserving the privacy with respect to any $\vec{x}^{(i)}$. We present an $(\epsilon,\delta)$-private mechanism with optimal $\ell_\infty$ error for most values of $\delta$. This result settles the conjecture of Steinke and Ullman [2020] for the these values of $\delta$. Our algorithm adds independent noise of bounded magnitude to each of the $k$ coordinates, while prior solutions relied on unbounded noise such as the Laplace and Gaussian mechanisms.
翻訳日:2021-05-18 10:30:57 公開日:2020-12-07
# (参考訳) 意味と形態の相関関係は何か

What Meaning-Form Correlation Has to Compose With ( http://arxiv.org/abs/2012.03833v1 )

ライセンス: CC BY-SA 4.0
Timothee Mickus, Timoth\'ee Bernard, Denis Paperno(参考訳) 構成性は自然言語の性質として広く議論されているが、その正確な定義は解明されている。 構成性は意味-形態の相関を測ることで評価できるという提案に焦点をあてる。 i) 合成に適した人工玩具言語, (ii) 英辞書定義のセット, (iii) 文学から引き出された英文のセットの3つの言語について, 意味と形態の相関を解析した。 MFC測定では,同義語や非接地語などの言語現象が重なり,その効果を緩和するための簡単な手法が適用されるデータセットによって大きく異なる結果をもたらすことがわかった。 データとコードは公開されています。

Compositionality is a widely discussed property of natural languages, although its exact definition has been elusive. We focus on the proposal that compositionality can be assessed by measuring meaning-form correlation. We analyze meaning-form correlation on three sets of languages: (i) artificial toy languages tailored to be compositional, (ii) a set of English dictionary definitions, and (iii) a set of English sentences drawn from literature. We find that linguistic phenomena such as synonymy and ungrounded stop-words weigh on MFC measurements, and that straightforward methods to mitigate their effects have widely varying results depending on the dataset they are applied to. Data and code are made publicly available.
翻訳日:2021-05-18 10:13:02 公開日:2020-12-07
# (参考訳) ローカル更新によるディープネットワークの並列トレーニング

Parallel Training of Deep Networks with Local Updates ( http://arxiv.org/abs/2012.03837v1 )

ライセンス: CC BY 4.0
Michael Laskin, Luke Metz, Seth Nabarrao, Mark Saroufim, Badreddine Noune, Carlo Luschi, Jascha Sohl-Dickstein, Pieter Abbeel(参考訳) 大規模データセットでトレーニングされたディープラーニングモデルは、ビジョンと言語ドメインの両方で広く成功している。 最先端のディープラーニングアーキテクチャはパラメータ数の増加を続けており、トレーニングに必要な計算予算と時間を確保でき、訓練を並列化する計算効率の高い方法の必要性が高まっている。 ディープネットワークのトレーニングを並列化する一般的なアプローチは、データとモデル並列化である。 有用ではあるが、データとモデルの並列処理は大規模なバッチサイズに対する計算効率の点でリターンの低下に悩まされる。 本稿では,グローバルバックプロパゲーションを廃止層毎バックプロパゲーションに置き換えることで,ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークであるlocal parallelismを通じて,大規模バッチのリターンを減少させる点を超えて,計算を効率的にスケーリングする方法について検討する。 ローカル並列化は、メモリフットプリントの少ない完全に非同期なレイヤワイド並列化を可能にし、モデル並列化と比較して通信オーバーヘッドが少ない。 我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。

Deep learning models trained on large data sets have been widely successful in both vision and language domains. As state-of-the-art deep learning architectures have continued to grow in parameter count so have the compute budgets and times required to train them, increasing the need for compute-efficient methods that parallelize training. Two common approaches to parallelize the training of deep networks have been data and model parallelism. While useful, data and model parallelism suffer from diminishing returns in terms of compute efficiency for large batch sizes. In this paper, we investigate how to continue scaling compute efficiently beyond the point of diminishing returns for large batches through local parallelism, a framework which parallelizes training of individual layers in deep networks by replacing global backpropagation with truncated layer-wise backpropagation. Local parallelism enables fully asynchronous layer-wise parallelism with a low memory footprint, and requires little communication overhead compared with model parallelism. We show results in both vision and language domains across a diverse set of architectures, and find that local parallelism is particularly effective in the high-compute regime.
翻訳日:2021-05-18 09:57:40 公開日:2020-12-07
# (参考訳) CycleQSM:物理インフォームドサイクロンを用いた教師なしQSMディープラーニング

CycleQSM: Unsupervised QSM Deep Learning using Physics-Informed CycleGAN ( http://arxiv.org/abs/2012.03842v1 )

ライセンス: CC BY 4.0
Gyutaek Oh, Hyokyoung Bae, Hyun-Seo Ahn, Sung-Hong Park, and Jong Chul Ye(参考訳) 定量的感受性マッピング(QSM)は、組織の磁気感受性値の空間分布を提供する有用な磁気共鳴イメージング(MRI)技術である。 QSMは、位相像から双極子核を分離することで得るが、双極子核のスペクトルヌルは逆転を不正にする。 近年のディープラーニング手法は、高速な再構築時間にもかかわらず、古典的なアプローチと同等のQSM再構成性能を示している。 しかし,既存の深層学習手法の多くは教師付き学習に基づいているため,入力位相画像と接地トラスマップのマッチングが必要である。 さらに,教師付き学習がQSM値の過小評価につながることが報告された。 そこで本稿では,最適移動度の観点から導出される物理式サイクガンを用いた教師なしqsm深層学習法を提案する。 従来のサイクルGANとは対照的に、新しいサイクルGANは既知の双極子カーネルのおかげで1つのジェネレータと1つの識別器しか持たない。 実験の結果,本手法は既存の深層学習法に比べて高精度なqsmマップを提供し,超高速復元にもかかわらず最良な古典的手法に競争力をもたらすことがわかった。

Quantitative susceptibility mapping (QSM) is a useful magnetic resonance imaging (MRI) technique which provides spatial distribution of magnetic susceptibility values of tissues. QSMs can be obtained by deconvolving the dipole kernel from phase images, but the spectral nulls in the dipole kernel make the inversion ill-posed. In recent times, deep learning approaches have shown a comparable QSM reconstruction performance as the classic approaches, despite the fast reconstruction time. Most of the existing deep learning methods are, however, based on supervised learning, so matched pairs of input phase images and the ground-truth maps are needed. Moreover, it was reported that the supervised learning often leads to underestimated QSM values. To address this, here we propose a novel unsupervised QSM deep learning method using physics-informed cycleGAN, which is derived from optimal transport perspective. In contrast to the conventional cycleGAN, our novel cycleGAN has only one generator and one discriminator thanks to the known dipole kernel. Experimental results confirm that the proposed method provides more accurate QSM maps compared to the existing deep learning approaches, and provide competitive performance to the best classical approaches despite the ultra-fast reconstruction.
翻訳日:2021-05-18 09:32:17 公開日:2020-12-07
# (参考訳) 多言語会話エージェントモデルにおける言語間伝達学習手法の評価

Evaluating Cross-Lingual Transfer Learning Approaches in Multilingual Conversational Agent Models ( http://arxiv.org/abs/2012.03864v1 )

ライセンス: CC BY 4.0
Lizhen Tan and Olga Golovneva(参考訳) 近年、ボイスアシスタントデバイスの人気が高まっており、他の国や言語のユーザー層に利用できるようにすることへの関心が高まっている。 しかし、特定のユーザに対して最高の精度と最高のパフォーマンスを提供するため、既存の音声アシスタントモデルは各地域や言語ごとに個別に開発されており、これには線形投資が必要である。 本稿では,自然言語理解(NLU)モデルのための汎用多言語モデルフレームワークを提案する。 異なるディープラーニングアーキテクチャが多言語nluモデルのパフォーマンスに与える影響について検討する。 実験結果から,これらの多言語モデルは,言語固有のテストデータ間での単言語モデルと同等あるいはそれ以上の性能が得られるが,機能作成やモデルメンテナンスの労力は少なくなることが示された。

With the recent explosion in popularity of voice assistant devices, there is a growing interest in making them available to user populations in additional countries and languages. However, to provide the highest accuracy and best performance for specific user populations, most existing voice assistant models are developed individually for each region or language, which requires linear investment of effort. In this paper, we propose a general multilingual model framework for Natural Language Understanding (NLU) models, which can help bootstrap new language models faster and reduce the amount of effort required to develop each language separately. We explore how different deep learning architectures affect multilingual NLU model performance. Our experimental results show that these multilingual models can reach same or better performance compared to monolingual models across language-specific test data while require less effort in creating features and model maintenance.
翻訳日:2021-05-18 09:12:09 公開日:2020-12-07
# (参考訳) ツェルナーペナルティによる非負行列因子分解

Nonnegative Matrix Factorization with Zellner Penalty ( http://arxiv.org/abs/2012.03889v1 )

ライセンス: CC BY 4.0
Matthew Corsetti and Ernest Fokou\'e(参考訳) 非負行列分解(Non negative matrix factorization, NMF)は、非負行列を部分ベースで低次元の線形表現に分解する比較的新しい非教師付き学習アルゴリズムである。 NMFは画像処理、テキストマイニング、レコメンデーションシステムなど様々な分野で応用されている。 当初から、NMFアルゴリズムは多くの著者によって修正され、探索されてきた。 そのような修正の1つは、因子化の目的関数に補助的制約を加えることである。 これらの補助的制約の目的は、目的関数にタスク固有の罰則や制限を課すことである。 多くの補助的制約が研究されているが、データに依存した罰則は使われていない。 本稿では,データ依存的制約を用いたZellner non negative matrix factorization (ZNMF)を提案する。 ケンブリッジ ORL データベースを用いて,ZNMF アルゴリズムと他のよく知られた制約付きNMF アルゴリズムの顔認識性能を評価する。

Nonnegative matrix factorization (NMF) is a relatively new unsupervised learning algorithm that decomposes a nonnegative data matrix into a parts-based, lower dimensional, linear representation of the data. NMF has applications in image processing, text mining, recommendation systems and a variety of other fields. Since its inception, the NMF algorithm has been modified and explored by numerous authors. One such modification involves the addition of auxiliary constraints to the objective function of the factorization. The purpose of these auxiliary constraints is to impose task-specific penalties or restrictions on the objective function. Though many auxiliary constraints have been studied, none have made use of data-dependent penalties. In this paper, we propose Zellner nonnegative matrix factorization (ZNMF), which uses data-dependent auxiliary constraints. We assess the facial recognition performance of the ZNMF algorithm and several other well-known constrained NMF algorithms using the Cambridge ORL database.
翻訳日:2021-05-18 09:04:16 公開日:2020-12-07
# (参考訳) ロスシー単一サーバ情報検索におけるユーザプライバシ生成

Generative Adversarial User Privacy in Lossy Single-Server Information Retrieval ( http://arxiv.org/abs/2012.03902v1 )

ライセンス: CC0 1.0
Chung-Wei Weng, Yauhen Yakimenka, Hsuan-Yin Lin, Eirik Rosnes, Joerg Kliewer(参考訳) 本稿では,ユーザゆがみとユーザのプライバシー制約の両方の下で,単一のサーバに格納されたファイルのデータセットからの情報検索の問題を考える。 具体的には、データセットからファイルを要求するユーザは、所定の歪みで要求されたファイルを再構築することができ、さらに、要求されたファイルの同一性を所定のプライバシーレベルでサーバからプライベートにしておく必要がある。 提案モデルは,検索過程の歪みを許容し,完全なプライバシー要件を緩和することにより,情報検索の周知概念の拡張と見なすことができる。 ダウンロード率,歪み,ユーザプライバシリークのトレードオフについて検討し,最適なレート・歪み・遅延トレードオフが凸であり,ファイルサイズが大きければ,相互情報の観点から簡潔な情報理論の定式化が可能になることを示す。 さらに,新しいデータ駆動型フレームワークを提案する。データ自体からのダウンロード率という観点で,ユーザが効率的なスキームを学習できるジェネレーティブ・アドバーサリーモデルの最近の進歩を活用している。 このスキームの学習は、要求されたファイルのアイデンティティをプライベートに保つことを希望するユーザと、歪んだ制約の下でユーザが興味を持つファイルを推測しようとする敵との間の制約付きミニマックスゲームとして定式化されている。 一般的に、特定のプライバシレベルの保証は、高いレート歪みのトレードオフ曲線につながるため、ダウンロード率または歪みの犠牲になる。 我々は、合成ガウスデータセットおよびmnistおよびcifar-$10$データセットにおけるスキームの性能を評価する。 MNISTデータセットでは、データ駆動型アプローチは、ソースコードと複数のファイルのダウンロードを組み合わせた一般的な達成可能なスキームを著しく上回り、CIFAR-$10$のパフォーマンスは同等である。

We consider the problem of information retrieval from a dataset of files stored on a single server under both a user distortion and a user privacy constraint. Specifically, a user requesting a file from the dataset should be able to reconstruct the requested file with a prescribed distortion, and in addition, the identity of the requested file should be kept private from the server with a prescribed privacy level. The proposed model can be seen as an extension of the well-known concept of private information retrieval by allowing for distortion in the retrieval process and relaxing the perfect privacy requirement. We initiate the study of the tradeoff between download rate, distortion, and user privacy leakage, and show that the optimal rate-distortion-leakage tradeoff is convex and that in the limit of large file sizes this allows for a concise information-theoretical formulation in terms of mutual information. Moreover, we propose a new data-driven framework by leveraging recent advancements in generative adversarial models which allows a user to learn efficient schemes in terms of download rate from the data itself. Learning the scheme is formulated as a constrained minimax game between a user which desires to keep the identity of the requested file private and an adversary that tries to infer which file the user is interested in under a distortion constraint. In general, guaranteeing a certain privacy level leads to a higher rate-distortion tradeoff curve, and hence a sacrifice in either download rate or distortion. We evaluate the performance of the scheme on a synthetic Gaussian dataset as well as on the MNIST and CIFAR-$10$ datasets. For the MNIST dataset, the data-driven approach significantly outperforms a proposed general achievable scheme combining source coding with the download of multiple files, while for CIFAR-$10$ the performances are comparable.
翻訳日:2021-05-18 08:55:00 公開日:2020-12-07
# (参考訳) MultiON:マルチオブジェクトナビゲーションを用いた意味マップメモリのベンチマーク

MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation ( http://arxiv.org/abs/2012.03912v1 )

ライセンス: CC BY 4.0
Saim Wani, Shivansh Patel, Unnat Jain, Angel X. Chang, Manolis Savva(参考訳) フォトリアリスティックな3d環境におけるナビゲーションタスクは、部分的可観測性の下で知覚と効果的な計画を必要とするため、困難である。 最近の研究は、地図のようなメモリが長距離ナビゲーションタスクに有用であることを示している。 しかし、地図が様々な複雑さのナビゲーションタスクに与える影響についての研究はまだ行われていない。 本稿では,実環境において,エピソード特有のオブジェクト列へのナビゲーションを必要とするマルチオンタスクを提案する。 MultiONはObjectGoalナビゲーションタスクを一般化し、ナビゲーションエージェントが以前に観測されたゴールオブジェクトを見つける能力を明示的にテストする。 マルチオン実験を行い,様々なエージェントモデルがナビゲーションタスクの複雑度を横断してどのように振る舞うかを検証した。 実験の結果, ナビゲーション性能は, タスクの複雑さを増大させるとともに劇的に低下することがわかった。i) 単純な意味地図エージェントは, より複雑なニューラルイメージ特徴マップエージェントと比較して驚くほどよく機能し, iii) オラクルマップエージェントでさえ比較的低い性能を達成し, 地図を用いた具体化ナビゲーションエージェントの訓練における今後の作業の可能性を示している。 ビデオ要約: https://youtu.be/yqTlHNIcgnY

Navigation tasks in photorealistic 3D environments are challenging because they require perception and effective planning under partial observability. Recent work shows that map-like memory is useful for long-horizon navigation tasks. However, a focused investigation of the impact of maps on navigation tasks of varying complexity has not yet been performed. We propose the multiON task, which requires navigation to an episode-specific sequence of objects in a realistic environment. MultiON generalizes the ObjectGoal navigation task and explicitly tests the ability of navigation agents to locate previously observed goal objects. We perform a set of multiON experiments to examine how a variety of agent models perform across a spectrum of navigation task complexities. Our experiments show that: i) navigation performance degrades dramatically with escalating task complexity; ii) a simple semantic map agent performs surprisingly well relative to more complex neural image feature map agents; and iii) even oracle map agents achieve relatively low performance, indicating the potential for future work in training embodied navigation agents using maps. Video summary: https://youtu.be/yqTlHNIcgnY
翻訳日:2021-05-18 08:25:37 公開日:2020-12-07
# (参考訳) VC次元と分布自由サンプルベーステスト

VC Dimension and Distribution-Free Sample-Based Testing ( http://arxiv.org/abs/2012.03923v1 )

ライセンス: CC BY 4.0
Eric Blais, Renato Ferreira Pinto Jr., Nathaniel Harms(参考訳) 標準的なPAC学習環境に対応する分布自由サンプルベースモデルにおいて,どの関数のクラスを学習よりも効率的にテストできるかを決定する問題を考える。 我々の主な結果は、VC次元自体が、このモデルで関数のクラスをテストするのに必要なサンプル数に厳密な境界を与えるわけではないが、このモデルでは「より低いVC」(またはLVC)次元と呼ばれる近縁な不変量と組み合わせて、この複雑さの強い下界を得ることができることを示している。 この結果は強く、多くの場合、間隔、ハーフ空間、ハーフ空間の交叉、多項式しきい値関数、決定木の結合をテストするためのサンプル複雑性のほとんど最適な下界を得る。 逆に,PAC学習に必要なサンプル数よりも多項式的に小さい多くのサンプルを用いて,2種類の自然クラスであるユンタスとモノトン関数を検証可能であることを示す。 最後に、VC次元とプロパティテストの関連性を利用して、線形制約システムのクラスター性テストとテスト可能性をテストするための新しい下位境界を確立する。

We consider the problem of determining which classes of functions can be tested more efficiently than they can be learned, in the distribution-free sample-based model that corresponds to the standard PAC learning setting. Our main result shows that while VC dimension by itself does not always provide tight bounds on the number of samples required to test a class of functions in this model, it can be combined with a closely-related variant that we call "lower VC" (or LVC) dimension to obtain strong lower bounds on this sample complexity. We use this result to obtain strong and in many cases nearly optimal lower bounds on the sample complexity for testing unions of intervals, halfspaces, intersections of halfspaces, polynomial threshold functions, and decision trees. Conversely, we show that two natural classes of functions, juntas and monotone functions, can be tested with a number of samples that is polynomially smaller than the number of samples required for PAC learning. Finally, we also use the connection between VC dimension and property testing to establish new lower bounds for testing radius clusterability and testing feasibility of linear constraint systems.
翻訳日:2021-05-18 07:58:26 公開日:2020-12-07
# (参考訳) Spark NLPによるCOVID-19研究の文書化

Improving Clinical Document Understanding on COVID-19 Research with Spark NLP ( http://arxiv.org/abs/2012.04005v1 )

ライセンス: CC BY 4.0
Veysel Kocaman, David Talby(参考訳) 新型コロナウイルス(COVID-19)の世界的な感染拡大を受け、研究する科学論文の数が大幅に増加し、自動リテラトレビューへの関心が高まった。 これまでの取り組みを3つの方法で改善する臨床テキストマイニングシステムを提案する。 第一に、健康、解剖学、リスクファクター、有害事象などの社会的決定因子を含む100以上の異なる実体を認識でき、また、他の一般的な臨床および生医学的な実体も認識できる。 第2に、テキスト処理パイプラインは、アサーション状態検出を含み、患者以外の誰かの存在、欠如、条件付き、または、患者に関する臨床事実を区別する。 第3に、使用したディープラーニングモデルは、従来よりも正確で、最先端の事前訓練されたエンティティ認識モデルの統合パイプラインを活用し、アサーションステータス検出のための以前の最高のパフォーマンスベンチマークを改善している。 抽出傾向や洞察について説明する。 最も頻繁な障害や症状、最も一般的なバイタルサインやEKGの発見は、COVID-19 Open Research Dataset(CORD-19)である。 このシステムはSpark NLPライブラリを使用して構築されている。これは、分散クラスタを使用するスケーリングをネイティブにサポートし、GPUを活用し、構成可能で再利用可能なNLPパイプライン、ヘルスケア固有の埋め込み、コード変更なしで新しいエンティティタイプやヒューマン言語をサポートするようにモデルをトレーニングする機能を備えている。

Following the global COVID-19 pandemic, the number of scientific papers studying the virus has grown massively, leading to increased interest in automated literate review. We present a clinical text mining system that improves on previous efforts in three ways. First, it can recognize over 100 different entity types including social determinants of health, anatomy, risk factors, and adverse events in addition to other commonly used clinical and biomedical entities. Second, the text processing pipeline includes assertion status detection, to distinguish between clinical facts that are present, absent, conditional, or about someone other than the patient. Third, the deep learning models used are more accurate than previously available, leveraging an integrated pipeline of state-of-the-art pretrained named entity recognition models, and improving on the previous best performing benchmarks for assertion status detection. We illustrate extracting trends and insights, e.g. most frequent disorders and symptoms, and most common vital signs and EKG findings, from the COVID-19 Open Research Dataset (CORD-19). The system is built using the Spark NLP library which natively supports scaling to use distributed clusters, leveraging GPUs, configurable and reusable NLP pipelines, healthcare specific embeddings, and the ability to train models to support new entity types or human languages with no code changes.
翻訳日:2021-05-18 07:56:25 公開日:2020-12-07
# (参考訳) 深層強化学習によるバッテリモデル校正

Battery Model Calibration with Deep Reinforcement Learning ( http://arxiv.org/abs/2012.04010v1 )

ライセンス: CC BY 4.0
Ajaykumar Unagar, Yuan Tian, Manuel Arias-Chao, Olga Fink(参考訳) リチウムイオン(Li-I)電池は最近普及し、多くの物理的資産で使われている。 電池の放電終了を予測するため, 詳細な電気化学的Li-I電池モデルが開発されている。 それらのパラメータは通常、操作を開始する前に校正され、操作中に再校正されない。 しかし,バッテリ性能は老化の影響を受けやすいため,計算バッテリモデルと実際の物理システムとの現実的ギャップは不正確な予測につながる。 教師付き機械学習アルゴリズムは、観測結果を地上の真理キャリブレーションパラメータにマッピングする広範な代表訓練データセットを必要とする。 これは多くの実用的な応用では実現不可能である。 本稿では,バッテリモデルの校正パラメータを確実かつ効率的に推定するための強化学習に基づくフレームワークを提案する。 このフレームワークは、観測から現実ギャップを補うために、計算モデルパラメータのリアルタイム推論を可能にする。 最も重要なことは、提案手法はラベル付きデータサンプルを一切必要としないことである(観測のサンプルと地上の真理キャリブレーションパラメータ)。 さらに、フレームワークは基盤となる物理モデルに関する情報を一切必要としない。 実験により,提案手法はモデルパラメータを高精度かつ高ロバスト性で推定できることを示した。 得られた結果は、教師付き機械学習で得られたものと同等であるが、訓練中は基礎的な真理情報に依存しない。

Lithium-Ion (Li-I) batteries have recently become pervasive and are used in many physical assets. To enable a good prediction of the end of discharge of batteries, detailed electrochemical Li-I battery models have been developed. Their parameters are typically calibrated before they are taken into operation and are typically not re-calibrated during operation. However, since battery performance is affected by aging, the reality gap between the computational battery models and the real physical systems leads to inaccurate predictions. A supervised machine learning algorithm would require an extensive representative training dataset mapping the observation to the ground truth calibration parameters. This may be infeasible for many practical applications. In this paper, we implement a Reinforcement Learning-based framework for reliably and efficiently inferring calibration parameters of battery models. The framework enables real-time inference of the computational model parameters in order to compensate the reality-gap from the observations. Most importantly, the proposed methodology does not need any labeled data samples, (samples of observations and the ground truth calibration parameters). Furthermore, the framework does not require any information on the underlying physical model. The experimental results demonstrate that the proposed methodology is capable of inferring the model parameters with high accuracy and high robustness. While the achieved results are comparable to those obtained with supervised machine learning, they do not rely on the ground truth information during training.
翻訳日:2021-05-18 07:45:08 公開日:2020-12-07
# (参考訳) ATOM3D: 3次元の分子のタスク

ATOM3D: Tasks On Molecules in Three Dimensions ( http://arxiv.org/abs/2012.04035v1 )

ライセンス: CC BY 4.0
Raphael J.L. Townshend, Martin V\"ogele, Patricia Suriana, Alexander Derry, Alexander Powers, Yianni Laloudakis, Sidhika Balachandar, Brandon Anderson, Stephan Eismann, Risi Kondor, Russ B. Altman, Ron O. Dror(参考訳) 三次元分子構造に直接作用する計算手法は、生物学や化学における重要な問題を解く大きな可能性を秘めている。 特にディープニューラルネットワークは最近大きな注目を集めている。 本稿では,生物分子のいくつかの重要なクラスにまたがる新しいデータセットと既存のデータセットのコレクションであるATOM3Dを紹介し,そのような学習方法を体系的に評価する。 これらの課題ごとに3次元分子学習ネットワークを構築し、1次元と2次元の手法と比較して連続的に性能を向上させることを発見した。 アーキテクチャの特定の選択は、複雑なジオメトリを含むタスクに優れた3次元畳み込みネットワークと、詳細な位置情報を必要とするシステムでグラフネットワークがうまく機能することを証明している。 さらに、同変ネットワークは大きな期待を示す。 以上の結果から,3次元の分子学習から得られる多くの分子問題が示唆された。 すべてのコードとデータセットは https://www.atom3d.ai を通じてアクセスすることができる。

Computational methods that operate directly on three-dimensional molecular structure hold large potential to solve important questions in biology and chemistry. In particular deep neural networks have recently gained significant attention. In this work we present ATOM3D, a collection of both novel and existing datasets spanning several key classes of biomolecules, to systematically assess such learning methods. We develop three-dimensional molecular learning networks for each of these tasks, finding that they consistently improve performance relative to one- and two-dimensional methods. The specific choice of architecture proves to be critical for performance, with three-dimensional convolutional networks excelling at tasks involving complex geometries, while graph networks perform well on systems requiring detailed positional information. Furthermore, equivariant networks show significant promise. Our results indicate many molecular problems stand to gain from three-dimensional molecular learning. All code and datasets can be accessed via https://www.atom3d.ai .
翻訳日:2021-05-18 07:26:02 公開日:2020-12-07
# (参考訳) 機械読解における理解度評価のための意味論的変化

Semantics Altering Modifications for Evaluating Comprehension in Machine Reading ( http://arxiv.org/abs/2012.04056v1 )

ライセンス: CC BY 4.0
Viktor Schlegel, Goran Nenadic, Riza Batista-Navarro(参考訳) NLPの進歩は、機械読解(MRC)の課題に対して印象的な結果をもたらし、人間に匹敵する性能を達成するためのアプローチが報告されている。 本稿では,現在最先端のmrcモデルが,文の意味的変化 (sam) を正しく処理できるかどうかについて検討する。 本稿では,原例と修正例を特徴とするチャレンジセットを自動生成・調整する手法を提案する。 さらに, ドメインシフトによって引き起こされる効果を割引することで, 最適化したデータによらず, これらの事例を処理できるmrcシステムの能力を正確に評価する新しい評価手法を提案する。 大規模実験研究において,サムエンリッチデータを正しく処理する能力について,抽出型mrcモデルを評価するために本手法を適用した。 我々は12の異なる最先端のニューラルネットワークの構成と4つのトレーニングデータセットを包括的にカバーし、よく知られたパフォーマンスにもかかわらず、最適化されたモデルは、意味的に変化するデータを正しく処理するのに常に苦労していることを見出します。

Advances in NLP have yielded impressive results for the task of machine reading comprehension (MRC), with approaches having been reported to achieve performance comparable to that of humans. In this paper, we investigate whether state-of-the-art MRC models are able to correctly process Semantics Altering Modifications (SAM): linguistically-motivated phenomena that alter the semantics of a sentence while preserving most of its lexical surface form. We present a method to automatically generate and align challenge sets featuring original and altered examples. We further propose a novel evaluation methodology to correctly assess the capability of MRC systems to process these examples independent of the data they were optimised on, by discounting for effects introduced by domain shift. In a large-scale empirical study, we apply the methodology in order to evaluate extractive MRC models with regard to their capability to correctly process SAM-enriched data. We comprehensively cover 12 different state-of-the-art neural architecture configurations and four training datasets and find that -- despite their well-known remarkable performance -- optimised models consistently struggle to correctly process semantically altered data.
翻訳日:2021-05-18 06:40:08 公開日:2020-12-07
# (参考訳) 階層的機械探索のための3次元シーングラフにおけるニューラルメッセージパッシングを用いた意味的・幾何学的モデリング

Semantic and Geometric Modeling with Neural Message Passing in 3D Scene Graphs for Hierarchical Mechanical Search ( http://arxiv.org/abs/2012.04060v1 )

ライセンス: CC BY 4.0
Andrey Kurenkov, Roberto Mart\'in-Mart\'in, Jeff Ichnowski, Ken Goldberg, Silvio Savarese(参考訳) 家庭やオフィスなどの屋内組織環境における物体の探索は日常的な活動の一環である。 対象物を探す場合、対象物が入っている可能性のある部屋や容器について、共同で推論します。同じタイプの容器は、対象物が入っている部屋によって異なる確率を持つでしょう。 また、幾何学的および意味的な情報を組み合わせることで、対象オブジェクトがビューから隠れている場合、どのコンテナが検索に最適なのか、他のオブジェクトが移動に最適なのかを推測します。 本稿では,この問題の階層的,意味的,幾何学的側面を捉えるために3次元シーングラフ表現を提案する。 この表現を探索プロセスで活用するために,自然言語記述で指定された対象物を見つけるためのエージェントの行動を導く手法である階層機械探索(HMS)を導入する。 HMSは、視覚的、幾何学的、言語的な情報を備えたベクトルのニューラルメッセージパッシングを使用して、意味論的および幾何学的手がかりを組み合わせながら、HMSがグラフの層をまたいで推論できるようにする、新しいニューラルネットワークアーキテクチャに基づいている。 記憶領域に意味的関連オブジェクトを密配置した500の3Dシーングラフからなる新しいデータセットで評価され、必要なアクションの中央値に関して、オブジェクトの発見とオラクルポリシーに近いいくつかのベースラインよりもはるかに優れていることが示されている。 さらに質的な結果がhttps://ai.stanford.edu/mech-search/hmsにある。

Searching for objects in indoor organized environments such as homes or offices is part of our everyday activities. When looking for a target object, we jointly reason about the rooms and containers the object is likely to be in; the same type of container will have a different probability of having the target depending on the room it is in. We also combine geometric and semantic information to infer what container is best to search, or what other objects are best to move, if the target object is hidden from view. We propose to use a 3D scene graph representation to capture the hierarchical, semantic, and geometric aspects of this problem. To exploit this representation in a search process, we introduce Hierarchical Mechanical Search (HMS), a method that guides an agent's actions towards finding a target object specified with a natural language description. HMS is based on a novel neural network architecture that uses neural message passing of vectors with visual, geometric, and linguistic information to allow HMS to reason across layers of the graph while combining semantic and geometric cues. HMS is evaluated on a novel dataset of 500 3D scene graphs with dense placements of semantically related objects in storage locations, and is shown to be significantly better than several baselines at finding objects and close to the oracle policy in terms of the median number of actions required. Additional qualitative results can be found at https://ai.stanford.edu/mech-search/hms.
翻訳日:2021-05-18 06:15:27 公開日:2020-12-07
# (参考訳) 社会的会話における共感的反応意図の分類法

A Taxonomy of Empathetic Response Intents in Human Social Conversations ( http://arxiv.org/abs/2012.04080v1 )

ライセンス: CC BY 4.0
Anuradha Welivita and Pearl Pu(参考訳) オープンドメインの会話エージェントやチャットボットは、自然言語処理コミュニティでますます人気が高まっている。 課題のひとつは、共感的な方法で会話できるようにすることです。 現在のニューラルレスポンス生成手法は、大規模な会話データからエンドツーエンドの学習のみに頼って対話を生成する。 このアプローチは、神経モデルのトレーニングに使用される大規模な品質データがないために、社会的に受け入れられない応答を生み出すことができる。 しかし,近年の研究では,対話行動/インテントモデリングとニューラルレスポンス生成の両立が期待されている。 このハイブリッド手法は、チャットボットの応答品質を改善し、より制御しやすく解釈できるようにする。 ダイアログインテントモデリングの重要な要素は、分類法の開発である。 このアイデアに触発されて、我々は、大きな共感対話データセット(25k対話)のサブセットを使用して、500のレスポンスインテントを手動でラベル付けしました。 私たちの目標は、共感的反応意図のための大規模な分類法を作ることです。 さらに、語彙と機械学習の手法を用いて、データセット全体の話者とリスナーの発話を、識別された応答意図と32の感情カテゴリで自動分析した。 最後に,情報可視化手法を用いて感情対話のパターンとその時間進行を要約する。 これらの結果から,人間と人間のオープンドメイン会話における新規かつ重要な共感パターンが明らかにされ,ハイブリッドアプローチのヒューリスティックスとして機能する。

Open-domain conversational agents or chatbots are becoming increasingly popular in the natural language processing community. One of the challenges is enabling them to converse in an empathetic manner. Current neural response generation methods rely solely on end-to-end learning from large scale conversation data to generate dialogues. This approach can produce socially unacceptable responses due to the lack of large-scale quality data used to train the neural models. However, recent work has shown the promise of combining dialogue act/intent modelling and neural response generation. This hybrid method improves the response quality of chatbots and makes them more controllable and interpretable. A key element in dialog intent modelling is the development of a taxonomy. Inspired by this idea, we have manually labeled 500 response intents using a subset of a sizeable empathetic dialogue dataset (25K dialogues). Our goal is to produce a large-scale taxonomy for empathetic response intents. Furthermore, using lexical and machine learning methods, we automatically analysed both speaker and listener utterances of the entire dataset with identified response intents and 32 emotion categories. Finally, we use information visualization methods to summarize emotional dialogue exchange patterns and their temporal progression. These results reveal novel and important empathy patterns in human-human open-domain conversations and can serve as heuristics for hybrid approaches.
翻訳日:2021-05-18 05:40:51 公開日:2020-12-07
# (参考訳) CEL-Net:極低照度イメージングのための連続露光

CEL-Net: Continuous Exposure for Extreme Low-Light Imaging ( http://arxiv.org/abs/2012.04112v1 )

ライセンス: CC BY 4.0
Michael Klyuchka, Evgeny Hershkovitch Neiterman, Gil Ben-Artzi(参考訳) 暗黒画像の強化のための深層学習方法は、予め決定された離散露光レベルの入力画像から出力画像へのマッピングを学ぶ。 しばしば、推論時において、与えられた画像の入力および最適出力露光レベルは、トレーニング中に見たものと異なる。 その結果、強調画像は低コントラストや暗い領域などの視覚歪みに悩まされる可能性がある。 本稿では,モデルの再トレーニングを必要とせずに,推論時に連続的に露出レベルに一般化できるディープラーニングモデルを導入することで,この問題に対処する。 そこで本研究では,5種類の露光レベルと各種カメラパラメータを用いて,屋外と屋内の両方で撮影された1500枚のraw画像のデータセットを紹介する。 このデータセットを用いて、画像の入出力レベルを目に見えないものに連続的に調整できる極低照度画像のモデルを開発する。 本モデルの特性を調査し,その性能を検証し,有望な結果を得た。

Deep learning methods for enhancing dark images learn a mapping from input images to output images with pre-determined discrete exposure levels. Often, at inference time the input and optimal output exposure levels of the given image are different from the seen ones during training. As a result the enhanced image might suffer from visual distortions, such as low contrast or dark areas. We address this issue by introducing a deep learning model that can continuously generalize at inference time to unseen exposure levels without the need to retrain the model. To this end, we introduce a dataset of 1500 raw images captured in both outdoor and indoor scenes, with five different exposure levels and various camera parameters. Using the dataset, we develop a model for extreme low-light imaging that can continuously tune the input or output exposure level of the image to an unseen one. We investigate the properties of our model and validate its performance, showing promising results.
翻訳日:2021-05-18 05:13:49 公開日:2020-12-07
# 清潔な特徴の除去は, 正確さと影響群を不均等に抑制する

Removing Spurious Features can Hurt Accuracy and Affect Groups Disproportionately ( http://arxiv.org/abs/2012.04104v1 )

ライセンス: Link先を確認
Fereshte Khani, Percy Liang(参考訳) 散発的な特徴の存在は、人口の多くのグループでうまく機能するロバストなモデルを得ることを妨げている。 自然な修正は、モデルからスプリアスな特徴を取り除くことである。 しかし,本研究では,多パラメータモデルの帰納バイアスにより,スプリアス特徴の除去により精度が低下することを示す。 雑音のない過パラメータ化線形回帰において、突発的特徴の除去が異なる群(一般にテスト分布)の精度にどのように影響するかを完全に特徴づける。 さらに、スプリアス機能の削除は、バランスのとれたデータセット -- それぞれのターゲットがそれぞれのスプリアス機能と等しく共起する -- においても精度を低下させ、他のスプリアス機能に対して不注意にモデルがより敏感になることを示す。 最後に,ロバストな自己学習によって,全体的な正確性に影響を与えずにスプリアスな特徴を除去できることを示す。 毒性コンメンテーション検出器とセロバデータセットの実験により, 結果は非線形モデルに保持されていることが示された。

The presence of spurious features interferes with the goal of obtaining robust models that perform well across many groups within the population. A natural remedy is to remove spurious features from the model. However, in this work we show that removal of spurious features can decrease accuracy due to the inductive biases of overparameterized models. We completely characterize how the removal of spurious features affects accuracy across different groups (more generally, test distributions) in noiseless overparameterized linear regression. In addition, we show that removal of spurious feature can decrease the accuracy even in balanced datasets -- each target co-occurs equally with each spurious feature; and it can inadvertently make the model more susceptible to other spurious features. Finally, we show that robust self-training can remove spurious features without affecting the overall accuracy. Experiments on the Toxic-Comment-Detectoin and CelebA datasets show that our results hold in non-linear models.
翻訳日:2021-05-16 21:56:09 公開日:2020-12-07
# 最長共通部分列距離空間におけるwasserstein距離に基づくlcsグラフカーネル

LCS Graph Kernel Based on Wasserstein Distance in Longest Common Subsequence Metric Space ( http://arxiv.org/abs/2012.03612v1 )

ライセンス: Link先を確認
Jianming Huang, Zhongxi Fang, Hiroyuki Kasai(参考訳) グラフ分類タスクでは、多くの手法が共通戦略を用いて頂点近傍の情報を集約する。 この戦略は、グラフトポロジ的特徴を抽出する効率的な手段を提供するが、大規模な地区を扱う際の精度を大幅に低下させる可能性のある過剰な情報をもたらす。 パスやウォークを用いたグラフの学習は、この困難に悩まされることはないが、多くの人は、情報損失と高い計算コストを伴って、各パスやウォークの利用率が低い。 そこで本研究では,最も長い共通部分列(LCSカーネル)を用いて,パスとウォーク間のより包括的な類似性を求めるグラフカーネルを提案する。 また、グラフのより深い特徴を抽出するために、最適輸送理論と組み合わせる。 さらに, LCS距離空間を提案し, 隣接点マージ演算を適用して計算コストを削減する。 最後に,提案手法が最先端グラフカーネル手法よりも優れていることを示す。

For graph classification tasks, many methods use a common strategy to aggregate information of vertex neighbors. Although this strategy provides an efficient means of extracting graph topological features, it brings excessive amounts of information that might greatly reduce its accuracy when dealing with large-scale neighborhoods. Learning graphs using paths or walks will not suffer from this difficulty, but many have low utilization of each path or walk, which might engender information loss and high computational costs. To solve this, we propose a graph kernel using a longest common subsequence (LCS kernel) to compute more comprehensive similarity between paths and walks, which resolves substructure isomorphism difficulties. We also combine it with optimal transport theory to extract more in-depth features of graphs. Furthermore, we propose an LCS metric space and apply an adjacent point merge operation to reduce its computational costs. Finally, we demonstrate that our proposed method outperforms many state-of-the-art graph kernel methods.
翻訳日:2021-05-16 21:55:51 公開日:2020-12-07
# 画像認識と3dビルディングデータを組み合わせた高機能自動pvレジストリ

An Enriched Automated PV Registry: Combining Image Recognition and 3D Building Data ( http://arxiv.org/abs/2012.03690v1 )

ライセンス: Link先を確認
Benjamin Rausch, Kevin Mayer, Marie-Louise Arlt, Gunther Gust, Philipp Staudt, Christof Weinhardt, Dirk Neumann, Ram Rajagopal(参考訳) 太陽光発電(pv)システムは前例のない速度で設置されているが、インストールレベルの信頼できる情報はまだ少ない。 その結果、自動生成されたPVレジストリは、グリッド計画と運用を最適化するためのタイムリーな貢献である。 本稿では,航空画像と3次元建物データを組み合わせることで,位置レベルのpvレジストリを作成し,面積,傾き,向きの角度を指定する方法を示す。 PVキャパシティ推定におけるこのアプローチの利点を実証する。 さらに、この研究は、初めて、自動化されたPVレジストリと公式に作成されたPVレジストリの比較を示す。 以上の結果から,当社の豊富な自動レジストリは,公式レジストリの検証,更新,補完に有用であることが示唆された。

While photovoltaic (PV) systems are installed at an unprecedented rate, reliable information on an installation level remains scarce. As a result, automatically created PV registries are a timely contribution to optimize grid planning and operations. This paper demonstrates how aerial imagery and three-dimensional building data can be combined to create an address-level PV registry, specifying area, tilt, and orientation angles. We demonstrate the benefits of this approach for PV capacity estimation. In addition, this work presents, for the first time, a comparison between automated and officially-created PV registries. Our results indicate that our enriched automated registry proves to be useful to validate, update, and complement official registries.
翻訳日:2021-05-16 21:55:35 公開日:2020-12-07
# Sim2Real Transfer for Robotics: A Summary of the R:SS 2020 Workshop

Perspectives on Sim2Real Transfer for Robotics: A Summary of the R:SS 2020 Workshop ( http://arxiv.org/abs/2012.03806v1 )

ライセンス: Link先を確認
Sebastian H\"ofer, Kostas Bekris, Ankur Handa, Juan Camilo Gamboa, Florian Golemo, Melissa Mozifian, Chris Atkeson, Dieter Fox, Ken Goldberg, John Leonard, C. Karen Liu, Jan Peters, Shuran Song, Peter Welinder, Martha White(参考訳) 本報告では,2020年の「ロボティクス:サイエンス・アンド・システム」会議と共同で開催されるSim2Realワークショップの議論,ポスター,議論を紹介する。 この分野の12人のリーダーは、ロボット工学の問題の文脈において、シミュレーションから現実世界にスキルを移すことの定義、生存可能性、重要性に関する議論の的となった。 討論者はまた大きなパネルディスカッションに参加し、聴衆の質問に答え、ロボティクスにおけるSim2Realの将来について概説した。 さらに,本報告で要約した,拡張抽象化を本ワークショップに招待した。 本報告は,本技術を活用した実践者や研究者がこの分野のオープンな問題をさらに探究する上での方向性について述べる。

This report presents the debates, posters, and discussions of the Sim2Real workshop held in conjunction with the 2020 edition of the "Robotics: Science and System" conference. Twelve leaders of the field took competing debate positions on the definition, viability, and importance of transferring skills from simulation to the real world in the context of robotics problems. The debaters also joined a large panel discussion, answering audience questions and outlining the future of Sim2Real in robotics. Furthermore, we invited extended abstracts to this workshop which are summarized in this report. Based on the workshop, this report concludes with directions for practitioners exploiting this technology and for researchers further exploring open problems in this area.
翻訳日:2021-05-16 21:55:23 公開日:2020-12-07
# 独立楕円分布は、同じ密度生成子を持つ独立楕円分布から {\mathcal{w}_2$ wasserstein 距離を最小化する

Independent Elliptical Distributions Minimize Their $\mathcal{W}_2$ Wasserstein Distance from Independent Elliptical Distributions with the Same Density Generator ( http://arxiv.org/abs/2012.03809v1 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) この短い注記は、$\mathcal{w}_2$ wasserstein距離の性質に関するもので、独立楕円分布は、同じ密度生成子を持つ任意の独立楕円分布から、その$\mathcal{w}_2$ wasserstein距離を最小化することを示している。 さらに, 分布が必ずしも楕円的ではない場合, ゲルブリッチ境界におけるこの性質の意義について検討する。 一方、分布が独立でない場合にも結果を一般化する。 このノートの主な目的は、この性質またはその意味を利用する必要がある論文を参照することである。

This short note is on a property of the $\mathcal{W}_2$ Wasserstein distance which indicates that independent elliptical distributions minimize their $\mathcal{W}_2$ Wasserstein distance from given independent elliptical distributions with the same density generators. Furthermore, we examine the implications of this property in the Gelbrich bound when the distributions are not necessarily elliptical. Meanwhile, we also generalize the results to the cases when the distributions are not independent. The primary purpose of this note is for the referencing of papers that need to make use of this property or its implications.
翻訳日:2021-05-16 21:54:54 公開日:2020-12-07
# 構文構造から意味関係へ : 音声情報を利用した再帰的ニューラルネットワークによる定義からのハイパーnym抽出

From syntactic structure to semantic relationship: hypernym extraction from definitions by recurrent neural networks using the part of speech information ( http://arxiv.org/abs/2012.03418v1 )

ライセンス: Link先を確認
Yixin Tan, Xiaomeng Wang, Tao Jia(参考訳) hyponym-hypernym関係は意味ネットワークにおいて不可欠な要素である。 定義からハイパーネムを識別することは、自然言語処理と意味解析において重要なタスクである。 WordNetのような公開辞書は一般的な単語に対して機能するが、ドメイン固有のシナリオでの応用は限られている。 ハイパーnym抽出のための既存のツールは、特定の意味パターンに依存するか、単語表現に焦点を当てている。

The hyponym-hypernym relation is an essential element in the semantic network. Identifying the hypernym from a definition is an important task in natural language processing and semantic analysis. While a public dictionary such as WordNet works for common words, its application in domain-specific scenarios is limited. Existing tools for hypernym extraction either rely on specific semantic patterns or focus on the word representation, which all demonstrate certain limitations.
翻訳日:2021-05-16 21:54:44 公開日:2020-12-07
# kgplm: 生成的および判別的学習による知識誘導型言語モデル

KgPLM: Knowledge-guided Language Model Pre-training via Generative and Discriminative Learning ( http://arxiv.org/abs/2012.03551v1 )

ライセンス: Link先を確認
Bin He, Xin Jiang, Jinghui Xiao, Qun Liu(参考訳) 事前学習された言語モデルに関する最近の研究は、知識認識下流タスクにおける事実的知識と応用を捉える能力を示している。 本稿では,実知識の完成と検証を指導した言語モデル事前学習フレームワークを提案し,生成的および判別的アプローチを用いてモデル学習を行う。 特に,2-towerスキームとパイプラインスキームという2つの学習スキームについて,共通パラメータを用いたジェネレータと識別器の訓練を行った。 ゼロショットクローゼスタイルの質問応答タスクであるlamaの実験結果は、従来の事前学習された言語モデルよりも豊かな事実知識を含んでいることを示している。 さらに,複数の機械読解データセットからなるMRQA共有タスクの微調整と評価を行うと,我々のモデルは最先端の性能を実現し,RoBERTaよりもNewsQA(+1.26 F1)とTriviaQA(+1.56 F1)を大幅に改善する。

Recent studies on pre-trained language models have demonstrated their ability to capture factual knowledge and applications in knowledge-aware downstream tasks. In this work, we present a language model pre-training framework guided by factual knowledge completion and verification, and use the generative and discriminative approaches cooperatively to learn the model. Particularly, we investigate two learning schemes, named two-tower scheme and pipeline scheme, in training the generator and discriminator with shared parameter. Experimental results on LAMA, a set of zero-shot cloze-style question answering tasks, show that our model contains richer factual knowledge than the conventional pre-trained language models. Furthermore, when fine-tuned and evaluated on the MRQA shared tasks which consists of several machine reading comprehension datasets, our model achieves the state-of-the-art performance, and gains large improvements on NewsQA (+1.26 F1) and TriviaQA (+1.56 F1) over RoBERTa.
翻訳日:2021-05-16 21:54:36 公開日:2020-12-07
# PPKE:パスに基づく事前学習による知識表現学習

PPKE: Knowledge Representation Learning by Path-based Pre-training ( http://arxiv.org/abs/2012.03573v1 )

ライセンス: Link先を確認
Bin He, Di Zhou, Jing Xie, Jinghui Xiao, Xin Jiang, Qun Liu(参考訳) エンティティは知識グラフ(kg)内で複雑な相互作用を持ち、例えば多段階関係(multi-step relations)は、エンティティのグラフコンテキスト情報と見なすことができる。 従来の知識表現学習(KRL)法は、通常、訓練単位として1つの三重項を扱い、KGの位相構造にグラフの文脈情報の大半を無視する。 本研究では,知識埋め込み学習のためのパスベース事前学習モデルであるppkeを提案する。 実験により,本モデルがリンク予測および関係予測タスクのためのベンチマークデータセットの最先端結果を達成することを示すとともに,本モデルがKGにおけるグラフコンテキスト情報を活用するための有効な方法であることを示す。

Entities may have complex interactions in a knowledge graph (KG), such as multi-step relationships, which can be viewed as graph contextual information of the entities. Traditional knowledge representation learning (KRL) methods usually treat a single triple as a training unit, and neglect most of the graph contextual information exists in the topological structure of KGs. In this study, we propose a Path-based Pre-training model to learn Knowledge Embeddings, called PPKE, which aims to integrate more graph contextual information between entities into the KRL model. Experiments demonstrate that our model achieves state-of-the-art results on several benchmark datasets for link prediction and relation prediction tasks, indicating that our model provides a feasible way to take advantage of graph contextual information in KGs.
翻訳日:2021-05-16 21:54:16 公開日:2020-12-07
# 機械読解のための参照知識ネットワーク

Reference Knowledgeable Network for Machine Reading Comprehension ( http://arxiv.org/abs/2012.03709v1 )

ライセンス: Link先を確認
Yilin Zhao, Zhuosheng Zhang, Hai Zhao(参考訳) MRC(Multi-choice Machine Reading Comprehension)は、MRCタスクの重要かつ困難な形式であり、与えられたパスと質問の候補から最も適切な回答を選択する必要がある。 既存の研究のほとんどは、外部のきめ細かなコモンセンスソースを明示的に参照せずにタスクデータセットのモデリングに焦点を当てている。 そこで本研究では,人間による読解戦略をシミュレートした,スパン抽出に基づく新たな参照ベース知識強化モデルであるreknetを提案する。 詳細では、RekNetは詳細なクリティカル情報を洗練し、Reference Spanと定義し、Reference Spanの共起情報と回答オプションによって外部知識の4倍を引用する。 RACE と DREAM の 2 つのマルチ選択型 MRC ベンチマークを用いて,観測可能な統計量レベルをベースラインより高い精度で評価した。

Multi-choice Machine Reading Comprehension (MRC) is a major and challenging form of MRC tasks that requires model to select the most appropriate answer from a set of candidates given passage and question. Most of the existing researches focus on the modeling of the task datasets without explicitly referring to external fine-grained commonsense sources, which is a well-known challenge in multi-choice tasks. Thus we propose a novel reference-based knowledge enhancement model based on span extraction called Reference Knowledgeable Network (RekNet), which simulates human reading strategy to refine critical information from the passage and quote external knowledge in necessity. In detail, RekNet refines fine-grained critical information and defines it as Reference Span, then quotes external knowledge quadruples by the co-occurrence information of Reference Span and answer options. Our proposed method is evaluated on two multi-choice MRC benchmarks: RACE and DREAM, which shows remarkable performance improvement with observable statistical significance level over strong baselines.
翻訳日:2021-05-16 21:53:42 公開日:2020-12-07
# ジェネリック特徴変換のための学習可能な木フィルタの再考

Rethinking Learnable Tree Filter for Generic Feature Transform ( http://arxiv.org/abs/2012.03482v1 )

ライセンス: Link先を確認
Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Xiangyu Zhang, Hongbin Sun, Jian Sun, Nanning Zheng(参考訳) Learnable Tree Filterはセマンティックセグメンテーションのためのモデル構造保存関係に対する顕著なアプローチを示す。 それでも、本質的な幾何学的制約は、空間距離の近い領域に集中させ、効果的な長距離相互作用を妨げる。 幾何学的制約を緩和するために,マルコフ確率場として再構成して解析を行い,学習可能な不定項を導入する。 さらに, 元の非微分可能木を置き換える学習可能なスパンディングツリーアルゴリズムを提案し, 柔軟性と頑健性をさらに向上させる。 上記の改良により、より汎用的な特徴変換のために複数の視覚タスクに拡張された、長距離依存関係の取得と線形複雑度による構造的詳細の保存がより容易になる。 オブジェクト検出/インスタンスセグメンテーションに関する大規模な実験は、オリジナルのバージョンよりも一貫した改善を示している。 セマンティックセグメンテーションのために、我々はCityscapesベンチマークにおいてベル・アンド・ウィストルなしでリードパフォーマンス(82.1% mIoU)を達成する。 コードはhttps://github.com/StevenGrove/LearnableTreeFilterV2で公開されている。

The Learnable Tree Filter presents a remarkable approach to model structure-preserving relations for semantic segmentation. Nevertheless, the intrinsic geometric constraint forces it to focus on the regions with close spatial distance, hindering the effective long-range interactions. To relax the geometric constraint, we give the analysis by reformulating it as a Markov Random Field and introduce a learnable unary term. Besides, we propose a learnable spanning tree algorithm to replace the original non-differentiable one, which further improves the flexibility and robustness. With the above improvements, our method can better capture long-range dependencies and preserve structural details with linear complexity, which is extended to several vision tasks for more generic feature transform. Extensive experiments on object detection/instance segmentation demonstrate the consistent improvements over the original version. For semantic segmentation, we achieve leading performance (82.1% mIoU) on the Cityscapes benchmark without bells-and-whistles. Code is available at https://github.com/StevenGrove/LearnableTreeFilterV2.
翻訳日:2021-05-16 21:52:42 公開日:2020-12-07
# 物体検出のための細粒度動的ヘッド

Fine-Grained Dynamic Head for Object Detection ( http://arxiv.org/abs/2012.03519v1 )

ライセンス: Link先を確認
Lin Song, Yanwei Li, Zhengkai Jiang, Zeming Li, Hongbin Sun, Jian Sun, Nanning Zheng(参考訳) The Feature Pyramid Network (FPN) は、インスタンスレベルの割り当てを行うことでオブジェクト表現のスケールのばらつきを緩和する顕著なアプローチを示す。 それでもこの戦略は、インスタンス内の異なるサブリージョンの異なる特性を無視している。 そこで本研究では,FPN特徴量の画素レベルの組み合わせを各インスタンスの異なるスケールから条件付きで選択する,微細な動的ヘッドを提案する。 さらに,新しい活性化関数を持つ空間ゲートを設計し,空間的に疎い畳み込みによって計算複雑性を劇的に低減する。 大規模実験により,提案手法の有効性と有効性が実証された。 コードはhttps://github.com/StevenGrove/DynamicHeadで入手できる。

The Feature Pyramid Network (FPN) presents a remarkable approach to alleviate the scale variance in object representation by performing instance-level assignments. Nevertheless, this strategy ignores the distinct characteristics of different sub-regions in an instance. To this end, we propose a fine-grained dynamic head to conditionally select a pixel-level combination of FPN features from different scales for each instance, which further releases the ability of multi-scale feature representation. Moreover, we design a spatial gate with the new activation function to reduce computational complexity dramatically through spatially sparse convolutions. Extensive experiments demonstrate the effectiveness and efficiency of the proposed method on several state-of-the-art detection benchmarks. Code is available at https://github.com/StevenGrove/DynamicHead.
翻訳日:2021-05-16 21:52:25 公開日:2020-12-07
# ihashnet:効率的なマルチインデックスハッシュに基づくirisハッシュネットワーク

IHashNet: Iris Hashing Network based on efficient multi-index hashing ( http://arxiv.org/abs/2012.03881v1 )

ライセンス: Link先を確認
Avantika Singh, Chirag Vashist, Pratyush Gaurav, Aditya Nigam, Rameshwar Pratap(参考訳) バイオメトリックの大規模展開は今日の世界に広まっている。 しかし、バイオメトリックシステムの精度は高いものの、その計算効率はデータベースサイズの増加とともに劇的に低下する。 したがって、それらをインデクシングすることが不可欠である。 理想的なインデクシングスキームは、サブジェクト内相似性とサブジェクト間相似性を保持するコードを生成する必要がある。 本稿では,実数値の深いアイリス特徴を用いたアイリス索引化手法を提案し,その索引化構造に適合するアイリスバー符号(IBC)をバイナライズする。 まず,ロバストな虹彩特徴を抽出するために,順序フィルタリングのドメイン知識を活用し,それらの非線形組み合わせを学習するネットワークを設計した。 その後、これらの実数値機能は二元化される。 最後に、irisデータセットをインデックス化するために、バイナリ機能をマルチインデックスハッシュスキームと互換性のある改良された機能に変換するロスを提案しました。 この損失関数は、全ての連続した部分弦の間に均等にハミング距離を分散させる。 我々の知る限りでは、これは、エンドツーエンドのアイリスインデックス構造を示すアイリスインデックス領域における最初の研究である。 提案手法の有効性を示すために, 4つのデータセットの実験結果を示した。

Massive biometric deployments are pervasive in today's world. But despite the high accuracy of biometric systems, their computational efficiency degrades drastically with an increase in the database size. Thus, it is essential to index them. An ideal indexing scheme needs to generate codes that preserve the intra-subject similarity as well as inter-subject dissimilarity. Here, in this paper, we propose an iris indexing scheme using real-valued deep iris features binarized to iris bar codes (IBC) compatible with the indexing structure. Firstly, for extracting robust iris features, we have designed a network utilizing the domain knowledge of ordinal filtering and learning their nonlinear combinations. Later these real-valued features are binarized. Finally, for indexing the iris dataset, we have proposed a loss that can transform the binary feature into an improved feature compatible with the Multi-Index Hashing scheme. This loss function ensures the hamming distance equally distributed among all the contiguous disjoint sub-strings. To the best of our knowledge, this is the first work in the iris indexing domain that presents an end-to-end iris indexing structure. Experimental results on four datasets are presented to depict the efficacy of the proposed approach.
翻訳日:2021-05-16 21:52:13 公開日:2020-12-07
# 目に見えない複雑なシーンを作り出す:まだそこにいるのか?

Generating unseen complex scenes: are we there yet? ( http://arxiv.org/abs/2012.04027v1 )

ライセンス: Link先を確認
Arantxa Casanova, Michal Drozdzal, Adriana Romero-Soriano(参考訳) 最近の複雑なシーン条件生成モデルは、ますます魅力的なシーンを生み出すが、どのモデルがよりよく機能するか、なぜかを評価するのは非常に困難である。 これはしばしば、異なるデータ分割に適合するように訓練されたモデルと、独自の実験的なセットアップを定義するためである。 本稿では,複雑なシーン条件生成モデルを比較する手法を提案し,(1)トレーニング分布に適合する各モデルの能力を評価して,(2)見えないオブジェクトの組み合わせからなる未知の条件付けを一般化し,(3)見えないオブジェクトの組み合わせからなる未知の条件付けを一般化する手法を提案する。 その結果,近年の手法では視認可能なシーンを,視認可能なコンディショニングを生成でき,コンフィグナリティを利用して,視認できないコンディショニングに一般化できることがわかった。 しかし,全ての手法は,未知の物体の組み合わせからなる条件付けから画像を生成するよう依頼された際に,画像の品質劣化に悩まされる。 Moreover, through our analysis, we identify the advantages of different pipeline components, and find that (1) encouraging compositionality through instance-wise spatial conditioning normalizations increases robustness to both types of unseen conditionings, (2) using semantically aware losses such as the scene-graph perceptual similarity helps improve some dimensions of the generation process, and (3) enhancing the quality of generated masks and the quality of the individual objects are crucial steps to improve robustness to both types of unseen conditionings.

Although recent complex scene conditional generation models generate increasingly appealing scenes, it is very hard to assess which models perform better and why. This is often due to models being trained to fit different data splits, and defining their own experimental setups. In this paper, we propose a methodology to compare complex scene conditional generation models, and provide an in-depth analysis that assesses the ability of each model to (1) fit the training distribution and hence perform well on seen conditionings, (2) to generalize to unseen conditionings composed of seen object combinations, and (3) generalize to unseen conditionings composed of unseen object combinations. As a result, we observe that recent methods are able to generate recognizable scenes given seen conditionings, and exploit compositionality to generalize to unseen conditionings with seen object combinations. However, all methods suffer from noticeable image quality degradation when asked to generate images from conditionings composed of unseen object combinations. Moreover, through our analysis, we identify the advantages of different pipeline components, and find that (1) encouraging compositionality through instance-wise spatial conditioning normalizations increases robustness to both types of unseen conditionings, (2) using semantically aware losses such as the scene-graph perceptual similarity helps improve some dimensions of the generation process, and (3) enhancing the quality of generated masks and the quality of the individual objects are crucial steps to improve robustness to both types of unseen conditionings.
翻訳日:2021-05-16 21:51:56 公開日:2020-12-07
# twitterデータにおける教師なしテキスト表現手法に関する実証的研究

An Empirical Survey of Unsupervised Text Representation Methods on Twitter Data ( http://arxiv.org/abs/2012.03468v1 )

ライセンス: Link先を確認
Lili Wang, Chongyang Gao, Jason Wei, Weicheng Ma, Ruibo Liu, Soroush Vosoughi(参考訳) NLPの分野は近年、前例のない成果を出している。 特に、BERTのような大規模なトレーニング済みのTransformerベースの言語モデルが出現し、テキスト表現に顕著な改善が加えられた。 しかし、これらの改善がツイートのような騒がしいユーザー生成テキストに繋がるかどうかは不明だ。 本稿では,ノイズの多いTwitterデータ上でテキストクラスタリングを行うタスクに対して,広く知られたテキスト表現手法の実験的検討を行う。 以上の結果から,より高度なモデルは必ずしもツイート上ではうまく機能せず,この分野のさらなる調査が必要であることが示唆された。

The field of NLP has seen unprecedented achievements in recent years. Most notably, with the advent of large-scale pre-trained Transformer-based language models, such as BERT, there has been a noticeable improvement in text representation. It is, however, unclear whether these improvements translate to noisy user-generated text, such as tweets. In this paper, we present an experimental survey of a wide range of well-known text representation techniques for the task of text clustering on noisy Twitter data. Our results indicate that the more advanced models do not necessarily work best on tweets and that more exploration in this area is needed.
翻訳日:2021-05-16 21:51:09 公開日:2020-12-07
# Dartmouth CS at WNUT-2020 Task 2: Informative COVID-19 Tweet Classification using BERT

Dartmouth CS at WNUT-2020 Task 2: Informative COVID-19 Tweet Classification Using BERT ( http://arxiv.org/abs/2012.04539v1 )

ライセンス: Link先を確認
Dylan Whang and Soroush Vosoughi(参考訳) 本稿では,wnut-2020 共有タスク2 のために開発されたシステムについて述べる。 BERTは自然言語処理タスクの高性能モデルである。 我々は,BERTを微調整し,その埋め込みをつぶやき特有の特徴と結合し,分類のためのSVM(Support Vector Machine)を訓練することにより,この分類タスクにおけるBERTの性能を高めた。 その性能を一連の機械学習モデルと比較した。 twitter固有のデータクリーニングパイプラインと単語レベルのtf-idfを使用して、非bertモデルの機能を抽出した。 BERT+はF1スコア0.8713の最高パフォーマンスモデルであった。

We describe the systems developed for the WNUT-2020 shared task 2, identification of informative COVID-19 English Tweets. BERT is a highly performant model for Natural Language Processing tasks. We increased BERT's performance in this classification task by fine-tuning BERT and concatenating its embeddings with Tweet-specific features and training a Support Vector Machine (SVM) for classification (henceforth called BERT+). We compared its performance to a suite of machine learning models. We used a Twitter specific data cleaning pipeline and word-level TF-IDF to extract features for the non-BERT models. BERT+ was the top performing model with an F1-score of 0.8713.
翻訳日:2021-05-16 21:51:01 公開日:2020-12-07
# メタファー検出の改善と拡張

Improvements and Extensions on Metaphor Detection ( http://arxiv.org/abs/2012.04540v1 )

ライセンス: Link先を確認
Weicheng Ma, Ruibo Liu, Lili Wang, Soroush Vosoughi(参考訳) メタファーは人間の言語でユビキタスである。 メタファ検出タスク(MD)は,自然言語理解(NLU)研究において重要な,書き言葉からのメタファの検出と解釈を目的とする。 本稿では,事前学習したTransformerベースのモデルをMDに導入する。 f-1のスコアは5.33%から28.39%に相対的に改善した。 第二に、MDをテキスト全体の比喩性に関する分類タスクに拡張し、より一般的なNLUシーンに適用できるようにします。 最後に、MDベンチマークのデータセットの1つで不適切なあるいは時代遅れのアノテーションを掃除し、Transformerベースのモデルで再ベンチマークします。 これらのベンチマークデータセットのメタファ性アノテーションは時代遅れになる可能性があるため、このアプローチは他の既存のMDデータセットにも適用することができる。 今後の研究は、より長く複雑なテキストからなる、最新でよく注釈されたデータセットを構築するためにも必要となる。

Metaphors are ubiquitous in human language. The metaphor detection task (MD) aims at detecting and interpreting metaphors from written language, which is crucial in natural language understanding (NLU) research. In this paper, we introduce a pre-trained Transformer-based model into MD. Our model outperforms the previous state-of-the-art models by large margins in our evaluations, with relative improvements on the F-1 score from 5.33% to 28.39%. Second, we extend MD to a classification task about the metaphoricity of an entire piece of text to make MD applicable in more general NLU scenes. Finally, we clean up the improper or outdated annotations in one of the MD benchmark datasets and re-benchmark it with our Transformer-based model. This approach could be applied to other existing MD datasets as well, since the metaphoricity annotations in these benchmark datasets may be outdated. Future research efforts are also necessary to build an up-to-date and well-annotated dataset consisting of longer and more complex texts.
翻訳日:2021-05-16 21:50:48 公開日:2020-12-07
# rogue様ゲームにおける設計パラメータの変更に対応するnpc行動のためのディープポリシーネットワーク

Deep Policy Networks for NPC Behaviors that Adapt to Changing Design Parameters in Roguelike Games ( http://arxiv.org/abs/2012.03532v1 )

ライセンス: Link先を確認
Alessandro Sestini, Alexander Kuhnle and Andrew D. Bagdanov(参考訳) 深層強化学習(drl)の最近の進歩は、既知の、よく定義された環境で人間を置き換えることを目的として、エージェントのパフォーマンス向上に重点を置いている。 ビデオゲーム制作におけるゲームデザインツールとしてのこれらの技術の利用は、その代わりにNon-Player Character (NPC) 行動を作成することを目的としており、近年まであまり注目されていない。 例えば、Roguelikesのようなターンベースの戦略ゲームは、DRLに固有の課題を提示する。 特に、それらの複雑なゲーム状態のカテゴリー的性質は、異なる属性を持つ多くのエンティティで構成されており、エージェントはこれらのエンティティの比較と優先順位付けの方法を学べる必要がある。 さらに、この複雑さはトレーニング中に見られる状態に過度に適合し、開発中の設計変更に直面して一般化できないエージェントに繋がることが多い。 本稿では,2つのネットワークアーキテクチャを提案する。2つのネットワークアーキテクチャを,\emph{procedural loot generation}システムと組み合わせることで,複雑な分類的状態空間をよりうまく処理し,設計決定によって強制される再訓練の必要性を軽減する。 ひとつは、離散観測モデルを抽象化し、訓練されたエージェントをより一般化するカテゴリリーな入力空間の密な埋め込みに基づいている。 第2のアーキテクチャはより汎用的で、入力属性と入力属性の関係を推論できるトランスフォーマネットワークに基づいている。 実験により,新しいエージェントはベースラインアーキテクチャに対する適応能力が向上し,このフレームワークが開発中に動的ゲームプレイの変化に対してより堅牢であることを示す。 本論文では,DRLをゲーム業界でより利用しやすいものにするためのステップとして,これらのソリューションが提案されている。

Recent advances in Deep Reinforcement Learning (DRL) have largely focused on improving the performance of agents with the aim of replacing humans in known and well-defined environments. The use of these techniques as a game design tool for video game production, where the aim is instead to create Non-Player Character (NPC) behaviors, has received relatively little attention until recently. Turn-based strategy games like Roguelikes, for example, present unique challenges to DRL. In particular, the categorical nature of their complex game state, composed of many entities with different attributes, requires agents able to learn how to compare and prioritize these entities. Moreover, this complexity often leads to agents that overfit to states seen during training and that are unable to generalize in the face of design changes made during development. In this paper we propose two network architectures which, when combined with a \emph{procedural loot generation} system, are able to better handle complex categorical state spaces and to mitigate the need for retraining forced by design decisions. The first is based on a dense embedding of the categorical input space that abstracts the discrete observation model and renders trained agents more able to generalize. The second proposed architecture is more general and is based on a Transformer network able to reason relationally about input and input attributes. Our experimental evaluation demonstrates that new agents have better adaptation capacity with respect to a baseline architecture, making this framework more robust to dynamic gameplay changes during development. Based on the results shown in this paper, we believe that these solutions represent a step forward towards making DRL more accessible to the gaming industry.
翻訳日:2021-05-16 21:49:39 公開日:2020-12-07
# 階層型ディープリカレントニューラルネットワークによる故障検出と診断

Hierarchical Deep Recurrent Neural Network based Method for Fault Detection and Diagnosis ( http://arxiv.org/abs/2012.03861v1 )

ライセンス: Link先を確認
Piyush Agarwal, Jorge Ivan Mireles Gonzalez, Ali Elkamel, Hector Budman(参考訳) 産業プラントの故障の検出と分類には,ディープニューラルネットワーク(dnn)に基づくアルゴリズムが提案されている。 提案するアルゴリズムは,従来のしきい値に基づく統計手法や従来のニューラルネットワーク(anns)では検出・診断が困難な障害,特に初期障害を分類する能力を有する。 このアルゴリズムは、時間軸に沿ったプロセスの動的情報を利用するSupervised Deep Recurrent Autoencoder Neural Network (Supervised DRAE-NN)に基づいている。 このネットワークに基づいて、階層構造は、類似性に基づいて断層のサブセットに分類し、検出と診断を行う。 さらに、外部擬似ランダムバイナリ信号(PRBS)をシステムに設計、注入し、初期故障を特定する。 階層構造に基づく戦略は初期故障と非初期故障の両方において検出と分類の精度を大幅に向上させる。 提案手法は,多変量線形モデルに基づくストラテジーと非階層非線形モデルに基づくストラテジーと比較して,テネシー・イーストマン法を指標として検証した。

A Deep Neural Network (DNN) based algorithm is proposed for the detection and classification of faults in industrial plants. The proposed algorithm has the ability to classify faults, especially incipient faults that are difficult to detect and diagnose with traditional threshold based statistical methods or by conventional Artificial Neural Networks (ANNs). The algorithm is based on a Supervised Deep Recurrent Autoencoder Neural Network (Supervised DRAE-NN) that uses dynamic information of the process along the time horizon. Based on this network a hierarchical structure is formulated by grouping faults based on their similarity into subsets of faults for detection and diagnosis. Further, an external pseudo-random binary signal (PRBS) is designed and injected into the system to identify incipient faults. The hierarchical structure based strategy improves the detection and classification accuracy significantly for both incipient and non-incipient faults. The proposed approach is tested on the benchmark Tennessee Eastman Process resulting in significant improvements in classification as compared to both multivariate linear model-based strategies and non-hierarchical nonlinear model-based strategies.
翻訳日:2021-05-16 21:49:13 公開日:2020-12-07
# 複数の離散変数に対する適応局所ベイズ最適化

Adaptive Local Bayesian Optimization Over Multiple Discrete Variables ( http://arxiv.org/abs/2012.03501v1 )

ライセンス: Link先を確認
Taehyeon Kim, Jaeyeon Ahn, Nakyil Kim, Seyoung Yun(参考訳) 機械学習アルゴリズムでは、ハイパーパラメータの選択は科学以上の芸術であり、専門的な経験を持つ労働集約的な検索を必要とする。 したがって、人的介入を除外するハイパーパラメータ最適化の自動化は、特にブラックボックス機能にとって大きな魅力である。 近年,タスク依存の問題を解くことは容易ではないが,そのような隠蔽タスクをより一般化するために解決するという要求が高まっている。 Black-Box Optimization チャレンジ (NeurIPS 2020) では、競合他社が標準機械学習問題のさまざまな領域にまたがる堅牢なブラックボックスオプティマイザを構築する必要があった。 本稿では,チームKAIST OSIのアプローチをステップワイズで記述し,ベースラインアルゴリズムを最大20.39%向上させる。 まず,地域信頼性という概念の下で,地域ベイズ探索を強化する。 そこで我々はガウスプロセスカーネルのための組合せカーネルを設計する。 同様の方法で、bayesian と multi-armed bandit (mab) の方法論を組み合わせて、変数型を考慮した値の選択を行い、実変数と整数変数は bayesian と、boolean とカテゴリ変数は mab とを組み合わせる。 経験的評価により,提案手法は既存の手法を異なるタスクにまたがる性能を示す。

In the machine learning algorithms, the choice of the hyperparameter is often an art more than a science, requiring labor-intensive search with expert experience. Therefore, automation on hyperparameter optimization to exclude human intervention is a great appeal, especially for the black-box functions. Recently, there have been increasing demands of solving such concealed tasks for better generalization, though the task-dependent issue is not easy to solve. The Black-Box Optimization challenge (NeurIPS 2020) required competitors to build a robust black-box optimizer across different domains of standard machine learning problems. This paper describes the approach of team KAIST OSI in a step-wise manner, which outperforms the baseline algorithms by up to +20.39%. We first strengthen the local Bayesian search under the concept of region reliability. Then, we design a combinatorial kernel for a Gaussian process kernel. In a similar vein, we combine the methodology of Bayesian and multi-armed bandit,(MAB) approach to select the values with the consideration of the variable types; the real and integer variables are with Bayesian, while the boolean and categorical variables are with MAB. Empirical evaluations demonstrate that our method outperforms the existing methods across different tasks.
翻訳日:2021-05-16 21:48:05 公開日:2020-12-07
# オンラインモデル選択: rested banditの定式化

Online Model Selection: a Rested Bandit Formulation ( http://arxiv.org/abs/2012.03522v1 )

ライセンス: Link先を確認
Leonardo Cella and Claudio Gentile and Massimiliano Pontil(参考訳) バンディット情報を用いたオンラインモデル選択における自然問題に触発され,残バンドディット設定における最適な腕識別問題を導入,解析し,腕の再生回数に応じて腕の期待損失が減少する。 期待される損失関数の形状は腕間で似ており、ハエで学ばなければならない未知のパラメータまで利用できると推定されている。 我々はこの問題に対する後悔という新しい概念を定義し、ゲーム終了時に最も期待される損失の少ないアームを常にプレイするポリシーと比較する。 時間軸の増加に伴って後悔が失われるアーム除去アルゴリズムを解析する。 実際の収束速度は、期待される損失の仮定された機能形式に依存する。 最近のバンディット文学における既知のモデル選択の取り組みとは異なり、本アルゴリズムは問題の特定の構造を利用して期待損失関数の未知のパラメータを学習し、最良のアームをできるだけ早く識別する。 我々は,提案手法の強みと限界を示し,より低い境界で解析を補完する。

Motivated by a natural problem in online model selection with bandit information, we introduce and analyze a best arm identification problem in the rested bandit setting, wherein arm expected losses decrease with the number of times the arm has been played. The shape of the expected loss functions is similar across arms, and is assumed to be available up to unknown parameters that have to be learned on the fly. We define a novel notion of regret for this problem, where we compare to the policy that always plays the arm having the smallest expected loss at the end of the game. We analyze an arm elimination algorithm whose regret vanishes as the time horizon increases. The actual rate of convergence depends in a detailed way on the postulated functional form of the expected losses. Unlike known model selection efforts in the recent bandit literature, our algorithm exploits the specific structure of the problem to learn the unknown parameters of the expected loss function so as to identify the best arm as quickly as possible. We complement our analysis with a lower bound, indicating strengths and limitations of the proposed solution.
翻訳日:2021-05-16 21:47:46 公開日:2020-12-07
# 説明可能な人工知能:トレーニングデータのサブセットが予測にどのように影響するか

Explainable Artificial Intelligence: How Subsets of the Training Data Affect a Prediction ( http://arxiv.org/abs/2012.03625v1 )

ライセンス: Link先を確認
Andreas Brands{\ae}ter, Ingrid K. Glad(参考訳) 様々な応用分野において、機械学習モデルと予測の解釈と説明に対する関心と需要が高まっている。 本稿では,すでに開発,実装,訓練されているデータ駆動モデルについて考察する。 私たちのゴールはモデルを解釈し、予測を説明し、理解することです。 データ駆動モデルによる予測はトレーニングに使用されるデータに大きく依存するので、トレーニングデータが予測にどのように影響するかを説明すべきである。 そこで本研究では,データサブセット重要度をトレーニングするためにshapley値と呼ぶ新しい手法を提案する。 シェープリーの価値の概念は、協力的なプレイヤーのセット間で報酬を公平に分配するために開発された連立ゲーム理論に由来する。 我々はこれをサブセットの重要性にまで拡張し、トレーニングデータのサブセットを、その予測がペイアウトであるゲーム内のプレイヤーとして扱うことによって、予測を説明する。 本稿では,提案手法がいかに有用かを説明し,その能力をいくつかの例で示す。 提案手法を用いて,モデルの偏りや誤ったトレーニングデータを明らかにする方法を示す。 さらに、既知の状況下で予測が正確に説明される場合、単純なモデルによる予測の説明は直感的な説明と一致することを示す。 この説明により、アルゴリズムの内部動作をより知覚し、類似の予測を生成するモデルが、トレーニングデータの非常に異なる部分に基づいてどのようにできるのかを説明することができる。 最後に、Shapley値をサブセットの重要度に利用して、トレーニングデータ取得を強化し、この予測誤差を減らす方法を示す。

There is an increasing interest in and demand for interpretations and explanations of machine learning models and predictions in various application areas. In this paper, we consider data-driven models which are already developed, implemented and trained. Our goal is to interpret the models and explain and understand their predictions. Since the predictions made by data-driven models rely heavily on the data used for training, we believe explanations should convey information about how the training data affects the predictions. To do this, we propose a novel methodology which we call Shapley values for training data subset importance. The Shapley value concept originates from coalitional game theory, developed to fairly distribute the payout among a set of cooperating players. We extend this to subset importance, where a prediction is explained by treating the subsets of the training data as players in a game where the predictions are the payouts. We describe and illustrate how the proposed method can be useful and demonstrate its capabilities on several examples. We show how the proposed explanations can be used to reveal biasedness in models and erroneous training data. Furthermore, we demonstrate that when predictions are accurately explained in a known situation, then explanations of predictions by simple models correspond to the intuitive explanations. We argue that the explanations enable us to perceive more of the inner workings of the algorithms, and illustrate how models producing similar predictions can be based on very different parts of the training data. Finally, we show how we can use Shapley values for subset importance to enhance our training data acquisition, and by this reducing prediction error.
翻訳日:2021-05-16 21:47:29 公開日:2020-12-07
# 変分オートエンコーダの自動エンコード

Autoencoding Variational Autoencoder ( http://arxiv.org/abs/2012.03715v1 )

ライセンス: Link先を確認
A. Taylan Cemgil, Sumedh Ghaisas, Krishnamurthy Dvijotham, Sven Gowal, Pushmeet Kohli(参考訳) 変分オートエンコーダ(VAE)は、デコーダから生成された典型的なサンプルを一貫してエンコードするのか? 本稿では、この疑問に対するおそらく意外な答えが「No」であることを示し、VAEが生成可能な典型的なサンプルに対する推論を必ずしも記憶しないことを示す。 我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。 このアプローチは、エンコーダとデコーダの間で交互にマルコフ連鎖を持つ拡張vaeモデルの真の後方への変分近似分布の代替構成にかかっている。 この方法は、VAEモデルをスクラッチからトレーニングしたり、すでに訓練済みのVAEを与えられたら、オリジナルのトレーニングデータにアクセスすることなく、完全に自己管理された方法でポスト処理ステップとして実行することができる。 実験により, 自己整合性アプローチで訓練したエンコーダは, 敵攻撃による入力の摂動に対して頑健な(無感な)表現につながることが明らかとなった。 学習した表現の特性を定量化し,所望のプロパティに対して特別に訓練されたベースラインと比較する,ColorMnist と CelebA ベンチマークデータセットの実験結果を提供する。

Does a Variational AutoEncoder (VAE) consistently encode typical samples generated from its decoder? This paper shows that the perhaps surprising answer to this question is `No'; a (nominally trained) VAE does not necessarily amortize inference for typical samples that it is capable of generating. We study the implications of this behaviour on the learned representations and also the consequences of fixing it by introducing a notion of self consistency. Our approach hinges on an alternative construction of the variational approximation distribution to the true posterior of an extended VAE model with a Markov chain alternating between the encoder and the decoder. The method can be used to train a VAE model from scratch or given an already trained VAE, it can be run as a post processing step in an entirely self supervised way without access to the original training data. Our experimental analysis reveals that encoders trained with our self-consistency approach lead to representations that are robust (insensitive) to perturbations in the input introduced by adversarial attacks. We provide experimental results on the ColorMnist and CelebA benchmark datasets that quantify the properties of the learned representations and compare the approach with a baseline that is specifically trained for the desired property.
翻訳日:2021-05-16 21:46:50 公開日:2020-12-07
# 最適輸送を用いたモデル圧縮

Model Compression Using Optimal Transport ( http://arxiv.org/abs/2012.03907v1 )

ライセンス: Link先を確認
Suhas Lohit, Michael Jones(参考訳) モデル圧縮手法は、携帯電話のような計算、メモリ、エネルギー制約のある環境でのディープラーニングモデルの展開を容易にするために重要である。 知識蒸留はモデル圧縮アルゴリズムの一種であり、大きな教師ネットワークからの知識がより小さな学生ネットワークに転送され、生徒のパフォーマンスが向上する。 本稿では,学生のネットワークパラメータの学習を促す学習者ネットワークのトレーニングにおいて,学生の特徴の分布を教師の機能に近づけるための最適な移動型損失関数をいかに活用できるかを示す。 CIFAR-100, SVHN, ImageNetに画像分類結果を示し, 提案した最適輸送損失関数が他の損失関数と同等かそれ以上に機能することを示す。

Model compression methods are important to allow for easier deployment of deep learning models in compute, memory and energy-constrained environments such as mobile phones. Knowledge distillation is a class of model compression algorithm where knowledge from a large teacher network is transferred to a smaller student network thereby improving the student's performance. In this paper, we show how optimal transport-based loss functions can be used for training a student network which encourages learning student network parameters that help bring the distribution of student features closer to that of the teacher features. We present image classification results on CIFAR-100, SVHN and ImageNet and show that the proposed optimal transport loss functions perform comparably to or better than other loss functions.
翻訳日:2021-05-16 21:43:55 公開日:2020-12-07
# 地球観測における機械学習情報融合:方法、応用、データソースの包括的レビュー

Machine Learning Information Fusion in Earth Observation: A Comprehensive Review of Methods, Applications and Data Sources ( http://arxiv.org/abs/2012.05795v1 )

ライセンス: Link先を確認
S. Salcedo-Sanz, P. Ghamisi, M. Piles, M. Werner, L. Cuadra, A. Moreno-Mart\'inez, E. Izquierdo-Verdiguier, J. Mu\~noz-Mar\'i, Amirhosein Mosavi, G. Camps-Valls(参考訳) 本稿では、地球観測における問題に対する機械学習(ML)技術に基づく、最も重要な情報融合データ駆動アルゴリズムについてレビューする。 今日では、さまざまなセンサー、状態、フラックス、プロセス、変数を計測し、前例のない空間分解能と時間分解能で地球を観測し、モデル化しています。 地球観測には、衛星や空中プラットフォームに搭載されたリモートセンシングシステムを備えていますが、そこには、その場での観測、数値モデル、ソーシャルメディアデータストリームなどが含まれています。 データ駆動アプローチ、特にML技術は、このデータルージュから重要な情報を抽出する自然な選択である。 本稿は,地球観測における情報融合に関する最近の研究の概観を,現場における最も関係の深い先行研究を説明することだけでなく,ML情報融合が重要な成果を得た地球観測アプリケーションにも焦点をあてて,実践的な意図で概観する。 我々はまた、地球観測問題に最も使われているデータセット、モデル、およびソースについて、その重要性と必要なときにどのようにデータを取得するかを説明する。 最後に,代表的なケーススタディセットを用いたmlデータ融合の応用について述べるとともに,この分野の近い将来について検討・展望する。

This paper reviews the most important information fusion data-driven algorithms based on Machine Learning (ML) techniques for problems in Earth observation. Nowadays we observe and model the Earth with a wealth of observations, from a plethora of different sensors, measuring states, fluxes, processes and variables, at unprecedented spatial and temporal resolutions. Earth observation is well equipped with remote sensing systems, mounted on satellites and airborne platforms, but it also involves in-situ observations, numerical models and social media data streams, among other data sources. Data-driven approaches, and ML techniques in particular, are the natural choice to extract significant information from this data deluge. This paper produces a thorough review of the latest work on information fusion for Earth observation, with a practical intention, not only focusing on describing the most relevant previous works in the field, but also the most important Earth observation applications where ML information fusion has obtained significant results. We also review some of the most currently used data sets, models and sources for Earth observation problems, describing their importance and how to obtain the data when needed. Finally, we illustrate the application of ML data fusion with a representative set of case studies, as well as we discuss and outlook the near future of the field.
翻訳日:2021-05-16 21:42:20 公開日:2020-12-07
# 異種センサのデータを用いたAIによるeスポーツ選手のパフォーマンス予測

AI-enabled Prediction of eSports Player Performance Using the Data from Heterogeneous Sensors ( http://arxiv.org/abs/2012.03491v1 )

ライセンス: Link先を確認
Anton Smerdov, Evgeny Burnaev, Andrey Somov(参考訳) eSportsの進歩には、ProおよびアマチュアeSportsチームにおける高品質な分析とトレーニングを保証するツールが欠けている。 我々は,センサのデータのみを用いて,eSportsプレーヤーのゲーム内パフォーマンスを予測する人工知能(AI)ソリューションについて報告する。 このため,プロやアマチュア選手から生理学,環境学,ゲームチェアのデータを収集した。 リカレントニューラルネットワークを用いて、マルチプレイヤーゲームにおけるゲームログから、各モーメント毎のプレイヤー性能を評価する。 我々は,注意機構によってネットワークの一般化が改善され,機能の重要性も高まることを検証した。 最良のモデルはROC AUCスコア0.73を達成する。 トレーニングセットではデータを使用しなくても、特定のプレーヤのパフォーマンスの予測が実現される。 提案するソリューションはプロのeスポーツチームやアマチュア選手のための学習ツールに多くの有望な応用がある。

The emerging progress of eSports lacks the tools for ensuring high-quality analytics and training in Pro and amateur eSports teams. We report on an Artificial Intelligence (AI) enabled solution for predicting the eSports player in-game performance using exclusively the data from sensors. For this reason, we collected the physiological, environmental, and the game chair data from Pro and amateur players. The player performance is assessed from the game logs in a multiplayer game for each moment of time using a recurrent neural network. We have investigated that attention mechanism improves the generalization of the network and provides the straightforward feature importance as well. The best model achieves ROC AUC score 0.73. The prediction of the performance of particular player is realized although his data are not utilized in the training set. The proposed solution has a number of promising applications for Pro eSports teams as well as a learning tool for amateur players.
翻訳日:2021-05-16 21:40:57 公開日:2020-12-07
# CEEMDANと深部時間畳み込みニューラルネットワークを用いたPM2.5濃度予測のための新しいハイブリッドフレームワーク

A Novel Hybrid Framework for Hourly PM2.5 Concentration Forecasting Using CEEMDAN and Deep Temporal Convolutional Neural Network ( http://arxiv.org/abs/2012.03781v1 )

ライセンス: Link先を確認
Fuxin Jiang, Chengyuan Zhang, Shaolong Sun, Jingyun Sun(参考訳) PM2.5濃度予測では,PM2.5濃度変化に影響を与える外部因子のデータパターンを正確に把握し,予測モデルの構築を効率よく行うことで予測精度を向上させる。 本研究では, 過去の汚染物質濃度データ, 気象データ, 離散時間変数のデータパターンをモデル化することにより, PM2.5濃度を予測するために, 適応雑音を用いた完全アンサンブル経験モード分解(CEEMDAN)と深部時間畳み込みニューラルネットワーク(DeepTCN)を用いたハイブリッド予測モデルを開発した。 北京のPM2.5濃度を試料として,提案したCEEMDAN-DeepTCNモデルの予測精度が,時系列モデル,人工ニューラルネットワーク,一般的なディープラーニングモデルと比較した場合,最高であることが実証された。 新しいモデルではPM2.5関連因子データパターンをモデル化し,PM2.5濃度を予測するための有望なツールとして利用できる。

For hourly PM2.5 concentration prediction, accurately capturing the data patterns of external factors that affect PM2.5 concentration changes, and constructing a forecasting model is one of efficient means to improve forecasting accuracy. In this study, a novel hybrid forecasting model based on complete ensemble empirical mode decomposition with adaptive noise (CEEMDAN) and deep temporal convolutional neural network (DeepTCN) is developed to predict PM2.5 concentration, by modelling the data patterns of historical pollutant concentrations data, meteorological data, and discrete time variables' data. Taking PM2.5 concentration of Beijing as the sample, experimental results showed that the forecasting accuracy of the proposed CEEMDAN-DeepTCN model is verified to be the highest when compared with the time series model, artificial neural network, and the popular deep learning models. The new model has improved the capability to model the PM2.5-related factor data patterns, and can be used as a promising tool for forecasting PM2.5 concentrations.
翻訳日:2021-05-16 21:40:22 公開日:2020-12-07
# 深部ニューラルネットワークの層間情報相似性評価 : トポロジカル類似性とデータ近傍ダイナミクスの永続解析

Inter-layer Information Similarity Assessment of Deep Neural Networks Via Topological Similarity and Persistence Analysis of Data Neighbour Dynamics ( http://arxiv.org/abs/2012.03793v1 )

ライセンス: Link先を確認
Andrew Hryniowski and Alexander Wong(参考訳) ディープニューラルネットワーク(DNN)による情報構造の定量的解析により、DNNアーキテクチャの理論的性能に関する新たな知見が明らかにされる。 定量的情報構造解析に向けた2つの非常に有望な研究は、1)層間特徴類似性に着目した層類似性(ls)戦略、2)層間情報を用いた層間データ次元性に着目した固有次元性(id)戦略である。 定量的情報構造解析のためのLSとIDの戦略に着想を得て,DNNを経由するデータサンプルの近傍のダイナミクスを研究する興味深いアイデアに基づく,層間情報類似性評価のための2つの新しい補完手法を提案する。 具体的には、DNNの層間の情報トポロジ的類似性を定量化するためのNearest Neighbour Topological similarity(NNTS)の概念を紹介する。 さらに、DNN全体のデータ近傍関係の層間永続性を定量化するためのNearest Neighbour Topological Persistence(NNTP)の概念を導入する。 提案手法は,局所的なトポロジカル情報のみを活用し,効率的な層間情報類似度評価を促進するとともに,画像データ上の深層畳み込みニューラルネットワークアーキテクチャの解析を行い,dnnの理論的性能に関する洞察を得ることにより,その効果を実証する。

The quantitative analysis of information structure through a deep neural network (DNN) can unveil new insights into the theoretical performance of DNN architectures. Two very promising avenues of research towards quantitative information structure analysis are: 1) layer similarity (LS) strategies focused on the inter-layer feature similarity, and 2) intrinsic dimensionality (ID) strategies focused on layer-wise data dimensionality using pairwise information. Inspired by both LS and ID strategies for quantitative information structure analysis, we introduce two novel complimentary methods for inter-layer information similarity assessment premised on the interesting idea of studying a data sample's neighbourhood dynamics as it traverses through a DNN. More specifically, we introduce the concept of Nearest Neighbour Topological Similarity (NNTS) for quantifying the information topology similarity between layers of a DNN. Furthermore, we introduce the concept of Nearest Neighbour Topological Persistence (NNTP) for quantifying the inter-layer persistence of data neighbourhood relationships throughout a DNN. The proposed strategies facilitate the efficient inter-layer information similarity assessment by leveraging only local topological information, and we demonstrate their efficacy in this study by performing analysis on a deep convolutional neural network architecture on image data to study the insights that can be gained with respect to the theoretical performance of a DNN.
翻訳日:2021-05-16 21:40:04 公開日:2020-12-07
# 医学生と大学院薬学者のための再現性研究の指導

Teaching reproducible research for medical students and postgraduate pharmaceutical scientists ( http://arxiv.org/abs/2012.03554v1 )

ライセンス: Link先を確認
Andreas D. Meid(参考訳) 多くの学術分野において、医学生は研究中に既に科学研究を開始している。 我々の機関と同様に、彼らは多かれ少なかれ経験豊富な(大学院)薬学、一般の自然科学、あるいは生統計学の研究者と学際的なチームで働いていることが多い。 それらはすべて、特に統計分析の観点から、教育の不可欠な部分として優れた研究実践を教えるべきである。 これは現代研究の中心的側面としての再現性を含んでいる。 完全に再現可能なワークフローの必要な側面に慣れていない教育者でさえも,臨床研究のいくつかの分野に関わる医学生や大学院生を対象に,再現可能な研究(RR)に関する講義シリーズを開催することに同意した。 そこで私は、RRの定義、RRの理由、RRのメリットの可能性、そしてそれに従って作業する方法を明らかにするためのパイロット講義シリーズを設計した。 実際に分析を再現しようとすると、いくつかの現実的な障害に遭遇しました。 本稿では、RRの多様体面を強調し、可能な説明と解決策を提供し、(定量的な)臨床研究者のための調和されたカリキュラムにはRR原理を含めるべきであると主張する。 したがって、これらの経験が教育者や学生の意識を高めるのに役立つことを願っています。 RRの労働習慣は、私たち自身や学生にとってだけでなく、機関内の他の研究者にとっても、科学的パートナーにとっても、科学コミュニティにとっても、そして最終的には研究結果から公衆の利益のためにも有益である。

In many academic settings, medical students start their scientific work already during their studies. Like at our institution, they often work in interdisciplinary teams with more or less experienced (postgraduate) researchers of pharmaceutical sciences, natural sciences in general, or biostatistics. All of them should be taught good research practices as an integral part of their education, especially in terms of statistical analysis. This includes reproducibility as a central aspect of modern research. Acknowledging that even educators might be unfamiliar with necessary aspects of a perfectly reproducible workflow, I agreed to give a lecture series on reproducible research (RR) for medical students and postgraduate pharmacists involved in several areas of clinical research. Thus, I designed a piloting lecture series to highlight definitions of RR, reasons for RR, potential merits of RR, and ways to work accordingly. In trying to actually reproduce a published analysis, I encountered several practical obstacles. In this article, I focus on this working example to emphasize the manifold facets of RR, to provide possible explanations and solutions, and argue that harmonized curricula for (quantitative) clinical researchers should include RR principles. I therefore hope these experiences are helpful to raise awareness among educators and students. RR working habits are not only beneficial for ourselves or our students, but also for other researchers within an institution, for scientific partners, for the scientific community, and eventually for the public profiting from research findings.
翻訳日:2021-05-16 21:38:20 公開日:2020-12-07
# バックプロパゲーティングは、逆行例の転送性を改善する

Backpropagating Linearly Improves Transferability of Adversarial Examples ( http://arxiv.org/abs/2012.03528v1 )

ライセンス: Link先を確認
Yiwen Guo, Qizhang Li, Hao Chen(参考訳) 敵対的な例に対するディープニューラルネットワーク(DNN)の脆弱性は、コミュニティから大きな注目を集めている。 本稿では,dnnに対する多数のブラックボックス攻撃の基盤となるこのような事例の転送可能性について検討する。 我々はGoodfellowらの、それほど新しいものではなく、確実に注目すべき仮説を再考する。 DNNの線形性を適切に改善することで、転送可能性を高めることができる。 線形バックプロパゲーション(LinBP)は,勾配を利用するオフザシェルフ攻撃を用いて,より線形にバックプロパゲーションを行う手法である。 より具体的には、フォワードは正常に計算するが、フォワードパスで非線形なアクティベーションが発生していないかのように損失を逆伝搬する。 実験の結果,この手法はcifar-10とimagenet上での移動可能な攻撃例の作成において,現在の最先端を明らかに上回っており,様々なdnnに対する攻撃がより効果的であることが判明した。

The vulnerability of deep neural networks (DNNs) to adversarial examples has drawn great attention from the community. In this paper, we study the transferability of such examples, which lays the foundation of many black-box attacks on DNNs. We revisit a not so new but definitely noteworthy hypothesis of Goodfellow et al.'s and disclose that the transferability can be enhanced by improving the linearity of DNNs in an appropriate manner. We introduce linear backpropagation (LinBP), a method that performs backpropagation in a more linear fashion using off-the-shelf attacks that exploit gradients. More specifically, it calculates forward as normal but backpropagates loss as if some nonlinear activations are not encountered in the forward pass. Experimental results demonstrate that this simple yet effective method obviously outperforms current state-of-the-arts in crafting transferable adversarial examples on CIFAR-10 and ImageNet, leading to more effective attacks on a variety of DNNs.
翻訳日:2021-05-16 21:36:36 公開日:2020-12-07
# 重み付けとノードプルーニング依存性とダイナミクスにおける正則化の役割

The Role of Regularization in Shaping Weight and Node Pruning Dependency and Dynamics ( http://arxiv.org/abs/2012.03827v1 )

ライセンス: Link先を確認
Yael Ben-Guigui, Jacob Goldberger, Tammy Riklin-Raviv(参考訳) 深層ニューラルネットワークの容量を減らすための圧力がネットワーク希釈法の発展を刺激し、その解析を行った。 スパーシリティを促進するための$L_1$と$L_0$正規化の能力はしばしば言及されるが、$L_2$正規化はこの文脈ではほとんど議論されない。 より小さな重みのゼロ化を好む確率関数からのサンプリングにより、ウェイトプルーニングのための新しい枠組みを提案する。 さらに,l_1$ と $l_2$ のレギュライゼーションが,重み付きプルーニングを最適化しながらノードプルーニングのダイナミクスに寄与することを検討する。 次に,MNIST分類用MLPのノードの50%,CIFAR10分類用VGG-16のフィルタの60%,U-Netのチャネルの60%,CNNモデルのチャネルの50%を新型コロナウイルス検出用として除去する医療画像モデルにおいて,重崩壊正規化器と併用した場合の確率的枠組みの有効性を示した。 これらのノードを切断したネットワークに対しては、元の高密度ネットワークよりもわずかに精度の低い競合重み付け結果も提示する。

The pressing need to reduce the capacity of deep neural networks has stimulated the development of network dilution methods and their analysis. While the ability of $L_1$ and $L_0$ regularization to encourage sparsity is often mentioned, $L_2$ regularization is seldom discussed in this context. We present a novel framework for weight pruning by sampling from a probability function that favors the zeroing of smaller weights. In addition, we examine the contribution of $L_1$ and $L_2$ regularization to the dynamics of node pruning while optimizing for weight pruning. We then demonstrate the effectiveness of the proposed stochastic framework when used together with a weight decay regularizer on popular classification models in removing 50% of the nodes in an MLP for MNIST classification, 60% of the filters in VGG-16 for CIFAR10 classification, and on medical image models in removing 60% of the channels in a U-Net for instance segmentation and 50% of the channels in CNN model for COVID-19 detection. For these node-pruned networks, we also present competitive weight pruning results that are only slightly less accurate than the original, dense networks.
翻訳日:2021-05-16 21:35:53 公開日:2020-12-07
# 効率的な非線形RX異常検出器

Efficient Nonlinear RX Anomaly Detectors ( http://arxiv.org/abs/2012.05799v1 )

ライセンス: Link先を確認
Jos\'e A. Padr\'on Hidalgo, Adri\'an P\'erez-Suay, Fatih Nar, and Gustau Camps-Valls(参考訳) 現在の異常検出アルゴリズムは、通常、精度か効率のどちらかによって挑戦される。 より正確な非線形検出器は一般的に遅く、拡張性がない。 本稿では、Nystr\omアプローチを用いてカーネル関数をランダムなフーリエ特徴で近似し、異常検出のための標準カーネルReed-Xiaoli(RX)法の効率を改善するための2種類の手法を提案する。 実際のマルチスペクトル画像とハイパースペクトル画像の比較を行う。 その結果,提案手法は計算コストが低く,暗黙的正規化効果により標準カーネル rx アルゴリズムに類似する(あるいは上回る)ことが判明した。 最後に重要なこととして、Nystr\"omアプローチは検出の能力が改善されている。

Current anomaly detection algorithms are typically challenged by either accuracy or efficiency. More accurate nonlinear detectors are typically slow and not scalable. In this letter, we propose two families of techniques to improve the efficiency of the standard kernel Reed-Xiaoli (RX) method for anomaly detection by approximating the kernel function with either {\em data-independent} random Fourier features or {\em data-dependent} basis with the Nystr\"om approach. We compare all methods for both real multi- and hyperspectral images. We show that the proposed efficient methods have a lower computational cost and they perform similar (or outperform) the standard kernel RX algorithm thanks to their implicit regularization effect. Last but not least, the Nystr\"om approach has an improved power of detection.
翻訳日:2021-05-16 21:33:45 公開日:2020-12-07
# 多層ネットワークのための適応層アグリゲーションによるスペクトルクラスタリング

Spectral clustering via adaptive layer aggregation for multi-layer networks ( http://arxiv.org/abs/2012.04646v1 )

ライセンス: Link先を確認
Sihan Huang, Haolei Weng, Yang Feng(参考訳) ネットワーク分析における根本的な問題の一つは、各層がノード間の1種類のエッジ情報を表すマルチレイヤネットワークのコミュニティ構造を検出することである。 有効凸層アグリゲーションに基づく積分スペクトルクラスタリング手法を提案する。 本手法は,コミュニティ検出の一貫性が不可能である難解なシステムにおいて,重み付き隣接行列のスペクトル埋め込みと下流の$k$-meansクラスタリングの微妙な漸近解析に強く動機づけられている。 実際、いくつかの特殊な多層ネットワークモデルの下での誤クラスタ化エラーを最小限に抑える最適凸凝集を推定する手法が示されている。 さらに,ガウス混合モデルを用いたクラスタリングは,スペクトルクラスタリングにおける一般的な$k$-meansよりも優れていることが示唆された。 広範な数値研究により,我々の適応集計手法とガウス混合モデルクラスタリングの併用により,新しいスペクトルクラスタリングは,いくつかの一般的な手法と比較して著しく競合することが示された。

One of the fundamental problems in network analysis is detecting community structure in multi-layer networks, of which each layer represents one type of edge information among the nodes. We propose integrative spectral clustering approaches based on effective convex layer aggregations. Our aggregation methods are strongly motivated by a delicate asymptotic analysis of the spectral embedding of weighted adjacency matrices and the downstream $k$-means clustering, in a challenging regime where community detection consistency is impossible. In fact, the methods are shown to estimate the optimal convex aggregation, which minimizes the mis-clustering error under some specialized multi-layer network models. Our analysis further suggests that clustering using Gaussian mixture models is generally superior to the commonly used $k$-means in spectral clustering. Extensive numerical studies demonstrate that our adaptive aggregation techniques, together with Gaussian mixture model clustering, make the new spectral clustering remarkably competitive compared to several popularly used methods.
翻訳日:2021-05-16 21:32:22 公開日:2020-12-07
# 対話談話認識グラフ畳み込みネットワークによる抽象会議要約

Dialogue Discourse-Aware Graph Convolutional Networks for Abstractive Meeting Summarization ( http://arxiv.org/abs/2012.03502v1 )

ライセンス: Link先を確認
Xiachong Feng, Xiaocheng Feng, Bing Qin, Xinwei Geng, Ting Liu(参考訳) sequence-to-sequenceメソッドは、テキスト抽象ミーティングの要約に有望な結果をもたらしました。 ニュースや科学論文のような文書とは異なり、会議は当然対話特有の構造情報でいっぱいです。 しかし、以前の作業は、リッチな構造情報を無視しながら、連続的にミーティングをモデル化した。 本稿では,各発話間の事前定義された意味関係を提示できる対話特化構造である対話談話を用いて,要約会議のための対話談話認識グラフ畳み込みネットワーク(dda-gcn)を開発した。 まず,対話談話関係を用いた会議テキスト全体を談話グラフに変換し,それからDDA-GCNを用いてそのグラフの意味表現を符号化する。 最後に,再帰的ニューラルネットワークを用いて要約を生成する。 さらに,質問応答関係を利用して擬似要約コーパスを構築し,モデルの事前学習に利用することができる。 AMIデータセットの実験結果から,我々のモデルは様々なベースラインを上回る性能を示し,最先端の性能を実現することができる。

Sequence-to-sequence methods have achieved promising results for textual abstractive meeting summarization. Different from documents like news and scientific papers, a meeting is naturally full of dialogue-specific structural information. However, previous works model a meeting in a sequential manner, while ignoring the rich structural information. In this paper, we develop a Dialogue Discourse-Aware Graph Convolutional Networks (DDA-GCN) for meeting summarization by utilizing dialogue discourse, which is a dialogue-specific structure that can provide pre-defined semantic relationships between each utterance. We first transform the entire meeting text with dialogue discourse relations into a discourse graph and then use DDA-GCN to encode the semantic representation of the graph. Finally, we employ a Recurrent Neural Network to generate the summary. In addition, we utilize the question-answer discourse relation to construct a pseudo-summarization corpus, which can be used to pre-train our model. Experimental results on the AMI dataset show that our model outperforms various baselines and can achieve state-of-the-art performance.
翻訳日:2021-05-16 21:31:48 公開日:2020-12-07
# 先行音響コンテキストを用いた音声合成の改善

Using previous acoustic context to improve Text-to-Speech synthesis ( http://arxiv.org/abs/2012.03763v1 )

ライセンス: Link先を確認
Pilar Oplustil-Gallegos and Simon King(参考訳) 多くの音声合成データセット、特にオーディオブックから派生したものは、自然に発話のシーケンスを構成する。 それでもこれらのデータは、モデルトレーニングと推論時間の両方において、個別の無秩序な発話として扱われる。 これは発話レベル以上の重要な韻律現象を捨てる。 本稿では,先行する発話音声の埋め込みを生成する音響コンテキストエンコーダを用いて,データの逐次的性質を活用する。 これはタコトロン2モデルのデコーダに入力される。 埋め込みは二次的なタスクにも使用され、さらなる監視を提供する。 2つの二次タスクを比較する:発話ペアの順序の予測と、現在の発話音声の埋め込みの予測。 その結果,連続発話間の関係は有益であり,提案モデルはタコトロン2のベースライン上での自然性を大幅に向上させる。

Many speech synthesis datasets, especially those derived from audiobooks, naturally comprise sequences of utterances. Nevertheless, such data are commonly treated as individual, unordered utterances both when training a model and at inference time. This discards important prosodic phenomena above the utterance level. In this paper, we leverage the sequential nature of the data using an acoustic context encoder that produces an embedding of the previous utterance audio. This is input to the decoder in a Tacotron 2 model. The embedding is also used for a secondary task, providing additional supervision. We compare two secondary tasks: predicting the ordering of utterance pairs, and predicting the embedding of the current utterance audio. Results show that the relation between consecutive utterances is informative: our proposed model significantly improves naturalness over a Tacotron 2 baseline.
翻訳日:2021-05-16 21:30:43 公開日:2020-12-07
# 騒々しい中世データのためのスティロメトリ:Paul Meyerのハジノグラフィー仮説の評価

Stylometry for Noisy Medieval Data: Evaluating Paul Meyer's Hagiographic Hypothesis ( http://arxiv.org/abs/2012.03845v1 )

ライセンス: Link先を確認
Jean-Baptiste Camps, Thibault Cl\'erice, Ariane Pinche(参考訳) 中世の語彙テキストのスティロメトリクス分析は、スペルやより実質的なスクラベ変化の重要性に加えて、伝統に導入された変種や誤りが、スケロメトリストの仕事を複雑にするなど、依然として重要な課題である。 いくつかのテキストの1つの手からコピーを解析することにより、これらの問題を部分的に軽減することができる(Camps and Cafiero, 2013)。 本稿では,ms bnf, frに含まれるハギグラフ作品に対して,手書き文字認識とスタイロメトリ解析を組み合わせたワークフローを提案する。 412. 我々は、ポール・マイヤーの著作群の構成に関する仮説を評価し、非常に匿名なコーパスにおける潜在的権威的グループ化を検討する。

Stylometric analysis of medieval vernacular texts is still a significant challenge: the importance of scribal variation, be it spelling or more substantial, as well as the variants and errors introduced in the tradition, complicate the task of the would-be stylometrist. Basing the analysis on the study of the copy from a single hand of several texts can partially mitigate these issues (Camps and Cafiero, 2013), but the limited availability of complete diplomatic transcriptions might make this difficult. In this paper, we use a workflow combining handwritten text recognition and stylometric analysis, applied to the case of the hagiographic works contained in MS BnF, fr. 412. We seek to evaluate Paul Meyer's hypothesis about the constitution of groups of hagiographic works, as well as to examine potential authorial groupings in a vastly anonymous corpus.
翻訳日:2021-05-16 21:30:33 公開日:2020-12-07
# the lab vs the crowd: a investigation on data quality for neural dialogue models (英語)

The Lab vs The Crowd: An Investigation into Data Quality for Neural Dialogue Models ( http://arxiv.org/abs/2012.03855v1 )

ライセンス: Link先を確認
Jos\'e Lopes, Francisco J. Chiyah Garcia and Helen Hastie(参考訳) 品質データの収集と処理に関する課題は、データ駆動対話モデルの進歩を妨げている。 これまでのアプローチは、収集が遅いがデータが高品質と見なされるような、リソース集約的なラボの設定から遠ざかっている。 Amazon Mechanical Turkのようなクラウドソーシングプラットフォームの出現は、研究者にデータ収集のコスト効率と迅速な方法を提供してきた。 しかし、流体、自然言語、テキストによる対話の収集は、特に2人のクラウドソースの労働者の間で難しい場合があります。 本研究では,同じインタラクションタスクにおける対話モデルの性能を比較するが,実験室とクラウドソースの2つの異なる設定で収集する。 実験室での対話は、クラウドソースデータの半分未満の精度で行う必要があることがわかりました。 各データ収集手法の利点と欠点について論じる。

Challenges around collecting and processing quality data have hampered progress in data-driven dialogue models. Previous approaches are moving away from costly, resource-intensive lab settings, where collection is slow but where the data is deemed of high quality. The advent of crowd-sourcing platforms, such as Amazon Mechanical Turk, has provided researchers with an alternative cost-effective and rapid way to collect data. However, the collection of fluid, natural spoken or textual interaction can be challenging, particularly between two crowd-sourced workers. In this study, we compare the performance of dialogue models for the same interaction task but collected in two different settings: in the lab vs. crowd-sourced. We find that fewer lab dialogues are needed to reach similar accuracy, less than half the amount of lab data as crowd-sourced data. We discuss the advantages and disadvantages of each data collection method.
翻訳日:2021-05-16 21:30:16 公開日:2020-12-07
# タスク指向対話システムのベンチマークインテント検出

Benchmarking Intent Detection for Task-Oriented Dialog Systems ( http://arxiv.org/abs/2012.03929v1 )

ライセンス: Link先を確認
Haode Qi, Lin Pan, Atin Sood, Abhishek Shah, Ladislav Kunc, Saloni Potdar(参考訳) Intent Detectionは、ユーザのテキスト入力の意図を予測してユーザタスクを達成する、現代の目標指向対話システムのキーコンポーネントである。 堅牢で正確な意図検出モデルの設計には3つの大きな課題がある。 第一に、典型的な意図検出モデルは高い精度を達成するために大量のラベル付きデータを必要とする。 残念ながら、現実的なシナリオでは、小さく、不均衡でノイズの多いデータセットを見つけることが一般的である。 第二に、大規模なトレーニングデータであっても、インテント検出モデルは、実世界へのデプロイ時に異なるテストデータの分布を見ることができるため、精度が低下する。 最後に、実用的な意図検出モデルは、トレーニングと単一クエリ推論の両方において計算効率が高くなければならない。 様々なデータセット上でインテント検出手法をベンチマークする。 その結果、Watson Assistantの意図検出モデルは、他の商用ソリューションよりも優れており、計算資源とトレーニングデータのみを必要としながら、大規模な事前学習言語モデルに匹敵することがわかった。 Watson Assistantは、トレーニングとテストの分布が異なる場合、より高度な堅牢性を示す。

Intent detection is a key component of modern goal-oriented dialog systems that accomplish a user task by predicting the intent of users' text input. There are three primary challenges in designing robust and accurate intent detection models. First, typical intent detection models require a large amount of labeled data to achieve high accuracy. Unfortunately, in practical scenarios it is more common to find small, unbalanced, and noisy datasets. Secondly, even with large training data, the intent detection models can see a different distribution of test data when being deployed in the real world, leading to poor accuracy. Finally, a practical intent detection model must be computationally efficient in both training and single query inference so that it can be used continuously and re-trained frequently. We benchmark intent detection methods on a variety of datasets. Our results show that Watson Assistant's intent detection model outperforms other commercial solutions and is comparable to large pretrained language models while requiring only a fraction of computational resources and training data. Watson Assistant demonstrates a higher degree of robustness when the training and test distributions differ.
翻訳日:2021-05-16 21:30:03 公開日:2020-12-07
# big green at wnut 2020 shared task-1: relationship extraction as contextized sequence classification

Big Green at WNUT 2020 Shared Task-1: Relation Extraction as Contextualized Sequence Classification ( http://arxiv.org/abs/2012.04538v1 )

ライセンス: Link先を確認
Chris Miller and Soroush Vosoughi(参考訳) 関連とイベント抽出は自然言語処理において重要なタスクである。 本稿では,コンテキスト化された知識グラフ補完を用いて,雑音の多いテキスト環境における既知のエンティティ間の関係とイベントを分類するシステムを提案する。 本システムでは,ウェットラボプロトコルのデータセットから関係やイベントを効果的に抽出できることを示す。

Relation and event extraction is an important task in natural language processing. We introduce a system which uses contextualized knowledge graph completion to classify relations and events between known entities in a noisy text environment. We report results which show that our system is able to effectively extract relations and events from a dataset of wet lab protocols.
翻訳日:2021-05-16 21:28:26 公開日:2020-12-07
# CompFeat: ビデオインスタンスセグメンテーションのための包括的な機能集約

CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentation ( http://arxiv.org/abs/2012.03400v1 )

ライセンス: Link先を確認
Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi(参考訳) ビデオインスタンスのセグメンテーションは、任意のビデオに対して各オブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクである。 これまでのアプローチでは、オブジェクトの検出、セグメンテーション、トラッキングにのみシングルフレーム機能を使用しており、動画シナリオでは、動きのぼやけや劇的な外観変化など、いくつかの異なる課題によって苦しめられている。 単一フレームの特徴のみを用いて導入されたあいまいさを解消するため,時間的・空間的文脈情報を用いて,フレームレベルとオブジェクトレベルの特徴を洗練するための包括的特徴集約手法(CompFeat)を提案する。 集約プロセスは、学習した特徴の識別力を著しく向上させる新しい注意機構で慎重に設計される。 特徴的類似点と空間的類似点の両方を組み込むことで,シアム設計によるモデル追跡能力をさらに向上する。 YouTube-VISデータセットで実施された実験は、提案したCompFeatの有効性を検証する。 私たちのコードはhttps://github.com/SHI-Labs/CompFeat-for-Video-Instance-Segmentationで公開されます。

Video instance segmentation is a complex task in which we need to detect, segment, and track each object for any given video. Previous approaches only utilize single-frame features for the detection, segmentation, and tracking of objects and they suffer in the video scenario due to several distinct challenges such as motion blur and drastic appearance change. To eliminate ambiguities introduced by only using single-frame features, we propose a novel comprehensive feature aggregation approach (CompFeat) to refine features at both frame-level and object-level with temporal and spatial context information. The aggregation process is carefully designed with a new attention mechanism which significantly increases the discriminative power of the learned features. We further improve the tracking capability of our model through a siamese design by incorporating both feature similarities and spatial similarities. Experiments conducted on the YouTube-VIS dataset validate the effectiveness of proposed CompFeat. Our code will be available at https://github.com/SHI-Labs/CompFeat-for-Video-Instance-Segmentation.
翻訳日:2021-05-16 21:26:28 公開日:2020-12-07
# マルチモーダルセンサによる補足情報融合画像の高分解能化

Boosting Image Super-Resolution Via Fusion of Complementary Information Captured by Multi-Modal Sensors ( http://arxiv.org/abs/2012.03417v1 )

ライセンス: Link先を確認
Fan Wang, Jiangxin Yang, Yanlong Cao, Yanpeng Cao, and Michael Ying Yang(参考訳) Image Super-Resolution (SR)は、低解像度光学センサの画質を向上させるための有望な技術を提供し、幅広いロボティクスアプリケーションにおいて、より優れた目標検出と自律ナビゲーションを容易にする。 最先端のSR手法は一般に単一チャネル入力を用いて訓練・テストされており、異なるスペクトル領域における高解像度画像のキャプチャコストが著しく異なるという事実を無視している。 本稿では,安価なチャネル(可視・深度)からの補完情報を活用して,少ないパラメータを用いて高価なチャネル(熱)の画像品質を向上させる。 そこで我々はまず,様々な視点で捉えたマルチモーダルデータのリアルタイムな3次元再構成に基づいて,画素単位での可視・熱画像の仮想的生成方法を提案する。 そして,マルチスペクトル画像に現れる共起特性を適応的に統合することにより,熱画像の高精度SRを実現するための特徴レベルの多重スペクトル融合残差ネットワークモデルを設計する。 実験により,新たな手法により,新たな低コストチャネルからの補完情報を考慮し,精度と効率の両面で最先端のSRアプローチを著しく向上させることにより,画像SRの逆問題を軽減することができることが示された。

Image Super-Resolution (SR) provides a promising technique to enhance the image quality of low-resolution optical sensors, facilitating better-performing target detection and autonomous navigation in a wide range of robotics applications. It is noted that the state-of-the-art SR methods are typically trained and tested using single-channel inputs, neglecting the fact that the cost of capturing high-resolution images in different spectral domains varies significantly. In this paper, we attempt to leverage complementary information from a low-cost channel (visible/depth) to boost image quality of an expensive channel (thermal) using fewer parameters. To this end, we first present an effective method to virtually generate pixel-wise aligned visible and thermal images based on real-time 3D reconstruction of multi-modal data captured at various viewpoints. Then, we design a feature-level multispectral fusion residual network model to perform high-accuracy SR of thermal images by adaptively integrating co-occurrence features presented in multispectral images. Experimental results demonstrate that this new approach can effectively alleviate the ill-posed inverse problem of image SR by taking into account complementary information from an additional low-cost channel, significantly outperforming state-of-the-art SR approaches in terms of both accuracy and efficiency.
翻訳日:2021-05-16 21:25:49 公開日:2020-12-07
# 半教師付きドメイン適応のための強化学習を用いた選択的擬似ラベル

Selective Pseudo-Labeling with Reinforcement Learning for Semi-Supervised Domain Adaptation ( http://arxiv.org/abs/2012.03438v1 )

ライセンス: Link先を確認
Bingyu Liu, Yuhong Guo, Jieping Ye, Weihong Deng(参考訳) 最近の領域適応法は、教師なし領域適応問題において顕著に改善されている。 しかし、ターゲットドメインがいくつかのラベル付きインスタンスを利用できる半教師付きドメイン適応(SSDA)環境では、これらのメソッドは性能を向上できない可能性がある。 ドメイン適応における擬似ラベルの有効性に着想を得て,半教師付きドメイン適応のための強化学習に基づく選択的擬似ラベル法を提案する。 従来の擬似ラベル方式では,疑似ラベルデータの正しさと代表性のバランスをとることが困難である。 この制限に対処するため,我々は疑似ラベル付きインスタンスを正確に選択する深層Q-ラーニングモデルを開発した。 さらに,データの少ない識別的特徴の学習における大きなマージン損失の能力に動機付けられ,その識別性を向上させるために,ベースモデルトレーニングのための新たなターゲットマージン損失を提案する。 提案手法は, SSDAのベンチマークデータセットを用いて評価し, 全ての比較手法よりも優れた性能を示す。

Recent domain adaptation methods have demonstrated impressive improvement on unsupervised domain adaptation problems. However, in the semi-supervised domain adaptation (SSDA) setting where the target domain has a few labeled instances available, these methods can fail to improve performance. Inspired by the effectiveness of pseudo-labels in domain adaptation, we propose a reinforcement learning based selective pseudo-labeling method for semi-supervised domain adaptation. It is difficult for conventional pseudo-labeling methods to balance the correctness and representativeness of pseudo-labeled data. To address this limitation, we develop a deep Q-learning model to select both accurate and representative pseudo-labeled instances. Moreover, motivated by large margin loss's capacity on learning discriminative features with little data, we further propose a novel target margin loss for our base model training to improve its discriminability. Our proposed method is evaluated on several benchmark datasets for SSDA, and demonstrates superior performance to all the comparison methods.
翻訳日:2021-05-16 21:25:02 公開日:2020-12-07
# videomix: ビデオ分類のためのデータ拡張再考

VideoMix: Rethinking Data Augmentation for Video Classification ( http://arxiv.org/abs/2012.03457v1 )

ライセンス: Link先を確認
Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Jinhyung Kim(参考訳) 最先端のビデオアクション分類器は、しばしば過剰フィッティングに苦しむ。 それらは前景のアクション内容よりも、特定のオブジェクトやシーンキューに偏りがちで、準最適一般化性能をもたらす。 近年,静的画像分類器の過適合問題に対処するためのデータ拡張戦略が報告されている。 静的画像分類器の有効性にもかかわらず、ビデオでデータ拡張が研究されることは滅多にない。 そこで本研究では,映像分類タスクにおける各種データ拡張戦略の有効性を体系的に解析した。 次に,強力な拡張戦略であるVideoMixを提案する。 VideoMixは、ビデオキューブを別のビデオに挿入することで、新しいトレーニングビデオを作成する。 基底真理ラベルは、各ビデオのボクセル数に比例して混合される。 VideoMixは、モデルがオブジェクトやシーンバイアスを超えて学習し、アクション認識のためのより堅牢な手がかりを抽出できることを示す。 VideoMixは、 Kineticsと挑戦的なSomething-V2ベンチマークの他の拡張ベースラインを一貫して上回っている。 また、THUMOS'14の弱い教師付きアクションローカライゼーション性能も改善した。 VideoMix事前訓練されたモデルは、ビデオ検出タスク(AVA)に改善された精度を示す。

State-of-the-art video action classifiers often suffer from overfitting. They tend to be biased towards specific objects and scene cues, rather than the foreground action content, leading to sub-optimal generalization performances. Recent data augmentation strategies have been reported to address the overfitting problems in static image classifiers. Despite the effectiveness on the static image classifiers, data augmentation has rarely been studied for videos. For the first time in the field, we systematically analyze the efficacy of various data augmentation strategies on the video classification task. We then propose a powerful augmentation strategy VideoMix. VideoMix creates a new training video by inserting a video cuboid into another video. The ground truth labels are mixed proportionally to the number of voxels from each video. We show that VideoMix lets a model learn beyond the object and scene biases and extract more robust cues for action recognition. VideoMix consistently outperforms other augmentation baselines on Kinetics and the challenging Something-Something-V2 benchmarks. It also improves the weakly-supervised action localization performance on THUMOS'14. VideoMix pretrained models exhibit improved accuracies on the video detection task (AVA).
翻訳日:2021-05-16 21:24:45 公開日:2020-12-07
# pfa-gan: 生成的adversarial networkを用いたプログレッシブフェイスエイジング

PFA-GAN: Progressive Face Aging with Generative Adversarial Network ( http://arxiv.org/abs/2012.03459v1 )

ライセンス: Link先を確認
Zhizhong Huang, Shouzhen Chen, Junping Zhang, Hongming Shan(参考訳) フェイスエイジング(英: face aging)とは、顔の外観が年齢によって異なるため、情報法医学やセキュリティ分野において重要な役割を果たす顔の出現を予測することである。 条件付き生成対向ネットワーク(cGANs)で顕著な結果が得られたが、既存のcGANsベースの手法は、通常、1つのネットワークを使用して、2つの異なる年齢グループ間の様々な加齢効果を学習する。 しかし、画像の品質、老化精度、アイデンティティ保存の3つの必須要件を同時に満たすことができず、年齢差が大きいと強いゴーストアーティファクトを持つ老化顔を生成するのが普通である。 本稿では, 顔の経時的変化に触発されて, 創発的adversarial network (pfa-gan) を基盤とした新しいプログレッシブ・フェイスエイジング・フレームワークを提案する。 既存のcGANの手法とは異なり、提案フレームワークには、顔の老化過程を若者から高齢者まで模倣するサブネットワークがいくつか含まれており、それぞれが隣接する2つの年齢グループ間で特定の老化効果を学習するのみである。 提案するフレームワークは,累積アーティファクトや曖昧さを排除するために,エンドツーエンドでトレーニングすることができる。 さらに,老化精度向上のための年齢分布を考慮した年齢推定損失について述べるとともに,ピアソン相関係数を顔の老化平滑度評価指標として用いることを提案する。 大規模な実験の結果は、2つのベンチマークデータセット上で既存の(c)GANベースの手法よりも優れた性能を示す。 ソースコードは~\url{https://github.com/Hzzone/PFA-GAN}で入手できる。

Face aging is to render a given face to predict its future appearance, which plays an important role in the information forensics and security field as the appearance of the face typically varies with age. Although impressive results have been achieved with conditional generative adversarial networks (cGANs), the existing cGANs-based methods typically use a single network to learn various aging effects between any two different age groups. However, they cannot simultaneously meet three essential requirements of face aging -- including image quality, aging accuracy, and identity preservation -- and usually generate aged faces with strong ghost artifacts when the age gap becomes large. Inspired by the fact that faces gradually age over time, this paper proposes a novel progressive face aging framework based on generative adversarial network (PFA-GAN) to mitigate these issues. Unlike the existing cGANs-based methods, the proposed framework contains several sub-networks to mimic the face aging process from young to old, each of which only learns some specific aging effects between two adjacent age groups. The proposed framework can be trained in an end-to-end manner to eliminate accumulative artifacts and blurriness. Moreover, this paper introduces an age estimation loss to take into account the age distribution for an improved aging accuracy, and proposes to use the Pearson correlation coefficient as an evaluation metric measuring the aging smoothness for face aging methods. Extensively experimental results demonstrate superior performance over existing (c)GANs-based methods, including the state-of-the-art one, on two benchmarked datasets. The source code is available at~\url{https://github.com/Hzzone/PFA-GAN}.
翻訳日:2021-05-16 21:24:32 公開日:2020-12-07
# 粗いラベルを用いた細粒度角コントラスト学習

Fine-grained Angular Contrastive Learning with Coarse Labels ( http://arxiv.org/abs/2012.03515v1 )

ライセンス: Link先を確認
Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky(参考訳) 数少ない学習方法は、1つまたは数つの例を使って、モデルが新しいクラス(トレーニング中は無視される)に後から適応しやすいように最適化された事前学習技術を提供する。 このunseenクラスへの適応性は、事前訓練されたラベル空間が効果的に使用するために固定されず、モデルがオンザフライで新しいカテゴリをサポートするために「特別化」されなければならない多くの実用的なアプリケーションにとって特に重要である。 特に興味深いシナリオは、基本的に少数の文献で見落とされ、訓練クラス(例:C2FS)である。 動物)は、ターゲット(テスト)クラス(例)よりもはるかに粗い粒度である。 品種)。 C2FSの非常に実用的な例は、ターゲットクラスがトレーニングクラスのサブクラスである場合である。 直感的には、教師付きプレトレーニングは、サブクラスの分離に不可欠なクラス内変動を無視する傾向にあるため、特に困難である。 本稿では,教師付きおよび自己教師型コントラスト型プレトレーニングを効果的に組み合わせて提案したC2FSタスクにアプローチ可能な,新しいAngular正規化モジュールを提案する。 この研究が、c2fs分類の新しい、挑戦的で、非常に実用的なトピックに関する今後の研究の道を開くのに役立つことを願っている。

Few-shot learning methods offer pre-training techniques optimized for easier later adaptation of the model to new classes (unseen during training) using one or a few examples. This adaptivity to unseen classes is especially important for many practical applications where the pre-trained label space cannot remain fixed for effective use and the model needs to be "specialized" to support new categories on the fly. One particularly interesting scenario, essentially overlooked by the few-shot literature, is Coarse-to-Fine Few-Shot (C2FS), where the training classes (e.g. animals) are of much `coarser granularity' than the target (test) classes (e.g. breeds). A very practical example of C2FS is when the target classes are sub-classes of the training classes. Intuitively, it is especially challenging as (both regular and few-shot) supervised pre-training tends to learn to ignore intra-class variability which is essential for separating sub-classes. In this paper, we introduce a novel 'Angular normalization' module that allows to effectively combine supervised and self-supervised contrastive pre-training to approach the proposed C2FS task, demonstrating significant gains in a broad study over multiple baselines and datasets. We hope that this work will help to pave the way for future research on this new, challenging, and very practical topic of C2FS classification.
翻訳日:2021-05-16 21:24:00 公開日:2020-12-07
# Ada-Segment: パノプティカルセグメンテーションのための自動マルチロス適応

Ada-Segment: Automated Multi-loss Adaptation for Panoptic Segmentation ( http://arxiv.org/abs/2012.03603v1 )

ライセンス: Link先を確認
Gengwei Zhang, Yiming Gao, Hang Xu, Hao Zhang, Zhenguo Li, Xiaodan Liang(参考訳) インスタンスのセグメンテーションとセマンティックセグメンテーションを統合するpanoptic segmentationが最近注目を集めている。 学習のダイナミクスをキャプチャするためにトレーニングされたコントローラを使用して、トレーニング期間中に複数のトレーニング損失を柔軟に調整するために、ada-segmentと呼ばれる自動マルチロス適応(automated multi-loss adaptation)をオンザフライで実行します。 これは、センシティブな損失の組み合わせの手動チューニングを回避し、パンオプティカルセグメンテーションの決定的な要因である;学習ダイナミクスを明示的にモデル化し、複数の目的の学習(私たちの実験では最大10まで)を調整可能にする;エンドツーエンドアーキテクチャでは、ハイパーパラメータを再チューニングしたり、トレーニングプロセスを再調整することなく、さまざまなデータセットに一般化する。 当社のAda-Segmentは、COCOvalをバニラベースラインから分離した上で、2.7%のパノライト品質(PQ)の改善を実現し、COCOテストデブ分割の最先端の48.5%、ADE20Kデータセットの32.9%のPQを実現しました。 広範なアブレーション研究は,本論文で提示したような自動適応学習戦略の導入を必要とせず,トレーニングプロセス全体で変化の激しいダイナミクスを明らかにしている。

Panoptic segmentation that unifies instance segmentation and semantic segmentation has recently attracted increasing attention. While most existing methods focus on designing novel architectures, we steer toward a different perspective: performing automated multi-loss adaptation (named Ada-Segment) on the fly to flexibly adjust multiple training losses over the course of training using a controller trained to capture the learning dynamics. This offers a few advantages: it bypasses manual tuning of the sensitive loss combination, a decisive factor for panoptic segmentation; it allows to explicitly model the learning dynamics, and reconcile the learning of multiple objectives (up to ten in our experiments); with an end-to-end architecture, it generalizes to different datasets without the need of re-tuning hyperparameters or re-adjusting the training process laboriously. Our Ada-Segment brings 2.7% panoptic quality (PQ) improvement on COCO val split from the vanilla baseline, achieving the state-of-the-art 48.5% PQ on COCO test-dev split and 32.9% PQ on ADE20K dataset. The extensive ablation studies reveal the ever-changing dynamics throughout the training process, necessitating the incorporation of an automated and adaptive learning strategy as presented in this paper.
翻訳日:2021-05-16 21:23:35 公開日:2020-12-07
# 野生の単一画像からのポスガイドによる人間アニメーション

Pose-Guided Human Animation from a Single Image in the Wild ( http://arxiv.org/abs/2012.03796v1 )

ライセンス: Link先を確認
Jae Shin Yoon, Lingjie Liu, Vladislav Golyanik, Kripasindhu Sarkar, Hyun Soo Park, Christian Theobalt(参考訳) 身体のポーズの順序によって制御される人の1つの画像から人間のアニメーションを合成する新しいポーズ伝達法を提案する。 既存のポーズ転送法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示し、その人のアイデンティティとテクスチャを保存するのに時間的不一貫性と失敗をもたらす。 これらの制限に対処するために、シルエット、衣料ラベル、テクスチャを予測する合成ニューラルネットワークを設計する。 各モジュールネットワークは、合成データから学べるサブタスクに明示的に割り当てられている。 推定時に、トレーニングされたネットワークを用いて、ポーズ間で一定である紫外線座標における外観とそのラベルの統一表現を生成する。 統一表現は、ポーズの変化に応じて外観を生成するための不完全だが強力なガイダンスを提供する。 トレーニングされたネットワークを使って外観を完了し、背景でレンダリングします。 これらの戦略により、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。 実験の結果,本手法は合成品質,時間的コヒーレンス,一般化能力において最先端の手法よりも優れていることがわかった。

We present a new pose transfer method for synthesizing a human animation from a single image of a person controlled by a sequence of body poses. Existing pose transfer methods exhibit significant visual artifacts when applying to a novel scene, resulting in temporal inconsistency and failures in preserving the identity and textures of the person. To address these limitations, we design a compositional neural network that predicts the silhouette, garment labels, and textures. Each modular network is explicitly dedicated to a subtask that can be learned from the synthetic data. At the inference time, we utilize the trained network to produce a unified representation of appearance and its labels in UV coordinates, which remains constant across poses. The unified representation provides an incomplete yet strong guidance to generating the appearance in response to the pose change. We use the trained network to complete the appearance and render it with the background. With these strategies, we are able to synthesize human animations that can preserve the identity and appearance of the person in a temporally coherent way without any fine-tuning of the network on the testing scene. Experiments show that our method outperforms the state-of-the-arts in terms of synthesis quality, temporal coherence, and generalization ability.
翻訳日:2021-05-16 21:22:44 公開日:2020-12-07
# sparse fooling images: 認識不能な画像による機械の知覚を騙す

Sparse Fooling Images: Fooling Machine Perception through Unrecognizable Images ( http://arxiv.org/abs/2012.03843v1 )

ライセンス: Link先を確認
Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki(参考訳) 近年、ディープニューラルネットワーク(DNN)は、人間よりも様々な認識タスクにおいて同等またはそれ以上の精度を達成した。 しかし、DNNが完全に間違った決定を下すような画像は存在するが、人間はこの画像に失敗することはない。 犬や猫のような自然の物体として認識できないが、DNNはこれらの画像を高い信頼度を持つクラスに分類する。 本稿では,少ない画素数で単一のカラー画像であるスパルス画像(SFI)を新たに提案する。 自然物の特徴をある程度保持している既存の愚かな画像とは異なり、SFIは人間に認識可能な局所的・グローバル的特徴を持たないが、機械認識(DNN分類器)では、SFIは自然物として認識され、高い信頼スコアを持つ特定のクラスに分類される。 異なる設定でsfisを生成する2つの方法を提案する(セミブラックボックスとホワイトボックス)。 また,分布外検出によるDNNの脆弱性を実験的に実証し,SFIに対する堅牢性の観点から3つのアーキテクチャを比較した。 本研究は,CNNの構造と堅牢性に関する疑問を提起し,人間と機械の知覚の違いについて考察する。

In recent years, deep neural networks (DNNs) have achieved equivalent or even higher accuracy in various recognition tasks than humans. However, some images exist that lead DNNs to a completely wrong decision, whereas humans never fail with these images. Among others, fooling images are those that are not recognizable as natural objects such as dogs and cats, but DNNs classify these images into classes with high confidence scores. In this paper, we propose a new class of fooling images, sparse fooling images (SFIs), which are single color images with a small number of altered pixels. Unlike existing fooling images, which retain some characteristic features of natural objects, SFIs do not have any local or global features that can be recognizable to humans; however, in machine perception (i.e., by DNN classifiers), SFIs are recognizable as natural objects and classified to certain classes with high confidence scores. We propose two methods to generate SFIs for different settings~(semiblack-box and white-box). We also experimentally demonstrate the vulnerability of DNNs through out-of-distribution detection and compare three architectures in terms of the robustness against SFIs. This study gives rise to questions on the structure and robustness of CNNs and discusses the differences between human and machine perception.
翻訳日:2021-05-16 21:22:04 公開日:2020-12-07
# 縦型注意ネットワークを用いたエンドツーエンド手書き文認識

End-to-end Handwritten Paragraph Text Recognition Using a Vertical Attention Network ( http://arxiv.org/abs/2012.03868v1 )

ライセンス: Link先を確認
Denis Coquenet, Cl\'ement Chatelain, Thierry Paquet(参考訳) コンピュータビジョンシステムでは、制約のない手書き文字認識が依然として難しい。 パラグラフテキスト認識は伝統的に2つのモデルによって達成される: ラインセグメンテーションのための第1モデルと、テキストライン認識のための第2モデルである。 この課題に対処するために,ハイブリッドアテンションを用いた統一エンド・ツー・エンドモデルを提案する。 RIMESは1.90%、IAMは4.32%、READ 2016は3.63%である。 提案するモデルは,標準手法に反するセグメンテーションラベルを使わずに,ゼロからトレーニングすることができる。 私たちのコードとトレーニングされたモデルウェイトは、https://github.com/factodeeplearning/verticalattentionocrで利用可能です。

Unconstrained handwritten text recognition remains challenging for computer vision systems. Paragraph text recognition is traditionally achieved by two models: the first one for line segmentation and the second one for text line recognition. We propose a unified end-to-end model using hybrid attention to tackle this task. We achieve state-of-the-art character error rate at line and paragraph levels on three popular datasets: 1.90% for RIMES, 4.32% for IAM and 3.63% for READ 2016. The proposed model can be trained from scratch, without using any segmentation label contrary to the standard approach. Our code and trained model weights are available at https://github.com/FactoDeepLearning/VerticalAttentionOCR.
翻訳日:2021-05-16 21:21:43 公開日:2020-12-07
# リカレントグラフニューラルネットワークによるビデオインスタンスセグメンテーションの学習

Learning Video Instance Segmentation with Recurrent Graph Neural Networks ( http://arxiv.org/abs/2012.03911v1 )

ライセンス: Link先を確認
Joakim Johnander, Emil Brissman, Martin Danelljan, Michael Felsberg(参考訳) 既存のビデオインスタンスセグメンテーションのアプローチのほとんどは、最終的な出力を生成するためにヒューリスティックに結合された複数のモジュールで構成されている。 代わりに、ビデオインスタンスのセグメンテーションタスクを解決するのに必要な時間的側面と一般的なトラック管理の両方をモデル化する純粋に学習ベースの方法を作成することは、非常に難しい問題である。 本研究では,ビデオインスタンスのセグメンテーション問題全体を共同でモデル化する,新しい学習形式を提案する。 私たちは、グラフニューラルネットワークの助けを借りて、利用可能なすべての新しい情報を各フレームで処理する、フレキシブルなモデルに適合します。 過去の情報はリカレント接続により考慮および処理される。 総合実験において提案手法の有効性を実証する。 われわれのアプローチは25FPS以上で、従来のビデオリアルタイム手法よりも優れている。 さらに,我々のアプローチの異なる側面を検証する詳細なアブレーション実験を行う。

Most existing approaches to video instance segmentation comprise multiple modules that are heuristically combined to produce the final output. Formulating a purely learning-based method instead, which models both the temporal aspect as well as a generic track management required to solve the video instance segmentation task, is a highly challenging problem. In this work, we propose a novel learning formulation, where the entire video instance segmentation problem is modelled jointly. We fit a flexible model to our formulation that, with the help of a graph neural network, processes all available new information in each frame. Past information is considered and processed via a recurrent connection. We demonstrate the effectiveness of the proposed approach in comprehensive experiments. Our approach, operating at over 25 FPS, outperforms previous video real-time methods. We further conduct detailed ablative experiments that validate the different aspects of our approach.
翻訳日:2021-05-16 21:21:14 公開日:2020-12-07
# アイデンティティ駆動型ディープフェイク検出

Identity-Driven DeepFake Detection ( http://arxiv.org/abs/2012.03930v1 )

ライセンス: Link先を確認
Xiaoyi Dong and Jianmin Bao and Dongdong Chen and Weiming Zhang and Nenghai Yu and Dong Chen and Fang Wen and Baining Guo(参考訳) DeepFake検出はこれまでのところ‘artifact-driven’メソッドで支配されており、画像アーティファクトの種類が不明であるか、アーティファクトを見つけるのが難しい場合、検出性能は著しく低下する。 本研究では,アイデンティティ駆動型DeepFake Detectionという別の手法を提案する。 提案手法は,被疑者画像/映像の入力と,対象人物情報(参照画像またはビデオ)の入力を行う。 被疑者画像・映像の同一性は対象人物と同一かという判断を出力する。 私たちのモチベーションは、ターゲットの人の偽情報を拡散する最も一般的で有害なDeepFakeを防ぐことです。 アイデンティティベースのアプローチは、画像アーティファクトの検出を試みないという点で、根本的に異なる。 代わりに、容疑者の画像/ビデオの身元が正しいかどうかに焦点が当てられている。 同一性に基づく検出の研究を容易にするために,対象のアイデンティティの動画から収集した複数の参照画像に疑似コンテンツが関連付けられている大規模データセット ``Vox-DeepFake" を提案する。 また、さらに研究のベースラインとして機能する、OuterFaceと呼ばれる単純なIDベースの検出アルゴリズムも提案する。 偽ビデオなしで訓練されたとしても、OuterFaceアルゴリズムは優れた検出精度を達成し、異なるDeepFakeメソッドによく対応し、ビデオ劣化技術(既存の検出アルゴリズムでは達成できないパフォーマンス)に対して堅牢である。

DeepFake detection has so far been dominated by ``artifact-driven'' methods and the detection performance significantly degrades when either the type of image artifacts is unknown or the artifacts are simply too hard to find. In this work, we present an alternative approach: Identity-Driven DeepFake Detection. Our approach takes as input the suspect image/video as well as the target identity information (a reference image or video). We output a decision on whether the identity in the suspect image/video is the same as the target identity. Our motivation is to prevent the most common and harmful DeepFakes that spread false information of a targeted person. The identity-based approach is fundamentally different in that it does not attempt to detect image artifacts. Instead, it focuses on whether the identity in the suspect image/video is true. To facilitate research on identity-based detection, we present a new large scale dataset ``Vox-DeepFake", in which each suspect content is associated with multiple reference images collected from videos of a target identity. We also present a simple identity-based detection algorithm called the OuterFace, which may serve as a baseline for further research. Even trained without fake videos, the OuterFace algorithm achieves superior detection accuracy and generalizes well to different DeepFake methods, and is robust with respect to video degradation techniques -- a performance not achievable with existing detection algorithms.
翻訳日:2021-05-16 21:21:01 公開日:2020-12-07
# GenScan: パラメトリック3Dスキャンデータセットの収集方法

GenScan: A Generative Method for Populating Parametric 3D Scan Datasets ( http://arxiv.org/abs/2012.03998v1 )

ライセンス: Link先を確認
Mohammad Keshavarzi, Oladapo Afolabi, Luisa Caldas, Allen Y. Yang, Avideh Zakhor(参考訳) 構築された環境の幾何学的複雑さに対応するリッチな3Dデータセットの可用性は、3Dディープラーニング方法論の継続的な課題であると考えられている。 この課題に対処するために, 合成3Dスキャンデータセットをパラメトリックな方法で生成するGenScanを導入する。 このシステムは既存の3Dスキャンを入力として、壁やドア、家具など、建築レイアウトの代替的なバリエーションを出力する。 GenScanは、完全に自動化されたシステムで、割り当てられたユーザーインターフェイスを通じて、ユーザーが手動で制御することもできる。 提案システムでは,ハイブリッド深層ニューラルネットワークとパラメトリザーモジュールを組み合わせて,与えられた3dスキャンの要素を抽出・変換する。 GenScanはスタイル転送技術を利用して、生成されたシーンの新しいテクスチャを生成する。 我々は,3次元コンピュータビジョン,生成設計,一般的な3次元深層学習タスクで一般的に使用されている,現在限られた3次元幾何データセットを拡張するために,データ拡張を促進できると考えている。

The availability of rich 3D datasets corresponding to the geometrical complexity of the built environments is considered an ongoing challenge for 3D deep learning methodologies. To address this challenge, we introduce GenScan, a generative system that populates synthetic 3D scan datasets in a parametric fashion. The system takes an existing captured 3D scan as an input and outputs alternative variations of the building layout including walls, doors, and furniture with corresponding textures. GenScan is a fully automated system that can also be manually controlled by a user through an assigned user interface. Our proposed system utilizes a combination of a hybrid deep neural network and a parametrizer module to extract and transform elements of a given 3D scan. GenScan takes advantage of style transfer techniques to generate new textures for the generated scenes. We believe our system would facilitate data augmentation to expand the currently limited 3D geometry datasets commonly used in 3D computer vision, generative design, and general 3D deep learning tasks.
翻訳日:2021-05-16 21:20:37 公開日:2020-12-07
# In-The-Wild画像からアニメーション可能な詳細3次元顔モデルの学習

Learning an Animatable Detailed 3D Face Model from In-The-Wild Images ( http://arxiv.org/abs/2012.04012v1 )

ライセンス: Link先を確認
Yao Feng and Haiwen Feng and Michael J. Black and Timo Bolkart(参考訳) 現在のモノキュラー3d顔再構成法は微細な幾何学的詳細を復元できるが、いくつかの制限がある。 一部の方法は、表現によってしわがどう変化するかをモデル化しないため、現実的にアニメーションできない顔を作る。 その他の方法は高品質な顔スキャンで訓練されており、Wild画像によく当てはまらない。 本研究は,画像の形状や表情との関係を再現した画像から,アニマタブルなディテールを持つモデルと詳細な3次元顔回帰器を共同で学習する試みである。 deca(detailed expression capture and animation)モデルは、人物固有のディテールパラメータとジェネリック表現パラメータからなる低次元の潜在表現からロバストにuv変位マップを生成するように訓練され、レグレッサーは、ディテール、形状、アルベド、表現、ポーズ、照明パラメータを単一の画像から予測するように訓練される。 本稿では,人固有の細部と表情依存のしわを区別する新しい細部一貫性損失を提案する。 この絡み合いにより、表現パラメータを制御しつつ、人固有の詳細を変更せずに、現実的な人特有のしわを合成できる。 DECAは2つのベンチマークで最先端の形状復元精度を達成する。 フィールド内データの質的な結果は、DECAの頑健さと、再構成された顔のアニメーションを可能にするアイデンティティと表現依存の詳細を分離する能力を示している。 モデルとコードはhttps://github.com/YadiraF/DECAで公開されている。

While current monocular 3D face reconstruction methods can recover fine geometric details, they suffer several limitations. Some methods produce faces that cannot be realistically animated because they do not model how wrinkles vary with expression. Other methods are trained on high-quality face scans and do not generalize well to in-the-wild images. We present the first approach to jointly learn a model with animatable detail and a detailed 3D face regressor from in-the-wild images that recovers shape details as well as their relationship to facial expressions. Our DECA (Detailed Expression Capture and Animation) model is trained to robustly produce a UV displacement map from a low-dimensional latent representation that consists of person-specific detail parameters and generic expression parameters, while a regressor is trained to predict detail, shape, albedo, expression, pose and illumination parameters from a single image. We introduce a novel detail-consistency loss to disentangle person-specific details and expression-dependent wrinkles. This disentanglement allows us to synthesize realistic person-specific wrinkles by controlling expression parameters while keeping person-specific details unchanged. DECA achieves state-of-the-art shape reconstruction accuracy on two benchmarks. Qualitative results on in-the-wild data demonstrate DECA's robustness and its ability to disentangle identity and expression dependent details enabling animation of reconstructed faces. The model and code are publicly available at https://github.com/YadiraF/DECA.
翻訳日:2021-05-16 21:20:20 公開日:2020-12-07
# 多重同変アライメントによる回転不変点畳み込み

Rotation-Invariant Point Convolution With Multiple Equivariant Alignments ( http://arxiv.org/abs/2012.04048v1 )

ライセンス: Link先を確認
Hugues Thomas(参考訳) 近年の3次元深層学習手法における回転不変性や等分散性の導入の試みは有望な成果を上げているが,これらの手法は標準的な3次元ニューラルネットワークの性能に到達するのに苦慮している。 本研究では,3次元点畳み込みにおける等分散と不変性の関係について検討する。 回転同変アライメントを用いることで、任意の畳み込み層を回転不変にすることができることを示す。 さらに,アライメント自体を畳み込みの特徴として利用し,複数のアライメントを組み合わせることにより,この簡単なアライメント手順を改善する。 このコア層を用いて、オブジェクト分類とセマンティックセグメンテーションの両方において、最先端の成果を改善する回転不変アーキテクチャを設計し、回転不変と標準3次元ディープラーニングのギャップを小さくする。

Recent attempts at introducing rotation invariance or equivariance in 3D deep learning approaches have shown promising results, but these methods still struggle to reach the performances of standard 3D neural networks. In this work we study the relation between equivariance and invariance in 3D point convolutions. We show that using rotation-equivariant alignments, it is possible to make any convolutional layer rotation-invariant. Furthermore, we improve this simple alignment procedure by using the alignment themselves as features in the convolution, and by combining multiple alignments together. With this core layer, we design rotation-invariant architectures which improve state-of-the-art results in both object classification and semantic segmentation and reduces the gap between rotation-invariant and standard 3D deep learning approaches.
翻訳日:2021-05-16 21:19:55 公開日:2020-12-07
# 生体画像分類のための変形可能なgabor特徴ネットワーク

Deformable Gabor Feature Networks for Biomedical Image Classification ( http://arxiv.org/abs/2012.04109v1 )

ライセンス: Link先を確認
Xuan Gong, Xin Xia, Wentao Zhu, Baochang Zhang, David Doermann, Lian Zhuo(参考訳) 近年,医学画像解析の分野では,ディープラーニングが進歩している。 しかし,多くの医用画像の複雑な幾何学的構造を表現するための現在のディープラーニング手法は不十分であることがわかった。 ひとつの制限は、ディープラーニングモデルには膨大な量のデータが必要であり、必要な詳細情報で十分な量を取得するのは非常に困難である。 第2の制限は、これらの医用画像の根底にある特徴が十分に確立されていることだが、既存の畳み込みニューラルネットワーク(CNN)のブラックボックスの性質は、それらを利用できない。 本稿では,Gaborフィルタを再検討し,Deformable Gabor Convolution (DGConv)を導入し,ディープネットワークの解釈性を高め,複雑な空間変動を実現する。 これらの特徴は、複雑な対象に対する代表性と堅牢性を改善するために、適応的なガボル畳み込みを持つ変形可能なサンプリング位置で学習される。 DGConvは標準の畳み込みレイヤを置き換え、エンドツーエンドで簡単にトレーニングできるため、変形可能なGabor機能ネットワーク(DGFN)が追加パラメータが少なく、トレーニングコストも最小限に抑えられる。 マンモグラムのINbreastデータセットと肺X線画像のChestX-ray14データセットのDGFNを導入した。

In recent years, deep learning has dominated progress in the field of medical image analysis. We find however, that the ability of current deep learning approaches to represent the complex geometric structures of many medical images is insufficient. One limitation is that deep learning models require a tremendous amount of data, and it is very difficult to obtain a sufficient amount with the necessary detail. A second limitation is that there are underlying features of these medical images that are well established, but the black-box nature of existing convolutional neural networks (CNNs) do not allow us to exploit them. In this paper, we revisit Gabor filters and introduce a deformable Gabor convolution (DGConv) to expand deep networks interpretability and enable complex spatial variations. The features are learned at deformable sampling locations with adaptive Gabor convolutions to improve representativeness and robustness to complex objects. The DGConv replaces standard convolutional layers and is easily trained end-to-end, resulting in deformable Gabor feature network (DGFN) with few additional parameters and minimal additional training cost. We introduce DGFN for addressing deep multi-instance multi-label classification on the INbreast dataset for mammograms and on the ChestX-ray14 dataset for pulmonary x-ray images.
翻訳日:2021-05-16 21:19:41 公開日:2020-12-07
# superfront: 低解像度から高分解能の顔合成まで

SuperFront: From Low-resolution to High-resolution Frontal Face Synthesis ( http://arxiv.org/abs/2012.04111v1 )

ライセンス: Link先を確認
Yu Yin, Joseph P. Robinson, Songyao Jiang, Yue Bai, Can Qin, Yun Fu(参考訳) 顔の回転の進歩は他の顔ベースの生成タスクとともに、深層学習のトピックでさらに前進するにつれて頻繁に行われる。 顔の合成において印象的なマイルストーンを達成したとしても、アイデンティティを保つことの重要性は実際に必要であり、見過ごされてはならない。 また、不明瞭な顔、重いポーズ、そして品質の低いデータにとって、難しさはそれ以上ではない。 既存の手法では、ポーズのばらつきのあるサンプルに焦点を当てる傾向があるが、仮定データでは品質が高い。 本稿では,1つまたは複数の低解像度(LR)面を極端なポーズで保存する,高品質でアイデンティティを保ったGAN(Generative Adversarial Network)モデルを提案する。 具体的には,高分解能 (HR) の面を1対多のLR面から様々なポーズで合成し,その特徴を保存するスーパーフラントGAN (SF-GAN) を提案する。 我々は超高解像度(SR)サイドビューモジュールをSF-GANに統合し、HR空間の側面ビューの識別情報と詳細を保存し、顔の高周波情報(外眼、鼻、口の領域など)のモデル再構成を支援する。 さらに、SF-GANは複数のLR面を入力として受け入れ、各追加サンプルを改善する。 我々は、冗長な潜在表現をペナライズするためにジェネレータの直交制約により、パフォーマンスのさらなる向上を絞って、学習された特徴空間を多様化する。 SF-GANの定量的および定性的な結果は、他のものよりも優れていることを示している。

Advances in face rotation, along with other face-based generative tasks, are more frequent as we advance further in topics of deep learning. Even as impressive milestones are achieved in synthesizing faces, the importance of preserving identity is needed in practice and should not be overlooked. Also, the difficulty should not be more for data with obscured faces, heavier poses, and lower quality. Existing methods tend to focus on samples with variation in pose, but with the assumption data is high in quality. We propose a generative adversarial network (GAN) -based model to generate high-quality, identity preserving frontal faces from one or multiple low-resolution (LR) faces with extreme poses. Specifically, we propose SuperFront-GAN (SF-GAN) to synthesize a high-resolution (HR), frontal face from one-to-many LR faces with various poses and with the identity-preserved. We integrate a super-resolution (SR) side-view module into SF-GAN to preserve identity information and fine details of the side-views in HR space, which helps model reconstruct high-frequency information of faces (i.e., periocular, nose, and mouth regions). Moreover, SF-GAN accepts multiple LR faces as input, and improves each added sample. We squeeze additional gain in performance with an orthogonal constraint in the generator to penalize redundant latent representations and, hence, diversify the learned features space. Quantitative and qualitative results demonstrate the superiority of SF-GAN over others.
翻訳日:2021-05-16 21:19:18 公開日:2020-12-07
# MERANet: 3次元残差注意ネットワークを用いた顔のマイクロ圧縮認識

MERANet: Facial Micro-Expression Recognition using 3D Residual Attention Network ( http://arxiv.org/abs/2012.04581v1 )

ライセンス: Link先を確認
Viswanatha Reddy Gajjala, Sai Prasanna Teja Reddy, Snehasis Mukherjee, Shiv Ram Dubey(参考訳) 本研究では,meranetと呼ばれる3次元残留注意ネットワークを用いた顔のマイクロ表現認識モデルを提案する。 提案モデルは,空間的-時間的注意とチャネル的注意を併用して,感情の分類においてより詳細な微妙な特徴を学習する。 提案モデルは,3次元カーネルと残差接続を用いた時空間情報と時間情報の両方を同時に包含する。 さらに,各残余モジュールにおいて,チャネル特徴と時空間特徴をそれぞれチャネルと時空間注意を用いて再校正する。 実験はベンチマーク顔面マイクロ表現データセットを用いて行われた。 顔のマイクロ圧縮認識の最先端技術と比較して優れた性能が観察される。

We propose a facial micro-expression recognition model using 3D residual attention network called MERANet. The proposed model takes advantage of spatial-temporal attention and channel attention together, to learn deeper fine-grained subtle features for classification of emotions. The proposed model also encompasses both spatial and temporal information simultaneously using the 3D kernels and residual connections. Moreover, the channel features and spatio-temporal features are re-calibrated using the channel and spatio-temporal attentions, respectively in each residual module. The experiments are conducted on benchmark facial micro-expression datasets. A superior performance is observed as compared to the state-of-the-art for facial micro-expression recognition.
翻訳日:2021-05-16 21:13:51 公開日:2020-12-07
# CARAFE++:Featureの統一コンテンツ対応再アセンブリ

CARAFE++: Unified Content-Aware ReAssembly of FEatures ( http://arxiv.org/abs/2012.04733v1 )

ライセンス: Link先を確認
Jiaqi Wang, Kai Chen, Rui Xu, Ziwei Liu, Chen Change Loy, Dahua Lin(参考訳) 機能を再組み立てする。 機能ダウンサンプリングとアップサンプリングは、残差ネットワークや機能ピラミッドなど、現代の多くの畳み込みネットワークアーキテクチャにおいて重要な操作である。 その設計は、オブジェクト検出やセマンティック/インスタンスセグメンテーションのような密集した予測タスクに不可欠である。 本研究では,この目標を達成するために,汎用的で軽量で高効率な演算子であるContent-Aware ReAssembly of FEatures (CARAFE++)を提案する。 1) サブピクセル近傍のみを利用するプーリングや補間のような従来の方法とは異なり、CARAFE++は大きな受容領域内でコンテキスト情報を集約する。 2) すべてのサンプル(例)に対して固定カーネルを使用する代わりに。 Convolution and Deconvolution) CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするために、オンザフライで適応カーネルを生成する。 (3) CARAFE++は計算オーバーヘッドが少なく、現代的なネットワークアーキテクチャに容易に統合できる。 我々は,オブジェクト検出,インスタンス/意味セグメンテーション,画像インパインティングにおける標準ベンチマークを総合的に評価する。 CARAFE++は、全てのタスク(2.5%のAPbox、2.1%のAPmask、1.94%のmIoU、1.35dB)において、無視できる計算オーバーヘッドを伴う一貫性と実質的な増加を示している。 現代のディープネットワークの強力なビルディングブロックとして機能する大きな可能性を示している。

Feature reassembly, i.e. feature downsampling and upsampling, is a key operation in a number of modern convolutional network architectures, e.g., residual networks and feature pyramids. Its design is critical for dense prediction tasks such as object detection and semantic/instance segmentation. In this work, we propose unified Content-Aware ReAssembly of FEatures (CARAFE++), a universal, lightweight and highly effective operator to fulfill this goal. CARAFE++ has several appealing properties: (1) Unlike conventional methods such as pooling and interpolation that only exploit sub-pixel neighborhood, CARAFE++ aggregates contextual information within a large receptive field. (2) Instead of using a fixed kernel for all samples (e.g. convolution and deconvolution), CARAFE++ generates adaptive kernels on-the-fly to enable instance-specific content-aware handling. (3) CARAFE++ introduces little computational overhead and can be readily integrated into modern network architectures. We conduct comprehensive evaluations on standard benchmarks in object detection, instance/semantic segmentation and image inpainting. CARAFE++ shows consistent and substantial gains across all the tasks (2.5% APbox, 2.1% APmask, 1.94% mIoU, 1.35 dB respectively) with negligible computational overhead. It shows great potential to serve as a strong building block for modern deep networks.
翻訳日:2021-05-16 21:12:31 公開日:2020-12-07
# 空間駆動型デジタル地形モデル抽出

Sparsity-driven Digital Terrain Model Extraction ( http://arxiv.org/abs/2012.08639v1 )

ライセンス: Link先を確認
Fatih Nar, Erdal Yilmaz, Gustau Camps-Valls(参考訳) 本稿では,DTM(Digital Terrain Model)の自動抽出手法を提案する。 提案する空間駆動型DTM抽出器 (SD-DTM) は,高分解能DSMを入力として,高分解能DTMを構築する。 正確なdtmを得るために, 目標変動コスト関数の最小化のための反復的手法を提案する。 SD-DTMの精度を実世界のDSMデータセットに示す。 提案手法の有効性と有効性は,図形地形の残留プロットを通して視覚的かつ定量的に示す。

We here introduce an automatic Digital Terrain Model (DTM) extraction method. The proposed sparsity-driven DTM extractor (SD-DTM) takes a high-resolution Digital Surface Model (DSM) as an input and constructs a high-resolution DTM using the variational framework. To obtain an accurate DTM, an iterative approach is proposed for the minimization of the target variational cost function. Accuracy of the SD-DTM is shown in a real-world DSM data set. We show the efficiency and effectiveness of the approach both visually and quantitatively via residual plots in illustrative terrain types.
翻訳日:2021-05-16 21:11:43 公開日:2020-12-07
# 放射伝達シミュレーションによる機械学習手法によるセンチネル2とランドサット8による作物の一次生産性の推定

Estimating Crop Primary Productivity with Sentinel-2 and Landsat 8 using Machine Learning Methods Trained with Radiative Transfer Simulations ( http://arxiv.org/abs/2012.12101v1 )

ライセンス: Link先を確認
Aleksandra Wolanin, Gustau Camps-Valls, Luis G\'omez-Chova, Gonzalo Mateo-Garc\'ia, Christiaan van der Tol, Yongguang Zhang, Luis Guanter(参考訳) 衛星リモートセンシングは、過去数十年間、植生状態の評価とその後の収量予測のために、農業用途に広く利用されてきた。 作物の光合成機能やストレスを示す重要な変数であるgpp(gross primary productivity)を推定するための既存のリモートセンシングベースの手法は、通常経験的あるいは半経験的アプローチに依存しており、光合成機構を単純化する傾向がある。 本研究では,機械式光合成モデリングと衛星データ利用の並列化を活用し,作物生産性の高度モニタリングを行う。 特に,プロセスベースモデリングと土壌-キャノピーエネルギー収支放射伝達モデル(scope)とセンチネル-2 {and landsat 8}光学リモートセンシングデータと機械学習手法を組み合わせて作物gppを推定する。 本モデルでは, 地域情報を使用しなくても, 様々なC3作物の種類や環境条件でGPPを推定することに成功した。 これは、現在の地球観測クラウドコンピューティングプラットフォームの助けを借りて、新しい衛星センサーからの作物の生産性を世界規模でマッピングする可能性を強調している。

Satellite remote sensing has been widely used in the last decades for agricultural applications, {both for assessing vegetation condition and for subsequent yield prediction.} Existing remote sensing-based methods to estimate gross primary productivity (GPP), which is an important variable to indicate crop photosynthetic function and stress, typically rely on empirical or semi-empirical approaches, which tend to over-simplify photosynthetic mechanisms. In this work, we take advantage of all parallel developments in mechanistic photosynthesis modeling and satellite data availability for advanced monitoring of crop productivity. In particular, we combine process-based modeling with the soil-canopy energy balance radiative transfer model (SCOPE) with Sentinel-2 {and Landsat 8} optical remote sensing data and machine learning methods in order to estimate crop GPP. Our model successfully estimates GPP across a variety of C3 crop types and environmental conditions even though it does not use any local information from the corresponding sites. This highlights its potential to map crop productivity from new satellite sensors at a global scale with the help of current Earth observation cloud computing platforms.
翻訳日:2021-05-16 21:11:33 公開日:2020-12-07
# 短期量子自然言語処理の基礎

Foundations for Near-Term Quantum Natural Language Processing ( http://arxiv.org/abs/2012.03755v1 )

ライセンス: Link先を確認
Bob Coecke, Giovanni de Felice, Konstantinos Meichanetzidis, Alexis Toumi(参考訳) 我々は、量子自然言語処理(QNLP)の概念的および数学的基盤を提供し、量子コンピュータ科学者フレンドリーな用語でそれを行う。 我々は,露出表現形式を選択し,経験的証拠と数学的一般性に関する形式的記述を支持するための参考文献を提供した。 自然言語のための量子モデルは、言語的意味と豊かな言語構造、特に文法を標準的に組み合わせていることを思い出す。 特に、意味と構造を組み合わせるために量子的なモデルを取るという事実は、量子システムのシミュレーションと同等に、qnlpを量子ネイティブとして確立する。 さらに、現在主要なノイズの多い中間スケール量子(nisq)パラダイムは、量子ハードウェア上で古典データをエンコードするための変分量子回路であり、nisqをqnlpに優しくしている: 言語構造は、明らかに指数関数的に高価な文法の古典的エンコーディングとは対照的に、フリーランチとしてエンコードすることができる。 QNLPタスクの量子スピードアップは、Will Zengによる以前の研究ですでに確立されている。 ここでは、全員が同じ利点を享受する幅広いタスクを提供します。 文法的推論はQNLPの中心にある。 まず、量子モデルは言語を圏量子力学の図式的形式論を通して量子過程として解釈する。 第二に、これらの図はzx計算を通じて量子回路に変換される。 意味のパラメータ化は、学習すべき回路変数となる。 量子回路内での言語構造の符号化はまた、ウィトゲンシュタインの意味と文脈の中心に言語構造を置くことによって、主流AIの現在の標準を超えた単語意味を確立するための新しいアプローチを具現化した。

We provide conceptual and mathematical foundations for near-term quantum natural language processing (QNLP), and do so in quantum computer scientist friendly terms. We opted for an expository presentation style, and provide references for supporting empirical evidence and formal statements concerning mathematical generality. We recall how the quantum model for natural language that we employ canonically combines linguistic meanings with rich linguistic structure, most notably grammar. In particular, the fact that it takes a quantum-like model to combine meaning and structure, establishes QNLP as quantum-native, on par with simulation of quantum systems. Moreover, the now leading Noisy Intermediate-Scale Quantum (NISQ) paradigm for encoding classical data on quantum hardware, variational quantum circuits, makes NISQ exceptionally QNLP-friendly: linguistic structure can be encoded as a free lunch, in contrast to the apparently exponentially expensive classical encoding of grammar. Quantum speed-up for QNLP tasks has already been established in previous work with Will Zeng. Here we provide a broader range of tasks which all enjoy the same advantage. Diagrammatic reasoning is at the heart of QNLP. Firstly, the quantum model interprets language as quantum processes via the diagrammatic formalism of categorical quantum mechanics. Secondly, these diagrams are via ZX-calculus translated into quantum circuits. Parameterisations of meanings then become the circuit variables to be learned. Our encoding of linguistic structure within quantum circuits also embodies a novel approach for establishing word-meanings that goes beyond the current standards in mainstream AI, by placing linguistic structure at the heart of Wittgenstein's meaning-is-context.
翻訳日:2021-05-16 21:10:54 公開日:2020-12-07
# 文法を意識した量子コンピュータの質問応答

Grammar-Aware Question-Answering on Quantum Computers ( http://arxiv.org/abs/2012.03756v1 )

ライセンス: Link先を確認
Konstantinos Meichanetzidis, Alexis Toumi, Giovanni de Felice, Bob Coecke(参考訳) 自然言語処理(NLP)は、現代AIにおける大きな進歩の最前線にあり、間違いなくこの分野における最も困難な分野の1つである。 同時に、量子ハードウェアの安定した成長と量子アルゴリズムの実装への顕著な改善により、量子コンピュータが適切な量のリソースを持つ古典的コンピュータでは実行できないタスクを実行する時代が近づいている。 これにより、AI、特にNLPに新たな機会が提供される。 i) nlp内でもっとも支配的なタスクである検索関連タスクや分類タスクのアルゴリズムによる高速化(ii) 指数関数的に大きな量子状態空間(英語版) 複雑な言語構造への適応を可能にする(iii) 密度行列を用いる意味の新しいモデル 自然に低調や言語曖昧性などの言語現象をモデル化する。 本研究では,ノイズの多い中間規模量子(NISQ)ハードウェア上でNLPタスクを最初に実装する。 文はパラメータ化された量子回路としてインスタンス化される。 量子状態においてワード平均を符号化し、主流nlpでも一般的ではない文法構造を忠実に絡み合う演算としてハードワイリングすることで明示的に説明する。 これにより、量子自然言語処理(QNLP)、特にNISQに親しむことができる。 新しいqnlpモデルでは,量子ハードウェアの品質が近い将来向上するにつれて,スケーラビリティへの具体的な期待を示す。

Natural language processing (NLP) is at the forefront of great advances in contemporary AI, and it is arguably one of the most challenging areas of the field. At the same time, with the steady growth of quantum hardware and notable improvements towards implementations of quantum algorithms, we are approaching an era when quantum computers perform tasks that cannot be done on classical computers with a reasonable amount of resources. This provides a new range of opportunities for AI, and for NLP specifically. Earlier work has already demonstrated a potential quantum advantage for NLP in a number of manners: (i) algorithmic speedups for search-related or classification tasks, which are the most dominant tasks within NLP, (ii) exponentially large quantum state spaces allow for accommodating complex linguistic structures, (iii) novel models of meaning employing density matrices naturally model linguistic phenomena such as hyponymy and linguistic ambiguity, among others. In this work, we perform the first implementation of an NLP task on noisy intermediate-scale quantum (NISQ) hardware. Sentences are instantiated as parameterised quantum circuits. We encode word-meanings in quantum states and we explicitly account for grammatical structure, which even in mainstream NLP is not commonplace, by faithfully hard-wiring it as entangling operations. This makes our approach to quantum natural language processing (QNLP) particularly NISQ-friendly. Our novel QNLP model shows concrete promise for scalability as the quality of the quantum hardware improves in the near future.
翻訳日:2021-05-16 21:10:27 公開日:2020-12-07
# アクションブランチとフェデレーション強化学習によるVehicular Cooperative Perception

Vehicular Cooperative Perception Through Action Branching and Federated Reinforcement Learning ( http://arxiv.org/abs/2012.03414v1 )

ライセンス: Link先を確認
Mohamed K. Abdel-Aziz, Cristina Perfecto, Sumudu Samarakoon, Mehdi Bennis, Walid Saad(参考訳) 協調的な知覚は、車両の感知範囲を視線を超えて拡張する上で重要な役割を果たす。 しかし、限られた通信資源で生の感覚データを交換することは不可能である。 効率的な協調認識の実現に向けて、車両は以下の根本的な問題に対処する必要がある: どんな感覚データを共有する必要があるか、どの解像度で、どの車両と共有する必要があるか? 本稿では, クアッドツリーに基づく点雲圧縮機構を利用して, 強化学習(RL)に基づく車両関連, リソースブロック(RB)割り当て, 協調知覚メッセージ(CPM)の内容選択を可能にする新しい枠組みを提案する。 さらに、車両間のトレーニングプロセスを高速化するために、連合RLアプローチを導入している。 シミュレーションの結果,rlエージェントが車両の関連,rb割り当て,メッセージ内容選択を効率的に学習し,受信した感覚情報を用いて車両の満足度を最大化できることがわかった。 その結果,フェデレートされたRLはトレーニングプロセスを改善し,非フェデレーションアプローチと比較して,同じ時間内により良いポリシーを達成できることがわかった。

Cooperative perception plays a vital role in extending a vehicle's sensing range beyond its line-of-sight. However, exchanging raw sensory data under limited communication resources is infeasible. Towards enabling an efficient cooperative perception, vehicles need to address the following fundamental question: What sensory data needs to be shared?, at which resolution?, and with which vehicles? To answer this question, in this paper, a novel framework is proposed to allow reinforcement learning (RL)-based vehicular association, resource block (RB) allocation, and content selection of cooperative perception messages (CPMs) by utilizing a quadtree-based point cloud compression mechanism. Furthermore, a federated RL approach is introduced in order to speed up the training process across vehicles. Simulation results show the ability of the RL agents to efficiently learn the vehicles' association, RB allocation, and message content selection while maximizing vehicles' satisfaction in terms of the received sensory information. The results also show that federated RL improves the training process, where better policies can be achieved within the same amount of time compared to the non-federated approach.
翻訳日:2021-05-16 21:09:14 公開日:2020-12-07
# 重複のないディープニューラルネットワークトレーニング

Deep Neural Network Training without Multiplications ( http://arxiv.org/abs/2012.03458v1 )

ライセンス: Link先を確認
Tsuguo Mogami(参考訳) ディープニューラルネットワークには乗算が本当に必要か? 本稿では,浮動小数点乗算命令の代わりに整数加算命令付きIEEE754浮動小数点数を追加する。 ResNetはこの操作を競合する分類精度で訓練できることを示す。 提案手法は,低精度トレーニングにおいて一般的である不安定性の解消と精度低下の方法を必要としない。 いくつかの設定では、ベースラインFP32結果と同等の精度が得られる。 この方法は、ディープニューラルネットワークトレーニングと推論における乗算の排除を可能にする。

Is multiplication really necessary for deep neural networks? Here we propose just adding two IEEE754 floating-point numbers with an integer-add instruction in place of a floating-point multiplication instruction. We show that ResNet can be trained using this operation with competitive classification accuracy. Our proposal did not require any methods to solve instability and decrease in accuracy, which is common in low-precision training. In some settings, we may obtain equal accuracy to the baseline FP32 result. This method will enable eliminating the multiplications in deep neural-network training and inference.
翻訳日:2021-05-16 21:08:56 公開日:2020-12-07
# NCGNN:ノードレベルのカプセルグラフニューラルネットワーク

NCGNN: Node-level Capsule Graph Neural Network ( http://arxiv.org/abs/2012.03476v1 )

ライセンス: Link先を確認
Rui Yang, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) メッセージパッシングは、グラフニューラルネットワーク(GNN)を設計するための効果的なツールとして進化してきた。 しかし、既存のほとんどの研究は、ノード表現を更新するために隣り合う全ての機能を鼻でまとめたり平均したりしており、これは(1)GNNの予測にとって重要なノード特徴を特定するための解釈性の欠如、(2)繰り返し平均化が過度なノイズを集約し、異なるクラスのノードの特徴を過度に混合し、区別できない問題である。 本稿では,これらの問題に対して,改良されたメッセージパッシング方式を用いて,ノードレベルのカプセルグラフニューラルネットワーク(NCGNN)を提案する。 具体的には、NCGNNは、各カプセルが対応するノードの特徴を抽出するカプセルのグループとしてノードを表現している。 各ノードレベルカプセルに対して,設計したグラフフィルタで識別されたサブグラフからアグリゲーションに適したカプセルを適応的に選択する新しい動的ルーティング手法を開発した。 したがって、有利なカプセルのみを集約し、有害なノイズを抑えるため、異なるクラスの相互作用ノードの過剰混合特性は回避され、過密問題を緩和する傾向にある。 さらに、グラフフィルタと動的ルーティングは、モデル予測に最も影響を及ぼす部分グラフとノード特徴のサブセットを識別するため、NAGNNは本質的に解釈可能であり、複雑なポストホックな説明を除外する。 6つのノード分類ベンチマークの大規模な実験により、NCGNNは過度にスムースな問題に対処でき、分類のためのより良いノード埋め込みを生成することにより、芸術の状態を上回ります。

Message passing has evolved as an effective tool for designing Graph Neural Networks (GNNs). However, most existing works naively sum or average all the neighboring features to update node representations, which suffers from the following limitations: (1) lack of interpretability to identify crucial node features for GNN's prediction; (2) over-smoothing issue where repeated averaging aggregates excessive noise, making features of nodes in different classes over-mixed and thus indistinguishable. In this paper, we propose the Node-level Capsule Graph Neural Network (NCGNN) to address these issues with an improved message passing scheme. Specifically, NCGNN represents nodes as groups of capsules, in which each capsule extracts distinctive features of its corresponding node. For each node-level capsule, a novel dynamic routing procedure is developed to adaptively select appropriate capsules for aggregation from a subgraph identified by the designed graph filter. Consequently, as only the advantageous capsules are aggregated and harmful noise is restrained, over-mixing features of interacting nodes in different classes tends to be avoided to relieve the over-smoothing issue. Furthermore, since the graph filter and the dynamic routing identify a subgraph and a subset of node features that are most influential for the prediction of the model, NCGNN is inherently interpretable and exempt from complex post-hoc explanations. Extensive experiments on six node classification benchmarks demonstrate that NCGNN can well address the over-smoothing issue and outperforms the state of the arts by producing better node embeddings for classification.
翻訳日:2021-05-16 21:08:49 公開日:2020-12-07
# テキスト分類のための自動機械学習の活用:AutoMLツールの評価と人的性能の比較

Leveraging Automated Machine Learning for Text Classification: Evaluation of AutoML Tools and Comparison with Human Performance ( http://arxiv.org/abs/2012.03575v1 )

ライセンス: Link先を確認
Matthias Blohm, Marc Hanussek and Maximilien Kintz(参考訳) 最近、自動機械学習(automl)は、表データに関する成功の増加を登録している。 しかし、その疑問は、AutoMLがテキスト分類タスクにも効果的に適用できるかどうかである。 この研究は、Kaggleコンペティションを含む13の人気のあるデータセット上の4つのAutoMLツールを比較し、人間のパフォーマンスに反対する。 その結果,AutoMLツールは,13タスク中4タスクにおいて,機械学習コミュニティよりも優れたパフォーマンスを示し,その2つが目立った。

Recently, Automated Machine Learning (AutoML) has registered increasing success with respect to tabular data. However, the question arises whether AutoML can also be applied effectively to text classification tasks. This work compares four AutoML tools on 13 different popular datasets, including Kaggle competitions, and opposes human performance. The results show that the AutoML tools perform better than the machine learning community in 4 out of 13 tasks and that two stand out.
翻訳日:2021-05-16 21:08:20 公開日:2020-12-07
# 大規模地球観測のためのランダム化カーネル

Randomized kernels for large scale Earth observation applications ( http://arxiv.org/abs/2012.03630v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Suay, Julia Amor\'os-L\'opez, Luis G\'omez-Chova, Valero Laparra, Jordi Mu\~noz-Mar\'i, Gustau Camps-Valls(参考訳) 新たな画像ソースの土地被覆分類による処理も、大量のメモリと処理時間を必要とする複雑な問題となっている。 これらの問題に対処するために、統計学習は過去数年間で大量の地球観測データを取り込みうる統計検索と分類モデルの開発に大いに役立っている。 カーネル手法は、リモートセンシングや地球科学で広く使われている強力な機械学習アルゴリズムのファミリーを構成する。 しかし、放射伝達モデルの反転や高空間スペクトル・時間分解能データの分類といった大規模問題を扱う場合の計算コストが高いため、カーネル法はまだ広く採用されていない。 本稿では,生物物理パラメータと画像分類問題の高速統計検索のための効率的なカーネル手法を提案する。 この方法では、フーリエ領域からサンプリングされたランダム基底上の一連の射影を持つカーネル行列を近似することができる。 この手法は単純で、メモリと処理コストの両方において計算効率が良く、容易に並列化できる。 数百万の例と高次元を持つデータセットでは,カーネル回帰と分類が可能になった。 IASI/Metopのような高スペクトル赤外音源からの大気パラメータ抽出,Sentinel-2データ上での使い慣れたProSAIL放射移動モデルの大規模エミュレーションとインバージョン,MSG/Seviri画像の時系列におけるランドマーク上の雲の同定などの例は,提案手法の有効性と有効性を示している。

Dealing with land cover classification of the new image sources has also turned to be a complex problem requiring large amount of memory and processing time. In order to cope with these problems, statistical learning has greatly helped in the last years to develop statistical retrieval and classification models that can ingest large amounts of Earth observation data. Kernel methods constitute a family of powerful machine learning algorithms, which have found wide use in remote sensing and geosciences. However, kernel methods are still not widely adopted because of the high computational cost when dealing with large scale problems, such as the inversion of radiative transfer models or the classification of high spatial-spectral-temporal resolution data. This paper introduces an efficient kernel method for fast statistical retrieval of bio-geo-physical parameters and image classification problems. The method allows to approximate a kernel matrix with a set of projections on random bases sampled from the Fourier domain. The method is simple, computationally very efficient in both memory and processing costs, and easily parallelizable. We show that kernel regression and classification is now possible for datasets with millions of examples and high dimensionality. Examples on atmospheric parameter retrieval from hyperspectral infrared sounders like IASI/Metop; large scale emulation and inversion of the familiar PROSAIL radiative transfer model on Sentinel-2 data; and the identification of clouds over landmarks in time series of MSG/Seviri images show the efficiency and effectiveness of the proposed technique.
翻訳日:2021-05-16 21:08:12 公開日:2020-12-07
# チャネルラーニングによる5gブラインドビーム指標検出の促進

Exploitation of Channel-Learning for Enhancing 5G Blind Beam Index Detection ( http://arxiv.org/abs/2012.03631v1 )

ライセンス: Link先を確認
Ji Yoon Han, Ohyun Jo and Juyeop Kim(参考訳) 5gデバイスとサービスの急増により、データレート、信頼性、互換性など幅広い拡張の需要が高まり、通信業界はますます成長を続けている。 本研究では,機械学習技術が5gセルとビームインデックス検索の性能を実際に向上させる方法について検討する。 セルサーチは、ユーザ機器(UE)が最初に基地局に接続する上で不可欠な機能であり、無線接続をさらに維持することが重要である。 旧世代の細胞システムとは異なり、5G UEは、細胞探索手順における適切なビームと細胞同一性を検出するための追加の課題に直面している。 本稿では,5Gビームインデックス検出の性能向上を目的としたチャネル学習手法を提案する。 注目すべき点は、システムレベルでの実践的実装のために、機械学習モデルとソフトウォーリゼーションを使用することにある。 本稿では,効率的なビームインデックス検出のためのアルゴリズム手順と相関システム構造を含むチャネル学習手法を提案する。 また,市販のsoftware defined radio (sdr) プラットフォームに基づく実時間5gテストベッドを実装し,商用5g基地局で集中的な実験を行った。 実験の結果,提案手法は実5gチャネル環境において従来の相関方式よりも優れていた。

Proliferation of 5G devices and services has driven the demand for wide-scale enhancements ranging from data rate, reliability, and compatibility to sustain the ever increasing growth of the telecommunication industry. In this regard, this work investigates how machine learning technology can improve the performance of 5G cell and beam index search in practice. The cell search is an essential function for a User Equipment (UE) to be initially associated with a base station, and is also important to further maintain the wireless connection. Unlike the former generation cellular systems, the 5G UE faces with an additional challenge to detect suitable beams as well as the cell identities in the cell search procedures. Herein, we propose and implement new channel-learning schemes to enhance the performance of 5G beam index detection. The salient point lies in the use of machine learning models and softwarization for practical implementations in a system level. We develop the proposed channel-learning scheme including algorithmic procedures and corroborative system structure for efficient beam index detection. We also implement a real-time operating 5G testbed based on the off-the-shelf Software Defined Radio (SDR) platform and conduct intensive experiments with commercial 5G base stations. The experimental results indicate that the proposed channel-learning schemes outperform the conventional correlation-based scheme in real 5G channel environments.
翻訳日:2021-05-16 21:07:48 公開日:2020-12-07
# twitterを用いた洪水確率計算:ハーベイ時のヒューストン都市圏への適用

Computing flood probabilities using Twitter: application to the Houston urban area during Harvey ( http://arxiv.org/abs/2012.03731v1 )

ライセンス: Link先を確認
Etienne Brangbour, Pierrick Bruneau, St\'ephane Marchand-Maillet, Renaud Hostache, Marco Chini, Patrick Matgen, Thomas Tamisier(参考訳) 本稿では,twitterコーパスを地理的参照ラスター細胞に変換し,関連する地理的領域が浸水する確率について検討する。 本稿では,密度比関数,時空間gaussian kernel関数を用いたアグリゲーション,tfidfテキストの特徴を組み合わせたベースラインアプローチについて述べる。 特徴はロジスティック回帰モデルを用いて確率に変換される。 この手法は,2017年8月から9月にかけてヒューストンのハリケーン・ハーベイに続き,洪水後に収集したコーパスを用いて評価した。 ベースラインはF1得点の68%に達した。 これらの初期結果を改善するための研究の方向性を強調する。

In this paper, we investigate the conversion of a Twitter corpus into geo-referenced raster cells holding the probability of the associated geographical areas of being flooded. We describe a baseline approach that combines a density ratio function, aggregation using a spatio-temporal Gaussian kernel function, and TFIDF textual features. The features are transformed to probabilities using a logistic regression model. The described method is evaluated on a corpus collected after the floods that followed Hurricane Harvey in the Houston urban area in August-September 2017. The baseline reaches a F1 score of 68%. We highlight research directions likely to improve these initial results.
翻訳日:2021-05-16 21:07:27 公開日:2020-12-07
# 製品ランキングにおける収益最大化と学習

Revenue Maximization and Learning in Products Ranking ( http://arxiv.org/abs/2012.03800v1 )

ライセンス: Link先を確認
Ningyuan Chen, Anran Li, Shuoguang Yang(参考訳) 価格や品質の異なる商品群を表示し、それらを順にランク付けするオンライン小売業者の収益最大化問題を考える。 消費者はランダムな注意範囲を持ち、'満足'製品を購入する前に製品を順次見るか、注意範囲が枯渇したときにプラットフォームを空っぽにしておく。 当社のフレームワークはカスケードモデルを2方向に拡張している。消費者は固定ではなくランダムな注意範囲を持ち、企業は確率をクリックせずに収益を最大化する。 注意範囲が固定されたときの注意範囲の関数として最適製品ランキングのネスト構造を示し、ランダムな注意範囲に応じて1/e$-近似アルゴリズムを設計する。 条件付き購入確率が分かっておらず,消費者や製品機能に依存する可能性がある場合,情報を検閲しているにもかかわらず,近似アルゴリズムに対して$\tilde{\mathcal{O}}(\sqrt{T})$後悔するオンライン学習アルゴリズムを考案する。 数値実験により近似およびオンライン学習アルゴリズムの優れた性能を示す。

We consider the revenue maximization problem for an online retailer who plans to display a set of products differing in their prices and qualities and rank them in order. The consumers have random attention spans and view the products sequentially before purchasing a ``satisficing'' product or leaving the platform empty-handed when the attention span gets exhausted. Our framework extends the cascade model in two directions: the consumers have random attention spans instead of fixed ones and the firm maximizes revenues instead of clicking probabilities. We show a nested structure of the optimal product ranking as a function of the attention span when the attention span is fixed and design a $1/e$-approximation algorithm accordingly for the random attention spans. When the conditional purchase probabilities are not known and may depend on consumer and product features, we devise an online learning algorithm that achieves $\tilde{\mathcal{O}}(\sqrt{T})$ regret relative to the approximation algorithm, despite of the censoring of information: the attention span of a customer who purchases an item is not observable. Numerical experiments demonstrate the outstanding performance of the approximation and online learning algorithms.
翻訳日:2021-05-16 21:07:19 公開日:2020-12-07
# 深層強化学習による高効率貯留層管理

Efficient Reservoir Management through Deep Reinforcement Learning ( http://arxiv.org/abs/2012.03822v1 )

ライセンス: Link先を確認
Xinrun Wang, Tarun Nair, Haoyang Li, Yuh Sheng Reuben Wong, Nachiket Kelkar, Srinivas Vaidyanathan, Rajat Nayak, Bo An, Jagdish Krishnaswamy, Milind Tambe(参考訳) ダムは上流・下流連関の規制と破壊を通じて下流河川の動態に影響を及ぼす。 しかし,上流・下流系の複雑で不確定なダイナミクスや貯水池の各種利用に応答できないため,現在のダム運転は満足できない。 さらに、不満足なダムが下流部の洪水を引き起こすことがある。 そこで本研究では,RL法を利用してダムの効率的な運転ガイドラインを算出した。 具体的には,実データと上流流れの異なる数理モデル,すなわち一般化最小平方形(gls)と動的線形モデル(dlm)を用いたオフラインシミュレータを構築し,ddpg,td3,sacを含む最先端rlアルゴリズムをシミュレータを用いてトレーニングする。 実験の結果,DLM を用いたシミュレータは上流での流入動態を効率的にモデル化し,RL アルゴリズムで訓練されたダム運転ポリシーは人為的な政策よりも優れていた。

Dams impact downstream river dynamics through flow regulation and disruption of upstream-downstream linkages. However, current dam operation is far from satisfactory due to the inability to respond the complicated and uncertain dynamics of the upstream-downstream system and various usages of the reservoir. Even further, the unsatisfactory dam operation can cause floods in downstream areas. Therefore, we leverage reinforcement learning (RL) methods to compute efficient dam operation guidelines in this work. Specifically, we build offline simulators with real data and different mathematical models for the upstream inflow, i.e., generalized least square (GLS) and dynamic linear model (DLM), then use the simulator to train the state-of-the-art RL algorithms, including DDPG, TD3 and SAC. Experiments show that the simulator with DLM can efficiently model the inflow dynamics in the upstream and the dam operation policies trained by RL algorithms significantly outperform the human-generated policy.
翻訳日:2021-05-16 21:06:59 公開日:2020-12-07
# スーパーコーダ:状態の重ね合わせから雑音下におけるプログラム学習

SuperCoder: Program Learning Under Noisy Conditions From Superposition of States ( http://arxiv.org/abs/2012.03925v1 )

ライセンス: Link先を確認
Ali Davody, Mahmoud Safari, R\u{a}zvan V. Florian(参考訳) 直接探索を行わない勾配降下に基づくドメイン固有言語(DSL)における新しいプログラム学習法を提案する。 本手法の第一の構成要素は,DSL変数の確率的表現である。 プログラムシーケンスの各時間ステップにおいて、異なるDSL関数が特定の確率でDSL変数に適用され、異なる結果が得られます。 これらすべての出力を別々に扱うのではなく、各タイムステップで指数関数的に増加し、それらを変数の重ね合わせに集め、単一のファジィ状態で情報をキャプチャする。 この状態は、損失関数を介して、最後のタイミングで接地トラス出力と対比される。 本手法の2番目の構成要素は注意に基づく繰り返しニューラルネットワークであり,確率的表現を最適化する勾配降下の適切な初期化点を提供する。 提案手法は, 長いプログラムを合成する最先端技術を超え, 雑音下でプログラムを学習できる。

We propose a new method of program learning in a Domain Specific Language (DSL) which is based on gradient descent with no direct search. The first component of our method is a probabilistic representation of the DSL variables. At each timestep in the program sequence, different DSL functions are applied on the DSL variables with a certain probability, leading to different possible outcomes. Rather than handling all these outputs separately, whose number grows exponentially with each timestep, we collect them into a superposition of variables which captures the information in a single, but fuzzy, state. This state is to be contrasted at the final timestep with the ground-truth output, through a loss function. The second component of our method is an attention-based recurrent neural network, which provides an appropriate initialization point for the gradient descent that optimizes the probabilistic representation. The method we have developed surpasses the state-of-the-art for synthesising long programs and is able to learn programs under noise.
翻訳日:2021-05-16 21:06:42 公開日:2020-12-07
# 多段階植物成長予測のための注意機構を備えた自動エンコーダウェーブレット型ディープニューラルネットワーク

An autoencoder wavelet based deep neural network with attention mechanism for multistep prediction of plant growth ( http://arxiv.org/abs/2012.04041v1 )

ライセンス: Link先を確認
Bashar Alhnaity, Stefanos Kollias, Georgios Leontidis, Shouyong Jiang, Bert Schamp, Simon Pearson(参考訳) 多段階予測は,多くの実生活問題において時系列解析において重要な意味を持つと考えられる。 既存の手法は主に1ステップの予測に重点を置いているが、これは複数のステップの予測は予測エラーの蓄積によって一般的に失敗するためである。 本稿では,植物茎径変動(sdv)の予測に着目し,農業における植物成長予測手法を提案する。 提案手法は3つの主要なステップからなる。 まず、ウェーブレット分解を元のデータに適用し、モデルの嵌合を容易にし、ノイズを低減する。 次に,Long Short Term Memory (LSTM) を用いてエンコーダ・デコーダ・フレームワークを開発し,データから適切な特徴抽出を行う。 最後に、時系列データにおける長期依存をモデル化するためのLSTMとアテンション機構を含む繰り返しニューラルネットワークを提案する。 提案手法の優れた性能を示し,RMSE,MAE,MAPEなどの誤差基準で既存モデルよりも大幅に優れていることを示す実験結果が得られた。

Multi-step prediction is considered of major significance for time series analysis in many real life problems. Existing methods mainly focus on one-step-ahead forecasting, since multiple step forecasting generally fails due to accumulation of prediction errors. This paper presents a novel approach for predicting plant growth in agriculture, focusing on prediction of plant Stem Diameter Variations (SDV). The proposed approach consists of three main steps. At first, wavelet decomposition is applied to the original data, as to facilitate model fitting and reduce noise in them. Then an encoder-decoder framework is developed using Long Short Term Memory (LSTM) and used for appropriate feature extraction from the data. Finally, a recurrent neural network including LSTM and an attention mechanism is proposed for modelling long-term dependencies in the time series data. Experimental results are presented which illustrate the good performance of the proposed approach and that it significantly outperforms the existing models, in terms of error criteria such as RMSE, MAE and MAPE.
翻訳日:2021-05-16 21:06:28 公開日:2020-12-07
# 相互情報最大化による中国語歌詞からの異種メロディ生成

Diverse Melody Generation from Chinese Lyrics via Mutual Information Maximization ( http://arxiv.org/abs/2012.03805v1 )

ライセンス: Link先を確認
Ruibin Yuan, Ge Zhang, Anqiao Yang, Xinyue Zhang(参考訳) 本稿では,中国語の歌詞条件付きメロディ生成タスクに相互情報の最大化手法を適用し,生成品質と多様性を向上させることを提案する。 歌詞とメロディのアライメントを改善するために,スケジュールされたサンプリングと強制復号技術を用いた。 提案手法はDiverse Melody Generation (DMG) と呼ばれ,入力スタイルのIDに大きく依存する多様なメロディの生成を学習し,調性を維持し,アライメントを改善する。 主観評価実験の結果, DMG はベースライン法よりも心地よい, 一貫性のある調律を生成できることがわかった。

In this paper, we propose to adapt the method of mutual information maximization into the task of Chinese lyrics conditioned melody generation to improve the generation quality and diversity. We employ scheduled sampling and force decoding techniques to improve the alignment between lyrics and melodies. With our method, which we called Diverse Melody Generation (DMG), a sequence-to-sequence model learns to generate diverse melodies heavily depending on the input style ids, while keeping the tonality and improving the alignment. The experimental results of subjective tests show that DMG can generate more pleasing and coherent tunes than baseline methods.
翻訳日:2021-05-16 21:02:31 公開日:2020-12-07
# ハイブリッドASRシステムにおける深部畳み込みニューラルネットワークのフレームレベル仕様化

Frame-level SpecAugment for Deep Convolutional Neural Networks in Hybrid ASR Systems ( http://arxiv.org/abs/2012.04094v1 )

ライセンス: Link先を確認
Xinwei Li, Yuanyuan Zhang, Xiaodan Zhuang, Daben Liu(参考訳) エンドツーエンドのASRシステムのためのデータ拡張手法であるSpecAugmentに着想を得て、ハイブリッドHMMベースのASRシステムのための深層畳み込みニューラルネットワーク(CNN)の性能を改善するためのフレームレベルSpecAugment法(f-SpecAugment)を提案する。 f-specaugmentは発話レベルの仕様と同様に、タイムワーピング、周波数マスキング、タイムマスキングの3つの変換を行う。 発話レベルで変換を適用する代わりに、f-specaugmentは各畳み込みウィンドウにそれらをトレーニング中に独立に適用する。 深層CNNに基づくハイブリッドモデルにおいて,f-SpecAugmentは発話レベルSpecAugmentよりも有効であることを示す。 最大25000時間トレーニングデータを用いて訓練した50層自己Nmalizing Deep CNN(SNDCNN)音響モデルに対するf-SpecAugmentの評価を行った。 We observed f-SpecAugment reduces WER by 0.5-4.5% relative across different ASR task for four languages。 強化技術の利点は,データサイズが大きくなるにつれて減少する傾向にあり,f-種別の有効性を理解する上で,大規模訓練が重要である。 実験では,25kのトレーニングデータでもf-specaugmentが有効であることを実証した。 また、f-SpecAugmentは深層CNNのトレーニングデータの量が2倍になるという利点も示しています。

Inspired by SpecAugment -- a data augmentation method for end-to-end ASR systems, we propose a frame-level SpecAugment method (f-SpecAugment) to improve the performance of deep convolutional neural networks (CNN) for hybrid HMM based ASR systems. Similar to the utterance level SpecAugment, f-SpecAugment performs three transformations: time warping, frequency masking, and time masking. Instead of applying the transformations at the utterance level, f-SpecAugment applies them to each convolution window independently during training. We demonstrate that f-SpecAugment is more effective than the utterance level SpecAugment for deep CNN based hybrid models. We evaluate the proposed f-SpecAugment on 50-layer Self-Normalizing Deep CNN (SNDCNN) acoustic models trained with up to 25000 hours of training data. We observe f-SpecAugment reduces WER by 0.5-4.5% relatively across different ASR tasks for four languages. As the benefits of augmentation techniques tend to diminish as training data size increases, the large scale training reported is important in understanding the effectiveness of f-SpecAugment. Our experiments demonstrate that even with 25k training data, f-SpecAugment is still effective. We also demonstrate that f-SpecAugment has benefits approximately equivalent to doubling the amount of training data for deep CNNs.
翻訳日:2021-05-16 21:02:19 公開日:2020-12-07
# 混合会員コミュニティ検出のための混合SCORE+

Mixed-SCORE+ for mixed membership community detection ( http://arxiv.org/abs/2012.03725v1 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) Mixed-SCOREは、Jinらによって提案された混合会員コミュニティ検出のための最近のアプローチである。 (2017)はSCOREの拡張(Jin, 2015)である。 注記はJin et al。 (2018) 著者らは SCORE+ を SCORE の改良として提案した。 本論文では,Mixed-SCOREとSCORE+をベースとして設計したMixed-SCORE+を提案する。 提案手法では,弱い信号ネットワークを検出するKコミュニティが存在する場合,K+1固有ベクトルを考える。 また,混合メンバシップコミュニティ検出の問題を解決するために,頂点狩りとメンバーリコンストラクションのステップも構築する。 いくつかのベンチマーク手法と比較すると、Mixed-SCORE+はPolblogsネットワークとSimmonsとCaltechでそれぞれ54/1222、125/1137、94/590のエラー率で大幅に改善されている。 さらに、Mixed-SCORE+はSNAPのego-networksで優れたパフォーマンスを享受している。

Mixed-SCORE is a recent approach for mixed membership community detection proposed by Jin et al. (2017) which is an extension of SCORE (Jin, 2015). In the note Jin et al. (2018), the authors propose SCORE+ as an improvement of SCORE to handle with weak signal networks. In this paper, we propose a method called Mixed-SCORE+ designed based on the Mixed-SCORE and SCORE+, therefore Mixed-SCORE+ inherits nice properties of both Mixed-SCORE and SCORE+. In the proposed method, we consider K+1 eigenvectors when there are K communities to detect weak signal networks. And we also construct vertices hunting and membership reconstruction steps to solve the problem of mixed membership community detection. Compared with several benchmark methods, numerical results show that Mixed-SCORE+ provides a significant improvement on the Polblogs network and two weak signal networks Simmons and Caltech, with error rates 54/1222, 125/1137 and 94/590, respectively. Furthermore, Mixed-SCORE+ enjoys excellent performances on the SNAP ego-networks.
翻訳日:2021-05-16 21:01:59 公開日:2020-12-07
# webブラウジングアクセシビリティに認知的拡張をもたらす

Bringing Cognitive Augmentation to Web Browsing Accessibility ( http://arxiv.org/abs/2012.03743v1 )

ライセンス: Link先を確認
Alessandro Pina, Marcos Baez, Florian Daniel(参考訳) 本稿では、より自然でアクセス可能なwebブラウジング体験を提供するための認知的拡張によってもたらされる機会について考察する。 視覚障害者(bvip)と一般ユーザーが会話エージェントを通じてwebサイトの内容や機能にアクセスできるようにする、webのための新たなインタラクションパラダイムである \textit{conversational web browsing} を通じて、これらの機会を探る。 本稿では,BVIPの対話型Webブラウジングニーズをサポートするための概念的枠組みを考案し,このサポートを自動で提供する上での課題に注目し,構造的・コンテンツ的特徴のみを考慮したヒューリスティックスを活用した初期の作業とプロトタイプについて述べる。

In this paper we explore the opportunities brought by cognitive augmentation to provide a more natural and accessible web browsing experience. We explore these opportunities through \textit{conversational web browsing}, an emerging interaction paradigm for the Web that enables blind and visually impaired users (BVIP), as well as regular users, to access the contents and features of websites through conversational agents. Informed by the literature, our previous work and prototyping exercises, we derive a conceptual framework for supporting BVIP conversational web browsing needs, to then focus on the challenges of automatically providing this support, describing our early work and prototype that leverage heuristics that consider structural and content features only.
翻訳日:2021-05-16 21:01:40 公開日:2020-12-07
# dippas:prnuの匿名化計画の深部画像

DIPPAS: A Deep Image Prior PRNU Anonymization Scheme ( http://arxiv.org/abs/2012.03581v1 )

ライセンス: Link先を確認
Francesco Picetti, Sara Mandelli, Paolo Bestagini, Vincenzo Lipari and Stefano Tubaro(参考訳) ソースデバイス識別は、画像の原点を追跡することができるため、画像検査において重要なトピックである。 鑑識のカウンターパートは、ソースデバイス匿名化(source device anonymization)、すなわち、ソースデバイスを特定するのに有用な画像の痕跡を隠ぺいする。 ソースデバイス識別に利用される典型的なトレースは、取得した画像上にデバイスが残したノイズパターンである写真応答不均一(PRNU)である。 本稿では,自然画像からのそのような痕跡を抑制する手法を,画質に大きな影響を与えずに考案する。 具体的には、PRNU匿名化をDeep Image Prior(DIP)フレームワークの最適化問題に変換する。 簡単に言うと、畳み込みニューラルネットワーク(convolutional neural network, cnn)がジェネレータとして動作し、ソースprnuに対して匿名化されたイメージを返す。 広く採用されているディープラーニングパラダイムに関して、提案するcnnは、入力対象のイメージペアのトレーニングを受けていない。 代わりに、原画像からPRNUを含まない画像を解析自体から再構成するように最適化されている。 この手法は、大規模な異種データベースを解析し、一般化の欠如による問題を回避するシナリオに特に適している。 公開データセットの数値例を通じて,最先端技術と比較し,提案手法の有効性を実証する。

Source device identification is an important topic in image forensics since it allows to trace back the origin of an image. Its forensics counter-part is source device anonymization, that is, to mask any trace on the image that can be useful for identifying the source device. A typical trace exploited for source device identification is the Photo Response Non-Uniformity (PRNU), a noise pattern left by the device on the acquired images. In this paper, we devise a methodology for suppressing such a trace from natural images without significant impact on image quality. Specifically, we turn PRNU anonymization into an optimization problem in a Deep Image Prior (DIP) framework. In a nutshell, a Convolutional Neural Network (CNN) acts as generator and returns an image that is anonymized with respect to the source PRNU, still maintaining high visual quality. With respect to widely-adopted deep learning paradigms, our proposed CNN is not trained on a set of input-target pairs of images. Instead, it is optimized to reconstruct the PRNU-free image from the original image under analysis itself. This makes the approach particularly suitable in scenarios where large heterogeneous databases are analyzed and prevents any problem due to lack of generalization. Through numerical examples on publicly available datasets, we prove our methodology to be effective compared to state-of-the-art techniques.
翻訳日:2021-05-16 21:00:49 公開日:2020-12-07
# 自己監督が弱体化と強体化のギャップを埋める-歴史学

Self-Supervision Closes the Gap Between Weak and Strong Supervision in Histology ( http://arxiv.org/abs/2012.03583v1 )

ライセンス: Link先を確認
Olivier Dehaene, Axel Camara, Olivier Moindrot, Axel de Lavergne, Pierre Courtiol(参考訳) 機械学習を病理学に適用する上で最大の課題のひとつは、監督の弱さだ。 したがって、最先端技術は、ドメインの専門家による追加のローカルアノテーションを使用した、強力な教師付きモデルトレーニングに依存している。 しかし、詳細なアノテーションがないため、最も弱い教師付きアプローチはImageNetで事前訓練された凍結した特徴抽出器に依存する。 本稿では,近年の自己教師付き学習アルゴリズムであるmoco v2を用いて,組織像に対してドメイン内特徴抽出器を訓練することを提案する。 Camelyon16 と TCGA の実験結果から,提案した抽出器は ImageNet よりも大幅に優れていた。 特に,本研究では,カメリヨン16の弱監督状態が91.4%から98.7%に向上し,99.3%のaucに達する強監督モデルとのギャップを解消した。 これらの実験を通じて,自己教師付き学習によって訓練された特徴抽出器が,組織学における既存の機械学習技術を大幅に改善するためのドロップイン代替として機能することを示す。 最後に, 組織構造の生物学的に有意な分離が認められた。

One of the biggest challenges for applying machine learning to histopathology is weak supervision: whole-slide images have billions of pixels yet often only one global label. The state of the art therefore relies on strongly-supervised model training using additional local annotations from domain experts. However, in the absence of detailed annotations, most weakly-supervised approaches depend on a frozen feature extractor pre-trained on ImageNet. We identify this as a key weakness and propose to train an in-domain feature extractor on histology images using MoCo v2, a recent self-supervised learning algorithm. Experimental results on Camelyon16 and TCGA show that the proposed extractor greatly outperforms its ImageNet counterpart. In particular, our results improve the weakly-supervised state of the art on Camelyon16 from 91.4% to 98.7% AUC, thereby closing the gap with strongly-supervised models that reach 99.3% AUC. Through these experiments, we demonstrate that feature extractors trained via self-supervised learning can act as drop-in replacements to significantly improve existing machine learning techniques in histology. Lastly, we show that the learned embedding space exhibits biologically meaningful separation of tissue structures.
翻訳日:2021-05-16 21:00:27 公開日:2020-12-07
# 効率的なカーネルベースマッチングフィルタによる網膜血管の分節化

Efficient Kernel based Matched Filter Approach for Segmentation of Retinal Blood Vessels ( http://arxiv.org/abs/2012.03601v1 )

ライセンス: Link先を確認
Sushil Kumar Saroj, Vikas Ratna, Rakesh Kumar, Nagendra Pratap Singh(参考訳) 網膜血管構造は肥満、糖尿病、高血圧、緑内障などの疾患に関する情報を含んでいる。 この情報は、これらの致命的な病気の特定と治療に非常に有用である。 この情報を得るためには、これらの網膜血管を分節する必要がある。 網膜血管のセグメンテーションに多くのカーネルベースの手法が与えられたが、そのカーネルは血管プロファイルに適さないため、性能は低下した。 これを解決するために、カーネルベースのマッチングフィルタ手法が提案されている。 新しい一致フィルタは、一致フィルタ応答(mfr)画像を生成するために使用される。 得られたMFR画像に大津しきい値法を適用し, 血管抽出を行った。 提案するマッチングフィルタカーネルのパラメータの最適値を選択するための広範囲な実験を行った。 提案手法は2つのオンラインドライブとstareデータセットで検証と検証を行っている。 提案手法は98.50%,98.23%,精度95.77%,ドライブとスターデータセットそれぞれ95.13%の特異性を有する。 得られた結果は,提案手法が他の方法よりも優れた性能を示した。 パフォーマンス向上の理由は、網膜血管のプロファイルをより正確にマッチする適切なカーネルが提案されているためである。

Retinal blood vessels structure contains information about diseases like obesity, diabetes, hypertension and glaucoma. This information is very useful in identification and treatment of these fatal diseases. To obtain this information, there is need to segment these retinal vessels. Many kernel based methods have been given for segmentation of retinal vessels but their kernels are not appropriate to vessel profile cause poor performance. To overcome this, a new and efficient kernel based matched filter approach has been proposed. The new matched filter is used to generate the matched filter response (MFR) image. We have applied Otsu thresholding method on obtained MFR image to extract the vessels. We have conducted extensive experiments to choose best value of parameters for the proposed matched filter kernel. The proposed approach has examined and validated on two online available DRIVE and STARE datasets. The proposed approach has specificity 98.50%, 98.23% and accuracy 95.77 %, 95.13% for DRIVE and STARE dataset respectively. Obtained results confirm that the proposed method has better performance than others. The reason behind increased performance is due to appropriate proposed kernel which matches retinal blood vessel profile more accurately.
翻訳日:2021-05-16 21:00:08 公開日:2020-12-07
# Noise2Kernel: 拡張畳み込みカーネルアーキテクチャを用いた適応的自己監督型ブラインドデノイング

Noise2Kernel: Adaptive Self-Supervised Blind Denoising using a Dilated Convolutional Kernel Architecture ( http://arxiv.org/abs/2012.03623v1 )

ライセンス: Link先を確認
Kanggeun Lee and Won-Ki Jeong(参考訳) 近年,教師なし学習の進展に伴い,ノイズやクリーンな画像のペアを伴わないディープ・ネットワークの効率的な学習が可能になった。 しかし, 信号独立条件下でのゼロ平均雑音を仮定して, 教師なしの復調法がほとんどである。 この仮定は、塩・ペッパーノイズのような極端なノイズによって著しく劣化する画像の明るさシフト問題に盲目発声技術が苦しむ原因となる。 さらに、ほとんどのブラインド・デノジング法では、デノジングプロセスのばらつきを確実にするためにトレーニングのためのランダム・マスキング・スキームが必要となる。 本稿では,不変性を満たす拡張畳み込みネットワークを提案する。 また,ゼロ平均制約の要件を回避するために適応的な自己超越損失を提案する。これは,ノイズ統計の事前知識が得られないような,塩とペッパーまたはハイブリッドノイズの除去に特に有効である。 提案手法は, 様々な例を用いて, 最先端のデノイジング法と比較し, 有効性を示す。

With the advent of recent advances in unsupervised learning, efficient training of a deep network for image denoising without pairs of noisy and clean images has become feasible. However, most current unsupervised denoising methods are built on the assumption of zero-mean noise under the signal-independent condition. This assumption causes blind denoising techniques to suffer brightness shifting problems on images that are greatly corrupted by extreme noise such as salt-and-pepper noise. Moreover, most blind denoising methods require a random masking scheme for training to ensure the invariance of the denoising process. In this paper, we propose a dilated convolutional network that satisfies an invariant property, allowing efficient kernel-based training without random masking. We also propose an adaptive self-supervision loss to circumvent the requirement of zero-mean constraint, which is specifically effective in removing salt-and-pepper or hybrid noise where a prior knowledge of noise statistics is not readily available. We demonstrate the efficacy of the proposed method by comparing it with state-of-the-art denoising methods using various examples.
翻訳日:2021-05-16 20:59:53 公開日:2020-12-07
# NeRV:リライティングとビュー合成のためのニューラルリフレクタンスと可視界

NeRV: Neural Reflectance and Visibility Fields for Relighting and View Synthesis ( http://arxiv.org/abs/2012.03927v1 )

ライセンス: Link先を確認
Pratul P. Srinivasan and Boyang Deng and Xiuming Zhang and Matthew Tancik and Ben Mildenhall and Jonathan T. Barron(参考訳) 本稿では、制約のない未知の照明で照らされたシーンの画像の集合を入力として取り、任意の照明条件下で新しい視点から描画可能な3D表現を出力する手法を提案する。 本手法は,入力が3次元位置であり,出力が入力位置の次のシーン特性であるmlpとしてパラメータ化された連続ボリューム関数として,任意の方向における体積密度,表面正規値,材料パラメータ,第1面交差点までの距離,任意の方向における外部環境の可視性を表す。 これらを組み合わせることで、間接照明効果を含む任意の照明下でオブジェクトの新たなビューを描画することができる。 予測された視界と表面の交叉場は、トレーニング中に直接的および間接的な照明をシミュレートするモデルの能力にとって重要である。 提案手法は,再現可能な3dシーン表現を復元するための代替手法よりも優れており,先行作業において大きな課題となった複雑な照明環境では良好に機能する。

We present a method that takes as input a set of images of a scene illuminated by unconstrained known lighting, and produces as output a 3D representation that can be rendered from novel viewpoints under arbitrary lighting conditions. Our method represents the scene as a continuous volumetric function parameterized as MLPs whose inputs are a 3D location and whose outputs are the following scene properties at that input location: volume density, surface normal, material parameters, distance to the first surface intersection in any direction, and visibility of the external environment in any direction. Together, these allow us to render novel views of the object under arbitrary lighting, including indirect illumination effects. The predicted visibility and surface intersection fields are critical to our model's ability to simulate direct and indirect illumination during training, because the brute-force techniques used by prior work are intractable for lighting conditions outside of controlled setups with a single light. Our method outperforms alternative approaches for recovering relightable 3D scene representations, and performs well in complex lighting settings that have posed a significant challenge to prior work.
翻訳日:2021-05-16 20:59:36 公開日:2020-12-07
# 機械学習算術曲線

Machine-Learning Arithmetic Curves ( http://arxiv.org/abs/2012.04084v1 )

ライセンス: Link先を確認
Yang-Hui He, Kyu-Hwan Lee, Thomas Oliver(参考訳) 標準機械学習アルゴリズムは、低種数算術曲線のある種の不変量を予測するように訓練することができる。 約10万のサイズのデータセットを用いて、楕円曲線のBSD不変量(階数とねじれ部分群を含む)と属2曲線の類似不変量に関連する分類問題における機械学習の有用性を実証する。 その結果、訓練された機械は、これらの不変量に応じて曲線を高い精度で分類できる(>0.97)。 ねじれ順序の区別や積分点の認識といった問題に対して、精度は0.998に達する。

We show that standard machine-learning algorithms may be trained to predict certain invariants of low genus arithmetic curves. Using datasets of size around one hundred thousand, we demonstrate the utility of machine-learning in classification problems pertaining to the BSD invariants of an elliptic curve (including its rank and torsion subgroup), and the analogous invariants of a genus 2 curve. Our results show that a trained machine can efficiently classify curves according to these invariants with high accuracies (>0.97). For problems such as distinguishing between torsion orders, and the recognition of integral points, the accuracies can reach 0.998.
翻訳日:2021-05-16 20:56:03 公開日:2020-12-07
# 分類モデルに対するブラックボックスモデル反転属性推論攻撃

Black-box Model Inversion Attribute Inference Attacks on Classification Models ( http://arxiv.org/abs/2012.03404v1 )

ライセンス: Link先を確認
Shagufta Mehnaz, Ninghui Li, Elisa Bertino(参考訳) 医療診断、ライフスタイル予測、ビジネス上の決定など、プライバシに敏感なドメインにおけるMLテクノロジの利用の増加は、これらのMLテクノロジが機密でプロプライエタリなトレーニングデータの漏洩を導入しているかどうかをよりよく理解する必要性を強調している。 本稿では,対象とする分類モデルへのoracleアクセスを用いて,学習データ中のインスタンスに対する非敏感な属性を敵が知っており,敵に未知の機密属性の値を推測することを目的とした,モデル反転攻撃の一手法に焦点を当てる。 我々は、信頼モデリングに基づく攻撃と信頼スコアに基づく攻撃という、2つの新しいモデル逆属性推論攻撃を考案し、また、他の(非感受性)属性が敵に未知な場合まで攻撃を拡張した。 さらに,従来の研究では,属性推定攻撃の有効性を評価する指標として精度を用いたが,感度特性分布が不均衡な場合,精度は報知されないことがわかった。 属性推論攻撃の評価に優れた指標であるg-meanとmatthews correlation coefficient(mcc)の2つを同定した。 2つの実際のデータセットでトレーニングされた決定木とディープニューラルネットワークの2種類の機械学習モデルに対する攻撃を評価した。 実験の結果,新たに提案する攻撃は最先端の攻撃を大きく上回ることがわかった。 さらに、トレーニングデータセットの特定のグループ(例えば、性別、人種など)が、逆攻撃のモデルに対してより脆弱であることを実証的に示す。 また、他の(非感受性の)属性も敵に知られていない場合、攻撃のパフォーマンスに大きな影響を与えないことを示す。

Increasing use of ML technologies in privacy-sensitive domains such as medical diagnoses, lifestyle predictions, and business decisions highlights the need to better understand if these ML technologies are introducing leakages of sensitive and proprietary training data. In this paper, we focus on one kind of model inversion attacks, where the adversary knows non-sensitive attributes about instances in the training data and aims to infer the value of a sensitive attribute unknown to the adversary, using oracle access to the target classification model. We devise two novel model inversion attribute inference attacks -- confidence modeling-based attack and confidence score-based attack, and also extend our attack to the case where some of the other (non-sensitive) attributes are unknown to the adversary. Furthermore, while previous work uses accuracy as the metric to evaluate the effectiveness of attribute inference attacks, we find that accuracy is not informative when the sensitive attribute distribution is unbalanced. We identify two metrics that are better for evaluating attribute inference attacks, namely G-mean and Matthews correlation coefficient (MCC). We evaluate our attacks on two types of machine learning models, decision tree and deep neural network, trained with two real datasets. Experimental results show that our newly proposed attacks significantly outperform the state-of-the-art attacks. Moreover, we empirically show that specific groups in the training dataset (grouped by attributes, e.g., gender, race) could be more vulnerable to model inversion attacks. We also demonstrate that our attacks' performances are not impacted significantly when some of the other (non-sensitive) attributes are also unknown to the adversary.
翻訳日:2021-05-16 20:55:51 公開日:2020-12-07
# 転倒検知用低分解能加速度計の深層学習に基づく信号強調

Deep Learning Based Signal Enhancement of Low-Resolution Accelerometer for Fall Detection Systems ( http://arxiv.org/abs/2012.03426v1 )

ライセンス: Link先を確認
Kai-Chun Liu, Kuo-Hsuan Hung, Chia-Yeh Hsieh, Hsiang-Yun Huang, Chia-Tai Chan and Yu Tsao(参考訳) 過去20年間、フォール検出(FD)システムは一般的な補助技術として開発されてきた。 このようなシステムは、重要な転倒イベントを自動的に検出し、直ちに医療専門家や介護者に警告する。 長期FDサービスを支援するため、様々な省電力戦略が実施されている。 その中でも、サンプリングレートの低減は、実世界のエネルギー効率の高いシステムに共通するアプローチである。 しかし、低分解能(LR)加速度センサ信号により、FDシステムの性能は低下する。 lr加速度計信号による検出精度を向上させるためには,不一致,有効特徴のミスマッチ,劣化効果など,いくつかの技術的課題を考慮する必要がある。 本研究では, LR-FDシステムの検出性能を向上させるために, 深層学習に基づくAccelerometer signal enhancement (ASE)モデルを提案する。 提案モデルは、LR信号とHR信号の関係を学習することにより、LR信号から高分解能(HR)信号を再構成する。 その結果、サポートベクターマシンを用いたfdシステムと、極めて低いサンプリング率(サンプリングレート<2hz)で提案されたaseモデルは、それぞれ97.34%、sisfallとfallalldデータセットでは90.52%、sisfallとfallalldデータセットでは、aseモデルがないものは95.92%、87.47%であった。 本研究では、ASEモデルがLR信号の技術的課題に対処し、より優れた検出性能を実現するのに役立つことを示す。

In the last two decades, fall detection (FD) systems have been developed as a popular assistive technology. Such systems automatically detect critical fall events and immediately alert medical professionals or caregivers. To support long-term FD services, various power-saving strategies have been implemented. Among them, a reduced sampling rate is a common approach for an energy-efficient system in the real-world. However, the performance of FD systems is diminished owing to low-resolution (LR) accelerometer signals. To improve the detection accuracy with LR accelerometer signals, several technical challenges must be considered, including misalignment, mismatch of effective features, and the degradation effects. In this work, a deep-learning-based accelerometer signal enhancement (ASE) model is proposed to improve the detection performance of LR-FD systems. This proposed model reconstructs high-resolution (HR) signals from the LR signals by learning the relationship between the LR and HR signals. The results show that the FD system using support vector machine and the proposed ASE model at an extremely low sampling rate (sampling rate < 2 Hz) achieved 97.34% and 90.52% accuracies in the SisFall and FallAllD datasets, respectively, while those without ASE models only achieved 95.92% and 87.47% accuracies in the SisFall and FallAllD datasets, respectively. This study demonstrates that the ASE model helps the FD systems tackle the technical challenges of LR signals and achieve better detection performance.
翻訳日:2021-05-16 20:55:25 公開日:2020-12-07
# 物理を知らない:産業用制御システムにおけるプロセスベースモデルフリー異常検出のレジリエンス

No Need to Know Physics: Resilience of Process-based Model-free Anomaly Detection for Industrial Control Systems ( http://arxiv.org/abs/2012.03586v1 )

ライセンス: Link先を確認
Alessandro Erba, Nils Ole Tippenhauer(参考訳) 近年,産業用制御システムのプロセスに基づく異常検出手法が多数提案されている。 本研究では,このようなスキームを初めて体系的に解析し,それらの検出システムによって検証された特性の分類を導入する。 次に,システムの物理的特性に反する逆スプーフ信号を生成するための新しい一般的なフレームワークを提案し,このフレームワークを用いて,トップセキュリティカンファレンスで公開された4つの異常検出を解析する。 これらの検出器のうち3つは、私たちが合成センサースプーフィングと呼ぶ多くの敵の操作(例えば、事前計算されたパターンによるスプーフィング)に影響を受けやすく、1つは攻撃に対して弾力性がある。 レジリエンスの根源を調査し,それが導入した特性に由来することを実証する。 我々の攻撃は攻撃されたスキームのリコール(True Positive Rate)を減らし、異常を正しく検出することができない。 したがって、異常検知器で発見された脆弱性は(元の優れた検出性能にもかかわらず)システムの物理的特性を確実に学習できないことを示している。 以前の作業が(認証されたプロパティに基づく)レジリエントであることが期待される攻撃でさえも成功した。 我々の研究結果は、データセットにおけるより完全な攻撃の必要性と、プロセスベースの異常検知器のより批判的な分析の両方を示している。 フレームワークが生成した一連のSynthetic Sensor Spoofing攻撃による2つの公開データセットの拡張とともに、オープンソースとして実装をリリースする予定です。

In recent years, a number of process-based anomaly detection schemes for Industrial Control Systems were proposed. In this work, we provide the first systematic analysis of such schemes, and introduce a taxonomy of properties that are verified by those detection systems. We then present a novel general framework to generate adversarial spoofing signals that violate physical properties of the system, and use the framework to analyze four anomaly detectors published at top security conferences. We find that three of those detectors are susceptible to a number of adversarial manipulations (e.g., spoofing with precomputed patterns), which we call Synthetic Sensor Spoofing and one is resilient against our attacks. We investigate the root of its resilience and demonstrate that it comes from the properties that we introduced. Our attacks reduce the Recall (True Positive Rate) of the attacked schemes making them not able to correctly detect anomalies. Thus, the vulnerabilities we discovered in the anomaly detectors show that (despite an original good detection performance), those detectors are not able to reliably learn physical properties of the system. Even attacks that prior work was expected to be resilient against (based on verified properties) were found to be successful. We argue that our findings demonstrate the need for both more complete attacks in datasets, and more critical analysis of process-based anomaly detectors. We plan to release our implementation as open-source, together with an extension of two public datasets with a set of Synthetic Sensor Spoofing attacks as generated by our framework.
翻訳日:2021-05-16 20:54:59 公開日:2020-12-07
# 一般化パーセプトロン学習

Generalised Perceptron Learning ( http://arxiv.org/abs/2012.03642v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Martin Benning(参考訳) ローゼンブラットの従来のパーセプトロン学習アルゴリズムを近位活性化関数のクラスに一般化し、この一般化を新しいエネルギー関数に適用した漸進勾配法として解釈する方法を実証する。 この新しいエネルギー関数は一般化されたブレグマン距離に基づいており、重みやバイアスに対する勾配は活性化関数の微分を必要としない。 エネルギー最小化アルゴリズムとしての解釈は、スパースパーセプトロンの学習のための反復型ソフトスレッディングアルゴリズムの新しい変種を探索する多くの新しいアルゴリズムの道を開く。

We present a generalisation of Rosenblatt's traditional perceptron learning algorithm to the class of proximal activation functions and demonstrate how this generalisation can be interpreted as an incremental gradient method applied to a novel energy function. This novel energy function is based on a generalised Bregman distance, for which the gradient with respect to the weights and biases does not require the differentiation of the activation function. The interpretation as an energy minimisation algorithm paves the way for many new algorithms, of which we explore a novel variant of the iterative soft-thresholding algorithm for the learning of sparse perceptrons.
翻訳日:2021-05-16 20:54:34 公開日:2020-12-07
# covidscholar:covid-19研究の集約と分析の自動化プラットフォーム

COVIDScholar: An automated COVID-19 research aggregation and analysis platform ( http://arxiv.org/abs/2012.03891v1 )

ライセンス: Link先を確認
Amalie Trewartha, John Dagdelen, Haoyan Huo, Kevin Cruse, Zheren Wang, Tanjin He, Akshay Subramanian, Yuxing Fei, Benjamin Justus, Kristin Persson, Gerbrand Ceder(参考訳) 新型コロナウイルス(covid-19)のパンデミックは社会全体に広がり、科学も例外ではない。 新型コロナウイルス(covid-19)への対応の規模、速さ、広さは、目覚ましい規模で新たな研究文献の出現に繋がる。2020年10月現在、covid-19関連科学論文8万1000点以上が1日250点以上で公表されている。 これは、従来の研究文献との関わりの方法に対する挑戦を生み出した;新しい研究のボリュームは、人間が読む能力を超えたものであり、応答の緊急性は、プレプリントサーバーにおいてますます顕著な役割と、ソース間で関連する研究の拡散をもたらしている。 これらの要因は、科学文献の普及方法を変える新しいツールの必要性を生み出した。 COVIDScholarは、新型コロナウイルス研究コミュニティのユニークなニーズを念頭に設計された知識ポータルであり、NLPを利用して、何千もの創発的な研究論文、特許、臨床試験に広がる情報を、アクション可能な洞察と新しい知識に合成するのに役立つ。 このコーパスの検索インターフェイス https://covidscholar.org は現在、2000以上のユニークユーザーを毎週提供している。 また、2020年におけるcovid-19研究の動向について分析する。

The ongoing COVID-19 pandemic has had far-reaching effects throughout society, and science is no exception. The scale, speed, and breadth of the scientific community's COVID-19 response has lead to the emergence of new research literature on a remarkable scale -- as of October 2020, over 81,000 COVID-19 related scientific papers have been released, at a rate of over 250 per day. This has created a challenge to traditional methods of engagement with the research literature; the volume of new research is far beyond the ability of any human to read, and the urgency of response has lead to an increasingly prominent role for pre-print servers and a diffusion of relevant research across sources. These factors have created a need for new tools to change the way scientific literature is disseminated. COVIDScholar is a knowledge portal designed with the unique needs of the COVID-19 research community in mind, utilizing NLP to aid researchers in synthesizing the information spread across thousands of emergent research articles, patents, and clinical trials into actionable insights and new knowledge. The search interface for this corpus, https://covidscholar.org, now serves over 2000 unique users weekly. We present also an analysis of trends in COVID-19 research over the course of 2020.
翻訳日:2021-05-16 20:54:24 公開日:2020-12-07
# 近似差分プライバシーを用いたサンプル効率の適切なPAC学習

Sample-efficient proper PAC learning with approximate differential privacy ( http://arxiv.org/abs/2012.03893v1 )

ライセンス: Link先を確認
Badih Ghazi, Noah Golowich, Ravi Kumar, Pasin Manurangsi(参考訳) 本稿では,Littlestone 次元のクラス $d$ を近似微分プライバシーで適切に学習する際のサンプルの複雑さが$\tilde O(d^6)$であり,プライバシと精度のパラメータを無視していることを示す。 この結果はbun et alの疑問に答える。 (FOCS 2020) は, 試料の複雑さに対して 2^{O(d)}$ の上限を改良した。 我々の研究以前には、有限のリトルストーン次元のクラスをプライベートに学習するサンプルの複雑さの有限性は、不適切な個人学習者にのみ知られており、我々の学習者が適切なものであるという事実は、Bousquetらからも質問されたBun et al.の別の疑問に答えている。 (2020年)。 Bousquetらが開発した機械を用いて、二項仮説クラスを衛生化する際のサンプルの複雑さは、そのリトルストーン次元と双対リトルストーン次元のほとんどの多項式であることを示す。 これは、あるクラスがサニタブルであることと、それが有限小石次元を持つことが同値であることを意味する。 我々の証明の重要な要素は、非還元可能性(irreducibility)と呼ばれる二項仮説クラスの新しい性質である。

In this paper we prove that the sample complexity of properly learning a class of Littlestone dimension $d$ with approximate differential privacy is $\tilde O(d^6)$, ignoring privacy and accuracy parameters. This result answers a question of Bun et al. (FOCS 2020) by improving upon their upper bound of $2^{O(d)}$ on the sample complexity. Prior to our work, finiteness of the sample complexity for privately learning a class of finite Littlestone dimension was only known for improper private learners, and the fact that our learner is proper answers another question of Bun et al., which was also asked by Bousquet et al. (NeurIPS 2020). Using machinery developed by Bousquet et al., we then show that the sample complexity of sanitizing a binary hypothesis class is at most polynomial in its Littlestone dimension and dual Littlestone dimension. This implies that a class is sanitizable if and only if it has finite Littlestone dimension. An important ingredient of our proofs is a new property of binary hypothesis classes that we call irreducibility, which may be of independent interest.
翻訳日:2021-05-16 20:54:01 公開日:2020-12-07
# ディープリニアニューラルネットワークの統計力学:バック伝播再正規化群

Statistical Mechanics of Deep Linear Neural Networks: The Back-Propagating Renormalization Group ( http://arxiv.org/abs/2012.04030v1 )

ライセンス: Link先を確認
Qianyi Li, Haim Sompolinsky(参考訳) 多くの現実世界のタスクにおけるディープラーニングの成功は、トレーニングと複雑なタスクの一般化におけるディープラーニングの能力と限界を理論的に理解する試みのきっかけとなった。 本研究では,個々の単位の入力出力関数が線形である深層線形ニューラルネットワーク(DLNN)における学習の統計力学について検討する。 ユニットの線形性にもかかわらず、DLNNでの学習は非常に非線形であるため、その特性の研究は非線形ディープニューラルネットワーク(DNN)の本質的な特徴を明らかにしている。 重み空間における平衡ギブス分布を用いて教師付き学習後のネットワーク特性を正確に解く。 これを実現するために,バックプロパゲーション再正規化グループ(bprg)を導入し,ネットワーク出力層からレイヤ単位のネットワーク重み付け層を段階的に統合し,後向きに進める。 本手法により、一般化誤差、ネットワーク幅と深さの役割、トレーニングセットのサイズの影響、および重み正規化と学習確率の影響などの重要なネットワーク特性を評価することができる。 さらに、BPRGは層の部分的な統合を行うことで、異なる隠された層にまたがる神経表現の創発的特性を計算することができる。 我々は,線形整列ユニット(ReLU)を持つ非線形DNNに対するBPRGのヒューリスティック拡張を提案した。 驚くべきことに、我々の数値シミュレーションは、非線形性にもかかわらず、我々の理論の予測は、かなり深いReLUネットワークによって、幅広いパラメータで共有されていることを示している。 我々の研究は、ディープニューラルネットワークの一群における学習の正確な統計力学的研究であり、これらのシステムの重み空間に対する再正規化グループアプローチの最初の開発である。

The success of deep learning in many real-world tasks has triggered an effort to theoretically understand the power and limitations of deep learning in training and generalization of complex tasks, so far with limited progress. In this work, we study the statistical mechanics of learning in Deep Linear Neural Networks (DLNNs) in which the input-output function of an individual unit is linear. Despite the linearity of the units, learning in DLNNs is highly nonlinear, hence studying its properties reveals some of the essential features of nonlinear Deep Neural Networks (DNNs). We solve exactly the network properties following supervised learning using an equilibrium Gibbs distribution in the weight space. To do this, we introduce the Back-Propagating Renormalization Group (BPRG) which allows for the incremental integration of the network weights layer by layer from the network output layer and progressing backward. This procedure allows us to evaluate important network properties such as its generalization error, the role of network width and depth, the impact of the size of the training set, and the effects of weight regularization and learning stochasticity. Furthermore, by performing partial integration of layers, BPRG allows us to compute the emergent properties of the neural representations across the different hidden layers. We have proposed a heuristic extension of the BPRG to nonlinear DNNs with rectified linear units (ReLU). Surprisingly, our numerical simulations reveal that despite the nonlinearity, the predictions of our theory are largely shared by ReLU networks with modest depth, in a wide regime of parameters. Our work is the first exact statistical mechanical study of learning in a family of Deep Neural Networks, and the first development of the Renormalization Group approach to the weight space of these systems.
翻訳日:2021-05-16 20:53:40 公開日:2020-12-07
# ローレンツ透過電子顕微鏡と微分可能プログラムによる高分解能機能イメージング

High resolution functional imaging through Lorentz transmission electron microscopy and differentiable programming ( http://arxiv.org/abs/2012.04037v1 )

ライセンス: Link先を確認
Tao Zhou, Mathew Cherukara and Charudatta Phatak(参考訳) ローレンツ透過電子顕微鏡(英語版)は、高空間分解能で材料の微細構造と機能特性を同時に撮像できるユニークな特性解析技術である。 磁化や電位などの定量的情報は、電子波の位相によって運ばれ、撮像中に失われる。 局所的な相互作用を理解し、構造-優位関係を発達させるためには、電子の位相シフトの解決を必要とする電子波の完全な波動関数を復元する必要がある(位相探索)。 本研究では, 位相探索の逆問題を解くための微分可能計画法を, 一連のデフォーカス顕微鏡画像を用いて開発した。 提案手法は強靭であり,同じ電子線量条件下で得られた位相の空間分解能および精度において, 広く用いられる「強度方程式の変換」よりも優れることを示す。 さらに,本手法は高度な機械学習アルゴリズムと同じ基本構造を持ち,電子顕微鏡における様々な位相検索に容易に適応できる。

Lorentz transmission electron microscopy is a unique characterization technique that enables the simultaneous imaging of both the microstructure and functional properties of materials at high spatial resolution. The quantitative information such as magnetization and electric potentials is carried by the phase of the electron wave, and is lost during imaging. In order to understand the local interactions and develop structure-property relationships, it is necessary to retrieve the complete wavefunction of the electron wave, which requires solving for the phase shift of the electrons (phase retrieval). Here we have developed a method based on differentiable programming to solve the inverse problem of phase retrieval, using a series of defocused microscope images. We show that our method is robust and can outperform widely used \textit{transport of intensity equation} in terms of spatial resolution and accuracy of the retrieved phase under same electron dose conditions. Furthermore, our method shares the same basic structure as advanced machine learning algorithms, and is easily adaptable to various other forms of phase retrieval in electron microscopy.
翻訳日:2021-05-16 20:53:09 公開日:2020-12-07
# 機械学習のトライブとコンピュータアーキテクチャの領域

The Tribes of Machine Learning and the Realm of Computer Architecture ( http://arxiv.org/abs/2012.04105v1 )

ライセンス: Link先を確認
Ayaz Akram and Jason Lowe-Power(参考訳) 機械学習技術は他の多くの分野と同様にコンピュータアーキテクチャの分野に影響を与えた。 本稿では,コンピュータアーキテクチャ問題に基本的機械学習技術を適用する方法について検討する。 また,異なる機械学習手法を用いたコンピュータアーキテクチャ研究の詳細な調査を行った。 最後に、コンピュータアーキテクチャにおける機械学習の潜在能力を最大限に活用するために克服する必要がある、将来的な機会と課題を紹介する。

Machine learning techniques have influenced the field of computer architecture like many other fields. This paper studies how the fundamental machine learning techniques can be applied towards computer architecture problems. We also provide a detailed survey of computer architecture research that employs different machine learning methods. Finally, we present some future opportunities and the outstanding challenges that need to be overcome to exploit full potential of machine learning for computer architecture.
翻訳日:2021-05-16 20:52:54 公開日:2020-12-07
# ハイブリッド機械学習による地上作物窒素含有量の検索

Retrieval of aboveground crop nitrogen content with a hybrid machine learning method ( http://arxiv.org/abs/2012.05043v1 )

ライセンス: Link先を確認
Katja Berger, Jochem Verrelst, Jean-Baptiste F\'eret, Tobias Hank, Matthias Wocher, Wolfram Mauser, Gustau Camps-Valls(参考訳) ハイパースペクトル取得は、植物の成長と農業生産の主要な制限栄養源である窒素(n)含量の推定に最も有益な地球観測データであることが証明されている。 過去には、この生化学植物成分に関する情報をキャノピー反射から得るために、経験的アルゴリズムが広く用いられてきた。 しかし、これらの手法は物理法則に基づく因果関係を求めるものではない。 さらに、ほとんどの研究はクロロフィル含有量と窒素の相関にのみ依存しており、ほとんどのNがタンパク質に結合しているという事実を無視した。 本研究は,機械学習回帰法を組み合わせた物理的手法を用いて,作物n量を推定するハイブリッド検索手法を提案する。 ワークフロー内では,新規に校正されたタンパク質の特異的吸収係数 (SAC) を含む葉の光学特性モデル ProSPECT-PRO とキャノピー反射率モデル 4SAIL と ProSAIL-PRO を結合した。 後者は、高度確率論的機械学習手法に使用されるトレーニングデータベースを生成するために使用される: 標準ホモスセダスティックガウス過程(GP)と、信号と雑音の関係を考慮に入れたヘテロスセダスティックGP回帰である。 両方のgpモデルは、見積もりに信頼区間を提供する特性を持ち、他の機械学習者とは区別される。 GPに基づく帯域分析により、主に短波長赤外スペクトル領域に位置する10個の帯域で最適なスペクトル設定が同定された。 文献でよく知られたタンパク質吸収バンドを用いた結果と比較検討した。 最後に, 非定常GPモデルを航空機搭載ハイパースペクトルデータに適用し, N マッピングを行った。 今後の画像分光データから地上Nのグローバルな農業モニタリングのために,GPアルゴリズム,特にヘテロセダスティックGPを実装すべきである,と結論付けた。

Hyperspectral acquisitions have proven to be the most informative Earth observation data source for the estimation of nitrogen (N) content, which is the main limiting nutrient for plant growth and thus agricultural production. In the past, empirical algorithms have been widely employed to retrieve information on this biochemical plant component from canopy reflectance. However, these approaches do not seek for a cause-effect relationship based on physical laws. Moreover, most studies solely relied on the correlation of chlorophyll content with nitrogen, and thus neglected the fact that most N is bound in proteins. Our study presents a hybrid retrieval method using a physically-based approach combined with machine learning regression to estimate crop N content. Within the workflow, the leaf optical properties model PROSPECT-PRO including the newly calibrated specific absorption coefficients (SAC) of proteins, was coupled with the canopy reflectance model 4SAIL to PROSAIL-PRO. The latter was then employed to generate a training database to be used for advanced probabilistic machine learning methods: a standard homoscedastic Gaussian process (GP) and a heteroscedastic GP regression that accounts for signal-to-noise relations. Both GP models have the property of providing confidence intervals for the estimates, which sets them apart from other machine learners. GP-based band analysis identified optimal spectral settings with ten bands mainly situated in the shortwave infrared (SWIR) spectral region. Use of well-known protein absorption bands from the literature showed comparative results. Finally, the heteroscedastic GP model was successfully applied on airborne hyperspectral data for N mapping. We conclude that GP algorithms, and in particular the heteroscedastic GP, should be implemented for global agricultural monitoring of aboveground N from future imaging spectroscopy data.
翻訳日:2021-05-16 20:50:05 公開日:2020-12-07
# リモートセンシングのための非線形分布回帰

Nonlinear Distribution Regression for Remote Sensing Applications ( http://arxiv.org/abs/2012.06377v1 )

ライセンス: Link先を確認
Jose E. Adsuara, Adri\'an P\'erez-Suay, Jordi Mu\~noz-Mar\'i, Anna Mateo-Sanchis, Maria Piles, Gustau Camps-Valls(参考訳) 多くのリモートセンシングアプリケーションでは、観測から変数やパラメータを推定したい。 対象変数がリモートセンシング観測と一致する解像度で利用できる場合、ニューラルネットワークやランダムフォレスト、ガウス過程といった標準的なアルゴリズムは、この2つを関連付けるために容易に利用できる。 しかし、ターゲット変数がグループレベルでのみ利用可能である場合、すなわち、しばしば発生する。 多数のリモートセンシングされた観測と関連している。 この問題は統計学や機械学習において「複数インスタンス学習」あるいは「分散回帰」として知られている。 本稿では, グループ化されたデータの統計を仮定することなく, 従来の問題を解く非線形(カーネルベース)な分散回帰法を提案する。 この定式化は、再生成核ヒルベルト空間における分布埋め込みを考慮し、経験的手段を用いて標準最小二乗回帰を行う。 異なる次元とサンプルサイズを持つマルチソースデータを扱う柔軟なバージョンも提示し、評価した。 これにより、各センサーのネイティブな空間分解能を処理でき、マッチング手順の必要性を回避できる。 このアプローチの計算コストが大きいことから,無作為なフーリエ機能を用いて,数百万の点とグループに対処する効率的なバージョンを導入する。

In many remote sensing applications one wants to estimate variables or parameters of interest from observations. When the target variable is available at a resolution that matches the remote sensing observations, standard algorithms such as neural networks, random forests or Gaussian processes are readily available to relate the two. However, we often encounter situations where the target variable is only available at the group level, i.e. collectively associated to a number of remotely sensed observations. This problem setting is known in statistics and machine learning as {\em multiple instance learning} or {\em distribution regression}. This paper introduces a nonlinear (kernel-based) method for distribution regression that solves the previous problems without making any assumption on the statistics of the grouped data. The presented formulation considers distribution embeddings in reproducing kernel Hilbert spaces, and performs standard least squares regression with the empirical means therein. A flexible version to deal with multisource data of different dimensionality and sample sizes is also presented and evaluated. It allows working with the native spatial resolution of each sensor, avoiding the need of match-up procedures. Noting the large computational cost of the approach, we introduce an efficient version via random Fourier features to cope with millions of points and groups.
翻訳日:2021-05-16 20:49:26 公開日:2020-12-07
# ゲーマーのプライベートネットワークの機械学習予測

Machine Learning Prediction of Gamer's Private Networks ( http://arxiv.org/abs/2012.06480v1 )

ライセンス: Link先を確認
Chris Mazur, Jesse Ayers, Gaetan Hains, and Youry Khmelevsky(参考訳) Gamer's Private Network (GPN) は、WTFastが開発したクライアント/サーバ技術で、オンラインゲームのネットワーク性能をより速く、より信頼性の高いものにする。 gpn sは、ミドルマイルサーバとプロプライエタリなアルゴリズムを使用して、オンラインビデオゲームプレーヤーを広域ネットワーク上のゲームのサーバに接続する。 オンラインゲームは巨大なエンターテイメント市場であり、ネットワーク遅延はプレイヤーの競争力の重要な側面である。 この市場は、ネットワークアーキテクチャに対する多くの異なるアプローチが、異なる競合企業によって実装され、それらのアーキテクチャが常に進化していることを意味する。 WTFastのクライアントと彼らがプレイしたいオンラインゲームとの間の最適な接続を確保することは、自動化するのが信じられないほど難しい問題です。 機械学習を用いて、GPN接続からの履歴ネットワークデータを解析し、最適化の鍵となるネットワーク遅延予測の可能性を探る。 次のステップは、gpn minecraftサーバとボットからライブデータ(クライアント/サーバのロード、パケットおよびポート情報および特定のゲーム状態情報を含む)を収集することです。 この情報を強化学習モデルに活用し、遅延に関する予測を行い、最適なネットワーク性能のためにクライアントとサーバの設定を変更する。 これらの調査と実験により,GPNシステムの品質と信頼性が向上する。

The Gamer's Private Network (GPN) is a client/server technology created by WTFast for making the network performance of online games faster and more reliable. GPN s use middle-mile servers and proprietary algorithms to better connect online video-game players to their game's servers across a wide-area network. Online games are a massive entertainment market and network latency is a key aspect of a player's competitive edge. This market means many different approaches to network architecture are implemented by different competing companies and that those architectures are constantly evolving. Ensuring the optimal connection between a client of WTFast and the online game they wish to play is thus an incredibly difficult problem to automate. Using machine learning, we analyzed historical network data from GPN connections to explore the feasibility of network latency prediction which is a key part of optimization. Our next step will be to collect live data (including client/server load, packet and port information and specific game state information) from GPN Minecraft servers and bots. We will use this information in a Reinforcement Learning model along with predictions about latency to alter the clients' and servers' configurations for optimal network performance. These investigations and experiments will improve the quality of service and reliability of GPN systems.
翻訳日:2021-05-16 20:49:06 公開日:2020-12-07
# multi-instrumentalist net:unsupervised generation of music from body movement

Multi-Instrumentalist Net: Unsupervised Generation of Music from Body Movements ( http://arxiv.org/abs/2012.03478v1 )

ライセンス: Link先を確認
Kun Su, Xiulong Liu, Eli Shlizerman(参考訳) 本研究では、楽器を演奏するミュージシャンの入力体の動きを取り入れ、教師なしの環境で音楽を生成する新しいシステムを提案する。 楽器をラベル付けせずにビデオから多声楽曲を生成する学習は難しい課題である。 トランスフォーメーションを実現するために、"multi-instrumentalistnet"(minet)というパイプラインを構築しました。 パイプラインは、マルチバンド残差ブロックを持つベクトル量子変分オートエンコーダ(VQ-VAE)を用いて、ログ・スペクトログラムから様々な楽器の離散潜在表現を学習する。 その後、パイプラインは、リカレントニューラルネットワークによって符号化されたミュージシャンのボディキーポイントの動きに、自己回帰的な事前条件でトレーニングされる。 前者の身体運動エンコーダとの共同訓練は、音楽の構成要素と楽器の特徴を示す潜在的な特徴に音楽が絡み合うことに成功している。 潜在空間は、新しい音楽が生成される異なる楽器にクラスタリングされた分布をもたらす。 さらに、VQ-VAEアーキテクチャは、追加の条件付き詳細な音楽生成をサポートする。 また,midiは,映像中の楽器が演奏する楽曲の正確な内容をパイプラインが生成するように,潜在空間をさらに条件付けることができることを示す。 13台の楽器のビデオを含む2つのデータセット上でmi netを評価し、適切な音質の生成された音楽を得るとともに、対応する楽器と容易に関連付けられ、音楽オーディオコンテンツと整合する。

We propose a novel system that takes as an input body movements of a musician playing a musical instrument and generates music in an unsupervised setting. Learning to generate multi-instrumental music from videos without labeling the instruments is a challenging problem. To achieve the transformation, we built a pipeline named 'Multi-instrumentalistNet' (MI Net). At its base, the pipeline learns a discrete latent representation of various instruments music from log-spectrogram using a Vector Quantized Variational Autoencoder (VQ-VAE) with multi-band residual blocks. The pipeline is then trained along with an autoregressive prior conditioned on the musician's body keypoints movements encoded by a recurrent neural network. Joint training of the prior with the body movements encoder succeeds in the disentanglement of the music into latent features indicating the musical components and the instrumental features. The latent space results in distributions that are clustered into distinct instruments from which new music can be generated. Furthermore, the VQ-VAE architecture supports detailed music generation with additional conditioning. We show that a Midi can further condition the latent space such that the pipeline will generate the exact content of the music being played by the instrument in the video. We evaluate MI Net on two datasets containing videos of 13 instruments and obtain generated music of reasonable audio quality, easily associated with the corresponding instrument, and consistent with the music audio content.
翻訳日:2021-05-16 20:48:33 公開日:2020-12-07
# ハイブリッド生物物理変数検索のための能動学習法

Active Learning Methods for Efficient Hybrid Biophysical Variable Retrieval ( http://arxiv.org/abs/2012.04468v1 )

ライセンス: Link先を確認
ochem Verrelst, Sara Dethier, Juan Pablo Rivera, Jordi Mu\~noz-Mar\'i, Gustau Camps-Valls, Jos\'e Moreno(参考訳) カーネルベースの機械学習回帰アルゴリズム(MLRA)は、生体物理変数検索方式に実装するための潜在的に強力な手法である。 しかし、大規模なトレーニングデータセットを扱うのに苦労している。 分析のために利用可能な光リモートセンシングデータの量の増加と、放射移動モデル(RTM)から大量のシミュレーションデータを用いてカーネルMLRAを訓練する可能性により、効率的なデータ削減技術が実装される必要がある。 アクティブラーニング(al)メソッドは、データセット内の最も有益なサンプルを選択することができる。 本稿では,管理可能なトレーニングデータセットを用いて生物物理学的変数推定を最適化するための6つのAL手法と,半自動使用のためのMatlabベースのMLRAツールボックスへの実装を紹介する。 AL法は, 葉面積指数とクロロフィル含量の推定精度を ProSAIL シミュレーションにより向上させる効果について分析した。 実装した各手法はランダムサンプリングを上回り,低サンプリング率で検索精度が向上した。 実際、AL手法は、高度なMLRAをRTM生成トレーニングデータで供給し、運用検索モデルを開発する機会を開放する。

Kernel-based machine learning regression algorithms (MLRAs) are potentially powerful methods for being implemented into operational biophysical variable retrieval schemes. However, they face difficulties in coping with large training datasets. With the increasing amount of optical remote sensing data made available for analysis and the possibility of using a large amount of simulated data from radiative transfer models (RTMs) to train kernel MLRAs, efficient data reduction techniques will need to be implemented. Active learning (AL) methods enable to select the most informative samples in a dataset. This letter introduces six AL methods for achieving optimized biophysical variable estimation with a manageable training dataset, and their implementation into a Matlab-based MLRA toolbox for semi-automatic use. The AL methods were analyzed on their efficiency of improving the estimation accuracy of leaf area index and chlorophyll content based on PROSAIL simulations. Each of the implemented methods outperformed random sampling, improving retrieval accuracy with lower sampling rates. Practically, AL methods open opportunities to feed advanced MLRAs with RTM-generated training data for development of operational retrieval models.
翻訳日:2021-05-16 20:47:52 公開日:2020-12-07
# 非線形相対正規化によるマルチ時間・マルチソースリモートセンシング画像分類

Multi-temporal and multi-source remote sensing image classification by nonlinear relative normalization ( http://arxiv.org/abs/2012.04469v1 )

ライセンス: Link先を確認
Devis Tuia, Diego Marcos, Gustau Camps-Valls(参考訳) 複数のセンサーを利用するリモートセンシング画像分類は非常に難しい問題であり、様々なモダリティのデータは、あらゆる種類のスペクトル歪みや誤配の影響を受けており、このハマーは、1つの画像が他のシーンでうまく使われるように構築されたモデルを再利用する。 画像取得にまたがるモデルの適用と転送のためには、異なる照明や大気条件下で、異なるセンサーによって取得され、少ない地上参照で、共登録されていないデータセットに対応できなければならない。 伝統的にヒストグラムマッチングに基づく手法が用いられている。 しかし、密度が非常に異なる場合や、画像間に対応するバンドが存在しない場合に失敗する。 代替案は \emph{manifold alignment} に基づいている。 多様体アライメントは、生成前にデータの多次元相対正規化を行い、異なる次元のデータに対応できる(例えば、)。 バンドの数が異なる) あるいはおそらく無傷の例です データ分散の調整は、変換されたデータのその後の使用にかかわらず、互いに類似したデータ空間を提供することができるため、魅力的な戦略である。 本稿では, 異なる領域からのデータを, {\emカーネル化を通じて非線形に整列させる手法について検討する。 本稿では,Kernel Manifold Alignment (KEMA)法を紹介し,フレキシブルかつ識別可能なプロジェクションマップを提供し,各領域のラベル付きサンプル(あるいはセマンティックな結びつき)のみを利用して,一般化固有値問題を解く。 我々は,超スペクトルイメージングのためのシャドウイングに不変なモデルを作成する作業に加えて,多時間的および多元的超高分解能分類タスクにおいてkemaのテストに成功した。

Remote sensing image classification exploiting multiple sensors is a very challenging problem: data from different modalities are affected by spectral distortions and mis-alignments of all kinds, and this hampers re-using models built for one image to be used successfully in other scenes. In order to adapt and transfer models across image acquisitions, one must be able to cope with datasets that are not co-registered, acquired under different illumination and atmospheric conditions, by different sensors, and with scarce ground references. Traditionally, methods based on histogram matching have been used. However, they fail when densities have very different shapes or when there is no corresponding band to be matched between the images. An alternative builds upon \emph{manifold alignment}. Manifold alignment performs a multidimensional relative normalization of the data prior to product generation that can cope with data of different dimensionality (e.g. different number of bands) and possibly unpaired examples. Aligning data distributions is an appealing strategy, since it allows to provide data spaces that are more similar to each other, regardless of the subsequent use of the transformed data. In this paper, we study a methodology that aligns data from different domains in a nonlinear way through {\em kernelization}. We introduce the Kernel Manifold Alignment (KEMA) method, which provides a flexible and discriminative projection map, exploits only a few labeled samples (or semantic ties) in each domain, and reduces to solving a generalized eigenvalue problem. We successfully test KEMA in multi-temporal and multi-source very high resolution classification tasks, as well as on the task of making a model invariant to shadowing for hyperspectral imaging.
翻訳日:2021-05-16 20:47:33 公開日:2020-12-07
# ガウス過程回帰を用いた植生特性検索のためのスペクトル帯域選択

Spectral band selection for vegetation properties retrieval using Gaussian processes regression ( http://arxiv.org/abs/2012.08640v1 )

ライセンス: Link先を確認
Jochem Verrelst, Juan Pablo Rivera, Anatoly Gitelson, Jesus Delegido, Jos\'e Moreno, Gustau Camps-Valls(参考訳) 現在および近日発売のイメージングスペクトロメーターでは、スペクトルデータの最適な処理を生物物理変数の推定に容易に行うために、ほとんどの有益帯域の効率的な識別を可能にするために、バンド分析の自動化技術が必要である。 本稿では,植生特性のスペクトル解析のためのガウス過程回帰(GPR)に基づく自動スペクトルバンド解析ツール(BAT)を提案する。 GPR-BAT手順は、1つのバンドのみが保持されるまで、所定の変数の回帰モデルにおける最小の寄与帯域を順次後退させる。 GPR-BATは、光学リモートセンシング画像の生体物理製品への変換に特化した、ARTMOのMLRA(機械学習回帰アルゴリズム)ツールボックスのフレームワークで実装されている。 GPR-BATは、(1)スペクトルデータを生物物理学変数に関連付ける際に最も有用な帯域を識別し、(2)最適化された正確な予測を保存する最小のバンドを見つけることを可能にする。 本研究は,植生特性の最適マッピングには,超スペクトルデータのワイズバンド選択が厳密に求められていることを結論づける。

With current and upcoming imaging spectrometers, automated band analysis techniques are needed to enable efficient identification of most informative bands to facilitate optimized processing of spectral data into estimates of biophysical variables. This paper introduces an automated spectral band analysis tool (BAT) based on Gaussian processes regression (GPR) for the spectral analysis of vegetation properties. The GPR-BAT procedure sequentially backwards removes the least contributing band in the regression model for a given variable until only one band is kept. GPR-BAT is implemented within the framework of the free ARTMO's MLRA (machine learning regression algorithms) toolbox, which is dedicated to the transforming of optical remote sensing images into biophysical products. GPR-BAT allows (1) to identify the most informative bands in relating spectral data to a biophysical variable, and (2) to find the least number of bands that preserve optimized accurate predictions. This study concludes that a wise band selection of hyperspectral data is strictly required for optimal vegetation properties mapping.
翻訳日:2021-05-16 20:47:06 公開日:2020-12-07
# 腫瘍病理画像の位相的特徴を用いた予後予測

Predicting survival outcomes using topological features of tumor pathology images ( http://arxiv.org/abs/2012.12102v1 )

ライセンス: Link先を確認
Chul Moon, Qiwei Li, Guanghua Xiao(参考訳) 腫瘍の形状と大きさは、がんの診断と治療の重要なマーカーとして使われてきた。 医用画像技術の最近の進歩は、高解像度の腫瘍領域のより詳細なセグメンテーションを可能にする。 本稿では,デジタル病理画像から腫瘍進展を特徴付けるトポロジ的特徴と時間-時間データへの影響について検討する。 我々は,病理画像の距離変換を開発し,持続的ホモロジーによって計算されたトポロジ的要約統計が腫瘍の形状,大きさ,分布,接続性を定量化することを示す。 位相的特徴は関数空間で表現され、関数cox回帰モデルの関数予測器として用いられる。 非小細胞肺癌画像を用いた症例的検討を行った。 その結果, 腫瘍の年齢, 性別, 喫煙状況, 病期, 大きさを調整し, 予後を予測できた。 また、非ゼロ効果のトポロジカルな特徴は、腫瘍の進行に関連することが知られている形状に対応する。 本研究は腫瘍の形状と予後を理解するための新しい視点を提供する。

Tumor shape and size have been used as important markers for cancer diagnosis and treatment. Recent developments in medical imaging technology enable more detailed segmentation of tumor regions in high resolution. This paper proposes a topological feature to characterize tumor progression from digital pathology images and examine its effect on the time-to-event data. We develop distance transform for pathology images and show that a topological summary statistic computed by persistent homology quantifies tumor shape, size, distribution, and connectivity. The topological features are represented in functional space and used as functional predictors in a functional Cox regression model. A case study is conducted using non-small cell lung cancer pathology images. The results show that the topological features predict survival prognosis after adjusting for age, sex, smoking status, stage, and size of tumors. Also, the topological features with non-zero effects correspond to the shapes that are known to be related to tumor progression. Our study provides a new perspective for understanding tumor shape and patient prognosis.
翻訳日:2021-05-16 20:46:50 公開日:2020-12-07
# エッジにおける推論のための低遅延非同期論理設計

Low-Latency Asynchronous Logic Design for Inference at the Edge ( http://arxiv.org/abs/2012.03402v1 )

ライセンス: Link先を確認
Adrian Wheeldon, Alex Yakovlev, Rishad Shafik, Jordan Morris(参考訳) 現代のモノのインターネット(IoT)デバイスは、クラウドにオフロードするのではなく、デバイス上の知覚されたデータを使用して機械学習の推論を利用する。 一般的にInference at theedgeとして知られており、パーソナライゼーションやセキュリティなど、多くのメリットをユーザに提供する。 しかし、そのような応用は高いエネルギー効率と堅牢性を必要とする。 本稿では,オートマトン学習の原則を用いて設計した自己時間型早期伝播型非同期推論回路の面積と電力オーバーヘッドを低減する手法を提案する。 タイミングに対する自然な回復力と論理基盤により、回路は環境や供給電圧の変動に耐性があり、最小のレイテンシが可能となる。 提案手法は低消費電力機械学習アプリケーションのための推論データパスを用いて実演する。 この回路は、Tsetlinマシンアルゴリズムに基づいて、そのエネルギー効率をさらに高める。 提案回路の平均レイテンシは、類似領域を維持しながら同期実装と比較して10倍低減される。 提案回路のロバスト性は、0.25Vから1.2Vの合成後シミュレーションによって証明される。 機能的補正は維持され、電圧が低下するにつれてゲート遅延を伴うレイテンシがスケールする。

Modern internet of things (IoT) devices leverage machine learning inference using sensed data on-device rather than offloading them to the cloud. Commonly known as inference at-the-edge, this gives many benefits to the users, including personalization and security. However, such applications demand high energy efficiency and robustness. In this paper we propose a method for reduced area and power overhead of self-timed early-propagative asynchronous inference circuits, designed using the principles of learning automata. Due to natural resilience to timing as well as logic underpinning, the circuits are tolerant to variations in environment and supply voltage whilst enabling the lowest possible latency. Our method is exemplified through an inference datapath for a low power machine learning application. The circuit builds on the Tsetlin machine algorithm further enhancing its energy efficiency. Average latency of the proposed circuit is reduced by 10x compared with the synchronous implementation whilst maintaining similar area. Robustness of the proposed circuit is proven through post-synthesis simulation with 0.25 V to 1.2 V supply. Functional correctness is maintained and latency scales with gate delay as voltage is decreased.
翻訳日:2021-05-16 20:46:13 公開日:2020-12-07
# 電池モデルのための空間充足サブセット選択

Space-Filling Subset Selection for an Electric Battery Model ( http://arxiv.org/abs/2012.03541v1 )

ライセンス: Link先を確認
Philipp Gesner, Christian Gletter, Florian Landenberger, Frank Kirschbaum, Lutz Morawietz, Bernard B\"aker(参考訳) バッテリー性能の動的モデルは、自動車駆動列車の開発過程において不可欠なツールである。 本研究では,電気インピーダンスのモデル化に適した大規模データセットを作成する手法を提案する。 データ駆動モデルを得るとき、通常、より多くの観察がより良いモデルを生み出すと仮定する。 しかし、バッテリの動作に関する実際の駆動データは、システムの非一様励起を強く表し、モデリングに悪影響を及ぼす。 そのため、利用可能なデータのサブセット選択が開発された。 高精度な非線形自己回帰外因性モデル(narx)の構築を目指している。 アルゴリズムは、非線形モデルの入力空間をより均質に満たした動的データポイントを選択する。 このトレーニングデータの削減は、ランダムなサブセットと比較してモデル品質の向上と、すべてのデータポイントを用いたモデリングよりも高速なトレーニングにつながることが示されている。

Dynamic models of the battery performance are an essential tool throughout the development process of automotive drive trains. The present study introduces a method making a large data set suitable for modeling the electrical impedance. When obtaining data-driven models, a usual assumption is that more observations produce better models. However, real driving data on the battery's behavior represent a strongly non-uniform excitation of the system, which negatively affects the modeling. For that reason, a subset selection of the available data was developed. It aims at building accurate nonlinear autoregressive exogenous (NARX) models more efficiently. The algorithm selects those dynamic data points that fill the input space of the nonlinear model more homogeneously. It is shown, that this reduction of the training data leads to a higher model quality in comparison to a random subset and a faster training compared to modeling using all data points.
翻訳日:2021-05-16 20:45:58 公開日:2020-12-07
# 希少事象の高次サンプリングのための集合変数のマルチタスク機械学習

Multitask machine learning of collective variables for enhanced sampling of rare events ( http://arxiv.org/abs/2012.03909v1 )

ライセンス: Link先を確認
Lixin Sun, Jonathan Vandermause, Simon Batzner, Yu Xie, David Clark, Wei Chen, Boris Kozinsky(参考訳) 計算正確な反応速度は、不偏の分子動力学による自由エネルギー推定のコストが高いため、計算化学と生物学において中心的な課題である。 この研究において、データ駆動機械学習アルゴリズムは、マルチタスクニューラルネットワークを用いて集合変数を学習するために考案され、共通の上流部は原子配置の高次元を低次元の潜在空間に還元し、下流部は潜在空間を盆地のラベルとポテンシャルエネルギーの予測にマッピングする。 得られた潜在空間は有効な低次元表現であり、反応の進行を捉え、効果的な傘サンプリングを導いて正確な自由エネルギー景観を得る。 このアプローチは5d m\"uller brownモデル、5d three-wellモデル、および真空中のアラニンジペプチドを含むモデルシステムにうまく適用できる。 このアプローチは、複雑なシステムにおけるエネルギー制御反応の自動次元化を可能にし、限られたデータでトレーニングできる統一フレームワークを提供し、オートエンコーダを含むシングルタスク学習アプローチよりも優れています。

Computing accurate reaction rates is a central challenge in computational chemistry and biology because of the high cost of free energy estimation with unbiased molecular dynamics. In this work, a data-driven machine learning algorithm is devised to learn collective variables with a multitask neural network, where a common upstream part reduces the high dimensionality of atomic configurations to a low dimensional latent space, and separate downstream parts map the latent space to predictions of basin class labels and potential energies. The resulting latent space is shown to be an effective low-dimensional representation, capturing the reaction progress and guiding effective umbrella sampling to obtain accurate free energy landscapes. This approach is successfully applied to model systems including a 5D M\"uller Brown model, a 5D three-well model, and alanine dipeptide in vacuum. This approach enables automated dimensionality reduction for energy controlled reactions in complex systems, offers a unified framework that can be trained with limited data, and outperforms single-task learning approaches, including autoencoders.
翻訳日:2021-05-16 20:45:48 公開日:2020-12-07
# 深層学習ボリュームフォーミュラの遠近化

Disentangling a Deep Learned Volume Formula ( http://arxiv.org/abs/2012.03955v1 )

ライセンス: Link先を確認
Jessica Craven, Vishnu Jejjala, Arjun Kar(参考訳) 単元根におけるジョーンズ多項式の単一の評価のみを用いて結び目の双曲体積を近似する単純な現象論的公式を提案する。 最初の170万ノットの平均誤差は2.86%であり、これはこの種の以前の公式よりも大きな改善である。 近似式を見つけるために,ブラックボックスニューラルネットワークのリバースエンジニアリングに階層的関連性伝搬を用い,全データセットの10%でトレーニングした場合に,同じ近似タスクに対して同様の平均誤差を発生させる。 解析で現れるユニティの特定の根は、整数$k$で$e^{2\pi i / (k+2)}$と書けないので、関連するジョーンズ多項式評価は、通常の$SU(2)$チャーン・サイモンズ理論においてウィルソンループ作用素の非正規化期待値によって与えられるものではない。 代わりに、これらの期待値の分数レベルへの解析的継続に対応する。 我々は,解析的に連続するチャーン・シモンズ積分サイクルにおいて,継続手順を簡潔にレビューし,近似式が敏感なレフシェッツのチムルの存在についてコメントする。

We present a simple phenomenological formula which approximates the hyperbolic volume of a knot using only a single evaluation of its Jones polynomial at a root of unity. The average error is just 2.86% on the first 1.7 million knots, which represents a large improvement over previous formulas of this kind. To find the approximation formula, we use layer-wise relevance propagation to reverse engineer a black box neural network which achieves a similar average error for the same approximation task when trained on 10% of the total dataset. The particular roots of unity which appear in our analysis cannot be written as $e^{2\pi i / (k+2)}$ with integer $k$; therefore, the relevant Jones polynomial evaluations are not given by unknot-normalized expectation values of Wilson loop operators in conventional $SU(2)$ Chern-Simons theory with level $k$. Instead, they correspond to an analytic continuation of such expectation values to fractional level. We briefly review the continuation procedure and comment on the presence of certain Lefschetz thimbles, to which our approximation formula is sensitive, in the analytically continued Chern-Simons integration cycle.
翻訳日:2021-05-16 20:45:31 公開日:2020-12-07
# フェデレーション学習のためのアップリンク・ダウンリンク通信の設計と解析

Design and Analysis of Uplink and Downlink Communications for Federated Learning ( http://arxiv.org/abs/2012.04057v1 )

ライセンス: Link先を確認
Sihui Zheng, Cong Shen, Xiang Chen(参考訳) コミュニケーションは連合学習(federated learning, fl)の主要なボトルネックの1つとして知られているが、既存の研究は効率的な通信設計には対処していない。 本稿では,無線FLの物理層量子化と伝送方式の設計と解析に焦点をあてる。 本稿では、クライアントとパラメータサーバ間の通信方法と方法に関する質問に答え、更新モデルの様々な量子化と伝達オプションが学習性能に与える影響を評価する。 非i.d.の下でよく知られたFedAvgの新しい収束解析を提供する。 アップリンクおよびダウンリンク通信におけるデータセット分布、部分クライアント参加、有限精度量子化。 これらの分析により, 量子化を伴うo(1/t)収束率を達成するためには, 重みの伝達は対数率で量子化レベルを増加させる必要があるが, 重み微分の伝達は一定の量子化レベルを維持することができることが明らかとなった。 様々な実世界のデータセットに関する総合的な数値評価により、flで調整されたアップリンクとダウンリンクの通信設計の利点は膨大であることが判明した。注意深く設計された量子化と伝送は、ベースライン帯域の10%未満で浮動小数点ベースライン精度の98%以上を達成する。 および非i.d. データセット。 特に、1ビット量子化(浮動小数点ベースライン帯域幅の3.1%)は、mnistのほぼ同じ収束率で浮動小数点ベースライン精度の99.8%を達成する。

Communication has been known to be one of the primary bottlenecks of federated learning (FL), and yet existing studies have not addressed the efficient communication design, particularly in wireless FL where both uplink and downlink communications have to be considered. In this paper, we focus on the design and analysis of physical layer quantization and transmission methods for wireless FL. We answer the question of what and how to communicate between clients and the parameter server and evaluate the impact of the various quantization and transmission options of the updated model on the learning performance. We provide new convergence analysis of the well-known FedAvg under non-i.i.d. dataset distributions, partial clients participation, and finite-precision quantization in uplink and downlink communications. These analyses reveal that, in order to achieve an O(1/T) convergence rate with quantization, transmitting the weight requires increasing the quantization level at a logarithmic rate, while transmitting the weight differential can keep a constant quantization level. Comprehensive numerical evaluation on various real-world datasets reveals that the benefit of a FL-tailored uplink and downlink communication design is enormous - a carefully designed quantization and transmission achieves more than 98% of the floating-point baseline accuracy with fewer than 10% of the baseline bandwidth, for majority of the experiments on both i.i.d. and non-i.i.d. datasets. In particular, 1-bit quantization (3.1% of the floating-point baseline bandwidth) achieves 99.8% of the floating-point baseline accuracy at almost the same convergence rate on MNIST, representing the best known bandwidth-accuracy tradeoff to the best of the authors' knowledge.
翻訳日:2021-05-16 20:45:09 公開日:2020-12-07
# エッジコンピューティングのためのコスト効率の良い機械学習推論負荷

Cost-effective Machine Learning Inference Offload for Edge Computing ( http://arxiv.org/abs/2012.04063v1 )

ライセンス: Link先を確認
Christian Makaya, Amalendu Iyer, Jonathan Salfity, Madhu Athreya, M Anthony Lewis(参考訳) 大量のデータが生成されるため、エッジでのコンピューティングはますます重要になっている。 このことは、すべてのデータをリモートデータセンタやクラウドに転送する上で、処理と分析が可能な課題を引き起こします。 一方で、デバイスの能力、接続性、異種性といった課題を軽減できるのであれば、データ駆動および機械学習ベースのアプリケーションを提供するには、エッジデータを活用することが不可欠である。 機械学習アプリケーションは計算集約的で、大量のデータの処理を必要とする。 しかし、エッジデバイスは、計算資源、電力、ストレージ、ネットワーク接続の観点から、リソース制約が強いことが多い。 したがって、より大きく複雑になりつつある最先端のディープニューラルネットワーク(DNN)モデルを効率的かつ正確に動作させる可能性を制限することができる。 本稿では,インストール・ベース・オンプレミス(edge)計算資源を活用した新しいオフロード機構を提案する。 提案するメカニズムにより、エッジデバイスは、リモートクラウドを使用する代わりに、重い計算集約的なワークロードをエッジノードにオフロードすることができる。 我々のオフロード機構は,移動ロボットやビデオ監視アプリケーションのための最先端の人物と物体検出DNNモデルを用いてプロトタイプ化およびテストされている。 パフォーマンスは、正確性とレイテンシの観点から、クラウドベースのオフロード戦略に比べて大幅に向上している。

Computing at the edge is increasingly important since a massive amount of data is generated. This poses challenges in transporting all that data to the remote data centers and cloud, where they can be processed and analyzed. On the other hand, harnessing the edge data is essential for offering data-driven and machine learning-based applications, if the challenges, such as device capabilities, connectivity, and heterogeneity can be mitigated. Machine learning applications are very compute-intensive and require processing of large amount of data. However, edge devices are often resources-constrained, in terms of compute resources, power, storage, and network connectivity. Hence, limiting their potential to run efficiently and accurately state-of-the art deep neural network (DNN) models, which are becoming larger and more complex. This paper proposes a novel offloading mechanism by leveraging installed-base on-premises (edge) computational resources. The proposed mechanism allows the edge devices to offload heavy and compute-intensive workloads to edge nodes instead of using remote cloud. Our offloading mechanism has been prototyped and tested with state-of-the art person and object detection DNN models for mobile robots and video surveillance applications. The performance shows a significant gain compared to cloud-based offloading strategies in terms of accuracy and latency.
翻訳日:2021-05-16 20:44:36 公開日:2020-12-07
# 地学における因果推論と観測データからのリモートセンシング

Causal Inference in Geoscience and Remote Sensing from Observational Data ( http://arxiv.org/abs/2012.05150v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Suay, Gustau Camps-Valls(参考訳) 観測データからランダム変数間の因果関係を確立することは、今日の \blue{science} においておそらく最も重要な課題である。 リモートセンシングと地球科学において、これは地球のシステムと統治プロセスの間の複雑な相互作用をよりよく理解するための特別な関連性である。 本稿では,観察的因果推論に着目し,有限個の実験データを用いて因果関係の正しい方向を推定する。 さらに,条件付き独立性テストが使用できないような,より複雑な二変量シナリオにも注目する。 特に,原因と生成機構の独立性の原理に依存する(非決定論的)付加雑音モデルの枠組みを考察する。 このような原理の実用的なアルゴリズム的インスタンス化には、1) 前向きと後向きの2つの回帰モデルと、2)得られた残差と観測値の間の統計独立性の推定が必要である。 より独立した残差につながる方向が原因であると決定される。 我々は,依存度推定器の「em感度」(導出的)を用いた基準を提案する。感度基準は依存度測定に最も影響を及ぼすサンプルを識別することを可能にし,従ってこの基準はスプリアス検出に頑健である。 本研究では,28の地球科学因果推論問題の集合において,182の課題を含む植生パラメータモデリングにおける放射移動モデルシミュレーションと機械学習エミュレータのデータベースを用いて,炭素サイクル問題における異なる回帰モデルの影響を評価する。 この基準はあらゆるケースで最先端の検出率を達成するが、一般的にノイズ源や歪みに対して堅牢である。

Establishing causal relations between random variables from observational data is perhaps the most important challenge in today's \blue{science}. In remote sensing and geosciences this is of special relevance to better understand the Earth's system and the complex interactions between the governing processes. In this paper, we focus on observational causal inference, thus we try to estimate the correct direction of causation using a finite set of empirical data. In addition, we focus on the more complex bivariate scenario that requires strong assumptions and no conditional independence tests can be used. In particular, we explore the framework of (non-deterministic) additive noise models, which relies on the principle of independence between the cause and the generating mechanism. A practical algorithmic instantiation of such principle only requires 1) two regression models in the forward and backward directions, and 2) the estimation of {\em statistical independence} between the obtained residuals and the observations. The direction leading to more independent residuals is decided to be the cause. We instead propose a criterion that uses the {\em sensitivity} (derivative) of the dependence estimator, the sensitivity criterion allows to identify samples most affecting the dependence measure, and hence the criterion is robust to spurious detections. We illustrate performance in a collection of 28 geoscience causal inference problems, in a database of radiative transfer models simulations and machine learning emulators in vegetation parameter modeling involving 182 problems, and in assessing the impact of different regression models in a carbon cycle problem. The criterion achieves state-of-the-art detection rates in all cases, it is generally robust to noise sources and distortions.
翻訳日:2021-05-16 20:42:02 公開日:2020-12-07
# フレキシブルな統計的モデリングのための微分プログラミング

Using Differentiable Programming for Flexible Statistical Modeling ( http://arxiv.org/abs/2012.05722v1 )

ライセンス: Link先を確認
Maren Hackenberg, Marlon Grodd, Clemens Kreutz, Martina Fischer, Janina Esins, Linus Grabenhenrich, Christian Karagiannidis, Harald Binder(参考訳) 微分可能プログラミングは近年、コンピュータプログラムの勾配を取るためのパラダイムとして多くの関心を集めている。 これまでの柔軟な勾配に基づく最適化アプローチは、主にディープラーニングやモデリングコンポーネントの強化に使われてきたが、古典的な最大極大アプローチが困難である場合や実現不可能である場合、高速なプロトタイピングのために、各分野の統計モデリングにも有用であることを示したい。 COVID-19設定のアプリケーションでは、差別化可能なプログラミングを使用して、手前のデータ品質の課題に適応した柔軟な予測モデルを迅速に構築し、最適化します。 具体的には、遅れ微分方程式にインスパイアされた回帰モデルを構築し、ドイツの中央医療機関における観察の時間的ギャップを埋め、将来の需要を予測する。 この模範的モデリングの課題では、微分可能プログラミングがモデルの自動微分による単純な勾配に基づく最適化をいかに実現できるかを説明する。 これにより、より単純なベンチマークモデルを上回る時間的プレッシャー下でモデルをすばやくプロトタイプすることができます。 したがって、ディープラーニングアプリケーション以外でも微分可能プログラミングの可能性を例示し、柔軟な応用統計モデリングの選択肢を提供する。

Differentiable programming has recently received much interest as a paradigm that facilitates taking gradients of computer programs. While the corresponding flexible gradient-based optimization approaches so far have been used predominantly for deep learning or enriching the latter with modeling components, we want to demonstrate that they can also be useful for statistical modeling per se, e.g., for quick prototyping when classical maximum likelihood approaches are challenging or not feasible. In an application from a COVID-19 setting, we utilize differentiable programming to quickly build and optimize a flexible prediction model adapted to the data quality challenges at hand. Specifically, we develop a regression model, inspired by delay differential equations, that can bridge temporal gaps of observations in the central German registry of COVID-19 intensive care cases for predicting future demand. With this exemplary modeling challenge, we illustrate how differentiable programming can enable simple gradient-based optimization of the model by automatic differentiation. This allowed us to quickly prototype a model under time pressure that outperforms simpler benchmark models. We thus exemplify the potential of differentiable programming also outside deep learning applications, to provide more options for flexible applied statistical modeling.
翻訳日:2021-05-16 20:41:36 公開日:2020-12-07
# 放射移動符号サンプリングにおける補間の正確な代替としてのエミュレーション

Emulation as an Accurate Alternative to Interpolation in Sampling Radiative Transfer Codes ( http://arxiv.org/abs/2012.10392v1 )

ライセンス: Link先を確認
Jorge Vicent, Jochem Verrelst, Juan Pablo Rivera-Caicedo, Neus Sabater, Jordi Mu\~noz-Mar\'i, Gustau Camps-Valls, Jos\'e Moreno(参考訳) 計算に高価な放射移動モデル(RTM)は、地球表面と大気との光相互作用を現実的に再現するために広く用いられている。 これらのモデルは長い処理時間を要するため、まずスパースルックアップテーブル(LUT)を生成し、多次元LUT入力変数空間をサンプリングするために補間法を利用するのが一般的である。 しかし、一般的な補間法が最も正確かどうかが問題となる。 補間に代わるものとして、この研究はエミュレーション、すなわち統計的学習を用いてRTM出力を近似することを提案する。 補間とエミュレーションを用いたスペクトル出力の精度を評価するために,(1)プロセイルを用いたキャノピーレベル,(2)modtranを用いた大気圏上層での2つの実験を行った。 様々な補間法(neighbour,inverse distance weighting, piece-wice linear)とエミュレーション法(gaussian process regression (gpr), kernel ridge regression, neural networks)を,密集した基準lutに対して評価した。 あらゆる実験において、エミュレーション法は古典補間法よりも正確な出力スペクトルを明らかに生成した。 gprエミュレーションは、最良の補間法よりも最大10倍精度で実行され、これはより高速な補間法と競合する速度である。 その結果、エミュレーションはrtmスペクトルデータの再構成によく用いられる補間法に代わる、高速で正確な代替として機能することがわかった。

Computationally expensive Radiative Transfer Models (RTMs) are widely used} to realistically reproduce the light interaction with the Earth surface and atmosphere. Because these models take long processing time, the common practice is to first generate a sparse look-up table (LUT) and then make use of interpolation methods to sample the multi-dimensional LUT input variable space. However, the question arise whether common interpolation methods perform most accurate. As an alternative to interpolation, this work proposes to use emulation, i.e., approximating the RTM output by means of statistical learning. Two experiments were conducted to assess the accuracy in delivering spectral outputs using interpolation and emulation: (1) at canopy level, using PROSAIL; and (2) at top-of-atmosphere level, using MODTRAN. Various interpolation (nearest-neighbour, inverse distance weighting, piece-wice linear) and emulation (Gaussian process regression (GPR), kernel ridge regression, neural networks) methods were evaluated against a dense reference LUT. In all experiments, the emulation methods clearly produced more accurate output spectra than classical interpolation methods. GPR emulation performed up to ten times more accurately than the best performing interpolation method, and this with a speed that is competitive with the faster interpolation methods. It is concluded that emulation can function as a fast and more accurate alternative to commonly used interpolation methods for reconstructing RTM spectral data.
翻訳日:2021-05-16 20:40:50 公開日:2020-12-07
# ユニバーサル計測としての観測

Observement as Universal Measurement ( http://arxiv.org/abs/2012.12095v1 )

ライセンス: Link先を確認
David G. Green, Kerri Morgan and Marc Cheong(参考訳) 測定理論は科学の基盤であるが、現在生成されている大量の非数値データを支える等価な理論は存在しない。 本研究では,文字列やグラフなどの代用数学的モデルに代えて,厳密で形式的なシステム(オブザーブメント)を提供することにより,非数値データの記録と解釈を行う。 さらに,これらの表現は既に広く使われており,文字列やグラフ(ネットワーク)に基づく表現において暗黙的な解釈方法論の一般クラスを同定している。 これは、測定の一般化された概念は、異なる研究分野間の深いつながりと同様に、新しい洞察を明らかにする可能性を秘めていることを意味する。

Measurement theory is the cornerstone of science, but no equivalent theory underpins the huge volumes of non-numerical data now being generated. In this study, we show that replacing numbers with alternative mathematical models, such as strings and graphs, generalises traditional measurement to provide rigorous, formal systems (`observement') for recording and interpreting non-numerical data. Moreover, we show that these representations are already widely used and identify general classes of interpretive methodologies implicit in representations based on character strings and graphs (networks). This implies that a generalised concept of measurement has the potential to reveal new insights as well as deep connections between different fields of research.
翻訳日:2021-05-16 20:40:26 公開日:2020-12-07
# 物理パラメータ検索のための深いガウス過程

Deep Gaussian Processes for geophysical parameter retrieval ( http://arxiv.org/abs/2012.12099v1 )

ライセンス: Link先を確認
Daniel Heestermans Svendsen, Pablo Morales-\'Alvarez, Rafael Molina, Gustau Camps-Valls(参考訳) 本稿では物理パラメータ探索のための深部ガウス過程(DGP)を紹介する。 標準のフルGPモデルとは異なり、DGPは複雑な(モジュラーで階層的な)プロセスを説明し、大きなデータセットによく対応し、標準のフルGPモデルとスパースGPモデルの予測精度を向上させる効率的なソリューションを提供する。 我々は,赤外音源データから表面露点温度を推定する実験的な性能を示す。

This paper introduces deep Gaussian processes (DGPs) for geophysical parameter retrieval. Unlike the standard full GP model, the DGP accounts for complicated (modular, hierarchical) processes, provides an efficient solution that scales well to large datasets, and improves prediction accuracy over standard full and sparse GP models. We give empirical evidence of performance for estimation of surface dew point temperature from infrared sounding data.
翻訳日:2021-05-16 20:40:13 公開日:2020-12-07
# カーネル感度マップを用いた地球科学における因果推論

Causal Inference in Geosciences with Kernel Sensitivity Maps ( http://arxiv.org/abs/2012.14303v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Suay and Gustau Camps-Valls(参考訳) 観測データからランダム変数間の因果関係を確立することは、おそらく今日の科学において最も重要な課題である。 リモートセンシングと地球科学において、これは地球のシステムとプロセス間の複雑で解明的な相互作用をよりよく理解するための特別な関連性である。 本稿では,回帰と依存推定を通じて変数のペアから因果関係を導出する枠組みを検討する。 近似残差の前方および逆密度の非対称性を考慮した依存推定器の感度(曲率)に着目することを提案する。 28の地学因果推論問題の大規模なコレクションにおいて,この手法の有効性が示された。

Establishing causal relations between random variables from observational data is perhaps the most important challenge in today's Science. In remote sensing and geosciences this is of special relevance to better understand the Earth's system and the complex and elusive interactions between processes. In this paper we explore a framework to derive cause-effect relations from pairs of variables via regression and dependence estimation. We propose to focus on the sensitivity (curvature) of the dependence estimator to account for the asymmetry of the forward and inverse densities of approximation residuals. Results in a large collection of 28 geoscience causal inference problems demonstrate the good capabilities of the method.
翻訳日:2021-05-16 20:40:06 公開日:2020-12-07