このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210524となっている論文です。

PDF登録状況(公開日: 20210524)

TitleAuthorsAbstract論文公表日・翻訳日
# ジヌ高次元量子ステアリング

Genuine high-dimensional quantum steering ( http://arxiv.org/abs/2007.02718v2 )

ライセンス: Link先を確認
S\'ebastien Designolle, Vatshal Srivastav, Roope Uola, Natalia Herrera Valencia, Will McCutcheon, Mehul Malik, Nicolas Brunner(参考訳) 高次元の量子絡み合いは、量子ビットシステムに比べて強い非局所相関を生じさせ、量子情報処理に大きな利点をもたらす。 しかし、これらの強い相関性を証明することは、特に実験環境では重要な課題である。 ここでは、理論上、真の高次元量子ステアリングの概念を定式化し、実験的に示す。 我々は、シュミット数によって定量化された高次元の絡み合いが、より強力なステアリングにつながり、より低次元の絡み合いによって得ることは不可能であることを示す。 ステアリングと量子測定の不整合性の間の接続を爆発させると、単純な2次元ステアリングの不等式が導出され、これは真の高次元ステアリングの存在を保証する。 実高次元ステアリングを証明したマクロピクセルフォトンペアエンタングルメントを用いて,これらの不等式を実験的に破ったことを報告する。 特に、次元$d=31$の絡み合った状態を用いて、我々のデータは最小のシュミット数$n=15$を認証する。

High-dimensional quantum entanglement can give rise to stronger forms of nonlocal correlations compared to qubit systems, offering significant advantages for quantum information processing. Certifying these stronger correlations, however, remains an important challenge, in particular in an experimental setting. Here we theoretically formalise and experimentally demonstrate a notion of genuine high-dimensional quantum steering. We show that high-dimensional entanglement, as quantified by the Schmidt number, can lead to a stronger form of steering, provably impossible to obtain via entanglement in lower dimensions. Exploiting the connection between steering and incompatibility of quantum measurements, we derive simple two-setting steering inequalities, the violation of which guarantees the presence of genuine high-dimensional steering, and hence certifies a lower bound on the Schmidt number in a one-sided device-independent setting. We report the experimental violation of these inequalities using macro-pixel photon-pair entanglement certifying genuine high-dimensional steering. In particular, using an entangled state in dimension $d=31$, our data certifies a minimum Schmidt number of $n=15$.
翻訳日:2023-05-11 04:10:13 公開日:2021-05-24
# 極低温1次元ボースおよびフェルミ気体中の量子暗黒ソリトン

Quantum dark solitons in ultracold one-dimensional Bose and Fermi gases ( http://arxiv.org/abs/2009.12554v3 )

ライセンス: Link先を確認
Andrzej Syrwid(参考訳) ソリトン(ソリトン、Soliton)は、津波、光ファイバー通信、超低温の原子ガスなどの記述に現れる、ユビキタスな現象である。 後者のシステムは量子世界における物質波ソリトンの研究に優れた場であることが判明した。 このチュートリアルは1次元空間におけるボースとフェルミの相互作用する超低温接触の概観を、有名なリーブ・ライニガーとヤン=ガウディンのモデルによって記述することができる。 量子多体系はどちらもbethe ansatz法によって正確に解くことができ、ソリトニック励起の量子の性質を調べることができる。 我々はyrast状態と呼ばれる量子多体励起固有状態の特定のクラスについて詳細に議論し、ボース系とフェルミ系の両方の量子暗黒ソリトンと厳密に関連していることを示した。

Solitons are ubiquitous phenomena that appear, among others, in the description of tsunami waves, fiber-optic communication and ultracold atomic gases. The latter systems turned out to be an excellent playground for investigations of matter-wave solitons in a quantum world. This Tutorial provides a general overview of the ultracold contact interacting Bose and Fermi systems in a one-dimensional space that can be described by the renowned Lieb-Liniger and Yang-Gaudin models. Both the quantum many-body systems are exactly solvable by means of the Bethe ansatz technique, granting us a possibility for investigations of quantum nature of solitonic excitations. We discuss in details a specific class of quantum many-body excited eigenstates called yrast states and show that they are strictly related to quantum dark solitons in the both considered Bose and Fermi systems.
翻訳日:2023-04-30 22:40:33 公開日:2021-05-24
# ニューラルネットワーク量子状態を用いた実固体準粒子バンドスペクトルの解法

Solving Quasiparticle Band Spectra of Real Solids using Neural-Network Quantum States ( http://arxiv.org/abs/2010.01358v2 )

ライセンス: Link先を確認
Nobuyuki Yoshioka and Wataru Mizukami and Franco Nori(参考訳) 固体系に対する予測ab initio法を確立することは、凝縮物質物理学と計算材料科学の基本的な目標の1つである。 中心的な課題は、複雑な量子多体波動関数をコンパクトに符号化する方法である。 ここでは、機械学習の文脈において圧倒的な表現性で知られるニューラルネットワークが、拡張周期材料の第一原理計算に優れたツールであることを実証する。 本研究では, 1次元, 2次元, 3次元系の実固体の基底状態エネルギーを正確にシミュレーションし, 化学的精度に達することを示す。 我々の研究のハイライトは、固体系に必須かつ特異な準粒子バンドスペクトルを、ニューラルネットワークから低エネルギー構造を利用するための計算手法で効率的に抽出できることである。 この研究は、固体系の興味深く複雑な多体現象を解明する道を開く。

Establishing a predictive ab initio method for solid systems is one of the fundamental goals in condensed matter physics and computational materials science. The central challenge is how to encode a highly-complex quantum-many-body wave function compactly. Here, we demonstrate that artificial neural networks, known for their overwhelming expressibility in the context of machine learning, are excellent tool for first-principles calculations of extended periodic materials. We show that the ground-state energies in real solids in one-, two-, and three-dimensional systems are simulated precisely, reaching their chemical accuracy. The highlight of our work is that the quasiparticle band spectra, which are both essential and peculiar to solid-state systems, can be efficiently extracted with a computational technique designed to exploit the low-lying energy structure from neural networks. This work opens up a path to elucidate the intriguing and complex many-body phenomena in solid-state systems.
翻訳日:2023-04-30 02:17:10 公開日:2021-05-24
# パンデミックの教訓 --持続可能性政策分析のための評価枠組みの開発

Pandemic Lessons -- Devising an assessment framework to analyse policies for sustainability ( http://arxiv.org/abs/2010.04833v2 )

ライセンス: Link先を確認
Pradipta Banerjee and Subhrabrata Choudhury(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、社会の一般的な社会経済の健全性を確保するための、世界規模の多次元的基本課題を急速に推し進めている。 この問題は人口密度の増加とともに増加し、社会経済的・地質文化的活動パラメータも様々である。 これらの問題は、将来、より新しい動物性ウイルスに感染する悪循環に陥り、社会経済的混乱を引き起こしながらワクチンを探索する必要がなくなるよう、相互依存的な国連持続可能な開発目標(sdgs)を達成する緊急の必要性を直接強調する。 ヒトの活動/応答の行動変化は、相互依存的なsdgを達成するために不可欠である。 根本原因分析手法を用いて,SDGに到達するための地域固有の下流・上流社会経済政策を活発に分析・同定するための年次評価フレームワークを開発した。 このフレームワークは、3つのカテゴリに分類される20人の活動/影響パラメータの正規化値に基づいて、インフォグラフィックバーチャートを表現している。 SDGを包含する全体論的な視点から、我々はこの枠組みを通じて、地域固有の人間の行動改革の影響と緊急の必要性を説明する。 この枠組みは、惑星の健康を通じてSDGを達成するために、負のパラメータ値を望まれるゼロレベルまで下げる可能性に関する政策の展望を可能にする。

COVID-19 pandemic has sharply projected the globally persistent multi-dimensional fundamental challenges in securing general socio-economic wellbeing of the society. The problems intensify with increasing population densities and also vary with several socio-economic-geo-cultural activity parameters. These problems directly highlight the urgent need for accomplishing the interdependent United Nations Sustainable Development Goals (SDGs) to ensure that in future we do not enter into vicious loops of contracting newer zoonotic viruses and need not search for their vaccines while incurring socio-economic havoc. Behavioural changes in human activities/responses are indispensable for achieving the interdependent SDGs. Using root cause analysis approach, we have developed a yearly assessment framework for viably analysing and identifying requisite region-specific downstream/upstream socio-economic policies to reach the SDGs. The framework makes use of an infographic bar chart representation based on the normalised values of 20 human activity/impact parameters classified under three categories as - negative, limiting and positive. With a holistic view encompassing the SDGs, we illustrate through this framework the impact and urgent need of region-specific human behavioural reforms. This framework enables the foresight about policies regarding their potential in bringing down the negative parameter values to the desired zero level for accomplishing the SDGs through planetary health.
翻訳日:2023-04-29 13:11:22 公開日:2021-05-24
# 次元数を考慮したモンテカルロ積分の量子速度化とそのファイナンスへの応用

Quantum Speedup of Monte Carlo Integration with respect to the Number of Dimensions and its Application to Finance ( http://arxiv.org/abs/2011.02165v2 )

ライセンス: Link先を確認
Kazuya Kaneko, Koichi Miyamoto, Naoyuki Takeda, Kazuyoshi Yoshino(参考訳) 量子コンピュータを用いたモンテカルロ統合は、具体的な問題への応用など、広く研究されている。 量子振幅推定(qae:quantum amplitude estimation)に基づく量子アルゴリズムは、インテグレートを計算する量子回路の反復呼び出し数の少ない積分を、古典的手法であるインテグレードサブルーチン(integrand subroutine)よりも計算できることが知られている。 しかし、積分回路における反復演算に関する問題はそれほど議論されていない。 すなわち、高次元積分では、積分の計算に多くの乱数を使用し、場合によっては同様の計算を繰り返して積分の1つのサンプル値を得る。 本稿では, インテグレードが異なる乱数からのコントリビューションに対して分離可能な形式である場合, ネストされたQAEと擬似乱数(PRN)の組み合わせにより, このような繰り返し操作数を削減できることを指摘する。 著者らがモンテカルロの量子アルゴリズムの文脈で最初に提案したprnの使用は、積分法における分離可能な項の並列計算を可能にするため、本論文でも重要な要素である。 さらに、金融におけるこの方法のユースケース、信用ポートフォリオのリスク測定、複雑さの程度まで見積もる。

Monte Carlo integration using quantum computers has been widely investigated, including applications to concrete problems. It is known that quantum algorithms based on quantum amplitude estimation (QAE) can compute an integral with a smaller number of iterative calls of the quantum circuit which calculates the integrand, than classical methods call the integrand subroutine. However, the issues about the iterative operations in the integrand circuit have not been discussed so much. That is, in the high-dimensional integration, many random numbers are used for calculation of the integrand and in some cases similar calculations are repeated to obtain one sample value of the integrand. In this paper, we point out that we can reduce the number of such repeated operations by a combination of the nested QAE and the use of pseudorandom numbers (PRNs), if the integrand has the separable form with respect to contributions from distinct random numbers. The use of PRNs, which the authors originally proposed in the context of the quantum algorithm for Monte Carlo, is the key factor also in this paper, since it enables parallel computation of the separable terms in the integrand. Furthermore, we pick up one use case of this method in finance, the credit portfolio risk measurement, and estimate to what extent the complexity is reduced.
翻訳日:2023-04-25 07:31:44 公開日:2021-05-24
# 最小カットの量子複雑性

Quantum complexity of minimum cut ( http://arxiv.org/abs/2011.09823v3 )

ライセンス: Link先を確認
Simon Apers and Troy Lee(参考訳) 無向および重み付きグラフ$G$の最小カット問題は、除去が$G$を切断するエッジの集合の最小トータルウェイトを見つけることである。 随伴行列モデルにおける最小カット問題の量子クエリと時間複雑性を完全に特徴付ける。 もし$G$が少なくとも$n$の頂点と辺の重みを持ち、少なくとも$\tau$を持つなら、$\tilde O(n^{3/2}\sqrt{\tau})$クエリと時間を使って最小カット問題を解決する量子アルゴリズムを与える。 さらに、すべての整数 $1 \le \tau \le n$ に対して、エッジウェイトを持つグラフ $G$ と $\tau$ の例を挙げると、$G$ の最小カット問題を解くには$\Omega(n^{3/2}\sqrt{\tau}) と$G$ の隣接行列への多くのクエリが必要である。 これらの結果は、非重み付きグラフが接続されているか否かを決定するために、最悪の場合においても、$\Omega(n^2)$クエリが隣接行列に必要となる古典的なランダム化ケースとは対照的である。 隣接配列モデルにおいて、$G$が$m$エッジを持つとき、最小カット問題の古典的ランダム化複雑性は$\tilde \Thetaである。 (m)$。 量子クエリと時間複雑性はそれぞれ$\tilde O(\sqrt{mn\tau})$と$\tilde O(\sqrt{mn\tau} + n^{3/2})$であることを示す。 密度グラフに対しては、$\Omega(n^{3/2})$ for $\tau > 1$ and $\Omega(\tau)の量子クエリ複雑性の低い境界を与える。 n) 1 の \leq \tau \leq n$ に対して。 我々のクエリアルゴリズムは、Apers and de Wolf (FOCS 2020) によるグラフスカラー化のための量子アルゴリズムを用いており、Kawarabayashi and Thorup (STOC 2015) と Rubinstein, Schramm and Weinberg (ITCS 2018) による準最小カットの構造に関する結果である。 我々の時間効率のよい実装はKarger's Tree Packing Technique (STOC 1996) に基づいている。

The minimum cut problem in an undirected and weighted graph $G$ is to find the minimum total weight of a set of edges whose removal disconnects $G$. We completely characterize the quantum query and time complexity of the minimum cut problem in the adjacency matrix model. If $G$ has $n$ vertices and edge weights at least $1$ and at most $\tau$, we give a quantum algorithm to solve the minimum cut problem using $\tilde O(n^{3/2}\sqrt{\tau})$ queries and time. Moreover, for every integer $1 \le \tau \le n$ we give an example of a graph $G$ with edge weights $1$ and $\tau$ such that solving the minimum cut problem on $G$ requires $\Omega(n^{3/2}\sqrt{\tau})$ many queries to the adjacency matrix of $G$. These results contrast with the classical randomized case where $\Omega(n^2)$ queries to the adjacency matrix are needed in the worst case even to decide if an unweighted graph is connected or not. In the adjacency array model, when $G$ has $m$ edges the classical randomized complexity of the minimum cut problem is $\tilde \Theta(m)$. We show that the quantum query and time complexity are $\tilde O(\sqrt{mn\tau})$ and $\tilde O(\sqrt{mn\tau} + n^{3/2})$, respectively, where again the edge weights are between $1$ and $\tau$. For dense graphs we give lower bounds on the quantum query complexity of $\Omega(n^{3/2})$ for $\tau > 1$ and $\Omega(\tau n)$ for any $1 \leq \tau \leq n$. Our query algorithm uses a quantum algorithm for graph sparsification by Apers and de Wolf (FOCS 2020) and results on the structure of near-minimum cuts by Kawarabayashi and Thorup (STOC 2015) and Rubinstein, Schramm and Weinberg (ITCS 2018). Our time efficient implementation builds on Karger's tree packing technique (STOC 1996).
翻訳日:2023-04-23 17:19:47 公開日:2021-05-24
# grushin特異点にまたがる量子粒子

Quantum particle across Grushin singularity ( http://arxiv.org/abs/2011.13712v3 )

ライセンス: Link先を確認
Matteo Gallone, Alessandro Michelangeli(参考訳) モデルの種類は、グルーシン・シリンダーとして知られる縮退したリーマン多様体に拘束された量子粒子に対して考慮され、その基礎となる幾何学にのみ自由に従属する: 対応するスペクトル解析は、2つの半円柱を分離する特異点を越える透過現象の観点から詳細に展開される。 古典的対向体は常に測地線に沿って有限時間に落下する粒子からなるが、量子モデルは幾何学的閉じ込め、あるいは反対の部分的な透過と反射を示すことができる。 自由(ラプラス・ベルトラミ)量子ハミルトニアンの局所的な実現は、透過/反射の非等価なプロトコルとして検討され、基底状態と正の値を含むスペクトルの構造が特徴づけられる。 また、定常散乱解析を開発し、透過係数と反射係数を算出する。 これにより、文献で以前に特定されたいわゆる「ブリッジング」送信プロトコルの際立った状態を理解することができ、系統解析の中で研究する。

A class of models is considered for a quantum particle constrained on degenerate Riemannian manifolds known as Grushin cylinders, and moving freely subject only to the underlying geometry: the corresponding spectral analysis is developed in detail in view of the phenomenon of transmission across the singularity that separates the two half-cylinders. Whereas the classical counterpart always consists of a particle falling in finite time along the geodesics onto the metric's singularity locus, the quantum models may display geometric confinement, or on the opposite partial transmission and reflection. All the local realisations of the free (Laplace-Beltrami) quantum Hamiltonian are examined as non-equivalent protocols of transmission/reflection and the structure of their spectrum is characterised, including when applicable their ground state and positivity. Besides, the stationary scattering analysis is developed and transmission and reflection coefficients are calculated. This allows to comprehend the distinguished status of the so-called `bridging' transmission protocol previously identified in the literature, which we recover and study within our systematic analysis.
翻訳日:2023-04-22 20:48:41 公開日:2021-05-24
# マグノンと量子スピン欠陥の相互作用の電界制御

Electric field control of interaction between magnons and quantum spin defects ( http://arxiv.org/abs/2012.01497v2 )

ライセンス: Link先を確認
Abhishek Bharatbhai Solanki, Simeon I. Bogdanov, Avinash Rustagi, Neil R. Dilley, Tingting Shen, Mohammad Mushfiqur Rahman, Wenqi Tong, Punyashloka Debashis, Zhihong Chen, Joerg Appenzeller, Yong P. Chen, Vladimir M. Shalaev, Pramey Upadhyaya(参考訳) 量子スピン欠陥(QSD)とマグノンを結合したハイブリッドシステムは、独自のスピントロニクスデバイス機能と磁気のプローブを可能にする。 本研究では,nv中心スピンに強磁性体-強誘電体多強磁性体を統合することで,マグノン-qsd結合の電界制御を付加する。 量子緩和度測定と強磁性共鳴測定と解析モデリングを組み合わせることで,nvにおける強誘電分極制御により観測された電場チューニング結果が得られた。 また, この制御を活用し, 感度を向上したマグノン強化ハイブリッド電界センサを提案する。

Hybrid systems coupling quantum spin defects (QSD) and magnons can enable unique spintronic device functionalities and probes for magnetism. Here, we add electric field control of magnon-QSD coupling to such systems by integrating ferromagnet-ferroelectric multiferroic with nitrogen-vacancy (NV) center spins. Combining quantum relaxometry with ferromagnetic resonance measurements and analytical modeling, we reveal that the observed electric-field tuning results from ferroelectric polarization control of the magnon-generated fields at the NV. Exploiting the demonstrated control, we also propose magnon-enhanced hybrid electric field sensors with improved sensitivity.
翻訳日:2023-04-22 07:38:20 公開日:2021-05-24
# 量子コードから多様体を構築する

Building manifolds from quantum codes ( http://arxiv.org/abs/2012.02249v3 )

ライセンス: Link先を確認
Michael Freedman and Matthew B. Hastings(参考訳) 我々は、sparse chain complex から $\mathbb{z}$ 上の有界局所幾何学を持つ閉で単連結なリーマン多様体の「リバースエンジニアリング」の手順を与える。 この手順を "lifting" によって得られる連鎖錯体に適用し、最近開発された量子符号は $\mathbb{z}_2$ 上の鎖錯体に対応するため、パワーローム $\mathbb{z}_2$ systolic freedom の最初の例を構成する。 その結果、グラフ理論に独立した関心を持つ可能性があるため、グラフの弱基本サイクル基底を構築するための効率的なランダム化アルゴリズムを与える。 この結果を用いて、構成する多様体の基本群を自明化する。

We give a procedure for "reverse engineering" a closed, simply connected, Riemannian manifold with bounded local geometry from a sparse chain complex over $\mathbb{Z}$. Applying this procedure to chain complexes obtained by "lifting" recently developed quantum codes, which correspond to chain complexes over $\mathbb{Z}_2$, we construct the first examples of power law $\mathbb{Z}_2$ systolic freedom. As a result that may be of independent interest in graph theory, we give an efficient randomized algorithm to construct a weakly fundamental cycle basis for a graph, such that each edge appears only polylogarithmically times in the basis. We use this result to trivialize the fundamental group of the manifold we construct.
翻訳日:2023-04-22 05:07:24 公開日:2021-05-24
# シンメトリーによる電荷の偶数パリティとヒートポンプ

Symmetry-induced even/odd parity in charge and heat pumping ( http://arxiv.org/abs/2012.11970v2 )

ライセンス: Link先を確認
Miguel A. N. Ara\'ujo, Pedro Ninhos and Pedro Ribeiro(参考訳) 金属貯水池に接続されたフロッケ系における離散対称性の存在は、貯水池の化学ポテンシャルである$\mu$の関数として電荷と熱ポンプに一定のパリティを与える。 特に、粒子-ホール対称性(phs)が成り立つとき、電荷のポンプ(熱)は$\mu$の奇数(偶数)関数である。 一方、PHSの積とパリティ対称性のみが存在する場合、電荷(熱)の励起は$\mu$でさえも(負)である。 また,他のユニタリ対称性の存在まで拡張し,流れの方向を逆転する(維持する)ための簡単な基準を与える。 周期的摂動下でSu-Schrieffer-Heegerモデルの2つの変種を用いて本研究を行った。

It is shown that the presence of discrete symmetries in Floquet systems connected to metallic reservoirs imprints a definite parity on the charge and heat pumping as a function of the reservoir's chemical potential, $\mu$. In particular, when particle-hole symmetry (PHS) holds, the pumping of charge (heat) is an odd (even) function of $\mu$. Whereas, if only the product of PHS and parity symmetry is present, pumping of charge (heat) is even (odd) in $\mu$. Our results also extend to the presence of other unitary symmetries and provide a simple criterion for reversing (or maintaining) the direction of the flow. We illustrate our findings using two variants of the Su-Schrieffer-Heeger model under a time-periodic perturbation.
翻訳日:2023-04-19 22:16:05 公開日:2021-05-24
# 一般相対性理論からの脱コヒーレンス

Decoherence from General Relativity ( http://arxiv.org/abs/2012.12903v2 )

ライセンス: Link先を確認
Itamar J. Allali, Mark P. Hertzberg(参考訳) シュロディンガー猫のような状態を含む非自明な量子配列で物質を探索することは非常に興味深い。 このような状態は環境からの脱コヒーレンスに敏感である。 最近はレヴューで。 [1] 非相対論的近似では, 主にダークマター・シュロディンガー・キャット状態(DMSCS)と重力的にのみ相互作用する重畳物質の脱コヒーレンス率を計算した。 本研究ではこれを一般相対論的分析に改善する。 まず、DMSCSを通過するプローブ粒子に対する単一粒子相対論的シュロディンガー方程式を導出する。 静的DMSCSの場合、以前の結果のきちんとした一般化が得られます。 次に、時間依存dmscsの興味深い新しいケースに目を向ける。これはコヒーレントに振動する軸場によって提供され、計量における時間依存振動、すなわち真に量子一般相対論的現象に繋がる。 これらの場合、散乱理論を用いてデコヒーレンス率を導出する。 dmscsが異なる密度プロファイルの重ね合わせにある場合、デコヒーレンスレートは認識可能であることが分かる。 次に、密度が重ね合わせに含まれない新しい特別な場合を考えるが、その場振動の位相は、非相対論的枠組みの中ではデコヒートできない性質である。 プローブ粒子および/またはdmscsの速度分散が遅い場合、位相の非一貫性の速度は指数関数的に抑制される。 しかし、プローブとDMSCSの速度分散の両方が相対論的であれば、位相はより急速に縮退する。 応用として、重ね合わせ相を持つ拡散銀河軸はデコヒーレンスに対して頑健であるが、ブラックホールの地平線付近の密度の高いボソン星や領域はそうではないことを発見し、実験の意義について議論する。

It is of great interest to explore matter in nontrivial quantum arrangements, including Schrodinger cat-like states. Such states are sensitive to decoherence from their environment. Recently, in Ref. [1] we computed the rate of decoherence of a piece of superposed matter that primarily only interacts gravitationally, a dark-matter-Schrodinger-cat-state (DMSCS), within the nonrelativistic approximation. In this work we improve this to a general relativistic analysis. We firstly derive a single particle relativistic Schrodinger equation for a probe particle that passes through the DMSCS; the interaction is provided by the weak field metric of general relativity from the source. For a static DMSCS we find a neat generalization of our previous results. We then turn to the interesting new case of a time dependent DMSCS, which can be provided by a coherently oscillating axion field leading to superposed time dependent oscillations in the metric; a truly quantum-general relativistic phenomenon. We use scattering theory to derive the decoherence rate in all these cases. When the DMSCS is in a superposition of distinct density profiles, we find that the decoherence rate can be appreciable. We then consider the novel special case in which the density is not in a superposition, but the phase of its field oscillation is; this is a property that cannot be decohered within the nonrelativistic framework. We find that if the probe particle and/or the DMSCS's velocity dispersion is slow, then the rate of decoherence of the phase is exponentially suppressed. However, if both the probe and the DMSCS's velocity dispersion are relativistic, then the phase can decohere more rapidly. As applications, we find that diffuse galactic axions with superposed phases are robust against decoherence, while dense boson stars and regions near black hole horizons are not, and we discuss implications for experiment.
翻訳日:2023-04-19 19:38:46 公開日:2021-05-24
# 相互作用するフィボナッチ鎖の量子力学

Quantum dynamics in the interacting Fibonacci chain ( http://arxiv.org/abs/2101.01111v3 )

ライセンス: Link先を確認
Cecilia Chiaracane, Francesca Pietracaprina, Archak Purkayastha, John Goold(参考訳) 準周期幾何学における量子力学は、非自明な局在相が観測されている超低温原子実験において、近年大きな注目を集めている。 そのような準周期モデルの1つはいわゆるフィボナッチモデルである。 この密結合モデルでは、非相互作用粒子はフィボナッチ配列によって生じるオンサイトエネルギーを受ける。 これは、連続的に変化する動的指数を持つ臨界状態を引き起こすことで知られており、異常な輸送に繋がる。 本研究では,非相互作用系に存在する異常拡散が相互作用の存在下で存続するかどうかを調べ,局所化相への遷移への接続を確立する。 本研究では, 相互作用するフィボナッチモデルの力学を, 動的典型的アプローチを用いて無限温度での密度密度相関のリアルタイム拡散について検討した。 また, コンフィグレーション空間における参加エントロピーを計算し, 対角アンサンブルにおける局所観測器の期待値を調べることにより, この知見を裏付ける。

Quantum dynamics on quasiperiodic geometries has recently gathered significant attention in ultra-cold atom experiments where non trivial localised phases have been observed. One such quasiperiodic model is the so called Fibonacci model. In this tight-binding model, non-interacting particles are subject to on-site energies generated by a Fibonacci sequence. This is known to induce critical states, with a continuously varying dynamical exponent, leading to anomalous transport. In this work, we investigate whether anomalous diffusion present in the non-interacting system survives in the presence of interactions and establish connections to a possible transition towards a localized phase. We investigate the dynamics of the interacting Fibonacci model by studying real-time spread of density-density correlations at infinite temperature using the dynamical typicality approach. We also corroborate our findings by calculating the participation entropy in configuration space and investigating the expectation value of local observables in the diagonal ensemble.
翻訳日:2023-04-17 22:06:48 公開日:2021-05-24
# 連続および離散変数プロトコルにおける量子鍵分布の次元縮小

Dimension Reduction in Quantum Key Distribution for Continuous- and Discrete-Variable Protocols ( http://arxiv.org/abs/2101.05799v2 )

ライセンス: Link先を確認
Twesh Upadhyaya, Thomas van Himbeeck, Jie Lin, Norbert L\"utkenhaus(参考訳) 我々は,光連続可変量子鍵分布(qkd)プロトコルの無限次元記述を有限次元定式化と結びつける手法を開発した。 光qkdプロトコルのセキュアな鍵レートは、最近開発された鍵レート計算のための信頼性の高い数値手法を用いて評価することができる。 本手法は,分散変調連続変数qkdプロトコルの漸近的鍵レートを得るのに応用する。 重要なことに、我々のセキュリティ証明は、以前の作品に依存する光子数カットオフ仮定を必要としない。 また,本手法は,離散可変プロトコルに適用した場合,フラグ状態スカッシャーよりも実用的に有利であることを示す。

We develop a method to connect the infinite-dimensional description of optical continuous-variable quantum key distribution (QKD) protocols to a finite-dimensional formulation. The secure key rates of the optical QKD protocols can then be evaluated using recently-developed reliable numerical methods for key rate calculations. We apply this method to obtain asymptotic key rates for discrete-modulated continuous-variable QKD protocols, which are of practical significance due to their experimental simplicity and potential for large-scale deployment in quantum-secured networks. Importantly, our security proof does not require the photon-number cutoff assumption relied upon in previous works. We also demonstrate that our method can provide practical advantages over the flag-state squasher when applied to discrete-variable protocols.
翻訳日:2023-04-15 05:06:42 公開日:2021-05-24
# オープンシステムダイナミクスにおける衝突モデル:深い洞察のための汎用ツール?

Collision models in open system dynamics: A versatile tool for deeper insights? ( http://arxiv.org/abs/2102.05735v2 )

ライセンス: Link先を確認
Steve Campbell and Bassano Vacchini(参考訳) 量子系が情報やエネルギーをその周囲とどのように相互作用し交換するかを理解し、シミュレートすることはユビキタスな問題であり、量子系の力学と熱力学を記述するためのコヒーレントな枠組みを確立するために慎重に取り組まなければならない。 この問題に対処するための様々な手法の開発に多大な努力が注がれており、この視点では、驚くほど柔軟なアプローチとして現れた衝突モデルに焦点が当てられている。 我々は、非マルコフ力学の理解と量子系の熱力学の研究への応用について論じ、衝突モデルが特に洞察に富むことを証明した2つの領域について述べる。 彼らの単純な構造は、非常に広い適用性を持ち、最近の実験的なデモンストレーションを刺激している。 これらの領域に焦点を当てることで、この素晴らしいフレームワークの簡潔なエントリポイントを提供することを目標としています。

Understanding and simulating how a quantum system interacts and exchanges information or energy with its surroundings is a ubiquitous problem, one which must be carefully addressed in order to establish a coherent framework to describe the dynamics and thermodynamics of quantum systems. Significant effort has been invested in developing various methods for tackling this issue and in this Perspective we focus on one such technique, namely collision models, which have emerged as a remarkably flexible approach. We discuss their application to understanding non-Markovian dynamics and to studying the thermodynamics of quantum systems, two areas in which collision models have proven to be particularly insightful. Their simple structure endows them with extremely broad applicability which has spurred their recent experimental demonstrations. By focusing on these areas, our aim is to provide a succinct entry point to this remarkable framework.
翻訳日:2023-04-12 00:29:46 公開日:2021-05-24
# 一般ベル状態の素次元における局所微分可能性の簡易的基準

Simple criterion for local distinguishability of generalized Bell states in prime dimension ( http://arxiv.org/abs/2102.07400v2 )

ライセンス: Link先を確認
T. Hashimoto, M. Horibe, and A. Hayashi(参考訳) 一般化ベル状態の集合(GBS)の局所的識別性について検討した。 まず,一組のGBSを局所的に,局所的な操作や一方向の古典的通信において容易に識別可能なGBSに変換できる条件を明らかにする。 すると、空間次元 $d$ が素数であれば、これらの条件は$\mathbb{C}^d \otimes \mathbb{C}^d$ における$d$ GBSs の集合に対して必要で十分であることを示す。 したがって、素数次元 $d$ gbs のセットの局所的な識別性に対する単純な計算可能な基準が得られる。

Local distinguishability of sets of generalized Bell states (GBSs) is investigated. We first clarify the conditions such that a set of GBSs can be locally transformed to a certain type of GBS set that is easily distinguishable within local operations and one-way classical communication. We then show that, if the space dimension $d$ is a prime, these conditions are necessary and sufficient for sets of $d$ GBSs in $\mathbb{C}^d \otimes \mathbb{C}^d$ to be locally distinguishable. Thus we obtain a simple computable criterion for local distinguishability of sets of $d$ GBSs in prime dimension $d$.
翻訳日:2023-04-11 02:29:26 公開日:2021-05-24
# C*-環のバンドルの拡張

Extensions of Bundles of C*-algebras ( http://arxiv.org/abs/2102.11993v2 )

ライセンス: Link先を確認
Jeremy Steeger and Benjamin H. Feintzeig(参考訳) c*-代数の束は、代数構造がパラメータの値に依存する物理理論の極限を表すのに使うことができる。 第一の例は、厳密な変形量子化の枠組みで表される量子論における物理量のC*-代数の$\hbar\to 0$制限である。 本稿では,C*-代数束のパラメータの制限値への拡張という観点から,そのような制限手順を理解する。 このような拡張の存在と一意性を証明します。 さらに、そのような拡張はファイバー C*-代数上の C*-積、動的自己同型、およびリーブラケット($\hbar\to 0$ の場合)に対して関手的であることを示す。

Bundles of C*-algebras can be used to represent limits of physical theories whose algebraic structure depends on the value of a parameter. The primary example is the $\hbar\to 0$ limit of the C*-algebras of physical quantities in quantum theories, represented in the framework of strict deformation quantization. In this paper, we understand such limiting procedures in terms of the extension of a bundle of C*-algebras to some limiting value of a parameter. We prove existence and uniqueness results for such extensions. Moreover, we show that such extensions are functorial for the C*-product, dynamical automorphisms, and the Lie bracket (in the $\hbar\to 0$ case) on the fiber C*-algebras.
翻訳日:2023-04-10 01:20:54 公開日:2021-05-24
# 非量子源を用いた4状態参照フレーム独立量子鍵分布

Four-state reference-frame-independent quantum key distribution with non-qubit sources ( http://arxiv.org/abs/2103.11202v2 )

ライセンス: Link先を確認
Zhenhua Li, Tianqi Dou, Jipeng Wang, Zhongqi Sun, Fen Zhou, Yanxin Han, Yuqing Huang, Hongwei Liu and Haiqiang Ma(参考訳) 理論と実験の相違は量子鍵分布(qkd)の発展を厳しく制限している。 参照フレームのアライメントを回避するためにRFIプロトコルが提案されている。 しかし、トロイの木馬の攻撃と機器の抜け穴によって引き起こされる複数の光学モードは、不完全な出力信号を引き起こす。 本稿では、損失耐性の一般化技術に基づいて、RFI-QKDプロトコルのセキュリティを非量子ソースで解析する。 シミュレーションの結果,不正な基準フレーム,状態形成の欠陥,複数光モード,トロイの木馬攻撃など,非量子源を効果的に防御できることがわかった。 さらに、それは4つの量子状態の合成しか必要とせず、将来の実験の複雑さを減少させる。

The discrepancy between theory and experiment severely limits the development of quantum key distribution (QKD). Reference-frame-independent (RFI) protocol has been proposed to avoid alignment of the reference frame. However, multiple optical modes caused by Trojan horse attacks and equipment loopholes lead to the imperfect emitted signal unavoidably. In this paper, we analyzed the security of the RFI-QKD protocol with non-qubit sources based on generalizing loss-tolerant techniques. The simulation results show that our work can effectively defend against non-qubit sources including a misaligned reference frame, state preparation flaws, multiple optical modes, and Trojan horse attacks. Moreover, it only requires the preparation of four quantum states, which reduces the complexity of the experiment in the future.
翻訳日:2023-04-07 08:22:46 公開日:2021-05-24
# 一般化された非古典光の資源理論に関する序論

An introductory review on resource theories of generalized nonclassical light ( http://arxiv.org/abs/2103.12314v2 )

ライセンス: Link先を確認
Sanjib Dey(参考訳) 量子資源理論はおそらく、量子物理学が経験した最も革新的な枠組みである。 必要量子効果の量子化法を統一するだけでなく、量子情報から計算までの範囲で、与えられた応用においてその有用性を最適化するプロトコルを識別する上でも活発な役割を果たす。 さらに、資源理論は、コヒーレンス、非古典性、絡み合いといった急進的な量子現象を、現実的な思考の実行に役立てることへの興味から変化させた。 一般的な量子資源理論フレームワークは、全ての可能な量子状態の2つの集合、すなわち自由集合と資源集合に分類する方法に依存している。 自由状態の集合と関連づけられ、対応する物理系によって引き起こされる自然制約から生じる多くの自由量子演算が存在する。 次に、量子資源理論のタスクは、制限された操作の集合から生じる可能性のある側面を資源として発見することである。 標準調和振動子量子光学状態に対応する様々な資源理論の急激な成長とともに、一般化された量子光学状態に対して、同じ方向に大きく進歩した。 一般化された量子光学フレームワークは、非線形性(英語版)、$\mathcal{PT}$-symmetric non-Hermitian theory、$q$-deformed bosonic systemsなど、いくつかの繁栄した現代的アイデアを導入し、標準量子光学と情報理論の同様の目的を達成する。 本稿では、異なる一般化量子光学状態の非古典的資源理論の発展とその量子情報理論における有用性について概説する。

Quantum resource theory is perhaps the most revolutionary framework that quantum physics has ever experienced. It plays vigorous roles in unifying the quantification methods of a requisite quantum effect as wells as in identifying protocols that optimize its usefulness in a given application in areas ranging from quantum information to computation. Moreover, the resource theories have transmuted radical quantum phenomena like coherence, nonclassicality and entanglement from being just intriguing to being helpful in executing realistic thoughts. A general quantum resource theoretical framework relies on the method of categorization of all possible quantum states into two sets, namely, the free set and the resource set. Associated with the set of free states there is a number of free quantum operations emerging from the natural constraints attributed to the corresponding physical system. Then, the task of quantum resource theory is to discover possible aspects arising from the restricted set of operations as resources. Along with the rapid growth of various resource theories corresponding to standard harmonic oscillator quantum optical states, significant advancement has been expedited along the same direction for generalized quantum optical states. Generalized quantum optical framework strives to bring in several prosperous contemporary ideas including nonlinearity, $\mathcal{PT}$-symmetric non-Hermitian theories, $q$-deformed bosonic systems, etc., to accomplish similar but elevated objectives of the standard quantum optics and information theories. In this article, we review the developments of nonclassical resource theories of different generalized quantum optical states and their usefulness in the context of quantum information theories.
翻訳日:2023-04-07 02:25:04 公開日:2021-05-24
# バルク過分極固体における90sを超えるフロッケ予熱

Floquet prethermalization with lifetime exceeding 90s in a bulk hyperpolarized solid ( http://arxiv.org/abs/2104.01988v2 )

ライセンス: Link先を確認
William Beatrez, Otto Janes, Amala Akkiraju, Arjun Pillai, Alexander Oddo, Paul Reshetikhin, Emanuel Druga, Maxwell McAllister, Mark Elo, Benjamin Gilbert, Dieter Suter, and Ashok Ajoy(参考訳) 室温でダイヤモンド中の双極子結合の$^{13}$c核からなるバルク固体におけるフロッケ前熱状態の長期観察を報告する。 初期横向きに合成した核スピンの前駆体として,複数分間の長い時間にわたって崩壊を防止できるパルススピンロックフロッケ制御を示す。 我々はFloquetの前熱寿命を$T_2'\approx$90.9sで観測した。 スピン自体は、$\approx$5.8M制御パルスの適用に応じて$\sim$10minに対して連続的に尋問される。 $^{13}$C核は格子窒素空孔(NV)中心によって光学的に超分極され、超分極と連続スピンの読み出しの組み合わせは測定において重要な信号からノイズをもたらす。 これにより、フロッケ熱化ダイナミクスを前例のない明快さで探すことができる。 熱化過程の特徴として, 熱前台地に至る短時間の過渡過程と, 無限温度への長時間の系加熱の4つを同定した。 この研究は、希薄でランダムに分布する低感度核のネットワークにおいて、フロッケ制御によって可能な新たな機会を示している。 特に、分長の予熱寿命と連続スピン尋問の組み合わせは、超分極フロック前熱核から構築された量子センサーの道を開く。

We report the observation of long-lived Floquet prethermal states in a bulk solid composed of dipolar-coupled $^{13}$C nuclei in diamond at room temperature. For precessing nuclear spins prepared in an initial transverse state, we demonstrate pulsed spin-lock Floquet control that prevents their decay over multiple-minute long periods. We observe Floquet prethermal lifetimes $T_2'\approx$90.9s, extended >60,000-fold over the nuclear free induction decay times. The spins themselves are continuously interrogated for $\sim$10min, corresponding to the application of $\approx$5.8M control pulses. The $^{13}$C nuclei are optically hyperpolarized by lattice Nitrogen Vacancy (NV) centers; the combination of hyperpolarization and continuous spin readout yields significant signal-to-noise in the measurements. This allows probing the Floquet thermalization dynamics with unprecedented clarity. We identify four characteristic regimes of the thermalization process, discerning short-time transient processes leading to the prethermal plateau, and long-time system heating towards infinite temperature. This work points to new opportunities possible via Floquet control in networks of dilute, randomly distributed, low-sensitivity nuclei. In particular, the combination of minutes-long prethermal lifetimes and continuous spin interrogation opens avenues for quantum sensors constructed from hyperpolarized Floquet prethermal nuclei.
翻訳日:2023-04-05 06:37:51 公開日:2021-05-24
# 量子生成逆数ネットワークのエンタングリング

Entangling Quantum Generative Adversarial Networks ( http://arxiv.org/abs/2105.00080v2 )

ライセンス: Link先を確認
Murphy Yuezhen Niu, Alexander Zlokapa, Michael Broughton, Sergio Boixo, Masoud Mohseni, Vadim Smelyanskyi, Hartmut Neven(参考訳) generative adversarial networks (gans) は、高精細画像、ビデオ、音声生成のための最も広く採用されている半教師なし機械学習手法の1つである。 本研究では,従来提案されていた量子GANの制限を克服する,量子生成逆数ネットワーク(量子GAN,EQ-GAN)のための新しいタイプのアーキテクチャを提案する。 EQ-GANは量子回路のエンタングルパワーを活用し、ジェネレータ出力と真の量子データの間のエンタングル操作を実行することにより、判別器とジェネレータ回路の極小最適化の下でナッシュ平衡への収束を保証する。 EQ-GANはコヒーレントなエラーに対してさらなる堅牢性を示し、Google Sycamore超伝導量子プロセッサで実験的にEQ-GANの有効性を示す。 量子状態の効率的な表現を逆向きに学習することにより、近似量子ランダムアクセスメモリ(QRAM)を作成し、量子ニューラルネットワークのトレーニングを含むアプリケーションでの使用を実証する。

Generative adversarial networks (GANs) are one of the most widely adopted semisupervised and unsupervised machine learning methods for high-definition image, video, and audio generation. In this work, we propose a new type of architecture for quantum generative adversarial networks (entangling quantum GAN, EQ-GAN) that overcomes some limitations of previously proposed quantum GANs. Leveraging the entangling power of quantum circuits, EQ-GAN guarantees the convergence to a Nash equilibrium under minimax optimization of the discriminator and generator circuits by performing entangling operations between both the generator output and true quantum data. We show that EQ-GAN has additional robustness against coherent errors and demonstrate the effectiveness of EQ-GAN experimentally in a Google Sycamore superconducting quantum processor. By adversarially learning efficient representations of quantum states, we prepare an approximate quantum random access memory (QRAM) and demonstrate its use in applications including the training of quantum neural networks.
翻訳日:2023-04-01 23:34:16 公開日:2021-05-24
# ゲージの議論: ネーターの理由

The Gauge Argument: A Noether Reason ( http://arxiv.org/abs/2105.11154v1 )

ライセンス: Link先を確認
Bryan W. Roberts, Henrique Gomes and Jeremy Butterfield(参考訳) 現代の物理学においてゲージ対称性はなぜそんなに重要であるのか、理論が何を表すのかを解釈するとき、それを取り除かなければならないからである。 本稿では、力と電荷が適切に結合された方法で、可能な力学モデルの空間を制約するためにゲージ対称性を実効的に適用できる感覚について論じる。 我々は、この種の最もよく知られた応用である「ゲージ論法」や「ゲージ原理」を概観し、その困難について議論し、量子論における有効な定理としてゲージ論法を再構成する。 次に、古典ラグランジュ場理論におけるネーターの第二の定理に基づいて、より良くより一般的なゲージ議論として求めるものを示し、ゲージ対称性が物理的理論の力学をいかに制約するかを理解するためのより適切な枠組みを提供すると主張する。

Why is gauge symmetry so important in modern physics, given that one must eliminate it when interpreting what the theory represents? In this paper we discuss the sense in which gauge symmetry can be fruitfully applied to constrain the space of possible dynamical models in such a way that forces and charges are appropriately coupled. We review the most well-known application of this kind, known as the 'gauge argument' or 'gauge principle', discuss its difficulties, and then reconstruct the gauge argument as a valid theorem in quantum theory. We then present what we take to be a better and more general gauge argument, based on Noether's second theorem in classical Lagrangian field theory, and argue that this provides a more appropriate framework for understanding how gauge symmetry helps to constrain the dynamics of physical theories.
翻訳日:2023-03-29 23:27:38 公開日:2021-05-24
# 原子アンサンブルを用いたRydberg量子ビットの高速作成と検出

Fast Preparation and Detection of a Rydberg Qubit using Atomic Ensembles ( http://arxiv.org/abs/2105.11050v1 )

ライセンス: Link先を確認
Wenchao Xu, Aditya V. Venkatramani, Sergio H. Cant\'u, Tamara \v{S}umarac, Valentin Kl\"usener, Mikhail D. Lukin, Vladan Vuleti\'c(参考訳) 我々は,原子リドバーグ状態キュービットの高速合成,操作,集合的読み出しのための新しいアプローチを示す。 小さな原子アンサンブル内でRydbergブロッキングを使用することで、成功確率が$F_p=0.93 \pm 0.02$で3~$\mu$s内の単一量子ビットを作成し、それを回転させ、その状態は$F_d=0.92 \pm 0.04$で6$\mu s$で読み取る。 アンサンブルアシスト検出は、同じ光学解像度の単一原子の撮像よりも10^3$の速さで、高速に繰り返し非破壊測定を行うことができる。 我々は、15~$\mu$sのキュービットコヒーレンス時間を観察し、90~nsの$\pi$回転時間よりもはるかに長い。 原子配列における高速な量子情報処理から量子誤り訂正の効率的な実装に至るまでの潜在的な応用について論じる。

We demonstrate a new approach for fast preparation, manipulation, and collective readout of an atomic Rydberg-state qubit. By making use of Rydberg blockade inside a small atomic ensemble, we prepare a single qubit within 3~$\mu$s with a success probability of $F_p=0.93 \pm 0.02$, rotate it, and read out its state in $6$ $\mu s$ with a single-shot fidelity of $F_d=0.92 \pm 0.04$. The ensemble-assisted detection is $10^3$ times faster than imaging of a single atom with the same optical resolution, and enables fast repeated non-destructive measurement. We observe qubit coherence times of 15~$\mu$s, much longer than the $\pi$ rotation time of 90~ns. Potential applications ranging from faster quantum information processing in atom arrays to efficient implementation of quantum error correction are discussed.
翻訳日:2023-03-29 23:27:04 公開日:2021-05-24
# 四元性クライン・ゴルドン方程式

Quaternionic Klein-Gordon equation ( http://arxiv.org/abs/2105.11270v1 )

ライセンス: Link先を確認
Sergio Giardino(参考訳) 我々は、クライン=ゴルドン方程式(KGE)を、四元数量子力学(英語版)(\mathbbm H$QM)に対する実ヒルベルト空間アプローチの枠組みで解く。 提示された解は四元数量子論の最も単純な解であり、複素解に最も近い。 電界からの四元イオン荷電スカラー粒子の散乱も得られる。 四価イオンスカラー粒子の顕著な特徴は、巨大な光円錐粒子の存在である。

We solve Klein-Gordon equation (KGE) in the framework of the real Hilbert space approach to quaternionic quantum mechanics ($\mathbbm H$QM). The presented solution is the simplest ever obtained for quaternionic quantum theories, and the closest to the complex solution. The scattering of a quaternionic charged scalar particle from an electric field is also obtained. A remarkable feature of quaternionic scalar particles is the existence of massive light cone particles.
翻訳日:2023-03-29 23:24:54 公開日:2021-05-24
# 波長可変狭帯域マイクロ波単一光子源の量子効率,純度および安定性

Quantum efficiency, purity and stability of a tunable, narrowband microwave single-photon source ( http://arxiv.org/abs/2105.11234v1 )

ライセンス: Link先を確認
Yong Lu, Andreas Bengtsson, Jonathan J.Burnett, Baladitya Suri, Sankar Raman Sathyamoorthy, Hampus Renberg Nilsson, Marco Scigliuzzo, Jonas Bylander, G\"oran Johansson, Per Delsing(参考訳) 71-99\%本質的量子効率を持つマイクロ波単一光子のオンデマンド源を示す。 ソースは狭帯域(300\unite{kHz})で、600MHz帯は約5.2GHzで調整可能である。 このようなデバイスは多くの量子技術や応用において重要な要素である。 この装置は、伝送線路の開口端に結合された超伝導トランスモンキュービットからなる。 $\pi$-pulse が量子ビットを励起し、その後1つの光子を伝送線に素早く放出する。 キャンセルパルスは、反射された$\pi$-pulseを33.5dBに抑制し、0.005光子が光子放出チャネルに漏れる。 我々は、放出された光子場の強い反束を検証し、そのウィグナー関数を決定する。 非放射減衰と1/f$フラックスノイズはどちらも量子効率に影響を与える。 また, デバイスの経時安定性を調査し, 異なる量子ビット周波数における純粋デファスメントレートの非相関な離散的ジャンプを時間スケールで同定し, デバイス誘電体内の独立な2レベル系の欠陥を同定し, 量子ビットに分散結合した。

We demonstrate an on-demand source of microwave single photons with 71--99\% intrinsic quantum efficiency. The source is narrowband (300\unite{kHz}) and tuneable over a 600 MHz range around 5.2 GHz. Such a device is an important element in numerous quantum technologies and applications. The device consists of a superconducting transmon qubit coupled to the open end of a transmission line. A $\pi$-pulse excites the qubit, which subsequently rapidly emits a single photon into the transmission line. A cancellation pulse then suppresses the reflected $\pi$-pulse by 33.5 dB, resulting in 0.005 photons leaking into the photon emission channel. We verify strong antibunching of the emitted photon field and determine its Wigner function. Non-radiative decay and $1/f$ flux noise both affect the quantum efficiency. We also study the device stability over time and identify uncorrelated discrete jumps of the pure dephasing rate at different qubit frequencies on a time scale of hours, which we attribute to independent two-level system defects in the device dielectrics, dispersively coupled to the qubit.
翻訳日:2023-03-29 23:24:10 公開日:2021-05-24
# 小型(ナノスケール)量子系の非自明な動的レジーム

Non-trivial dynamic regimes of small (nano-scale) quantum systems ( http://arxiv.org/abs/2105.11204v1 )

ライセンス: Link先を確認
V.A.Benderskii, E. I. Kats(参考訳) 小さな(しかし多くの原子を含む)量子系(伝統的にナノ系と呼ばれる)は、マクロや真の顕微鏡(原子)の従兄弟と劇的に異なる。 微視的分子系(数個の原子を含む)は正則量子力学(時間依存シュロディンガー方程式)に従うが、連続エネルギースペクトルを持つ巨視的系では、通常緩和されるが規則的な動的挙動も期待できる。 私たちの論文の話題はこれらの限界の間にある。 システムの振る舞いは非自明になり、規則的とカオス的なダイナミクス間の遷移の一種として現れます。 生命のLoschmidtエコー時間が典型的再発周期を超えると,このような動的遷移が生じることを示す。 この挙動は、Zwanzigが数年前に提唱した、正確に解ける量子問題のいくつかのバージョンのフレームワークで説明できる。 これは、初期準備された振動状態と、その振動状態のスペクトルが密接な貯水池とを結合した時間発展の研究に基づいている。 ツワンジヒ模型の最も単純なバージョンでは、貯水池は等距離スペクトルを持ち、系保存結合行列要素は貯水池状態とは独立である。 我々は、初期準備された単一状態とシステムフォノン励起とのカップリングを考慮してモデルを一般化する。 このカップリングは、エコー成分の温度依存性の広がりと減衰をもたらす。 もう一つの一般化は、Zwanzig貯水池に結合した2つの状態によって1つのレベルを置き換えることである。 我々の研究を刺激する基本的なアイデアは、ナノシステム(例えば、分子鎖に沿った励起の散逸自由伝播、または交換反応のモデル)に様々な興味深い応用に適用できると予想する。

Small (but still containing many atoms) quantum systems (traditionally termed nano-systems) are dramatically different from their macroscopic or genuine microscopic (atomic) cousins. Microscopic molecular systems (with a few atoms) obey a regular quantum dynamics (described by time dependent Schrodinger equation), whereas in macroscopic systems with continuous energy spectra, one can expect, also regular, although typically relaxation, dynamic behavior. The topic of our paper is in-between these limits. System behavior becomes non-trivial and manifests a sort of transitions between regular and chaotic dynamics. We show that such dynamic transitions occur when the Loschmidt echo time of life exceeds the typical recurrence cycle period. We illustrate this behavior in the frame work of a few versions of the exactly solvable quantum problem, proposed long ago by Zwanzig. It is based on the study of time evolution of the initially prepared vibrational state coupled to a reservoir with dense spectrum of its vibrational states. In the simplest version of the Zwanzig model, the reservoir has an equidistant spectrum, and the system - reservoir coupling matrix elements are independent of the reservoir states. We generalize the model to include into consideration the coupling of the initially prepared single state to system phonon excitations. The coupling results to temperature dependent broadening and decay of the echo components. Another generalization is to replace a single level by two states coupled to the Zwanzig reservoir. We anticipate that the basic ideas inspiring our work can be applied to a large variety of interesting for the applications nano-systems (e.g., dissipative free propagation of excitations along molecular chains, or as a model for exchange reactions).
翻訳日:2023-03-29 23:23:25 公開日:2021-05-24
# オガネソンの電子親和性

Electron affinity of oganesson ( http://arxiv.org/abs/2105.11435v1 )

ライセンス: Link先を確認
M. Y. Kaygorodov, L. V. Skripnikov, I. I. Tupitsyn, E. Eliav, Y. S. Kozhedub, A. V. Malyshev, A. V. Oleynichenko, V. M. Shabaev, A. V. Titov, A. V. Zaitsevskii(参考訳) 超重元素Ogの電子親和性(EA)は、相対論的フォック空間結合クラスタ(FSCC)と構成相互作用法を用いて計算される。 FSCCクラスタ演算子の拡張は、非摂動的に処理された単一、二重、三重励起を含む。 Gaunt と Retardation の電子-電子相互作用が考慮される。 どちらの方法も互いに一致した結果をもたらす。 EAに対する量子電磁力学補正はモデルラムシフト演算子アプローチを用いて評価される。 Ogの電子親和性は0.076(4)eVとなる。

The electron affinity (EA) of superheavy element Og is calculated by the use of the relativistic Fock-space coupled cluster (FSCC) and configuration interaction methods. The FSCC cluster operator expansion included single, double, and triple excitations treated in a non-perturbative manner. The Gaunt and retardation electron-electron interactions are taken into account. Both methods yield the results that are in agreement with each other. The quantum electrodynamics correction to EA is evaluated using the model Lamb-shift operator approach. The electron affinity of Og is obtained to be 0.076(4) eV.
翻訳日:2023-03-29 23:13:53 公開日:2021-05-24
# 量子エンハンス広視野位相撮像器

A quantum-enhanced wide-field phase imager ( http://arxiv.org/abs/2105.11394v1 )

ライセンス: Link先を確認
Robin Camphausen (1), \'Alvaro Cuevas (1), Luc Duempelmann (1), Roland A. Terborg (1), Ewelina Wajs (1), Simone Tisa (2), Alessandro Ruggeri (2), Iris Cusini (3), Fabian Steinlechner (4 and 5), Valerio Pruneri (1 and 6) ((1) ICFO-Institut de Ciencies Fotoniques, (2) Micro Photon Device SRL, (3) Dipartimento di Elettronica, Informazione e Bioingegneria, Politecnico di Milano, (4) Fraunhofer Institute for Applied Optics and Precision Engineering IOF, (5) Abbe Center of Photonics, Friedrich Schiller University Jena, (6) ICREA-Instituci\'o Catalana de Recerca i Estudis Avan\c{c}ats)(参考訳) 量子技術は光学画像における信号と雑音の比を高めるために用いられる。 単一光子アバランシェ型ダイオードアレイカメラとマルチ光子検出技術の最新技術を活用して,空間偏光ハイパーアングルメントを用いて,走査操作を必要とせずに視野を拡大する超感度位相像装置を提案する。 共屈折位相と非複屈折位相の量子エンハンスドイメージングを行い、同じ光子数で等価な古典的測定値よりも感度が向上することを示した。 バイオメディカルタンパク質マイクロアレイ試料をイメージングして実用的応用性を示す。 我々の量子強調位相イメージング技術は本質的に高解像度画像に対してスケーラブルであり、実用的な量子イメージングに向けた重要なステップである。

Quantum techniques can be used to enhance the signal-to-noise ratio in optical imaging. Leveraging the latest advances in single photon avalanche diode array cameras and multi-photon detection techniques, here we introduce a super-sensitive phase imager, which uses space-polarization hyper-entanglement to operate over a large field-of-view without the need of scanning operation. We show quantum-enhanced imaging of birefringent and non-birefringent phase samples over large areas, with sensitivity improvements over equivalent classical measurements carried out with equal number of photons. The practical applicability is demonstrated by imaging a biomedical protein microarray sample. Our quantum-enhanced phase imaging technology is inherently scalable to high resolution images, and represents an essential step towards practical quantum imaging.
翻訳日:2023-03-29 23:13:35 公開日:2021-05-24
# 単一欠陥を有する一次元系の断熱輸送

Adiabatic transport in one-dimensional systems with a single defect ( http://arxiv.org/abs/2105.11378v1 )

ライセンス: Link先を確認
Kazuaki Takasan, Masaki Oshikawa, Haruki Watanabe(参考訳) U(1)不変系の断熱輸送特性は、ねじれた境界条件に対する基底状態エネルギーの依存性によって決定される。 単一欠陥の存在下での1次元の密結合モデルについて検討し,モデルの基底状態エネルギーが,欠陥による散乱の伝達係数によって完全に特徴づけられるねじれ角に普遍的な依存を示すことを見出した。 大きなシステムサイズ限界におけるドリュート重みの病理学的挙動を同定する。 (i)直線と非線形のドラウド重みは、ねじれ角に依存し、 (ii)$N$-次ドルーデ重みは、システムサイズの$(N-1)$-次パワーに比例して発散する。 発散の物理的意義を明らかにするため,静電場下での密結合モデルのリアルタイムダイナミクスをシミュレーションし,発散が必ずしも大電流を含まないことを示す。 さらに、この結果と境界共形場理論との関係についても論じる。

The adiabatic transport properties of U(1) invariant systems are determined by the dependence of the ground state energy on the twisted boundary condition. We examine a one-dimensional tight-binding model in the presence of a single defect and find that the ground state energy of the model shows a universal dependence on the twist angle that can be fully characterized by the transmission coefficient of the scattering by the defect. We identify resulting pathological behaviors of Drude weights in the large system size limit: (i) both the linear and nonlinear Drude weights depend on the twist angle and (ii) the $N$-th order Drude weight diverges proportionally to the $(N-1)$-th power of the system size. To clarify the physical implication of the divergence, we simulate the real-time dynamics of the tight-binding model under a static electric field and show that the divergence does not necessarily imply the large current. Furthermore, we address the relation between our results and the boundary conformal field theory.
翻訳日:2023-03-29 23:13:23 公開日:2021-05-24
# ガウス量子コヒーレンスの堅牢性の実験的実証

Experimental demonstration of robustness of Gaussian quantum coherence ( http://arxiv.org/abs/2105.11286v1 )

ライセンス: Link先を確認
Haijun Kang, Dongmei Han, Na Wang, Yang Liu, Shuhong Hao, and Xiaolong Su(参考訳) 量子エンタングルメントとステアリングに加えて、量子コヒーレンスも量子情報の有用な量子資源として認識されている。 実用的な量子チャネルにおける量子コヒーレンスの発展を研究することが重要である。 本稿では, 懸濁状態の量子コヒーレンスと, ガウス熱ノイズチャネルで伝達されるガウス型アインシュタイン-ポドルスキー-ローゼン交絡状態の量子コヒーレンスを実験的に定量化する。 伝達状態の共分散行列を再構成することにより、これらのガウス状態の量子コヒーレンスを相対エントロピーを計算することによって定量化する。 圧縮状態とガウス的EPR絡み合い状態の量子コヒーレンスは、スクイーズやガウス的絡み合いの性質とは異なる量子チャネルの損失やノイズに対して堅牢であることを示す。 実験結果は,ガウス量子コヒーレンスを損失環境および雑音環境に適用するための基礎的手法である。

Besides quantum entanglement and steering, quantum coherence has also been identified as a useful quantum resource in quantum information. It is important to investigate the evolution of quantum coherence in practical quantum channels. In this paper, we experimentally quantify the quantum coherence of a squeezed state and a Gaussian Einstein-Podolsky-Rosen (EPR) entangled state transmitted in Gaussian thermal noise channel, respectively. By reconstructing the covariance matrix of the transmitted states, quantum coherence of these Gaussian states is quantified by calculating the relative entropy. We show that quantum coherence of the squeezed state and the Gaussian EPR entangled state is robust against loss and noise in a quantum channel, which is different from the properties of squeezing and Gaussian entanglement. Our experimental results pave the way for application of Gaussian quantum coherence in lossy and noisy environments.
翻訳日:2023-03-29 23:12:09 公開日:2021-05-24
# ファノ問題の古典的類似の問題について

On the question of the classical analogue of the Fano problem ( http://arxiv.org/abs/2106.07342v1 )

ライセンス: Link先を確認
M.B. Lebedev, O.B. Misochko(参考訳) 古典振動子の相互作用の系は、離散エネルギーレベルの量子力学系と同様に、ファノと見なされる状態のエネルギー準連続体と相互作用する。 連続スペクトルの極限は、研究中の問題とコヒーレントフォノンの生成とを関連付ける可能性とともに解析される。

A system of interacting classical oscillators is discussed, similar to a quantum mechanical system of a discrete energy level, interacting with the energy quasi-continuum of states considered Fano. The limit of a continuous spectrum is analyzed together with the possible connection of the problem under study with the generation of coherent phonons.
翻訳日:2023-03-29 23:05:34 公開日:2021-05-24
# 機械学習を用いたインドのe-Education強化

Strengthening e-Education in India using Machine Learning ( http://arxiv.org/abs/2105.15125v1 )

ライセンス: Link先を確認
Naheed Khan, Darshan Bhanushali, Shreya Patel, and Radhika Kotecha(参考訳) e教育は最も奨励される領域の1つとして発展してきた。 インド政府は国民の教育を改善するためにあらゆるエネルギーに投資している。 学校と大学院生は焦点を絞っているが、学習を求める住民全員のためにステージが作成されている。 疑う余地なく、目標は先進的な教育で文字の量を増やすことである。 同等を達成するために、インドにおけるe-Trainingのルートをクリアした教育部門では、データと対応イノベーションの推進が活用されている。 教育者がより現在の視点に集中するのを助けるために、その余分な作業は機械学習(ML)を利用することによって行われる。 プログラミングの違い mlはルールを作成するための情報と回答を扱う。 マシンラーニングが効果的に取り組まれる場合には、トレーニング部門をセットアップし、国の発展に本質的に寄与することができる。 そこで本論文では,インドにおけるe-Educationを機械学習を用いて構築する。 主に3つの関心事に焦点を当てている:コースのパーソナライズドレコメンデーションと、カスタマイズされた教育方法論である。 本研究は,遺伝計算の発達手法を活用し,従来の方法を改善することを提案する。 本論文で提示された実装と実験により,提案計算の有効性が検証された。

e-Education has developed as one of the most encouraging territories. The Indian Government is investing all amounts of energy to improve education among the residents of the nation. School and graduate understudies are focused on, however the stage is being created for all the residents seeking to learn. Without a doubt, the objective is to build the quantity of literates with advanced education. To accomplish the equivalent, propels in Data and Correspondence innovation are being utilized in the education division, which has cleared route for e-Training in India as well. To help educators in concentrating more on more current viewpoints, their excess work can be disposed of utilizing Machine Learning (ML). Difference to programming, ML deals with information and answers to create rules. In the event that Machine Learning is tackled effectively, it can setup the training division and contribute essentially to the development of the country. Hence, the work presented in this paper fortifies e-Education in India utilizing Machine Learning. For the most part, three concerns are focused to be tended to: Personalized recommendation of course and Customized teaching methodology. The work proposes utilizing developmental methodology of hereditary calculations for improving conventional procedures. Implementation and experiments presented in the paper verify the viability of proposed calculations.
翻訳日:2023-03-29 23:05:28 公開日:2021-05-24
# キュービット系における相補性古典構造構築における構成性の役割

The Role of Compositionality in Constructing Complementarity Classical Structures Within Qubit Systems ( http://arxiv.org/abs/2105.11966v1 )

ライセンス: Link先を確認
Aqilah Rasat(参考訳) ヒルベルト空間で表される量子系における可観測性は、前述のヒルベルト空間の直交基底によって与えられる。 カテゴリー量子力学は、そのような可観測物のさらなる抽象化を提供し、量子プロセスに拡張する測定の図式表現を可能にする。 我々の研究は、量子力学(または2次元量子システムとその複合体)のサブ理論において、古典構造と呼ばれるこの可観測性の抽象化を研究している。 単一量子ビット系の相補的古典構造を取り、Kronecker積またはベル状態を介して分離的に構成し、$n$-qubit系の相補的古典構造を得る手順を構築した。 本稿では,この手順を2つのキュービット系と3つのキュービット系に適用する。 次に, グラフ理論におけるzx計算とツールの書き換え規則を用いて, 構築した複合古典構造のうち, 相互補完的古典構造の最大完全集合(相互に偏りのない基底のカテゴリー的対応)を探索した。 2つの量子ビットに対して、相互補完的古典構造の最大完全集合が13個、そして3つの量子ビットに対して、相互補完的古典構造の最大完全集合が32,448個見つかった。

Observables in a quantum system, represented by a Hilbert space, are given by the orthogonal bases of the aforementioned Hilbert space. Categorical Quantum Mechanics provides further abstraction of such observables, allowing for a diagrammatic representation of measurements that extends to quantum processes. Our research studies this abstraction of observables, which has been dubbed as classical structures, in a subtheory of quantum mechanics which focuses on qubit systems (or 2-dimensional quantum system and its composites). We have constructed a procedure that takes the complementary classical structures of a single qubit system and compose them separably via the Kronecker product or 'entangle' them via Bell states to obtain complementary classical structures in $n$-qubit systems. In this present work, we apply our procedure to two qubit and three qubit systems as examples. Then, using rewriting rules of ZX-calculus and tools in graph theory, we searched for maximal complete sets of mutually complementary classical structures (the categorical counterpart of mutually unbiased bases) among our constructed composite classical structures. For two qubits, we found 13 maximal complete sets of mutually complementary classical structures, and for three qubits, we found 32,448 maximal complete sets of mutually complementary classical structures.
翻訳日:2023-03-29 23:04:51 公開日:2021-05-24
# lipkin-meshkov-glickモデルにおける量子幾何学的テンソルと量子相転移

Quantum geometric tensor and quantum phase transitions in the Lipkin-Meshkov-Glick model ( http://arxiv.org/abs/2105.11551v1 )

ライセンス: Link先を確認
Daniel Guti\'errez-Ruiz, Diego Gonzalez, Jorge Ch\'avez-Carlos, Jorge G. Hirsch, and J. David Vergara(参考訳) 量子計量テンソルとそのスカラー曲率をLipkin-Meshkov-Glickモデルの特定のバージョンに対して検討する。 ブロッホコヒーレント状態を用いて古典ハミルトニアンを構築し、その定常点を見つける。 これらは基底状態の量子相転移の存在を示し、そこでは分岐が起こり、励起状態の量子相転移に伴う安定性の変化を示す。 対称的に、1つのハミルトンパラメータの符号変化に対して、同じ現象が最高エネルギー状態で観測される。 ホルシュタイン・プリマコフ近似を用いて、量子計量テンソルの解析式を導出し、スカラーおよびベリー曲率を計算する。 解析結果と厳密な数値対角化により得られた有限次元の値を比較し,ホルシュタイン-プリマコフ近似が成立しない相転移近傍の点を除いて,パラメータ空間の広い領域におけるシステムの大容量化について,両者の優れた一致を見出す。

We study the quantum metric tensor and its scalar curvature for a particular version of the Lipkin-Meshkov-Glick model. We build the classical Hamiltonian using Bloch coherent states and find its stationary points. They exhibit the presence of a ground state quantum phase transition, where a bifurcation occurs, showing a change of stability associated with an excited state quantum phase transition. Symmetrically, for a sign change in one Hamiltonian parameter, the same phenomenon is observed in the highest energy state. Employing the Holstein-Primakoff approximation, we derive analytic expressions for the quantum metric tensor and compute the scalar and Berry curvatures. We contrast the analytic results with their finite-size counterparts obtained through exact numerical diagonalization and find an excellent agreement between them for large sizes of the system in a wide region of the parameter space, except in points near the phase transition where the Holstein-Primakoff approximation ceases to be valid.
翻訳日:2023-03-29 23:04:28 公開日:2021-05-24
# ゲージ不変トロッタライゼーションに対するせん断法

Shearing approach to gauge invariant Trotterization ( http://arxiv.org/abs/2105.11548v1 )

ライセンス: Link先を確認
Jesse R. Stryker(参考訳) ゲージ場理論の普遍的な量子シミュレーションは、使用可能なゲート集合を用いて所望の演算を正確にコンパイルする方法が分かっていない場合、ゲージ対称性違反のリスクにさらされる。 本稿では,ブロック対角化法を図形的に動機づけることにより,ゲージ不変性を損なうことなく,アベリアゲージ理論において時間発展がどのようにコンパイルされるかを示す。 ゲージ不変相互作用が離散量子数の空間における「空間的ネットワーク」と関連付けられている場合、空間的ネットワークを循環的にせん断すると、多くの量子数への同時更新が単一の量子数の条件付き更新に変換される。 せん断は格子qedのゲージマッターおよび磁気相互作用に明示的に適用される。 アーベルゲージ対称性の保存を成功させる特徴は非アーベル理論にも見られ、量子色力学のゲージ不変シミュレーションに近いものとなる。

Universal quantum simulations of gauge field theories are exposed to the risk of gauge symmetry violations when it is not known how to compile the desired operations exactly using the available gate set. In this letter, we show how time evolution can be compiled in an Abelian gauge theory -- if only approximately -- without compromising gauge invariance, by graphically motivating a block-diagonalization procedure. When gauge invariant interactions are associated with a "spatial network" in the space of discrete quantum numbers, it is seen that cyclically shearing the spatial network converts simultaneous updates to many quantum numbers into conditional updates of a single quantum number: ultimately, this eliminates any need to pass through (and acquire overlap onto) unphysical intermediate configurations. Shearing is explicitly applied to gauge-matter and magnetic interactions of lattice QED. The features that make shearing successful at preserving Abelian gauge symmetry may also be found in non-Abelian theories, bringing one closer to gauge invariant simulations of quantum chromodynamics.
翻訳日:2023-03-29 23:04:12 公開日:2021-05-24
# NV Center間の量子状態転送 -- 13_C$システムとCPWキャビティを結合

Quantum State Transfer Between NV Center -- $13_C$ System Coupled To A CPW Cavity ( http://arxiv.org/abs/2105.11507v1 )

ライセンス: Link先を確認
Soubhik Pal and Chiranjib Mitra(参考訳) 量子状態転送は、飛行中のQubitからの情報が量子状態転送を介してノード内の静止Qubitに転送されるとき、量子ネットワークを構築する上で非常に重要なプロセスである。 NV中心は、その長いコヒーレンス時間と近くの13ドルCの核スピンの存在により、マルチキュービット量子メモリの優れた候補である。 本稿では,このような量子状態がキャビティからダイヤモンド中の1つの窒素空洞中心の13_c$原子核スピンに転移する理論的な記述を提案し,スケーラブルな量子ネットワークと量子シミュレーションを実現する上で大きな可能性を示す。 フルハミルトニアンはハミルトニアンにおけるゼロ次および相互作用項と共に考慮され、実効ハミルトニアン理論の理論が適用された。 解析計算とQuTipを用いたシミュレーションにより, 複合空洞の時間発展について検討した。 ここでは状態伝達と忠実度測定のグラフを示す。 この理論記述は, 適切なシステムパラメータを選択することにより, 高忠実度量子状態のキャビティから13_C$中心への転送を検証する。

Quantum state transfer is a very important process in building a quantum network when information from flying Qubit is transferred to the stationary Qubit in a node via a quantum state transfer. NV centers due to their long coherence time and the presence of nearby $13_C$ nuclear spin is an excellent candidate for multi-Qubit quantum memory. Here we propose a theoretical description for such a quantum state transfer from a cavity to a nearest neighbour $13_C$ nuclear spin of a single Nitrogen vacancy center in diamond; it shows great potential in realizing scalable quantum networks and quantum simulation. The full Hamiltonian was considered with the zeroth-order and interaction terms in the Hamiltonian and the theory of effective hamiltonian theory was applied. We study the time evolution of the combined cavity-$13_C$ state through analytical calculation and simulation using QuTip. Graphs for state transfer and fidelity measurement are presented here. We show that our theoretical description verifies a high fidelity quantum state transfer from the cavity to $13_C$ center by choosing suitable system parameters.
翻訳日:2023-03-29 23:03:53 公開日:2021-05-24
# 連続領域における進化アルゴリズムの遺伝子型圧縮と拡張について

On the Genotype Compression and Expansion for Evolutionary Algorithms in the Continuous Domain ( http://arxiv.org/abs/2105.11502v1 )

ライセンス: Link先を確認
Lucija Planinic, Marko Djurasevic, Luca Mariot, Domagoj Jakobovic, Stjepan Picek, Carlos Coello Coello(参考訳) 本稿では,遺伝子型の大きさが進化的アルゴリズムの性能に及ぼす影響について検討する。 我々は,表現型圧縮(表現型より小さい)と拡張(表現型より大きい)を検討し,圧縮型と拡張型の両方から表現型の原変数を再構築するための異なる戦略を定義する。 提案手法は,cocoベンチマーク関数,物理的非clonable関数のモデリング,ニューラルネットワーク重み最適化という3つの最適化問題に対して,いくつかの進化的アルゴリズムを用いてテストする。 以上の結果から,ジェノタイプ拡張は圧縮よりもかなり優れており,多くのシナリオにおいて,元のジェノタイプエンコーディングよりも優れていた。 これは拡張法で導入されたジェノタイプ・表現型マッピングの変化に起因する可能性がある: この修正はドメインのランドスケープを効果的に変換し、探索空間のトラバーサルを緩和する。

This paper investigates the influence of genotype size on evolutionary algorithms' performance. We consider genotype compression (where genotype is smaller than phenotype) and expansion (genotype is larger than phenotype) and define different strategies to reconstruct the original variables of the phenotype from both the compressed and expanded genotypes. We test our approach with several evolutionary algorithms over three sets of optimization problems: COCO benchmark functions, modeling of Physical Unclonable Functions, and neural network weight optimization. Our results show that genotype expansion works significantly better than compression, and in many scenarios, outperforms the original genotype encoding. This could be attributed to the change in the genotype-phenotype mapping introduced with the expansion methods: this modification beneficially transforms the domain landscape and alleviates the search space traversal.
翻訳日:2023-03-29 23:03:35 公開日:2021-05-24
# SU(2)kチャーン・サイモンズ理論のレベルランク双対性とハイパーグラフとマジック状態

Level-rank duality of SU(2)k Chern-Simons theory, and of hypergraph and magic states ( http://arxiv.org/abs/2105.11498v1 )

ライセンス: Link先を確認
Howard J. Schnitzer(参考訳) SU(2)kチャーン・サイモンズ理論のレベルランク双対性を議論し、グラフ、ハイパーグラフ、マジック状態に適用する。

The level-rank duality of SU(2)k Chern-Simons theory is discussed, and applied to graph, hypergraph, and magic states.
翻訳日:2023-03-29 23:03:19 公開日:2021-05-24
# 非平衡訓練データシナリオにおける教師なしニューラルマシン翻訳の自己学習

Self-Training for Unsupervised Neural Machine Translation in Unbalanced Training Data Scenarios ( http://arxiv.org/abs/2004.04507v2 )

ライセンス: Link先を確認
Haipeng Sun, Rui Wang, Kehai Chen, Masao Utiyama, Eiichiro Sumita, and Tiejun Zhao(参考訳) 巨大な単言語コーパスのみに依存するunsupervised neural machine translation (UNMT)は、いくつかの翻訳タスクにおいて顕著な結果を得た。 しかし、現実のシナリオでは、エストニア語のような極端に低リソースな言語には巨大な単言語コーパスが存在しず、UNMTシステムは1つの言語に十分な訓練コーパスが存在しない場合、通常は不十分である。 本稿ではまず,UNMTの非バランスなトレーニングデータシナリオを定義し,分析する。 このシナリオに基づいて,ロバストな unmt システムを訓練し,その性能を向上させる unmt 自己学習機構を提案する。 複数の言語ペアにおける実験結果から,提案手法が従来のunmtシステムを大きく上回ることがわかった。

Unsupervised neural machine translation (UNMT) that relies solely on massive monolingual corpora has achieved remarkable results in several translation tasks. However, in real-world scenarios, massive monolingual corpora do not exist for some extremely low-resource languages such as Estonian, and UNMT systems usually perform poorly when there is not adequate training corpus for one language. In this paper, we first define and analyze the unbalanced training data scenario for UNMT. Based on this scenario, we propose UNMT self-training mechanisms to train a robust UNMT system and improve its performance in this case. Experimental results on several language pairs show that the proposed methods substantially outperform conventional UNMT systems.
翻訳日:2022-12-15 02:55:04 公開日:2021-05-24
# DFUC2020:糖尿病足部潰瘍検出のための解析

DFUC2020: Analysis Towards Diabetic Foot Ulcer Detection ( http://arxiv.org/abs/2004.11853v3 )

ライセンス: Link先を確認
Bill Cassidy and Neil D. Reeves and Pappachan Joseph and David Gillespie and Claire O'Shea and Satyan Rajbhandari and Arun G. Maiya and Eibe Frank and Andrew Boulton and David Armstrong and Bijan Najafi and Justina Wu and Moi Hoon Yap(参考訳) 20秒ごとに、糖尿病のため世界中のどこかで手足が切断される。 これはグローバルな解決策を必要とする世界的な健康問題です。 機械学習技術を用いた糖尿病性足底潰瘍の自動検出を懸念するMICCAI課題は,この医療ニーズに対処する革新的な医療技術の開発を加速させる。 最近の研究は、患者のケアを改善し、医療システムの負担を軽減するために、クラウドベースの検出アルゴリズムの開発に注力している。 これらは、患者(または介護者、パートナー、家族)が自宅で自分の状態をモニターし、糖尿病性足潰瘍(DFU)の出現を検出するためのモバイルアプリによるサービスとして利用することができる。 マンチェスター・メトロポリタン大学、ランカシャー教育病院、マンチェスター大学NHS財団との共同研究は、より高度なDFU検出方法の研究を支援するために、4000枚のDFU画像のリポジトリを作成した。 英国、米国、インド、ニュージーランドの主任科学者による共同研究に基づいて、この課題はオリジナルの研究を誘致し、研究者間の相互作用と学際的なコラボレーションを促進する。 本稿では,データセットの記述と分析,評価方法,ベンチマークアルゴリズム,初期評価結果について述べる。 最先端の研究と進行中の研究に有用な洞察を提供することによって、挑戦を促進する。 この大きな課題は、資源利用へのストレスによって、人々が自宅で活動し、健康で、無傷でいられる技術の必要性が高まる、パンデミック期とポストパンデミック期にはさらに緊急性が高まることである。

Every 20 seconds, a limb is amputated somewhere in the world due to diabetes. This is a global health problem that requires a global solution. The MICCAI challenge discussed in this paper, which concerns the automated detection of diabetic foot ulcers using machine learning techniques, will accelerate the development of innovative healthcare technology to address this unmet medical need. In an effort to improve patient care and reduce the strain on healthcare systems, recent research has focused on the creation of cloud-based detection algorithms. These can be consumed as a service by a mobile app that patients (or a carer, partner or family member) could use themselves at home to monitor their condition and to detect the appearance of a diabetic foot ulcer (DFU). Collaborative work between Manchester Metropolitan University, Lancashire Teaching Hospital and the Manchester University NHS Foundation Trust has created a repository of 4,000 DFU images for the purpose of supporting research toward more advanced methods of DFU detection. Based on a joint effort involving the lead scientists of the UK, US, India and New Zealand, this challenge will solicit original work, and promote interactions between researchers and interdisciplinary collaborations. This paper presents a dataset description and analysis, assessment methods, benchmark algorithms and initial evaluation results. It facilitates the challenge by providing useful insights into state-of-the-art and ongoing research. This grand challenge takes on even greater urgency in a peri and post-pandemic period, where stresses on resource utilization will increase the need for technology that allows people to remain active, healthy and intact in their home.
翻訳日:2022-12-10 04:02:46 公開日:2021-05-24
# シンセサイザー:トランスフォーマーモデルにおける自己意識の再考

Synthesizer: Rethinking Self-Attention in Transformer Models ( http://arxiv.org/abs/2005.00743v3 )

ライセンス: Link先を確認
Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng(参考訳) ドット積セルフアテンションは最先端トランスフォーマーモデルにとって中心的かつ不可欠であることが知られている。 でも本当に必要か? 本稿では,ドット製品に基づく自己認識機構がトランスフォーマーモデルの性能に与える影響について検討する。 広範囲にわたる実験の結果,(1)ランダムアライメント行列は驚くほど競争力が高く,(2)トークン-キー相互作用による注意重みの学習は有用であるが,必ずしも重要ではないことがわかった。 この目的のために,トークン-トークン相互作用を伴わない合成注意重み学習モデルであるtextsc{Synthesizer}を提案する。 本研究では, 機械翻訳, 言語モデリング, テキスト生成, GLUE/SuperGLUEベンチマークなど, 各種タスクのバニラトランスフォーマーモデルと比較して, 単純な合成器が高い競争力を発揮することを示す。 ドット製品に注意を払って構成すると、SynthesizersはTransformerより一貫して優れています。 さらに、SynthesizersとDynamic Convolutionsのさらなる比較を行い、単純なRandom Synthesizerが60\%$より高速であるだけでなく、相対的な3.5\%$でパープレキシティを向上させることを示した。 最後に、単純な因子化シンセサイザーは、タスクのみをエンコーディングするリンフォーマを上回ることができることを示す。

The dot product self-attention is known to be central and indispensable to state-of-the-art Transformer models. But is it really required? This paper investigates the true importance and contribution of the dot product-based self-attention mechanism on the performance of Transformer models. Via extensive experiments, we find that (1) random alignment matrices surprisingly perform quite competitively and (2) learning attention weights from token-token (query-key) interactions is useful but not that important after all. To this end, we propose \textsc{Synthesizer}, a model that learns synthetic attention weights without token-token interactions. In our experiments, we first show that simple Synthesizers achieve highly competitive performance when compared against vanilla Transformer models across a range of tasks, including machine translation, language modeling, text generation and GLUE/SuperGLUE benchmarks. When composed with dot product attention, we find that Synthesizers consistently outperform Transformers. Moreover, we conduct additional comparisons of Synthesizers against Dynamic Convolutions, showing that simple Random Synthesizer is not only $60\%$ faster but also improves perplexity by a relative $3.5\%$. Finally, we show that simple factorized Synthesizers can outperform Linformers on encoding only tasks.
翻訳日:2022-12-07 12:07:47 公開日:2021-05-24
# MultiXNet:マルチステージマルチモード動作予測

MultiXNet: Multiclass Multistage Multimodal Motion Prediction ( http://arxiv.org/abs/2006.02000v4 )

ライセンス: Link先を確認
Nemanja Djuric, Henggang Cui, Zhaoen Su, Shangxuan Wu, Huahua Wang, Fang-Chieh Chou, Luisa San Martin, Song Feng, Rui Hu, Yang Xu, Alyssa Dayan, Sidney Zhang, Brian C. Becker, Gregory P. Meyer, Carlos Vallespi-Gonzalez, Carl K. Wellington(参考訳) 自動運転パズルの重要なピースの1つは、自動運転車(SDV)の周囲を理解し、これらの環境が近い将来どのように変化するかを予測することである。 この課題に対処するために,lidarセンサデータに基づくエンドツーエンドの検出と動作予測手法であるmultixnetを提案する。 このアプローチは、複数のトラフィックアクターのクラスを処理し、共同で訓練された第2段階の軌道修正ステップを追加し、複数の離散的なトラフィック挙動とキャリブレーションされた連続位置の不確実性を含む将来のアクター動作に対するマルチモーダル確率分布を生成する。 この手法は、いくつかの都市でSDVが収集した大規模な実世界のデータに基づいて評価され、その結果、既存の最先端のアプローチよりも優れていることが示された。

One of the critical pieces of the self-driving puzzle is understanding the surroundings of a self-driving vehicle (SDV) and predicting how these surroundings will change in the near future. To address this task we propose MultiXNet, an end-to-end approach for detection and motion prediction based directly on lidar sensor data. This approach builds on prior work by handling multiple classes of traffic actors, adding a jointly trained second-stage trajectory refinement step, and producing a multimodal probability distribution over future actor motion that includes both multiple discrete traffic behaviors and calibrated continuous position uncertainties. The method was evaluated on large-scale, real-world data collected by a fleet of SDVs in several cities, with the results indicating that it outperforms existing state-of-the-art approaches.
翻訳日:2022-11-25 17:53:56 公開日:2021-05-24
# 教師なし機械翻訳のためのクロスモデル逆転写蒸留法

Cross-model Back-translated Distillation for Unsupervised Machine Translation ( http://arxiv.org/abs/2006.02163v4 )

ライセンス: Link先を確認
Xuan-Phi Nguyen, Shafiq Joty, Thanh-Tung Nguyen, Wu Kui, Ai Ti Aw(参考訳) 最近のunsupervised machine translation (umt) システムは、通常、初期化、言語モデリング、反復バックトランスレーションという3つの原則を採用している。 重要なことに、言語モデリングのための反復的なバックトランスレーションとデノベーション自動エンコーディングは、UTTシステムのトレーニングにデータ多様性を提供する。 しかし、これらの多様化プロセスからの利益は高まりつつあるようだ。 我々は、既存の原則に欠けている別のレベルのデータ多様化を誘発することを目的とした、CBD(Cross-model Back-trantransferase Distillation)と呼ばれる標準UTTフレームワークに新しいコンポーネントを導入する。 CBDは以前のUTTアプローチすべてに適用できる。 我々の実験では、CBDは、WMT'14、WMT'16、WMT'16、WMT'16において、それぞれ38.2、30.1、36.3BLEUの非言語翻訳を達成している。 また、IWSLTの英語とドイツ語のタスクにおいて1.5-3.3のBLEU改善が達成された。 広範な実験分析により,cbdはデータ多様性を取り入れているが,他の類似種はそうではないため有効であることが示された。

Recent unsupervised machine translation (UMT) systems usually employ three main principles: initialization, language modeling and iterative back-translation, though they may apply them differently. Crucially, iterative back-translation and denoising auto-encoding for language modeling provide data diversity to train the UMT systems. However, the gains from these diversification processes has seemed to plateau. We introduce a novel component to the standard UMT framework called Cross-model Back-translated Distillation (CBD), that is aimed to induce another level of data diversification that existing principles lack. CBD is applicable to all previous UMT approaches. In our experiments, CBD achieves the state of the art in the WMT'14 English-French, WMT'16 English-German and English-Romanian bilingual unsupervised translation tasks, with 38.2, 30.1, and 36.3 BLEU respectively. It also yields 1.5-3.3 BLEU improvements in IWSLT English-French and English-German tasks. Through extensive experimental analyses, we show that CBD is effective because it embraces data diversity while other similar variants do not.
翻訳日:2022-11-25 17:18:31 公開日:2021-05-24
# 高能率画像復元のための自己畳み込みによる非局所前処理

Exploiting Non-Local Priors via Self-Convolution For Highly-Efficient Image Restoration ( http://arxiv.org/abs/2006.13714v2 )

ライセンス: Link先を確認
Lanqing Guo, Zhiyuan Zha, Saiprasad Ravishankar and Bihan Wen(参考訳) 画像処理や画像処理における逆問題を解くには,効果的な画像優先法の構築が不可欠である。 近年,画像の非局所的類似性を類似したパッチをグループ化し,多くのアプリケーションで最新結果を示した。 しかし、フィルタリングやスパーシティに基づく古典的な手法と比較して、非局所アルゴリズムの多くは時間消費であり、主に重複するパッチ間の距離を計算する必要がある、非効率で冗長なブロックマッチングステップのためである。 本研究では,画像の非局所的類似性を自己管理的に活用する新たな自己畳み込み演算子を提案する。 提案する自己畳み込みは、一般に使用されるブロックマッチングステップを一般化し、より安価な計算で等価な結果を生成することができる。 さらに, 自己畳み込みを適用することにより, 非局所モデリングにおける従来のブロックマッチングよりもはるかに効率的である効率的なマルチモダリティ画像復元手法を提案する。 実験結果から,(1)自己畳み込みにより2倍から9倍の高速なブロックマッチングが実現され,(2)RGB-NIR画像の効率性と有効性において,より優れた復調結果が得られることが示された。 コードは \href{https://github.com/GuoLanqing/Self-Convolution} で公開されている。

Constructing effective image priors is critical to solving ill-posed inverse problems in image processing and imaging. Recent works proposed to exploit image non-local similarity for inverse problems by grouping similar patches and demonstrated state-of-the-art results in many applications. However, compared to classic methods based on filtering or sparsity, most of the non-local algorithms are time-consuming, mainly due to the highly inefficient and redundant block matching step, where the distance between each pair of overlapping patches needs to be computed. In this work, we propose a novel Self-Convolution operator to exploit image non-local similarity in a self-supervised way. The proposed Self-Convolution can generalize the commonly-used block matching step and produce equivalent results with much cheaper computation. Furthermore, by applying Self-Convolution, we propose an effective multi-modality image restoration scheme, which is much more efficient than conventional block matching for non-local modeling. Experimental results demonstrate that (1) Self-Convolution can significantly speed up most of the popular non-local image restoration algorithms, with two-fold to nine-fold faster block matching, and (2) the proposed multi-modality image restoration scheme achieves superior denoising results in both efficiency and effectiveness on RGB-NIR images. The code is publicly available at \href{https://github.com/GuoLanqing/Self-Convolution}.
翻訳日:2022-11-17 12:59:55 公開日:2021-05-24
# 逆有向グラフ埋め込み

Adversarial Directed Graph Embedding ( http://arxiv.org/abs/2008.03667v3 )

ライセンス: Link先を確認
Shijie Zhu, Jianxin Li, Hao Peng, Senzhang Wang and Lifang He(参考訳) 有向グラフのノード表現学習は多くのグラフマイニング作業を容易にするために重要である。 ノード間の有向エッジをキャプチャするために、既存の手法では、ソースベクトルとターゲットベクトルの2つの埋め込みベクトルを学習する。 しかし,これらの手法はソースベクトルとターゲットベクトルを別々に学習する。 非常に低い次数または外度を持つノードでは、対応するターゲットベクトルまたはソースベクトルを効果的に学習することはできない。 本稿では,dgganと呼ばれる生成的逆ネットワークに基づく,新しい有向グラフ埋め込みフレームワークを提案する。 主なアイデアは、各ノードのソースとターゲットベクターを共同で学習する2つのジェネレータと識別器を展開するために、逆向きのメカニズムを使用することである。 与えられたノードに対して、2つのジェネレータは同じ分布からフェイクターゲットとソース隣ノードを生成するように訓練され、識別器は隣ノードが本物か偽であるかを識別する。 2つのジェネレータは統一されたフレームワークに定式化され、互いに強化し、より堅牢なソースとターゲットベクトルを学ぶことができる。 大規模な実験により、DGGANは有向グラフ上の複数のグラフマイニングタスクにまたがる既存の最先端の手法よりも一貫して大幅に優れていた。

Node representation learning for directed graphs is critically important to facilitate many graph mining tasks. To capture the directed edges between nodes, existing methods mostly learn two embedding vectors for each node, source vector and target vector. However, these methods learn the source and target vectors separately. For the node with very low indegree or outdegree, the corresponding target vector or source vector cannot be effectively learned. In this paper, we propose a novel Directed Graph embedding framework based on Generative Adversarial Network, called DGGAN. The main idea is to use adversarial mechanisms to deploy a discriminator and two generators that jointly learn each node's source and target vectors. For a given node, the two generators are trained to generate its fake target and source neighbor nodes from the same underlying distribution, and the discriminator aims to distinguish whether a neighbor node is real or fake. The two generators are formulated into a unified framework and could mutually reinforce each other to learn more robust source and target vectors. Extensive experiments show that DGGAN consistently and significantly outperforms existing state-of-the-art methods across multiple graph mining tasks on directed graphs.
翻訳日:2022-11-01 04:53:27 公開日:2021-05-24
# 標準およびロバストガウス過程帯域最適化のための下界について

On Lower Bounds for Standard and Robust Gaussian Process Bandit Optimization ( http://arxiv.org/abs/2008.08757v2 )

ライセンス: Link先を確認
Xu Cai and Jonathan Scarlett(参考訳) 本稿では,有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存の下位境界は,非ベイジアンガウス過程のバンドイット問題とみなすことができる再生ケルネルヒルベルト空間 (RKHS) である。 標準的な雑音条件では, 単純さ, 汎用性, 誤り確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提供する。 各標本点が適切に拘束された敵意によって摂動するロバストな設定において、我々は決定論的戦略のための新しい下界を提供し、個々の依存関係のみを特徴付ける既存の下界とは対照的に、腐敗レベルと時間軸に対する累積的後悔の必然的な共同依存を示す。 さらに、逆数によって最終点が乱される特異なロバストな設定では、$\frac{2}{3}$ 以上の任意の成功確率を許容することにより、目標の成功確率を非常に近くまで保つような既存の下界を強化する。

In this paper, we consider algorithm-independent lower bounds for the problem of black-box optimization of functions having a bounded norm is some Reproducing Kernel Hilbert Space (RKHS), which can be viewed as a non-Bayesian Gaussian process bandit problem. In the standard noisy setting, we provide a novel proof technique for deriving lower bounds on the regret, with benefits including simplicity, versatility, and an improved dependence on the error probability. In a robust setting in which every sampled point may be perturbed by a suitably-constrained adversary, we provide a novel lower bound for deterministic strategies, demonstrating an inevitable joint dependence of the cumulative regret on the corruption level and the time horizon, in contrast with existing lower bounds that only characterize the individual dependencies. Furthermore, in a distinct robust setting in which the final point is perturbed by an adversary, we strengthen an existing lower bound that only holds for target success probabilities very close to one, by allowing for arbitrary success probabilities above $\frac{2}{3}$.
翻訳日:2022-10-27 03:22:29 公開日:2021-05-24
# イテレーティブドキュメンテーションでイエローホップなオープンドメインの質問に答える

Answering Any-hop Open-domain Questions with Iterative Document Reranking ( http://arxiv.org/abs/2009.07465v5 )

ライセンス: Link先を確認
Ping Nie, Yuyu Zhang, Arun Ramamurthy, Le Song(参考訳) オープンドメイン質問応答(QA)の既存のアプローチは、通常、シングルホップまたはマルチホップの推論を必要とする質問に対して設計されている。 また、複数ステップの文書検索では、関連するがサポートされていない文書が多いため、下流のノイズに敏感なリーダモジュールを弱め、回答を抽出する。 これらの課題に対処するために,我々は,ドキュメントを反復的に検索,再ランク付け,フィルタリングし,検索プロセスを停止するタイミングを適応的に決定する,任意のホップのオープンドメイン質問に答える統一qaフレームワークを提案する。 検索精度を向上させるために,反復的リランキングフレームワークのコアとしてマルチドキュメントインタラクションを行うグラフベースのリランキングモデルを提案する。 提案手法は,Natural Questions Open, SQuAD Open, HotpotQAなど,シングルホップとマルチホップのオープンドメインのQAデータセットにおいて,最先端のQAデータセットと同等以上のパフォーマンスを実現する。

Existing approaches for open-domain question answering (QA) are typically designed for questions that require either single-hop or multi-hop reasoning, which make strong assumptions of the complexity of questions to be answered. Also, multi-step document retrieval often incurs higher number of relevant but non-supporting documents, which dampens the downstream noise-sensitive reader module for answer extraction. To address these challenges, we propose a unified QA framework to answer any-hop open-domain questions, which iteratively retrieves, reranks and filters documents, and adaptively determines when to stop the retrieval process. To improve the retrieval accuracy, we propose a graph-based reranking model that perform multi-document interaction as the core of our iterative reranking framework. Our method consistently achieves performance comparable to or better than the state-of-the-art on both single-hop and multi-hop open-domain QA datasets, including Natural Questions Open, SQuAD Open, and HotpotQA.
翻訳日:2022-10-17 23:55:54 公開日:2021-05-24
# 発話・連続音声分離のためのマルチマイクロホン複合スペクトルマッピング

Multi-microphone Complex Spectral Mapping for Utterance-wise and Continuous Speech Separation ( http://arxiv.org/abs/2010.01703v2 )

ライセンス: Link先を確認
Zhong-Qiu Wang and Peidong Wang and DeLiang Wang(参考訳) 残響条件下での話者分離に時間変化のないビームフォーミングに深層学習を適用したマルチマイクロホン複合スペクトルマッピングを提案する。 我々は話者分離と残響の両立を目指している。 本研究は,まずオフライン話者分離の検討を行い,その後,ブロック・オン・ライン連続音声分離(css)へ拡張する。 トレーニングとテストの間の固定配列幾何を仮定し、複数のマイクのRI成分から基準マイクにおけるターゲット音声のリアルおよび想像的(RI)成分を予測するためにディープニューラルネットワーク(DNN)を訓練する。 次に,マルチマイクロホン複合スペクトルマッピングと最小分散歪みレス応答(mvdr)ビームフォーミングとポストフィルタを統合し,分離をさらに改善し,ブロックオンラインcssのフレームレベル話者カウントと組み合わせる。 本システムは,所定の形状に配置されたマイクロホン数に基づいて,シミュレーション室インパルス応答(RIR)を訓練するが,同じ形状を持つ実列によく一般化する。 シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。

We propose multi-microphone complex spectral mapping, a simple way of applying deep learning for time-varying non-linear beamforming, for speaker separation in reverberant conditions. We aim at both speaker separation and dereverberation. Our study first investigates offline utterance-wise speaker separation and then extends to block-online continuous speech separation (CSS). Assuming a fixed array geometry between training and testing, we train deep neural networks (DNN) to predict the real and imaginary (RI) components of target speech at a reference microphone from the RI components of multiple microphones. We then integrate multi-microphone complex spectral mapping with minimum variance distortionless response (MVDR) beamforming and post-filtering to further improve separation, and combine it with frame-level speaker counting for block-online CSS. Although our system is trained on simulated room impulse responses (RIR) based on a fixed number of microphones arranged in a given geometry, it generalizes well to a real array with the same geometry. State-of-the-art separation performance is obtained on the simulated two-talker SMS-WSJ corpus and the real-recorded LibriCSS dataset.
翻訳日:2022-10-11 04:09:52 公開日:2021-05-24
# 糖尿病足部潰瘍検出における深層学習 : 包括的評価

Deep Learning in Diabetic Foot Ulcers Detection: A Comprehensive Evaluation ( http://arxiv.org/abs/2010.03341v3 )

ライセンス: Link先を確認
Moi Hoon Yap and Ryo Hachiuma and Azadeh Alavi and Raphael Brungel and Bill Cassidy and Manu Goyal and Hongtao Zhu and Johannes Ruckert and Moshe Olshansky and Xiao Huang and Hideo Saito and Saeed Hassanpour and Christoph M. Friedrich and David Ascher and Anping Song and Hiroki Kajita and David Gillespie and Neil D. Reeves and Joseph Pappachan and Claire O'Shea and Eibe Frank(参考訳) 糖尿病性足潰瘍(DFU)の検出・認識のためのコンピュータ手法と技術に関する研究は、かなりの数あるが、この問題に適用された最先端のディープラーニングオブジェクト検出フレームワークの体系的比較が欠如している。 DFUC2020は参加者に対して、トレーニング用の2,000イメージとテスト用の2,000イメージからなる包括的なデータセットを提供した。 本稿では,より高速なR-CNN,より高速なR-CNNの3つの変種とアンサンブル法,YOLOv3,YOLOv5,EfficientDet,新しいカスケード注意ネットワークの3つを比較し,DFUC2020の結果を要約する。 ディープラーニングの各手法について,モデルアーキテクチャの詳細,トレーニングのためのパラメータ設定,前処理,データ拡張,後処理などの追加ステージを提供する。 各手法について総合的な評価を行う。 すべての方法は、トレーニングに使用可能な画像数を増やすためのデータ拡張ステージと、偽陽性を取り除くための処理後ステージを必要とした。 最高の性能は、より高速なR-CNNの変種であるDeformable Convolutionから得られ、平均平均精度は0.6940、F1スコアは0.7434である。 最後に、異なる深層学習法に基づくアンサンブル法は、F1スコアを拡張できるが、mAPではないことを示す。

There has been a substantial amount of research involving computer methods and technology for the detection and recognition of diabetic foot ulcers (DFUs), but there is a lack of systematic comparisons of state-of-the-art deep learning object detection frameworks applied to this problem. DFUC2020 provided participants with a comprehensive dataset consisting of 2,000 images for training and 2,000 images for testing. This paper summarises the results of DFUC2020 by comparing the deep learning-based algorithms proposed by the winning teams: Faster R-CNN, three variants of Faster R-CNN and an ensemble method; YOLOv3; YOLOv5; EfficientDet; and a new Cascade Attention Network. For each deep learning method, we provide a detailed description of model architecture, parameter settings for training and additional stages including pre-processing, data augmentation and post-processing. We provide a comprehensive evaluation for each method. All the methods required a data augmentation stage to increase the number of images available for training and a post-processing stage to remove false positives. The best performance was obtained from Deformable Convolution, a variant of Faster R-CNN, with a mean average precision (mAP) of 0.6940 and an F1-Score of 0.7434. Finally, we demonstrate that the ensemble method based on different deep learning methods can enhanced the F1-Score but not the mAP.
翻訳日:2022-10-09 23:38:19 公開日:2021-05-24
# 深部生成モデルの一般化計量に向けて

Toward a Generalization Metric for Deep Generative Models ( http://arxiv.org/abs/2011.00754v3 )

ライセンス: Link先を確認
Hoang Thanh-Tung, Truyen Tran(参考訳) 深部生成モデル(dgms)の一般化能力の測定は次元の呪いのため困難である。 Inception Score、Fr'echet Inception Distance、Precision-Recall、Neural Net DivergenceといったDGMの評価指標は、生成した分布とターゲット分布の距離を多項式数を用いて推定しようとする。 これらのメトリクスは、新しいモデルを設計する研究者のターゲットです。 これらの主張にもかかわらず、生成モデルの一般化能力をどのように測定できるかはまだ不明である。 本稿では,これらの指標の一般化能力の測定能力について検討する。 評価指標の堅牢性を比較するためのフレームワークを提案する。 これらの指標のより良いスコアは、より優れた一般化を意味するものではないことを示す。 それらは、トレーニングセットの小さなサブセットを記憶するジェネレータによって簡単に騙される。 我々は,生成データのノイズに対してよりロバストにするために,nndメトリックの修正を提案する。 一般化のためのロバストな計量の構築に向けて,DGMの評価問題に最小記述長の原理を適用することを提案する。 生成的潜在変数モデル(glvms)の複雑性を効率的に推定する手法を開発した。 実験結果から, トレーニングセットの記憶を効果的に検出し, 一般化能力の異なるGLVMを識別できることが示唆された。 ソースコードはhttps://github.com/htt210/GeneralizationMetricGANで入手できる。

Measuring the generalization capacity of Deep Generative Models (DGMs) is difficult because of the curse of dimensionality. Evaluation metrics for DGMs such as Inception Score, Fr\'echet Inception Distance, Precision-Recall, and Neural Net Divergence try to estimate the distance between the generated distribution and the target distribution using a polynomial number of samples. These metrics are the target of researchers when designing new models. Despite the claims, it is still unclear how well can they measure the generalization capacity of a generative model. In this paper, we investigate the capacity of these metrics in measuring the generalization capacity. We introduce a framework for comparing the robustness of evaluation metrics. We show that better scores in these metrics do not imply better generalization. They can be fooled easily by a generator that memorizes a small subset of the training set. We propose a fix to the NND metric to make it more robust to noise in the generated data. Toward building a robust metric for generalization, we propose to apply the Minimum Description Length principle to the problem of evaluating DGMs. We develop an efficient method for estimating the complexity of Generative Latent Variable Models (GLVMs). Experimental results show that our metric can effectively detect training set memorization and distinguish GLVMs of different generalization capacities. Source code is available at https://github.com/htt210/GeneralizationMetricGAN.
翻訳日:2022-09-30 12:32:17 公開日:2021-05-24
# i-Pulse: 物流組織における従業員エンゲージメントのためのNLPに基づく新しいアプローチ

i-Pulse: A NLP based novel approach for employee engagement in logistics organization ( http://arxiv.org/abs/2106.07341v1 )

ライセンス: Link先を確認
Rachit Garg, Arvind W Kiwelekar, Laxman D Netak, Akshay Ghodake(参考訳) ほとんどの物流・貨物運送組織は、いずれにせよ、中核的な価値を持っていると主張している。 従業員の関与は、会社のコアな環境価値のほとんどすべてに影響を与える広大な構造である。 企業間の関係や従業員の関与に関する理論的知識はほとんどない。 本稿では,研究文献をもとに,より深い自然言語処理概念を実践することにより,物流組織における従業員の関与に関する洞察を得るための新しいアプローチを提案する。 intelligent pulse(i-pulse)と呼ばれる人工知能を利用するこのソリューションは、数百、数千のパルスサーベイコメントを評価し、従業員からのフィードバックのアクション可能な洞察と要点を提供する。 I-Pulseはステークホルダーが自分たちの組織に新しい考え方を取り入れ、従業員のエンゲージメント、維持、効率に強力な影響を与えるのを手助けします。 本研究は, 研究者や実践者を対象にした研究である。

Although most logistics and freight forwarding organizations, in one way or another, claim to have core values. The engagement of employees is a vast structure that affects almost every part of the company's core environmental values. There is little theoretical knowledge about the relationship between firms and the engagement of employees. Based on research literature, this paper aims to provide a novel approach for insight around employee engagement in a logistics organization by implementing deep natural language processing concepts. The artificial intelligence-enabled solution named Intelligent Pulse (I-Pulse) can evaluate hundreds and thousands of pulse survey comments and provides the actionable insights and gist of employee feedback. I-Pulse allows the stakeholders to think in new ways in their organization, helping them to have a powerful influence on employee engagement, retention, and efficiency. This study is of corresponding interest to researchers and practitioners.
翻訳日:2021-06-20 16:03:08 公開日:2021-05-24
# (参考訳) 潜時空間アーク治療最適化

Latent Space Arc Therapy Optimization ( http://arxiv.org/abs/2106.05846v1 )

ライセンス: CC BY 4.0
Noah Bice, Mohamad Fakhreddine, Ruiqi Li, Dan Nguyen, Christopher Kabat, Pamela Myers, Niko Papanikolaou, and Neil Kirby(参考訳) 体積変調アーク治療計画は高次元非凸最適化において難しい問題である。 伝統的に、フルエンスマップ最適化インフォームドセグメント初期化のようなヒューリスティックスは、局所最適解を用いて、合理的な出発点から全弧治療計画空間の探索を開始する。 これらのルーチンは、臨床的に十分な放射線治療計画を約10分で作成できるように、アークセラピーの最適化を促進する。 しかし、現在の最適化アルゴリズムは初期化点付近の解を好んでおり、計画過パラメータ化のため必要以上に遅い。 本研究では、教師なし深層学習による治療計画の有効次元を減らし、アーク治療過度パラメータ化に取り組む。 最適化エンジンは低次元アーク表現に基づいて構築され、より高速な計画時間を実現する。

Volumetric modulated arc therapy planning is a challenging problem in high-dimensional, non-convex optimization. Traditionally, heuristics such as fluence-map-optimization-informed segment initialization use locally optimal solutions to begin the search of the full arc therapy plan space from a reasonable starting point. These routines facilitate arc therapy optimization such that clinically satisfactory radiation treatment plans can be created in about 10 minutes. However, current optimization algorithms favor solutions near their initialization point and are slower than necessary due to plan overparameterization. In this work, arc therapy overparameterization is addressed by reducing the effective dimension of treatment plans with unsupervised deep learning. An optimization engine is then built based on low-dimensional arc representations which facilitates faster planning times.
翻訳日:2021-06-15 14:51:54 公開日:2021-05-24
# (参考訳) Eコマースにおけるレコメンダシステムのユーザ表現

One4all User Representation for Recommender Systems in E-commerce ( http://arxiv.org/abs/2106.00573v1 )

ライセンス: CC BY 4.0
Kyuyong Shin, Hanock Kwak, Kyung-Min Kim, Minkyu Kim, Young-Jin Park, Jisu Jeong, Seungjae Jung(参考訳) 大規模事前学習による汎用表現学習は,様々な機械学習分野で有望な成果を示している。 電子商取引の分野では、汎用的な目的、すなわち全てを表現することの目的は、ユーザのプロファイリング、ターゲティング、レコメンデーションタスクなどの広範囲な下流タスクに対する効率的なアプリケーションである。 本稿では,提案したモデルであるShopperBERTとスクラッチから学習する2つの学習戦略の一般化可能性について,系統的に比較する。 ShopperBERTは2年以上にわたって収集された0.8Bのユーザ行動から79.2Mパラメータを持つ9つのプレテキストタスクを学習し、ユーザ埋め込みを生成する。 その結果,組込み方式を用いたMLPは,6タスク中5タスクにおいて,スクラッチからトレーニングしたより複雑なモデルよりも優れていた。 具体的には、プレトレーニングされた埋め込みは、タスク固有の教師付き特徴と強いベースラインよりも優れており、コールドスタート問題の補助データセットを学習する。 また,事前学習した特徴の計算効率と組込み可視化も示す。

General-purpose representation learning through large-scale pre-training has shown promising results in the various machine learning fields. For an e-commerce domain, the objective of general-purpose, i.e., one for all, representations would be efficient applications for extensive downstream tasks such as user profiling, targeting, and recommendation tasks. In this paper, we systematically compare the generalizability of two learning strategies, i.e., transfer learning through the proposed model, ShopperBERT, vs. learning from scratch. ShopperBERT learns nine pretext tasks with 79.2M parameters from 0.8B user behaviors collected over two years to produce user embeddings. As a result, the MLPs that employ our embedding method outperform more complex models trained from scratch for five out of six tasks. Specifically, the pre-trained embeddings have superiority over the task-specific supervised features and the strong baselines, which learn the auxiliary dataset for the cold-start problem. We also show the computational efficiency and embedding visualization of the pre-trained features.
翻訳日:2021-06-06 09:34:44 公開日:2021-05-24
# SalientSleepNet:スリープステージングのためのマルチモーダルサルエント波検出ネットワーク

SalientSleepNet: Multimodal Salient Wave Detection Network for Sleep Staging ( http://arxiv.org/abs/2105.13864v1 )

ライセンス: Link先を確認
Ziyu Jia, Youfang Lin, Jing Wang, Xuehui Wang, Peiyi Xie and Yingbin Zhang(参考訳) 睡眠ステージングは睡眠アセスメントと病気の診断に欠かせない。 睡眠段階を分類する試みは高い評価を得たが,1) 多モード睡眠データから塩分波を効果的に抽出する方法,2)睡眠段階間での多スケール遷移規則の捉え方,3)睡眠段階における特定のモードの重要な役割を適応的に把握する方法,などが課題である。 そこで本研究では,睡眠ステージングのためのマルチモーダルサルエント波検出ネットワークであるsalientsleepnetを提案する。 具体的には、SalientSleepNetは、コンピュータビジョンにおける有能なオブジェクト検出のために提案された$\rm U^2$-Netアーキテクチャに基づく、時間的完全畳み込みネットワークである。 主に2つの独立な$\rm U^2$-likeストリームで構成され、それぞれ多モードデータから有意な特徴を抽出する。 一方、マルチスケール抽出モジュールは、睡眠ステージ間のマルチスケール遷移ルールをキャプチャするように設計されている。 また、特定の睡眠段階における多モードデータから貴重な情報を適応的に取得する多モードアテンションモジュールを提案する。 2つのデータセットの実験は、SalientSleepNetが最先端のベースラインを上回っていることを示している。 このモデルは、既存のディープニューラルネットワークモデルと比較してパラメータが最小である点に注意が必要だ。

Sleep staging is fundamental for sleep assessment and disease diagnosis. Although previous attempts to classify sleep stages have achieved high classification performance, several challenges remain open: 1) How to effectively extract salient waves in multimodal sleep data; 2) How to capture the multi-scale transition rules among sleep stages; 3) How to adaptively seize the key role of specific modality for sleep staging. To address these challenges, we propose SalientSleepNet, a multimodal salient wave detection network for sleep staging. Specifically, SalientSleepNet is a temporal fully convolutional network based on the $\rm U^2$-Net architecture that is originally proposed for salient object detection in computer vision. It is mainly composed of two independent $\rm U^2$-like streams to extract the salient features from multimodal data, respectively. Meanwhile, the multi-scale extraction module is designed to capture multi-scale transition rules among sleep stages. Besides, the multimodal attention module is proposed to adaptively capture valuable information from multimodal data for the specific sleep stage. Experiments on the two datasets demonstrate that SalientSleepNet outperforms the state-of-the-art baselines. It is worth noting that this model has the least amount of parameters compared with the existing deep neural network models.
翻訳日:2021-06-06 08:55:16 公開日:2021-05-24
# モバイルデバイス上での省エネルギーcnn推定のためのインメモリアナログコンピューティングコプロセッサ

An In-Memory Analog Computing Co-Processor for Energy-Efficient CNN Inference on Mobile Devices ( http://arxiv.org/abs/2105.13904v1 )

ライセンス: Link先を確認
Mohammed Elbtity, Abhishek Singh, Brendan Reidy, Xiaochen Guo, Ramtin Zand(参考訳) 本稿では,不揮発性メモリアレイ内のシナプス挙動とアクティベーション機能の両方を実現するインメモリアナログコンピューティング(IMAC)アーキテクチャを提案する。 スピン軌道トルク磁気抵抗ランダムアクセスメモリ(SOT-MRAM)装置を利用してシグモダルニューロンと双対シナプスを実現する。 まず、提案したIMACアーキテクチャを用いて、従来の混合信号およびデジタル実装と比較して、桁違いの性能向上を実現する多層パーセプトロン(MLP)分類器を実現する。 次に,モバイルプロセッサ上での畳み込みニューラルネットワーク (cnns) の推論において,完全接続層 (fc) を実現するためのコプロセッサとしてimacが設計され,畳み込み層がcpuで実行されるようにした。 CPU-IMACアーキテクチャの性能とエネルギー消費を評価するために,アーキテクチャレベルの解析モデルを開発した。 MNIST と CIFAR-10 パターン認識タスクでは CPU-IMAC ベースの LeNet と VGG CNN モデルに対する6.5% と10% の省エネ効果が示されている。

In this paper, we develop an in-memory analog computing (IMAC) architecture realizing both synaptic behavior and activation functions within non-volatile memory arrays. Spin-orbit torque magnetoresistive random-access memory (SOT-MRAM) devices are leveraged to realize sigmoidal neurons as well as binarized synapses. First, it is shown the proposed IMAC architecture can be utilized to realize a multilayer perceptron (MLP) classifier achieving orders of magnitude performance improvement compared to previous mixed-signal and digital implementations. Next, a heterogeneous mixed-signal and mixed-precision CPU-IMAC architecture is proposed for convolutional neural networks (CNNs) inference on mobile processors, in which IMAC is designed as a co-processor to realize fully-connected (FC) layers whereas convolution layers are executed in CPU. Architecture-level analytical models are developed to evaluate the performance and energy consumption of the CPU-IMAC architecture. Simulation results exhibit 6.5% and 10% energy savings for CPU-IMAC based realizations of LeNet and VGG CNN models, for MNIST and CIFAR-10 pattern recognition tasks, respectively.
翻訳日:2021-06-06 08:54:51 公開日:2021-05-24
# aristotle曰く: “幸福は活動状態だ” -- スマートウォッチによる体感による気分予測

Aristotle Said "Happiness is a State of Activity" -- Predicting Mood through Body Sensing with Smartwatches ( http://arxiv.org/abs/2105.15029v1 )

ライセンス: Link先を確認
P. A. Gloor, A. Fronzetti Colladon, F. Grippa, P. Budner, J. Eirich(参考訳) スマートウォッチに接続された体感アプリケーションを用いて,アクティベーションと幸福の状態を計測し,予測する。 市販のスマートウォッチのセンサーを通じて、個人の気分状態を収集し、加速度、心拍数、光レベルデータ、位置などの体感データと、スマートウォッチに接続されたスマートフォンに組み込まれたGPSセンサーを介して相関する。 われわれはスマートウォッチのユーザーの気分を1日7週間に4回調査した。 幸福と活性化の両方が心拍数と光のレベルと負の相関関係にあることがわかった。 週末はより活発に動き、活性化が弱くなると、人々はより幸せになる傾向にある。 また, 良心・神経症が低く, 積極性が高い人は, より幸せになる傾向が見られた。 さらに、より多くのアクティベーションを、経験への開放性が低くなり、より高い一致性と良心性によって予測できる。 最後に、人々の地理的座標を追跡することは、幸福と活性化を予測する上で重要な役割を果たす可能性がある。 本提案手法は,チームワークの改善とソーシャルネットワーク分析の併用を目的とした,自動気分追跡システム構築に向けた第一歩である。

We measure and predict states of Activation and Happiness using a body sensing application connected to smartwatches. Through the sensors of commercially available smartwatches we collect individual mood states and correlate them with body sensing data such as acceleration, heart rate, light level data, and location, through the GPS sensor built into the smartphone connected to the smartwatch. We polled users on the smartwatch for seven weeks four times per day asking for their mood state. We found that both Happiness and Activation are negatively correlated with heart beats and with the levels of light. People tend to be happier when they are moving more intensely and are feeling less activated during weekends. We also found that people with a lower Conscientiousness and Neuroticism and higher Agreeableness tend to be happy more frequently. In addition, more Activation can be predicted by lower Openness to experience and higher Agreeableness and Conscientiousness. Lastly, we find that tracking people's geographical coordinates might play an important role in predicting Happiness and Activation. The methodology we propose is a first step towards building an automated mood tracking system, to be used for better teamwork and in combination with social network analysis studies.
翻訳日:2021-06-06 08:54:30 公開日:2021-05-24
# (参考訳) グラフ畳み込みネットワークを用いた空間相関を考慮した異種データ融合とその大気質予測への応用

Heterogeneous Data Fusion Considering Spatial Correlations using Graph Convolutional Networks and its Application in Air Quality Prediction ( http://arxiv.org/abs/2105.13125v1 )

ライセンス: CC BY 4.0
Zhengjing Ma, Gang Mei, Salvatore Cuomo, Francesco Piccialli(参考訳) 不均質なデータは、いくつかの観測の将来の傾向を予測するいくつかのモデルの入力として一般的に採用されている。 既存の予測モデルは、通常、異種データの矛盾や不完全性を無視する一方で、(1)監視点間の空間的相関や(2)研究領域全体の予測を考慮しない。 本稿では,複数の監視点から収集した不均質データをグラフ畳み込みネットワーク(gcns)を用いて融合して観測結果の今後の傾向を予測し,その効果を空気質予測シナリオに適用することで評価する深層学習手法を提案する。 提案手法の背後にある基本的な考え方は,(1)収集した異種データを,その空間的相関関係に基づいて監視点の位置に基づいて融合し,(2)局所情報よりもグローバル情報に基づく予測を行うことである。 提案手法では,まず,提案する rbf-based fusion 法を用いて融合行列を組み立てる。第2に,融合データに基づいて,予測モデルの入力として空間的および時間的に相関したデータを構成し,最後に,時空間グラフ畳み込みネットワーク(stgcn)を用いて観測の今後の傾向を予測する。 大気質予測の応用シナリオでは,(1)rbfに基づく核融合法に基づく融合データの性能が良好な一貫性を達成し,(2)融解データに基づく予測モデルの性能が生データに基づくものよりも優れていること,(3)stgcnモデルが全てのベースラインモデルと比較して最高の性能を達成することが観察された。 提案手法は,研究領域に散在する複数のモニタリングポイントから連続した異種データを収集するシナリオに適用できる。

Heterogeneous data are commonly adopted as the inputs for some models that predict the future trends of some observations. Existing predictive models typically ignore the inconsistencies and imperfections in heterogeneous data while also failing to consider the (1) spatial correlations among monitoring points or (2) predictions for the entire study area. To address the above problems, this paper proposes a deep learning method for fusing heterogeneous data collected from multiple monitoring points using graph convolutional networks (GCNs) to predict the future trends of some observations and evaluates its effectiveness by applying it in an air quality predictions scenario. The essential idea behind the proposed method is to (1) fuse the collected heterogeneous data based on the locations of the monitoring points with regard to their spatial correlations and (2) perform prediction based on global information rather than local information. In the proposed method, first, we assemble a fusion matrix using the proposed RBF-based fusion approach; second, based on the fused data, we construct spatially and temporally correlated data as inputs for the predictive model; finally, we employ the spatiotemporal graph convolutional network (STGCN) to predict the future trends of some observations. In the application scenario of air quality prediction, it is observed that (1) the fused data derived from the RBF-based fusion approach achieve satisfactory consistency; (2) the performances of the prediction models based on fused data are better than those based on raw data; and (3) the STGCN model achieves the best performance when compared to those of all baseline models. The proposed method is applicable for similar scenarios where continuous heterogeneous data are collected from multiple monitoring points scattered across a study area.
翻訳日:2021-05-29 15:56:00 公開日:2021-05-24
# エッジでの継続的な学習:スマートフォンデバイスでのリアルタイムトレーニング

Continual Learning at the Edge: Real-Time Training on Smartphone Devices ( http://arxiv.org/abs/2105.13127v1 )

ライセンス: Link先を確認
Lorenzo Pellegrini, Vincenzo Lomonaco, Gabriele Graffieti, Davide Maltoni(参考訳) パーソナライズされた学習のためのオンデバイストレーニングは、難しい研究課題である。 個人ユーザのニーズに合うように、エッジの深い予測モデルに迅速に適応できることが不可欠です。 しかし、エッジへの適応は、学習プロセスの効率性と持続可能性、およびシフトするデータ分布の下での作業能力にいくつかの疑問をもたらす。 実際、新しく入手可能なデータのみに予測モデルを微調整すると、それまでの知識の突然の消去である壊滅的な忘れることになる。 本稿では,リアルタイムのデバイス上でのパーソナライゼーションを実現するために,ネイティブandroidアプリケーション上でar1*(hybrid continual learning strategy)の実装と展開について詳述する。 我々のベンチマークはCORe50データセットの拡張に基づいており、ソリューションの有効性と有効性を示している。

On-device training for personalized learning is a challenging research problem. Being able to quickly adapt deep prediction models at the edge is necessary to better suit personal user needs. However, adaptation on the edge poses some questions on both the efficiency and sustainability of the learning process and on the ability to work under shifting data distributions. Indeed, naively fine-tuning a prediction model only on the newly available data results in catastrophic forgetting, a sudden erasure of previously acquired knowledge. In this paper, we detail the implementation and deployment of a hybrid continual learning strategy (AR1*) on a native Android application for real-time on-device personalization without forgetting. Our benchmark, based on an extension of the CORe50 dataset, shows the efficiency and effectiveness of our solution.
翻訳日:2021-05-28 16:42:34 公開日:2021-05-24
# 都市バスの静止位置推定のためのマルチモーダルコンテキストセンシング:60秒未満の正確な時間予測に向けて

Exploiting Multi-modal Contextual Sensing for City-bus's Stay Location Characterization: Towards Sub-60 Seconds Accurate Arrival Time Prediction ( http://arxiv.org/abs/2105.13131v1 )

ライセンス: Link先を確認
Ratna Mandal, Prasenjit Karmakar, Soumyajit Chatterjee, Debaleen Das Spandan, Shouvit Pradhan, Sujoy Saha, Sandip Chakraborty and Subrata Nandi(参考訳) インテリジェントシティ交通システムは、スマートシティの中核となるインフラのひとつだ。 このようなインフラの真の創発は、公共バスのような都市全体の交通機関に関する情報を通勤者にリアルタイムに提供することにある。 しかし、公共バスなどの交通システムの事前情報をリアルタイムに提供することは、公共バスが停車する場所が異なるため、本質的に困難である。 単純な要因はgpsのようなユニモーダルな情報源から抽出されるが、これらの場所は不規則に見えるが、インドの半都会の都市、ドゥルガプールの720kmの公共バスのgpsトレイルを徹底的に分析した結果、他の細かな文脈的特徴がこれらの場所を正確に特徴付けることが判明した。 そこで我々は,通勤者のスマートフォンを用いたマルチモーダルセンシングから滞在場所を抽出・特徴付けするシステムbustopを開発した。 このマルチモーダル情報を使用して、BuStopは、システムが異なるスタンスロケーションタイプを区別できるように、一連の粒度のコンテキスト特徴を抽出する。 収集したデータセットを用いたBuStopの徹底的な分析により,通常のバス停,ランダムなアドホック停止,交通渋滞による停止,急激な曲がり角の停止など,さまざまな場所の特定に高い精度で動作することが示された。 また,バストップ上に概念実証システムを構築し,各バス停における予定到着時刻の予測におけるフレームワークの可能性を解析した。 その後のPoCフレームワークの解析では、テストデータセットのシミュレーションを通じて、静止位置を特徴づけることによって、地上の到着時刻から60秒未満のずれでより正確な到着時刻予測が可能になることが示されている。

Intelligent city transportation systems are one of the core infrastructures of a smart city. The true ingenuity of such an infrastructure lies in providing the commuters with real-time information about citywide transports like public buses, allowing her to pre-plan the travel. However, providing prior information for transportation systems like public buses in real-time is inherently challenging because of the diverse nature of different stay-locations that a public bus stops. Although straightforward factors stay duration, extracted from unimodal sources like GPS, at these locations look erratic, a thorough analysis of public bus GPS trails for 720km of bus travels at the city of Durgapur, a semi-urban city in India, reveals that several other fine-grained contextual features can characterize these locations accurately. Accordingly, we develop BuStop, a system for extracting and characterizing the stay locations from multi-modal sensing using commuters' smartphones. Using this multi-modal information BuStop extracts a set of granular contextual features that allow the system to differentiate among the different stay-location types. A thorough analysis of BuStop using the collected dataset indicates that the system works with high accuracy in identifying different stay locations like regular bus stops, random ad-hoc stops, stops due to traffic congestion stops at traffic signals, and stops at sharp turns. Additionally, we also develop a proof-of-concept setup on top of BuStop to analyze the potential of the framework in predicting expected arrival time, a critical piece of information required to pre-plan travel, at any given bus stop. Subsequent analysis of the PoC framework, through simulation over the test dataset, shows that characterizing the stay-locations indeed helps make more accurate arrival time predictions with deviations less than 60s from the ground-truth arrival time.
翻訳日:2021-05-28 16:37:33 公開日:2021-05-24
# (参考訳) 強い回転障害を有する画像の半教師付き学習:ナノ粒子ライブラリーの組み立て

Semi-supervised learning of images with strong rotational disorder: assembling nanoparticle libraries ( http://arxiv.org/abs/2105.11475v1 )

ライセンス: CC BY 4.0
Maxim Ziatdinov, Muammer Yusuf Yaman, Yongtao Liu, David Ginger, and Sergei V. Kalinin(参考訳) 光、電子、走査型プローブ顕微鏡の拡散は、細胞、バクテリア、花粉、ナノ粒子、原子、分子など多様な物体の大量のイメージングデータを生み出す。 ほとんどの場合、実験データストリームには、画像内の任意の回転と変換を持つ画像が含まれている。 同時に、多くの場合、ラベル付きデータの少量は、事前に公表された結果、画像コレクション、カタログ、さらには理論モデルとして利用可能である。 本稿では,弱向き障害を持つラベル付きデータの小さなサブセットから,より強固な方向(および位置)障害を持つ大きなラベル付きデータセット,すなわちラベル付き部分とラベル付き部分の分布シフトが存在する場合でも,少数の例が与えられた画像データの分類を一般化する手法を開発した。 このアプローチは、データの回転(および変換)不変な連続潜時表現を学習するエンコーダ・デコーダ「ブロック」と、データを有限個の離散クラスにエンコードする分類器からなる半教師付き回転不変変分オートエンコーダ(ss-rVAE)モデルに基づいている。 訓練されたss-rVAEの分類部は回転不変性(および翻訳不変性)を継承し、モデルの他の部分とは独立に展開することができる。 ss-rvaeの性能は、既知の変動要因を持つ合成データセットを用いて示される。 さらに, ナノ粒子の実験データ集合に適用し, ナノ粒子ライブラリを作成し, データの変動の物理的要因を規定した表現を整理する。 結果はhttps://github.com/ziatdinovmax/semi-supervised-vae-nanoparticlesで再現できる。

The proliferation of optical, electron, and scanning probe microscopies gives rise to large volumes of imaging data of objects as diversified as cells, bacteria, pollen, to nanoparticles and atoms and molecules. In most cases, the experimental data streams contain images having arbitrary rotations and translations within the image. At the same time, for many cases, small amounts of labeled data are available in the form of prior published results, image collections, and catalogs, or even theoretical models. Here we develop an approach that allows generalizing from a small subset of labeled data with a weak orientational disorder to a large unlabeled dataset with a much stronger orientational (and positional) disorder, i.e., it performs a classification of image data given a small number of examples even in the presence of a distribution shift between the labeled and unlabeled parts. This approach is based on the semi-supervised rotationally invariant variational autoencoder (ss-rVAE) model consisting of the encoder-decoder "block" that learns a rotationally (and translationally) invariant continuous latent representation of data and a classifier that encodes data into a finite number of discrete classes. The classifier part of the trained ss-rVAE inherits the rotational (and translational) invariances and can be deployed independently of the other parts of the model. The performance of the ss-rVAE is illustrated using the synthetic data sets with known factors of variation. We further demonstrate its application for experimental data sets of nanoparticles, creating nanoparticle libraries and disentangling the representations defining the physical factors of variation in the data. The code reproducing the results is available at https://github.com/ziatdinovmax/Semi-Supervised-VAE-nanoparticles.
翻訳日:2021-05-27 07:28:34 公開日:2021-05-24
# (参考訳) 記号式検証のための欠陥データセット

A Flawed Dataset for Symbolic Equation Verification ( http://arxiv.org/abs/2105.11479v1 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) Arabshahi, Singh, and Anandkumar (2018) は記号方程式の検証と方程式完成のタスクのための記号方程式のデータセットを作成する方法を提案する。 残念ながら、提案する手法を使って構築されたデータセットは、2つの深刻な欠陥に悩まされる。 まず、手続きが生成できる真の方程式のクラスは非常に限定的である。 第二に、真と偽の方程式は完全に異なる方法で生成されるので、容易に識別できる人工的な特徴がある可能性が高い。 さらに、それらが考慮する方程式のクラスにおいて、極めて信頼性の高い方程式検証の問題を解く非常に単純な確率的手続きが存在する。 したがって、aiシステムのテストベッドとして一般にこの問題の有用性は疑わしい。

Arabshahi, Singh, and Anandkumar (2018) propose a method for creating a dataset of symbolic mathematical equations for the tasks of symbolic equation verification and equation completion. Unfortunately, a dataset constructed using the method they propose will suffer from two serious flaws. First, the class of true equations that the procedure can generate will be very limited. Second, because true and false equations are generated in completely different ways, there are likely to be artifactual features that allow easy discrimination. Moreover, over the class of equations they consider, there is an extremely simple probabilistic procedure that solves the problem of equation verification with extremely high reliability. The usefulness of this problem in general as a testbed for AI systems is therefore doubtful.
翻訳日:2021-05-27 07:12:29 公開日:2021-05-24
# (参考訳) オブジェクトベースカメラポーズ推定のための3次元認識楕円予測

3D-Aware Ellipse Prediction for Object-Based Camera Pose Estimation ( http://arxiv.org/abs/2105.11494v1 )

ライセンス: CC BY 4.0
Matthieu Zins, Gilles Simon, Marie-Odile Berger(参考訳) 本稿では,視聴条件に頑健で,シーンの詳細なモデルを必要としない粗いカメラポーズ計算手法を提案する。 この方法は、ロボット工学や拡張現実のアプリケーションをあらゆる環境、特に正確な3dモデルや膨大な真実データがない環境で簡単に展開することの必要性が増している。 観察条件に関係なく、物体を確実に検出する深層学習技術を活用する。 以前の研究では、楕円雲によってオブジェクトのシーンの幾何学を抽象化することで、様々なアプリケーションのニーズに十分正確にカメラのポーズを計算できることを示した。 これらの手法は有望ではあるが、画像オブジェクトの近似として検出境界ボックスに取り付けられた楕円を用いている。 本稿では、さらに一歩進んで、3次元楕円体と直交する物体の楕円近似を視点投影の観点から検出する学習法を提案する。 実験により,提案手法により計算結果の精度が著しく向上し,検出ボックスの境界のばらつきに対してより堅牢であることが確認された。 これは、データ取得のトレーニングという観点で、非常に少ない労力で達成されます -- 数百のキャリブレーションされた画像のうち、手動のオブジェクトアノテーションが必要なのは3つだけです。 コードとモデルはhttps://github.com/zinsmatt/3D-Aware-Ellipses-for-Visual-Localizationで公開されている。

In this paper, we propose a method for coarse camera pose computation which is robust to viewing conditions and does not require a detailed model of the scene. This method meets the growing need of easy deployment of robotics or augmented reality applications in any environments, especially those for which no accurate 3D model nor huge amount of ground truth data are available. It exploits the ability of deep learning techniques to reliably detect objects regardless of viewing conditions. Previous works have also shown that abstracting the geometry of a scene of objects by an ellipsoid cloud allows to compute the camera pose accurately enough for various application needs. Though promising, these approaches use the ellipses fitted to the detection bounding boxes as an approximation of the imaged objects. In this paper, we go one step further and propose a learning-based method which detects improved elliptic approximations of objects which are coherent with the 3D ellipsoid in terms of perspective projection. Experiments prove that the accuracy of the computed pose significantly increases thanks to our method and is more robust to the variability of the boundaries of the detection boxes. This is achieved with very little effort in terms of training data acquisition -- a few hundred calibrated images of which only three need manual object annotation. Code and models are released at https://github.com/zinsmatt/3D-Aware-Ellipses-for-Visual-Localization.
翻訳日:2021-05-27 07:05:40 公開日:2021-05-24
# (参考訳) 連続時間状態空間モデルのクラスに対するログ類似度勾配の偏りのない推定

Unbiased Estimation of the Gradient of the Log-Likelihood for a Class of Continuous-Time State-Space Models ( http://arxiv.org/abs/2105.11522v1 )

ライセンス: CC BY 4.0
Marco Ballesio and Ajay Jasra(参考訳) 本稿では,連続時間状態空間モデルのクラスに対する静的パラメータ推定について検討する。 本研究の目的は,モデルに関連する確率過程を時間内に離散化しなければならない場合でも,非偏りである対数類似度(スコア関数)の勾配の非偏り推定を行うことである。 この目的を達成するために、第2レベルのランダム化 \cite{jacob2} において、新しい結合条件付き粒子フィルタ (ccpf) を含む \emph{doubly randomized scheme} (例:~\cite{ub_mcmcmc, ub_grad}) を適用する。 提案手法は,確率的勾配ランジュバン降下のような勾配に基づく推定アルゴリズムの適用を促進する。 本稿では,確率勾配降下(SGD)の文脈における方法論をいくつかの数値例で説明し,Rhee \&Glynn estimator \cite{rhee,vihola} と比較する。

In this paper, we consider static parameter estimation for a class of continuous-time state-space models. Our goal is to obtain an unbiased estimate of the gradient of the log-likelihood (score function), which is an estimate that is unbiased even if the stochastic processes involved in the model must be discretized in time. To achieve this goal, we apply a \emph{doubly randomized scheme} (see, e.g.,~\cite{ub_mcmc, ub_grad}), that involves a novel coupled conditional particle filter (CCPF) on the second level of randomization \cite{jacob2}. Our novel estimate helps facilitate the application of gradient-based estimation algorithms, such as stochastic-gradient Langevin descent. We illustrate our methodology in the context of stochastic gradient descent (SGD) in several numerical examples and compare with the Rhee \& Glynn estimator \cite{rhee,vihola}.
翻訳日:2021-05-27 06:43:59 公開日:2021-05-24
# (参考訳) サンプル選択バイアス下におけるロバストフェアネスアウェア学習

Robust Fairness-aware Learning Under Sample Selection Bias ( http://arxiv.org/abs/2105.11570v1 )

ライセンス: CC BY 4.0
Wei Du and Xintao Wu(参考訳) 多くの機械学習アルゴリズムの基本的な前提は、トレーニングデータとテストデータが同じ分布から引き出されることである。 しかし、この仮定はトレーニングデータとテストデータの間のサンプル選択バイアスのため、実世界ではしばしば破られる。 これまでの研究は、バイアスのあるトレーニングデータを改良し、テストデータにマッチさせ、強化されたトレーニングデータに基づいて分類モデルを構築することに焦点を当てている。 しかし、構築された分類モデルの公平性をどのように達成するかは未定である。 本稿では,サンプル選択バイアス下でのロバストで公平な学習の枠組みを提案する。 本フレームワークは, 偏差補正のための回帰推定手法と, 予測精度に頑健性を実現するための最小ロバスト推定手法を採用する。 さらに、最小限の最適化では、テストデータに対するモデルの公平性を保証する最悪の場合において、フェアネスが達成される。 テストデータが利用可能で利用できない場合、サンプル選択バイアスを処理する2つのアルゴリズムを更に開発する。 2つの実世界のデータセットについて実験を行い,実効性と公平性指標の両方の観点からその効果を実証した。

The underlying assumption of many machine learning algorithms is that the training data and test data are drawn from the same distributions. However, the assumption is often violated in real world due to the sample selection bias between the training and test data. Previous research works focus on reweighing biased training data to match the test data and then building classification models on the reweighed training data. However, how to achieve fairness in the built classification models is under-explored. In this paper, we propose a framework for robust and fair learning under sample selection bias. Our framework adopts the reweighing estimation approach for bias correction and the minimax robust estimation approach for achieving robustness on prediction accuracy. Moreover, during the minimax optimization, the fairness is achieved under the worst case, which guarantees the model's fairness on test data. We further develop two algorithms to handle sample selection bias when test data is both available and unavailable. We conduct experiments on two real-world datasets and the experimental results demonstrate its effectiveness in terms of both utility and fairness metrics.
翻訳日:2021-05-27 06:08:49 公開日:2021-05-24
# (参考訳) 高通過変調畳み込みニューラルネットワークによるパンシャーピング

Pan-sharpening via High-pass Modification Convolutional Neural Network ( http://arxiv.org/abs/2105.11576v1 )

ライセンス: CC BY 4.0
Jiaming Wang, Zhenfeng Shao, Xiao Huang, Tao Lu, Ruiqian Zhang, Jiayi Ma(参考訳) 既存の深層学習に基づくパンシャープ法は, スペクトル歪みや空間テクスチャの不十分さなど, 広く認知されている問題が多く, ハイパス修正ブロックに基づく新しいパンシャープ型畳み込みニューラルネットワークを提案する。 従来の手法と異なり,提案ブロックはハイパス情報を学習するために設計されており,マルチスペクトル画像の各帯域における空間情報を高める。 視覚的に強調された画像の生成を容易にするため,知覚損失関数を提案し,近赤外空間における高レベル特徴に基づくモデルをさらに最適化する。 実験は, 定量的および定性的に, 最先端のパン研削法と比較して, 提案手法の優れた性能を示す。 提案されたモデルはhttps://github.com/jiaming-wang/HMBでオープンソース化されている。

Most existing deep learning-based pan-sharpening methods have several widely recognized issues, such as spectral distortion and insufficient spatial texture enhancement, we propose a novel pan-sharpening convolutional neural network based on a high-pass modification block. Different from existing methods, the proposed block is designed to learn the high-pass information, leading to enhance spatial information in each band of the multi-spectral-resolution images. To facilitate the generation of visually appealing pan-sharpened images, we propose a perceptual loss function and further optimize the model based on high-level features in the near-infrared space. Experiments demonstrate the superior performance of the proposed method compared to the state-of-the-art pan-sharpening methods, both quantitatively and qualitatively. The proposed model is open-sourced at https://github.com/jiaming-wang/HMB.
翻訳日:2021-05-27 05:49:09 公開日:2021-05-24
# Deep Descriptive Clustering

Deep Descriptive Clustering ( http://arxiv.org/abs/2105.11549v1 )

ライセンス: Link先を確認
Hongjing Zhang, Ian Davidson(参考訳) 説明可能なクラスタリングに関する最近の作業は、機能が解釈可能な時にクラスタを記述することを可能にする。 しかし、現代の機械学習の多くは、ディープラーニングが使用される画像、テキスト、グラフなどの複雑なデータに焦点を当てているが、データの生の特徴は解釈できない。 本稿では,解釈可能なタグを用いた説明を同時に生成しながら,複雑なデータに対してクラスタリングを行うための新しい設定を提案する。 本稿では,記号データに基づく説明を生成しながら,複雑なデータに対する準記号表現学習を行う深層記述クラスタリングを提案する。 我々は,入力に対する経験的分布とクラスタリング目的のための誘導的クラスタリングラベルとの相互情報を最大化することにより,よいクラスタを形成する。 各クラスタに対して簡潔で直交的な記述を生成する整数線形プログラミングを解いて説明を生成する。 最後に,クラスタリングと説明モジュールの一貫性を最大化するために,自己生成制約による新たなペアワイズ損失を提案することにより,より優れたクラスタリングを説明できる。 公開データを用いた実験の結果,我々のモデルは,高品質なクラスタレベルの説明を提供しながら,クラスタ性能における競合ベースラインを上回っていることがわかった。

Recent work on explainable clustering allows describing clusters when the features are interpretable. However, much modern machine learning focuses on complex data such as images, text, and graphs where deep learning is used but the raw features of data are not interpretable. This paper explores a novel setting for performing clustering on complex data while simultaneously generating explanations using interpretable tags. We propose deep descriptive clustering that performs sub-symbolic representation learning on complex data while generating explanations based on symbolic data. We form good clusters by maximizing the mutual information between empirical distribution on the inputs and the induced clustering labels for clustering objectives. We generate explanations by solving an integer linear programming that generates concise and orthogonal descriptions for each cluster. Finally, we allow the explanation to inform better clustering by proposing a novel pairwise loss with self-generated constraints to maximize the clustering and explanation module's consistency. Experimental results on public data demonstrate that our model outperforms competitive baselines in clustering performance while offering high-quality cluster-level explanations.
翻訳日:2021-05-26 14:29:09 公開日:2021-05-24
# ガウス過程モデルのスケーラブルなクロス検証損失

Scalable Cross Validation Losses for Gaussian Process Models ( http://arxiv.org/abs/2105.11535v1 )

ライセンス: Link先を確認
Martin Jankowiak, Geoff Pleiss(参考訳) 本稿では, 交差バリデーションと近接トランケーションを利用したガウス過程(GP)モデルの簡易かつスケーラブルな学習法を提案する。 二進分類と多クラス分類に対応するために、p\`olya-gamma の補助変数と変分推論を利用する。 スケーラブルなgp回帰と分類のための様々な代替手法との比較を行った結果,本手法は高速なトレーニングと優れた予測性能を提供することがわかった。 良い予測性能は、結果の予測分布の非パラメトリックな性質と、モデルの誤識別に対する堅牢性をもたらすクロスバリデーション損失に遡ることができると論じる。

We introduce a simple and scalable method for training Gaussian process (GP) models that exploits cross-validation and nearest neighbor truncation. To accommodate binary and multi-class classification we leverage P\`olya-Gamma auxiliary variables and variational inference. In an extensive empirical comparison with a number of alternative methods for scalable GP regression and classification, we find that our method offers fast training and excellent predictive performance. We argue that the good predictive performance can be traced to the non-parametric nature of the resulting predictive distributions as well as to the cross-validation loss, which provides robustness against model mis-specification.
翻訳日:2021-05-26 14:28:19 公開日:2021-05-24
# TRACE:オフライン手書きテキストのラインレベルストローク回復のための微分可能なアプローチ

TRACE: A Differentiable Approach to Line-level Stroke Recovery for Offline Handwritten Text ( http://arxiv.org/abs/2105.11559v1 )

ライセンス: Link先を確認
Taylor Archibald, Mason Poggemann, Aaron Chan, Tony Martinez(参考訳) ストローク順序と速度は、署名検証、手書き認識、手書き合成の分野において有用な特徴である。 オフラインの手書きテキストからこれらの機能を復元することは、困難でよく検討された問題である。 TRACE (Trajectory Recovery by an Adaptively-trained Convolutional Encoder) と呼ばれる新しいモデルを提案する。 TRACEは、畳み込みリカレントニューラルネットワーク(CRNN)を使用して、多くの文字を持つオフライン手書きテキストの長い行から時間的ストローク情報を推論し、予測と基底真理点を整合させる、微分可能なアプローチである。 TRACEは、任意の幅のテキスト行全体をエンドツーエンドでトレーニングする最初のシステムであり、動的例えの使用を必要としない。 さらに、システムは事前処理を行うイメージを必要とせず、予測も後処理も必要としない。 その結果、回収された軌道は微分可能であり、オフライン手書きテキストの合成を含む他のタスクの損失関数として使用できる。 オフラインデータからのトレースから得られた時間的ストローク情報を手書き合成に利用し,iamオンライン手書きデータセット上で訓練されたストロークストロークリカバリシステムの最初のベンチマークを確立できることを実証する。

Stroke order and velocity are helpful features in the fields of signature verification, handwriting recognition, and handwriting synthesis. Recovering these features from offline handwritten text is a challenging and well-studied problem. We propose a new model called TRACE (Trajectory Recovery by an Adaptively-trained Convolutional Encoder). TRACE is a differentiable approach that uses a convolutional recurrent neural network (CRNN) to infer temporal stroke information from long lines of offline handwritten text with many characters and dynamic time warping (DTW) to align predictions and ground truth points. TRACE is perhaps the first system to be trained end-to-end on entire lines of text of arbitrary width and does not require the use of dynamic exemplars. Moreover, the system does not require images to undergo any pre-processing, nor do the predictions require any post-processing. Consequently, the recovered trajectory is differentiable and can be used as a loss function for other tasks, including synthesizing offline handwritten text. We demonstrate that temporal stroke information recovered by TRACE from offline data can be used for handwriting synthesis and establish the first benchmarks for a stroke trajectory recovery system trained on the IAM online handwriting dataset.
翻訳日:2021-05-26 14:26:22 公開日:2021-05-24
# 非線形力学系学習のための近最適オフライン・ストリーミングアルゴリズム

Near-optimal Offline and Streaming Algorithms for Learning Non-Linear Dynamical Systems ( http://arxiv.org/abs/2105.11558v1 )

ライセンス: Link先を確認
Prateek Jain, Suhas S Kowshik, Dheeraj Nagaraj, Praneeth Netrapalli(参考訳) ベクトル値の非線形力学系 $x_{t+1} = \phi(a^* x_t) + \eta_t$, ここで、$\eta_t$ は偏りのないノイズであり、$\phi : \mathbb{r} \to \mathbb{r}$ はある拡張性を満たす既知のリンク関数である。 目標は、1つの軌道から$A^*$を学習することであり、$X_1,\cdots,X_T$ of {\em dependent or correlation} sampleである。 この問題は、$\phi$ が同一であり、非混合系においても最適な誤差率を持つ線形の場合においてよく研究されているが、非線形の場合の既存の結果は混合系でのみ成り立つ。 In this work, we improve existing results for learning nonlinear systems in a number of ways: a) we provide the first offline algorithm that can learn non-linear dynamical systems without the mixing assumption, b) we significantly improve upon the sample complexity of existing results for mixing systems, c) in the much harder one-pass, streaming setting we study a SGD with Reverse Experience Replay ($\mathsf{SGD-RER}$) method, and demonstrate that for mixing systems, it achieves the same sample complexity as our offline algorithm, d) we justify the expansivity assumption by showing that for the popular ReLU link function -- a non-expansive but easy to learn link function with i.i.d. サンプル -- どのメソッドも動的システムから指数関数的に多くのサンプル(x_t$の次元で)を必要とします。 私たちは結果を検証します。 シミュレーションと、SGDの単純適用が極めて準最適であることを示す。 実際、我々の研究は相関データの場合、データ内の依存構造のために設計された特殊なメソッドが標準のsgdベースのメソッドを大幅に上回ることを示している。

We consider the setting of vector valued non-linear dynamical systems $X_{t+1} = \phi(A^* X_t) + \eta_t$, where $\eta_t$ is unbiased noise and $\phi : \mathbb{R} \to \mathbb{R}$ is a known link function that satisfies certain {\em expansivity property}. The goal is to learn $A^*$ from a single trajectory $X_1,\cdots,X_T$ of {\em dependent or correlated} samples. While the problem is well-studied in the linear case, where $\phi$ is identity, with optimal error rates even for non-mixing systems, existing results in the non-linear case hold only for mixing systems. In this work, we improve existing results for learning nonlinear systems in a number of ways: a) we provide the first offline algorithm that can learn non-linear dynamical systems without the mixing assumption, b) we significantly improve upon the sample complexity of existing results for mixing systems, c) in the much harder one-pass, streaming setting we study a SGD with Reverse Experience Replay ($\mathsf{SGD-RER}$) method, and demonstrate that for mixing systems, it achieves the same sample complexity as our offline algorithm, d) we justify the expansivity assumption by showing that for the popular ReLU link function -- a non-expansive but easy to learn link function with i.i.d. samples -- any method would require exponentially many samples (with respect to dimension of $X_t$) from the dynamical system. We validate our results via. simulations and demonstrate that a naive application of SGD can be highly sub-optimal. Indeed, our work demonstrates that for correlated data, specialized methods designed for the dependency structure in data can significantly outperform standard SGD based methods.
翻訳日:2021-05-26 14:21:54 公開日:2021-05-24
# 脳腫瘍切片形成のための知識蒸留法の実験

Experimenting with Knowledge Distillation techniques for performing Brain Tumor Segmentation ( http://arxiv.org/abs/2105.11486v1 )

ライセンス: Link先を確認
Ashwin Nalwade, Jackie Kisa(参考訳) マルチモーダルMRI(Multi-modal magnetic resonance imaging)は、ヒト脳を解析するための重要な方法である。 通常は、疾患の診断や、治療に関する貴重な決定(例えば、脳のグリオーマの検査など)に使用される。 重症度と検出の程度が異なるため、グリオーマの適切な診断は現代の医学において最も困難で重要な分析課題の一つである。 私たちの主な焦点は、マルチモーダルMRIスキャンで脳腫瘍のセグメント化を行うための様々なアプローチに取り組むことです。 現在、トレーニングに使用されるデータの量、変動性は常に優れたモデルの開発に不可欠であると考えられている。 したがって、我々は知識蒸留技術の実験もしたい。

Multi-modal magnetic resonance imaging (MRI) is a crucial method for analyzing the human brain. It is usually used for diagnosing diseases and for making valuable decisions regarding the treatments - for instance, checking for gliomas in the human brain. With varying degrees of severity and detection, properly diagnosing gliomas is one of the most daunting and significant analysis tasks in modern-day medicine. Our primary focus is on working with different approaches to perform the segmentation of brain tumors in multimodal MRI scans. Now, the quantity, variability of the data used for training has always been considered to be crucial for developing excellent models. Hence, we also want to experiment with Knowledge Distillation techniques.
翻訳日:2021-05-26 14:19:10 公開日:2021-05-24
# 不確実性を考慮した信号時間論理

Uncertainty-Aware Signal Temporal logic ( http://arxiv.org/abs/2105.11545v1 )

ライセンス: Link先を確認
Nasim Baharisangari, Jean-Rapha\"el Gaglione, Daniel Neider, Ufuk Topcu, Zhe Xu(参考訳) 時間論理推論は、時間論理公式の形式でデータからシステム行動の形式的記述を抽出する過程である。 既存の時間論理推論手法はデータの不確かさをほとんど無視しており、実際の展開においてそのような手法の適用性は限られている。 本稿では,まずシステムの軌跡に関連する不確実性について検討し,その不確実性を区間軌跡の形で表現する。 そこで本研究では,不確実性認識信号時相論理(stl)の2つの推論手法を提案する。 有限個の軌跡を分類する代わりに、区間軌跡内の無限個の軌跡を分類する。 第1のアプローチでは、区間軌道に関してstl公式のロバストな意味論を取り入れ、区間軌道によってstl公式が満たされたり破られたりする限界を定量化する。 第2のアプローチは、最初の学習アルゴリズムに依存し、決定木を利用してSTL式を推論し、与えられたシステムの振る舞いを分類する。 提案手法は,STL式を推定する際の最悪ケースロバスト性を最適化することにより,非分離データに対しても有効である。 最後に,提案アルゴリズムの性能を2つのケーススタディで評価し,提案アルゴリズムは,サンプリングベースベースラインアルゴリズムと比較して最大4桁の計算時間を削減できることを示した(合計800のサンプリングトラジェクタを持つデータセットの場合)。

Temporal logic inference is the process of extracting formal descriptions of system behaviors from data in the form of temporal logic formulas. The existing temporal logic inference methods mostly neglect uncertainties in the data, which results in limited applicability of such methods in real-world deployments. In this paper, we first investigate the uncertainties associated with trajectories of a system and represent such uncertainties in the form of interval trajectories. We then propose two uncertainty-aware signal temporal logic (STL) inference approaches to classify the undesired behaviors and desired behaviors of a system. Instead of classifying finitely many trajectories, we classify infinitely many trajectories within the interval trajectories. In the first approach, we incorporate robust semantics of STL formulas with respect to an interval trajectory to quantify the margin at which an STL formula is satisfied or violated by the interval trajectory. The second approach relies on the first learning algorithm and exploits the decision tree to infer STL formulas to classify behaviors of a given system. The proposed approaches also work for non-separable data by optimizing the worst-case robustness in inferring an STL formula. Finally, we evaluate the performance of the proposed algorithms in two case studies, where the proposed algorithms show reductions in the computation time by up to four orders of magnitude in comparison with the sampling-based baseline algorithms (for a dataset with 800 sampled trajectories in total).
翻訳日:2021-05-26 14:14:59 公開日:2021-05-24
# オンライン制約K平均による教師なし視覚表現学習

Unsupervised Visual Representation Learning by Online Constrained K-Means ( http://arxiv.org/abs/2105.11527v1 )

ライセンス: Link先を確認
Qi Qian, Yuanhong Xu, Juhua Hu, Hao Li, Rong Jin(参考訳) クラスタ識別は教師なし表現学習に有効なプリテキストタスクであり、クラスタリングと識別の2つのフェーズで構成されることが多い。 クラスタリングは、各インスタンスに識別における表現の学習に使用される擬似ラベルを割り当てることである。 多くの一般的なクラスタリングメソッド(k-meansなど)は、データ全体にわたって複数のイテレーションを行うバッチモードで実行する必要があるため、主な課題はクラスタリングにある。 近年,表現学習のためのバランスの取れたオンラインクラスタリング手法,すなわちSwaVが提案されている。 しかし、割り当てはデータの小さなサブセットでのみ最適化され、サブ最適にすることができる。 これらの課題に対処するために,距離メトリック学習の観点からクラスタリングに基づく表現学習の目的について検討する。 そこで本研究では,オンライン \textbf{Co}nstrained \textbf{K}-m\textbf{e}ans (\textbf{CoKe}) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。 各クラスタが全く同じサイズであるバランスの取れたクラスタリングと比較すると、クラスタの最小サイズのみを制約して、固有のデータ構造を柔軟にキャプチャします。 さらに重要なことに、オンライン割り当て手法は、グローバル最適化にアプローチするための理論的保証を持っています。 最後に、2つの分散低減戦略を提案し、異なる拡張のためにクラスタリングを堅牢にする。 インスタンスの表現を保持することなく、データはコークスのオンラインモードでアクセスされ、各イテレーションのインスタンスの単一のビューは、2つのビューに依存するコントラスト学習メソッドよりも優れたパフォーマンスを示すのに十分である。 ImageNetの大規模な実験により提案手法の有効性が検証された。 コードはリリースされる。

Cluster discrimination is an effective pretext task for unsupervised representation learning, which often consists of two phases: clustering and discrimination. Clustering is to assign each instance a pseudo label that will be used to learn representations in discrimination. The main challenge resides in clustering since many prevalent clustering methods (e.g., k-means) have to run in a batch mode that goes multiple iterations over the whole data. Recently, a balanced online clustering method, i.e., SwAV, is proposed for representation learning. However, the assignment is optimized within only a small subset of data, which can be suboptimal. To address these challenges, we first investigate the objective of clustering-based representation learning from the perspective of distance metric learning. Based on this, we propose a novel clustering-based pretext task with online \textbf{Co}nstrained \textbf{K}-m\textbf{e}ans (\textbf{CoKe}) to learn representations and relations between instances simultaneously. Compared with the balanced clustering that each cluster has exactly the same size, we only constrain the minimum size of clusters to flexibly capture the inherent data structure. More importantly, our online assignment method has a theoretical guarantee to approach the global optimum. Finally, two variance reduction strategies are proposed to make the clustering robust for different augmentations. Without keeping representations of instances, the data is accessed in an online mode in CoKe while a single view of instances at each iteration is sufficient to demonstrate a better performance than contrastive learning methods relying on two views. Extensive experiments on ImageNet verify the efficacy of our proposal. Code will be released.
翻訳日:2021-05-26 14:14:02 公開日:2021-05-24
# 事前学習型視覚言語表現によるより良い視覚対話エージェントの学習

Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation ( http://arxiv.org/abs/2105.11541v1 )

ライセンス: Link先を確認
Tao Tu, Qing Ping, Govind Thattai, Gokhan Tur, Prem Natarajan(参考訳) なんだって? プレイヤーaがyes/noの質問(質問者)のシーケンスを質問し、プレイヤーb(oracle)の回答に基づいて画像中の対象オブジェクトの最終的な推測(ゲッセ)を行う2人のプレイヤーによるビジュアルダイアログ推測ゲームである。 QuestionerとOracleの間のこのダイアログ履歴に基づいて、Guesserはターゲットオブジェクトの最終的な推測を行う。 以前のベースラインのOracleモデルは、モデルに視覚的な情報をエンコードしておらず、色、形、関係などに関する複雑な質問を完全には理解できません。 Guesserの既存の作業のほとんどは、ダイアログ履歴全体をエンコードし、GuesserモデルをGuessWhatのスクラッチからトレーニングしています! データセット。 言語エンコーダは長い歴史や推測を忘れがちなので、これは問題です。 オブジェクトの視覚的な接地を学ぶという点では、データは疎い。 Questionerの以前の研究は、状態追跡メカニズムをモデルに導入していたが、従来の視覚言語的な洞察を持たないソフト中間体として学習されている。 これらのギャップを埋めるため,本論文では,事前学習されたビジョン言語モデルであるvilbert上に構築された,vilbertベースのoracle, guesser,そして questionerを提案する。 対象物内および対象物間の問合せを考慮すべく,両方向のバックグラウンド/ターゲット融合機構をVilbert-Oracleに導入する。 本稿では,一ターン参照表現の理解において,ビルベルトの力を最大限活用するための状態推定器を提案する。 実験の結果,提案したモデルは,Oracle,Guesser,End-to-End Questionerでそれぞれ7%,10%,12%,それぞれ有意なパフォーマンスを示した。

GuessWhat?! is a two-player visual dialog guessing game where player A asks a sequence of yes/no questions (Questioner) and makes a final guess (Guesser) about a target object in an image, based on answers from player B (Oracle). Based on this dialog history between the Questioner and the Oracle, a Guesser makes a final guess of the target object. Previous baseline Oracle model encodes no visual information in the model, and it cannot fully understand complex questions about color, shape, relationships and so on. Most existing work for Guesser encode the dialog history as a whole and train the Guesser models from scratch on the GuessWhat?! dataset. This is problematic since language encoder tend to forget long-term history and the GuessWhat?! data is sparse in terms of learning visual grounding of objects. Previous work for Questioner introduces state tracking mechanism into the model, but it is learned as a soft intermediates without any prior vision-linguistic insights. To bridge these gaps, in this paper we propose Vilbert-based Oracle, Guesser and Questioner, which are all built on top of pretrained vision-linguistic model, Vilbert. We introduce two-way background/target fusion mechanism into Vilbert-Oracle to account for both intra and inter-object questions. We propose a unified framework for Vilbert-Guesser and Vilbert-Questioner, where state-estimator is introduced to best utilize Vilbert's power on single-turn referring expression comprehension. Experimental results show that our proposed models outperform state-of-the-art models significantly by 7%, 10%, 12% for Oracle, Guesser and End-to-End Questioner respectively.
翻訳日:2021-05-26 14:13:12 公開日:2021-05-24
# shd360:360{\deg}ビデオにおける人間検出のためのベンチマークデータセット

SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg} Videos ( http://arxiv.org/abs/2105.11578v1 )

ライセンス: Link先を確認
Yi Zhang, Lu Zhang, Jing Zhang, Kang Wang, Wassim Hamidouche, Olivier Deforges(参考訳) dynamic 360{\deg} 没入型ビデオにおけるsalient human detection (shd)は、拡張現実におけるロボット工学、人間間および対象間のインタラクションなど、さまざまな応用において非常に重要である。 しかし、360{\deg}のビデオSHDは、大規模な全方位ビデオとリッチアノテーションを備えたデータセットが不足しているため、コンピュータビジョンコミュニティではほとんど議論されていない。 そこで本研究では,3,403個の全方位ビデオフレームから4K解像度で一様にサンプリングされた6,268個のキーフレームに対して,6レベルの階層的アノテーションを提供する。 具体的には、収集された各キーフレームにはスーパークラス、サブクラス、関連する属性(例えば幾何学的歪み)、バウンディングボックス、ピクセル単位のオブジェクト/インスタンス単位のマスクがラベル付けされる。 その結果、私たちのSHD360には16,238の正解な人間の実例が含まれています。 360{\deg} shdの手法は今のところ提案されていないので,sod(state-of-the-art salient object detection)アプローチをscd360に体系的にベンチマークし,広範な実験結果から得られた問題点を考察した。 提案するデータセットとベンチマークが、360{\deg}パノラマデータに向けて人間中心の研究を進めるための出発点となることを願っています。 私たちのデータセットとベンチマークはhttps://github.com/PanoAsh/SHD360で公開されます。

Salient human detection (SHD) in dynamic 360{\deg} immersive videos is of great importance for various applications such as robotics, inter-human and human-object interaction in augmented reality. However, 360{\deg} video SHD has been seldom discussed in the computer vision community due to a lack of datasets with large-scale omnidirectional videos and rich annotations. To this end, we propose SHD360, the first 360{\deg} video SHD dataset collecting various real-life daily scenes, providing six-level hierarchical annotations for 6,268 key frames uniformly sampled from 37,403 omnidirectional video frames at 4K resolution. Specifically, each collected key frame is labeled with a super-class, a sub-class, associated attributes (e.g., geometrical distortion), bounding boxes and per-pixel object-/instance-level masks. As a result, our SHD360 contains totally 16,238 salient human instances with manually annotated pixel-wise ground truth. Since so far there is no method proposed for 360{\deg} SHD, we systematically benchmark 11 representative state-of-the-art salient object detection (SOD) approaches on our SHD360, and explore key issues derived from extensive experimenting results. We hope our proposed dataset and benchmark could serve as a good starting point for advancing human-centric researches towards 360{\deg} panoramic data. Our dataset and benchmark will be publicly available at https://github.com/PanoAsh/SHD360.
翻訳日:2021-05-26 14:12:22 公開日:2021-05-24
# rrライラ星分類器のための情報ベイズモデル選択

Informative Bayesian model selection for RR Lyrae star classifiers ( http://arxiv.org/abs/2105.11531v1 )

ライセンス: Link先を確認
F. P\'erez-Galarce, K. Pichara, P. Huijse, M. Catelan, D. Mery(参考訳) 機械学習は変光星の自動分類において重要な役割を担い、過去10年間にいくつかの分類器が提案されてきた。 これらの分類器はいくつかの天文学カタログで印象的な性能を発揮している。 しかし、いくつかの科学論文では、トレーニングデータには複数のバイアス源が含まれていることも示されている。 したがって、トレーニングデータに属さないオブジェクトに対するこれらの分類器の性能は不確かであり、おそらく間違ったモデルを選択することになる。 さらに、これは誤解を招く分類器の配置を引き起こす。 後者の例は、バイアス付き予測を伴うオープンソースのラベル付きカタログの作成である。 本稿では,変光星分類器を評価するための情報的限界確率に基づく手法を開発する。 我々は、RRリレー星の物理記述子に基づく決定論的ルールを収集し、バイアスを軽減するために、これらのルールを限界推定に導入する。 我々は,rr lyraes分類を訓練したベイズロジスティック回帰を用いて実験を行い,ペナルティモデルの評価においても従来の非インフォーマティブなクロスバリデーション戦略を上回ることを発見した。 本手法は、天文学的知識を用いた機械学習モデルを評価するための、より厳格な代替手段を提供する。 このアプローチから、変光星の他のクラスへの応用やアルゴリズムの改良が開発される。

Machine learning has achieved an important role in the automatic classification of variable stars, and several classifiers have been proposed over the last decade. These classifiers have achieved impressive performance in several astronomical catalogues. However, some scientific articles have also shown that the training data therein contain multiple sources of bias. Hence, the performance of those classifiers on objects not belonging to the training data is uncertain, potentially resulting in the selection of incorrect models. Besides, it gives rise to the deployment of misleading classifiers. An example of the latter is the creation of open-source labelled catalogues with biased predictions. In this paper, we develop a method based on an informative marginal likelihood to evaluate variable star classifiers. We collect deterministic rules that are based on physical descriptors of RR Lyrae stars, and then, to mitigate the biases, we introduce those rules into the marginal likelihood estimation. We perform experiments with a set of Bayesian Logistic Regressions, which are trained to classify RR Lyraes, and we found that our method outperforms traditional non-informative cross-validation strategies, even when penalized models are assessed. Our methodology provides a more rigorous alternative to assess machine learning models using astronomical knowledge. From this approach, applications to other classes of variable stars and algorithmic improvements can be developed.
翻訳日:2021-05-26 13:59:25 公開日:2021-05-24
# コミュニケーション効率からの語彙学習バイアスの出現と転落

The advent and fall of a vocabulary learning bias from communicative efficiency ( http://arxiv.org/abs/2105.11519v1 )

ライセンス: Link先を確認
David Carrera-Casado and Ramon Ferrer-i-Cancho(参考訳) 十分に幼い子どもが新しい単語に遭遇すると、語彙に語が存在しない意味にアタッチする傾向があることはよく知られている。 これまでの研究では,戦略は情報理論の観点から最適であることが示されている。 しかし、情報理論モデルは、高齢者や多言語話者における語彙学習バイアスの弱さを説明せず、zipfの意味周波数法則、すなわち単語の意味の数と頻度の間の非線形関係を再現するものではない。 ここでは、その法則を再現するためにチャネルされるモデルの一般化を考える。 新たなモデルの解析により,高齢者や多言語系におけるバイアスの弱化や消失に伴い,バイアスが一貫して消失する相空間の領域が明らかになった。 ディープラーニング時代において、このモデルは将来の実験研究のための透明な低次元ツールであり、Zipfのランク周波数法則の起源に光を当てるために設計された理論フレームワークの予測力を示す。

It is well-known that, when sufficiently young children encounter a new word, they tend to attach it to a meaning that does not have a word yet in their lexicon. In previous research, the strategy was shown to be optimal from an information theoretic standpoint. However, the information theoretic model employed neither explains the weakening of that vocabulary learning bias in older children or polylinguals nor reproduces Zipf's meaning-frequency law, namely the non-linear relationship between the number of meanings of a word and its frequency. Here we consider a generalization of the model that is channeled to reproduce that law. The analysis of the new model reveals regions of the phase space where the bias disappears consistently with the weakening or loss of the bias in older children or polylinguals. In the deep learning era, the model is a transparent low-dimensional tool for future experimental research and illustrates the predictive power of a theoretical framework originally designed to shed light on the origins of Zipf's rank-frequency law.
翻訳日:2021-05-26 13:55:11 公開日:2021-05-24
# PTSDの予測モデリングのための脳構造の弾性形状解析

Elastic Shape Analysis of Brain Structures for Predictive Modeling of PTSD ( http://arxiv.org/abs/2105.11547v1 )

ライセンス: Link先を確認
Yuexuan Wu, Suprateek Kundu, Jennifer S. Stevens, Negar Fani, Anuj Srivastava(参考訳) 精神疾患の予測と分類における脳形態学の重要性に関する証拠が増えている。 しかし、現在の形状アプローチの大半は、皮質下構造の複雑さをうまく捉えられない頂点解析に大きく依存している。 さらに、過去の研究にはこれらの構造と露出要因の間の相互作用は含まれていない。 このような相互作用による予測モデリングはPTSDのような異種性精神疾患に最も関心があり、外傷暴露は脳の形状と相互作用し行動に影響を与える。 本稿では,脳の部分構造を連続的パラメータ化曲面として表現し,弾性形状メトリクスを用いて形状差を定量化することにより,これらの制約を克服する包括的枠組みを提案する。 弾性形状測定値を用いて皮質下データの形状要約を計算し,個々の形状を主スコアで表現する。 これらの表現は、これらのPCが変化するときの変化をローカライズする視覚化ツールを可能にする。 その後、これらのPC、補助露光変数、およびそれらの相互作用は回帰モデリングに使用される。 本手法は,脳部分構造の形状を用いてptsdの臨床測定値を予測することを目的として,grady trauma projectのデータに適用する。 解析の結果, 弾性形状解析における予測力は, 頂点ワイド形状解析や体積解析など, 広く用いられている手法よりも有意に大きかった。 ptsdの重症度の変化に関連する脳の形状の局所的な変形を特定するのに役立った。 私たちの知る限りでは、これは1つの傘の下で前処理ステップをシームレスに統合して精度を高め、自然に脳の形状と余変量との相互作用を考慮し、臨床結果のモデル化において優れた予測性能が得られる最初の脳形状分析アプローチの1つです。

There is increasing evidence on the importance of brain morphology in predicting and classifying mental disorders. However, the vast majority of current shape approaches rely heavily on vertex-wise analysis that may not successfully capture complexities of subcortical structures. Additionally, the past works do not include interactions between these structures and exposure factors. Predictive modeling with such interactions is of paramount interest in heterogeneous mental disorders such as PTSD, where trauma exposure interacts with brain shape changes to influence behavior. We propose a comprehensive framework that overcomes these limitations by representing brain substructures as continuous parameterized surfaces and quantifying their shape differences using elastic shape metrics. Using the elastic shape metric, we compute shape summaries of subcortical data and represent individual shapes by their principal scores. These representations allow visualization tools that help localize changes when these PCs are varied. Subsequently, these PCs, the auxiliary exposure variables, and their interactions are used for regression modeling. We apply our method to data from the Grady Trauma Project, where the goal is to predict clinical measures of PTSD using shapes of brain substructures. Our analysis revealed considerably greater predictive power under the elastic shape analysis than widely used approaches such as vertex-wise shape analysis and even volumetric analysis. It helped identify local deformations in brain shapes related to change in PTSD severity. To our knowledge, this is one of the first brain shape analysis approaches that can seamlessly integrate the pre-processing steps under one umbrella for improved accuracy and are naturally able to account for interactions between brain shape and additional covariates to yield superior predictive performance when modeling clinical outcomes.
翻訳日:2021-05-26 13:53:16 公開日:2021-05-24
# 可視化と推論によるハイパーパラメータチューニング

Guided Hyperparameter Tuning Through Visualization and Inference ( http://arxiv.org/abs/2105.11516v1 )

ライセンス: Link先を確認
Hyekang Joo, Calvin Bao, Ishan Sen, Furong Huang, and Leilani Battle(参考訳) ディープラーニングの実践者にとって、モデルのパフォーマンスを最適化するためのハイパーパラメータチューニングは計算コストの高いタスクである。 ビジュアライゼーションはハイパーパラメータの設定をモデル全体のパフォーマンスに関連付けるのに役立つが、次の実験でハイパーパラメータの設定を導くには、依然としてかなりの手作業による検査が必要である。 そこで本研究では,深層学習の実践者がハイパーパラメータをより効率的に探索し,チューニングし,最適化することが可能な可視化システムを提案する。 重要なアイデアは、予測機構を使ってより最適なハイパーパラメータ値を直接提案することである。 そして、このメカニズムを現在のディープラーニングの可視化プラクティスと統合します。 さらに、モデルハイパーパラメータのコンテキストにおける選択されたパフォーマンスメトリックの分散の分析は、特定のハイパーパラメータがパフォーマンスメトリックに与える影響を示している。 私たちはこのツールをディープラーニングモデルビルダーに関するユーザスタディで評価し、私たちの参加者はツールの採用にほとんど問題がなく、ワークフローの一部として作業しています。

For deep learning practitioners, hyperparameter tuning for optimizing model performance can be a computationally expensive task. Though visualization can help practitioners relate hyperparameter settings to overall model performance, significant manual inspection is still required to guide the hyperparameter settings in the next batch of experiments. In response, we present a streamlined visualization system enabling deep learning practitioners to more efficiently explore, tune, and optimize hyperparameters in a batch of experiments. A key idea is to directly suggest more optimal hyperparameter values using a predictive mechanism. We then integrate this mechanism with current visualization practices for deep learning. Moreover, an analysis on the variance in a selected performance metric in the context of the model hyperparameters shows the impact that certain hyperparameters have on the performance metric. We evaluate the tool with a user study on deep learning model builders, finding that our participants have little issue adopting the tool and working with it as part of their workflow.
翻訳日:2021-05-26 13:50:06 公開日:2021-05-24
# InSARコヒーレンス時系列を用いた深層学習に基づく損傷マッピング

Deep Learning-based Damage Mapping with InSAR Coherence Time Series ( http://arxiv.org/abs/2105.11544v1 )

ライセンス: Link先を確認
Oliver L. Stephenson, Tobias K\"ohne, Eric Zhan, Brent E. Cahill, Sang-Ho Yun, Zachary E. Ross, Mark Simons(参考訳) 衛星リモートセンシングは,自然災害後の被害の迅速なマッピングにおいて,その役割を担っている。 特に、合成開口レーダー(SAR)は地球の表面を撮像し、すべての気象条件、昼夜の損傷を地図化することができる。 しかし、現在のSARの損傷マッピング手法は、地球表面の他の変化から損傷を分離するのに苦労している。 本研究では,自然災害による地球表面性状の異常な変化を検出するために,深層学習とsar観測のフルタイム履歴を組み合わせた新しい損傷マッピング手法を提案する。 我々は、インターフェロメトリSARコヒーレンス時系列を用いて地球表面の変化を定量化し、これらのコヒーレンス時系列上の確率的異常検出器としてリカレントニューラルネットワーク(RNN)を用いる。 RNNはまず、事前のコヒーレンス時系列に基づいて訓練され、その後、事前のSAR画像と後的なSAR画像のコヒーレンス分布の確率分布を予測する。 予測と観測された共同事象のコヒーレンスの違いは、損傷の識別に対する信頼度を測る指標となる。 本手法では,イベント前におけるコヒーレンスの局所的挙動に基づいて,各場所ごとにカスタマイズされた損傷検出しきい値を選択することができる。 本研究では,sentinel-1 sar取得の複数年時系列を用いた3つの地震の被害予測手法を提案する。 本手法は, コヒーレンス損失を損傷プロキシとして用いる場合と比較して, 観察された損傷と量的改善との良好な一致を示した。

Satellite remote sensing is playing an increasing role in the rapid mapping of damage after natural disasters. In particular, synthetic aperture radar (SAR) can image the Earth's surface and map damage in all weather conditions, day and night. However, current SAR damage mapping methods struggle to separate damage from other changes in the Earth's surface. In this study, we propose a novel approach to damage mapping, combining deep learning with the full time history of SAR observations of an impacted region in order to detect anomalous variations in the Earth's surface properties due to a natural disaster. We quantify Earth surface change using time series of Interferometric SAR coherence, then use a recurrent neural network (RNN) as a probabilistic anomaly detector on these coherence time series. The RNN is first trained on pre-event coherence time series, and then forecasts a probability distribution of the coherence between pre- and post-event SAR images. The difference between the forecast and observed co-event coherence provides a measure of the confidence in the identification of damage. The method allows the user to choose a damage detection threshold that is customized for each location, based on the local behavior of coherence through time before the event. We apply this method to calculate estimates of damage for three earthquakes using multi-year time series of Sentinel-1 SAR acquisitions. Our approach shows good agreement with observed damage and quantitative improvement compared to using pre- to co-event coherence loss as a damage proxy.
翻訳日:2021-05-26 13:49:40 公開日:2021-05-24
# 相互情報の適応的局所カーネル定式化と地震後建物被害推定への応用

Adaptive Local Kernels Formulation of Mutual Information with Application to Active Post-Seismic Building Damage Inference ( http://arxiv.org/abs/2105.11492v1 )

ライセンス: Link先を確認
Mohamadreza Sheibani, Ge Ou(参考訳) トレーニングデータの豊富さは、様々な教師付き学習アプリケーションでは保証されない。 これらの状況の1つは地震後の建物の地域的被害評価である。 各建物の損傷ラベルを問い合わせるには、専門家による徹底的な検査が必要である。 実践的なアプローチは、逐次学習方式で最も情報性の高い建物をサンプリングすることである。 能動的学習法は、一般化誤差を最大に低減できる最も有益な事例を推奨する。 相互情報の情報理論尺度(MI)は,プール型サンプル選択シナリオにおけるサンプルの有効性を評価する上で,最も有効な基準の一つである。 しかし、標準MIアルゴリズムの計算複雑性は、この手法の大規模データセットへの利用を妨げている。 計算コストを削減するためにローカルカーネル戦略が提案されたが、この戦略の当初の定式化ではカーネルのラベルへの適応性は考慮されなかった。 本稿では、標準miアルゴリズムの計算複雑性を高めつつ、観測された出力データへのカーネルの適合性を可能にする適応型局所カーネル方法論を開発した。 提案手法はgaussian process regression (gpr) フレームワークを用いて,各ラベルクエリの後にカーネルハイパーパラメータを最大推定値を用いて更新する手法である。 逐次学習手順では、更新されたハイパーパラメータをMIカーネル行列で使用してサンプル提案性能を向上させることができる。 この利点は、2018年アンカレッジ地震(AK)のシミュレーションで実証されている。 提案アルゴリズムは,トレーニングデータが少なく,GPRが許容できる性能に到達可能であるが,計算要求は標準的なローカルカーネル戦略よりも低いままである。

The abundance of training data is not guaranteed in various supervised learning applications. One of these situations is the post-earthquake regional damage assessment of buildings. Querying the damage label of each building requires a thorough inspection by experts, and thus, is an expensive task. A practical approach is to sample the most informative buildings in a sequential learning scheme. Active learning methods recommend the most informative cases that are able to maximally reduce the generalization error. The information theoretic measure of mutual information (MI) is one of the most effective criteria to evaluate the effectiveness of the samples in a pool-based sample selection scenario. However, the computational complexity of the standard MI algorithm prevents the utilization of this method on large datasets. A local kernels strategy was proposed to reduce the computational costs, but the adaptability of the kernels to the observed labels was not considered in the original formulation of this strategy. In this article, an adaptive local kernels methodology is developed that allows for the conformability of the kernels to the observed output data while enhancing the computational complexity of the standard MI algorithm. The proposed algorithm is developed to work on a Gaussian process regression (GPR) framework, where the kernel hyperparameters are updated after each label query using the maximum likelihood estimation. In the sequential learning procedure, the updated hyperparameters can be used in the MI kernel matrices to improve the sample suggestion performance. The advantages are demonstrated on a simulation of the 2018 Anchorage, AK, earthquake. It is shown that while the proposed algorithm enables GPR to reach acceptable performance with fewer training data, the computational demands remain lower than the standard local kernels strategy.
翻訳日:2021-05-26 13:45:20 公開日:2021-05-24
# ブースト決定木を用いたデータからの時間論理特性の推定

Inferring Temporal Logic Properties from Data using Boosted Decision Trees ( http://arxiv.org/abs/2105.11508v1 )

ライセンス: Link先を確認
Erfan Aasi, Cristian Ioan Vasile, Mahroo Bahreinian, Calin Belta(参考訳) ロボットや自動運転車のような多くの自律システムは、複雑な環境でのリアルタイム意思決定を伴い、限られたデータから将来の結果を予測する必要がある。 さらに、彼らの決定は、安全で信頼できる共存のために人間に解釈されることがますます求められている。 本論文は, 解釈可能な学習型ロボット制御への第一歩である。 時系列データから時間論理構造を持つバイナリ分類器を生成するために,逐次式と予測学習という新たな学習問題を導入する。 分類器は、その満足度に対する信号時間論理(STL)公式と予測器のペアとして表現される。 インクリメンタルプロパティは、時間とともに現れるプレフィックス信号のラベルの予測を提供する。 本研究では,弱いが計算コストが安い学習者を活用して,予測と実行時の性能を向上させる決定木アルゴリズムを提案する。 本アルゴリズムの有効性と分類精度を,自律走行および海軍監視事例研究で評価した。

Many autonomous systems, such as robots and self-driving cars, involve real-time decision making in complex environments, and require prediction of future outcomes from limited data. Moreover, their decisions are increasingly required to be interpretable to humans for safe and trustworthy co-existence. This paper is a first step towards interpretable learning-based robot control. We introduce a novel learning problem, called incremental formula and predictor learning, to generate binary classifiers with temporal logic structure from time-series data. The classifiers are represented as pairs of Signal Temporal Logic (STL) formulae and predictors for their satisfaction. The incremental property provides prediction of labels for prefix signals that are revealed over time. We propose a boosted decision-tree algorithm that leverages weak, but computationally inexpensive, learners to increase prediction and runtime performance. The effectiveness and classification accuracy of our algorithms are evaluated on autonomous-driving and naval surveillance case studies.
翻訳日:2021-05-26 13:44:35 公開日:2021-05-24
# ディープニューラルネットワークによるハイブリッド分析とモデリングのための補正ソース項アプローチ

Deep neural network enabled corrective source term approach to hybrid analysis and modeling ( http://arxiv.org/abs/2105.11521v1 )

ライセンス: Link先を確認
Sindre Stenen Blakseth and Adil Rasheed and Trond Kvamsdal and Omer San(参考訳) ハイブリッド分析モデリング(Hybrid Analysis and Modeling, HAM)は、物理に基づくモデリング(PBM)とデータ駆動モデリング(DDM)を組み合わせて、一般化可能で信頼性が高く、正確で、計算効率が良く、自己進化的なモデルを作成することを目的とした、新しいモデリングパラダイムである。 本稿では,深層ニューラルネットワーク(DNN)によって生成された補正元項を用いて,PBMモデルの制御方程式を強化するHAM -- Corrective Source Term Approach (CoSTA) -- の新たなアプローチを紹介し,正当化し,実証する。 一次元の熱拡散に関する一連の数値実験において、CoSTAは一般的に、DDMとPBMのモデルに匹敵する精度(しばしば予測誤差を桁違いに減少させる)で優れ、純粋なDDMよりも良く一般化する。 costaは柔軟性と強固な理論的基盤のため、pbmとddmの両方で新たな開発を活用するためのモジュラーフレームワークを提供しており、pbmパラダイムにおけるdnn生成のソース用語の解釈可能性によって、データ駆動技術が以前は純粋なpbmのために予約されていた高スループットアプリケーションに入るための扉を開く可能性がある。

Hybrid Analysis and Modeling (HAM) is an emerging modeling paradigm which aims to combine physics-based modeling (PBM) and data-driven modeling (DDM) to create generalizable, trustworthy, accurate, computationally efficient and self-evolving models. Here, we introduce, justify and demonstrate a novel approach to HAM -- the Corrective Source Term Approach (CoSTA) -- which augments the governing equation of a PBM model with a corrective source term generated by a deep neural network (DNN). In a series of numerical experiments on one-dimensional heat diffusion, CoSTA is generally found to outperform comparable DDM and PBM models in terms of accuracy -- often reducing predictive errors by several orders of magnitude -- while also generalizing better than pure DDM. Due to its flexible but solid theoretical foundation, CoSTA provides a modular framework for leveraging novel developments within both PBM and DDM, and due to the interpretability of the DNN-generated source term within the PBM paradigm, CoSTA can be a potential door-opener for data-driven techniques to enter high-stakes applications previously reserved for pure PBM.
翻訳日:2021-05-26 13:44:10 公開日:2021-05-24
# (参考訳) ネガティブ学習による深部視覚異常検出

Deep Visual Anomaly detection with Negative Learning ( http://arxiv.org/abs/2105.11058v1 )

ライセンス: CC BY 4.0
Jin-Ha Lee, Marcella Astrid, Muhammad Zaigham Zaheer, Seung-Ik Lee(参考訳) 深層畳み込みに基づくアーキテクチャの学習能力の向上に伴い、このようなモデルの様々な応用が提案されている。 異常検出の分野では、深層学習の改善が、データ収集の労働集約的特徴を自動化しようとする研究者の新たな探究の新たな可能性を開いた。 まず、データ収集の観点からは、特定の環境に存在する可能性のあるすべての異常を予測できない。 第二に、異常の可能性を制限すると仮定すると、モデルをトレーニングするためにこれらのシナリオをすべて記録することは難しいでしょう。 第三に、大量の異常データを記録できたとしても、このデータをピクセルやフレームレベルでアノテートするのは手間がかかります。 正規データのみに基づいてトレーニングされた生成モデルを用いた1クラス分類の提案により、様々なアプローチがこの問題に対処している。 このような方法では、通常のデータのみを使用し、十分に利用でき、重要な人間の入力を必要としない。 しかし、これらは通常のデータのみで訓練され、テスト時には、入力として異常なデータが与えられた場合、通常に見える出力を生成することがある。 これは生成モデルの幻覚特性によって起こる。 次に、これらのシステムはトレーニング中に異常な例を使用しないように設計されている。 本稿では,非常に少数のラベル付き異常データをトレーニング中の正規データと比較することにより,異常検出の強化に負の学習概念を用いる,負の学習を伴う異常検出(ADNL)を提案する。 その考え方は、与えられた少量の異常例を用いて生成モデルの再構成能力を制限することである。 このようにして、ネットワークは正規データを再構築するだけでなく、異常の分布から遠く離れた正規分布を包含する。

With the increase in the learning capability of deep convolution-based architectures, various applications of such models have been proposed over time. In the field of anomaly detection, improvements in deep learning opened new prospects of exploration for the researchers whom tried to automate the labor-intensive features of data collection. First, in terms of data collection, it is impossible to anticipate all the anomalies that might exist in a given environment. Second, assuming we limit the possibilities of anomalies, it will still be hard to record all these scenarios for the sake of training a model. Third, even if we manage to record a significant amount of abnormal data, it's laborious to annotate this data on pixel or even frame level. Various approaches address the problem by proposing one-class classification using generative models trained on only normal data. In such methods, only the normal data is used, which is abundantly available and doesn't require significant human input. However, these are trained with only normal data and at the test time, given abnormal data as input, may often generate normal-looking output. This happens due to the hallucination characteristic of generative models. Next, these systems are designed to not use abnormal examples during the training. In this paper, we propose anomaly detection with negative learning (ADNL), which employs the negative learning concept for the enhancement of anomaly detection by utilizing a very small number of labeled anomaly data as compared with the normal data during training. The idea is to limit the reconstruction capability of a generative model using the given a small amount of anomaly examples. This way, the network not only learns to reconstruct normal data but also encloses the normal distribution far from the possible distribution of anomalies.
翻訳日:2021-05-26 05:22:10 公開日:2021-05-24
# (参考訳) MultiFair: 機械学習におけるマルチグループフェアネス

MultiFair: Multi-Group Fairness in Machine Learning ( http://arxiv.org/abs/2105.11069v1 )

ライセンス: CC BY 4.0
Jian Kang, Tiankai Xie, Xintao Wu, Ross Maciejewski, Hanghang Tong(参考訳) データマイニングや機械学習では、アルゴリズム的公平性がますます重要になってきており、最も基本的な概念の1つがグループフェアネスである。 グループフェアネスに関する既存の研究の大部分は、主に、複数のセンシティブな属性(例えば、性別、人種、結婚状態など)が共存しているにもかかわらず、単一のセンシティブな属性に対する嫌悪感に焦点を当てている。 現実世界では普通です。 このようにして、関心のあるすべての敏感な属性に対して公平な学習結果を保証する方法を同時に開発する必要がある。 本稿では,複数の興味を持つ属性によって形成された集団間で,代表的集団フェアネス尺度である統計パリティが保証される機械学習(multifair)における多集団フェアネスについて検討する。 相互情報最小化問題として定式化し,それを解決するための汎用的なエンドツーエンドアルゴリズムフレームワークを提案する。 鍵となるアイデアは、学習結果と繊細な属性の間の変動分布と、変動分布と元の分布の間の密度比を考える相互情報の変動表現を活用することである。 提案するフレームワークは,他の統計的フェアネス概念を含む様々な設定に一般化可能であり,グラデーションに基づくオプティマイザを備えた任意の学習タスクを処理可能である。 3つの実世界のデータセットにおける公平な分類タスクにおける経験的評価は,提案手法が分類精度にほとんど影響を与えず,効果的に分類結果を識別できることを実証する。

Algorithmic fairness is becoming increasingly important in data mining and machine learning, and one of the most fundamental notions is group fairness. The vast majority of the existing works on group fairness, with a few exceptions, primarily focus on debiasing with respect to a single sensitive attribute, despite the fact that the co-existence of multiple sensitive attributes (e.g., gender, race, marital status, etc.) in the real-world is commonplace. As such, methods that can ensure a fair learning outcome with respect to all sensitive attributes of concern simultaneously need to be developed. In this paper, we study multi-group fairness in machine learning (MultiFair), where statistical parity, a representative group fairness measure, is guaranteed among demographic groups formed by multiple sensitive attributes of interest. We formulate it as a mutual information minimization problem and propose a generic end-to-end algorithmic framework to solve it. The key idea is to leverage a variational representation of mutual information, which considers the variational distribution between learning outcomes and sensitive attributes, as well as the density ratio between the variational and the original distributions. Our proposed framework is generalizable to many different settings, including other statistical notions of fairness, and could handle any type of learning task equipped with a gradient-based optimizer. Empirical evaluations in the fair classification task on three real-world datasets demonstrate that our proposed framework can effectively debias the classification results with minimal impact to the classification accuracy.
翻訳日:2021-05-26 05:07:30 公開日:2021-05-24
# (参考訳) AFT近似器としてのハイブリッドMKNF知識ベース用固定点演算子

Alternating Fixpoint Operator for Hybrid MKNF Knowledge Bases as an Approximator of AFT ( http://arxiv.org/abs/2105.11071v1 )

ライセンス: CC BY 4.0
Fangfang Liu and Jia-huai You(参考訳) 近似不動点理論(AFT)は、ビラティクス上の作用素の固定点の研究のための代数的フレームワークを提供し、様々な論理プログラムや非単調言語に対する意味論のキャラクタリゼーションにその応用を見出した。 本稿では、Knorr et al による交互固定点作用素という、このタイプの別の応用について述べる。 ハイブリッドMKNF知識ベースのための十分に確立されたセマンティクスの研究は、事実、AFTの擬似近似であり、AFTの抽象化の力により、十分に確立されたセマンティクスだけでなく、2値のセマンティクス、ハイブリッドMKNF知識ベースのための3値のセマンティクスを特徴付ける。 さらに,これらの知識ベースに対する近似器の改良を行い,Knorrらにより定式化された情報よりも最も安定した固定点が情報豊かであることを示す。 建設だ これにより、確立されたセマンティクスの計算が改善される。 この研究は、ハイブリッドMKNF知識基盤の文脈で生じる矛盾に対処するため、誘導された製品ビラティキにおける一貫性と一貫性のないペアをサポートするAFTの拡張の上に構築されている。 この研究のこの部分は、元の AFT を対称近似器から任意の近似器へ一般化すると考えることができる。

Approximation fixpoint theory (AFT) provides an algebraic framework for the study of fixpoints of operators on bilattices and has found its applications in characterizing semantics for various classes of logic programs and nonmonotonic languages. In this paper, we show one more application of this kind: the alternating fixpoint operator by Knorr et al. for the study of the well-founded semantics for hybrid MKNF knowledge bases is in fact an approximator of AFT in disguise, which, thanks to the power of abstraction of AFT, characterizes not only the well-founded semantics but also two-valued as well as three-valued semantics for hybrid MKNF knowledge bases. Furthermore, we show an improved approximator for these knowledge bases, of which the least stable fixpoint is information richer than the one formulated from Knorr et al.'s construction. This leads to an improved computation for the well-founded semantics. This work is built on an extension of AFT that supports consistent as well as inconsistent pairs in the induced product bilattice, to deal with inconsistencies that arise in the context of hybrid MKNF knowledge bases. This part of the work can be considered generalizing the original AFT from symmetric approximators to arbitrary approximators.
翻訳日:2021-05-26 04:33:22 公開日:2021-05-24
# (参考訳) 空中物体検出のための指向性RepPoint

Oriented RepPoints for Aerial Object Detection ( http://arxiv.org/abs/2105.11111v1 )

ライセンス: CC BY 4.0
Wentong Li, Jianke Zhu(参考訳) 向き付けられた境界ボックスとは対照的に、点集合表現は任意の向き、大きなアスペクト比、空中画像の密度分布を持つインスタンスの詳細な構造を捉える大きな可能性を持つ。 しかし、従来のポイントセットに基づくアプローチは、ポイントツーポイントの監督を用いて固定位置で手作りされており、細粒度特徴抽出の柔軟性を損なう。 これらの制約に対処するため,本論文では,オブジェクト指向RepPointsという,空中物体検出のための新しいアプローチを提案する。 具体的には,任意の向きの物体の幾何学的・空間的情報を捉え,空間的・意味的なシナリオで自動的に物体上に配置できる適応点の組を採用することを提案する。 教師付き学習を容易にするために,適応点を配向境界ボックスに明示的にマッピングする指向変換関数を提案する。 さらに,向き付けされた物体検出のポテンシャルに関して代表項目を選択できる訓練用点集合標本を選択するための効果的な品質評価手法を提案する。 さらに, 接地箱の外側の異常点をペナライズするための空間制約を提案する。 重なり比に着目した従来の評価メートル法マップに加えて,従来の指向性物体検出研究では無視される方向精度を測定するための新しいメートル法maoeを提案する。 DOTA、HRSC2016、UCAS-AODを含む3つの広く利用されているデータセットの実験により、提案手法が有効であることを実証した。

In contrast to the oriented bounding boxes, point set representation has great potential to capture the detailed structure of instances with the arbitrary orientations, large aspect ratios and dense distribution in aerial images. However, the conventional point set-based approaches are handcrafted with the fixed locations using points-to-points supervision, which hurts their flexibility on the fine-grained feature extraction. To address these limitations, in this paper, we propose a novel approach to aerial object detection, named Oriented RepPoints. Specifically, we suggest to employ a set of adaptive points to capture the geometric and spatial information of the arbitrary-oriented objects, which is able to automatically arrange themselves over the object in a spatial and semantic scenario. To facilitate the supervised learning, the oriented conversion function is proposed to explicitly map the adaptive point set into an oriented bounding box. Moreover, we introduce an effective quality assessment measure to select the point set samples for training, which can choose the representative items with respect to their potentials on orientated object detection. Furthermore, we suggest a spatial constraint to penalize the outlier points outside the ground-truth bounding box. In addition to the traditional evaluation metric mAP focusing on overlap ratio, we propose a new metric mAOE to measure the orientation accuracy that is usually neglected in the previous studies on oriented object detection. Experiments on three widely used datasets including DOTA, HRSC2016 and UCAS-AOD demonstrate that our proposed approach is effective.
翻訳日:2021-05-26 03:22:07 公開日:2021-05-24
# (参考訳) 自己組織化ネットワークは有界階層言語を処理できる

Self-Attention Networks Can Process Bounded Hierarchical Languages ( http://arxiv.org/abs/2105.11115v1 )

ライセンス: CC BY 4.0
Shunyu Yao, Binghui Peng, Christos Papadimitriou, Karthik Narasimhan(参考訳) NLPの性能は優れていたが、最近、$\mathsf{Dyck}_k$のような階層構造を持つ形式言語を処理するために、自己注意型ネットワークが制限されていることが証明された。 このことは、形式言語には弱すぎるモデルで自然言語をよく近似できる、あるいは自然言語における階層と再帰の役割が制限されるかもしれないことを示唆している。 自己アテンションネットワークが$\mathsf{Dyck}_{k, D}$, $\mathsf{Dyck}_{k}$のサブセットを$D$で束縛し、自然言語の有界階層構造をよりよく捉えることができることを証明することによって、この意味を証明できる。 具体的には、$d+1$のレイヤと$o(\log k)$のメモリサイズ(層当たりトークン)のハードアテンションネットワークを構築し、$\mathsf{dyck}_{k, d}$を認識し、2つのレイヤと$o(\log k)$のメモリサイズを持つソフトアテンションネットワークで$\mathsf{dyck}_{k, d}$を生成する。 実験により、$\mathsf{Dyck}_{k, D}$でトレーニングされた自己注意ネットワークは、ほぼ完全な精度でより長い入力を一般化し、また、繰り返しネットワークよりも自己注意ネットワークの理論的利点を検証する。

Despite their impressive performance in NLP, self-attention networks were recently proved to be limited for processing formal languages with hierarchical structure, such as $\mathsf{Dyck}_k$, the language consisting of well-nested parentheses of $k$ types. This suggested that natural language can be approximated well with models that are too weak for formal languages, or that the role of hierarchy and recursion in natural language might be limited. We qualify this implication by proving that self-attention networks can process $\mathsf{Dyck}_{k, D}$, the subset of $\mathsf{Dyck}_{k}$ with depth bounded by $D$, which arguably better captures the bounded hierarchical structure of natural language. Specifically, we construct a hard-attention network with $D+1$ layers and $O(\log k)$ memory size (per token per layer) that recognizes $\mathsf{Dyck}_{k, D}$, and a soft-attention network with two layers and $O(\log k)$ memory size that generates $\mathsf{Dyck}_{k, D}$. Experiments show that self-attention networks trained on $\mathsf{Dyck}_{k, D}$ generalize to longer inputs with near-perfect accuracy, and also verify the theoretical memory advantage of self-attention networks over recurrent networks.
翻訳日:2021-05-26 02:47:24 公開日:2021-05-24
# (参考訳) 不均一文脈における虐待言語検出:データセット収集と監視注意の役割

Abusive Language Detection in Heterogeneous Contexts: Dataset Collection and the Role of Supervised Attention ( http://arxiv.org/abs/2105.11119v1 )

ライセンス: CC BY 4.0
Hongyu Gong, Alberto Valido, Katherine M. Ingram, Giulia Fanti, Suma Bhat, Dorothy L. Espelage(参考訳) 乱用言語は、オンラインソーシャルプラットフォームにおいて大きな問題である。 既存の乱用言語検出技術は、不均一な乱用言語パターンを含むコメントに特に適していない。 これは、乱用言語における不均一性を明示的に注釈するデータセットの欠如によるものである。 この課題に対処するため、YouTubeから11,000以上のコメントで、乱用言語の注釈付きデータセットを提供する。 このデータセットでは、コメント全体と各コメントを構成する個々の文を別々に注釈付けすることで、不均一性を説明できる。 次に,マルチタスク学習を用いた乱用コンテンツの検出と分類に教師付き注意機構を用いたアルゴリズムを提案する。 従来の手法を異種コンテンツに適用することの課題と,最先端手法に対する提案手法の性能比較について実証的な実証を行った。

Abusive language is a massive problem in online social platforms. Existing abusive language detection techniques are particularly ill-suited to comments containing heterogeneous abusive language patterns, i.e., both abusive and non-abusive parts. This is due in part to the lack of datasets that explicitly annotate heterogeneity in abusive language. We tackle this challenge by providing an annotated dataset of abusive language in over 11,000 comments from YouTube. We account for heterogeneity in this dataset by separately annotating both the comment as a whole and the individual sentences that comprise each comment. We then propose an algorithm that uses a supervised attention mechanism to detect and categorize abusive content using multi-task learning. We empirically demonstrate the challenges of using traditional techniques on heterogeneous content and the comparative gains in performance of the proposed approach over state-of-the-art methods.
翻訳日:2021-05-26 01:44:00 公開日:2021-05-24
# (参考訳) 差分プライバシー下における帯域のカスケード

Cascading Bandit under Differential Privacy ( http://arxiv.org/abs/2105.11126v1 )

ライセンス: CC BY 4.0
Kun Wang, Jing Dong, Baoxiang Wang, Shuai Li, Shuo Shao(参考訳) 本稿では,カスケード包帯における \emph{differential privacy (DP) と \emph{local differential privacy (LDP) について検討する。 dp の下では、任意に小さい $\xi$ に対して $\epsilon$-indistinguishability と $\mathcal{o}((\frac{\log t}{\epsilon})^{1+\xi}) の後悔を保証するアルゴリズムを提案する。 これは以前の $\mathcal{O}(\frac{\log^3 T}{\epsilon})$ regret よりも大幅に改善されている。 $\epsilon$,$\delta$)-LDPの下で、プライバシー予算$\epsilon$とエラー確率$\delta$の間のトレードオフを通じて$K^2$依存を緩和し、$\mathcal{O}(\frac{K\log (1/\delta) \log T}{\epsilon^2})$の後悔を得る。 この結果は、組成の分析によりガウス機構とラプラス機構の両方が成り立つ。 結果は組合せ半帯域まで及んでいる。 DP および LDP カスケードバンドのそれぞれ下限を示す。 広範な実験は私たちの理論的な発見と一致している。

This paper studies \emph{differential privacy (DP)} and \emph{local differential privacy (LDP)} in cascading bandits. Under DP, we propose an algorithm which guarantees $\epsilon$-indistinguishability and a regret of $\mathcal{O}((\frac{\log T}{\epsilon})^{1+\xi})$ for an arbitrarily small $\xi$. This is a significant improvement from the previous work of $\mathcal{O}(\frac{\log^3 T}{\epsilon})$ regret. Under ($\epsilon$,$\delta$)-LDP, we relax the $K^2$ dependence through the tradeoff between privacy budget $\epsilon$ and error probability $\delta$, and obtain a regret of $\mathcal{O}(\frac{K\log (1/\delta) \log T}{\epsilon^2})$, where $K$ is the size of the arm subset. This result holds for both Gaussian mechanism and Laplace mechanism by analyses on the composition. Our results extend to combinatorial semi-bandit. We show respective lower bounds for DP and LDP cascading bandits. Extensive experiments corroborate our theoretic findings.
翻訳日:2021-05-26 01:20:15 公開日:2021-05-24
# (参考訳) 機械読解モデルにおける逆攻撃による統計的バイアスの解明

Using Adversarial Attacks to Reveal the Statistical Bias in Machine Reading Comprehension Models ( http://arxiv.org/abs/2105.11136v1 )

ライセンス: CC BY 4.0
Jieyu Lin, Jiajie Zou and Nai Ding(参考訳) 事前学習された言語モデルは、多くのMachine Reading Comprehension (MRC)タスクで人間レベルのパフォーマンスを達成したが、これらのモデルが本当に言語を理解しているのか、データセットの統計的バイアスを利用して質問に答えているのかは不明だ。 本稿では,mrcモデルに対する単純かつ効果的な手法を示し,モデル内の統計的バイアスを明らかにする。 提案手法を RACE データセットに適用し,各 MRC 質問に対する回答を 4 つの選択肢から選択する。 BERT、ALBERT、RoBERTaなど、事前訓練済みの言語モデルでは、これらのオプションが問題に無関係である場合でも、いくつかのオプションに対して一貫した優先順位を示す。 これらの無関係な選択肢に干渉すると、RCモデルの性能は人間レベルの性能からチャンスレベルの性能まで低下させることができる。 しかし、人間読者はこれらの無関係な選択肢の影響を受けていない。 最後に,モデルの統計的バイアスを大幅に低減できる拡張トレーニング手法を提案する。

Pre-trained language models have achieved human-level performance on many Machine Reading Comprehension (MRC) tasks, but it remains unclear whether these models truly understand language or answer questions by exploiting statistical biases in datasets. Here, we demonstrate a simple yet effective method to attack MRC models and reveal the statistical biases in these models. We apply the method to the RACE dataset, for which the answer to each MRC question is selected from 4 options. It is found that several pre-trained language models, including BERT, ALBERT, and RoBERTa, show consistent preference to some options, even when these options are irrelevant to the question. When interfered by these irrelevant options, the performance of MRC models can be reduced from human-level performance to the chance-level performance. Human readers, however, are not clearly affected by these irrelevant options. Finally, we propose an augmented training method that can greatly reduce models' statistical biases.
翻訳日:2021-05-26 00:47:58 公開日:2021-05-24
# (参考訳) harmless but useful: beyond separable equal constraints in datalog+/

Harmless but Useful: Beyond Separable Equality Constraints in Datalog+/- ( http://arxiv.org/abs/2105.11147v1 )

ライセンス: CC BY 4.0
Luigi Bellomarini, Emanuel Sallinger(参考訳) オントロジークエリ応答は、関心領域を表すスキーマ制約の存在下でクエリに応答する問題である。 Datalog+/は、タプル生成依存性(TGD)や平等生成依存性(EGD)など、スキーマ制約のための共通言語である。 TGDとEGDの相互作用は、Warded Datalog+/-のようなトラクタブルなDatalog+/fragmentsにEGDを追加する際のクエリ応答の不決定性や難解性をもたらす。 TGDとEGDの相互作用を制限し、トラクタビリティ、特に分離可能なEGDの導入によって、制約の集合が満たされる限り、クエリ応答にEGDを無関係にする試みがある。 扱いやすいが、分離可能なegdは表現力に制限がある。 より一般的な EGD クラスを提案し、これは '`harmless'' と呼ばれ、分離可能な EGD をサブセットし、より広範な問題のクラスをモデル化することができる。 分離可能なegdとは異なり、harmless egdは基底的平等制約を強制するだけでなく、tgdsで存在量化によって導入されたラベル付きヌルを接地または改名することでクエリ応答を特殊化する。 無害なEGDは、EGDの存在下で得られた答えがTGDで得られたものよりも一般的でない場合に捕獲する。 制約の集合が無害なegdを含むかどうかを判断する理論的問題は決定不能である。 我々は,無害なegdを特徴付ける十分な構文条件に寄与する。 我々は、無害なEGDを持つWarded Datalog+/-に注目し、そのような断片的なクエリ応答は決定可能であり、PTIMEはデータ複雑性において決定可能であると論じる。 我々は,無害なEGDを用いたWarded Datalog+/-における問合せ応答のためのチェイスベース手法について検討した。

Ontological query answering is the problem of answering queries in the presence of schema constraints representing the domain of interest. Datalog+/- is a common family of languages for schema constraints, including tuple-generating dependencies (TGDs) and equality-generating dependencies (EGDs). The interplay of TGDs and EGDs leads to undecidability or intractability of query answering when adding EGDs to tractable Datalog+/- fragments, like Warded Datalog+/-, for which, in the sole presence of TGDs, query answering is PTIME in data complexity. There have been attempts to limit the interaction of TGDs and EGDs and guarantee tractability, in particular with the introduction of separable EGDs, to make EGDs irrelevant for query answering as long as the set of constraints is satisfied. While being tractable, separable EGDs have limited expressive power. We propose a more general class of EGDs, which we call ``harmless'', that subsume separable EGDs and allow to model a much broader class of problems. Unlike separable EGDs, harmless EGDs, besides enforcing ground equality constraints, specialize the query answer by grounding or renaming the labelled nulls introduced by existential quantification in the TGDs. Harmless EGDs capture the cases when the answer obtained in the presence of EGDs is less general than the one obtained with TGDs only. We conclude that the theoretical problem of deciding whether a set of constraints contains harmless EGDs is undecidable. We contribute a sufficient syntactic condition characterizing harmless EGDs, broad and useful in practice. We focus on Warded Datalog+/- with harmless EGDs and argue that, in such fragment, query answering is decidable and PTIME in data complexity. We study chase-based techniques for query answering in Warded Datalog+/- with harmless EGDs, conducive to an efficient algorithm to be implemented in state-of-the-art reasoners.
翻訳日:2021-05-26 00:33:18 公開日:2021-05-24
# (参考訳) 入力摂動とサブセット走査を用いた皮膚科領域の分布外検出

Out-of-Distribution Detection in Dermatology using Input Perturbation and Subset Scanning ( http://arxiv.org/abs/2105.11160v1 )

ライセンス: CC BY 4.0
Hannah Kim, Girmaw Abebe Tadesse, Celia Cintas, Skyler Speakman, Kush Varshney(参考訳) 近年のディープラーニングの進歩は、皮膚疾患の自動分類の開発にブレークスルーをもたらした。 皮膚科領域におけるこれらのモデルへの関心が高まる中、入力データ分布シフトに対するロバスト性などの側面に取り組むことが重要である。 現在の皮膚疾患モデルでは、異なるハードウェア装置からの検査サンプルや、トレーニングサンプルからの配布外(OOD)である未知の疾患サンプルに対して、誤った推論を行うことが可能であり、このため、決定する前にこれらのOODサンプルを検出するための、単純で効果的なアプローチを提案する。 この検出は潜伏空間表現(例えば、事前訓練された皮膚疾患分類器の内部層の活性化)の走査によって行われる。 入力サンプルはまた、OODサンプルの発散を最大化するために摂動することもできる。 1)異なるプロトコルから収集したサンプルを同定し,2)未知の疾患クラスからのサンプルを検出する。 さらに,提案手法の性能評価を行い,他の最先端手法と比較する。 さらに、データ駆動皮膚科学の応用は、ほとんどのデータセットが皮膚トーン分布のバイアスを被っていると報告されているため、人種および民族間の臨床ケアの格差を深くする可能性がある。 そこで本研究では,これらのOOD検出手法の皮膚音に対する公平性についても検討した。 実験の結果、OODサンプルの検出において複数のデータセット間で競合性能が得られ、これらのサンプルを推測する前により効果的な転送学習手法を設計するために(将来的に)使用できることがわかった。

Recent advances in deep learning have led to breakthroughs in the development of automated skin disease classification. As we observe an increasing interest in these models in the dermatology space, it is crucial to address aspects such as the robustness towards input data distribution shifts. Current skin disease models could make incorrect inferences for test samples from different hardware devices and clinical settings or unknown disease samples, which are out-of-distribution (OOD) from the training samples.To this end, we propose a simple yet effective approach that detect these OOD samples prior to making any decision. The detection is performed via scanning in the latent space representation (e.g., activations of the inner layers of any pre-trained skin disease classifier). The input samples could also perturbed to maximise divergence of OOD samples. We validate our ODD detection approach in two use cases: 1) identify samples collected from different protocols, and 2) detect samples from unknown disease classes. Additionally, we evaluate the performance of the proposed approach and compare it with other state-of-the-art methods. Furthermore, data-driven dermatology applications may deepen the disparity in clinical care across racial and ethnic groups since most datasets are reported to suffer from bias in skin tone distribution. Therefore, we also evaluate the fairness of these OOD detection methods across different skin tones. Our experiments resulted in competitive performance across multiple datasets in detecting OOD samples, which could be used (in the future) to design more effective transfer learning techniques prior to inferring on these samples.
翻訳日:2021-05-25 23:27:00 公開日:2021-05-24
# (参考訳) コンテキスト保存テキストの簡易化

Context-Preserving Text Simplification ( http://arxiv.org/abs/2105.11178v1 )

ライセンス: CC BY 4.0
Christina Niklaus, Matthias Cetto, Andr\'e Freitas, Siegfried Handschuh(参考訳) 本稿では,複雑な英語文を意味的階層に再帰的に分割,再現する,文脈保存型テキスト簡易化(ts)手法を提案する。 言語学的に原則化された変換パターンの集合を用いて、入力文は、修辞的関係を通じてリンクされる中心文と付随する文脈の形式で階層的な表現に変換される。 したがって,従来提案されていた文分割アプローチとは対照的に,TS手法では,出力中の分解成分の意味的関係を保っている。 RST-DTに含まれるアノテーションとの比較分析により,分割文間の文脈的階層を89%の精度で捉え,それらの間に保持される修辞関係の分類において平均69%の精度で到達できることが示された。

We present a context-preserving text simplification (TS) approach that recursively splits and rephrases complex English sentences into a semantic hierarchy of simplified sentences. Using a set of linguistically principled transformation patterns, input sentences are converted into a hierarchical representation in the form of core sentences and accompanying contexts that are linked via rhetorical relations. Hence, as opposed to previously proposed sentence splitting approaches, which commonly do not take into account discourse-level aspects, our TS approach preserves the semantic relationship of the decomposed constituents in the output. A comparative analysis with the annotations contained in the RST-DT shows that we are able to capture the contextual hierarchy between the split sentences with a precision of 89% and reach an average precision of 69% for the classification of the rhetorical relations that hold between them.
翻訳日:2021-05-25 23:05:49 公開日:2021-05-24
# (参考訳) スマートモバイル顕微鏡:完全自動デジタル化に向けて

Smart mobile microscopy: towards fully-automated digitization ( http://arxiv.org/abs/2105.11179v1 )

ライセンス: CC BY-SA 4.0
A. Kornilova, I. Kirilenko, D. Iarosh, V. Kutuev, M. Strutovsky(参考訳) モバイル顕微鏡は、光学顕微鏡の能力と拡散、機能、そしてモバイルデバイスのコンピューティングリソースの増大の組み合わせから生まれた、新しく形成された分野である。 顕微鏡、多数のコンピュータビジョン法、モバイルデバイスを定期的に検査するシステムを構築するというアイデアにもかかわらず、結果として得られた実装は、標本のデジタル化を制御する資格のあるオペレーターの存在を必要とする。 本稿では,この制約を克服する課題に対処し,標本に関する最も重要な視覚情報の自動デジタル化を目的とした,‘smart’ 移動型顕微鏡のコンセプトを提案する。 我々は、自動顕微鏡セットアップ制御と、オートフォーカス、インフォーカスフィルタリング、フォーカススタックといった古典的なテクニックを組み合わせることで、これを実行します。

Mobile microscopy is a newly formed field that emerged from a combination of optical microscopy capabilities and spread, functionality, and ever-increasing computing resources of mobile devices. Despite the idea of creating a system that would successfully merge a microscope, numerous computer vision methods, and a mobile device is regularly examined, the resulting implementations still require the presence of a qualified operator to control specimen digitization. In this paper, we address the task of surpassing this constraint and present a ``smart'' mobile microscope concept aimed at automatic digitization of the most valuable visual information about the specimen. We perform this through combining automated microscope setup control and classic techniques such as auto-focusing, in-focus filtering, and focus-stacking -- adapted and optimized as parts of a mobile cross-platform library.
翻訳日:2021-05-25 22:37:47 公開日:2021-05-24
# (参考訳) 油-水流パターン同定のためのファジィ推論システム

Fuzzy inference system application for oil-water flow patterns identification ( http://arxiv.org/abs/2105.11181v1 )

ライセンス: CC BY 4.0
Yuyan Wu, Haimin Guo, Hongwei Song, Rui Deng(参考訳) 石油産業の継続的な発展により、石油とガスの長距離輸送が一般的となった。 水平井戸の重力差と高度にずれた井戸(非垂直井戸)により、パイプラインの底面の水相はパイプラインのスケーリングと腐食を引き起こす。 スケーリングと腐食により輸送プロセスが困難になり、輸送コストが大幅に増加する。 したがって, 油水二相流パターンの研究は, 石油生産にとって非常に重要である。 本稿では,ファジィ推論システムを用いて流体の流れパターンを予測し,予測結果を取得し,BPニューラルネットワークの予測結果と比較する。 その結果,ファジィ推論システムの予測結果は,bpニューラルネットワークの予測結果よりも正確かつ信頼性が高いことがわかった。 同時に、リアルタイム監視を実現し、エラー制御を少なくする。 実験の結果,非垂直井戸の全生産検層プロセスにおいて,ファジィ推論システムを用いて流動パターンを予測すれば,製造設備の安全運転を確保しつつ,生産コストを大幅に削減できることがわかった。

With the continuous development of the petroleum industry, long-distance transportation of oil and gas has been the norm. Due to gravity differentiation in horizontal wells and highly deviated wells (non-vertical wells), the water phase at the bottom of the pipeline will cause scaling and corrosion in the pipeline. Scaling and corrosion will make the transportation process difficult, and transportation costs will be considerably increased. Therefore, the study of the oil-water two-phase flow pattern is of great importance to oil production. In this paper, a fuzzy inference system is used to predict the flow pattern of the fluid, get the prediction result, and compares it with the prediction result of the BP neural network. From the comparison of the results, we found that the prediction results of the fuzzy inference system are more accurate and reliable than the prediction results of the BP neural network. At the same time, it can realize real-time monitoring and has less error control. Experimental results demonstrate that in the entire production logging process of non-vertical wells, the use of a fuzzy inference system to predict fluid flow patterns can greatly save production costs while ensuring the safe operation of production equipment.
翻訳日:2021-05-25 22:15:08 公開日:2021-05-24
# (参考訳) コンピュータ断層撮影による肺塞栓症の診断 : 深層学習技術を用いた検討

Pulmonary embolism identification in computerized tomography pulmonary angiography scans with deep learning technologies in COVID-19 patients ( http://arxiv.org/abs/2105.11187v1 )

ライセンス: CC BY 4.0
Chairi Kiourt, Georgios Feretzakis, Konstantinos Dalamarinis, Dimitris Kalles, Georgios Pantos, Ioannis Papadopoulos, Spyros Kouris, George Ioannakis, Evangelos Loupelis, Aikaterini Sakagianni(参考訳) 本研究の主な目的は、新型コロナウイルス患者のCTPA-Scansにおける肺塞栓症の診断に最先端の深層学習アプローチを利用し、そのパフォーマンスを初期評価し、最終的には高速トラックプロトタイプソリューション(システム)を提供することである。 我々は、モデル精度と高速トレーニングを組み合わせるために、トランスファーラーニングアプローチを通じて最も人気のある畳み込みニューラルネットワークアーキテクチャを採用し、評価した。 さらに,肺塞栓領域(関心領域)の局在化(対象検出)において,最も人気のある一段階検出モデルの一つを利用した。 いずれのアプローチもCTPA-Scanデータセットを用いてトレーニングし,673個のCTPA-Scan画像に1,465個のバウンディングボックスをアノテートした。 肺塞栓症分類における91%の妥当性を検証し,最先端画像分類モデルの簡易評価を行った。 また, 50%のiou閾値下での肺塞栓症局在に対する対象検出モデルでは, 平均で約68%の精度を示した。 どちらのアプローチも、将来の研究のためのトレーニングパイプライン全体(ソースコードによるステップバイステッププロセス)を提供しています。 本研究では,CTPA-Scans画像における肺塞栓症同定のための最も正確かつ高速な深層学習モデルについて,COVID-19感染患者の分類と局所化(物体検出)アプローチを用いて紹介する。 本研究は,肺塞栓症の診断精度を向上させるために,分類モデルと物体検出モデルを組み合わせた地域研究コミュニティのための高速追跡ソリューション(システム)を提供する。

The main objective of this work is to utilize state-of-the-art deep learning approaches for the identification of pulmonary embolism in CTPA-Scans for COVID-19 patients, provide an initial assessment of their performance and, ultimately, provide a fast-track prototype solution (system). We adopted and assessed some of the most popular convolutional neural network architectures through transfer learning approaches, to strive to combine good model accuracy with fast training. Additionally, we exploited one of the most popular one-stage object detection models for the localization (through object detection) of the pulmonary embolism regions-of-interests. The models of both approaches are trained on an original CTPA-Scan dataset, where we annotated of 673 CTPA-Scan images with 1,465 bounding boxes in total, highlighting pulmonary embolism regions-of-interests. We provide a brief assessment of some state-of-the-art image classification models by achieving validation accuracies of 91% in pulmonary embolism classification. Additionally, we achieved a precision of about 68% on average in the object detection model for the pulmonary embolism localization under 50% IoU threshold. For both approaches, we provide the entire training pipelines for future studies (step by step processes through source code). In this study, we present some of the most accurate and fast deep learning models for pulmonary embolism identification in CTPA-Scans images, through classification and localization (object detection) approaches for patients infected by COVID-19. We provide a fast-track solution (system) for the research community of the area, which combines both classification and object detection models for improving the precision of identifying pulmonary embolisms.
翻訳日:2021-05-25 22:00:54 公開日:2021-05-24
# (参考訳) チャットボットの人的評価のための基準基準に向けて:調査

Towards Standard Criteria for human evaluation of Chatbots: A Survey ( http://arxiv.org/abs/2105.11197v1 )

ライセンス: CC BY 4.0
Hongru Liang and Huaqing Li(参考訳) 人間の評価は、Chatbotのパフォーマンスをテストする必要がある。 しかし、オフセット設定は、非常に多様な基準のために、信頼性とレプリケーションの問題に苦しめられている。 標準の基準と正確な定義を考え出すのは時期尚早です。 そこで我々はChatbotsの人間評価に関する105の論文を網羅的に調査した。 このことから、正確な定義とともに5つの基準基準を提案する。

Human evaluation is becoming a necessity to test the performance of Chatbots. However, off-the-shelf settings suffer the severe reliability and replication issues partly because of the extremely high diversity of criteria. It is high time to come up with standard criteria and exact definitions. To this end, we conduct a through investigation of 105 papers involving human evaluation for Chatbots. Deriving from this, we propose five standard criteria along with precise definitions.
翻訳日:2021-05-25 21:39:59 公開日:2021-05-24
# (参考訳) 国規模でのオイルパーム密度のマッピング:アクティブラーニングアプローチ

Mapping oil palm density at country scale: An active learning approach ( http://arxiv.org/abs/2105.11207v1 )

ライセンス: CC BY 4.0
Andr\'es C. Rodr\'iguez, Stefano D'Aronco, Konrad Schindler, Jan D.Wegner(参考訳) オイルパームの正確なマッピングは、その過去と将来の環境への影響を理解する上で重要である。 大規模解析のために,画素当たりの樹木密度を推定することにより,パームの地図化と計数を行う。 これにより、例えば異なるプランティングパターンに関して、きめ細かい分析が可能になる。 そこで我々は,Sentinel-2衛星画像から大規模にオイルパーム密度を推定し,マレーシアとインドネシアの完全な地図を作成するための,新しいアクティブな深層学習手法を提案する。 パーム密度の回帰が難しいのは、大きな領域のすべての関連する地理的条件をカバーする代表的参照データが必要であることである。 特に密度推定では、参照データの生成には個々の木を数えることが含まれる。 ラベル付けの労力を低く抑えるために,ラベル付けすべき最も関連性の高いサンプルを自動的に選択するアクティブラーニング(AL)アプローチを提案する。 本手法は,認識モデルの不確かさとサンプル間の多様性を推定し,関連するサンプルのバッチ全体を1回のイテレーションで取得することを可能にする。 さらに,本アルゴリズムは線形計算複雑性を持ち,大規模領域の並列化が容易である。 我々は,インドネシアとマレーシアの全地域と,2017年と2019年の2年間において,最初のオイルパーム密度マップを10,$mの地中サンプリング距離 (GSD) で計算した。 マップの平均絶対誤差は$\pm$7.3 tree/$ha$であり、独立した検証セットから推定される。 また、国内の異なる州間の密度変動を分析し、それを公式な推計と比較する。 われわれの推計によると、インドネシアでは合計で1.2億ドルのオイルパームが1500万ドル、マレーシアでは0.5億ドルのオイルパームが6億ドルのパームをカバーしている。

Accurate mapping of oil palm is important for understanding its past and future impact on the environment. We propose to map and count oil palms by estimating tree densities per pixel for large-scale analysis. This allows for fine-grained analysis, for example regarding different planting patterns. To that end, we propose a new, active deep learning method to estimate oil palm density at large scale from Sentinel-2 satellite images, and apply it to generate complete maps for Malaysia and Indonesia. What makes the regression of oil palm density challenging is the need for representative reference data that covers all relevant geographical conditions across a large territory. Specifically for density estimation, generating reference data involves counting individual trees. To keep the associated labelling effort low we propose an active learning (AL) approach that automatically chooses the most relevant samples to be labelled. Our method relies on estimates of the epistemic model uncertainty and of the diversity among samples, making it possible to retrieve an entire batch of relevant samples in a single iteration. Moreover, our algorithm has linear computational complexity and is easily parallelisable to cover large areas. We use our method to compute the first oil palm density map with $10\,$m Ground Sampling Distance (GSD) , for all of Indonesia and Malaysia and for two different years, 2017 and 2019. The maps have a mean absolute error of $\pm$7.3 trees/$ha$, estimated from an independent validation set. We also analyse density variations between different states within a country and compare them to official estimates. According to our estimates there are, in total, $>1.2$ billion oil palms in Indonesia covering $>$15 million $ha$, and $>0.5$ billion oil palms in Malaysia covering $>6$ million $ha$.
翻訳日:2021-05-25 21:10:51 公開日:2021-05-24
# (参考訳) 低遅延IoTアプリケーションのための状態情報交換を考慮した分散ハイブリッドMAC設計

Decentralized, Hybrid MAC Design with Reduced State Information Exchange for Low-Delay IoT Applications ( http://arxiv.org/abs/2105.11213v1 )

ライセンス: CC BY 4.0
Avinash Mohan, Arpan Chattopadhyay, Shivam Vinayak Vatsa, and Anurag Kumar(参考訳) 我々は,複数のコロケーションノードが時間スロット無線チャネルを共有するシステムを検討し, (i) 平均遅延が低く, (ii) 分散制御(中央スケジューラが存在しない), (iii) 状態情報や制御信号の明示的な交換を必要としないmacを求める。 このようなMACプロトコルの設計は、光トラフィックにおける競合アクセスと、大量のトラフィックにおけるスケジュールアクセスの必要性を念頭に置いておく必要がある。 まず、既存の分散化ハイブリッドMACであるZMACの単純な拡張であるEZMACを提案する。 次に、部分的に観測された制約付きキューイングネットワークにおける遅延とスループットの最適性に関する結果から、QZMACと呼ぶ別の分散MACプロトコルを開発した。 QZMACの短期的公正性を改善する手法を提案し解析し、得られた修正アルゴリズムはQZMACよりも優れた公正性を有することを示した。 遅延を低減するために開発された理論は、異なる交通タイプ(例えば、バッチ到着)で%動作し、送信エラーや高速フェーディングが存在する場合にも機能する。 時間クリティカルなトラフィック(例えば、アラーム)と隠れたノードを扱う拡張についても論じる。 クリアチャネルアセスメント(CCA)のエラー処理などの実践的な実装問題について概説する。 我々は、CC2420ベースのCrossbow telosB motesからなるテストベッド上でQZMACを実装し、2.4GHz ISM帯上のContikiオペレーティングシステム上で6TiSCH通信スタックを実行する。 最後に、シミュレーションを用いて、両プロトコルがZMACよりも平均遅延をはるかに低く達成し、QZMACは、この設定において達成可能な最小限の遅延、すなわち集中的な完全知識スケジューラに非常に近い平均遅延を提供することを示す。

We consider a system of several collocated nodes sharing a time slotted wireless channel, and seek a MAC that (i) provides low mean delay, (ii) has distributed control (i.e., there is no central scheduler), and (iii) does not require explicit exchange of state information or control signals. The design of such MAC protocols must keep in mind the need for contention access at light traffic, and scheduled access in heavy traffic, leading to the long-standing interest in hybrid, adaptive MACs. We first propose EZMAC, a simple extension of an existing decentralized, hybrid MAC called ZMAC. Next, motivated by our results on delay and throughput optimality in partially observed, constrained queuing networks, we develop another decentralized MAC protocol that we term QZMAC. A method to improve the short-term fairness of QZMAC is proposed and analysed, and the resulting modified algorithm is shown to possess better fairness properties than QZMAC. The theory developed to reduce delay is also shown to work %with different traffic types (batch arrivals, for example) and even in the presence of transmission errors and fast fading. Extensions to handle time critical traffic (alarms, for example) and hidden nodes are also discussed. Practical implementation issues, such as handling Clear Channel Assessment (CCA) errors, are outlined. We implement and demonstrate the performance of QZMAC on a test bed consisting of CC2420 based Crossbow telosB motes, running the 6TiSCH communication stack on the Contiki operating system over the 2.4GHz ISM band. Finally, using simulations, we show that both protocols achieve mean delays much lower than those achieved by ZMAC, and QZMAC provides mean delays very close to the minimum achievable in this setting, i.e., that of the centralized complete knowledge scheduler.
翻訳日:2021-05-25 20:42:14 公開日:2021-05-24
# (参考訳) カプセルネットワークを用いたhater-o-genius攻撃分類

Hater-O-Genius Aggression Classification using Capsule Networks ( http://arxiv.org/abs/2105.11219v1 )

ライセンス: CC BY 4.0
Parth Patwa, Srinivas PYKL, Amitava Das, Prerana Mukherjee, Viswanath Pulabaigari(参考訳) ソーシャルメディアでヘイトスピーチを投稿することは、当時の最も困難な社会問題の一つだ。 ソーシャルメディアには様々な反社会的行動がある。 多くは攻撃的な行動であり、ソーシャルメディアユーザーの社会的生活や精神的健康に影響を及ぼすなど、多くの社会問題を引き起こしている。 本稿では,アグレッシブツイートを自動的に識別し分類するエンドツーエンドアンサンブルベースのアーキテクチャを提案する。 ツイートは、Covertly Aggressive、Overtly Aggressive、Non-Aggressiveの3つのカテゴリに分類される。 提案アーキテクチャは,機能埋め込みを効果的に特徴付けることができる小型サブネットワークの集合体である。 それぞれの小さなサブネットワークがユニークな特徴を学習できることを定性的に証明する。 我々の最良のモデルはCapsule Networksのアンサンブルであり、Facebookのテストセットで65.2%のF1スコアを獲得し、TRAC-2018の勝者よりもパフォーマンスが0.95%向上した。 コードとモデルの重み付けはhttps://github.com/parthpatwa/Hater-O-Genius-Aggression-using-Capsule-Networksで公開されている。

Contending hate speech in social media is one of the most challenging social problems of our time. There are various types of anti-social behavior in social media. Foremost of them is aggressive behavior, which is causing many social issues such as affecting the social lives and mental health of social media users. In this paper, we propose an end-to-end ensemble-based architecture to automatically identify and classify aggressive tweets. Tweets are classified into three categories - Covertly Aggressive, Overtly Aggressive, and Non-Aggressive. The proposed architecture is an ensemble of smaller subnetworks that are able to characterize the feature embeddings effectively. We demonstrate qualitatively that each of the smaller subnetworks is able to learn unique features. Our best model is an ensemble of Capsule Networks and results in a 65.2% F1 score on the Facebook test set, which results in a performance gain of 0.95% over the TRAC-2018 winners. The code and the model weights are publicly available at https://github.com/parthpatwa/Hater-O-Genius-Aggression-Classification-using-Capsule-Networks.
翻訳日:2021-05-25 20:40:51 公開日:2021-05-24
# (参考訳) 制約グラフを用いた距離超過長関係抽出

Distantly-Supervised Long-Tailed Relation Extraction Using Constraint Graphs ( http://arxiv.org/abs/2105.11225v1 )

ライセンス: CC BY 4.0
Tianming Liang, Yang Liu, Xiaoyan Liu, Gaurav Sharma and Maozu Guo(参考訳) ラベルノイズとロングテール分布は、遠方の教師付き関係抽出における2つの大きな課題である。 近年の研究は注目度が高かったが、ロングテール関係の問題にはほとんど注意が払われていない。 本稿では,関係ラベル間の依存関係をモデル化するための制約グラフを提案する。 さらに,2つの課題を同時に扱うために,新しい制約グラフに基づく関係抽出フレームワーク(CGRE)を提案する。 CGREは、グラフ畳み込みネットワーク(GCN)を用いて、データリッチな関係ノードからデータ貧弱な関係ノードへ情報を伝達し、長い関係の表現学習を促進する。 さらにノイズ免疫を改善するため、CGREに制約対応アテンションモジュールを設計し、制約情報を統合する。 ベンチマークデータセットを用いた実験結果から,提案手法は,先行手法と比較して有意な改善が得られた。

Label noise and long-tailed distributions are two major challenges in distantly supervised relation extraction. Recent studies have shown great progress on denoising, but pay little attention to the problem of long-tailed relations. In this paper, we introduce constraint graphs to model the dependencies between relation labels. On top of that, we further propose a novel constraint graph-based relation extraction framework(CGRE) to handle the two challenges simultaneously. CGRE employs graph convolution networks (GCNs) to propagate information from data-rich relation nodes to data-poor relation nodes, and thus boosts the representation learning of long-tailed relations. To further improve the noise immunity, a constraint-aware attention module is designed in CGRE to integrate the constraint information. Experimental results on a widely-used benchmark dataset indicate that our approach achieves significant improvements over the previous methods for both denoising and long-tailed relation extraction.
翻訳日:2021-05-25 20:34:31 公開日:2021-05-24
# (参考訳) 協調圧縮によるコンパクトcnnを目指して

Towards Compact CNNs via Collaborative Compression ( http://arxiv.org/abs/2105.11228v1 )

ライセンス: CC BY 4.0
Yuchao Li, Shaohui Lin, Jianzhuang Liu, Qixiang Ye, Mengdi Wang, Fei Chao, Fan Yang, Jincheng Ma, Qi Tian, Rongrong Ji(参考訳) チャネルプルーニングとテンソル分解は畳み込みニューラルネットワーク圧縮において大きな注目を集めている。 しかし、これらの2つの手法は伝統的に分離された方法で展開され、高い圧縮速度を追求する際にかなりの精度が低下する。 本稿では,チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮し,モデルの疎度と低ランク性を同時に学習する協調圧縮(CC)方式を提案する。 具体的には,まずネットワークの各レイヤの圧縮感度を調査し,次に圧縮率の決定問題を最適化問題に変換するグローバル圧縮率最適化を提案する。 その後,冗長圧縮単位を段階的に除去するマルチステップヒューリスティック圧縮を提案する。 提案手法は,過去のデータセットやバックボーンアーキテクチャよりも優れた性能向上を示す。 例えば、ResNet-50では48.4%のパラメータを削除して52.9%のFLOP削減を実現しています。

Channel pruning and tensor decomposition have received extensive attention in convolutional neural network compression. However, these two techniques are traditionally deployed in an isolated manner, leading to significant accuracy drop when pursuing high compression rates. In this paper, we propose a Collaborative Compression (CC) scheme, which joints channel pruning and tensor decomposition to compress CNN models by simultaneously learning the model sparsity and low-rankness. Specifically, we first investigate the compression sensitivity of each layer in the network, and then propose a Global Compression Rate Optimization that transforms the decision problem of compression rate into an optimization problem. After that, we propose multi-step heuristic compression to remove redundant compression units step-by-step, which fully considers the effect of the remaining compression space (i.e., unremoved compression units). Our method demonstrates superior performance gains over previous ones on various datasets and backbone architectures. For example, we achieve 52.9% FLOPs reduction by removing 48.4% parameters on ResNet-50 with only a Top-1 accuracy drop of 0.56% on ImageNet 2012.
翻訳日:2021-05-25 20:12:59 公開日:2021-05-24
# (参考訳) テストサイズ検出のためのFew-Shot Upsampling

Few-Shot Upsampling for Protest Size Detection ( http://arxiv.org/abs/2105.11260v1 )

ライセンス: CC BY 4.0
Andrew Halterman, Benjamin J. Radford(参考訳) 粗い文書ラベルをきめ細かいラベルやスパンに「アップサンプリング」するという社会科学研究における共通問題に対して,新しいタスクとデータセットを提案する。 質問に答える形式で問題を提起し、回答はきめ細かいラベルを提供する。 米国では抗議デモやデモで、抗議参加者に関する桁違いな情報、非常に細かい例のサンプル、英語のニューステキストのみを収集し、群衆の大きさを正確に特定する。 ルールベースおよび質問応答モデルによるゼロショット結果,少数の文書に微調整された少数ショットモデル,粗ラベル文書のより大きなセットを用いた弱い教師付きモデルなど,いくつかのベースラインモデルを評価した。 我々のルールベースモデルは、当初ゼロショット事前訓練されたトランスフォーマー言語モデルよりも優れているが、25例の非常に小さなサブセットのさらなる微調整は、サンプル外性能を大幅に向上させる。 また,ルールベースアプローチと同様に動作する粗ラベルのみに対して,トランスフォーマースパンを微調整する手法を示す。 この研究は、集団行動の原因と成功を理解するデータを生成する社会科学者の能力に寄与する。

We propose a new task and dataset for a common problem in social science research: "upsampling" coarse document labels to fine-grained labels or spans. We pose the problem in a question answering format, with the answers providing the fine-grained labels. We provide a benchmark dataset and baselines on a socially impactful task: identifying the exact crowd size at protests and demonstrations in the United States given only order-of-magnitude information about protest attendance, a very small sample of fine-grained examples, and English-language news text. We evaluate several baseline models, including zero-shot results from rule-based and question-answering models, few-shot models fine-tuned on a small set of documents, and weakly supervised models using a larger set of coarsely-labeled documents. We find that our rule-based model initially outperforms a zero-shot pre-trained transformer language model but that further fine-tuning on a very small subset of 25 examples substantially improves out-of-sample performance. We also demonstrate a method for fine-tuning the transformer span on only the coarse labels that performs similarly to our rule-based approach. This work will contribute to social scientists' ability to generate data to understand the causes and successes of collective action.
翻訳日:2021-05-25 19:53:58 公開日:2021-05-24
# (参考訳) 単言語翻訳メモリを用いたニューラルマシン翻訳

Neural Machine Translation with Monolingual Translation Memory ( http://arxiv.org/abs/2105.11269v1 )

ライセンス: CC BY 4.0
Deng Cai and Yan Wang and Huayang Li and Wai Lam and Lemao Liu(参考訳) 以前の研究は、翻訳メモリ(tm)がニューラルマシン翻訳(nmt)の性能を向上させることを証明した。 バイリンガルコーパスをtmとして使用し、メモリ検索にソース側類似性検索を用いる既存の作業とは対照的に、単言語メモリを用いた学習可能なメモリ検索をクロスリンガル方式で行う新しいフレームワークを提案する。 私たちのフレームワークにはユニークな利点があります。 まず、クロスランガルメモリレトリバーにより、豊富なモノリンガルデータがTMとなる。 第二に、メモリレトリバーとNMTモデルは、最終的な翻訳目標に対して共同最適化できる。 実験により,提案手法は大幅な改善が得られた。 注目すべきは、バイリンガルTMを用いて、強力なTM強化NMTベースラインを上回ります。 単言語データを活用する能力を持つモデルでは、低リソースとドメイン適応シナリオの有効性も示します。

Prior work has proved that Translation memory (TM) can boost the performance of Neural Machine Translation (NMT). In contrast to existing work that uses bilingual corpus as TM and employs source-side similarity search for memory retrieval, we propose a new framework that uses monolingual memory and performs learnable memory retrieval in a cross-lingual manner. Our framework has unique advantages. First, the cross-lingual memory retriever allows abundant monolingual data to be TM. Second, the memory retriever and NMT model can be jointly optimized for the ultimate translation goal. Experiments show that the proposed method obtains substantial improvements. Remarkably, it even outperforms strong TM-augmented NMT baselines using bilingual TM. Owning to the ability to leverage monolingual data, our model also demonstrates effectiveness in low-resource and domain adaptation scenarios.
翻訳日:2021-05-25 19:44:15 公開日:2021-05-24
# (参考訳) Talk Markup Language(TalkML)の紹介:産業音声インタフェースへのソーシャルインテリジェンスの導入

Introducing the Talk Markup Language (TalkML):Adding a little social intelligence to industrial speech interfaces ( http://arxiv.org/abs/2105.11294v1 )

ライセンス: CC BY-SA 4.0
Peter Wallis(参考訳) Siriのようなバーチャルパーソナルアシスタントは大きな可能性を秘めているが、このような開発は人間の音声を理解するための計算装置の作り方に関する根本的な問題となっている。 自然言語理解は、ai研究のより残念な失敗の1つであり、コンピュータ科学者が言語の性質について理解できないものがあります。 もちろん哲学者や言語学者は言語について全く異なる考え方をしており、この論文は我々が他の分野からアイデアを取り入れ、それを実践した方法について説明している。 この仕事の背景は、言語を行動として真剣に捉え、会話分析のテクニックを使って、人々が実際に言語で何をしているかを見ることである。 観察によると、人間同士のコミュニケーションは、情報伝達だけでなく、社会関係の管理に関するものである(場面に関係している)。 これは1つ主張するが、実装するにはメカニズムが必要である。 ここで説明するメカニズムは、意図的な言語の概念 - 意図的に考え、話し、他人に認識する - に基づいており、協力して助けを求められている。 私たちが強いられる方法は、人間を話題にし続けるという、現在ある問題の解決策を指し示します。 このアプローチは,タスク完了とは無関係にユーザ満足度を大幅に向上させることに成功した。 Talk Markup Language(TalkML)はVoiceXMLに代わる草案であり、入力がなく、認識されていない音声イベントに対してデフォルト動作を提供することにより、対話のスクリプティングを大幅に単純化する。

Virtual Personal Assistants like Siri have great potential but such developments hit the fundamental problem of how to make computational devices that understand human speech. Natural language understanding is one of the more disappointing failures of AI research and it seems there is something we computer scientists don't get about the nature of language. Of course philosophers and linguists think quite differently about language and this paper describes how we have taken ideas from other disciplines and implemented them. The background to the work is to take seriously the notion of language as action and look at what people actually do with language using the techniques of Conversation Analysis. The observation has been that human communication is (behind the scenes) about the management of social relations as well as the (foregrounded) passing of information. To claim this is one thing but to implement it requires a mechanism. The mechanism described here is based on the notion of language being intentional - we think intentionally, talk about them and recognise them in others - and cooperative in that we are compelled to help out. The way we are compelled points to a solution to the ever present problem of keeping the human on topic. The approach has led to a recent success in which we significantly improve user satisfaction independent of task completion. Talk Markup Language (TalkML) is a draft alternative to VoiceXML that, we propose, greatly simplifies the scripting of interaction by providing default behaviours for no input and not recognised speech events.
翻訳日:2021-05-25 19:27:51 公開日:2021-05-24
# (参考訳) DaN+:デンマークのNested Named Entitiesと語彙正規化

DaN+: Danish Nested Named Entities and Lexical Normalization ( http://arxiv.org/abs/2105.11301v1 )

ライセンス: CC BY 4.0
Barbara Plank, Kristian N{\o}rgaard Jensen and Rob van der Goot(参考訳) 本稿では、デンマークのネスト付き名前付きエンティティ(NE)のための新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介し、低リソース言語のための言語間クロスドメイン学習の研究を支援する。 我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。 ドイツ語からの変換能力と言語内アノテーションをスクラッチから比較する。 言語特異的対多言語BERTについて検討し, 語彙正規化がNERに与える影響について検討した。 以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。 結果として、ドメイン外セットアップは依然として困難であり、ニュースのパフォーマンスは急速に高まります。 これは言語間伝達のクロスドメイン評価の重要性を強調している。

This paper introduces DaN+, a new multi-domain corpus and annotation guidelines for Danish nested named entities (NEs) and lexical normalization to support research on cross-lingual cross-domain learning for a less-resourced language. We empirically assess three strategies to model the two-layer Named Entity Recognition (NER) task. We compare transfer capabilities from German versus in-language annotation from scratch. We examine language-specific versus multilingual BERT, and study the effect of lexical normalization on NER. Our results show that 1) the most robust strategy is multi-task learning which is rivaled by multi-label decoding, 2) BERT-based NER models are sensitive to domain shifts, and 3) in-language BERT and lexical normalization are the most beneficial on the least canonical data. Our results also show that an out-of-domain setup remains challenging, while performance on news plateaus quickly. This highlights the importance of cross-domain evaluation of cross-lingual transfer.
翻訳日:2021-05-25 19:08:13 公開日:2021-05-24
# (参考訳) 19世紀英語のニューラル言語モデル

Neural Language Models for Nineteenth-Century English ( http://arxiv.org/abs/2105.11321v1 )

ライセンス: CC BY 4.0
Kasra Hosseini, Kaspar Beelen, Giovanni Colavizza, Mariona Coll Ardanuy(参考訳) 1760-1900年に出版され、約510億のトークンで構成された、英語で書籍の巨大な歴史的データセットでトレーニングされた4種類のニューラル言語モデルを示す。 言語モデルアーキテクチャには静的 (word2vec と fastText) とコンテキスト化モデル (BERT と Flair) がある。 各アーキテクチャについて、データセット全体を使用してモデルインスタンスをトレーニングしました。 さらに、2つの静的モデルのために1850年以前に公開されたテキストの別々のインスタンスと、bertの異なるタイムスライスを考慮した4つのインスタンスをトレーニングした。 私たちのモデルは、パフォーマンスを継続的に改善する様々な下流タスクで既に使われています。 本稿では,モデルがどのように作成され,再利用の可能性について概説する。

We present four types of neural language models trained on a large historical dataset of books in English, published between 1760-1900 and comprised of ~5.1 billion tokens. The language model architectures include static (word2vec and fastText) and contextualized models (BERT and Flair). For each architecture, we trained a model instance using the whole dataset. Additionally, we trained separate instances on text published before 1850 for the two static models, and four instances considering different time slices for BERT. Our models have already been used in various downstream tasks where they consistently improved performance. In this paper, we describe how the models have been created and outline their reuse potential.
翻訳日:2021-05-25 18:51:05 公開日:2021-05-24
# (参考訳) IITP at AILA 2019: System Report for Artificial Intelligence for Legal Assistance Shared Task

IITP at AILA 2019: System Report for Artificial Intelligence for Legal Assistance Shared Task ( http://arxiv.org/abs/2105.11347v1 )

ライセンス: CC BY 4.0
Baban Gain, Dibyanayan Bandyopadhyay, Arkadipta De, Tanik Saikh, Asif Ekbal(参考訳) 本稿では、AILA 2019(Artificial Intelligence for Legal Assistance)という共有タスクへの参加の一環として、我々のシステムについて説明する。 これは、情報検索評価フォーラムの2019年の統合イベントである。 このトラックの結果は、インドの司法システムの作業プロセスの自動化に役立つだろう。 司法制度のあらゆる段階(下級から上級まで)における手作業の手続きと文書は、本質的に非常に複雑である。 このトラックの一部として作られたシステムは、法律実務者を助けるだろう。 一般人にとっても役に立ちます。 この種のトラックはまた、司法領域における自然言語処理(NLP)の研究の道を開く。 このトラックは、次の2つの問題を定義している。 タスク1: ある状況に関する関連する事前の事例を特定する タスク2: ある状況に関する最も関連する法令を特定する。 私たちは両方とも取り組んだ。 提案手法はBM25とDoc2Vecに基づいている。 タスクオーガナイザが宣言した結果によると、タスク1とタスク2では、それぞれ3番目と控えめな位置にあります。

In this article, we present a description of our systems as a part of our participation in the shared task namely Artificial Intelligence for Legal Assistance (AILA 2019). This is an integral event of Forum for Information Retrieval Evaluation-2019. The outcomes of this track would be helpful for the automation of the working process of the Indian Judiciary System. The manual working procedures and documentation at any level (from lower to higher court) of the judiciary system are very complex in nature. The systems produced as a part of this track would assist the law practitioners. It would be helpful for common men too. This kind of track also opens the path of research of Natural Language Processing (NLP) in the judicial domain. This track defined two problems such as Task 1: Identifying relevant prior cases for a given situation and Task 2: Identifying the most relevant statutes for a given situation. We tackled both of them. Our proposed approaches are based on BM25 and Doc2Vec. As per the results declared by the task organizers, we are in 3rd and a modest position in Task 1 and Task 2 respectively.
翻訳日:2021-05-25 18:44:57 公開日:2021-05-24
# (参考訳) テクスチャ背景の小さな3次元物体の再構成

Reconstructing Small 3D Objects in front of a Textured Background ( http://arxiv.org/abs/2105.11352v1 )

ライセンス: CC BY 4.0
Petr Hruby and Tomas Pajdla(参考訳) テクスチャ化された背景の前を移動する小さな物体の完全な3次元再構成手法を提案する。 運動から多体構造の特定の変化であり、2つの物体のみを専門とする。 シーンは2つのオブジェクトの相対的なポーズが変化するいくつかの静的な設定でキャプチャされる。 各静的な構成を個別に再構築し、シーンの他の構成をキャプチャする複数のカメラのポーズを見つけ、ポイントを局所的に分割する。 そして、局所的なセグメンテーション結果を組み合わせて、その復元結果をシーンのモデルにマージする。 実物を用いた実験では, 両面から3次元オブジェクトを再構成する際に, 現実的な利点があることが示されている。 この設定では、我々の手法は最先端の手法よりも優れている。 我々はこの手法を3D再構築パイプラインCOLMAPの状態に統合する。

We present a technique for a complete 3D reconstruction of small objects moving in front of a textured background. It is a particular variation of multibody structure from motion, which specializes to two objects only. The scene is captured in several static configurations between which the relative pose of the two objects may change. We reconstruct every static configuration individually and segment the points locally by finding multiple poses of cameras that capture the scene's other configurations. Then, the local segmentation results are combined, and the reconstructions are merged into the resulting model of the scene. In experiments with real artifacts, we show that our approach has practical advantages when reconstructing 3D objects from all sides. In this setting, our method outperforms the state-of-the-art. We integrate our method into the state of the art 3D reconstruction pipeline COLMAP.
翻訳日:2021-05-25 18:40:30 公開日:2021-05-24
# (参考訳) U-Netのトリラナーアンサンブルを用いた脳腫瘍切除

Brain tumour segmentation using a triplanar ensemble of U-Nets ( http://arxiv.org/abs/2105.11356v1 )

ライセンス: CC BY 4.0
Vaanathi Sundaresan, Ludovica Griffanti, Mark Jenkinson(参考訳) グリオーマは、その外観と脳MR画像上の位置の両方において、その特徴に大きく変化しており、堅牢な腫瘍の分節は非常に困難であり、手動の分節においても高いレーザー間変動をもたらす。 本研究では,これらの腫瘍とそのサブ領域の正確なセグメンテーションのために,独立した腫瘍コア予測モジュールを備えたトリプラナーアンサンブルネットワークを提案する。 腫瘍部分領域に対するmiccai brain tumor segmentation (brats) challenge validation datasetの評価を行った結果, 腫瘍(et)と腫瘍コア(tc)のいずれにおいても, dice類似度係数0.77を得た。 全腫瘍領域 (wt) では0.89のサイス値を達成し,brats'17-19の上位の方法に匹敵する値を得た。 提案手法は,BraTS'20テストデータセットにおいて,ET,WT,TCの各領域の平均Dice値は0.81,0.89,0.84であり,BraTS'20チャレンジでは5位(第10位)であった。

Gliomas appear with wide variation in their characteristics both in terms of their appearance and location on brain MR images, which makes robust tumour segmentation highly challenging, and leads to high inter-rater variability even in manual segmentations. In this work, we propose a triplanar ensemble network, with an independent tumour core prediction module, for accurate segmentation of these tumours and their sub-regions. On evaluating our method on the MICCAI Brain Tumor Segmentation (BraTS) challenge validation dataset, for tumour sub-regions, we achieved a Dice similarity coefficient of 0.77 for both enhancing tumour (ET) and tumour core (TC). In the case of the whole tumour (WT) region, we achieved a Dice value of 0.89, which is on par with the top-ranking methods from BraTS'17-19. Our method achieved an evaluation score that was the equal 5th highest value (with our method ranking in 10th place) in the BraTS'20 challenge, with mean Dice values of 0.81, 0.89 and 0.84 on ET, WT and TC regions respectively on the BraTS'20 unseen test dataset.
翻訳日:2021-05-25 18:39:30 公開日:2021-05-24
# (参考訳) ddr-net:division and downsampling mixed network for diffeomorphic image registration

DDR-Net: Dividing and Downsampling Mixed Network for Diffeomorphic Image Registration ( http://arxiv.org/abs/2105.11361v1 )

ライセンス: CC BY 4.0
Ankita Joshi, Yi Hong(参考訳) 深い微分型登録は、特にメモリ制限の観点から、高次元画像において重要な課題に直面している。 既存のアプローチでは、オリジナルイメージのサンプルダウンや、おおよその変換、あるいはモデルサイズを削減している。 近似や不十分なモデルのキャパシティにおける情報損失は、高次元画像(例えば3d医療データ)の登録精度の妨げとなる。 本稿では,画像情報のほとんどを複数のスケールで保存する汎用アーキテクチャであるddr-net(dispartment and downsampling mixed registration network)を提案する。 DDR-Netは、入力をダウンサンプリングすることでグローバルコンテキストを活用し、入力画像の分割チャンクからの局所的な詳細を利用する。 この設計は、ネットワークの入力サイズとメモリコストを削減し、一方、グローバル情報とローカル情報を融合することにより、DDR-Netは最終的な変形場の粗いレベルと細いレベルのアライメントを得る。 我々は3つの公開データセット(OASIS, IBSR18, 3DIRCADB-01)上でDDR-Netを評価し, 既存のアプローチよりも優れていることを示す。

Deep diffeomorphic registration faces significant challenges for high-dimensional images, especially in terms of memory limits. Existing approaches either downsample original images, or approximate underlying transformations, or reduce model size. The information loss during the approximation or insufficient model capacity is a hindrance to the registration accuracy for high-dimensional images, e.g., 3D medical volumes. In this paper, we propose a Dividing and Downsampling mixed Registration network (DDR-Net), a general architecture that preserves most of the image information at multiple scales. DDR-Net leverages the global context via downsampling the input and utilizes the local details from divided chunks of the input images. This design reduces the network input size and its memory cost; meanwhile, by fusing global and local information, DDR-Net obtains both coarse-level and fine-level alignments in the final deformation fields. We evaluate DDR-Net on three public datasets, i.e., OASIS, IBSR18, and 3DIRCADB-01, and the experimental results demonstrate our approach outperforms existing approaches.
翻訳日:2021-05-25 18:26:22 公開日:2021-05-24
# (参考訳) 株価変動を模倣して、強化学習オプション価格にできるのか?

Can we imitate stock price behavior to reinforcement learn option price? ( http://arxiv.org/abs/2105.11376v1 )

ライセンス: CC BY 4.0
Xin Jin(参考訳) 本稿では,強化学習オプション価格に基礎となる在庫の価格変動を模倣する枠組みを提案する。 株式価格データのアクセス可能な特徴を用いて、主要投資家の意思決定による株価変動をモデル化するための非決定論的マルコフ決定プロセスを構築する。 しかし、株式市場における信号対雑音比の低さと不安定さは、行動(主に投資家の決定)を行った後に状態遷移(価格変化)を決定し、現在の状態(スポット価格)に基づいて行動を決定することが困難となる。 これらの課題を克服するために、アクションによって導かれる状態遷移の予測分布を計算するために、ベイジアンディープニューラルネットワークを利用する。 さらに、政策を定式化するための状態-行動関係を探求する代わりに、主投資家の連続的な意思決定を確率的に模倣するエピソードベースの状態-行動関係を求める。 提案アルゴリズムは,ベイズ型深層ニューラルネットワークを用いて,主幹投資家の決定をシミュレーションした株価経路にマップする。 最終的に、最適なオプション価格は、基盤のシミュレーション価格経路よりも、動的にヘッジされたポートフォリオの累積リスク調整されたリターンを最大化することで学習される。

This paper presents a framework of imitating the price behavior of the underlying stock for reinforcement learning option price. We use accessible features of the equities pricing data to construct a non-deterministic Markov decision process for modeling stock price behavior driven by principal investor's decision making. However, low signal-to-noise ratio and instability that appear immanent in equity markets pose challenges to determine the state transition (price change) after executing an action (principal investor's decision) as well as decide an action based on current state (spot price). In order to conquer these challenges, we resort to a Bayesian deep neural network for computing the predictive distribution of the state transition led by an action. Additionally, instead of exploring a state-action relationship to formulate a policy, we seek for an episode based visible-hidden state-action relationship to probabilistically imitate principal investor's successive decision making. Our algorithm then maps imitative principal investor's decisions to simulated stock price paths by a Bayesian deep neural network. Eventually the optimal option price is reinforcement learned through maximizing the cumulative risk-adjusted return of a dynamically hedged portfolio over simulated price paths of the underlying.
翻訳日:2021-05-25 18:18:35 公開日:2021-05-24
# (参考訳) VANiLLa : 大規模自然言語における動詞解答

VANiLLa : Verbalized Answers in Natural Language at Large Scale ( http://arxiv.org/abs/2105.11407v1 )

ライセンス: CC BY 4.0
Debanjali Biswas, Mohnish Dubey, Md Rashad Al Hasan Rony and Jens Lehmann(参考訳) 近年,知識グラフに関する質問回答(KGQA)の分野では,大きな進展があった。 すべての顕著な進歩にもかかわらず、現在のKGQAデータセットは、質問コンテキストを組み込んだ全文ではなく、正式なクエリの直接出力結果としてのみ回答を提供する。 コヒーレントな回答文を質問の語彙で達成するためには、テンプレートベースの動詞化は、通常、より優れた回答表現のために使用される。 したがって、機械学習アプローチへの道を開くことはできるが、この分野では機械学習モデルを強化するデータセットが不足している。 したがって、自然言語文の回答を提供することにより、このギャップを減らすことを目的としたVANiLLaデータセットを提供する。 このデータセットの回答文は、3つの事実よりも構文上、意味的に質問に近い。 我々のデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の簡単な質問で構成され、セミオートマチックなフレームワークを用いて生成される。 また、現在最先端の自然言語生成(NLG)アーキテクチャから適応した複数のベースラインモデルに基づくデータセットのトレーニング結果も提示する。 このデータセットは、研究者が言語化に答えるために適切な方法論やアーキテクチャを見つけることに集中できると考えている。

In the last years, there have been significant developments in the area of Question Answering over Knowledge Graphs (KGQA). Despite all the notable advancements, current KGQA datasets only provide the answers as the direct output result of the formal query, rather than full sentences incorporating question context. For achieving coherent answers sentence with the question's vocabulary, template-based verbalization so are usually employed for a better representation of answers, which in turn require extensive expert intervention. Thus, making way for machine learning approaches; however, there is a scarcity of datasets that empower machine learning models in this area. Hence, we provide the VANiLLa dataset which aims at reducing this gap by offering answers in natural language sentences. The answer sentences in this dataset are syntactically and semantically closer to the question than to the triple fact. Our dataset consists of over 100k simple questions adapted from the CSQA and SimpleQuestionsWikidata datasets and generated using a semi-automatic framework. We also present results of training our dataset on multiple baseline models adapted from current state-of-the-art Natural Language Generation (NLG) architectures. We believe that this dataset will allow researchers to focus on finding suitable methodologies and architectures for answer verbalization.
翻訳日:2021-05-25 17:49:48 公開日:2021-05-24
# (参考訳) Skew Orthogonal Convolutions

Skew Orthogonal Convolutions ( http://arxiv.org/abs/2105.11417v1 )

ライセンス: CC BY 4.0
Sahil Singla and Soheil Feizi(参考訳) Lipschitzの制約による畳み込みニューラルネットワークのトレーニングは、証明可能な対向的堅牢性、解釈可能な勾配、安定したトレーニングなどに有用である。 1-Lipschitzネットワークは、各層に1-Lipschitz制約を課すことで設計できるが、そのようなネットワークをトレーニングするには、勾配が消えるのを防ぐために、各層が勾配標準保存(GNP)が必要である。 しかし、既存のGNP畳み込みは訓練の遅さに悩まされ、精度を大幅に低下させ、近似に保証を与えない。 本研究では、行列が {\it Skew-Symmetric} であるとき、その指数関数は {\it orthogonal} 行列である、という数学的性質を用いた GNP 畳み込み層である 'methodnamebold\ (\methoddabv) を提案する。 この特性を利用するために、まずジャコビアンがスキュー対称である畳み込みフィルタを構築する。 次に、ヤコビアン指数関数のテイラー級数展開を用いて直交である \methodabv\ 層を構成する。 methodabvを効率的に実装するために、テイラー級数から有限個の項を保持し、近似誤差の証明可能な保証を与える。 CIFAR-10 と CIFAR-100 を用いた実験により,既成のリプシッツ,大規模な畳み込みニューラルネットワークを従来よりも大幅に高速に学習し,精度の高い精度と信頼性の高い精度を両立させることができた。

Training convolutional neural networks with a Lipschitz constraint under the $l_{2}$ norm is useful for provable adversarial robustness, interpretable gradients, stable training, etc. While 1-Lipschitz networks can be designed by imposing a 1-Lipschitz constraint on each layer, training such networks requires each layer to be gradient norm preserving (GNP) to prevent gradients from vanishing. However, existing GNP convolutions suffer from slow training, lead to significant reduction in accuracy and provide no guarantees on their approximations. In this work, we propose a GNP convolution layer called \methodnamebold\ (\methodabv) that uses the following mathematical property: when a matrix is {\it Skew-Symmetric}, its exponential function is an {\it orthogonal} matrix. To use this property, we first construct a convolution filter whose Jacobian is Skew-Symmetric. Then, we use the Taylor series expansion of the Jacobian exponential to construct the \methodabv\ layer that is orthogonal. To efficiently implement \methodabv, we keep a finite number of terms from the Taylor series and provide a provable guarantee on the approximation error. Our experiments on CIFAR-10 and CIFAR-100 show that \methodabv\ allows us to train provably Lipschitz, large convolutional neural networks significantly faster than prior works while achieving significant improvements for both standard and certified robust accuracies.
翻訳日:2021-05-25 17:36:00 公開日:2021-05-24
# (参考訳) 集団計数のための多層注意神経回路網

Multi-Level Attentive Convoluntional Neural Network for Crowd Counting ( http://arxiv.org/abs/2105.11422v1 )

ライセンス: CC BY 4.0
Mengxiao Tian, Hao Guo, Chengjiang Long(参考訳) 最近、群衆のカウントはますます注目を浴びている。 特に高密度環境の技術は重要な研究内容となり,高濃度の群集が存在するための適切な手法は最適ではない。 本稿では,クラウドカウントのためのマルチレベル注意型畳み込みニューラルネットワーク(MLAttnCNN)を提案する。 我々は、複数の異なるスケールをプールに応用した高レベルのコンテキスト情報を抽出し、多層アテンションモジュールを用いて異なる層の特徴を強化し、より効率的なマルチスケール特徴融合を実現し、拡張畳み込みと1ドル1セントの畳み込みでより正確な密度マップを生成することができる。 利用可能な3つの公開データセットに関する広範な実験により、提案したネットワークは最先端のアプローチに優れた性能を発揮することが示された。

Recently the crowd counting has received more and more attention. Especially the technology of high-density environment has become an important research content, and the relevant methods for the existence of extremely dense crowd are not optimal. In this paper, we propose a multi-level attentive Convolutional Neural Network (MLAttnCNN) for crowd counting. We extract high-level contextual information with multiple different scales applied in pooling, and use multi-level attention modules to enrich the characteristics at different layers to achieve more efficient multi-scale feature fusion, which is able to be used to generate a more accurate density map with dilated convolutions and a $1\times 1$ convolution. The extensive experiments on three available public datasets show that our proposed network achieves outperformance to the state-of-the-art approaches.
翻訳日:2021-05-25 17:02:22 公開日:2021-05-24
# (参考訳) 結核(tb)菌の検出と計数を自動化するための設計

Design to automate the detection and counting of Tuberculosis(TB) bacilli ( http://arxiv.org/abs/2105.11432v1 )

ライセンス: CC BY-SA 4.0
Dinesh Jackson Samuel and Rajesh Kanna Baskaran(参考訳) 結核は感染性疾患であり、世界でも主要な死因の一つである。 結核の一般的な診断方法は、顕微鏡検査、結核皮膚検査、培養方法、酵素結合免疫測定法(ELISA)および電子鼻システムである。 世界保健機関(WHO)は結核の早期診断に標準的な顕微鏡検査を推奨している。 顕微鏡検査では,スプートゥムスメアの視野 (fov) をtb bacilli の存在条件として検討し,fov 当たり tb bacilli 数を数えて重症度を報告した。 このプロセスは、経験豊富なスタッフが1本のスミアを検査するのに、集中度が高くなる時間を要する。 高評価国の熟練技術者は、過負荷、疲労、顕微鏡の質低下につながる可能性がある。 そこで, 結核菌の検出のためのコンピュータ支援システムを提案し, 感度と特異性の向上を図った。 TBバシリの数を検出・カウントする手作業は、大幅に最小化されている。 従来の顕微鏡から100倍の倍率でziehl-neelsen染色顕微鏡画像を取得し、検出システムへ送信する。 当初、TBバシリのセグメンテーションはRGBしきい値とソーヴォーラの適応しきい値アルゴリズムを用いて行われた。 非TBバシリを粗いレベルセグメンテーションから除去するために、TBバシリの特徴のみを抽出するために、面積、周縁、凸殻、主軸長及び偏心性などの形状記述子を用いる。 最後に、生成した境界ボックスを用いてTBバシリをカウントして重大度を報告する。

Tuberculosis is a contagious disease which is one of the leading causes of death, globally. The general diagnosis methods for tuberculosis include microscopic examination, tuberculin skin test, culture method, enzyme linked immunosorbent assay (ELISA) and electronic nose system. World Health Organization (WHO) recommends standard microscopic examination for early diagnosis of tuberculosis. In microscopy, the technician examines field of views (FOVs) in sputum smear for presence of any TB bacilli and counts the number of TB bacilli per FOV to report the level of severity. This process is time consuming with an increased concentration for an experienced staff to examine a single sputum smear. The examination demands for skilled technicians in high-prevalence countries which may lead to overload, fatigue and diminishes the quality of microscopy. Thus, a computer assisted system is proposed and designed for the detection of tuberculosis bacilli to assist pathologists with increased sensitivity and specificity. The manual efforts in detecting and counting the number of TB bacilli is greatly minimized. The system obtains Ziehl-Neelsen stained microscopic images from conventional microscope at 100x magnification and passes the data to the detection system. Initially the segmentation of TB bacilli was done using RGB thresholding and Sauvola's adaptive thresholding algorithm. To eliminate the non-TB bacilli from coarse level segmentation, shape descriptors like area, perimeter, convex hull, major axis length and eccentricity are used to extract only the TB bacilli features. Finally, the TB bacilli are counted using the generated bounding boxes to report the level of severity.
翻訳日:2021-05-25 16:46:38 公開日:2021-05-24
# (参考訳) 1次複雑度を持つ2次更新

2nd-order Updates with 1st-order Complexity ( http://arxiv.org/abs/2105.11439v1 )

ライセンス: CC BY 4.0
Michael F. Zimmer(参考訳) これは長い間、関数の二次情報(f$)を効率的に計算して数値近似を支援することを目標としてきた。 ここで、基礎物理学と数値近似のみを用いて、そのような情報は${\cal o}(n)$ のコストで正確に得られることが示され、ここでは$n$ はパラメータ空間の次元が $f$ である。 本稿では,この2次情報を利用するアルゴリズム({\em VA-Flow})を開発し,擬似コードを示す。 これは、逆キネマティクス(IK)と勾配降下(GD)の2種類の問題に適用される。 IK アプリケーションでは、アルゴリズムは高速で堅牢であり、特異点の近くでも滑らかな振る舞いをもたらすことが示されている。 gd の場合、コスト関数は多項式によって局所的に記述されるので、アルゴリズムは非常にうまく機能する。

It has long been a goal to efficiently compute and use second order information on a function ($f$) to assist in numerical approximations. Here it is shown how, using only basic physics and a numerical approximation, such information can be accurately obtained at a cost of ${\cal O}(N)$ complexity, where $N$ is the dimensionality of the parameter space of $f$. In this paper, an algorithm ({\em VA-Flow}) is developed to exploit this second order information, and pseudocode is presented. It is applied to two classes of problems, that of inverse kinematics (IK) and gradient descent (GD). In the IK application, the algorithm is fast and robust, and is shown to lead to smooth behavior even near singularities. For GD the algorithm also works very well, provided the cost function is locally well-described by a polynomial.
翻訳日:2021-05-25 16:39:49 公開日:2021-05-24
# (参考訳) luvHarris:イベントカメラのための実用的なコーナー検出器

luvHarris: A Practical Corner Detector for Event-cameras ( http://arxiv.org/abs/2105.11443v1 )

ライセンス: CC BY 4.0
Arren Glover, Aiko Dinale, Leandro De Souza Rosa, Simeon Bamford, and Chiara Bartolozzi(参考訳) 過去数年間、イベント駆動型コンピュータビジョンがよりアクセスしやすくなってきたため、イベントカメラにコーナー検出手法が提案されてきた。 現在の最先端技術は、実用性を考慮した場合、満足のいく精度かリアルタイム性能のいずれかであり、制約のない環境でのライブカメラを用いたランダムな動きである。 本稿では,harrisアルゴリズムを高精度に利用するが,イベントスループットが向上したルックアップイベントハリス(luvharris)という,コーナー検出を行う新たな手法を提案する。 本手法は,1.特定の調律パラメータを取り除きハリス演算に適する新しい「threshold ordinal event-surface」,2. 計算負荷を最小化し計算重畳み込みを「as-as-possible」のみ行うハリスアルゴリズムの実装という2つの大きな貢献がある。 計算資源が利用可能である場合のみ。 その結果、実用的でリアルタイムで堅牢なコーナー検出器が、現在の最先端の速度で2.6\times$以上動作し、リアルタイムに高解像度イベントカメラを使用する場合の必要性が高まる。 本稿では,提案手法について考察し,計算性能と検出精度の観点からアルゴリズムを最先端技術と比較し,提案手法の有効性について考察する。

There have been a number of corner detection methods proposed for event cameras in the last years, since event-driven computer vision has become more accessible. Current state-of-the-art have either unsatisfactory accuracy or real-time performance when considered for practical use; random motion using a live camera in an unconstrained environment. In this paper, we present yet another method to perform corner detection, dubbed look-up event-Harris (luvHarris), that employs the Harris algorithm for high accuracy but manages an improved event throughput. Our method has two major contributions, 1. a novel "threshold ordinal event-surface" that removes certain tuning parameters and is well suited for Harris operations, and 2. an implementation of the Harris algorithm such that the computational load per-event is minimised and computational heavy convolutions are performed only 'as-fast-as-possible', i.e. only as computational resources are available. The result is a practical, real-time, and robust corner detector that runs more than $2.6\times$ the speed of current state-of-the-art; a necessity when using high-resolution event-camera in real-time. We explain the considerations taken for the approach, compare the algorithm to current state-of-the-art in terms of computational performance and detection accuracy, and discuss the validity of the proposed approach for event cameras.
翻訳日:2021-05-25 16:27:25 公開日:2021-05-24
# (参考訳) Task-Adaptive Pre-Trained BERTによる数学KCの分類

Classifying Math KCs via Task-Adaptive Pre-Trained BERT ( http://arxiv.org/abs/2105.11343v1 )

ライセンス: CC BY-SA 4.0
Jia Tracy Shen, Michiharu Yamashita, Ethan Prihar, Neil Heffernan, Xintao Wu, Sean McGrew, Dongwon Lee(参考訳) 適切な知識コンポーネント(kcs)をラベル付けした教育コンテンツは、教師やコンテンツオーガナイザにとって特に有用である。 しかし、手動で教育コンテンツをラベル付けすることは、労働集約的で誤りやすい。 この課題に対処するために、先行研究は、限られた成功を収めた自動ラベル教育コンテンツに対する機械学習ベースのソリューションを提案した。 In this work, we significantly improve prior research by (1) expanding the input types to include KC descriptions, instructional video titles, and problem descriptions (i.e., three types of prediction task), (2) doubling the granularity of the prediction from 198 to 385 KC labels (i.e., more practical setting but much harder multinomial classification problem), (3) improving the prediction accuracies by 0.5-2.3% using Task-adaptive Pre-trained BERT, outperforming six baselines, and (4) proposing a simple evaluation measure by which we can recover 56-73% of mispredicted KC labels. 実験のすべてのコードとデータセットは:https://github.com/tbs17/tapt-bert

Educational content labeled with proper knowledge components (KCs) are particularly useful to teachers or content organizers. However, manually labeling educational content is labor intensive and error-prone. To address this challenge, prior research proposed machine learning based solutions to auto-label educational content with limited success. In this work, we significantly improve prior research by (1) expanding the input types to include KC descriptions, instructional video titles, and problem descriptions (i.e., three types of prediction task), (2) doubling the granularity of the prediction from 198 to 385 KC labels (i.e., more practical setting but much harder multinomial classification problem), (3) improving the prediction accuracies by 0.5-2.3% using Task-adaptive Pre-trained BERT, outperforming six baselines, and (4) proposing a simple evaluation measure by which we can recover 56-73% of mispredicted KC labels. All codes and data sets in the experiments are available at:https://github.com/tbs17/TAPT-BERT
翻訳日:2021-05-25 15:47:36 公開日:2021-05-24
# 言語モデルによる真の少数ショット学習

True Few-Shot Learning with Language Models ( http://arxiv.org/abs/2105.11447v1 )

ライセンス: Link先を確認
Ethan Perez, Douwe Kiela, Kyunghyun Cho(参考訳) 事前訓練された言語モデル(LM)は、いくつかの例から学ぶ場合でも、多くのタスクでうまく機能するが、事前の作業では、ハイパーパラメータ、訓練目的、自然言語テンプレート(prompts)など、学習のさまざまな側面をチューニングするために、多くの保留例を使用している。 ここでは,そのような実例が利用できない場合のLMの少数ショット能力を評価し,これを真の少数ショット学習と呼ぶ。 2つのモデル選択基準(クロスバリデーションと最小記述長)をテストし、実数ショット設定でlmプロンプトとハイパーパラメータを選択する。 平均的に、両者はランダム選択を極端に上回り、ホールドアウト例に基づいて、非常に低パフォーマンスな選択を行う。 さらに、選択基準は、ランダムに選択されたモデルよりも著しく悪いモデルを好むことが多い。 選択中のモデルの真の性能の不確実性や,選択に使用する計算量やサンプル数の変化を考慮した場合においても,同様の結果が得られる。 全体として, 先行研究は, モデル選択の難しさから, lmsの真の少数ショット能力を大幅に過大評価したことが示唆された。

Pretrained language models (LMs) perform well on many tasks even when learning from a few examples, but prior work uses many held-out examples to tune various aspects of learning, such as hyperparameters, training objectives, and natural language templates ("prompts"). Here, we evaluate the few-shot ability of LMs when such held-out examples are unavailable, a setting we call true few-shot learning. We test two model selection criteria, cross-validation and minimum description length, for choosing LM prompts and hyperparameters in the true few-shot setting. On average, both marginally outperform random selection and greatly underperform selection based on held-out examples. Moreover, selection criteria often prefer models that perform significantly worse than randomly-selected ones. We find similar results even when taking into account our uncertainty in a model's true performance during selection, as well as when varying the amount of computation and number of examples used for selection. Overall, our findings suggest that prior work significantly overestimated the true few-shot ability of LMs given the difficulty of few-shot model selection.
翻訳日:2021-05-25 15:33:20 公開日:2021-05-24
# Sim-to-Realの粗大化:ワークスペース全体のサブミリメートル精度

Coarse-to-Fine for Sim-to-Real: Sub-Millimetre Precision Across the Workspace ( http://arxiv.org/abs/2105.11283v1 )

ライセンス: Link先を確認
Eugene Valassakis, Norman Di Palo and Edward Johns(参考訳) 深層学習によるロボット操作のための制御ポリシをトレーニングする場合、sim-to-real転送は大きなデータ要求を満たすのに役立つ。 本稿では,ゼロショット・シム・トゥ・リアル(0-shot sim-to-real)の課題について,高精度な制御,サブミリメートル誤差耐性,フルワークスペースの一般化の両面から検討する。 このフレームワークでは,まずはポーズ推定に基づく古典的な動作計画から始まり,画像からアクションへのマッピングとドメインランダム化によるシミュレーションのトレーニングを行うエンドツーエンドコントローラへと遷移する。 このようにして,作業空間全体にわたってコントローラを一般化し,視覚ベースのエンドツーエンド制御の汎用性と堅牢性を維持しながら,高精度な制御を実現する。 さまざまなタスクにおける実世界実験では,両世界のベストを生かしたフレームワークが,純粋に動作計画手法や純粋に学習に基づく手法をはるかに上回っていることが示されている。 さらに、画像センサのモダリティや画像特徴表現の違いなど、正確なsim-to-real転送のためのベストプラクティスに関するさまざまな質問に答える。

When training control policies for robot manipulation via deep learning, sim-to-real transfer can help satisfy the large data requirements. In this paper, we study the problem of zero-shot sim-to-real when the task requires both highly precise control, with sub-millimetre error tolerance, and full workspace generalisation. Our framework involves a coarse-to-fine controller, where trajectories initially begin with classical motion planning based on pose estimation, and transition to an end-to-end controller which maps images to actions and is trained in simulation with domain randomisation. In this way, we achieve precise control whilst also generalising the controller across the workspace and keeping the generality and robustness of vision-based, end-to-end control. Real-world experiments on a range of different tasks show that, by exploiting the best of both worlds, our framework significantly outperforms purely motion planning methods, and purely learning-based methods. Furthermore, we answer a range of questions on best practices for precise sim-to-real transfer, such as how different image sensor modalities and image feature representations perform.
翻訳日:2021-05-25 15:32:41 公開日:2021-05-24
# ニューラルマシン翻訳における言語モデルの不信感の防止

Prevent the Language Model from being Overconfident in Neural Machine Translation ( http://arxiv.org/abs/2105.11098v1 )

ライセンス: Link先を確認
Mengqi Miao, Fandong Meng, Yijin Liu, Xiao-Hua Zhou, Jie Zhou(参考訳) neural machine translation(nmt)モデルは、基本的には、ソース文と部分翻訳の両方で条件付けられたジョイント言語モデルである。 したがって、NMTモデルは、部分翻訳のみに基づいて次のトークンを予測する言語モデル(LM)のメカニズムを自然に含んでいる。 その成功にもかかわらず、nmtは未だに幻覚の問題に苦しんでおり、不適切な翻訳を生み出している。 主な理由は、nmtが部分翻訳に過度に注意を払っている一方、ソース文はある程度無視されているためである。 そこで,各トークンについて,NMTモデルからLMの予測確率を減じて計算したNMTとLMのマージンを定義する。 マージンは、lmの過信頼度と負に相関する。 そこで本研究では,lmの過信防止のためのマージンを最大化するためのマージンベーストークンレベル目標(mto)とマージンベース文レベル目標(mso)を提案する。 WMT14英語-ドイツ語、WMT19中国語-英語、WMT14英語-フランス語翻訳タスクの実験では、Transformerベースラインと比較して、それぞれ1.36, 1.50, 0.63BLEUの改善が見られた。 人間の評価は、我々のアプローチが翻訳精度と流布度を改善することをさらに確認する。

The Neural Machine Translation (NMT) model is essentially a joint language model conditioned on both the source sentence and partial translation. Therefore, the NMT model naturally involves the mechanism of the Language Model (LM) that predicts the next token only based on partial translation. Despite its success, NMT still suffers from the hallucination problem, generating fluent but inadequate translations. The main reason is that NMT pays excessive attention to the partial translation while neglecting the source sentence to some extent, namely overconfidence of the LM. Accordingly, we define the Margin between the NMT and the LM, calculated by subtracting the predicted probability of the LM from that of the NMT model for each token. The Margin is negatively correlated to the overconfidence degree of the LM. Based on the property, we propose a Margin-based Token-level Objective (MTO) and a Margin-based Sentencelevel Objective (MSO) to maximize the Margin for preventing the LM from being overconfident. Experiments on WMT14 English-to-German, WMT19 Chinese-to-English, and WMT14 English-to-French translation tasks demonstrate the effectiveness of our approach, with 1.36, 1.50, and 0.63 BLEU improvements, respectively, compared to the Transformer baseline. The human evaluation further verifies that our approaches improve translation adequacy as well as fluency.
翻訳日:2021-05-25 15:31:46 公開日:2021-05-24
# One2Set: 異なるキーワードをセットとして生成する

One2Set: Generating Diverse Keyphrases as a Set ( http://arxiv.org/abs/2105.11134v1 )

ライセンス: Link先を確認
Jiacheng Ye, Tao Gui, Yichao Luo, Yige Xu, Qi Zhang(参考訳) 近年,訓練中に複数のキーフレーズを予め定義された順序で連結することで,キーフレーズ生成(kg)の課題に顕著な進歩を遂げている。 しかし、キーフレーズは本質的に順序列ではなく順序集合である。 事前定義された順序を設定すると、トレーニング中に誤ったバイアスが発生し、キーフレーズ間の順序のシフトを高いペナルティにすることができる。 本研究では,キーフレーズを結合する順序を事前に定義することなく,新しい学習パラダイムone2setを提案する。 このパラダイムを適合させるために, 学習制御符号の固定セットを条件として利用し, キーフレーズのセットを並列に生成する新しいモデルを提案する。 トレーニング中に各予測値と目標値が一致しないという問題を解決するため,両部マッチングによる目標割当機構を提案し,その多様性を大幅に向上させ,生成したキーフレーズの重複率を低減する。 複数のベンチマークによる実験結果から,本手法が最先端手法を著しく上回っていることが示された。

Recently, the sequence-to-sequence models have made remarkable progress on the task of keyphrase generation (KG) by concatenating multiple keyphrases in a predefined order as a target sequence during training. However, the keyphrases are inherently an unordered set rather than an ordered sequence. Imposing a predefined order will introduce wrong bias during training, which can highly penalize shifts in the order between keyphrases. In this work, we propose a new training paradigm One2Set without predefining an order to concatenate the keyphrases. To fit this paradigm, we propose a novel model that utilizes a fixed set of learned control codes as conditions to generate a set of keyphrases in parallel. To solve the problem that there is no correspondence between each prediction and target during training, we propose a $K$-step target assignment mechanism via bipartite matching, which greatly increases the diversity and reduces the duplication ratio of generated keyphrases. The experimental results on multiple benchmarks demonstrate that our approach significantly outperforms the state-of-the-art methods.
翻訳日:2021-05-25 15:31:24 公開日:2021-05-24
# コモンセンス生成のための検索強化モデル

Retrieval Enhanced Model for Commonsense Generation ( http://arxiv.org/abs/2105.11174v1 )

ライセンス: Link先を確認
Han Wang, Yang Liu, Chenguang Zhu, Linjun Shou, Ming Gong, Yichong Xu, Michael Zeng(参考訳) コモンセンス生成は、提供された概念を用いて日常的なシナリオを記述するもっともらしい文を生成するための課題である。 常識知識と構成一般化能力に対する推論の要件は、強力な事前学習言語生成モデルさえもパズルである。 本稿では,コモンセンス生成のための事前学習と微調整の両方を強化するために,検索手法を用いた新しいフレームワークを提案する。 プロトタイプ文候補を概念マッチングで検索し,補助入力として利用する。 微調整のために、訓練可能な文検索器でさらにパフォーマンスを高めます。 提案手法は, 大規模CommonGenベンチマークを用いて, 最新の成果を実証する。

Commonsense generation is a challenging task of generating a plausible sentence describing an everyday scenario using provided concepts. Its requirement of reasoning over commonsense knowledge and compositional generalization ability even puzzles strong pre-trained language generation models. We propose a novel framework using retrieval methods to enhance both the pre-training and fine-tuning for commonsense generation. We retrieve prototype sentence candidates by concept matching and use them as auxiliary input. For fine-tuning, we further boost its performance with a trainable sentence retriever. We demonstrate experimentally on the large-scale CommonGen benchmark that our approach achieves new state-of-the-art results.
翻訳日:2021-05-25 15:31:07 公開日:2021-05-24
# 再現性レポート:ポストホック説明によるヘイトスピーチ分類の文脈化

Reproducibility Report: Contextualizing Hate Speech Classifiers with Post-hoc Explanation ( http://arxiv.org/abs/2105.11412v1 )

ライセンス: Link先を確認
Kiran Purohit, Owais Iqbal and Ankan Mullick(参考訳) 本報告では, ML再現性チャレンジ2020の範囲内で, ポストホック説明紙を用いた文脈的ヘイトスピーチ分類器の評価を行った。 本研究は,本論文を構成する2つの側面,すなわち方法自体と提案結果の有効性に焦点を当てる。 以下の節では,論文,関連研究,アルゴリズムフレームワーク,実験および評価について述べる。

The presented report evaluates Contextualizing Hate Speech Classifiers with Post-hoc Explanation paper within the scope of ML Reproducibility Challenge 2020. Our work focuses on both aspects constituting the paper: the method itself and the validity of the stated results. In the following sections, we have described the paper, related works, algorithmic frameworks, our experiments and evaluations.
翻訳日:2021-05-25 15:30:58 公開日:2021-05-24
# ユーザ生成データから副作用を抽出するためのラベルなしデータによるビュー蒸留

View Distillation with Unlabeled Data for Extracting Adverse Drug Effects from User-Generated Data ( http://arxiv.org/abs/2105.11354v1 )

ライセンス: Link先を確認
Payam Karisani, Jinho D. Choi, Li Xiong(参考訳) 本稿では,ソーシャルメディアデータ中の逆薬物反応(ADR)を識別するための多層トランスフォーマーに基づくアルゴリズムを提案する。 本モデルは,文書から2つのビューを抽出するために,問題の性質と文脈単語埋め込みの特性に依存する。 次に、各ビューに分類器をトレーニングし、ラベルのない文書のセットをラベル付けし、他のビューで新しい分類器のイニシャライザとして使用する。 最後に、各ビューにおける初期化分類器は、初期トレーニング例を使用してさらに訓練される。 我々は、我々のモデルを、利用可能な最大のADRデータセットで評価した。 実験によれば、このモデルはドメイン固有のデータに基づいて事前学習されたトランスフォーマーベースのモデルを大幅に上回っている。

We present an algorithm based on multi-layer transformers for identifying Adverse Drug Reactions (ADR) in social media data. Our model relies on the properties of the problem and the characteristics of contextual word embeddings to extract two views from documents. Then a classifier is trained on each view to label a set of unlabeled documents to be used as an initializer for a new classifier in the other view. Finally, the initialized classifier in each view is further trained using the initial training examples. We evaluated our model in the largest publicly available ADR dataset. The experiments testify that our model significantly outperforms the transformer-based models pretrained on domain-specific data.
翻訳日:2021-05-25 15:29:43 公開日:2021-05-24
# 封建階層強化学習によるルームクリアランス

Room Clearance with Feudal Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2105.11328v1 )

ライセンス: Link先を確認
Henry Charlesworth, Adrian Millea, Eddie Pottrill, Rich Riley(参考訳) 強化学習(rl)は、システムと環境との試行錯誤による自律的な学習を可能にする汎用フレームワークである。 近年、RLと表現力のある高容量ニューラルネットワークモデルを組み合わせることで、さまざまな領域で顕著なパフォーマンスを実現している。 しかし、実世界の問題にしばしば必要とされる大きな状態と行動空間を扱うことは依然として大きな課題である。 本稿では,rl研究を軍事分析に有用な方向に進めるためのシナリオを構築するためのツールとして,新たなシミュレーション環境「ギャンビット」を提案する。 この環境を使用することで、ブルーエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから切り離され(そして明確に保たれる)なければならない、抽象的で単純化されたルームクリアランスシナリオに焦点をあてます。 我々は,階層型階層型rlのマルチエージェント版を実装し,上位レベルの指揮官が命令に従うために単に学習しなければならない下位レベルの複数のエージェントに命令を送るコマンド階層を導入する。 この方法でタスクを分解することで、比較した標準的なベースラインRLアルゴリズムよりもはるかに効率的に複数のエージェントの調整を必要とする多くの非自明なフロアプランを解決できることがわかった。 次に、エージェントの報酬関数(例えば、エージェントの報酬関数)の優先順位によって、定性的に異なる振る舞いがどのように現れるかを探る。 素早く建物を片付け 民の救済を優先して)

Reinforcement learning (RL) is a general framework that allows systems to learn autonomously through trial-and-error interaction with their environment. In recent years combining RL with expressive, high-capacity neural network models has led to impressive performance in a diverse range of domains. However, dealing with the large state and action spaces often required for problems in the real world still remains a significant challenge. In this paper we introduce a new simulation environment, "Gambit", designed as a tool to build scenarios that can drive RL research in a direction useful for military analysis. Using this environment we focus on an abstracted and simplified room clearance scenario, where a team of blue agents have to make their way through a building and ensure that all rooms are cleared of (and remain clear) of enemy red agents. We implement a multi-agent version of feudal hierarchical RL that introduces a command hierarchy where a commander at the higher level sends orders to multiple agents at the lower level who simply have to learn to follow these orders. We find that breaking the task down in this way allows us to solve a number of non-trivial floorplans that require the coordination of multiple agents much more efficiently than the standard baseline RL algorithms we compare with. We then go on to explore how qualitatively different behaviour can emerge depending on what we prioritise in the agent's reward function (e.g. clearing the building quickly vs. prioritising rescuing civilians).
翻訳日:2021-05-25 15:29:17 公開日:2021-05-24
# 随時学習によるロバスト学習

Robust learning with anytime-guaranteed feedback ( http://arxiv.org/abs/2105.11135v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 重み付けされたデータ分布の下では、確率的勾配に基づく学習アルゴリズムの多くは、パフォーマンス保証がほとんどないポイントでクエリされたフィードバックによって駆動される。 ここでは、スムーズな目的のために、確率勾配の低次モーメント境界のみを必要としながら、高い確率誤差境界を許容する修正「常にオンラインからバッチ」機構について検討する。 この変換を用いることで、パフォーマンス分析のタスクを効果的に後悔制御に還元し、既存の後悔境界(有界な勾配の場合)を堅牢化し、直接的な方法で活用できる、幅広い「任意の時間ロバスト」手順を導出することができる。 直接帰結として,全ての問合せ点がガウス以下の誤り境界を形式的に楽しむ確率勾配に基づくアルゴリズムが実装され,実際に実世界のデータアプリケーションにおいて顕著な利得を示す。

Under data distributions which may be heavy-tailed, many stochastic gradient-based learning algorithms are driven by feedback queried at points with almost no performance guarantees on their own. Here we explore a modified "anytime online-to-batch" mechanism which for smooth objectives admits high-probability error bounds while requiring only lower-order moment bounds on the stochastic gradients. Using this conversion, we can derive a wide variety of "anytime robust" procedures, for which the task of performance analysis can be effectively reduced to regret control, meaning that existing regret bounds (for the bounded gradient case) can be robustified and leveraged in a straightforward manner. As a direct takeaway, we obtain an easily implemented stochastic gradient-based algorithm for which all queried points formally enjoy sub-Gaussian error bounds, and in practice show noteworthy gains on real-world data applications.
翻訳日:2021-05-25 15:27:46 公開日:2021-05-24
# 分散回帰に対する不確かさの定量化

Uncertainty quantification for distributed regression ( http://arxiv.org/abs/2105.11425v1 )

ライセンス: Link先を確認
Valeriy Avanesov(参考訳) データセットのサイズは増え続けており、Kernel Ridge Regressionのようなよく研究されている学習テクニックが適用不可能で、深刻な計算上の課題を呈している。 分割と分割は一般的な修正であり、データセットを結合しないパーティションに分割し、ローカルな推定値を取得して平均化することを提案している。 本研究では,平均推定値の不確かさを定量化するためのデータ駆動手法を提案する。 すなわち、与えられた決定論的予測セット上で平均推定値によって得られた予測に対して、同時に要素信頼帯を構成する。 この新しいアプローチは、カーネルリッジ回帰が特別な場合である幅広い基礎学習者に対する厳密な理論的保証を特徴としている。 また,本解析の副産物として,分割・対数Kernel Ridge回帰に対するsup-norm整合結果を得る。 シミュレーション研究は理論的な結果を支持する。

The ever-growing size of the datasets renders well-studied learning techniques, such as Kernel Ridge Regression, inapplicable, posing a serious computational challenge. Divide-and-conquer is a common remedy, suggesting to split the dataset into disjoint partitions, obtain the local estimates and average them, it allows to scale-up an otherwise ineffective base approach. In the current study we suggest a fully data-driven approach to quantify uncertainty of the averaged estimator. Namely, we construct simultaneous element-wise confidence bands for the predictions yielded by the averaged estimator on a given deterministic prediction set. The novel approach features rigorous theoretical guaranties for a wide class of base learners with Kernel Ridge regression being a special case. As a by-product of our analysis we also obtain a sup-norm consistency result for the divide-and-conquer Kernel Ridge Regression. The simulation study supports the theoretical findings.
翻訳日:2021-05-25 15:27:30 公開日:2021-05-24
# Taylorが後に保存:Taylor表現を用いたビデオ予測の混乱

Taylor saves for later: disentanglement for video prediction using Taylor representation ( http://arxiv.org/abs/2105.11062v1 )

ライセンス: Link先を確認
Ting Pan and Zhuqing Jiang and Jianan Han and Shiping Wen and Aidong Men and Haiying Wang(参考訳) ビデオ予測は、気象学やロボットシステムにおける幅広い応用の課題である。 既存の作業は、短期的および長期的な予測性能のトレードオフに失敗し、ビデオフレーム内で堅牢な潜在力学則を抽出する。 本稿では,新しい再帰予測モジュール(taylorcell)と残差モジュールを用いて,ビデオフレームのテイラー特徴と残差特徴を分離する2分岐型seq-to-seq深層モデルを提案する。 TaylorCell はビデオフレームの高次元特徴を有限テイラー級数に拡張し、潜在法則を記述する。 TaylorCell では,Taylor 予測ユニット (TPU) とメモリ補正ユニット (MCU) を提案する。 TPUは、最初の入力フレームのデリバティブ情報を使用して、将来のフレームを予測する。 MCUは過去のフレームの情報をすべて蒸留し、予測されたテイラー特徴をTPUから補正する。 それに応じて、残余モジュールは、テイラー特徴に相補的な残余特徴を抽出する。 3つのジェネラリストデータセット (moving mnist, taxibj, human 3.6) について,本モデルが最先端モデルを上回るか,あるいは到達し,アブレーション実験により長期予測におけるモデルの有効性が実証された。

Video prediction is a challenging task with wide application prospects in meteorology and robot systems. Existing works fail to trade off short-term and long-term prediction performances and extract robust latent dynamics laws in video frames. We propose a two-branch seq-to-seq deep model to disentangle the Taylor feature and the residual feature in video frames by a novel recurrent prediction module (TaylorCell) and residual module. TaylorCell can expand the video frames' high-dimensional features into the finite Taylor series to describe the latent laws. In TaylorCell, we propose the Taylor prediction unit (TPU) and the memory correction unit (MCU). TPU employs the first input frame's derivative information to predict the future frames, avoiding error accumulation. MCU distills all past frames' information to correct the predicted Taylor feature from TPU. Correspondingly, the residual module extracts the residual feature complementary to the Taylor feature. On three generalist datasets (Moving MNIST, TaxiBJ, Human 3.6), our model outperforms or reaches state-of-the-art models, and ablation experiments demonstrate the effectiveness of our model in long-term prediction.
翻訳日:2021-05-25 15:27:17 公開日:2021-05-24
# 早鳥が寄生虫を捕まえる: 早期のライフサイクル欠陥予測装置

The Early Bird Catches the Worm: Better Early Life Cycle Defect Predictors ( http://arxiv.org/abs/2105.11082v1 )

ライセンス: Link先を確認
N.C. Shrikanth and Tim Menzies(参考訳) 研究者が利用可能なすべてのデータを分析するために急ぐ前に、まず、ある小さな領域で情報が最も密集しているかどうかを確認する必要がある。 なぜなら、240のgithubプロジェクトでは、そのデータ ``clumps''' の情報はプロジェクトの初期の部分に向けられているからです。 実際、最初の150コミットから学んだ欠陥予測モデルも、最先端の代替案よりもうまく機能しています。 この初期のライフサイクルデータだけで、モデルを(数ヶ月ではなく数週間で)非常に迅速に構築できます。 また、数百のソフトウェアプロジェクトに一般化するシンプルなモデル(2つの機能のみ)を見つけることができます。 この経験に基づいて、ソフトウェアエンジニアリングの欠陥予測モデルを一般化する以前の作業は、本質的に単純なプロセスが必然的に複雑であったかもしれないと警告する。 さらに, 後生サイクルデータに着目した先行研究は, 比較的非形式的な領域から結論が導かれたため, 再検討する必要がある。 レプリケーション: 当社のデータとスクリプトはすべて、https://github.com/snaraya7/early-defect-prediction-tseでオンラインです。

Before researchers rush to reason across all available data, they should first check if the information is densest within some small region. We say this since, in 240 GitHub projects, we find that the information in that data ``clumps'' towards the earliest parts of the project. In fact, a defect prediction model learned from just the first 150 commits works as well, or better than state-of-the-art alternatives. Using just this early life cycle data, we can build models very quickly (using weeks, not months, of CPU time). Also, we can find simple models (with just two features) that generalize to hundreds of software projects. Based on this experience, we warn that prior work on generalizing software engineering defect prediction models may have needlessly complicated an inherently simple process. Further, prior work that focused on later-life cycle data now needs to be revisited since their conclusions were drawn from relatively uninformative regions. Replication note: all our data and scripts are online at https://github.com/snaraya7/early-defect-prediction-tse.
翻訳日:2021-05-25 15:24:26 公開日:2021-05-24
# FedScale: フェデレーション学習のベンチマークモデルとシステムパフォーマンス

FedScale: Benchmarking Model and System Performance of Federated Learning ( http://arxiv.org/abs/2105.11367v1 )

ライセンス: Link先を確認
Fan Lai, Yinwei Dai, Xiangfeng Zhu, Mosharaf Chowdhury(参考訳) FedScaleは、スケーラブルで包括的で再現可能なフェデレーションラーニング(FL)研究を促進するための、挑戦的で現実的なベンチマークデータセットである。 FedScaleデータセットは大規模で、画像分類、オブジェクト検出、言語モデリング、音声認識、強化学習など、さまざまな重要なFLタスクを含んでいる。 各データセットに対して,実データ分割と評価指標を用いた統一評価プロトコルを提供する。 現実的なFLを大規模に再現する必要性に応えるため,FL実験とモデル評価のプロセスを簡素化し,標準化するための効率的な評価プラットフォームを構築した。 我々の評価プラットフォームはフレキシブルなAPIを提供し、新しいFLアルゴリズムを実装し、開発者の最小限の努力で新しい実行バックエンドを含む。 最後に,これらのデータセットについて詳細なベンチマーク実験を行う。 実験の結果,FedScaleはシステムの不均一性を意識した協調最適化と,現実的なFL特性下での統計的効率に関する重要な課題を呈し,今後の研究に有益であることを示す。 fedscaleは寛容なライセンスを持つオープンソースであり、積極的にメンテナンスされています。

We present FedScale, a diverse set of challenging and realistic benchmark datasets to facilitate scalable, comprehensive, and reproducible federated learning (FL) research. FedScale datasets are large-scale, encompassing a diverse range of important FL tasks, such as image classification, object detection, language modeling, speech recognition, and reinforcement learning. For each dataset, we provide a unified evaluation protocol using realistic data splits and evaluation metrics. To meet the pressing need for reproducing realistic FL at scale, we have also built an efficient evaluation platform to simplify and standardize the process of FL experimental setup and model evaluation. Our evaluation platform provides flexible APIs to implement new FL algorithms and include new execution backends with minimal developer efforts. Finally, we perform indepth benchmark experiments on these datasets. Our experiments suggest that FedScale presents significant challenges of heterogeneity-aware co-optimizations of the system and statistical efficiency under realistic FL characteristics, indicating fruitful opportunities for future research. FedScale is open-source with permissive licenses and actively maintained, and we welcome feedback and contributions from the community.
翻訳日:2021-05-25 15:24:08 公開日:2021-05-24
# 機械学習による3次元物体検出のための高レベルカメラ-LiDAR融合

High-level camera-LiDAR fusion for 3D object detection with machine learning ( http://arxiv.org/abs/2105.11060v1 )

ライセンス: Link先を確認
Gustavo A. Salazar-Gomez, Miguel A. Saavedra-Ruiz, Victor A. Romero-Cano(参考訳) 本稿では,自動運転などの応用において重要な3次元物体検出問題に取り組む。 我々のフレームワークは、モノクロカメラとLiDARデータを組み合わせた機械学習(ML)パイプラインを使用して、動くプラットフォームの周囲の3D空間における車両を検出する。 State-Of-The-Art (SOTA) 2Dオブジェクト検出器によって生成されたフラストレーション領域の提案を使用して、LiDAR点雲を潜在的に個々のオブジェクトを表すポイントクラスタに分割する。 移動プラットフォーム周囲の車両を囲む3次元境界ボックスのパラメータを推定するための全体的パイプラインの一部として,古典的MLアルゴリズムの性能を評価する。 その結果、検証セットの効率良く正確な推定が可能となり、全体の精度は87.1%となった。

This paper tackles the 3D object detection problem, which is of vital importance for applications such as autonomous driving. Our framework uses a Machine Learning (ML) pipeline on a combination of monocular camera and LiDAR data to detect vehicles in the surrounding 3D space of a moving platform. It uses frustum region proposals generated by State-Of-The-Art (SOTA) 2D object detectors to segment LiDAR point clouds into point clusters which represent potentially individual objects. We evaluate the performance of classical ML algorithms as part of an holistic pipeline for estimating the parameters of 3D bounding boxes which surround the vehicles around the moving platform. Our results demonstrate an efficient and accurate inference on a validation set, achieving an overall accuracy of 87.1%.
翻訳日:2021-05-25 15:22:49 公開日:2021-05-24
# airnet: 空気上でのニューラルネットワークの伝送

AirNet: Neural Network Transmission over the Air ( http://arxiv.org/abs/2105.11166v1 )

ライセンス: Link先を確認
Mikolaj Jankowski, Deniz Gunduz, Krystian Mikolajczyk(参考訳) 多くの新興エッジアプリケーションの最先端性能はディープニューラルネットワーク(DNN)によって達成されている。 多くの場合、これらのDNNは位置と時間に敏感であり、特定のDNNのパラメータは、時間に敏感な推論タスクを実行するために、エッジサーバからエッジデバイスに迅速かつ効率的に配信されなければならない。 本稿では,DNNの効率的な無線配信を可能にする新しいトレーニングおよびアナログ伝送手法であるAirNetを紹介する。 まず,dnnをノイズインジェクションで訓練し,無線チャネルノイズに対応する。 また,伝送に必要なチャネル帯域幅を削減し,さらに大きなモデルから知識蒸留を行い,チャネルの摂動にも拘わらず良好な性能を実現するため,プルーニングを用いる。 本研究では,同じ帯域幅と電力制約下でのディジタル代替品と比較して,AirNetはテスト精度が有意に高いことを示す。 また、チャネル品質による優雅な劣化を示し、正確なチャネル推定の要求を低減させる。

State-of-the-art performance for many emerging edge applications is achieved by deep neural networks (DNNs). Often, these DNNs are location and time sensitive, and the parameters of a specific DNN must be delivered from an edge server to the edge device rapidly and efficiently to carry out time-sensitive inference tasks. We introduce AirNet, a novel training and analog transmission method that allows efficient wireless delivery of DNNs. We first train the DNN with noise injection to counter the wireless channel noise. We also employ pruning to reduce the channel bandwidth necessary for transmission, and perform knowledge distillation from a larger model to achieve satisfactory performance, despite the channel perturbations. We show that AirNet achieves significantly higher test accuracy compared to digital alternatives under the same bandwidth and power constraints. It also exhibits graceful degradation with channel quality, which reduces the requirement for accurate channel estimation.
翻訳日:2021-05-25 15:22:37 公開日:2021-05-24
# 正規化強化学習のためのポリシーミラーディッセンス:線形収束を用いた一般化フレームワーク

Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence ( http://arxiv.org/abs/2105.11066v1 )

ライセンス: Link先を確認
Wenhao Zhan, Shicong Cen, Baihe Huang, Yuxin Chen, Jason D. Lee, Yuejie Chi(参考訳) 大規模最適化手法によって価値関数を最大化することで関心の政策を学習する政策最適化は、現代強化学習(RL)の中心にある。 価値の最大化に加えて、探索を奨励する必要性や、安全性、資源、運用上の制約による学習方針の構造的特性の確保など、他の実践的な考察も一般的である。 これらの考慮は、ターゲット値関数を構造的動機付け正規化項で拡張する正規化 RL を利用することで、しばしば説明できる。 本稿では、無限水平割引マルコフ決定過程に着目し、正規化RLを解くための一般化ポリシーミラー降下(GPMD)アルゴリズムを提案する。 ポリシーミラー降下ラン(2021)の一般化として,提案アルゴリズムは一般の凸正則化器のクラスと,使用中の正則化器の認識におけるブレグマン分散の幅広いファミリーに対応している。 正規化器が強い凸性と滑らかさを欠いている場合でも,このアルゴリズムは,次元フリーな方法で,全学習率に対して線形収束することを示す。 さらに、この線形収束機能は、不十分なポリシー評価と不完全なポリシー更新に直面して確実に安定している。 GPMDの適用性と魅力を相関させる数値実験を行った。

Policy optimization, which learns the policy of interest by maximizing the value function via large-scale optimization techniques, lies at the heart of modern reinforcement learning (RL). In addition to value maximization, other practical considerations arise commonly as well, including the need of encouraging exploration, and that of ensuring certain structural properties of the learned policy due to safety, resource and operational constraints. These considerations can often be accounted for by resorting to regularized RL, which augments the target value function with a structure-promoting regularization term. Focusing on an infinite-horizon discounted Markov decision process, this paper proposes a generalized policy mirror descent (GPMD) algorithm for solving regularized RL. As a generalization of policy mirror descent Lan (2021), the proposed algorithm accommodates a general class of convex regularizers as well as a broad family of Bregman divergence in cognizant of the regularizer in use. We demonstrate that our algorithm converges linearly over an entire range of learning rates, in a dimension-free fashion, to the global solution, even when the regularizer lacks strong convexity and smoothness. In addition, this linear convergence feature is provably stable in the face of inexact policy evaluation and imperfect policy updates. Numerical experiments are provided to corroborate the applicability and appealing performance of GPMD.
翻訳日:2021-05-25 15:22:24 公開日:2021-05-24
# structurelm: フォーム理解のための構造事前学習

StructuralLM: Structural Pre-training for Form Understanding ( http://arxiv.org/abs/2105.11210v1 )

ライセンス: Link先を確認
Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang and Luo Si(参考訳) 大きな事前学習された言語モデルは、下流のnlpタスクで微調整された場合、最先端の結果を得る。 しかし、主にテキストのみの表現にフォーカスする一方で、画像理解において重要なセルレベルのレイアウト情報を無視している。 本稿では,スキャンされた文書からセル情報とレイアウト情報を共同で活用する新しい事前学習手法であるstructurelmを提案する。 具体的には、セルとレイアウト情報の相互作用を最大限に活用するための2つの新しい設計を事前訓練する: 1)各セルを意味単位とし、2)細胞の位置を分類する。 事前訓練されたstructurelmは、フォーム理解(78.95から85.14)、文書視覚的質問応答(72.59から83.94)、文書画像分類(94.43から96.08)など、下流タスクのさまざまなタイプの新しい結果を達成する。

Large pre-trained language models achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, they almost exclusively focus on text-only representation, while neglecting cell-level layout information that is important for form image understanding. In this paper, we propose a new pre-training approach, StructuralLM, to jointly leverage cell and layout information from scanned documents. Specifically, we pre-train StructuralLM with two new designs to make the most of the interactions of cell and layout information: 1) each cell as a semantic unit; 2) classification of cell positions. The pre-trained StructuralLM achieves new state-of-the-art results in different types of downstream tasks, including form understanding (from 78.95 to 85.14), document visual question answering (from 72.59 to 83.94) and document image classification (from 94.43 to 96.08).
翻訳日:2021-05-25 15:21:04 公開日:2021-05-24
# 求人投稿におけるプライバシ関連エンティティの特定

De-identification of Privacy-related Entities in Job Postings ( http://arxiv.org/abs/2105.11223v1 )

ライセンス: Link先を確認
Kristian N{\o}rgaard Jensen, Mike Zhang, Barbara Plank(参考訳) 身元特定は、人物名、電子メール、連絡先データなどのプライバシー関連エンティティをテキストで検出するタスクである。 医学領域内ではよく研究されている。 プライバシ保護データ処理が多くのドメインで要求されているため、非識別技術の必要性が高まっている。 本稿では,仕事の投稿に焦点をあてる。 JobStackは、Stackoverflow上のジョブの空白における個人データの非特定のための新しいコーパスである。 本稿では,Long-Short Term Memory(LSTM)モデルとTransformerモデルを比較し,ベースラインを導入する。 これらのベースラインを改善するため,マルチタスク学習によるコンテキスト埋め込みと遠隔関連補助データを用いた実験を行った。 以上の結果から,補助データによる識別性能の向上が示唆された。 驚いたことに、バニラBERTはStackoverflowの他の部分でトレーニングされたBERTモデルよりも効果的であることが判明した。

De-identification is the task of detecting privacy-related entities in text, such as person names, emails and contact data. It has been well-studied within the medical domain. The need for de-identification technology is increasing, as privacy-preserving data handling is in high demand in many domains. In this paper, we focus on job postings. We present JobStack, a new corpus for de-identification of personal data in job vacancies on Stackoverflow. We introduce baselines, comparing Long-Short Term Memory (LSTM) and Transformer models. To improve upon these baselines, we experiment with contextualized embeddings and distantly related auxiliary data via multi-task learning. Our results show that auxiliary data improves de-identification performance. Surprisingly, vanilla BERT turned out to be more effective than a BERT model trained on other portions of Stackoverflow.
翻訳日:2021-05-25 15:20:50 公開日:2021-05-24
# 異種グラフニューラルネットワークを用いた言語間テキスト分類

Cross-lingual Text Classification with Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2105.11246v1 )

ライセンス: Link先を確認
Ziyun Wang, Xuan Liu, Peiji Yang, Shixing Liu, Zhisheng Wang(参考訳) 言語間のテキスト分類は、ソース言語上の分類器を訓練し、その知識をターゲット言語に伝達することを目的としている。 最近の多言語事前訓練言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらすが、意味的類似性を超えた要因を考えることは稀であり、いくつかの言語ペア間での性能劣化を引き起こす。 本稿では,グラフ畳み込みネットワーク (GCN) を用いた言語間テキスト分類のための,言語内および言語間における異種情報の統合方法を提案する。 特に、文書や単語をノードとして扱うことで異質なグラフを構築し、音声の役割や意味的類似性、文書翻訳など、異なる関係を持つノードをリンクする。 広範な実験により,我々のグラフベース手法は,すべてのタスクにおいて最先端モデルを大幅に上回っており,トランスレータなどの外部ツールが使用できない低リソース環境において,ベースラインよりも一貫したパフォーマンス向上を実現していることが示された。

Cross-lingual text classification aims at training a classifier on the source language and transferring the knowledge to target languages, which is very useful for low-resource languages. Recent multilingual pretrained language models (mPLM) achieve impressive results in cross-lingual classification tasks, but rarely consider factors beyond semantic similarity, causing performance degradation between some language pairs. In this paper we propose a simple yet effective method to incorporate heterogeneous information within and across languages for cross-lingual text classification using graph convolutional networks (GCN). In particular, we construct a heterogeneous graph by treating documents and words as nodes, and linking nodes with different relations, which include part-of-speech roles, semantic similarity, and document translations. Extensive experiments show that our graph-based method significantly outperforms state-of-the-art models on all tasks, and also achieves consistent performance gain over baselines in low-resource settings where external tools like translators are unavailable.
翻訳日:2021-05-25 15:20:37 公開日:2021-05-24
# PTR: テキスト分類規則付きプロンプトチューニング

PTR: Prompt Tuning with Rules for Text Classification ( http://arxiv.org/abs/2105.11259v1 )

ライセンス: Link先を確認
Xu Han, Weilin Zhao, Ning Ding, Zhiyuan Liu, Maosong Sun(参考訳) 微調整された事前学習言語モデル(plm)は、ほとんどすべてのnlpタスクで素晴らしいパフォーマンスを達成しました。 PLMを微調整するための追加のプロンプトを使用することで、PLMに分散された豊富な知識をさらに刺激し、下流のタスクに役立てることができる。 プラットチューニングは、感情分類や自然言語推論のようないくつかのクラス分類タスクにおいて有望な結果を得た。 しかし、多くの言語プロンプトを手動で設計するのは面倒で誤りです。 自動生成プロンプトの場合、非フェウショットシナリオでの有効性を検証するのも高価で時間がかかります。 したがって、多くのクラス分類タスクに迅速に対処することは困難である。 そこで本研究では,多クラステキスト分類のためのプロンプトチューニング(ptr)を提案し,複数のサブプロンプトを用いたプロンプトの構築に論理ルールを適用する。 このように、ptrは各クラスの事前知識をプロンプトチューニングにエンコードすることができる。 関係分類, 典型的な多クラス分類タスクについて実験を行い, ベンチマークの結果から, PTRが既存の最先端のベースラインを大幅に上回ることを示す。 このことは、PTRが複雑な分類タスクにPLMを利用するための有望なアプローチであることを示している。

Fine-tuned pre-trained language models (PLMs) have achieved awesome performance on almost all NLP tasks. By using additional prompts to fine-tune PLMs, we can further stimulate the rich knowledge distributed in PLMs to better serve downstream task. Prompt tuning has achieved promising results on some few-class classification tasks such as sentiment classification and natural language inference. However, manually designing lots of language prompts is cumbersome and fallible. For those auto-generated prompts, it is also expensive and time-consuming to verify their effectiveness in non-few-shot scenarios. Hence, it is challenging for prompt tuning to address many-class classification tasks. To this end, we propose prompt tuning with rules (PTR) for many-class text classification, and apply logic rules to construct prompts with several sub-prompts. In this way, PTR is able to encode prior knowledge of each class into prompt tuning. We conduct experiments on relation classification, a typical many-class classification task, and the results on benchmarks show that PTR can significantly and consistently outperform existing state-of-the-art baselines. This indicates that PTR is a promising approach to take advantage of PLMs for those complicated classification tasks.
翻訳日:2021-05-25 15:20:21 公開日:2021-05-24
# twitterテキストマイニングによる組織的リーダーシップスタイルの評価

Assessing perceived organizational leadership styles through twitter text mining ( http://arxiv.org/abs/2105.11276v1 )

ライセンス: Link先を確認
A. La Bella, A. Fronzetti Colladon, E. Battistoni, S. Castellan, M. Francucci(参考訳) 組織的リーダシップのスタイルを評価するために,サポートベクタマシンに基づくテキスト分類ツールを提案する。 われわれは51日間にわたってTwitterのデータを収集し、2015年のForbes Global 2000ランキングで最初の30のイタリアの組織に関連する。 企業リーダーのコミュニケーションを各企業の利害関係者間の対話とともに分析し、リーダーシップのスタイルやディメンジョンとの関連性について理解した。 リーダーシッププロファイルを評価するため、2007年にBarchiesi氏とLa Bella氏が開発した10要素モデルを紹介した。 ソーシャルメディアの相互作用から生まれる企業におけるリーダーシップ能力の迅速な評価を可能にするため、我々は提案するアプローチの独特さを維持している。 また、特定のイベントが発生したときに企業がどのように対応し、コミュニケーションを管理するかを示し、ステークホルダーの反応を評価するためにも使用できる。

We propose a text classification tool based on support vector machines for the assessment of organizational leadership styles, as appearing to Twitter users. We collected Twitter data over 51 days, related to the first 30 Italian organizations in the 2015 ranking of Forbes Global 2000-out of which we selected the five with the most relevant volumes of tweets. We analyzed the communication of the company leaders, together with the dialogue among the stakeholders of each company, to understand the association with perceived leadership styles and dimensions. To assess leadership profiles, we referred to the 10-factor model developed by Barchiesi and La Bella in 2007. We maintain the distinctiveness of the approach we propose, as it allows a rapid assessment of the perceived leadership capabilities of an enterprise, as they emerge from its social media interactions. It can also be used to show how companies respond and manage their communication when specific events take place, and to assess their stakeholder's reactions.
翻訳日:2021-05-25 15:20:04 公開日:2021-05-24
# robeczech: czech roberta : 単言語文脈化言語表現モデル

RobeCzech: Czech RoBERTa, a monolingual contextualized language representation model ( http://arxiv.org/abs/2105.11314v1 )

ライセンス: Link先を確認
Milan Straka, Jakub N\'aplava, Jana Strakov\'a, David Samuel(参考訳) チェコ語データに基づく単言語ロベルタ言語表現モデルであるrobeczechを提案する。 RoBERTaは、堅牢に最適化されたTransformerベースの事前トレーニングアプローチである。 我々は,RobeCzechが多言語およびチェコ語で訓練された文脈言語表現モデルよりもかなり優れており,評価された5つのNLPタスクすべてにおいて,最先端の言語表現モデルよりも優れており,そのうち4つが最先端の成果であることを示した。 RobeCzechモデルはhttps://hdl.handle.net/11234/1-3691とhttps://huggingface.co/ufal/robeczech-baseで公開されている。

We present RobeCzech, a monolingual RoBERTa language representation model trained on Czech data. RoBERTa is a robustly optimized Transformer-based pretraining approach. We show that RobeCzech considerably outperforms equally-sized multilingual and Czech-trained contextualized language representation models, surpasses current state of the art in all five evaluated NLP tasks and reaches state-of-theart results in four of them. The RobeCzech model is released publicly at https://hdl.handle.net/11234/1-3691 and https://huggingface.co/ufal/robeczech-base.
翻訳日:2021-05-25 15:19:49 公開日:2021-05-24
# チェコ語分析を用いたBERTによる発音復元

Diacritics Restoration using BERT with Analysis on Czech language ( http://arxiv.org/abs/2105.11408v1 )

ライセンス: Link先を確認
Jakub N\'aplava, Milan Straka, Jana Strakov\'a(参考訳) 我々は,コンテキスト化された埋め込み,すなわちbertに基づくダイアクリティカルス復元のための新しいアーキテクチャを提案し,ダイアクリティカルスを持つ12言語で評価した。 さらに,形態学的に豊かなチェコ語について詳細な誤り解析を行った。 特に、すべての誤予測を手動で注釈付けし、その約44%が実際には誤りではなく、もっともらしい変種(19%)か、誤ったデータのシステム修正(25%)であることを示した。 最後に、実際のエラーを詳細に分類する。 コードはhttps://github.com/ufal/bert-diacritics-restorationでリリースします。

We propose a new architecture for diacritics restoration based on contextualized embeddings, namely BERT, and we evaluate it on 12 languages with diacritics. Furthermore, we conduct a detailed error analysis on Czech, a morphologically rich language with a high level of diacritization. Notably, we manually annotate all mispredictions, showing that roughly 44% of them are actually not errors, but either plausible variants (19%), or the system corrections of erroneous data (25%). Finally, we categorize the real errors in detail. We release the code at https://github.com/ufal/bert-diacritics-restoration.
翻訳日:2021-05-25 15:19:37 公開日:2021-05-24
# 分割関数の推定:定量的研究

Partition Function Estimation: A Quantitative Study ( http://arxiv.org/abs/2105.11132v1 )

ライセンス: Link先を確認
Durgesh Agrawal and Yash Pote and Kuldeep S Meel(参考訳) 確率的グラフィカルモデルは、不確実性の下で推論する必要があるいくつかの現実シナリオの強力なモデリングツールとして登場した。 グラフィカルモデルの分割関数は関心の中心であり、その計算はいくつかの確率的推論タスクの鍵となる。 パーティション関数の計算における#P-hardnessを考えると、見積もりの質と実行時の振る舞いに関する様々な保証とともに、長年にわたっていくつかの技術が提案されてきた。 本稿では,18の手法に関する調査と,その挙動に関する厳密な実証的研究を,広範囲なベンチマークで実施することを目的とする。 正確な技術は近似技術と同じくらい効率的であるので、拡張性を高めた近似技術の設計の機会を楽観的に捉えて結論づける。 仮想ベストソルバーと最高のパフォーマンスツールとの等級差の観測により,ポートフォリオソルバーの開発に焦点をあてた,エキサイティングな研究ラインを構想した。

Probabilistic graphical models have emerged as a powerful modeling tool for several real-world scenarios where one needs to reason under uncertainty. A graphical model's partition function is a central quantity of interest, and its computation is key to several probabilistic reasoning tasks. Given the #P-hardness of computing the partition function, several techniques have been proposed over the years with varying guarantees on the quality of estimates and their runtime behavior. This paper seeks to present a survey of 18 techniques and a rigorous empirical study of their behavior across an extensive set of benchmarks. Our empirical study draws up a surprising observation: exact techniques are as efficient as the approximate ones, and therefore, we conclude with an optimistic view of opportunities for the design of approximate techniques with enhanced scalability. Motivated by the observation of an order of magnitude difference between the Virtual Best Solver and the best performing tool, we envision an exciting line of research focused on the development of portfolio solvers.
翻訳日:2021-05-25 15:19:03 公開日:2021-05-24
# 論証的XAI:調査

Argumentative XAI: A Survey ( http://arxiv.org/abs/2105.11266v1 )

ライセンス: Link先を確認
Kristijonas \v{C}yras, Antonio Rago, Emanuele Albini, Pietro Baroni, Francesca Toni(参考訳) 説明可能なAI(XAI)は何十年にもわたって研究され、AI自体とともに、近年では前例のない成長を遂げている。 XAIに対する様々なアプローチの中で、その弁証的性格は説明活動の基本的な望ましい特徴と合致しているように見えるため、AIと社会科学の両方で議論モデルが提唱されている。 本稿では,計算論の分野の手法を用いて構築したxaiアプローチについて概説する。 本稿では,異なる種類の説明(イントリンシックとポストホック)に着目した文献,議論に基づく説明が展開される異なるモデル,異なる形態の配信,異なる議論フレームワークについて概説する。 今後の作業のロードマップも公開しています。

Explainable AI (XAI) has been investigated for decades and, together with AI itself, has witnessed unprecedented growth in recent years. Among various approaches to XAI, argumentative models have been advocated in both the AI and social science literature, as their dialectical nature appears to match some basic desirable features of the explanation activity. In this survey we overview XAI approaches built using methods from the field of computational argumentation, leveraging its wide array of reasoning abstractions and explanation delivery methods. We overview the literature focusing on different types of explanation (intrinsic and post-hoc), different models with which argumentation-based explanations are deployed, different forms of delivery, and different argumentation frameworks they use. We also lay out a roadmap for future work.
翻訳日:2021-05-25 15:18:49 公開日:2021-05-24
# マルチモーダル深層学習の最近の進歩と動向

Recent Advances and Trends in Multimodal Deep Learning: A Review ( http://arxiv.org/abs/2105.11087v1 )

ライセンス: Link先を確認
Jabeen Summaira, Xi Li, Amin Muhammad Shoib, Songyuan Li and Jabbar Abdul(参考訳) Deep Learningは幅広いアプリケーションを実装しており、近年はますます人気が高まっている。 マルチモーダル深層学習の目標は、様々なモダリティを用いて情報を処理およびリンクできるモデルを作成することである。 一助学習のための広範な発展にもかかわらず、人間の学習のあらゆる側面をカバーすることはできない。 マルチモーダル学習は、様々な感覚が情報の処理に関わったときに、理解し、よりよく分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 過去および現在のベースラインアプローチの詳細な分析と、マルチモーダルディープラーニングアプリケーションにおける最近の進歩に関する詳細な研究が提供されている。 様々なマルチモーダル深層学習応用のきめ細かい分類法が提案され、様々な応用をより深く研究している。 これらのアプリケーションで使用されるアーキテクチャやデータセットも、評価指標とともに議論されている。 最後に、各ドメインに関する主要な課題と将来の研究方向性を別々に強調する。

Deep Learning has implemented a wide range of applications and has become increasingly popular in recent years. The goal of multimodal deep learning is to create models that can process and link information using various modalities. Despite the extensive development made for unimodal learning, it still cannot cover all the aspects of human learning. Multimodal learning helps to understand and analyze better when various senses are engaged in the processing of information. This paper focuses on multiple types of modalities, i.e., image, video, text, audio, body gestures, facial expressions, and physiological signals. Detailed analysis of past and current baseline approaches and an in-depth study of recent advancements in multimodal deep learning applications has been provided. A fine-grained taxonomy of various multimodal deep learning applications is proposed, elaborating on different applications in more depth. Architectures and datasets used in these applications are also discussed, along with their evaluation metrics. Last, main issues are highlighted separately for each domain along with their possible future research directions.
翻訳日:2021-05-25 15:12:42 公開日:2021-05-24
# レイアウトグラフによるブックカバーデザインに向けて

Towards Book Cover Design via Layout Graphs ( http://arxiv.org/abs/2105.11088v1 )

ライセンス: Link先を確認
Wensheng Zhang, Yan Zheng, Taiga Miyazono, Seiichi Uchida, Brian Kenji Iwana(参考訳) 本カバーは故意に設計され、本の導入を提供する。 しかし、通常、カバー画像の設計と作成には専門的なスキルが必要となる。 そこで本研究では,使い易いレイアウトグラフに基づいて書籍の表紙を作成できる生成ニューラルネットワークを提案する。 レイアウトグラフには、テキスト、自然シーンオブジェクト、固体カラースペースなどのオブジェクトが含まれている。 このレイアウトグラフは、グラフ畳み込みニューラルネットワークを使用して埋め込み、マスク提案生成器とバウンディングボックス生成器で使用し、オブジェクト提案生成器で満たされる。 次に、オブジェクトを1つのイメージにコンパイルし、敵対的トレーニング、知覚的トレーニング、再構築の組み合わせを用いてネットワーク全体をトレーニングする。 最後に、スタイル保持ネットワーク(srnet)を使用して学習したフォントスタイルを所望のテキストに転送する。 提案手法を用いることで, コントロールが容易で, 独特な書籍カバーが可能となる。

Book covers are intentionally designed and provide an introduction to a book. However, they typically require professional skills to design and produce the cover images. Thus, we propose a generative neural network that can produce book covers based on an easy-to-use layout graph. The layout graph contains objects such as text, natural scene objects, and solid color spaces. This layout graph is embedded using a graph convolutional neural network and then used with a mask proposal generator and a bounding-box generator and filled using an object proposal generator. Next, the objects are compiled into a single image and the entire network is trained using a combination of adversarial training, perceptual training, and reconstruction. Finally, a Style Retention Network (SRNet) is used to transfer the learned font style onto the desired text. Using the proposed method allows for easily controlled and unique book covers.
翻訳日:2021-05-25 15:12:30 公開日:2021-05-24
# FineAction: 時間的アクションローカライゼーションのためのフィンドビデオデータセット

FineAction: A Fined Video Dataset for Temporal Action Localization ( http://arxiv.org/abs/2105.11107v1 )

ライセンス: Link先を確認
Yi Liu, Limin Wang, Xiao Ma, Yali Wang, Yu Qiao(参考訳) 既存のベンチマークデータセットであるTHUMOS14とActivityNetでは、時間的アクションローカライゼーション技術が大きな成功を収めている。 しかし、アクションのソースがシングルすぎること、THUMOS14にのみスポーツカテゴリが存在すること、ActivityNetとHACSセグメンツに不確実な境界を持つ粗いインスタンスが提案生成と行動予測に干渉することなど、いくつかの問題が存在する。 時間的行動ローカライゼーションを新たなレベルに引き上げるために,既存のビデオデータセットやWebビデオから収集した大規模ビデオデータセットであるFineActionを開発した。 全体として、このデータセットは、106のアクションカテゴリにまたがる約17kの未トリミングビデオに、139kの細かなアクションインスタンスを密に注釈付けしている。 FineActionは、既存のアクションローカライゼーションデータセットと比較して境界の不確実性を低減するために、アクションカテゴリと高品質アノテーションをより詳細に定義している。 本研究は,データセット上での時間的行動の定位を示す代表的な手法を体系的に検討し,さらに分析することで興味深い知見を得た。 実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。 このデータセットは将来的に公開され、FineActionが時間的行動ローカライゼーションに向けた研究を進めることを期待します。 データセットのWebサイトはhttps://deeperaction.github.io/fineaction/です。

On the existing benchmark datasets, THUMOS14 and ActivityNet, temporal action localization techniques have achieved great success. However, there are still existing some problems, such as the source of the action is too single, there are only sports categories in THUMOS14, coarse instances with uncertain boundaries in ActivityNet and HACS Segments interfering with proposal generation and behavior prediction. To take temporal action localization to a new level, we develop FineAction, a new large-scale fined video dataset collected from existing video datasets and web videos. Overall, this dataset contains 139K fined action instances densely annotated in almost 17K untrimmed videos spanning 106 action categories. FineAction has a more fined definition of action categories and high-quality annotations to reduce the boundary uncertainty compared to the existing action localization datasets. We systematically investigate representative methods of temporal action localization on our dataset and obtain some interesting findings with further analysis. Experimental results reveal that our FineAction brings new challenges for action localization on fined and multi-label instances with shorter duration. This dataset will be public in the future and we hope our FineAction could advance research towards temporal action localization. Our dataset website is at https://deeperaction.github.io/fineaction/.
翻訳日:2021-05-25 15:12:16 公開日:2021-05-24
# 野生の大規模顔認識のための動的クラスキュー

Dynamic Class Queue for Large Scale Face Recognition In the Wild ( http://arxiv.org/abs/2105.11113v1 )

ライセンス: Link先を確認
Bi Li, Teng Xi, Gang Zhang, Haocheng Feng, Junyu Han, Jingtuo Liu, Errui Ding, Wenyu Liu(参考訳) 大規模な顔データセットを使って差別表現を学ぶことは、現実世界のアプリケーションには不可欠だが、それでも難しい。 困難は多くの側面で生じており、この研究はリソース制約と長い尾のクラス分布の計算に焦点を当てている。 近年,ディープニューラルネットワークを用いた分類に基づく表現学習とよく設計された損失の認識性能が向上している。 しかし、コンピュータとメモリのコストは、トレーニングセット内のアイデンティティ(クラス)の数まで線形にスケールし、学習プロセスは不均衡なクラスに悩まされる。 本研究では,これら2つの問題に対処するための動的クラスキュー(DCQ)を提案する。 具体的には、トレーニング中の各イテレーションに対して、認識のためのクラスのサブセットを動的に選択し、そのクラス重みをキューに格納したオンザフライで動的に生成する。 イテレーション毎にクラスの一部のみが選択されるため、計算要件が削減される。 モデル並列のない単一サーバを使用することで、大規模なデータセットにおいて、クラスの10%がすべてのクラスと同じパフォーマンスを達成するのに十分であることを示す。 さらに、クラス重みは、数ショットの方法で動的に生成され、わずかなインスタンスしか持たない末尾クラスに適している。 最大の公開データセットであるMegaface Challenge2(MF2)では、672KのIDを持ち、そのうち88%が10インスタンス未満である。 コードはhttps://github.com/bilylee/DCQで入手できる。

Learning discriminative representation using large-scale face datasets in the wild is crucial for real-world applications, yet it remains challenging. The difficulties lie in many aspects and this work focus on computing resource constraint and long-tailed class distribution. Recently, classification-based representation learning with deep neural networks and well-designed losses have demonstrated good recognition performance. However, the computing and memory cost linearly scales up to the number of identities (classes) in the training set, and the learning process suffers from unbalanced classes. In this work, we propose a dynamic class queue (DCQ) to tackle these two problems. Specifically, for each iteration during training, a subset of classes for recognition are dynamically selected and their class weights are dynamically generated on-the-fly which are stored in a queue. Since only a subset of classes is selected for each iteration, the computing requirement is reduced. By using a single server without model parallel, we empirically verify in large-scale datasets that 10% of classes are sufficient to achieve similar performance as using all classes. Moreover, the class weights are dynamically generated in a few-shot manner and therefore suitable for tail classes with only a few instances. We show clear improvement over a strong baseline in the largest public dataset Megaface Challenge2 (MF2) which has 672K identities and over 88% of them have less than 10 instances. Code is available at https://github.com/bilylee/DCQ
翻訳日:2021-05-25 15:11:52 公開日:2021-05-24
# ドメイン一般化のためのフーリエベースフレームワーク

A Fourier-based Framework for Domain Generalization ( http://arxiv.org/abs/2105.11120v1 )

ライセンス: Link先を確認
Qinwei Xu, Ruipeng Zhang, Ya Zhang, Yanfeng Wang, Qi Tian(参考訳) 現代のディープニューラルネットワークは、トレーニングデータから異なる分布下でのテストデータを評価すると、パフォーマンス劣化に悩まされる。 ドメインの一般化は、複数のソースドメインから伝達可能な知識を学習することでこの問題に対処することを目的としている。 本稿では,新しいフーリエに基づく領域一般化の視点を提案する。 フーリエ位相情報は高レベルセマンティクスを含み、ドメインシフトの影響は容易には受けない、というのが主な前提である。 本研究では、2つの画像の振幅スペクトルを線形に補間する振幅混合と呼ばれる新しいフーリエ型データ拡張戦略を開発する。 オリジナル画像と拡張画像から引き起こされる予測の間には、共教師正則化と呼ばれる二重形式の一貫性損失がさらに導入される。 3つのベンチマーク実験により,提案手法は領域一般化のための最先端性能を実現することができることを示した。

Modern deep neural networks suffer from performance degradation when evaluated on testing data under different distributions from training data. Domain generalization aims at tackling this problem by learning transferable knowledge from multiple source domains in order to generalize to unseen target domains. This paper introduces a novel Fourier-based perspective for domain generalization. The main assumption is that the Fourier phase information contains high-level semantics and is not easily affected by domain shifts. To force the model to capture phase information, we develop a novel Fourier-based data augmentation strategy called amplitude mix which linearly interpolates between the amplitude spectrums of two images. A dual-formed consistency loss called co-teacher regularization is further introduced between the predictions induced from original and augmented images. Extensive experiments on three benchmarks have demonstrated that the proposed method is able to achieve state-of-the-arts performance for domain generalization.
翻訳日:2021-05-25 15:11:28 公開日:2021-05-24
# 分離id表現の操作による顔匿名化

Face Anonymization by Manipulating Decoupled Identity Representation ( http://arxiv.org/abs/2105.11137v1 )

ライセンス: Link先を確認
Tianxiang Ma, Dongze Li, Wei Wang, Jing Dong(参考訳) 近年、人間の生体情報に対するプライバシー保護が注目され、顔の匿名化が重要な役割を担っている。 本稿では,顔画像の識別情報をわずかな修正で漏洩から保護する手法を提案する。 具体的には,条件付きマルチスケール・リコンストラクション(cmr)の損失とアイデンティティ損失を訓練した生成的敵ネットワークのパワーを利用して,他の顔属性からアイデンティティ表現を分離する。 本研究は,本モデルの不連続性を回避し,元の画像との類似性を可能な限り維持しつつ,対面匿名化の目標を達成するための効果的な匿名化手法,すなわち匿名識別生成(aig)を提案する。 定量的および定性的な結果は,視覚的品質と匿名化の成功率の両方において,SOTAよりも優れていることを示す。

Privacy protection on human biological information has drawn increasing attention in recent years, among which face anonymization plays an importance role. We propose a novel approach which protects identity information of facial images from leakage with slightest modification. Specifically, we disentangle identity representation from other facial attributes leveraging the power of generative adversarial networks trained on a conditional multi-scale reconstruction (CMR) loss and an identity loss. We evaulate the disentangle ability of our model, and propose an effective method for identity anonymization, namely Anonymous Identity Generation (AIG), to reach the goal of face anonymization meanwhile maintaining similarity to the original image as much as possible. Quantitative and qualitative results demonstrate our method's superiority compared with the SOTAs on both visual quality and anonymization success rate.
翻訳日:2021-05-25 15:11:14 公開日:2021-05-24
# 人間中心関係セグメンテーション:データセットと解法

Human-centric Relation Segmentation: Dataset and Solution ( http://arxiv.org/abs/2105.11168v1 )

ライセンス: Link先を確認
Si Liu, Zitian Wang, Yulu Gao, Lejian Ren, Yue Liao, Guanghui Ren, Bo Li, Shuicheng Yan(参考訳) ビジョンと言語理解の技術は目覚ましい進歩を遂げていますが、現在、非常に細かい詳細に関わる問題をうまく処理することは困難です。 例えば、ロボットが「少女の左手に本を持ってこい」と言われたとき、少女が左右に1冊の本を持っていると、既存の方法のほとんどは失敗する。 本研究では,Human-centric relation segmentation (HRS) というタスクを,HOI-detのきめ細かいケースとして紹介する。 HRSは、人間と周囲の実体の関係を予測し、ピクセルレベルのマスクとして表される関係関連した人間の部分を特定することを目的としている。 上記の例の場合、当社のhrsタスクは、この本の3重項<girl [left hand], hold, book>と精密なセグメンテーションマスクという形式で結果を生成します。 このタスクには、17,122の高解像度画像と、141のオブジェクトカテゴリ、23の関連カテゴリ、25のセマンティックヒューマン部分を含む、密接な注釈付きエンティティセグメンテーションと関係を含む、新しいPerson In Context(PIC)データセットが収集されている。 また,HRSタスクの解決策として,同時マッチング・セグメンテーション(SMS)フレームワークを提案する。 I I Outputs of the three branches are fused to produce the final HRS results。 PICとV-COCOデータセットの大規模な実験により、提案手法はベースラインを36FPSの推論速度で上回ることを示した。

Vision and language understanding techniques have achieved remarkable progress, but currently it is still difficult to well handle problems involving very fine-grained details. For example, when the robot is told to "bring me the book in the girl's left hand", most existing methods would fail if the girl holds one book respectively in her left and right hand. In this work, we introduce a new task named human-centric relation segmentation (HRS), as a fine-grained case of HOI-det. HRS aims to predict the relations between the human and surrounding entities and identify the relation-correlated human parts, which are represented as pixel-level masks. For the above exemplar case, our HRS task produces results in the form of relation triplets <girl [left hand], hold, book> and exacts segmentation masks of the book, with which the robot can easily accomplish the grabbing task. Correspondingly, we collect a new Person In Context (PIC) dataset for this new task, which contains 17,122 high-resolution images and densely annotated entity segmentation and relations, including 141 object categories, 23 relation categories and 25 semantic human parts. We also propose a Simultaneous Matching and Segmentation (SMS) framework as a solution to the HRS task. I Outputs of the three branches are fused to produce the final HRS results. Extensive experiments on PIC and V-COCO datasets show that the proposed SMS method outperforms baselines with the 36 FPS inference speed.
翻訳日:2021-05-25 15:10:59 公開日:2021-05-24
# SiamRCR:ビジュアルオブジェクト追跡のための相互分類と回帰

SiamRCR: Reciprocal Classification and Regression for Visual Object Tracking ( http://arxiv.org/abs/2105.11237v1 )

ライセンス: Link先を確認
Jinlong Peng, Zhengkai Jiang, Yueyang Gu, Yang Wu, Yabiao Wang, Ying Tai, Chengjie Wang, Weiyao Lin(参考訳) 最近、ほとんどのシアムネットワークベースのトラッカーは、オブジェクト分類とバウンディングボックスレグレッションを通じてターゲットを見つける。 一般に、最終予測として最大分類信頼度を持つ境界ボックスを選択する。 この戦略は、分類と回帰の正確な相違により、正しい結果を見逃す可能性がある。 本稿では,SiamRCRと呼ばれる新しいサイムズ追跡アルゴリズムを提案し,この問題をシンプルで軽量で効果的な解で解決する。 分類と回帰枝の間の相互リンクを構築し、ポジティブなサンプルごとに損失を動的に再重み付けすることができる。 さらに,局所化精度を予測するために局所化枝を追加し,推定中に回帰支援リンクの代替として機能するようにした。 このブランチはトレーニングと推論をより一貫性を持たせる。 GOT-10k, LaSOT, TrackingNet, OTB-2015, VOT-2018, VOT-2019におけるSiamRCRの有効性と, 最先端の競合製品に対する優位性を示した。 さらに、siamrcrは65fpsで動作し、リアルタイムの要求をはるかに上回っています。

Recently, most siamese network based trackers locate targets via object classification and bounding-box regression. Generally, they select the bounding-box with maximum classification confidence as the final prediction. This strategy may miss the right result due to the accuracy misalignment between classification and regression. In this paper, we propose a novel siamese tracking algorithm called SiamRCR, addressing this problem with a simple, light and effective solution. It builds reciprocal links between classification and regression branches, which can dynamically re-weight their losses for each positive sample. In addition, we add a localization branch to predict the localization accuracy, so that it can work as the replacement of the regression assistance link during inference. This branch makes the training and inference more consistent. Extensive experimental results demonstrate the effectiveness of SiamRCR and its superiority over the state-of-the-art competitors on GOT-10k, LaSOT, TrackingNet, OTB-2015, VOT-2018 and VOT-2019. Moreover, our SiamRCR runs at 65 FPS, far above the real-time requirement.
翻訳日:2021-05-25 15:10:27 公開日:2021-05-24
# LineCounter: 計数による手書きテキスト行分割学習

LineCounter: Learning Handwritten Text Line Segmentation by Counting ( http://arxiv.org/abs/2105.11307v1 )

ライセンス: Link先を確認
Deng Li, Yue Wu, and Yicong Zhou(参考訳) 手書きテキストラインセグメンテーション(HTLS)は、手書きテキスト認識のような多くの高レベルの文書処理タスクにおいて、低レベルだが重要なタスクである。 深層学習における意味的セグメンテーションや物体検出の用語でしばしば定式化される。 しかし、どちらの定式化も重大な欠点がある。 前者は、隣接するセグメントを分割/マージする重い後処理を必要とし、後者は、高密度または湾曲したテキストで失敗する。 本稿では,HTLSのラインカウント定式化を提案し,各ピクセル位置の上位からテキスト行数をカウントする。 この定式化は、与えられた文書画像のピクセルあたりのライン番号を直接予測するエンドツーエンドのHTLSソリューションを学ぶのに役立つ。 さらに,Line Countingの定式化を通じてHTLSを実行するディープニューラルネットワーク(DNN)モデルLineCounterを提案する。 今回の3つの公開データセット(ICDAR2013-HSC, HIT-MW, VML-AHTE)に関する大規模な実験は、LineCounterが最先端のHTLSアプローチより優れていることを示している。 ソースコードはhttps://github.com/leedeng/line-counterで入手できる。

Handwritten Text Line Segmentation (HTLS) is a low-level but important task for many higher-level document processing tasks like handwritten text recognition. It is often formulated in terms of semantic segmentation or object detection in deep learning. However, both formulations have serious shortcomings. The former requires heavy post-processing of splitting/merging adjacent segments, while the latter may fail on dense or curved texts. In this paper, we propose a novel Line Counting formulation for HTLS -- that involves counting the number of text lines from the top at every pixel location. This formulation helps learn an end-to-end HTLS solution that directly predicts per-pixel line number for a given document image. Furthermore, we propose a deep neural network (DNN) model LineCounter to perform HTLS through the Line Counting formulation. Our extensive experiments on the three public datasets (ICDAR2013-HSC, HIT-MW, and VML-AHTE) demonstrate that LineCounter outperforms state-of-the-art HTLS approaches. Source code is available at https://github.com/Leedeng/Line-Counter.
翻訳日:2021-05-25 15:09:50 公開日:2021-05-24
# 局所的なキネマティック誘導スケルトンレットと教師付きハッシング・バイ・アナリシスモデルを用いたリアルタイムヒューマンアクション認識

Real-time Human Action Recognition Using Locally Aggregated Kinematic-Guided Skeletonlet and Supervised Hashing-by-Analysis Model ( http://arxiv.org/abs/2105.11312v1 )

ライセンス: Link先を確認
Bin Sun, Dehui Kong, Shaofan Wang, Lichun Wang, Baocai Yin(参考訳) 3D行動認識は3D骨格関節からなる行動配列の分類として言及される。 多くの研究は3D行動認識に特化しているが、主に複雑な調音、大量のノイズ、実装効率の低下という3つの問題に悩まされている。 これらの問題に対処するために,局所的に集約されたキネマティック誘導骨格(LAKS)と教師付きハッシュ・バイ・アナリシス(SHA)モデルを統合することで,リアルタイムな3次元行動認識フレームワークを提案する。 まず,スケルトンレットを,運動原理でグループ化された関節オフセットのいくつかの組み合わせとして定義し,その後,分解相と局所凝集相からなるLAKSを用いて動作シーケンスを表現した。 デノナイジングフェーズは、ノイズの多い動作データを検出し、その中の全ての特徴を対応する前のフレームの特徴に置き換えて調整する一方、局所集約フェーズは、シーケンスのすべてのオフセット特徴に対してスケルレットのオフセット特徴とそのクラスタ中心の差を合計する。 最後に、スパース表現とハッシュモデルを組み合わせて、高い効率を維持しながら認識精度を向上させることを目的としたSHAモデルを提案する。 MSRAction3D, UTKinectAction3DおよびFlorence3DActionデータセットの実験結果から, 提案手法は認識精度と実装効率の両方において最先端の手法より優れていることが示された。

3D action recognition is referred to as the classification of action sequences which consist of 3D skeleton joints. While many research work are devoted to 3D action recognition, it mainly suffers from three problems: highly complicated articulation, a great amount of noise, and a low implementation efficiency. To tackle all these problems, we propose a real-time 3D action recognition framework by integrating the locally aggregated kinematic-guided skeletonlet (LAKS) with a supervised hashing-by-analysis (SHA) model. We first define the skeletonlet as a few combinations of joint offsets grouped in terms of kinematic principle, and then represent an action sequence using LAKS, which consists of a denoising phase and a locally aggregating phase. The denoising phase detects the noisy action data and adjust it by replacing all the features within it with the features of the corresponding previous frame, while the locally aggregating phase sums the difference between an offset feature of the skeletonlet and its cluster center together over all the offset features of the sequence. Finally, the SHA model which combines sparse representation with a hashing model, aiming at promoting the recognition accuracy while maintaining a high efficiency. Experimental results on MSRAction3D, UTKinectAction3D and Florence3DAction datasets demonstrate that the proposed method outperforms state-of-the-art methods in both recognition accuracy and implementation efficiency.
翻訳日:2021-05-25 15:09:32 公開日:2021-05-24
# 視覚言語事前学習による医用画像とテキストのマルチモーダル理解と生成

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training ( http://arxiv.org/abs/2105.11333v1 )

ライセンス: Link先を確認
Jong Hak Moon, Hyungyung Lee, Woncheol Shin, Edward Choi(参考訳) 近年, BERTアーキテクチャをマルチモーダル事前学習対象に拡張することにより, 画像キャプションや視覚質問応答など, 多様な視覚言語マルチモーダルタスクにおいて, 印象的な性能を示す研究が数多く行われている。 本研究では,医学領域におけるマルチモーダル表現学習タスクの幅広いセットについて,放射線画像と非構造レポートを用いて検討する。 本研究では,視覚言語理解タスク(画像検索,疾患分類,医用視覚質問応答)と視覚言語生成タスク(レポート生成)の一般化性能を最大化するために,新しいマルチモーダルアテンションマスキングスキームを組み合わせたトランスフォーマティブアーキテクチャ(medvill)を採用する医用視覚言語学習者を提案する。 2つの胸部x線画像データセット(mimic-cxrとopen-i)を用いた4つの下流タスクについて,提案手法を厳密に評価することにより,タスク固有のアーキテクチャを含む各種ベースラインに対するmedvillの下流タスク性能を実証した。

Recently a number of studies demonstrated impressive performance on diverse vision-language multi-modal tasks such as image captioning and visual question answering by extending the BERT architecture with multi-modal pre-training objectives. In this work we explore a broad set of multi-modal representation learning tasks in the medical domain, specifically using radiology images and the unstructured report. We propose Medical Vision Language Learner (MedViLL) which adopts a Transformer-based architecture combined with a novel multimodal attention masking scheme to maximize generalization performance for both vision-language understanding tasks (image-report retrieval, disease classification, medical visual question answering) and vision-language generation task (report generation). By rigorously evaluating the proposed model on four downstream tasks with two chest X-ray image datasets (MIMIC-CXR and Open-I), we empirically demonstrate the superior downstream task performance of MedViLL against various baselines including task-specific architectures.
翻訳日:2021-05-25 15:09:01 公開日:2021-05-24
# 大規模属性オブジェクト合成

Large-Scale Attribute-Object Compositions ( http://arxiv.org/abs/2105.11373v1 )

ライセンス: Link先を確認
Filip Radenovic, Animesh Sinha, Albert Gordo, Tamara Berg, Dhruv Mahajan(参考訳) 本研究では,画像からの属性オブジェクト合成の予測方法と,学習データから欠落した未知の合成への一般化について検討する。 私たちの知る限りでは、これはこの問題に関する数十万の作曲を含む最初の大規模な研究である。 私たちは、ハッシュタグを使ってInstagramの画像でフレームワークをトレーニングします。 ノイズの多いアノテーションや目に見えない構成を扱うために、データ収集とモデリングのために慎重に設計する。 最後に,分類器の構成学習は,個々の属性とオブジェクト予測の後期融合,特に目立たない属性とオブジェクトのペアの場合よりも優れていることを示す。

We study the problem of learning how to predict attribute-object compositions from images, and its generalization to unseen compositions missing from the training data. To the best of our knowledge, this is a first large-scale study of this problem, involving hundreds of thousands of compositions. We train our framework with images from Instagram using hashtags as noisy weak supervision. We make careful design choices for data collection and modeling, in order to handle noisy annotations and unseen compositions. Finally, extensive evaluations show that learning to compose classifiers outperforms late fusion of individual attribute and object predictions, especially in the case of unseen attribute-object pairs.
翻訳日:2021-05-25 15:08:40 公開日:2021-05-24
# 注意誘導型テンポラルコヒーレントビデオオブジェクトマッチング

Attention-guided Temporal Coherent Video Object Matting ( http://arxiv.org/abs/2105.11427v1 )

ライセンス: Link先を確認
Yunke Zhang, Chi Wang, Miaomiao Cui, Peiran Ren, Xuansong Xie, Xian-sheng Hua, Hujun Bao, Qixing Huang, Weiwei Xu(参考訳) 本稿では,時間的コヒーレントなマッティング結果を実現するための,新しい深層学習に基づくビデオオブジェクトマッティング手法を提案する。 その鍵となるコンポーネントは注意に基づくテンポラリアグリゲーションモジュールであり、ビデオマッティングネットワークにおけるイメージマッティングネットワークの強みを最大化する。 このモジュールは、特徴空間における時間軸に沿って隣接する画素の時間相関を計算し、動き雑音に対して堅牢である。 また,注目度をトレーニングする新たな損失項を設計し,映像のマッチング性能を大幅に向上させる。 さらに,最先端のビデオオブジェクトセグメンテーションネットワークをユーザアノテーションの少ないキーフレームで微調整することで,トリマップ生成問題を効果的に解決する方法を示す。 ビデオマッティングとtrimap生成ネットワークのトレーニングを容易にするために,80のトレーニングと28の検証用前景ビデオクリップを備えた大規模ビデオマッティングデータセットを構築した。 実験結果から, 外観変化, 閉塞, 高速動作を特徴とする, 高品質なアルファマットを製作できることが示唆された。 私たちのコードとデータセットはhttps://github.com/yunkezhang/TCVOMで確認できます。

This paper proposes a novel deep learning-based video object matting method that can achieve temporally coherent matting results. Its key component is an attention-based temporal aggregation module that maximizes image matting networks' strength for video matting networks. This module computes temporal correlations for pixels adjacent to each other along the time axis in feature space to be robust against motion noises. We also design a novel loss term to train the attention weights, which drastically boosts the video matting performance. Besides, we show how to effectively solve the trimap generation problem by fine-tuning a state-of-the-art video object segmentation network with a sparse set of user-annotated keyframes. To facilitate video matting and trimap generation networks' training, we construct a large-scale video matting dataset with 80 training and 28 validation foreground video clips with ground-truth alpha mattes. Experimental results show that our method can generate high-quality alpha mattes for various videos featuring appearance change, occlusion, and fast motion. Our code and dataset can be found at https://github.com/yunkezhang/TCVOM
翻訳日:2021-05-25 15:08:30 公開日:2021-05-24
# SAT:2Dセマンティックスによる3D視覚グラウンドトレーニング

SAT: 2D Semantics Assisted Training for 3D Visual Grounding ( http://arxiv.org/abs/2105.11450v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Songyang Zhang, Liwei Wang, Jiebo Luo(参考訳) 3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。 点雲はスパースでノイズがあり、2D画像と比較して意味情報が少ない。 これら固有の制限により、3Dの視覚的接地問題はより困難になる。 本研究では,訓練段階における2次元イメージセマンティクスを活用した2次元セマンティクス支援トレーニング(sat)を提案する。 主なアイデアは、リッチでクリーンな2dオブジェクト表現と対応するオブジェクトまたは言及エンティティの間の補助的なアライメントを3dシーンで学ぶことである。 SATは2Dオブジェクトセマンティクス(オブジェクトラベル、画像特徴、幾何学的特徴)をトレーニングの余分な入力として扱うが、推論中にそのような入力を必要としない。 トレーニングにおいて2Dセマンティクスを効果的に活用することにより,Nr3Dデータセットの精度を37.7%から49.2%に向上させる。 私たちのアプローチは、nr3dでは+10.4%、sr3dでは+9.9%、scanrefでは+5.6%という、複数の3dビジュアル接地データセット上で大きなマージンでアートの状態を上回っている。

3D visual grounding aims at grounding a natural language description about a 3D scene, usually represented in the form of 3D point clouds, to the targeted object region. Point clouds are sparse, noisy, and contain limited semantic information compared with 2D images. These inherent limitations make the 3D visual grounding problem more challenging. In this study, we propose 2D Semantics Assisted Training (SAT) that utilizes 2D image semantics in the training stage to ease point-cloud-language joint representation learning and assist 3D visual grounding. The main idea is to learn auxiliary alignments between rich, clean 2D object representations and the corresponding objects or mentioned entities in 3D scenes. SAT takes 2D object semantics, i.e., object label, image feature, and 2D geometric feature, as the extra input in training but does not require such inputs during inference. By effectively utilizing 2D semantics in training, our approach boosts the accuracy on the Nr3D dataset from 37.7% to 49.2%, which significantly surpasses the non-SAT baseline with the identical network architecture and inference input. Our approach outperforms the state of the art by large margins on multiple 3D visual grounding datasets, i.e., +10.4% absolute accuracy on Nr3D, +9.9% on Sr3D, and +5.6% on ScanRef.
翻訳日:2021-05-25 15:08:13 公開日:2021-05-24
# 編集部紹介:言葉とネットワークの力

Editorial introduction: The power of words and networks ( http://arxiv.org/abs/2105.11263v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, P. Gloor, D. F. Iezzi(参考訳) フロイトに拠れば、「言葉は元々魔法であり、今日まで古代の魔力の多くを維持してきた」。 言葉で言えば、行動は変化し、問題は解決される。 言葉の使い方は、意図、目標、価値を明らかにします。 テキスト分析のための新しいツールは、単語の魔力を理解するのに役立つ。 この力は、もしそれがソーシャルネットワーク、すなわち研究と組み合わされば、乗算される。 社会ユニット間の関係を分析しました International Journal of Information Managementの「Combining Social Network Analysis and Text Mining: from Theory to Practice」という特別号には、テキストマイニングとソーシャルネットワーク分析の分野における異質で革新的な研究が含まれている。 それは、理論的、実証的、方法論的基礎においてまだ遅れているこれらの分野の交差点での仕事を豊かにすることを目的としている。 この特別号に含める9つの記事は、ビジネスアプリケーションを持つ方法とツールを全て提示している。 これらはこの論説の序文で要約されている。

According to Freud "words were originally magic and to this day words have retained much of their ancient magical power". By words, behaviors are transformed and problems are solved. The way we use words reveals our intentions, goals and values. Novel tools for text analysis help understand the magical power of words. This power is multiplied, if it is combined with the study of social networks, i.e. with the analysis of relationships among social units. This special issue of the International Journal of Information Management, entitled "Combining Social Network Analysis and Text Mining: from Theory to Practice", includes heterogeneous and innovative research at the nexus of text mining and social network analysis. It aims to enrich work at the intersection of these fields, which still lags behind in theoretical, empirical, and methodological foundations. The nine articles accepted for inclusion in this special issue all present methods and tools that have business applications. They are summarized in this editorial introduction.
翻訳日:2021-05-25 15:07:43 公開日:2021-05-24
# 対人訓練とプレトレーニングによるOOD一般化の改善

Improved OOD Generalization via Adversarial Training and Pre-training ( http://arxiv.org/abs/2105.11144v1 )

ライセンス: Link先を確認
Mingyang Yi, Lu Hou, Jiacheng Sun, Lifeng Shang, Xin Jiang, Qun Liu, Zhi-Ming Ma(参考訳) 近年,out-of-distribution(ood)データを一般化したモデルを学ぶことが,機械学習コミュニティの注目を集めている。 本稿では、ワッサースタイン距離によるOOD一般化を定義した後、入力摂動に頑健なモデルがOODデータによく一般化されることを理論的に示す。 従来, 対人学習が入力ロバスト性の向上に寄与していたことから, 理論的には, 対人学習モデルがOODデータに過剰なリスクを収束させ, 画像分類と自然言語理解の両タスクで実証的に検証した。 さらに, 入力摂動に頑健な事前学習モデルが, 下流OODデータ上での一般化により良い初期化をもたらすことを理論的に示す。 実証的には、微調整後、敵の事前訓練によるこのより良い初期化モデルもまた、OOD一般化をより良くする。

Recently, learning a model that generalizes well on out-of-distribution (OOD) data has attracted great attention in the machine learning community. In this paper, after defining OOD generalization via Wasserstein distance, we theoretically show that a model robust to input perturbation generalizes well on OOD data. Inspired by previous findings that adversarial training helps improve input-robustness, we theoretically show that adversarially trained models have converged excess risk on OOD data, and empirically verify it on both image classification and natural language understanding tasks. Besides, in the paradigm of first pre-training and then fine-tuning, we theoretically show that a pre-trained model that is more robust to input perturbation provides a better initialization for generalization on downstream OOD data. Empirically, after fine-tuning, this better-initialized model from adversarial pre-training also has better OOD generalization.
翻訳日:2021-05-25 15:06:06 公開日:2021-05-24
# 勾配降下近似を用いた最適化共形分類

Optimized conformal classification using gradient descent approximation ( http://arxiv.org/abs/2105.11255v1 )

ライセンス: Link先を確認
Anthony Bellotti(参考訳) コンフォーマル予測は、ユーザ定義の信頼性レベルで予測を行うアルゴリズムの重要なクラスである。 単純なポイント予測ではなく、予測セットを出力することでこれを実現できます。 共形予測器は、データの交換可能性のみを仮定して、その予測の精度が信頼レベルに達することが保証されるという意味で有効である。 精度が保証されるので、予測セットの効率を通して共形予測器の性能を測定する。 通常、共形予測器は基礎となる機械学習アルゴリズムに基づいて構築されるため、その予測能力はこのアルゴリズムから継承される。 しかし、基礎となる機械学習アルゴリズムは予測効率を最小化するために訓練されていないため、結果の共形予測器は準最適であり、この目的に十分対応していない可能性がある。 そこで本研究では,最大予測効率でコンフォーメーション予測器を直接学習する手法を最適化目標として検討し,特にインダクティブコンフォーメーション予測器の分類に焦点をあてる。 これを行うために、共形予測器は微分可能な目的関数と最適化に用いる勾配降下によって近似される。 得られたパラメータ推定結果は、適切な帰納的共形予測器に渡され、有効な予測セットが与えられる。 提案手法を実世界の複数のデータセットで検証し,提案手法が有望であることを確認し,ほとんどの場合,ベースライン共形予測器に対する予測効率を向上させる。

Conformal predictors are an important class of algorithms that allow predictions to be made with a user-defined confidence level. They are able to do this by outputting prediction sets, rather than simple point predictions. The conformal predictor is valid in the sense that the accuracy of its predictions is guaranteed to meet the confidence level, only assuming exchangeability in the data. Since accuracy is guaranteed, the performance of a conformal predictor is measured through the efficiency of the prediction sets. Typically, a conformal predictor is built on an underlying machine learning algorithm and hence its predictive power is inherited from this algorithm. However, since the underlying machine learning algorithm is not trained with the objective of minimizing predictive efficiency it means that the resulting conformal predictor may be sub-optimal and not aligned sufficiently to this objective. Hence, in this study we consider an approach to train the conformal predictor directly with maximum predictive efficiency as the optimization objective, and we focus specifically on the inductive conformal predictor for classification. To do this, the conformal predictor is approximated by a differentiable objective function and gradient descent used to optimize it. The resulting parameter estimates are then passed to a proper inductive conformal predictor to give valid prediction sets. We test the method on several real world data sets and find that the method is promising and in most cases gives improved predictive efficiency against a baseline conformal predictor.
翻訳日:2021-05-25 15:05:47 公開日:2021-05-24
# 位置センシンググラフニューラルネットワーク : ノード相対位置を積極的に学習する

Position-Sensing Graph Neural Networks: Proactively Learning Nodes Relative Positions ( http://arxiv.org/abs/2105.11346v1 )

ライセンス: Link先を確認
Zhenyue Qin and Saeed Anwar and Dongwoo Kim and Yang Liu and Pan Ji and Tom Gedeon(参考訳) 既存のグラフニューラルネットワーク(GNN)は、メッセージパッシングとアグリゲーションのフレームワークを使用してノードの埋め込みを学ぶ。 このようなGNNはグラフ内のグラフノード間の相対的な位置を学習することができない。 gnnにノードの位置を認識させるため、いくつかのノードはアンカーとして設定される。 そして、ノードからアンカーまでの距離を使って、GNNはノード間の相対的な位置を推測することができる。 しかし、P-GNNは任意にアンカーを選択し、位置認識と特徴抽出を妥協させる。 この妥協を排除するために、均等分布と非対称アンカーの選択が不可欠であることを示す。 一方,グラフ内のすべてのノードの埋め込みを集約できるアンカーの選択はnpハードであることが示されている。 したがって、決定論的アプローチで効率的なアルゴリズムを考案することは事実上不可能である。 位置認識とNP完全性を回避するために,位置認識グラフニューラルネットワーク(PSGNN)を提案する。 実験は、最先端gnnに対するpsgnnの有効性を検証し、安定したスケーラビリティを保ちながら、様々な合成および実世界のグラフデータセットのパフォーマンスを大幅に向上させる。 特に、PSGNNは、ペアワイズノード分類で14%以上、既存の最先端位置認識手法でリンク予測で18%以上、AUCを14%以上押し上げている。 私たちのソースコードは、https://github.com/ZhenyueQin/PSGNNで公開されています。

Most existing graph neural networks (GNNs) learn node embeddings using the framework of message passing and aggregation. Such GNNs are incapable of learning relative positions between graph nodes within a graph. To empower GNNs with the awareness of node positions, some nodes are set as anchors. Then, using the distances from a node to the anchors, GNNs can infer relative positions between nodes. However, P-GNNs arbitrarily select anchors, leading to compromising position-awareness and feature extraction. To eliminate this compromise, we demonstrate that selecting evenly distributed and asymmetric anchors is essential. On the other hand, we show that choosing anchors that can aggregate embeddings of all the nodes within a graph is NP-hard. Therefore, devising efficient optimal algorithms in a deterministic approach is practically not feasible. To ensure position-awareness and bypass NP-completeness, we propose Position-Sensing Graph Neural Networks (PSGNNs), learning how to choose anchors in a back-propagatable fashion. Experiments verify the effectiveness of PSGNNs against state-of-the-art GNNs, substantially improving performance on various synthetic and real-world graph datasets while enjoying stable scalability. Specifically, PSGNNs on average boost AUC more than 14% for pairwise node classification and 18% for link prediction over the existing state-of-the-art position-aware methods. Our source code is publicly available at: https://github.com/ZhenyueQin/PSGNN
翻訳日:2021-05-25 15:05:22 公開日:2021-05-24
# GMAC: Actor-Critic Frameworkの分布的展望

GMAC: A Distributional Perspective on Actor-Critic Framework ( http://arxiv.org/abs/2105.11366v1 )

ライセンス: Link先を確認
Daniel Wontae Nam, Younghoon Kim, Chan Y. Park(参考訳) 本稿では,分布不安定性,行動型制限,およびサンプルと統計の衝突に対する解決策として,アクタ批判の分布的枠組みを考案する。 複数のベルマン演算の下で正しい値分布を学習するSR($\lambda$)と呼ばれる新しいサンプル置換アルゴリズムから生成した多段階ベルマン目標分布とCram\'er距離を最小化する手法を提案する。 ガウス混合モデルによる値分布のパラメータ化は、GMACと呼ばれる手法の効率と性能をさらに向上させる。 本稿では,gmacが値分布の正しい表現を捉え,アーケード学習環境 (ale) とパイブルレット環境を用いた離散的および連続的行動空間において,計算コストの低い従来のアクター・クリティック法の性能を向上させることを実証的に示す。

In this paper, we devise a distributional framework on actor-critic as a solution to distributional instability, action type restriction, and conflation between samples and statistics. We propose a new method that minimizes the Cram\'er distance with the multi-step Bellman target distribution generated from a novel Sample-Replacement algorithm denoted SR($\lambda$), which learns the correct value distribution under multiple Bellman operations. Parameterizing a value distribution with Gaussian Mixture Model further improves the efficiency and the performance of the method, which we name GMAC. We empirically show that GMAC captures the correct representation of value distributions and improves the performance of a conventional actor-critic method with low computational cost, in both discrete and continuous action spaces using Arcade Learning Environment (ALE) and PyBullet environment.
翻訳日:2021-05-25 15:04:59 公開日:2021-05-24
# 対処できるアクション:AI計画のための依存型

Actions You Can Handle: Dependent Types for AI Plans ( http://arxiv.org/abs/2105.11267v1 )

ライセンス: Link先を確認
Alasdair Hill, Ekaterina Komendantskaya, Matthew L. Daggitt and Ronald P. A. Petrick(参考訳) AIの検証は、エンジニアリング、アルゴリズム、およびプログラミング言語コンポーネントを持つ課題である。 例えば、AIプランナーは自律エージェントのアクションをモデル化するためにデプロイされる。 それらのアルゴリズムは、特定のプロパティのセットが与えられたら、これらのプロパティを満たす一連のアクションを見つける。 aiプランナーはアルゴリズムやエンジニアリングの観点から成熟したツールだが、プログラミング言語として制限がある。 決定可能で効率的な自動検索は言語の構文に制限を伴い、高階プロパティの使用や再帰を禁止している。 本稿では,AIプランナが作成したプランを依存型言語Agdaに組み込む手法を提案する。

Verification of AI is a challenge that has engineering, algorithmic and programming language components. For example, AI planners are deployed to model actions of autonomous agents. They comprise a number of searching algorithms that, given a set of specified properties, find a sequence of actions that satisfy these properties. Although AI planners are mature tools from the algorithmic and engineering points of view, they have limitations as programming languages. Decidable and efficient automated search entails restrictions on the syntax of the language, prohibiting use of higher-order properties or recursion. This paper proposes a methodology for embedding plans produced by AI planners into dependently-typed language Agda, which enables users to reason about and verify more general and abstract properties of plans, and also provides a more holistic programming language infrastructure for modelling plan execution.
翻訳日:2021-05-25 15:03:32 公開日:2021-05-24
# 複数のエージェントに対する識別不能商品のプロパム配分

PROPm Allocations of Indivisible Goods to Multiple Agents ( http://arxiv.org/abs/2105.11348v1 )

ライセンス: Link先を確認
Artem Baklanov, Pranav Garimidi, Vasilis Gkatzelis, Daniel Schoepflin(参考訳) 本稿では,エージェント群間の不特定商品の集合を適切に割り当てる古典的問題を考察し,PROPmとして知られる近似比例性の概念に焦点をあてる。 以前の研究は、最大5つのエージェントを含むインスタンスに対して、この公平性の概念を満たすアロケーションが存在することを示したが、これは一般に真実であることを示すには至らなかった。 この結果を拡張して、エージェントや商品の数によらず、すべてのインスタンスに対して PROPm 割り当てが保証されていることを示す。 我々の証明は構成的であり、そのような割り当てを計算するアルゴリズムを提供し、以前の仕事とは異なり、このアルゴリズムの実行時間はエージェント数と商品数の両方において多項式である。

We study the classic problem of fairly allocating a set of indivisible goods among a group of agents, and focus on the notion of approximate proportionality known as PROPm. Prior work showed that there exists an allocation that satisfies this notion of fairness for instances involving up to five agents, but fell short of proving that this is true in general. We extend this result to show that a PROPm allocation is guaranteed to exist for all instances, independent of the number of agents or goods. Our proof is constructive, providing an algorithm that computes such an allocation and, unlike prior work, the running time of this algorithm is polynomial in both the number of agents and the number of goods.
翻訳日:2021-05-25 15:03:20 公開日:2021-05-24
# プロセスのセマンティックオートコンプリートによるモデリングの強化

Augmenting Modelers with Semantic Autocompletion of Processes ( http://arxiv.org/abs/2105.11385v1 )

ライセンス: Link先を確認
Maayan Goldstein and Cecilia Gonzalez-Alvarez(参考訳) ビジネスプロセスモデラーは、常に利用可能ではないかもしれないドメインに関する専門知識と知識を持つ必要があります。 したがって、既存のプロセスのコレクションをマイニングし、彼らが構築している新しいプロセスに追加する要素を推奨するツールの恩恵を受けることができる。 本稿では,サブプロセスの意味的類似性に基づく設計時のプロセス自動補完手法を提案する。 サブプロセスをテキストの段落に変換して数値ベクトルとしてエンコードすることで、意味的に類似した要素を見つけ出し、次に次の要素を推奨する。 これを実現するために、自然言語をベクトルとして埋め込む最先端技術を利用する。 当社のアプローチをオープンソースおよびプロプライエタリなデータセット上で評価し,さまざまなドメインのプロセスに対して正確性を示す。

Business process modelers need to have expertise and knowledge of the domain that may not always be available to them. Therefore, they may benefit from tools that mine collections of existing processes and recommend element(s) to be added to a new process that they are constructing. In this paper, we present a method for process autocompletion at design time, that is based on the semantic similarity of sub-processes. By converting sub-processes to textual paragraphs and encoding them as numerical vectors, we can find semantically similar ones, and thereafter recommend the next element. To achieve this, we leverage a state-of-the-art technique for embedding natural language as vectors. We evaluate our approach on open source and proprietary datasets and show that our technique is accurate for processes in various domains.
翻訳日:2021-05-25 15:03:08 公開日:2021-05-24
# 教師なし音声認識

Unsupervised Speech Recognition ( http://arxiv.org/abs/2105.11084v1 )

ライセンス: Link先を確認
Alexei Baevski, Wei-Ning Hsu, Alexis Conneau, Michael Auli(参考訳) 近年の急速な進歩にもかかわらず、現在の音声認識システムは、この技術を世界中で話されている少数の言語に制限するラベル付きトレーニングデータを必要とする。 本稿では,ラベル付きデータなしで音声認識モデルを訓練するwav2vec-Uについて述べる。 自己教師付き音声表現を用いてラベルなし音声を分割し,これらの表現から対人訓練により音素へのマッピングを学ぶ。 正しい表現が私たちの方法の成功の鍵です。 これまでの最も優れた教師なしの作業と比較すると、wav2vec-UはTIMITベンチマークの音素誤り率を26.1から11.3に下げる。 より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する5.9の単語エラー率を達成した。 また、kyrgyz、swahili、tatarといった低リソース言語を含む9つの言語も実験しています。

Despite rapid progress in the recent past, current speech recognition systems still require labeled training data which limits this technology to a small fraction of the languages spoken around the globe. This paper describes wav2vec-U, short for wav2vec Unsupervised, a method to train speech recognition models without any labeled data. We leverage self-supervised speech representations to segment unlabeled audio and learn a mapping from these representations to phonemes via adversarial training. The right representations are key to the success of our method. Compared to the best previous unsupervised work, wav2vec-U reduces the phoneme error rate on the TIMIT benchmark from 26.1 to 11.3. On the larger English Librispeech benchmark, wav2vec-U achieves a word error rate of 5.9 on test-other, rivaling some of the best published systems trained on 960 hours of labeled data from only two years ago. We also experiment on nine other languages, including low-resource languages such as Kyrgyz, Swahili and Tatar.
翻訳日:2021-05-25 15:02:57 公開日:2021-05-24
# 輪郭探索と信頼性推定のためのエントロピーに基づく適応設計

Entropy-based adaptive design for contour finding and estimating reliability ( http://arxiv.org/abs/2105.11357v1 )

ライセンス: Link先を確認
D. Austin Cole, Robert B. Gramacy, James E. Warner, Geoffrey F. Bomarito, Patrick E. Leser, William P. Leser(参考訳) 信頼性分析において、故障確率を推定する手法は、しばしばモデル評価に関連するコストによって制限される。 MFIS(Multifidelity importance sample)のようなこれらの手法の多くは、予測を迅速に生成するためにガウス過程(GP)のような計算効率のよい代理モデルに依存している。 GP適合の質、特に障害領域近傍では、これらの戦略に対して正確に予測された障害を供給するのに役立っている。 我々は,mfisと組み合わせることで,より正確な故障確率推定と高い信頼度を提供するエントロピーに基づくgp適応設計を提案する。 我々は,既存の輪郭探索方式と比較して,複数の障害領域を識別する戦略が優れていることを示す。 そして、精度を犠牲にすることなく、メソッドをバッチ選択に拡張します。 例としては、ベンチマークデータや、アメリカ航空宇宙局(nasa)の宇宙服の衝撃損傷シミュレータへの応用がある。

In reliability analysis, methods used to estimate failure probability are often limited by the costs associated with model evaluations. Many of these methods, such as multifidelity importance sampling (MFIS), rely upon a computationally efficient, surrogate model like a Gaussian process (GP) to quickly generate predictions. The quality of the GP fit, particularly in the vicinity of the failure region(s), is instrumental in supplying accurately predicted failures for such strategies. We introduce an entropy-based GP adaptive design that, when paired with MFIS, provides more accurate failure probability estimates and with higher confidence. We show that our greedy data acquisition strategy better identifies multiple failure regions compared to existing contour-finding schemes. We then extend the method to batch selection, without sacrificing accuracy. Illustrative examples are provided on benchmark data as well as an application to an impact damage simulator for National Aeronautics and Space Administration (NASA) spacesuits.
翻訳日:2021-05-25 15:02:21 公開日:2021-05-24
# Convolutional Attentive Adversarial Networkを用いた教師なしビデオ要約

Unsupervised Video Summarization with a Convolutional Attentive Adversarial Network ( http://arxiv.org/abs/2105.11131v1 )

ライセンス: Link先を確認
Guoqiang Liang, Yanbing Lv, Shucheng Li, Shizhou Zhang, Yanning Zhang(参考訳) ビデオデータの爆発的増加に伴い、ビデオ要約は、メインストーリーを伝えながらフレームの最小サブセットを探そうとしており、最もホットなトピックの1つとなっている。 今日では、特に深層学習の出現以降、教師付き学習技術によって大きな成果が得られている。 しかし、大規模なビデオデータセットに対する人間のアノテーションの収集は非常に高価で困難である。 この問題に対処するため,我々は,教師なしの方法で深層要約器を構築することを主目的とする畳み込み型注意逆ネットワーク (caan) を提案する。 生成的対向ネットワークでは,本フレームワークはジェネレータと識別器から構成される。 前者はビデオのすべてのフレームで重要なスコアを予測し、後者はスコアの重み付けされたフレーム特徴と元のフレーム特徴を区別しようとする。 具体的には、ビデオのグローバル表現を抽出するために完全畳み込みシーケンスネットワークと、正規化重要度スコアを出力する注意ベースネットワークを用いる。 パラメータを学習するために,目的関数は3つの損失関数から成り,フレームレベルの重要度スコア予測を協調的に導くことができる。 提案手法を検証するために, SumMe と TVSum の2つの公開ベンチマーク実験を行った。 その結果,提案手法の他の非教師なし手法に対する優位性を示した。 我々の手法は、公開された教師付きアプローチよりも優れています。

With the explosive growth of video data, video summarization, which attempts to seek the minimum subset of frames while still conveying the main story, has become one of the hottest topics. Nowadays, substantial achievements have been made by supervised learning techniques, especially after the emergence of deep learning. However, it is extremely expensive and difficult to collect human annotation for large-scale video datasets. To address this problem, we propose a convolutional attentive adversarial network (CAAN), whose key idea is to build a deep summarizer in an unsupervised way. Upon the generative adversarial network, our overall framework consists of a generator and a discriminator. The former predicts importance scores for all frames of a video while the latter tries to distinguish the score-weighted frame features from original frame features. Specifically, the generator employs a fully convolutional sequence network to extract global representation of a video, and an attention-based network to output normalized importance scores. To learn the parameters, our objective function is composed of three loss functions, which can guide the frame-level importance score prediction collaboratively. To validate this proposed method, we have conducted extensive experiments on two public benchmarks SumMe and TVSum. The results show the superiority of our proposed method against other state-of-the-art unsupervised approaches. Our method even outperforms some published supervised approaches.
翻訳日:2021-05-25 14:59:04 公開日:2021-05-24
# 手術をシミュレートした術後脳空洞分節の自己教師あり学習戦略

A self-supervised learning strategy for postoperative brain cavity segmentation simulating resections ( http://arxiv.org/abs/2105.11239v1 )

ライセンス: Link先を確認
Fernando P\'erez-Garc\'ia, Reuben Dorent, Michele Rizzi, Francesco Cardinale, Valerio Frazzini, Vincent Navarro, Caroline Essert, Ir\`ene Ollivier, Tom Vercauteren, Rachel Sparks, John S. Duncan and S\'ebastien Ourselin(参考訳) 脳切除腔(RC)の正確なセグメンテーションは術後分析と経過観察に有効である。 畳み込みニューラルネットワーク(CNN)は最先端の画像セグメンテーション技術であるが、トレーニングには大きな注釈付きデータセットを必要とする。 3d医療画像のアノテーションは時間を要するもので、高度に訓練されたレートラーを必要とし、高いレート間変動に苦しむ可能性がある。 自己教師付き学習戦略は、ラベルのないデータをトレーニングに活用することができる。 術前磁気共鳴画像(MRI)から切除をシミュレートするアルゴリズムを開発した。 RCセグメンテーションのための3次元CNNの自己指導訓練をシミュレーション法を用いて行った。 難治性てんかん430例の術前MRI430例と術前MRI268例からなるEPISURGを切除した。 20,33,19,133名からなるEPISURGの3つのアノテートデータセットおよびアノテート画像に基づいて,本モデルを微調整した。 4つのデータセットごとに81.7 (16.4), 82.4 (36.4), 74.9 (24.2) 、80.5 (18.7) のDiceスコア係数(DSC) の中央値を得た。 微調整後、DSCは89.2 (13.3)、84.1 (19.8)、80.2 (20.1)、85.2 (10.8)であった。 比較対象は, 前回の研究では, 84.0 (9.9) であった。 そこで本研究では,シミュレーションrcsを用いた3次元cnnの自己教師あり学習法を提案する。 本手法は, 組織, 病理, モダリティの異なるデータに対してよく一般化する。 ソースコード、セグメンテーションモデル、EPISURGデータセットはhttps://github.com/fepegar/ressegijcars.orgで公開されている。

Accurate segmentation of brain resection cavities (RCs) aids in postoperative analysis and determining follow-up treatment. Convolutional neural networks (CNNs) are the state-of-the-art image segmentation technique, but require large annotated datasets for training. Annotation of 3D medical images is time-consuming, requires highly-trained raters, and may suffer from high inter-rater variability. Self-supervised learning strategies can leverage unlabeled data for training. We developed an algorithm to simulate resections from preoperative magnetic resonance images (MRIs). We performed self-supervised training of a 3D CNN for RC segmentation using our simulation method. We curated EPISURG, a dataset comprising 430 postoperative and 268 preoperative MRIs from 430 refractory epilepsy patients who underwent resective neurosurgery. We fine-tuned our model on three small annotated datasets from different institutions and on the annotated images in EPISURG, comprising 20, 33, 19 and 133 subjects. The model trained on data with simulated resections obtained median (interquartile range) Dice score coefficients (DSCs) of 81.7 (16.4), 82.4 (36.4), 74.9 (24.2) and 80.5 (18.7) for each of the four datasets. After fine-tuning, DSCs were 89.2 (13.3), 84.1 (19.8), 80.2 (20.1) and 85.2 (10.8). For comparison, inter-rater agreement between human annotators from our previous study was 84.0 (9.9). We present a self-supervised learning strategy for 3D CNNs using simulated RCs to accurately segment real RCs on postoperative MRI. Our method generalizes well to data from different institutions, pathologies and modalities. Source code, segmentation models and the EPISURG dataset are available at https://github.com/fepegar/ressegijcars .
翻訳日:2021-05-25 14:58:41 公開日:2021-05-24
# コンピュータビジョン支援細胞学の現状と展望 体系的な文献レビュー

What is the State of the Art of Computer Vision-Assisted Cytology? A Systematic Literature Review ( http://arxiv.org/abs/2105.11277v1 )

ライセンス: Link先を確認
Andr\'e Vict\'oria Matias, Jo\~ao Gustavo Atkinson Amorim, Luiz Antonio Buschetto Macarini, Allan Cerentini, Alexandre Sherlley Casimiro Onofre, Fabiana Botelho de Miranda Onofre, Felipe Perozzo Dalto\'e, Marcelo Ricardo Stemmer, Aldo von Wangenheim(参考訳) 細胞診は、幅広い病態の診断を支援するために、低コストで非侵襲的な診断法である。 コンピュータビジョン技術は, 試験内容の量的, 客観的な記述を自動的に生成することにより, 誤診断の可能性を最小化し, 分析に要する時間を短縮することができる。 現在,細胞診に応用されているコンピュータビジョン技術の現状を明らかにするために,システム文献レビューを行った。 我々は過去5年間に出版された論文を分析した。 最初の検索は2020年9月に行われ、431の記事を掲載した。 包括的/排他的基準を適用した後,157の論文が残され,本研究領域に存在する傾向と問題点を考察し,コンピュータビジョン手法,染色技術,評価指標,使用済みデータセットとコンピュータコードの可用性を強調した。 その結果,本研究で最も多く用いられている手法は深層学習ベース(70論文)であり,古典的コンピュータビジョンのみを用いたもの(101論文)は少ない。 分類と物体検出に最も頻繁に用いられる指標は精度(33論文と5論文)であり、セグメンテーションではサイス類似度係数(38論文)であった。 染色技術に関しては、パパニコラウーが最も多く採用され(130紙)、続いてh&e(20紙)とファールゲン(5紙)が続いた。 論文で使用された12のデータセットが公開されており、dtu/herlevデータセットが最も使われている。 結論として,多くの染色に対して高品質なデータセットがまだ存在せず,ほとんどの研究は日常的な臨床診断ルーチンに適用できるほど成熟していない。 また,深層学習に基づくアプローチを選択手法として採用する傾向もみられた。

Cytology is a low-cost and non-invasive diagnostic procedure employed to support the diagnosis of a broad range of pathologies. Computer Vision technologies, by automatically generating quantitative and objective descriptions of examinations' contents, can help minimize the chances of misdiagnoses and shorten the time required for analysis. To identify the state-of-art of computer vision techniques currently applied to cytology, we conducted a Systematic Literature Review. We analyzed papers published in the last 5 years. The initial search was executed in September 2020 and resulted in 431 articles. After applying the inclusion/exclusion criteria, 157 papers remained, which we analyzed to build a picture of the tendencies and problems present in this research area, highlighting the computer vision methods, staining techniques, evaluation metrics, and the availability of the used datasets and computer code. As a result, we identified that the most used methods in the analyzed works are deep learning-based (70 papers), while fewer works employ classic computer vision only (101 papers). The most recurrent metric used for classification and object detection was the accuracy (33 papers and 5 papers), while for segmentation it was the Dice Similarity Coefficient (38 papers). Regarding staining techniques, Papanicolaou was the most employed one (130 papers), followed by H&E (20 papers) and Feulgen (5 papers). Twelve of the datasets used in the papers are publicly available, with the DTU/Herlev dataset being the most used one. We conclude that there still is a lack of high-quality datasets for many types of stains and most of the works are not mature enough to be applied in a daily clinical diagnostic routine. We also identified a growing tendency towards adopting deep learning-based approaches as the methods of choice.
翻訳日:2021-05-25 14:58:09 公開日:2021-05-24
# Fed-NILM: プライバシー保護のためのフェデレーション学習に基づく非侵入負荷モニタリング手法

Fed-NILM: A Federated Learning-based Non-Intrusive Load Monitoring Method for Privacy-Protection ( http://arxiv.org/abs/2105.11085v1 )

ライセンス: Link先を確認
Haijin Wang, Caomingzhe Si, Junhua Zhao(参考訳) non-intrusive load monitoring (nilm) は全負荷をアプライアンスレベルの負荷信号に分解する。 NILMを実現するために多くのディープラーニングベースの手法が開発されており、ディープニューラルネットワーク(DNN)のトレーニングにはさまざまな種類のアプライアンスを含む大量の負荷データが必要である。 負荷が不十分で有望なモデル性能を期待できるローカルデータ所有者にとって、効果的なnilm共同モデリングの伝導性はますます重要になっている。 ローカルデータ所有者の協力の下で、データ交換と集中型データストレージは、消費者プライバシ侵害のリスクを高める可能性がある。 潜在的なリスクを排除するため,Fed-NILM ap-plying Federated Learning (FL) と呼ばれる新しいNILM法を提案する。 Fed-NILMでは、ロードデータの代わりにローカルパラメータをローカルデータ所有者間で共有する。 大域モデルは、パラメータの平均を重み付けして得られる。 実験では、Fed-NILMは2つの実世界のデータセットで検証される。 また,feed-nilmと局地的に訓練されたnilmと中央訓練されたnilmの比較は,住宅と産業の両方のシナリオで実施されている。 実験の結果,Fed-NILMは局所的に訓練されたNILMよりも優れており,プライバシ保護を伴わない負荷データセット全体をトレーニングしたNILMに近似していることがわかった。

Non-intrusive load monitoring (NILM) decomposes the total load reading into appliance-level load signals. Many deep learning-based methods have been developed to accomplish NILM, and the training of deep neural networks (DNN) requires massive load data containing different types of appliances. For local data owners with inadequate load data but expect to accomplish a promising model performance, the conduction of effective NILM co-modelling is increasingly significant. While during the cooperation of local data owners, data exchange and centralized data storage may increase the risk of power consumer privacy breaches. To eliminate the potential risks, a novel NILM method named Fed-NILM ap-plying Federated Learning (FL) is proposed in this paper. In Fed-NILM, local parameters instead of load data are shared among local data owners. The global model is obtained by weighted averaging the parameters. In the experiments, Fed-NILM is validated on two real-world datasets. Besides, a comparison of Fed-NILM with locally-trained NILMs and the centrally-trained one is conducted in both residential and industrial scenarios. The experimental results show that Fed-NILM outperforms locally-trained NILMs and approximate the centrally-trained NILM which is trained on the entire load dataset without privacy preservation.
翻訳日:2021-05-25 14:54:09 公開日:2021-05-24
# ローゴ拡散を用いたオートエンコーダ特徴マップへのロバストな透かし

Robust Watermarking using Diffusion of Logo into Autoencoder Feature Maps ( http://arxiv.org/abs/2105.11095v1 )

ライセンス: Link先を確認
Maedeh Jamali, Nader Karim, Pejman Khadivi, Shahram Shirani, Shadrokh Samavi(参考訳) 近年、デジタルコンテンツは劇的に成長し、著作権への関心が高まっている。 画像透かしは著作権保護の最も一般的な方法の1つと考えられている。 画像処理にディープニューラルネットワークを適用する最近の進歩により、これらのネットワークは画像透かしにも使われている。 堅牢性と非知覚性は、透かしの方法の2つの困難な特徴であり、それらの間のトレードオフを満足させるべきである。 本稿では,透かしのためのエンドツーエンドネットワークを提案する。 画像の内容に基づいて,畳み込みニューラルネットワーク(CNN)を用いて埋め込み強度を制御する。 動的埋め込みは、ネットワークが透かし付き画像の視覚品質に最も影響を及ぼすのに役立ちます。 異なる画像処理攻撃をネットワーク層としてシミュレートし、モデルのロバスト性を向上させる。 本手法は,入力画像と同じ大きさのマトリクスを作成するために,透かし文字列を再現するブラインド透かし手法である。 入力画像にウォーターマークデータを拡散させる代わりに、我々はデータを特徴空間に注入し、ネットワークに様々な攻撃に対する堅牢性を高める領域でこれを強制する。 実験の結果, 提案手法は最先端アルゴリズムと比較して, インセプティビリティとロバスト性において優れていることがわかった。

Digital contents have grown dramatically in recent years, leading to increased attention to copyright. Image watermarking has been considered one of the most popular methods for copyright protection. With the recent advancements in applying deep neural networks in image processing, these networks have also been used in image watermarking. Robustness and imperceptibility are two challenging features of watermarking methods that the trade-off between them should be satisfied. In this paper, we propose to use an end-to-end network for watermarking. We use a convolutional neural network (CNN) to control the embedding strength based on the image content. Dynamic embedding helps the network to have the lowest effect on the visual quality of the watermarked image. Different image processing attacks are simulated as a network layer to improve the robustness of the model. Our method is a blind watermarking approach that replicates the watermark string to create a matrix of the same size as the input image. Instead of diffusing the watermark data into the input image, we inject the data into the feature space and force the network to do this in regions that increase the robustness against various attacks. Experimental results show the superiority of the proposed method in terms of imperceptibility and robustness compared to the state-of-the-art algorithms.
翻訳日:2021-05-25 14:53:48 公開日:2021-05-24
# Dorylus: 数十億のエッジグラフ上でのGNNトレーニング

Dorylus: Affordable, Scalable, and Accurate GNN Training over Billion-Edge Graphs ( http://arxiv.org/abs/2105.11118v1 )

ライセンス: Link先を確認
John Thorpe, Yifan Qiao, Jonathan Eyolfson, Shen Teng, Guanzhou Hu, Zhihao Jia, Jinliang Wei, Keval Vora, Ravi Netravali, Miryung Kim, Guoqing Harry Xu(参考訳) グラフニューラルネットワーク(GNN)は、構造化グラフデータの深層学習を可能にする。 主要なgnnトレーニングの障害は2つある: 1)多くのgpuを持つハイエンドサーバに依存しており、購入とメンテナンスに費用がかかる、2)gpu上のメモリ制限は今日の10億エッジグラフではスケールできない。 本稿では,GNNを学習するための分散システムDorylusについて述べる。 ユニークなことに、dorylusはサーバーレスコンピューティングを利用して、低コストでスケーラビリティを向上させることができる。 私たちの設計を導く重要な洞察は、計算の分離です。 計算分離により、グラフとテンソル並列タスクが完全に重複し、Lambdaが生み出すネットワーク遅延を効果的に隠蔽する、深い境界付き非同期パイプラインを構築することができる。 数千のLambdaスレッドの助けを借りて、DrylusはGNNトレーニングを10億のエッジグラフにスケールする。 現在、大規模なグラフでは、CPUサーバはGPUサーバーよりも最高のパフォーマンスを提供する。 CPUサーバ上でLambdaを使用すると、CPUサーバでのトレーニングよりも最大2.75倍パフォーマンスが向上する。 具体的には、dorylusは1.22倍高速で、大規模なスパースグラフ用のgpuサーバより4.83倍安くなる。 Dorylusは既存のサンプリングベースシステムに比べて最大3.8倍高速、10.7倍安価である。

A graph neural network (GNN) enables deep learning on structured graph data. There are two major GNN training obstacles: 1) it relies on high-end servers with many GPUs which are expensive to purchase and maintain, and 2) limited memory on GPUs cannot scale to today's billion-edge graphs. This paper presents Dorylus: a distributed system for training GNNs. Uniquely, Dorylus can take advantage of serverless computing to increase scalability at a low cost. The key insight guiding our design is computation separation. Computation separation makes it possible to construct a deep, bounded-asynchronous pipeline where graph and tensor parallel tasks can fully overlap, effectively hiding the network latency incurred by Lambdas. With the help of thousands of Lambda threads, Dorylus scales GNN training to billion-edge graphs. Currently, for large graphs, CPU servers offer the best performance-per-dollar over GPU servers. Just using Lambdas on top of CPU servers offers up to 2.75x more performance-per-dollar than training only with CPU servers. Concretely, Dorylus is 1.22x faster and 4.83x cheaper than GPU servers for massive sparse graphs. Dorylus is up to 3.8x faster and 10.7x cheaper compared to existing sampling-based systems.
翻訳日:2021-05-25 14:53:30 公開日:2021-05-24
# 関係認識を用いた不均一グラフ表現学習

Heterogeneous Graph Representation Learning with Relation Awareness ( http://arxiv.org/abs/2105.11122v1 )

ライセンス: Link先を確認
Le Yu, Leilei Sun, Bowen Du, Chuanren Liu, Weifeng Lv, Hui Xiong(参考訳) ヘテロジニアスグラフでの表現学習は、ノード分類やリンク予測など、様々な下流タスクを容易にする意味のあるノード表現を得ることを目的としている。 既存の異種グラフ学習法は主にノード表現の伝播機構に従って開発されている。 よりきめ細かいノード表現の学習を改善するための関係の役割を研究する努力はほとんどない。 実際、関係のセマンティック表現を共同学習し、異なる関係タイプについてノード表現を識別することが重要である。 そこで本稿では,R-HGNNという新しい関係認識不均質グラフニューラルネットワークを提案し,関係認識特性を考慮し,不均一グラフ上のノード表現をきめ細かいレベルで学習する。 具体的には、専用グラフ畳み込みコンポーネントは、まず各関係固有グラフから一意なノード表現を別々に学習するように設計されている。 そして、異なる関係をまたいだノード表現の相互作用を改善するために、相互関係メッセージパッシングモジュールを開発する。 また、関係表現を階層的に学習し、ノード表現学習プロセスを導くために使用される関係意味論をキャプチャする。 さらに、集合関係認識ノード表現に対して意味融合モジュールを学習関係表現を伴うコンパクト表現に提示する。 最後に,様々なグラフ学習タスクについて広範囲な実験を行い,実験結果から,既存の手法を一貫して上回っていることを示す。

Representation learning on heterogeneous graphs aims to obtain meaningful node representations to facilitate various downstream tasks, such as node classification and link prediction. Existing heterogeneous graph learning methods are primarily developed by following the propagation mechanism of node representations. There are few efforts on studying the role of relations for improving the learning of more fine-grained node representations. Indeed, it is important to collaboratively learn the semantic representations of relations and discern node representations with respect to different relation types. To this end, in this paper, we propose a novel Relation-aware Heterogeneous Graph Neural Network, namely R-HGNN, to learn node representations on heterogeneous graphs at a fine-grained level by considering relation-aware characteristics. Specifically, a dedicated graph convolution component is first designed to learn unique node representations from each relation-specific graph separately. Then, a cross-relation message passing module is developed to improve the interactions of node representations across different relations. Also, the relation representations are learned in a layer-wise manner to capture relation semantics, which are used to guide the node representation learning process. Moreover, a semantic fusing module is presented to aggregate relation-aware node representations into a compact representation with the learned relation representations. Finally, we conduct extensive experiments on a variety of graph learning tasks, and experimental results demonstrate that our approach consistently outperforms existing methods among all the tasks.
翻訳日:2021-05-25 14:53:11 公開日:2021-05-24
# 拡散過程の背後にある時間進化するコミュニティ状態を発見するための動的ホークスプロセス

Dynamic Hawkes Processes for Discovering Time-evolving Communities' States behind Diffusion Processes ( http://arxiv.org/abs/2105.11152v1 )

ライセンス: Link先を確認
Maya Okawa, Tomoharu Iwata, Yusuke Tanaka, Hiroyuki Toda, Takeshi Kurashima, Hisashi Kashima(参考訳) 感染症の発生、社会ネットワーク活動、犯罪などのイベントのシーケンスはユビキタスであり、そのようなイベントに関するデータは、コミュニティ(例えば地域、オンラインユーザグループ)間の基盤となる拡散過程に関する重要な情報を提供する。 拡散過程のモデル化と将来の事象の予測は、流行制御、ウイルスマーケティング、予測ポリシングなど多くのアプリケーションにおいて不可欠である。 ホークスプロセスは拡散過程をモデル化するための中心的なツールを提供する。 しかし、それぞれのコミュニティが過去のイベントの影響を受けやすいように制御するトリガーカーネルパラメータは、時間とともに静的であると仮定される。 現実の世界では、拡散過程は過去の影響だけでなく、人々の病気に対する認識や人々の現在の関心など、地域社会の現在の(時を経る)状態にも依存する。 本稿では,拡散過程の背後にあるコミュニティ状態の基盤となるダイナミクスを捉え,そのダイナミクスに基づいて事象の発生を予測できる,新しいホークス過程モデルを提案する。 具体的には、ニューラルネットワークの混合によってこれらの隠れたダイナミクスを符号化する潜在動的関数をモデル化する。 次に、潜在動的関数とその積分を用いてトリガーカーネルを設計する。 提案手法はDHP(Dynamic Hawkes Processes)と呼ばれ、時間進化するコミュニティの状態の複雑な表現を学習するための柔軟な方法を提供する。 4つの実世界のイベントデータセットに対する大規模な実験により、DHPは5つの広く採用されているイベント予測方法より優れていることが示された。

Sequences of events including infectious disease outbreaks, social network activities, and crimes are ubiquitous and the data on such events carry essential information about the underlying diffusion processes between communities (e.g., regions, online user groups). Modeling diffusion processes and predicting future events are crucial in many applications including epidemic control, viral marketing, and predictive policing. Hawkes processes offer a central tool for modeling the diffusion processes, in which the influence from the past events is described by the triggering kernel. However, the triggering kernel parameters, which govern how each community is influenced by the past events, are assumed to be static over time. In the real world, the diffusion processes depend not only on the influences from the past, but also the current (time-evolving) states of the communities, e.g., people's awareness of the disease and people's current interests. In this paper, we propose a novel Hawkes process model that is able to capture the underlying dynamics of community states behind the diffusion processes and predict the occurrences of events based on the dynamics. Specifically, we model the latent dynamic function that encodes these hidden dynamics by a mixture of neural networks. Then we design the triggering kernel using the latent dynamic function and its integral. The proposed method, termed DHP (Dynamic Hawkes Processes), offers a flexible way to learn complex representations of the time-evolving communities' states, while at the same time it allows to computing the exact likelihood, which makes parameter learning tractable. Extensive experiments on four real-world event datasets show that DHP outperforms five widely adopted methods for event prediction.
翻訳日:2021-05-25 14:52:50 公開日:2021-05-24
# グローバルロバスト性を検証したセキュリティ分類器の学習

Learning Security Classifiers with Verified Global Robustness Properties ( http://arxiv.org/abs/2105.11363v1 )

ライセンス: Link先を確認
Yizheng Chen, Shiqi Wang, Yue Qin, Xiaojing Liao, Suman Jana, David Wagner(参考訳) 近年の研究では、ほとんどの入力に対する回避攻撃のクラスを確実に排除できるが、全ての入力は排除できる局所ロバスト性を持つ分類器を訓練する方法が提案されている。 データ分散シフトは、マルウェア検出のためにしばしば観測されるセキュリティアプリケーションで非常に一般的であるため、ローカルロバスト性は、分類器のデプロイ時に、そのプロパティが見えない入力を保持することを保証できない。 したがって、全ての入力を保持するグローバルロバスト性(局所ロバスト性よりも厳格に強い)を強制することがより望ましい。 本稿では,グローバルロバスト性特性を満たす分類器を訓練するためのフレームワークとツールを提案する。 我々は,セキュリティ分類器に適したグローバルロバスト性の概念を新たに定義する。 我々は,グローバルなロバスト性特性を強制する新しいブースターフィッカトレーニングフレームワークを設計した。 我々は、論理規則の集合として分類器を構成し、その特性を検証するために新しい検証器を設計する。 学習アルゴリズムでは, 昇圧器は分類器の容量を増加させ, 固定器は反例誘導型インダクティブ合成の後, 検証されたグローバルロバスト性特性を強制する。 我々の知る限りでは、これまで達成された唯一の大域的堅牢性は単調性である。 これまでのいくつかの研究でグローバルロバスト性が定義されているが、そのトレーニング技術はグローバルロバスト性が証明されていない。 比較として,3つのセキュリティデータセットに対して異なるグローバルロバスト性特性,さらには複数のプロパティを同時に満たすように分類器を訓練し,分類器の性能に少なからぬ影響を与えることを示した。 例えば、twitterのスパムアカウント分類器をトレーニングして、5つのグローバルなロバスト性特性を満たし、5.4%の真の陽性率と0.1%の偽陽性率で、いかなる特性も満たさないベースラインのxgboostモデルと比較します。

Recent works have proposed methods to train classifiers with local robustness properties, which can provably eliminate classes of evasion attacks for most inputs, but not all inputs. Since data distribution shift is very common in security applications, e.g., often observed for malware detection, local robustness cannot guarantee that the property holds for unseen inputs at the time of deploying the classifier. Therefore, it is more desirable to enforce global robustness properties that hold for all inputs, which is strictly stronger than local robustness. In this paper, we present a framework and tools for training classifiers that satisfy global robustness properties. We define new notions of global robustness that are more suitable for security classifiers. We design a novel booster-fixer training framework to enforce global robustness properties. We structure our classifier as an ensemble of logic rules and design a new verifier to verify the properties. In our training algorithm, the booster increases the classifier's capacity, and the fixer enforces verified global robustness properties following counterexample guided inductive synthesis. To the best of our knowledge, the only global robustness property that has been previously achieved is monotonicity. Several previous works have defined global robustness properties, but their training techniques failed to achieve verified global robustness. In comparison, we show that we can train classifiers to satisfy different global robustness properties for three security datasets, and even multiple properties at the same time, with modest impact on the classifier's performance. For example, we train a Twitter spam account classifier to satisfy five global robustness properties, with 5.4% decrease in true positive rate, and 0.1% increase in false positive rate, compared to a baseline XGBoost model that doesn't satisfy any property.
翻訳日:2021-05-25 14:51:54 公開日:2021-05-24
# 化学反応ニューラルネットワークを用いたバイオマス熱分解の自律動力学モデル

Autonomous Kinetic Modeling of Biomass Pyrolysis using Chemical Reaction Neural Networks ( http://arxiv.org/abs/2105.11397v1 )

ライセンス: Link先を確認
Weiqi Ji, Franz Richter, Michael J. Gollner, Sili Deng(参考訳) 森林, 草, 作物などのバイオマスの燃焼過程のモデル化は, 森林および都市火災のモデル化と予測に不可欠である。 その重要性にもかかわらず、固体燃料の燃焼はあまり理解されておらず、これはほとんどの固体燃料の未知の化学反応によるものである。 ほとんどの利用可能な運動モデルは、化学的な洞察と長年の経験を必要とする専門家の知識に基づいて構築された。 本稿では,最近開発された化学反応ニューラルネットワーク (crnn) を用いた熱重力解析器 (tga) 実験データからバイオマス熱分解速度モデルを自律的に発見する枠組みを提案する。 この手法は、TGAデータの残留質量を予測するために、CRNNモデルをニューラル常微分方程式の枠組みに組み込んだ。 ニューラルネットワークに基づくモデルの柔軟性に加えて、学習されたCRNNモデルは、質量作用法則やアレニウス法則などの基本的な物理法則をニューラルネットワーク構造に組み込むことで、完全に解釈可能である。 学習されたCRNNモデルは古典的なバイオマス化学速度論的モデルに変換され、化学的な洞察の抽出と大規模火災シミュレーションへの速度論的モデルの統合が促進される。 セルロースの熱分解および酸化予測におけるフレームワークの有効性を実証した。 この成功例は、山火事燃料や工業用ポリマーのような固体燃料の迅速かつ自律的な化学動力学モデリングの可能性を開く。

Modeling the burning processes of biomass such as wood, grass, and crops is crucial for the modeling and prediction of wildland and urban fire behavior. Despite its importance, the burning of solid fuels remains poorly understood, which can be partly attributed to the unknown chemical kinetics of most solid fuels. Most available kinetic models were built upon expert knowledge, which requires chemical insights and years of experience. This work presents a framework for autonomously discovering biomass pyrolysis kinetic models from thermogravimetric analyzer (TGA) experimental data using the recently developed chemical reaction neural networks (CRNN). The approach incorporated the CRNN model into the framework of neural ordinary differential equations to predict the residual mass in TGA data. In addition to the flexibility of neural-network-based models, the learned CRNN model is fully interpretable, by incorporating the fundamental physics laws, such as the law of mass action and Arrhenius law, into the neural network structure. The learned CRNN model can then be translated into the classical forms of biomass chemical kinetic models, which facilitates the extraction of chemical insights and the integration of the kinetic model into large-scale fire simulations. We demonstrated the effectiveness of the framework in predicting the pyrolysis and oxidation of cellulose. This successful demonstration opens the possibility of rapid and autonomous chemical kinetic modeling of solid fuels, such as wildfire fuels and industrial polymers.
翻訳日:2021-05-25 14:51:22 公開日:2021-05-24
# 能動学習のための適応ラベル認識のコスト精度

Cost-Accuracy Aware Adaptive Labeling for Active Learning ( http://arxiv.org/abs/2105.11418v1 )

ライセンス: Link先を確認
Ruijiang Gao, Maytal Saar-tsechansky(参考訳) 従来の能動学習アルゴリズムでは、与えられた固定コストでノイズレスラベルを生成する単一ラベルを仮定し、予算制約の下で与えられた分類器の最高の一般化性能を達成する。 しかし、実際の多くの設定では、異なるラベルには異なるラベルのコストがあり、異なるラベルの精度が得られる。 さらに、与えられたラベル付け者は、異なるインスタンスに対して異なるラベル付け精度を示すことができる。 この設定は、様々なコストと精度を持つ多様なラベル付きでアクティブな学習と呼ばれ、多くの重要な実際の設定で発生する。 したがって、異なるインスタンスのラベル付け精度、ラベル付けコスト、およびトレーニングインスタンスのインフォメーション性を効果的にトレードオフする方法を理解することは、最も低いラベル付けコストで最高の一般化性能を達成するために有益である。 本稿では,ラベルノイズによる学習の一般化バウンダリを用いて,より低コストでより高度な一般化精度を実現するための,インスタンス,ラベル(およびそれに対応するコストとラベル付け精度)を選択するための新しいアルゴリズムを提案する。 提案アルゴリズムは,5つのUCIおよび実際のクラウドソーシングデータセット上での最先端のパフォーマンスを示す。

Conventional active learning algorithms assume a single labeler that produces noiseless label at a given, fixed cost, and aim to achieve the best generalization performance for given classifier under a budget constraint. However, in many real settings, different labelers have different labeling costs and can yield different labeling accuracies. Moreover, a given labeler may exhibit different labeling accuracies for different instances. This setting can be referred to as active learning with diverse labelers with varying costs and accuracies, and it arises in many important real settings. It is therefore beneficial to understand how to effectively trade-off between labeling accuracy for different instances, labeling costs, as well as the informativeness of training instances, so as to achieve the best generalization performance at the lowest labeling cost. In this paper, we propose a new algorithm for selecting instances, labelers (and their corresponding costs and labeling accuracies), that employs generalization bound of learning with label noise to select informative instances and labelers so as to achieve higher generalization accuracy at a lower cost. Our proposed algorithm demonstrates state-of-the-art performance on five UCI and a real crowdsourcing dataset.
翻訳日:2021-05-25 14:51:02 公開日:2021-05-24
# アービタージュフリーニューラル-SDE市場モデル

Arbitrage-free neural-SDE market models ( http://arxiv.org/abs/2105.11053v1 )

ライセンス: Link先を確認
Samuel N. Cohen and Christoph Reisinger and Sheng Wang(参考訳) 液状バニラオプションのモデリングジョイントダイナミクスは、液状デリバティブの調停フリー価格設定とオプショントレードブックのリスク管理に不可欠である。 本稿では,金融制約に配慮した欧州オプション書の非パラメトリックモデルを開発し,実際に実装可能である。 静的な(あるいはモデルに依存しない)仲裁から解放された価格に対する状態空間を導出し、ストックとオプション価格の離散時系列データからモデルを学習する推論問題を研究する。 我々は、ニューラルネットワークをモデル付きSDEシステムのドリフトと拡散の関数近似器として使用し、非軌道条件が保存されるようにニューラルネットワークに制約を課す。 特に,線形不等式の集合を満たすことが保証される <textit{neural SDE} モデルを校正する手法を提案する。 ヘストン確率的局所ボラティリティモデルから得られたデータを用いて数値実験によるアプローチを検証する。

Modelling joint dynamics of liquid vanilla options is crucial for arbitrage-free pricing of illiquid derivatives and managing risks of option trade books. This paper develops a nonparametric model for the European options book respecting underlying financial constraints and while being practically implementable. We derive a state space for prices which are free from static (or model-independent) arbitrage and study the inference problem where a model is learnt from discrete time series data of stock and option prices. We use neural networks as function approximators for the drift and diffusion of the modelled SDE system, and impose constraints on the neural nets such that no-arbitrage conditions are preserved. In particular, we give methods to calibrate \textit{neural SDE} models which are guaranteed to satisfy a set of linear inequalities. We validate our approach with numerical experiments using data generated from a Heston stochastic local volatility model.
翻訳日:2021-05-25 14:50:16 公開日:2021-05-24
# フェデレーショングラフ学習 --位置用紙-

Federated Graph Learning -- A Position Paper ( http://arxiv.org/abs/2105.11099v1 )

ライセンス: Link先を確認
Huanding Zhang, Tao Shen, Fei Wu, Mingyang Yin, Hongxia Yang, Chao Wu(参考訳) グラフニューラルネットワーク(GNN)は多くの分野で成功し、実業界における様々な研究や応用を導出した。 しかし、いくつかのプライバシーに敏感なシナリオ(金融や医療など)では、gnnモデルのトレーニングは分散データサイロによる課題の中心に直面している。 フェデレートラーニング(FL)は、分散GNNトレーニングのための合理的なソリューションであるデータを分散化しつつ、共有モデルを協調的にトレーニングできる新興技術である。 これをFGL(Federated Graph Learning)と呼ぶ。 FGLは近年注目されているが、FGLの定義と課題はまだ未解決のままである。 本稿では,その特徴を明らかにするための分類について述べる。 グラフデータをクライアント間で分散する方法を考慮し、グラフ間FL、グラフ間FL、グラフ構造FLの4種類のFGLを提案し、グラフ内FLをさらに水平と垂直に分割する。 各種類のFGLについて、定式化と応用について詳細な議論を行い、潜在的な課題を提案する。

Graph neural networks (GNN) have been successful in many fields, and derived various researches and applications in real industries. However, in some privacy sensitive scenarios (like finance, healthcare), training a GNN model centrally faces challenges due to the distributed data silos. Federated learning (FL) is a an emerging technique that can collaboratively train a shared model while keeping the data decentralized, which is a rational solution for distributed GNN training. We term it as federated graph learning (FGL). Although FGL has received increasing attention recently, the definition and challenges of FGL is still up in the air. In this position paper, we present a categorization to clarify it. Considering how graph data are distributed among clients, we propose four types of FGL: inter-graph FL, intra-graph FL and graph-structured FL, where intra-graph is further divided into horizontal and vertical FGL. For each type of FGL, we make a detailed discussion about the formulation and applications, and propose some potential challenges.
翻訳日:2021-05-25 14:49:17 公開日:2021-05-24
# (参考訳) 対話システムとシミュレータのためのユニバーサルNLGの実現に向けて

Towards a Universal NLG for Dialogue Systems and Simulators with Future Bridging ( http://arxiv.org/abs/2105.10267v2 )

ライセンス: CC BY 4.0
Philipp Ennen, Yen-Ting Lin, Ali Girayhan Ozbay, Ferdinando Insalata, Maolin Li, Ye Tian, Sepehr Jalali, Da-shan Shiu(参考訳) 対話システムパイプラインにおいて、自然言語生成部(NLG)は、対話方向と内容とを対応する自然言語実現に変換する。 対話システムにおける最近のトレンドは、まず大きなデータセットを事前学習し、次にアプリケーション固有の特徴にアノテートされたデータセットを使用して教師付きで微調整することである。 新しい振る舞いはカスタムアノテーションから学ぶことができるが、必要な努力はトレーニングセットの量を大幅に制限し、アプリケーション固有の性質は再利用を制限する。 データ駆動型アプローチの最近の成功を踏まえ、対話システムとシミュレーターのための新しいブリッジングNLG(FBNLG)の概念を提案する。 重要なステップは、FBNLGが将来のユーザまたはシステム発話を受け入れて、現在のコンテキストをブリッジすることです。 future bridgingはアノテーションのないデータセット上での自己教師付きトレーニングを可能にし、システムの他の部分からnlgのトレーニングを分離する。 大量のデータセットで事前訓練されたFBNLGは、最小適応力で古典的または新しい対話シナリオに適用される。 FBNLG のプロトタイプを評価したところ,今後のブリッジングはタスク指向およびチャット対話のための汎用的な数ショット NLG への有効なアプローチであることがわかった。

In a dialogue system pipeline, a natural language generation (NLG) unit converts the dialogue direction and content to a corresponding natural language realization. A recent trend for dialogue systems is to first pre-train on large datasets and then fine-tune in a supervised manner using datasets annotated with application-specific features. Though novel behaviours can be learned from custom annotation, the required effort severely bounds the quantity of the training set, and the application-specific nature limits the reuse. In light of the recent success of data-driven approaches, we propose the novel future bridging NLG (FBNLG) concept for dialogue systems and simulators. The critical step is for an FBNLG to accept a future user or system utterance to bridge the present context towards. Future bridging enables self supervised training over annotation-free datasets, decoupled the training of NLG from the rest of the system. An FBNLG, pre-trained with massive datasets, is expected to apply in classical or new dialogue scenarios with minimal adaptation effort. We evaluate a prototype FBNLG to show that future bridging can be a viable approach to a universal few-shot NLG for task-oriented and chit-chat dialogues.
翻訳日:2021-05-25 11:23:37 公開日:2021-05-24
# DAVOS: Adversarial Domain Adaptationによる半スーパービジョンビデオオブジェクトセグメンテーション

DAVOS: Semi-Supervised Video Object Segmentation via Adversarial Domain Adaptation ( http://arxiv.org/abs/2105.10201v2 )

ライセンス: Link先を確認
Jinshuo Zhang, Zhicheng Wang, Songyan Zhang, Gang Wei(参考訳) ドメインシフトは常にビデオオブジェクトセグメンテーション(VOS)の主要な問題のひとつであり、不慣れなデータセットでテストした場合、モデルは変性に悩まされる。 近年,通常不足しているテストデータのアノテーションを微調整することで,トレーニングデータ(ソースドメイン)とテストデータ(ターゲットドメイン)のパフォーマンスギャップを狭めるために,多くのオンライン手法が出現している。 本稿では,まず,vosタスクに逆ドメイン適応を導入することで,ソースドメインの教師付きトレーニングと対象ドメインの教師なしトレーニングを行うことにより,ドメインシフトに取り組む新しい手法を提案する。 コンボリューション層で外観と動作特性を融合させ,動作分岐に監督を加えることで,DAVIS2016における最先端性能を82.6%,教師付きトレーニング後のIoUスコアを82.6%で達成する。 一方,FBMS59 や Youtube-Object に適用した場合,追加アノテーションを使わずに,ドメイン適応戦略によりトレーニングモデルの性能が著しく向上する。

Domain shift has always been one of the primary issues in video object segmentation (VOS), for which models suffer from degeneration when tested on unfamiliar datasets. Recently, many online methods have emerged to narrow the performance gap between training data (source domain) and test data (target domain) by fine-tuning on annotations of test data which are usually in shortage. In this paper, we propose a novel method to tackle domain shift by first introducing adversarial domain adaptation to the VOS task, with supervised training on the source domain and unsupervised training on the target domain. By fusing appearance and motion features with a convolution layer, and by adding supervision onto the motion branch, our model achieves state-of-the-art performance on DAVIS2016 with 82.6% mean IoU score after supervised training. Meanwhile, our adversarial domain adaptation strategy significantly raises the performance of the trained model when applied on FBMS59 and Youtube-Object, without exploiting extra annotations.
翻訳日:2021-05-25 11:09:07 公開日:2021-05-24
# 病理組織学的大腸癌核検索のための共同トリプルトオートエンコーダ

Joint Triplet Autoencoder for Histopathological Colon Cancer Nuclei Retrieval ( http://arxiv.org/abs/2105.10262v2 )

ライセンス: Link先を確認
Satya Rajendra Singh, Shiv Ram Dubey, Shruthi MS, Sairathan Ventrapragada, Saivamshi Salla Dasharatha(参考訳) ディープラーニングは視覚的なタスクのパフォーマンスを大幅に改善した。 画像検索は、クエリ画像のためのデータベースから視覚的に類似した画像を抽出するタスクである。 画像のランク付けのために特徴マッチングを行う。 画像を表現するために、過去に様々な手作りの特徴が導出されている。 近年,バイオメディカル画像解析の分野におけるデータからの自動特徴学習に深層学習の力が活用されている。 autoencoderとsiamese networksは、潜在空間(すなわち特徴や埋め込み)を学ぶための2つのディープラーニングモデルである。 Autoencoderは、潜在空間からのイメージの再構成に基づいて動作する。 siamese networkは三重項を用いてクラス内類似性とクラス間類似性を学ぶ。 さらに、Autoencoderは教師なし、Siameseネットワークは教師なしである。 本稿では、自動エンコーダフレームワークにおける三重項学習を容易にすることで、JTANet(Joint Triplet Autoencoder Network)を提案する。 シャムネットワークの教師付き学習とオートエンコーダの教師なし学習とを共同で行う。 さらに、オートエンコーダのエンコーダネットワークは、シャムネットワークと共有され、シャムコーダネットワークと呼ばれる。 これらの特徴は、訓練されたSiamcoderネットワークを用いて抽出される。 病理組織学的常在性大腸癌データを用いて実験を行った。 病理組織像から大腸癌核検索のためのオートエンコーダとシームズモデルに対して提案したJTANetモデルを用いて有望な性能を観察した。

Deep learning has shown a great improvement in the performance of visual tasks. Image retrieval is the task of extracting the visually similar images from a database for a query image. The feature matching is performed to rank the images. Various hand-designed features have been derived in past to represent the images. Nowadays, the power of deep learning is being utilized for automatic feature learning from data in the field of biomedical image analysis. Autoencoder and Siamese networks are two deep learning models to learn the latent space (i.e., features or embedding). Autoencoder works based on the reconstruction of the image from latent space. Siamese network utilizes the triplets to learn the intra-class similarity and inter-class dissimilarity. Moreover, Autoencoder is unsupervised, whereas Siamese network is supervised. We propose a Joint Triplet Autoencoder Network (JTANet) by facilitating the triplet learning in autoencoder framework. A joint supervised learning for Siamese network and unsupervised learning for Autoencoder is performed. Moreover, the Encoder network of Autoencoder is shared with Siamese network and referred as the Siamcoder network. The features are extracted by using the trained Siamcoder network for retrieval purpose. The experiments are performed over Histopathological Routine Colon Cancer dataset. We have observed the promising performance using the proposed JTANet model against the Autoencoder and Siamese models for colon cancer nuclei retrieval in histopathological images.
翻訳日:2021-05-25 11:08:47 公開日:2021-05-24
# インクリメンタル学習を用いた広範学習システムのためのリッジ解の低メモリ化

Low-Memory Implementations of Ridge Solutions for Broad Learning System with Incremental Learning ( http://arxiv.org/abs/2105.10424v2 )

ライセンス: Link先を確認
Hufei Zhu(参考訳) 既存の低メモリのBLS実装では、記憶の効率的な利用を実現するために、大きな行列を保存・反転する必要がない。 しかし、既存の低メモリのBLS実装では、インクリメンタルラーニング中に出力重みの一般化された逆あるいはリッジ解を得ることができなくなり、元のBLSで使用される非常に小さなリッジパラメータの下では動作できないため、メモリの効率的な使用のための価格としてテスト精度を犠牲にしている。 したがって、低メモリのBLS実装は、非常に小さなリッジパラメータの下で動作し、インクリメンタル学習の過程で出力重みに対する一般化された逆あるいはリッジ解を計算する必要がある。 本稿では、まず、最近提案された再帰的および平方根BLSアルゴリズムと、最近提案された追加ノード上の平方根BLSアルゴリズムの低メモリ実装について、各再帰における入力やノードのバッチを単純に処理することで、提案する。 Since the recursive BLS implementation includes the recursive updates of the inverse matrix that may introduce numerical instabilities after a large number of iterations, and needs the extra computational load to decompose the inverse matrix into the Cholesky factor when cooperating with the proposed low-memory implementation of the square-root BLS algorithm on added nodes, we only improve the low-memory implementations of the square-root BLS algorithms on added inputs and nodes, to propose the full lowmemory implementation of the square-root BLS algorithm. 提案した低メモリのBLS実装はすべて、インクリメンタルラーニングの過程で出力重み付けのリッジ解を計算し、そのほとんどは非常に小さなリッジパラメータの下で動作することができる。

The existing low-memory BLS implementation proposed recently avoids the need for storing and inverting large matrices, to achieve efficient usage of memories. However, the existing low-memory BLS implementation sacrifices the testing accuracy as a price for efficient usage of memories, since it can no longer obtain the generalized inverse or ridge solution for the output weights during incremental learning, and it cannot work under the very small ridge parameter that is utilized in the original BLS. Accordingly, it is required to develop the low-memory BLS implementations, which can work under very small ridge parameters and compute the generalized inverse or ridge solution for the output weights in the process of incremental learning. In this paper, firstly we propose the low-memory implementations for the recently proposed recursive and square-root BLS algorithms on added inputs and the recently proposed squareroot BLS algorithm on added nodes, by simply processing a batch of inputs or nodes in each recursion. Since the recursive BLS implementation includes the recursive updates of the inverse matrix that may introduce numerical instabilities after a large number of iterations, and needs the extra computational load to decompose the inverse matrix into the Cholesky factor when cooperating with the proposed low-memory implementation of the square-root BLS algorithm on added nodes, we only improve the low-memory implementations of the square-root BLS algorithms on added inputs and nodes, to propose the full lowmemory implementation of the square-root BLS algorithm. All the proposed low-memory BLS implementations compute the ridge solution for the output weights in the process of incremental learning, and most of them can work under very small ridge parameters.
翻訳日:2021-05-25 11:08:27 公開日:2021-05-24
# 部分情報を用いた公平かつ効率的な資源配分

Fair and Efficient Resource Allocation with Partial Information ( http://arxiv.org/abs/2105.10064v2 )

ライセンス: Link先を確認
Daniel Halpern and Nisarg Shah(参考訳) 我々は, 不可分品を添加剤に分配する基本的な問題について検討した。 我々は、それぞれのエージェントから、彼女の最高評価ではなく、最も好まれる商品のランキングのみを引用することを検討する。 1つの善で近似的な最大シェア保証、そして2つの広く研究された公正の概念を達成するのに必要な$k$の値を特徴づける。 また,公平性要件の欠如によって生じる社会福祉の乗算的損失についても分析した。

We study the fundamental problem of allocating indivisible goods to agents with additive preferences. We consider eliciting from each agent only a ranking of her $k$ most preferred goods instead of her full cardinal valuations. We characterize the value of $k$ needed to achieve envy-freeness up to one good and approximate maximin share guarantee, two widely studied fairness notions. We also analyze the multiplicative loss in social welfare incurred due to the lack of full information with and without the fairness requirements.
翻訳日:2021-05-25 11:07:59 公開日:2021-05-24
# エルゴード型 it\^o 拡散の機械学習における不変統計量の誤差境界

Error Bounds of the Invariant Statistics in Machine Learning of Ergodic It\^o Diffusions ( http://arxiv.org/abs/2105.10102v2 )

ライセンス: Link先を確認
He Zhang, John Harlim, Xiantao Li(参考訳) 本稿では,エルゴディックIt\^o拡散の機械学習の理論的基盤について考察する。 その目的は、確率微分方程式(SDE)の基礎系が教師付き回帰フレームワークを用いて経験的に推定されるとき、不変統計量の収束特性を理解することである。 エルゴード型マルコフ鎖の摂動理論と線形応答理論を用いて、ドリフト係数と拡散係数の学習における誤差に関する1点および2点不変統計量の誤差の線形依存を導出する。 さらに,この線形依存結果を達成するには,学習一般化誤差の通常の$l^2$-normのキャラクタリゼーションが不十分であることを示す。 このような線形依存結果の十分な条件は、基礎となるSDEの解の存在を保証する通常の線形成長条件のような、ドリフト係数の特定の特性を保持する仮説空間における一様リプシッツと一貫した推定器を生成する学習アルゴリズムによって得られる。 本稿では、カーネルベーススペクトル回帰法とReLUアクティベーション関数を持つ浅層ランダムニューラルネットワークの2つのよく理解された学習アルゴリズムについて検討する。

This paper studies the theoretical underpinnings of machine learning of ergodic It\^o diffusions. The objective is to understand the convergence properties of the invariant statistics when the underlying system of stochastic differential equations (SDEs) is empirically estimated with a supervised regression framework. Using the perturbation theory of ergodic Markov chains and the linear response theory, we deduce a linear dependence of the errors of one-point and two-point invariant statistics on the error in the learning of the drift and diffusion coefficients. More importantly, our study shows that the usual $L^2$-norm characterization of the learning generalization error is insufficient for achieving this linear dependence result. We find that sufficient conditions for such a linear dependence result are through learning algorithms that produce a uniformly Lipschitz and consistent estimator in the hypothesis space that retains certain characteristics of the drift coefficients, such as the usual linear growth condition that guarantees the existence of solutions of the underlying SDEs. We examine these conditions on two well-understood learning algorithms: the kernel-based spectral regression method and the shallow random neural networks with the ReLU activation function.
翻訳日:2021-05-25 11:07:15 公開日:2021-05-24