このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210525となっている論文です。

PDF登録状況(公開日: 20210525)

TitleAuthorsAbstract論文公表日・翻訳日
# 強い異方性相互作用を持つスピンアンサンブルの動的デカップリング

Dynamical decoupling of spin ensembles with strong anisotropic interactions ( http://arxiv.org/abs/2005.08822v2 )

ライセンス: Link先を確認
Benjamin Merkel, Pablo Cova Fari\~na, Andreas Reiserer(参考訳) ドーパントの集合体は量子技術に広く応用されている。 しかし、対応する装置の小型化は、ドーパント密度の増加でコヒーレンスを低減する双極子相互作用によって妨げられる。 我々はこの限界を理論的に実験的に検証する。 動的デカップリングは、強い異方性スピンスピン相互作用を持つ結晶のデコヒーレンスを緩和するが、完全に排除しない。 我々の発見は、量子センシング、マイクロ波-光変換、量子メモリに使用される異方性g因子を持つ全ての量子系に一般化することができる。

Ensembles of dopants have widespread applications in quantum technology. The miniaturization of corresponding devices is however hampered by dipolar interactions that reduce the coherence at increased dopant density. We theoretically and experimentally investigate this limitation. We find that dynamical decoupling can alleviate, but not fully eliminate, the decoherence in crystals with strong anisotropic spin-spin interactions. Our findings can be generalized to all quantum systems with anisotropic g-factor used for quantum sensing, microwave-to-optical conversion, and quantum memory.
翻訳日:2023-05-19 11:13:19 公開日:2021-05-25
# ニュースレコメンデーションの多様性

Diversity in News Recommendations ( http://arxiv.org/abs/2005.09495v2 )

ライセンス: Link先を確認
Abraham Bernstein and Claes de Vreese and Natali Helberger and Wolfgang Schulz and Katharina Zweig and Christian Baden and Michael A. Beam and Marc P. Hauer and Lucien Heitz and Pascal J\"urgens and Christian Katzenbach and Benjamin Kille and Beate Klimkiewicz and Wiebke Loosen and Judith Moeller and Goran Radanovic and Guy Shani and Nava Tintarev and Suzanne Tolmeijer and Wouter van Atteveldt and Sanne Vrijenhoek and Theresa Zueger(参考訳) メディアにおけるニュースの多様性は長い間、個人や社会全体のコミュニケーションのニーズが満たされることを保証するための基礎的で根拠のない基礎であった。 今日、人々はニュースの多様性という伝統的な概念に挑戦する情報を消費するために、オンラインコンテンツやレコメンデーションシステムにますます依存している。 さらに、分野によって異なる多様性の概念は、コンピュータ科学者、社会科学者、法学者の間での新しいレベルの相互協力を必要とする学際的な調査を必要とするように再評価する必要がある。 多分野のワークショップの結果をもとに, 研究者, 資金提供者, 議員, 規制当局, メディア産業を対象とした推薦を行う。 1.ニュースレコメンデーションと多様性についてさらに調査する。 2.産業データによる学術研究のための安全な港を作ること。 3.ニュースレコメンデーションにおける公開価値の役割を最適化すること。 4.有意義なガバナンスフレームワークの作成。 5. 専門分野間研究の推進、実践的イノベーションの促進、開発のための共同研究所の資金提供。 解決策を参照し 洞察を実践に移します

News diversity in the media has for a long time been a foundational and uncontested basis for ensuring that the communicative needs of individuals and society at large are met. Today, people increasingly rely on online content and recommender systems to consume information challenging the traditional concept of news diversity. In addition, the very concept of diversity, which differs between disciplines, will need to be re-evaluated requiring a interdisciplinary investigation, which requires a new level of mutual cooperation between computer scientists, social scientists, and legal scholars. Based on the outcome of a multidisciplinary workshop, we have the following recommendations, directed at researchers, funders, legislators, regulators, and the media industry: 1. Do more research on news recommenders and diversity. 2. Create a safe harbor for academic research with industry data. 3. Optimize the role of public values in news recommenders. 4. Create a meaningful governance framework. 5. Fund a joint lab to spearhead the needed interdisciplinary research, boost practical innovation, develop. reference solutions, and transfer insights into practice.
翻訳日:2023-05-19 08:14:47 公開日:2021-05-25
# 電磁誘導透明性に基づくライドベルク分極系の弱い相互作用多体系

A Weakly-Interacting Many-Body System of Rydberg Polaritons Based on Electromagnetically Induced Transparency ( http://arxiv.org/abs/2006.13526v2 )

ライセンス: Link先を確認
Bongjune Kim, Ko-Tang Chen, Shih-Si Hsiao, Sheng-Yang Wang, Kai-Bo Li, Julius Ruseckas, Gediminas Juzeliunas, Teodora Kirova, Marcis Auzinsh, Ying-Cheng Chen, Yong-Fan Chen, and Ite A. Yu(参考訳) 我々は、電磁誘導透過(EIT)の効果に基づき、高光学深度(OD)と低主量子数(n$)のRydberg状態の媒体を用いて、弱い相互作用を持つ多体多体系(Rydberg polariton)を作成することを提案した。 我々は,弱い相互作用を持つリドベルク偏光子に対する平均場アプローチを実験的に検証し,双極子-双極子相互作用(DDI)による位相シフトと減衰を観察した。 DDIによる位相シフトや減衰は、リドベルク偏光子間の弾性的あるいは非弾性的な衝突の結果と見なすことができる。 さらに, 弱い相互作用系を用いることで, DDI強度が大きいと, システム出口におけるRydberg偏光子の運動量分布の幅が, 入口に比べて顕著に小さくなることがわかった。 この研究では、$n =32$と5$\times10^{10}$(または2$\times10^{9}$)cm$^{-3}$の原子(または偏光子)密度を計算した。 この観測により、弾性衝突は、この弱い相互作用を持つ多体系の熱化過程を駆動するのに十分であることが示された。 高OD EIT媒体による$\mu$s-long相互作用時間とDDIによる$\mu$m$^2$-size衝突断面積の組み合わせは、ライドバーグ分極のボース・アインシュタイン凝縮のための新しい実現可能なプラットフォームを示唆している。

We proposed utilizing a medium with a high optical depth (OD) and a Rydberg state of low principal quantum number, $n$, to create a weakly-interacting many-body system of Rydberg polaritons, based on the effect of electromagnetically induced transparency (EIT). We experimentally verified the mean field approach to weakly-interacting Rydberg polaritons, and observed the phase shift and attenuation induced by the dipole-dipole interaction (DDI). The DDI-induced phase shift or attenuation can be viewed as a consequence of the elastic or inelastic collisions among the Rydberg polaritons. Using a weakly-interacting system, we further observed that a larger DDI strength caused a width of the momentum distribution of Rydberg polaritons at the exit of the system to become notably smaller as compared with that at the entrance. In this study, we took $n =32$ and the atomic (or polariton) density of 5$\times10^{10}$ (or 2$\times10^{9}$) cm$^{-3}$. The observations demonstrate that the elastic collisions are sufficient to drive the thermalization process in this weakly-interacting many-body system. The combination of the $\mu$s-long interaction time due to the high-OD EIT medium and the $\mu$m$^2$-size collision cross section due to the DDI suggests a new and feasible platform for the Bose-Einstein condensation of the Rydberg polaritons.
翻訳日:2023-05-12 22:47:03 公開日:2021-05-25
# テンソルネットワーク多様体の境界における最適化

Optimization at the boundary of the tensor network variety ( http://arxiv.org/abs/2006.16963v2 )

ライセンス: Link先を確認
Matthias Christandl, Fulvio Gesmundo, Daniel Stilck Franca, Albert H. Werner(参考訳) テンソルネットワーク状態は、量子多体系の研究において、解析的にも数値的にも広く用いられる変分アンサッツクラスを形成する。 基礎となるグラフが、例えば射影絡み合ったペア状態 (PEPS) のようにサイクルを含むならば、与えられた結合次元のテンソルネットワーク状態の集合は閉でないことが知られている。 閉包はテンソルネットワークの変種である。 近年の研究では、この多様体の境界上の状態は、物理的に興味のある状態のより効率的な表現をもたらすことが示されているが、そのような表現をどのように体系的に見つけ、最適化するかは不明のままである。 我々は、与えられた結合次元のテンソルネットワーク多様体の境界にある状態を含む新しいアンサッツ状態クラスを定義することでこの問題に対処する。 テンソルネットワークの標準アルゴリズムと符号をわずかに修正するだけで、局所ハミルトニアンの基底状態を見つけるために、このクラスを最適化する方法を示す。 本稿では,この手法を異なるモデルに適用し,標準テンソルネットワーク法と比較して好適なエネルギとランタイムを観測する。

Tensor network states form a variational ansatz class widely used, both analytically and numerically, in the study of quantum many-body systems. It is known that if the underlying graph contains a cycle, e.g. as in projected entangled pair states (PEPS), then the set of tensor network states of given bond dimension is not closed. Its closure is the tensor network variety. Recent work has shown that states on the boundary of this variety can yield more efficient representations for states of physical interest, but it remained unclear how to systematically find and optimize over such representations. We address this issue by defining a new ansatz class of states that includes states at the boundary of the tensor network variety of given bond dimension. We show how to optimize over this class in order to find ground states of local Hamiltonians by only slightly modifying standard algorithms and code for tensor networks. We apply this new method to a different of models and observe favorable energies and runtimes when compared with standard tensor network methods.
翻訳日:2023-05-12 01:04:48 公開日:2021-05-25
# スピン鎖における並列エンタングルゲート演算と双方向量子通信

Parallel entangling gate operations and two-way quantum communication in spin chains ( http://arxiv.org/abs/2008.12771v4 )

ライセンス: Link先を確認
Rozhin Yousefjani and Abolfazl Bayat(参考訳) 量子回路の電力は、系のコヒーレンス時間内で実行できる2量子ビット絡みゲートの数によって決定される。 並列量子ゲート演算がなければ、量子シミュレータは浅い回路に制限されることになる。 本稿では,空間的に分離された複数のユーザ間で2量子ビット絡みゲートの実装を並列化するプロトコルを提案し,共有スピンチェーンデータバスを使用する。 提案プロトコルは,各キュービット間の効果的な相互作用を他を乱さずに誘導することにより,クロストークを発生させることなくゲート操作を高速化する。 これは、2つの異なる戦略の形式で記述されたハミルトンパラメータを適切にチューニングすることで達成される。 パラメータのチューニングは異なる双局在化された固有状態を作り、異なる距離量子ビットのペア間の絡み合うゲートの実現に寄与する。 驚くべきことに、このプロトコルのパフォーマンスは、データバスの長さとユーザ数の増加に対して堅牢です。 さらに, 本プロトコルは様々な種類の障害を許容でき, 超伝導系にも適用できることを示した。 提案プロトコルは双方向量子通信の実現に有効である。

The power of a quantum circuit is determined through the number of two-qubit entangling gates that can be performed within the coherence time of the system. In the absence of parallel quantum gate operations, this would make the quantum simulators limited to shallow circuits. Here, we propose a protocol to parallelize the implementation of two-qubit entangling gates between multiple users which are spatially separated, and use a commonly shared spin chain data-bus. Our protocol works through inducing effective interaction between each pair of qubits without disturbing the others, therefore, it increases the rate of gate operations without creating crosstalk. This is achieved by tuning the Hamiltonian parameters appropriately, described in the form of two different strategies. The tuning of the parameters makes different bilocalized eigenstates responsible for the realization of the entangling gates between different pairs of distant qubits. Remarkably, the performance of our protocol is robust against increasing the length of the data-bus and the number of users. Moreover, we show that this protocol can tolerate various types of disorders and is applicable in the context of superconductor-based systems. The proposed protocol can serve for realizing two-way quantum communication.
翻訳日:2023-05-04 11:31:03 公開日:2021-05-25
# 三角法ローゼンモースポテンシャルの熱力学特性と中間子の量子気体への応用

Thermodynamic properties of the trigonometric Rosen-Morse potential and applications to a quantum gas of mesons ( http://arxiv.org/abs/2010.14642v2 )

ライセンス: Link先を確認
Aram Bahroz Brzo and David Alvarez-Castillo(参考訳) 本研究では、メソンの量子気体をカラー電荷双極子と呼ぶ熱力学関数について検討する。 これらは、3次元超球面上の自由量子運動の摂動に変換できる三角形のローゼン・モースポテンシャルの特定のパラメトリゼーション、$S^{3}$、電荷ニュートラル系のみをホストできる多様体、電荷双極子は最小数の成分の構成である。 強い相互作用の理論である量子クロモダイナミックスにおいて、電荷中立性自体が色閉じ込めの重要な側面として表されるため、ハドロンの物理学、特に中間子のような色電荷双極子の量子気体における温度現象の評価に、我々の研究結果が関心を持つと期待する。 結果は$f_0$と$j/\psi$ mesonsで示される。

In this study we work out thermodynamic functions for a quantum gas of mesons described as color-electric charge dipoles. They refer to a particular parametrization of the trigonometric Rosen-Morse potential which allows to be transformed to a perturbation of free quantum motion on the three-dimensional hyper-sphere, $S^{3}$, a manifold that can host only charge-neutral systems, the charge dipoles being the configuration of the minimal number of constituents. To the amount charge neutrality manifests itself as an important aspect of the color confinement in the theory of strong interaction, the Quantum Chromodynamics, we expect our findings to be of interest to the evaluation of temperature phenomena in the physics of hadrons and in particular in a quantum gas of color charge dipoles as are the mesons. The results are illustrated for $f_0$ and $J/\psi$ mesons.
翻訳日:2023-04-27 08:23:16 公開日:2021-05-25
# 移動マルコフ鎖からの近似ユニタリ3設計

Approximate Unitary 3-Designs from Transvection Markov Chains ( http://arxiv.org/abs/2011.00128v2 )

ライセンス: Link先を確認
Xinyu Tan, Narayanan Rengaswamy, and Robert Calderbank(参考訳) unitary $k$-designs はユニタリ行列の確率的アンサンブルであり、最初の $k$ 統計モーメントはハール測度が与えられた全ユニタリ群と一致する。 先行研究において、古典 $\mathbb{Z}_4$-linear Kerdock 符号の自己同型群はユニタリな 2$-design に写像し、グラフ状態を介して新しい古典量子接続を確立することを示した。 本稿では、このKerdock 2$-designとシンプレクティック・トランスベクションを混合したマルコフプロセスを構築し、このプロセスが$\epsilon$-approximate unitary $3$-designを生成することを示す。 我々は、頂点がパウリ行列であるグラフを構築し、2つの頂点が有向エッジで連結であることは、それらが可換であるときに限る。 このパウリグラフの頂点、辺、および非辺に推移的なユニタリアンサンブルは、正確に3$-設計であり、我々の過程の定常分布はこの性質を持つ。 ケルドック符号の対称性に関して、ポーリグラフは2種類のエッジを持ち、kerdock 2$-designは同一タイプのエッジを混合し、transvectionsはタイプを混合する。 より正確には、$m$ qubitsでは、プロセスは$O(\log(N^5/\epsilon))$ランダムな対流をサンプリングし、$N = 2^m$ となり、続いてランダムな Kerdock 2$-design 要素とランダムな Pauli 行列が続く。 したがって、プロトコルの単純さはいくつかのアプリケーションにとって魅力的かもしれない。 ハードウェアの観点から見れば、2ドル(約2,400円)の対流は、トラップイオン量子コンピュータのネイティブな2ドル(約2,400円)の演算を形成するM{\o}lmer-S{\o}rensenゲートに正確にマッピングされる。 したがって、この2ドルのキュービット変換のみを含む約3ドルの設計を構築するために、私たちの作業を拡張することが可能かもしれません。

Unitary $k$-designs are probabilistic ensembles of unitary matrices whose first $k$ statistical moments match that of the full unitary group endowed with the Haar measure. In prior work, we showed that the automorphism group of classical $\mathbb{Z}_4$-linear Kerdock codes maps to a unitary $2$-design, which established a new classical-quantum connection via graph states. In this paper, we construct a Markov process that mixes this Kerdock $2$-design with symplectic transvections, and show that this process produces an $\epsilon$-approximate unitary $3$-design. We construct a graph whose vertices are Pauli matrices, and two vertices are connected by directed edges if and only if they commute. A unitary ensemble that is transitive on vertices, edges, and non-edges of this Pauli graph is an exact $3$-design, and the stationary distribution of our process possesses this property. With respect to the symmetries of Kerdock codes, the Pauli graph has two types of edges; the Kerdock $2$-design mixes edges of the same type, and the transvections mix the types. More precisely, on $m$ qubits, the process samples $O(\log(N^5/\epsilon))$ random transvections, where $N = 2^m$, followed by a random Kerdock $2$-design element and a random Pauli matrix. Hence, the simplicity of the protocol might make it attractive for several applications. From a hardware perspective, $2$-qubit transvections exactly map to the M{\o}lmer-S{\o}rensen gates that form the native $2$-qubit operations for trapped-ion quantum computers. Thus, it might be possible to extend our work to construct an approximate $3$-design that only involves such $2$-qubit transvections.
翻訳日:2023-04-26 07:31:19 公開日:2021-05-25
# 超対称性と量子計算

Supersymmetry and Quantum Computation ( http://arxiv.org/abs/2011.01239v2 )

ライセンス: Link先を確認
P. Marcos Crichigno(参考訳) 超対称性と古典および量子計算の相互作用について論じる。 まず、$\mathcal n \leq 2$ 量子力学系のウィッテン指数を計算する問題は$\#p$完全であり、従って難解であることを示した。 次に、量子ビットと超対称性量子回路の空間における超対称性の概念を導入し、それらの性質について論じる。 特に、これらは超対称系の典型的ロバスト性を持つ量子アルゴリズムの非自明なサブクラスを定義する。 超対称SYKモデルやフェルミオンハードコアモデルを含む具体的な例について論じる。 いくつかのアプリケーションとオープンな質問が提案されている。

The interplay between supersymmetry and classical and quantum computation is discussed. First, it is shown that the problem of computing the Witten index of $\mathcal N \leq 2$ quantum mechanical systems is $\#P$-complete and therefore intractable. Then, the notions of supersymmetry in the space of qubits and supersymmetric quantum circuits are introduced and some of their properties discussed. In particular, it is shown that these define a nontrivial subclass of quantum algorithms with robustness properties typical of supersymmetric systems. Concrete examples, including the supersymmetric SYK model and fermion hard-core models are discussed. Some applications and open questions are suggested.
翻訳日:2023-04-26 01:41:36 公開日:2021-05-25
# ハイパーエンタングルメントエンハンス量子照明

Hyperentanglement-enhanced quantum illumination ( http://arxiv.org/abs/2011.07741v4 )

ライセンス: Link先を確認
Ashwith Varadaraj Prabhu, Baladitya Suri, C.M. Chandrashekar(参考訳) 量子照明において、アイドラーモードに絡み合った光の信号モードを熱雑音で入浴した疑いのある物体に向けて送信し、記憶されたアイドラーモードとともに帰還モードを測定し、物体の存在の有無を判定する。 この過程において、絡み合いは破壊されるが、古典的相関や拡大ヒルベルト空間の形での利点は残る。 本稿では,低ノイズ領域における最もよく知られた量子照明法に対する誤差確率指数の12db性能向上を実現するために,偏波と周波数の2つの自由度で超エンタングルされたプローブ状態を用いることを提案する。 本研究では,4つの光パラメトリック増幅器(opa)を用いた簡易受信機モデルを提案し,高雑音域におけるフィードフォワードサム周波数発生器(ff-sfg)の性能に適合するプローブ状態のハイパーエンタングルを利用する。 提案モデルにおける各OPAをFF-SFG受信機に置き換えることで、単独のFF-SFG受信機の性能をさらに3dB向上させることができる。

In quantum illumination, the signal mode of light, entangled with an idler mode, is dispatched towards a suspected object bathed in thermal noise and the returning mode, along with the stored idler mode, is measured to determine the presence or absence of the object. In this process, entanglement is destroyed but its benefits in the form of classical correlations and enlarged Hilbert space survive. Here, we propose the use of probe state hyperentangled in two degrees of freedom - polarization and frequency, to achieve a significant 12dB performance improvement in error probability exponent over the best known quantum illumination procedure in the low noise regime. We present a simple receiver model using four optical parametric amplifiers (OPA) that exploits hyperentanglement in the probe state to match the performance of the feed-forward sum-frequency generator (FF-SFG) receiver in the high noise regime. By replacing each OPA in the proposed model with a FF-SFG receiver, further 3dB improvement in the performance of a lone FF-SFG receiver can be seen.
翻訳日:2023-04-23 23:51:02 公開日:2021-05-25
# アンハーモニック発振器:解法

Anharmonic oscillator: a solution ( http://arxiv.org/abs/2011.14451v2 )

ライセンス: Link先を確認
Alexander V Turbiner, Juan Carlos del Valle(参考訳) ポテンシャル $v(x)= x^2+g^2 x^4$ を持つ1次元量子無調和発振器に対しては、摂動理論 (pt) が $g^2$ (弱結合状態) の力で成立し、エネルギーに対して$\hbar$ の半古典的拡大が一致することが示されている。 これは、x$-space および $(gx)$-space におけるダイナミクスが、実効結合定数 $\hbar g^2$ を持つ同じエネルギースペクトルに対応するという事実に関連している。 これら2つの空間の力学を支配する2つの方程式、それぞれ Riccati-Bloch (RB) と Generalized Bloch (GB) 方程式が導出される。 波動関数の対数微分に対する$g^2$のPTは、RB方程式に対するPT($x$係数の多項式)と、パス積分形式論における密度行列に対するループ展開に対応するGB方程式に対する$\hbar$の真の半古典的展開をもたらす。 これら2つの拡張の2パラメトリック補間は、任意の$g^2 \geq 0$に対して、前代未聞の精度$\sim 10^{-6}$と前代未聞の精度$\sim 10^{-9}-10^{-10}$の波動関数の均一な近似をもたらす。 放射状クォート振動子の一般化について概説する。

It is shown that for the one-dimensional quantum anharmonic oscillator with potential $V(x)= x^2+g^2 x^4$ the Perturbation Theory (PT) in powers of $g^2$ (weak coupling regime) and the semiclassical expansion in powers of $\hbar$ for energies coincide. It is related to the fact that the dynamics in $x$-space and in $(gx)$-space corresponds to the same energy spectrum with effective coupling constant $\hbar g^2$. Two equations, which govern the dynamics in those two spaces, the Riccati-Bloch (RB) and the Generalized Bloch (GB) equations, respectively, are derived. The PT in $g^2$ for the logarithmic derivative of wave function leads to PT (with polynomial in $x$ coefficients) for the RB equation and to the true semiclassical expansion in powers of $\hbar$ for the GB equation, which corresponds to a loop expansion for the density matrix in the path integral formalism. A 2-parametric interpolation of these two expansions leads to a uniform approximation of the wavefunction in $x$-space with unprecedented accuracy $\sim 10^{-6}$ locally and unprecedented accuracy $\sim 10^{-9}-10^{-10}$ in energy for any $g^2 \geq 0$. A generalization to the radial quartic oscillator is briefly discussed.
翻訳日:2023-04-22 16:43:13 公開日:2021-05-25
# 導出価格における量子アドバンテージの留意点

A Threshold for Quantum Advantage in Derivative Pricing ( http://arxiv.org/abs/2012.03819v3 )

ライセンス: Link先を確認
Shouvanik Chakrabarti, Rajiv Krishnakumar, Guglielmo Mazzola, Nikitas Stamatopoulos, Stefan Woerner and William J. Zeng(参考訳) 価格デリバティブにおいて、価値ある量子優位性に必要なリソースに上限を与える。 そこで,本稿では,AutocallableおよびTarget Accrual Redemption Forward(TARF)誘導体をベンチマークとして用いた,有用な量子デリバティブ価格に関する最初の完全なリソース推定を行う。 我々は既知のアプローチにおけるブロッキングの問題を明らかにし、量子微分価格の新しい方法である再パラメータ化法を導入する。 この方法は、事前訓練された変動回路とフォールトトレラント量子コンピューティングを組み合わせて、リソース要求を劇的に削減する。 検討したベンチマークのユースケースには,8kの論理量子ビットと5500万のT-depthが必要です。 量子アドバンテージは1秒単位でこのプログラムを実行する必要があると推定する。 ここでのリソース要件は現在のシステムには及ばないが、アルゴリズム、実装、計画されたハードウェアアーキテクチャのさらなる改善のためのロードマップを提供することを期待している。

We give an upper bound on the resources required for valuable quantum advantage in pricing derivatives. To do so, we give the first complete resource estimates for useful quantum derivative pricing, using autocallable and Target Accrual Redemption Forward (TARF) derivatives as benchmark use cases. We uncover blocking challenges in known approaches and introduce a new method for quantum derivative pricing - the re-parameterization method - that avoids them. This method combines pre-trained variational circuits with fault-tolerant quantum computing to dramatically reduce resource requirements. We find that the benchmark use cases we examine require 8k logical qubits and a T-depth of 54 million. We estimate that quantum advantage would require executing this program at the order of a second. While the resource requirements given here are out of reach of current systems, we hope they will provide a roadmap for further improvements in algorithms, implementations, and planned hardware architectures.
翻訳日:2023-04-21 21:05:50 公開日:2021-05-25
# 二元パウリ測度の自己検定は絡み合いも次元制限も必要としない

Self-testing of binary Pauli measurements requiring neither entanglement nor any dimensional restriction ( http://arxiv.org/abs/2012.07593v3 )

ライセンス: Link先を確認
Ananda G. Maity, Shiladitya Mal, Chellasamy Jebarathinam and A. S. Majumdar(参考訳) 未知のプロバイダから受信した量子デバイスの特性は、あらゆる量子情報処理プロトコルにとって重要なタスクである。 自己テストプロトコルは、観測された統計から量子成分を最小限の仮定で証明する目的で設計されている。 本稿では,Leggett-Garg不等式に違反した2値パウリ測定の自己検証プロトコルを提案する。 時間的相関に基づくシナリオは、コストのかかる脆弱なリソースである絡み合いを必要としない。 さらに,前述した準備・測定シナリオにおける自己テストプロトコルとは異なり,本手法では次元制限や測定値のタイプに対する厳密な仮定を必要としない。 我々はさらに,この非探索的な測定領域のロバスト性についても分析する。

Characterization of quantum devices received from unknown providers is a significant primary task for any quantum information processing protocol. Self-testing protocols are designed for this purpose of certifying quantum components from the observed statistics under a set of minimal assumptions. Here we propose a self-testing protocol for certifying binary Pauli measurements employing the violation of a Leggett-Garg inequality. The scenario based on temporal correlations does not require entanglement, a costly and fragile resource. Moreover, unlike previously proposed self-testing protocols in the prepare and measure scenario, our approach requires neither dimensional restrictions, nor other stringent assumptions on the type of measurements. We further analyse the robustness of this hitherto unexplored domain of self-testing of measurements.
翻訳日:2023-04-20 21:22:18 公開日:2021-05-25
# 非理想的単光子状態のフォック状態束縛特性

Experimental Fock-State Bunching Capability of Non-Ideal Single-Photon States ( http://arxiv.org/abs/2012.08544v2 )

ライセンス: Link先を確認
P. Zapletal, T. Darras, H. Le Jeannic, A. Cavaill\`es, G. Guccione, J. Laurat, R. Filip(参考訳) 先進的な量子技術と量子物理学の基礎的なテストは、線形光学回路において複数の単一光子の干渉を必要とする。 この干渉により、光子がより高いフォック状態へと束ねられ、複雑なボソニックな振る舞いが引き起こされる。 これらの困難なタスクは、多くの独立した初期リソースをベンチマークするための集合的な基準をタイムリーに開発する必要がある。 ここで n 個の独立不完全光子が最終的に Fock 状態 $|n \rangle$ にまとめられるかどうかを決定する。 そこで本研究では, 位相空間干渉を量子化器として用いる単一光子源に対して, 実験的なフォック状態束縛機能を導入する。 自己相関関数とは対照的に、この操作アプローチは残差多光子成分だけでなく真空混和や個々の光子統計の分散も考慮に入れている。 この手法を光パラメトリック発振器から発生する高純度単一光子に適用し、少なくとも14のフォック状態に導かれることを示す。 本研究は,単一光子源に対する新しい集合的ベンチマークと,それに続く厳密なアプリケーションでの利用を実証する。

Advanced quantum technologies, as well as fundamental tests of quantum physics, crucially require the interference of multiple single photons in linear-optics circuits. This interference can result in the bunching of photons into higher Fock states, leading to a complex bosonic behaviour. These challenging tasks timely require to develop collective criteria to benchmark many independent initial resources. Here we determine whether n independent imperfect single photons can ultimately bunch into the Fock state $|n \rangle$. We thereby introduce an experimental Fock-state bunching capability for single-photon sources, which uses phase-space interference for extreme bunching events as a quantifier. In contrast to autocorrelation functions, this operational approach takes into account not only residual multi-photon components but also vacuum admixture and the dispersion of the individual photon statistics. We apply this approach to high-purity single photons generated from an optical parametric oscillator and show that they can lead to a Fock-state capability of at least 14. Our work demonstrates a novel collective benchmark for single-photon sources and their use in subsequent stringent applications.
翻訳日:2023-04-20 18:44:11 公開日:2021-05-25
# 準備・測定実験における制限不信に基づく半デバイス非依存フレームワーク

Semi-device-independent framework based on restricted distrust in prepare-and-measure experiments ( http://arxiv.org/abs/2101.07830v2 )

ライセンス: Link先を確認
Armin Tavakoli(参考訳) 量子デバイスの性能に対する不信度を実験者が調整できる、準備・測定実験のための半デバイス非依存のフレームワークが導入された。 この枠組みでは、受信機が特徴のない測定装置を操作し、送信者が一連の対象状態に対して有界忠実度を有する状態を出力する準備装置を操作する。 ヒルベルト空間次元に関する仮定は不要である。 量子相関の集合は、内部と外部の両方から研究され、境界づけられる。 さらに、有界不信による量子状態判別の最適性能を導出し、検出効率の証明に適用する。 量子上古典的優位性を実証し、そのような優位性と不信の程度を考察する。 最後に、半デバイス非依存な乱数生成のための効率的なスキームを開発した。

A semi-device-independent framework for prepare-and-measure experiments is introduced in which an experimenter can tune the degree of distrust in the performance of the quantum devices. In this framework, a receiver operates an uncharacterised measurement device and a sender operates a preparation device that emits states with a bounded fidelity with respect to a set of target states. No assumption on Hilbert space dimension is required. The set of quantum correlations is investigated and bounded from both the interior and the exterior. Furthermore, the optimal performance of quantum state discrimination with bounded distrust is derived and applied to certification of detection efficiency. Quantum-over-classical advantages are demonstrated and the magnitude of distrust compatible with such advantages is explored. Finally, efficient schemes for semi-device-independent random number generation are developed.
翻訳日:2023-04-14 17:53:48 公開日:2021-05-25
# 量子誤り訂正における相関と重みの影響

Impact of correlations and heavy-tails on quantum error correction ( http://arxiv.org/abs/2101.11631v2 )

ライセンス: Link先を確認
B.D. Clader, Colin J. Trout, Jeff P. Barnes, Kevin Schultz, Gregory Quiroz, Paraj Titum(参考訳) 重み付き分布から回転角を引いた場合,空間的および時間的関連のある単一量子ビット回転誤差は量子回路の重み付き誤差を引き起こす可能性がある。 これにより量子誤差の補正が分解され、還元されるか、場合によっては符号化された論理量子ビットが保護されない。 ヘビーテール現象は自然界で広く見られるが、現在の量子処理装置においてこれらの統計によるノイズが存在するかどうかについてはほとんど研究されていない。 さらに、そのような統計を用いてノイズの存在をテストできるトモグラフィまたはノイズスペクトロスコピープロトコルを開発することは、オープンな問題である。 これらの結果は、量子プロセッサにおける空間および時間相関ノイズの起源に関する第一原理研究の継続とともに、そのようなエラーの存在を確実に検出または拒否できる量子特性評価法の必要性を示唆する。 このようなノイズが存在する場合は、フォールトトレラント量子コンピュータの性能を著しく阻害するため、物理的または制御ベースの緩和プロトコルを開発する必要がある。

We show that space- and time-correlated single-qubit rotation errors can lead to high-weight errors in a quantum circuit when the rotation angles are drawn from heavy-tailed distributions. This leads to a breakdown of quantum error correction, yielding reduced or in some cases no protection of the encoded logical qubits. While heavy-tailed phenomena are prevalent in the natural world, there is very little research as to whether noise with these statistics exist in current quantum processing devices. Furthermore, it is an open problem to develop tomographic or noise spectroscopy protocols that could test for the existence of noise with such statistics. These results suggest the need for quantum characterization methods that can reliably detect or reject the presence of such errors together with continued first-principles studies of the origins of space- and time-correlated noise in quantum processors. If such noise does exist, physical or control-based mitigation protocols must be developed to mitigate this noise as it would severely hinder the performance of fault-tolerant quantum computers.
翻訳日:2023-04-13 19:50:12 公開日:2021-05-25
# 散逸誘起相転移の識別クラスとその普遍的特性

Distinctive class of dissipation-induced phase transitions and their universal characteristics ( http://arxiv.org/abs/2101.12227v2 )

ライセンス: Link先を確認
Matteo Soriente, Toni L. Heugel, Keita Arimitsu, R. Chitra, Oded Zilberberg(参考訳) 系を非熱環境に結合することは、閉じた系の相図に大きな影響を与え、散逸誘起相転移の特殊なクラスを生じさせる。 このような遷移は系を基底状態から外し、より高いエネルギーの定常状態を安定させ、放散動力学の唯一の引き金となる。 本研究では、このユビキタスな現象学とそのオープンシステム力学への応用を特徴付ける統一方法論を提案する。 具体的には、対称性を損なう位相を含む閉系の位相図を分析し、対応する励起スペクトルを探索する。 システムを開くと、環境はシステムの対称性を破る傾向を圧倒し、順序パラメータを変更する。 その結果、同じ順序で分離された異なる位相が連結され、新しい位相コスト領域が出現する。 興味深いことに、励起はシンプレクティックノルムの変化によって新しく接続された領域で異なり、散逸の導入にロバストである。 その結果、散逸安定化領域をまたいでシステムを1フェーズからもう1フェーズに調整することにより、開放系ゆらぎは異常な点のようなシナリオを示し、そこではゆらぎが過大に損傷されるが、系の動的応答関数において反対の符号で再現れる。 過減衰領域は、ゆらぎのスクイーズとも関係している。 パラメトリック共振器と光マッター系の2つの顕著な例において,そのような散逸現象の広汎性を示す。 我々の研究は、量子相転移とゼロ温度開放系とを決定的に区別している。

Coupling a system to a nonthermal environment can profoundly affect the phase diagram of the closed system, giving rise to a special class of dissipation-induced phase transitions. Such transitions take the system out of its ground state and stabilize a higher-energy stationary state, rendering it the sole attractor of the dissipative dynamics. In this work, we present a unifying methodology, which we use to characterize this ubiquitous phenomenology and its implications for the open system dynamics. Specifically, we analyze the closed system's phase diagram, including symmetry-broken phases, and explore their corresponding excitations' spectra. Opening the system, the environment can overwhelm the system's symmetry-breaking tendencies, and changes its order parameter. As a result, isolated distinct phases of similar order become connected, and new phase-costability regions appear. Interestingly, the excitations differ in the newly-connected regions through a change in their symplectic norm, which is robust to the introduction of dissipation. As a result, by tuning the system from one phase to the other across the dissipation-stabilized region, the open system fluctuations exhibit an exceptional point-like scenario, where the fluctuations become overdamped, only to reappear with an opposite sign in the dynamical response function of the system. The overdamped region is also associated with squeezing of the fluctuations. We demonstrate the pervasive nature of such dissipation-induced phenomena in two prominent examples, namely in parametric resonators and in light-matter systems. Our work draws a crucial distinction between quantum phase transitions and their zero-temperature open system counterparts.
翻訳日:2023-04-13 11:21:51 公開日:2021-05-25
# モデル、市場、選挙予測

Models, Markets, and the Forecasting of Elections ( http://arxiv.org/abs/2102.04936v4 )

ライセンス: Link先を確認
Rajiv Sethi, Julie Seager, Emily Cai, Daniel M. Benjamin, Fred Morstatter(参考訳) 我々は、2020年の米大統領選挙における戦場国家の確率的予測を、The Economistが発行したモデルとPredictIt交換所の価格という、7ヶ月にわたる2つの情報源の日次データを用いて検討する。 我々は、選挙の数ヶ月前に市場のパフォーマンスが向上し、選挙が近づくにつれてモデルが良くなるという、時間とともに正確さの体系的な違いを見出した。 2つの予測の単純な平均は、特定の状態のペアのコンポーネント予測を上回ることができなくても、全体のどちらかよりもパフォーマンスが良い。 この効果は、モデルと市場が異なる状態において異なる種類のエラーを発生させるためである。 本稿では,ハイブリッド予測手法に価値があることを結論し,取引ボットを介してモデル予測を組み込んで合成予測を生成する市場設計を提案する。 また, 予測性能評価のための新たな基準として使用できる収益性試験を提案し, 実施する。

We examine probabilistic forecasts for battleground states in the 2020 US presidential election, using daily data from two sources over seven months: a model published by The Economist, and prices from the PredictIt exchange. We find systematic differences in accuracy over time, with markets performing better several months before the election, and the model performing better as the election approached. A simple average of the two forecasts performs better than either one of them overall, even though no average can outperform both component forecasts for any given state-date pair. This effect arises because the model and the market make different kinds of errors in different states: the model was confidently wrong in some cases, while the market was excessively uncertain in others. We conclude that there is value in using hybrid forecasting methods, and propose a market design that incorporates model forecasts via a trading bot to generate synthetic predictions. We also propose and conduct a profitability test that can be used as a novel criterion for the evaluation of forecasting performance.
翻訳日:2023-04-12 09:11:29 公開日:2021-05-25
# 中性原子配列を用いた決定論的高速スクランブル

Deterministic Fast Scrambling with Neutral Atom Arrays ( http://arxiv.org/abs/2102.13117v3 )

ライセンス: Link先を確認
Tomohiro Hashizume and Gregory Bentsen and Sebastian Weber and Andrew J. Daley(参考訳) 高速スクランブラー(fast scramblers)は、多体絡み合いを時間スケールで生成する力学量子システムであり、システムサイズは$n$で対数的に増加する。 我々は、中性原子配列の短期実験で実現可能な決定論的高速スクランブル量子回路の族を提案し、検討する。 我々は,近接するRydberg相互作用,大域的な単一量子ビット回転,補助的なツイーザアレイによって促進されるシャッフル操作という3つの実験ツールが,近接するゲートの並列アプリケーションのみを用いて量子情報をスクランブルできる非局所相互作用グラフを生成するのに十分であることを示す。 これらのツールは、高度に制御されプログラマブルな方法で高速スクランブルダイナミクスへの直接実験的なアクセスを可能にする。

Fast scramblers are dynamical quantum systems that produce many-body entanglement on a timescale that grows logarithmically with the system size $N$. We propose and investigate a family of deterministic, fast scrambling quantum circuits realizable in near-term experiments with arrays of neutral atoms. We show that three experimental tools -- nearest-neighbour Rydberg interactions, global single-qubit rotations, and shuffling operations facilitated by an auxiliary tweezer array -- are sufficient to generate nonlocal interaction graphs capable of scrambling quantum information using only $O(\log N)$ parallel applications of nearest-neighbor gates. These tools enable direct experimental access to fast scrambling dynamics in a highly controlled and programmable way, and can be harnessed to produce highly entangled states with varied applications.
翻訳日:2023-04-09 22:30:21 公開日:2021-05-25
# 長距離フェルミオン系における測定誘起暗黒状態相転移

Measurement-induced dark state phase transitions in long-ranged fermion systems ( http://arxiv.org/abs/2105.08076v2 )

ライセンス: Link先を確認
Thomas M\"uller, Sebastian Diehl, Michael Buchhold(参考訳) 連続的な局所密度測定に曝露した長距離ホッピングを持つ自由フェルミオンの量子力学における非伝統的な代数的スケーリング位相を同定する。 非伝統的な位相は、代数的絡み合いエントロピー成長と、密度-密度相関関数の遅い代数的崩壊によって特徴づけられる。 測定速度とは独立に1<p \lesssim 3/2$の崩壊指数をホッピングするために発生する。 代数的位相は2つの臨界線を生じさせ、対数的絡み合い成長が小さい臨界相と、大きな監視レートで一定の絡み合いエントロピーを持つ領域ロー位相とを分離する。 摂動的再正規化群分析は、長距離位相への遷移もまた、修正正弦-ゴルドン理論(英語版)に対応する非慣習的であることを示唆する。 観測波動関数の正確な数値シミュレーションとレプリカ場理論による解析的予測を比較すると、優れた定量的一致が得られる。 これは、測定誘起相転移が有効で非エルミタンハミルトニアンの暗黒状態における量子相転移であるという見解を裏付ける。

We identify an unconventional algebraic scaling phase in the quantum dynamics of free fermions with long range hopping, which are exposed to continuous local density measurements. The unconventional phase is characterized by an algebraic entanglement entropy growth, and by a slow algebraic decay of the density-density correlation function, both with a fractional exponent. It occurs for hopping decay exponents $1< p \lesssim 3/2$ independently of the measurement rate. The algebraic phase gives rise to two critical lines, separating it from a critical phase with logarithmic entanglement growth at small, and an area law phase with constant entanglement entropy at large monitoring rates. A perturbative renormalization group analysis suggests that the transitions to the long-range phase are also unconventional, corresponding to a modified sine-Gordon theory. Comparing exact numerical simulations of the monitored wave functions with analytical predictions from a replica field theory approach yields an excellent quantitative agreement. This confirms the view of a measurement-induced phase transition as a quantum phase transition in the dark state of an effective, non-Hermitian Hamiltonian.
翻訳日:2023-03-30 22:05:17 公開日:2021-05-25
# Si/SiGe量子ドットにおける強電子-電子相互作用

Strong electron-electron interactions in Si/SiGe quantum dots ( http://arxiv.org/abs/2105.10645v2 )

ライセンス: Link先を確認
H. Ekmel Ercan, S. N. Coppersmith, Mark Friesen(参考訳) 電子間の相互作用は多電子量子ドットの形状と機能に強く影響を与える。 結果として生じる電荷分布は、ウィグナー分子の場合のように、ドット外の状態へのエネルギースペクトルとトンネルの影響によって局所化することができる。 シリコンバレー、軌道、相互作用エネルギースケールの間の相互作用のため、シリコンドットの状況はさらに複雑である。 本稿では,SiGe/Si/SiGe量子井戸にゼロ磁場で形成される静電閉じ込め量子ドットの2電子波動関数について,強結合法とフル構成相互作用法(FCI)法を組み合わせて検討し,量子井戸界面における原子スケール障害を考慮した。 我々は、強い相互作用と弱い相互作用を持つシステムの境界にまたがる最近の量子ビット実験に基づいてドットをモデル化し、リッチで多様な振る舞いを示す。 我々の計算は、弱い閉じ込めによって誘導される強い電子-電子相互作用は、低い起伏の一重項励起エネルギー(ST)を著しく抑制できることを示している。 しかし、界面障害による谷-軌道相互作用が弱い場合、ST分割は電子-電子相互作用が強く、ウィグナー-分子の挙動が観察される場合でも、その非相互作用値に近づく。 これらの結果は、予測可能な性質を持つ量子ドット量子ビットの設計と製造に重要な意味を持つ。

Interactions between electrons can strongly affect the shape and functionality of multi-electron quantum dots. The resulting charge distributions can be localized, as in the case of Wigner molecules, with consequences for the energy spectrum and tunneling to states outside the dot. The situation is even more complicated for silicon dots, due to the interplay between valley, orbital, and interaction energy scales. Here, we study two-electron wavefunctions in electrostatically confined quantum dots formed in a SiGe/Si/SiGe quantum well at zero magnetic field, using a combination of tight-binding and full-configuration-interaction (FCI) methods, and taking into account atomic-scale disorder at the quantum well interface. We model dots based on recent qubit experiments, which straddle the boundary between strongly interacting and weakly interacting systems, and display a rich and diverse range of behaviors. Our calculations show that strong electron-electron interactions, induced by weak confinement, can significantly suppress the low-lying, singlet-triplet (ST) excitation energy. However, when the valley-orbit interactions caused by interfacial disorder are weak, the ST splitting can approach its noninteracting value, even when the electron-electron interactions are strong and Wigner-molecule behavior is observed. These results have important implications for the rational design and fabrication of quantum dot qubits with predictable properties.
翻訳日:2023-03-30 03:14:27 公開日:2021-05-25
# Si/SiGeヘテロ構造における2電子量子ドットの電荷-ノイズレジリエンス

Charge-noise resilience of two-electron quantum dots in Si/SiGe heterostructures ( http://arxiv.org/abs/2105.10643v2 )

ライセンス: Link先を確認
H. Ekmel Ercan, Mark Friesen, S. N. Coppersmith(参考訳) バレー自由度はシリコンスピン量子ビットの課題と機会を提供する。 一重項三重項状態に対する重要な考慮は、谷対軌道励起からなる2つの異なる三重項の存在である。 ここでは,2つの三重項が典型的手術系に存在することを示すが,三重項のみが突発音に対する本質的な保護を提供する。 さらに、この保護は、より強い閉じ込めのある点において自然に発生することを示す。 これらの結果はシリコンベースの多電子量子ビットに固有の利点を示す。

The valley degree of freedom presents challenges and opportunities for silicon spin qubits. An important consideration for singlet-triplet states is the presence of two distinct triplets, comprised of valley vs. orbital excitations. Here we show that both of these triplets are present in the typical operating regime, but that only the valley-excited triplet offers intrinsic protection against charge noise. We further show that this protection arises naturally in dots with stronger confinement. These results reveal an inherent advantage for silicon-based multi-electron qubits.
翻訳日:2023-03-30 03:14:03 公開日:2021-05-25
# Twitterにおける有害会話の構造

The Structure of Toxic Conversations on Twitter ( http://arxiv.org/abs/2105.11596v1 )

ライセンス: Link先を確認
Martin Saveski, Brandon Roy, Deb Roy(参考訳) ソーシャルメディアプラットフォームは、リッチで活気ある会話をオンラインで実現することを約束するが、その可能性はしばしば反社会的行動によって妨げられる。 本稿では,twitter上での会話における構造と毒性の関係について検討する。 1年間で1億1800万の会話(ツイート5850万、ユーザー440万)を収集し、主要なニュースメディアが投稿または言及したツイートと、2018年の米国中間選挙に4ヶ月以上出馬した候補者によって促された。 私たちは、個人、ダイナマイト、グループレベルでの会話を分析します。 個人レベルでは、毒性は多くの低レベルから中程度の有害なユーザーに分散している。 ダイアドレベルでは、有害な返信は、ソーシャルなつながりを持っていないユーザや、ポスターと多くの共通の友人を共有していないユーザから来る可能性が高い。 グループレベルでは、有害な会話はより大きく、より広く、より深い応答木を持つ傾向にあるが、スパーサーはグラフに従う。 会話構造の予測力をテストするために,2つの予測タスクを検討する。 第1の予測課題では,最初の10の応答で会話が有害になるかどうかを,構造的特徴を用いて予測できることを実証する。 第2の予測課題では,会話の構造的特徴が,特定のユーザによって投稿された次の応答が有害であるか否かを予測できることを示す。 いずれの予測課題においても,会話の構造的特徴と言語的特徴が相補的であることを観察する。 本研究は,より健全なソーシャルメディアプラットフォームの設計を示唆し,会話の構造的特徴に基づくモデルを用いて,早期に有毒な兆候を検知し,潜在的に有毒な方向で会話を制御できることを実証する。

Social media platforms promise to enable rich and vibrant conversations online; however, their potential is often hindered by antisocial behaviors. In this paper, we study the relationship between structure and toxicity in conversations on Twitter. We collect 1.18M conversations (58.5M tweets, 4.4M users) prompted by tweets that are posted by or mention major news outlets over one year and candidates who ran in the 2018 US midterm elections over four months. We analyze the conversations at the individual, dyad, and group level. At the individual level, we find that toxicity is spread across many low to moderately toxic users. At the dyad level, we observe that toxic replies are more likely to come from users who do not have any social connection nor share many common friends with the poster. At the group level, we find that toxic conversations tend to have larger, wider, and deeper reply trees, but sparser follow graphs. To test the predictive power of the conversational structure, we consider two prediction tasks. In the first prediction task, we demonstrate that the structural features can be used to predict whether the conversation will become toxic as early as the first ten replies. In the second prediction task, we show that the structural characteristics of the conversation are also predictive of whether the next reply posted by a specific user will be toxic or not. We observe that the structural and linguistic characteristics of the conversations are complementary in both prediction tasks. Our findings inform the design of healthier social media platforms and demonstrate that models based on the structural characteristics of conversations can be used to detect early signs of toxicity and potentially steer conversations in a less toxic direction.
翻訳日:2023-03-29 21:18:57 公開日:2021-05-25
# 「基本的安全よりも製品や光沢を推し進めること」 スマートホームの確保における社会技術課題のマッピング

'They're all about pushing the products and shiny things rather than fundamental security' Mapping Socio-technical Challenges in Securing the Smart Home ( http://arxiv.org/abs/2105.11751v1 )

ライセンス: Link先を確認
Jiahong Chen and Lachlan Urquhart(参考訳) 安全でない接続デバイスは、スマートホーム所有者だけでなく、基盤となるインフラネットワークにも深刻な脅威をもたらす可能性がある。 モノのインターネット(IoT)ベンダとエンドユーザの両方の観点から、サイバーセキュリティのリスクに対処する学術的および規制的な関心が高まっている。 例えば、現在のデータ保護とネットワークセキュリティの法的枠組みに加えて、英国政府は'Secure by Design'キャンペーンを開始した。 組織や個人が自身のサイバーセキュリティリスクを管理する方法については議論が続いているが、iotベンダがエンドユーザに対して、このようなリスクを日常的に利用可能な方法で管理する方法については、まだ明確ではない。 私たちはIoT分野の専門家13人にインタビューし、IoT製品を安全にするための障壁として、技術的、法的、組織的な3つの主要なカテゴリを特定しました。 本稿では,これらの知見の政策決定的意義をさらに議論し,いくつかの提言を行う。

Insecure connected devices can cause serious threats not just to smart home owners, but also the underlying infrastructural network as well. There has been increasing academic and regulatory interest in addressing cybersecurity risks from both the standpoint of Internet of Things (IoT) vendors and that of end-users. In addition to the current data protection and network security legal frameworks, for example, the UK government has initiated the 'Secure by Design' campaign. While there has been work on how organisations and individuals manage their own cybersecurity risks, it remains unclear to what extent IoT vendors are supporting end-users to perform day-to-day management of such risks in a usable way, and what is stopping the vendors from improving such support. We interviewed 13 experts in the field of IoT and identified three main categories of barriers to making IoT products usably secure: technical, legal and organisational. In this paper we further discuss the policymaking implications of these findings and make some recommendations.
翻訳日:2023-03-29 21:10:24 公開日:2021-05-25
# 閉じ込め後のエフィモフ効果蒸発

Efimov effect evaporation after confinement ( http://arxiv.org/abs/2105.11745v1 )

ライセンス: Link先を確認
E. Garrido and A.S. Jensen(参考訳) 量子系の連続的な閉じ込めは、次元 $d$ を連続パラメータとして取る $d$-メソッドによって記述できる。 本研究では, この方法を用いて, スクイード3体システムにおける根平均平方半径を求める方法について詳述する。 これらの観測装置は、系を3次元から2次元に段階的に閉じ込める際の2体しきい値の周りのエフィモフ状態の消失を調べるために用いられる。 粒子の1つが失われることによって消失が起こるが、残りの2つは束縛されている。

The continuous confinement of quantum systems can be described by means of the $d$-method, where the dimension $d$ is taken as a continuous parameter. In this work we describe in detail how this method can be used to obtain the root mean square radii for a squeezed three-body system. These observables are used to investigate the disappearance of the Efimov states around the two-body threshold during a progressive confinement of the system from three to two dimensions. We illustrate how the disappearance takes place through the loss of one of the particles, whereas the other two remain bound.
翻訳日:2023-03-29 21:10:06 公開日:2021-05-25
# 六方晶窒化ホウ素中の量子エミッタのフォノン分解とスペクトル拡散

Phonon dephasing and spectral diffusion of quantum emitters in hexagonal Boron Nitride ( http://arxiv.org/abs/2105.11687v1 )

ライセンス: Link先を確認
Simon White, Connor Stewart, Alexander S. Solntsev, Chi Li, Milos Toth, Mehran Kianinia, and Igor Aharonovich(参考訳) 六方晶窒化ホウ素(hbn)の量子放出体は、量子光学への応用のために、明るく頑強な単一光子源として出現している。 本稿では、フーリエ変換制限スペクトル線を達成するための制限因子に関する詳細な研究を行う。 具体的には、低温における共鳴励起分光法によるhbn中の量子エミッタのフォノン分解とスペクトル拡散の研究を行った。 我々は、hBN量子エミッタの直線幅が5Kでもフォノン幅が広くなり、典型的な1GHzの値を示す。 スペクトル拡散はポンプパワーの増大において支配的であるが、飽和励起力以下で十分に働くことで最小化することができる。 量子干渉実験では,hBNにおける量子エミッタの今後の活用が重要である。

Quantum emitters in hexagonal boron nitride (hBN) are emerging as bright and robust sources of single photons for applications in quantum optics. In this work we present detailed studies on the limiting factors to achieve Fourier Transform limited spectral lines. Specifically, we study phonon dephasing and spectral diffusion of quantum emitters in hBN via resonant excitation spectroscopy at cryogenic temperatures. We show that the linewidths of hBN quantum emitters are phonon broadened, even at 5K, with typical values of the order of one GHz. While spectral diffusion dominates at increasing pump powers, it can be minimized by working well below saturation excitation power. Our results are important for future utilization of quantum emitters in hBN for quantum interference experiments.
翻訳日:2023-03-29 21:08:54 公開日:2021-05-25
# 固体量子センサを用いた生体ラットの微小心磁図

Millimetre-scale magnetocardiography of living rats using a solid-state quantum sensor ( http://arxiv.org/abs/2105.11676v1 )

ライセンス: Link先を確認
Keigo Arai, Akihiro Kuwahata, Daisuke Nishitani, Ikuya Fujisaki, Ryoma Matsuki, Zhonghao Xin, Yuki Nishio, Xinyu Cao, Yuji Hatano, Shinobu Onoda, Chikara Shinei, Masashi Miyakawa, Takashi Taniguchi, Masatoshi Yamazaki, Tokuyuki Teraji, Takeshi Ohshima, Mutsuko Hatano, Masaki Sekino, Takayuki Iwasaki(参考訳) 心臓科における重要な課題は、心臓内スケールで心血管系で発生する電流の非侵襲的イメージングである。 電流ダイナミクスを直接マッピングするための有望なアプローチは、関連する成層磁場を監視することである。 しかし, この磁場法では, 目標とセンサとの立ち上がり距離が大きくなるにつれて空間分解能が著しく低下する。 既存のセンサーは通常ターゲットから比較的離れており、動作温度が生体適合性がないため、センチメートルの解像度しか提供しない。 ここでは, ダイヤモンド中の窒素空孔中心に基づく固体量子センサを用いて, 生体ラットのミリメートルスケール磁気心磁図を実証する。 この方法の本質は、センサーから心臓表面への1ミリメートルの距離であり、心筋磁場をナノテスラより大きくし、これらの信号を心内分解能でマッピングすることを可能にする。 得られた磁気画像から,右心房底部から左心室頂点へのPurkinjeファイバー束を介して流れる電流ベクトルを推定した。 以上の結果から, 哺乳類の心臓磁気信号を探索し, 心内電気力学を解明する固体量子センサの能力を確立した。 この手法により、フラッター、フィブリル、頻拍を含む心不整脈の発生と進行を研究することができる。

A key challenge in cardiology is the non-invasive imaging of electric current propagation occurring in the cardiovascular system at an intra-cardiac scale. A promising approach for directly mapping the current dynamics is to monitor the associated stray magnetic field. However, in this magnetic field approach, the spatial resolution deteriorates significantly as the standoff distance between the target and the sensor increases. Existing sensors usually remain relatively far from the target and provide only centimetre-scale resolution because their operating temperature is not biocompatible. Here we demonstrate millimetre-scale magnetocardiography of living rats using a solid-state quantum sensor based on nitrogen-vacancy centres in diamond. The essence of the method is a millimetre proximity from the sensor to heart surface, which enhances the cardiac magnetic field to greater than nanoteslas and allows the mapping of these signals with intra-cardiac resolution. From the acquired magnetic images, we also estimate the source electric current vector, flowing from the right atria base via the Purkinje fibre bundle to the left ventricular apex. Our results establish the solid-state quantum sensor's capability to probe cardiac magnetic signals from mammalian animals and reveal their intra-cardiac electrodynamics. This technique will enable the study of the origin and progression of myriad cardiac arrhythmias including flutter, fibrillation, and tachycardia.
翻訳日:2023-03-29 21:08:27 公開日:2021-05-25
# オンデマンド量子相関制御のためのホン・ウー・マンデルディップの反相関における光子特性の解析

Analysis of photon characteristics in anticorrelation of a Hong-Ou-Mandel dip for on-demand quantum correlation control ( http://arxiv.org/abs/2105.11669v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 過去数十年間、量子情報科学の潜在的な応用のために量子絡み合いが集中的に研究されてきた。 ホン・ウー・マンデル・ディップ(HOM)は、ビームスプリッタ上の光子束による反相関を偶然検出する対光子間の絡み合いを直接証明するための最も重要な試験ツールである。 反相関は対光子間の破壊的量子干渉に起因するが、hom型実験では波長感受性干渉縞は観測されていない。 ここでは、パラメトリックダウン変換法(SPDC)によって生じる光子対の絡み合いについて典型的なHOMディップを解析し、反相関の基本的な物理を理解する。 さらに, 純コヒーレンス光学に基づくHong-Ou-Mandelスキームを提案し, インターフェロメトリシステムにおける反相関の一般理解のために解析した。 この研究は、決定論的量子相関制御に光を当て、オンデマンド量子情報科学の潜在的な応用への扉を開く。

Over the last several decades, quantum entanglement has been intensively studied for potential applications in quantum information science. The Hong-Ou-Mandel (HOM) dip is the most important test tool for direct proof of entanglement between paired photons, whose coincidence detection results in anticorrelation due to photon bunching on a beam splitter. Although anticorrelation is due to destructive quantum interference between paired photons, a wavelength-sensitive interference fringe has never been observed in any HOM-type experiments. Here, a typical HOM dip is investigated for entangled photon pairs generated by parametric down conversion processes (SPDC) to understand fundamental physics of anticorrelation. In addition, a pure coherence optics-based Hong-Ou-Mandel scheme is proposed and analyzed for general understanding of anticorrelation in an interferometric system. This study sheds light on deterministic quantum correlation control and opens the door to potential applications of on-demand quantum information science.
翻訳日:2023-03-29 21:08:09 公開日:2021-05-25
# エネルギー準位シフト効果のコヒーレント増幅による弱電場及び磁場の量子センシング

Quantum sensing of weak electric and magnetic fields by coherent amplification of energy level shift effects ( http://arxiv.org/abs/2105.11661v1 )

ライセンス: Link先を確認
Nikolay V. Vitanov(参考訳) その効果のコヒーレント増幅により量子ビット内の小さなエネルギー準位シフトを測定する方法を提案する。 これは、同じ相互作用パルスを2つの方法で繰り返し適用することに基づいている: それぞれのパルスの同じ位相と、パルスからパルスへの交代位相シフトが$\pi$(すなわちマイナス符号)である。 共振器の$\pi$パルスと断熱式チャープパルスの2種類の特定のパルスが考慮され、どちらも高い忠実度で完全な集団反転をもたらす。 弱い外部の電場や磁場が存在する場合、次のスタークまたはゼーマンシフトはエネルギー準位シフトにつながり、したがって静的なデチューニングとなる。 共振器と断熱器の両方のアプローチでは、小さなレベルシフトは遷移確率をそれほど変えないが、プロパゲータの動的位相を著しく変えることができる。 同じパルスの繰り返し適用は、動的相の変化を大きく増幅し、それらを個体群にマッピングする。 したがって、レベルシフトの効果を精度良く測定することができる。 交互位相のパルス列は共鳴の周りの誤差増幅と励起プロファイルをはるかに大きくし、小さなエネルギー準位シフトに対する感度をはるかに高めることが判明した。 感度の明示的な解析的推定は、よく知られた非交差ローゼンツェナー・ラビモデルとレベル交差デムコフ・クニケモデルを用いて導かれる。 このレシピは、複雑なトモグラフィーやエンタングリング操作を使わずに、反転量子ゲートを生成する同じパルスを用いて、弱電場や磁場を迅速かつ正確に検出する簡単なツールを提供する。

A method for measuring small energy level shifts in a qubit by coherent amplification of their effect is proposed. It is based on the repeated application of the same interaction pulse in two manners: with the same phase of each subsequent pulse, and with an alternating phase shift of $\pi$ (i.e. a minus sign) from pulse to pulse. Two specific types of pulses are considered: a resonant $\pi$ pulse and an adiabatic chirped pulse, both of which produce complete population inversion with high fidelity. In the presence of a weak ambient external electric or magnetic field, the ensuing Stark or Zeeman shift leads to an energy level shift and hence a static detuning. In both the resonant and adiabatic approaches, a small level shift does not alter the transition probability very much; however, it can significantly change the dynamical phases in the propagator. The repeated application of the same pulse greatly amplifies the changes in the dynamical phases and maps them onto the populations. Hence the effect of the level shift can be measured with good accuracy. It is found that sequences of pulses with alternating phases deliver much greater error amplification and much steeper excitation profiles around resonance, thereby providing much higher sensitivity to small energy level shifts. Explicit analytic estimates of the sensitivity are derived using the well-known non-crossing Rosen-Zener and Rabi models and the level-crossing Demkov-Kunike model. This recipe provides a simple tool for rapid and accurate sensing of weak electric and magnetic fields by using the same pulse generating an inversion quantum gate, without sophisticated tomography or entangling operations.
翻訳日:2023-03-29 21:07:49 公開日:2021-05-25
# ファイナンス 4.0:持続可能性に対処する価値感受性暗号システムの設計原則

Finance 4.0: Design principles for a value-sensitive cryptoecnomic system to address sustainability ( http://arxiv.org/abs/2105.11955v1 )

ライセンス: Link先を確認
Mark C. Ballandies and Marcus M. Dapp and Benjamin A. Degenhart and Dirk Helbing(参考訳) 暗号経済システムは、そのパワーを導き出すが、基盤となるソフトウェアシステムと彼らが祀るルールでは制御できない。 これにより、ソフトウェア設計プロセスに複雑さのレベルが加わります。 同時に、人間の価値観を念頭に設計されたそのようなシステムは、コモンズジレンマや1次元の金融システムによって引き起こされる負の外部効果に悩まされる持続可能性問題に取り組むための新しいアプローチを提供する。 本稿では,多次元トークンインセンティブを通じて持続可能性に対するアクションを動機付ける,価値感性社会生態暗号システムの設計原則を導出する,価値感性設計手法を用いたデザインサイエンス研究手法を提案する。 これらの設計原則は、その妥当性、ユーザビリティ、影響を示すユーザー研究で検証されるソフトウェアに実装されます。 私たちの発見は、暗号経済システムを設計する新しい洞察を与えます。 さらに、価値に敏感な社会生態金融システムの設計原則は、新たな研究方向やビジネス革新の機会を示している。

Cryptoeconomic systems derive their power but can not be controlled by the underlying software systems and the rules they enshrine. This adds a level of complexity to the software design process. At the same time, such systems, when designed with human values in mind, offer new approaches to tackle sustainability challenges, that are plagued by commons dilemmas and negative external effects caused by a one-dimensional monetary system. This paper proposes a design science research methodology with value-sensitive design methods to derive design principles for a value-sensitive socio-ecological cryptoeconomic system that incentivizes actions toward sustainability via multi-dimensional token incentives. These design principles are implemented in a software that is validated in user studies that demonstrate its relevance, usability and impact. Our findings provide new insights on designing cryptoeconomic systems. Moreover, the identified design principles for a value-sensitive socio-ecological financial system indicate opportunities for new research directions and business innovations.
翻訳日:2023-03-29 21:01:43 公開日:2021-05-25
# 非平衡量子系における温度

Temperature in Nonequilibrium Quantum Systems ( http://arxiv.org/abs/2105.11915v1 )

ライセンス: Link先を確認
S. Alipour, F. Benatti, M. Afsary, F. Bakhshinezhad, M. Ramezani, T. Ala-Nissila, and A. T. Rezakhani(参考訳) 我々は、一般的な非平衡量子系に温度を割り当てることができることを示すため、標準熱力学の考え方を拡張した。 物理的に動機付けられた可観測物の完全な集合を選択し、システム状態を拡張することで、内部エネルギーを含む関連する独立した熱力学変数の集合を読むことができる。 この拡張により、内部エネルギーに関してフォン・ノイマンエントロピーの部分微分として非平衡温度を読むことができる。 この温度の定義は、システムの状態を明確に記述した熱力学パラメータのセットの1つであることを示す。 受動状態に対する正性や、熱状態に対する標準温度との整合性などの魅力的な特徴がある。 二成分系における相関に温度を帰属させることにより、サブシステムの温度、全体システム、および相関を接続する普遍的な関係を得る。 これらの温度は、複合系がよく定義されたギブシアン熱状態である場合でも異なる。

We extend on ideas from standard thermodynamics to show that temperature can be assigned to a general nonequilibrium quantum system. By choosing a physically motivated complete set of observables and expanding the system state thereupon, one can read a set of relevant, independent thermodynamic variables which include internal energy. This expansion allows us to read a nonequilibrium temperature as the partial derivative of the von Neumann entropy with respect to internal energy. We show that this definition of temperature is one of a set of thermodynamics parameters unambiguously describing the system state. It has appealing features such as positivity for passive states and consistency with the standard temperature for thermal states. By attributing temperature to correlations in a bipartite system, we obtain a universal relation which connects the temperatures of subsystems, total system as a whole, and correlation. All these temperatures can be different even when the composite system is in a well-defined Gibbsian thermal state.
翻訳日:2023-03-29 21:01:10 公開日:2021-05-25
# ダイヤモンド中のフレンケル欠陥の超高速レーザー発生過程

Microscopic processes during ultra-fast laser generation of Frenkel defects in diamond ( http://arxiv.org/abs/2105.11894v1 )

ライセンス: Link先を確認
Benjamin Griffiths, Andrew Kirkpatrick, Shannon S. Nicley, Rajesh L. Patel, Joanna M. Zajac, Gavin W. Morley, Martin J. Booth, Patrick S. Salter, Jason M. Smith(参考訳) 広帯域材料への単一原子欠陥のエンジニアリングは、固体量子ビットやセンサーなどの新しい応用により、近年は魅力的な分野となっている。 最も単純な原子スケールの欠陥は格子空孔であり、ダイヤモンド中の窒素空孔(NV)中心のようなより複雑な欠陥の構成要素であることが多いため、空孔の形成機構や精密工学の理解が望ましい。 ダイヤモンド中の空孔間対(フランケル欠陥)の超高速レーザー発生に関する理論的および実験的研究を行った。 この過程は、パルスレーザーと材料との相互作用と、パルスの前後における電荷キャリアの非平衡ダイナミクスの一連の結合速度方程式によって記述される。 電子プラズマ冷却による束縛バイエクシトンの再結合によるフレンケル欠陥発生モデルが実験データと良好な一致を示し, レーザパルスエネルギーに対するフレンケル欠陥発生に有効な$\sim$40 の非線形性を再現した。

Engineering single atomic defects into wide bandgap materials has become an attractive field in recent years due to emerging applications such as solid-state quantum bits and sensors. The simplest atomic-scale defect is the lattice vacancy which is often a constituent part of more complex defects such as the nitrogen-vacancy (NV) centre in diamond, therefore an understanding of the formation mechanisms and precision engineering of vacancies is desirable. We present a theoretical and experimental study into the ultra-fast laser generation of vacancy-interstitial pairs (Frenkel defects) in diamond. The process is described by a set of coupled rate equations of the pulsed laser interaction with the material and of the non-equilibrium dynamics of charge carriers during and in the wake of the pulse. We find that a model for Frenkel defect generation via the recombination of a bound biexciton as the electron plasma cools provides good agreement with experimental data, reproducing an effective non-linearity of $\sim$ 40 for Frenkel defect generation with respect to laser pulse energy.
翻訳日:2023-03-29 21:00:34 公開日:2021-05-25
# 光双極子トラップにおけるスピン量子ビットのダイナミクス

Dynamics of a spin qubit in an optical dipole trap ( http://arxiv.org/abs/2105.11833v1 )

ライセンス: Link先を確認
L.V. Gerasimov, R.R. Yusupov, I.B. Bobrov, D. Shchepanovich, E.V. Kovlakov, S.S. Straupe, S.P. Kulik, D.V. Kupriyanov(参考訳) 遠方共振光双極子トラップにおけるアルカリ金属原子の超微細サブレベルに符号化されたスピン量子ビットのコヒーレントダイナミクスについて理論的研究を行った。 量子ビットは、スピン角運動量の射影がゼロのゼーマン状態を利用した「クロック遷移」で作成される。 我々は, 原子の残留運動, トラップ磁場のゆらぎ, その非コヒーレント散乱, 量子力学への影響など, 様々なデファッショニング過程に注目した。 原子運動の最も一般的な全量子的処理を実装したので, 振動励起の少ない近接状態冷却の限界に留意した。 適合パラメータを含まない適切な対応を示す実験との比較により,本結果を支持する。

We present a theoretical investigation of coherent dynamics of a spin qubit encoded in hyperfine sublevels of an alkali-metal atom in a far off-resonant optical dipole trap. The qubit is prepared in the "clock transition" utilizing the Zeeman states with zero projection of the spin angular momentum. We focus on various dephasing processes such as the residual motion of the atom, fluctuations of the trapping field and its incoherent scattering and their effects on the qubit dynamics. We implement the most general fully-quantum treatment of the atomic motion, so our results remain valid in the limit of close-to-ground-state cooling with low number of vibrational excitations. We support our results by comparison with an experiment showing reasonable correspondence with no fitting parameters.
翻訳日:2023-03-29 20:59:04 公開日:2021-05-25
# 信用評価調整のための量子アルゴリズム

Quantum algorithm for credit valuation adjustments ( http://arxiv.org/abs/2105.12087v1 )

ライセンス: Link先を確認
Javier Alcazar, Andrea Cadarso, Amara Katabarwa, Marta Mauri, Borja Peropadre, Guoming Wang, Yudong Cao(参考訳) 量子力学は古典的手法よりも統計的サンプリングプロセスを加速するためによく知られている。 定量的ファイナンスでは、統計サンプリングは多くのユースケースで広く発生する。 ここでは、そのようなユースケースの特定の1つ、クレジットバリュエーション調整(CVA)に注目し、実用的なインスタンスに対する量子優位性に対する機会と課題を特定する。 このような問題を解決するため、量子回路の奥行きを改善するために、可逆論理回路合成のようなよく知られた技術よりも大幅に改善される可能性を示す様々なヒューリスティックスを取り上げている。 雑音下での量子コヒーレンスから得られるスピードアップを最大化しつつ振幅増幅のための資源要件を最小化するために,最近開発された工学的確率関数(elf)を用いたベイズ型量子振幅推定法を適用した。 古典モンテカルロシミュレーションの具体的なcvaインスタンスにおける量子スピードアップの展望を特徴付けるために数値解析を行う。

Quantum mechanics is well known to accelerate statistical sampling processes over classical techniques. In quantitative finance, statistical samplings arise broadly in many use cases. Here we focus on a particular one of such use cases, credit valuation adjustment (CVA), and identify opportunities and challenges towards quantum advantage for practical instances. To improve the depths of quantum circuits for solving such problem, we draw on various heuristics that indicate the potential for significant improvement over well-known techniques such as reversible logical circuit synthesis. In minimizing the resource requirements for amplitude amplification while maximizing the speedup gained from the quantum coherence of a noisy device, we adopt a recently developed Bayesian variant of quantum amplitude estimation using engineered likelihood functions (ELF). We perform numerical analyses to characterize the prospect of quantum speedup in concrete CVA instances over classical Monte Carlo simulations.
翻訳日:2023-03-29 20:52:19 公開日:2021-05-25
# 複素量子系における遷移状態ダイナミクス

Transition-state dynamics in complex quantum systems ( http://arxiv.org/abs/2105.12073v1 )

ライセンス: Link先を確認
G.F. Bertsch and K. Hagino(参考訳) 状態の完全な混合が内部障壁によって妨げられる複雑な量子系の反応ダイナミクスを研究するためにモデルが提案されている。 このような系は、化学においてRRKM理論としても知られる遷移状態理論によってしばしば扱われるが、この理論の妥当性は障壁に関連付けられた特定可能な座標が存在しない場合に疑問視される。 このモデルは、2つのガウス直交アンサンブル(GOE)からなり、内部レベルは互いに結合し、入射路と崩壊路の波動関数に結合する。 遷移状態の公式は、容易に正当化できる近似の下でモデルから導出できる。 特に、障壁の向こう側の内部状態の減衰幅に反応速度が感受性がないという遷移状態理論の仮定は、幅広いハミルトニアンパラメータで満たされる。 より疑わしいのは、障壁を横切る伝達係数$T$がユニティである、あるいはバリアの上のユニティに近くT$を与える1次元ハミルトニアンによってモデル化できるという一般的な仮定である。 これはモデルではそうではなく、伝達係数がハミルトンの強い集合成分がなければ満たされない特別な条件下でのみ近づくことが分かる。

A model is proposed for studying the reaction dynamics in complex quantum systems in which the complete mixing of states is hindered by an internal barrier. Such systems are often treated by the transition-state theory, also known in chemistry as RRKM theory, but the validity of the theory is questionable when there is no identifiable coordinate associated with the barrier. The model consists of two Gaussian Orthogonal Ensembles (GOE) of internal levels coupled to each other and to the wave functions in the entrance and decay channels. We find that the transition-state formula can be derived from the model under some easily justifiable approximations. In particular, the assumption in transition-state theory that the reaction rates are insensitive to the decay widths of the internal states on the far side of the barrier is fulfilled for broad range of Hamiltonian parameters. More doubtful is the common assumption that the transmission factor $T$ across the barrier is unity or can be modeled by a one-dimensional Hamiltonian giving $T$ close to unity above the barrier. This is not the case in the model; we find that the transmission factor only approaches one under special conditions that are not likely to be fulfilled without a strong collective component in the Hamiltonian.
翻訳日:2023-03-29 20:52:03 公開日:2021-05-25
# 圧縮状態に対するligos量子応答

LIGOs Quantum Response to Squeezed States ( http://arxiv.org/abs/2105.12052v1 )

ライセンス: Link先を確認
L. McCuller (1), S. E. Dwyer (2), A. C. Green (3), Haocun Yu (1), L. Barsotti (1), C. D. Blair (4), D. D. Brown (5), A. Effler (4), M. Evans (1), A. Fernandez-Galiana (1), P. Fritschel (1), V. V. Frolov (4), N. Kijbunchoo (6), G. L. Mansell (1, 2), F. Matichard (7, 1), N. Mavalvala (1), D. E. McClelland (6), T. McRae (6), A. Mullavey (4), D. Sigg (2), B. J. J. Slagmolen (6), M. Tse (1), T. Vo (8), R. L. Ward (6), C. Whittle (1), R. Abbott (7), C. Adams (4), R. X. Adhikari (7), A. Ananyeva (7), S. Appert (7), K. Arai (7), J. S. Areeda (9), Y. Asali (1),0 S. M. Aston (4), C. Austin (11), A. M. Baer (12), M. Ball (13), S. W. Ballmer (8), S. Banagiri (14), D. Barker (2), J. Bartlett (2), B. K. Berger (15), J. Betzwieser (4), D. Bhattacharjee (16), G. Billingsley (7), S. Biscans (1, 7), R. M. Blair (2), N. Bode (17, 18), P. Booker (17, 18), R. Bork (7), A. Bramley (4), A. F. Brooks (7), A. Buikema (1), C. Cahillane (7), K. C. Cannon (19), X. Chen (2),0 A. A. Ciobanu (5), F. Clara (2), C. M. Compton (2), S. J. Cooper (21), K. R. Corley (1),0 S. T. Countryman (1),0 P. B. Covas (22), D. C. Coyne (7), L. E. H. Datrier (23), D. Davis (8), C. Di Fronzo (21), K. L. Dooley (24, 25), J. C. Driggers (2), T. Etzel (7), T. M. Evans (4), J. Feicht (7), P. Fulda (3), M. Fyffe (4), J. A. Giaime (11, 4), K. D. Giardina (4), P. Godwin (26), E. Goetz (11, 16, 27), S. Gras (1), C. Gray (2), R. Gray (23), E. K. Gustafson (7), R. Gustafson (28), J. Hanks (2), J. Hanson (4), T. Hardwick (11), R. K. Hasskew (4), M. C. Heintze (4), A. F. Helmling-Cornell (13), N. A. Holland (6), J. D. Jones (2), S. Kandhasamy (29), S. Karki (13), M. Kasprzack (7), K. Kawabe (2), P. J. King (2), J. S. Kissel (2), Rahul Kumar (2), M. Landry (2), B. B. Lane (1), B. Lantz (15), M. Laxen (4), Y. K. Lecoeuche (2), J. Leviton (28), J. Liu (17, 18), M. Lormand (4), A. P. Lundgren (3),0 R. Macas (24), M. MacInnis (1), D. M. Macleod (24), S. Marka (1),0 Z. Marka (1),0 D. V. Martynov (21), K. Mason (1), T. J. Massinger (1), R. McCarthy (2), S. McCormick (4), J. McIver (7, 27), G. Mendell (2), K. Merfeld (13), E. L. Merilh (2), F. Meylahn (17, 18), T. Mistry (31), R. Mittleman (1), G. Moreno (2), C. M. Mow-Lowry (21), S. Mozzon (3),0 T. J. N. Nelson (4), P. Nguyen (13), L. K. Nuttall (3),0 J. Oberling (2), Richard J. Oram (4), C. Osthelder (7), D. J. Ottaway (5), H. Overmier (4), J. R. Palamos (13), W. Parker (4, 32), E. Payne (33), A. Pele (4), R. Penhorwood (28), C. J. Perez (2), M. Pirello (2), H. Radkins (2), K. E. Ramirez (34), J. W. Richardson (7), K. Riles (28), N. A. Robertson (7, 23), J. G. Rollins (7), C. L. Romel (2), J. H. Romie (4), M. P. Ross (35), K. Ryan (2), T. Sadecki (2), E. J. Sanchez (7), L. E. Sanchez (7), T. R. Saravanan (29), R. L. Savage (2), D. Schaetzl (7), R. Schnabel (36), R. M. S. Schofield (13), E. Schwartz (4), D. Sellers (4), T. Shaffer (2), J. R. Smith (9), S. Soni (11), B. Sorazu (23), A. P. Spencer (23), K. A. Strain (23), L. Sun (7), M. J. Szczepanczyk (3), M. Thomas (4), P. Thomas (2), K. A. Thorne (4), K. Toland (23), C. I. Torrie (7), G. Traylor (4), A. L. Urban (11), G. Vajente (7), G. Valdes (11), D. C. Vander-Hyde (8), P. J. Veitch (5), K. Venkateswara (35), G. Venugopalan (7), A. D. Viets (37), C. Vorvick (2), M. Wade (38), J. Warner (2), B. Weaver (2), R. Weiss (1), B. Willke (18, 17), C. C. Wipf (7), L. Xiao (7), H. Yamamoto (7), Hang Yu (1), L. Zhang (7), M. E. Zucker (1, 7), and J. Zweizig (7) ((1) Massachusetts Institute of Technology, (2) LIGO Hanford Observatory, (3) University of Florida, (4) LIGO Livingston Observatory, (5) OzGrav, University of Adelaide, (6) OzGrav, Australian National University, (7) LIGO, California Institute of Technology, (8) Syracuse University, (9) California State University Fullerton, (10) Columbia University, (11) Louisiana State University, (12) Christopher Newport University, (13) University of Oregon, (14) University of Minnesota, (15) Stanford University, (16) Missouri University of Science and Technology, (17) Max Planck Institute for Gravitational Physics (Albert Einstein Institute), (18) Leibniz Universitat Hannover, (19) RESCEU, University of Tokyo, (20) OzGrav, University of Western Australia, (21) University of Birmingham, (22) Universitat de les Illes Balears, (23) SUPA, University of Glasgow, (24) Cardiff University, (25) The University of Mississippi, (26) The Pennsylvania State University, (27) University of British Columbia, (28) University of Michigan, (29) Inter-University Centre for Astronomy and Astrophysics, (30) University of Portsmouth, (31) The University of Sheffield, (32) Southern University and A&M College, (33) OzGrav, School of Physics & Astronomy, (34) The University of Texas Rio Grande Valley, (35) University of Washington, (36) Universitat Hamburg, (37) Concordia University Wisconsin, (38) Kenyon College)(参考訳) 重力波干渉計は、ミシェルソン干渉計と光学キャビティ、懸濁質量、そして今、量子状態の光を組み合わせることで、その深い感度を達成する。 これらの状態は、LIGO、VIRGO、GEO600干渉計の測定プロセスを変更して、天体物理学的な信号を隠蔽する量子ノイズを減らす。 さらに量子ノイズの低減には、損失によるデコヒーレンス低減と、放射圧からの量子バックアクションに対抗するためのより洗練された操作が必要である。 どちらのタスクも、圧縮光とkmスケール干渉計の多くのコンポーネントの間の物理的相互作用を完全に理解する必要がある。 この目的のために、ラン3の観測における両LIGO観測所のデータは周波数依存のメトリクスを用いて表現され、それぞれの検出器の量子応答を圧縮状態に解析する。 応答測定値は、逆モード選択光学キャビティと懸濁鏡の量子放射圧ノイズとの同時相互作用の背後にある物理的メカニズムを正確に記述するために導出され、使用される。 これらの測定値と関連する分析は、外部のスクイーズを組み込んだキャビティ強化光学実験や、LIGO検出器の量子ノイズでこれまで観測された全ての特徴の物理的記述に応用できる。

Gravitational Wave interferometers achieve their profound sensitivity by combining a Michelson interferometer with optical cavities, suspended masses, and now, squeezed quantum states of light. These states modify the measurement process of the LIGO, VIRGO and GEO600 interferometers to reduce the quantum noise that masks astrophysical signals; thus, improvements to squeezing are essential to further expand our gravitational view of the universe. Further reducing quantum noise will require both lowering decoherence from losses as well more sophisticated manipulations to counter the quantum back-action from radiation pressure. Both tasks require fully understanding the physical interactions between squeezed light and the many components of km-scale interferometers. To this end, data from both LIGO observatories in observing run three are expressed using frequency-dependent metrics to analyze each detector's quantum response to squeezed states. The response metrics are derived and used to concisely describe physical mechanisms behind squeezing's simultaneous interaction with transverse-mode selective optical cavities and the quantum radiation pressure noise of suspended mirrors. These metrics and related analysis are broadly applicable for cavity-enhanced optomechanics experiments that incorporate external squeezing, and -- for the first time -- give physical descriptions of every feature so far observed in the quantum noise of the LIGO detectors.
翻訳日:2023-03-29 20:50:46 公開日:2021-05-25
# 可逆セルオートマトン設計のための進化的アルゴリズム

Evolutionary Algorithms for Designing Reversible Cellular Automata ( http://arxiv.org/abs/2105.12039v1 )

ライセンス: Link先を確認
Luca Mariot, Stjepan Picek, Domagoj Jakobovic, Alberto Leporati(参考訳) 可逆セルオートマタ(Reversible Cellular Automata、RCA)は、不整合サイクルのみからなるダイナミクスによって特徴づけられるシフト不変変換の一種である。 物理システム、暗号、可逆コンピューティングのシミュレーションに多くの応用がある。 本研究では, 遺伝的アルゴリズム (GA) と遺伝的プログラミング (GP) に対処する最適化問題として, 局所的な更新ルールが保存された景観によって定義されるRCAの特定のクラスを探索する。 特に,本研究は,単目的,多目的,語彙的アプローチの3つの異なる研究課題を中心に展開している。 実験の結果は過去の結果と相関し、新たな光を放つ。 1)GAとGPの関連最適化問題の難しさ 2)暗号及び可逆計算の領域における保存されたランドスケープCAの関連性 3)可逆性とハミング重量の関係について検討した。

Reversible Cellular Automata (RCA) are a particular kind of shift-invariant transformations characterized by a dynamics composed only of disjoint cycles. They have many applications in the simulation of physical systems, cryptography and reversible computing. In this work, we formulate the search of a specific class of RCA -- namely, those whose local update rules are defined by conserved landscapes -- as an optimization problem to be tackled with Genetic Algorithms (GA) and Genetic Programming (GP). In particular, our experimental investigation revolves around three different research questions, which we address through a single-objective, a multi-objective, and a lexicographic approach. The results obtained from our experiments corroborate the previous findings and shed new light on 1) the difficulty of the associated optimization problem for GA and GP, 2) the relevance of conserved landscape CA in the domain of cryptography and reversible computing, and 3) the relationship between the reversibility property and the Hamming weight.
翻訳日:2023-03-29 20:50:22 公開日:2021-05-25
# モビリティプラットフォームにおけるスループット・フェアネストレードオフ

Throughput-Fairness Tradeoffs in Mobility Platforms ( http://arxiv.org/abs/2105.11999v1 )

ライセンス: Link先を確認
Arjun Balasingam, Karthik Gopalakrishnan, Radhika Mittal, Venkat Arun, Ahmed Saeed, Mohammad Alizadeh, Hamsa Balakrishnan, Hari Balakrishnan(参考訳) 本稿では,食品や荷物配送,ライドシェアリング,モバイルセンシングなどのアプリケーションで使用される移動プラットフォームにおける,異なる顧客から車両へのタスク割り当ての問題について検討する。 モビリティプラットフォームは、顧客間のスループットと公平性を最適化するために、タスクを車両に割り当て、スケジュールするべきです。 しかし、移動プラットフォームにおけるスケジューリングタスクに対する既存のアプローチは公平さを無視する。 我々は、顧客間で高いスループットと公平性を達成するためにガイド付き最適化を使用するシステムMobiusを紹介する。 mobiusは時空間的に多様な動的顧客要求をサポートする。 これは、共有モビリティによって引き起こされる公平性とスループットの間の固有のトレードオフをナビゲートする原則化された方法を提供する。 本評価では,これらの特性とMobiusの汎用性とスケーラビリティを,配車および空中センシングアプリケーションから収集したトレースを用いて示す。 当社のライドシェアリングケーススタディによると、Mobiusは40の顧客と200台の車両に16,000以上のタスクをオンラインでスケジュールできる。

This paper studies the problem of allocating tasks from different customers to vehicles in mobility platforms, which are used for applications like food and package delivery, ridesharing, and mobile sensing. A mobility platform should allocate tasks to vehicles and schedule them in order to optimize both throughput and fairness across customers. However, existing approaches to scheduling tasks in mobility platforms ignore fairness. We introduce Mobius, a system that uses guided optimization to achieve both high throughput and fairness across customers. Mobius supports spatiotemporally diverse and dynamic customer demands. It provides a principled method to navigate inherent tradeoffs between fairness and throughput caused by shared mobility. Our evaluation demonstrates these properties, along with the versatility and scalability of Mobius, using traces gathered from ridesharing and aerial sensing applications. Our ridesharing case study shows that Mobius can schedule more than 16,000 tasks across 40 customers and 200 vehicles in an online manner.
翻訳日:2023-03-29 20:49:50 公開日:2021-05-25
# 超低温における共鳴非弾性衝突のほぼthresholdスケール

Near-threshold scaling of resonant inelastic collisions at ultralow temperatures ( http://arxiv.org/abs/2105.11995v1 )

ライセンス: Link先を確認
Rebekah Hermsmeier, Adrien Devolder, Paul Brumer and Timur V. Tscherbul(参考訳) 励起交換(スピン交換、F\orster共振器、角運動量交換など)を伴う幅広い共振器の非弾性過程の断面は、非伝統的な準閾値スケーリングである$E^{\Delta m_{12}}$、$E$は衝突エネルギー、$\Delta m_{12}=m_1'+m_2'-m_1-m_2$、$m_i$および$m_i'$は衝突種(i=1,\,2$)の初期および最終角運動量投影であることを示す。 特に、$\delta m_{12}=0$遷移の非弾性断面積は、弾性断面積に類似した非伝統的な$e^0$スケーリングを示し、その速度は$t^{\delta m_{12}+1/2}$となる。 偏波(例えば同じ内部状態の同一ボソン)によって支配される衝突の場合、スケーリングは$\sigma_\text{inel}\propto e^{\delta m_{12} +1} $ if $\delta m_{12}$ に修正される。 超低温rb+rbとo$_2$+o$_2$衝突における共鳴スピン交換におけるこれらの修正しきい値則を示す正確な量子散乱計算を示す。 その結果,衝突断面積のしきい値スケーリングは,衝突時に衝突粒子の内部状態が変化しているかどうかではなく,基礎過程(共鳴対発熱)のエネルギーのみによって決定されることがわかった。

We show that the cross sections for a broad range of resonant {\it inelastic} processes accompanied by excitation exchange (such as spin-exchange, F\"orster resonant, or angular momentum exchange) exhibit an unconventional near-threshold scaling $E^{\Delta m_{12}}$, where $E$ is the collision energy, $\Delta m_{12}=m_1'+m_2'-m_1-m_2$, and $m_i$ and $m_i'$ are the initial and final angular momentum projections of the colliding species ($i=1,\,2$). In particular, the inelastic cross sections for $\Delta m_{12}=0$ transitions display an unconventional $E^0$ scaling similar to that of elastic cross sections, and their rates vanish as $T^{\Delta m_{12}+1/2}$. For collisions dominated by even partial waves (such as those of identical bosons in the same internal state) the scaling is modified to $\sigma_\text{inel}\propto E^{\Delta m_{12} +1} $ if $\Delta m_{12}$ is odd. We present accurate quantum scattering calculations that illustrate these modified threshold laws for resonant spin exchange in ultracold Rb+Rb and O$_2$+O$_2$ collisions. Our results illustrate that the threshold scaling of collision cross sections is determined only by the energetics of the underlying process (resonant vs. exothermic) rather than by whether the internal states of colliding particles is changed in the collision.
翻訳日:2023-03-29 20:49:34 公開日:2021-05-25
# 周期駆動量子システムにおける対称性保護選択規則の観察

Observation of symmetry-protected selection rules in periodically driven quantum systems ( http://arxiv.org/abs/2105.12209v1 )

ライセンス: Link先を確認
Guoqing Wang, Changhao Li, and Paola Cappellaro(参考訳) フロック系として知られる周期的に駆動される量子系は、そのリッチダイナミクスのおかげで近年非平衡物理学の焦点となっている。 時間周期系は、空間的周期系と同様の対称性を示すだけでなく、対称性の破れによる新しい挙動を示す。 このような動的対称性のキャラクタリゼーションは重要であるが、駆動強度の制限と実験的にアクセス可能なキャラクタリゼーションプロトコルの欠如により、しばしば課題となる。 ここでは,フロッケ状態間の対称性誘起選択規則を観測することにより,パリティ,回転,粒子ホール対称性を含む動的対称性を特徴付ける方法を示す。 具体的には,変調量子駆動を応用して強い光・物質結合系に到達し,フロッケ状態間の遷移要素を系のコヒーレントな進化から実験的に抽出するプロトコルを提案する。 ダイヤモンド中の窒素空孔中心を実験室として, 対称性に保護された暗黒状態と暗黒帯を観察し, トンネル効果のコヒーレント破壊について検討した。 本研究は,量子制御ツールキットを用いて,強駆動フロッケ系の位相相に生じる動的対称性を研究する方法を示す。

Periodically driven quantum systems, known as Floquet systems, have been a focus of non-equilibrium physics in recent years, thanks to their rich dynamics. Not only time-periodic systems exhibit symmetries similar to those in spatially periodic systems, but they also display novel behavior due to symmetry breaking. Characterizing such dynamical symmetries is crucial, but the task is often challenging, due to limited driving strength and the lack of an experimentally accessible characterization protocol. Here, we show how to characterize dynamical symmetries including parity, rotation, and particle-hole symmetry by observing the symmetry-induced selection rules between Floquet states. Specifically, we exploit modulated quantum driving to reach the strong light-matter coupling regime and we introduce a protocol to experimentally extract the transition elements between Floquet states from the coherent evolution of the system. Using the nitrogen-vacancy center in diamond as an experimental testbed, we apply our methods to observe symmetry-protected dark states and dark bands, and the coherent destruction of tunneling effect. Our work shows how to exploit the quantum control toolkit to study dynamical symmetries that can arise in topological phases of strongly-driven Floquet systems.
翻訳日:2023-03-29 20:42:36 公開日:2021-05-25
# エネルギー推定のための適応パウリ影

Adaptive Pauli Shadows for Energy Estimation ( http://arxiv.org/abs/2105.12207v1 )

ライセンス: Link先を確認
Charles Hadfield(参考訳) 局所バイアス付き古典影は量子ハミルトニアンのエネルギーの迅速な推定を可能にする。 近年、より正確であると主張する非ランダム化された古典的影が出現している。 この精度は、エネルギー推定手順に古典的な計算資源を導入するコストが伴う。 本稿では、局所バイアスの古典的シャドウ設定にこの古典的コンピューティングリソースの一部を付加することにより、修正されたアルゴリズムであるAdaptive Pauli Shadowsがエネルギー推定の最先端であることを示す。

Locally-biased classical shadows allow rapid estimation of energies of quantum Hamiltonians. Recently, derandomised classical shadows have emerged claiming to be even more accurate. This accuracy comes at a cost of introducing classical computing resources into the energy estimation procedure. This present note shows, by adding a fraction of this classical computing resource to the locally-biased classical shadows setting, that the modified algorithm, termed Adaptive Pauli Shadows is state-of-the-art for energy estimation.
翻訳日:2023-03-29 20:42:16 公開日:2021-05-25
# 量子半透水バリアについて:MaxwellのDemonツールボックスを調査

On Quantum Semipermeable Barriers: Investigating Maxwell's Demon Toolbox ( http://arxiv.org/abs/2105.12179v1 )

ライセンス: Link先を確認
Andrzej Grudka, Pawel Kurzynski, Antoni Wojcik(参考訳) 量子マックスウェルのデーモンを離散的な時空設定で研究する。 1次元の鎖にホッピングする粒子の集合と、粒子が1方向だけホップできる半透過性障壁を考える。 私たちの主な結果は、この障壁の作用を記述する局所ユニタリダイナミクスの定式化です。 そのような力学は補助系$\mathcal{A}$を利用し、$\mathcal{A}$の特性が粒子の挙動にどのように影響するかを研究する。 ユニタリティの直接的な帰結は、粒子が障壁の一方に永久に閉じ込められず、$\mathcal{a}$ が無限でないという事実である。 さらに、粒子が閉じ込め領域に入ると、コヒーレント重ね合わせと量子相関が影響を受ける。 最後に、$\mathcal{A}$ の初期重ね合わせにより、バリアがビームスプリッターとして振る舞うことができることを示す。

We study quantum Maxwell's demon in a discrete space-time setup. We consider a collection of particles hopping on a one-dimensional chain and a semipermeable barrier that allows the particles to hop in only one direction. Our main result is a formulation of a local unitary dynamics describing the action of this barrier. Such dynamics utilises an auxiliary system $\mathcal{A}$ and we study how properties of $\mathcal{A}$ influence the behaviour of particles. An immediate consequence of unitarity is the fact that particles cannot be trapped on one side of the barrier forever, unless $\mathcal{A}$ is infinite. In addition, coherent superpositions and quantum correlations are affected once particles enter the confinement region. Finally, we show that initial superposition of $\mathcal{A}$ allows the barrier to act as a beam splitter.
翻訳日:2023-03-29 20:41:55 公開日:2021-05-25
# 量子メモリ上のoamquditsの高忠実性量子ゲート

High-fidelity quantum gates for OAM qudits on quantum memory ( http://arxiv.org/abs/2105.12178v1 )

ライセンス: Link先を確認
E.A. Vashukevich, T.Yu. Golubeva, Yu.M. Golubev(参考訳) 量子コンピューティングや通信における高次元量子システム(qudits)の応用は、1つの物理キャリアで符号化される情報量を増やす可能性から、有望な道のりであると思われる。 本研究では,軌道角運動量を持つ光モードに基づくクディットに対する単一量子ゲートの実装法を提案する。 演算の準周期性を保証する論理qudits符号化法を導入する。 ラマン量子記憶方式 (vashukevich e.a. et. al. pra, 101, 033830 (2020)] における光の軌道角運動量変換のプロトコルに基づいて、考慮されたゲートが単一量子変換の非常に高いレベルの忠実性を提供することを示した。 また、異なる次元のシステムに対する量子ゲートの特性を比較し、検討中のプロトコルで変換を行うための最適条件を求める。

The application of high-dimensional quantum systems (qudits) in quantum computing and communications seems to be a promising avenue due to the possibility of increasing the amount of information encoded in one physical carrier. In this work, we propose a method for implementing single-qudit gates for qudits based on light modes with orbital angular momentum. Method for logical qudits encoding, which ensures the quasi-cyclicity of operations, is introduced. Based on the protocol for converting the orbital angular momentum of light in the Raman quantum memory scheme [Vashukevich E.A. et. al. PRA, 101, 033830 (2020)], we show that the considered gates provide an extremely high level of fidelity of single-qudit transformations. We also compare quantum gates' properties for systems of different dimensions and find the optimal conditions for carrying out transformations in the protocol under consideration.
翻訳日:2023-03-29 20:41:39 公開日:2021-05-25
# 2レベル系におけるRabi振動に対する平均化法とコヒーレンス

Averaging method and coherence applied to Rabi oscillations in a two-level system ( http://arxiv.org/abs/2105.12127v1 )

ライセンス: Link先を確認
L. Chalkopiadis and C. Simserides(参考訳) 半古典的近似における2レベル系のラビ振動を平均化法(AM)のアーキタイプ試験場として検討した。 2つのレベル間の人口移動は、第1位と第2位に近づいている。 AM予測を回転波近似(RWA)および標準アルゴリズム(NRWA)を用いた完全数値解と体系的に比較する。 共振 ($\Delta = 0$) と外共振 ($\Delta \ne 0$) の両方について検討し、ここでは$\Delta = \omega-\Omega$ と $\hbar \Omega = E_2-E_1$ が2レベルエネルギー分離であり、$\omega$ は電磁場の(周期)周波数である。 例えば、$\Omega_{\textrm{R}}/\Delta$, $\Omega_{\textrm{R}}/\Sigma$, and $\Omega_{\textrm{R}}/\omega$, where $\Omega_{\textrm{R}}$はRabi(巡回)周波数であり、$\Sigma = \omega + \Omega$は、AM結果がNRWAと同値である$\epsilon$の範囲を探索する。 最後に、初期電子波動関数の位相差を許容することにより、コヒーレンスが提供する可能性を検討する。 2つのレベルにおいて同じ初期確率であっても、位相差があれば強い振動を生成して操作することができる。

We study Rabi oscillations in a two-level system within the semiclassical approximation as an archetype test field of the Averaging Method (AM). The population transfer between the two levels is approached within the first and the second order AM. We systematically compare AM predictions with the rotating wave approximation (RWA) and with the complete numerical solution utilizing standard algorithms (NRWA). We study both the resonance ($\Delta = 0$) and out-of-resonance ($\Delta \ne 0$) cases, where $\Delta = \omega-\Omega$, and $\hbar \Omega = E_2-E_1$ is the two-level energetic separation, while $\omega$ is the (cyclic) frequency of the electromagnetic field. We introduce three types of dimensionless factors $\epsilon$, i.e., $\Omega_{\textrm{R}}/\Delta$, $\Omega_{\textrm{R}}/\Sigma$, and $\Omega_{\textrm{R}}/\omega$, where $\Omega_{\textrm{R}}$ is the Rabi (cyclic) frequency and $\Sigma = \omega + \Omega$ and explore the range of $\epsilon$ where the AM results are equivalent to NRWA. Finally, by allowing for a phase difference in the initial electron wave functions, we explore the prospects coherence can offer. We illustrate that even with equal initial probabilities at the two levels, but with phase difference, strong oscillations can be generated and manipulated.
翻訳日:2023-03-29 20:40:12 公開日:2021-05-25
# 行列の対称性とその等スペクトル還元について

On symmetries of a matrix and its isospectral reduction ( http://arxiv.org/abs/2105.12579v1 )

ライセンス: Link先を確認
Malte R\"ontgen, Maxim Pyzh, Christian V. Morfonios, Peter Schmelcher(参考訳) 対角化可能行列のいわゆる等スペクトル還元による解析は、基礎となる固有値問題に対する多元的アプローチである。 等スペクトル還元の対称性から始め、本研究では元の行列の対応する対称性を構築することができることを示した。

The analysis of diagonalizable matrices in terms of their so-called isospectral reduction represents a versatile approach to the underlying eigenvalue problem. Starting from a symmetry of the isospectral reduction, we show in the present work that it is possible to construct a corresponding symmetry of the original matrix.
翻訳日:2023-03-29 20:32:18 公開日:2021-05-25
# 繊維集積Fabry-P'erot空洞の熱的チューニング

Thermal tuning of a fiber-integrated Fabry-P\'erot cavity ( http://arxiv.org/abs/2105.12560v1 )

ライセンス: Link先を確認
Clemens Singer, Alexander Goetz, Adarsh S. Prasad, Martin Becker, Manfred Rothhardt, and Sarah M. Skoff(参考訳) ここでは、アライメントのない繊維集積ファブリ・ペロトキャビティの熱調整機能について述べる。この2つのミラーは、個別に温度安定調整可能なファイバブラッグ格子で作られている。 ファイバブラッググレーティングの微細さを損なうことなく共振波長の温度調整を行い, ファイバブラッググレーティングの個々のストップバンドの温度調整を行う。 これによりキャビティの微粒化が最適化されるだけでなく、このキャビティをFWHMスペクトル幅0.07 (0.02) pmの狭帯域フィルタとして適用でき、波長調整可能な15dB以上を抑えることができる。 さらに、強い光間相互作用が望ましい量子光学の分野では、量子エミッタをそのような空洞に結合することができ、キャビティ効果を可逆的に省略して再確立することができる。 これは、キャビティ内にエミッタが永久に沈着した後、そのような基準測定がしばしば不可能な固体量子エミッタで作業する場合に特に有用である。

Here, we present the thermal tuning capability of an alignment-free fiber-integrated Fabry-P\'erot cavity.The two mirrors are made of fiber Bragg gratings that can be individually temperature stabilized and tuned. We show the temperature tuning of the resonance wavelength of the cavity without any degradation of the finesse and the tuning of the individual stop bands of the fiber Bragg gratings. This not only permits for the cavity's finesse to be optimized post-fabrication but also makes this cavity applicable as a narrowband filter with a FWHM spectral width of 0.07 (0.02) pm and a suppression of more than -15 dB that can be wavelength tuned. Further, in the field of quantum optics, where strong light-matter interactions are desirable, quantum emitters can be coupled to such a cavity and the cavity effect can be reversibly omitted and re-established. This is particularly useful when working with solid-state quantum emitters where such a reference measurement is often not possible once an emitter has been permanently deposited inside a cavity.
翻訳日:2023-03-29 20:32:14 公開日:2021-05-25
# Euler-Schrodinger変換

Euler-Schrodinger Transformation ( http://arxiv.org/abs/2105.12253v1 )

ライセンス: Link先を確認
Ahmad Zareei(参考訳) ここでは、量子力学のシュロディンガー方程式を流体力学の圧縮不能オイラー方程式にマッピングする変換を示す。 この変換は、流体速度ポテンシャルと圧力がオイラー方程式を満たすことを前提としたシュロディンガー方程式を満たす流体特性に基づく波動解とポテンシャル関数を与える。 興味深いことに、我々の変換において、量子ポテンシャルの等価性は物理的表面張力となる。 これは、シュロディンガー方程式を量子ポテンシャルに物理的に対抗しない圧縮可能なオイラー方程式にマッピングするマドルング変換とは反対である。 最後に、この変換を用いて、ボーム方程式は流体の自由表面上を移動する粒子の運動方程式にマッピングできることを示す。

Here we present a transformation that maps the Schrodinger equation of quantum mechanics to the incompressible Euler equations of fluid mechanics. The transformation provides a wave solution and a potential function based on fluid properties that satisfy the Schrodinger equation given that the fluid velocity potential and pressure satisfy the Euler equations. Interestingly, in our transformation, the equivalent of quantum potential becomes the physical surface tension. This is contrary to the Madelung transformation that maps the Schrodinger equation to the compressible Euler equations where there is no physical counterpart for the quantum potential. Lastly, we show that using this transformation, the Bohm equation can be mapped to a particle's equation of motion moving on the free surface of the fluid.
翻訳日:2023-03-29 20:30:33 公開日:2021-05-25
# 予測システムにおける情報交換・意味・冗長性の生成-期待の自己組織化-Covid-19の場合

Information exchange, meaning and redundancy generation in anticipatory systems: self-organization of expectations -- the case of Covid-19 ( http://arxiv.org/abs/2106.07432v1 )

ライセンス: Link先を確認
Inga A. Ivanova(参考訳) 複雑なシステムの進化を研究するとき、様々な記述パラメータを含むモデル表現を参照する。 システム内の情報フローの基盤としてシステム進化を記述する研究はほとんどない。 本論文は,情報のダイナミクスとシステム進化の関係を考察する。 処理前に異なるシステムの部品間で交換される情報は、まずシステムによって意味が与えられる。 意味は後見、すなわち時間的矢印に対する視点から生まれる。 同じ情報を異なるシステムの部分(つまり異なる意味で提供された)で異なる解釈で解釈できるため、システム開発のためのオプションの数が増加する。 いくつかのオプションは最終的に可観測状態になる。 したがって、システム進化のダイナミクスは、システム内の情報処理によるものと考えることができる。 この過程はモデル表現において考慮される。 研究中のモデルはトリプル・ヘリックス(TH)モデルであり、以前は大学、産業、政府間の相互作用を表現してイノベーションを育むために用いられていた。 thモデルでは、システムは3つの相互作用する部分で構成され、各部分が異なる方法で情報を処理する。 このモデルはイノベーションの領域に限ったものではなく、より広い視点で使用することができる。 ここでthは、感染症を記述するために使われる3つのコンパートメントモデルの枠組みで概念化されている。 本稿は,情報と意味のダイナミクスが,新型コロナウイルスの感染伝播の記述にどのように組み込まれるかを示す。 その結果, モデル予測と可観測感染動態の対応性を示した。

When studying the evolution of complex systems one refers to model representations comprising various descriptive parameters. There is hardly research where system evolution is described on the base of information flows in the system. The paper focuses on the link between the dynamics of information and system evolution. Information, exchanged between different system's parts, before being processed is first provided with meaning by the system. Meanings are generated from the perspective of hindsight, i.e. against the arrow of time. The same information can be differently interpreted by different system's parts (i,e,provided with different meanings) so that the number of options for possible system development is proliferated. Some options eventually turn into observable system states. So that system evolutionary dynamics can be considered as due to information processing within the system. This process is considered here in a model representation. The model under study is Triple Helix (TH) model, which was earlier used to describe interactions between university, industry and government to foster innovations. In TH model the system is comprised of three interacting parts where each part process information ina different way. The model is not limited to the sphere of innovation and can be used in a broader perspective. Here TH is conceptualized in the framework of three compertment model used to describe infectious disease. The paper demonstrates how the dynamics of information and meaning can be incorporated in the description of Covid-19 infectious propagation. The results show correspondence of model predictions with observable infection dynamics.
翻訳日:2023-03-29 20:20:48 公開日:2021-05-25
# ネットワークプルーニングのためのフィルタスケッチ

Filter Sketch for Network Pruning ( http://arxiv.org/abs/2001.08514v4 )

ライセンス: Link先を確認
Mingbao Lin, Liujuan Cao, Shaojie Li, Qixiang Ye, Yonghong Tian, Jianzhuang Liu, Qi Tian, Rongrong Ji(参考訳) 本稿では,事前学習したネットワーク重み(フィルタ)の情報保存による新しいネットワークプルーニング手法を提案する。 情報を保存したネットワークプルーニングをマトリックススケッチ問題として定式化し、既設の頻繁方向法で効率的に解く。 提案手法はFilterSketchと呼ばれ,事前学習した重みの2次情報を符号化することで,簡易な微調整処理によりプルーンドネットワークの表現能力の回復を可能にする。 filterketchはスクラッチからのトレーニングもデータ駆動の反復最適化も必要とせず、pruningの最適化において数桁の時間コスト削減に繋がる。 CIFAR-10の実験では、FilterSketchはFLOPの63.3%とネットワークパラメータの59.9%を削減し、ResNet-110の精度は無視できる。 ILSVRC-2012では、FLOPの45.5%を削減し、43.0%のパラメータを除去し、ResNet-50の精度はわずか0.69%である。 私たちのコードとprunedモデルはhttps://github.com/lmbxmu/filtersketchにあります。

We propose a novel network pruning approach by information preserving of pre-trained network weights (filters). Network pruning with the information preserving is formulated as a matrix sketch problem, which is efficiently solved by the off-the-shelf Frequent Direction method. Our approach, referred to as FilterSketch, encodes the second-order information of pre-trained weights, which enables the representation capacity of pruned networks to be recovered with a simple fine-tuning procedure. FilterSketch requires neither training from scratch nor data-driven iterative optimization, leading to a several-orders-of-magnitude reduction of time cost in the optimization of pruning. Experiments on CIFAR-10 show that FilterSketch reduces 63.3% of FLOPs and prunes 59.9% of network parameters with negligible accuracy cost for ResNet-110. On ILSVRC-2012, it reduces 45.5% of FLOPs and removes 43.0% of parameters with only 0.69% accuracy drop for ResNet-50. Our code and pruned models can be found at https://github.com/lmbxmu/FilterSketch.
翻訳日:2023-01-07 13:04:47 公開日:2021-05-25
# 画像分類のための半・自己・教師なし学習に関する調査

A survey on Semi-, Self- and Unsupervised Learning for Image Classification ( http://arxiv.org/abs/2002.08721v5 )

ライセンス: Link先を確認
Lars Schmarje, Monty Santarossa, Simon-Martin Schr\"oder, and Reinhard Koch(参考訳) ディープラーニング戦略はコンピュータビジョンタスクにおいて卓越した結果を達成するが、問題は残る: 現在の戦略は大量のラベル付きデータに大きく依存している。 現実世界の多くの問題では、そのような量のラベル付きトレーニングデータを作成することは不可能である。 したがって、ラベルのないデータをトレーニングプロセスに組み込むことで、ラベルの少ない同じ結果を得るのが一般的である。 多くのコンカレントな研究により、最近の発展を追跡することは困難である。 本研究では,ラベルの少ない画像分類においてよく用いられるアイデアと手法の概要を示す。 詳細な分類法ではなく,その性能と一般的な考え方に基づいて,34の手法を詳細に比較した。 本分析では,今後の研究機会に繋がる3つの主要な傾向を明らかにする。 1. 最先端の手法は理論上の実世界の応用には拡張性があるが, クラス不均衡, 堅牢性, ファジィラベルといった問題は考慮されていない。 2. すべてのラベルの使用に匹敵する結果を得るために必要とされる監督の度合いは低下しており、そのためメソッドは可変数のクラスで設定まで拡張する必要がある。 3. すべてのメソッドは共通のアイデアを共有しますが、多くのアイデアを共有しないメソッドのクラスタを識別します。 異なるクラスタのアイデアを組み合わせることで、パフォーマンスが向上することを示す。

While deep learning strategies achieve outstanding results in computer vision tasks, one issue remains: The current strategies rely heavily on a huge amount of labeled data. In many real-world problems, it is not feasible to create such an amount of labeled training data. Therefore, it is common to incorporate unlabeled data into the training process to reach equal results with fewer labels. Due to a lot of concurrent research, it is difficult to keep track of recent developments. In this survey, we provide an overview of often used ideas and methods in image classification with fewer labels. We compare 34 methods in detail based on their performance and their commonly used ideas rather than a fine-grained taxonomy. In our analysis, we identify three major trends that lead to future research opportunities. 1. State-of-the-art methods are scaleable to real-world applications in theory but issues like class imbalance, robustness, or fuzzy labels are not considered. 2. The degree of supervision which is needed to achieve comparable results to the usage of all labels is decreasing and therefore methods need to be extended to settings with a variable number of classes. 3. All methods share some common ideas but we identify clusters of methods that do not share many ideas. We show that combining ideas from different clusters can lead to better performance.
翻訳日:2022-12-30 07:07:08 公開日:2021-05-25
# クラスター分析のための統計力

Statistical power for cluster analysis ( http://arxiv.org/abs/2003.00381v3 )

ライセンス: Link先を確認
E. S. Dalmaijer, C. L. Nord, and D. E. Astle(参考訳) クラスタアルゴリズムは、データ内の個別のサブグループを識別する能力と、主要なソフトウェアにおけるアクセシビリティの増大により、バイオメディカルな研究で人気が高まっている。 アルゴリズムの選択と結果評価のためのガイドラインは存在するが、クラスタ分析の事前統計パワーを計算する方法は確立されていない。 ここでは,一般的な解析パイプラインの電力と精度をシミュレーションにより推定する。 サブグループサイズ, 数, 分離(効果サイズ), 共分散構造を変化させた。 生成されたデータセットを次元縮小(none, multidimensional scaling, umap)およびクラスタアルゴリズム(k-means, agglomerative hierarchical clustering with ward or average linkage, euclidean or cosine distance, hdbscan)とした。 最後に,離散 (k-means), "fuzzy" (c-means) および有限混合モデル (潜在プロファイルと潜在クラス分析を含む) の統計力を比較した。 その結果,大きな効果サイズや,機能にまたがる多数の小さな効果の蓄積が寄与し,共分散構造の違いに影響されないことがわかった。 比較的小さなサンプル (n=20 サブグループ) で十分な統計力を達成できたが、クラスター分離が大きい ({\delta}=4) 。 ファジィクラスタリングは、分離可能な多変量正規分布、特にわずかに低い中心核分離({\delta}=3)を特定するためのより分岐的で強力な代替手段となった。 全体として 研究者は 1)大規模なサブグループ分離が期待される場合にのみクラスタ分析を適用する。 2) n=20からn=30のサンプルサイズを想定する。 3)クラスタ分離を改善するために多次元スケーリングを使用する。 4) ファジィクラスタリングまたは有限混合モデリングアプローチはより強力で、部分的に重複する多変量正規分布と相似である。

Cluster algorithms are increasingly popular in biomedical research due to their compelling ability to identify discrete subgroups in data, and their increasing accessibility in mainstream software. While guidelines exist for algorithm selection and outcome evaluation, there are no firmly established ways of computing a priori statistical power for cluster analysis. Here, we estimated power and accuracy for common analysis pipelines through simulation. We varied subgroup size, number, separation (effect size), and covariance structure. We then subjected generated datasets to dimensionality reduction (none, multidimensional scaling, or UMAP) and cluster algorithms (k-means, agglomerative hierarchical clustering with Ward or average linkage and Euclidean or cosine distance, HDBSCAN). Finally, we compared the statistical power of discrete (k-means), "fuzzy" (c-means), and finite mixture modelling approaches (which include latent profile and latent class analysis). We found that outcomes were driven by large effect sizes or the accumulation of many smaller effects across features, and were unaffected by differences in covariance structure. Sufficient statistical power was achieved with relatively small samples (N=20 per subgroup), provided cluster separation is large ({\Delta}=4). Fuzzy clustering provided a more parsimonious and powerful alternative for identifying separable multivariate normal distributions, particularly those with slightly lower centroid separation ({\Delta}=3). Overall, we recommend that researchers 1) only apply cluster analysis when large subgroup separation is expected, 2) aim for sample sizes of N=20 to N=30 per expected subgroup, 3) use multidimensional scaling to improve cluster separation, and 4) use fuzzy clustering or finite mixture modelling approaches that are more powerful and more parsimonious with partially overlapping multivariate normal distributions.
翻訳日:2022-12-27 12:56:47 公開日:2021-05-25
# 動物運動サブマニフォールド推定のための学習理論

Learning Theory for Estimation of Animal Motion Submanifolds ( http://arxiv.org/abs/2003.13811v2 )

ライセンス: Link先を確認
Nathan Powell, Andrew Kurdila(参考訳) 本稿では,動物運動のサブ多様体モデルの推定と近似のための新しい手法の定式化と実験試験について述べる。 動物運動はユークリッド空間の滑らかで連結で周期的に埋め込まれたリーマン多様体である構成多様体 $Q$ 上で支えられ、ある$d>0$ に対して $X\approx \mathbb{R}^d$ であり、多様体 $Q$ は既知の滑らかなリーマン多様体 $S$ に同型である。 多様体の推定は、多様体 $s$ を $q$ に写像する未知の写像 $\gamma:s\rightarrow q\subset x$ を見つけることによって達成される。 全体的な問題は、測定の多様体上の分布自由学習問題として$\mathbb{Z}=S\times X$ に当てはまる。 すなわち、実験は、未知の確率密度$\mu$ on $\mathbb{Z}$に従って生成されるサンプルの有限集合 $\{(s_i,x_i)\}_{i=1}^m\subset \mathbb{Z}^m$ を生成すると仮定される。 この論文は、$m$ のサンプルに基づいて、近似値の $n(n)$ 次元空間に含まれる $\gamma_{n,m}$ の近似を導出する。 この論文は、$L^2_\mu(S)$における収束率がユークリッド空間上の古典的分布自由学習理論で知られているものに対応することを示す十分な条件を定義する。 特に、この論文は、$\mathbb{e} \left (\|\gamma_\mu^j-\gamma_{n,m}^j\|_{l^2_\mu(s)}^2\right )\leq c_1 n(n)^{-r} + c_2 \frac{n(n)\log(n(n))}{m}$for定数$c_1,c_2$ with $\gamma_\mu:=\{\gamma^1_\mu,\ldots,\gamma^d_\mu\}$ 回帰関数$\gamma_\mu:s\rightarrow q\subset x と$\gamma_\gamma_\mu}:=\{\gamma^1_\mu,\gamma^d_\mu\} を持つ収束率を保証する十分な条件を導出している。

This paper describes the formulation and experimental testing of a novel method for the estimation and approximation of submanifold models of animal motion. It is assumed that the animal motion is supported on a configuration manifold $Q$ that is a smooth, connected, regularly embedded Riemannian submanifold of Euclidean space $X\approx \mathbb{R}^d$ for some $d>0$, and that the manifold $Q$ is homeomorphic to a known smooth, Riemannian manifold $S$. Estimation of the manifold is achieved by finding an unknown mapping $\gamma:S\rightarrow Q\subset X$ that maps the manifold $S$ into $Q$. The overall problem is cast as a distribution-free learning problem over the manifold of measurements $\mathbb{Z}=S\times X$. That is, it is assumed that experiments generate a finite sets $\{(s_i,x_i)\}_{i=1}^m\subset \mathbb{Z}^m$ of samples that are generated according to an unknown probability density $\mu$ on $\mathbb{Z}$. This paper derives approximations $\gamma_{n,m}$ of $\gamma$ that are based on the $m$ samples and are contained in an $N(n)$ dimensional space of approximants. The paper defines sufficient conditions that shows that the rates of convergence in $L^2_\mu(S)$ correspond to those known for classical distribution-free learning theory over Euclidean space. Specifically, the paper derives sufficient conditions that guarantee rates of convergence that have the form $$\mathbb{E} \left (\|\gamma_\mu^j-\gamma_{n,m}^j\|_{L^2_\mu(S)}^2\right )\leq C_1 N(n)^{-r} + C_2 \frac{N(n)\log(N(n))}{m}$$for constants $C_1,C_2$ with $\gamma_\mu:=\{\gamma^1_\mu,\ldots,\gamma^d_\mu\}$ the regressor function $\gamma_\mu:S\rightarrow Q\subset X$ and $\gamma_{n,m}:=\{\gamma^1_{n,j},\ldots,\gamma^d_{n,m}\}$.
翻訳日:2022-12-18 08:34:56 公開日:2021-05-25
# 欠陥予測モデルの使用・検証における最終リリースの削除の必要性について

On the Need of Removing Last Releases of Data When Using or Validating Defect Prediction Models ( http://arxiv.org/abs/2003.14376v2 )

ライセンス: Link先を確認
Aalok Ahluwalia, Massimiliano Di Penta, Davide Falessi(参考訳) 欠陥予測モデルの開発とトレーニングのために、研究者は、欠陥が特定のリリースのクラスなどのアーティファクトに起因するデータセットに依存している。 しかし、そのようなデータセットの作成は完璧とは程遠い。 この現象は「ドーマント欠陥(dormant defects)」と呼ばれてきた。 これはつまり、現在のバージョンでクラスの状態を観察している場合、これは欠陥のないものとみなすことができるが、そうではない。 このようなクラスからなるノイズをsnoringと呼び、休眠欠陥のみに影響される。 我々は,スノーディングの存在が分類器の精度と評価に悪影響を及ぼすと推測する。 さらに、以前のリリースには古いリリースよりもスノーリングクラスが含まれている可能性が高いため、データセットから最新のリリースを削除することで、スノーニング効果が減少し、分類器の精度が向上する可能性がある。 本稿では,スノーリングノイズが分類器の精度および評価に及ぼす影響と,データの最後のリリースを除去することによる対策の有効性について検討する。 我々は、4000以上のバグと、Apacheエコシステムの19のオープンソースプロジェクトの600リリースからのデータに基づいて、15の機械学習欠陥予測分類器の精度を分析します。 私たちの結果は、プロジェクト全体で平均して (i)いびきの有無は、欠陥予測分類器のリコールを減少させる。 (ii)いびきの影響を受ける評価は、最良の分類器を識別できない可能性が高く、 三 最新のリリースからデータを削除することは、分類器の精度を著しく向上させる。 まとめると、この論文はスヌーリングの効果を緩和してソフトウェア欠陥データセットを作成する方法に関する洞察を提供する。

To develop and train defect prediction models, researchers rely on datasets in which a defect is attributed to an artifact, e.g., a class of a given release. However, the creation of such datasets is far from being perfect. It can happen that a defect is discovered several releases after its introduction: this phenomenon has been called "dormant defects". This means that, if we observe today the status of a class in its current version, it can be considered as defect-free while this is not the case. We call "snoring" the noise consisting of such classes, affected by dormant defects only. We conjecture that the presence of snoring negatively impacts the classifiers' accuracy and their evaluation. Moreover, earlier releases likely contain more snoring classes than older releases, thus, removing the most recent releases from a dataset could reduce the snoring effect and improve the accuracy of classifiers. In this paper we investigate the impact of the snoring noise on classifiers' accuracy and their evaluation, and the effectiveness of a possible countermeasure consisting in removing the last releases of data. We analyze the accuracy of 15 machine learning defect prediction classifiers on data from more than 4,000 bugs and 600 releases of 19 open source projects from the Apache ecosystem. Our results show that, on average across projects: (i) the presence of snoring decreases the recall of defect prediction classifiers; (ii) evaluations affected by snoring are likely unable to identify the best classifiers, and (iii) removing data from recent releases helps to significantly improve the accuracy of the classifiers. On summary, this paper provides insights on how to create a software defect dataset by mitigating the effect of snoring.
翻訳日:2022-12-18 02:01:51 公開日:2021-05-25
# 3次元顔アライメントの教師なし性能解析

Unsupervised Performance Analysis of 3D Face Alignment ( http://arxiv.org/abs/2004.06550v5 )

ライセンス: Link先を確認
Mostafa Sadeghi, Sylvain Guy, Adrien Raison, Xavier Alameda-Pineda and Radu Horaud(参考訳) 本稿では,3次元顔アライメント(3DFA)アルゴリズムの性能解析の問題に対処する。 従来、パフォーマンス分析は注意深くアノテートされたデータセットに依存している。 ここでは、これらのアノテーションは事前に定義された顔のランドマークの3D座標に対応する。 しかし、このアノテーションプロセスは手動でも自動でも、エラーのないことは滅多になく、分析に強く偏っている。 対照的に,ロバスト統計とパラメトリック信頼度テストに基づく完全教師なし手法を提案する。 2つの点集合間の剛性変換のロバストな推定の問題を再検討し、ガウス分布と一様分布の混合に基づく2つのアルゴリズムと、一般化された学生のt分布に基づく2つのアルゴリズムを記述する。 顔の表情やオクルージョンの存在下で、顔の未知のポーズから正面のポーズまで、顔のマッピングに適した50%のアウトリーに対して、これらの手法が堅牢であることを示す。 これらの手法を顔画像の大きなデータセットと組み合わせて、統計的正面顔モデルと関連するパラメトリック信頼度を作成し、最終的に性能解析に使用する。 提案するパイプラインは手法バイアスもデータバイアスも持たず、3dfaアルゴリズムの性能と顔データセットのアノテーションの精度の両方を評価するのに使用できることを示す。

We address the problem of analyzing the performance of 3D face alignment (3DFA) algorithms. Traditionally, performance analysis relies on carefully annotated datasets. Here, these annotations correspond to the 3D coordinates of a set of pre-defined facial landmarks. However, this annotation process, be it manual or automatic, is rarely error-free, which strongly biases the analysis. In contrast, we propose a fully unsupervised methodology based on robust statistics and a parametric confidence test. We revisit the problem of robust estimation of the rigid transformation between two point sets and we describe two algorithms, one based on a mixture between a Gaussian and a uniform distribution, and another one based on the generalized Student's t-distribution. We show that these methods are robust to up to 50% outliers, which makes them suitable for mapping a face, from an unknown pose to a frontal pose, in the presence of facial expressions and occlusions. Using these methods in conjunction with large datasets of face images, we build a statistical frontal facial model and an associated parametric confidence metric, eventually used for performance analysis. We empirically show that the proposed pipeline is neither method-biased nor data-biased, and that it can be used to assess both the performance of 3DFA algorithms and the accuracy of annotations of face datasets.
翻訳日:2022-12-13 09:49:46 公開日:2021-05-25
# mvlearn: pythonのマルチビュー機械学習

mvlearn: Multiview Machine Learning in Python ( http://arxiv.org/abs/2005.11890v4 )

ライセンス: Link先を確認
Ronan Perry, Gavin Mischler, Richard Guo, Theodore Lee, Alexander Chang, Arman Koul, Cameron Franz, Hugo Richard, Iain Carmichael, Pierre Ablin, Alexandre Gramfort, Joshua T. Vogelstein(参考訳) 複数の異なるソースからデータが生成されるにつれて、各サンプルが異なるビューで特徴を持つマルチビューデータセットが近年急増している。 しかし、非専門家が容易にこれらの手法を利用できる包括的パッケージは存在しない。 mvlearnは、主要なマルチビュー機械学習メソッドを実装するPythonライブラリである。 そのシンプルなapiは、scikit-learnの使いやすさを高めるためのものだ。 パッケージはPython Package Index(PyPI)とcondaパッケージマネージャからインストールでき、MITオープンソースライセンスでリリースされている。 ドキュメント、詳細な例、全リリースはhttps://mvlearn.github.io/で入手できる。

As data are generated more and more from multiple disparate sources, multiview data sets, where each sample has features in distinct views, have ballooned in recent years. However, no comprehensive package exists that enables non-specialists to use these methods easily. mvlearn is a Python library which implements the leading multiview machine learning methods. Its simple API closely follows that of scikit-learn for increased ease-of-use. The package can be installed from Python Package Index (PyPI) and the conda package manager and is released under the MIT open-source license. The documentation, detailed examples, and all releases are available at https://mvlearn.github.io/.
翻訳日:2022-11-29 05:38:44 公開日:2021-05-25
# Embed2Detect:ソーシャルメディアにおけるイベント検出のための一時クラスタ化単語

Embed2Detect: Temporally Clustered Embedded Words for Event Detection in Social Media ( http://arxiv.org/abs/2006.05908v4 )

ライセンス: Link先を確認
Hansi Hettiarachchi, Mariam Adedoyin-Olowe, Jagdev Bhogal and Mohamed Medhat Gaber(参考訳) ソーシャルメディアは、世界中で起きていることについて議論する主要なメディアになりつつある。 したがって、ソーシャルメディアプラットフォームが生成するデータは、進行中の出来事を記述した豊富な情報を含んでいる。 さらに、これらのデータに関連するタイムラインは、即時の洞察を促進することができる。 しかし、ソーシャルメディアデータストリームにおける動的な性質と大量のデータ生成を考えると、手動でイベントをフィルタリングすることは現実的ではないため、自動イベント検出メカニズムはコミュニティにとって有用である。 いくつかの特筆すべき例外を除いて、自動イベント検出に関するこれまでの研究は、データの統計的特徴と構文的特徴にのみ焦点を合わせており、それらが単語と意味の関連を表わすため、テキストから効果的な情報検索に重要な意味論が欠如している。 本稿では,単語埋め込みの特徴と階層的凝集クラスタリングを組み合わせた,ソーシャルメディアにおけるイベント検出のための Embed2Detect という新しい手法を提案する。 ワード埋め込みの採用により、Embed2Detectはイベント検出に強力なセマンティック機能を組み込むことができ、従来のアプローチに固有の大きな制限を克服できる。 本研究では,スポーツ領域と政治領域を表わす2つの実ソーシャルメディアデータセットを用いて実験を行い,その結果を最新手法と比較した。 得られた結果から, Embed2Detect は効率的なイベント検出が可能であり,最近のイベント検出方法よりも優れていた。 スポーツデータセットでは、embed2detectは最高の基準値よりも27%高いf-measureを達成し、政治データセットでは29%増加した。

Social media is becoming a primary medium to discuss what is happening around the world. Therefore, the data generated by social media platforms contain rich information which describes the ongoing events. Further, the timeliness associated with these data is capable of facilitating immediate insights. However, considering the dynamic nature and high volume of data production in social media data streams, it is impractical to filter the events manually and therefore, automated event detection mechanisms are invaluable to the community. Apart from a few notable exceptions, most previous research on automated event detection have focused only on statistical and syntactical features in data and lacked the involvement of underlying semantics which are important for effective information retrieval from text since they represent the connections between words and their meanings. In this paper, we propose a novel method termed Embed2Detect for event detection in social media by combining the characteristics in word embeddings and hierarchical agglomerative clustering. The adoption of word embeddings gives Embed2Detect the capability to incorporate powerful semantical features into event detection and overcome a major limitation inherent in previous approaches. We experimented our method on two recent real social media data sets which represent the sports and political domain and also compared the results to several state-of-the-art methods. The obtained results show that Embed2Detect is capable of effective and efficient event detection and it outperforms the recent event detection methods. For the sports data set, Embed2Detect achieved 27% higher F-measure than the best-performed baseline and for the political data set, it was an increase of 29%.
翻訳日:2022-11-23 05:58:43 公開日:2021-05-25
# 分子編集グラフ注意ネットワーク:化学反応をグラフ編集のシーケンスとしてモデル化する

Molecule Edit Graph Attention Network: Modeling Chemical Reactions as Sequences of Graph Edits ( http://arxiv.org/abs/2006.15426v2 )

ライセンス: Link先を確認
Miko{\l}aj Sacha, Miko{\l}aj B{\l}a\.z, Piotr Byrski, Pawe{\l} D\k{a}browski-Tuma\'nski, Miko{\l}aj Chromi\'nski, Rafa{\l} Loska, Pawe{\l} W{\l}odarczyk-Pruszy\'nski, Stanis{\l}aw Jastrz\k{e}bski(参考訳) 自動合成計画における中心的な課題は、様々な化学反応の結果を生成および予測できることである。 特に、多くの場合、より可能性の高い合成経路は追加の制約のために適用できず、代替化学反応を提案する必要がある。 このことを念頭に,エンドツーエンドエンコーダ・デコーダニューラルモデルである分子編集グラフアテンションネットワーク(megan)を提案する。 MEGANは、化学反応をグラフ編集のシーケンスとして表現するモデルにインスパイアされている。 このモデルをレトロシンセシス予測(化学反応の産物を仮定した基質の予測)に拡張し、大規模データセットにスケールアップする。 我々は, 反応を編集のシーケンスとして表現することで, メガンは可能な化学反応の空間を効率的に探索でき, エンドツーエンドで反応をモデル化する柔軟性を保ち, 標準ベンチマークで最先端の精度を達成することができると主張している。 コードとトレーニングされたモデルはhttps://github.com/molecule-one/megan.comで公開されている。

The central challenge in automated synthesis planning is to be able to generate and predict outcomes of a diverse set of chemical reactions. In particular, in many cases, the most likely synthesis pathway cannot be applied due to additional constraints, which requires proposing alternative chemical reactions. With this in mind, we present Molecule Edit Graph Attention Network (MEGAN), an end-to-end encoder-decoder neural model. MEGAN is inspired by models that express a chemical reaction as a sequence of graph edits, akin to the arrow pushing formalism. We extend this model to retrosynthesis prediction (predicting substrates given the product of a chemical reaction) and scale it up to large datasets. We argue that representing the reaction as a sequence of edits enables MEGAN to efficiently explore the space of plausible chemical reactions, maintaining the flexibility of modeling the reaction in an end-to-end fashion, and achieving state-of-the-art accuracy in standard benchmarks. Code and trained models are made available online at https://github.com/molecule-one/megan.
翻訳日:2022-11-16 07:42:05 公開日:2021-05-25
# 分類器の精度評価には常に必要か?

Are Labels Always Necessary for Classifier Accuracy Evaluation? ( http://arxiv.org/abs/2007.02915v3 )

ライセンス: Link先を確認
Weijian Deng and Liang Zheng(参考訳) コンピュータビジョンタスク、例えば物体認識におけるモデルの精度を計算するには、通常、テストサンプルとその基底真理ラベルからなるテストセットが必要である。 標準的なユースケースはこの要件を満たすが、多くの実世界のシナリオではラベル付けされていないテストデータが含まれ、一般的なモデル評価手法は実現不可能である。 本稿では,この重要かつ未探索な問題であるAutomatic Model Evaluation(AutoEval)について検討する。 具体的には,ラベル付きトレーニングセットと分類器を用いて,ラベル付きテストデータセットの分類精度を推定することを目的とする。 メタデータセットを構築する:回転、背景置換、前景スケーリングなどの様々な変換を通じて、原画像から生成されたデータセットからなるデータセットを構築する。 各サンプル(データセット)上のモデルの分類精度は、元のデータセットラベルから分かっているので、回帰によって課題を解決できる。 サンプルデータセットの分布を表すために特徴統計を用いると、回帰モデル(回帰ニューラルネットワークなど)をトレーニングしてモデルの性能を予測することができる。 合成メタデータセットと実世界のデータセットをそれぞれトレーニングとテストに使用し,モデル精度の合理的かつ有望な予測を報告する。 また、AutoEvalのアプリケーションの範囲、制限、将来的な方向性に関する洞察も提供します。

To calculate the model accuracy on a computer vision task, e.g., object recognition, we usually require a test set composing of test samples and their ground truth labels. Whilst standard usage cases satisfy this requirement, many real-world scenarios involve unlabeled test data, rendering common model evaluation methods infeasible. We investigate this important and under-explored problem, Automatic model Evaluation (AutoEval). Specifically, given a labeled training set and a classifier, we aim to estimate the classification accuracy on unlabeled test datasets. We construct a meta-dataset: a dataset comprised of datasets generated from the original images via various transformations such as rotation, background substitution, foreground scaling, etc. As the classification accuracy of the model on each sample (dataset) is known from the original dataset labels, our task can be solved via regression. Using the feature statistics to represent the distribution of a sample dataset, we can train regression models (e.g., a regression neural network) to predict model performance. Using synthetic meta-dataset and real-world datasets in training and testing, respectively, we report a reasonable and promising prediction of the model accuracy. We also provide insights into the application scope, limitation, and potential future direction of AutoEval.
翻訳日:2022-11-13 02:43:55 公開日:2021-05-25
# 社会センシングにおける予測可能性と公平性

Predictability and Fairness in Social Sensing ( http://arxiv.org/abs/2007.16117v3 )

ライセンス: Link先を確認
Ramen Ghosh and Jakub Marecek and Wynita M. Griggs and Matheus Souza and Robert N. Shorten(参考訳) 本稿では,エージェントがソーシャルセンシングプラットフォームに貢献する方法について,分散アルゴリズムの設計について考察する。 具体的には、プラットフォームに貢献するエージェントの公平性が必要な状況に関心がある。 特筆すべき例は、公正が法的要件である公共団体が運営するプラットフォームである。 このような分散システムの設計は、効率的なソーシャルセンシングプラットフォームを同時に実現したいだけでなく、エージェントに事前定義されたサービス品質を提供する(例えば、プラットフォームに貢献するための公正な機会)という事実から、難しいものになっています。 本稿では,このようなシステムの設計と解析を行うツールとして,IFS ( Iterated Function System) を紹介する。 IFSフレームワークがエージェントに予測可能なサービス品質を提供するシステムの実現にどのように使用できるかを示し、エージェントとソーシャルセンシングプラットフォームとのインタラクションを管理する契約の基盤となり、効率的であることを示す。 使用事例を通して設計を説明するために,大型で高密度な駐車車両ネットワークについて考察する。 このネットワークは、管理センターによって起動されると、RFIDベースの手法を用いて、行方不明者の関心を移動させる。 我々は、どの車両がどの時点でも関心のある移動物体を積極的に探しているかを規制する。 そこで我々は, ネットワーク全体での車両エネルギー消費の等化を図っている。 これはオーストラリアのメルボルンで行方不明のアルツハイマー病患者の捜索をシミュレーションした結果である。 本システムの有効性と,初期条件に依存しないプラットフォームへのエージェントアクセスの予測可能性について実験的に検討した。

We consider the design of distributed algorithms that govern the manner in which agents contribute to a social sensing platform. Specifically, we are interested in situations where fairness among the agents contributing to the platform is needed. A notable example are platforms operated by public bodies, where fairness is a legal requirement. The design of such distributed systems is challenging due to the fact that we wish to simultaneously realise an efficient social sensing platform, but also deliver a predefined quality of service to the agents (for example, a fair opportunity to contribute to the platform). In this paper, we introduce iterated function systems (IFS) as a tool for the design and analysis of systems of this kind. We show how the IFS framework can be used to realise systems that deliver a predictable quality of service to agents, can be used to underpin contracts governing the interaction of agents with the social sensing platform, and which are efficient. To illustrate our design via a use case, we consider a large, high-density network of participating parked vehicles. When awoken by an administrative centre, this network proceeds to search for moving missing entities of interest using RFID-based techniques. We regulate which vehicles are actively searching for the moving entity of interest at any point in time. In doing so, we seek to equalise vehicular energy consumption across the network. This is illustrated through simulations of a search for a missing Alzheimer's patient in Melbourne, Australia. Experimental results are presented to illustrate the efficacy of our system and the predictability of access of agents to the platform independent of initial conditions.
翻訳日:2022-11-04 07:15:58 公開日:2021-05-25
# bats: 単一文書トピックモデリングとセグメンテーションに対するスペクトルバイクラスタ化アプローチ

BATS: A Spectral Biclustering Approach to Single Document Topic Modeling and Segmentation ( http://arxiv.org/abs/2008.02218v3 )

ライセンス: Link先を確認
Qiong Wu, Adam Hare, Sirui Wang, Yuwei Tu, Zhenming Liu, Christopher G. Brinton, Yanhua Li(参考訳) 既存のトピックモデリングとテキストセグメンテーションの方法論は、トレーニングのために大きなデータセットを必要とすることが多い。 本研究では,1つの新たな関心テキストが存在する場合に,疎文書学習における「トピック識別」と「テキストセグメンテーション」の相互関連問題を再検討する。 単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。 1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。 第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。 これらの課題に対処するために,BATS: Biclustering Approach to Topic Modeling and Segmentation という,教師なし,効率的な手法を設計する。 BATSは3つの重要なアイデアを活用し、トピックとセグメントテキストを同時に識別する。 (i)単語順序情報を用いてサンプルの複雑さを低減する新しいメカニズム。 (ii)単語・文の潜在構造を識別する統計的に健全なグラフに基づく二重クラスタリング手法 (iii)ノイズ語を除去し、重要な語を付与し、さらに性能を向上させる効果的なヒューリスティックのコレクション。 4つのデータセットの実験から,トピックコヒーレンス,トピックの多様性,セグメンテーション,実行時比較といった指標を考慮した場合,我々のアプローチは,最先端のベースラインよりも優れていることが示された。

Existing topic modeling and text segmentation methodologies generally require large datasets for training, limiting their capabilities when only small collections of text are available. In this work, we reexamine the inter-related problems of "topic identification" and "text segmentation" for sparse document learning, when there is a single new text of interest. In developing a methodology to handle single documents, we face two major challenges. First is sparse information: with access to only one document, we cannot train traditional topic models or deep learning algorithms. Second is significant noise: a considerable portion of words in any single document will produce only noise and not help discern topics or segments. To tackle these issues, we design an unsupervised, computationally efficient methodology called BATS: Biclustering Approach to Topic modeling and Segmentation. BATS leverages three key ideas to simultaneously identify topics and segment text: (i) a new mechanism that uses word order information to reduce sample complexity, (ii) a statistically sound graph-based biclustering technique that identifies latent structures of words and sentences, and (iii) a collection of effective heuristics that remove noise words and award important words to further improve performance. Experiments on four datasets show that our approach outperforms several state-of-the-art baselines when considering topic coherence, topic diversity, segmentation, and runtime comparison metrics.
翻訳日:2022-11-02 18:57:58 公開日:2021-05-25
# 行動ツリーの原理的解析とその一般化

A principled analysis of Behavior Trees and their generalisations ( http://arxiv.org/abs/2008.11906v2 )

ライセンス: Link先を確認
Oliver Biggar (1), Mohammad Zamani (1), Iman Shames (2) ((1) Defence Science and Technology Group, Australia, (2) The Australian National University, Australia)(参考訳) 複雑な自律ロボットシステムが普及するにつれて、透明で再利用可能な人工知能(AI)設計の必要性がより明確になる。 本稿では,木構造制御アーキテクチャであるビヘイビアツリー(bts)の背後にある原則が,これらの目標にどのように適用されているかを分析する。 構造化プログラミングをガイドとして使用し,行動選択の形式的枠組みにおいて,リアクティブ性とモジュール性というbt原則を分析した。 これらの原則から、文献におけるBTの難解なユースケースを概観し、これらの原則による推論が互換性のあるソリューションにつながることを示す。 これらの議論を拡張して、一般化BTまたは$k$-BTと呼ばれる新しい制御アーキテクチャを導入し、BTの原則を保ちながら、前述の課題のあるBTのユースケースにBTの適用性を拡張する方法について示す。

As complex autonomous robotic systems become more widespread, the need for transparent and reusable Artificial Intelligence (AI) designs becomes more apparent. In this paper we analyse how the principles behind Behavior Trees (BTs), an increasingly popular tree-structured control architecture, are applicable to these goals. Using structured programming as a guide, we analyse the BT principles of reactiveness and modularity in a formal framework of action selection. Proceeding from these principles, we review a number of challenging use cases of BTs in the literature, and show that reasoning via these principles leads to compatible solutions. Extending these arguments, we introduce a new class of control architectures we call generalised BTs or $k$-BTs and show how they can extend the applicability of BTs to some of the aforementioned challenging BT use cases while preserving the BT principles.
翻訳日:2022-10-24 08:21:35 公開日:2021-05-25
# 脳波特徴を用いたパターン学習に基づく動的エントロピーによる感情の個人間認識

Cross-individual Recognition of Emotions by a Dynamic Entropy based on Pattern Learning with EEG features ( http://arxiv.org/abs/2009.12525v2 )

ライセンス: Link先を確認
Xiaolong Zhong and Zhong Yin(参考訳) 感情を認識するための脳波(EEG)と機械学習のアプローチは、人間のコンピュータの感情的相互作用を促進する。 しかしながら、脳波データの種類は、横断的な脳波特徴モデリングと分類の障害を構成する。 本稿では,複数個体間の神経生理学的特徴に関する情報的指標を抽象化する,動的エントロピーに基づくパターン学習(depl)と呼ばれるディープラーニングフレームワークを提案する。 deplは、動的エントロピーに基づく特徴の皮質位置間の相互依存性をモデル化することにより、深層畳み込みニューラルネットワークによって生成される表現の能力を強化した。 DEPLの有効性は、一般にDEAPとMAHNOB-HCIマルチモーダルタグデータベースと呼ばれる2つのパブリックデータベースで検証されている。 具体的には、remove one subject out training and testingのパラダイムが適用されています。 脳波の感情認識に関する多くの実験は、提案されたDEPLが従来の機械学習(ML)手法よりも優れていることを示し、電極依存者(w.r.t. 異なる感情)間で学習できることを示しており、これは現実世界の応用において人間の感情に適応することで、効果的な人間とコンピュータの相互作用システムの開発に意義がある。

Use of the electroencephalogram (EEG) and machine learning approaches to recognize emotions can facilitate affective human computer interactions. However, the type of EEG data constitutes an obstacle for cross-individual EEG feature modelling and classification. To address this issue, we propose a deep-learning framework denoted as a dynamic entropy-based pattern learning (DEPL) to abstract informative indicators pertaining to the neurophysiological features among multiple individuals. DEPL enhanced the capability of representations generated by a deep convolutional neural network by modelling the interdependencies between the cortical locations of dynamical entropy based features. The effectiveness of the DEPL has been validated with two public databases, commonly referred to as the DEAP and MAHNOB-HCI multimodal tagging databases. Specifically, the leave one subject out training and testing paradigm has been applied. Numerous experiments on EEG emotion recognition demonstrate that the proposed DEPL is superior to those traditional machine learning (ML) methods, and could learn between electrode dependencies w.r.t. different emotions, which is meaningful for developing the effective human-computer interaction systems by adapting to human emotions in the real world applications.
翻訳日:2022-10-14 09:10:55 公開日:2021-05-25
# 閉塞性外乱が圧倒した場合の連続回帰

Consistent regression when oblivious outliers overwhelm ( http://arxiv.org/abs/2009.14774v2 )

ライセンス: Link先を確認
Tommaso d'Orsi, Gleb Novikov, David Steurer(参考訳) 頑健な線形回帰モデル $y=X\beta^* + \eta$ を考えると、設計に不利な逆数 $X\in \mathbb{R}^{n\times d}$ は、全てを汚すために$\eta$ を選ぶが、観測の$y$ の分数$\alpha$ は任意の方法で選ぶことができる。 我々の研究に先立ち、ガウスの$X$であっても、$\beta^*$ に対する推定子は2次サンプルサイズ $n \gtrsim (d/\alpha)^2$ や対数帰納率 $\alpha\ge 1/\log n$ を除いては、このモデルでは一貫性がないことが知られている。 ほぼ線形なサンプルサイズと逆多項不連続分数で一貫した推定が可能であることを示す。 具体的には、ハマー損失推定器は、すべてのサンプルサイズ$n= \omega(d/\alpha^2)$に対して整合性を示し、誤り率$O(d/\alpha^2n)^{1/2}$を達成する。 どちらの境界も最適である(定数因子まで)。 我々の結果はガウスのケースをはるかに超える設計に拡張され、約スパースベクトルを含まないために$X$の列スパンしか必要としない。 (圧縮センシングのカーネル空間に関する一般的な仮定と似ている)。 技術的に類似した2つの証明を提供する。 1つの証明は、強い凸性、 [tsakonas et al.'14] の拡張、特に短いという観点で表現される。 もう1つの証明は、ハマー損失推定器と高次元中央値計算との接続を強調している。 ガウス設計の特別な場合、この接続は、ほぼ線形な時間に最適な保証を達成し、$\beta^*$のスパーシティを活用できる座標的中央値計算に基づく非常に単純なアルゴリズムへと導かれる。 ここで研究したモデルは、最初の瞬間さえ持たない重い尾のノイズ分布も捉えている。

We consider a robust linear regression model $y=X\beta^* + \eta$, where an adversary oblivious to the design $X\in \mathbb{R}^{n\times d}$ may choose $\eta$ to corrupt all but an $\alpha$ fraction of the observations $y$ in an arbitrary way. Prior to our work, even for Gaussian $X$, no estimator for $\beta^*$ was known to be consistent in this model except for quadratic sample size $n \gtrsim (d/\alpha)^2$ or for logarithmic inlier fraction $\alpha\ge 1/\log n$. We show that consistent estimation is possible with nearly linear sample size and inverse-polynomial inlier fraction. Concretely, we show that the Huber loss estimator is consistent for every sample size $n= \omega(d/\alpha^2)$ and achieves an error rate of $O(d/\alpha^2n)^{1/2}$. Both bounds are optimal (up to constant factors). Our results extend to designs far beyond the Gaussian case and only require the column span of $X$ to not contain approximately sparse vectors). (similar to the kind of assumption commonly made about the kernel space for compressed sensing). We provide two technically similar proofs. One proof is phrased in terms of strong convexity, extending work of [Tsakonas et al.'14], and particularly short. The other proof highlights a connection between the Huber loss estimator and high-dimensional median computations. In the special case of Gaussian designs, this connection leads us to a strikingly simple algorithm based on computing coordinate-wise medians that achieves optimal guarantees in nearly-linear time, and that can exploit sparsity of $\beta^*$. The model studied here also captures heavy-tailed noise distributions that may not even have a first moment.
翻訳日:2022-10-12 22:53:42 公開日:2021-05-25
# ドラゴンをモチベーションする方法:幻想的な世界で話すためのゴール駆動エージェントを教える

How to Motivate Your Dragon: Teaching Goal-Driven Agents to Speak and Act in Fantasy Worlds ( http://arxiv.org/abs/2010.00685v3 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Jack Urbanek, Margaret Li, Arthur Szlam, Tim Rockt\"aschel, Jason Weston(参考訳) 目標を追求するために、他のエージェントと行動し、コミュニケーションするエージェントを創り出そうとしています。 この目的に向けて、私たちはlight(urbanek et al. 2019) -- 大規模なクラウドソースのファンタジーテキストゲーム -- をクエストのデータセットで拡張しています。 これらはゲーム内目標と人間のデモと組み合わせた自然言語モチベーションを含み、クエストの完了には対話やアクション(あるいはその両方)が必要になる。 本稿では,(1)大規模言語モデルと常識推論に基づく事前学習を組み込んだ強化学習システムについて紹介する。(2)行動指令と対話の因子化された行動空間を活用し,両者のバランスをとる。 我々は、保持された人間の専門家によるデモンストレーションを用いてゼロショット評価を行い、エージェントが彼らのモチベーションに関して一貫して行動し、自然に話すことができることを示す。

We seek to create agents that both act and communicate with other agents in pursuit of a goal. Towards this end, we extend LIGHT (Urbanek et al. 2019) -- a large-scale crowd-sourced fantasy text-game -- with a dataset of quests. These contain natural language motivations paired with in-game goals and human demonstrations; completing a quest might require dialogue or actions (or both). We introduce a reinforcement learning system that (1) incorporates large-scale language modeling-based and commonsense reasoning-based pre-training to imbue the agent with relevant priors; and (2) leverages a factorized action space of action commands and dialogue, balancing between the two. We conduct zero-shot evaluations using held-out human expert demonstrations, showing that our agents are able to act consistently and talk naturally with respect to their motivations.
翻訳日:2022-10-12 07:17:59 公開日:2021-05-25
# 報酬のばらつきと遅れを伴うロボットタスクに対する自己模倣学習

Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards ( http://arxiv.org/abs/2010.06962v3 )

ライセンス: Link先を確認
Zhixin Chen, Mengxiang Lin(参考訳) ロボット制御における強化学習(RL)の適用は、まだ疎度と遅延報酬のある環境において限られている。 本稿では,SILCR (Self-Imitation Learning with Constant Reward) という,実践的な自己模倣学習手法を提案する。 本手法では, 環境からの即時報酬を必要とせず, 最終報奨に応じて各時刻の即時報酬を一定値で割り当てる。 このように、たとえ環境からの密集した報酬が利用できないとしても、エージェントによって取られたすべてのアクションは適切にガイドされる。 提案手法は,ムジョコシミュレーションにおける連続ロボット制御課題において有効であることを実証し,提案手法がスパースや遅延報酬のタスクにおいて,代替法を大幅に上回ることを示した。 高い報酬を得られる代替品と比較しても,本手法は競争性能を達成する。 また, 本手法の安定性と再現性についても検討した。

The application of reinforcement learning (RL) in robotic control is still limited in the environments with sparse and delayed rewards. In this paper, we propose a practical self-imitation learning method named Self-Imitation Learning with Constant Reward (SILCR). Instead of requiring hand-defined immediate rewards from environments, our method assigns the immediate rewards at each timestep with constant values according to their final episodic rewards. In this way, even if the dense rewards from environments are unavailable, every action taken by the agents would be guided properly. We demonstrate the effectiveness of our method in some challenging continuous robotics control tasks in MuJoCo simulation and the results show that our method significantly outperforms the alternative methods in tasks with sparse and delayed rewards. Even compared with alternatives with dense rewards available, our method achieves competitive performance. The ablation experiments also show the stability and reproducibility of our method.
翻訳日:2022-10-07 12:34:21 公開日:2021-05-25
# オブザーバによるサンプル駆動インテント予測

Example-Driven Intent Prediction with Observers ( http://arxiv.org/abs/2010.08684v2 )

ライセンス: Link先を確認
Shikib Mehri and Mihail Eric(参考訳) ダイアログシステム研究の重要な課題は、新しいドメインに効果的かつ効率的に適応することである。 適応のためのスケーラブルなパラダイムは、少数の設定でうまく機能する汎用モデルの開発を必要とする。 本稿では,対話システムに対する発話に対するユーザの意図を識別することを目的とした意図分類問題に着目する。 発話分類モデルの一般化性を改善するために,(1)オブザーバと(2)サンプル駆動トレーニングという2つのアプローチを提案する。 従来の研究によると、BERTのようなモデルは[CLS]トークンにかなりの注意を払っている傾向があり、その結果は希薄表現となる。 オブザーバは参加していないトークンであり、発話の意味表現としての[CLS]トークンの代替である。 例駆動学習は、例と比較することで発話を分類し、基礎となるエンコーダを文類似性モデルとして利用する。 これらの手法は相補的であり、オブザーバによる表現の改善により、サンプル駆動モデルは文の類似度をよりよく測定できる。 提案手法は,3つの意図予測データセット (\textsc{banking77}, \textsc{clinc150}, \textsc{hwu64}) に対して,全データと少数ショット (インテント当たり10例) の両方で最先端の結果が得られる。 さらに,提案手法は,新たなインテントやデータセット間で,新たなトレーニングを必要とせずに移行できることを実証する。

A key challenge of dialog systems research is to effectively and efficiently adapt to new domains. A scalable paradigm for adaptation necessitates the development of generalizable models that perform well in few-shot settings. In this paper, we focus on the intent classification problem which aims to identify user intents given utterances addressed to the dialog system. We propose two approaches for improving the generalizability of utterance classification models: (1) observers and (2) example-driven training. Prior work has shown that BERT-like models tend to attribute a significant amount of attention to the [CLS] token, which we hypothesize results in diluted representations. Observers are tokens that are not attended to, and are an alternative to the [CLS] token as a semantic representation of utterances. Example-driven training learns to classify utterances by comparing to examples, thereby using the underlying encoder as a sentence similarity model. These methods are complementary; improving the representation through observers allows the example-driven model to better measure sentence similarities. When combined, the proposed methods attain state-of-the-art results on three intent prediction datasets (\textsc{banking77}, \textsc{clinc150}, \textsc{hwu64}) in both the full data and few-shot (10 examples per intent) settings. Furthermore, we demonstrate that the proposed approach can transfer to new intents and across datasets without any additional training.
翻訳日:2022-10-06 09:01:50 公開日:2021-05-25
# CoRT: トランスフォーマーの補完的なランキング

CoRT: Complementary Rankings from Transformers ( http://arxiv.org/abs/2010.10252v2 )

ライセンス: Link先を確認
Marco Wrzalik and Dirk Krechel(参考訳) 近年の神経情報検索へのアプローチは多段階ランキングパイプラインを用いて計算コストを軽減している。 第1段階では、bm25のような効率的な検索モデルを用いて、関連する候補を多数検索する。 BM25は1段目のランサーとして十分な性能を発揮しているが、関連するパスを見逃す傾向にある。 この文脈では、BERTのような事前訓練された言語モデルからの文脈表現を利用して、項ベースのランキング関数を補完し、クエリ時に大きな遅延を生じさせない単純なニューラルネットワークファーストステージランキングモデルであるCoRTを提案する。 MS MARCO データセットを用いて, BM25 を補うことで, CoRT が候補リコールを著しく増加させることを示す。 その結果, 結果の少ない再選者では, 成績が良好であることが判明した。 さらに,CoRTを用いた経路探索は驚くほど低レイテンシで実現できることを示す。

Many recent approaches towards neural information retrieval mitigate their computational costs by using a multi-stage ranking pipeline. In the first stage, a number of potentially relevant candidates are retrieved using an efficient retrieval model such as BM25. Although BM25 has proven decent performance as a first-stage ranker, it tends to miss relevant passages. In this context we propose CoRT, a simple neural first-stage ranking model that leverages contextual representations from pretrained language models such as BERT to complement term-based ranking functions while causing no significant delay at query time. Using the MS MARCO dataset, we show that CoRT significantly increases the candidate recall by complementing BM25 with missing candidates. Consequently, we find subsequent re-rankers achieve superior results with less candidates. We further demonstrate that passage retrieval using CoRT can be realized with surprisingly low latencies.
翻訳日:2022-10-05 06:39:08 公開日:2021-05-25
# MARS:共設計圧縮ニューラルネットワークを用いたマルチマクロアーキテクチャSRAM CIMベースの加速器

MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with Co-designed Compressed Neural Networks ( http://arxiv.org/abs/2010.12861v2 )

ライセンス: Link先を確認
Syuan-Hao Sie, Jye-Luen Lee, Yi-Ren Chen, Chih-Cheng Lu, Chih-Cheng Hsieh, Meng-Fan Chang, Kea-Tiong Tang(参考訳) 畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。 しかし、ハードウェアアクセラレーターでは、大きなストレージオーバーヘッドとCNNの相当な計算コストが問題となる。 コンピュータ・イン・メモリ(CIM)アーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。 しかし、クロスバーアレイで実行される集中的乗算および蓄積(MAC)演算とCIMマクロの限られた容量は、エネルギー効率とスループットのさらなる向上のためにボトルネックのままである。 計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。 しかし、モデル圧縮アルゴリズムのほとんどは、デジタルベースのcnnアクセラレータでしか実装できない。 静的ランダムアクセスメモリ (sram) cimベースの加速器の実装のために、モデル圧縮アルゴリズムは、sram cimマクロに重みをマップする方法と同様に、同時にオンにできるワード行数やビット行数のような、cimマクロのハードウェア上の制限を考慮する必要がある。 本研究では、SRAM CIMベースのCNNアクセラレータとSRAM CIM対応モデル圧縮アルゴリズムを設計するためのソフトウェアとハードウェアの共同設計手法を提案する。 バッチ正規化(BN)に必要な高精度MACを減らすために,BNを重みに融合させる量子化アルゴリズムを提案する。 さらに,ネットワークパラメータ数を削減すべく,CIMアーキテクチャを考慮した空間性アルゴリズムを提案する。 最後に、複数のSRAM CIMマクロを処理単位として利用し、スパシティニューラルネットワークをサポートするCIMベースのCNNアクセラレータMARSを提案する。

Convolutional neural networks (CNNs) play a key role in deep learning applications. However, the large storage overheads and the substantial computation cost of CNNs are problematic in hardware accelerators. Computing-in-memory (CIM) architecture has demonstrated great potential to effectively compute large-scale matrix-vector multiplication. However, the intensive multiply and accumulation (MAC) operations executed at the crossbar array and the limited capacity of CIM macros remain bottlenecks for further improvement of energy efficiency and throughput. To reduce computation costs, network pruning and quantization are two widely studied compression methods to shrink the model size. However, most of the model compression algorithms can only be implemented in digital-based CNN accelerators. For implementation in a static random access memory (SRAM) CIM-based accelerator, the model compression algorithm must consider the hardware limitations of CIM macros, such as the number of word lines and bit lines that can be turned on at the same time, as well as how to map the weight to the SRAM CIM macro. In this study, a software and hardware co-design approach is proposed to design an SRAM CIM-based CNN accelerator and an SRAM CIM-aware model compression algorithm. To lessen the high-precision MAC required by batch normalization (BN), a quantization algorithm that can fuse BN into the weights is proposed. Furthermore, to reduce the number of network parameters, a sparsity algorithm that considers a CIM architecture is proposed. Last, MARS, a CIM-based CNN accelerator that can utilize multiple SRAM CIM macros as processing units and support a sparsity neural network, is proposed.
翻訳日:2022-10-03 13:47:50 公開日:2021-05-25
# マスキング言語モデル埋め込みによる位置アーチファクトの伝播

Positional Artefacts Propagate Through Masked Language Model Embeddings ( http://arxiv.org/abs/2011.04393v3 )

ライセンス: Link先を確認
Ziyang Luo, Artur Kulmizev, Xiaoxi Mao(参考訳) 本研究では,事前学習したマスキング言語モデルに基づくエンコーダから得られる文脈化された単語ベクトルが,レイヤ間の共通かつ望ましくないパターンを共有することを示す。 すなわち、BERT と RoBERTa の隠れ状態ベクトル内の持続性外方ニューロンのケースが、そのベクトルの最小または最大の値を常に保持している。 この情報源を探究するため,ニューロンレベルの解析手法を導入し,位置埋め込みによって取得した情報とアウトリーチが密接な関係があることを明らかにする。 また,RoBERTaベースモデルをスクラッチから事前訓練し,位置埋め込みを使わずに外れ値が消えることを見出した。 これらの外れ値はエンコーダの生ベクトル空間の異方性の主要な原因であり、切断することでベクトル間の類似性が増大する。 クリッピングベクターが単語の感覚をより正確に識別し、プールの際の文の埋め込みを改善することを示し、実際にこれを実証する。 3つの教師付きタスクでは、クリッピングはパフォーマンスに影響を与えない。

In this work, we demonstrate that the contextualized word vectors derived from pretrained masked language model-based encoders share a common, perhaps undesirable pattern across layers. Namely, we find cases of persistent outlier neurons within BERT and RoBERTa's hidden state vectors that consistently bear the smallest or largest values in said vectors. In an attempt to investigate the source of this information, we introduce a neuron-level analysis method, which reveals that the outliers are closely related to information captured by positional embeddings. We also pre-train the RoBERTa-base models from scratch and find that the outliers disappear without using positional embeddings. These outliers, we find, are the major cause of anisotropy of encoders' raw vector spaces, and clipping them leads to increased similarity across vectors. We demonstrate this in practice by showing that clipped vectors can more accurately distinguish word senses, as well as lead to better sentence embeddings when mean pooling. In three supervised tasks, we find that clipping does not affect the performance.
翻訳日:2022-09-28 00:59:10 公開日:2021-05-25
# 境界不連続な自由回転検出のためのデンスラベル符号化

Dense Label Encoding for Boundary Discontinuity Free Rotation Detection ( http://arxiv.org/abs/2011.09670v4 )

ライセンス: Link先を確認
Xue Yang, Liping Hou, Yue Zhou, Wentao Wang, Junchi Yan(参考訳) 回転検出は、空中画像、シーンテキスト、顔などを含む多くの視覚アプリケーションにおいて基本的な構成要素として機能する。 配向推定における支配的回帰に基づくアプローチから逸脱し、分類に基づく比較的研究の少ない方法論を探索する。 その目標は、回帰ベースの検出器が直面する境界の不連続性問題を本質的に排除することにある。 我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。 i) 新たな符号化機構: 既存の分類に基づく検出器においてスパース符号化ラベル(scl)を置き換えるために、角度分類のための2つの高密度符号化ラベル(dcl)を設計し、ベンチマークで経験的に観測されるように3倍のトレーニング速度を増加させ、さらに検出精度を著しく向上させる。 二 損失再重み付け: 角距離と物体のアスペクト比に敏感なDCLベースの検出器を作ることにより、特に正方形物体に対する検出精度を向上させるアングル距離とアスペクト比感度重み付け(ADARSW)を提案する。 航空画像の大規模公開データセット(DOTA, UCAS-AOD, HRSC2016, シーンテキストデータセット ICDAR2015 と MLT)に対する大規模な実験と視覚分析により, 本手法の有効性が示された。 ソースコードはhttps://github.com/thinklab-sjtu/dcl_retinanet_tensorflowで公開されています。

Rotation detection serves as a fundamental building block in many visual applications involving aerial image, scene text, and face etc. Differing from the dominant regression-based approaches for orientation estimation, this paper explores a relatively less-studied methodology based on classification. The hope is to inherently dismiss the boundary discontinuity issue as encountered by the regression-based detectors. We propose new techniques to push its frontier in two aspects: i) new encoding mechanism: the design of two Densely Coded Labels (DCL) for angle classification, to replace the Sparsely Coded Label (SCL) in existing classification-based detectors, leading to three times training speed increase as empirically observed across benchmarks, further with notable improvement in detection accuracy; ii) loss re-weighting: we propose Angle Distance and Aspect Ratio Sensitive Weighting (ADARSW), which improves the detection accuracy especially for square-like objects, by making DCL-based detectors sensitive to angular distance and object's aspect ratio. Extensive experiments and visual analysis on large-scale public datasets for aerial images i.e. DOTA, UCAS-AOD, HRSC2016, as well as scene text dataset ICDAR2015 and MLT, show the effectiveness of our approach. The source code is available at https://github.com/Thinklab-SJTU/DCL_RetinaNet_Tensorflow and is also integrated in our open source rotation detection benchmark: https://github.com/yangxue0827/RotationDetection.
翻訳日:2022-09-23 20:24:18 公開日:2021-05-25
# ランドカバーマップと補助ラスターデータからの光学画像とSAR画像の合成

Synthesizing Optical and SAR Imagery From Land Cover Maps and Auxiliary Raster Data ( http://arxiv.org/abs/2011.11314v2 )

ライセンス: Link先を確認
Gerald Baier and Antonin Deschemps and Michael Schmitt and Naoto Yokoya(参考訳) 我々はランドカバーマップから光学RGBと合成開口レーダ(SAR)のリモートセンシング画像とGANを用いた補助ラスタデータの両方を合成する。 リモートセンシングでは、デジタル標高モデル(dem)や降水マップなど、多くの種類のデータはしばしば土地被覆地図に反映されることなく、画像の内容や構造に影響を与える。 このようなデータを合成プロセスに含めれば、生成した画像の品質が向上し、その特性をより制御できる。 空間適応正規化層は、両方の入力をヒューズし、エンコーダとデコーダからなる本格的なジェネレータアーキテクチャに適用され、補助ラスターデータにおける情報コンテンツを最大限活用する。 提案手法は,対応するデータセットでトレーニングした場合,媒体(10m),高解像度(1m)画像の合成に成功している。 U-Netセグメンテーションモデルを用いて,土地被覆地図と補助情報の平均交点(mIoUs),画素精度,Fr'echet開始距離(FIDs)を用いたデータ融合の利点を示す。 ハンドピッキング画像は、合成画像の曖昧さを避けるための情報活用の例である。 入力をわずかに編集することで,本手法は現実的な変化,すなわち水位上昇を合成することができる。 ソースコードはhttps://github.com/gbaier/rs_img_synthで公開されています。

We synthesize both optical RGB and synthetic aperture radar (SAR) remote sensing images from land cover maps and auxiliary raster data using generative adversarial networks (GANs). In remote sensing, many types of data, such as digital elevation models (DEMs) or precipitation maps, are often not reflected in land cover maps but still influence image content or structure. Including such data in the synthesis process increases the quality of the generated images and exerts more control on their characteristics. Spatially adaptive normalization layers fuse both inputs and are applied to a full-blown generator architecture consisting of encoder and decoder to take full advantage of the information content in the auxiliary raster data. Our method successfully synthesizes medium (10 m) and high (1 m) resolution images when trained with the corresponding data set. We show the advantage of data fusion of land cover maps and auxiliary information using mean intersection over unions (mIoUs), pixel accuracy, and Fr\'echet inception distances (FIDs) using pretrained U-Net segmentation models. Handpicked images exemplify how fusing information avoids ambiguities in the synthesized images. By slightly editing the input, our method can be used to synthesize realistic changes, i.e., raising the water levels. The source code is available at https://github.com/gbaier/rs_img_synth and we published the newly created high-resolution dataset at https://ieee-dataport.org/open-access/geonrw.
翻訳日:2022-09-22 02:20:11 公開日:2021-05-25
# 遺伝的プログラミングフレームワークの高速化

Speed Benchmarking of Genetic Programming Frameworks ( http://arxiv.org/abs/2106.11919v1 )

ライセンス: Link先を確認
Francisco Baeta, Jo\~ao Correia, Tiago Martins, Penousal Machado(参考訳) 遺伝的プログラミング(gp)は、設計によって計算コストがかかることで知られている。 長年にわたりこの問題を緩和するために多くの技術が開発されてきたが、特にデータベクトル化はGPの並列性のために依然として最も魅力的な戦略である。 本研究では,複数の既存フレームワークに対するベクター化および反復的な実装アプローチのパフォーマンスと進化能力を比較するために,一連のベンチマークを用いている。 すなわち、Pythonで書かれた新しいオープンソースエンジンであるTensorGPは、GPのドメイン評価フェーズを加速するためにTensorFlowライブラリから大きく恩恵を受けている。 提案した性能ベンチマークでは,適合性ケース数の多い問題に対して,テンソルGPエンジンが2桁以上の相対的なスピードアップを達成できることが示されている。 さらに、より大きなドメインを計算できる結果として、tensorgpのパフォーマンス向上は、より正確な候補ソリューションの発見に役立つと論じている。

Genetic Programming (GP) is known to suffer from the burden of being computationally expensive by design. While, over the years, many techniques have been developed to mitigate this issue, data vectorization, in particular, is arguably still the most attractive strategy due to the parallel nature of GP. In this work, we employ a series of benchmarks meant to compare both the performance and evolution capabilities of different vectorized and iterative implementation approaches across several existing frameworks. Namely, TensorGP, a novel open-source engine written in Python, is shown to greatly benefit from the TensorFlow library to accelerate the domain evaluation phase in GP. The presented performance benchmarks demonstrate that the TensorGP engine manages to pull ahead, with relative speedups above two orders of magnitude for problems with a higher number of fitness cases. Additionally, as a consequence of being able to compute larger domains, we argue that TensorGP performance gains aid the discovery of more accurate candidate solutions.
翻訳日:2021-06-27 09:01:10 公開日:2021-05-25
# (参考訳) write by memorizing: 階層的検索に基づく医療レポート生成

Writing by Memorizing: Hierarchical Retrieval-based Medical Report Generation ( http://arxiv.org/abs/2106.06471v1 )

ライセンス: CC BY 4.0
Xingyi Yang, Muchao Ye, Quanzeng You, Fenglong Ma(参考訳) 医療レポート生成は、医療画像分析において最も難しい課題の1つである。 既存のアプローチは有望な結果を得たが、文章を取得するために事前に定義されたテンプレートデータベースを必要とするか、医学レポート生成の階層的性質を無視している。 そこで本研究では,新しい階層的検索機構を組み込んだメドライタを提案し,臨床的に正確なレポート生成のためのレポートレベルテンプレートと文レベルのテンプレートを自動抽出する。 MedWriterはまずVisual-Language Retrieval~(VLR)モジュールを使用して、与えられた画像の最も関連性の高いレポートを取得する。 文間の論理コヒーレンスを保証するために、言語-言語検索〜(llr)モジュールを導入し、前述した記述に基づいて関連文を取得する。 最後に、言語デコーダは、検索されたレポートと文から画像の特徴と特徴を融合して意味のある医療レポートを生成する。 我々は,Open-IとMIMIC-CXRの2つのデータセットに対して,自動評価と人的評価によるモデルの有効性を検証した。

Medical report generation is one of the most challenging tasks in medical image analysis. Although existing approaches have achieved promising results, they either require a predefined template database in order to retrieve sentences or ignore the hierarchical nature of medical report generation. To address these issues, we propose MedWriter that incorporates a novel hierarchical retrieval mechanism to automatically extract both report and sentence-level templates for clinically accurate report generation. MedWriter first employs the Visual-Language Retrieval~(VLR) module to retrieve the most relevant reports for the given images. To guarantee the logical coherence between sentences, the Language-Language Retrieval~(LLR) module is introduced to retrieve relevant sentences based on the previous generated description. At last, a language decoder fuses image features and features from retrieved reports and sentences to generate meaningful medical reports. We verified the effectiveness of our model by automatic evaluation and human evaluation on two datasets, i.e., Open-I and MIMIC-CXR.
翻訳日:2021-06-20 22:30:43 公開日:2021-05-25
# 距離空間を橋渡しするための学習: インテント検出とスロット充填の少数共同学習

Learning to Bridge Metric Spaces: Few-shot Joint Learning of Intent Detection and Slot Filling ( http://arxiv.org/abs/2106.07343v1 )

ライセンス: Link先を確認
Yutai Hou, Yongkui Lai, Cheng Chen, Wanxiang Che, Ting Liu(参考訳) 本稿では,対話言語理解のための数ショット共同学習について検討する。 既存の少数ショットモデルのほとんどは、わずか数例で1つのタスクを毎回学習する。 しかし、対話言語理解には、意図の検出とスロットフィリングという2つの密接に関連するタスクが含まれており、しばしば2つのタスクを共同で学習する利点がある。 これは、いくつかの例からタスク関係をキャプチャし、共同で複数のタスクを学習できる、新しいマイナショット学習テクニックを提唱するものだ。 これを実現するために,データリッチな領域にインテントとスロットの計量空間を橋渡しし,橋渡しされた距離空間を特定のマイナショット領域に適応させる,類似性に基づくマイナショット学習スキームconpromを提案する。 SnipsとFewJointという2つの公開データセットの実験では、我々のモデルは1枚と5枚のショット設定で強いベースラインを大幅に上回っている。

In this paper, we investigate few-shot joint learning for dialogue language understanding. Most existing few-shot models learn a single task each time with only a few examples. However, dialogue language understanding contains two closely related tasks, i.e., intent detection and slot filling, and often benefits from jointly learning the two tasks. This calls for new few-shot learning techniques that are able to capture task relations from only a few examples and jointly learn multiple tasks. To achieve this, we propose a similarity-based few-shot learning scheme, named Contrastive Prototype Merging network (ConProm), that learns to bridge metric spaces of intent and slot on data-rich domains, and then adapt the bridged metric space to the specific few-shot domain. Experiments on two public datasets, Snips and FewJoint, show that our model significantly outperforms the strong baselines in one and five shots settings.
翻訳日:2021-06-20 16:04:31 公開日:2021-05-25
# 新型コロナウイルス(covid-19)パンデミック発生時におけるアメリカのデジタルニュースメディアの話題モデリングと進展

Topic Modeling and Progression of American Digital News Media During the Onset of the COVID-19 Pandemic ( http://arxiv.org/abs/2106.09572v1 )

ライセンス: Link先を確認
Xiangpeng Wan, Michael C. Lucic, Hakim Ghazzai, Yehia Massoud(参考訳) 現在、世界は深刻な世界的なパンデミックの最中にあり、人々の生活のあらゆる側面に影響を与えている。 その結果、パンデミックの影響の相違により、米国では新型コロナウイルス関連のデジタルメディア記事が大量に掲載されている。 この大量の情報は、十分な時間内にオーディエンスによって消費されることは困難である。 本稿では,様々なデジタル物品を自動で管理可能な情報に抽出できる自然言語処理(NLP)パイプラインを開発した。また,様々なソースからのプッシュ問題(すなわち,COVID-19パンデミック)の包括的視点を読者に迅速に得るために,時間とともに議論される話題をモデル化する。 パンデミックの開始時に、まず大量の新型コロナウイルス関連記事を集めることで、これらの目標を達成する。 その後,非教師なし,半教師なしの学習手順を要約に応用し,コミュニティ検出手法を用いて類似度に基づいて分類した。 次に,BARTアルゴリズムを用いて記事群ごとのトピックを特定する。 最後に、NLP-ピペリン出力に基づく詳細なデジタルメディア分析を行い、COVID-19を取り巻く会話が時間とともにどのように発展していくかを示す。

Currently, the world is in the midst of a severe global pandemic, which has affected all aspects of people's lives. As a result, there is a deluge of COVID-related digital media articles published in the United States, due to the disparate effects of the pandemic. This large volume of information is difficult to consume by the audience in a reasonable amount of time. In this paper, we develop a Natural Language Processing (NLP) pipeline that is capable of automatically distilling various digital articles into manageable pieces of information, while also modelling the progression topics discussed over time in order to aid readers in rapidly gaining holistic perspectives on pressing issues (i.e., the COVID-19 pandemic) from a diverse array of sources. We achieve these goals by first collecting a large corpus of COVID-related articles during the onset of the pandemic. After, we apply unsupervised and semi-supervised learning procedures to summarize articles, then cluster them based on their similarities using the community detection methods. Next, we identify the topic of each cluster of articles using the BART algorithm. Finally, we provide a detailed digital media analysis based on the NLP-pipeline outputs and show how the conversation surrounding COVID-19 evolved over time.
翻訳日:2021-06-20 16:03:36 公開日:2021-05-25
# 自己適応型群集システム(SASS)

Self-Adaptive Swarm System (SASS) ( http://arxiv.org/abs/2106.04679v1 )

ライセンス: Link先を確認
Qin Yang(参考訳) 分散人工知能(DAI)は、AIエンティティが協力して、推論、計画、問題解決、行動と戦略の組織化、集団決定、学習を行う。 この博士論文は、知覚、コミュニケーション、計画、実行、意思決定、学習の間の4段階の自動化ギャップを埋めるための、原則付きマルチエージェントシステム(mas)協調フレームワーク、自己適応スウォームシステム(sass)を提案する。

Distributed artificial intelligence (DAI) studies artificial intelligence entities working together to reason, plan, solve problems, organize behaviors and strategies, make collective decisions and learn. This Ph.D. research proposes a principled Multi-Agent Systems (MAS) cooperation framework, Self-Adaptive Swarm System (SASS), to bridge the fourth level automation gap between perception, communication, planning, execution, decision-making, and learning.
翻訳日:2021-06-13 13:57:40 公開日:2021-05-25
# 逆翻訳とパラフレージングを用いたヘイトスピーチ検出のためのデータ拡張

Data Expansion using Back Translation and Paraphrasing for Hate Speech Detection ( http://arxiv.org/abs/2106.04681v1 )

ライセンス: Link先を確認
Djamila Romaissa Beddiar and Md Saroar Jahan and Mourad Oussalah(参考訳) ソーシャルメディアプラットフォームにおけるユーザ生成コンテンツの普及に伴い、有害コンテンツや虐待コンテンツを自動的に識別するメカニズムの確立が規制当局、研究者、社会にとって大きな関心事となっている。 言論の自由と尊厳のバランスを維持することは、ソーシャルメディアプラットフォーム規制当局にとって大きな関心事である。 ディープラーニングアプローチによる攻撃的コンテンツの自動検出は、励まし効果をもたらすように見えるが、ディープラーニングベースのトレーニングモデルは、しばしば欠落している大量の高品質なラベル付きデータを必要とする。 本稿では,逆変換法を融合する深層学習に基づく新しい手法と,データ拡張のためのパラフレージング手法を提案する。 我々のパイプラインは、ヘイトスピーチの分類のための異なる単語埋め込みに基づくアーキテクチャを探索する。 バック変換技術は、大きなコーパスで事前学習され、主に機械翻訳に使用されるエンコーダ-デコーダアーキテクチャに依存している。 さらに、パラフレーズ化はトランスフォーマーモデルと専門家の混合を利用して多様なパラフレーズを生成する。 最後に、LSTMとCNNを比較して、より高度な分類結果を求める。 我々は、askfmコーパス、formspringデータセット、warnerおよびwaseemデータセット、olid、wikipedia toxic commentsデータセットの5つの公開データセットについて提案を評価した。 提案の性能と関連する結果との比較により,提案の有効性と健全性が示された。

With proliferation of user generated contents in social media platforms, establishing mechanisms to automatically identify toxic and abusive content becomes a prime concern for regulators, researchers, and society. Keeping the balance between freedom of speech and respecting each other dignity is a major concern of social media platform regulators. Although, automatic detection of offensive content using deep learning approaches seems to provide encouraging results, training deep learning-based models requires large amounts of high-quality labeled data, which is often missing. In this regard, we present in this paper a new deep learning-based method that fuses a Back Translation method, and a Paraphrasing technique for data augmentation. Our pipeline investigates different word-embedding-based architectures for classification of hate speech. The back translation technique relies on an encoder-decoder architecture pre-trained on a large corpus and mostly used for machine translation. In addition, paraphrasing exploits the transformer model and the mixture of experts to generate diverse paraphrases. Finally, LSTM, and CNN are compared to seek enhanced classification results. We evaluate our proposal on five publicly available datasets; namely, AskFm corpus, Formspring dataset, Warner and Waseem dataset, Olid, and Wikipedia toxic comments dataset. The performance of the proposal together with comparison to some related state-of-art results demonstrate the effectiveness and soundness of our proposal.
翻訳日:2021-06-13 13:57:30 公開日:2021-05-25
# (参考訳) オンライン広告のための広告戦略レコメンデーションシステム

We Know What You Want: An Advertising Strategy Recommender System for Online Advertising ( http://arxiv.org/abs/2105.14188v1 )

ライセンス: CC BY 4.0
Liyi Guo, Junqi Jin, Haoqi Zhang, Zhenzhe Zheng, Zhiye Yang, Zhizhuang Xing, Fei Pan, Fan Wu, Lvyin Niu, Haiyang Xu, Chuan Yu, Yuning Jiang, Xiaoqiang Zhu(参考訳) 広告収入がeコマースプラットフォームの主要な収入源であるEコマースプラットフォームにおいて、広告主は重要な役割を担っている。 したがって、広告リアルタイム入札における試行錯誤のコストを減らし、広告主により良い広告体験を提供することは、Eコマースプラットフォームの長期的な収益に不可欠である。 この目標を達成するために、広告プラットフォームは広告主のユニークなマーケティング要求を理解し、パーソナライズされた最適な広告戦略を積極的に推奨する必要がある。 本研究では,タオバオディスプレイ広告プラットフォーム上で,一定入札と群集最適化のためのプロトタイプレコメンデータシステムを最初に展開する。 そこで本稿では,広告主の戦略推薦問題を文脈的帯域幅問題としてモデル化した動的入札戦略推薦システムを提案する。 ニューラルネットワークをエージェントとして使用して,広告主のプロファイルや過去の採用行動に基づいて,広告主の要求を予測する。 推定された需要に基づいて,提案の最適な入札戦略を導出し,広告性能を表示させることで広告主と対話するシミュレーション入札を行う。 探索・探索ジレンマを解決するため,ネットワークの不確実性を表すためにDropoutを用いて,効率的な戦略探索のためのトンプソンサンプリングを行う。 オンライン評価では、システムは広告主の広告パフォーマンスを最適化でき、広告主はシステムを開き、提案を選択し、採用し、プラットフォームの売上をさらに増やすことができる。 Alibabaのオンライン入札データに基づくシミュレーション実験では、エージェントが広告主の採用率を効果的に最適化できることが証明されている。

Advertisers play an important role in e-commerce platforms, whose advertising expenditures are the main source of revenue for e-commerce platforms. Therefore, providing advertisers with a better advertising experience by reducing their cost of trial and error during ad real-time bidding is crucial to the long-term revenue of e-commerce platforms. To achieve this goal, the advertising platform needs to understand the advertisers' unique marketing demands and actively recommend personalized and optimal advertising strategies for them. In this work, we first deploy a prototype recommender system on Taobao display advertising platform for constant bid and crowd optimization. Then, we propose a novel recommender system for dynamic bidding strategy recommendation, which models the advertiser's strategy recommendation problem as a contextual bandit problem. We use a neural network as the agent to predict the advertisers' demands based on their profile and historical adoption behaviors. Based on the estimated demand, we apply simulated bidding to derive the optimal bidding strategy for recommendation and interact with the advertiser by displaying the possible advertising performance. To solve the exploration/exploitation dilemma, we use Dropout to represent the uncertainty of the network, which approximately equals to conduct Thompson sampling for efficient strategy exploration. Online evaluations show that the system can optimize the advertisers' advertising performance, and advertisers are willing to open the system, select and adopt the suggestions, which further increases the platform's revenue income. Simulation experiments based on Alibaba online bidding data prove that the agent can effectively optimize the adoption rate of advertisers, and Thompson sampling can better balance exploration and exploitation to further optimize the performance of the model.
翻訳日:2021-06-06 09:16:57 公開日:2021-05-25
# データ拡張によるマルチモーダルモデルパフォーマンスの強化: Facebookのヘイトなミームチャレンジソリューション

Enhance Multimodal Model Performance with Data Augmentation: Facebook Hateful Meme Challenge Solution ( http://arxiv.org/abs/2105.13132v1 )

ライセンス: Link先を確認
Yang Li, Zinc Zhang, Hutchin Huang(参考訳) 有害なコンテンツ検出は、ディープラーニングが実現し、大きな違いをもたらす分野のひとつです。 FacebookのHateful Memes Challengeは、ディープラーニングアルゴリズムを使用したマルチモーダルミームにおけるヘイトフルスピーチの検出に挑戦することで、そのような可能性を達成するのに役立つ。 本稿では,VilBERT と Visual BERT を用いたマルチモーダル・事前学習モデルを提案する。 データ拡張から生成されたトレーニングデータセットを追加することで、モデルのパフォーマンスを改善した。 トレーニングデータセットの拡大は、Visual BERTモデルでAUROCを2%以上向上させるのに役立ちました。 提案手法は0.7439 AUROCを精度0.7037で達成し,顕著な進歩を示した。

Hateful content detection is one of the areas where deep learning can and should make a significant difference. The Hateful Memes Challenge from Facebook helps fulfill such potential by challenging the contestants to detect hateful speech in multi-modal memes using deep learning algorithms. In this paper, we utilize multi-modal, pre-trained models VilBERT and Visual BERT. We improved models' performance by adding training datasets generated from data augmentation. Enlarging the training data set helped us get a more than 2% boost in terms of AUROC with the Visual BERT model. Our approach achieved 0.7439 AUROC along with an accuracy of 0.7037 on the challenge's test set, which revealed remarkable progress.
翻訳日:2021-05-28 16:03:44 公開日:2021-05-25
# (参考訳) 楕円型正規埋め込み

Elliptical Ordinal Embedding ( http://arxiv.org/abs/2105.10457v2 )

ライセンス: CC BY 4.0
A\"issatou Diallo and Johannes F\"urnkranz(参考訳) 通常の埋め込みは、"item $j$ is close to item $i$ than item $k$"という形式の制約の集合からオブジェクトの低次元表現を見つけることを目的としている。 典型的には、各対象は低次元距離空間内の点ベクトルに写像される。 我々は、点ベクトルではなく密度への写像は、表現そのものとその空間における相対的な位置に関する不確かさを本質的に反映するなど、興味深い利点をもたらすと主張している。 実際、本論文では、各対象をガウス分布として埋め込むことを提案する。 本研究では,これらの埋め込みが制約を満たすことなくデータの基盤構造を捕捉し,表現の性質を探求する能力について検討する。 合成および実世界のデータセットの実験は、我々のアプローチの利点を示している。 さらに、空間内のマッピング対象の視覚的知覚を豊かにする不確実性をモデル化する利点について述べる。

Ordinal embedding aims at finding a low dimensional representation of objects from a set of constraints of the form "item $j$ is closer to item $i$ than item $k$". Typically, each object is mapped onto a point vector in a low dimensional metric space. We argue that mapping to a density instead of a point vector provides some interesting advantages, including an inherent reflection of the uncertainty about the representation itself and its relative location in the space. Indeed, in this paper, we propose to embed each object as a Gaussian distribution. We investigate the ability of these embeddings to capture the underlying structure of the data while satisfying the constraints, and explore properties of the representation. Experiments on synthetic and real-world datasets showcase the advantages of our approach. In addition, we illustrate the merit of modelling uncertainty, which enriches the visual perception of the mapped objects in the space.
翻訳日:2021-05-28 09:28:11 公開日:2021-05-25
# (参考訳) GapPredict: ドラフトゲノム集合におけるギャップ解消のための言語モデル

GapPredict: A Language Model for Resolving Gaps in Draft Genome Assemblies ( http://arxiv.org/abs/2105.10552v2 )

ライセンス: CC BY 4.0
Eric Chen, Justin Chu, Jessica Zhang, Rene L. Warren, Inanc Birol(参考訳) 短読DNAシークエンシング装置は、1ランあたり1e+12塩基以上、通常150塩基以上からなる。 この高いスループットにもかかわらず、de novoアセンブリーアルゴリズムは、これらのゲノムの繰り返し領域と難易度領域の両方により、短い読み込みを用いて連続したゲノム配列の再構築が困難である。 短い読み取りアセンブリの課題のいくつかは、ペアエンド読み込みを使用して組み立てられたシーケンスを足場にすることで軽減される。 しかし、これらの足場の未解決配列は「ギャップ」として現れる。 本稿では,キャラクタレベル言語モデルを用いて足場ギャップ内の未解決ヌクレオチドを予測するツールであるgappredictを紹介する。 我々は,最先端のギャップ充填ツールシールに対するgap予測をベンチマークし,後者が未充填で残したサンプルギャップの65.6%を前者が満たせることを観察し,ゲノム配列集合におけるギャップ充填問題に対するディープラーニングアプローチの実用性を示した。

Short-read DNA sequencing instruments can yield over 1e+12 bases per run, typically composed of reads 150 bases long. Despite this high throughput, de novo assembly algorithms have difficulty reconstructing contiguous genome sequences using short reads due to both repetitive and difficult-to-sequence regions in these genomes. Some of the short read assembly challenges are mitigated by scaffolding assembled sequences using paired-end reads. However, unresolved sequences in these scaffolds appear as "gaps". Here, we introduce GapPredict, a tool that uses a character-level language model to predict unresolved nucleotides in scaffold gaps. We benchmarked GapPredict against the state-of-the-art gap-filling tool Sealer, and observed that the former can fill 65.6% of the sampled gaps that were left unfilled by the latter, demonstrating the practical utility of deep learning approaches to the gap-filling problem in genome sequence assembly.
翻訳日:2021-05-28 09:09:20 公開日:2021-05-25
# (参考訳) AutoReCon: データフリー圧縮のためのニューラルアーキテクチャ検索に基づく再構築

AutoReCon: Neural Architecture Search-based Reconstruction for Data-free Compression ( http://arxiv.org/abs/2105.12151v1 )

ライセンス: CC BY 4.0
Baozhou Zhu and Peter Hofstee and Johan Peltenburg and Jinho Lee and Zaid Alars(参考訳) データフリー圧縮は、プライバシや送信の問題のために圧縮される事前トレーニングモデルのトレーニングデータセットが利用できないため、新しい課題を提起する。 したがって、圧縮の前に再構成されたトレーニングデータセットを計算するのが一般的な方法である。 現在の再構成法は、事前学習したモデルからの情報を活用して、再構成されたトレーニングデータセットをジェネレータで計算する。 しかし,現在の再構成手法では,事前学習したモデルからより多くの情報を抽出することに注力するが,ネットワーク工学を活用しない。 この研究は、ネットワーク工学を再構築手法の設計手法として考える最初のものである。 具体的には,ニューラルアーキテクチャ検索に基づく再構成手法であるAutoReConを提案する。 提案したAutoReCon法では, 事前学習した再構成モデルにより, ジェネレータアーキテクチャを自動設計する。 実験結果から,AutoRecon法で検出したジェネレータを用いることで,データフリー圧縮の性能が常に向上することがわかった。

Data-free compression raises a new challenge because the original training dataset for a pre-trained model to be compressed is not available due to privacy or transmission issues. Thus, a common approach is to compute a reconstructed training dataset before compression. The current reconstruction methods compute the reconstructed training dataset with a generator by exploiting information from the pre-trained model. However, current reconstruction methods focus on extracting more information from the pre-trained model but do not leverage network engineering. This work is the first to consider network engineering as an approach to design the reconstruction method. Specifically, we propose the AutoReCon method, which is a neural architecture search-based reconstruction method. In the proposed AutoReCon method, the generator architecture is designed automatically given the pre-trained model for reconstruction. Experimental results show that using generators discovered by the AutoRecon method always improve the performance of data-free compression.
翻訳日:2021-05-28 08:23:34 公開日:2021-05-25
# (参考訳) IntelliCAT: 品質推定と翻訳提案を備えたインテリジェント機械翻訳後編集

IntelliCAT: Intelligent Machine Translation Post-Editing with Quality Estimation and Translation Suggestion ( http://arxiv.org/abs/2105.12172v1 )

ライセンス: CC BY 4.0
Dongjun Lee, Junhyeong Ahn, Heesoo Park, Jaemin Jo(参考訳) 我々は、機械翻訳出力における後処理プロセスを合理化するニューラルネットワークを用いた対話型翻訳インタフェースであるIntelliCATを提案する。 各機械翻訳文の品質を予測する文レベルqeと、修正を必要とする機械翻訳文の部分を特定する単語レベルqeの2つの粒度で品質推定(qe)モデルを利用する。 さらに、左右の文脈を条件とした新しい翻訳提案モデルを導入し、修正のための特定の単語や句の代替案を提供する。 最後に、単語アライメントにより、IntelliCATは翻訳された文書に元の文書のスタイルを自動的に保存する。 提案するqeと翻訳提案に基づく後編集により,翻訳品質が著しく向上することを示す。 さらに、ユーザ調査により、intellicatが提供する3つの機能は、スクラッチからの翻訳に比べて翻訳時間の52.9\%のスピードアップを達成し、後編集タスクを著しく加速することが判明した。 インターフェースはhttps://intellicat.beringlab.com/で公開されている。

We present IntelliCAT, an interactive translation interface with neural models that streamline the post-editing process on machine translation output. We leverage two quality estimation (QE) models at different granularities: sentence-level QE, to predict the quality of each machine-translated sentence, and word-level QE, to locate the parts of the machine-translated sentence that need correction. Additionally, we introduce a novel translation suggestion model conditioned on both the left and right contexts, providing alternatives for specific words or phrases for correction. Finally, with word alignments, IntelliCAT automatically preserves the original document's styles in the translated document. The experimental results show that post-editing based on the proposed QE and translation suggestions can significantly improve translation quality. Furthermore, a user study reveals that three features provided in IntelliCAT significantly accelerate the post-editing task, achieving a 52.9\% speedup in translation time compared to translating from scratch. The interface is publicly available at https://intellicat.beringlab.com/.
翻訳日:2021-05-28 08:05:14 公開日:2021-05-25
# (参考訳) 奥行き完了・拡張のための自己ガイド型インスタンス認識ネットワーク

Self-Guided Instance-Aware Network for Depth Completion and Enhancement ( http://arxiv.org/abs/2105.12186v1 )

ライセンス: CC BY 4.0
Zhongzhen Luo, Fengjia Zhang, Guoyi Fu, Jiajie Xu(参考訳) 奥行き完了は、光沢、透明または遠方の表面をセンサで適切にスキャンできないため、スパース深度測定から濃密な深度画像の推測を目的としている。 既存の手法のほとんどは、画素ワイド画像の内容とそれに対応する深度値に基づいて、欠落した深度測定を直接補間する。 その結果、オブジェクトの境界がぼやけ、不正確な構造になる。 To address these problems, we propose a novel self-guided instance-aware network (SG-IANet) that: (1) utilize self-guided mechanism to extract instance-level features that is needed for depth restoration, (2) exploit the geometric and context information into network learning to conform to the underlying constraints for edge clarity and structure consistency, (3) regularize the depth estimation and mitigate the impact of noise by instance-aware learning, and (4) train with synthetic data only by domain randomization to bridge the reality gap. 合成および実世界のデータセットに関する大規模な実験により,提案手法が従来の手法より優れていることを示す。 さらなるアブレーション研究は、提案手法のさらなる洞察を与え、我々のモデルの一般化能力を実証する。

Depth completion aims at inferring a dense depth image from sparse depth measurement since glossy, transparent or distant surface cannot be scanned properly by the sensor. Most of existing methods directly interpolate the missing depth measurements based on pixel-wise image content and the corresponding neighboring depth values. Consequently, this leads to blurred boundaries or inaccurate structure of object. To address these problems, we propose a novel self-guided instance-aware network (SG-IANet) that: (1) utilize self-guided mechanism to extract instance-level features that is needed for depth restoration, (2) exploit the geometric and context information into network learning to conform to the underlying constraints for edge clarity and structure consistency, (3) regularize the depth estimation and mitigate the impact of noise by instance-aware learning, and (4) train with synthetic data only by domain randomization to bridge the reality gap. Extensive experiments on synthetic and real world dataset demonstrate that our proposed method outperforms previous works. Further ablation studies give more insights into the proposed method and demonstrate the generalization capability of our model.
翻訳日:2021-05-28 07:47:55 公開日:2021-05-25
# (参考訳) 安全な値関数

Safe Value Functions ( http://arxiv.org/abs/2105.12204v1 )

ライセンス: CC BY 4.0
Pierre-Fran\c{c}ois Massiani, Steve Heim, Friedrich Solowjow, Sebastian Trimpe(参考訳) 制御における安全性と最適性の関係はよく理解されておらず、しばしば重要なが矛盾する目標と見なされる。 この関係を形式化する必要性は、特に学習ベースの方法の隆盛を考えると、差し迫っている。 実際、強化学習では、単純に報酬関数を罰則化することで修正することが一般的であり、罰は単なるヒューリスティックとして扱われる。 我々は、この関係を厳格に検証し、安全な値関数:与えられたタスクに最適な値関数の要件を定式化し、安全性を強制する。 強い双対性の証明を通してこの関係の構造を明らかにし、安全値関数を誘導する有限ペナルティが常に存在することを示す。 このペナルティは一意ではないが、上限は高く、より大きなペナルティは最適性に害を及ぼさない。 必要最小限のペナルティを計算することはしばしば不可能であるが、ペナルティ、報酬、ディスカウントファクター、ダイナミクスの相互作用の明確な構造を明らかにする。 この知見は、安全が重要である制御問題に対して報奨関数を設計するための実践的で理論的なヒューリスティックを示唆する。

The relationship between safety and optimality in control is not well understood, and they are often seen as important yet conflicting objectives. There is a pressing need to formalize this relationship, especially given the growing prominence of learning-based methods. Indeed, it is common practice in reinforcement learning to simply modify reward functions by penalizing failures, with the penalty treated as a mere heuristic. We rigorously examine this relationship, and formalize the requirements for safe value functions: value functions that are both optimal for a given task, and enforce safety. We reveal the structure of this relationship through a proof of strong duality, showing that there always exists a finite penalty that induces a safe value function. This penalty is not unique, but upper-unbounded: larger penalties do not harm optimality. Although it is often not possible to compute the minimum required penalty, we reveal clear structure of how the penalty, rewards, discount factor, and dynamics interact. This insight suggests practical, theory-guided heuristics to design reward functions for control problems where safety is important.
翻訳日:2021-05-28 07:30:23 公開日:2021-05-25
# (参考訳) ベイズおよびクレダルネットワークにおける適応テストのための新しいスコア

A New Score for Adaptive Tests in Bayesian and Credal Networks ( http://arxiv.org/abs/2105.12205v1 )

ライセンス: CC BY 4.0
Alessandro Antonucci and Francesca Mangili and Claudio Bonesana and Giorgia Adorni(参考訳) テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。 ベイジアンネットワークのようなグラフィカルモデルは、特に複数のスキルを扱う際に、質問やスキルに関する不確実性を説明可能な方法でモデル化できるため、適応テストに使用される。 質問/スキル関係における不確実性のより良い推論は、間隔確率によって達成できる。 これにより、モデルがクレーダルネットワークになるため、質問を選択するのに必要なクエリの推測的な複雑さが難しくなります。 これは特に、適応機構を駆動するためにスコアとして使われる情報理論量の場合である。 我々は,後方確率のモードに基づくスコアの代替系を示し,それゆえ説明が容易である。 これにより, 適応過程の品質に悪影響を及ぼすことなく, クレーダルケースの評価を大幅に単純化する。 合成および実世界のデータに関する数値実験は、この主張を支持するために用いられる。

A test is adaptive when its sequence and number of questions is dynamically tuned on the basis of the estimated skills of the taker. Graphical models, such as Bayesian networks, are used for adaptive tests as they allow to model the uncertainty about the questions and the skills in an explainable fashion, especially when coping with multiple skills. A better elicitation of the uncertainty in the question/skills relations can be achieved by interval probabilities. This turns the model into a credal network, thus making more challenging the inferential complexity of the queries required to select questions. This is especially the case for the information theoretic quantities used as scores to drive the adaptive mechanism. We present an alternative family of scores, based on the mode of the posterior probabilities, and hence easier to explain. This makes considerably simpler the evaluation in the credal case, without significantly affecting the quality of the adaptive process. Numerical tests on synthetic and real-world data are used to support this claim.
翻訳日:2021-05-28 06:55:48 公開日:2021-05-25
# (参考訳) 非線形係数-ニューラルアーキテクチャ設計のための実践的ガイド

The Nonlinearity Coefficient -- A Practical Guide to Neural Architecture Design ( http://arxiv.org/abs/2105.12210v1 )

ライセンス: CC BY 4.0
George Philipp(参考訳) 本質的に、ニューラルネットワークは任意の微分可能パラメトリゼーション関数である。 どんなタスクでもニューラルネットワークアーキテクチャを選択するのは、それらの関数の空間を検索するのと同じくらい複雑です。 ここ数年、'neural architecture design' は、主に 'neural architecture search' (nas) と同義語である。 ブルートフォース、大規模な検索。 NASは実践的な仕事において大きな利益をもたらした。 しかし、NASの手法は、CNNやLSTMに基づいて数十年後にさかのぼるアーキテクチャ周辺の小さな地区で、アーキテクチャ空間の局所的な最適化を探すことになる。 本研究では, ゼロショットアーキテクチャ設計 (ZSAD) と呼ぶアーキテクチャ設計に対して, 異なる補完的なアプローチを示す。 我々は、アーキテクチャが比較的高いテストやトレーニング後のタスクのトレーニングエラーを達成できるかどうかを、トレーニングなしで予測できる手法を開発する。 次に、アーキテクチャ定義自体の観点からエラーを説明し、この説明に基づいてアーキテクチャを変更するためのツールを開発します。 これは、ディープラーニングの実践者に前例のないレベルのコントロールを与える。 事前の技術が存在しないタスクであっても、最初のコード行が書かれる前にインフォームドな設計判断を行うことができる。 私たちの最初の大きな貢献は、ニューラルアーキテクチャの'非線形性の度合い'がそのパフォーマンスの背後にある重要な因果的要因であり、アーキテクチャのモデルの複雑さの主要な側面であることを示すことです。 非線形性係数 (NLC) は, 非線形性を測定するスカラー計量である。 広範な実証研究を通じて,学習前のランダム初期化状態におけるnlcの価値は,トレーニング後のテストエラーの強力な予測因子であり,最適なテストエラーを得るためには,右サイズのnlcを達成することが不可欠であることを示した。 NLCは概念的に単純で、任意のフィードフォワードネットワークに対してよく定義されており、計算が容易で安価であり、広範な理論的、経験的、概念的な基盤を持ち、アーキテクチャ定義から命令的に従い、我々の「非線形正規化」アルゴリズムで容易に制御できる。 我々は、nlcはアーキテクチャ設計、特にニューラルネットワーク解析の最も強力なスカラー統計であると主張する。 我々の分析は平均場理論によって加速され、我々はレイヤーの「メタ分布」を明らかにするために使われる。 NLC以外にも、テストとトレーニングのエラーに大きな説明的影響を持つ、さまざまなメトリクスとプロパティを発見し、具体化しています。 続いて、これらのメトリクスと特性を用いて、さまざまなランダムに生成されたアーキテクチャにおけるエラーのばらつきの大半を説明します。 アーキテクチャ設計者のための実践的なガイドに洞察をまとめることで、ディープラーニングデプロイメントの試行錯誤フェーズを大幅に短縮できると考えています。 本研究は,他の深層学習研究の多くを,注意と厳密性の観点から超越した実験的プロトコルを基礎としている。 我々は、例えば、影響を研究する。 データセット、学習率、浮動小数点精度、損失関数、統計的推定誤差、パフォーマンスやその他の重要な特性に対するバッチ相互依存性。 我々は,建築設計研究の進展を著しく加速させると考えられる研究の実践を促進する。

In essence, a neural network is an arbitrary differentiable, parametrized function. Choosing a neural network architecture for any task is as complex as searching the space of those functions. For the last few years, 'neural architecture design' has been largely synonymous with 'neural architecture search' (NAS), i.e. brute-force, large-scale search. NAS has yielded significant gains on practical tasks. However, NAS methods end up searching for a local optimum in architecture space in a small neighborhood around architectures that often go back decades, based on CNN or LSTM. In this work, we present a different and complementary approach to architecture design, which we term 'zero-shot architecture design' (ZSAD). We develop methods that can predict, without any training, whether an architecture will achieve a relatively high test or training error on a task after training. We then go on to explain the error in terms of the architecture definition itself and develop tools for modifying the architecture based on this explanation. This confers an unprecedented level of control on the deep learning practitioner. They can make informed design decisions before the first line of code is written, even for tasks for which no prior art exists. Our first major contribution is to show that the 'degree of nonlinearity' of a neural architecture is a key causal driver behind its performance, and a primary aspect of the architecture's model complexity. We introduce the 'nonlinearity coefficient' (NLC), a scalar metric for measuring nonlinearity. Via extensive empirical study, we show that the value of the NLC in the architecture's randomly initialized state before training is a powerful predictor of test error after training and that attaining a right-sized NLC is essential for attaining an optimal test error. The NLC is also conceptually simple, well-defined for any feedforward network, easy and cheap to compute, has extensive theoretical, empirical and conceptual grounding, follows instructively from the architecture definition, and can be easily controlled via our 'nonlinearity normalization' algorithm. We argue that the NLC is the most powerful scalar statistic for architecture design specifically and neural network analysis in general. Our analysis is fueled by mean field theory, which we use to uncover the 'meta-distribution' of layers. Beyond the NLC, we uncover and flesh out a range of metrics and properties that have a significant explanatory influence on test and training error. We go on to explain the majority of the error variation across a wide range of randomly generated architectures with these metrics and properties. We compile our insights into a practical guide for architecture designers, which we argue can significantly shorten the trial-and-error phase of deep learning deployment. Our results are grounded in an experimental protocol that exceeds that of the vast majority of other deep learning studies in terms of carefulness and rigor. We study the impact of e.g. dataset, learning rate, floating-point precision, loss function, statistical estimation error and batch inter-dependency on performance and other key properties. We promote research practices that we believe can significantly accelerate progress in architecture design research.
翻訳日:2021-05-28 06:39:00 公開日:2021-05-25
# (参考訳) 過パラメータニューラルネットワークにおける損失景観の幾何学:対称性と不変性

Geometry of the Loss Landscape in Overparameterized Neural Networks: Symmetries and Invariances ( http://arxiv.org/abs/2105.12221v1 )

ライセンス: CC BY 4.0
Berfin \c{S}im\c{s}ek, Fran\c{c}ois Ged, Arthur Jacot, Francesco Spadaro, Cl\'ement Hongler, Wulfram Gerstner, Johanni Brea(参考訳) 過パラメータ化多層ニューラルネットワークにおける置換対称性が「対称性誘起」臨界点を生成する方法を検討した。 l $ 最小幅のネットワークを仮定すると、$ r_1^*, \ldots, r_{l-1}^* $ は$ r_1^* でゼロロスの最小値に達する。 r_{L-1}^*! 互いに置換する孤立点を$とすると、各層に1つの余分なニューロンを加えるだけで、これらすべての離散ミニマを単一の多様体に接続できる。 幅$ r^*+ h =: m $ は大域ミニマの多様体を明示的に記述する: $ T(r^*, m) $ affine subspaces of dimension at least $ h $ connected with each。 幅$m$のネットワークに対して、幅$r<r^*$の小さなネットワークの臨界点に関連する対称性によって誘導される臨界点のみを含むアフィン部分空間の数$G(r,m)$を同定する。 組合せ解析により、T $ と G $ の閉形式式を導出し、対称性によって誘導される臨界部分空間の数が、わずかに過度に過度に過度に過度に過度な状態(h $)で大域的なミニマ多様体を形成するアフィン部分空間の数を支配していることを示す。 オーバーパラメータ化ニューラルネットワークの非凸損失関数の最小化に関する新たな知見を提供する。

We study how permutation symmetries in overparameterized multi-layer neural networks generate `symmetry-induced' critical points. Assuming a network with $ L $ layers of minimal widths $ r_1^*, \ldots, r_{L-1}^* $ reaches a zero-loss minimum at $ r_1^*! \cdots r_{L-1}^*! $ isolated points that are permutations of one another, we show that adding one extra neuron to each layer is sufficient to connect all these previously discrete minima into a single manifold. For a two-layer overparameterized network of width $ r^*+ h =: m $ we explicitly describe the manifold of global minima: it consists of $ T(r^*, m) $ affine subspaces of dimension at least $ h $ that are connected to one another. For a network of width $m$, we identify the number $G(r,m)$ of affine subspaces containing only symmetry-induced critical points that are related to the critical points of a smaller network of width $r<r^*$. Via a combinatorial analysis, we derive closed-form formulas for $ T $ and $ G $ and show that the number of symmetry-induced critical subspaces dominates the number of affine subspaces forming the global minima manifold in the mildly overparameterized regime (small $ h $) and vice versa in the vastly overparameterized regime ($h \gg r^*$). Our results provide new insights into the minimization of the non-convex loss function of overparameterized neural networks.
翻訳日:2021-05-28 06:34:29 公開日:2021-05-25
# (参考訳) 変形可能な画像登録のためのモデル駆動変分ネットワークの学習

Learning a Model-Driven Variational Network for Deformable Image Registration ( http://arxiv.org/abs/2105.12227v1 )

ライセンス: CC BY 4.0
Xi Jia, Alexander Thorley, Wei Chen, Huaqi Qiu, Linlin Shen, Iain B Styles, Hyung Jin Chang, Ales Leonardis, Antonio de Marvao, Declan P. O'Regan, Daniel Rueckert, Jinming Duan(参考訳) 画像登録に対するデータ駆動型ディープラーニングアプローチは、特に訓練データに制限がある場合、従来の反復的アプローチよりも精度が低い。 ディープラーニングの高速推論速度を保ちながらこの問題に対処するために,教師なし変形可能な画像登録のための新しいカスケード変分ネットワーク vr-net を提案する。 可変分割最適化手法を用いて,まず,汎用変分フレームワークで確立された画像登録問題を2つのサブプロブレムに変換し,一方はポイントワイズ・クローズド・フォーム・ソリューション,もう一方はデノジング問題とした。 次に、2つの神経層(すなわち)を提案する。 変形層と強度一貫性層)を解析解と残留U-Netをモデル化し、デノナイジング問題を定式化する。 一般化デノナイジング層) 最後に、ワープ層、強度一貫性層、一般化された復調層をカスケードしてVRネットワークを形成する。 3つの(2つの2次元と1つの3次元)心臓磁気共鳴画像データセットの大規模な実験により、VR-Netは登録精度において最先端のディープラーニング手法よりも優れており、ディープラーニングの高速推論速度と変動モデルのデータ効率は維持されている。

Data-driven deep learning approaches to image registration can be less accurate than conventional iterative approaches, especially when training data is limited. To address this whilst retaining the fast inference speed of deep learning, we propose VR-Net, a novel cascaded variational network for unsupervised deformable image registration. Using the variable splitting optimization scheme, we first convert the image registration problem, established in a generic variational framework, into two sub-problems, one with a point-wise, closed-form solution while the other one is a denoising problem. We then propose two neural layers (i.e. warping layer and intensity consistency layer) to model the analytical solution and a residual U-Net to formulate the denoising problem (i.e. generalized denoising layer). Finally, we cascade the warping layer, intensity consistency layer, and generalized denoising layer to form the VR-Net. Extensive experiments on three (two 2D and one 3D) cardiac magnetic resonance imaging datasets show that VR-Net outperforms state-of-the-art deep learning methods on registration accuracy, while maintains the fast inference speed of deep learning and the data-efficiency of variational model.
翻訳日:2021-05-28 06:32:01 公開日:2021-05-25
# (参考訳) SB-GCN:CADアセンブリの自動マッチングのための構造化BREPグラフ畳み込みネットワーク

SB-GCN: Structured BREP Graph Convolutional Network for Automatic Mating of CAD Assemblies ( http://arxiv.org/abs/2105.12238v1 )

ライセンス: CC BY 4.0
Benjamin Jones, Dalton Hildreth, Duowen Chen, Ilya Baran, Vova Kim, Adriana Schulz(参考訳) アセンブリモデリングはコンピュータ支援設計(CAD)のコアタスクであり、CADワークフローにおける作業の約3分の1を構成する。 したがって、このプロセスの最適化はCADシステムの設計において大きなチャンスとなるが、現在のアセンブリベースモデリングの研究は、現代のCADにおける支配的なデータ構造であるパラメトリック境界表現(BREP)を反映しているため、現代のCADシステムには直接適用されない。 CADアセンブリモデリングは、アセンブリを、既存の作業に共通する世界座標ではなく、BREPトポロジに対して定義される部分間のペアワイズ制約と呼ばれるシステムとして定義する。 そこで我々は,sb-gcn を提案する。sb-gcn は,部品のトポロジカル構造を保ちつつ,cad タイプメートを予測するための表現学習手法である。 システムをトレーニングするために,BREP CADアセンブリの最初の大規模データセットをコンパイルし,ベンチマークメイト予測タスクとともにリリースする。 最後に,提案したモデルと既存のCADシステムとの互換性を,72.2%の精度で提案することで,ユーザによるメイト生成を支援するツールの構築により実証する。

Assembly modeling is a core task of computer aided design (CAD), comprising around one third of the work in a CAD workflow. Optimizing this process therefore represents a huge opportunity in the design of a CAD system, but current research of assembly based modeling is not directly applicable to modern CAD systems because it eschews the dominant data structure of modern CAD: parametric boundary representations (BREPs). CAD assembly modeling defines assemblies as a system of pairwise constraints, called mates, between parts, which are defined relative to BREP topology rather than in world coordinates common to existing work. We propose SB-GCN, a representation learning scheme on BREPs that retains the topological structure of parts, and use these learned representations to predict CAD type mates. To train our system, we compiled the first large scale dataset of BREP CAD assemblies, which we are releasing along with benchmark mate prediction tasks. Finally, we demonstrate the compatibility of our model with an existing commercial CAD system by building a tool that assists users in mate creation by suggesting mate completions, with 72.2% accuracy.
翻訳日:2021-05-28 05:33:34 公開日:2021-05-25
# (参考訳) Graph Self Supervised Learning:BT, HSIC, VICReg

Graph Self Supervised Learning: the BT, the HSIC, and the VICReg ( http://arxiv.org/abs/2105.12247v1 )

ライセンス: CC BY 4.0
Sayan Nag(参考訳) 自己教師型学習と事前学習戦略はここ数年で特に畳み込みニューラルネットワーク(CNN)のために発展してきた。 近年,グラフニューラルネットワーク(GNN)にもそのような手法が適用されている。 本稿では,これまでcnnに適用した有望な結果を示す,損失関数の異なるグラフベースの自己教師付き学習戦略(barlow twins[7], hsic[4], vicreg[1])を用いてきた。 また、VICRegとHSICの利点を組み合わせたハイブリッド損失関数を提案し、VICRegHSICと呼ぶ。 これらの手法の性能は、MUTAG と PROTEINS という2つの異なるデータセットに適用した場合に比較されている。 さらに、異なるバッチサイズ、プロジェクタ次元、データ拡張戦略の影響も検討されている。 結果は予備的であり、他のデータセットで調査を続けます。

Self-supervised learning and pre-training strategies have developed over the last few years especially for Convolutional Neural Networks (CNNs). Recently application of such methods can also be noticed for Graph Neural Networks (GNNs). In this paper, we have used a graph based self-supervised learning strategy with different loss functions (Barlow Twins[ 7], HSIC[ 4], VICReg[ 1]) which have shown promising results when applied with CNNs previously. We have also proposed a hybrid loss function combining the advantages of VICReg and HSIC and called it as VICRegHSIC. The performance of these aforementioned methods have been compared when applied to two different datasets namely MUTAG and PROTEINS. Moreover, the impact of different batch sizes, projector dimensions and data augmentation strategies have also been explored. The results are preliminary and we will be continuing to explore with other datasets.
翻訳日:2021-05-28 04:57:41 公開日:2021-05-25
# (参考訳) 深部強化学習によるUAV衝突回避の解釈

Interpretable UAV Collision Avoidance using Deep Reinforcement Learning ( http://arxiv.org/abs/2105.12254v1 )

ライセンス: CC BY 4.0
Deepak-George Thomas, Daniil Olshanskyi, Karter Krueger, Ali Jannesari(参考訳) 自律飛行システムの成功の主な構成要素は、タスクの完了と衝突回避である。 ほとんどのディープラーニングアルゴリズムは、トレーニングされた環境と条件下でこれらの側面を実行しながら成功している。 しかし、新しい環境にさらされると失敗する。 本稿では,様々な入力に対して効果的に推論可能な自己照査モデルによる深層強化学習を用いた自律型uav飛行について述べる。 推論能力に加えて、現実の条件下での使用を可能にする解釈可能である。 気象や環境によってアルゴリズムをテストした結果,従来のDeep Reinforcement Learningアルゴリズムに比べて堅牢であることが判明した。

The major components of any successful autonomous flight system are task completion and collision avoidance. Most deep learning algorithms are successful while executing these aspects under the environment and conditions in which they have been trained. However, they fail when subjected to novel environments. In this paper we present autonomous UAV flight using Deep Reinforcement Learning augmented with Self-Attention Models that can effectively reason when subjected to varying inputs. In addition to their reasoning ability, they also are interpretable which enables it to be used under real-world conditions. We have tested our algorithm under different weather and environments and found it to be robust compared to conventional Deep Reinforcement Learning algorithms.
翻訳日:2021-05-28 04:52:15 公開日:2021-05-25
# (参考訳) プロダクトデザインのフィードバックとしてのスタイルの類似性

Style Similarity as Feedback for Product Design ( http://arxiv.org/abs/2105.12256v1 )

ライセンス: CC BY 4.0
Mathew Schwartz, Tomer Weiss, Esra Ataer-Cansizoglu, Jae-Woo Choi(参考訳) プロダクトのマッチングと推奨は、顧客と企業の両方にとって有益である。 家庭用品の電子商取引の急速な増加に伴い、何百万もの商品にそのようなレコメンデーションを提供するための量的手法の需要が高まっている。 このアプローチはAmazonやWayfairなどのオンラインストアによって促進されており、その目標は全体の販売を最大化することにある。 全体的な販売に焦点をあてるのではなく、非常に推奨される製品の設計品質を決定するために、ビッグデータ分析を採用することで、製品設計の視点を取ります。 具体的には、このような製品の視覚的スタイルの互換性に焦点を当てる。 我々は、数千の家具製品に対してスタイルベースの類似度尺度を実装した以前の作業を構築した。 分析と可視化を用いて,高い互換性を有する家具製品の属性を抽出する。 電子商取引サイトを閲覧する消費者と類似製品を表示する方法を反映した,ループ内ワークフローの設計者を提案する。 我々の発見は、新しい製品を設計する際に有用であり、複数のスタイルにまたがってどの家具が強い互換性を持つのかについての洞察を提供するため、より推奨される可能性が高い。

Matching and recommending products is beneficial for both customers and companies. With the rapid increase in home goods e-commerce, there is an increasing demand for quantitative methods for providing such recommendations for millions of products. This approach is facilitated largely by online stores such as Amazon and Wayfair, in which the goal is to maximize overall sales. Instead of focusing on overall sales, we take a product design perspective, by employing big-data analysis for determining the design qualities of a highly recommended product. Specifically, we focus on the visual style compatibility of such products. We build off previous work which implemented a style-based similarity metric for thousands of furniture products. Using analysis and visualization, we extract attributes of furniture products that are highly compatible style-wise. We propose a designer in-the-loop workflow that mirrors methods of displaying similar products to consumers browsing e-commerce websites. Our findings are useful when designing new products, since they provide insight regarding what furniture will be strongly compatible across multiple styles, and hence, more likely to be recommended.
翻訳日:2021-05-28 04:31:20 公開日:2021-05-25
# (参考訳) 新型コロナウイルスの文献調査における治験要素検出の効果

Impact of detecting clinical trial elements in exploration of COVID-19 literature ( http://arxiv.org/abs/2105.12261v1 )

ライセンス: CC BY 4.0
Simon \v{S}uster, Karin Verspoor, Timothy Baldwin, Jey Han Lau, Antonio Jimeno Yepes, David Martinez, Yulia Otmakhova(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、バイオメディカル文献の効率的な探索を可能にするツールの需要がさらに高まった。 概念認識と臨床試験の定義要素(例)の検出から生じる半構造化情報である。 PICOの基準)は文献検索を支援するために広く用いられてきたが、この抽象化の貢献は、特にテキストベースの検索に関して、よく理解されていない。 本研究では,標準検索エンジンによる検索結果と臨床関連概念を用いたフィルタリング結果との比較を行った。 trec-covid共有タスクのアノテーションに基づく分析により、関係性および概念に基づく文献探索の特徴に関する定量的かつ質的洞察を得る。 最も重要なことは、リレーショナル・コンセプトの選択が、検索されたオリジナルのコレクションをフィルタリングし、不正なドキュメントの割合を減少させ、精度を増加させることである。

The COVID-19 pandemic has driven ever-greater demand for tools which enable efficient exploration of biomedical literature. Although semi-structured information resulting from concept recognition and detection of the defining elements of clinical trials (e.g. PICO criteria) has been commonly used to support literature search, the contributions of this abstraction remain poorly understood, especially in relation to text-based retrieval. In this study, we compare the results retrieved by a standard search engine with those filtered using clinically-relevant concepts and their relations. With analysis based on the annotations from the TREC-COVID shared task, we obtain quantitative as well as qualitative insights into characteristics of relational and concept-based literature exploration. Most importantly, we find that the relational concept selection filters the original retrieved collection in a way that decreases the proportion of unjudged documents and increases the precision, which means that the user is likely to be exposed to a larger number of relevant documents.
翻訳日:2021-05-28 04:13:58 公開日:2021-05-25
# 多元細粒オブジェクト認識のための弱教師付き例注意と木種分類への応用

Weakly Supervised Instance Attention for Multisource Fine-Grained Object Recognition with an Application to Tree Species Classification ( http://arxiv.org/abs/2105.10983v2 )

ライセンス: Link先を確認
Bulut Aygunes, Ramazan Gokberk Cinbis, Selim Aksoy(参考訳) 補完スペクトル、空間、構造情報を利用するマルチソース画像解析は、オブジェクトを多くの類似したサブカテゴリの1つに分類することを目的とした、きめ細かいオブジェクト認識の恩恵を受ける。 しかし、比較的小さなオブジェクトを含むマルチソースタスクでは、最小の登録エラーでさえ分類プロセスに高い不確実性をもたらす可能性がある。 入力画像は,与えられたクラスラベルを持つオブジェクトが近傍に存在し,その正確な位置を知らずに,期待される対象位置周辺の大きな近傍に対応するという,弱い教師付き学習視点からこの問題にアプローチする。 提案手法では,オブジェクトの同時配置と分類に並列分岐を持つ単一ソースのディープインスタンスアテンションモデルを使用し,このモデルを複数ソースに拡張することで,位置不確実性のないと仮定された参照ソースを用いて,確率レベル,ロジットレベル,特徴レベル,画素レベルという4つのレベルにおける複数のソースの融合を支援する。 その結果,RGB,マルチスペクトル,LiDARデータを用いた場合の最高性能ベースラインよりも5.7%向上し,40種類の木を認識した場合の精度が53%向上した。 また,様々なパラメータの複雑性設定において,各モデルを評価することで,モデルのキャパシティが増加すると,デフォルトキャパシティ設定よりも6.3%向上する。

Multisource image analysis that leverages complementary spectral, spatial, and structural information benefits fine-grained object recognition that aims to classify an object into one of many similar subcategories. However, for multisource tasks that involve relatively small objects, even the smallest registration errors can introduce high uncertainty in the classification process. We approach this problem from a weakly supervised learning perspective in which the input images correspond to larger neighborhoods around the expected object locations where an object with a given class label is present in the neighborhood without any knowledge of its exact location. The proposed method uses a single-source deep instance attention model with parallel branches for joint localization and classification of objects, and extends this model into a multisource setting where a reference source that is assumed to have no location uncertainty is used to aid the fusion of multiple sources in four different levels: probability level, logit level, feature level, and pixel level. We show that all levels of fusion provide higher accuracies compared to the state-of-the-art, with the best performing method of feature-level fusion resulting in 53% accuracy for the recognition of 40 different types of trees, corresponding to an improvement of 5.7% over the best performing baseline when RGB, multispectral, and LiDAR data are used. We also provide an in-depth comparison by evaluating each model at various parameter complexity settings, where the increased model capacity results in a further improvement of 6.3% over the default capacity setting.
翻訳日:2021-05-27 13:46:11 公開日:2021-05-25
# 深層学習自然言語処理モデルの文脈知覚的可視化

Context-Sensitive Visualization of Deep Learning Natural Language Processing Models ( http://arxiv.org/abs/2105.12202v1 )

ライセンス: Link先を確認
Andrew Dunn, Diana Inkpen, R\u{a}zvan Andonie(参考訳) トランスフォーマーニューラルネットワークの導入は、ここ数年で自然言語処理(NLP)の状況を変えてきた。 これまでのところ、どの可視化システムも、トランスフォーマーのすべての側面を調べることができていない。 これが現在の仕事の動機となった。 我々は,既存のNLPツールを活用して,出力に最も大きな影響を及ぼすトークン群(単語)を検索し,元のテキストからコンテキストを保存できる新しいNLP変換器のコンテキストセンシティブ可視化手法を提案する。 まず,文レベルの依存構文解析器を用いて有望な単語群を強調する。 依存関係パーサは、文中の単語間の関係のツリーを作成する。 次に, 入力テキストから, 隣接および非隣接のタプルを体系的に取り除き, それらのトークンが欠落した新しいテキストを複数生成する。 得られたテキストは、事前訓練されたBERTモデルに渡される。 分類出力を全文と比較し、活性化強度の違いを記録する。 ターゲット分類出力ニューロンの最大の差を生み出す修正されたテキストを選択し、除去された単語の組み合わせがモデルの出力に最も影響を与えると考えられる。 最後に、最も影響力のある単語の組み合わせをヒートマップで視覚化する。

The introduction of Transformer neural networks has changed the landscape of Natural Language Processing (NLP) during the last years. So far, none of the visualization systems has yet managed to examine all the facets of the Transformers. This gave us the motivation of the current work. We propose a new NLP Transformer context-sensitive visualization method that leverages existing NLP tools to find the most significant groups of tokens (words) that have the greatest effect on the output, thus preserving some context from the original text. First, we use a sentence-level dependency parser to highlight promising word groups. The dependency parser creates a tree of relationships between the words in the sentence. Next, we systematically remove adjacent and non-adjacent tuples of \emph{n} tokens from the input text, producing several new texts with those tokens missing. The resulting texts are then passed to a pre-trained BERT model. The classification output is compared with that of the full text, and the difference in the activation strength is recorded. The modified texts that produce the largest difference in the target classification output neuron are selected, and the combination of removed words are then considered to be the most influential on the model's output. Finally, the most influential word combinations are visualized in a heatmap.
翻訳日:2021-05-27 13:40:36 公開日:2021-05-25
# 密度推定:インフレーション-デフレ手法

Density estimation: an inflation-deflation approach ( http://arxiv.org/abs/2105.12152v1 )

ライセンス: Link先を確認
Christian Horvat, Jean-Pascal Pfister(参考訳) 正規化フロー(NF)は神経ネットワークに基づく普遍密度推定器である。 しかし、この普遍性は制限され、密度の支持はユークリッド空間に微分同型である必要がある。 本稿では,この制限を,普遍性を犠牲にすることなく克服する新しい手法を提案する。 提案手法では,正規空間に雑音を付加してデータ多様体を膨らませ,この膨らんだ多様体上でnfを訓練し,最後に学習密度を分解する。 主な結果は、多様体上の十分条件と、対応する推定器が厳密であるノイズの特定の選択を与える。 本手法はnfsと同じ計算複雑性を持ち,逆流れの計算を必要としない。 また、埋め込み次元が多様体次元よりもはるかに大きい場合、正規空間のノイズはガウス雑音によってよく近似できることを示す。 これにより、多様体次元が既知であるような非平坦多様体上の任意の密度を近似する手法が利用できる。

Normalizing Flows (NFs) are universal density estimators based on Neuronal Networks. However, this universality is limited: the density's support needs to be diffeomorphic to a Euclidean space. In this paper, we propose a novel method to overcome this limitation without sacrificing universality. The proposed method inflates the data manifold by adding noise in the normal space, trains an NF on this inflated manifold, and, finally, deflates the learned density. Our main result provides sufficient conditions on the manifold and the specific choice of noise under which the corresponding estimator is exact. Our method has the same computational complexity as NFs and does not require computing an inverse flow. We also show that, if the embedding dimension is much larger than the manifold dimension, noise in the normal space can be well approximated by Gaussian noise. This allows to use our method for approximating arbitrary densities on non-flat manifolds provided that the manifold dimension is known.
翻訳日:2021-05-27 13:39:33 公開日:2021-05-25
# 頑健な一層ニューラルネットワークトレーニングの実用的凸定式化

Practical Convex Formulation of Robust One-hidden-layer Neural Network Training ( http://arxiv.org/abs/2105.12237v1 )

ライセンス: Link先を確認
Yatong Bai, Tanmay Gautam, Yu Gai, Somayeh Sojoudi(参考訳) 近年の研究では、一層型スカラー出力完全連結ReLUニューラルネットワークのトレーニングを有限次元凸プログラムとして再構成できることが示されている。 残念ながら、このような凸プログラムの規模はデータサイズで指数関数的に増加する。 本研究では,線形複雑性を持つ確率的手続きが正確な定式化によく近いことを証明する。 さらに、逆入力摂動に頑健なニューラルネットワークを訓練する「逆トレーニング」問題を効率的に解くための凸最適化手法を導出する。 本手法は,バイナリ分類と回帰に適用でき,高速勾配符号法 (fgsm) や投影勾配降下法 (pgd) といった,現在の敵対的訓練法に代わるものを提供する。 実験では,提案手法が従来の手法よりも著しく頑健性と性能を発揮できることを実証する。

Recent work has shown that the training of a one-hidden-layer, scalar-output fully-connected ReLU neural network can be reformulated as a finite-dimensional convex program. Unfortunately, the scale of such a convex program grows exponentially in data size. In this work, we prove that a stochastic procedure with a linear complexity well approximates the exact formulation. Moreover, we derive a convex optimization approach to efficiently solve the "adversarial training" problem, which trains neural networks that are robust to adversarial input perturbations. Our method can be applied to binary classification and regression, and provides an alternative to the current adversarial training methods, such as Fast Gradient Sign Method (FGSM) and Projected Gradient Descent (PGD). We demonstrate in experiments that the proposed method achieves a noticeably better adversarial robustness and performance than the existing methods.
翻訳日:2021-05-27 13:36:10 公開日:2021-05-25
# rank-one行列推定:勾配降下ダイナミクスの解析時間発展

Rank-one matrix estimation: analytic time evolution of gradient descent dynamics ( http://arxiv.org/abs/2105.12257v1 )

ライセンス: Link先を確認
Antoine Bodin, Nicolas Macris(参考訳) 階数 1 の対称行列は付加雑音によって崩壊すると考えられる。 ランク 1 行列は半径 $\sqrt{n}$ の球面上の $n$-component 未知ベクトルによって構成され、球面上の二次コスト関数の勾配降下により、高次元の極限 n$ の破れた行列からこのベクトルを推定する問題を考える。 推定器と未知ベクトルの重なり合いの時間的進化の明示的な公式とコストは厳密に導出される。 長い時間領域では、信号対雑音比の関数としてよく知られたスペクトル相転移を回復する。 明示的な公式は、時間進化の興味深い過渡的な特徴を指摘することもできる。 解析手法はランダム行列理論の最近の進歩に基づき,半円法則の局所バージョンを用いる。

We consider a rank-one symmetric matrix corrupted by additive noise. The rank-one matrix is formed by an $n$-component unknown vector on the sphere of radius $\sqrt{n}$, and we consider the problem of estimating this vector from the corrupted matrix in the high dimensional limit of $n$ large, by gradient descent for a quadratic cost function on the sphere. Explicit formulas for the whole time evolution of the overlap between the estimator and unknown vector, as well as the cost, are rigorously derived. In the long time limit we recover the well known spectral phase transition, as a function of the signal-to-noise ratio. The explicit formulas also allow to point out interesting transient features of the time evolution. Our analysis technique is based on recent progress in random matrix theory and uses local versions of the semi-circle law.
翻訳日:2021-05-27 13:35:47 公開日:2021-05-25
# RGB-Dを用いたOcclusion Aware Kernel correlation Filter Tracker

Occlusion Aware Kernel Correlation Filter Tracker using RGB-D ( http://arxiv.org/abs/2105.12161v1 )

ライセンス: Link先を確認
Srishti Yadav(参考訳) 大規模なトレーニングデータセットを必要とするディープラーニングとは異なり、KCF(Kernelized correlation Filter)のような相関フィルタベースのトラッカーは、トラックされた画像(循環行列)の暗黙的な特性をリアルタイムでトレーニングする。 追跡における実用的な応用にもかかわらず、理論的、数学的、実験的にkcfに関連する基礎をよりよく理解する必要がある。 この論文はまず、トラッカーの動作プロトタイプを詳述し、リアルタイムアプリケーションにおけるその効果と可視化のサポートについて検討する。 さらに, 咬合, スケール変化, 物体回転, アウトオブビュー, モデルドリフトなどの問題点についても, rgb-d kernel correlation tracker を用いて検討した。 また,粒子フィルタを用いてトラッカーの精度を向上させることも検討した。 この結果は、a)標準データセットとb)Microsoft Kinect V2センサーを用いて、リアルタイムに評価される。 この研究は、カーネルベースの相関フィルタトラッカーの有効性をよりよく理解し、追跡におけるいくつかの利点を更に定義するための基盤となると信じている。

Unlike deep learning which requires large training datasets, correlation filter-based trackers like Kernelized Correlation Filter (KCF) uses implicit properties of tracked images (circulant matrices) for training in real-time. Despite their practical application in tracking, a need for a better understanding of the fundamentals associated with KCF in terms of theoretically, mathematically, and experimentally exists. This thesis first details the workings prototype of the tracker and investigates its effectiveness in real-time applications and supporting visualizations. We further address some of the drawbacks of the tracker in cases of occlusions, scale changes, object rotation, out-of-view and model drift with our novel RGB-D Kernel Correlation tracker. We also study the use of particle filters to improve trackers' accuracy. Our results are experimentally evaluated using a) standard dataset and b) real-time using the Microsoft Kinect V2 sensor. We believe this work will set the basis for a better understanding of the effectiveness of kernel-based correlation filter trackers and to further define some of its possible advantages in tracking.
翻訳日:2021-05-27 13:35:23 公開日:2021-05-25
# 深層残留ネットワークのスケーリング特性

Scaling Properties of Deep Residual Networks ( http://arxiv.org/abs/2105.12245v1 )

ライセンス: Link先を確認
Alain-Sam Cohen, Rama Cont, Alain Rossier, Renyuan Xu(参考訳) 残差ネットワーク(resnets)はパターン認識において印象的な結果を示しており、近年では神経常微分方程式(neural odes)との関連が認識され、理論上の関心を集めている。 このリンクは、層数の増加に伴うネットワーク重みの滑らかな関数への収束に依存する。 確率勾配降下法で訓練された重みの物性とネットワーク深度によるスケーリングについて, 詳細な数値実験により検討した。 神経ODE文学で想定されるものとは大きく異なるスケーリング体制の存在を観察する。 活性化関数の滑らかさのようなネットワークアーキテクチャの特定の特徴により、代替のODE極限、確率微分方程式、あるいはこれらのいずれかを得ることができる。 これらの結果は、ディープResNetの漸近的記述としてのニューラルODEモデルの妥当性に疑問を呈し、ディープネットワーク限界のより良い記述として別の微分方程式のクラスを指し示している。

Residual networks (ResNets) have displayed impressive results in pattern recognition and, recently, have garnered considerable theoretical interest due to a perceived link with neural ordinary differential equations (neural ODEs). This link relies on the convergence of network weights to a smooth function as the number of layers increases. We investigate the properties of weights trained by stochastic gradient descent and their scaling with network depth through detailed numerical experiments. We observe the existence of scaling regimes markedly different from those assumed in neural ODE literature. Depending on certain features of the network architecture, such as the smoothness of the activation function, one may obtain an alternative ODE limit, a stochastic differential equation or neither of these. These findings cast doubts on the validity of the neural ODE model as an adequate asymptotic description of deep ResNets and point to an alternative class of differential equations as a better description of the deep network limit.
翻訳日:2021-05-27 13:33:50 公開日:2021-05-25
# NukeLM:原子力・エネルギー分野のための事前訓練および微調整言語モデル

NukeLM: Pre-Trained and Fine-Tuned Language Models for the Nuclear and Energy Domains ( http://arxiv.org/abs/2105.12192v1 )

ライセンス: Link先を確認
Lee Burke, Karl Pazdernik, Daniel Fortin, Benjamin Wilson, Rustam Goychayev, and John Mattingly(参考訳) 自然言語処理(nlp)タスク(テキスト分類、名前付きエンティティ認識など) ここ数年で革命的な改善がありました これはbertのような言語モデルによるもので、大きな事前学習されたモデルを使って深い知識の伝達を実現し、特定のタスクでモデルを微調整する。 BERTアーキテクチャは、モデルがドメイン関連テキストを使用して事前トレーニングされたときに、ドメイン固有のタスクに対してさらに優れたパフォーマンスを示す。 これらの最近の進歩に触発されて、我々は米国エネルギー省科学技術情報局(OSTI)データベースから150万の抽象化を事前訓練した核ドメイン言語モデルであるNukeLMを開発した。 このnukelmモデルは、研究論文をバイナリクラス(核燃料サイクル [nfc] に関連するものか否か)または論文の主題に関する複数のカテゴリに分類するために微調整される。 細調整前のBERTスタイルアーキテクチャの事前学習は,両項目の分類作業において高い性能を示すことを示す。 この情報は、核空間で出版される引用ネットワークの理解を深め、核(または核関連)領域における新しい研究領域を明らかにするために必要なタスクである原稿を適切にトリアージするために重要である。

Natural language processing (NLP) tasks (text classification, named entity recognition, etc.) have seen revolutionary improvements over the last few years. This is due to language models such as BERT that achieve deep knowledge transfer by using a large pre-trained model, then fine-tuning the model on specific tasks. The BERT architecture has shown even better performance on domain-specific tasks when the model is pre-trained using domain-relevant texts. Inspired by these recent advancements, we have developed NukeLM, a nuclear-domain language model pre-trained on 1.5 million abstracts from the U.S. Department of Energy Office of Scientific and Technical Information (OSTI) database. This NukeLM model is then fine-tuned for the classification of research articles into either binary classes (related to the nuclear fuel cycle [NFC] or not) or multiple categories related to the subject of the article. We show that continued pre-training of a BERT-style architecture prior to fine-tuning yields greater performance on both article classification tasks. This information is critical for properly triaging manuscripts, a necessary task for better understanding citation networks that publish in the nuclear space, and for uncovering new areas of research in the nuclear (or nuclear-relevant) domains.
翻訳日:2021-05-27 13:33:24 公開日:2021-05-25
# Project CodeNet: コーディングタスクの多様性を学ぶためのコードデータセットのための大規模AI

Project CodeNet: A Large-Scale AI for Code Dataset for Learning a Diversity of Coding Tasks ( http://arxiv.org/abs/2105.12655v1 )

ライセンス: Link先を確認
Ruchir Puri, David S. Kung, Geert Janssen, Wei Zhang, Giacomo Domeniconi, Vladmir Zolotov, Julian Dolby, Jie Chen, Mihir Choudhury, Lindsey Decker, Veronika Thost, Luca Buratti, Saurabh Pujar, Ulrich Finkler(参考訳) ディープラーニングと機械学習アルゴリズムの進歩は、コンピュータビジョン、音声認識、自然言語処理などにおいて画期的な進歩をもたらした。 さらに、過去数十年にわたって、ソフトウェアは私たちの社会のあらゆる側面のファブリックに組み込まれてきました。 これら2つのトレンドは、AI for Codeの急成長する研究領域に新たな関心を呼び起こした。 ソフトウェア開発がエンタープライズレガシーアプリケーションのすべての産業とコードインフラストラクチャに浸透するにつれ、ソフトウェア開発の生産性を高め、レガシーアプリケーションを近代化することが、これまで以上に重要になっている。 過去10年間で、ImageNetのような大規模なデータセットは、コンピュータビジョンから言語や音声理解まで、アルゴリズムの進歩において重要な役割を担ってきた。 本稿では,AI for Codeのアルゴリズム的進歩を加速するための,一級,大規模,多種多様,高品質なデータセットであるProject CodeNetを提案する。 1400万のコードサンプルと、55の異なるプログラミング言語で約500万行のコードからなる。 project codenetはその規模だけでなく、コードの類似性やコードのレコメンデーションアルゴリズムの進歩の分類、多種多様なプログラミング言語間のコード変換、コードパフォーマンスの向上(ランタイムとメモリの両方)といった、ベンチマークの助けにもなります。 CodeNetは700万以上のコードサンプルに対して、サンプルのインプットと出力のテストセットも提供している。 ユーザビリティ機能として、私たちはproject codenetでソースコードをインプットとして簡単に機械学習モデルに使用できる表現に変換するプリプロセッシングツールをいくつか提供しています。

Advancements in deep learning and machine learning algorithms have enabled breakthrough progress in computer vision, speech recognition, natural language processing and beyond. In addition, over the last several decades, software has been built into the fabric of every aspect of our society. Together, these two trends have generated new interest in the fast-emerging research area of AI for Code. As software development becomes ubiquitous across all industries and code infrastructure of enterprise legacy applications ages, it is more critical than ever to increase software development productivity and modernize legacy applications. Over the last decade, datasets like ImageNet, with its large scale and diversity, have played a pivotal role in algorithmic advancements from computer vision to language and speech understanding. In this paper, we present Project CodeNet, a first-of-its-kind, very large scale, diverse, and high-quality dataset to accelerate the algorithmic advancements in AI for Code. It consists of 14M code samples and about 500M lines of code in 55 different programming languages. Project CodeNet is not only unique in its scale, but also in the diversity of coding tasks it can help benchmark: from code similarity and classification for advances in code recommendation algorithms, and code translation between a large variety programming languages, to advances in code performance (both runtime, and memory) improvement techniques. CodeNet also provides sample input and output test sets for over 7M code samples, which can be critical for determining code equivalence in different languages. As a usability feature, we provide several preprocessing tools in Project CodeNet to transform source codes into representations that can be readily used as inputs into machine learning models.
翻訳日:2021-05-27 13:20:31 公開日:2021-05-25
# シミュレーションヒューマノイドフットボールにおける運動制御からチームプレイへ

From Motor Control to Team Play in Simulated Humanoid Football ( http://arxiv.org/abs/2105.12196v1 )

ライセンス: Link先を確認
Siqi Liu, Guy Lever, Zhe Wang, Josh Merel, S. M. Ali Eslami, Daniel Hennes, Wojciech M. Czarnecki, Yuval Tassa, Shayegan Omidshafiei, Abbas Abdolmaleki, Noah Y. Siegel, Leonard Hasenclever, Luke Marris, Saran Tunyasuvunakool, H. Francis Song, Markus Wulfmeier, Paul Muller, Tuomas Haarnoja, Brendan D. Tracey, Karl Tuyls, Thore Graepel, Nicolas Heess(参考訳) 物理的世界の知的行動は、複数の空間的および時間的スケールで構造を示す。 運動は究極的には即時筋緊張や関節トルクのレベルで実行されるが、はるかに長い時間スケールで定義された目標と、最終的には他のエージェントとの協調を含む身体自体よりもはるかに遠くまで広がる関係において、それらが選択される必要がある。 人工知能の最近の研究は、複雑な動き、長期計画、マルチエージェント調整の各問題に対する学習に基づくアプローチの可能性を示唆している。 しかし、その統合をめざした研究は限られている。 本研究は,現実の仮想環境でサッカーをするために,物理的にシミュレートされたヒューマノイドアバターのチームを訓練することによる。 本研究では, 模倣学習, シングルエージェント, 多エージェント強化学習, 人口ベース学習を組み合わせた手法を開発し, 異なる抽象レベルでの意思決定に, 伝達可能な行動表現を利用する。 プレイヤーはまず、完全に関節化された身体を制御して、ランニングやターンのような現実的な人間的な動きをし、その後ドリブルやシューティングのような中級のサッカースキルを獲得し、最後に、他人の意識を発達させ、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋め、数十秒のタイムスケールでチームとしてゴール指向の行動を調整する。 本研究では,様々な抽象レベルにおける行動の出現と,実世界のスポーツ分析の統計を含むいくつかの分析手法を用いて,これらの行動の基盤となる表現について検討する。 本研究は,物理的に具体化されたマルチエージェント設定において,複数の尺度での統合意思決定の完全な実演を構成する。 プロジェクトビデオはhttps://youtu.be/khmwq9pv7mg。

Intelligent behaviour in the physical world exhibits structure at multiple spatial and temporal scales. Although movements are ultimately executed at the level of instantaneous muscle tensions or joint torques, they must be selected to serve goals defined on much longer timescales, and in terms of relations that extend far beyond the body itself, ultimately involving coordination with other agents. Recent research in artificial intelligence has shown the promise of learning-based approaches to the respective problems of complex movement, longer-term planning and multi-agent coordination. However, there is limited research aimed at their integration. We study this problem by training teams of physically simulated humanoid avatars to play football in a realistic virtual environment. We develop a method that combines imitation learning, single- and multi-agent reinforcement learning and population-based training, and makes use of transferable representations of behaviour for decision making at different levels of abstraction. In a sequence of stages, players first learn to control a fully articulated body to perform realistic, human-like movements such as running and turning; they then acquire mid-level football skills such as dribbling and shooting; finally, they develop awareness of others and play as a team, bridging the gap between low-level motor control at a timescale of milliseconds, and coordinated goal-directed behaviour as a team at the timescale of tens of seconds. We investigate the emergence of behaviours at different levels of abstraction, as well as the representations that underlie these behaviours using several analysis techniques, including statistics from real-world sports analytics. Our work constitutes a complete demonstration of integrated decision-making at multiple scales in a physically embodied multi-agent setting. See project video at https://youtu.be/KHMwq9pv7mg.
翻訳日:2021-05-27 13:18:39 公開日:2021-05-25
# 機械学習ソフトウェアのバイアス:なぜ? どうやって? どうしたらいいの?

Bias in Machine Learning Software: Why? How? What to do? ( http://arxiv.org/abs/2105.12195v1 )

ライセンス: Link先を確認
Joymallya Chakraborty, Suvodeep Majumder, Tim Menzies(参考訳) ソフトウェアはますます、犯罪者の逮捕、クレジットカードの承認、従業員の雇用など、自律的な意思決定を行っている。 これらの決定のいくつかは偏見を示し、特定の社会グループ(例えば)に悪影響を及ぼす。 性別、人種、年齢、婚姻状況によって定義されるもの) バイアス緩和に関する多くの先行研究は以下の形式を取る: 複数の方法でデータまたは学習者を変更し、そのどれかが公平性を改善するかどうかを確認する。 おそらくもっとよいアプローチは、バイアスの根本原因を仮定し、解決戦略を適用することである。 バイアスの根本原因は(a)どのデータが選択されたか、(b)これらの例に割り当てられたラベルに影響する事前決定であると仮定する。 我々のFair-SMOTEアルゴリズムはバイアス付きラベルを除去し、感度特性に基づいて、サンプルが正クラスと負のクラスの両方で等しいような内部分布を再バランスさせる。 テストでは、この方法が以前のアプローチと同じくらいバイアスを減らすのに有効であることが分かりました。 さらに、Fair-SMOTEによって生成されたモデルは、他の最先端の公正性改善アルゴリズムよりも高い性能(リコールとF1)を達成する。 分析した学習者やデータセットの数で測定された知識を最大限に活用するために,本研究は文献で提示されたバイアス緩和に関する最も大きな研究の1つである。

Increasingly, software is making autonomous decisions in case of criminal sentencing, approving credit cards, hiring employees, and so on. Some of these decisions show bias and adversely affect certain social groups (e.g. those defined by sex, race, age, marital status). Many prior works on bias mitigation take the following form: change the data or learners in multiple ways, then see if any of that improves fairness. Perhaps a better approach is to postulate root causes of bias and then applying some resolution strategy. This paper postulates that the root causes of bias are the prior decisions that affect- (a) what data was selected and (b) the labels assigned to those examples. Our Fair-SMOTE algorithm removes biased labels; and rebalances internal distributions such that based on sensitive attribute, examples are equal in both positive and negative classes. On testing, it was seen that this method was just as effective at reducing bias as prior approaches. Further, models generated via Fair-SMOTE achieve higher performance (measured in terms of recall and F1) than other state-of-the-art fairness improvement algorithms. To the best of our knowledge, measured in terms of number of analyzed learners and datasets, this study is one of the largest studies on bias mitigation yet presented in the literature.
翻訳日:2021-05-27 13:15:38 公開日:2021-05-25
# LTEとWi-Fi共存におけるベイズ非パラメトリック強化学習

Bayesian Nonparametric Reinforcement Learning in LTE and Wi-Fi Coexistence ( http://arxiv.org/abs/2105.12249v1 )

ライセンス: Link先を確認
Po-Kan Shih(参考訳) 次世代のワイヤレス通信の形成に伴い、モノのインターネット、自動運転車、ドローンといった新しいアプリケーションが、無許可の帯域を混雑させている。 LTEのようなライセンス付きネットワークも、高容量のコンテンツを低コストで提供するために、未ライセンスの帯域で提供される。 しかし、LTEは他とスペクトルを共有するように設計されていない。 これらのネットワークのための協力センターは、不均一な特性を持ち、誰もが自由にスペクトルを入力・離脱できるため、設計は困難である。 一つの統一設計で無限のシナリオを組み込むことは不可能であるため、別の解決策は各ネットワークに自身の共存ポリシーを学習させることである。 以前のソリューションは固定シナリオでのみ動作する。 本研究では,Wi-Fi と LTE-LAA エージェントの5GHz 帯における共存に対処する強化学習アルゴリズムを提案する。 共存問題はDec-POMDPとしてモデル化され、異なるエージェントの政策の不確実性に対応するために、非パラメトリックの政策学習にベイズ的アプローチが採用された。 報酬関数に公正度尺度を導入し、エージェント間の公平な共有を奨励した。 後部近似の確率および変分推論として値関数を変換することにより,強化学習を最適化問題とした。 シミュレーションの結果、このアルゴリズムはコンパクトなポリシー表現で高い値に達し、エージェントセットに適用しても計算効率が保たれることが示された。

With the formation of next generation wireless communication, a growing number of new applications like internet of things, autonomous car, and drone is crowding the unlicensed spectrum. Licensed network such as LTE also comes to the unlicensed spectrum for better providing high-capacity contents with low cost. However, LTE was not designed for sharing spectrum with others. A cooperation center for these networks is costly because they possess heterogeneous properties and everyone can enter and leave the spectrum unrestrictedly, so the design will be challenging. Since it is infeasible to incorporate potentially infinite scenarios with one unified design, an alternative solution is to let each network learn its own coexistence policy. Previous solutions only work on fixed scenarios. In this work a reinforcement learning algorithm is presented to cope with the coexistence between Wi-Fi and LTE-LAA agents in 5 GHz unlicensed spectrum. The coexistence problem was modeled as a Dec-POMDP and Bayesian approach was adopted for policy learning with nonparametric prior to accommodate the uncertainty of policy for different agents. A fairness measure was introduced in the reward function to encourage fair sharing between agents. The reinforcement learning was turned into an optimization problem by transforming the value function as likelihood and variational inference for posterior approximation. Simulation results demonstrate that this algorithm can reach high value with compact policy representations, and stay computationally efficient when applying to agent set.
翻訳日:2021-05-27 13:15:05 公開日:2021-05-25
# 連続制御タスクに対するロバスト値反復

Robust Value Iteration for Continuous Control Tasks ( http://arxiv.org/abs/2105.12189v1 )

ライセンス: Link先を確認
Michael Lutter and Shie Mannor and Jan Peters and Dieter Fox and Animesh Garg(参考訳) シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。 一般に、最適ポリシーは近似モデルと対応する状態分配に過剰に適合し、しばしば基盤となる分布シフトをトラスネファーすることができない。 本稿では,コンパクト状態領域における最適値関数を動的計画法を用いて計算し,システムダイナミクスの逆摂動を組み込んだロバスト適合値反復法を提案する。 敵対的な摂動は、ダイナミクスの変化にロバストな最適な政策を奨励する。 強化学習の連続時間的視点を用いて, 状態, 行動, 観察, モデルパラメータの最適摂動をクローズドフォームで導出する。 特に、結果のアルゴリズムは状態やアクションの離散化を必要としない。 したがって、min-max値関数更新に最適対向摂動を効率的に組み込むことができる。 結果のアルゴリズムをFruta振り子とカートポールに適用する。 システムの質量を変化させることで、異なるモデルパラメータにわたる定量的および質的性能を評価する。 より深い強化学習アルゴリズムや非破壊的なアルゴリズムと比較して,ロバストな値反復がより堅牢であることを示す。 実験のビデオはhttps://sites.google.com/view/rfviで見ることができる。

When transferring a control policy from simulation to a physical system, the policy needs to be robust to variations in the dynamics to perform well. Commonly, the optimal policy overfits to the approximate model and the corresponding state-distribution, often resulting in failure to trasnfer underlying distributional shifts. In this paper, we present Robust Fitted Value Iteration, which uses dynamic programming to compute the optimal value function on the compact state domain and incorporates adversarial perturbations of the system dynamics. The adversarial perturbations encourage a optimal policy that is robust to changes in the dynamics. Utilizing the continuous-time perspective of reinforcement learning, we derive the optimal perturbations for the states, actions, observations and model parameters in closed-form. Notably, the resulting algorithm does not require discretization of states or actions. Therefore, the optimal adversarial perturbations can be efficiently incorporated in the min-max value function update. We apply the resulting algorithm to the physical Furuta pendulum and cartpole. By changing the masses of the systems we evaluate the quantitative and qualitative performance across different model parameters. We show that robust value iteration is more robust compared to deep reinforcement learning algorithm and the non-robust version of the algorithm. Videos of the experiments are shown at https://sites.google.com/view/rfvi
翻訳日:2021-05-27 13:11:32 公開日:2021-05-25
# フィルタトポロジカル空間の簡潔な表現を学習するためのドメイン・オブブリバストなアプローチ

A Domain-Oblivious Approach for Learning Concise Representations of Filtered Topological Spaces ( http://arxiv.org/abs/2105.12208v1 )

ライセンス: Link先を確認
Yu Qin, Brittany Terese Fasy, Carola Wenk, and Brian Summa(参考訳) 永続図は、データ視覚化におけるフィルタトポロジカル空間の基本的特徴の定量化に広く用いられている。 多くの応用において、図間の計算距離は必須であるが、計算コストのためにこれらの計算距離は困難である。 本稿では,永続化図のバイナリコード表現を学習し,距離の高速な計算を可能にする永続化図ハッシュフレームワークを提案する。 このフレームワークは、学習過程を制御するための図距離損失関数を備えた生成逆ネットワーク(GAN)上に構築されている。 図をベクトル化された表現に変換する代わりに、図をバイナリコードにハッシュします。 このモデルのトレーニングは、合成された無作為な図から純粋に計算できるというドメイン公約である。 その結果,提案手法はモデルの再トレーニングを必要とせず,様々なデータセットに直接適用できる。 これらのバイナリコードは、高速ハミング距離を用いて比較した場合、他のベクトル化表現よりもデータセット間の位相的類似性を維持する。 この手法を評価するために,このフレームワークをダイアグラムクラスタリングの問題に適用し,手法の品質と性能を最先端と比較した。 さらに、10kパーシステンスダイアグラムを持つデータセットにおける我々のアプローチのスケーラビリティを示すが、現在のテクニックでは不可能である。 さらに,実験結果から,本手法はメモリ使用量が少ないほど大幅に高速化され,比較性能も向上した。

Persistence diagrams have been widely used to quantify the underlying features of filtered topological spaces in data visualization. In many applications, computing distances between diagrams is essential; however, computing these distances has been challenging due to the computational cost. In this paper, we propose a persistence diagram hashing framework that learns a binary code representation of persistence diagrams, which allows for fast computation of distances. This framework is built upon a generative adversarial network (GAN) with a diagram distance loss function to steer the learning process. Instead of attempting to transform diagrams into vectorized representations, we hash diagrams into binary codes, which have natural advantages in large-scale tasks. The training of this model is domain-oblivious in that it can be computed purely from synthetic, randomly created diagrams. As a consequence, our proposed method is directly applicable to various datasets without the need of retraining the model. These binary codes, when compared using fast Hamming distance, better maintain topological similarity properties between datasets than other vectorized representations. To evaluate this method, we apply our framework to the problem of diagram clustering and we compare the quality and performance of our approach to the state-of-the-art. In addition, we show the scalability of our approach on a dataset with 10k persistence diagrams, which is not possible with current techniques. Moreover, our experimental results demonstrate that our method is significantly faster with less memory usage, while retaining comparable or better quality comparisons.
翻訳日:2021-05-27 13:11:03 公開日:2021-05-25
# (参考訳) エデルマンの意識的アーティファクトへの歩み

Edelman's Steps Toward a Conscious Artifact ( http://arxiv.org/abs/2105.10461v2 )

ライセンス: CC BY 4.0
Jeffrey L. Krichmar(参考訳) 2006年、カリフォルニア州ラ・ジョラ(la jolla)の神経科学研究所(neuralsciences institute, nsi)で、ジェラルド・エデルマン(gerald edelman)は、意識的な人工物の作成に向けたロードマップを説明した。 私の知る限り、このロードマップは公開されていません。 しかし、それは、その会議以来何年もの間、私の考えと他の多くの人々の考えを形作りました。 このショートペーパーは、ミーティング中に受け取ったメモに基づいており、このロードマップの重要なステップを説明しています。 15年以上前と同じように、今日は画期的だと思います。

In 2006, during a meeting of a working group of scientists in La Jolla, California at The Neurosciences Institute (NSI), Gerald Edelman described a roadmap towards the creation of a Conscious Artifact. As far as I know, this roadmap was not published. However, it did shape my thinking and that of many others in the years since that meeting. This short paper, which is based on my notes taken during the meeting, describes the key steps in this roadmap. I believe it is as groundbreaking today as it was more than 15 years ago.
翻訳日:2021-05-27 10:43:46 公開日:2021-05-25
# (参考訳) 畳み込みニューラルネットワークを用いた心疾患予測のための新しいディープラーニングアーキテクチャ

Novel Deep Learning Architecture for Heart Disease Prediction using Convolutional Neural Network ( http://arxiv.org/abs/2105.10816v2 )

ライセンス: CC BY 4.0
Shadab Hussain, Susmith Barigidad, Shadab Akhtar, Md Suaib(参考訳) 医療は人間の生活において最も重要な側面の1つです。 心臓病は、世界中の多くの人々の生活を妨げる最も致命的な病気の1つとして知られている。 心臓病は早期に検出され、生命の喪失を防ぐことができる。 医療診断のための大規模データの利用は、心臓疾患の早期診断を自動化するための複雑な機械学習とディープラーニングベースのモデルの開発に役立った。 古典的なアプローチは、トレーニングセットで見られていない新しいデータにうまく一般化しないという点で制限されている。 これは、トレーニングとテストの精度の大きなギャップによって示されます。 本稿では、1次元畳み込みニューラルネットワークを用いて、健康な人と非健康な人の分類を行い、古典的アプローチの限界を克服する新しいディープラーニングアーキテクチャを提案する。 早期診断に役立つ患者のリスクプロファイルを評価するために、様々な臨床パラメータが使用される。 提案するネットワークのオーバーフィットを回避するために,様々な手法が用いられている。 提案するネットワークは、データセット上で97%以上のトレーニング精度と96%のテスト精度を達成する。 このモデルの精度は,提案手法の有効性を実証する様々な性能パラメータを用いて,他の分類アルゴリズムと詳細に比較した。

Healthcare is one of the most important aspects of human life. Heart disease is known to be one of the deadliest diseases which is hampering the lives of many people around the world. Heart disease must be detected early so the loss of lives can be prevented. The availability of large-scale data for medical diagnosis has helped developed complex machine learning and deep learning-based models for automated early diagnosis of heart diseases. The classical approaches have been limited in terms of not generalizing well to new data which have not been seen in the training set. This is indicated by a large gap in training and test accuracies. This paper proposes a novel deep learning architecture using a 1D convolutional neural network for classification between healthy and non-healthy persons to overcome the limitations of classical approaches. Various clinical parameters are used for assessing the risk profile in the patients which helps in early diagnosis. Various techniques are used to avoid overfitting in the proposed network. The proposed network achieves over 97% training accuracy and 96% test accuracy on the dataset. The accuracy of the model is compared in detail with other classification algorithms using various performance parameters which proves the effectiveness of the proposed architecture.
翻訳日:2021-05-27 08:11:07 公開日:2021-05-25
# (参考訳) 機械読解モデルにおける逆攻撃による統計的バイアスの解明

Using Adversarial Attacks to Reveal the Statistical Bias in Machine Reading Comprehension Models ( http://arxiv.org/abs/2105.11136v2 )

ライセンス: CC BY 4.0
Jieyu Lin, Jiajie Zou and Nai Ding(参考訳) 事前学習された言語モデルは、多くのMachine Reading Comprehension (MRC)タスクで人間レベルのパフォーマンスを達成したが、これらのモデルが本当に言語を理解しているのか、データセットの統計的バイアスを利用して質問に答えているのかは不明だ。 本稿では,mrcモデルに対する単純かつ効果的な手法を示し,モデル内の統計的バイアスを明らかにする。 提案手法を RACE データセットに適用し,各 MRC 質問に対する回答を 4 つの選択肢から選択する。 BERT、ALBERT、RoBERTaなど、事前訓練済みの言語モデルでは、これらのオプションが問題に無関係である場合でも、いくつかのオプションに対して一貫した優先順位を示す。 これらの無関係な選択肢に干渉すると、RCモデルの性能は人間レベルの性能からチャンスレベルの性能まで低下させることができる。 しかし、人間読者はこれらの無関係な選択肢の影響を受けていない。 最後に,モデルの統計的バイアスを大幅に低減できる拡張トレーニング手法を提案する。

Pre-trained language models have achieved human-level performance on many Machine Reading Comprehension (MRC) tasks, but it remains unclear whether these models truly understand language or answer questions by exploiting statistical biases in datasets. Here, we demonstrate a simple yet effective method to attack MRC models and reveal the statistical biases in these models. We apply the method to the RACE dataset, for which the answer to each MRC question is selected from 4 options. It is found that several pre-trained language models, including BERT, ALBERT, and RoBERTa, show consistent preference to some options, even when these options are irrelevant to the question. When interfered by these irrelevant options, the performance of MRC models can be reduced from human-level performance to the chance-level performance. Human readers, however, are not clearly affected by these irrelevant options. Finally, we propose an augmented training method that can greatly reduce models' statistical biases.
翻訳日:2021-05-27 08:03:06 公開日:2021-05-25
# (参考訳) 入力摂動とサブセット走査を用いた皮膚科領域の分布外検出

Out-of-Distribution Detection in Dermatology using Input Perturbation and Subset Scanning ( http://arxiv.org/abs/2105.11160v2 )

ライセンス: CC BY 4.0
Hannah Kim, Girmaw Abebe Tadesse, Celia Cintas, Skyler Speakman, Kush Varshney(参考訳) 近年のディープラーニングの進歩は、皮膚疾患の自動分類の開発にブレークスルーをもたらした。 皮膚科領域におけるこれらのモデルへの関心が高まる中、入力データ分布シフトに対するロバスト性などの側面に取り組むことが重要である。 現在の皮膚疾患モデルでは、異なるハードウェアデバイスからの検査サンプルや、トレーニングサンプルからのアウト・オブ・ディストリビューション(OOD)である臨床設定や未知の疾患サンプルに対して、誤った推論が行われる可能性がある。 そこで本研究では,決定に先立って,これらのOODサンプルを簡易かつ効果的に検出する手法を提案する。 この検出は潜伏空間表現(例えば、事前訓練された皮膚疾患分類器の内部層の活性化)の走査によって行われる。 入力サンプルはまた、OODサンプルの発散を最大化するために摂動することもできる。 1)異なるプロトコルから収集したサンプルを同定し,2)未知の疾患クラスからのサンプルを検出する。 さらに,提案手法の性能評価を行い,他の最先端手法と比較する。 さらに、データ駆動皮膚科学の応用は、ほとんどのデータセットが皮膚トーン分布のバイアスを被っていると報告されているため、人種および民族間の臨床ケアの格差を深くする可能性がある。 そこで本研究では,これらのOOD検出手法の皮膚音に対する公平性についても検討した。 実験の結果、OODサンプルの検出において複数のデータセット間で競合性能が得られ、これらのサンプルを推測する前により効果的な転送学習手法を設計するために(将来的に)使用できることがわかった。

Recent advances in deep learning have led to breakthroughs in the development of automated skin disease classification. As we observe an increasing interest in these models in the dermatology space, it is crucial to address aspects such as the robustness towards input data distribution shifts. Current skin disease models could make incorrect inferences for test samples from different hardware devices and clinical settings or unknown disease samples, which are out-of-distribution (OOD) from the training samples. To this end, we propose a simple yet effective approach that detect these OOD samples prior to making any decision. The detection is performed via scanning in the latent space representation (e.g., activations of the inner layers of any pre-trained skin disease classifier). The input samples could also perturbed to maximise divergence of OOD samples. We validate our ODD detection approach in two use cases: 1) identify samples collected from different protocols, and 2) detect samples from unknown disease classes. Additionally, we evaluate the performance of the proposed approach and compare it with other state-of-the-art methods. Furthermore, data-driven dermatology applications may deepen the disparity in clinical care across racial and ethnic groups since most datasets are reported to suffer from bias in skin tone distribution. Therefore, we also evaluate the fairness of these OOD detection methods across different skin tones. Our experiments resulted in competitive performance across multiple datasets in detecting OOD samples, which could be used (in the future) to design more effective transfer learning techniques prior to inferring on these samples.
翻訳日:2021-05-27 07:48:57 公開日:2021-05-25
# (参考訳) SRH-Net: ステレオマッチングのためのスタック型再帰時間ガラスネットワーク

SRH-Net: Stacked Recurrent Hourglass Network for Stereo Matching ( http://arxiv.org/abs/2105.11587v1 )

ライセンス: CC BY 4.0
Hongzhi Du, Yanyan Li, Yanbiao Sun, Jigui Zhu and Federico Tombari(参考訳) コスト集約戦略は、学習ベースのステレオマッチングタスクにおいて重要な役割を担っている。そこでは、3D畳み込みフィルタが技術の状態を取得するが、集中的な計算資源を必要とする。 本稿では, 3次元畳み込みフィルタが使用する4次元立方体体積を, 繰り返しコスト集約戦略を利用して, 同時に扱うのではなく, 相違方向に沿って逐次コストマップに分解する。 さらに,各コストマップを処理するために,新しい再帰モジュール stacked recurrent hourglass (srh) を提案する。 我々の時間ガラスネットワークは、GRU(Gated Recurrent Units)とダウン/アップサンプリング層に基づいて構築されている。 次に、2つの時間ガラスネットワークを積層し、マルチスケール情報をスキップ接続により処理し、無テクスチャ領域におけるパイプラインの性能を向上させる。 提案アーキテクチャは、エンドツーエンドパイプラインで実装され、パブリックデータセット上で評価され、精度の低下を伴わずにスタックされた砂時計3d cnnを使用したpsmnetと比較して、gpuメモリ消費量が最大56.1\%削減される。 さらに,複数の高分解能ペアに対して提案手法のスケーラビリティを実証する一方,以前に学習した手法はメモリ制約のために失敗することが多い。 コードは \url{https://github.com/hongzhidu/srhnet} でリリースされる。

The cost aggregation strategy shows a crucial role in learning-based stereo matching tasks, where 3D convolutional filters obtain state of the art but require intensive computation resources, while 2D operations need less GPU memory but are sensitive to domain shift. In this paper, we decouple the 4D cubic cost volume used by 3D convolutional filters into sequential cost maps along the direction of disparity instead of dealing with it at once by exploiting a recurrent cost aggregation strategy. Furthermore, a novel recurrent module, Stacked Recurrent Hourglass (SRH), is proposed to process each cost map. Our hourglass network is constructed based on Gated Recurrent Units (GRUs) and down/upsampling layers, which provides GRUs larger receptive fields. Then two hourglass networks are stacked together, while multi-scale information is processed by skip connections to enhance the performance of the pipeline in textureless areas. The proposed architecture is implemented in an end-to-end pipeline and evaluated on public datasets, which reduces GPU memory consumption by up to 56.1\% compared with PSMNet using stacked hourglass 3D CNNs without the degradation of accuracy. Then, we further demonstrate the scalability of the proposed method on several high-resolution pairs, while previously learned approaches often fail due to the memory constraint. The code is released at \url{https://github.com/hongzhidu/SRHNet}.
翻訳日:2021-05-27 05:38:13 公開日:2021-05-25
# (参考訳) 量子プロセッサ上に実装された量子ホップフィールド連想メモリ

A Quantum Hopfield Associative Memory Implemented on an Actual Quantum Processor ( http://arxiv.org/abs/2105.11590v1 )

ライセンス: CC BY 4.0
Nathan Eli Miller and Saibal Mukhopadhyay(参考訳) 本稿では、量子ホップフィールド連想メモリ(QHAM)について紹介し、IBM Quantum Experienceを用いたシミュレーションおよびハードウェアにおけるその機能を示す。 QHAMは、多くの異なる機械学習アプリケーションに利用でき、中間回路計測やリセット操作を必要とせずに実際の量子ハードウェア上で実装できる量子ニューロン設計に基づいている。 ハードウェアノイズモデルによるシミュレーションと、15量子ibmq_16_melbourneデバイスの実装により、ハードウェアエラーを考慮したニューロンと完全QHAMの精度を解析する。 量子ニューロンとQHAMはノイズに耐性があり、低量子ビットと時間オーバーヘッドを必要とする。 我々は、QHAMを量子ビットおよび回路レベルのエラーに対して有効メモリ容量をテストすることでベンチマークし、量子ハードウェアのNISQ時代におけるその能力を実証する。 NISQ時代の量子ハードウェアで実装された最初の機能的QHAMのデモは、量子コンピューティングの最先端における機械学習の重要なステップである。

In this work, we present a Quantum Hopfield Associative Memory (QHAM) and demonstrate its capabilities in simulation and hardware using IBM Quantum Experience. The QHAM is based on a quantum neuron design which can be utilized for many different machine learning applications and can be implemented on real quantum hardware without requiring mid-circuit measurement or reset operations. We analyze the accuracy of the neuron and the full QHAM considering hardware errors via simulation with hardware noise models as well as with implementation on the 15-qubit ibmq_16_melbourne device. The quantum neuron and the QHAM are shown to be resilient to noise and require low qubit and time overhead. We benchmark the QHAM by testing its effective memory capacity against qubit- and circuit-level errors and demonstrate its capabilities in the NISQ-era of quantum hardware. This demonstration of the first functional QHAM to be implemented in NISQ-era quantum hardware is a significant step in machine learning at the leading edge of quantum computing.
翻訳日:2021-05-27 05:17:50 公開日:2021-05-25
# (参考訳) 説明可能な推薦のためのパーソナライズドトランスフォーマー

Personalized Transformer for Explainable Recommendation ( http://arxiv.org/abs/2105.11601v1 )

ライセンス: CC BY 4.0
Lei Li, Yongfeng Zhang, Li Chen(参考訳) 自然言語生成のパーソナライゼーションは、説明可能なレコメンデーション、要約のレビュー、ダイアログシステムなど、幅広いタスクにおいて重要な役割を果たす。 これらのタスクでは、ユーザIDとアイテムIDはパーソナライズのための重要な識別子である。 しかし、強力な言語モデリング機能を備えたTransformerはパーソナライズされておらず、IDトークンが単語と同じ意味空間にないため、ユーザIDとアイテムIDを使用することができない。 この問題に対処するため,PETER (PErsonalized Transformer for Explainable Recommendation) を提案する。提案するPETERは,ターゲット説明中の単語を予測し,そのIDに言語的意味を持たせ,パーソナライズされたトランスフォーマを実現するための,シンプルで効果的な学習目標を設計する。 説明の生成に加えて、PETERはレコメンデーションを作成できるため、レコメンデーション-説明パイプライン全体の統一モデルになる。 大規模な実験により、我々の小さな未学習モデルは、効率と効率の両方の観点から、生成タスクにおいて細調整されたBERTよりも優れており、設計の重要性と有用性を強調している。

Personalization of natural language generation plays a vital role in a large spectrum of tasks, such as explainable recommendation, review summarization and dialog systems. In these tasks, user and item IDs are important identifiers for personalization. Transformer, which is demonstrated with strong language modeling capability, however, is not personalized and fails to make use of the user and item IDs since the ID tokens are not even in the same semantic space as the words. To address this problem, we present a PErsonalized Transformer for Explainable Recommendation (PETER), on which we design a simple and effective learning objective that utilizes the IDs to predict the words in the target explanation, so as to endow the IDs with linguistic meanings and to achieve personalized Transformer. Besides generating explanations, PETER can also make recommendations, which makes it a unified model for the whole recommendation-explanation pipeline. Extensive experiments show that our small unpretrained model outperforms fine-tuned BERT on the generation task, in terms of both effectiveness and efficiency, which highlights the importance and the nice utility of our design.
翻訳日:2021-05-27 05:15:09 公開日:2021-05-25
# (参考訳) IGO-QNN: Inductive Grover Oracularizationのための量子ニューラルネットワークアーキテクチャ

IGO-QNN: Quantum Neural Network Architecture for Inductive Grover Oracularization ( http://arxiv.org/abs/2105.11603v1 )

ライセンス: CC BY 4.0
Areeq I. Hasan(参考訳) 本稿では,Groverのアルゴリズムを機械学習フレームワークに統合する新たなパラダイムとして,インダクティブGrover Oracular quantum Neural Network (IGO-QNN)を提案する。 このモデルは、パラメータ化された量子ニューロンの隠れた層をエンタングルシナプスを介して密結合し、データベースヒットのトレーニング例からトレーニング可能な動的グローバー探索オラクルを符号化する変分量子回路を定義する。 これにより、Groverの非構造化探索アルゴリズムの幅広い問題適用範囲を拡大し、解検証器の分析記述に欠ける問題の大部分を含むようにし、不構造化探索における2次的なスピードアップを可能にした。 グローバーのoracularizationのこの一般化は、深層強化学習、コンピュータビジョン、より一般的には、既存のモデルの上部にある特徴ベクトル分類器として特に有効であるかもしれない。

We propose a novel paradigm of integration of Grover's algorithm in a machine learning framework: the inductive Grover oracular quantum neural network (IGO-QNN). The model defines a variational quantum circuit with hidden layers of parameterized quantum neurons densely connected via entangle synapses to encode a dynamic Grover's search oracle that can be trained from a set of database-hit training examples. This widens the range of problem applications of Grover's unstructured search algorithm to include the vast majority of problems lacking analytic descriptions of solution verifiers, allowing for quadratic speed-up in unstructured search for the set of search problems with relationships between input and output spaces that are tractably underivable deductively. This generalization of Grover's oracularization may prove particularly effective in deep reinforcement learning, computer vision, and, more generally, as a feature vector classifier at the top of an existing model.
翻訳日:2021-05-27 04:53:13 公開日:2021-05-25
# (参考訳) 点をつなぐ:spatio-temporal cnnによるco$_2$ストレージのその場4次元地震モニタリング

Connect the Dots: In Situ 4D Seismic Monitoring of CO$_2$ Storage with Spatio-temporal CNNs ( http://arxiv.org/abs/2105.11622v1 )

ライセンス: CC BY 4.0
Shihang Feng, Xitong Zhang, Brendt Wohlberg, Neill Symons and Youzuo Lin(参考訳) 4次元地震イメージングはCO$2$シークエンス計画において、井戸で採取されていない体積地下領域の流動をモニタリングするために広く利用されている。 理想的には、リアルタイムモニタリングと近い将来の予測は、地下貯水池のダイナミクスを理解し、潜在的なリスクを評価するための優れた洞察を提供するだろう。 しかし, 高い展開コスト, 取得装置の可用性, 表面構造を取り巻く排他領域などの障害のため, モニタリング中は, ごくわずかの地震画像データしか得られない。 これにより、時間とともに避けられない、そして成長を続ける知識のギャップが生まれる。 オペレータはプロジェクト期間中の流体の流れを理解する必要があり、地震データは限られた回数でのみ利用可能であり、貯水池の挙動を理解するには不十分である。 これらの課題を克服するために,高忠実度補間あるいは外挿画像の効率よく生成できる時空間ニューラルネットワークモデルを開発した。 特に,本モデルはオートエンコーダ上に構築され,光フローによる新たな損失関数を組み込んだlong short-term memory (lstm) 構造が組み込まれている。 Sleipner CO$_2$Sequestrationフィールドで得られた実際の4Dポストスタック地震画像データを用いて,本モデルの性能を検証した。 モデル評価には2つの戦略を採用しています。 数値解析では,従来のピクセルベースメトリクスを用いて,モデルと異なるベースラインアプローチを比較した。 また、盲目的調査を行い、ドメインの専門家から合計20の回答を収集し、モデルが生成するデータの品質を評価します。 数値的および専門的な評価から,我々のモデルでは,高画質な2次元・3次元地震画像データを妥当なコストで作成することができ,リアルタイムモニタリングやCO$2$貯水池の近未来予測を行うことが可能である。

4D seismic imaging has been widely used in CO$_2$ sequestration projects to monitor the fluid flow in the volumetric subsurface region that is not sampled by wells. Ideally, real-time monitoring and near-future forecasting would provide site operators with great insights to understand the dynamics of the subsurface reservoir and assess any potential risks. However, due to obstacles such as high deployment cost, availability of acquisition equipment, exclusion zones around surface structures, only very sparse seismic imaging data can be obtained during monitoring. That leads to an unavoidable and growing knowledge gap over time. The operator needs to understand the fluid flow throughout the project lifetime and the seismic data are only available at a limited number of times, this is insufficient for understanding the reservoir behavior. To overcome those challenges, we have developed spatio-temporal neural-network-based models that can produce high-fidelity interpolated or extrapolated images effectively and efficiently. Specifically, our models are built on an autoencoder, and incorporate the long short-term memory (LSTM) structure with a new loss function regularized by optical flow. We validate the performance of our models using real 4D post-stack seismic imaging data acquired at the Sleipner CO$_2$ sequestration field. We employ two different strategies in evaluating our models. Numerically, we compare our models with different baseline approaches using classic pixel-based metrics. We also conduct a blind survey and collect a total of 20 responses from domain experts to evaluate the quality of data generated by our models. Via both numerical and expert evaluation, we conclude that our models can produce high-quality 2D/3D seismic imaging data at a reasonable cost, offering the possibility of real-time monitoring or even near-future forecasting of the CO$_2$ storage reservoir.
翻訳日:2021-05-27 04:39:09 公開日:2021-05-25
# (参考訳) L1-Normに関連する新しいカーネルを用いたロバスト成分分析

Robust Principal Component Analysis Using a Novel Kernel Related with the L1-Norm ( http://arxiv.org/abs/2105.11634v1 )

ライセンス: CC BY 4.0
Hongyi Pan, Diaa Badawi, Erdem Koyuncu, A. Enis Cetin(参考訳) 我々は,手形変更や加算操作のみを用いて実装できるベクトルドット製品群について考察する。 ドット積は乗算操作を完全に避けるためエネルギー効率が良い。 さらに、ドット積は$\ell_1$-normを誘導し、インパルスノイズに対する堅牢性を提供する。 まず、各ドット積が対称な半定値な一般化共分散行列を生成することを解析的に証明し、主成分分析(PCA)を可能にする。 さらに、一般化された共分散行列は、基礎となるベクトル積の乗算自由性のためにエネルギー効率(EEF)的に構築することができる。 本稿では,EEF PCA法が通常の$\ell_2$-PCAと再帰的な$\ell_1$-PCAと比較してピーク信号対雑音比を最大化する画像再構成例を示す。

We consider a family of vector dot products that can be implemented using sign changes and addition operations only. The dot products are energy-efficient as they avoid the multiplication operation entirely. Moreover, the dot products induce the $\ell_1$-norm, thus providing robustness to impulsive noise. First, we analytically prove that the dot products yield symmetric, positive semi-definite generalized covariance matrices, thus enabling principal component analysis (PCA). Moreover, the generalized covariance matrices can be constructed in an Energy Efficient (EEF) manner due to the multiplication-free property of the underlying vector products. We present image reconstruction examples in which our EEF PCA method result in the highest peak signal-to-noise ratios compared to the ordinary $\ell_2$-PCA and the recursive $\ell_1$-PCA.
翻訳日:2021-05-27 04:08:21 公開日:2021-05-25
# (参考訳) FILTRA:フィルタ変換によるステアブルCNNの再検討

FILTRA: Rethinking Steerable CNN by Filter Transform ( http://arxiv.org/abs/2105.11636v1 )

ライセンス: CC BY 4.0
Bo Li, Qili Wang, Gim Hee Lee(参考訳) ステアブルcnnは、データの幾何変換におけるネットワークロバスト性を高め、過剰フィッティングを減らすために、ネットワークアーキテクチャにおける変換不変性や等分散の事前知識を課す。 この手法は,過去数十年間,フィルタに変換されたコピーを付加してステアブルフィルタを構築するための直感的かつ広く用いられている手法であり,フィルタ変換と呼ばれる。 近年, 操舵可能なカーネル関数の関数空間構造を明らかにするグループ表現論の側面から, 操舵可能なCNNの問題が研究されている。 しかし、この理論がフィルタ変換技術とどのように関係しているかは、まだ明らかではない。 本稿では,フィルタ変換によって構成されるカーネルが群表現理論でも解釈可能であることを示す。 この解釈は、ステアブルCNN理論のパズルを完成させ、ステアブル畳み込み演算子を実装するための新しく簡単なアプローチを提供する。 複数のデータセット上で実験を行い、提案手法の有効性を検証する。

Steerable CNN imposes the prior knowledge of transformation invariance or equivariance in the network architecture to enhance the the network robustness on geometry transformation of data and reduce overfitting. It has been an intuitive and widely used technique to construct a steerable filter by augmenting a filter with its transformed copies in the past decades, which is named as filter transform in this paper. Recently, the problem of steerable CNN has been studied from aspect of group representation theory, which reveals the function space structure of a steerable kernel function. However, it is not yet clear on how this theory is related to the filter transform technique. In this paper, we show that kernel constructed by filter transform can also be interpreted in the group representation theory. This interpretation help complete the puzzle of steerable CNN theory and provides a novel and simple approach to implement steerable convolution operators. Experiments are executed on multiple datasets to verify the feasibility of the proposed approach.
翻訳日:2021-05-27 03:55:03 公開日:2021-05-25
# (参考訳) スパースライダー点雲からの地表面検出の促進について

On Enhancing Ground Surface Detection from Sparse Lidar Point Cloud ( http://arxiv.org/abs/2105.11649v1 )

ライセンス: CC BY 4.0
Bo Li(参考訳) 点雲における地表面検出は、自律運転システムのキーモジュールとして広く利用されている。 従来のアプローチとは異なり、主に高ビーム解像度のライダー向けに開発された。 Velodyne HDL-64では,低ビーム分解能ライダーによって捕捉された多くのスペーサー点雲に適用可能な地中検出手法を提案する。 VLP-16。 この手法はRANSACの平面フィッティング方式に基づいている。 平面仮説に対する不規則な検証は、ライダービームの密度に関係なく計算できる局所的な特徴である点接を利用して強化される。 平面的でない地表面は、複数の(具体例では4)非接合面領域に収まる。 これらの平面領域を直方体と仮定し, 積分像法を応用することにより, 実時間計算複雑性を持つransacスキームの下での最適領域分割と平面仮説を近似的に求める。

Ground surface detection in point cloud is widely used as a key module in autonomous driving systems. Different from previous approaches which are mostly developed for lidars with high beam resolution, e.g. Velodyne HDL-64, this paper proposes ground detection techniques applicable to much sparser point cloud captured by lidars with low beam resolution, e.g. Velodyne VLP-16. The approach is based on the RANSAC scheme of plane fitting. Inlier verification for plane hypotheses is enhanced by exploiting the point-wise tangent, which is a local feature available to compute regardless of the density of lidar beams. Ground surface which is not perfectly planar is fitted by multiple (specifically 4 in our implementation) disjoint plane regions. By assuming these plane regions to be rectanglar and exploiting the integral image technique, our approach approximately finds the optimal region partition and plane hypotheses under the RANSAC scheme with real-time computational complexity.
翻訳日:2021-05-27 03:50:20 公開日:2021-05-25
# (参考訳) 双方向アライメントネットワークによる高速かつ正確なシーン解析

Fast and Accurate Scene Parsing via Bi-direction Alignment Networks ( http://arxiv.org/abs/2105.11651v1 )

ライセンス: CC BY 4.0
Yanran Wu, Xiangtai Li, Chen Shi, Yunhai Tong, Yang Hua, Tao Song, Ruhui Ma, Haibing Guan(参考訳) 本論文では,双方向アライメントネットワーク(bialignnet)と呼ばれる,高速かつ高精度なシーン解析手法を提案する。 以前は、bisenet~\cite{bisenet}が2つの異なる経路(コンテキストパスと空間パス)を使用して、それぞれ意味と詳細のバランスのとれた学習を実現していた。 しかし、この2つの経路の関係はよく調べられていない。 両方のパスが相補的な方法で相互に利益をもたらすと我々は主張する。 そこで我々は,学習フロー場を通じて2経路情報を相互にアライメントすることで,新たなネットワークを提案する。 ノイズやセマンティクスのギャップを避けるために,両特徴を双方向にアライメントするゲート型フローアライメントモジュールを導入する。 さらに,空間経路がより詳細な情報を知るために,エッジガイド付きハードピクセルマイニング損失を提示し,アライメント学習プロセスを監督する。 本手法は,30FPSでフル解像度入力を行いながら,都市景観の検証とテストにおいて 80.1\% と 78.5\% mIoU を達成する。 コードとモデルは \url{https://github.com/jojacola/BiAlignNet} で入手できる。

In this paper, we propose an effective method for fast and accurate scene parsing called Bidirectional Alignment Network (BiAlignNet). Previously, one representative work BiSeNet~\cite{bisenet} uses two different paths (Context Path and Spatial Path) to achieve balanced learning of semantics and details, respectively. However, the relationship between the two paths is not well explored. We argue that both paths can benefit each other in a complementary way. Motivated by this, we propose a novel network by aligning two-path information into each other through a learned flow field. To avoid the noise and semantic gaps, we introduce a Gated Flow Alignment Module to align both features in a bidirectional way. Moreover, to make the Spatial Path learn more detailed information, we present an edge-guided hard pixel mining loss to supervise the aligned learning process. Our method achieves 80.1\% and 78.5\% mIoU in validation and test set of Cityscapes while running at 30 FPS with full resolution inputs. Code and models will be available at \url{https://github.com/jojacola/BiAlignNet}.
翻訳日:2021-05-27 03:37:45 公開日:2021-05-25
# (参考訳) 微粒化セマンティックセグメンテーションのための動的デュアルサンプリングモジュール

Dynamic Dual Sampling Module for Fine-Grained Semantic Segmentation ( http://arxiv.org/abs/2105.11657v1 )

ライセンス: CC BY 4.0
Chen Shi, Xiangtai Li, Yanran Wu, Yunhai Tong, Yi Xu(参考訳) セマンティックセグメンテーションモデルを構築する上では、セマンティックコンテキストとローカル詳細の表現が不可欠である。 しかし、意味的文脈と局所的詳細との相互関係は、以前の作品ではよく研究されていない。 本稿では,動的親和性モデリングを行い,意味的コンテキストを局所的な詳細に伝達する動的デュアルサンプリングモジュール(DDSM)を提案する。 具体的には、動的サンプリング戦略を用いて、上位層の代表画素とチャネルを疎にサンプリングし、下位層の各画素とチャネルに対して適応コンパクトな支持を形成する。 高いセマンティクスを持つサンプル特徴は親和性に応じて集約され、その後、詳細な下層特徴に伝播し、保存された境界を持つきめ細かいセグメンテーション結果をもたらす。 CityscapesとCamvidのデータセットによる実験結果は,提案手法の有効性と有効性を検証する。 コードとモデルは \url{x3https://github.com/Fantasticarl/DDSM} で入手できる。

Representation of semantic context and local details is the essential issue for building modern semantic segmentation models. However, the interrelationship between semantic context and local details is not well explored in previous works. In this paper, we propose a Dynamic Dual Sampling Module (DDSM) to conduct dynamic affinity modeling and propagate semantic context to local details, which yields a more discriminative representation. Specifically, a dynamic sampling strategy is used to sparsely sample representative pixels and channels in the higher layer, forming adaptive compact support for each pixel and channel in the lower layer. The sampled features with high semantics are aggregated according to the affinities and then propagated to detailed lower-layer features, leading to a fine-grained segmentation result with well-preserved boundaries. Experiment results on both Cityscapes and Camvid datasets validate the effectiveness and efficiency of the proposed approach. Code and models will be available at \url{x3https://github.com/Fantasticarl/DDSM}.
翻訳日:2021-05-27 03:25:38 公開日:2021-05-25
# (参考訳) boundarysqueeze: 境界スクイージングとしてのイメージセグメンテーション

BoundarySqueeze: Image Segmentation as Boundary Squeezing ( http://arxiv.org/abs/2105.11668v1 )

ライセンス: CC BY 4.0
Hao He, Xiangtai Li, Kuiyuan Yang, Guangliang Cheng, Jianping Shi, Yunhai Tong, Zhengjun Zha, Lubin Weng(参考訳) 本稿では,オブジェクトとシーンの精細な高品質画像分割手法を提案する。 形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。 この観点からは,内面と外面の両方からオブジェクト境界を絞り込み,精密なマスク表現につながる新規かつ効率的なモジュールである \textbf{boundary squeeze} モジュールを提案する。 そこで,このようなスクイーズド表現を生成するために,新しい双方向流れに基づくワーピングプロセスと,学習プロセスを監督する特定の損失信号の設計を提案する。 境界圧縮モジュールは、既存のモデルの上に構築することで、プラグイン・アンド・プレイモジュールとしてインスタンスおよびセマンティックセグメンテーションタスクの両方に容易に適用できる。 我々のシンプルで効果的な設計は、いくつかの異なるデータセットで高い質的結果をもたらすことを示し、また、以前の作業よりも有効性を証明するために境界に関するいくつかの異なる指標を提供する。 さらに,提案モジュールは軽量化されており,実用性が期待できる。 提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。 コードとモデルは利用可能だ。

We propose a novel method for fine-grained high-quality image segmentation of both objects and scenes. Inspired by dilation and erosion from morphological image processing techniques, we treat the pixel level segmentation problems as squeezing object boundary. From this perspective, we propose \textbf{Boundary Squeeze} module: a novel and efficient module that squeezes the object boundary from both inner and outer directions which leads to precise mask representation. To generate such squeezed representation, we propose a new bidirectionally flow-based warping process and design specific loss signals to supervise the learning process. Boundary Squeeze Module can be easily applied to both instance and semantic segmentation tasks as a plug-and-play module by building on top of existing models. We show that our simple yet effective design can lead to high qualitative results on several different datasets and we also provide several different metrics on boundary to prove the effectiveness over previous work. Moreover, the proposed module is light-weighted and thus has potential for practical usage. Our method yields large gains on COCO, Cityscapes, for both instance and semantic segmentation and outperforms previous state-of-the-art PointRend in both accuracy and speed under the same setting. Code and model will be available.
翻訳日:2021-05-27 03:12:00 公開日:2021-05-25
# (参考訳) 部分観測型強化学習のための不偏非対称アクター臨界

Unbiased Asymmetric Actor-Critic for Partially Observable Reinforcement Learning ( http://arxiv.org/abs/2105.11674v1 )

ライセンス: CC BY 4.0
Andrea Baisero and Christopher Amato(参考訳) 部分的に観察可能な強化学習では、オフライントレーニングは、システム状態などのオンライントレーニングや実行中に利用できない潜在情報へのアクセスを提供する。 非対称アクター批判法は、州ベースの批評家を通じて歴史に基づく政策を訓練することでそのような情報を利用する。 しかし、多くの非対称法は理論的基礎がなく、限られた領域でのみ評価される。 状態に基づく批判を用いた非対称的アクタ批判法の理論を検証し、共通型の有効性を損なう根本的な問題や、高い部分的可観測性に対処する能力を公開する。 本研究では, 理論的に健全なまま状態情報を活用でき, 方針勾配定理の妥当性を保ちながら, 学習過程にバイアスや相対的ばらつきをもたらさない非バイアス非対称アクタ-クリティック変種を提案する。 有意な部分的可観測性を示す領域で実施された経験的評価は、我々の分析を裏付けるものであり、不偏非対称的アクター批判は、対称的アクター批判および標準非対称的アクター批判ベースラインよりも優れたポリシーおよび/または高速に収束することを示す。

In partially observable reinforcement learning, offline training gives access to latent information which is not available during online training and/or execution, such as the system state. Asymmetric actor-critic methods exploit such information by training a history-based policy via a state-based critic. However, many asymmetric methods lack theoretical foundation, and are only evaluated on limited domains. We examine the theory of asymmetric actor-critic methods which use state-based critics, and expose fundamental issues which undermine the validity of a common variant, and its ability to address high partial observability. We propose an unbiased asymmetric actor-critic variant which is able to exploit state information while remaining theoretically sound, maintaining the validity of the policy gradient theorem, and introducing no bias and relatively low variance into the training process. An empirical evaluation performed on domains which exhibit significant partial observability confirms our analysis, and shows the unbiased asymmetric actor-critic converges to better policies and/or faster than symmetric actor-critic and standard asymmetric actor-critic baselines.
翻訳日:2021-05-27 02:48:05 公開日:2021-05-25
# (参考訳) コントラスト自己蒸留による超解像のコンパクト化に向けて

Towards Compact Single Image Super-Resolution via Contrastive Self-distillation ( http://arxiv.org/abs/2105.11683v1 )

ライセンス: CC BY 4.0
Yanbo Wang, Shaohui Lin, Yanyun Qu, Haiyan Wu, Zhizhong Zhang, Yuan Xie, Angela Yao(参考訳) 畳み込みニューラルネットワーク(CNN)は超高解像度(SR)では高い成功を収めるが、しばしばメモリコストと計算オーバーヘッドの重い高度なアーキテクチャを必要とする。 本稿では,srモデルの圧縮と加速を同時に行うためのコントラスト型自己蒸留(csd)フレームワークを提案する。 特に、チャネル分割型超解像ネットワークは、まずターゲットの教師ネットワークからコンパクトな学生ネットワークとして構築することができる。 そこで我々は,SR画像とPSNR/SSIMの品質向上のために,明示的な知識伝達による新たなコントラスト損失を提案する。 大規模な実験により、提案方式はEDSR、RCAN、CARNなどの標準SRモデルを効果的に圧縮・加速することを示した。 コードはhttps://github.com/Booooooooooo/CSDで入手できる。

Convolutional neural networks (CNNs) are highly successful for super-resolution (SR) but often require sophisticated architectures with heavy memory cost and computational overhead, significantly restricts their practical deployments on resource-limited devices. In this paper, we proposed a novel contrastive self-distillation (CSD) framework to simultaneously compress and accelerate various off-the-shelf SR models. In particular, a channel-splitting super-resolution network can first be constructed from a target teacher network as a compact student network. Then, we propose a novel contrastive loss to improve the quality of SR images and PSNR/SSIM via explicit knowledge transfer. Extensive experiments demonstrate that the proposed CSD scheme effectively compresses and accelerates several standard SR models such as EDSR, RCAN and CARN. Code is available at https://github.com/Booooooooooo/CSD.
翻訳日:2021-05-27 02:10:02 公開日:2021-05-25
# (参考訳) 感情認識対話生成のための生成と分類のマルチタスク学習

Multi-Task Learning of Generation and Classification for Emotion-Aware Dialogue Response Generation ( http://arxiv.org/abs/2105.11696v1 )

ライセンス: CC BY 4.0
Tatsuya Ide and Daisuke Kawahara(参考訳) コンピュータが人間と自然に相互作用するためには、人間らしくなければならない。 本稿では,感情に着目した,生成と分類のマルチタスク学習を用いたニューラルレスポンス生成モデルを提案する。 BART(Lewis et al., 2020)をモデルとして, 学習前のトランスフォーマーエンコーダ・デコーダモデルを構築し, 応答の生成と感情の認識を同時に行う。 さらに,タスクの損失を重み付けてパラメータの更新を制御する。 自動評価とクラウドソースによる手動評価は,提案モデルが生成した応答をより感情的に認識することを示す。

For a computer to naturally interact with a human, it needs to be human-like. In this paper, we propose a neural response generation model with multi-task learning of generation and classification, focusing on emotion. Our model based on BART (Lewis et al., 2020), a pre-trained transformer encoder-decoder model, is trained to generate responses and recognize emotions simultaneously. Furthermore, we weight the losses for the tasks to control the update of parameters. Automatic evaluations and crowdsourced manual evaluations show that the proposed model makes generated responses more emotionally aware.
翻訳日:2021-05-27 01:51:48 公開日:2021-05-25
# (参考訳) LENs: Logic Explained Networks用のPythonライブラリ

LENs: a Python library for Logic Explained Networks ( http://arxiv.org/abs/2105.11697v1 )

ライセンス: CC BY 4.0
Pietro Barbiero, Gabriele Ciravegna, Dobrik Georgiev, Franscesco Giannini(参考訳) LENsは、ニューラルネットワークからロジック説明を提供するために、さまざまな最先端のアプローチを統合するPythonモジュールである。 このパッケージは、これらのメソッドを非専門家に提供することに焦点を当てている。 最小限の依存関係を持ち、アカデミックと商用の両方で使用可能なapache 2.0ライセンス下で配布されている。 ソースコードとドキュメントはgithubリポジトリからダウンロードできる。 https://github.com/pietrobarbiero/logic_explainer_networks。

LENs is a Python module integrating a variety of state-of-the-art approaches to provide logic explanations from neural networks. This package focuses on bringing these methods to non-specialists. It has minimal dependencies and it is distributed under the Apache 2.0 licence allowing both academic and commercial use. Source code and documentation can be downloaded from the github repository: https://github.com/pietrobarbiero/logic_explainer_networks.
翻訳日:2021-05-27 01:41:41 公開日:2021-05-25
# (参考訳) 宗光盤における転校学習とカリキュラム学習

Transfer Learning and Curriculum Learning in Sokoban ( http://arxiv.org/abs/2105.11702v1 )

ライセンス: CC BY 4.0
Zhao Yang, Mike Preuss, Aske Plaat(参考訳) 転送学習は機械学習のトレーニングを高速化し、分類タスクで定期的に使用される。 他のタスクからの事前知識を、新しいタスクのための事前トレーニングネットワークに再利用する。 強化学習では、新しい環境に適用可能な行動ポリシーの学習行動は依然として課題であり、特に多くの計画に関わるタスクでは難しい。 ソコバンは難解なパズルゲームです。 計画に基づく強化学習のベンチマークとして広く使われている。 本稿では,事前知識が学習をいかに改善するかを示す。 以前に学習した特徴表現の再利用は、新しいより複雑なインスタンスの学習を加速できる。 実際に,簡単なタスクから複雑なタスクまで,カリキュラム学習がソコバンでどのように機能するかを示す。 さらに、より単純なインスタンスで学習した特徴表現はより一般的であり、より複雑なタスクへ正の移動をもたらすが、その逆は起こらない。 我々はまた、知識のどの部分が成功への転向に最も重要であるかを研究し、どの層を事前学習に使用するべきかを特定した。

Transfer learning can speed up training in machine learning and is regularly used in classification tasks. It reuses prior knowledge from other tasks to pre-train networks for new tasks. In reinforcement learning, learning actions for a behavior policy that can be applied to new environments is still a challenge, especially for tasks that involve much planning. Sokoban is a challenging puzzle game. It has been used widely as a benchmark in planning-based reinforcement learning. In this paper, we show how prior knowledge improves learning in Sokoban tasks. We find that reusing feature representations learned previously can accelerate learning new, more complex, instances. In effect, we show how curriculum learning, from simple to complex tasks, works in Sokoban. Furthermore, feature representations learned in simpler instances are more general, and thus lead to positive transfers towards more complex tasks, but not vice versa. We have also studied which part of the knowledge is most important for transfer to succeed, and identify which layers should be used for pre-training.
翻訳日:2021-05-27 01:32:25 公開日:2021-05-25
# (参考訳) SBEVNet:Deep-to-End Stereo Layoutの推定

SBEVNet: End-to-End Deep Stereo Layout Estimation ( http://arxiv.org/abs/2105.11705v1 )

ライセンス: CC BY 4.0
Divam Gupta, Wei Pu, Trenton Tabor, Jeff Schneider(参考訳) 正確なレイアウト推定は、自動運転などのロボットアプリケーションにおける計画とナビゲーションに不可欠である。 本稿では,一対のステレオ画像から鳥の目視レイアウトを推定するための新しい教師付きエンドツーエンドフレームワークであるステレオバードズアイビューネットワーク(sbevnet)について紹介する。 我々のネットワークは,最先端のディープラーニングネットワークの構成要素のいくつかを再利用して異質な評価を行っているが,明示的な奥行き推定は十分でも必要でもないことを示す。 代わりに、良い内部バードのアイビュー特徴表現の学習はレイアウト推定に有効である。 具体的には,まずステレオ画像の特徴を用いて不均一な特徴量を生成し,鳥の視線座標に投影する。 これにより、シーン構造に関する粗い情報が得られる。 また、入力画像とその特徴を鳥の視線にマッピングするために、逆視点マッピング(IPM)を適用した。 これによりきめ細かいテクスチャ情報が得られる。 ipm機能を投影された機能ボリュームと結合することは、空間的推論に有用なリッチバードズアイビュー表現を生成する。 この表現を用いてBEVセマンティックマップを推定する。 さらに,IMM機能をステレオ特徴の監視信号として用いることで,性能の向上が期待できることを示す。 我々は、KITTIデータセットとCARLAシミュレータからの合成データセットの2つのデータセットに対するアプローチを実証した。 これら両方のデータセットに対して,ベースライン技術と比較して最先端のパフォーマンスを確立する。

Accurate layout estimation is crucial for planning and navigation in robotics applications, such as self-driving. In this paper, we introduce the Stereo Bird's Eye ViewNetwork (SBEVNet), a novel supervised end-to-end framework for estimation of bird's eye view layout from a pair of stereo images. Although our network reuses some of the building blocks from the state-of-the-art deep learning networks for disparity estimation, we show that explicit depth estimation is neither sufficient nor necessary. Instead, the learning of a good internal bird's eye view feature representation is effective for layout estimation. Specifically, we first generate a disparity feature volume using the features of the stereo images and then project it to the bird's eye view coordinates. This gives us coarse-grained information about the scene structure. We also apply inverse perspective mapping (IPM) to map the input images and their features to the bird's eye view. This gives us fine-grained texture information. Concatenating IPM features with the projected feature volume creates a rich bird's eye view representation which is useful for spatial reasoning. We use this representation to estimate the BEV semantic map. Additionally, we show that using the IPM features as a supervisory signal for stereo features can give an improvement in performance. We demonstrate our approach on two datasets:the KITTI dataset and a synthetically generated dataset from the CARLA simulator. For both of these datasets, we establish state-of-the-art performance compared to baseline techniques.
翻訳日:2021-05-27 01:18:05 公開日:2021-05-25
# (参考訳) トレーニング可能なゲーティングネットワークを用いたEMM専門家の混合

Mixture of ELM based experts with trainable gating network ( http://arxiv.org/abs/2105.11706v1 )

ライセンス: CC BY 4.0
Laleh Armi, Elham Abbasi, Jamal Zarepour-Ahmadabadi(参考訳) mixed of experts methodはニューラルネットワークベースのアンサンブル学習であり、全体的な分類精度を向上させる能力を持っている。 本手法は,ゲーティングネットワークの監督により問題空間を複数の専門家に分割した分割・克服原理に基づいている。 本稿では,elmに基づくエキスパートと学習可能なゲーティングネットワーク(meetg)を混在させた,専門家の混合に基づくアンサンブル学習手法を提案する。 meの構造は、ベースエキスパートとしてのマルチレイヤパーセプトロン(mlps)と、反復的かつ時間の消費プロセスであるmlpのトレーニングに勾配ベースの学習アルゴリズムを適用するゲーティングネットワークで構成される。 これらの問題を克服するために,我々は,MEの構造設計に極端な学習機械(ELM)の利点を用いる。 単一の隠れ層フィードフォワードニューラルネットワークの学習アルゴリズムとしてのEMMは、従来の学習アルゴリズムと比較して、より高速な学習プロセスとより良い一般化能力を提供する。 また,提案手法では, トレーニング可能なゲーティングネットワークを用いて, 入力サンプルに応じて専門家の出力を動的に集約する。 11のベンチマークデータセットに対する実験結果と統計的解析により,MEETGは分類問題において許容できる性能を示した。 さらに,提案手法は,予測安定性と分類精度において,従来のELMよりも優れていることを示す。

Mixture of experts method is a neural network based ensemble learning that has great ability to improve the overall classification accuracy. This method is based on the divide and conquer principle, in which the problem space is divided between several experts by supervisition of gating network. In this paper, we propose an ensemble learning method based on mixture of experts which is named mixture of ELM based experts with trainable gating network (MEETG) to improve the computing cost and to speed up the learning process of ME. The structure of ME consists of multi layer perceptrons (MLPs) as base experts and gating network, in which gradient-based learning algorithm is applied for training the MLPs which is an iterative and time consuming process. In order to overcome on these problems, we use the advantages of extreme learning machine (ELM) for designing the structure of ME. ELM as a learning algorithm for single hidden-layer feed forward neural networks provides much faster learning process and better generalization ability in comparision with some other traditional learning algorithms. Also, in the proposed method a trainable gating network is applied to aggregate the outputs of the experts dynamically according to the input sample. Our experimental results and statistical analysis on 11 benchmark datasets confirm that MEETG has an acceptable performance in classification problems. Furthermore, our experimental results show that the proposed approach outperforms the original ELM on prediction stability and classification accuracy.
翻訳日:2021-05-27 00:56:59 公開日:2021-05-25
# (参考訳) 高周波認識型知覚画像強調

High-Frequency aware Perceptual Image Enhancement ( http://arxiv.org/abs/2105.11711v1 )

ライセンス: CC BY 4.0
Hyungmin Roh and Myungjoo Kang(参考訳) 本稿では,マルチスケール解析に適した新しい深層ニューラルネットワークを提案するとともに,高頻度領域からの情報抽出を支援する効率的なモデル非依存手法を提案する。 本モデルは,デノイング,デブロアリング,単一画像超解像などのマルチスケール画像強調問題に適用できる。 SIDD,Flickr2K,DIV2K,REDSデータセットを用いた実験により,本手法が各タスクにおける最先端性能を実現することを示す。 さらに,既存のPSNR指向手法でよく見られる過度に平滑な問題を克服し,対戦型トレーニングを適用することで,より自然な高解像度画像を生成することができることを示す。

In this paper, we introduce a novel deep neural network suitable for multi-scale analysis and propose efficient model-agnostic methods that help the network extract information from high-frequency domains to reconstruct clearer images. Our model can be applied to multi-scale image enhancement problems including denoising, deblurring and single image super-resolution. Experiments on SIDD, Flickr2K, DIV2K, and REDS datasets show that our method achieves state-of-the-art performance on each task. Furthermore, we show that our model can overcome the over-smoothing problem commonly observed in existing PSNR-oriented methods and generate more natural high-resolution images by applying adversarial training.
翻訳日:2021-05-27 00:43:23 公開日:2021-05-25
# (参考訳) 弱教師付きオブジェクトローカライズによるマイズショット学習の改善

Improving Few-shot Learning with Weakly-supervised Object Localization ( http://arxiv.org/abs/2105.11715v1 )

ライセンス: CC BY 4.0
Inyong Koo, Minki Jeong, Changick Kim(参考訳) 少ないショット学習では、抽出した特徴ベクトルとクラス表現との距離を比較することで、画像ラベルを予測するメトリック学習ベースの分類器が用いられる。 しかし、機能抽出器のバックエンドにグローバルプーリングを適用することは、クラスオブジェクトに正しくフォーカスする埋め込みを生成しないかもしれない。 本研究では,画像のクラス関連領域から特徴を抽出し,クラス表現を生成する新しいフレームワークを提案する。 画像レベルのラベルを持つサンプル画像がいくつかある場合,我々はまず,画像とクラスプロトタイプの類似性を空間的に分解することにより,クラスオブジェクトをローカライズする。 そして、ローカライゼーション結果から強化されたクラス表現を達成する。 また,改良された特徴の区別を高めるための損失関数を提案する。 提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。

Few-shot learning often involves metric learning-based classifiers, which predict the image label by comparing the distance between the extracted feature vector and class representations. However, applying global pooling in the backend of the feature extractor may not produce an embedding that correctly focuses on the class object. In this work, we propose a novel framework that generates class representations by extracting features from class-relevant regions of the images. Given only a few exemplary images with image-level labels, our framework first localizes the class objects by spatially decomposing the similarity between the images and their class prototypes. Then, enhanced class representations are achieved from the localization results. We also propose a loss function to enhance distinctions of the refined features. Our method outperforms the baseline few-shot model in miniImageNet and tieredImageNet benchmarks.
翻訳日:2021-05-27 00:25:47 公開日:2021-05-25
# (参考訳) ConSERT: 自己監督型文表現変換のためのコントラストフレームワーク

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer ( http://arxiv.org/abs/2105.11741v1 )

ライセンス: CC BY 4.0
Yuanmeng Yan, Rumei Li, Sirui Wang, Fuzheng Zhang, Wei Wu and Weiran Xu(参考訳) 高品質な文表現の学習は、幅広い自然言語処理タスクの恩恵を受ける。 BERTベースの事前学習言語モデルは、多くの下流タスクにおいて高い性能を達成するが、ネイティブな派生文表現は崩壊することが証明され、セマンティックテキスト類似性(STS)タスクでは性能が劣る。 本稿では,教師なしかつ効果的にBERTを微調整するコントラスト学習を取り入れた,自己監督型文表現伝達のためのコントラストフレームワークであるConSERTを提案する。 ラベルのないテキストを使用することで、ConSERTはBERT由来の文表現の崩壊問題を解消し、下流タスクにもっと適用できるようにする。 STSデータセットの実験では、ConSERTが以前の最先端よりも8倍の相対的な改善を実現している。 また,さらにNLIの監督を取り入れることで,STSタスクにおける最先端の新たなパフォーマンスを実現する。 さらに、ConSERTは、データ不足のシナリオにおける堅牢性を示す1000のサンプルで、同等の結果を得る。

Learning high-quality sentence representations benefits a wide range of natural language processing tasks. Though BERT-based pre-trained language models achieve high performance on many downstream tasks, the native derived sentence representations are proved to be collapsed and thus produce a poor performance on the semantic textual similarity (STS) tasks. In this paper, we present ConSERT, a Contrastive Framework for Self-Supervised Sentence Representation Transfer, that adopts contrastive learning to fine-tune BERT in an unsupervised and effective way. By making use of unlabeled texts, ConSERT solves the collapse issue of BERT-derived sentence representations and make them more applicable for downstream tasks. Experiments on STS datasets demonstrate that ConSERT achieves an 8\% relative improvement over the previous state-of-the-art, even comparable to the supervised SBERT-NLI. And when further incorporating NLI supervision, we achieve new state-of-the-art performance on STS tasks. Moreover, ConSERT obtains comparable results with only 1000 samples available, showing its robustness in data scarcity scenarios.
翻訳日:2021-05-27 00:15:33 公開日:2021-05-25
# (参考訳) 新型コロナウイルス患者のCTスキャンにおける病変分割のための高密度回帰活性化マップ

Dense Regression Activation Maps For Lesion Segmentation in CT scans of COVID-19 patients ( http://arxiv.org/abs/2105.11748v1 )

ライセンス: CC BY 4.0
Weiyi Xie, Colin Jacobs, Bram van Ginneken(参考訳) 胸部CTにおける自動病変分割は、COVID-19感染症における肺関与の迅速定量化を可能にする。 セグメンテーションネットワークを訓練するためのvoxelレベルのアノテーションを得るのは非常に高価である。 そこで,重回帰活性化マップ (dram) に基づく弱教師付きセグメント化手法を提案する。 最も進んだ教師付きセグメンテーションアプローチは、クラスアクティベーションマップ(CAM)を利用して、粗い解像度で高レベルのセマンティック特徴から生成されたオブジェクトをローカライズする。 その結果、CAMはオブジェクトのセグメンテーションと正確に一致しない粗いアウトラインを提供する。 代わりに、セグメンテーションネットワークからの高密度特徴を利用して、局所的な詳細を保存するために高密度回帰アクティベーションマップ(dRAM)を計算する。 トレーニング中、dRAMはローブ単位でプールされ、ローブあたりの病変の割合を抑える。 このようにして、ネットワークは、分類アプローチと比較して病変定量化に関する追加情報を得る。 さらに,主回帰課題と共に訓練された注意モジュールと密条件確率場に基づいてdramを精錬する。 洗練されたdRAMは、最終セグメンテーションネットワークをトレーニングするための擬似ラベルとして提供される。 69ctスキャンで評価すると,camベースの弱教師付き分節法における結合上の交点を0.335から0.495に大幅に改善した。

Automatic lesion segmentation on thoracic CT enables rapid quantitative analysis of lung involvement in COVID- 19 infections. Obtaining voxel-level annotations for training segmentation networks is prohibitively expensive. Therefore we propose a weakly-supervised segmentation method based on dense regression activation maps (dRAM). Most advanced weakly supervised segmentation approaches exploit class activation maps (CAMs) to localize objects generated from high-level semantic features at a coarse resolution. As a result, CAMs provide coarse outlines that do not align precisely with the object segmentations. Instead, we exploit dense features from a segmentation network to compute dense regression activation maps (dRAMs) for preserving local details. During training, dRAMs are pooled lobe-wise to regress the per-lobe lesion percentage. In such a way, the network achieves additional information regarding the lesion quantification in comparison with the classification approach. Furthermore, we refine dRAMs based on an attention module and dense conditional random field trained together with the main regression task. The refined dRAMs are served as the pseudo labels for training a final segmentation network. When evaluated on 69 CT scans, our method substantially improves the intersection over union from 0.335 in the CAM-based weakly supervised segmentation method to 0.495.
翻訳日:2021-05-26 23:55:30 公開日:2021-05-25
# (参考訳) 異議申し立て:弱小プリミセス攻撃による対論生成

Argument Undermining: Counter-Argument Generation by Attacking Weak Premises ( http://arxiv.org/abs/2105.11752v1 )

ライセンス: CC BY 4.0
Milad Alshomary, Shahbaz Syed, Martin Potthast and Henning Wachsmuth(参考訳) テキスト生成は、近年、計算論証研究において多くの注目を集めている。 特に難しい課題は、反論の生成である。 これまでのところ、アプローチは主に与えられた結論を反論することに集中しているが、議論に対抗する他の方法も存在する。 本研究は,従来の研究を超越し,議論の根底,すなわち,その前提のひとつを攻撃することによって議論に対抗するものである。 我々は、議論の弱い前提を特定することが効果的な対策の鍵であると仮定する。 そこで本稿では,まず前提の強度を評価し,弱体化をターゲットとした逆問題を生成するパイプライン手法を提案する。 一方,手作業による評価と自動評価は,反弁生成において弱い前提を特定することの重要性を証明している。 一方,正しさや内容の豊かさを考えるとき,人間の注釈家は,最先端の対物生成に対するアプローチを好んだ。

Text generation has received a lot of attention in computational argumentation research as of recent. A particularly challenging task is the generation of counter-arguments. So far, approaches primarily focus on rebutting a given conclusion, yet other ways to counter an argument exist. In this work, we go beyond previous research by exploring argument undermining, that is, countering an argument by attacking one of its premises. We hypothesize that identifying the argument's weak premises is key to effective countering. Accordingly, we propose a pipeline approach that first assesses the premises' strength and then generates a counter-argument targeting the weak ones. On the one hand, both manual and automatic evaluation proves the importance of identifying weak premises in counter-argument generation. On the other hand, when considering correctness and content richness, human annotators favored our approach over state-of-the-art counter-argument generation.
翻訳日:2021-05-26 23:28:43 公開日:2021-05-25
# (参考訳) 深層学習に基づく顕微鏡画像の研究室差克服のためのバイアス伝達

Deep learning-based bias transfer for overcoming laboratory differences of microscopic images ( http://arxiv.org/abs/2105.11765v1 )

ライセンス: CC BY 4.0
Ann-Katrin Thebille and Esther Dietrich and Martin Klaus and Lukas Gernhold and Maximilian Lennartz and Christoph Kuppe and Rafael Kramann and Tobias B. Huber and Guido Sauter and Victor G. Puelles and Marina Zimmermann and Stefan Bonn(参考訳) 医療画像の自動分析は現在、技術的および生物学的ノイズとバイアスによって制限されている。 画像取得または処理プロトコルが異なる場合、同じソース組織を非常に異なる画像で表現することができる。 画像解析パイプラインでは、誤解を避けるためにこのようなバイアスを補うことが不可欠である。 免疫蛍光(IF)およびヘマトキシリンおよびエオシン(H&E)染色顕微鏡画像の領域シフトを克服するために,既存の生成モデルアーキテクチャを評価し,比較し,改良する。 生成モデルの性能を決定するために、元の画像と変換された画像は、ターゲットバイアスの画像のみに基づいて訓練されたディープニューラルネットワークによって分割または分類された。 分析の範囲内では、追加のidとms-ssimベースの損失で訓練されたu-netサイクガンと追加の構造損失で訓練された固定点ganがそれぞれifとh&e染色試料の最良の結果をもたらした。 検体バイアスを順応させることで,ヒト腎糸球体およびポドサイトにおけるピクセルレベルセグメンテーションが大幅に改善され,ヒト前立腺生検の分類精度が最大14%向上した。

The automated analysis of medical images is currently limited by technical and biological noise and bias. The same source tissue can be represented by vastly different images if the image acquisition or processing protocols vary. For an image analysis pipeline, it is crucial to compensate such biases to avoid misinterpretations. Here, we evaluate, compare, and improve existing generative model architectures to overcome domain shifts for immunofluorescence (IF) and Hematoxylin and Eosin (H&E) stained microscopy images. To determine the performance of the generative models, the original and transformed images were segmented or classified by deep neural networks that were trained only on images of the target bias. In the scope of our analysis, U-Net cycleGANs trained with an additional identity and an MS-SSIM-based loss and Fixed-Point GANs trained with an additional structure loss led to the best results for the IF and H&E stained samples, respectively. Adapting the bias of the samples significantly improved the pixel-level segmentation for human kidney glomeruli and podocytes and improved the classification accuracy for human prostate biopsies by up to 14%.
翻訳日:2021-05-26 23:07:03 公開日:2021-05-25
# (参考訳) 説明可能なマルチホップ科学質問応答のための動的意味グラフ構築と推論

Dynamic Semantic Graph Construction and Reasoning for Explainable Multi-hop Science Question Answering ( http://arxiv.org/abs/2105.11776v1 )

ライセンス: CC BY 4.0
Weiwen Xu, Huihui Zhang, Deng Cai and Wai Lam(参考訳) 知識検索と推論は、Webスケールでのマルチホップ質問応答(QA)における2つの重要な段階である。 既存のアプローチは、知識ギャップを埋める証拠の事実を回収し、透明な推論プロセスの欠如に悩まされる。 本稿では,意味グラフを動的に構築し,その上に推論することで,マルチホップQAの説明可能性を得ながら,より有効な事実を活用できる新しいフレームワークを提案する。 意味グラフ表現には抽象的意味表現(AMR)を用いる。 a) {\tt AMR-SG}(AMRに基づくセマンティックグラフ)は、質問、回答、複数の事実間のホップ関係を明らかにするために、候補事実AMRによって構築される。 b) 経路に基づく新しい事実分析手法であるtt AMR-SG を用いて,大規模事実プールから活動的事実を抽出し,質問に答える。 (c)グラフ畳み込みネットワーク(GCN)を利用した事実レベルの関係モデリングによる推論プロセスの導出。 2つの科学的マルチホップQAデータセットの結果から,OpenBookQAの高説明性を維持しながら知識グラフを付加する手法や,ARC-Challengeにおける新たな最先端の成果を計算的に実現可能な環境で達成できることを示す。

Knowledge retrieval and reasoning are two key stages in multi-hop question answering (QA) at web scale. Existing approaches suffer from low confidence when retrieving evidence facts to fill the knowledge gap and lack transparent reasoning process. In this paper, we propose a new framework to exploit more valid facts while obtaining explainability for multi-hop QA by dynamically constructing a semantic graph and reasoning over it. We employ Abstract Meaning Representation (AMR) as semantic graph representation. Our framework contains three new ideas: (a) {\tt AMR-SG}, an AMR-based Semantic Graph, constructed by candidate fact AMRs to uncover any hop relations among question, answer and multiple facts. (b) A novel path-based fact analytics approach exploiting {\tt AMR-SG} to extract active facts from a large fact pool to answer questions. (c) A fact-level relation modeling leveraging graph convolution network (GCN) to guide the reasoning process. Results on two scientific multi-hop QA datasets show that we can surpass recent approaches including those using additional knowledge graphs while maintaining high explainability on OpenBookQA and achieve a new state-of-the-art result on ARC-Challenge in a computationally practicable setting.
翻訳日:2021-05-26 22:35:40 公開日:2021-05-25
# (参考訳) 多視点学習のためのグラフコンセンサス用語に基づく統一フレームワーク

A unified framework based on graph consensus term for multi-view learning ( http://arxiv.org/abs/2105.11781v1 )

ライセンス: CC0 1.0
Xiangzhu Meng, Lin Feng, Chonghui Guo(参考訳) 近年,様々なアプリケーションを対象とした多視点学習技術が注目されている。 複数のビューからの互換性と相補的な情報により、既存のマルチビュー手法は従来の単一ビュー方式よりも多くの状況でより有望な性能を達成することができる。 しかし、既存のマルチビューワークにおける統一フレームワークに関する十分な研究はいまだに存在しない。 一方、マルチビュー情報を効率的に統合する方法はまだ課題に満ちている。 本稿では,グラフコンセンサス項を導入して,既存のグラフ埋め込み処理を統一式に活用することを目的とした,新しい多視点学習フレームワークを提案する。 特に,グラフ埋め込み手法の多様性を維持するため,各ビューのグラフ構造を独立に探索する。 一方,グラフコンセンサス用語を構成するために異種グラフを選択し,複数のビュー間の相関関係を検討する。 この目的のために、異なる視点間の多様性と補完的情報を同時に考慮することができる。 さらに,多視点線形埋め込み (mvlle) と呼ばれる局所性線形埋め込みの多視点拡張を実現するために, 代替最適化戦略を適用することで効率的に解くことができる。 6つのベンチマークデータセットで実施した実証検証は,提案手法の有効性を示す。

In recent years, multi-view learning technologies for various applications have attracted a surge of interest. Due to more compatible and complementary information from multiple views, existing multi-view methods could achieve more promising performance than conventional single-view methods in most situations. However, there are still no sufficient researches on the unified framework in existing multi-view works. Meanwhile, how to efficiently integrate multi-view information is still full of challenges. In this paper, we propose a novel multi-view learning framework, which aims to leverage most existing graph embedding works into a unified formula via introducing the graph consensus term. In particular, our method explores the graph structure in each view independently to preserve the diversity property of graph embedding methods. Meanwhile, we choose heterogeneous graphs to construct the graph consensus term to explore the correlations among multiple views jointly. To this end, the diversity and complementary information among different views could be simultaneously considered. Furthermore, the proposed framework is utilized to implement the multi-view extension of Locality Linear Embedding, named Multi-view Locality Linear Embedding (MvLLE), which could be efficiently solved by applying the alternating optimization strategy. Empirical validations conducted on six benchmark datasets can show the effectiveness of our proposed method.
翻訳日:2021-05-26 22:12:18 公開日:2021-05-25
# (参考訳) 簡単な学習と適応のブリッジ:サポートクエリシフトの新たな課題

Bridging Few-Shot Learning and Adaptation: New Challenges of Support-Query Shift ( http://arxiv.org/abs/2105.11804v1 )

ライセンス: CC BY-SA 4.0
Etienne Bennequin, Victor Bouvier, Myriam Tami, Antoine Toubhans, C\'eline Hudelot(参考訳) FSL(Few-Shot Learning)アルゴリズムは,少数のラベル付きデータを用いた新しい概念の学習に大きく進歩している。 テスト時に遭遇する新しいクラスからクエリインスタンスを分類するには、いくつかのラベル付きサンプルからなるサポートセットのみが必要である。 FSLベンチマークは通常、これらのクエリはサポートセットのインスタンスと同じディストリビューションから来ていると仮定する。 しかし、現実的な設定では、データ分布が変更される可能性があり、この状況は分散シフト(ds)と呼ばれる。 本研究は,サポート/クエリシフト(fsqs, support/query shift, サポートとクエリのインスタンスが関連するが,異なるディストリビューションからサンプル化されている場合)下での,マイショット学習の新たな挑戦的な問題に対処する。 私たちの貢献は以下のとおりです。 まず、データセット、関連するベースライン、厳密で再現可能な評価のためのプロトコルを含むFSQS用のテストベッドをリリースする。 第2に,確立されたfslアルゴリズムは,当然ながらfsqsと向き合うと精度が大幅に低下し,研究の意義を強調している。 最後に,トランスダクティブアルゴリズムはDSの不均衡効果を制限することができることを示す。 特に,fslと教師なし領域適応を橋渡しし,分布の整列化におけるバッチ正規化と最適輸送(ot)の役割について検討した。 これにより、OTと有名なプロトタイプネットワークを効率的に結合する新しい手法が実現される。 我々はこの方法の利点を示す説得力のある実験を行う。 私たちの研究は、テストベッドと強力なベースラインを提供することで、エキサイティングな研究のラインを開きます。 私たちのコードはhttps://github.com/ebennequin/meta-domain-shiftで利用可能です。

Few-Shot Learning (FSL) algorithms have made substantial progress in learning novel concepts with just a handful of labelled data. To classify query instances from novel classes encountered at test-time, they only require a support set composed of a few labelled samples. FSL benchmarks commonly assume that those queries come from the same distribution as instances in the support set. However, in a realistic set-ting, data distribution is plausibly subject to change, a situation referred to as Distribution Shift (DS). The present work addresses the new and challenging problem of Few-Shot Learning under Support/Query Shift (FSQS) i.e., when support and query instances are sampled from related but different distributions. Our contributions are the following. First, we release a testbed for FSQS, including datasets, relevant baselines and a protocol for a rigorous and reproducible evaluation. Second, we observe that well-established FSL algorithms unsurprisingly suffer from a considerable drop in accuracy when facing FSQS, stressing the significance of our study. Finally, we show that transductive algorithms can limit the inopportune effect of DS. In particular, we study both the role of Batch-Normalization and Optimal Transport (OT) in aligning distributions, bridging Unsupervised Domain Adaptation with FSL. This results in a new method that efficiently combines OT with the celebrated Prototypical Networks. We bring compelling experiments demonstrating the advantage of our method. Our work opens an exciting line of research by providing a testbed and strong baselines. Our code is available at https://github.com/ebennequin/meta-domain-shift.
翻訳日:2021-05-26 21:41:52 公開日:2021-05-25
# (参考訳) 最適次元のハッシュ埋め込みと線形最小二乗への応用

Hashing embeddings of optimal dimension, with applications to linear least squares ( http://arxiv.org/abs/2105.11815v1 )

ライセンス: CC BY 4.0
Coralia Cartis, Jan Fiala and Zhen Shao(参考訳) 第一に、$s$-hashing スケッチ行列に対する部分空間埋め込み特性を$s\geq 1$ で提示することであり、これはスケッチの投影次元 $m$ において最適であり、すなわち $m=\mathcal{o}(d)$ であり、ここで $d$ は部分空間の次元である。 A diverse set of results are presented that address the case when the input matrix has sufficiently low coherence (thus removing the $\log^2 d$ factor dependence in $m$, in the low-coherence result of Bourgain et al (2015) at the expense of a smaller coherence requirement); how this coherence changes with the number $s$ of column nonzeros (allowing a scaling of $\sqrt{s}$ of the coherence bound), or is reduced through suitable transformations (when considering hashed -- instead of subsampled -- coherence reducing transformations such as randomised Hadamard). 第二に、これらの一般的なハッシュスケッチ結果をLinear Least Squares(LLS)の特殊なケースに適用し、これらの問題に対する汎用ソフトウェアパッケージであるSki-LLSを開発した。 ハッシュスケッチの改善に加えて,Ski-LLSがランダムに生成した入力に対してスケッチベースルーチンを上回り,スパースフロリダ行列コレクションの特定の部分集合上のアートダイレクトソルバSPQRおよび反復コードHSLの状態,すなわち,過度に決定された,あるいは適度にスパースされた,あるいは難しい問題に対して適切な線形代数ツールを追加する。

The aim of this paper is two-fold: firstly, to present subspace embedding properties for $s$-hashing sketching matrices, with $s\geq 1$, that are optimal in the projection dimension $m$ of the sketch, namely, $m=\mathcal{O}(d)$, where $d$ is the dimension of the subspace. A diverse set of results are presented that address the case when the input matrix has sufficiently low coherence (thus removing the $\log^2 d$ factor dependence in $m$, in the low-coherence result of Bourgain et al (2015) at the expense of a smaller coherence requirement); how this coherence changes with the number $s$ of column nonzeros (allowing a scaling of $\sqrt{s}$ of the coherence bound), or is reduced through suitable transformations (when considering hashed -- instead of subsampled -- coherence reducing transformations such as randomised Hadamard). Secondly, we apply these general hashing sketching results to the special case of Linear Least Squares (LLS), and develop Ski-LLS, a generic software package for these problems, that builds upon and improves the Blendenpik solver on dense input and the (sequential) LSRN performance on sparse problems. In addition to the hashing sketching improvements, we add suitable linear algebra tools for rank-deficient and for sparse problems that lead Ski-LLS to outperform not only sketching-based routines on randomly generated input, but also state of the art direct solver SPQR and iterative code HSL on certain subsets of the sparse Florida matrix collection; namely, on least squares problems that are significantly overdetermined, or moderately sparse, or difficult.
翻訳日:2021-05-26 20:51:44 公開日:2021-05-25
# (参考訳) 臨床テキストにおける冗長性の推定

Estimating Redundancy in Clinical Text ( http://arxiv.org/abs/2105.11832v1 )

ライセンス: CC BY 4.0
Thomas Searle, Zina Ibrahim, James Teo, Richard JB Dobson(参考訳) 現在のElectronic Health Record (EHR)の使用モードは、テキストの冗長性を付与する。 臨床医は、既存のメモを複製して新しい文書を投入し、それに応じて更新する。 データ重複は、エラーの伝播、不整合、ケアの誤報につながる可能性がある。 したがって,情報冗長性の定量化は,臨床物語に係わる革新を評価する上で重要な役割を担っている。 本研究は, EHRノートにおける情報冗長性の定量的検討である。 冗長性を測定するための2つの戦略として,情報理論アプローチと語彙論的・意味論的モデルを提示し,評価する。 我々は,大容量のTransformer-based language modelを,公開可能なUS-based ICUデータセットと大規模マルチサイトUKベーストラストから臨床テキストを用いて訓練し,評価を行った。 訓練されたモデルの情報理論内容とオープンドメイン言語モデルを比較することで、臨床テキストを用いて訓練された言語モデルはオープンドメインコーパスよりも1.5倍から3倍の効率を示した。 手動による評価は, 平均43~65%のレキシコシンタクティックおよびセマンティック冗長性と高い相関性を示す。

The current mode of use of Electronic Health Record (EHR) elicits text redundancy. Clinicians often populate new documents by duplicating existing notes, then updating accordingly. Data duplication can lead to a propagation of errors, inconsistencies and misreporting of care. Therefore, quantifying information redundancy can play an essential role in evaluating innovations that operate on clinical narratives. This work is a quantitative examination of information redundancy in EHR notes. We present and evaluate two strategies to measure redundancy: an information-theoretic approach and a lexicosyntactic and semantic model. We evaluate the measures by training large Transformer-based language models using clinical text from a large openly available US-based ICU dataset and a large multi-site UK based Trust. By comparing the information-theoretic content of the trained models with open-domain language models, the language models trained using clinical text have shown ~1.5x to ~3x less efficient than open-domain corpora. Manual evaluation shows a high correlation with lexicosyntactic and semantic redundancy, with averages ~43 to ~65%.
翻訳日:2021-05-26 20:49:24 公開日:2021-05-25
# (参考訳) ニューラルネットワークによる資源制約環境の睡眠相分類

Neural Network Based Sleep Phases Classification for Resource Constraint Environments ( http://arxiv.org/abs/2105.11452v1 )

ライセンス: CC BY 4.0
Berkay K\"opr\"u, Murat Aslan, Alisher Kholmatov(参考訳) 睡眠は身体の回復過程である。 この修復プロセスの効率は、各睡眠フェーズで費やされる時間量と直接相関する。 したがって、ウェアラブルデバイスによる睡眠の自動トラッキングは、研究者と業界の両方を惹きつけている。 現在の最先端の睡眠トラッキングソリューションは、メモリと処理の欲求であり、クラウドや携帯電話との接続が必要である。 クラウドや携帯電話の接続を必要とせずに,組込み環境でも動作可能な,メモリ効率の良い睡眠トラッキングアーキテクチャを提案する。 本研究では,特徴抽出と人工ニューラルネットワークに基づく積層分類器からなる新しいアーキテクチャを提案する。 さらに,提案フレームワークを通じて,メモリ制約環境における睡眠ステージングの逐次的性質に取り組む方法について検討した。 このシステムを検証するために、3軸加速度計(acc)とフォトプレチモグラム(ppg)センサーを備えた手首装着装置を用いて、24種類の被験者から31夜のデータセットを収集する。 収集したデータセットを通じて、提案した分類アーキテクチャは、競合他社よりも20\%、14\%優れたF1スコアを達成する。 優れた性能の他に、提案されたアーキテクチャは4.2キロバイトのメモリ(RAM)を割り当てることで、リソース制約組み込みシステムのための有望なソリューションである。

Sleep is restoration process of the body. The efficiency of this restoration process is directly correlated to the amount of time spent at each sleep phase. Hence, automatic tracking of sleep via wearable devices has attracted both the researchers and industry. Current state-of-the-art sleep tracking solutions are memory and processing greedy and they require cloud or mobile phone connectivity. We propose a memory efficient sleep tracking architecture which can work in the embedded environment without needing any cloud or mobile phone connection. In this study, a novel architecture is proposed that consists of a feature extraction and Artificial Neural Networks based stacking classifier. Besides, we discussed how to tackle with sequential nature of the sleep staging for the memory constraint environments through the proposed framework. To verify the system, a dataset is collected from 24 different subjects for 31 nights with a wrist worn device having 3-axis accelerometer (ACC) and photoplethysmogram (PPG) sensors. Over the collected dataset, the proposed classification architecture achieves 20\% and 14\% better F1 scores than its competitors. Apart from the superior performance, proposed architecture is a promising solution for resource constraint embedded systems by allocating only 4.2 kilobytes of memory (RAM).
翻訳日:2021-05-26 20:26:28 公開日:2021-05-25
# (参考訳) GCNBoost:知識グラフによるラベル伝播によるアートワークの分類

GCNBoost: Artwork Classification by Label Propagation through a Knowledge Graph ( http://arxiv.org/abs/2105.11852v1 )

ライセンス: CC BY 4.0
Cheikh Brahim El Vaigh, Noa Garcia, Benjamin Renoust, Chenhui Chu, Yuta Nakashima and Hajime Nagahara(参考訳) 文化文書のデジタル化の台頭は、文化遺産を保存、検索、提供するために、AIシステムの開発のための道を開く大規模なコンテンツを提供する。 このような文化的コンテンツの整理は、それらを分類することも意味しており、現代のコンピュータ科学に非常に馴染みのあるタスクである。 文脈情報はしばしば、そのような現実世界のデータを構成する鍵であり、知識グラフの形で使用することを提案する。 このような知識グラフは、コンテンツ分析と組み合わせて、アートワーク間の近接性の概念を高め、分類タスクのパフォーマンスを向上させる。 本稿では,注釈付きデータと擬似ラベル付きデータに基づいて構築された知識グラフの新たな利用法を提案する。 ラベル伝搬では,知識グラフの実体間の関係に依存するグラフ畳み込みネットワークを用いてモデルを訓練することにより,アートワークの分類を促進する。 トランスダクティブ・ラーニング・フレームワークに従えば,ラベル付きデータとラベルなしデータの関係をモデル化した知識グラフを用いて,絵画のデータセットや仏像のデータセット上での複数の分類タスクについて,最先端の成果が得られることを示す。 さらに,不均衡データを扱う困難なケースに対して,知識グラフに極端に低次なクラスを無視することの制限を設け,最新結果を提示する。

The rise of digitization of cultural documents offers large-scale contents, opening the road for development of AI systems in order to preserve, search, and deliver cultural heritage. To organize such cultural content also means to classify them, a task that is very familiar to modern computer science. Contextual information is often the key to structure such real world data, and we propose to use it in form of a knowledge graph. Such a knowledge graph, combined with content analysis, enhances the notion of proximity between artworks so it improves the performances in classification tasks. In this paper, we propose a novel use of a knowledge graph, that is constructed on annotated data and pseudo-labeled data. With label propagation, we boost artwork classification by training a model using a graph convolutional network, relying on the relationships between entities of the knowledge graph. Following a transductive learning framework, our experiments show that relying on a knowledge graph modeling the relations between labeled data and unlabeled data allows to achieve state-of-the-art results on multiple classification tasks on a dataset of paintings, and on a dataset of Buddha statues. Additionally, we show state-of-the-art results for the difficult case of dealing with unbalanced data, with the limitation of disregarding classes with extremely low degrees in the knowledge graph.
翻訳日:2021-05-26 19:59:06 公開日:2021-05-25
# (参考訳) 量子機械学習のための量子埋め込み探索

Quantum Embedding Search for Quantum Machine Learning ( http://arxiv.org/abs/2105.11853v1 )

ライセンス: CC BY 4.0
Nam Nguyen and Kwang-Chen Chen(参考訳) 本稿では,量子埋め込み探索アルゴリズム(qes,quantum embedded search algorithm)を提案する。 まず、量子埋め込みの構造と有向多重グラフの表現との接続を確立し、よく定義された探索空間を実現する。 第2に,実際の実装において,探索空間の濃度を可能なサイズに抑えるために,絡み合いレベルを推し進める。 最後に、逐次モデルに基づく最適化により、サロゲートモデルを用いて真の損失関数を評価するコストを軽減する。 これは、QESによる量子埋め込みアーキテクチャが手動設計より優れているのに対して、古典的な機械学習モデルに匹敵する性能を実現することを実証的に示すものである。

This paper introduces a novel quantum embedding search algorithm (QES, pronounced as "quest"), enabling search for optimal quantum embedding design for a specific dataset of interest. First, we establish the connection between the structures of quantum embedding and the representations of directed multi-graphs, enabling a well-defined search space. Second, we instigate the entanglement level to reduce the cardinality of the search space to a feasible size for practical implementations. Finally, we mitigate the cost of evaluating the true loss function by using surrogate models via sequential model-based optimization. We demonstrate the feasibility of our proposed approach on synthesis and Iris datasets, which empirically shows that found quantum embedding architecture by QES outperforms manual designs whereas achieving comparable performance to classical machine learning models.
翻訳日:2021-05-26 19:37:48 公開日:2021-05-25
# (参考訳) 高速RCNN検出モデルを用いたUAV RGB画像からのトウモロコシ植物密度の推定:空間分解能の影響

Estimates of maize plant density from UAV RGB images using Faster-RCNN detection model: impact of the spatial resolution ( http://arxiv.org/abs/2105.11857v1 )

ライセンス: CC BY-SA 4.0
Kaaviya Velumani, Raul Lopez-Lozano, Simon Madec, Wei Guo, Joss Gillet, Alexis Comar, Frederic Baret(参考訳) 初期植物密度は、所定の環境条件と管理慣行の下で遺伝子型の運命を決定する必須形質である。 uavから撮影されたrgb画像の使用は、スループット、精度、植物局在性の向上により、従来の視野計数を置き換える可能性がある。 しかし、初期段階に存在する小さな植物を検出するには高分解能(HR)画像が必要である。 本研究では,イメージグラウンドサンプリング距離(GSD)が3-5葉のトウモロコシ植物検出性能に及ぼす影響について,Faster-RCNNを用いて検討した。 6地点以上のHR(GSD=0.3cm)で収集したデータを用いた。 高分解能と低分解能(gsd=0.6cm)の2つの画像がモデル評価に用いられた。 その結果,Faster-RCNNは,ネイティブHR画像がトレーニングと検証の両方に使用される場合,植物検出とカウント(rRMSE=0.08)性能に優れていた。 同様に、ネイティブトレーニングHR画像のダウンサンプリングにより得られた合成低解像度(LR)画像に対してモデルがトレーニングされ(rRMSE=0.11)、合成LR検証画像に適用された。 逆に、与えられた空間分解能でモデルが訓練され、他の空間分解能に適用されると、性能が低下する。 HRとLRの混合画像の訓練は、ネイティブのHR(rRMSE=0.06)と合成LR(rRMSE=0.10)で非常に優れたパフォーマンスが得られる。 しかしながら、ネイティブLR画像(rRMSE=0.48)上では非常に低い性能が観察されている。 最後に、ネイティブのHR画像から得られた追加のテクスチャ情報を導入するGAN(生成逆数ネットワーク)に基づく高度な超解像法を、ネイティブLR検証画像に適用した。 その結果, バイコビックアップサンプリング法と比較して有意な改善が認められた(rRMSE=0.22)。

Early-stage plant density is an essential trait that determines the fate of a genotype under given environmental conditions and management practices. The use of RGB images taken from UAVs may replace traditional visual counting in fields with improved throughput, accuracy and access to plant localization. However, high-resolution (HR) images are required to detect small plants present at early stages. This study explores the impact of image ground sampling distance (GSD) on the performances of maize plant detection at 3-5 leaves stage using Faster-RCNN. Data collected at HR (GSD=0.3cm) over 6 contrasted sites were used for model training. Two additional sites with images acquired both at high and low (GSD=0.6cm) resolution were used for model evaluation. Results show that Faster-RCNN achieved very good plant detection and counting (rRMSE=0.08) performances when native HR images are used both for training and validation. Similarly, good performances were observed (rRMSE=0.11) when the model is trained over synthetic low-resolution (LR) images obtained by down-sampling the native training HR images, and applied to the synthetic LR validation images. Conversely, poor performances are obtained when the model is trained on a given spatial resolution and applied to another spatial resolution. Training on a mix of HR and LR images allows to get very good performances on the native HR (rRMSE=0.06) and synthetic LR (rRMSE=0.10) images. However, very low performances are still observed over the native LR images (rRMSE=0.48), mainly due to the poor quality of the native LR images. Finally, an advanced super-resolution method based on GAN (generative adversarial network) that introduces additional textural information derived from the native HR images was applied to the native LR validation images. Results show some significant improvement (rRMSE=0.22) compared to bicubic up-sampling approach.
翻訳日:2021-05-26 19:17:55 公開日:2021-05-25
# (参考訳) マジックにおけるカード選択の予測:コンテクスト優先ランキングを用いた収集

Predicting Human Card Selection in Magic: The Gathering with Contextual Preference Ranking ( http://arxiv.org/abs/2105.11864v1 )

ライセンス: CC BY 4.0
Timo Bertram, Johannes F\"urnkranz, Martin M\"uller(参考訳) ドラフト、すなわち、より大きな候補集合からの項目のサブセットの選択は、多くのゲームや関連する問題の鍵となる要素である。 スポーツやeスポーツにおけるチーム形成や、現代の多くのカードゲームにおけるデッキ選択を含む。 起草の難しさは、通常、真空中で各項目を単純に評価し、最良の項目を選択するだけでは不十分である。 アイテムの評価は、すでに選択済みのアイテムの集合のコンテキストに依存する。集合の値は、メンバーの値の合計だけではない。 本稿では,カードゲームMagic: The Gatheringの文脈における起草について検討する。 そこで本研究では,任意のカードセットの2つの拡張を比較できるコンテクスト・プレファレンス・ネットワークの利用を提案する。 その結果,このゲームにおけるカードデッキの評価が,これまでの試みよりも優れていることを示す。

Drafting, i.e., the selection of a subset of items from a larger candidate set, is a key element of many games and related problems. It encompasses team formation in sports or e-sports, as well as deck selection in many modern card games. The key difficulty of drafting is that it is typically not sufficient to simply evaluate each item in a vacuum and to select the best items. The evaluation of an item depends on the context of the set of items that were already selected earlier, as the value of a set is not just the sum of the values of its members - it must include a notion of how well items go together. In this paper, we study drafting in the context of the card game Magic: The Gathering. We propose the use of a contextual preference network, which learns to compare two possible extensions of a given deck of cards. We demonstrate that the resulting network is better able to evaluate card decks in this game than previous attempts.
翻訳日:2021-05-26 18:52:11 公開日:2021-05-25
# (参考訳) TransNAS-Bench-101: クロスタスクニューラルネットワークの転送性と一般化性の改善

TransNAS-Bench-101: Improving Transferability and Generalizability of Cross-Task Neural Architecture Search ( http://arxiv.org/abs/2105.11871v1 )

ライセンス: CC BY 4.0
Yawen Duan, Xin Chen, Hang Xu, Zewei Chen, Xiaodan Liang, Tong Zhang, Zhenguo Li(参考訳) ニューラル・アーキテクチャ・サーチ(NAS)の最近の進歩は、広い範囲の視覚タスクとより多様化された検索空間に分野の研究範囲を広げている。 既存のNASメソッドは、主に単一のタスクでアーキテクチャを設計するが、シングルタスク検索を超えるアルゴリズムは、様々なタスクにまたがるより効率的で普遍的なソリューションを求めるために急増している。 それらの多くは転送学習を活用し、将来のタスクでより高い効率を達成するためにネットワーク設計の知識を保存、再利用、洗練しようと試みている。 しかし、クロスタスクNASの膨大な計算コストと実験複雑さは、この方向への貴重な研究の障壁を示唆している。 既存のNASベンチマークは、すべて1種類の視覚タスク、すなわち分類に焦点を当てている。 本研究では,分類,回帰,画素レベルの予測,自己監督タスクを含む7つのタスクにわたるネットワーク性能を含むベンチマークデータセットであるTransNAS-Bench-101を提案する。 この多様性は、nasメソッドをタスク間で転送する機会を提供し、より複雑な転送スキームを進化させる。 セルレベルの検索空間とマクロレベルの検索空間という,基本的に異なるタイプの検索空間を探索する。 7つのタスクで7,352のバックボーンが評価され、詳細なトレーニング情報を備えた51,464のトレーニングモデルが提供される。 TransNAS-Bench-101では、クロスタスク検索効率と次のレベルへの一般化性を高める、例外的なNASアルゴリズムの出現を奨励したい。 データセットファイルはVEGAのMindsporeで公開されます。

Recent breakthroughs of Neural Architecture Search (NAS) extend the field's research scope towards a broader range of vision tasks and more diversified search spaces. While existing NAS methods mostly design architectures on a single task, algorithms that look beyond single-task search are surging to pursue a more efficient and universal solution across various tasks. Many of them leverage transfer learning and seek to preserve, reuse, and refine network design knowledge to achieve higher efficiency in future tasks. However, the enormous computational cost and experiment complexity of cross-task NAS are imposing barriers for valuable research in this direction. Existing NAS benchmarks all focus on one type of vision task, i.e., classification. In this work, we propose TransNAS-Bench-101, a benchmark dataset containing network performance across seven tasks, covering classification, regression, pixel-level prediction, and self-supervised tasks. This diversity provides opportunities to transfer NAS methods among tasks and allows for more complex transfer schemes to evolve. We explore two fundamentally different types of search space: cell-level search space and macro-level search space. With 7,352 backbones evaluated on seven tasks, 51,464 trained models with detailed training information are provided. With TransNAS-Bench-101, we hope to encourage the advent of exceptional NAS algorithms that raise cross-task search efficiency and generalizability to the next level. Our dataset file will be available at Mindspore, VEGA.
翻訳日:2021-05-26 18:35:22 公開日:2021-05-25
# (参考訳) 無監督材料指紋に隠された結晶構造情報による不規則なペロブスカイト酸化物の発見

Analogical discovery of disordered perovskite oxides by crystal structure information hidden in unsupervised material fingerprints ( http://arxiv.org/abs/2105.11877v1 )

ライセンス: CC BY 4.0
Achintha Ihalage and Yang Hao(参考訳) 組成障害はペロブスカイトの無数の捕食現象を引き起こす。 ペロブスカイト固溶体の発見は障害によって引き起こされる分析の複雑さのために大きな課題となっている。 本稿では, (a1-xa'x)bo3 および a(b1-xb'x)o3 式で示される化学組成からのみ学習することにより, ペロブスカイト形成性や基礎となる結晶構造情報を埋め込んだ不規則な材料の指紋を教師なし深層学習戦略が発見できることを実証する。 この現象は実験組成の結晶対称性を予測し、教師付き機械学習(ML)アルゴリズムよりも優れている。 材料指紋の教育的な性質は、既知の物質との類似性の調査に基づいて、有望なペロブスカイトの逆探索を促進する類推材料発見の概念に繋がった。 研究されていないペロブスカイトの探索空間は、実験データを用いたMLモデルと自動化Webマイニングツールを用いて、約600,000個の実現可能な化合物から94%の成功率でスクリーニングされる。 この概念はさらに、複雑な合成の相転移と計算モデルに関する洞察を与える。 既存の資料文献と未発見の地形とのギャップを埋めるため,資料類推の定量的解析が期待されている。

Compositional disorder induces myriad captivating phenomena in perovskites. Target-driven discovery of perovskite solid solutions has been a great challenge due to the analytical complexity introduced by disorder. Here, we demonstrate that an unsupervised deep learning strategy can find fingerprints of disordered materials that embed perovskite formability and underlying crystal structure information by learning only from the chemical composition, manifested in (A1-xA'x)BO3 and A(B1-xB'x)O3 formulae. This phenomenon can be capitalized to predict the crystal symmetry of experimental compositions, outperforming several supervised machine learning (ML) algorithms. The educated nature of material fingerprints has led to the conception of analogical materials discovery that facilitates inverse exploration of promising perovskites based on similarity investigation with known materials. The search space of unstudied perovskites is screened from ~600,000 feasible compounds using experimental data powered ML models and automated web mining tools at a 94% success rate. This concept further provides insights on possible phase transitions and computational modelling of complex compositions. The proposed quantitative analysis of materials analogies is expected to bridge the gap between the existing materials literature and the undiscovered terrain.
翻訳日:2021-05-26 18:15:45 公開日:2021-05-25
# (参考訳) 欠測データを用いた時空間観測におけるコンフォメーション異常検出

Conformal Anomaly Detection on Spatio-temporal Observations with Missing Data ( http://arxiv.org/abs/2105.11886v1 )

ライセンス: CC BY 4.0
Chen Xu, Yao Xie(参考訳) 我々は,任意の回帰アルゴリズムをラップし,逐次異常を検知するECADという,分布のない教師なし異常検出手法を開発した。 ECADはデータ交換性を必要としないが、通常のデータではType-Iエラーをほぼ制御する。 データ分割を行わず、統計力を高めるために効率よくアンサンブル予測器を訓練する。 異常時空間交通流の検出におけるECADの優れた性能を示す。

We develop a distribution-free, unsupervised anomaly detection method called ECAD, which wraps around any regression algorithm and sequentially detects anomalies. Rooted conformal prediction, ECAD does not require data exchangeability but approximately controls the Type-I error when data are normal. Computationally, it involves no data-splitting and efficiently trains ensemble predictors to increase statistical power. We demonstrate the superior performance of ECAD on detecting anomalous spatio-temporal traffic flow.
翻訳日:2021-05-26 17:46:16 公開日:2021-05-25
# (参考訳) ログベースロバストPCAを用いたハイパースペクトル画像デノーミング

Hyperspectral Image Denoising with Log-Based Robust PCA ( http://arxiv.org/abs/2105.11927v1 )

ライセンス: CC BY 4.0
Yang Liu, Qian Zhang, Yongyong Chen, Qiang Cheng and Chong Peng(参考訳) ハイパースペクトル画像(hsis)から重く混入したノイズを除去することは難しい課題である。 本稿では,hsi 除算のための rpca に対する新しい非凸的アプローチを提案する。これは対数決定ランク近似(log- determinant rank approximation)と新しい $\ell_{2,\log}$ norm を用いて,成分行列の低ランクあるいは列方向のスパース特性をそれぞれ制限する。 シミュレーションおよび実HSIの広汎な実験により,提案手法の有効性が示された。

It is a challenging task to remove heavy and mixed types of noise from Hyperspectral images (HSIs). In this paper, we propose a novel nonconvex approach to RPCA for HSI denoising, which adopts the log-determinant rank approximation and a novel $\ell_{2,\log}$ norm, to restrict the low-rank or column-wise sparse properties for the component matrices, respectively.For the $\ell_{2,\log}$-regularized shrinkage problem, we develop an efficient, closed-form solution, which is named $\ell_{2,\log}$-shrinkage operator, which can be generally used in other problems. Extensive experiments on both simulated and real HSIs demonstrate the effectiveness of the proposed method in denoising HSIs.
翻訳日:2021-05-26 17:34:07 公開日:2021-05-25
# (参考訳) 信念から行動へのコミュニケーションの合理的モデルの拡張

Extending rational models of communication from beliefs to actions ( http://arxiv.org/abs/2105.11950v1 )

ライセンス: CC BY 4.0
Theodore R. Sumers, Robert D. Hawkins, Mark K. Ho, Thomas L. Griffiths(参考訳) 話し手は相手の信念に影響を与え、行動を形成する。 信念と行動に基づく目標は、近年の計算モデルで独立に研究されてきたが、それらを明示的に比較または統合することは困難である。 実際、標準的な参照通信タスクで混在していることがわかった。 これらの説明を区別するために、シグナリングバンディットと呼ばれる新しいパラダイムを導入し、クラシックルイスシグナリングゲームを、コンテキスト内のすべてのターゲットがある程度の相対的価値を持つマルチアーム付きバンディット設定に一般化する。 3つの話者モデルを開発する: 純粋に有意な目的を持つ信念指向話者, 器用な目的を持つ行動指向話者, 一般に望ましい行動につながるリスナーの信念を誘導することによってこれら2つを統合する複合話者。 そこで我々は,将来のリスナー行動における生産選択が関連性効果と非リテラル言語の柔軟な利用をもたらすことを示す一連のシミュレーションを示す。 より広範に、よりリッチな意思決定問題に基づく言語ゲームは、合理的コミュニケーションに関する洞察を得るための有望な道であることを示す。

Speakers communicate to influence their partner's beliefs and shape their actions. Belief- and action-based objectives have been explored independently in recent computational models, but it has been challenging to explicitly compare or integrate them. Indeed, we find that they are conflated in standard referential communication tasks. To distinguish these accounts, we introduce a new paradigm called signaling bandits, generalizing classic Lewis signaling games to a multi-armed bandit setting where all targets in the context have some relative value. We develop three speaker models: a belief-oriented speaker with a purely informative objective; an action-oriented speaker with an instrumental objective; and a combined speaker which integrates the two by inducing listener beliefs that generally lead to desirable actions. We then present a series of simulations demonstrating that grounding production choices in future listener actions results in relevance effects and flexible uses of nonliteral language. More broadly, our findings suggest that language games based on richer decision problems are a promising avenue for insight into rational communication.
翻訳日:2021-05-26 17:20:49 公開日:2021-05-25
# (参考訳) 教育可能な自律エージェントを目指して

Towards Teachable Autonomous Agents ( http://arxiv.org/abs/2105.11977v1 )

ライセンス: CC BY 4.0
Olivier Sigaud and Hugo Caselles-Dupr\'e and C\'edric Colas and Ahmed Akakzia and Pierre-Yves Oudeyer and Mohamed Chetouani(参考訳) 自律的発見と直接指導は、子供における極端な学習の源であるが、教育科学は、発見支援や指導遊びのような中間的なアプローチが、より優れたスキルの獲得に繋がることを示した。 人工知能に目を向けると、上記の二分法は、孤立して学習する自律エージェントと、社会的パートナーによって教えられるが一般的に自律性を持たない対話型学習エージェントの区別に変換される。 内部と内部の両方から学習するエージェントは、発見を補助する高い効率の恩恵を受ける。 このようなエージェントは現実世界で自分自身で学習できるが、専門家でないユーザは期待に応えて学習行動を推進できる。 より根本的には、両方の能力を組み合わせることは、汎用インテリジェンスにとって重要なステップである。 本稿では,この研究線に沿った障害を解明する。 まず、Brunerの専門的な研究に基づいて、支援された発見プロセスの特徴を抽出する。 第2に, オートテコール剤の最近の研究について述べる。 自らの目標を表現し、自己生成し、追求することを可能にする、本質的な動機づけの形式を備えたエージェント。 我々は、自律的な能力が、教育可能で自律的なエージェントへの道を歩んでいると論じている。 最後に,学習者同士のインタラクションを学習する上での社会的学習の視点を取り入れ,自然教育を用いて一般人が教える前に,現在オートテリックエージェントに欠落しているいくつかの要素を強調し,この視点から生み出す特定の研究課題のリストを提供する。

Autonomous discovery and direct instruction are two extreme sources of learning in children, but educational sciences have shown that intermediate approaches such as assisted discovery or guided play resulted in better acquisition of skills. When turning to Artificial Intelligence, the above dichotomy is translated into the distinction between autonomous agents which learn in isolation and interactive learning agents which can be taught by social partners but generally lack autonomy. In between should stand teachable autonomous agents: agents learning from both internal and teaching signals to benefit from the higher efficiency of assisted discovery. Such agents could learn on their own in the real world, but non-expert users could drive their learning behavior towards their expectations. More fundamentally, combining both capabilities might also be a key step towards general intelligence. In this paper we elucidate obstacles along this research line. First, we build on a seminal work of Bruner to extract relevant features of the assisted discovery processes. Second, we describe current research on autotelic agents, i.e. agents equipped with forms of intrinsic motivations that enable them to represent, self-generate and pursue their own goals. We argue that autotelic capabilities are paving the way towards teachable and autonomous agents. Finally, we adopt a social learning perspective on tutoring interactions and we highlight some components that are currently missing to autotelic agents before they can be taught by ordinary people using natural pedagogy, and we provide a list of specific research questions that emerge from this perspective.
翻訳日:2021-05-26 17:06:33 公開日:2021-05-25
# (参考訳) 疎二次プログラムのための主成分階層

Principal Component Hierarchy for Sparse Quadratic Programs ( http://arxiv.org/abs/2105.12022v1 )

ライセンス: CC BY 4.0
Robbie Vreugdenhil, Viet Anh Nguyen, Armin Eftekhari, Peyman Mohajerin Esfahani(参考訳) 本稿では,二次行列の階数決定固有ベクトルを利用する濃度制約付き凸二次プログラムに対する新しい近似階層を提案する。 それぞれのレベルの近似は、連続変数の凸性を保ちながら、目的関数をバイナリ変数に対して解析的に最適化できる min-max 特性を持つ。 この特性をエクスプロイトし、「最良の応答」と「双対プログラム」という2つのスケーラブルな最適化アルゴリズムを提案し、元のプログラムのゼロでない要素の潜在的な指標を効率的にスクリーニングする。 提案手法は,現在の分散回帰文学における既存のスクリーニング手法と競合することを示し,合成データと実データの両方を用いた実験において,高い測定値を持つインスタンスでは特に高速であることを示した。

We propose a novel approximation hierarchy for cardinality-constrained, convex quadratic programs that exploits the rank-dominating eigenvectors of the quadratic matrix. Each level of approximation admits a min-max characterization whose objective function can be optimized over the binary variables analytically, while preserving convexity in the continuous variables. Exploiting this property, we propose two scalable optimization algorithms, coined as the "best response" and the "dual program", that can efficiently screen the potential indices of the nonzero elements of the original program. We show that the proposed methods are competitive with the existing screening methods in the current sparse regression literature, and it is particularly fast on instances with high number of measurements in experiments with both synthetic and real datasets.
翻訳日:2021-05-26 17:05:10 公開日:2021-05-25
# (参考訳) BASS: 統一セマンティックグラフによる抽象要約の強化

BASS: Boosting Abstractive Summarization with Unified Semantic Graph ( http://arxiv.org/abs/2105.12041v1 )

ライセンス: CC BY 4.0
Wenhao Wu, Wei Li, Xinyan Xiao, Jiachen Liu, Ziqiang Cao, Sujian Li, Hua Wu, Haifeng Wang(参考訳) Seq2Seqは、テキストの長距離関係を解析するのが得意ではないため、Seq2Seqアーキテクチャでは、長いドキュメントや複数ドキュメントの抽象的な要約は依然として難しい。 本稿では,多種多様な文脈に散在する共参照句を集約し,フレーズ間の豊富な関係を伝達する,統一セマンティックグラフに基づく抽象要約の促進のための新しいフレームワークであるBASSを提案する。 さらに,グラフ構造を利用して文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。 具体的には,テキスト中の暗黙的関係と暗黙的関係の両方をエンコードするグラフ拡張手法を,デコーダでグラフプロパゲーションアテンション機構を開発し,サマリに有意な内容を選択する。 実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。

Abstractive summarization for long-document or multi-document remains challenging for the Seq2Seq architecture, as Seq2Seq is not good at analyzing long-distance relations in text. In this paper, we present BASS, a novel framework for Boosting Abstractive Summarization based on a unified Semantic graph, which aggregates co-referent phrases distributing across a long range of context and conveys rich relations between phrases. Further, a graph-based encoder-decoder model is proposed to improve both the document representation and summary generation process by leveraging the graph structure. Specifically, several graph augmentation methods are designed to encode both the explicit and implicit relations in the text while the graph-propagation attention mechanism is developed in the decoder to select salient content into the summary. Empirical results show that the proposed architecture brings substantial improvements for both long-document and multi-document summarization tasks.
翻訳日:2021-05-26 16:40:31 公開日:2021-05-25
# (参考訳) 変圧器を用いた時間行動生成

Temporal Action Proposal Generation with Transformers ( http://arxiv.org/abs/2105.12043v1 )

ライセンス: CC BY 4.0
Lining Wang, Haosen Yang, Wenhao Wu, Hongxun Yao, Hujie Huang(参考訳) トランスフォーマーネットワークは、長距離文脈情報のモデリングに有効であり、最近自然言語処理領域における模範的性能を実証している。 伝統的に、時間的行動提案生成(TAPG)タスクは、フレームレベルの依存関係とプロポーザルレベルの関係に依存する境界予測とプロポーザル信頼予測の2つの主要なサブタスクに分けられる。 粒度の異なるレベルでの依存関係を捉えるため,本論文では,境界トランスと提案トランスからなるtapgトランスと呼ばれる,オリジナルトランスを用いた統合時相動作提案生成フレームワークを直感的に提示する。 具体的には、境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測し、提案変換器は、信頼できる信頼度評価のために、豊富な確率間関係を学習する。 ActivityNet-1.3 と THUMOS14 の2つの一般的なベンチマークで大規模な実験が行われ、TAPG Transformer が最先端の手法より優れていることを示した。 本手法は,既存の行動分類器を備え,時間的行動局所化タスクにおいて顕著な性能を実現する。 コードとモデルは利用可能だ。

Transformer networks are effective at modeling long-range contextual information and have recently demonstrated exemplary performance in the natural language processing domain. Conventionally, the temporal action proposal generation (TAPG) task is divided into two main sub-tasks: boundary prediction and proposal confidence prediction, which rely on the frame-level dependencies and proposal-level relationships separately. To capture the dependencies at different levels of granularity, this paper intuitively presents a unified temporal action proposal generation framework with original Transformers, called TAPG Transformer, which consists of a Boundary Transformer and a Proposal Transformer. Specifically, the Boundary Transformer captures long-term temporal dependencies to predict precise boundary information and the Proposal Transformer learns the rich inter-proposal relationships for reliable confidence evaluation. Extensive experiments are conducted on two popular benchmarks: ActivityNet-1.3 and THUMOS14, and the results demonstrate that TAPG Transformer outperforms state-of-the-art methods. Equipped with the existing action classifier, our method achieves remarkable performance on the temporal action localization task. Codes and models will be available.
翻訳日:2021-05-26 16:13:00 公開日:2021-05-25
# (参考訳) DSANet:ビデオレベル表現学習のための動的セグメント集約ネットワーク

DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning ( http://arxiv.org/abs/2105.12085v1 )

ライセンス: CC BY 4.0
Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi(参考訳) 長距離・短距離時間モデリングはビデオ認識の相補的かつ重要な2つの側面である。 最先端技術のほとんどは、短距離時空間モデリングに焦点を合わせ、次に複数のスニペットレベルの予測を平均して、最終的なビデオレベルの予測を生成する。 したがって、ビデオレベルの予測は、ビデオが時間次元に沿ってどのように進化するかの時空間的特徴を考慮しない。 本稿では,スニペット間の関係を捉える新しい動的セグメント集約(DSA)モジュールを提案する。 より具体的には、隣り合うスニペット間の長距離時間情報を適応的に集約する畳み込み演算のための動的カーネルを生成する。 DSAモジュールは効率的なプラグアンドプレイモジュールであり、市販のクリップベースモデル(TSM、I3D)と組み合わせて、最小限のオーバーヘッドで強力な長距離モデリングを行うことができる。 最後のビデオアーキテクチャはDSANetと命名された。 我々は,ビデオ認識ベンチマーク(Mini-Kinetics-200,Kineetics-400,Something V1,ActivityNet)において,その優位性を示す広範な実験を行った。 提案するDSAモジュールは,様々なビデオ認識モデルに有益であることを示す。 例えば、DSAモジュールを装備したI3D ResNet-50のTop-1精度は、Kinetics-400では74.9%から78.2%に改善された。 コードは利用可能だ。

Long-range and short-range temporal modeling are two complementary and crucial aspects of video recognition. Most of the state-of-the-arts focus on short-range spatio-temporal modeling and then average multiple snippet-level predictions to yield the final video-level prediction. Thus, their video-level prediction does not consider spatio-temporal features of how video evolves along the temporal dimension. In this paper, we introduce a novel Dynamic Segment Aggregation (DSA) module to capture relationship among snippets. To be more specific, we attempt to generate a dynamic kernel for a convolutional operation to aggregate long-range temporal information among adjacent snippets adaptively. The DSA module is an efficient plug-and-play module and can be combined with the off-the-shelf clip-based models (i.e., TSM, I3D) to perform powerful long-range modeling with minimal overhead. The final video architecture, coined as DSANet. We conduct extensive experiments on several video recognition benchmarks (i.e., Mini-Kinetics-200, Kinetics-400, Something-Something V1 and ActivityNet) to show its superiority. Our proposed DSA module is shown to benefit various video recognition models significantly. For example, equipped with DSA modules, the top-1 accuracy of I3D ResNet-50 is improved from 74.9% to 78.2% on Kinetics-400. Codes will be available.
翻訳日:2021-05-26 16:08:18 公開日:2021-05-25
# (参考訳) 次世代モバイル決済システムにおけるセキュリティ:包括的調査

Security in Next Generation Mobile Payment Systems: A Comprehensive Survey ( http://arxiv.org/abs/2105.12097v1 )

ライセンス: CC BY 4.0
Waqas Ahmed, Amir Rasool, Jamel Nebhen, Neeraj Kumar, Faisal Shahzad, Abdul RehmanJaved, Thippa Reddy Gadekallu, Zunera Jalil(参考訳) いくつかの市場ではまだ現金の支払いが支配的であり、開発途上国のほとんどで90%以上を支払っている。 今の時代には、携帯電話の利用はごく普通だ。 携帯電話は多くのユーザーにとって不可分な友達になり、単なるコミュニケーションツール以上のものを提供している。 その後のすべての人は、多面的使用と手頃さのために、それらに強く依存している。 誰もが自分の携帯電話を使って日々の取引や関連する問題を管理したい。 モバイル固有のセキュリティの高まりと進歩により、脅威も進化している。 本稿では,携帯電話の各種セキュリティモデルについて調査する。 我々は,モバイル決済システム(MPS)の複数のモデル,その技術と比較,支払い方法,MPSに関わる異なるセキュリティ機構について検討し,MPSにおける暗号化技術,認証方法,ファイアウォールの分析を行う。 携帯電話のセキュリティに関する現在の課題と今後の方向性を示す。

Cash payment is still king in several markets, accounting for more than 90\ of the payments in almost all the developing countries. The usage of mobile phones is pretty ordinary in this present era. Mobile phones have become an inseparable friend for many users, serving much more than just communication tools. Every subsequent person is heavily relying on them due to multifaceted usage and affordability. Every person wants to manage his/her daily transactions and related issues by using his/her mobile phone. With the rise and advancements of mobile-specific security, threats are evolving as well. In this paper, we provide a survey of various security models for mobile phones. We explore multiple proposed models of the mobile payment system (MPS), their technologies and comparisons, payment methods, different security mechanisms involved in MPS, and provide analysis of the encryption technologies, authentication methods, and firewall in MPS. We also present current challenges and future directions of mobile phone security.
翻訳日:2021-05-26 15:46:18 公開日:2021-05-25
# (参考訳) 高精度でロバストな医用画像分割のためのadversarial attack driven data augmentation

Adversarial Attack Driven Data Augmentation for Accurate And Robust Medical Image Segmentation ( http://arxiv.org/abs/2105.12106v1 )

ライセンス: CC BY 4.0
Mst. Tasnim Pervin, Linmi Tao, Aminul Huq, Zuoxiang He, Li Huo(参考訳) セグメンテーションは医用画像解析において非常に重要な課題であると考えられている。 このタスクは、ディープラーニングモデルがハイパフォーマンスな振る舞いを引き継いで以来、容易になっている。 しかし,大規模なデータに依存する深層学習モデルは,不十分なデータサンプルのため,医用画像解析の障害となる。 この問題を解決するために、いくつかのデータ拡張技術が使われている。 本稿では,FGSM(Fast Gradient Sign Method)という逆学習攻撃手法を導入することで,新たな拡張手法を提案する。 さらに,データ拡張のための逆FGSM(InvFGSM)の概念も導入した。 この2つのアプローチは、セグメンテーションの精度を向上させるために協力し、モデルが敵の攻撃に対して堅牢性を得るのを助けた。 実験の全体的分析は、ロバスト性向上とともに、新しい対向機械学習の使用を示している。

Segmentation is considered to be a very crucial task in medical image analysis. This task has been easier since deep learning models have taken over with its high performing behavior. However, deep learning models dependency on large data proves it to be an obstacle in medical image analysis because of insufficient data samples. Several data augmentation techniques have been used to mitigate this problem. We propose a new augmentation method by introducing adversarial learning attack techniques, specifically Fast Gradient Sign Method (FGSM). Furthermore, We have also introduced the concept of Inverse FGSM (InvFGSM), which works in the opposite manner of FGSM for the data augmentation. This two approaches worked together to improve the segmentation accuracy, as well as helped the model to gain robustness against adversarial attacks. The overall analysis of experiments indicates a novel use of adversarial machine learning along with robustness enhancement.
翻訳日:2021-05-26 15:45:17 公開日:2021-05-25
# (参考訳) 機械学習と自然言語処理によるMBTIに基づくパーソナリティタイプの抽象化の拡張

Extending the Abstraction of Personality Types based on MBTI with Machine Learning and Natural Language Processing ( http://arxiv.org/abs/2105.11798v1 )

ライセンス: CC BY 4.0
Carlos Basto(参考訳) mbti(introspective self-assesment questionnaire, 内省的自己評価アンケート)に基づくパーソナリティタイプを予測するための自然言語処理(nlp)を用いたデータ中心アプローチは、感情的、文法的、側面の3つの分析に基づく特徴の生成に基づいて、領域のドメインに基づくテキスト表現を体系的に強化することで、パーソナリティタイプを予測する。 実験は、MBTIの4つの分類器(ディコトミー)のそれぞれに対して、グリッドサーチによるハイパーパラメータの早期最適化と段階的なフィードバックにより、積み重ねモデルの堅牢なベースラインを持っていた。 その結果,データ反復ループの注目点は,LSTMやBERTのような美術品の複雑なモデルよりも,評価指標を迅速かつ安価に向上させることができ,また,様々な観点から比較することで,これらの結果の重要性が示唆された。 さらに、この研究はタスクの進化と深化の幅広いスペクトルを示し、パーソナリティタイプの抽象化をさらに拡張するためのアプローチの可能性を示した。

A data-centric approach with Natural Language Processing (NLP) to predict personality types based on the MBTI (an introspective self-assessment questionnaire that indicates different psychological preferences about how people perceive the world and make decisions) through systematic enrichment of text representation, based on the domain of the area, under the generation of features based on three types of analysis: sentimental, grammatical and aspects. The experimentation had a robust baseline of stacked models, with premature optimization of hyperparameters through grid search, with gradual feedback, for each of the four classifiers (dichotomies) of MBTI. The results showed that attention to the data iteration loop focused on quality, explanatory power and representativeness for the abstraction of more relevant/important resources for the studied phenomenon made it possible to improve the evaluation metrics results more quickly and less costly than complex models such as the LSTM or state of the art ones as BERT, as well as the importance of these results by comparisons made from various perspectives. In addition, the study demonstrated a broad spectrum for the evolution and deepening of the task and possible approaches for a greater extension of the abstraction of personality types.
翻訳日:2021-05-26 15:11:06 公開日:2021-05-25
# テキスト生成のための事前学習言語モデル:調査

Pretrained Language Models for Text Generation: A Survey ( http://arxiv.org/abs/2105.10311v2 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) テキスト生成は自然言語処理(NLP)において最も重要かつ困難なタスクの1つとなっている。 ディープラーニングの復活は、ニューラルジェネレーションモデル、特に事前学習言語モデル(plm)のパラダイムによって、この分野を大きく前進させた。 本稿では,テキスト生成のためのPLMの話題において達成された主な進歩について概説する。 予備として、一般的なタスク定義を説明し、テキスト生成のためのplmのメインストリームアーキテクチャを簡潔に説明する。 コアコンテンツとして、既存のPLMを用いて異なる入力データをモデル化し、生成されたテキストの特別な特性を満たす方法について論じる。 さらに,テキスト生成のための重要な微調整戦略についても概説する。 最後に,今後の方向性を示し,本論文をまとめる。 本研究の目的は,テキスト生成研究者に関連研究の合成とポインタを提供することである。

Text generation has become one of the most important yet challenging tasks in natural language processing (NLP). The resurgence of deep learning has greatly advanced this field by neural generation models, especially the paradigm of pretrained language models (PLMs). In this paper, we present an overview of the major advances achieved in the topic of PLMs for text generation. As the preliminaries, we present the general task definition and briefly describe the mainstream architectures of PLMs for text generation. As the core content, we discuss how to adapt existing PLMs to model different input data and satisfy special properties in the generated text. We further summarize several important fine-tuning strategies for text generation. Finally, we present several future directions and conclude this paper. Our survey aims to provide text generation researchers a synthesis and pointer to related research.
翻訳日:2021-05-26 14:37:29 公開日:2021-05-25
# CiteWorth:Cite-Worthiness Detection for Improved Scientific Document Understanding

CiteWorth: Cite-Worthiness Detection for Improved Scientific Document Understanding ( http://arxiv.org/abs/2105.10912v2 )

ライセンス: Link先を確認
Dustin Wright and Isabelle Augenstein(参考訳) データは極めてドメイン固有で多様であるため、科学的文書理解は困難である。 しかし、科学的なテキストを持つタスクのデータセットは、高価な手作業のアノテーションを必要とし、1つまたは少数のフィールドに限られる傾向がある。 同時に、科学文書には、大きなラベル付きデータセットを構築するために使用できる引用など、潜在的なトレーニング信号が多数含まれている。 そこで,本研究では,文が外部ソースを引用するか否かをラベル付けした,英語における引用適性検出に関する詳細な研究を行う。 これを実現するために,抽出された平文科学文書の膨大なコーパスから構築された引用価値検出のための,大きく,文脈化され,厳格に整理されたラベル付きデータセットであるciteworthを紹介する。 我々は、CiteWorthが高品質で、挑戦的で、ドメイン適応のような問題の研究に適していることを示す。 提案手法はLongformerに基づく段落レベルの文ラベル付けモデルであり,個々の文のみを考慮したSciBERTよりも5F1ポイント改善されている。 最後に,第2タスクとしての引用性を考慮した言語モデルの微調整が,下流の科学的文書理解タスクの性能向上につながることを示す。

Scientific document understanding is challenging as the data is highly domain specific and diverse. However, datasets for tasks with scientific text require expensive manual annotation and tend to be small and limited to only one or a few fields. At the same time, scientific documents contain many potential training signals, such as citations, which can be used to build large labelled datasets. Given this, we present an in-depth study of cite-worthiness detection in English, where a sentence is labelled for whether or not it cites an external source. To accomplish this, we introduce CiteWorth, a large, contextualized, rigorously cleaned labelled dataset for cite-worthiness detection built from a massive corpus of extracted plain-text scientific documents. We show that CiteWorth is high-quality, challenging, and suitable for studying problems such as domain adaptation. Our best performing cite-worthiness detection model is a paragraph-level contextualized sentence labelling model based on Longformer, exhibiting a 5 F1 point improvement over SciBERT which considers only individual sentences. Finally, we demonstrate that language model fine-tuning with cite-worthiness as a secondary task leads to improved performance on downstream scientific document understanding tasks.
翻訳日:2021-05-26 14:37:13 公開日:2021-05-25
# 人間中心関係セグメンテーション:データセットと解法

Human-centric Relation Segmentation: Dataset and Solution ( http://arxiv.org/abs/2105.11168v2 )

ライセンス: Link先を確認
Si Liu, Zitian Wang, Yulu Gao, Lejian Ren, Yue Liao, Guanghui Ren, Bo Li, Shuicheng Yan(参考訳) ビジョンと言語理解の技術は目覚ましい進歩を遂げていますが、現在、非常に細かい詳細に関わる問題をうまく処理することは困難です。 例えば、ロボットが「少女の左手に本を持ってこい」と言われたとき、少女が左右に1冊の本を持っていると、既存の方法のほとんどは失敗する。 本研究では,Human-centric relation segmentation (HRS) というタスクを,HOI-detのきめ細かいケースとして紹介する。 HRSは、人間と周囲の実体の関係を予測し、ピクセルレベルのマスクとして表される関係関連した人間の部分を特定することを目的としている。 上記の例の場合、当社のhrsタスクは、この本の3重項<girl [left hand], hold, book>と精密なセグメンテーションマスクという形式で結果を生成します。 このタスクには、17,122の高解像度画像と、141のオブジェクトカテゴリ、23の関連カテゴリ、25のセマンティックヒューマン部分を含む、密接な注釈付きエンティティセグメンテーションと関係を含む、新しいPerson In Context(PIC)データセットが収集されている。 また,HRSタスクの解決策として,同時マッチング・セグメンテーション(SMS)フレームワークを提案する。 I I Outputs of the three branches are fused to produce the final HRS results。 PICとV-COCOデータセットの大規模な実験により、提案手法はベースラインを36FPSの推論速度で上回ることを示した。

Vision and language understanding techniques have achieved remarkable progress, but currently it is still difficult to well handle problems involving very fine-grained details. For example, when the robot is told to "bring me the book in the girl's left hand", most existing methods would fail if the girl holds one book respectively in her left and right hand. In this work, we introduce a new task named human-centric relation segmentation (HRS), as a fine-grained case of HOI-det. HRS aims to predict the relations between the human and surrounding entities and identify the relation-correlated human parts, which are represented as pixel-level masks. For the above exemplar case, our HRS task produces results in the form of relation triplets <girl [left hand], hold, book> and exacts segmentation masks of the book, with which the robot can easily accomplish the grabbing task. Correspondingly, we collect a new Person In Context (PIC) dataset for this new task, which contains 17,122 high-resolution images and densely annotated entity segmentation and relations, including 141 object categories, 23 relation categories and 25 semantic human parts. We also propose a Simultaneous Matching and Segmentation (SMS) framework as a solution to the HRS task. I Outputs of the three branches are fused to produce the final HRS results. Extensive experiments on PIC and V-COCO datasets show that the proposed SMS method outperforms baselines with the 36 FPS inference speed.
翻訳日:2021-05-26 14:36:41 公開日:2021-05-25
# 敵攻撃を誘発するロバストニューラルネットワークの誤分類探索

Exploring Misclassifications of Robust Neural Networks to Enhance Adversarial Attacks ( http://arxiv.org/abs/2105.10304v2 )

ライセンス: Link先を確認
Leo Schwinn, Ren\'e Raab, An Nguyen, Dario Zanca, Bjoern Eskofier(参考訳) ニューラルネットワークを敵の攻撃に対してより堅牢にする進歩は、研究コミュニティの大きな努力にもかかわらず、ほとんど限界である。 さらに、堅牢性の評価はしばしば不正確であり、有望なアプローチを特定することは困難である。 敵の攻撃に対して頑健であるように訓練された19種類の最先端ニューラルネットワークの分類決定を解析した。 以上より,現在の非ターゲティング攻撃は,限られた数の異なるクラスに対して誤分類を誘発することが示唆された。 さらに,モデル予測における過信と過信の両方がモデルロバスト性の不正確な評価をもたらすことを観察した。 そこで本研究では,19のモデルのうち19のモデルに対して,従来よりも攻撃成功率を常に向上させる新たな損失関数を提案する。

Progress in making neural networks more robust against adversarial attacks is mostly marginal, despite the great efforts of the research community. Moreover, the robustness evaluation is often imprecise, making it difficult to identify promising approaches. We analyze the classification decisions of 19 different state-of-the-art neural networks trained to be robust against adversarial attacks. Our findings suggest that current untargeted adversarial attacks induce misclassification towards only a limited amount of different classes. Additionally, we observe that both over- and under-confidence in model predictions result in an inaccurate assessment of model robustness. Based on these observations, we propose a novel loss function for adversarial attacks that consistently improves attack success rate compared to prior loss functions for 19 out of 19 analyzed models.
翻訳日:2021-05-26 14:35:57 公開日:2021-05-25
# Dorylus: 分散CPUサーバとサーバレススレッドによるGNNトレーニングの強化、スケーラブル化、高精度化

Dorylus: Affordable, Scalable, and Accurate GNN Training with Distributed CPU Servers and Serverless Threads ( http://arxiv.org/abs/2105.11118v2 )

ライセンス: Link先を確認
John Thorpe, Yifan Qiao, Jonathan Eyolfson, Shen Teng, Guanzhou Hu, Zhihao Jia, Jinliang Wei, Keval Vora, Ravi Netravali, Miryung Kim, Guoqing Harry Xu(参考訳) グラフニューラルネットワーク(GNN)は、構造化グラフデータの深層学習を可能にする。 主要なgnnトレーニングの障害は2つある: 1)多くのgpuを持つハイエンドサーバに依存しており、購入とメンテナンスに費用がかかる、2)gpu上のメモリ制限は今日の10億エッジグラフではスケールできない。 本稿では,GNNを学習するための分散システムDorylusについて述べる。 ユニークなことに、dorylusはサーバーレスコンピューティングを利用して、低コストでスケーラビリティを向上させることができる。 私たちの設計を導く重要な洞察は、計算の分離です。 計算分離により、グラフとテンソル並列タスクが完全に重複し、Lambdaが生み出すネットワーク遅延を効果的に隠蔽する、深い境界付き非同期パイプラインを構築することができる。 数千のLambdaスレッドの助けを借りて、DrylusはGNNトレーニングを10億のエッジグラフにスケールする。 現在、大規模なグラフでは、CPUサーバはGPUサーバーよりも最高のパフォーマンスを提供する。 CPUサーバ上でLambdaを使用すると、CPUサーバでのトレーニングよりも最大2.75倍パフォーマンスが向上する。 具体的には、dorylusは1.22倍高速で、大規模なスパースグラフ用のgpuサーバより4.83倍安くなる。 Dorylusは既存のサンプリングベースシステムに比べて最大3.8倍高速、10.7倍安価である。

A graph neural network (GNN) enables deep learning on structured graph data. There are two major GNN training obstacles: 1) it relies on high-end servers with many GPUs which are expensive to purchase and maintain, and 2) limited memory on GPUs cannot scale to today's billion-edge graphs. This paper presents Dorylus: a distributed system for training GNNs. Uniquely, Dorylus can take advantage of serverless computing to increase scalability at a low cost. The key insight guiding our design is computation separation. Computation separation makes it possible to construct a deep, bounded-asynchronous pipeline where graph and tensor parallel tasks can fully overlap, effectively hiding the network latency incurred by Lambdas. With the help of thousands of Lambda threads, Dorylus scales GNN training to billion-edge graphs. Currently, for large graphs, CPU servers offer the best performance-per-dollar over GPU servers. Just using Lambdas on top of CPU servers offers up to 2.75x more performance-per-dollar than training only with CPU servers. Concretely, Dorylus is 1.22x faster and 4.83x cheaper than GPU servers for massive sparse graphs. Dorylus is up to 3.8x faster and 10.7x cheaper compared to existing sampling-based systems.
翻訳日:2021-05-26 14:35:40 公開日:2021-05-25
# visitron: 対話的に訓練されたオブジェクトナビゲータ

VISITRON: Visual Semantics-Aligned Interactively Trained Object-Navigator ( http://arxiv.org/abs/2105.11589v1 )

ライセンス: Link先を確認
Ayush Shrivastava, Karthik Gopalakrishnan, Yang Liu, Robinson Piramuthu, Gokhan T\"ur, Devi Parikh, Dilek Hakkani-T\"ur(参考訳) フォトリアリスティックな環境をナビゲートするインタラクティブロボットは、視覚言語ナビゲーション(vln)の基盤となる課題に直面しているが、対話のダイナミックな性質を扱うように訓練する必要がある。 しかしながら、ナビゲータが目標を達成するために自然言語のガイドと対話するコラボレーティブビジョン・アンド・ダイアログナビゲーション(CVDN)の研究は、対話履歴をVLNスタイルの静的命令として扱う。 本稿では, cvdnに固有な対話型システムに適したナビゲータである visitron について, i) 環境と対話履歴間のオブジェクトレベルの概念と意味を識別・関連付けること, ii) バイナリ分類ヘッドの模倣学習による対話とナビゲータの対話のタイミングを識別すること, について述べる。 CVDNの性能向上と経験的洞察を得るため,VISITRONによる広範囲な改善を行った。 VISITRONは、静的CVDNリーダーボードのモデルと競合する。 また,VISITRONを微調整する汎用対話型システムを提案し,適応性向上のための事前学習ガイドを用いた将来のモデルについて検討する。

Interactive robots navigating photo-realistic environments face challenges underlying vision-and-language navigation (VLN), but in addition, they need to be trained to handle the dynamic nature of dialogue. However, research in Cooperative Vision-and-Dialog Navigation (CVDN), where a navigator interacts with a guide in natural language in order to reach a goal, treats the dialogue history as a VLN-style static instruction. In this paper, we present VISITRON, a navigator better suited to the interactive regime inherent to CVDN by being trained to: i) identify and associate object-level concepts and semantics between the environment and dialogue history, ii) identify when to interact vs. navigate via imitation learning of a binary classification head. We perform extensive ablations with VISITRON to gain empirical insights and improve performance on CVDN. VISITRON is competitive with models on the static CVDN leaderboard. We also propose a generalized interactive regime to fine-tune and evaluate VISITRON and future such models with pre-trained guides for adaptability.
翻訳日:2021-05-26 14:35:12 公開日:2021-05-25
# ViBERTgrid: ドキュメントからキー情報抽出のための共同学習型マルチモーダル2次元文書表現

ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents ( http://arxiv.org/abs/2105.11672v1 )

ライセンス: Link先を確認
Weihong Lin, Qifang Gao, Lei Sun, Zhuoyao Zhong, Kai Hu, Qin Ren, Qiang Huo(参考訳) BERTgridのような最近のグリッドベースの文書表現では、文書のテキスト情報とレイアウト情報を2次元特徴マップに同時符号化することで、最先端の画像セグメント化やオブジェクト検出モデルを簡単に活用して文書からキー情報を抽出することができる。 しかし、そのような方法は最先端のシーケンスやlayoutlmやpickのようなグラフベースのメソッドと同等の性能を達成していない。 本稿では,BERTgrid を CNN モデルの中間層に結合し,CNN の入力を文書画像とし,BERTgrid を単語埋め込みのグリッドとし,より強力なグリッドベースの文書表現である ViBERTgrid を生成する,新しいマルチモーダルバックボーンネットワークを提案する。 BERTgridと異なり、マルチモーダルバックボーンネットワークにおけるBERTとCNNのパラメータは共同で訓練される。 実験結果から,この共同学習戦略はViBERTgridの表現能力を大幅に向上させることが示された。 その結果、我々のViBERTgridベースのキー情報抽出アプローチは、実世界のデータセット上で最先端のパフォーマンスを達成した。

Recent grid-based document representations like BERTgrid allow the simultaneous encoding of the textual and layout information of a document in a 2D feature map so that state-of-the-art image segmentation and/or object detection models can be straightforwardly leveraged to extract key information from documents. However, such methods have not achieved comparable performance to state-of-the-art sequence- and graph-based methods such as LayoutLM and PICK yet. In this paper, we propose a new multi-modal backbone network by concatenating a BERTgrid to an intermediate layer of a CNN model, where the input of CNN is a document image and the BERTgrid is a grid of word embeddings, to generate a more powerful grid-based document representation, named ViBERTgrid. Unlike BERTgrid, the parameters of BERT and CNN in our multimodal backbone network are trained jointly. Our experimental results demonstrate that this joint training strategy improves significantly the representation ability of ViBERTgrid. Consequently, our ViBERTgrid-based key information extraction approach has achieved state-of-the-art performance on real-world datasets.
翻訳日:2021-05-26 14:34:21 公開日:2021-05-25
# 深部時空間予測における不確かさの定量化

Quantifying Uncertainty in Deep Spatiotemporal Forecasting ( http://arxiv.org/abs/2105.11982v1 )

ライセンス: Link先を確認
Dongxia Wu, Liyao Gao, Xinyue Xiong, Matteo Chinazzi, Alessandro Vespignani, Yi-An Ma, Rose Yu(参考訳) 時空間予測の深層学習の人気が高まっている。 しかし、先行研究は主に予測の不確かさを定量化せずに点推定に焦点を当ててきた。 ハイステークス領域では、信頼区間で確率的予測を生成できることはリスク評価と意思決定に不可欠である。 そのため、地域社会では時空間予測のための不確実性定量化(UQ)手法の体系的研究が欠落している。 本稿では,正規格子ベースとグラフベースの2種類の時空間予測問題について述べる。 次にベイズ的および頻繁な視点からUQ法を解析し,統計的決定理論を通じて統一的な枠組みにキャストする。 実世界の道路網のトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計的および計算的トレードオフを明らかにする。 計算上、質的回帰型手法は単一の信頼区間でより安価であるが、異なる間隔で再訓練する必要がある。 サンプリングに基づく手法は、より高い計算コストで複数の信頼区間を形成することができるサンプルを生成する。

Deep learning is gaining increasing popularity for spatiotemporal forecasting. However, prior works have mostly focused on point estimates without quantifying the uncertainty of the predictions. In high stakes domains, being able to generate probabilistic forecasts with confidence intervals is critical to risk assessment and decision making. Hence, a systematic study of uncertainty quantification (UQ) methods for spatiotemporal forecasting is missing in the community. In this paper, we describe two types of spatiotemporal forecasting problems: regular grid-based and graph-based. Then we analyze UQ methods from both the Bayesian and the frequentist point of view, casting in a unified framework via statistical decision theory. Through extensive experiments on real-world road network traffic, epidemics, and air quality forecasting tasks, we reveal the statistical and computational trade-offs for different UQ methods: Bayesian methods are typically more robust in mean prediction, while confidence levels obtained from frequentist methods provide more extensive coverage over data variations. Computationally, quantile regression type methods are cheaper for a single confidence interval but require re-training for different intervals. Sampling based methods generate samples that can form multiple confidence intervals, albeit at a higher computational cost.
翻訳日:2021-05-26 14:33:55 公開日:2021-05-25
# ランダムユーティリティ逆強化学習による軌道モデリング

Trajectory Modeling via Random Utility Inverse Reinforcement Learning ( http://arxiv.org/abs/2105.12092v1 )

ライセンス: Link先を確認
Anselmo R. Pitombeira-Neto, Helano P. Santos, Ticiana L. Coelho da Silva, Jos\'e Antonio F. de Macedo(参考訳) 道路ネットワークにおけるドライバの軌跡を逆強化学習の観点からモデル化することの問題点を考察する。 合理的なエージェントとして、ドライバーは軌道を構成するときに外部のオブザーバーに未知の報酬関数を最大化しようとしている。 マイクロ経済理論からランダム効用の概念を適用し、未知の報酬関数を観測可能な特徴の関数としてモデル化する。 我々は,ドライバ決定のランダムな効用マルコフ決定過程の定式化に基づいて,軌跡のパラメータ化生成モデルを開発した。 また, 最大エントロピー逆強化学習は, 非観測報酬誤差項に対してガムベル密度関数を仮定した場合, 提案手法の具体例であることを示す。 本研究では,街路網の分散点にセンサを配置した大規模都市における実軌道データを用いて,モデルパラメータのベイズ推定を行う。

We consider the problem of modeling trajectories of drivers in a road network from the perspective of inverse reinforcement learning. As rational agents, drivers are trying to maximize some reward function unknown to an external observer as they make up their trajectories. We apply the concept of random utility from microeconomic theory to model the unknown reward function as a function of observable features plus an error term which represents features known only to the driver. We develop a parameterized generative model for the trajectories based on a random utility Markov decision process formulation of drivers decisions. We show that maximum entropy inverse reinforcement learning is a particular case of our proposed formulation when we assume a Gumbel density function for the unobserved reward error terms. We illustrate Bayesian inference on model parameters through a case study with real trajectory data from a large city obtained from sensors placed on sparsely distributed points on the street network.
翻訳日:2021-05-26 14:33:27 公開日:2021-05-25
# ディープスパイクニューラルネットワークにおける高速かつ高精度なANN-SNN変換

Optimal ANN-SNN Conversion for Fast and Accurate Inference in Deep Spiking Neural Networks ( http://arxiv.org/abs/2105.11654v1 )

ライセンス: Link先を確認
Jianhao Ding, Zhaofei Yu, Yonghong Tian and Tiejun Huang(参考訳) バイオインスパイアされたエネルギー効率の高いニューラルネットワークであるスパイキングニューラルネットワーク(SNN)は、研究者や業界から大きな注目を集めている。 ディープSNNを訓練する最も効率的な方法は、ANN-SNN変換である。 しかし、変換は通常、精度の損失と長い推論時間に悩まされ、snnの実用的利用を妨げる。 本稿では,ANN-SNN変換を理論的に解析し,最適変換の十分な条件を導出する。 ANN-SNNの相関性を向上し、精度を高めるために、トレーニング済みのANNからSNNへの直接変換を可能にするソースANNトレーニングにおいて、ReLUアクティベーション関数を置き換えるためのレートノーム層を提案する。 さらに、ソースANNの活性化値とターゲットSNNの実際の発射速度との適合性を定量化する最適適合曲線を提案する。 修正ANNにおける適合曲線の上界を最適化し,高速な推論を行うことにより,推定時間を短縮できることを示す。 我々の理論は、高速推論に関する既存の研究を説明し、より良い結果を得ることができる。 実験結果から,提案手法はVGG-16, PreActResNet-18, 及びより深い構造を用いて, ほぼ損失の少ない変換を実現することがわかった。 さらに、従来の0.265倍のエネルギー消費で8.6倍高速な推論性能が得られる。 コードはhttps://github.com/DingJianhao/OptSNNConvertion-RNL-RILで公開されている。

Spiking Neural Networks (SNNs), as bio-inspired energy-efficient neural networks, have attracted great attentions from researchers and industry. The most efficient way to train deep SNNs is through ANN-SNN conversion. However, the conversion usually suffers from accuracy loss and long inference time, which impede the practical application of SNN. In this paper, we theoretically analyze ANN-SNN conversion and derive sufficient conditions of the optimal conversion. To better correlate ANN-SNN and get greater accuracy, we propose Rate Norm Layer to replace the ReLU activation function in source ANN training, enabling direct conversion from a trained ANN to an SNN. Moreover, we propose an optimal fit curve to quantify the fit between the activation value of source ANN and the actual firing rate of target SNN. We show that the inference time can be reduced by optimizing the upper bound of the fit curve in the revised ANN to achieve fast inference. Our theory can explain the existing work on fast reasoning and get better results. The experimental results show that the proposed method achieves near loss less conversion with VGG-16, PreActResNet-18, and deeper structures. Moreover, it can reach 8.6x faster reasoning performance under 0.265x energy consumption of the typical method. The code is available at https://github.com/DingJianhao/OptSNNConvertion-RNL-RIL.
翻訳日:2021-05-26 14:33:06 公開日:2021-05-25
# FNAS:不確実性を意識した高速ニューラルネットワーク検索

FNAS: Uncertainty-Aware Fast Neural Architecture Search ( http://arxiv.org/abs/2105.11694v1 )

ライセンス: Link先を確認
Jihao Liu and Ming Zhang and Yangting Sun and Boxiao Liu and Guanglu Song and Yu Liu and Hongsheng Li(参考訳) 強化学習(rl)ベースのニューラルネットワーク検索(nas)は一般的に、コンバージェンスの改善を保証するが、プロキシタスクのサンプル生成毎に徹底的なトレーニングを行うロールアウトボトルネックのため、勾配ベースのアプローチと比較して、巨大な計算リソースを必要とする。 本稿では,nasにおけるrlプロセスと同様にロールアウトプロセスの収束を加速する一般的なパイプラインを提案する。 アーキテクチャとパラメータの知識の両方が異なる実験と異なるタスクの間で移動可能であるという興味深い観察から動機づけられている。 まず,事前実験におけるアーキテクチャ知識を活用し,学習過程を安定化し,探索時間を4倍短縮するために,近方政策最適化(ppo)における不確実性認識批判(価値関数)を導入する。 さらに、パラメータ知識を利用するためにブロック類似度関数と共にアーキテクチャ知識プールを提案し、探索時間を2倍短縮する。 rlベースのnasでブロックレベルの重量共有を導入した最初の例である。 ブロック類似度関数は、厳密な公正度で100%ヒット比を保証する。 さらに,RL最適化における「リプレイバッファ」に使用される単純なオフポリティ補正係数により,検索時間の半減効果が得られた。 Mobile Neural Architecture Search (MNAS) サーチスペースの実験では、提案されたFast Neural Architecture Search (FNAS) が標準のRLベースのNASプロセスを約10倍加速することを示した。 256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS) は、様々なビジョンタスクのパフォーマンスを保証する。

Reinforcement learning (RL)-based neural architecture search (NAS) generally guarantees better convergence yet suffers from the requirement of huge computational resources compared with gradient-based approaches, due to the rollout bottleneck -- exhaustive training for each sampled generation on proxy tasks. In this paper, we propose a general pipeline to accelerate the convergence of the rollout process as well as the RL process in NAS. It is motivated by the interesting observation that both the architecture and the parameter knowledge can be transferred between different experiments and even different tasks. We first introduce an uncertainty-aware critic (value function) in Proximal Policy Optimization (PPO) to utilize the architecture knowledge in previous experiments, which stabilizes the training process and reduces the searching time by 4 times. Further, an architecture knowledge pool together with a block similarity function is proposed to utilize parameter knowledge and reduces the searching time by 2 times. It is the first to introduce block-level weight sharing in RLbased NAS. The block similarity function guarantees a 100% hitting ratio with strict fairness. Besides, we show that a simply designed off-policy correction factor used in "replay buffer" in RL optimization can further reduce half of the searching time. Experiments on the Mobile Neural Architecture Search (MNAS) search space show the proposed Fast Neural Architecture Search (FNAS) accelerates standard RL-based NAS process by ~10x (e.g. ~256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS), and guarantees better performance on various vision tasks.
翻訳日:2021-05-26 14:32:33 公開日:2021-05-25
# 高分解能直交画像を用いた深層学習に基づく小規模・大規模臨界インフラストラクチャ検出

Small and large scale critical infrastructures detection based on deep learning using high resolution orthogonal images ( http://arxiv.org/abs/2105.11844v1 )

ライセンス: Link先を確認
P\'erez-Hern\'andez Francisco, Rodr\'iguez-Ortega Jos\'e, Benhammou Yassir, Herrera Francisco, Tabik Siham(参考訳) 重要なインフラストラクチャの検出は、セキュリティ、異常検出、土地利用計画、土地利用変化検出など、いくつかの分野で非常に重要である。 しかし、航空画像と衛星画像における重要なインフラストラクチャ検出は、それぞれが完全に異なるサイズで、正確な識別のために異なる空間解像度を必要とするため、依然として課題である。 これまでは、重要なインフラストラクチャー検出を訓練するための特別なデータセットは存在しない。 本稿では,スマートデータセットと解像度に依存しないクリティカルインフラストラクチャ検出システムを提案する。 特に,検出モデルの性能に導かれ,小規模と大規模の2つの尺度からなるデータセットを構築し,異なるスケールクリティカルインフラストラクチャ(detdsci)手法による2段階のディープラーニング検出をオルソイメージで設計した。 DetDSCI法はまず分類モデルを用いて入力画像のズームレベルを決定し、次に適切なスケール検出モデルを用いて入力画像を分析する。 DetDSCI法はベースライン検出器に対して最大37,53%のF1改善を実現している。

The detection of critical infrastructures is of high importance in several fields such as security, anomaly detection, land use planning and land use change detection. However, critical infrastructures detection in aerial and satellite images is still a challenge as each one has completely different size and requires different spacial resolution to be identified correctly. Heretofore, there are no special datasets for training critical infrastructures detectors. This paper presents a smart dataset as well as a resolution-independent critical infrastructure detection system. In particular, guided by the performance of the detection model, we built a dataset organized into two scales, small and large scale, and designed a two-stage deep learning detection of different scale critical infrastructures (DetDSCI) methodology in ortho-images. DetDSCI methodology first determines the input image zoom level using a classification model, then analyses the input image with the appropriate scale detection model. Our experiments show that DetDSCI methodology achieves up to 37,53% F1 improvement with respect to the baseline detector.
翻訳日:2021-05-26 14:31:53 公開日:2021-05-25
# 成長を導く:ステップバイステップの書き直しによる難易度制御可能な質問生成

Guiding the Growth: Difficulty-Controllable Question Generation through Step-by-Step Rewriting ( http://arxiv.org/abs/2105.11698v1 )

ライセンス: Link先を確認
Yi Cheng, Siyao Li, Bang Liu, Ruihui Zhao, Sujian Li, Chenghua Lin and Yefeng Zheng(参考訳) 本稿では,難易度の高い質問生成を目的としたDCQG(Difficulty-Controllable Question Generation)の課題について検討する。 本研究は,質問回答システム(QA)で正解できるかどうかという質問の難しさを,解釈性や制御性に欠けるものとして,主に定義している。 本研究では,回答に必要な推論ステップの数として質問の難易度を再定義し,質問生成システム(QG)が生成した質問の論理をより強く制御するべきであると論じる。 そこで本研究では,抽出された推論連鎖の指導の下,段階的な書き換えを通じて質問難易度を段階的に向上させる新しい枠組みを提案する。 研究を容易にするためにデータセットが自動的に構築され,提案手法の性能をテストするために広範囲な実験が行われる。

This paper explores the task of Difficulty-Controllable Question Generation (DCQG), which aims at generating questions with required difficulty levels. Previous research on this task mainly defines the difficulty of a question as whether it can be correctly answered by a Question Answering (QA) system, lacking interpretability and controllability. In our work, we redefine question difficulty as the number of inference steps required to answer it and argue that Question Generation (QG) systems should have stronger control over the logic of generated questions. To this end, we propose a novel framework that progressively increases question difficulty through step-by-step rewriting under the guidance of an extracted reasoning chain. A dataset is automatically constructed to facilitate the research, on which extensive experiments are conducted to test the performance of our method.
翻訳日:2021-05-26 14:31:27 公開日:2021-05-25
# NEUer at SemEval-2021 Task 4: Complete Summary Representation by Filling Answers into Questioning Matching Reading Comprehension (英語)

NEUer at SemEval-2021 Task 4: Complete Summary Representation by Filling Answers into Question for Matching Reading Comprehension ( http://arxiv.org/abs/2105.12051v1 )

ライセンス: Link先を確認
Zhixiang Chen, Yikun Lei, Pai Liu, Guibing Guo(参考訳) SemEval Task 4は、機械読解の課題を解決するために、複数の候補から適切な選択肢を見つけることを目的としている。 既存のアプローチの多くは、質問と選択肢を結合してコンテキスト認識モデルを構築することを提案する。 しかし、直感的な結合は、質問に対する選択肢の特定の位置を無視して、MCCタスクに対して粗いコンテキストしか提供できないと論じる。 本稿では,選択肢を問合せに充足して,選択肢と問合せの関係をよりよく明らかにする,よりきめ細かいコンテキスト(要約として定義される)を生成する新しいMDCモデルを提案する。 与えられたデータセット上で一連の実験を行い、その結果、我々のアプローチは、他のデータセットよりもかなり優れています。

SemEval task 4 aims to find a proper option from multiple candidates to resolve the task of machine reading comprehension. Most existing approaches propose to concat question and option together to form a context-aware model. However, we argue that straightforward concatenation can only provide a coarse-grained context for the MRC task, ignoring the specific positions of the option relative to the question. In this paper, we propose a novel MRC model by filling options into the question to produce a fine-grained context (defined as summary) which can better reveal the relationship between option and question. We conduct a series of experiments on the given dataset, and the results show that our approach outperforms other counterparts to a large extent.
翻訳日:2021-05-26 14:31:04 公開日:2021-05-25
# 説明可能なAIと不確実な定量化のギャップを埋めて信頼性を高める

Bridging the Gap Between Explainable AI and Uncertainty Quantification to Enhance Trustability ( http://arxiv.org/abs/2105.11828v1 )

ライセンス: Link先を確認
Dominik Seu{\ss}(参考訳) ディープラーニングや他のai手法の飛躍的な進歩の後、解釈可能性や公平性など、現代のアプローチの他の特性にも注目が集まっている。 Responsible AIのようなフレームワークで組み合わせる。 説明可能なAIと不確かさの定量化という2つの研究方向がますます重要になっているが、これまで決して組み合わせられ、共同で研究されてきたことはない。 本稿では,この2つの研究領域が組み合わせの可能性をいかに与えるか,なぜより多くの研究をこの方向に行うべきか,そしてそれがaiシステムの信頼性向上にどのようにつながるかを示す。

After the tremendous advances of deep learning and other AI methods, more attention is flowing into other properties of modern approaches, such as interpretability, fairness, etc. combined in frameworks like Responsible AI. Two research directions, namely Explainable AI and Uncertainty Quantification are becoming more and more important, but have been so far never combined and jointly explored. In this paper, I show how both research areas provide potential for combination, why more research should be done in this direction and how this would lead to an increase in trustability in AI systems.
翻訳日:2021-05-26 14:30:42 公開日:2021-05-25
# 事前学習言語モデルにおけるスーパーチケット:モデル圧縮から一般化の改善へ

Super Tickets in Pre-Trained Language Models: From Model Compression to Improving Generalization ( http://arxiv.org/abs/2105.12002v1 )

ライセンス: Link先を確認
Chen Liang, Simiao Zuo, Minshuo Chen, Haoming Jiang, Xiaodong Liu, Pengcheng He, Tuo Zhao and Weizhu Chen(参考訳) 抽選券仮説は、過度にパラメータ化されたネットワークが「ラタリーチケット」で構成されており、それらの特定のコレクション(すなわちサブネットワーク)のトレーニングは、フルモデルのパフォーマンスと一致することを示唆する。 本稿では,事前学習型言語モデルなど,超過度にパラメータ化されたモデルにおいて,このようなチケットのコレクションを「勝者チケット」と呼ぶ。 また, ある圧縮比において, 当選チケットの一般化性能は, 一致だけでなく, フルモデルよりも優れることを示した。 特に、圧縮比が増加するにつれて、当選チケットの一般化性能がまず向上し、一定のしきい値の後に劣化する相転移現象を観察する。 私たちはしきい値のチケットを「スーパーチケット」と呼んでいます。 さらに、フェーズ遷移がタスクであり、モデル依存であることを示す。モデルのサイズが大きくなると、トレーニングデータセットが小さくなり、遷移がより顕著になる。 GLUEベンチマーク実験の結果,BERTベースでは$0.9$,BERTベースでは$1.0$,タスク平均スコアでは$1.0$となっている。 また,タスク間でスーパーチケットを適応的に共有することがマルチタスク学習に有効であることを示す。

The Lottery Ticket Hypothesis suggests that an over-parametrized network consists of "lottery tickets", and training a certain collection of them (i.e., a subnetwork) can match the performance of the full model. In this paper, we study such a collection of tickets, which is referred to as "winning tickets", in extremely over-parametrized models, e.g., pre-trained language models. We observe that at certain compression ratios, generalization performance of the winning tickets can not only match, but also exceed that of the full model. In particular, we observe a phase transition phenomenon: As the compression ratio increases, generalization performance of the winning tickets first improves then deteriorates after a certain threshold. We refer to the tickets on the threshold as "super tickets". We further show that the phase transition is task and model dependent -- as model size becomes larger and training data set becomes smaller, the transition becomes more pronounced. Our experiments on the GLUE benchmark show that the super tickets improve single task fine-tuning by $0.9$ points on BERT-base and $1.0$ points on BERT-large, in terms of task-average score. We also demonstrate that adaptively sharing the super tickets across tasks benefits multi-task learning.
翻訳日:2021-05-26 14:30:27 公開日:2021-05-25
# 学術的盗作法の分類学

Taxonomy of academic plagiarism methods ( http://arxiv.org/abs/2105.12068v1 )

ライセンス: Link先を確認
Tedo Vrbanec and Ana Mestrovic(参考訳) この記事では、学術的盗作に焦点をあてた盗作の領域の概要を紹介する。 この論文は、盗作主義を定義し、この用語の起源と、盗作主義に関連する用語を説明する。 プラジャリズム領域の範囲を特定し、次に文書のプラジャリズムサブドメインに焦点を当て、現在の分類と分類を概観し、その起源と目的、技術的実装、結果、検出の複雑さ、および言語情報源の数に応じてより包括的な分類を提案する。 本論では, 学際的盗作学の新しい分類法として, 盗作学の分類, 類型と分類, 盗作学のアプローチと段階, 盗作学の方法とアルゴリズムの分類について述べる。 記事のタイトルは、明らかに学術コミュニティをターゲットにしているが、十分に一般的で学際的なものであり、ソフトウェア開発者、言語学者、司書といった多くの専門家にとって有用である。

The article gives an overview of the plagiarism domain, with focus on academic plagiarism. The article defines plagiarism, explains the origin of the term, as well as plagiarism related terms. It identifies the extent of the plagiarism domain and then focuses on the plagiarism subdomain of text documents, for which it gives an overview of current classifications and taxonomies and then proposes a more comprehensive classification according to several criteria: their origin and purpose, technical implementation, consequence, complexity of detection and according to the number of linguistic sources. The article suggests the new classification of academic plagiarism, describes sorts and methods of plagiarism, types and categories, approaches and phases of plagiarism detection, the classification of methods and algorithms for plagiarism detection. The title of the article explicitly targets the academic community, but it is sufficiently general and interdisciplinary, so it can be useful for many other professionals like software developers, linguists and librarians.
翻訳日:2021-05-26 14:29:55 公開日:2021-05-25
# データ自己提示による半導体デバイスの機械学習ベースモデリングの改善

Improving Machine Learning-Based Modeling of Semiconductor Devices by Data Self-Augmentation ( http://arxiv.org/abs/2105.11453v1 )

ライセンス: Link先を確認
Zeheng Wang, Liang Li, Ross C. C. Leon and Arne Laucht(参考訳) エレクトロニクス業界では、機械学習(ML)ベースの技術を導入することで、TCAD(Technology Computer-Aided Design)の手法を強化することができる。 しかし、MLモデルの性能はトレーニングデータセットに大きく依存している。 特に半導体産業では、半導体デバイスの製造プロセスが複雑で高価であることを考えると、十分なサイズと高品質のデータセットを得ることは非常に困難である。 本稿では,まずは少数の実験データポイントが必要であり,tcaツールが必須ではない変分オートエンコーダに基づく手法を用いて,データ自己提示によるmlベースデバイスモデリングを改善するための戦略を提案する。 例えば、ガリウム窒化物デバイスにおけるオーミック抵抗値の深いニューラルネットワークに基づく予測タスクを例に、提案手法を適用して、データポイントを増大させ、実験結果を最大70%まで予測する平均絶対誤差を低減させる。 提案手法は様々なタスクに対して容易に変更可能であり,半導体産業全般に高い関心を寄せている。

In the electronics industry, introducing Machine Learning (ML)-based techniques can enhance Technology Computer-Aided Design (TCAD) methods. However, the performance of ML models is highly dependent on their training datasets. Particularly in the semiconductor industry, given the fact that the fabrication process of semiconductor devices is complicated and expensive, it is of great difficulty to obtain datasets with sufficient size and good quality. In this paper, we propose a strategy for improving ML-based device modeling by data self-augmentation using variational autoencoder-based techniques, where initially only a few experimental data points are required and TCAD tools are not essential. Taking a deep neural network-based prediction task of the Ohmic resistance value in Gallium Nitride devices as an example, we apply our proposed strategy to augment data points and achieve a reduction in the mean absolute error of predicting the experimental results by up to 70%. The proposed method could be easily modified for different tasks, rendering it of high interest to the semiconductor industry in general.
翻訳日:2021-05-26 14:29:32 公開日:2021-05-25
# 初期学習における2層ニューラルネットワークの凝縮理解に向けて

Towards Understanding the Condensation of Two-layer Neural Networks at Initial Training ( http://arxiv.org/abs/2105.11686v1 )

ライセンス: Link先を確認
Zhi-Qin John Xu, Hanxu Zhou, Tao Luo, Yaoyu Zhang(参考訳) ニューラルネットワーク(NN)を実際のデータセット上で優れたパフォーマンスに導くトレーニング中に、損失関数に暗黙の正規化が課されるものを研究することが重要である。 既存の研究は、NNの重みが小さな初期化を伴う孤立配向に凝縮していることを実証的に示している。 この凝縮は、NNがトレーニングデータから特徴を学習し、事実上はるかに小さなネットワークであることを意味する。 本研究では,初期訓練段階での凝縮を理解する上で,原点における活性化関数の特異点が重要な要素であることを示す。 実験により, 凝縮配向の最大数は特異性の2倍であることが示唆された。 理論解析により, 1 つは一階特異性活性化関数, もう 1 つは一次元入力に対する実験が確認された。 この研究は、初期化がnnを暗黙的に凝縮させる方法を理解するための一歩を踏み出し、深層nnのトレーニングと学習を理解する上で不可欠である。

It is important to study what implicit regularization is imposed on the loss function during the training that leads over-parameterized neural networks (NNs) to good performance on real dataset. Empirically, existing works have shown that weights of NNs condense on isolated orientations with small initialization. The condensation implies that the NN learns features from the training data and is effectively a much smaller network. In this work, we show that the singularity of the activation function at original point is a key factor to understanding the condensation at initial training stage. Our experiments suggest that the maximal number of condensed orientations is twice of the singularity order. Our theoretical analysis confirms experiments for two cases, one is for the first-order singularity activation function and the other is for the one-dimensional input. This work takes a step towards understanding how small initialization implicitly leads NNs to condensation at initial training, which is crucial to understand the training and the learning of deep NNs.
翻訳日:2021-05-26 14:28:44 公開日:2021-05-25
# SHAFF: ランダム森林による高速で一貫したSHApley eFfectの推定

SHAFF: Fast and consistent SHApley eFfect estimates via random Forests ( http://arxiv.org/abs/2105.11724v1 )

ライセンス: Link先を確認
Cl\'ement B\'enard (LPSM), G\'erard Biau (LPSM), S\'ebastien da Veiga, Erwan Scornet (CMAP)(参考訳) 学習アルゴリズムの解釈可能性は重要な決定を伴うアプリケーションにとって重要であり、変数の重要性は主要な解釈ツールの1つである。 シェープ効果は、他のほとんどの可変重要度尺度とは対照的に、データ内の依存や相互作用を効率的に処理できるため、ツリーアンサンブルとニューラルネットワークの両方を解釈するために広く使用されている。 しかし、シャプリー効果の推定は計算の複雑さと条件付き期待値の見積もりのために難しい課題である。 したがって、既存のshapleyアルゴリズムには、コストのかかる実行時間や入力変数に依存するバイアスという欠陥がある。 そこで,SHAFF,SHApley eFfects via random Forests, a fast and accurate Shapley effect estimates, if if input variables are dependent。 我々は,SHAFFの効率を,その整合性の理論的解析と,広範に実験を行った競合相手に対する実用的性能改善の両面から示す。 C++とRにおけるSHAFFの実装はオンラインで入手できる。

Interpretability of learning algorithms is crucial for applications involving critical decisions, and variable importance is one of the main interpretation tools. Shapley effects are now widely used to interpret both tree ensembles and neural networks, as they can efficiently handle dependence and interactions in the data, as opposed to most other variable importance measures. However, estimating Shapley effects is a challenging task, because of the computational complexity and the conditional expectation estimates. Accordingly, existing Shapley algorithms have flaws: a costly running time, or a bias when input variables are dependent. Therefore, we introduce SHAFF, SHApley eFfects via random Forests, a fast and accurate Shapley effect estimate, even when input variables are dependent. We show SHAFF efficiency through both a theoretical analysis of its consistency, and the practical performance improvements over competitors with extensive experiments. An implementation of SHAFF in C++ and R is available online.
翻訳日:2021-05-26 14:28:04 公開日:2021-05-25
# Duling Banditによるバイアス・ロバストベイズ最適化

Bias-Robust Bayesian Optimization via Dueling Bandit ( http://arxiv.org/abs/2105.11802v1 )

ライセンス: Link先を確認
Johannes Kirschner and Andreas Krause(参考訳) ベイジアン最適化は、例えば制御されていない隠された共同設立者によって観測が逆偏見されるような設定で検討する。 私たちの最初の貢献は、デュエルバンディットモデルに対する確立された設定の削減である。 次に,情報指向サンプリング(ids)に基づくデュエルバンディットに対する新しいアプローチを提案する。 これにより、累積後悔保証を伴うデュエルバンディットに対する最初の効率的なカーネル化アルゴリズムを得る。 本解析は,提案する半パラメトリック線形バンディットモデルを非線形報酬関数にさらに一般化し,二重ロバスト推定への興味深いリンクを明らかにする。

We consider Bayesian optimization in settings where observations can be adversarially biased, for example by an uncontrolled hidden confounder. Our first contribution is a reduction of the confounded setting to the dueling bandit model. Then we propose a novel approach for dueling bandits based on information-directed sampling (IDS). Thereby, we obtain the first efficient kernelized algorithm for dueling bandits that comes with cumulative regret guarantees. Our analysis further generalizes a previously proposed semi-parametric linear bandit model to non-linear reward functions, and uncovers interesting links to doubly-robust estimation.
翻訳日:2021-05-26 14:27:39 公開日:2021-05-25
# コーディネートサンプリングによるSGD:理論と実践

SGD with Coordinate Sampling: Theory and Practice ( http://arxiv.org/abs/2105.11818v1 )

ライセンス: Link先を確認
R\'emi Leluc and Fran\c{c}ois Portier(参考訳) 古典的な確率勾配降下アルゴリズムは、異なる座標を同じように扱うが、適応的な(一様でない)座標サンプリングが可能なフレームワークを開発し、データの構造を利用する。 非凸設定およびゼロ階勾配推定を含む場合、ほぼ確実に収束と非漸近境界が確立される。 提案手法では,雑音勾配に関する情報を収集した後,最も有望な座標(すべて1つ)を抽出し,目的(すべて)の重要な減少をもたらす一方向に沿って移動させるという,強化戦略に基づくアルゴリズム MUSKETEER を開発した。 合成データと実データの両方に関する数値実験により,大規模問題におけるMUSKETEERの有効性が確認された。

While classical forms of stochastic gradient descent algorithm treat the different coordinates in the same way, a framework allowing for adaptive (non uniform) coordinate sampling is developed to leverage structure in data. In a non-convex setting and including zeroth order gradient estimate, almost sure convergence as well as non-asymptotic bounds are established. Within the proposed framework, we develop an algorithm, MUSKETEER, based on a reinforcement strategy: after collecting information on the noisy gradients, it samples the most promising coordinate (all for one); then it moves along the one direction yielding an important decrease of the objective (one for all). Numerical experiments on both synthetic and real data examples confirm the effectiveness of MUSKETEER in large scale problems.
翻訳日:2021-05-26 14:27:26 公開日:2021-05-25
# DiBS:異なるベイズ構造学習

DiBS: Differentiable Bayesian Structure Learning ( http://arxiv.org/abs/2105.11839v1 )

ライセンス: Link先を確認
Lars Lorch, Jonas Rothfuss, Bernhard Sch\"olkopf, Andreas Krause(参考訳) ベイズ構造学習は、データからベイズネットワーク構造を推論し、疫学的な不確実性について推論することを可能にする。 本研究では,潜在確率グラフ表現の連続空間で動作するベイズ構造学習(dibs)のための汎用的かつ完全微分可能なフレームワークを提案する。 近年の変分推論の進歩を踏まえ,構造モデル上での後方近似法を考案するためにdibを用いた。 既存の研究とは対照的に、DiBSは局所的な条件分布の形式に非依存であり、グラフ構造と条件分布パラメータの両方の結合後部推論を可能にする。 これにより、ニューラルネットワークで符号化された非線形依存関係を持つ非標準ベイズネットワークモデルの後部推論に直接適用することができる。 シミュレーションおよび実世界のデータに対する評価において、DiBSは関節後部推論に対する関連するアプローチを著しく上回っている。

Bayesian structure learning allows inferring Bayesian network structure from data while reasoning about the epistemic uncertainty -- a key element towards enabling active causal discovery and designing interventions in real world systems. In this work, we propose a general, fully differentiable framework for Bayesian structure learning (DiBS) that operates in the continuous space of a latent probabilistic graph representation. Building on recent advances in variational inference, we use DiBS to devise an efficient method for approximating posteriors over structural models. Contrary to existing work, DiBS is agnostic to the form of the local conditional distributions and allows for joint posterior inference of both the graph structure and the conditional distribution parameters. This makes our method directly applicable to posterior inference of nonstandard Bayesian network models, e.g., with nonlinear dependencies encoded by neural networks. In evaluations on simulated and real-world data, DiBS significantly outperforms related approaches to joint posterior inference.
翻訳日:2021-05-26 14:27:08 公開日:2021-05-25
# 大規模データセットの分類精度向上を目的とした階層型部分空間学習

Hierarchical Subspace Learning for Dimensionality Reduction to Improve Classification Accuracy in Large Data Sets ( http://arxiv.org/abs/2105.12005v1 )

ライセンス: Link先を確認
Parisa Abdolrahim Poorheravi and Vincent Gaudet(参考訳) 多様体学習は次元の減少に使われ、射影部分空間を見つけ、クラス間およびクラス内分散を増大・減少させることが目的である。 しかし、サブスペース学習手法のボトルネックはデータセットの高次元性から生じることが多い。 本稿では,大規模データセットの分類を3%から10%の範囲で改善することを目的として,サブスペース学習をスケールするための階層的手法を提案する。 異なる組み合わせの方法が研究されている。 提案手法は,線形判別分析,主成分分析,一般化判別分析,再構成独立成分分析などの固有値に基づく部分空間学習手法を用いて,公開可能な5つの大規模データセット上で評価する。 さらに,提案手法が各種分類法に与える影響について検討するため,得られた結果を線形判別分析,二次線形解析,k-nearest近傍,ランダム森林分類器に与えた。 その結果,分類精度は階層的アプローチの有効性を示し,分類精度が平均5%向上したことを報告した。

Manifold learning is used for dimensionality reduction, with the goal of finding a projection subspace to increase and decrease the inter- and intraclass variances, respectively. However, a bottleneck for subspace learning methods often arises from the high dimensionality of datasets. In this paper, a hierarchical approach is proposed to scale subspace learning methods, with the goal of improving classification in large datasets by a range of 3% to 10%. Different combinations of methods are studied. We assess the proposed method on five publicly available large datasets, for different eigen-value based subspace learning methods such as linear discriminant analysis, principal component analysis, generalized discriminant analysis, and reconstruction independent component analysis. To further examine the effect of the proposed method on various classification methods, we fed the generated result to linear discriminant analysis, quadratic linear analysis, k-nearest neighbor, and random forest classifiers. The resulting classification accuracies are compared to show the effectiveness of the hierarchical approach, reporting results of an average of 5% increase in classification accuracy.
翻訳日:2021-05-26 14:26:46 公開日:2021-05-25
# AdaGCN:不均衡ノード分類に基づくグラフ畳み込みネットワークの適応ブースティングアルゴリズム

AdaGCN:Adaptive Boosting Algorithm for Graph Convolutional Networks on Imbalanced Node Classification ( http://arxiv.org/abs/2105.11625v1 )

ライセンス: Link先を確認
S. Shi, Kai Qiao, Shuai Yang, L. Wang, J. Chen and Bin Yan(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータ表現において顕著な成功を収めた。 しかし、以前の研究は理想的な均衡データセットのみを考慮し、実際的な不均衡データセットはめったに考慮されず、それとは対照的に、GNNの適用にはより重要である。 不均衡なデータセットを扱う再サンプリング、再重み付け、合成サンプルといった従来の手法は、もはやGNNには適用されない。 アンサンブルモデルは、単一の推定器よりも不均衡なデータセットを処理できる。 さらに、アンサンブル学習は推定精度が高く、単一推定器と比較して信頼性が高い。 本稿では,適応昇圧時のベース推定器としてグラフ畳み込みネットワーク(gcn)を用いるadagcnと呼ばれるアンサンブルモデルを提案する。 AdaGCNでは、以前の分類器で適切に分類されていないトレーニングサンプルに対してより高い重量が設定され、転送学習が計算コストの削減と適合性の向上に使用される。 実験の結果,提案したAdaGCNモデルの方がGCN, GraphSAGE, GAT, N-GCN, および合成不均衡データセット上での高度な再重み付けおよび再サンプリング手法よりも,平均4.3%向上した。 当社のモデルは,Cora,Citeseer,Pubmed,NELLといったノード分類タスクのすべてにおいて,最先端のベースラインを改善しています。

The Graph Neural Network (GNN) has achieved remarkable success in graph data representation. However, the previous work only considered the ideal balanced dataset, and the practical imbalanced dataset was rarely considered, which, on the contrary, is of more significance for the application of GNN. Traditional methods such as resampling, reweighting and synthetic samples that deal with imbalanced datasets are no longer applicable in GNN. Ensemble models can handle imbalanced datasets better compared with single estimator. Besides, ensemble learning can achieve higher estimation accuracy and has better reliability compared with the single estimator. In this paper, we propose an ensemble model called AdaGCN, which uses a Graph Convolutional Network (GCN) as the base estimator during adaptive boosting. In AdaGCN, a higher weight will be set for the training samples that are not properly classified by the previous classifier, and transfer learning is used to reduce computational cost and increase fitting capability. Experiments show that the AdaGCN model we proposed achieves better performance than GCN, GraphSAGE, GAT, N-GCN and the most of advanced reweighting and resampling methods on synthetic imbalanced datasets, with an average improvement of 4.3%. Our model also improves state-of-the-art baselines on all of the challenging node classification tasks we consider: Cora, Citeseer, Pubmed, and NELL.
翻訳日:2021-05-26 14:25:54 公開日:2021-05-25
# 遅延空間空間間隔制約による生成前の学習

Learning Generative Prior with Latent Space Sparsity Constraints ( http://arxiv.org/abs/2105.11956v1 )

ライセンス: Link先を確認
Vinayak Killedar, Praveen Kumar Pokala, Chandra Sekhar Seelamantula(参考訳) 本研究では, 深部生成前モデルを用いた圧縮センシングの問題に対処し, 非線形センシング機構と線形センシング機構の両方を検討し, 非線形センシングは完全連結ニューラルネットワークか畳み込みニューラルネットワークかを考える。 近年、自然画像の分布は単一の多様体に存在せず、むしろ複数の部分多様体の合併にあると論じられている。 我々は,sparsity-driven latent space sampling (sdlss) フレームワークを提案し,sparsityを潜在空間に強制する近位メタラーニング (pml) アルゴリズムを開発した。 SDLSSはジェネレータの射程空間をサブマニフォールドの和集合と見なすことができる。 また、線形計測モデルのためのsdlssフレームワーク内のサンプル複雑性境界も導出する。 その結果, SDLSS法は, 高次圧縮では最先端法よりも効率が高いことがわかった。 まず,ファッション・マンニストデータセットにおける線形と非線形のセンシング機構の比較を行い,学習した非線形バージョンが線形のものよりも優れていることを示す。 本論文で提案する深部圧縮センシング(DCS)フレームワークとの比較を報告する。 また, SDLSSフレームワークの検証における潜伏空間の次元と空間係数の影響についても検討した。 性能定量化は、ピーク信号対雑音比(PSNR)、構造類似度指標(SSIM)、再構成誤差(RE)の3つの客観的指標を用いて行われる。

We address the problem of compressed sensing using a deep generative prior model and consider both linear and learned nonlinear sensing mechanisms, where the nonlinear one involves either a fully connected neural network or a convolutional neural network. Recently, it has been argued that the distribution of natural images do not lie in a single manifold but rather lie in a union of several submanifolds. We propose a sparsity-driven latent space sampling (SDLSS) framework and develop a proximal meta-learning (PML) algorithm to enforce sparsity in the latent space. SDLSS allows the range-space of the generator to be considered as a union-of-submanifolds. We also derive the sample complexity bounds within the SDLSS framework for the linear measurement model. The results demonstrate that for a higher degree of compression, the SDLSS method is more efficient than the state-of-the-art method. We first consider a comparison between linear and nonlinear sensing mechanisms on Fashion-MNIST dataset and show that the learned nonlinear version is superior to the linear one. Subsequent comparisons with the deep compressive sensing (DCS) framework proposed in the literature are reported. We also consider the effect of the dimension of the latent space and the sparsity factor in validating the SDLSS framework. Performance quantification is carried out by employing three objective metrics: peak signal-to-noise ratio (PSNR), structural similarity index metric (SSIM), and reconstruction error (RE).
翻訳日:2021-05-26 14:25:23 公開日:2021-05-25
# ドメイン網間の再同定であるRADONによるドメイン間のマッチング

Matching Targets Across Domains with RADON, the Re-Identification Across Domain Network ( http://arxiv.org/abs/2105.12056v1 )

ライセンス: Link先を確認
Cassandra Burgess, Cordelia Neisinger, Rafael Dinner(参考訳) 本稿では、異なる視点から撮影した物体の画像と異なる光学センサーでマッチングする新しい畳み込みニューラルネットワークを提案する。 我々のRe-Identification Across Domain Network (RADON)は、類似性に基づいて異なるドメインから入力画像のペアをスコアする。 当社のアプローチは、siameseネットワークに関するこれまでの作業を拡張し、訓練対象のイメージがほとんどない、低ショット学習や無ショット学習など、より困難なユースケースに修正する。 RADONは、ノンショット学習環境において、クロスビュー車両マッチングとクロスドメイン人物識別に強い性能を示す。

We present a novel convolutional neural network that learns to match images of an object taken from different viewpoints or by different optical sensors. Our Re-Identification Across Domain Network (RADON) scores pairs of input images from different domains on similarity. Our approach extends previous work on Siamese networks and modifies them to more challenging use cases, including low- and no-shot learning, in which few images of a specific target are available for training. RADON shows strong performance on cross-view vehicle matching and cross-domain person identification in a no-shot learning environment.
翻訳日:2021-05-26 14:24:49 公開日:2021-05-25
# グラフニューラルネットワークによるVC投資成功予測

Graph Neural Network Based VC Investment Success Prediction ( http://arxiv.org/abs/2105.11537v1 )

ライセンス: Link先を確認
Shiwei Lyu, Shuai Ling, Kaihao Guo, Haipeng Zhang, Kunpeng Zhang, Suting Hong, Qing Ke, Jinjie Gu(参考訳) 最終的に成功するスタートアップの予測は、ベンチャーキャピタリストビジネスや世界の政策立案者にとって、特に報酬が指数関数的になるような初期段階において、本質的に重要である。 様々な実証研究やデータ駆動モデリングの作業が行われているが、ベンチャーキャピタル投資家、スタートアップ、スタートアップのマネージングメンバーを含むステークホルダーの複雑なネットワークの予測能力は、徹底的に検討されていない。 我々は,ノードの豊富な属性とともにネットワーク構造を利用して,漸進的な表現学習機構と逐次学習モデルを設計する。 概して,グローバルベンチャー投資の包括的データセット上での最先端の予測性能を達成し,人的投資を大きなマージンで上回っている。 具体的には、ヘルスケアやITといった業界におけるスタートアップの成果を予測するのに優れています。 一方、私たちは、ジェンダー、教育、ネットワークといった観察可能な要素によるスタートアップの成功に対する影響を、高い成長可能性のベンチャーをスクリーニングする場合に、実践者だけでなく政策立案者にとっても価値のあるものにしている。

Predicting the start-ups that will eventually succeed is essentially important for the venture capital business and worldwide policy makers, especially at an early stage such that rewards can possibly be exponential. Though various empirical studies and data-driven modeling work have been done, the predictive power of the complex networks of stakeholders including venture capital investors, start-ups, and start-ups' managing members has not been thoroughly explored. We design an incremental representation learning mechanism and a sequential learning model, utilizing the network structure together with the rich attributes of the nodes. In general, our method achieves the state-of-the-art prediction performance on a comprehensive dataset of global venture capital investments and surpasses human investors by large margins. Specifically, it excels at predicting the outcomes for start-ups in industries such as healthcare and IT. Meanwhile, we shed light on impacts on start-up success from observable factors including gender, education, and networking, which can be of value for practitioners as well as policy makers when they screen ventures of high growth potentials.
翻訳日:2021-05-26 14:24:35 公開日:2021-05-25
# KnowSR:マルチエージェント強化学習における均質エージェント間の知識共有

KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2105.11611v1 )

ライセンス: Link先を確認
Zijian Gao, Kele Xu, Bo Ding, Huaimin Wang, Yiying Li, Hongda Jia(参考訳) 近年, 深部強化学習(RL)アルゴリズムはマルチエージェント領域において大きな進歩を遂げている。 しかし、RLの特性のため、複雑なタスクのトレーニングはリソース集約的で時間を要する。 この課題に対処するためには,従来の手法ではエージェントモデルの知識の利用を考慮していないため,従来研究では未検討であった同質エージェント間の相互学習戦略が不可欠である。 本稿では,エージェント間の学習の差異を利用したマルチエージェント強化学習 (marl) アルゴリズムの大部分の適応法を提案する。 我々は,知識蒸留(kd)という概念を用いてエージェント間の知識共有を行い,学習段階を短縮する。 KnowSRの堅牢性と有効性を実証的に示すために,我々は,協調的・競合的なシナリオにおける最先端のMARLアルゴリズムの広範な実験を行った。 その結果,KnowSRが最近報告した方法論よりも優れており,MARLにおける知識共有の重要性を強調している。

Recently, deep reinforcement learning (RL) algorithms have made great progress in multi-agent domain. However, due to characteristics of RL, training for complex tasks would be resource-intensive and time-consuming. To meet this challenge, mutual learning strategy between homogeneous agents is essential, which is under-explored in previous studies, because most existing methods do not consider to use the knowledge of agent models. In this paper, we present an adaptation method of the majority of multi-agent reinforcement learning (MARL) algorithms called KnowSR which takes advantage of the differences in learning between agents. We employ the idea of knowledge distillation (KD) to share knowledge among agents to shorten the training phase. To empirically demonstrate the robustness and effectiveness of KnowSR, we performed extensive experiments on state-of-the-art MARL algorithms in collaborative and competitive scenarios. The results demonstrate that KnowSR outperforms recently reported methodologies, emphasizing the importance of the proposed knowledge sharing for MARL.
翻訳日:2021-05-26 14:24:05 公開日:2021-05-25
# カート位置問題に対するQ-Learningにおけるリワード関数の比較

A Comparison of Reward Functions in Q-Learning Applied to a Cart Position Problem ( http://arxiv.org/abs/2105.11617v1 )

ライセンス: Link先を確認
Amartya Mukherjee(参考訳) 強化学習の進歩は制御理論の進歩につながった。 強化学習は逆振り子問題を効果的に解決し,最近では二重反転振り子問題も解決した。 強化学習において,エージェントは報酬を最大化する目的で制御システムと対話することで学習する。 本稿では,カート位置問題における3つの報酬関数について検討する。 本稿では,与えられた位置から所定の距離以内にいる場合にのみ,エージェントに非ゼロ報酬を与える不連続報酬関数が最良の結果をもたらすことを結論する。

Growing advancements in reinforcement learning has led to advancements in control theory. Reinforcement learning has effectively solved the inverted pendulum problem and more recently the double inverted pendulum problem. In reinforcement learning, our agents learn by interacting with the control system with the goal of maximizing rewards. In this paper, we explore three such reward functions in the cart position problem. This paper concludes that a discontinuous reward function that gives non-zero rewards to agents only if they are within a given distance from the desired position gives the best results.
翻訳日:2021-05-26 14:23:41 公開日:2021-05-25
# 科学データのためのオートエンコーダベースエラーバウンド圧縮の検討

Exploring Autoencoder-Based Error-Bounded Compression for Scientific Data ( http://arxiv.org/abs/2105.11730v1 )

ライセンス: Link先を確認
Jinyang Liu, Sheng Di, Kai Zhao, Sian Jin, Dingwen Tao, Xin Liang, Zizhong Chen, Franck Cappello(参考訳) エラーバウンドのロッキー圧縮は、シミュレーションや機器データ取得で大量のデータを生成する今日の科学プロジェクトの成功に欠かせない技術になりつつある。 データサイズを大幅に削減できるだけでなく、ユーザ指定のエラー境界に基づいて圧縮エラーを制御することもできる。 オートエンコーダ (AE) モデルは画像圧縮に広く用いられているが、AEベースの圧縮アプローチはほとんどエラーバウンド機能をサポートしていない。 この問題に対処するために,convolutional autoencoderを使用して,科学的データに対するエラーバウンド損失圧縮を改善する。 1) 様々なオートエンコーダモデルの特徴を詳細に検討し, szモデルを用いて誤差境界付きオートエンコーダベースのフレームワークを開発した。 2) 設計したAEベースエラーバウンド圧縮フレームワークの主段圧縮品質を最適化し, ブロックサイズと潜時サイズを微調整し, 潜時ベクトルの圧縮効率を最適化する。 3) 5つの実世界科学データセットを用いて提案手法を評価し,他の6つの関連作品と比較した。 実験により, 実験中の圧縮機のうち, 圧縮性能が非常に高いことがわかった。 絶対的な言い方をすれば、圧縮比が高い場合、SZ2.1やZFPと比較して、圧縮品質(圧縮比が100%から800%向上している)がはるかに良い。

Error-bounded lossy compression is becoming an indispensable technique for the success of today's scientific projects with vast volumes of data produced during the simulations or instrument data acquisitions. Not only can it significantly reduce data size, but it also can control the compression errors based on user-specified error bounds. Autoencoder (AE) models have been widely used in image compression, but few AE-based compression approaches support error-bounding features, which are highly required by scientific applications. To address this issue, we explore using convolutional autoencoders to improve error-bounded lossy compression for scientific data, with the following three key contributions. (1) We provide an in-depth investigation of the characteristics of various autoencoder models and develop an error-bounded autoencoder-based framework in terms of the SZ model. (2) We optimize the compression quality for main stages in our designed AE-based error-bounded compression framework, fine-tuning the block sizes and latent sizes and also optimizing the compression efficiency of latent vectors. (3) We evaluate our proposed solution using five real-world scientific datasets and comparing them with six other related works. Experiments show that our solution exhibits a very competitive compression quality from among all the compressors in our tests. In absolute terms, it can obtain a much better compression quality (100% ~ 800% improvement in compression ratio with the same data distortion) compared with SZ2.1 and ZFP in cases with a high compression ratio.
翻訳日:2021-05-26 14:23:29 公開日:2021-05-25
# GraphFM:特徴相互作用モデリングのためのグラフファクトリゼーションマシン

GraphFM: Graph Factorization Machines for Feature Interaction Modeling ( http://arxiv.org/abs/2105.11866v1 )

ライセンス: Link先を確認
Zekun Li, Shu Wu, Zeyu Cui, Xiaoyu Zhang(参考訳) ファクトリゼーションマシン(FM)は、高次元スパースデータを扱う際に、ペアワイズ(第2次)特徴相互作用をモデル化するための一般的な手法である。 しかし、FMは組合せ展開に苦しむ高次特徴相互作用を捉えることができず、一方、各特徴間の相互作用を考慮に入れればノイズが発生し、予測精度が低下する可能性がある。 そこで本研究では,グラフ構造の特徴を自然に表現し,新しいアプローチグラフ因子化機械(graphfm)を提案する。 特に、新しいメカニズムは、有益な特徴相互作用を選択し、特徴間のエッジとして定式化するように設計されている。 次に,グラフニューラルネットワーク(GNN)の機能集約戦略にFMの相互作用関数を統合するモデルを提案する。 いくつかの実世界のデータセットに対する実験結果から,提案手法の合理性と有効性を示した。

Factorization machine (FM) is a prevalent approach to modeling pairwise (second-order) feature interactions when dealing with high-dimensional sparse data. However, on the one hand, FM fails to capture higher-order feature interactions suffering from combinatorial expansion, on the other hand, taking into account interaction between every pair of features may introduce noise and degrade prediction accuracy. To solve the problems, we propose a novel approach Graph Factorization Machine (GraphFM) by naturally representing features in the graph structure. In particular, a novel mechanism is designed to select the beneficial feature interactions and formulate them as edges between features. Then our proposed model which integrates the interaction function of FM into the feature aggregation strategy of Graph Neural Network (GNN), can model arbitrary-order feature interactions on the graph-structured features by stacking layers. Experimental results on several real-world datasets has demonstrated the rationality and effectiveness of our proposed approach.
翻訳日:2021-05-26 14:22:55 公開日:2021-05-25
# グラフに基づくヒトフェノタイプと遺伝子間のリンク予測

Graph Based Link Prediction between Human Phenotypes and Genes ( http://arxiv.org/abs/2105.11989v1 )

ライセンス: Link先を確認
Rushabh Patel, Yanhui Guo(参考訳) 背景 ヒト疾患の遺伝子型・表現型関連および病歴の詳細な解析による学習は, 深部表現型と定義できる。 この表現型と遺伝子型との相互作用を理解することは、精密医療を臨床に翻訳する際の基本的なステップである。 機械学習の分野での最近の進歩は、異常なヒトの表現型と遺伝子間の相互作用を予測するのに効果的である。 本研究では,ヒト表現型オントロジー(hpo)と遺伝子との関係を予測する枠組みを開発した。 異種知識資源、すなわちオルファントからのアノテーションデータは、ヒトの表現型-遺伝子関連を解析するために用いられる。 ノード(HPOと遺伝子)の埋め込みを生成するために node2vec と呼ばれるアルゴリズムが使われた。 ランダムウォークに基づいてこのグラフでノードサンプリングを実行し、これらのサンプルノード上の特徴を学習して埋め込みを生成する。 これらの埋め込みは、5つの異なる教師付き機械学習アルゴリズムを使用して、これらのノード間のリンクの存在を予測するために下流タスクを実行するために使用された。 結果: 下流リンク予測タスクでは, 勾配ブースティング決定木ベースモデル (lightgbm) が最適auroc 0.904 と aucpr 0.784 を達成した。 さらに、lightgbmは最適重み付きf1スコア 0.87 を達成した。 他の4つの方法と比較して、LightGBMはヒトの表現型と遺伝子ペア間のより正確な相互作用やリンクを見つけることができる。

Background The learning of genotype-phenotype associations and history of human disease by doing detailed and precise analysis of phenotypic abnormalities can be defined as deep phenotyping. To understand and detect this interaction between phenotype and genotype is a fundamental step when translating precision medicine to clinical practice. The recent advances in the field of machine learning is efficient to predict these interactions between abnormal human phenotypes and genes. Methods In this study, we developed a framework to predict links between human phenotype ontology (HPO) and genes. The annotation data from the heterogeneous knowledge resources i.e., orphanet, is used to parse human phenotype-gene associations. To generate the embeddings for the nodes (HPO & genes), an algorithm called node2vec was used. It performs node sampling on this graph based on random walks, then learns features over these sampled nodes to generate embeddings. These embeddings were used to perform the downstream task to predict the presence of the link between these nodes using 5 different supervised machine learning algorithms. Results: The downstream link prediction task shows that the Gradient Boosting Decision Tree based model (LightGBM) achieved an optimal AUROC 0.904 and AUCPR 0.784. In addition, LightGBM achieved an optimal weighted F1 score of 0.87. Compared to the other 4 methods LightGBM is able to find more accurate interaction/link between human phenotype & gene pairs.
翻訳日:2021-05-26 14:22:29 公開日:2021-05-25
# LMMSE推定におけるモデルミスマッチトレードオフ

Model Mismatch Trade-offs in LMMSE Estimation ( http://arxiv.org/abs/2105.11964v1 )

ライセンス: Link先を確認
Martin Hellkvist, Ay\c{c}a \"Oz\c{c}elikkale(参考訳) モデルミスマッチを用いた線形最小平均二乗誤差(LMMSE)推定フレームワークについて検討する。 システムの回帰器をランダム変数としてモデル化することにより,平均二乗誤差(MSE)の平均挙動を解析する。 本研究の結果は,MSEが標本数と基礎システムにおけるパラメータ数と推定モデルとの相互作用にどのように依存するかを定量化する。 特に、サンプル数が十分に大きくない場合、サンプル数の増加も、仮定されたモデルの複雑さも、パフォーマンス改善を保証するには十分ではない。

We consider a linear minimum mean squared error (LMMSE) estimation framework with model mismatch where the assumed model order is smaller than that of the underlying linear system which generates the data used in the estimation process. By modelling the regressors of the underlying system as random variables, we analyze the average behaviour of the mean squared error (MSE). Our results quantify how the MSE depends on the interplay between the number of samples and the number of parameters in the underlying system and in the assumed model. In particular, if the number of samples is not sufficiently large, neither increasing the number of samples nor the assumed model complexity is sufficient to guarantee a performance improvement.
翻訳日:2021-05-26 14:21:10 公開日:2021-05-25
# 逆問題に対するモデル制約付きディープラーニングアプローチ

Model-Constrained Deep Learning Approaches for Inverse Problems ( http://arxiv.org/abs/2105.12033v1 )

ライセンス: Link先を確認
Hai V. Nguyen, Tan Bui-Thanh(参考訳) ディープラーニング(DL)、特にディープニューラルネットワーク(DNN)の設計は純粋にデータ駆動であり、一般に物理学を必要としない。 これはDLの強度であるが、基礎となる物理的特性(安定性、保存性、肯定性など)と望ましい精度を達成する必要がある科学や工学の問題に適用する際の重要な制限の1つでもある。 元の形式でのDL法は、基礎となる数学的モデルを尊重したり、ビッグデータのレシエーションにおいても望ましい精度を達成できない。 一方、逆問題のような多くのデータ駆動科学や工学問題は、通常、実験データや観測データに制限があり、dlはこの場合データに過剰に適合する。 基礎となる数学的モデルに符号化された情報を活用することで、低データ構造における欠落した情報を補償するだけでなく、基礎となる物理にDLメソッドを組み込む機会を与え、より高い精度を得ることができる。 この短い通信では、訓練データに隠された情報だけでなく、逆問題を解決するための基礎となる数学的モデルでも学習できるモデル制約付きDLアプローチ(フィードフォワードDNNとオートエンコーダの両方を含む)がいくつか導入されている。 我々は,一般非線形問題に対する定式化に対して直観的である。 線形逆問題や線形ネットワークの場合、第一次最適条件は、我々のモデル制約DLアプローチが基礎となる数学的モデルに符号化された情報を学習できることを示し、従って、純粋にデータに基づく逆解を生成することは不可能である。

Deep Learning (DL), in particular deep neural networks (DNN), by design is purely data-driven and in general does not require physics. This is the strength of DL but also one of its key limitations when applied to science and engineering problems in which underlying physical properties (such as stability, conservation, and positivity) and desired accuracy need to be achieved. DL methods in their original forms are not capable of respecting the underlying mathematical models or achieving desired accuracy even in big-data regimes. On the other hand, many data-driven science and engineering problems, such as inverse problems, typically have limited experimental or observational data, and DL would overfit the data in this case. Leveraging information encoded in the underlying mathematical models, we argue, not only compensates missing information in low data regimes but also provides opportunities to equip DL methods with the underlying physics and hence obtaining higher accuracy. This short communication introduces several model-constrained DL approaches (including both feed-forward DNN and autoencoders) that are capable of learning not only information hidden in the training data but also in the underlying mathematical models to solve inverse problems. We present and provide intuitions for our formulations for general nonlinear problems. For linear inverse problems and linear networks, the first order optimality conditions show that our model-constrained DL approaches can learn information encoded in the underlying mathematical models, and thus can produce consistent or equivalent inverse solutions, while naive purely data-based counterparts cannot.
翻訳日:2021-05-26 14:20:53 公開日:2021-05-25
# 凸有限和の近定常点を求めるための実践的スキーム

Practical Schemes for Finding Near-Stationary Points of Convex Finite-Sums ( http://arxiv.org/abs/2105.12062v1 )

ライセンス: Link先を確認
Kaiwen Zhou, Lai Tian, Anthony Man-Cho So, James Cheng(参考訳) 凸最適化における定常点を見つける問題は、関数値の最小化のような他の最適尺度とは異なり、まだ十分に研究されていない。 決定論の場合においても、Kim と Fessler (2021) による最適手法 (OGM-G) が最近発見された。 本研究では,凸有限和の近定常点探索におけるアルゴリズム手法の体系的研究を行う。 Our main contributions are several algorithmic discoveries: (1) we discover a memory-saving variant of OGM-G based on the performance estimation problem approach (Drori and Teboulle, 2014); (2) we design a new accelerated SVRG variant that can simultaneously achieve fast rates for both minimizing gradient norm and function value; (3) we propose an adaptively regularized accelerated SVRG variant, which does not require the knowledge of some unknown initial constants and achieves near-optimal complexities. 我々は,今後の発展を促進する新しいスキームのシンプルさと実用性を強調した。

The problem of finding near-stationary points in convex optimization has not been adequately studied yet, unlike other optimality measures such as minimizing function value. Even in the deterministic case, the optimal method (OGM-G, due to Kim and Fessler (2021)) has just been discovered recently. In this work, we conduct a systematic study of the algorithmic techniques in finding near-stationary points of convex finite-sums. Our main contributions are several algorithmic discoveries: (1) we discover a memory-saving variant of OGM-G based on the performance estimation problem approach (Drori and Teboulle, 2014); (2) we design a new accelerated SVRG variant that can simultaneously achieve fast rates for both minimizing gradient norm and function value; (3) we propose an adaptively regularized accelerated SVRG variant, which does not require the knowledge of some unknown initial constants and achieves near-optimal complexities. We put an emphasis on the simplicity and practicality of the new schemes, which could facilitate future developments.
翻訳日:2021-05-26 14:20:06 公開日:2021-05-25
# LIBSアミノ酸スペクトルの非線形解析のためのマニフォールド近傍サイズの検討

Investigating Manifold Neighborhood size for Nonlinear Analysis of LIBS Amino Acid Spectra ( http://arxiv.org/abs/2105.12089v1 )

ライセンス: Link先を確認
Piyush K. Sharma, Gary Holness, and Poopalasingam Sivakumar, Yuri Markushin, Noureddine Melikechi(参考訳) 生体高分子の研究において水溶液中のアミノ酸の分類と同定が重要である。 レーザー誘起破壊分光法(LIBS)は、放射スペクトルを捕捉して記録した化合物のアブレーションに高エネルギーレーザーパルスを用いる。 LIBSのスペクトルピークとノイズは実験的プロトコルによって影響を受ける。 LIBSスペクトル解析の現在の手法は線形手法であるPCAを用いて有望な結果が得られる。 LIBSの背後にある物理過程が非常に非線形であることはよく知られている。 本研究は, LIBSスペクトルがパターン現象を考慮すべき近傍サイズに与える影響, 非線形手法が有効性を高めたパターン現象を捉える場合, 化合物の分類と識別を改善する方法について考察した。 4種類のアミノ酸,多糖類,制御基水を分析した。 我々は,LIBSエネルギースペクトル測定のための情報理論手法を開発し,非線形次元減少のための多様体法を実装した。 さらに,LIBSスペクトルにおけるマイクロウェル(実験プロトコル)の寄与も明らかにした。 我々の知識を最大限に活用するために、本研究論文におけるマニフォールド法の最初のLIBSアミノ酸分析への応用について述べる。

Classification and identification of amino acids in aqueous solutions is important in the study of biomacromolecules. Laser Induced Breakdown Spectroscopy (LIBS) uses high energy laser-pulses for ablation of chemical compounds whose radiated spectra are captured and recorded to reveal molecular structure. Spectral peaks and noise from LIBS are impacted by experimental protocols. Current methods for LIBS spectral analysis achieves promising results using PCA, a linear method. It is well-known that the underlying physical processes behind LIBS are highly nonlinear. Our work set out to understand the impact of LIBS spectra on suitable neighborhood size over which to consider pattern phenomena, if nonlinear methods capture pattern phenomena with increased efficacy, and how they improve classification and identification of compounds. We analyzed four amino acids, polysaccharide, and a control group, water. We developed an information theoretic method for measurement of LIBS energy spectra, implemented manifold methods for nonlinear dimensionality reduction, and found while clustering results were not statistically significantly different, nonlinear methods lead to increased classification accuracy. Moreover, our approach uncovered the contribution of micro-wells (experimental protocol) in LIBS spectra. To the best of our knowledge, ours is the first application of Manifold methods to LIBS amino-acid analysis in the research literature.
翻訳日:2021-05-26 14:19:38 公開日:2021-05-25
# 超スパース3次元トモグラフィ画像再構成のための幾何学インフォームド深層学習フレームワーク

A Geometry-Informed Deep Learning Framework for Ultra-Sparse 3D Tomographic Image Reconstruction ( http://arxiv.org/abs/2105.11692v1 )

ライセンス: Link先を確認
Liyue Shen, Wei Zhao, Dante Capaldi, John Pauly, Lei Xing(参考訳) 深層学習は、バイオメディカルイメージングの薬局を増強する膨大な機会を与えるが、その設計と実装には潜在的な欠陥がある。 基本的に、ほとんどのディープラーニングモデルは、事前の知識を考慮せずにデータによって完全に駆動されるため、ニューラルネットワークの複雑性が劇的に増大し、アプリケーションスコープとモデルの一般化性が制限される。 そこで我々は,超疎3次元断層画像再構成のための幾何学インフォームドディープラーニングフレームワークを構築した。 画像システムの幾何的先行を統合化するための新しいメカニズムを提案する。 超スパースサンプリングによる3次元容積CT画像撮影の性能向上には,既知前処理のシームレスな包摂が不可欠であることを示す。 この研究は、データ駆動型バイオメディカルイメージングの新しい道を開き、様々な臨床画像および画像誘導介入に対して、大幅に改善されたイメージングツールを提供することを約束している。

Deep learning affords enormous opportunities to augment the armamentarium of biomedical imaging, albeit its design and implementation have potential flaws. Fundamentally, most deep learning models are driven entirely by data without consideration of any prior knowledge, which dramatically increases the complexity of neural networks and limits the application scope and model generalizability. Here we establish a geometry-informed deep learning framework for ultra-sparse 3D tomographic image reconstruction. We introduce a novel mechanism for integrating geometric priors of the imaging system. We demonstrate that the seamless inclusion of known priors is essential to enhance the performance of 3D volumetric computed tomography imaging with ultra-sparse sampling. The study opens new avenues for data-driven biomedical imaging and promises to provide substantially improved imaging tools for various clinical imaging and image-guided interventions.
翻訳日:2021-05-26 14:18:53 公開日:2021-05-25
# corsai:深層学習を用いたcovid-19患者のctスキャンのロバストな解釈システム

CoRSAI: A System for Robust Interpretation of CT Scans of COVID-19 Patients Using Deep Learning ( http://arxiv.org/abs/2105.11863v1 )

ライセンス: Link先を確認
Manvel Avetisian, Ilya Burenko, Konstantin Egorov, Vladimir Kokh, Aleksandr Nesterov, Aleksandr Nikolaev, Alexander Ponomarchuk, Elena Sokolova, Alex Tuzhilin, Dmitry Umerenkov(参考訳) 胸部CT検査は、新型コロナウイルスなどの感染症に罹患する肺の一部を検出するのに有用であり、疾患による肺の量の決定は、治療勧告を定式化し、患者の重症度によって患者を優先させるのに不可欠である。 本稿では,肺CTスキャンのスライス分割のための深部畳み込みニューラルネットワークのアンサンブルを用いたアプローチを採用した。 モデルを用いて,病変を分割し,患者の動態を評価し,病変の影響を受ける肺の相対容積を推定し,肺損傷段階を評価できる。 私たちのモデルは、異なる医療センターのデータに基づいて訓練されています。 我々は,6人の経験的放射線科医のモデルと比較し,大半をセグメンテーションモデルが上回った。 疾患の重症度を分類するタスクにおいて、wemodelはすべての放射線科医を上回っていた。

Analysis of chest CT scans can be used in detecting parts of lungs that are affected by infectious diseases such as COVID-19.Determining the volume of lungs affected by lesions is essential for formulating treatment recommendations and prioritizingpatients by severity of the disease. In this paper we adopted an approach based on using an ensemble of deep convolutionalneural networks for segmentation of slices of lung CT scans. Using our models we are able to segment the lesions, evaluatepatients dynamics, estimate relative volume of lungs affected by lesions and evaluate the lung damage stage. Our modelswere trained on data from different medical centers. We compared predictions of our models with those of six experiencedradiologists and our segmentation model outperformed most of them. On the task of classification of disease severity, ourmodel outperformed all the radiologists.
翻訳日:2021-05-26 14:18:33 公開日:2021-05-25
# 畳み込みニューラルネットワークを用いた馬の感情認識

Emotion Recognition in Horses with Convolutional Neural Networks ( http://arxiv.org/abs/2105.11953v1 )

ライセンス: Link先を確認
Luis A. Corujo, Peter A. Gloor, Emily Kieson(参考訳) 感情を認識できるインテリジェントなシステムを作ることは、特に動物の感情を見る場合、難しい作業である。 本稿では,馬の感情を認識する「概念の証明」システムを設計する過程について述べる。 このシステムは検出器とモデルという2つの要素によって構成される。 この検出器はより高速な領域ベースの畳み込みニューラルネットワークで、画像中の馬を検出する。 第2のモデルである畳み込みニューラルネットワークは,それらの馬の感情を予測するものだ。 これら2つのモデルは、高い精度を達成するまで複数の馬のイメージで訓練され、望ましいシステムを生み出した。 400頭の馬の画像が検出器とモデルの両方の訓練に使われ、80頭の馬がシステムの検証に使用された。 2つのコンポーネントが検証されると、それらは、頭、首、耳、銃口、目の位置による感情的な影響を示す、確立された行動エトグラムに基づいて、同等の感情を検出するテスト可能なシステムに結合された。 このシステムは検証セット上で69%から74%の精度を示し、自律知能システムを用いて動物の感情を予測することができることを示した。 これは、様々な方法で拡張できる最初の"概念の証明"アプローチである。 このようなシステムは、動物の感情の成長分野や獣医学分野におけるさらなる研究を含む複数の応用があり、馬や他の家畜の身体的福祉を決定する。

Creating intelligent systems capable of recognizing emotions is a difficult task, especially when looking at emotions in animals. This paper describes the process of designing a "proof of concept" system to recognize emotions in horses. This system is formed by two elements, a detector and a model. The detector is a faster region-based convolutional neural network that detects horses in an image. The second one, the model, is a convolutional neural network that predicts the emotion of those horses. These two models were trained with multiple images of horses until they achieved high accuracy in their tasks, creating therefore the desired system. 400 images of horses were used to train both the detector and the model while 80 were used to validate the system. Once the two components were validated they were combined into a testable system that would detect equine emotions based on established behavioral ethograms indicating emotional affect through head, neck, ear, muzzle, and eye position. The system showed an accuracy of between 69% and 74% on the validation set, demonstrating that it is possible to predict emotions in animals using autonomous intelligent systems. It is a first "proof of concept" approach that can be enhanced in many ways. Such a system has multiple applications including further studies in the growing field of animal emotions as well as in the veterinary field to determine the physical welfare of horses or other livestock.
翻訳日:2021-05-26 14:18:08 公開日:2021-05-25
# 物理応用のためのベイズ畳み込みニューラルネットワークの校正と不確かさの定量化

Calibration and Uncertainty Quantification of Bayesian Convolutional Neural Networks for Geophysical Applications ( http://arxiv.org/abs/2105.12115v1 )

ライセンス: Link先を確認
Lukas Mosser, Ehsan Zabihi Naeini(参考訳) 例えば、深層ニューラルネットワークは、地震データセットの断層を予測する最先端の手法であると主張することができる。 量的貯留層キャラクタリゼーションワークフローでは、予測の不確かさを取り入れることで、そのような地下モデルが校正された確率と関連する不確実性をもたらすことが一般的である。 一般的なディープラーニングベースのモデルは、しばしば誤解され、決定論的性質のため、その予測の不確かさを解釈する手段がないことが示されている。 ベイズ形式主義における畳み込みニューラルネットワークに基づく確率モデル(Deep Ensembles, concrete Dropout, Stochastic Weight Averaging-Gaussian (SWAG)) の3つのアプローチを比較した。 これらの手法は, 深いアンサンブルが独立に訓練されたモデルを用いて故障確率を提供する場合, コンクリートのドロップアウトはベイズ型ニューラルネットワークへの人気のあるドロップアウト手法の拡張であり, 最終的に, ミニバッチ確率勾配降下のベイズ推定等価性に基づく最近の手法であるswagを適用する。 モデルキャリブレーションと不確実性表現の観点で定量的な結果と,合成および実地震データセットの質的結果を提供する。 この結果から, 基礎となるDeep Ensemble手法と比較して, ベイズ近似法, コンクリート落下法, SWAG は, ともに計算コストが低く, 精度のよい予測および不確かさ特性を提供することがわかった。 結果として生じる不確実性は、モデルの性能をさらに改善し、モデルの解釈可能性を高める可能性も提供する。

Deep neural networks offer numerous potential applications across geoscience, for example, one could argue that they are the state-of-the-art method for predicting faults in seismic datasets. In quantitative reservoir characterization workflows, it is common to incorporate the uncertainty of predictions thus such subsurface models should provide calibrated probabilities and the associated uncertainties in their predictions. It has been shown that popular Deep Learning-based models are often miscalibrated, and due to their deterministic nature, provide no means to interpret the uncertainty of their predictions. We compare three different approaches to obtaining probabilistic models based on convolutional neural networks in a Bayesian formalism, namely Deep Ensembles, Concrete Dropout, and Stochastic Weight Averaging-Gaussian (SWAG). These methods are consistently applied to fault detection case studies where Deep Ensembles use independently trained models to provide fault probabilities, Concrete Dropout represents an extension to the popular Dropout technique to approximate Bayesian neural networks, and finally, we apply SWAG, a recent method that is based on the Bayesian inference equivalence of mini-batch Stochastic Gradient Descent. We provide quantitative results in terms of model calibration and uncertainty representation, as well as qualitative results on synthetic and real seismic datasets. Our results show that the approximate Bayesian methods, Concrete Dropout and SWAG, both provide well-calibrated predictions and uncertainty attributes at a lower computational cost when compared to the baseline Deep Ensemble approach. The resulting uncertainties also offer a possibility to further improve the model performance as well as enhancing the interpretability of the models.
翻訳日:2021-05-26 14:17:30 公開日:2021-05-25
# TR-BERT: BERT推論高速化のための動的トークン削減

TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference ( http://arxiv.org/abs/2105.11618v1 )

ライセンス: Link先を確認
Deming Ye, Yankai Lin, Yufei Huang, Maosong Sun(参考訳) 既存の訓練済み言語モデル(PLM)は推論において計算コストがかかり、様々なリソース制限された現実世界のアプリケーションでは実用的ではない。 この問題に対処するため,我々は,冗長な計算を避けるために,各トークンの層数を柔軟に適応できるtr-bertと呼ばれるplmsの推論を高速化する動的トークン削減手法を提案する。 特に、TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。 下流NLPタスクの実験結果から,TR-BERTはBERTを2~5倍高速化し,様々な性能要求を満たすことができた。 さらに、TR-BERTはトークンレベルの層数適応によってPLMの自己注意操作が大幅に高速化されるため、長いテキストタスクの組において、より少ない計算でより良いパフォーマンスを実現することができる。 本論文のソースコードと実験の詳細はhttps://github.com/thunlp/TR-BERT.comから入手できる。

Existing pre-trained language models (PLMs) are often computationally expensive in inference, making them impractical in various resource-limited real-world applications. To address this issue, we propose a dynamic token reduction approach to accelerate PLMs' inference, named TR-BERT, which could flexibly adapt the layer number of each token in inference to avoid redundant calculation. Specially, TR-BERT formulates the token reduction process as a multi-step token selection problem and automatically learns the selection strategy via reinforcement learning. The experimental results on several downstream NLP tasks show that TR-BERT is able to speed up BERT by 2-5 times to satisfy various performance demands. Moreover, TR-BERT can also achieve better performance with less computation in a suite of long-text tasks since its token-level layer number adaption greatly accelerates the self-attention operation in PLMs. The source code and experiment details of this paper can be obtained from https://github.com/thunlp/TR-BERT.
翻訳日:2021-05-26 14:16:40 公開日:2021-05-25
# 複雑な知識ベース質問応答に関する調査:方法,課題,解決策

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions ( http://arxiv.org/abs/2105.11644v1 )

ライセンス: Link先を確認
Yunshi Lan, Gaole He, Jinhao Jiang, Jing Jiang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 知識ベース質問応答(KBQA)は、知識ベース(KB)に関する質問に答えることを目的としている。 近年,多くの研究が意味的あるいは構文的に複雑な質問に焦点をあてている。 本稿では、複雑なKBQAの典型的な課題と解決策を詳細に要約する。 KBQAタスクの背景を紹介することから始めます。 次に,複雑なKBQAの手法,すなわち意味解析法(SPベース)と情報検索法(IRベース)の2つの主流カテゴリを示す。 次に,2つのカテゴリの観点から,先進的な手法を総合的に検討する。 具体的には、彼らのソリューションを典型的な課題に説明します。 最後に,今後の研究の今後の方向性について述べる。

Knowledge base question answering (KBQA) aims to answer a question over a knowledge base (KB). Recently, a large number of studies focus on semantically or syntactically complicated questions. In this paper, we elaborately summarize the typical challenges and solutions for complex KBQA. We begin with introducing the background about the KBQA task. Next, we present the two mainstream categories of methods for complex KBQA, namely semantic parsing-based (SP-based) methods and information retrieval-based (IR-based) methods. We then review the advanced methods comprehensively from the perspective of the two categories. Specifically, we explicate their solutions to the typical challenges. Finally, we conclude and discuss some promising directions for future research.
翻訳日:2021-05-26 14:16:12 公開日:2021-05-25
# 経験的誤りモデリングはノイズニューラル列ラベルのロバスト性を改善する

Empirical Error Modeling Improves Robustness of Noisy Neural Sequence Labeling ( http://arxiv.org/abs/2105.11872v1 )

ライセンス: Link先を確認
Marcin Namysl, Sven Behnke, Joachim K\"ohler(参考訳) 近年の進歩にもかかわらず、標準シーケンスラベリングシステムは、ノイズの多いユーザ生成テキストを処理する場合や、光学文字認識(OCR)プロセスの出力を消費する場合にしばしば失敗する。 本稿では,誤りのないテキストから誤文への変換を行うために訓練されたシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。 OCRエンジンを用いて、トレーニング用の大規模並列テキストコーパスを生成し、評価のための実世界のノイズシークエンスラベリングベンチマークを作成した。 さらに,不完全なテキスト入力の場合,さらに悪化するデータ疎結合の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。 提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。 堅牢性に関する今後の研究を促進するために、コード、組み込み、データ変換スクリプトを公開しています。

Despite recent advances, standard sequence labeling systems often fail when processing noisy user-generated text or consuming the output of an Optical Character Recognition (OCR) process. In this paper, we improve the noise-aware training method by proposing an empirical error generation approach that employs a sequence-to-sequence model trained to perform translation from error-free to erroneous text. Using an OCR engine, we generated a large parallel text corpus for training and produced several real-world noisy sequence labeling benchmarks for evaluation. Moreover, to overcome the data sparsity problem that exacerbates in the case of imperfect textual input, we learned noisy language model-based embeddings. Our approach outperformed the baseline noise generation and error correction techniques on the erroneous sequence labeling data sets. To facilitate future research on robustness, we make our code, embeddings, and data conversion scripts publicly available.
翻訳日:2021-05-26 14:15:58 公開日:2021-05-25
# 注意:要約における信仰と多様性の促進

Focus Attention: Promoting Faithfulness and Diversity in Summarization ( http://arxiv.org/abs/2105.11921v1 )

ライセンス: Link先を確認
Rahul Aralikatte, Shashi Narayan, Joshua Maynez, Sascha Rothe, Ryan McDonald(参考訳) 専門的な要約は、文書のテーマなどの文書レベルの情報を念頭に置いて書かれる。 これは、多くのseq2seqデコーダと対照的で、各デコードステップで何を生成するかを決めながら、突出したコンテンツに同時に集中することを学ぶ。 このギャップを狭める動機から,デコーダが入力文書に類似したトークンを積極的に生成するように促す,シンプルかつ効果的な手法であるFocus Attention Mechanismを導入する。 さらに,現在要約に係わる領域である多種多様な要約を生成するためのフォーカスサンプリング手法を提案する。 bbcのextreme summarizationタスクで評価すると、フォーカスアテンションで強化された2つの最先端モデルが、ターゲットに近く、入力ドキュメントに忠実なサマリーを生成し、ルージュや複数の忠実度尺度でバニラのサマリーを上回った。 また,top-$k$やnucleus sample-basedデコード法よりも,フォーカスサンプリングが多様で忠実な要約を生成するのに有効であることを実証的に示す。

Professional summaries are written with document-level information, such as the theme of the document, in mind. This is in contrast with most seq2seq decoders which simultaneously learn to focus on salient content, while deciding what to generate, at each decoding step. With the motivation to narrow this gap, we introduce Focus Attention Mechanism, a simple yet effective method to encourage decoders to proactively generate tokens that are similar or topical to the input document. Further, we propose a Focus Sampling method to enable generation of diverse summaries, an area currently understudied in summarization. When evaluated on the BBC extreme summarization task, two state-of-the-art models augmented with Focus Attention generate summaries that are closer to the target and more faithful to their input documents, outperforming their vanilla counterparts on \rouge and multiple faithfulness measures. We also empirically demonstrate that Focus Sampling is more effective in generating diverse and faithful summaries than top-$k$ or nucleus sampling-based decoding methods.
翻訳日:2021-05-26 14:15:32 公開日:2021-05-25
# 一般可能性空間におけるギャンブルのコヒーレント集合の情報代数

Information algebras of coherent sets of gambles in general possibility spaces ( http://arxiv.org/abs/2105.12037v1 )

ライセンス: Link先を確認
Juerg Kohlas, Arianna Casanova, Marco Zaffalon(参考訳) 本稿では,情報代数学の代数構造にギャンブルのコヒーレントな集合を組み込むことができることを示す。 これは第一に、望ましくないという代数的および論理的構造に対する新たな見方につながり、第二に、望ましくない、従って不正確な確率を、同じ基盤構造を共有するコンピュータ科学における他の形式主義に結びつける。 一般可能性空間を考慮して、ギャンブルのコヒーレント集合の情報代数のドメインフリーとラベル付きビューの両方を提示する。

In this paper, we show that coherent sets of gambles can be embedded into the algebraic structure of information algebra. This leads firstly, to a new perspective of the algebraic and logical structure of desirability and secondly, it connects desirability, hence imprecise probabilities, to other formalism in computer science sharing the same underlying structure. Both the domain-free and the labeled view of the information algebra of coherent sets of gambles are presented, considering general possibility spaces.
翻訳日:2021-05-26 14:14:17 公開日:2021-05-25
# SiamMOT: Siamese Multi-Object Tracking

SiamMOT: Siamese Multi-Object Tracking ( http://arxiv.org/abs/2105.11595v1 )

ライセンス: Link先を確認
Bing Shuai, Andrew Berneshawi, Xinyu Li, Davide Modolo, Joseph Tighe(参考訳) 本稿では,オンラインマルチオブジェクトトラッキング(MOT)の改善に焦点を当てる。 特に,地域をベースとしたSiamMOTと呼ばれるSiamese Multi-Object Trackingネットワークを導入する。 SiamMOTには、検出されたインスタンスが関連付けられている2つのフレーム間のインスタンスの動きを推定するモーションモデルが含まれている。 動作モデルがトラッキング能力にどのように影響するかを調べるため,動作を暗黙的にモデル化するSiamese Trackerと,それを明示的にモデル化するSiamese Trackerの2つの変種を提示する。 我々は,MOT17,TAO-person,Caltech Roadside Pedestriansの3種類のMOTデータセットに対して,MOTにおけるモーションモデリングの重要性と,SiamMOTが最先端技術を上回る能力を示す大規模な定量的実験を行った。 最後に、SiamMOTはHiEveデータセットにおけるACM MM'20 HiEve Grand Challengeの勝者よりも優れています。 さらに、SiamMOTは効率が良く、単一のモダンGPU上で720Pビデオの17FPSで動作する。 コードは \url{https://github.com/amazon-research/siam-mot} で入手できる。

In this paper, we focus on improving online multi-object tracking (MOT). In particular, we introduce a region-based Siamese Multi-Object Tracking network, which we name SiamMOT. SiamMOT includes a motion model that estimates the instance's movement between two frames such that detected instances are associated. To explore how the motion modelling affects its tracking capability, we present two variants of Siamese tracker, one that implicitly models motion and one that models it explicitly. We carry out extensive quantitative experiments on three different MOT datasets: MOT17, TAO-person and Caltech Roadside Pedestrians, showing the importance of motion modelling for MOT and the ability of SiamMOT to substantially outperform the state-of-the-art. Finally, SiamMOT also outperforms the winners of ACM MM'20 HiEve Grand Challenge on HiEve dataset. Moreover, SiamMOT is efficient, and it runs at 17 FPS for 720P videos on a single modern GPU. Codes are available in \url{https://github.com/amazon-research/siam-mot}.
翻訳日:2021-05-26 14:11:40 公開日:2021-05-25
# TransLoc3D : 適応受容場を用いた点雲に基づく大規模位置認識

TransLoc3D : Point Cloud based Large-scale Place Recognition using Adaptive Receptive Fields ( http://arxiv.org/abs/2105.11605v1 )

ライセンス: Link先を確認
Tian-Xing Xu, Yuan-Chen Guo, Yu-Kun Lai, Song-Hai Zhang(参考訳) 位置認識は、自動運転とロボットナビゲーションの分野で重要な役割を担っている。 多くのポイントクラウドベースの手法が提案され、有望な結果を得たが、オブジェクトのサイズの違いを考慮しているものはほとんどない。 歩行者や車両のような小さな物体の場合、大きな受容野は無関係な情報を取り込み、小さな受容野は建物のような大きな物体の完全な幾何学的情報をエンコードすることができない。 固定受容場は位置認識には適さないと主張し,入力点クラウドに基づいて受容場のサイズを適応的に調整できる新しい適応受容場モジュール (ARFM) を提案する。 また、位置認識タスクのための点雲の識別的グローバル記述子を得るために、TransLoc3Dという新しいネットワークアーキテクチャを提案する。 TransLoc3Dは、3Dスパース畳み込みモジュール、ARFMモジュール、長距離依存性のキャプチャを目的とした外部トランスフォーマーネットワーク、NetVLADレイヤで構成されている。 実験の結果,オックスフォード・ロボカル・データセットの平均リコール@1では1.1 %,B.D.では0.8 %の改善が得られた。 データセット。

Place recognition plays an essential role in the field of autonomous driving and robot navigation. Although a number of point cloud based methods have been proposed and achieved promising results, few of them take the size difference of objects into consideration. For small objects like pedestrians and vehicles, large receptive fields will capture unrelated information, while small receptive fields would fail to encode complete geometric information for large objects such as buildings. We argue that fixed receptive fields are not well suited for place recognition, and propose a novel Adaptive Receptive Field Module (ARFM), which can adaptively adjust the size of the receptive field based on the input point cloud. We also present a novel network architecture, named TransLoc3D, to obtain discriminative global descriptors of point clouds for the place recognition task. TransLoc3D consists of a 3D sparse convolutional module, an ARFM module, an external transformer network which aims to capture long range dependency and a NetVLAD layer. Experiments show that our method outperforms prior state-of-the-art results, with an improvement of 1.1\% on average recall@1 on the Oxford RobotCar dataset, and 0.8\% on the B.D. dataset.
翻訳日:2021-05-26 14:11:13 公開日:2021-05-25
# ポラリメトリック時空間光輸送プローブ

Polarimetric Spatio-Temporal Light Transport Probing ( http://arxiv.org/abs/2105.11609v1 )

ライセンス: Link先を確認
Seung-Hwan Baek, Felix Heide(参考訳) 光は、検出器に反射される前に、異なる素材タイプの複数のシーン表面と複雑な相互作用を行うことができる。 この移動の間、全ての表面反射と伝播は、最終的に進行時間、方向、強度、波長、偏光を含む検出器に到達する光子の特性に符号化される。 従来の撮像システムは、光の他の全ての次元を単一の量に統合し、この豊かなシーン情報を蓄積された測定に隠して強度を捉える。 既存の手法はこれらを空間的・時間的次元に解き放つことができ、幾何学的シーンの理解を促進する。 しかし、ポーラリメトリックな物質特性と幾何学的性質を組み合わせることは、幾何学的理解を超えた前例のない能力を可能にする可能性があり、材料に依存したセマンティクスを取り入れることができる。 本研究では,シーンの空間的および時間的に解決された全ポラリメトリック応答をキャプチャする計算光輸送イメージング手法を提案する。 本手法は光輸送の7次元テンソル理論に基づく。 偏波テンソル次元における低ランク構造を発見し,偏波構造の冗長性を利用したデータ駆動型回転楕円法を提案する。 この理論をspatio-polarimetric imagingとcoaxial temporal-polarimetric imagingという2つの画像プロトタイプでインスタンス化する。 これにより、シーン光輸送を時間的・空間的・完全な偏光次元に分解し、従来の手法に隠されたシーン特性を明らかにする。 提案手法の適用性は, 地中散乱による形状再構成, 散乱媒質による観察, マルチバウンス光輸送の回避, 分極によるメタメリズムの破壊, 結晶の時空間分解など多岐にわたる。

Light can undergo complex interactions with multiple scene surfaces of different material types before being reflected towards a detector. During this transport, every surface reflection and propagation is encoded in the properties of the photons that ultimately reach the detector, including travel time, direction, intensity, wavelength and polarization. Conventional imaging systems capture intensity by integrating over all other dimensions of the light into a single quantity, hiding this rich scene information in the accumulated measurements. Existing methods can untangle these into their spatial and temporal dimensions, fueling geometric scene understanding. However, examining polarimetric material properties jointly with geometric properties is an open challenge that could enable unprecedented capabilities beyond geometric understanding, allowing to incorporate material-dependent semantics. In this work, we propose a computational light-transport imaging method that captures the spatially- and temporally-resolved complete polarimetric response of a scene. Our method hinges on a novel 7D tensor theory of light transport. We discover low-rank structures in the polarimetric tensor dimension and propose a data-driven rotating ellipsometry method that learns to exploit redundancy of the polarimetric structures. We instantiate our theory in two imaging prototypes: spatio-polarimetric imaging and coaxial temporal-polarimetric imaging. This allows us to decompose scene light transport into temporal, spatial, and complete polarimetric dimensions that unveil scene properties hidden to conventional methods. We validate the applicability of our method on diverse tasks, including shape reconstruction with subsurface scattering, seeing through scattering medium, untangling multi-bounce light transport, breaking metamerism with polarization, and spatio-polarimetric decomposition of crystals.
翻訳日:2021-05-26 14:10:38 公開日:2021-05-25
# ビデオからの教師なしスケール一貫性深度学習

Unsupervised Scale-consistent Depth Learning from Video ( http://arxiv.org/abs/2105.11610v1 )

ライセンス: Link先を確認
Jia-Wang Bian, Huangying Zhan, Naiyan Wang, Zhichao Li, Le Zhang, Chunhua Shen, Ming-Ming Cheng, Ian Reid(参考訳) そこで本研究では,学習のための未ラベル映像のみを必要とする単眼深度推定器sc-depthを提案する。 i) 隣接ビュー間の予測深度の不整合を罰する幾何学的整合性損失,(ii) 静的シーンの前提に反する移動物体を自動的に局所化し,トレーニング中にノイズを生じさせる自己発見マスク,(iii) 詳細なアブレーション研究により各コンポーネントの有効性を実証し,KITTIとNYUv2データセットの両方で高品質な深度推定結果を示す。 さらに、スケール一貫性のある予測能力により、我々の単眼訓練されたディープネットワークが、より堅牢で正確な追跡のために、orb-slam2システムに容易に統合されることを示す。 提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。 最後に、定性評価のためのいくつかのデモを提供する。

We propose a monocular depth estimator SC-Depth, which requires only unlabelled videos for training and enables the scale-consistent prediction at inference time. Our contributions include: (i) we propose a geometry consistency loss, which penalizes the inconsistency of predicted depths between adjacent views; (ii) we propose a self-discovered mask to automatically localize moving objects that violate the underlying static scene assumption and cause noisy signals during training; (iii) we demonstrate the efficacy of each component with a detailed ablation study and show high-quality depth estimation results in both KITTI and NYUv2 datasets. Moreover, thanks to the capability of scale-consistent prediction, we show that our monocular-trained deep networks are readily integrated into the ORB-SLAM2 system for more robust and accurate tracking. The proposed hybrid Pseudo-RGBD SLAM shows compelling results in KITTI, and it generalizes well to the KAIST dataset without additional training. Finally, we provide several demos for qualitative evaluation.
翻訳日:2021-05-26 14:09:55 公開日:2021-05-25
# TIPCB:テキストベースの人物検索のためのシンプルだが効果的な部分ベースの畳み込みベースライン

TIPCB: A Simple but Effective Part-based Convolutional Baseline for Text-based Person Search ( http://arxiv.org/abs/2105.11628v1 )

ライセンス: Link先を確認
Yuhao Chen, Guoqing Zhang, Yujiang Lu, Zhenxing Wang, Yuhui Zheng, Ruili Wang(参考訳) テキストベースの人物検索は画像検索の分野におけるサブタスクであり、与えられたテキスト記述に従って対象人物画像を取得することを目的としている。 2つのモード間の重要な特徴ギャップは、このタスクを非常に困難にします。 多くの既存の手法では、局所的なアライメントを利用してこの問題をきめ細かいレベルで解決しようとする。 しかし、最も関連する手法は、現実的なシナリオでは利用が難しい追加モデルや複雑なトレーニング、評価戦略を導入している。 そこで本研究では,TIPCB(Text-Image Part-based Convolutional Baseline)というテキストベースの人物検索のための,シンプルで効果的なエンドツーエンド学習フレームワークを提案する。 まず,画像が水平に分割され,テキストが適応的にアライメントされる視覚およびテキストの局所表現を抽出するために,新しいデュアルパス局所アライメントネットワーク構造を提案する。 そこで我々は,低レベル,局所レベル,グローバルレベルを含む3つの特徴レベルからモダリティギャップを除去する多段階のクロスモーダルマッチング戦略を提案する。 広範に使用されているベンチマークデータセット(CUHK-PEDES)を用いて,本手法がTop-1,Top-5,Top-10の3.69%,2.95%,2.31%の精度で評価した。 私たちのコードはhttps://github.com/OrangeYHChen/TIPCB.comで公開されています。

Text-based person search is a sub-task in the field of image retrieval, which aims to retrieve target person images according to a given textual description. The significant feature gap between two modalities makes this task very challenging. Many existing methods attempt to utilize local alignment to address this problem in the fine-grained level. However, most relevant methods introduce additional models or complicated training and evaluation strategies, which are hard to use in realistic scenarios. In order to facilitate the practical application, we propose a simple but effective end-to-end learning framework for text-based person search named TIPCB (i.e., Text-Image Part-based Convolutional Baseline). Firstly, a novel dual-path local alignment network structure is proposed to extract visual and textual local representations, in which images are segmented horizontally and texts are aligned adaptively. Then, we propose a multi-stage cross-modal matching strategy, which eliminates the modality gap from three feature levels, including low level, local level and global level. Extensive experiments are conducted on the widely-used benchmark dataset (CUHK-PEDES) and verify that our method outperforms the state-of-the-art methods by 3.69%, 2.95% and 2.31% in terms of Top-1, Top-5 and Top-10. Our code has been released in https://github.com/OrangeYHChen/TIPCB.
翻訳日:2021-05-26 14:09:21 公開日:2021-05-25
# 統計的アライメントによる特徴空間標的攻撃

Feature Space Targeted Attacks by Statistic Alignment ( http://arxiv.org/abs/2105.11645v1 )

ライセンス: Link先を確認
Lianli Gao, Yaya Cheng, Qilong Zhang, Xing Xu and Jingkuan Song(参考訳) 画像に人間の知覚できない摂動を加えることで、DNNを容易に騙すことができる。 主流の手法の1つとして、中間特徴マップを変調することで、特徴空間をターゲットとした摂動画像に対する攻撃が最小化されている。 しかし、現在の画素ワイドユークリッド距離の誤差を測るための選択は、ソースとターゲットの特徴に不当に空間整合性制約を課すため、疑わしい。 直感的には、画像の左または右にある猫であっても、画像は「キャット」に分類される。 この問題に対処するために,統計アライメントを用いてこの不一致を測定することを提案する。 具体的には,高次統計と変換不変性を用いて特徴写像間の類似性を測定するために,ペアワイズアライメント攻撃とグローバルワイズアライメント攻撃という2つの新しいアプローチを設計する。 さらに,信頼性の高い攻撃を得るのに様々な困難を伴う層間伝達特性を体系的に解析した。 提案手法の有効性を検証する広範な実験を行い,最先端アルゴリズムを大差で上回った。 私たちのコードはhttps://github.com/yaya-cheng/paa-gaaで公開されています。

By adding human-imperceptible perturbations to images, DNNs can be easily fooled. As one of the mainstream methods, feature space targeted attacks perturb images by modulating their intermediate feature maps, for the discrepancy between the intermediate source and target features is minimized. However, the current choice of pixel-wise Euclidean Distance to measure the discrepancy is questionable because it unreasonably imposes a spatial-consistency constraint on the source and target features. Intuitively, an image can be categorized as "cat" no matter the cat is on the left or right of the image. To address this issue, we propose to measure this discrepancy using statistic alignment. Specifically, we design two novel approaches called Pair-wise Alignment Attack and Global-wise Alignment Attack, which attempt to measure similarities between feature maps by high-order statistics with translation invariance. Furthermore, we systematically analyze the layer-wise transferability with varied difficulties to obtain highly reliable attacks. Extensive experiments verify the effectiveness of our proposed method, and it outperforms the state-of-the-art algorithms by a large margin. Our code is publicly available at https://github.com/yaya-cheng/PAA-GAA.
翻訳日:2021-05-26 14:08:38 公開日:2021-05-25
# クロスリゾリューション者再識別のためのディープ高解像度表現学習

Deep High-Resolution Representation Learning for Cross-Resolution Person Re-identification ( http://arxiv.org/abs/2105.11722v1 )

ライセンス: Link先を確認
Guoqing Zhang, Yu Ge, Zhicheng Dong, Hao Wang, Yuhui Zheng, Shengyong Chen(参考訳) 人物再識別(re-id)は、異なるカメラから同一の人物画像をマッチングする問題に取り組む。 実際の応用では、カメラ性能とカメラと興味のある人物の距離の違いにより、キャプチャされた人物画像は通常様々な解像度を持つ。 我々はこの問題をクロス・リゾリューション・パーソナリティ(Cross-Resolution Person Re-identification)と呼んでいる。 本稿では,PS-HRNet(Deep High-Resolution Pseudo-Siamese Framework)を提案する。 具体的には、低解像度画像の解像度を復元し、特徴マップの異なるチャネル情報を利用するために、VDSR-CAと呼ばれるチャネルアテンション(CA)機構を備えたVDSRモジュールを導入し、革新する。 そして、HRNet-ReIDと呼ばれる識別特徴を抽出するために、新しい表現ヘッドを設計することでHRNetを再構築する。 さらに,低解像度画像と高分解能画像間の特徴分布の違いを低減すべく疑似シアムフレームワークを構築した。 5つのクロスレゾリューションパーソンデータセットの実験結果は,提案手法の有効性を検証する。 提案手法と比較してPS-HRNetは, MLR-Market-1501, MLR-CUHK03, MLR-VIPeR, MLR-DukeMTMC-reID, CAVIARデータセットでそれぞれ3.4\%, 6.2\%, 2.5\%, 1.1\%, 4.2\%の改善を行った。 我々のコードは \url{https://github.com/zhguoqing} で入手できる。

Person re-identification (re-ID) tackles the problem of matching person images with the same identity from different cameras. In practical applications, due to the differences in camera performance and distance between cameras and persons of interest, captured person images usually have various resolutions. We name this problem as Cross-Resolution Person Re-identification which brings a great challenge for matching correctly. In this paper, we propose a Deep High-Resolution Pseudo-Siamese Framework (PS-HRNet) to solve the above problem. Specifically, in order to restore the resolution of low-resolution images and make reasonable use of different channel information of feature maps, we introduce and innovate VDSR module with channel attention (CA) mechanism, named as VDSR-CA. Then we reform the HRNet by designing a novel representation head to extract discriminating features, named as HRNet-ReID. In addition, a pseudo-siamese framework is constructed to reduce the difference of feature distributions between low-resolution images and high-resolution images. The experimental results on five cross-resolution person datasets verify the effectiveness of our proposed approach. Compared with the state-of-the-art methods, our proposed PS-HRNet improves 3.4\%, 6.2\%, 2.5\%,1.1\% and 4.2\% at Rank-1 on MLR-Market-1501, MLR-CUHK03, MLR-VIPeR, MLR-DukeMTMC-reID, and CAVIAR datasets, respectively. Our code is available at \url{https://github.com/zhguoqing}.
翻訳日:2021-05-26 14:08:06 公開日:2021-05-25
# ST-HOI:ビデオにおける人間と物体の相互作用検出のための時空間ベースライン

ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction Detection in Videos ( http://arxiv.org/abs/2105.11731v1 )

ライセンス: Link先を確認
Meng-Jiun Chiou, Chun-Yu Liao, Li-Wei Wang, Roger Zimmermann and Jiashi Feng(参考訳) ヒューマンオブジェクトインタラクション(HOI)の検出は、機械の包括的な視覚的理解に向けた重要なステップである。 静止画像から非時間的HOI(例えば椅子)を検出することは不可能であるが、隣接するフレームが重要な役割を果たす単一のビデオフレームから時間的関連HOI(例えばドアの開閉)を推測することは不可能である。 しかし、静的画像のみで動作する従来のHOI法は、時間的文脈を使わずに時間的関係を予測し、準最適性能をもたらす可能性がある。 本稿では,このギャップをビデオベースのHOIを明示的な時間情報で検出することで橋渡しする。 まず,共通動作検出ベースラインのナイーブな時間認識型は,機能的不整合の問題によりビデオベースのhoisでは動作しないことを示す。 次に、人や物体の軌跡、正確な局所化視覚特徴、空間的マスキングのポーズ特徴などの時間的情報を利用した、時空間HoI検出(ST-HOI)という、シンプルで効果的なアーキテクチャを提案する。 我々はVidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。

Detecting human-object interactions (HOI) is an important step toward a comprehensive visual understanding of machines. While detecting non-temporal HOIs (e.g., sitting on a chair) from static images is feasible, it is unlikely even for humans to guess temporal-related HOIs (e.g., opening/closing a door) from a single video frame, where the neighboring frames play an essential role. However, conventional HOI methods operating on only static images have been used to predict temporal-related interactions, which is essentially guessing without temporal contexts and may lead to sub-optimal performance. In this paper, we bridge this gap by detecting video-based HOIs with explicit temporal information. We first show that a naive temporal-aware variant of a common action detection baseline does not work on video-based HOIs due to a feature-inconsistency issue. We then propose a simple yet effective architecture named Spatial-Temporal HOI Detection (ST-HOI) utilizing temporal information such as human and object trajectories, correctly-localized visual features, and spatial-temporal masking pose features. We construct a new video HOI benchmark dubbed VidHOI where our proposed approach serves as a solid baseline.
翻訳日:2021-05-26 14:07:14 公開日:2021-05-25
# GAN for Vision, KG for Relation: A Two-stage Deep Network for Zero-shot Action Recognition

GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot Action Recognition ( http://arxiv.org/abs/2105.11789v1 )

ライセンス: Link先を確認
Bin Sun, Dehui Kong, Shaofan Wang, Jinghua Li, Baocai Yin, Xiaonan Luo(参考訳) ゼロショット動作認識は、サンプル内の一般的な潜在意味表現を探索することで、トレーニングで使用できない未発見のクラスのサンプルを認識することができる。 しかし、ほとんどの方法は、アクションクラス間の意味的関係と拡張的関係を無視し、ゼロショット学習の一般化能力が低かった。 さらに、学習した分類器は、見掛けたクラスのサンプルを予測するために傾斜し、分類性能が低下する。 上記の問題を解決するため,ゼロショット動作認識のための2段階のディープニューラルネットワークを提案し,サンプリング段階として機能生成サブネットワーク,分類段階としてグラフアテンションサブネットワークからなる。 サンプリング段階では,行動特徴と見掛けたクラスの単語ベクトルによって訓練された生成的敵ネットワーク(gan)を用いて,見掛けたクラスと見掛けられたクラスのサンプルデータのバランスをとるアンセエンクラスの動作特徴を合成する。 分類段階において,アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフ(kg)を構築し,注意機構に基づくグラフ畳み込みネットワーク(gcn)を提案し,アクションクラスとオブジェクトの関係を動的に更新し,ゼロショット学習の一般化能力を高める。 どちらの段階でも、私たちはみな、機能生成のブリッジとして単語ベクトルを使い、見知らぬクラスから見当たらないクラスへの分類器の一般化を行います。 UCF101およびHMDB51データセットの最先端手法との比較を行った。 実験の結果,提案手法は訓練された分類器の分類性能を向上し,精度が向上した。

Zero-shot action recognition can recognize samples of unseen classes that are unavailable in training by exploring common latent semantic representation in samples. However, most methods neglected the connotative relation and extensional relation between the action classes, which leads to the poor generalization ability of the zero-shot learning. Furthermore, the learned classifier incline to predict the samples of seen class, which leads to poor classification performance. To solve the above problems, we propose a two-stage deep neural network for zero-shot action recognition, which consists of a feature generation sub-network serving as the sampling stage and a graph attention sub-network serving as the classification stage. In the sampling stage, we utilize a generative adversarial networks (GAN) trained by action features and word vectors of seen classes to synthesize the action features of unseen classes, which can balance the training sample data of seen classes and unseen classes. In the classification stage, we construct a knowledge graph (KG) based on the relationship between word vectors of action classes and related objects, and propose a graph convolution network (GCN) based on attention mechanism, which dynamically updates the relationship between action classes and objects, and enhances the generalization ability of zero-shot learning. In both stages, we all use word vectors as bridges for feature generation and classifier generalization from seen classes to unseen classes. We compare our method with state-of-the-art methods on UCF101 and HMDB51 datasets. Experimental results show that our proposed method improves the classification performance of the trained classifier and achieves higher accuracy.
翻訳日:2021-05-26 14:06:36 公開日:2021-05-25
# PAS-MEF:主成分分析に基づくマルチ露光画像融合、適応的ウェルエクスプロイトネス、サリエンシマップ

PAS-MEF: Multi-exposure image fusion based on principal component analysis, adaptive well-exposedness and saliency map ( http://arxiv.org/abs/2105.11809v1 )

ライセンス: Link先を確認
Diclehan Karakaya, Oguzhan Ulucan, Mehmet Turkan(参考訳) 高ダイナミックレンジ(HDR)イメージングは、人間の観察者によって知覚されるように自然のシーンを不滅にすることができる。 通常の低ダイナミックレンジ(LDR)キャプチャ/表示装置では、大きなダイナミックレンジの自然シーンのため、画像に重要な詳細が保存されない場合がある。 本研究は,ldr画面における情報損失を最小限に抑え,高品質なhdrライクな画像を生成するため,主成分分析,適応的露出度,塩分マップに基づく簡易かつ効果的な重み抽出手法を提案する。 これらの重みマップは後に誘導フィルタによって洗練され、ピラミッド分解を用いて融合される。 既存の手法と実験的に比較した結果,提案手法は非常に強い統計的および視覚的結果が得られた。

High dynamic range (HDR) imaging enables to immortalize natural scenes similar to the way that they are perceived by human observers. With regular low dynamic range (LDR) capture/display devices, significant details may not be preserved in images due to the huge dynamic range of natural scenes. To minimize the information loss and produce high quality HDR-like images for LDR screens, this study proposes an efficient multi-exposure fusion (MEF) approach with a simple yet effective weight extraction method relying on principal component analysis, adaptive well-exposedness and saliency maps. These weight maps are later refined through a guided filter and the fusion is carried out by employing a pyramidal decomposition. Experimental comparisons with existing techniques demonstrate that the proposed method produces very strong statistical and visual results.
翻訳日:2021-05-26 14:05:49 公開日:2021-05-25
# ラベルなし画像による部分発見と補足によるマイナショット学習

Few-Shot Learning with Part Discovery and Augmentation from Unlabeled Images ( http://arxiv.org/abs/2105.11874v1 )

ライセンス: Link先を確認
Wentao Chen, Chenyang Si, Wei Wang, Liang Wang, Zilei Wang, Tieniu Tan(参考訳) 目に見えないクラスを認識できるインスタンスはごくわずかなので、少ないショット学習は難しいタスクです。 この問題を軽減する一つの方法は、同様のタスクでメタラーニングを通じて強い帰納的バイアスを得ることである。 本稿では、ラベルのない画像の平坦な集合からそのような帰納バイアスを学習し、見知らぬクラス間の移動可能な表現としてインスタンス化することを示す。 具体的には,画像と識別部との類似性を最大化することにより,転送可能な表現を学習するための,新しい部分的自己教師付き表現学習手法を提案する。 データ不足による少数の分類におけるオーバーフィッティングを軽減するため,ベースデータセットから余分な画像を取得することで部分拡張戦略を提案する。 ミニイメージネットとタイレッドイメージネットベンチマークについて系統的研究を行った。 その結果,従来の最良教師なし手法よりも7.74%,9.24%,5ウェイ1ショット,5ウェイ5ショット設定では9.24%,最先端教師付き手法に匹敵する結果が得られた。

Few-shot learning is a challenging task since only few instances are given for recognizing an unseen class. One way to alleviate this problem is to acquire a strong inductive bias via meta-learning on similar tasks. In this paper, we show that such inductive bias can be learned from a flat collection of unlabeled images, and instantiated as transferable representations among seen and unseen classes. Specifically, we propose a novel part-based self-supervised representation learning scheme to learn transferable representations by maximizing the similarity of an image to its discriminative part. To mitigate the overfitting in few-shot classification caused by data scarcity, we further propose a part augmentation strategy by retrieving extra images from a base dataset. We conduct systematic studies on miniImageNet and tieredImageNet benchmarks. Remarkably, our method yields impressive results, outperforming the previous best unsupervised methods by 7.74% and 9.24% under 5-way 1-shot and 5-way 5-shot settings, which are comparable with state-of-the-art supervised methods.
翻訳日:2021-05-26 14:05:22 公開日:2021-05-25
# Tab.IAIS:フレキシブルテーブル認識と意味解釈システム

Tab.IAIS: Flexible Table Recognition and Semantic Interpretation System ( http://arxiv.org/abs/2105.11879v1 )

ライセンス: Link先を確認
Marcin Namysl, Alexander M. Esser, Sven Behnke, Joachim K\"ohler(参考訳) テーブル抽出は重要な問題だが、未解決の問題である。 本稿では,フレキシブルなエンドツーエンドテーブル抽出システムを提案する。 我々は,完全テーブル認識プロセスを実行し,科学文献に見られる最も頻繁な表形式をサポートする2つのルールベースアルゴリズムを開発した。 さらに,意味情報の抽出をテーブル認識プロセスに組み込むために,グラフに基づくテーブル解釈法を開発した。 ICDAR 2013 と ICDAR 2019 の挑戦的なテーブル認識ベンチマークについて広範な実験を行った。 テーブル認識アプローチは最先端のアプローチと競合する結果を達成する。 また,完全情報抽出システムでは0.7380という高いf1スコアが得られた。

Table extraction is an important but still unsolved problem. In this paper, we introduce a flexible end-to-end table extraction system. We develop two rule-based algorithms that perform the complete table recognition process and support the most frequent table formats found in the scientific literature. Moreover, to incorporate the extraction of semantic information into the table recognition process, we develop a graph-based table interpretation method. We conduct extensive experiments on the challenging table recognition benchmarks ICDAR 2013 and ICDAR 2019. Our table recognition approach achieves results competitive with state-of-the-art approaches. Moreover, our complete information extraction system exhibited a high F1 score of 0.7380 proving the utility of our approach.
翻訳日:2021-05-26 14:04:50 公開日:2021-05-25
# 深層畳み込みニューラルネットワークを用いた屋内rgb-d意味セグメンテーションの検討

Review on Indoor RGB-D Semantic Segmentation with Deep Convolutional Neural Networks ( http://arxiv.org/abs/2105.11925v1 )

ライセンス: Link先を確認
Sami Barchid, Jos\'e Mennesson, Chaabane Dj\'eraba(参考訳) 多くの研究は、深層畳み込みニューラルネットワーク(特にセマンティクスセグメンテーション)による視覚タスクにおいて、屋内深度センサの補完的な幾何情報を活用することに重点を置いている。 これらの作業は「RGB-D屋内セマンティックセグメンテーション」と呼ばれる特定のビジョンタスクを扱う。 このタスクの課題と結果のソリューションは、標準のRGBと異なる。 その結果、新たな研究トピックが生まれました。 本稿では,rgb-d屋内意味セグメンテーションのための深層畳み込みニューラルネットワークの分野について述べる。 本稿では,最もポピュラーな公開データセットを提示し,最近のコントリビュートで採用されている戦略の分類を提案し,現在の最先端のパフォーマンスを評価し,今後の課題と今後の課題の方向性について考察する。

Many research works focus on leveraging the complementary geometric information of indoor depth sensors in vision tasks performed by deep convolutional neural networks, notably semantic segmentation. These works deal with a specific vision task known as "RGB-D Indoor Semantic Segmentation". The challenges and resulting solutions of this task differ from its standard RGB counterpart. This results in a new active research topic. The objective of this paper is to introduce the field of Deep Convolutional Neural Networks for RGB-D Indoor Semantic Segmentation. This review presents the most popular public datasets, proposes a categorization of the strategies employed by recent contributions, evaluates the performance of the current state-of-the-art, and discusses the remaining challenges and promising directions for future works.
翻訳日:2021-05-26 14:04:35 公開日:2021-05-25
# 野生における未熟深度向上と超溶解化を目指して

Towards Unpaired Depth Enhancement and Super-Resolution in the Wild ( http://arxiv.org/abs/2105.12038v1 )

ライセンス: Link先を確認
Aleksandr Safin, Maxim Kan, Nikita Drobyshev, Oleg Voynov, Alexey Artemov, Alexander Filippov, Denis Zorin, Evgeny Burnaev(参考訳) 商品センサで捉えた深度マップは、しばしば品質と解像度が低く、多くのアプリケーションで使用されるように拡張する必要がある。 深度マップの最先端のデータ駆動方式は、同じシーンの低解像度と高解像度の深度マップの登録ペアに依存している。 実世界のペアデータを取得するには、特別なセットアップが必要です。 もうひとつの方法として,低解像度マップをサブサンプリング,ノイズ付加,その他の人工劣化法により高解像度マップから生成することは,現実の低解像度画像の特徴をフルに捉えない。 その結果、このような人工的なペアデータで訓練された教師付き学習方法は、実世界の低解像度入力ではうまく機能しない可能性がある。 未経験データからの学習に基づく深度マップの強化手法を検討する。 画像対画像変換のための多くの技術が提案されているが、ほとんどは深度マップに直接適用できない。 より正確な深度マップを作成するための特徴として,学習可能な劣化モデルと表面正規推定に基づく,同時深度強調と超解像のための未ペア学習手法を提案する。 提案手法は,既存の未ペアリング手法よりも優れており,ペアリング手法と同等に動作することを示す。

Depth maps captured with commodity sensors are often of low quality and resolution; these maps need to be enhanced to be used in many applications. State-of-the-art data-driven methods of depth map super-resolution rely on registered pairs of low- and high-resolution depth maps of the same scenes. Acquisition of real-world paired data requires specialized setups. Another alternative, generating low-resolution maps from high-resolution maps by subsampling, adding noise and other artificial degradation methods, does not fully capture the characteristics of real-world low-resolution images. As a consequence, supervised learning methods trained on such artificial paired data may not perform well on real-world low-resolution inputs. We consider an approach to depth map enhancement based on learning from unpaired data. While many techniques for unpaired image-to-image translation have been proposed, most are not directly applicable to depth maps. We propose an unpaired learning method for simultaneous depth enhancement and super-resolution, which is based on a learnable degradation model and surface normal estimates as features to produce more accurate depth maps. We demonstrate that our method outperforms existing unpaired methods and performs on par with paired methods on a new benchmark for unpaired learning that we developed.
翻訳日:2021-05-26 14:04:15 公開日:2021-05-25
# モバイルにおけるスパース監督による実時間単眼深度推定

Real-time Monocular Depth Estimation with Sparse Supervision on Mobile ( http://arxiv.org/abs/2105.12053v1 )

ライセンス: Link先を確認
Mehmet Kerim Yucel, Valia Dimaridou, Anastasios Drosou, Albert Sa\`a-Garriga(参考訳) 単眼的(相対的または計量的)深さ推定は、自動運転車、拡張現実、画像編集など、様々なアプリケーションにとって重要なタスクである。 近年,モバイルデバイスの普及に伴い,精度とモバイルフレンドリーな奥行きモデルの重要性が高まっている。 精度の増すモデルは通常、より多くの計算資源を必要とし、モバイルデバイスでのそのようなモデルの使用を阻害する。 モバイルのユースケースは、おそらく最も制限のないもので、高精度でモバイルフレンドリーなアーキテクチャを必要とする。 したがって、私たちは以下の質問に答えようとしている: さらなる複雑さ(つまり)を追加することなく、どのようにモデルを改善することができるか。 パラメータ)? この目的に向けて,我々は,様々な次元から相対的深さ推定モデルの設計空間を体系的に探究し,重要な設計選択とアブレーションの研究により,既存のアーキテクチャでさえも,その複雑さのほんの一部で,最先端に高い競争力を発揮できることを示す。 本研究は, 詳細なバックボーンモデル選択プロセス, 知識蒸留, 中間予測, モデルプルーニング, 損失再バランスにまたがる。 我々は,DIWのみをスーパーバイザーデータセットとし,2.6Mパラメータを持つDIW上で0.1156WHDRを達成し,プルーニングやハードウェア固有の最適化を行なわずに,モバイルGPU上で37FPSに達することを示す。 1Mパラメータを持つDIWでは0.1208WHDRを実現し,モバイルGPUでは44FPSに達する。

Monocular (relative or metric) depth estimation is a critical task for various applications, such as autonomous vehicles, augmented reality and image editing. In recent years, with the increasing availability of mobile devices, accurate and mobile-friendly depth models have gained importance. Increasingly accurate models typically require more computational resources, which inhibits the use of such models on mobile devices. The mobile use case is arguably the most unrestricted one, which requires highly accurate yet mobile-friendly architectures. Therefore, we try to answer the following question: How can we improve a model without adding further complexity (i.e. parameters)? Towards this end, we systematically explore the design space of a relative depth estimation model from various dimensions and we show, with key design choices and ablation studies, even an existing architecture can reach highly competitive performance to the state of the art, with a fraction of the complexity. Our study spans an in-depth backbone model selection process, knowledge distillation, intermediate predictions, model pruning and loss rebalancing. We show that our model, using only DIW as the supervisory dataset, achieves 0.1156 WHDR on DIW with 2.6M parameters and reaches 37 FPS on a mobile GPU, without pruning or hardware-specific optimization. A pruned version of our model achieves 0.1208 WHDR on DIW with 1M parameters and reaches 44 FPS on a mobile GPU.
翻訳日:2021-05-26 14:03:42 公開日:2021-05-25
# the incel lexicon: the emergent cryptolect of a global misogynistic community

The incel lexicon: Deciphering the emergent cryptolect of a global misogynistic community ( http://arxiv.org/abs/2105.12006v1 )

ライセンス: Link先を確認
Kelly Gothard, David Rushing Dewhurst, Joshua R. Minot, Jane Lydia Adams, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) インセル(incels)という概念は、不随意的な性同一性の性中立的な枠組みから進化し、性的な関係を見つけ、維持することができないと認識されるため、自己、女性、社会に対して反感を持つ男性のオンラインコミュニティを指すようになった。 グローバルなオンラインメッセージボードであるRedditでインセル言語の使用を探索することで、インセルコミュニティが女性に対して犯した悪行や現実世界の暴力行為のオンライン表現をコンテキスト化します。 インセルをテーマにしたRedditチャンネルから300万件のコメントを集めた後、創発的なインセル・レキシコンに属するフレーズの用語集を並べたデータ駆動ランクの時間的ダイナミクスを分析した。 本研究は,集団の同一性に係わる広範囲な符号付き誤語語彙の生成と正規化を明らかにする。

Evolving out of a gender-neutral framing of an involuntary celibate identity, the concept of `incels' has come to refer to an online community of men who bear antipathy towards themselves, women, and society-at-large for their perceived inability to find and maintain sexual relationships. By exploring incel language use on Reddit, a global online message board, we contextualize the incel community's online expressions of misogyny and real-world acts of violence perpetrated against women. After assembling around three million comments from incel-themed Reddit channels, we analyze the temporal dynamics of a data driven rank ordering of the glossary of phrases belonging to an emergent incel lexicon. Our study reveals the generation and normalization of an extensive coded misogynist vocabulary in service of the group's identity.
翻訳日:2021-05-26 14:02:59 公開日:2021-05-25
# 飛行船スケジューリングのための構造化畳み込みカーネルネットワーク

Structured Convolutional Kernel Networks for Airline Crew Scheduling ( http://arxiv.org/abs/2105.11646v1 )

ライセンス: Link先を確認
Yassine Yaakoubi, Fran\c{c}ois Soumis, Simon Lacoste-Julien(参考訳) 航空機乗組員のスケジューリングアプリケーションのニーズに応え,MairalらによるCKNを組み合わせた構造化畳み込みカーネルネットワーク(Struct-CKN)を導入する。 (2014)は、出力の制約をサポートする構造化予測フレームワークである。 CKNは特定の種類の畳み込みニューラルネットワークであり、トレーニングデータ上でカーネルの特徴マップを近似し、ディープラーニングの特性とカーネルメソッドの非パラメトリックな柔軟性を組み合わせる。 cknを構造化出力に拡張することで、航空乗組員スケジューリングソルバによってさらに洗練されたフライト接続データセット上で有用な初期解を得ることができる。 より具体的には、学習プロセスに局所的な制約を組み込むことができる一般的な条件付き確率場としてモデル化された飛行ベースのネットワークを用いる。 実験により,本手法は標準的な手法よりも大規模乗組員ペアリング問題(月5万便)を大幅に改善し,ソリューションコストを17%削減し(数百万ドル),グローバル制約のコストを97%削減することを示した。

Motivated by the needs from an airline crew scheduling application, we introduce structured convolutional kernel networks (Struct-CKN), which combine CKNs from Mairal et al. (2014) in a structured prediction framework that supports constraints on the outputs. CKNs are a particular kind of convolutional neural networks that approximate a kernel feature map on training data, thus combining properties of deep learning with the non-parametric flexibility of kernel methods. Extending CKNs to structured outputs allows us to obtain useful initial solutions on a flight-connection dataset that can be further refined by an airline crew scheduling solver. More specifically, we use a flight-based network modeled as a general conditional random field capable of incorporating local constraints in the learning process. Our experiments demonstrate that this approach yields significant improvements for the large-scale crew pairing problem (50,000 flights per month) over standard approaches, reducing the solution cost by 17% (a gain of millions of dollars) and the cost of global constraints by 97%.
翻訳日:2021-05-26 14:02:32 公開日:2021-05-25
# 階層的な集約クラスタリングを数十億規模のデータセットにスケールアップする

Scaling Hierarchical Agglomerative Clustering to Billion-sized Datasets ( http://arxiv.org/abs/2105.11653v1 )

ライセンス: Link先を確認
Baris Sumengen (1), Anand Rajagopalan (1), Gui Citovsky (1), David Simcha (1), Olivier Bachem (1), Pradipta Mitra (1), Sam Blasiak (1), Mason Liang (2), Sanjiv Kumar (1) ((1) Google Research, (2) 0x Labs)(参考訳) Hierarchical Agglomerative Clustering (HAC)は、最も古く、最も広く使われているクラスタリング手法の1つである。 しかし、HACは、基礎となる複雑さが少なくともデータポイントの数で二次的であり、HACを解くアルゴリズムが本質的にシーケンシャルであるため、大規模なデータセットにスケールすることが難しいことが知られている。 本稿では,クラスタを効率的に並列にマージするための新しい戦略を用いて,hacのための分散アルゴリズムである<reciprocal agglomerative clustering (rac)"を提案する。 理論的には、RACはHACの正確な解を回復する。 さらに、クラスタビリティと均衡性仮定の下では、並列性による全実行時の証明可能なスピードアップを示す。 また、これらのスピードアップは特定の確率的データモデルに対して達成可能であることを示す。 大規模な実験では、この並列性は実世界のデータセット上で達成され、提案したRACアルゴリズムは1時間以内で数十億のエッジで接続された数十億のデータポイント上のHAC階層を復元できることを示す。

Hierarchical Agglomerative Clustering (HAC) is one of the oldest but still most widely used clustering methods. However, HAC is notoriously hard to scale to large data sets as the underlying complexity is at least quadratic in the number of data points and many algorithms to solve HAC are inherently sequential. In this paper, we propose {Reciprocal Agglomerative Clustering (RAC)}, a distributed algorithm for HAC, that uses a novel strategy to efficiently merge clusters in parallel. We prove theoretically that RAC recovers the exact solution of HAC. Furthermore, under clusterability and balancedness assumption we show provable speedups in total runtime due to the parallelism. We also show that these speedups are achievable for certain probabilistic data models. In extensive experiments, we show that this parallelism is achieved on real world data sets and that the proposed RAC algorithm can recover the HAC hierarchy on billions of data points connected by trillions of edges in less than an hour.
翻訳日:2021-05-26 14:02:00 公開日:2021-05-25
# 一般化した逆強化学習枠組み

A Generalised Inverse Reinforcement Learning Framework ( http://arxiv.org/abs/2105.11812v1 )

ライセンス: Link先を確認
Firas Jarboui, Vianney Perchet(参考訳) 逆強化学習(IRL)のグラビアの目的は、(近似)最適政策によって生成された観測軌道に基づいて、一部のMDPベースの未知のコスト関数を推定することである。 古典的なアプローチはこのコスト関数を調整することで、関連する最適軌道(累積ディスカウントコストを最小化する)を最適化する。 古典的なRL損失は観測値と'類似'である。 以前のコントリビューションは、縮退したソリューションのペナシエーションとアルゴリズムのスケーラビリティの改善に重点を置いていた。 それらに対して極めて直交的に、累積割引コストに関して最適性を特徴づける傾向が、より長い混合時間を持つ政策に対して暗黙の偏見をもたらすことを疑問視する。 アート値に基づくRLアルゴリズムの状態は、逆問題に対して十分に定義されていない強い基準であるベルマン最適性演算子の固定点を解くことでこの問題を回避する。 IRLにおけるこのバイアスを軽減するために、IRL問題(最大エントロピー)の修正をもたらす将来の状態により多くの重みを与える代替のトレーニング損失を導入する。 私たちが考案したアルゴリズムは、複数のopenai体育館環境において、既製のものよりも性能が向上(および類似性)している。

The gloabal objective of inverse Reinforcement Learning (IRL) is to estimate the unknown cost function of some MDP base on observed trajectories generated by (approximate) optimal policies. The classical approach consists in tuning this cost function so that associated optimal trajectories (that minimise the cumulative discounted cost, i.e. the classical RL loss) are 'similar' to the observed ones. Prior contributions focused on penalising degenerate solutions and improving algorithmic scalability. Quite orthogonally to them, we question the pertinence of characterising optimality with respect to the cumulative discounted cost as it induces an implicit bias against policies with longer mixing times. State of the art value based RL algorithms circumvent this issue by solving for the fixed point of the Bellman optimality operator, a stronger criterion that is not well defined for the inverse problem. To alleviate this bias in IRL, we introduce an alternative training loss that puts more weights on future states which yields a reformulation of the (maximum entropy) IRL problem. The algorithms we devised exhibit enhanced performances (and similar tractability) than off-the-shelf ones in multiple OpenAI gym environments.
翻訳日:2021-05-26 14:01:34 公開日:2021-05-25
# 公共交通需要分析 : 首都ラゴスを事例として

Public Transportation Demand Analysis: A Case Study of Metropolitan Lagos ( http://arxiv.org/abs/2105.11816v1 )

ライセンス: Link先を確認
Ozioma Paul and Patrick McSharry(参考訳) モデリング、シミュレーション、予測はより良い計画と意思決定を促進する手段を提供する。 これらの定量的アプローチは、データに依存しず、特に公共交通機関に関係のある従来の方法を超えて価値を付加することができる。 ラゴスは急速な都市化を経験しており、現在人口は1500万人弱である。 長い待ち時間と不確実な旅行時間の両方で、多くの人々が自分の車を購入したり、代替の輸送手段を使うようになった。 これにより、道路上の車両数が大幅に増加し、さらに交通量が増え、交通渋滞も増大した。 本稿では、ラゴスにおける都市交通需要を調査し、時間と空間における乗客の動態を考察する。 ラゴス州立バスラピッドトランジット(brt)から購入した乗車券の個々の通勤旅行データを用いて、一日の時間帯、週の日数、バス駅の需要パターンを分析した。 本研究の目的は,実際の乗車からの需要を定量化し,動的スケジューリングが待ち時間に与える影響を推定することである。 駅区分は、特定のバススケジュールを調整するために、需要特性によってクラスター駅に提供される。 ラゴスBRTの日内公共交通需要は分析され、予測が比較される。 固定バスおよび動的バススケジューリングを用いたシミュレーションにより、平均待ち時間を最大80%短縮できることを示した。 負荷曲線、洞察、開発アプローチは、急速な都市化の課題に直面しているラゴスや同様のアフリカの都市で政策立案に役立ちます。

Modelling, simulation, and forecasting offer a means of facilitating better planning and decision-making. These quantitative approaches can add value beyond traditional methods that do not rely on data and are particularly relevant for public transportation. Lagos is experiencing rapid urbanization and currently has a population of just under 15 million. Both long waiting times and uncertain travel times has driven many people to acquire their own vehicle or use alternative modes of transport. This has significantly increased the number of vehicles on the roads leading to even more traffic and greater traffic congestion. This paper investigates urban travel demand in Lagos and explores passenger dynamics in time and space. Using individual commuter trip data from tickets purchased from the Lagos State Bus Rapid Transit (BRT), the demand patterns through the hours of the day, days of the week and bus stations are analysed. This study aims to quantify demand from actual passenger trips and estimate the impact that dynamic scheduling could have on passenger waiting times. Station segmentation is provided to cluster stations by their demand characteristics in order to tailor specific bus schedules. Intra-day public transportation demand in Lagos BRT is analysed and predictions are compared. Simulations using fixed and dynamic bus scheduling demonstrate that the average waiting time could be reduced by as much as 80%. The load curves, insights and the approach developed will be useful for informing policymaking in Lagos and similar African cities facing the challenges of rapid urbanization.
翻訳日:2021-05-26 14:01:04 公開日:2021-05-25
# 非パラメトリック回帰のための最適サンプリング密度

Optimal Sampling Density for Nonparametric Regression ( http://arxiv.org/abs/2105.11990v1 )

ライセンス: Link先を確認
Danny Panknin and Shinichi Nakajima and Klaus Robert M\"uller(参考訳) 本稿では,モデルに依存しない,モデルミスマッチに対する頑健な回帰学習戦略を提案する。 局所多項式平滑化(LPS)の一般化誤差を局所的に調整した局所多項式平滑化(英語版)(英語版)の一般化誤差を最小化する最適トレーニング密度を仮定する: 平均積分二乗誤差(MISE)を一般化基準として採用し、MISEの漸近挙動と局所最適帯域幅(LOB)を漸近極限におけるMISEを最小化する帯域幅関数とする。 目的の漸近的表現は,MISEのトレーニング密度依存性を明らかにし,解析的最小化を可能にする。 その結果,クローズドフォームにおける最適トレーニング密度が得られる。 提案手法のほとんどモデルフリーな性質は、対象問題の生特性を符号化し、堅牢でモデルに依存しない能動的学習戦略を提供する。 さらに、得られたトレーニング密度は、透過的かつ解釈可能な方法で局所関数複雑性、雑音レベルおよびテスト密度の影響を分解する。 本理論を数値シミュレーションで検証し,提案手法が既存の最先端モデル非依存手法よりも優れていることを示す。

We propose a novel active learning strategy for regression, which is model-agnostic, robust against model mismatch, and interpretable. Assuming that a small number of initial samples are available, we derive the optimal training density that minimizes the generalization error of local polynomial smoothing (LPS) with its kernel bandwidth tuned locally: We adopt the mean integrated squared error (MISE) as a generalization criterion, and use the asymptotic behavior of the MISE as well as thelocally optimal bandwidths (LOB) -- the bandwidth function that minimizes MISE in the asymptotic limit. The asymptotic expression of our objective then reveals the dependence of the MISE on the training density, enabling analytic minimization. As a result, we obtain the optimal training density in a closed-form. The almost model-free nature of our approach should encode raw properties of the target problem, and thus provide a robust and model-agnostic active learning strategy. Furthermore, the obtained training density factorizes the influence of local function complexity, noise leveland test density in a transparent and interpretable way. We validate our theory in numerical simulations, and show that the proposed active learning method outperforms the existing state-of-the-art model-agnostic approaches.
翻訳日:2021-05-26 14:00:27 公開日:2021-05-25
# 模倣学習のためのハイパーパラメータ選択

Hyperparameter Selection for Imitation Learning ( http://arxiv.org/abs/2105.12034v1 )

ライセンス: Link先を確認
Leonard Hussenot, Marcin Andrychowicz, Damien Vincent, Robert Dadashi, Anton Raichuk, Lukasz Stafiniak, Sertan Girgin, Raphael Marinier, Nikola Momchev, Sabela Ramos, Manu Orsini, Olivier Bachem, Matthieu Geist, Olivier Pietquin(参考訳) 本稿では,実演者の報酬関数が常に観察できない場合,継続制御の文脈において,模倣学習アルゴリズムのチューニングハイパーパラメータ(hps)の問題に対処する。 模倣学習の膨大な文献は、この報酬関数をHPの選択に利用できると考えているが、現実的な設定ではない。 実際、この報酬関数が利用可能であれば、政策トレーニングに直接使用することができ、模倣は必要ないだろう。 このほとんど無視された問題に対処するため、我々は外部報酬に対する多くのプロキシを提案する。 9つの環境にまたがる10万以上のエージェントによる広範な実証研究で評価し,hps選択のための実践的な推奨を行った。 その結果,模倣学習アルゴリズムはHPの選択に敏感であるが,報酬関数のプロキシを通じて十分なHPを選択することが可能であることが示唆された。

We address the issue of tuning hyperparameters (HPs) for imitation learning algorithms in the context of continuous-control, when the underlying reward function of the demonstrating expert cannot be observed at any time. The vast literature in imitation learning mostly considers this reward function to be available for HP selection, but this is not a realistic setting. Indeed, would this reward function be available, it could then directly be used for policy training and imitation would not be necessary. To tackle this mostly ignored problem, we propose a number of possible proxies to the external reward. We evaluate them in an extensive empirical study (more than 10'000 agents across 9 environments) and make practical recommendations for selecting HPs. Our results show that while imitation learning algorithms are sensitive to HP choices, it is often possible to select good enough HPs through a proxy to the reward function.
翻訳日:2021-05-26 13:59:49 公開日:2021-05-25
# OFEI: DLaaSに対するAndroidの準ブラックボックスのサンプルアタックフレームワーク

OFEI: A Semi-black-box Android Adversarial Sample Attack Framework Against DLaaS ( http://arxiv.org/abs/2105.11593v1 )

ライセンス: Link先を確認
Guangquan Xu, GuoHua Xin, Litao Jiao, Jian Liu, Shaoying Liu, Meiqi Feng, and Xi Zheng(参考訳) Androidデバイスの人気が高まり、Androidのマルウェアはユーザーの安全を脅かしている。 このような脅威はディープラーニング・アズ・ア・サービス(dlaas)によって検出されるが、dlaasの最も弱い部分であるディープニューラルネットワークは、攻撃者によって詳細な敵のサンプルによってしばしば騙される。 本稿では,android の敵対的サンプルを作成するために,one-feature-each-iteration (ofei) と呼ばれる新しいセミブラックボックス攻撃フレームワークを提案する。 このフレームワークは可能な限り少数の機能を変更し、分類器を騙すために分類器情報が少ない。 我々は、JSMF、GenAttack、ポイントワイズアタックのベンチマーク手法と比較し、OFEIフレームワークを評価するための制御実験を行う。 実験の結果,OFEIの誤分類率は98.25%であった。 さらに、ofeiはfast gradient sign method(fgsm)やdeepfoolといった、従来のホワイトボックス攻撃手法を拡張して、android用の敵対的なサンプルを作成することもできる。 最後に、DLaaSの安全性を高めるために、ベイズニューラルネットワークの2つの不確実性を使用して、敵のサンプルを検出し、99.28%の高い検出率を達成する。

With the growing popularity of Android devices, Android malware is seriously threatening the safety of users. Although such threats can be detected by deep learning as a service (DLaaS), deep neural networks as the weakest part of DLaaS are often deceived by the adversarial samples elaborated by attackers. In this paper, we propose a new semi-black-box attack framework called one-feature-each-iteration (OFEI) to craft Android adversarial samples. This framework modifies as few features as possible and requires less classifier information to fool the classifier. We conduct a controlled experiment to evaluate our OFEI framework by comparing it with the benchmark methods JSMF, GenAttack and pointwise attack. The experimental results show that our OFEI has a higher misclassification rate of 98.25%. Furthermore, OFEI can extend the traditional white-box attack methods in the image field, such as fast gradient sign method (FGSM) and DeepFool, to craft adversarial samples for Android. Finally, to enhance the security of DLaaS, we use two uncertainties of the Bayesian neural network to construct the combined uncertainty, which is used to detect adversarial samples and achieves a high detection rate of 99.28%.
翻訳日:2021-05-26 13:58:53 公開日:2021-05-25
# アンカーテキスト情報によるウィキペディアのリンク予測

Predicting Links on Wikipedia with Anchor Text Information ( http://arxiv.org/abs/2105.11734v1 )

ライセンス: Link先を確認
Robin Brochier, Fr\'ed\'eric B\'echet(参考訳) wikipediaは最大規模のオンライン百科事典であり、内部リンクで結ばれた文書のコーパスである。 これらのリンクは、この百科事典でカバーされている概念に関する重要な情報を含む大きなネットワークの構成要素を形成する。 対象ページを指しているソースページのアンカーテキストで具体化された2つの記事間のリンクの存在は、読者のトピックに対する理解を高めることができる。 しかし、リンクのプロセスは、アンダーリンクとオーバーリンクの両方を避けるための特定の編集規則に従う。 本稿では、英語ウィキペディアのいくつかのサブセットにおけるリンク予測の帰納的および帰納的タスクを調査し、アンカーテキスト情報に基づく自動リンクの背後にあるいくつかの重要な課題を明らかにする。 適切な評価サンプリング手法を提案し,いくつかのアルゴリズムを比較した。 さらに,タスクの全体的な難易度を適切に推定するベースラインモデルを提案する。

Wikipedia, the largest open-collaborative online encyclopedia, is a corpus of documents bound together by internal hyperlinks. These links form the building blocks of a large network whose structure contains important information on the concepts covered in this encyclopedia. The presence of a link between two articles, materialised by an anchor text in the source page pointing to the target page, can increase readers' understanding of a topic. However, the process of linking follows specific editorial rules to avoid both under-linking and over-linking. In this paper, we study the transductive and the inductive tasks of link prediction on several subsets of the English Wikipedia and identify some key challenges behind automatic linking based on anchor text information. We propose an appropriate evaluation sampling methodology and compare several algorithms. Moreover, we propose baseline models that provide a good estimation of the overall difficulty of the tasks.
翻訳日:2021-05-26 13:58:17 公開日:2021-05-25
# FENXI: エッジでのディープラーニングトラフィック分析

FENXI: Deep-learning Traffic Analytics at the Edge ( http://arxiv.org/abs/2105.11738v1 )

ライセンス: Link先を確認
Massimo Gallo, Alessandro Finamore, Gwendal Simon, and Dario Rossi(参考訳) ISPネットワークの最初のアグリゲーションポイントにおけるライブトラフィック分析は、複雑なトラフィックエンジニアリングポリシーの実装を可能にするが、特にディープラーニング(DL)ベースの分析において、処理能力の不足によって制限される。 特別なハードウェアアクセラレーター、すなわちテンソル処理ユニット(tpu)の導入は、エッジにおけるネットワークデバイスの処理能力を向上させる機会を提供する。 しかし、これまでパケット処理パイプラインは、ネットワーク操作に干渉することなく、データプレーンにdlベースの分析機能を提供することができない。 本稿では,TPUを利用して複雑な解析を行うシステムであるFENXIを提案する。 FENXIの設計は、転送操作とトラフィック分析を分離し、パケットとフローのレベルで異なる粒度で動作する。 ネットワークデータと分析結果の交換に非同期に通信する2つの独立したモジュールを考案し、パケット単位の処理に影響を与えることなく、フローレベルの統計を抽出するデータ構造を設計する。 敵ネットワーク条件と現実ネットワーク条件の両方を考慮した汎用サーバ上でFENXIを試作・評価した。 解析の結果、FENXIは、限られたリソースのみを必要とする100Gbpsの回線レートトラフィック処理を維持でき、かつ、可変ネットワーク条件に動的に適応できることがわかった。

Live traffic analysis at the first aggregation point in the ISP network enables the implementation of complex traffic engineering policies but is limited by the scarce processing capabilities, especially for Deep Learning (DL) based analytics. The introduction of specialized hardware accelerators i.e., Tensor Processing Unit (TPU), offers the opportunity to enhance the processing capabilities of network devices at the edge. Yet, to date, no packet processing pipeline is capable of offering DL-based analysis capabilities in the data-plane, without interfering with network operations. In this paper, we present FENXI, a system to run complex analytics by leveraging TPU. The design of FENXI decouples forwarding operations and traffic analytics which operates at different granularities i.e., packet and flow levels. We conceive two independent modules that asynchronously communicate to exchange network data and analytics results, and design data structures to extract flow level statistics without impacting per-packet processing. We prototyped and evaluated FENXI on general-purpose servers considering both adversarial and realistic network conditions. Our analysis shows that FENXI can sustain 100 Gbps line rate traffic processing requiring only limited resources, while also dynamically adapting to variable network conditions.
翻訳日:2021-05-26 13:57:52 公開日:2021-05-25
# 非満足なサブセット最適化によるCSPの効率的な説明

Efficiently Explaining CSPs with Unsatisfiable Subset Optimization ( http://arxiv.org/abs/2105.11763v1 )

ライセンス: Link先を確認
Emilio Gamba, Bart Bogaerts and Tias Guns(参考訳) 我々は,制約満足度問題の解法を説明する手法を最近提案した。 ここでの説明は、単純な推論ステップのシーケンスであり、推論ステップの単純さは、使用される制約と事実の数と種類によって測定され、シーケンスは問題のすべての論理的結果を説明する。 私たちは、これらの正式な基盤の上に構築し、2つの新しい質問、すなわち、(与えられたコストメトリックに関して)確実に最適な説明を生成する方法と、それらを効率的に生成する方法に取り組む。 これらの疑問に答えるために,1) 最適な不満足なサブセットを見つけるための暗黙的なヒットセットアルゴリズム,2) サブセットの制約を考慮に入れた単一呼び出しに対する複数の(最適)不満足なサブセットの呼び出しを減らす方法,3) 関連情報を複数の呼び出しで再利用する手法を開発する。 この方法は、コスト最適化不能な部分集合を見つける必要がある他の問題にも適用できる。 具体的には、論理グリッドパズルのような制約満足度問題に対する最適説明手順のシーケンスを効果的に見つけるために、このアプローチが利用できることを示す。

We build on a recently proposed method for explaining solutions of constraint satisfaction problems. An explanation here is a sequence of simple inference steps, where the simplicity of an inference step is measured by the number and types of constraints and facts used, and where the sequence explains all logical consequences of the problem. We build on these formal foundations and tackle two emerging questions, namely how to generate explanations that are provably optimal (with respect to the given cost metric) and how to generate them efficiently. To answer these questions, we develop 1) an implicit hitting set algorithm for finding optimal unsatisfiable subsets; 2) a method to reduce multiple calls for (optimal) unsatisfiable subsets to a single call that takes constraints on the subset into account, and 3) a method for re-using relevant information over multiple calls to these algorithms. The method is also applicable to other problems that require finding cost-optimal unsatiable subsets. We specifically show that this approach can be used to effectively find sequences of optimal explanation steps for constraint satisfaction problems like logic grid puzzles.
翻訳日:2021-05-26 13:57:17 公開日:2021-05-25
# 双方向A*を用いた双方向探索

Bi-objective Search with Bi-directional A* ( http://arxiv.org/abs/2105.11888v1 )

ライセンス: Link先を確認
Saman Ahmadi, Guido Tack, Daniel Harabor, Philip Kilby(参考訳) 双目的探索は、2次元領域における最適解の集合を見つけることに関わるよく知られたアルゴリズム問題である。 この問題には、輸送システムの計画やエネルギーシステムの最適制御など、幅広い応用がある。 近年,二目的A*検索 (BOA*) は大規模ネットワークにおいて最先端の性能を示している。 本稿では,数種類のスピードアップヒューリスティックスに富んだBOA*の双方向変種を開発する。 実験結果から,二目的探索(boba*)のための双方向a*アルゴリズムは,全ベンチマークインスタンスに対して平均5倍の改善により,boa*,bi-objective dijkstraおよびbi-directional bi-objective dijkstraの状態を上回って,すべてのベンチマークケースをタイムリミット内で最適に解くことができることが示された。

Bi-objective search is a well-known algorithmic problem, concerned with finding a set of optimal solutions in a two-dimensional domain. This problem has a wide variety of applications such as planning in transport systems or optimal control in energy systems. Recently, bi-objective A*-based search (BOA*) has shown state-of-the-art performance in large networks. This paper develops a bi-directional variant of BOA*, enriched with several speed-up heuristics. Our experimental results on 1,000 benchmark cases show that our bi-directional A* algorithm for bi-objective search (BOBA*) can optimally solve all of the benchmark cases within the time limit, outperforming the state of the art BOA*, bi-objective Dijkstra and bi-directional bi-objective Dijkstra by an average runtime improvement of a factor of five over all of the benchmark instances.
翻訳日:2021-05-26 13:56:44 公開日:2021-05-25
# Examplar-based Clustering in Industry 4.0

Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 ( http://arxiv.org/abs/2105.12026v1 )

ライセンス: Link先を確認
Philipp-Jan Honysz and Alexander Schulze-Struchtrup and Sebastian Buschj\"ager and Katharina Morik(参考訳) データ要約は、巨大なデータストリームから知識を引き出すための貴重なツールであり、多くのアプリケーションでその有用性を証明しています。 要約は、サブモジュラー関数を最適化することで見つけることができる。 これらの関数はデータのサブセットを実際の値にマッピングし、それらの"表現性"を示し、基礎となるデータの多様な要約を見つけるために最大化する。 本稿では,Exemplarベースのクラスタリングをサブモジュール関数として検討し,その計算複雑性に対処するGPUアルゴリズムを提案する。 我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。 また、GPUアルゴリズムはワークステーショングレードのGPUだけでなく、最大35倍の高速化が可能な低消費電力の組み込み計算ユニットにも優れた実行時利益をもたらすことを示した。 さらに,本アルゴリズムを射出成形プロセスから得られた実世界のデータに適用し,この特定の工程をステアリングすることで,コスト削減と不良部品製造の削減を図っている。 純粋なスピードアップだけでなく、我々のアプローチはこのような産業的で現実世界のデータに対して妥当な時間枠で要約を提供できることを示している。

Data summarizations are a valuable tool to derive knowledge from large data streams and have proven their usefulness in a great number of applications. Summaries can be found by optimizing submodular functions. These functions map subsets of data to real values, which indicate their "representativeness" and which should be maximized to find a diverse summary of the underlying data. In this paper, we studied Exemplar-based clustering as a submodular function and provide a GPU algorithm to cope with its high computational complexity. We show, that our GPU implementation provides speedups of up to 72x using single-precision and up to 452x using half-precision computation compared to conventional CPU algorithms. We also show, that the GPU algorithm not only provides remarkable runtime benefits with workstation-grade GPUs but also with low-power embedded computation units for which speedups of up to 35x are possible. Furthermore, we apply our algorithm to real-world data from injection molding manufacturing processes and discuss how found summaries help with steering this specific process to cut costs and reduce the manufacturing of bad parts. Beyond pure speedup considerations, we show, that our approach can provide summaries within reasonable time frames for this kind of industrial, real-world data.
翻訳日:2021-05-26 13:56:19 公開日:2021-05-25
# 人間とロボットの混合チームにおける役割と計画タスクを割り当てる統合動的手法

An Integrated Dynamic Method for Allocating Roles and Planning Tasks for Mixed Human-Robot Teams ( http://arxiv.org/abs/2105.12031v1 )

ライセンス: Link先を確認
Fabio Fusaro (1 and 2), Edoardo Lamon (1), Elena De Momi (2), Arash Ajoudani (1) ((1) Human-Robot Interfaces and physical Interaction, Istituto Italiano di Tecnologia, Genoa, Italy, (2) Department of Electronics, Information and Bioengineering, Politecnico di Milano Politecnico di Milano, Milan, Italy)(参考訳) 本稿では,生産環境に適した混合ロボットチームにおけるタスクの計画と割当のための行動木に基づく新しい統合動的手法を提案する。 ビヘイビアツリーの定式化により、1つのジョブを時間的および論理的な制約のある異なるタスクの複合としてエンコードすることができる。 このように、よく研究されているオフライン集中最適化問題の代わりに、複雑なタスク依存やクロススケジュールタスク依存を伴わずに、複数の簡易オンライン最適化サブプロブレムでロール割り当て問題を解く。 これらのサブプロブレムは混合整数線形プログラムとして定義され、ワーカー-アクションに関連するコストとワーカーの可用性に応じて、利用可能なワーカー間で実行中のタスクを割り当てる。 提案手法の動作を特徴付けるために,アクション・ワーカー割当の結果と計算複雑性を評価する異なるシミュレーション実験を行うことを選択した。 得られた結果は,アルゴリズムの性質とエージェントの動作をシミュレートする可能性から,実実験においてアルゴリズムがどのように機能するかをうまく記述する必要がある。

This paper proposes a novel integrated dynamic method based on Behavior Trees for planning and allocating tasks in mixed human robot teams, suitable for manufacturing environments. The Behavior Tree formulation allows encoding a single job as a compound of different tasks with temporal and logic constraints. In this way, instead of the well-studied offline centralized optimization problem, the role allocation problem is solved with multiple simplified online optimization sub-problem, without complex and cross-schedule task dependencies. These sub-problems are defined as Mixed-Integer Linear Programs, that, according to the worker-actions related costs and the workers' availability, allocate the yet-to-execute tasks among the available workers. To characterize the behavior of the developed method, we opted to perform different simulation experiments in which the results of the action-worker allocation and computational complexity are evaluated. The obtained results, due to the nature of the algorithm and to the possibility of simulating the agents' behavior, should describe well also how the algorithm performs in real experiments.
翻訳日:2021-05-26 13:55:43 公開日:2021-05-25
# 中を見て 企業内イントラネットネットワークの分析と単語共起ネットワークを用いた株価予測

Look inside. Predicting stock prices by analysing an enterprise intranet social network and using word co-occurrence networks ( http://arxiv.org/abs/2105.11780v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, G. Scettri(参考訳) 本研究は、企業の株価を予測するのに役立つ新しい指標を提供する従業員のコミュニケーションを考察する。 イタリアの大企業のイントラネットフォーラムを調査し、約8,000人の従業員の交流と言語使用について検討した。 一般談話に含まれる単語をリンクするネットワークを構築した。 このネットワークでは,企業ブランドを代表するノードの位置に注目した。 低い感情、企業ブランドの中間中心性、より密集した単語共起ネットワーク、より均等に分散した従業員の中央集中度スコア(中間中心性の低いグループ)は、いずれも株価上昇の重要な予測要因であることがわかった。 我々の発見は、学者、企業マネージャー、プロの投資家にとって役立つ新しい指標を提供し、既存の予測モデルに統合して精度を向上させることができる。 最後に,その応用範囲を広げることにより,単語共起ネットワークの研究に貢献する。

This study looks into employees' communication, offering novel metrics which can help to predict a company's stock price. We studied the intranet forum of a large Italian company, exploring the interactions and the use of language of about 8,000 employees. We built a network linking words included in the general discourse. In this network, we focused on the position of the node representing the company brand. We found that a lower sentiment, a higher betweenness centrality of the company brand, a denser word co-occurrence network and more equally distributed centrality scores of employees (lower group betweenness centrality) are all significant predictors of higher stock prices. Our findings offers new metrics that can be helpful for scholars, company managers and professional investors and could be integrated into existing forecasting models to improve their accuracy. Lastly, we contribute to the research on word co-occurrence networks by extending their field of application.
翻訳日:2021-05-26 13:54:40 公開日:2021-05-25
# ビッグデータとビッグデータ: 企業が自らを再考する必要があるとき

Big data and big values: When companies need to rethink themselves ( http://arxiv.org/abs/2105.12048v1 )

ライセンス: Link先を確認
M. A. Barchiesi, A. Fronzetti Colladon(参考訳) ビジネス環境の複雑さに直面するため,テキストマイニング,ソーシャルネットワーク,ビッグデータ分析を組み合わせた新たな手法を提案し,企業の中核的価値に対する利害関係者の態度を評価する。 このアプローチをケーススタディに適用し,イタリアにおけるコアバリューに関するTwitterの談話を検討した。 我々は、フォーチュン誌の世界で最も賞賛された企業ランキング(2013-2017年)にリストされた企業のコアバリューに関連する9万4000以上のツイートを収集した。 イタリアのシナリオでは、主要な3つの価値指向(顧客、従業員、卓越)、そして、定期的な注意を必要とする3つの潜在性(経済金融の成長、市民権、社会的責任)を見出した。 私たちの貢献は主に方法論的であり、テキストマイニングや複雑なビジネスコンテキストに適用されたオンラインビッグデータ分析の研究を拡張しています。

In order to face the complexity of business environments and detect priorities while triggering contingency strategies, we propose a new methodological approach that combines text mining, social network and big data analytics, with the assessment of stakeholders' attitudes towards company core values. This approach was applied in a case study where we considered the Twitter discourse about core values in Italy. We collected more than 94,000 tweets related to the core values of the firms listed in Fortune's ranking of the World's Most Admired Companies (2013-2017). For the Italian scenario, we found three predominant core values orientations (Customers, Employees and Excellence) - which should be at the basis of any business strategy - and three latent ones (Economic-Financial Growth, Citizenship and Social Responsibility), which need periodic attention. Our contribution is mostly methodological and extends the research on text mining and on online big data analytics applied in complex business contexts.
翻訳日:2021-05-26 13:54:10 公開日:2021-05-25
# 群選択と縮小とスパース半パラメトリックモデリングへの応用

Group selection and shrinkage with application to sparse semiparametric modeling ( http://arxiv.org/abs/2105.12081v1 )

ライセンス: Link先を確認
Ryan Thompson and Farshid Vahid(参考訳) グループ選択が可能なスパース回帰と分類推定器は、マルチタスク学習からスパース付加モデリング、階層選択まで、様々な統計問題に適用できる。 この研究は、グループ部分集合選択とグループラッソまたはリッジ収縮を組み合わせたグループスパース推定器のクラスを導入する。 本研究では,非凸正規化面と有限サンプル誤差境界を適合させて回帰関数を推定する最適化フレームワークを開発する。 我々の方法と解析は、群が重なり合う一般的な設定に適合する。 群選択の応用として、各予測器の効果をゼロ、リニア、非線形にすることを可能にする手続きであるスパース・セミパラメトリック・モデリング(sparse semiparametric modeling)について検討する。 このタスクのために、新しい推定器は、代替品と比較して、合成データに関するいくつかのメトリクスで改善される。 最後に,多くの予測器を用いたスーパーマーケットの足場交通と景気不況のモデル化の有効性を示す。 提案はすべて,スケーラブルな実装であるgrpselで利用可能です。

Sparse regression and classification estimators capable of group selection have application to an assortment of statistical problems, from multitask learning to sparse additive modeling to hierarchical selection. This work introduces a class of group-sparse estimators that combine group subset selection with group lasso or ridge shrinkage. We develop an optimization framework for fitting the nonconvex regularization surface and present finite-sample error bounds for estimation of the regression function. Our methods and analyses accommodate the general setting where groups overlap. As an application of group selection, we study sparse semiparametric modeling, a procedure that allows the effect of each predictor to be zero, linear, or nonlinear. For this task, the new estimators improve across several metrics on synthetic data compared to alternatives. Finally, we demonstrate their efficacy in modeling supermarket foot traffic and economic recessions using many predictors. All of our proposals are made available in the scalable implementation grpsel.
翻訳日:2021-05-26 13:53:42 公開日:2021-05-25
# 未知のジェネリックリフレクタンスのテクスチャレス平滑表面の多視点3次元再構成

Multi-view 3D Reconstruction of a Texture-less Smooth Surface of Unknown Generic Reflectance ( http://arxiv.org/abs/2105.11599v1 )

ライセンス: Link先を確認
Ziang Cheng, Hongdong Li, Yuta Asano, Yinqiang Zheng, Imari Sato(参考訳) 表面反射率が不明な純テクスチャレス物体の3次元形状の復元(例) 非ラトビア語)は多視点再構成において難しい課題と見なされている。 主な障害は、光度定数に違反するクロスビュー対応を確立することにある。 本稿では,同一位置のカメラ光スキャナ装置を用いて,この課題を克服するための簡易かつ実用的な解決法を提案する。 既存の解とは異なり、対応を明示的に解くことはできない。 代わりに、この問題は一般に多視点幾何学的および測光的制約によってうまく解決され、少数の入力ビューから解決できると主張する。 本研究では, 表面形状と反射率に関する共同エネルギー最小化として再構成タスクを定式化する。 このエネルギーは非常に非凸であるにもかかわらず、ランダム初期化からでもグローバルな最適形状と反射率を頑健に回復する最適化アルゴリズムを開発する。 シミュレーションデータと実データの両方について広範な実験を行い,今後の拡張の可能性について考察した。

Recovering the 3D geometry of a purely texture-less object with generally unknown surface reflectance (e.g. non-Lambertian) is regarded as a challenging task in multi-view reconstruction. The major obstacle revolves around establishing cross-view correspondences where photometric constancy is violated. This paper proposes a simple and practical solution to overcome this challenge based on a co-located camera-light scanner device. Unlike existing solutions, we do not explicitly solve for correspondence. Instead, we argue the problem is generally well-posed by multi-view geometrical and photometric constraints, and can be solved from a small number of input views. We formulate the reconstruction task as a joint energy minimization over the surface geometry and reflectance. Despite this energy is highly non-convex, we develop an optimization algorithm that robustly recovers globally optimal shape and reflectance even from a random initialization. Extensive experiments on both simulated and real data have validated our method, and possible future extensions are discussed.
翻訳日:2021-05-26 13:52:34 公開日:2021-05-25
# 遠距離波自由空間飛行時間イメージング

Centimeter-Wave Free-Space Time-of-Flight Imaging ( http://arxiv.org/abs/2105.11606v1 )

ライセンス: Link先を確認
Seung-Hwan Baek, Noah Walsh, Ilya Chugunov, Zheng Shi, Felix Heide(参考訳) 深度カメラは、パーソナルデバイス、ロボティクス、自動運転車など、測定された深度を直接的または間接的に頼りにするさまざまなアプリケーションで、基礎的なモダリティとして登場している。 飛行時間(ToF)法はこれらの応用に寄与しているが、ToF法の精度とロバスト性は光子の時間タグ付けや光変換後の変調によって制限される。 光学変調法は, 結合損失が大きい繊維結合変調やサブcm範囲の干渉変調に制限されており, 干渉計法とToF法との精度差は3桁以上である。 本研究では、このギャップを埋め、従来のシリコン強度センサによる表面反射率や周囲光への頑健さでミクロンスケールの深度分解が可能な光変換前の全光自由空間相関の計算画像化手法を提案する。 この目的のために、GHzレートの変調と計算フェーズの切り離しという2つの技術的課題を解決する。 共振偏光変調器を用いた撮像手法を提案し,10GHz以上の高変調コントラストを実現する光二重パス周波数共振器を提案する。 同時に、変調帯域幅の小さいセンチメートル波変調は、既存の位相アンラッピング法を非効率にする。 我々は、隣接するラップがしばしば高い相関関係にあることを悪用する神経相解離法でこの問題に取り組む。 提案手法をシミュレーションおよび実験で検証し,ミクロンスケールの深度精度を実現する。 表面のテクスチャや環境光とは無関係に精密な深度センシングを示し,既存のアナログ復調法と比較した。

Depth cameras are emerging as a cornerstone modality with diverse applications that directly or indirectly rely on measured depth, including personal devices, robotics, and self-driving vehicles. Although time-of-flight (ToF) methods have fueled these applications, the precision and robustness of ToF methods is limited by relying on photon time-tagging or modulation after photo-conversion. Successful optical modulation approaches have been restricted fiber-coupled modulation with large coupling losses or interferometric modulation with sub-cm range, and the precision gap between interferometric methods and ToF methods is more than three orders of magnitudes. In this work, we close this gap and propose a computational imaging method for all-optical free-space correlation before photo-conversion that achieves micron-scale depth resolution with robustness to surface reflectance and ambient light with conventional silicon intensity sensors. To this end, we solve two technical challenges: modulating at GHz rates and computational phase unwrapping. We propose an imaging approach with resonant polarization modulators and devise a novel optical dual-pass frequency-doubling which achieves high modulation contrast at more than 10GHz. At the same time, centimeter-wave modulation together with a small modulation bandwidth render existing phase unwrapping methods ineffective. We tackle this problem with a neural phase unwrapping method that exploits that adjacent wraps are often highly correlated. We validate the proposed method in simulation and experimentally, where it achieves micron-scale depth precision. We demonstrate precise depth sensing independently of surface texture and ambient light and compare against existing analog demodulation methods, which we outperform across all tested scenarios.
翻訳日:2021-05-26 13:52:09 公開日:2021-05-25
# DTNN:エッジビジョン応用のためのデンドライトツリー誘導ニューラルネットワークによるエネルギー効率推論

DTNN: Energy-efficient Inference with Dendrite Tree Inspired Neural Networks for Edge Vision Applications ( http://arxiv.org/abs/2105.11848v1 )

ライセンス: Link先を確認
Tao Luo, Wai Teng Tang, Matthew Kay Fei Lee, Chuping Qu, Weng-Fai Wong, Rick Goh(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョン(CV)において大きな成功を収めている。 しかし、DNNモデルのトレーニングと推論はメモリと計算に重きを置いており、エネルギー消費とシリコン面積の面でかなりのオーバーヘッドをもたらす。 特に推論は、強力なプラットフォームでオフラインでトレーニングできるため、トレーニングよりもコストに敏感である。一方、特にモバイルやエッジビジョンアプリケーションでは、制限されたフォームファクタを持つバッテリー駆動デバイスで推論を行う必要がある。 DNN推論を高速化するために,モデル量子化を提案する。 しかし、以前の研究は、操作の効率を考慮せずに量子化率にのみ焦点をあてている。 本稿では,活性化量子化によって実現されたテーブルルックアップ操作によるエネルギー効率の高い推論のためのDendrite-Tree based Neural Network (DTNN)を提案する。 DTNNでは、コストのかかるウェイトアクセスと算術演算の両方が推論のために排除される。 我々は、MNIST、Cifar10/Cifar100、SVHN、ImageNetなど、さまざまなデータセットを用いて、LeNet-5、MobileNet、VGG、ResNetなどのDNNモデルの実験を行った。 DTNNはResNet-18とVGG-11でそれぞれ19.4Xと64.9Xの大幅な省エネを実現した。 DTNNの有効性をさらに検証し,エッジビジョンのための最先端の低エネルギー実装と比較するために,既製のFPGAを用いてDTNNベースのMLP画像分類器を設計・実装する。 その結果、FPGA上でのDTNNは、ASICチップを用いた最新の低エネルギーアプローチと比較して、はるかに優れたエネルギー消費とレイテンシを実現することができた。

Deep neural networks (DNN) have achieved remarkable success in computer vision (CV). However, training and inference of DNN models are both memory and computation intensive, incurring significant overhead in terms of energy consumption and silicon area. In particular, inference is much more cost-sensitive than training because training can be done offline with powerful platforms, while inference may have to be done on battery powered devices with constrained form factors, especially for mobile or edge vision applications. In order to accelerate DNN inference, model quantization was proposed. However previous works only focus on the quantization rate without considering the efficiency of operations. In this paper, we propose Dendrite-Tree based Neural Network (DTNN) for energy-efficient inference with table lookup operations enabled by activation quantization. In DTNN both costly weight access and arithmetic computations are eliminated for inference. We conducted experiments on various kinds of DNN models such as LeNet-5, MobileNet, VGG, and ResNet with different datasets, including MNIST, Cifar10/Cifar100, SVHN, and ImageNet. DTNN achieved significant energy saving (19.4X and 64.9X improvement on ResNet-18 and VGG-11 with ImageNet, respectively) with negligible loss of accuracy. To further validate the effectiveness of DTNN and compare with state-of-the-art low energy implementation for edge vision, we design and implement DTNN based MLP image classifiers using off-the-shelf FPGAs. The results show that DTNN on the FPGA, with higher accuracy, could achieve orders of magnitude better energy consumption and latency compared with the state-of-the-art low energy approaches reported that use ASIC chips.
翻訳日:2021-05-26 13:51:23 公開日:2021-05-25
# 学習画像圧縮のための自己組織化変分オートエンコーダ(Self-VAE)

Self-Organized Variational Autoencoders (Self-VAE) for Learned Image Compression ( http://arxiv.org/abs/2105.12107v1 )

ライセンス: Link先を確認
M. Ak{\i}n Y{\i}lmaz, Onur Kele\c{s}, Hilal G\"uven, A. Murat Tekalp, Junaid Malik, Serkan K{\i}ranyaz(参考訳) エンドツーエンドに最適化された画像圧縮では、一般化された分割正規化(GDN)を備えた畳み込み変分オートエンコーダを用いて画像を潜時空間に変換するのが一般的である。 近年,一組の代替品から最良の非線形性を学ぶオペレーショナルニューラルネットワーク (ONNs) や,テイラー級数を介して任意の非線形性を近似する自己組織化変種Self-ONNsが,畳み込み層と固定された非線形活性化の限界に対処するために提案されている。 本稿では,変分オートエンコーダの畳み込み層とgdn層を自己組織型操作層に置き換え,より強固な非線形性を利用した新しい自己組織型変分オートエンコーダ(self-vae)アーキテクチャを提案する。 実験結果から,提案したSelf-VAEは,速度歪み性能と知覚画像品質の両方の改善をもたらすことが示された。

In end-to-end optimized learned image compression, it is standard practice to use a convolutional variational autoencoder with generalized divisive normalization (GDN) to transform images into a latent space. Recently, Operational Neural Networks (ONNs) that learn the best non-linearity from a set of alternatives, and their self-organized variants, Self-ONNs, that approximate any non-linearity via Taylor series have been proposed to address the limitations of convolutional layers and a fixed nonlinear activation. In this paper, we propose to replace the convolutional and GDN layers in the variational autoencoder with self-organized operational layers, and propose a novel self-organized variational autoencoder (Self-VAE) architecture that benefits from stronger non-linearity. The experimental results demonstrate that the proposed Self-VAE yields improvements in both rate-distortion performance and perceptual image quality.
翻訳日:2021-05-26 13:50:36 公開日:2021-05-25
# ベントニックAUV調査計画のための特徴空間探査

Feature Space Exploration For Planning Initial Benthic AUV Surveys ( http://arxiv.org/abs/2105.11598v1 )

ライセンス: Link先を確認
Jackson Shields, Oscar Pizarro, Stefan B. Williams(参考訳) 特別目的自律水中車両(AUV)は、海底付近の光学画像を収集するベントニック(海底)調査に使用される。 カメラの小さなセンサーの足跡と、調査対象地域が広いため、これらのauvは数万平方メートル以上のエリアをカバーすることはできない。 そのため, サンプルの少ないAUVパスを効果的に実施するには, 調査エリアが必要である。 広帯域の音響浴量測定データは広い範囲で利用可能であり、しばしば海底カバーに先立って有用である。 そのため、AUVデータ収集のガイドには、事前の浴量測定が使用できる。 本研究は,多種多様な水浴場から試料を採取するために,水浴計の特徴空間表現を効率的に探索する初期auvサーベイの計画手法を提案する。 これにより、AUVは独自の生息地を含む可能性があり、調査地域全体を代表する地域を訪問できる。 これらの手法のAUV調査計画への適合性は,特徴空間のカバレッジと,初期潜水時のベント性生息地の全クラスへの訪問能力に基づいて評価される。 これは、初期潜水の有用性を高めるため、AUV調査にとって貴重なツールである。 また、音響浴量測定と視覚由来の海底分類の関係を学習するための総合的なトレーニングセットも提供する。

Special-purpose Autonomous Underwater Vehicles (AUVs) are utilised for benthic (seafloor) surveys, where the vehicle collects optical imagery of near the seafloor. Due to the small-sensor footprint of the cameras and the vast areas to be surveyed, these AUVs can not feasibly full coverage of areas larger than a few tens of thousands of square meters. Therefore AUV paths which sample sparsely, yet effectively, the survey areas are necessary. Broad scale acoustic bathymetric data is ready available over large areas, and often is a useful prior of seafloor cover. As such, prior bathymetry can be used to guide AUV data collection. This research proposes methods for planning initial AUV surveys that efficiently explore a feature space representation of the bathymetry, in order to sample from a diverse set of bathymetric terrain. This will enable the AUV to visit areas that likely contain unique habitats and are representative of the entire survey site. The suitability of these methods to plan AUV surveys is evaluated based on the coverage of the feature space and also the ability to visit all classes of benthic habitat on the initial dive. This is a valuable tool for AUV surveys as it increases the utility of initial dives. It also delivers a comprehensive training set to learn a relationship between acoustic bathymetry and visually-derived seafloor classifications.
翻訳日:2021-05-26 13:49:00 公開日:2021-05-25
# より多くのデータのようなデータはありません -- リモートセンシングにおける機械学習データセットの現状

There is no data like more data -- current status of machine learning datasets in remote sensing ( http://arxiv.org/abs/2105.11726v1 )

ライセンス: Link先を確認
Michael Schmitt, Seyed Ali Ahmadi, Ronny H\"ansch(参考訳) アノテーション付きデータセットは、リモートセンシングデータの自動解釈のために設計された機械学習ベースの手法の開発と評価のための最も重要な前提条件の1つである。 本稿では,これらのデータセットの歴史的展開を概観し,いくつかの事例をもとにそれらの特徴を論じ,今後の発展に向けたオープンな課題に対処する。

Annotated datasets have become one of the most crucial preconditions for the development and evaluation of machine learning-based methods designed for the automated interpretation of remote sensing data. In this paper, we review the historic development of such datasets, discuss their features based on a few selected examples, and address open issues for future developments.
翻訳日:2021-05-26 13:48:23 公開日:2021-05-25
# 話者認識のための発話分割:GMM-SVMフレームワークによる新しい知見を用いた実験と分析

Utterance partitioning for speaker recognition: an experimental review and analysis with new findings under GMM-SVM framework ( http://arxiv.org/abs/2105.11728v1 )

ライセンス: Link先を確認
Nirmalya Sen, Md Sahidullah (MULTISPEECH), Hemant Patil (DA-IICT), Shyamal Kumar das Mandal (IIT Kharagpur), Sreenivasa Krothapalli Rao (IIT Kharagpur), Tapan Kumar Basu (IIT Kharagpur)(参考訳) 音声認識システムの性能は、登録やテストに使用する音声量に大きく依存する。 本稿では,gmm-svmを用いた話者認識システムの持続時間変動を考慮した詳細な評価と分析を行う。 本稿では,gmm-svm分類器と,その先行手法であるガウス混合モデル-ユニバーサル背景モデル(gmm-ubm)の性能を比較した。 本研究の目的は、持続時間変動を考慮した話者認識性能向上のための新しいアルゴリズムを提案することではない。 しかし、本研究の主な焦点は、持続時間の変動を補償する一般的な戦略である発話分割(up)である。 我々は,GMM-SVMフレームワークにおける話者認識性能における発話分割学習の効果を詳細に分析した。 さらに,発話分割が音声認識性能の向上に重要である理由について検討する。 また,発話分割が有用である場合とそうでない場合についても紹介した。 本研究により,従来のGMM-SVM分類器では,発話分割がデータ不均衡問題を軽減しないことが明らかになった。 これらとは別に、ガウス数、超ベクター長、音声持続時間の観点からの短時間および長時間の試験条件におけるより良い性能を得るために必要とされる分割量などのパラメータの影響についても論じる。 我々は,130人の話者からなるPOLYCOSTコーパスの音声による実験を行った。

The performance of speaker recognition system is highly dependent on the amount of speech used in enrollment and test. This work presents a detailed experimental review and analysis of the GMM-SVM based speaker recognition system in presence of duration variability. This article also reports a comparison of the performance of GMM-SVM classifier with its precursor technique Gaussian mixture model-universal background model (GMM-UBM) classifier in presence of duration variability. The goal of this research work is not to propose a new algorithm for improving speaker recognition performance in presence of duration variability. However, the main focus of this work is on utterance partitioning (UP), a commonly used strategy to compensate the duration variability issue. We have analysed in detailed the impact of training utterance partitioning in speaker recognition performance under GMM-SVM framework. We further investigate the reason why the utterance partitioning is important for boosting speaker recognition performance. We have also shown in which case the utterance partitioning could be useful and where not. Our study has revealed that utterance partitioning does not reduce the data imbalance problem of the GMM-SVM classifier as claimed in earlier study. Apart from these, we also discuss issues related to the impact of parameters such as number of Gaussians, supervector length, amount of splitting required for obtaining better performance in short and long duration test conditions from speech duration perspective. We have performed the experiments with telephone speech from POLYCOST corpus consisting of 130 speakers.
翻訳日:2021-05-26 13:48:12 公開日:2021-05-25
# emベース大規模学習のためのperturbed prox-preconditioned spiderアルゴリズム

The Perturbed Prox-Preconditioned SPIDER algorithm for EM-based large scale learning ( http://arxiv.org/abs/2105.11732v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), Eric Moulines (X-DEP-MATHAPP, XPOP)(参考訳) 増分期待最大化(EM)アルゴリズムを導入し,各イテレーションで処理すべき全データセットを回避し,大規模学習フレームワークのEM設計を行った。 しかしながら、これらのアルゴリズムはすべて、十分な統計量の条件付き期待が明確であると仮定する。 本稿では,確率パス積分微分エスチマトラーEM(SPIDER-EM)アルゴリズムをベースとした,Perturbed Prox-Preconditioned SPIDER (3P-SPIDER)という新しいアルゴリズムを提案する。 3p-spiderアルゴリズムはemのeステップの多くの難解性に対応し、非スムース正則化や凸制約集合も扱う。 数値実験により、3P-SPIDERは他のインクリメンタルEM法よりも優れており、いくつかの設計パラメータの役割について議論されている。

Incremental Expectation Maximization (EM) algorithms were introduced to design EM for the large scale learning framework by avoiding the full data set to be processed at each iteration. Nevertheless, these algorithms all assume that the conditional expectations of the sufficient statistics are explicit. In this paper, we propose a novel algorithm named Perturbed Prox-Preconditioned SPIDER (3P-SPIDER), which builds on the Stochastic Path Integral Differential EstimatoR EM (SPIDER-EM) algorithm. The 3P-SPIDER algorithm addresses many intractabilities of the E-step of EM; it also deals with non-smooth regularization and convex constraint set. Numerical experiments show that 3P-SPIDER outperforms other incremental EM methods and discuss the role of some design parameters.
翻訳日:2021-05-26 13:47:31 公開日:2021-05-25
# Sim-to-Real領域適応のためのアフィン輸送

Affine Transport for Sim-to-Real Domain Adaptation ( http://arxiv.org/abs/2105.11739v1 )

ライセンス: Link先を確認
Anton Mallasto, Karol Arndt, Markus Heinonen, Samuel Kaski, Ville Kyrki(参考訳) サンプル効率のドメイン適応はロボット工学においてオープンな問題である。 本稿では,アフィン変換により生成領域と対象領域間の状態遷移分布のマッピングをモデル化する,最適輸送の変種であるアフィン輸送について述べる。 まず、アフィントランスポートフレームワークを導出し、その後、任意のアフィン変換をモデル化するためにprocrustesアライメントで基本フレームワークを拡張します。 本手法は,シミュレーション環境を用いた多数のOpenAI Gym sim-to-sim実験や,ホッケーパックを打つロボットの模擬ドメイン適応タスクにおいて,目標位置にスライドして停止するように評価する。 各実験において、各2つの動的領域間での転送結果を評価する。 その結果,アフィン輸送は元の非適応力学モデルと比較してモデル適応誤差を著しく低減できることがわかった。

Sample-efficient domain adaptation is an open problem in robotics. In this paper, we present affine transport -- a variant of optimal transport, which models the mapping between state transition distributions between the source and target domains with an affine transformation. First, we derive the affine transport framework; then, we extend the basic framework with Procrustes alignment to model arbitrary affine transformations. We evaluate the method in a number of OpenAI Gym sim-to-sim experiments with simulation environments, as well as on a sim-to-real domain adaptation task of a robot hitting a hockeypuck such that it slides and stops at a target position. In each experiment, we evaluate the results when transferring between each pair of dynamics domains. The results show that affine transport can significantly reduce the model adaptation error in comparison to using the original, non-adapted dynamics model.
翻訳日:2021-05-26 13:47:05 公開日:2021-05-25
# 双方向LSTMと畳み込みニューラルネットワークハイブリッドモデルを用いたスマートホームネットワークの侵入検知システム

Intrusion Detection System in Smart Home Network Using Bidirectional LSTM and Convolutional Neural Networks Hybrid Model ( http://arxiv.org/abs/2105.12096v1 )

ライセンス: Link先を確認
Nelly Elsayed, Zaghloul Saad Zaghloul, Sylvia Worlali Azumah, Chengcheng Li(参考訳) IoT(Internet of Things)によって、スマートホームは私たちの日常生活の質と快適さを向上することができた。 しかし、これらの利便性は、急速に増加するいくつかのセキュリティ上の懸念をもたらした。 IoTデバイス、スマートホームハブ、ゲートウェイはさまざまなセキュリティリスクを引き起こす。 スマートホームゲートウェイは、IoTデバイス間の通信の集中的なポイントとして機能し、ハッカーのためのネットワークデータへのバックドアを作ることができる。 このような攻撃を検出する一般的な方法の1つは、ネットワークトラフィックの侵入検出である。 本稿では,双方向のlong short-term memory(bilstm)とconvolutional neural network(cnn)ハイブリッドモデルを用いて,スマートホームネットワークの異常を検出するための侵入検出システム(ids)を提案する。 BiLSTM繰り返し動作は、学習した情報を時間を通して保存するための侵入検出モデルを提供し、CNNはデータ特徴を完全に抽出する。 提案モデルは、任意のスマートホームネットワークゲートウェイに適用することができる。

Internet of Things (IoT) allowed smart homes to improve the quality and the comfort of our daily lives. However, these conveniences introduced several security concerns that increase rapidly. IoT devices, smart home hubs, and gateway raise various security risks. The smart home gateways act as a centralized point of communication between the IoT devices, which can create a backdoor into network data for hackers. One of the common and effective ways to detect such attacks is intrusion detection in the network traffic. In this paper, we proposed an intrusion detection system (IDS) to detect anomalies in a smart home network using a bidirectional long short-term memory (BiLSTM) and convolutional neural network (CNN) hybrid model. The BiLSTM recurrent behavior provides the intrusion detection model to preserve the learned information through time, and the CNN extracts perfectly the data features. The proposed model can be applied to any smart home network gateway.
翻訳日:2021-05-26 13:46:40 公開日:2021-05-25
# モバイルGUIを理解する:Pixel-WordsからScreen-Sentencesへ

Understanding Mobile GUI: from Pixel-Words to Screen-Sentences ( http://arxiv.org/abs/2105.11941v1 )

ライセンス: Link先を確認
Jingwen Fu, Xiaoyi Zhang, Yuwang Wang, Wenjun Zeng, Sam Yang and Grayson Hilliard(参考訳) 携帯電話のユビキタス性は、モバイルguiの理解を重要なタスクにする。 このドメインの以前のほとんどの作品は、画面(例えば、画面)のメタデータを人間が生成する必要がある。 残念なことに、GUIを理解するのに十分な信頼性を持っていないことが多い。 NLPタスクにおけるトランスフォーマーの成功に触発され、純粋に視覚ベースのGUI理解を目指して、Words/Sentenceの概念をPixel-Words/Screen-Sentenceに拡張し、モバイルGUI理解アーキテクチャであるPixel-Words to Screen-Sentence (PW2SS)を提案する。 個々の単語の例えとして、ピクセルワードをアトミックなビジュアルコンポーネント(テキストやグラフィックコンポーネント)として定義し、様々なデザインスタイルのスクリーンショットを通して視覚的に一貫性があり、意味的に明確である。 スクリーンショットから抽出されたPixel-Wordは、その関係をモデル化するために提案されたスクリーントランスフォーマーでScreen-Sentenceに集約される。 Pixel-Wordsはアトミックビジュアルコンポーネントとして定義されているため、視覚的外観とセマンティクスのあいまいさは劇的に減少する。 トレーニングデータで利用可能なメタデータを使って、Pixel-Wordsの高品質なアノテーションを自動生成できます。 Pixel-Wordsアノテーション付きのスクリーンショットのデータセットであるRICO-PWは、公開のRICOデータセットに基づいて構築されている。 このデータセットのスクリーンショットからPixel-Wordを抽出し,推論中にメタデータのないGUI理解を実現するために,検出器をトレーニングする。 我々は実験を行い、Pixel-WordsをRICO-PW上で適切に抽出し、新たなデータセットであるP2S-UIに適切に一般化できることを示す。 PW2SSの有効性は、関係予測、クリック可能性予測、画面検索、アプリタイプの分類を含むGUI理解タスクにおいてさらに検証される。

The ubiquity of mobile phones makes mobile GUI understanding an important task. Most previous works in this domain require human-created metadata of screens (e.g. View Hierarchy) during inference, which unfortunately is often not available or reliable enough for GUI understanding. Inspired by the impressive success of Transformers in NLP tasks, targeting for purely vision-based GUI understanding, we extend the concepts of Words/Sentence to Pixel-Words/Screen-Sentence, and propose a mobile GUI understanding architecture: Pixel-Words to Screen-Sentence (PW2SS). In analogy to the individual Words, we define the Pixel-Words as atomic visual components (text and graphic components), which are visually consistent and semantically clear across screenshots of a large variety of design styles. The Pixel-Words extracted from a screenshot are aggregated into Screen-Sentence with a Screen Transformer proposed to model their relations. Since the Pixel-Words are defined as atomic visual components, the ambiguity between their visual appearance and semantics is dramatically reduced. We are able to make use of metadata available in training data to auto-generate high-quality annotations for Pixel-Words. A dataset, RICO-PW, of screenshots with Pixel-Words annotations is built based on the public RICO dataset, which will be released to help to address the lack of high-quality training data in this area. We train a detector to extract Pixel-Words from screenshots on this dataset and achieve metadata-free GUI understanding during inference. We conduct experiments and show that Pixel-Words can be well extracted on RICO-PW and well generalized to a new dataset, P2S-UI, collected by ourselves. The effectiveness of PW2SS is further verified in the GUI understanding tasks including relation prediction, clickability prediction, screen retrieval, and app type classification.
翻訳日:2021-05-26 13:46:14 公開日:2021-05-25
# HIN-RNN: 手作り特徴のないフラッドスター群検出のためのグラフ表現学習ニューラルネットワーク

HIN-RNN: A Graph Representation Learning Neural Network for Fraudster Group Detection With No Handcrafted Features ( http://arxiv.org/abs/2105.11602v1 )

ライセンス: Link先を確認
Saeedreza Shehnepoor, Roberto Togneri, Wei Liu, Mohammed Bennamoun(参考訳) 社会レビューは現代の消費者の意思決定に欠かせないリソースである。 金融利益を得るためには、消費者はグループからの同様のレビューで誤解される傾向にあるため、企業はグループで商品やサービスをデモしたり宣伝したりするために詐欺師に支払うのが好ましい。 詐欺師グループ検出に対する最近のアプローチでは,グループ内のレビュー者からのレビューの意味関係を考慮せずに,グループ行動の手作り特徴を用いた。 本稿では,HIN-RNN(Herogeneous Information Network (HIN) Compatible RNN for fraudster group detection, no handcrafted features)を提案する。 HIN-RNNは、各レビュアーの表現学習のための統一されたアーキテクチャを提供し、初期ベクトルは、同じレビュアーによって書かれた全てのレビューテキストの単語埋め込みの和であり、負のレビューの比率によって構成される。 同じ評価とベクター表現で同じ項目をレビューしたレビュアーを表わすコリビューネットワークが与えられると、HIN-RNNトレーニングによって協調行列が取得される。 提案手法はYelp(リコールでは22%,F1値では12%)とAmazon(リコールでは4%,F1値では2%)の2つのデータセットに対して,最先端のアプローチを大幅に改善する上で有効であることが確認された。

Social reviews are indispensable resources for modern consumers' decision making. For financial gain, companies pay fraudsters preferably in groups to demote or promote products and services since consumers are more likely to be misled by a large number of similar reviews from groups. Recent approaches on fraudster group detection employed handcrafted features of group behaviors without considering the semantic relation between reviews from the reviewers in a group. In this paper, we propose the first neural approach, HIN-RNN, a Heterogeneous Information Network (HIN) Compatible RNN for fraudster group detection that requires no handcrafted features. HIN-RNN provides a unifying architecture for representation learning of each reviewer, with the initial vector as the sum of word embeddings of all review text written by the same reviewer, concatenated by the ratio of negative reviews. Given a co-review network representing reviewers who have reviewed the same items with the same ratings and the reviewers' vector representation, a collaboration matrix is acquired through HIN-RNN training. The proposed approach is confirmed to be effective with marked improvement over state-of-the-art approaches on both the Yelp (22% and 12% in terms of recall and F1-value, respectively) and Amazon (4% and 2% in terms of recall and F1-value, respectively) datasets.
翻訳日:2021-05-26 13:43:32 公開日:2021-05-25
# 非線形双曲保存法におけるLast-Squares ReLU Neural Network (LSNN)法

Least-Squares ReLU Neural Network (LSNN) Method For Scalar Nonlinear Hyperbolic Conservation Law ( http://arxiv.org/abs/2105.11627v1 )

ライセンス: Link先を確認
Zhiqiang Cai, Jingshuang Chen, Min Liu(参考訳) 本研究では,不連続解を用いた線形随伴反応問題の解法として,最小二乗型reluニューラルネットワーク(lsnn)法を導入し,自由度数の観点からメッシュに基づく数値解法よりも優れることを示した。 本稿では,スカラー非線形双曲保存法におけるLSNN法について検討する。 この方法は、ReLU活性化関数を持つニューラルネットワーク関数の集合における等価最小二乗(LS)定式化の離散化である。 LS関数の評価は数値積分と保守的有限体積スキームを用いて行う。 実験結果から,ReLUニューラルネットワークの自由破壊線を介し,基礎となる問題の不連続なインターフェースを自動的に近似できることが示唆された。 さらに、この方法は不連続な界面に沿って共通のギブス現象を示さない。

We introduced the least-squares ReLU neural network (LSNN) method for solving the linear advection-reaction problem with discontinuous solution and showed that the method outperforms mesh-based numerical methods in terms of the number of degrees of freedom. This paper studies the LSNN method for scalar nonlinear hyperbolic conservation law. The method is a discretization of an equivalent least-squares (LS) formulation in the set of neural network functions with the ReLU activation function. Evaluation of the LS functional is done by using numerical integration and conservative finite volume scheme. Numerical results of some test problems show that the method is capable of approximating the discontinuous interface of the underlying problem automatically through the free breaking lines of the ReLU neural network. Moreover, the method does not exhibit the common Gibbs phenomena along the discontinuous interface.
翻訳日:2021-05-26 13:42:49 公開日:2021-05-25
# 線形対流反応方程式に対するLast-Squares ReLU Neural Network (LSNN) 法

Least-Squares ReLU Neural Network (LSNN) Method For Linear Advection-Reaction Equation ( http://arxiv.org/abs/2105.11632v1 )

ライセンス: Link先を確認
Zhiqiang Cai, Jingshuang Chen, Min Liu(参考訳) 本稿では,不連続解を用いた線形対流-反応問題に対する最小二乗ReLUニューラルネットワーク法について検討する。 この方法は、ReLUアクティベーション関数を持つニューラルネットワーク関数の集合における等価最小二乗の定式化の離散化である。 この方法は、reluニューラルネットワークのフリーハイパープレーンを介して、基盤となる問題の不連続なインターフェースを自動的に近似することができ、自由度数の観点からメッシュベースの数値手法よりも優れる。 いくつかのベンチマークテスト問題の数値結果は、この方法は最小パラメータ数で解を近似できるだけでなく、不連続な界面に沿った一般的なギブス現象を回避できることを示している。 さらに、3層ReLUニューラルネットワークは、直線ではない$\mathbb{R}^2$のインターフェースで不連続解を適切に近似するために必要であり、十分である。

This paper studies least-squares ReLU neural network method for solving the linear advection-reaction problem with discontinuous solution. The method is a discretization of an equivalent least-squares formulation in the set of neural network functions with the ReLU activation function. The method is capable of approximating the discontinuous interface of the underlying problem automatically through the free hyper-planes of the ReLU neural network and, hence, outperforms mesh-based numerical methods in terms of the number of degrees of freedom. Numerical results of some benchmark test problems show that the method can not only approximate the solution with the least number of parameters, but also avoid the common Gibbs phenomena along the discontinuous interface. Moreover, a three-layer ReLU neural network is necessary and sufficient in order to well approximate a discontinuous solution with an interface in $\mathbb{R}^2$ that is not a straight line.
翻訳日:2021-05-26 13:42:28 公開日:2021-05-25
# ハイブリッド電気自動車におけるエコ運転のための安全モデルに基づくオフポリシー強化学習

Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in Connected and Automated Hybrid Electric Vehicles ( http://arxiv.org/abs/2105.11640v1 )

ライセンス: Link先を確認
Zhaoxuan Zhu, Nicola Pivaro, Shobhit Gupta, Abhishek Gupta and Marcello Canova(参考訳) コネクテッド・アンド・オートモーテッドハイブリッド電気自動車は、現実の運転条件下での燃料消費と走行時間を削減できる可能性がある。 エコ運転問題は、コネクティビティと高度なマッピング機能からの先見情報に基づいて、最適な速度と電力使用量プロファイルを設計することを目指している。 近年,Deep Reinforcement Learning (DRL) がエコドライブ問題に応用されている。 従来の研究では,シミュレータとモデルフリーDRLを合成してオンライン計算を減らし,エコドライブ問題に対するセーフオフポリスモデルベース強化学習アルゴリズムを提案する。 現存する文献の利点は3倍である。 まず,オフポリシー学習と物理モデルの利用の組み合わせにより,サンプル効率が向上する。 第二に、トレーニングは制約満足度に対する外部報酬メカニズムを必要としない。 第三に、深い生成モデルにより近似された安全な集合を用いて軌道の実現性を保証する。 提案手法の性能を,人間の運転者を表すベースラインコントローラ,設計済みのモデルフリーDRL戦略,待ち時間最適解に対してベンチマークする。 シミュレーションにおいて,提案手法は,モデルフリーエージェントよりも平均速度が高く,燃費が良い政策に導かれる。 ベースラインコントローラと比較すると、学習した戦略は平均速度を同等に保ちながら、燃料消費量を21\%以上削減する。

Connected and Automated Hybrid Electric Vehicles have the potential to reduce fuel consumption and travel time in real-world driving conditions. The eco-driving problem seeks to design optimal speed and power usage profiles based upon look-ahead information from connectivity and advanced mapping features. Recently, Deep Reinforcement Learning (DRL) has been applied to the eco-driving problem. While the previous studies synthesize simulators and model-free DRL to reduce online computation, this work proposes a Safe Off-policy Model-Based Reinforcement Learning algorithm for the eco-driving problem. The advantages over the existing literature are three-fold. First, the combination of off-policy learning and the use of a physics-based model improves the sample efficiency. Second, the training does not require any extrinsic rewarding mechanism for constraint satisfaction. Third, the feasibility of trajectory is guaranteed by using a safe set approximated by deep generative models. The performance of the proposed method is benchmarked against a baseline controller representing human drivers, a previously designed model-free DRL strategy, and the wait-and-see optimal solution. In simulation, the proposed algorithm leads to a policy with a higher average speed and a better fuel economy compared to the model-free agent. Compared to the baseline controller, the learned strategy reduces the fuel consumption by more than 21\% while keeping the average speed comparable.
翻訳日:2021-05-26 13:42:03 公開日:2021-05-25
# 深部ニューラルネットワークにおける周波数を考慮した減衰速度の上限

An Upper Limit of Decaying Rate with Respect to Frequency in Deep Neural Network ( http://arxiv.org/abs/2105.11675v1 )

ライセンス: Link先を確認
Tao Luo, Zheng Ma, Zhiwei Wang, Zhi-Qin John Xu, Yaoyu Zhang(参考訳) ディープニューラルネットワーク(dnn)は通常、周波数原理またはスペクトルバイアスと呼ばれる低周波から高周波までターゲット関数を学習する。 この周波数原理は、DNNの高周波の呪いに光を当てます。 周波数原理にインスパイアされた一連の研究は、高周波の呪いを克服するアルゴリズムの開発に費やされている。 自然問題:崩壊率 w.r.t の上限は何か。 DNNを訓練する頻度? この研究で、数値実験によって確認された我々の理論は、臨界崩壊速度 w.r.t が存在することを示唆している。 DNNトレーニングの頻度。 減衰率の上限の下に、DNNは一定の規則性を持つ関数でトレーニングデータを補間する。 しかし、上限を超えると、DNNは訓練データを自明な関数で補間する、すなわち、ある関数は訓練データポイントにおいてゼロではない。 以上の結果から,高周波情報を低周波に移すための適切な事前条件手法を考案し,先行開発した高周波情報を高速に学習するためのアルゴリズムと合致することを示す。 さらに、この研究は、高周波の呪いがDNNの本質的な難しさであることを厳格に証明している。

Deep neural network (DNN) usually learns the target function from low to high frequency, which is called frequency principle or spectral bias. This frequency principle sheds light on a high-frequency curse of DNNs -- difficult to learn high-frequency information. Inspired by the frequency principle, a series of works are devoted to develop algorithms for overcoming the high-frequency curse. A natural question arises: what is the upper limit of the decaying rate w.r.t. frequency when one trains a DNN? In this work, our theory, confirmed by numerical experiments, suggests that there is a critical decaying rate w.r.t. frequency in DNN training. Below the upper limit of the decaying rate, the DNN interpolates the training data by a function with a certain regularity. However, above the upper limit, the DNN interpolates the training data by a trivial function, i.e., a function is only non-zero at training data points. Our results indicate a better way to overcome the high-frequency curse is to design a proper pre-condition approach to shift high-frequency information to low-frequency one, which coincides with several previous developed algorithms for fast learning high-frequency information. More importantly, this work rigorously proves that the high-frequency curse is an intrinsic difficulty of DNNs.
翻訳日:2021-05-26 13:41:28 公開日:2021-05-25
# 音声圧縮のためのディープニューラルネットワークとエンドツーエンド学習

Deep Neural Networks and End-to-End Learning for Audio Compression ( http://arxiv.org/abs/2105.11681v1 )

ライセンス: Link先を確認
Daniela N. Rim, Inseon Jang, Heeyoul Choi(参考訳) エンドツーエンドディープラーニングの最近の成果は、高度に構造化されたデータを統一されたディープネットワークモデルで扱うタスクの探索を奨励している。 音声信号を圧縮するためのそのようなモデルを持つことは、エンドツーエンドのバックプロパゲーションで簡単に訓練できない離散表現を必要とするため、難しい。 本稿では,変分オートエンコーダ(VAE)のトレーニング戦略において,リカレントニューラルネットワーク(RNN)と潜時空間のバイナリ表現を組み合わせたエンドツーエンドのディープラーニング手法を提案する。 離散表現に対するベルヌーイ分布に対する再パラメータ化のトリックを適用し、滑らかなバックプロパゲーションを可能にした。 さらに,圧縮タスクに必要なエンコーダとデコーダの分離も可能とした。 我々の知る限り、これはRNNを用いた1つの音声圧縮モデルのための最初のエンドツーエンド学習であり、我々のモデルは20.54のSignal to Distortion Ratio(SDR)を達成する。

Recent achievements in end-to-end deep learning have encouraged the exploration of tasks dealing with highly structured data with unified deep network models. Having such models for compressing audio signals has been challenging since it requires discrete representations that are not easy to train with end-to-end backpropagation. In this paper, we present an end-to-end deep learning approach that combines recurrent neural networks (RNNs) within the training strategy of variational autoencoders (VAEs) with a binary representation of the latent space. We apply a reparametrization trick for the Bernoulli distribution for the discrete representations, which allows smooth backpropagation. In addition, our approach allows the separation of the encoder and decoder, which is necessary for compression tasks. To our best knowledge, this is the first end-to-end learning for a single audio compression model with RNNs, and our model achieves a Signal to Distortion Ratio (SDR) of 20.54.
翻訳日:2021-05-26 13:40:53 公開日:2021-05-25
# トポロジー変換による自己教師付きグラフ表現学習

Self-Supervised Graph Representation Learning via Topology Transformations ( http://arxiv.org/abs/2105.11689v1 )

ライセンス: Link先を確認
Xiang Gao, Wei Hu, Guo-Jun Qi(参考訳) 本稿では,グラフ畳み込みニューラルネットワーク(GCNN)の適用性を高めるために,グラフデータのノード表現のための自己教師型学習のパラダイムであるトポロジー変換同変表現学習を提案する。 本稿では, トポロジ変換とノード表現の相互情報の最大化により, 情報理論の観点から, 提案モデルを定式化する。 このような相互情報の最大化は、応用トポロジ変換とノード表現からの推定との交差エントロピーを最小化することで緩和することができる。 特に、ノード対のサブセットを元のグラフからサンプリングし、各ペア間のエッジ接続をひっくり返してグラフトポロジーを変換しようとする。 次に、元のグラフと変換されたグラフの特徴表現からトポロジ変換を再構成してノード表現を学習するために表現エンコーダを自己学習する。 実験では,提案手法を下流ノードとグラフの分類タスクに適用し,提案手法が最先端の教師なし手法よりも優れていることを示す。

We present the Topology Transformation Equivariant Representation learning, a general paradigm of self-supervised learning for node representations of graph data to enable the wide applicability of Graph Convolutional Neural Networks (GCNNs). We formalize the proposed model from an information-theoretic perspective, by maximizing the mutual information between topology transformations and node representations before and after the transformations. We derive that maximizing such mutual information can be relaxed to minimizing the cross entropy between the applied topology transformation and its estimation from node representations. In particular, we seek to sample a subset of node pairs from the original graph and flip the edge connectivity between each pair to transform the graph topology. Then, we self-train a representation encoder to learn node representations by reconstructing the topology transformations from the feature representations of the original and transformed graphs. In experiments, we apply the proposed model to the downstream node and graph classification tasks, and results show that the proposed method outperforms the state-of-the-art unsupervised approaches.
翻訳日:2021-05-26 13:40:25 公開日:2021-05-25
# RNnoise-Ex:RNNとスペクトル特徴に基づくハイブリッド音声強調システム

RNNoise-Ex: Hybrid Speech Enhancement System based on RNN and Spectral Features ( http://arxiv.org/abs/2105.11813v1 )

ライセンス: Link先を確認
Constantine C. Doumanidis (1), Christina Anagnostou (1), Evangelia-Sofia Arvaniti (1), Anthi Papadopoulou (1) ((1) Aristotle University of Thessaloniki)(参考訳) 近年、ノイズ抑圧のためのディープラーニング技術の利用への関心が高まり、古典的な信号処理とディープラーニングを組み合わせたハイブリッドDenoising Systemsが誕生した。 本稿では,学習段階における補完的特徴を取り入れたRNノイズ認知システム(arXiv:1709.08243)の拡充に力を注ぐ。 本稿では,修正システムのセットアップ過程を包括的に説明し,RNNoiseの参照バージョンを制御として,性能評価分析から得られた比較結果を示す。

Recent interest in exploiting Deep Learning techniques for Noise Suppression, has led to the creation of Hybrid Denoising Systems that combine classic Signal Processing with Deep Learning. In this paper, we concentrated our efforts on extending the RNNoise denoising system (arXiv:1709.08243) with the inclusion of complementary features during the training phase. We present a comprehensive explanation of the set-up process of a modified system and present the comparative results derived from a performance evaluation analysis, using a reference version of RNNoise as control.
翻訳日:2021-05-26 13:39:54 公開日:2021-05-25
# Reproducibility Companion Paper: Knowledge Enhanced Neural Fashion Trends Forecasting

Reproducibility Companion Paper: Knowledge Enhanced Neural Fashion Trend Forecasting ( http://arxiv.org/abs/2105.11826v1 )

ライセンス: Link先を確認
Yunshan Ma, Yujuan Ding, Xun Yang, Lizi Liao, Wai Keung Wong, Tat-Seng Chua, Jinyoung Moon, Hong-Han Shuai(参考訳) 本稿では,ICMR 2020で紹介したKERN(Knowledge Enhanced Recurrent Network)手法を用いて,ファッショントレンド予測実験の再現を支援する。 我々は、pythonの実装を使って実験の複製を可能にするアーティファクトを提供する。 アーティファクトは、簡単なインストール、トレーニング、評価で簡単にデプロイできる。 本稿では,本論文で実施した実験を再現し,前報と同様の性能を得る。 実験のレプリケーション結果は、元の論文の主な主張を支持している。

This companion paper supports the replication of the fashion trend forecasting experiments with the KERN (Knowledge Enhanced Recurrent Network) method that we presented in the ICMR 2020. We provide an artifact that allows the replication of the experiments using a Python implementation. The artifact is easy to deploy with simple installation, training and evaluation. We reproduce the experiments conducted in the original paper and obtain similar performance as previously reported. The replication results of the experiments support the main claims in the original paper.
翻訳日:2021-05-26 13:39:39 公開日:2021-05-25
# 音楽音声タギングのための変調フロントエンド

A Modulation Front-End for Music Audio Tagging ( http://arxiv.org/abs/2105.11836v1 )

ライセンス: Link先を確認
Cyrus Vahidi, Charalampos Saitis, Gy\"orgy Fazekas(参考訳) 畳み込みニューラルネットワークは、自動音楽タグ付けのタスクで広く研究されてきた。 この問題は、エンジニアリングされた時間周波数特徴または生オーディオを入力として使用することで解決できる。 音色知覚の基礎として積極的に研究されている変調フィルタバンク表現は、知覚的に健全な特徴の抽出を容易にする可能性がある。 時間変調処理ブロックを組み込んだ音声表現学習のためのエンドツーエンド学習フロントエンドであるModNetとSincModNetについて検討する。 この構造は、FIRフィルタ中心周波数をデータ駆動方式で学習する変調フィルタバンクと効果的に類似している。 知覚的に動機づけられたフィルタバンクは、音楽の特徴を特定するのに有用な表現を提供する。 実験結果は,生音声の完全可視性と解釈可能なフロントエンド時間変調分解を提供する。 我々は,MagnaTagATuneデータセットを用いた最新の音楽タグ付けに対するモデルの性能評価を行った。 変調フィルタにより時間周波数帯域をサンプリングした場合の特定のタグの性能への影響を段階的に低減する。 このフロントエンドの設計において音楽領域の知識を多用することなく、変調フィルタリングが音楽タグ付けや特徴表現に有望な結果をもたらすことを示す。

Convolutional Neural Networks have been extensively explored in the task of automatic music tagging. The problem can be approached by using either engineered time-frequency features or raw audio as input. Modulation filter bank representations that have been actively researched as a basis for timbre perception have the potential to facilitate the extraction of perceptually salient features. We explore end-to-end learned front-ends for audio representation learning, ModNet and SincModNet, that incorporate a temporal modulation processing block. The structure is effectively analogous to a modulation filter bank, where the FIR filter center frequencies are learned in a data-driven manner. The expectation is that a perceptually motivated filter bank can provide a useful representation for identifying music features. Our experimental results provide a fully visualisable and interpretable front-end temporal modulation decomposition of raw audio. We evaluate the performance of our model against the state-of-the-art of music tagging on the MagnaTagATune dataset. We analyse the impact on performance for particular tags when time-frequency bands are subsampled by the modulation filters at a progressively reduced rate. We demonstrate that modulation filtering provides promising results for music tagging and feature representation, without using extensive musical domain knowledge in the design of this front-end.
翻訳日:2021-05-26 13:39:26 公開日:2021-05-25
# スペクトル補正:ミスマッチ記録装置を用いた音響シーン分類

Spectrum Correction: Acoustic Scene Classification with Mismatched Recording Devices ( http://arxiv.org/abs/2105.11856v1 )

ライセンス: Link先を確認
Micha{\l} Ko\'smider(参考訳) 機械学習アルゴリズムは、限られたセットのデバイスからオーディオ録音を訓練する場合、異なる周波数応答を持つ他のデバイスで記録されたサンプルにうまく一般化できない可能性がある。 本研究では,この問題に対処するための比較的簡単な手法を提案する。 アプローチには2つのバリエーションがある。 まず、複数のデバイスからの整列した例を必要とする。 この方法は、音声記録の時間領域と周波数領域の表現の両方で機能する。 さらに、標準化とセプストラム平均減算との関係を解析する。 提案手法は,ごく少数の例が提供されても有効である。 本手法は,2019年の音響シーンとイベントの検出と分類(dcase)中に開発され,75%の精度でミスマッチ記録装置を用いたシナリオで1位となった。 実験のソースコードはオンラインで見ることができる。

Machine learning algorithms, when trained on audio recordings from a limited set of devices, may not generalize well to samples recorded using other devices with different frequency responses. In this work, a relatively straightforward method is introduced to address this problem. Two variants of the approach are presented. First requires aligned examples from multiple devices, the second approach alleviates this requirement. This method works for both time and frequency domain representations of audio recordings. Further, a relation to standardization and Cepstral Mean Subtraction is analysed. The proposed approach becomes effective even when very few examples are provided. This method was developed during the Detection and Classification of Acoustic Scenes and Events (DCASE) 2019 challenge and won the 1st place in the scenario with mis-matched recording devices with the accuracy of 75%. Source code for the experiments can be found online.
翻訳日:2021-05-26 13:39:01 公開日:2021-05-25
# RL駆動システムのスケーラブルな検証に向けて

Towards Scalable Verification of RL-Driven Systems ( http://arxiv.org/abs/2105.11931v1 )

ライセンス: Link先を確認
Guy Amir, Michael Schapira and Guy Katz(参考訳) 近年、ディープニューラルネットワーク(DNN)は大きな人気を集め、さまざまな領域で最先端の最先端技術となっている。 特に,多種多様な現実世界システムの制御ポリシとして機能するDNNの訓練には,最近DRLが採用されている。 本稿では,DRLシステムの複雑な特性を検証するための新しい手法である whiRL 2.0 ツールを提案する。 DRLシステムの形式的検証の動機付けに最近用いられている通信ネットワーク領域のケーススタディにWhiRL 2.0の利点を応用し,拡張性のある検証が可能な特性を示す。 このようなシステム上でk-インダクションと自動不変推論を行う手法を提案し、これらの手法を用いて従来の手法のスケーラビリティ障壁により検証が不可能であった利害の安全性と生存性を証明する。 さらに,本提案手法がDRLシステムの内部動作と一般化可能性について考察する。 whiRL 2.0はオンラインで公開されている。

Deep neural networks (DNNs) have gained significant popularity in recent years, becoming the state of the art in a variety of domains. In particular, deep reinforcement learning (DRL) has recently been employed to train DNNs that act as control policies for various types of real-world systems. In this work, we present the whiRL 2.0 tool, which implements a new approach for verifying complex properties of interest for such DRL systems. To demonstrate the benefits of whiRL 2.0, we apply it to case studies from the communication networks domain that have recently been used to motivate formal verification of DRL systems, and which exhibit characteristics that are conducive for scalable verification. We propose techniques for performing k-induction and automated invariant inference on such systems, and use these techniques for proving safety and liveness properties of interest that were previously impossible to verify due to the scalability barriers of prior approaches. Furthermore, we show how our proposed techniques provide insights into the inner workings and the generalizability of DRL systems. whiRL 2.0 is publicly available online.
翻訳日:2021-05-26 13:38:43 公開日:2021-05-25
# lhcにおける深層学習による暗黒物質信号予測法に向けて

Towards a method to anticipate dark matter signals with deep learning at the LHC ( http://arxiv.org/abs/2105.12018v1 )

ライセンス: Link先を確認
Ernesto Arganda, Anibal D. Medina, Andres D. Perez, Alejandro Szynkman(参考訳) ニューラルネットワークを用いた簡易暗黒物質モデルとそのシグネチャをLHCで検討した。 通常のモノジェットと逆エネルギーチャネルの欠如に焦点を当てるが、アルゴリズムを訓練するためには、イベント・バイ・イベントアレイの代わりに2Dヒストグラムでデータを整理する。 これにより、標準モデル(SM)のみとSMと新しい物理信号とを区別する性能が大きく向上する。 入力データとしてkinematic monojet機能を使用し、単一のデータサンプルでモデルのファミリーを記述することができます。 ニューラルネットワークの性能は,それぞれ$s/\sqrt{b}$の関数として提示される場合,背景イベントのシミュレーション数に依存しないことがわかった。 これは、特定のモデルをテストするためには、新しい物理単ジェット断面を知る必要があるため、メソッドに柔軟性を提供する。 さらに,真のDM特性に関する誤った仮定の下で,ネットワーク性能についても論じる。 最後に,次のLHC実行において,より一般的な方法で新しい信号の探索と同定を行うマルチモデル分類器を提案する。

We study several simplified dark matter (DM) models and their signatures at the LHC using neural networks. We focus on the usual monojet plus missing transverse energy channel, but to train the algorithms we organize the data in 2D histograms instead of event-by-event arrays. This results in a large performance boost to distinguish between standard model (SM) only and SM plus new physics signals. We use the kinematic monojet features as input data which allow us to describe families of models with a single data sample. We found that the neural network performance does not depend on the simulated number of background events if they are presented as a function of $S/\sqrt{B}$, where $S$ and $B$ are the number of signal and background events per histogram, respectively. This provides flexibility to the method, since testing a particular model in that case only requires knowing the new physics monojet cross section. Furthermore, we also discuss the network performance under incorrect assumptions about the true DM nature. Finally, we propose multimodel classifiers to search and identify new signals in a more general way, for the next LHC run.
翻訳日:2021-05-26 13:38:14 公開日:2021-05-25
# Honest-but-Curious Nets: Sensitive Attributes of Private Inputs can be Secretly Coded into the Entropy of Classifiers' Outputs

Honest-but-Curious Nets: Sensitive Attributes of Private Inputs can be Secretly Coded into the Entropy of Classifiers' Outputs ( http://arxiv.org/abs/2105.12049v1 )

ライセンス: Link先を確認
Mohammad Malekzadeh and Anastasia Borovykh and Deniz G\"und\"uz(参考訳) 非感受性ターゲット属性の分類のために訓練されたディープニューラルネットワークは、分類器によって抽出された異なる粒度の特徴を通じて、入力データの感度特性を明らかにすることが知られている。 一歩進めて、深い分類器は、推論時にユーザの入力データの機密属性を、ターゲット属性に対する分類器の出力に秘密裏にエンコードするように訓練できることを示した。 ユーザが分類器のホワイトボックスビューを持っていたとしても動作し、分類器のターゲット属性の推定を除いてすべての内部表現を隠しておくことができる。 本稿では,このような敵の情報を理論的に定式化することを提案し,この定式化に基づいて,正直だが正確な(hbc)分類器を訓練するための効率的な経験的実装を提案する。 実世界のデータセットにおけるいくつかのタスクに対する評価は、半信頼のサーバが完全に正直なだけでなく、正確に好奇心をそそる分類器を構築できることを示している。 私たちの研究は、暗号化された推論、エッジでの計算、プライベート知識の蒸留など、悪意のある機械学習サービスプロバイダがユーザのプライバシを攻撃するために悪用する脆弱性を強調しています。 本研究は,標準分類器とHBC分類器を区別することの難しさと,この深層分類器の脆弱性に対する予防的防御の可能性について述べる。

It is known that deep neural networks, trained for the classification of a non-sensitive target attribute, can reveal sensitive attributes of their input data; through features of different granularity extracted by the classifier. We, taking a step forward, show that deep classifiers can be trained to secretly encode a sensitive attribute of users' input data, at inference time, into the classifier's outputs for the target attribute. An attack that works even if users have a white-box view of the classifier, and can keep all internal representations hidden except for the classifier's estimation of the target attribute. We introduce an information-theoretical formulation of such adversaries and present efficient empirical implementations for training honest-but-curious (HBC) classifiers based on this formulation: deep models that can be accurate in predicting the target attribute, but also can utilize their outputs to secretly encode a sensitive attribute. Our evaluations on several tasks in real-world datasets show that a semi-trusted server can build a classifier that is not only perfectly honest but also accurately curious. Our work highlights a vulnerability that can be exploited by malicious machine learning service providers to attack their user's privacy in several seemingly safe scenarios; such as encrypted inferences, computations at the edge, or private knowledge distillation. We conclude by showing the difficulties in distinguishing between standard and HBC classifiers and discussing potential proactive defenses against this vulnerability of deep classifiers.
翻訳日:2021-05-26 13:37:38 公開日:2021-05-25
# 量子化サンプルからのパラメトリック分布の学習について

On learning parametric distributions from quantized samples ( http://arxiv.org/abs/2105.12019v1 )

ライセンス: Link先を確認
Septimia Sarbu and Abdellatif Zaidi(参考訳) ネットワーク内の量子化サンプルからパラメトリック分布を学習する問題を考察する。 特に、$n$エージェントまたはセンサーは、未知のパラメトリック分布の独立したサンプルを観測し、それぞれが、そのサンプルを未知の分布を推定することを目的とした中央プロセッサに記述するために$k$ビットを使用する。 まず、よく知られたバンツリーの不等式を一般のl_p$-ノルムに一般化し、一般のフィッシャー情報を用いて $p > 1$ とする。 次に,2つの損失に対する推定誤差に対するminimaxlowboundsを開発する: general $l_p$-norms と関連するwaserstein loss from optimal transport である。

We consider the problem of learning parametric distributions from their quantized samples in a network. Specifically, $n$ agents or sensors observe independent samples of an unknown parametric distribution; and each of them uses $k$ bits to describe its observed sample to a central processor whose goal is to estimate the unknown distribution. First, we establish a generalization of the well-known van Trees inequality to general $L_p$-norms, with $p > 1$, in terms of Generalized Fisher information. Then, we develop minimax lower bounds on the estimation error for two losses: general $L_p$-norms and the related Wasserstein loss from optimal transport.
翻訳日:2021-05-26 13:36:49 公開日:2021-05-25