このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220814となっている論文です。

PDF登録状況(公開日: 20220814)

TitleAuthorsAbstract論文公表日・翻訳日
# 超低温原子における非エルミート皮膚効果とトポロジーの観察

Observation of Non-Hermitian Skin Effect and Topology in Ultracold Atoms ( http://arxiv.org/abs/2201.09478v2 )

ライセンス: Link先を確認
Qian Liang and Dizhou Xie and Zhaoli Dong and Haowei Li and Hang Li and Bryce Gadway and Wei Yi and Bo Yan(参考訳) 開放系の境界における固有波動関数の蓄積である非エルミート皮膚効果(NHSE)は、従来の知恵に反する様々なエキゾチックな性質の基盤となる。 NHSEとバンドトポロジとダイナミクスに対する興味深い影響は古典系やフォトニック系で観測されているが、量子多体状態におけるその実演はいまだ解明されていない。 ここでは二成分ボース・アインシュタイン凝縮体の運動量空間における非エルミート位相モデルである散逸的アハロノフ・ボーム鎖の実験的実現について報告する。 縮合力学におけるNHSEの特異なシグネチャを同定し、局所的なバルク状態の背景に対して位相的エッジ状態を解決するためにブラッグ分光を行う。 我々の研究は、多体統計とnhseとの相互作用のさらなる研究の舞台となり、非エルミート物理学の量子制御とシミュレーションにおいて重要な一歩となる。

The non-Hermitian skin effect (NHSE), the accumulation of eigen wavefunctions at boundaries of open systems, underlies a variety of exotic properties that defy conventional wisdom. While NHSE and its intriguing impact on band topology and dynamics have been observed in classical or photonic systems, their demonstration in a quantum many-body setting remains elusive. Here we report the experimental realization of a dissipative Aharonov-Bohm chain -- a non-Hermitian topological model with NHSE -- in the momentum space of a two-component Bose-Einstein condensate. We identify unique signatures of NHSE in the condensate dynamics, and perform Bragg spectroscopy to resolve topological edge states against a background of localized bulk states. Our work sets the stage for further investigation on the interplay of many-body statistics and interactions with NHSE, and is a significant step forward in the quantum control and simulation of non-Hermitian physics.
翻訳日:2023-02-28 00:46:24 公開日:2022-08-14
# 周期的複素作用論における最大オーバーラップからの現実性

Reality from maximizing overlap in the periodic complex action theory ( http://arxiv.org/abs/2203.07795v2 )

ライセンス: Link先を確認
Keiichi Nagao, Holger Bech Nielsen(参考訳) 我々は、時間積分が過去から未来まで実行される未来のCATにおける周期的条件を付与し、実作用論の弱値と呼ばれる作用素 $\hat{\mathcal O}$ の正規化行列要素を、別の式 $\langle \hat{\mathcal O} \rangle_{\mathrm{ periodic}~\mathrm{time}}$ に拡張することによって、周期的複素作用論(CAT)を研究する。 我々は、$\langle \hat{\mathcal O} \rangle_{\mathrm{ periodic}~\mathrm{time}}$が、与えられた非正規ハミルトニアン$\hat{H}を正規とする修正内積に対して、$\hat{\mathcal O}$がエルミートとなるという2つの定理を示す。 第1の定理は、与えられた周期$t_p$に対して、最大虚数部を持つ固有状態の数が$\hat{H}$の固有値の$B$が1である場合と、第2の定理は、$t_p$が選択されたとき、$B \leq 0$と$|B|$が$\hat{H}$の固有値の任意の2つの実際の部分の間の距離よりもはるかに小さい場合において、遷移振幅の絶対値が最大になるような$t_p$である。 後者は数論的な議論によって証明され、我々の宇宙が周期的であれば、周期でさえファインマン経路積分で決定される調整パラメータである可能性が示唆されている。 これは我々が以前に提案した最大化原理の変種である。

We study the periodic complex action theory (CAT) by imposing a periodic condition in the future-included CAT where the time integration is performed from the past to the future, and extend a normalized matrix element of an operator $\hat{\mathcal O}$, which is called the weak value in the real action theory, to another expression $\langle \hat{\mathcal O} \rangle_{\mathrm{periodic}~\mathrm{time}}$. We present two theorems stating that $\langle \hat{\mathcal O} \rangle_{\mathrm{periodic}~\mathrm{time}}$ becomes real for $\hat{\mathcal O}$ being Hermitian with regard to a modified inner product that makes a given non-normal Hamiltonian $\hat{H}$ normal. The first theorem holds for a given period $t_p$ in a case where the number of eigenstates having the maximal imaginary part $B$ of the eigenvalues of $\hat{H}$ is just one, while the second one stands for $t_p$ selected such that the absolute value of the transition amplitude is maximized in a case where $B \leq 0$ and $|B|$ is much smaller than the distances between any two real parts of the eigenvalues of $\hat{H}$. The latter proven via a number-theoretical argument suggests that, if our universe is periodic, then even the period could be an adjustment parameter to be determined in the Feynman path integral. This is a variant type of the maximization principle that we previously proposed.
翻訳日:2023-02-22 01:21:32 公開日:2022-08-14
# 連続光機械系の動的ブリルアン冷却

Dynamic Brillouin cooling for continuous optomechanical systems ( http://arxiv.org/abs/2208.06824v1 )

ライセンス: Link先を確認
Changlong Zhu and Birgit Stiller(参考訳) 一般に、光学的散逸が機械的散逸よりも高い状態では、光学的相互作用を用いた基底状態冷却を実現する。 本稿では,光導波路の一般的な場合である光散逸を機械的散逸が超過しながら後方ブリルアン散乱を用いることにより,連続的な光機械系の光機械基底状態冷却が可能であることを実証する。 パルスポンプを介して光メカニカルカップリングの強度を変調し、強結合状態における加熱過程を抑制することで、アンチストークス後方ブリルアンプロセスにおいて冷却を実現する。 このような動的変調により、数桁の冷却係数が実現され、定常的な冷却限界が破られる。 この変調方式は、前方のインターモーダルブリルアン散乱によって生じるブリルアン冷却にも適用できる。

In general, ground state cooling using optomechanical interaction is realized in the regime where optical dissipation is higher than mechanical dissipation. Here, we demonstrate that optomechanical ground state cooling in a continuous optomechanical system is possible by using backward Brillouin scattering while mechanical dissipation exceeds optical dissipation which is the common case in optical waveguides. The cooling is achieved in an anti-Stokes backward Brillouin process by modulating the intensity of the optomechanical coupling via a pulsed pump to suppress heating processes in the strong coupling regime. With such dynamic modulation, a cooling factor with several orders of magnitude can be realized, which breaks the steady-state cooling limit. This modulation scheme can also be applied to Brillouin cooling generated by forward intermodal Brillouin scattering.
翻訳日:2023-01-31 04:01:38 公開日:2022-08-14
# ボース系からなる量子コムギ石橋を用いた量子計測

Quantum metrology with quantum Wheatstone bridge composed of Bose systems ( http://arxiv.org/abs/2208.06800v1 )

ライセンス: Link先を確認
Dong Xie, Chunling Xu, Xiwei Yao, An Min Wang(参考訳) 境界駆動スピン系で構築された特別なホイートストーンブリッジの量子バージョンが最近提案されている。 本研究では,一般的な小麦石橋をシミュレートできるボース系からなる量子小麦石橋を提案する。 未知のカップリングは、量子小麦石橋のバランスが取れた時に得られるが、これは単にホモダイン検出によって決定できる。 ホモダイン検出の期待値が 0 の場合、量子小麦石橋は不均衡である。 ホモダイン検出の期待値を初期ボソン数の平方根に比例させるために既知の結合強度を規制する。 量子フィッシャー情報を計算することにより, 量子ウィートストーンブリッジのバランスが取れた場合に, 測定精度が最適であることを示す。 また, ホモダイン検出は低温浴の場合の最適測定値に近い。

The quantum version of a special classical Wheatstone bridge built with a boundary-driven spin system has recently been proposed. We propose a quantum Wheatstone bridge consisting of Bose systems, which can simulate the general classical Wheatstone bridge. Unknown coupling can be obtained when the quantum Wheatstone bridge is balanced, which can be determined simply by the homodyne detection. When the expectation value of the homodyne detection is 0, the quantum Wheatstone bridge is unbalanced. Regulate a known coupling strength to make the expectation value of the homodyne detection be proportional to the square root of the initial number of bosons, which means that the quantum Wheatstone bridge is balanced. By calculating the quantum Fisher information, we show that the measurement precision is optimal when the quantum Wheatstone bridge is balanced. And the homodyne detection is close to the optimal measurement in the case of low-temperature baths.
翻訳日:2023-01-31 04:01:27 公開日:2022-08-14
# 修正一般化分散と修正一般化ウィグナー・ヤナーゼ・ダイソンスキュー情報による量子チャネルの不確かさ

Uncertainty of quantum channels via modified generalized variance and modified generalized Wigner-Yanase-Dyson skew information ( http://arxiv.org/abs/2208.06780v1 )

ライセンス: Link先を確認
Cong Xu, Zhaoqi Wu, Shao-Ming Fei(参考訳) 不確実性関係は、量子力学と量子情報理論の基本的な問題である。 修正一般化分散(MGV)と修正一般化Wigner-Yanase-Dysonスキュー情報(MGWYD)を用いて、量子チャネルの総および量子不確実性を同定する。 量子チャネルの完全不確実性のエレガントな性質を詳細に探求する。 さらに,量子チャネルの完全不確かさと絡み合いの忠実度との間にはトレードオフ関係があり,全不確かさとエントロピー交換/コヒーレント情報の関係を確立する。 詳細な例は、全不確かさと量子チャネルの量子不確かさの明示的な公式に与えられる。 さらに,Nirala et al. (Phys Rev A 99:022111, 2019) で提案されたマッハ・ツェンダー干渉計を用いて, 純状態の量子チャネルの総量子不確実性を測定する方法について議論した。

Uncertainty relation is a fundamental issue in quantum mechanics and quantum information theory. By using modified generalized variance (MGV), and modified generalized Wigner-Yanase-Dyson skew information (MGWYD), we identify the total and quantum uncertainty of quantum channels. The elegant properties of the total uncertainty of quantum channels are explored in detail. In addition, we present a trade-off relation between the total uncertainty of quantum channels and the entanglement fidelity and establish the relationships between the total uncertainty and entropy exchange/coherent information. Detailed examples are given to the explicit formulas of the total uncertainty and the quantum uncertainty of quantum channels. Moreover, utilizing a realizable experimental measurement scheme by using the Mach-Zehnder interferometer proposed in Nirala et al. (Phys Rev A 99:022111, 2019), we discuss how to measure the total/quantum uncertainty of quantum channels for pure states.
翻訳日:2023-01-31 04:01:13 公開日:2022-08-14
# $(\alpha,\beta,\gamma)$重み付きWigner-Yanase-Dysonスキュー情報に基づくサム不確実性関係

Sum uncertainty relations based on $(\alpha,\beta,\gamma)$ weighted Wigner-Yanase-Dyson skew information ( http://arxiv.org/abs/2208.06772v1 )

ライセンス: Link先を確認
Cong Xu, Zhaoqi Wu, Shao-Ming Fei(参考訳) 加重Wigner-Yanase-Dyson (($\alpha,\beta,\gamma$) と加重Wigner-Yanase-Dyson (($\alpha,\beta,\gamma$) のスキュー情報および加重Wigner-Yanase-Dyson (($\alpha,\beta,\gamma$) のスキュー情報を紹介する。 WWYDスキュー情報に基づいて、任意の$N$に対して相互に可換な可観測値の和不確実性関係を探索する。 不確実性の一連の不等式が導出される。 そこで本研究では,WY(Wigner-Yanase)スキュー情報に基づいて,従来のスキュー情報を網羅し,改善した。 最後に、任意の$N$量子チャネルに対するMWWYDスキュー情報(\alpha,\beta,\gamma$)の観点から新しい和の不確実性関係を確立する。

We introduce ($\alpha,\beta,\gamma$) weighted Wigner-Yanase-Dyson (($\alpha,\beta,\gamma$) WWYD) skew information and ($\alpha,\beta,\gamma$) modified weighted Wigner-Yanase-Dyson (($\alpha,\beta,\gamma$) MWWYD) skew information. We explore the sum uncertainty relations for arbitrary $N$ mutually noncommutative observables based on ($\alpha,\beta,\gamma$) WWYD skew information. A series of uncertainty inequalities are derived. We show by detailed example that our results cover and improve the previous ones based on the original Wigner-Yanase (WY) skew information. Finally, we establish new sum uncertainty relations in terms of the ($\alpha,\beta,\gamma$) MWWYD skew information for arbitrary $N$ quantum channels.
翻訳日:2023-01-31 04:00:52 公開日:2022-08-14
# コヒーレント状態光位相推定のための適応光子計数測定の漸近限界の決定

Determination of the asymptotic limits of adaptive photon counting measurements for coherent-state optical phase estimation ( http://arxiv.org/abs/2208.06762v1 )

ライセンス: Link先を確認
M. A. Rodr\'iguez-Garc\'ia, M. T. DiMario, P. Barberis-Blostein, F. E. Becerra(参考訳) 光位相の正準位相測定の物理的実現方法は不明である。 単一ショットでの光場の位相決定を目的とした単一ショット位相推定は、量子情報処理やメトロロジーにおいて重要である。 ここでは、適応的な非ガウス的、光子計数に基づくコヒーレント状態の単発位相推定のための戦略群、情報ゲインを最大化するコヒーレント変位の測定群について述べる。 その基本的な特性を理解し,その優れた性能を示すために,実験のベイズ最適設計に基づく包括的統計解析を開発し,これらの非ガウス戦略の自然な記述を提供する。 この数学的枠組みは、数値解析とモンテカルロ法とともに、情報ゲインを最大化するために設計された光子計数に基づいて戦略の感度の漸近的限界を決定することができる。 さらに, この非ゲージ位相推定戦略は, スケーリング係数によってのみ異なる漸近的極限における正準位相測定と同一の機能形態を持つことを示し, これまでに知られているコヒーレント状態の単発位相推定において, 物理的に実現可能な測定値の中で最も高い感度を与える。 この研究は、光量子力学と位相推定のための光子計数に基づく最適化された非ガウス測度の可能性に光を当てる。

Physical realizations of the canonical phase measurement for the optical phase are unknown. Single-shot phase estimation, which aims to determine the phase of an optical field in a single shot, is critical in quantum information processing and metrology. Here we present a family of strategies for single-shot phase estimation of coherent states based on adaptive non-Gaussian, photon counting, measurements with coherent displacements that maximize information gain as the measurement progresses, which have higher sensitivities over the best known adaptive Gaussian strategies. To gain understanding about their fundamental characteristics and demonstrate their superior performance, we develop a comprehensive statistical analysis based on the Bayesian optimal design of experiments, which provides a natural description of these non-Gaussian strategies. This mathematical framework, together with numerical analysis and Monte Carlo methods, allows us to determine the asymptotic limits in sensitivity of strategies based on photon counting designed to maximize information gain, which up to now had been a challenging problem. Moreover, we show that these non-Gaussian phase estimation strategies have the same functional form as the canonical phase measurement in the asymptotic limit differing only by a scaling factor, thus providing the highest sensitivity among physically-realizable measurements for single-shot phase estimation of coherent states known to date. This work shines light into the potential of optimized non-Gaussian measurements based on photon counting for optical quantum metrology and phase estimation.
翻訳日:2023-01-31 04:00:05 公開日:2022-08-14
# 不均一閉じ込めを有する曲面薄膜系の有効量子力学

Effective quantum dynamics in curved thin-layer system with inhomogeneous confinement ( http://arxiv.org/abs/2208.07707v1 )

ライセンス: Link先を確認
Guo-Hua Liang and Meng-Yun Lai(参考訳) 曲面に均一に拘束された量子粒子の運動は、曲率誘起幾何ポテンシャルの影響を受ける。 ここでは,不均質な閉じ込めの場合を考察し,超有効ポテンシャルが現れる薄層手続きを拡張することにより,有効ハミルトニアンを導出する。 この有効ポテンシャルは、表面に垂直な基底状態エネルギーと閉じ込められた電位の形態に関係している。 厚さの小さな変化は、有効電位のかなりの大きさを誘導することを想定している。 不均一性の影響を実証するために,本手法を適用して,2つのヘリカル溝の合流電位を印加した円筒面上のコヒーレント輸送について検討する。 数値解析により, 閉じ込めの不均一性は輸送特性を著しく変化させることが明らかとなった。 本研究は, ナノ構造における導波路の新しい制御可能性を示す低次元拘束系の開発である。

The motion of quantum particles homogeneously constrained to a curved surface is affected by a curvature induced geometric potential. Here, we consider the case of inhomogeneous confinement and derive the effective Hamiltonian by extending thin-layer procedure, where an extra effective potential appears. This effective potential is relevant to the ground state energy perpendicular to the surface and the morphology of the confining potential. Tiny changes in the thickness are envisioned to induce considerable magnitude of the effective potential. To demonstrate the impact of the inhomogeneity, we apply our method to investigate the coherent transport on a cylindrical surface where a confining potential with two helical ditches is imposed. Numerical analysis reveals that the inhomogeneity of the confinement significantly changes the transport properties. This study develops the method for low-dimensional constrained systems and exhibits the possibility of new degree of control for waveguiding in nanostructures.
翻訳日:2023-01-31 03:56:21 公開日:2022-08-14
# 時間依存線形微分方程式に対する時間マーチングに基づく量子解法

Time-marching based quantum solvers for time-dependent linear differential equations ( http://arxiv.org/abs/2208.06941v1 )

ライセンス: Link先を確認
Di Fang, Lin Lin, Yu Tong(参考訳) 時間マーチング戦略(英: time-marching strategy)は、古典的コンピュータ上の時間依存微分方程式を解くための自然な戦略であり、量子コンピュータ上のハミルトニアンシミュレーション問題を解くための自然な戦略である。 より一般的な線形微分方程式では、時間マーチングに基づく量子ソルバは、時間ステップの数に関して指数関数的に消滅する成功確率に苦しめられ、従って非現実的と見なされる。 本稿では,一様特異値増幅と呼ばれる手法を反復的に呼び出すことでこの問題を解決し,全体の成功確率を時間ステップ数に依存しない量で低くすることができる。 圧縮ガジェットレムマを用いて、成功確率をさらに向上することができる。 これは、量子線形システムアルゴリズム(QLSA)に基づくものに代わる量子微分方程式の解法を設計する道を提供する。 本稿では,休眠ダイソン系列に基づく高次積分器を用いて,時間マーチング戦略の性能を示す。 アルゴリズムの複雑さは、ユニタリダイナミクスからの偏差を定量化する増幅比に線形に依存する。 増幅比に対する線形依存がクエリの複雑性を低くし、一般には改善できないことを証明した。 このアルゴリズムはまた、既存のQLSAベースの解法を3つの側面で上回る: (1) 係数行列 $A(t)$ は対角化可能である必要はない。 (2) $a(t)$ は非スムースであり、有界な変動のみである。 (3)初期状態に対するクエリを少なくすることができる。 最後に,上述の利点を保ちつつ,一階切開マグナス系列による時間マーチング戦略を実証する。 また,微分方程式を解くための時間マーチング法とqlsa法の違いについて,いくつかの疑問を提起する。

The time-marching strategy, which propagates the solution from one time step to the next, is a natural strategy for solving time-dependent differential equations on classical computers, as well as for solving the Hamiltonian simulation problem on quantum computers. For more general linear differential equations, a time-marching based quantum solver can suffer from exponentially vanishing success probability with respect to the number of time steps and is thus considered impractical. We solve this problem by repeatedly invoking a technique called the uniform singular value amplification, and the overall success probability can be lower bounded by a quantity that is independent of the number of time steps. The success probability can be further improved using a compression gadget lemma. This provides a path of designing quantum differential equation solvers that is alternative to those based on quantum linear systems algorithms (QLSA). We demonstrate the performance of the time-marching strategy with a high-order integrator based on the truncated Dyson series. The complexity of the algorithm depends linearly on the amplification ratio, which quantifies the deviation from a unitary dynamics. We prove that the linear dependence on the amplification ratio attains the query complexity lower bound and thus cannot be improved in general. This algorithm also surpasses existing QLSA based solvers in three aspects: (1) the coefficient matrix $A(t)$ does not need to be diagonalizable. (2) $A(t)$ can be non-smooth, and is only of bounded variation. (3) It can use fewer queries to the initial state. Finally, we demonstrate the time-marching strategy with a first-order truncated Magnus series, while retaining the aforementioned benefits. Our analysis also raises some open questions concerning the differences between time-marching and QLSA based methods for solving differential equations.
翻訳日:2023-01-31 03:56:07 公開日:2022-08-14
# ペアキャット符号のバイアス保存操作の構築

Construction of Bias-preserving Operations for Pair-cat Code ( http://arxiv.org/abs/2208.06913v1 )

ライセンス: Link先を確認
Ming Yuan, Qian Xu, Liang Jiang(参考訳) 脱分極誤差を伴うフォールトトレラント量子計算は、しばしばエラー閾値とリソースオーバーヘッドを必要とする。 もし演算が高いノイズバイアス(ビットフリップ誤差の少ないデフォーカスエラー)を維持することができれば、より好ましいエラー閾値でハードウェア効率の良いフォールトトレラント量子計算を実現できる。 2レベル物理系とは違い、多レベル系(調和振動子など)は、符号化部分空間に安定化するために連続工学的な散逸またはハミルトン保護を用いて、バイアス保存量子演算の望ましいセットを達成することができる。 例えば、駆動散逸やカー非線形性によって安定化された猫符号は、ボソニックデファスメント誤差を継続的に補正しながら、バイアス付き保存ゲートを持つことができる。 しかし、猫符号は、光子損失誤差を補正するためにパリティを継続的に監視することが難しいため、励起損失誤差に対する連続量子誤差補正とは互換性がない。 本研究では,猫符号のマルチモード一般化と見なすことのできるペアキャット符号に対するバイアス保存操作を一般化し,ボソニック損失と位相誤差の両方に対する連続的量子誤差補正と両立させる。 ハードウェア効率のよい量子情報処理に向けて,バイアス保存操作と連続量子誤差補正を同時に行うことで,ボゾン損失とデフォーカスエラーを同時に補正する。

Fault-tolerant quantum computation with depolarization error often requires demanding error threshold and resource overhead. If the operations can maintain high noise bias -- dominated by dephasing error with small bit-flip error -- we can achieve hardware-efficient fault-tolerant quantum computation with a more favorable error threshold. Distinct from two-level physical systems, multi-level systems (such as harmonic oscillators) can achieve a desirable set of bias-preserving quantum operations while using continuous engineered dissipation or Hamiltonian protection to stabilize to the encoding subspace. For example, cat codes stabilized with driven-dissipation or Kerr nonlinearity can possess a set of biased-preserving gates while continuously correcting bosonic dephasing error. However, cat codes are not compatible with continuous quantum error correction against excitation loss error, because it is challenging to continuously monitor the parity to correct photon loss errors. In this work, we generalize the bias-preserving operations to pair-cat codes, which can be regarded as a multimode generalization of cat codes, to be compatible with continuous quantum error correction against both bosonic loss and dephasing errors. Our results open the door towards hardware-efficient robust quantum information processing with both bias-preserving operations and continuous quantum error correction simultaneously correcting bosonic loss and dephasing errors.
翻訳日:2023-01-31 03:55:38 公開日:2022-08-14
# 量子近似最適化アルゴリズムによるブール飽和問題の解法

Solving boolean satisfiability problems with the quantum approximate optimization algorithm ( http://arxiv.org/abs/2208.06909v1 )

ライセンス: Link先を確認
Sami Boulebnane and Ashley Montanaro(参考訳) 量子近似最適化アルゴリズム(QAOA)は、短期量子コンピューティングにおける最も顕著な応用の1つである。 本稿では,最適化問題とは対照的に,制約満足度問題を解くqaoaの能力について検討する。 我々は、ランダムな$k$-SATという形で、基本ブール整合性問題に焦点を当てる。 我々は,変数数n$が無限に近づくにつれて,ランダムブール式に対するQAOAの平均成功確率に関する解析的境界を開発する。 固定パラメータは有界であり、$k$ が 2 のパワーであるときである。 これらの理論結果を, qaoa の性能に関する数値計算結果で補うことにより, 限界理論境界と密接に一致することを示す。 次に、これらの結果を用いてQAOAと古典解法の比較を行う。 ランダムな8-SATの場合、約14個のアンサッツ層に対して、QAOAは、我々がテストした最高性能の古典的ソルバ、WalkSATlmのスケーリング性能と一致している。 多数のレイヤーに対して、QAOAはWalkSATlmより優れており、究極的に有利なレベルが決定される。 本手法は,制約満足度問題に対するQAOAの性能解析と,古典的アルゴリズムのさらなる高速化を実現するためのフレームワークを提供する。

The quantum approximate optimization algorithm (QAOA) is one of the most prominent proposed applications for near-term quantum computing. Here we study the ability of QAOA to solve hard constraint satisfaction problems, as opposed to optimization problems. We focus on the fundamental boolean satisfiability problem, in the form of random $k$-SAT. We develop analytic bounds on the average success probability of QAOA over random boolean formulae at the satisfiability threshold, as the number of variables $n$ goes to infinity. The bounds hold for fixed parameters and when $k$ is a power of 2. We complement these theoretical results with numerical results on the performance of QAOA for small $n$, showing that these match the limiting theoretical bounds closely. We then use these results to compare QAOA with leading classical solvers. In the case of random 8-SAT, we find that for around 14 ansatz layers, QAOA matches the scaling performance of the highest-performance classical solver we tested, WalkSATlm. For larger numbers of layers, QAOA outperforms WalkSATlm, with an ultimate level of advantage that is still to be determined. Our methods provide a framework for analysing the performance of QAOA for hard constraint satisfaction problems and finding further speedups over classical algorithms.
翻訳日:2023-01-31 03:55:14 公開日:2022-08-14
# キャビティ誘起多体局在

Cavity induced many-body localization ( http://arxiv.org/abs/2208.06898v1 )

ライセンス: Link先を確認
Rong-Chun Ge, Saeed Rahmanian Koshkaki, Michael H. Kolodrubetz(参考訳) 本稿では, 空洞量子力学の強い結合における多体局在化の実現可能性について検討する。 単一モードの空洞に座るスピンレス電子ハバード鎖で作業することで、電子と光子の大域的な結合(一般にフェルミオン励起の非局在化が期待される)が、ローカライゼーションの出現に有利であることを示す。 これは、強い結合における電子-光子相互作用を正しく説明する新しい高周波展開と、単一粒子と多体状態の数値計算によって支えられている。 エネルギー依存を探索し、光子数への局所化の符号を$n\sim2$まで小さくすることで、光子数の強い量子揺らぎに耐える証拠が発見された。

In this manuscript, we explore the feasibility of achieving many-body localization in the context of cavity quantum electrodynamics at strong coupling. Working with a spinless electronic Hubbard chain sitting coupled to a single-mode cavity, we show that the global coupling between electrons and photons -- which generally would be expected to delocalize the fermionic excitations -- can instead favor the appearance of localization. This is supported by a novel high-frequency expansion that correctly accounts for electron-photon interaction at strong coupling, as well as numerical calculations in both single particle and many-bod regimes. We find evidence that many-body localization may survive strong quantum fluctuations of the photon number by exploring energy dependence, seeing signatures of localization down to photon numbers as small as $n\sim2$.
翻訳日:2023-01-31 03:54:16 公開日:2022-08-14
# 一般化されたEllis-Bronnikovグラフェンワームホール

Generalized Ellis-Bronnikov graphene wormhole ( http://arxiv.org/abs/2208.06869v1 )

ライセンス: Link先を確認
T. F. de Souza, A. C. A. Ramos, R. N. Costa Filho, J. Furtado(参考訳) 本稿では、電子が一般化されたエリス・ブロンニコフ・グラフェン・ワームホール様曲面に永久に束縛されている場合のスピンレス定常シュレーディンガー方程式について検討する。 この曲率は、電子動力学に影響を与える幾何学的ポテンシャルをもたらす。 ワームホールの形状の幾何学は、偶数値を仮定するパラメータ $n$ によって制御される。 我々は、パラメータ $n$ が果たす役割と、電子の束縛状態と確率密度に対する軌道角運動量について論じる。

In this paper, we investigate the spinless stationary Schr\"odinger equation for the electron when it is permanently bound to a generalized Ellis-Bronnikov graphene wormhole-like surface. The curvature gives rise to a geometric potential affecting thus the electronic dynamics. The geometry of the wormhole's shape is controlled by the parameter $n$ which assumes even values. We discuss the role played by the parameter $n$ and the orbital angular momentum on bound states and probability density for the electron.
翻訳日:2023-01-31 03:54:00 公開日:2022-08-14
# 線形ネットワークにおける非局所相関の持続性

Persistency Of Non n-Local Correlations In Linear Networks ( http://arxiv.org/abs/2208.06861v1 )

ライセンス: Link先を確認
Kaushiki Mukherjee, Indranil Chakrabarty and Ganesh Mylavarapu(参考訳) 線形nローカルネットワークは量子リピータベースの絡み合い分布プロトコルと互換性がある。 絡み合い生成の誤り、ノイズ量子チャネル上の通信、測定における不完全性など、異なる不完全さの源は、そのようなネットワーク全体で量子性が崩壊する結果となる。 実用的な観点からは、異なる種類の雑音の存在下で量子ネットワーク相関の非古典性を分析することが不可欠となる。 現在の議論は、ノイズの多いネットワークシナリオにおける量子相関の非局所的特徴の形式的特徴を提供する。 この文脈では、非 n-局所性の持続性が導入されている。 このような概念は、ネットワーク相関の非n局所的特徴の減衰と、1つ以上の不完全な原因の存在下での線形ネットワークの長さの増加を分析するのに役立つ。

Linear n-local networks are compatible with quantum repeaters based entanglement distribution protocols. Different sources of imperfections such as error in entanglement generation, communication over noisy quantum channels and imperfections in measurements result in decay of quantumness across such networks. From practical perspectives it becomes imperative to analyze non classicality of quantum network correlations in presence of different types of noise. Present discussion provides a formal characterization of non n-local feature of quantum correlations in noisy network scenario. In this context, persistency of non n-locality has been introduced. Such a notion helps in analyzing decay of non n-local feature of network correlations with increasing length of the linear network in presence of one or more causes of imperfections.
翻訳日:2023-01-31 03:53:52 公開日:2022-08-14
# 教師付き学習とvaesの統一化 --(astro-)粒子物理学における統計的推論の非調和条件正規化フローによる自動化

Unifying supervised learning and VAEs -- automating statistical inference in (astro-)particle physics with amortized conditional normalizing flows ( http://arxiv.org/abs/2008.05825v3 )

ライセンス: Link先を確認
Thorsten Gl\"usenkamp(参考訳) データとラベルの共分散のKL分割の目的は、確率的変分推論の1つの傘の下で教師付き学習と変分オートエンコーダ(VAE)を統合することである。 この統一は、ニューラルネットワークモデルに適したp値を計算することができる拡張教師付きスキームを動機付けている。 この構成では、ニューラルネットワークで償却された条件付き正規化フローが不可欠である。 製品空間上で共同で定義された後続のカバレッジを厳密に定義する方法について論じる。例えば、$\mathbb{r}^n \times \mathcal{s}^m$ は、後続の方向を包含する。 最後に、系統的不確実性は自然に変分的視点に含まれる。 古典的な確率的アプローチや他の機械学習モデルでは、(1)体系的、(2)カバレッジ、(3)適合性の良さの要素は、一般に全て利用できないか、少なくとも一つは強い制約を受ける。 対照的に、補正正規化フローを用いた拡張教師付きトレーニングは、$\mathbb{R}^n \times \ldots \times \mathcal{S}^m$のような積空間上で定義された任意の統計分布の変分推論にこれら3つ全てに対応し、基礎となるデータの複雑さに関して基本的な障壁はない。 したがって、現代の(アストロ-)粒子物理学者の統計ツールボックスには大きな可能性がある。

A KL-divergence objective of the joint distribution of data and labels allows to unify supervised learning and variational autoencoders (VAEs) under one umbrella of stochastic variational inference. The unification motivates an extended supervised scheme which allows to calculate a goodness-of-fit p-value for the neural network model. Conditional normalizing flows amortized with a neural network are crucial in this construction. We discuss how they allow to rigorously define coverage for posteriors defined jointly on a product space, e.g. $\mathbb{R}^n \times \mathcal{S}^m$, which encompasses posteriors over directions. Finally, systematic uncertainties are naturally included in the variational viewpoint. In classical likelihood approaches or other machine learning models, the ingredients of (1) systematics, (2) coverage and (3) goodness-of-fit are typically not all available or at least one of them strongly constrained. In contrast, the proposed extended supervised training with amortized normalizing flows accommodates all three of them for variational inference of arbitrary statistical distributions defined on product spaces like $\mathbb{R}^n \times \ldots \times \mathcal{S}^m$ and no fundamental barrier in terms of complexity of the underlying data. It therefore has great potential for the statistical toolbox of the contemporary (astro-)particle physicist.
翻訳日:2022-10-30 23:05:07 公開日:2022-08-14
# タンパク質配列に基づく強化学習モデルによる多用・高速デノボ医薬品の設計

Widely Used and Fast De Novo Drug Design by a Protein Sequence-Based Reinforcement Learning Model ( http://arxiv.org/abs/2209.07405v1 )

ライセンス: Link先を確認
Yaqin Li, Lingli Li, Yongjin Xu, and Yi Yu(参考訳) de novo分子設計は、薬物の発見を加速するために大規模な化学空間の探索を促進させた。 構造に基づくde novo法は、薬物と標的との相互作用をディープジェネレーティブアーキテクチャに組み込むことで、活性リガンドのデータ不足を克服することができる。 しかし、これらの戦略は、実験的に決定されたタンパク質や複雑な構造のごく一部によってボトルネックとなる。 加えて、分子とタンパク質の3d表現のため、分子生成のコストは計算的に高価である。 本稿では,タンパク質配列型強化学習(rl)モデルを用いて薬物発見を行う。 生成モデルでは、結合親和性予測因子である報酬成分の1つが1dタンパク質配列と分子スマイルに基づいている。 概念実証として、RLモデルを用いて分子を4つのターゲットに設計した。 生成した化合物は,QSARと分子ドッキングの両方を実験的3D結合ポケットで検証し,生物活性を示した。 また, 生成分子の性能は, 結合予測のためのデータソーストレーニングの選択に依存することがわかった。 さらに,実験構造を持たないキナーゼであるcdk20の薬物設計をモデルを用いて検討した。 1Dタンパク質配列のみを入力として生成した新規化合物はAlphaFold予測構造に基づいて良好な結合親和性を示した。

De novo molecular design has facilitated the exploration of large chemical space to accelerate drug discovery. Structure-based de novo method can overcome the data scarcity of active ligands by incorporating drug-target interaction into deep generative architectures. However, these strategies are bottlenecked by the small fraction of experimentally determined protein or complex structures. In addition, the cost of molecular generation is computationally expensive due to 3D representations of both molecule and protein. Here, we demonstrate a widely used and fast protein sequence-based reinforcement learning (RL) model for drug discovery. In the generative model, one of the reward components, a binding affinity predictor, is based on 1D protein sequence and molecular SMILES. As a proof of concept, the RL model was utilized to design molecules for four targets. The generated compounds showed bioactivities by the validation of both QSAR and molecular docking with experimental 3D binding pockets. We also found that the performance of generated molecules depends on the selection of data source training for the binding predictor. Furthermore, drug design for a kinase without any experimental structure, CDK20, was studied by our model. With only 1D protein sequence as input, the generated novel compounds showed favorable binding affinity based on the AlphaFold predicted structure.
翻訳日:2022-09-18 17:03:59 公開日:2022-08-14
# 固相接合した異種合金の破壊位置決定のための自己組織化マップニューラルネットワークアルゴリズム

Self-Organizing Map Neural Network Algorithm for the Determination of Fracture Location in Solid-State Process joined Dissimilar Alloys ( http://arxiv.org/abs/2209.07404v1 )

ライセンス: Link先を確認
Akshansh Mishra, Anish Dasgupta(参考訳) 計算神経科学 (Computer Neuroscience) として知られる分野は、数学的手法と理論を用いた脳機能の研究を含む。 脳がどのように情報を処理するかを理解するために、信号処理、コンピュータ科学、物理学といった様々な方法を含めることができる。 本研究は,AA5754-C11000合金を異種摩擦圧接した際の破壊位置を決定するために,神経生物学に基づく教師なし機械学習アルゴリズムを初めて実装したものである。 銅の熱力学的影響帯(TMAZ)の試料破断とアルミニウムのTMAZ(TMAZ)の破断のいずれにおいても, 肩関節径(mm), 工具回転速度(RPM), 工具トラバース速度(mm/min)が入力パラメータである。 その結果、実装したアルゴリズムは96.92%の精度で破壊位置を予測できることがわかった。

The subject area known as computational neuroscience involves the investigation of brain function using mathematical techniques and theories. In order to comprehend how the brain processes information, it can also include various methods from signal processing, computer science, and physics. In the present work, for the first time a neurobiological based unsupervised machine learning algorithm i.e., Self-Organizing Map Neural Network is implemented for determining the fracture location in dissimilar friction stir welded AA5754-C11000 alloys. Too Shoulder Diameter (mm), Tool Rotational Speed (RPM), and Tool Traverse Speed (mm/min) are input parameters while the Fracture location i.e. whether the specimen fracture at Thermo-Mechanically Affected Zone (TMAZ) of copper or it fractures at TMAZ of Aluminium. The results showed that the implemented algorithm is able to predict the fracture location with 96.92% accuracy.
翻訳日:2022-09-18 16:59:33 公開日:2022-08-14
# テキスト難易度研究:機械はテキスト難易度に関して人間と同じ振る舞いをするのか?

Text Difficulty Study: Do machines behave the same as humans regarding text difficulty? ( http://arxiv.org/abs/2208.14509v1 )

ライセンス: Link先を確認
Bowen Chen and Xiao Ding and Li Du and Qin Bing and Ting Liu(参考訳) タスクが与えられたら、人間は簡単から困難に学習するが、モデルはランダムに学習する。 必然的に、難易度学習はNLPにおいて大きな成功を収めるが、NLPにおけるテキスト難易度の影響にはほとんど注意が払われていない。 本研究では,テキスト難易度の影響を調べるために,人間学習マッチング指標(hlm index)を提案する。 実験の結果,(1)lstmはbertよりも人間に近い学習行動を示す。 2) UID-SuperLinear はテキスト難易度を4つのテキスト難易度で評価する。 (3)9つのタスクのうち,タスクのパフォーマンスはテキストの難易度に関連するが,一部はそうではない。 (4)簡単なデータで訓練されたモデルは、容易で中程度のデータで最高の性能を発揮するが、ハードレベルの列車はハードデータでのみ機能する。 (5) モデルを簡単からハードに訓練することは、迅速な収束につながる。

Given a task, human learns from easy to hard, whereas the model learns randomly. Undeniably, difficulty insensitive learning leads to great success in NLP, but little attention has been paid to the effect of text difficulty in NLP. In this research, we propose the Human Learning Matching Index (HLM Index) to investigate the effect of text difficulty. Experiment results show: (1) LSTM has more human-like learning behavior than BERT. (2) UID-SuperLinear gives the best evaluation of text difficulty among four text difficulty criteria. (3) Among nine tasks, some tasks' performance is related to text difficulty, whereas some are not. (4) Model trained on easy data performs best in easy and medium data, whereas trains on a hard level only perform well on hard data. (5) Training the model from easy to hard leads to fast convergence.
翻訳日:2022-09-04 02:08:17 公開日:2022-08-14
# 敵対的ノイズに対するフレンドリーなノイズ:データ中毒攻撃に対する強力な防御

Friendly Noise against Adversarial Noise: A Powerful Defense against Data Poisoning Attacks ( http://arxiv.org/abs/2208.10224v1 )

ライセンス: Link先を確認
Tian Yu Liu, Yu Yang, Baharan Mirzasoleiman(参考訳) データ中毒攻撃の強力なカテゴリは、特定のテストタイムデータの予測を変更するために、小さな逆の摂動によってトレーニングサンプルのサブセットを変更する。 既存の防御機構は、しばしば一般化性能を著しく損なうか、攻撃に特化して適用が違法に遅いため、実際に展開するのが望ましいものではない。 そこで本研究では, 従来の手法とは異なり, 一般化性能の低下により, 各種毒素攻撃を回避できる簡易かつ高効率な手法を提案する。 攻撃は鋭い損失領域を生かして、小さな摂動下での例の勾配や表現を実質的に変える敵の摂動を創造する重要な観察を行う。 有毒化攻撃を打破するため,本手法は,実例を最大に摂動させるように最適化された親和性雑音と,無作為な変動雑音成分の2つの成分からなる。 第1のコンポーネントはシャープなロス領域から遠く離れた例を取り、第2のコンポーネントはロスランドスケープを滑らかにする。 両方のコンポーネントの組み合わせは、非常に軽量だが、最も強力なトリガーレスターゲットおよび隠れトリガーバックドア中毒攻撃に対して非常に効果的に防御する、例えば勾配マッチング、ブルズアイポリトープ、睡眠剤などである。 我々は、我々のフレンドリーなノイズが他のアーキテクチャに転送可能であることを示し、適応的な攻撃はランダムなノイズ成分のために我々の防御を損なうことができないことを示す。

A powerful category of data poisoning attacks modify a subset of training examples by small adversarial perturbations to change the prediction of certain test-time data. Existing defense mechanisms are not desirable to deploy in practice, as they often drastically harm the generalization performance, or are attack-specific and prohibitively slow to apply. Here, we propose a simple but highly effective approach that unlike existing methods breaks various types of poisoning attacks with the slightest drop in the generalization performance. We make the key observation that attacks exploit sharp loss regions to craft adversarial perturbations which can substantially alter examples' gradient or representations under small perturbations. To break poisoning attacks, our approach comprises two components: an optimized friendly noise that is generated to maximally perturb examples without degrading the performance, and a random varying noise component. The first component takes examples farther away from the sharp loss regions, and the second component smooths out the loss landscape. The combination of both components builds a very light-weight but extremely effective defense against the most powerful triggerless targeted and hidden-trigger backdoor poisoning attacks, including Gradient Matching, Bulls-eye Polytope, and Sleeper Agent. We show that our friendly noise is transferable to other architectures, and adaptive attacks cannot break our defense due to its random noise component.
翻訳日:2022-08-28 22:17:20 公開日:2022-08-14
# グラデーションの長い歴史 - フェデレーション学習における悪意のある、信頼性の低いクライアントの検出

Long-Short History of Gradients is All You Need: Detecting Malicious and Unreliable Clients in Federated Learning ( http://arxiv.org/abs/2208.10273v1 )

ライセンス: Link先を確認
Ashish Gupta, Tie Luo, Mao V. Ngo, Sajal K. Das(参考訳) フェデレーション学習は、参加者のプライバシーを維持しながら、分散形式で機械学習モデルをトレーニングするフレームワークを提供する。 サーバはクライアントのアクションを制御できないため、悪質なクライアントは悪質なローカル勾配を送信することでグローバルモデルを攻撃することができる。 一方、信頼できないクライアントもいるが、それぞれが低品質のトレーニングデータの一部(ぼやけた画像や低解像度画像など)を持っているため、悪意のあるクライアントのように見える可能性がある。 したがって、防御機構は従来の(2倍の)ケースよりもはるかに難しい3倍の微分を行う必要がある。 本稿では,この課題に対処する新しい防衛アルゴリズムであるMUD-HoGを紹介し,検出された悪質で信頼性の低いクライアントを別々に扱う。 これだけでなく、悪意のあるクライアント間のターゲット攻撃と非ターゲット攻撃の区別も可能です。 具体的には,非iid設定下で,サインフライピング,付加雑音,ラベルフライピング,マルチラベルフライピング攻撃を考慮に入れる。 MUD-HoGを2つのデータセット上で6つの最先端手法で評価する。 その結果、MUD-HoGは、複数の(4)タイプの攻撃者と信頼性の低いクライアントが混在している場合、正確さと正確さ、リコールの点で、これらすべてを上回る性能を示した。 さらに、悪質な利用者の少ない人口しか許容できないほとんどの先行作品とは異なり、mud-hogは、全人口の47.5%と10%の、広範囲の悪意のあるクライアントと信頼できないクライアントを協力し、うまく検出することができる。 私たちのコードはhttps://github.com/LabSAINT/MUD-HoG_Federated_Learningで公開されている。

Federated learning offers a framework of training a machine learning model in a distributed fashion while preserving privacy of the participants. As the server cannot govern the clients' actions, nefarious clients may attack the global model by sending malicious local gradients. In the meantime, there could also be unreliable clients who are benign but each has a portion of low-quality training data (e.g., blur or low-resolution images), thus may appearing similar as malicious clients. Therefore, a defense mechanism will need to perform a three-fold differentiation which is much more challenging than the conventional (two-fold) case. This paper introduces MUD-HoG, a novel defense algorithm that addresses this challenge in federated learning using long-short history of gradients, and treats the detected malicious and unreliable clients differently. Not only this, but we can also distinguish between targeted and untargeted attacks among malicious clients, unlike most prior works which only consider one type of the attacks. Specifically, we take into account sign-flipping, additive-noise, label-flipping, and multi-label-flipping attacks, under a non-IID setting. We evaluate MUD-HoG with six state-of-the-art methods on two datasets. The results show that MUD-HoG outperforms all of them in terms of accuracy as well as precision and recall, in the presence of a mixture of multiple (four) types of attackers as well as unreliable clients. Moreover, unlike most prior works which can only tolerate a low population of harmful users, MUD-HoG can work with and successfully detect a wide range of malicious and unreliable clients - up to 47.5% and 10%, respectively, of the total population. Our code is open-sourced at https://github.com/LabSAINT/MUD-HoG_Federated_Learning.
翻訳日:2022-08-28 22:16:54 公開日:2022-08-14
# 水素ターボファンエンジンのエネルギー・エネルギー解析と最適設計

Energy-Exergy Analysis and Optimal Design of a Hydrogen Turbofan Engine ( http://arxiv.org/abs/2208.08890v1 )

ライセンス: Link先を確認
Mohammadreza Sabzehali, Somayeh Davoodabadi Farahani, Amir Mosavi(参考訳) 本研究では, 推力比燃料消費量 (TSFC) , 熱・エネルギ効率, エントロピー発生速度, 窒素酸化物排出強度指数 (SNOx) に及ぼす入口内空気冷却と燃料タイプの影響を, 離陸と設計の2つの条件で解析した。 その結果、設計条件およびJP10燃料使用時の吸入空気温度の20度の美味しい低下により、エンジンの熱効率とエントロピー発生率、推力および燃料質量流量、TSFCが1.85パーセント、16.51パーセント、11.76パーセント、10.53パーセント、SNOxが2.15パーセント、エネルギ効率が2.11パーセント、26.60%向上した。 また, ジェネックス1B70エンジンサイクルを水素燃料として, 推力最大化, 熱効率最大化, 設計点条件に対する推進効率最大化という3つの異なる目的関数で最適化した。 経済的アプローチと外環境に基づいて、最適状態からの最良のサイクルをTOPSISアルゴリズムを用いて選択した。 設計条件では、選択されたサイクルのエントロピー発生率、窒素酸化物生産率、tsfcはそれぞれ経済アプローチ+18.89パーセント、+10.01パーセント、-0.21パーセント、およびエクセロ環境アプローチ−54.03パーセント、-42.02パーセント、+21.44%の変化に基づく。

In this study, the effect of inlet air cooling and fuel type on the performance parameters of thrust-specific fuel consumption (TSFC), thermal and exergetic efficiencies, entropy generation rate, and Nitrogen oxide emission intensity index (SNOx) of the GENX 1B70 engine is analyzed in two states of take-off and on design. The results show that with a 20-degree delicious reduction in inlet air temperature on design conditions and JP10 fuel usage, the thermal efficiency and entropy generation rate, thrust and fuel mass flow rate, and TSFC of the engine increase by 1.85 percent, 16.51 percent, 11.76 percent, 10.53 percent, and 2.15 percent and SNOx and exergetic efficiency decrease by 2.11 percent and 26.60 percent, respectively. Also, optimization of the GENX 1B70 engine cycle as hydrogen fuel usage with three separate objective functions: thrust maximization, thermal efficiency maximization, and propulsive efficiency maximization on design point condition was performed based on the Genetic algorithm. Based on the economic approach and exero-environmental, the best cycles from the optimal states were selected using the TOPSIS algorithm. In on design conditions, entropy generation rate, nitrogen oxide production rate, and TSFC for the chosen cycle based on the economic approach +18.89 percent, +10.01 percent, and -0.21percent, respectively, and based on the exero-environmental approach -54.03percent, -42.02percent, and +21.44percent change compared to the base engine, respectively.
翻訳日:2022-08-19 13:35:08 公開日:2022-08-14
# サンプルベースクエリのシャープ周波数境界

Sharp Frequency Bounds for Sample-Based Queries ( http://arxiv.org/abs/2208.06753v1 )

ライセンス: Link先を確認
Eric Bax and John Donald(参考訳) データスケッチアルゴリズムは、ビッグデータセットをスキャンし、少量のデータ(スケッチ)を収集する。 一部のデータスケッチアルゴリズムは、ビッグデータセットの固定サイズのランダムサンプルを取得し、そのサンプルを使用して、ビッグデータセットのさまざまな基準を満たす項目の頻度を推測する。 本稿では、周波数境界が1つだけシャープかオフであるかを統計的に推定する方法を示し、正確な計算を行なわない最善の結果である。

A data sketch algorithm scans a big data set, collecting a small amount of data -- the sketch, which can be used to statistically infer properties of the big data set. Some data sketch algorithms take a fixed-size random sample of a big data set, and use that sample to infer frequencies of items that meet various criteria in the big data set. This paper shows how to statistically infer probably approximately correct (PAC) bounds for those frequencies, efficiently, and precisely enough that the frequency bounds are either sharp or off by only one, which is the best possible result without exact computation.
翻訳日:2022-08-16 15:09:16 公開日:2022-08-14
# Virgo: 宇宙衝撃波のスケーラブルな教師なし分類

Virgo: Scalable Unsupervised Classification of Cosmological Shock Waves ( http://arxiv.org/abs/2208.06859v1 )

ライセンス: Link先を確認
Max Lamparth, Ludwig B\"oss, Ulrich Steinwandel and Klaus Dolag(参考訳) 宇宙衝撃波は宇宙構造の形成を理解するのに不可欠である。 研究のために、科学者は計算に高価な高解像度の3D流体力学シミュレーションを実行した。 シミュレーション結果の解釈は、結果のデータセットが巨大であり、衝撃波面が複雑な形態と複数の衝撃面が交差しているため、分離および分類が難しいため、困難である。 我々は,この未解決な分類問題に対処するために,物理的なモチベーション,スケーラビリティ,確率的堅牢性を組み合わせた新しいパイプラインVirgoを導入する。 この目的のために、カーネルの主成分分析と低ランク行列近似を用いて衝撃粒子のデータセットをノイズ化し、ラベル付きサブセットを作成する。 教師付き分類を行い,確率的変分深核学習により全データの分解能を回復する。 複雑度が異なる3つの最先端データセットについて評価し,良好な結果を得た。 提案されたパイプラインは自動的に動作し、いくつかのハイパーパラメータしか持たず、テスト済みのデータセットすべてでうまく動作します。 当社の成果は大規模応用に期待でき、今後の科学的研究に注目する。

Cosmological shock waves are essential to understanding the formation of cosmological structures. To study them, scientists run computationally expensive high-resolution 3D hydrodynamic simulations. Interpreting the simulation results is challenging because the resulting data sets are enormous, and the shock wave surfaces are hard to separate and classify due to their complex morphologies and multiple shock fronts intersecting. We introduce a novel pipeline, Virgo, combining physical motivation, scalability, and probabilistic robustness to tackle this unsolved unsupervised classification problem. To this end, we employ kernel principal component analysis with low-rank matrix approximations to denoise data sets of shocked particles and create labeled subsets. We perform supervised classification to recover full data resolution with stochastic variational deep kernel learning. We evaluate on three state-of-the-art data sets with varying complexity and achieve good results. The proposed pipeline runs automatically, has only a few hyperparameters, and performs well on all tested data sets. Our results are promising for large-scale applications, and we highlight now enabled future scientific work.
翻訳日:2022-08-16 15:09:06 公開日:2022-08-14
# 音楽の認知と作曲のモデル

Models of Music Cognition and Composition ( http://arxiv.org/abs/2208.06878v1 )

ライセンス: Link先を確認
Abhimanyu Sethia and Aayush(参考訳) 多くの認知研究と同様に、音楽認知は学際的な分野であり、認知科学(神経学、計算学、実験学)の手法を適用して音楽の構成の知覚と過程を理解する。 本稿では,音楽が認知科学者に関係している理由を最初に動機付け,音楽認知の計算モデリングへのアプローチの概要を示す。 次に,非コンピュータモデル,非認知モデル,計算認知モデルなど,音楽知覚の様々なモデルに関する文献をレビューする。 最後に,創造的行動のモデル化に関する文献と,楽曲を作曲できるコンピュータシステムについて考察する。 音楽理論から多くの技術的用語が使われてきたので、我々は最後に関連する用語とその定義のリストを付加した。

Much like most of cognition research, music cognition is an interdisciplinary field, which attempts to apply methods of cognitive science (neurological, computational and experimental) to understand the perception and process of composition of music. In this paper, we first motivate why music is relevant to cognitive scientists and give an overview of the approaches to computational modelling of music cognition. We then review literature on the various models of music perception, including non-computational models, computational non-cognitive models and computational cognitive models. Lastly, we review literature on modelling the creative behaviour and on computer systems capable of composing music. Since a lot of technical terms from music theory have been used, we have appended a list of relevant terms and their definitions at the end.
翻訳日:2022-08-16 15:08:48 公開日:2022-08-14
# 二次勾配による多項ロジスティック回帰アルゴリズム

Multinomial Logistic Regression Algorithms via Quadratic Gradient ( http://arxiv.org/abs/2208.06828v1 )

ライセンス: Link先を確認
John Chiang(参考訳) 多項ロジスティック回帰(multinomial logistic regression)または多項ロジスティック回帰(multiclass logistic regression)、ソフトマックス回帰(softmax regression)は、二項ロジスティック回帰を多クラス問題に一般化する基本的な分類法である。 最近の研究では、二進ロジスティック回帰トレーニングを加速できる$\texttt{quadratic gradient}$と呼ばれるより高速な勾配を提案し、二進ロジスティック回帰のための強化ネステロフ加速勾配(nag)法を提案した。 本稿では,本手法を多クラスロジスティック回帰に拡張し,元のアダグラード法を高速化する拡張適応勾配アルゴリズム(adagrad)を提案する。 我々は、いくつかのマルチクラスプロブレムデータセット上で、拡張NAG法と拡張Adagrad法をテストする。 実験の結果, 2つの改良手法はそれぞれ, 元の手法よりも高速に収束することがわかった。

Multinomial logistic regression, also known by other names such as multiclass logistic regression and softmax regression, is a fundamental classification method that generalizes binary logistic regression to multiclass problems. A recently work proposed a faster gradient called $\texttt{quadratic gradient}$ that can accelerate the binary logistic regression training, and presented an enhanced Nesterov's accelerated gradient (NAG) method for binary logistic regression. In this paper, we extend this work to multiclass logistic regression and propose an enhanced Adaptive Gradient Algorithm (Adagrad) that can accelerate the original Adagrad method. We test the enhanced NAG method and the enhanced Adagrad method on some multiclass-problem datasets. Experimental results show that both enhanced methods converge faster than their original ones respectively.
翻訳日:2022-08-16 14:56:41 公開日:2022-08-14
# 非観測変数の存在下での因果構造学習の新しい順序付けに基づくアプローチ

Novel Ordering-based Approaches for Causal Structure Learning in the Presence of Unobserved Variables ( http://arxiv.org/abs/2208.06935v1 )

ライセンス: Link先を確認
Ehsan Mokhtarian, Mohammadsadegh Khorasani, Jalal Etesami, Negar Kiyavash(参考訳) 構造方程式モデル(SEM)の最大祖先グラフ(MAG)を,観測されていない変数の存在下でマルコフ同値クラス(MEC)まで学習するための順序付けに基づくアプローチを提案する。 文献における既存の順序に基づく手法は、因果順序(c-order)を学習することでグラフを復元する。 我々は、構造学習のc-orderよりも有利な、除去可能な順序(r-order)と呼ばれる新しい順序を提唱する。 これは、r-次数が適切に定義された最適化問題の最小化であり、(強化学習手法を用いて)正確に解けるか、(丘登り探索を用いて)概ね解けるからである。 さらに、(c-次数以外の)r-次数は MEC のすべてのグラフの中で不変であり、c-次を部分集合として含む。 r-次数集合がc-次数集合よりもかなり大きいことを考えると、最適化問題の方がc-次数ではなくr-次数を見つける方が容易である。 我々は,実世界およびランダム生成ネットワークにおける提案手法の性能と拡張性を評価する。

We propose ordering-based approaches for learning the maximal ancestral graph (MAG) of a structural equation model (SEM) up to its Markov equivalence class (MEC) in the presence of unobserved variables. Existing ordering-based methods in the literature recover a graph through learning a causal order (c-order). We advocate for a novel order called removable order (r-order) as they are advantageous over c-orders for structure learning. This is because r-orders are the minimizers of an appropriately defined optimization problem that could be either solved exactly (using a reinforcement learning approach) or approximately (using a hill-climbing search). Moreover, the r-orders (unlike c-orders) are invariant among all the graphs in a MEC and include c-orders as a subset. Given that set of r-orders is often significantly larger than the set of c-orders, it is easier for the optimization problem to find an r-order instead of a c-order. We evaluate the performance and the scalability of our proposed approaches on both real-world and randomly generated networks.
翻訳日:2022-08-16 14:56:24 公開日:2022-08-14
# 一元代数における解析的比例と差分比

Analogical proportions in monounary algebras and difference proportions ( http://arxiv.org/abs/2208.06829v1 )

ライセンス: Link先を確認
Christian Anti\'c(参考訳) 本稿では、宇宙と単単項函数のみからなる単項代数の類比について研究する。 類似比例関係は、自然数によって形成される無限一項代数と、差分比例による後続関数によって特徴づけられることを示す。

This paper studies analogical proportions in monounary algebras consisting only of a universe and a single unary function. We show that the analogical proportion relation is characterized in the infinite monounary algebra formed by the natural numbers together with the successor function via difference proportions.
翻訳日:2022-08-16 14:51:52 公開日:2022-08-14
# 短い証明は誰か? 高次自動定理証明器を用いたブーロスの奇数推論の変種探索

Who Finds the Short Proof? An Exploration of variants of Boolos' Curious Inference using Higher-order Automated Theorem Provers ( http://arxiv.org/abs/2208.06879v1 )

ライセンス: Link先を確認
Christoph Benzm\"uller, David Fuenmayor, Alexander Steen, Geoff Sutcliffe(参考訳) 本稿では,高階自動定理証明器(ATPs)を用いたブーロスの興味深い推論の変種探索について報告する。 驚いたことに、手書きの表記は1つしかなかった。 短い証明を得るのに必要な全ての高階の補題はコンピュータによって自動的に発見される。 本論文の観察と提案から,ブーロスの証明長の高速化に関する実例の完全な証明自動化および関連する例は,現在,高次ATPの到達範囲内にあると考えられる。

We report on an exploration of variants of Boolos' curious inference using higher-order automated theorem provers (ATPs). Surprisingly, only a single shorthand notation still had to be provided by hand. All higher-order lemmas required for obtaining short proof are automatically discovered by the computer. Given the observations and suggestions in this paper, full proof automation of Boolos' example on the speedup of proof lengths, and related examples, now seems to be within reach for higher-order ATPs.
翻訳日:2022-08-16 14:50:21 公開日:2022-08-14
# 低解像度ビデオからのリモートフォトプレチモグラフィ:効率的なconvnetを用いたエンドツーエンドソリューション

Remote Photoplethysmography from Low Resolution videos: An end-to-end solution using Efficient ConvNets ( http://arxiv.org/abs/2208.06817v1 )

ライセンス: Link先を確認
Bharath Ramakrishnan, Ruijia Deng(参考訳) 顔の映像から心臓のパルスを測定することは、ここ数年で興味深い研究の対象となっている。 これは主に、非侵襲的な方法で個人の心拍数を得る重要性が増していることによるものであり、ゲームや医療業界での利用に非常に有用である。 過去数年間の研究のもうひとつの手段は、Deep Learningの出現と、Deep Neural Networkによるタスクパフォーマンスの向上である。 本研究では,効率の良い畳み込みネットワークを用いて,低解像度の顔面ビデオからユーザの心拍数を正確に計測する手法を提案する。 さらに, リアルタイムに心拍数が得られるように, プルーニングにより深層学習モデルを圧縮し, メモリフットプリントの低減を図る。 我々は、MAHNOBデータセット上でのアプローチの性能をベンチマークし、その性能を複数のアプローチで比較する。

Measurement of the cardiac pulse from facial video has become an interesting pursuit of research over the last few years. This is mainly due to the increasing importance of obtaining the heart rate of an individual in a non-invasive manner, which can be highly useful for applications in gaming and the medical industry. Another instrumental area of research over the past few years has been the advent of Deep Learning and using Deep Neural networks to enhance task performance. In this work, we propose to use efficient convolutional networks to accurately measure the heart rate of user from low resolution facial videos. Furthermore, to ensure that we are able to obtain the heart rate in real time, we compress the deep learning model by pruning it, thereby reducing its memory footprint. We benchmark the performance of our approach on the MAHNOB dataset and compare its performance across multiple approaches.
翻訳日:2022-08-16 14:39:27 公開日:2022-08-14
# HighlightNet: リアルタイムUAV追跡のための軽量低光ポテンシャル機能

HighlightNet: Highlighting Low-Light Potential Features for Real-Time UAV Tracking ( http://arxiv.org/abs/2208.06818v1 )

ライセンス: Link先を確認
Changhong Fu, Haolin Dong, Junjie Ye, Guangze Zheng, Sihang Li, Jilin Zhao(参考訳) 低照度環境は、不安定な光条件下での潜在的な画像の特徴の抽出が困難であるため、最先端(SOTA)トラッカーであっても、頑丈な無人航空機(UAV)の追跡に深刻な課題となっている。 また、視界の低さから、正確なオンライン選択は、地上局でのUAV追跡を初期化することが極めて困難になる。 これらの問題を解決するために、人間のオペレーターとUAVトラッカーの両方の潜在的なオブジェクトを照らすための新しいエンハンサー、すなわちHighlightNetを提案する。 トランスを使用すると、highlightnetはグローバル特徴に応じて強調パラメータを調整できるため、照明変動に対応できる。 ピクセルレベルのレンジマスクが導入され、highlightnetは光源のないトラッキングオブジェクトと領域の強化に重点を置いている。 さらに、背景雑音が重要な特徴と誤認されるのを防止するため、ソフトトランケーション機構を構築する。 画像強調ベンチマークの評価は、HighlightNetが人間の知覚を促進する利点を持っていることを示している。 パブリックなUAVDark135ベンチマークの実験では、HightlightNetは他のSOTAローライトエンハンサーよりもUAV追跡タスクに適していることが示されている。 加えて、典型的なUAVプラットフォームにおける実世界のテストは、夜間航空追跡関連アプリケーションにおけるHightlightNetの実践性と効率を検証する。 コードとデモビデオはhttps://github.com/vision4robotics/HighlightNetで公開されている。

Low-light environments have posed a formidable challenge for robust unmanned aerial vehicle (UAV) tracking even with state-of-the-art (SOTA) trackers since the potential image features are hard to extract under adverse light conditions. Besides, due to the low visibility, accurate online selection of the object also becomes extremely difficult for human monitors to initialize UAV tracking in ground control stations. To solve these problems, this work proposes a novel enhancer, i.e., HighlightNet, to light up potential objects for both human operators and UAV trackers. By employing Transformer, HighlightNet can adjust enhancement parameters according to global features and is thus adaptive for the illumination variation. Pixel-level range mask is introduced to make HighlightNet more focused on the enhancement of the tracking object and regions without light sources. Furthermore, a soft truncation mechanism is built to prevent background noise from being mistaken for crucial features. Evaluations on image enhancement benchmarks demonstrate HighlightNet has advantages in facilitating human perception. Experiments on the public UAVDark135 benchmark show that HightlightNet is more suitable for UAV tracking tasks than other SOTA low-light enhancers. In addition, real-world tests on a typical UAV platform verify HightlightNet's practicability and efficiency in nighttime aerial tracking-related applications. The code and demo videos are available at https://github.com/vision4robotics/HighlightNet.
翻訳日:2022-08-16 14:39:14 公開日:2022-08-14
# 膵癌ROSE画像分類のためのShuffle Instance-based Vision Transformer

Shuffle Instances-based Vision Transformer for Pancreatic Cancer ROSE Image Classification ( http://arxiv.org/abs/2208.06833v1 )

ライセンス: Link先を確認
Tianyi Zhang, Youdan Feng, Yunlu Feng, Yu Zhao, Yanli Lei, Nan Ying, Zhiling Yan, Yufang He, Guanglei Zhang(参考訳) 迅速オンサイトアセスメント(ROSE)技術は,早期の細胞病理像を即時解析することにより,膵癌の診断を手伝うことができる。 コンピュータ支援診断(CAD)は、ROSEにおける病理医の不足に対処する可能性がある。 しかし、がんのパターンは異なるサンプル間で大きく異なり、CADタスクは非常に困難である。 また、バラ画像は、色分布、明るさ、コントラストに関して、異なる染色性および様々な取得デバイスタイプによる複雑な摂動を有する。 これらの課題に対処するため,私たちはシャッフルインスタンスベースの視覚トランスフォーマ(si-vit)アプローチを提案し,摂動を低減し,インスタンス間のモデリングを強化した。 シャッフルインスタンスのリグループ化とバッグレベルのソフトラベルにより、モデルは様々な摂動ではなく、細胞に焦点を合わせるために回帰ヘッドを利用する。 同時に、分類ヘッドと組み合わせることで、モデルは異なるインスタンス間の一般的な分配パターンを効果的に識別することができる。 その結果,より正確な注意領域で分類精度が向上し,バラ画像の多様なパターンが効果的に抽出され,複雑な摂動が著しく低減された。 また,SI-ViTは細胞病理像の解析に優れた可能性が示唆された。 コードと実験結果はhttps://github.com/sagizty/mil-siで入手できる。

The rapid on-site evaluation (ROSE) technique can signifi-cantly accelerate the diagnosis of pancreatic cancer by im-mediately analyzing the fast-stained cytopathological images. Computer-aided diagnosis (CAD) can potentially address the shortage of pathologists in ROSE. However, the cancerous patterns vary significantly between different samples, making the CAD task extremely challenging. Besides, the ROSE images have complicated perturbations regarding color distribution, brightness, and contrast due to different staining qualities and various acquisition device types. To address these challenges, we proposed a shuffle instances-based Vision Transformer (SI-ViT) approach, which can reduce the perturbations and enhance the modeling among the instances. With the regrouped bags of shuffle instances and their bag-level soft labels, the approach utilizes a regression head to make the model focus on the cells rather than various perturbations. Simultaneously, combined with a classification head, the model can effectively identify the general distributive patterns among different instances. The results demonstrate significant improvements in the classification accuracy with more accurate attention regions, indicating that the diverse patterns of ROSE images are effectively extracted, and the complicated perturbations are significantly reduced. It also suggests that the SI-ViT has excellent potential in analyzing cytopathological images. The code and experimental results are available at https://github.com/sagizty/MIL-SI.
翻訳日:2022-08-16 14:38:49 公開日:2022-08-14
# 超解像と逆トーン・マッピングのためのグローバル優先変調ネットワーク

Global Priors Guided Modulation Network for Joint Super-Resolution and Inverse Tone-Mapping ( http://arxiv.org/abs/2208.06885v1 )

ライセンス: Link先を確認
Gang He, Shaoyi Long, Li Xu, Chang Wu, Jinjia Zhou, Ming Sun, Xing Wen, Yurong Dai(参考訳) 超解像と逆トーンマッピング(SR-ITM)は、解像度とダイナミックレンジの画質に欠陥があるビデオの視覚的品質を高めることを目的としている。 この問題は、4K高ダイナミックレンジ(HDR)テレビを使用して低解像度の標準ダイナミックレンジ(LR SDR)ビデオを見るときに発生する。 局所的な情報を学習する以前の方法は、通常、色相似性と長距離構造相似性を保つのにうまくいき、不自然な色相転移とテクスチャのアーティファクトをもたらす。 これらの課題に対処するため,共同SR-ITMのためのGPGMNet(Global Priors Guided modulation Network)を提案する。 特に,色適合性前と構造類似性前とを抽出するグローバル事前抽出モジュール(GPEM)を設計し,それぞれIMMおよびSRタスクに有用である。 グローバルな事前情報をさらに活用し,空間情報を保存するため,空間的ピラミッド畳み込みブロック (SPCB) から空間的特徴マップと共有グローバルな事前情報によって変調パラメータが生成される中間的特徴変調のためのパラメータを複数設けた空間的変調ブロック (GSMB) を考案した。 これらの精巧な設計により、GPGMNetはより少ない計算量でより高い視覚的品質を達成することができる。 GPGMNetは最先端の手法よりも優れていることを示す。 具体的には,PSNRでは0.64dB以上のパラメータが69$\%,3.1$\times$スピードアップが提案されている。 コードはまもなくリリースされる。

Joint super-resolution and inverse tone-mapping (SR-ITM) aims to enhance the visual quality of videos that have quality deficiencies in resolution and dynamic range. This problem arises when using 4K high dynamic range (HDR) TVs to watch a low-resolution standard dynamic range (LR SDR) video. Previous methods that rely on learning local information typically cannot do well in preserving color conformity and long-range structural similarity, resulting in unnatural color transition and texture artifacts. In order to tackle these challenges, we propose a global priors guided modulation network (GPGMNet) for joint SR-ITM. In particular, we design a global priors extraction module (GPEM) to extract color conformity prior and structural similarity prior that are beneficial for ITM and SR tasks, respectively. To further exploit the global priors and preserve spatial information, we devise multiple global priors guided spatial-wise modulation blocks (GSMBs) with a few parameters for intermediate feature modulation, in which the modulation parameters are generated by the shared global priors and the spatial features map from the spatial pyramid convolution block (SPCB). With these elaborate designs, the GPGMNet can achieve higher visual quality with lower computational complexity. Extensive experiments demonstrate that our proposed GPGMNet is superior to the state-of-the-art methods. Specifically, our proposed model exceeds the state-of-the-art by 0.64 dB in PSNR, with 69$\%$ fewer parameters and 3.1$\times$ speedup. The code will be released soon.
翻訳日:2022-08-16 14:38:29 公開日:2022-08-14
# Link-Backdoor: Node注入によるリンク予測のバックドア攻撃

Link-Backdoor: Backdoor Attack on Link Prediction via Node Injection ( http://arxiv.org/abs/2208.06776v1 )

ライセンス: Link先を確認
Haibin Zheng, Haiyang Xiong, Haonan Ma, Guohan Huang, Jinyin Chen(参考訳) グラフの未発見あるいは潜在的なリンクを推測するリンク予測は、実世界で広く適用されている。 学習データとしてグラフのラベル付きリンクを容易にすることにより,非深層手法に比べて予測精度が優勢な,ディープラーニングに基づくリンク予測手法が数多く研究されている。 しかし、悪意のあるトレーニンググラフの脅威は、特定のバックドアをディープモデルに残すため、特定のサンプルがモデルに入力されると、バックドア攻撃として定義された誤った予測を行う。 現在の文献では見過ごされている重要な側面である。 本稿では,リンク予測におけるバックドア攻撃の概念を推し進め,既存のリンク予測手法のトレーニング脆弱性を明らかにするためにLink-Backdoorを提案する。 具体的には、リンクバックドアは偽のノードとターゲットリンクのノードを結合してトリガーを形成する。 さらに、ターゲットモデルからの勾配情報によってトリガーを最適化する。 その結果、バックドアデータセットでトレーニングされたリンク予測モデルは、ターゲット状態へのトリガーによるリンクを予測する。 5つのベンチマークデータセットと5つの優れたリンク予測モデルに関する広範な実験により、リンクバックドアがホワイトボックス(すなわち、ターゲットモデルパラメータが利用できる)とブラックボックス(すなわち、ターゲットモデルパラメータが使用できない)の両方のシナリオで最先端の攻撃成功率を達成したことが示されている。 さらに, 防御的状況下での攻撃を検証した結果, リンクバックドアは良好な性能のリンク予測手法で攻撃を成功させることができた。 コードとデータはhttps://github.com/seaocn/link-backdoorで入手できる。

Link prediction, inferring the undiscovered or potential links of the graph, is widely applied in the real-world. By facilitating labeled links of the graph as the training data, numerous deep learning based link prediction methods have been studied, which have dominant prediction accuracy compared with non-deep methods. However,the threats of maliciously crafted training graph will leave a specific backdoor in the deep model, thus when some specific examples are fed into the model, it will make wrong prediction, defined as backdoor attack. It is an important aspect that has been overlooked in the current literature. In this paper, we prompt the concept of backdoor attack on link prediction, and propose Link-Backdoor to reveal the training vulnerability of the existing link prediction methods. Specifically, the Link-Backdoor combines the fake nodes with the nodes of the target link to form a trigger. Moreover, it optimizes the trigger by the gradient information from the target model. Consequently, the link prediction model trained on the backdoored dataset will predict the link with trigger to the target state. Extensive experiments on five benchmark datasets and five well-performing link prediction models demonstrate that the Link-Backdoor achieves the state-of-the-art attack success rate under both white-box (i.e., available of the target model parameter)and black-box (i.e., unavailable of the target model parameter) scenarios. Additionally, we testify the attack under defensive circumstance, and the results indicate that the Link-Backdoor still can construct successful attack on the well-performing link prediction methods. The code and data are available at https://github.com/Seaocn/Link-Backdoor.
翻訳日:2022-08-16 14:27:06 公開日:2022-08-14
# 単純な論理 -- 例によるインテリジェント推論(完全にインタラクティブなオンライン版)

Simply Logical -- Intelligent Reasoning by Example (Fully Interactive Online Edition) ( http://arxiv.org/abs/2208.06823v1 )

ライセンス: Link先を確認
Peter Flach and Kacper Sokol(参考訳) Peter Flach の "Simply Logical -- Intelligent Reasoning by Example" は、1994年に John Wiley によって初めて出版された。 書籍専用または3.5インチのディスクレットで購入でき、本書に印刷されたSWI-Prologプログラム(様々なオペレーティングシステム向け)が組み込まれている。 2007年、著作権は著者に戻され、その時点で書籍とプログラムはオンラインで無料で入手できるようになり、印刷版はジョン・ワイリーの出版社によって配布されることはなかった。 2015年、パイロットとして、SWI-PrologのSWISHプラットフォームを使用して、オリジナルの書籍のほとんどをオンラインでインタラクティブなウェブサイトに移植しました。 それ以来、私たちはSimply Logicalオープンソース組織を立ち上げ、人工知能とPrologを使った論理プログラミングに関するインタラクティブなオンライン教育リソースのスイートのメンテナンスを約束しました。 新しい教育技術の出現により、私たちはJupyter Bookプラットフォームを使用して、Webブラウザで直接実行できるインタラクティブなSWI-Prologコードブロックを実装した、一連のbespokeプラグインによって拡張された本をゼロから再構築することにインスピレーションを得ました。 この新しいバージョンはよりモジュール化され、メンテナンスが容易で、モダンで視覚的に魅力的で、様々なスクリーンサイズの(モバイル)デバイスと互換性があるだけでなく、カスタムの教育モジュールに分割できる。

"Simply Logical -- Intelligent Reasoning by Example" by Peter Flach was first published by John Wiley in 1994. It could be purchased as book-only or with a 3.5 inch diskette containing the SWI-Prolog programmes printed in the book (for various operating systems). In 2007 the copyright reverted back to the author at which point the book and programmes were made freely available online; the print version is no longer distributed through John Wiley publishers. In 2015, as a pilot, we ported most of the original book into an online, interactive website using SWI-Prolog's SWISH platform. Since then, we launched the Simply Logical open source organisation committed to maintaining a suite of freely available interactive online educational resources about Artificial Intelligence and Logic Programming with Prolog. With the advent of new educational technologies we were inspired to rebuild the book from the ground up using the Jupyter Book platform enhanced with a collection of bespoke plugins that implement, among other things, interactive SWI-Prolog code blocks that can be executed directly in a web browser. This new version is more modular, easier to maintain, and can be split into custom teaching modules, in addition to being modern-looking, visually appealing, and compatible with a range of (mobile) devices of varying screen sizes.
翻訳日:2022-08-16 14:26:39 公開日:2022-08-14
# GNPassGAN:オフラインパスワードの誘導を阻止するジェネレーティブ・アドベラル・ネットワークの改善

GNPassGAN: Improved Generative Adversarial Networks For Trawling Offline Password Guessing ( http://arxiv.org/abs/2208.06943v1 )

ライセンス: Link先を確認
Fangyi Yu and Miguel Vargas Martin(参考訳) パスワードのセキュリティは、攻撃者が使用する戦略の完全な理解に依存している。 残念ながら、現実の敵は、パスワードのセキュリティ研究をシミュレートするのが難しい辞書攻撃のような実用的推測手法を使っている。 辞書攻撃は、実際の脅威を表すために慎重に設定され、修正されなければならない。 しかしこのアプローチには、複製が難しいドメイン固有の知識と専門知識が必要です。 本稿では,ユーザのパスワード構造や組み合わせに関するドメイン知識や仮定を必要としない,深層学習に基づくパスワード推測手法についてレビューする。 また、GNPassGANも導入している。GNPassGANは、オフライン攻撃をトロールするジェネレーティブな敵ネットワーク上に構築されたパスワード推測ツールだ。 最先端のPassGANモデルと比較して、GNPassGANは88.03\%以上のパスワードを推測し、31.69\%の複製を生成することができる。

The security of passwords depends on a thorough understanding of the strategies used by attackers. Unfortunately, real-world adversaries use pragmatic guessing tactics like dictionary attacks, which are difficult to simulate in password security research. Dictionary attacks must be carefully configured and modified to represent an actual threat. This approach, however, needs domain-specific knowledge and expertise that are difficult to duplicate. This paper reviews various deep learning-based password guessing approaches that do not require domain knowledge or assumptions about users' password structures and combinations. It also introduces GNPassGAN, a password guessing tool built on generative adversarial networks for trawling offline attacks. In comparison to the state-of-the-art PassGAN model, GNPassGAN is capable of guessing 88.03\% more passwords and generating 31.69\% fewer duplicates.
翻訳日:2022-08-16 14:26:18 公開日:2022-08-14
# QoS予測のためのテンソルモデルのb{eta}-divergence-based Latent Factorization

\b{eta}-Divergence-Based Latent Factorization of Tensors model for QoS prediction ( http://arxiv.org/abs/2208.06778v1 )

ライセンス: Link先を確認
Zemiao Peng, Hao Wu(参考訳) テンソルモデルの非負の潜在因子分解(nlft)は、非負のサービス品質(qos)データに隠された時間パターンをうまくモデル化し、高い精度で観測されていないものを予測できる。 しかし、既存のNLFTモデルの目的関数はユークリッド距離に基づいている。 したがって、予測精度向上を達成するために \b{eta}-divergence を用いて一般化された NLFT モデルを構築することができるだろうか? この問題に対処するため,本研究では, NLFTモデル(\b{eta}-NLFT)を提案する。 その考えは二つある 1)予測精度を高めるために,b{eta}-divergence を用いた学習目標の構築,及び 2)ハイパーパラメータの自己適応による実践性の向上。 2つの動的QoSデータセットに関する実証研究は、最先端のモデルと比較して、提案した \b{eta}-NLFT モデルが観測されていないQoSデータに対して高い予測精度を達成することを示した。

A nonnegative latent factorization of tensors (NLFT) model can well model the temporal pattern hidden in nonnegative quality-of-service (QoS) data for predicting the unobserved ones with high accuracy. However, existing NLFT models' objective function is based on Euclidean distance, which is only a special case of \b{eta}-divergence. Hence, can we build a generalized NLFT model via adopting \b{eta}-divergence to achieve prediction accuracy gain? To tackle this issue, this paper proposes a \b{eta}-divergence-based NLFT model (\b{eta}-NLFT). Its ideas are two-fold 1) building a learning objective with \b{eta}-divergence to achieve higher prediction accuracy, and 2) implementing self-adaptation of hyper-parameters to improve practicability. Empirical studies on two dynamic QoS datasets demonstrate that compared with state-of-the-art models, the proposed \b{eta}-NLFT model achieves the higher prediction accuracy for unobserved QoS data.
翻訳日:2022-08-16 14:21:46 公開日:2022-08-14
# 教師指導:知識伝達のための効果的なフレームワーク

Teacher Guided Training: An Efficient Framework for Knowledge Transfer ( http://arxiv.org/abs/2208.06825v1 )

ライセンス: Link先を確認
Manzil Zaheer, Ankit Singh Rawat, Seungyeon Kim, Chong You, Himanshu Jain, Andreas Veit, Rob Fergus, Sanjiv Kumar(参考訳) GPT-3のような事前訓練済みの大型モデルでは、トレーニング中に露出する大量のデータにヒンジが組み込まれている。 同様に、このような大規模なモデルを効率的な展開のためにコンパクトなモデルに蒸留するには、大量の(ラベル付きまたはラベルなし)トレーニングデータが必要である。 本稿では,事前学習された生成モデルによって得られる知識を活用し,大量のデータを必要とすることなく,高品質なコンパクトモデルの訓練を行うための教師指導訓練(tgt)フレームワークを提案する。 TGTは、教師が基礎となるデータ領域のよい表現を得たという事実を利用しており、通常は入力空間よりもはるかに低い次元多様体に対応する。 さらに,教師は,サンプリングや勾配に基づく手法により,より効率的に入力空間を探索できるため,限られたデータやロングテール設定においてtgtが特に魅力的になる。 提案するデータドメイン探索のメリットを,私たちの一般化範囲で正式に捉えます。 我々は,TGTが複数の画像分類ベンチマークの精度を向上し,テキスト分類や検索タスクの幅を拡大できることを見出した。

The remarkable performance gains realized by large pretrained models, e.g., GPT-3, hinge on the massive amounts of data they are exposed to during training. Analogously, distilling such large models to compact models for efficient deployment also necessitates a large amount of (labeled or unlabeled) training data. In this paper, we propose the teacher-guided training (TGT) framework for training a high-quality compact model that leverages the knowledge acquired by pretrained generative models, while obviating the need to go through a large volume of data. TGT exploits the fact that the teacher has acquired a good representation of the underlying data domain, which typically corresponds to a much lower dimensional manifold than the input space. Furthermore, we can use the teacher to explore input space more efficiently through sampling or gradient-based methods; thus, making TGT especially attractive for limited data or long-tail settings. We formally capture this benefit of proposed data-domain exploration in our generalization bounds. We find that TGT can improve accuracy on several image classification benchmarks as well as a range of text classification and retrieval tasks.
翻訳日:2022-08-16 14:21:30 公開日:2022-08-14
# Frouros: 機械学習問題におけるドリフト検出のためのPythonライブラリ

Frouros: A Python library for drift detection in Machine Learning problems ( http://arxiv.org/abs/2208.06868v1 )

ライセンス: Link先を確認
Jaime C\'espedes Sisniega and \'Alvaro L\'opez Garc\'ia(参考訳) Frourosは、機械学習問題のドリフトを検出するPythonライブラリである。 これは、古典的およびより最近のドリフト検出のためのアルゴリズムの組み合わせを提供する。 我々は、Scikit-Lernライブラリと簡単に統合でき、同じアプリケーションプログラミングインタフェースを実装することを目的として設計した。 このライブラリは、メンテナンスの容易さと拡張性を確保するために、最良の開発と継続的インテグレーションのプラクティスに従って開発されている。 ソースコードはhttps://github.com/ifca/frouros.com/で入手できる。

Frouros is a Python library capable of detecting drift in machine learning problems. It provides a combination of classical and more recent algorithms for drift detection: both supervised and unsupervised, as well as some capable of acting in a semi-supervised manner. We have designed it with the objective of being easily integrated with the scikit-learn library, implementing the same application programming interface. The library is developed following a set of best development and continuous integration practices to ensure ease of maintenance and extensibility. The source code is available at https://github.com/IFCA/frouros.
翻訳日:2022-08-16 14:21:14 公開日:2022-08-14
# 時系列連続分類のための信頼誘導学習プロセス

Confidence-Guided Learning Process for Continuous Classification of Time Series ( http://arxiv.org/abs/2208.06883v1 )

ライセンス: Link先を確認
Chenxi Sun and Moxian Song and Derun Can and Baofeng Zhang and Shenda Hong and Hongyan Li(参考訳) 実世界では、時系列のクラスは通常最終時点でラベル付けされるが、多くのアプリケーションは各時点の時系列を分類する必要がある。 例えば、臨界患者の結果は最終的にのみ決定されるが、常にタイムリーな治療のために診断されるべきである。 そこで我々は,新しい概念である連続時系列分類(CCTS)を提案する。 モデルがさまざまな時間ステージでデータを学ぶ必要があります。 しかし、時系列は動的に進化し、異なるデータ分布に繋がる。 モデルがマルチディストリビューションを学ぶと、常に忘れてしまうか、過度に適合する。 信頼度によって測定すると、複数の分布をモデルとして学習するプロセスは、複数の知識を人間で学習するプロセスと似ている。 そこで本研究では,CCTS(C3TS)の信頼性誘導手法を提案する。 ダニング・クルーガー効果によって表現される交互の人間の自信を模倣することができる。 我々は,データ配置のための客観的自信と,学習時間を制御するための自己信頼を定義する。 4つの実世界のデータセットの実験により、C3TSはCCTSのすべてのベースラインよりも正確であることが示されている。

In the real world, the class of a time series is usually labeled at the final time, but many applications require to classify time series at every time point. e.g. the outcome of a critical patient is only determined at the end, but he should be diagnosed at all times for timely treatment. Thus, we propose a new concept: Continuous Classification of Time Series (CCTS). It requires the model to learn data in different time stages. But the time series evolves dynamically, leading to different data distributions. When a model learns multi-distribution, it always forgets or overfits. We suggest that meaningful learning scheduling is potential due to an interesting observation: Measured by confidence, the process of model learning multiple distributions is similar to the process of human learning multiple knowledge. Thus, we propose a novel Confidence-guided method for CCTS (C3TS). It can imitate the alternating human confidence described by the Dunning-Kruger Effect. We define the objective- confidence to arrange data, and the self-confidence to control the learning duration. Experiments on four real-world datasets show that C3TS is more accurate than all baselines for CCTS.
翻訳日:2022-08-16 14:21:04 公開日:2022-08-14
# 連続学習における知識伝達の理論

A Theory for Knowledge Transfer in Continual Learning ( http://arxiv.org/abs/2208.06931v1 )

ライセンス: Link先を確認
Diana Benavides-Prado and Patricia Riddle(参考訳) タスクストリームの継続的な学習は、ディープニューラルネットワークの活発な領域である。 研究の主な課題は、それまでの課題から得た知識を忘れることや、新たに獲得した知識を妨げてしまう現象である。 最近の研究で、新しいタスクへの知識の転送が研究されている。 以前のタスクで得た知識を改善するための後方移動は、あまり注目されていない。 一般的に、知識伝達が継続的に学習するタスクをどのように支援できるかの理解は限られている。 本稿では,前向きと後向きの両方を考慮した連続的教師付き学習における知識伝達の理論を提案する。 より知識のある学習者に対する彼らの影響を理解することを目的としている。 これらの伝達機構毎に誤差境界を導出する。 これらの境界は特定の実装(ディープニューラルネットワークなど)に依存しない。 我々は,関連するタスクを観察する継続学習者に対して,さらに多くのタスクが観察されるにつれて,前方と後方の両方の移動がパフォーマンスの向上に寄与することを示す。

Continual learning of a stream of tasks is an active area in deep neural networks. The main challenge investigated has been the phenomenon of catastrophic forgetting or interference of newly acquired knowledge with knowledge from previous tasks. Recent work has investigated forward knowledge transfer to new tasks. Backward transfer for improving knowledge gained during previous tasks has received much less attention. There is in general limited understanding of how knowledge transfer could aid tasks learned continually. We present a theory for knowledge transfer in continual supervised learning, which considers both forward and backward transfer. We aim at understanding their impact for increasingly knowledgeable learners. We derive error bounds for each of these transfer mechanisms. These bounds are agnostic to specific implementations (e.g. deep neural networks). We demonstrate that, for a continual learner that observes related tasks, both forward and backward transfer can contribute to an increasing performance as more tasks are observed.
翻訳日:2022-08-16 14:20:50 公開日:2022-08-14
# 少ない光線を照射した高速学習放射場

Fast Learning Radiance Fields by Shooting Much Fewer Rays ( http://arxiv.org/abs/2208.06821v1 )

ライセンス: Link先を確認
Wenyuan Zhang, Ruofan Xing, Yunfan Zeng, Yu-Shen Liu, Kanle Shi, Zhizhong Han(参考訳) 学習放射場は、新しいビュー合成において顕著な結果を示した。 学習手順は通常、多くの時間を要するため、ニューラルネットワークなしで学習したり、より効率的なデータ構造を使用して学習手順を高速化する最新の方法が動機となっている。 しかし、これらの特別に設計されたアプローチは、放射場に基づく手法のほとんどでは機能しない。 この問題を解決するため,ほぼすべての放射場に基づく手法の学習手順を高速化する一般戦略を導入する。 私たちの重要なアイデアは、ほぼすべてのラミアンスフィールドベースのメソッドの基礎となるマルチビューボリュームレンダリング手順において、より少ないレイを撮影することで冗長性を削減することです。 劇的な色変化を示す画素での撮影光は、トレーニング負担を著しく低減するだけでなく、学習した放射界の精度にもほとんど影響しない。 さらに、ツリーの各ノードにおける平均レンダリングエラーに応じて、各ビューをクワッドツリーに適応的に分割することで、より複雑な領域でより多くのレイを動的に撮影し、レンダリングエラーを大きくします。 本手法は,広く使用されているベンチマークで,異なる放射場に基づく手法を用いて評価する。 実験の結果,より高速にトレーニングすることで,最先端技術と同等の精度が得られることがわかった。

Learning radiance fields has shown remarkable results for novel view synthesis. The learning procedure usually costs lots of time, which motivates the latest methods to speed up the learning procedure by learning without neural networks or using more efficient data structures. However, these specially designed approaches do not work for most of radiance fields based methods. To resolve this issue, we introduce a general strategy to speed up the learning procedure for almost all radiance fields based methods. Our key idea is to reduce the redundancy by shooting much fewer rays in the multi-view volume rendering procedure which is the base for almost all radiance fields based methods. We find that shooting rays at pixels with dramatic color change not only significantly reduces the training burden but also barely affects the accuracy of the learned radiance fields. In addition, we also adaptively subdivide each view into a quadtree according to the average rendering error in each node in the tree, which makes us dynamically shoot more rays in more complex regions with larger rendering error. We evaluate our method with different radiance fields based methods under the widely used benchmarks. Experimental results show that our method achieves comparable accuracy to the state-of-the-art with much faster training.
翻訳日:2022-08-16 13:58:59 公開日:2022-08-14
# bdsl 49: bangla sign languageの包括的なデータセット

BDSL 49: A Comprehensive Dataset of Bangla Sign Language ( http://arxiv.org/abs/2208.06827v1 )

ライセンス: Link先を確認
Ayman Hasib, Saqib Sizan Khan, Jannatul Ferdous Eva, Mst. Nipa Khatun, Ashraful Haque, Nishat Shahrin, Rashik Rahman, Hasan Murad, Md. Rajibul Islam, Molla Rashied Hussein(参考訳) 言語は個人が自分の考えを表現する方法である。 それぞれの言語には独自のアルファベットと数字の文字がある。 人々は口頭または書面のコミュニケーションを通じて互いにコミュニケーションすることができる。 しかし、それぞれの言語には手話がある。 聴覚障害やミュート状態の人は手話でコミュニケーションをとる。 バングラ語はまた、BDSLと呼ばれる手話を持っている。 データセットは、Banglaハンドサインイメージに関するものです。 このコレクションは、手話で49個のBanglaアルファベット画像を含んでいる。 BDSL49は29,490の画像と49のラベルからなるデータセットである。 14人の異なる成人のイメージは、それぞれ異なる背景と外観を持ち、データ収集中に記録されている。 準備中にデータセットからノイズを取り除くために、いくつかの戦略が使われている。 このデータセットは研究者が無料で利用できる。 機械学習、コンピュータビジョン、ディープラーニング技術を使って自動化システムを開発することができる。 さらに、このデータセットには2つのモデルが使用された。 1つは検出用、もう1つは認識用である。

Language is a method by which individuals express their thoughts. Each language has its own set of alphabetic and numeric characters. People can communicate with one another through either oral or written communication. However, each language has a sign language counterpart. Individuals who are deaf and/or mute communicate through sign language. The Bangla language also has a sign language, which is called BDSL. The dataset is about Bangla hand sign images. The collection contains 49 individual Bangla alphabet images in sign language. BDSL49 is a dataset that consists of 29,490 images with 49 labels. Images of 14 different adult individuals, each with a distinct background and appearance, have been recorded during data collection. Several strategies have been used to eliminate noise from datasets during preparation. This dataset is available to researchers for free. They can develop automated systems using machine learning, computer vision, and deep learning techniques. In addition, two models were used in this dataset. The first is for detection, while the second is for recognition.
翻訳日:2022-08-16 13:58:37 公開日:2022-08-14
# 水中ランサー:どちらが良いか、どのように改善するかを学ぶ

Underwater Ranker: Learn Which Is Better and How to Be Better ( http://arxiv.org/abs/2208.06857v1 )

ライセンス: Link先を確認
Chunle Guo and Ruiqi Wu and Xin Jin and Linghao Han and Zhi Chai and Weidong Zhang and Chongyi Li(参考訳) 本稿では,uranker(uranker)と略される,ランキングに基づく水中画像品質評価法(uiqa)を提案する。 URankerは効率の良いconv-attentional image Transformer上に構築されている。 水中画像については,(1)グローバルな劣化に対応するために水中画像の色分布をヒストグラムトークンとして埋め込んだヒストグラム,(2)局所的な劣化をモデル化するための動的クロススケール対応を考案した。 最終的な予測は、多スケールの依存関係を包括的に考慮するさまざまなスケールのクラストークンに依存する。 マージンランキングの喪失により、ウランカーは視覚的品質に応じて異なる水中画像強調(UIE)アルゴリズムによって強化された同一シーンの水中画像の順序を正確にランク付けできる。 これを実現するために、異なるUIEアルゴリズムと対応する知覚的ランキングによって強化された十分な結果を含むデータセットURankerSetも提供し、URankerをトレーニングします。 U字型UIEネットワークは, ウランカーの優れた性能とは別に, トレーニング済みのウランカーと組み合わせることで, 有望な性能が得られることがわかった。 また,UIEネットワークの性能を大幅に向上させることができる正規化テールを提案する。 広範な実験により,本手法の最先端性能が実証された。 本手法の重要な設計について論じる。 データセットとコードをリリースします。

In this paper, we present a ranking-based underwater image quality assessment (UIQA) method, abbreviated as URanker. The URanker is built on the efficient conv-attentional image Transformer. In terms of underwater images, we specially devise (1) the histogram prior that embeds the color distribution of an underwater image as histogram token to attend global degradation and (2) the dynamic cross-scale correspondence to model local degradation. The final prediction depends on the class tokens from different scales, which comprehensively considers multi-scale dependencies. With the margin ranking loss, our URanker can accurately rank the order of underwater images of the same scene enhanced by different underwater image enhancement (UIE) algorithms according to their visual quality. To achieve that, we also contribute a dataset, URankerSet, containing sufficient results enhanced by different UIE algorithms and the corresponding perceptual rankings, to train our URanker. Apart from the good performance of URanker, we found that a simple U-shape UIE network can obtain promising performance when it is coupled with our pre-trained URanker as additional supervision. In addition, we also propose a normalization tail that can significantly improve the performance of UIE networks. Extensive experiments demonstrate the state-of-the-art performance of our method. The key designs of our method are discussed. We will release our dataset and code.
翻訳日:2022-08-16 13:58:29 公開日:2022-08-14
# SketchSampler:ビュー依存深度サンプリングによるSketchベースの3D再構成

SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth Sampling ( http://arxiv.org/abs/2208.06880v1 )

ライセンス: Link先を確認
Chenjian Gao, Qian Yu, Lu Sheng, Yi-Zhe Song, Dong Xu(参考訳) 1枚のスケッチ画像に基づいて3d形状を再構築することは、疎らで不規則なスケッチと、規則的で密集した3d形状との領域ギャップが大きいため困難である。 既存の作品では、3d座標を直接予測するためにスケッチから抽出されたグローバル機能を使おうとしているが、入力スケッチに忠実でない詳細を失うことが多い。 3次元から2次元の投影過程を解析することにより、2次元点雲の分布を特徴付ける密度マップ(すなわち、投影面の各位置に投影される点の確率)をプロキシとして利用し、再構成プロセスを容易にすることに気づく。 この目的のために、まず画像翻訳ネットワークを介してスケッチを、密度マップを生成するために使用できるより情報性の高い2D表現に変換する。 次に、密度マップをサンプリングして、まず2d点(すなわちxおよびy座標)を回収し、次に、各2d点によって決定されたレイの深さ値をサンプリングして深さ(すなわちz座標)を予測する2段階確率的サンプリングプロセスにより3d点雲を再構成する。 広範囲にわたる実験を行い, 定量的および定性的な結果から, 提案手法が他のベースライン法を大きく上回ることを示した。

Reconstructing a 3D shape based on a single sketch image is challenging due to the large domain gap between a sparse, irregular sketch and a regular, dense 3D shape. Existing works try to employ the global feature extracted from sketch to directly predict the 3D coordinates, but they usually suffer from losing fine details that are not faithful to the input sketch. Through analyzing the 3D-to-2D projection process, we notice that the density map that characterizes the distribution of 2D point clouds (i.e., the probability of points projected at each location of the projection plane) can be used as a proxy to facilitate the reconstruction process. To this end, we first translate a sketch via an image translation network to a more informative 2D representation that can be used to generate a density map. Next, a 3D point cloud is reconstructed via a two-stage probabilistic sampling process: first recovering the 2D points (i.e., the x and y coordinates) by sampling the density map; and then predicting the depth (i.e., the z coordinate) by sampling the depth values at the ray determined by each 2D point. Extensive experiments are conducted, and both quantitative and qualitative results show that our proposed approach significantly outperforms other baseline methods.
翻訳日:2022-08-16 13:58:09 公開日:2022-08-14
# CoShNet: シーレットを用いたハイバード複合価値ニューラルネットワーク

CoShNet: A Hybird Complex Valued Neural Network using Shearlets ( http://arxiv.org/abs/2208.06882v1 )

ライセンス: Link先を確認
Manny Ko, Ujjawal K. Panchal, H\'ector Andrade-Loarca, Andres Mendez-Vazquez(参考訳) ハイブリッドニューラルネットワークでは、高価な畳み込み層は、パラメータの大幅な減少を伴う訓練不能な固定変換に置き換えられる。 前回の研究では、畳み込みをウェーブレットに置き換えることで良い結果を得た。 しかし、ウェーブレットに基づくハイブリッドネットワークは、曲線に沿った消滅モーメントの欠如とその軸バイアスを継承した。 エッジやリッジ,ブロブといった重要なイメージ機能に対する堅牢なサポートで,Shearletを使用することを提案する。 このネットワークはComplex Shearlets Network (CoShNet)と呼ばれる。 Fashion-MNISTでResNet-50とResnet-18に対してテストされ、それぞれ92.2%、90.7%、91.8%を得た。 提案されたネットワークのパラメータは49.9kで、resnet-18は11.18m、フロップは52倍少ない。 最後に、ResNetが要求する200エポックに対して20エポック以下でトレーニングを行い、ハイパーパラメータチューニングや正規化は不要でした。 コード: https://github.com/ujjawal-k-panchal/coshnet

In a hybrid neural network, the expensive convolutional layers are replaced by a non-trainable fixed transform with a great reduction in parameters. In previous works, good results were obtained by replacing the convolutions with wavelets. However, wavelet based hybrid network inherited wavelet's lack of vanishing moments along curves and its axis-bias. We propose to use Shearlets with its robust support for important image features like edges, ridges and blobs. The resulting network is called Complex Shearlets Network (CoShNet). It was tested on Fashion-MNIST against ResNet-50 and Resnet-18, obtaining 92.2% versus 90.7% and 91.8% respectively. The proposed network has 49.9k parameters versus ResNet-18 with 11.18m and use 52 times fewer FLOPs. Finally, we trained in under 20 epochs versus 200 epochs required by ResNet and do not need any hyperparameter tuning nor regularization. Code: https://github.com/Ujjawal-K-Panchal/coshnet
翻訳日:2022-08-16 13:57:44 公開日:2022-08-14
# AVisT: 逆可視性におけるビジュアルオブジェクト追跡のベンチマーク

AVisT: A Benchmark for Visual Object Tracking in Adverse Visibility ( http://arxiv.org/abs/2208.06888v1 )

ライセンス: Link先を確認
Mubashir Noman, Wafa Al Ghallabi, Daniya Najiha, Christoph Mayer, Akshay Dudhane, Martin Danelljan, Hisham Cholakkal, Salman Khan, Luc Van Gool, Fahad Shahbaz Khan(参考訳) 最近のビジュアルトラッキングの成功の要因の1つは、専用のベンチマークが利用可能になったことである。 追跡研究に多大なメリットがある一方で、既存のベンチマークは、主に高いパフォーマンスを達成する最近のトラッカーでは、以前と同じような困難をもたらさない。 (i)より洗練されたトランス方式の導入 (II) 悪天候, カモフラージュ, 画像効果など, 視認性に悪影響を及ぼす多様なシナリオの欠如。 AVisTは、視認性の悪い様々なシナリオにおける視覚追跡のための専用ベンチマークである。 AVisTは、80kのアノテートフレームを持つ120の挑戦的なシーケンスで構成され、42のオブジェクトカテゴリを持つ5つの属性に広くグループ化された18の多様なシナリオにまたがる。 avistの主な貢献は、濃霧、豪雨、砂嵐などの厳しい気象条件、火災、日光、水しぶきなどの障害効果、低照度などの画像の悪影響、標的効果、小型のターゲット、カモフラージュと共に気晴らしの対象などを含む、多様で挑戦的なシナリオである。 さらに avist の17の人気のあるトラッカーと最近のトラッカーをベンチマークし,属性間のトラッキング性能の詳細な分析を行い,パフォーマンス向上の余地を明らかにした。 AVisTは既存のベンチマークを補完し、最先端の境界を推し進めるため、新しいクリエイティブなトラッキングソリューションを開発することで、トラッキングコミュニティに大きな利益をもたらすと考えています。 私たちのデータセットと完全なトラッキングパフォーマンス評価は、https://github.com/visionml/pytrackingで利用可能です。

One of the key factors behind the recent success in visual tracking is the availability of dedicated benchmarks. While being greatly benefiting to the tracking research, existing benchmarks do not pose the same difficulty as before with recent trackers achieving higher performance mainly due to (i) the introduction of more sophisticated transformers-based methods and (ii) the lack of diverse scenarios with adverse visibility such as, severe weather conditions, camouflage and imaging effects. We introduce AVisT, a dedicated benchmark for visual tracking in diverse scenarios with adverse visibility. AVisT comprises 120 challenging sequences with 80k annotated frames, spanning 18 diverse scenarios broadly grouped into five attributes with 42 object categories. The key contribution of AVisT is diverse and challenging scenarios covering severe weather conditions such as, dense fog, heavy rain and sandstorm; obstruction effects including, fire, sun glare and splashing water; adverse imaging effects such as, low-light; target effects including, small targets and distractor objects along with camouflage. We further benchmark 17 popular and recent trackers on AVisT with detailed analysis of their tracking performance across attributes, demonstrating a big room for improvement in performance. We believe that AVisT can greatly benefit the tracking community by complementing the existing benchmarks, in developing new creative tracking solutions in order to continue pushing the boundaries of the state-of-the-art. Our dataset along with the complete tracking performance evaluation is available at: https://github.com/visionml/pytracking
翻訳日:2022-08-16 13:57:29 公開日:2022-08-14
# MTCSNN:糖尿病網膜症重症度予測のためのマルチタスク臨床シームスニューラルネットワーク

MTCSNN: Multi-task Clinical Siamese Neural Network for Diabetic Retinopathy Severity Prediction ( http://arxiv.org/abs/2208.06917v1 )

ライセンス: Link先を確認
Chao Feng, Jui Po Hung, Aishan Li, Jieping Yang, Xinyu Zhang(参考訳) 糖尿病網膜症(DR)は、高齢者の視覚障害の主要な原因の一つとなり、世界中で深刻な問題となっている。 しかし、ほとんどの作品はラベルの順序情報を無視した。 そこで本研究では,糖尿病網膜症重症度予測タスクのための多タスク臨床用シアムニューラルネットmtcsnnを提案する。 本プロジェクトの新規性は,ラベル間の順序情報の活用と新たな回帰タスクの追加であり,より詳細な分類タスクに対する識別的特徴埋め込みの学習を支援する。 MTCSNNをResNet-18, 34, 50などの他のモデルと比較し, RetinaMNISTの包括的な実験を行った。 その結果,MTCSNNはAUCおよびテストデータセットの精度でベンチマークモデルより優れていた。

Diabetic Retinopathy (DR) has become one of the leading causes of vision impairment in working-aged people and is a severe problem worldwide. However, most of the works ignored the ordinal information of labels. In this project, we propose a novel design MTCSNN, a Multi-task Clinical Siamese Neural Network for Diabetic Retinopathy severity prediction task. The novelty of this project is to utilize the ordinal information among labels and add a new regression task, which can help the model learn more discriminative feature embedding for fine-grained classification tasks. We perform comprehensive experiments over the RetinaMNIST, comparing MTCSNN with other models like ResNet-18, 34, 50. Our results indicate that MTCSNN outperforms the benchmark models in terms of AUC and accuracy on the test dataset.
翻訳日:2022-08-16 13:57:05 公開日:2022-08-14
# 勾配マスク: ニューラルネットワークにおける側方抑制機構の性能向上

Gradient Mask: Lateral Inhibition Mechanism Improves Performance in Artificial Neural Networks ( http://arxiv.org/abs/2208.06918v1 )

ライセンス: Link先を確認
Lei Jiang and Yongqing Liu and Shihai Xiao and Yansong Chua(参考訳) 生体脳の皮質では側方抑制結合が観察されており、認知機能におけるその役割について広く研究されている。 しかし、ディープラーニングにおけるバックプロパゲーションのバニラバージョンでは、重み更新中にすべての勾配(信号勾配と雑音勾配の両方からなると理解できる)がネットワークを流れる。 これは過度に適合する可能性がある。 本研究では,生体の側方抑制に触発されて,バックプロパゲーションの過程でノイズ勾配を効果的に除去する勾配マスクを提案する。 これにより、学習した特徴情報は、ノイズや重要でない特徴をフィルタリングしながら、ネットワークにより集中的に格納される。 さらに,ニューラルネットワークの側方抑制が伝搬勾配の質をいかに改善するかを解析的に示す。 様々な畳み込みニューラルネットワーク(CNN)のトレーニングにおいて,尺度として使用できる勾配品質の新たな基準を提案する。 最後に,グラデーションマスクがネットワークの性能を定量的および質的に改善する方法について,いくつかの異なる実験を行った。 定量的には、オリジナルのCNNアーキテクチャの精度、プルーニング後の精度、敵攻撃後の精度が改善されている。 質的に言えば、グラディエントマスクを用いて訓練されたCNNは、主に関心の対象に焦点を当てた、データ拡張とネットワーク解釈性に有用なサリエンシマップを開発した。

Lateral inhibitory connections have been observed in the cortex of the biological brain, and has been extensively studied in terms of its role in cognitive functions. However, in the vanilla version of backpropagation in deep learning, all gradients (which can be understood to comprise of both signal and noise gradients) flow through the network during weight updates. This may lead to overfitting. In this work, inspired by biological lateral inhibition, we propose Gradient Mask, which effectively filters out noise gradients in the process of backpropagation. This allows the learned feature information to be more intensively stored in the network while filtering out noisy or unimportant features. Furthermore, we demonstrate analytically how lateral inhibition in artificial neural networks improves the quality of propagated gradients. A new criterion for gradient quality is proposed which can be used as a measure during training of various convolutional neural networks (CNNs). Finally, we conduct several different experiments to study how Gradient Mask improves the performance of the network both quantitatively and qualitatively. Quantitatively, accuracy in the original CNN architecture, accuracy after pruning, and accuracy after adversarial attacks have shown improvements. Qualitatively, the CNN trained using Gradient Mask has developed saliency maps that focus primarily on the object of interest, which is useful for data augmentation and network interpretability.
翻訳日:2022-08-16 13:56:52 公開日:2022-08-14
# マイトショットシーン領域分類による視覚定位

Visual Localization via Few-Shot Scene Region Classification ( http://arxiv.org/abs/2208.06933v1 )

ライセンス: Link先を確認
Siyan Dong, Shuzhe Wang, Yixin Zhuang, Juho Kannala, Marc Pollefeys, Baoquan Chen(参考訳) 視覚(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoF(Degree of Freedom)カメラのポーズを推定する問題に対処する。 画像画素からシーン座標へのマッピングをニューラルネットワークで記憶し、カメラポーズ最適化のための2d-3d対応を構築することで、構造に基づく局所化の最近の進歩が解決されている。 しかし、このような暗記には各シーンで大量のポーズ画像による訓練が必要であり、それは重く非効率である。 逆に、少数ショット画像は通常、人間の操作者が視覚的ローカライゼーションを行うためにシーンのメイン領域をカバーするのに十分である。 本稿では,シーン領域の分類手法を提案する。 私たちの洞察は a)事前学習された特徴抽出装置 b)シーン領域分類器,及び c)オーバーフィッティングを緩和しながらトレーニングを加速するメタラーニング戦略。 本手法は室内および屋外のベンチマークで評価する。 実験では, 数発設定で本手法の有効性を検証し, トレーニング時間を数分に短縮した。 コード: \url{https://github.com/siyandong/SRC}

Visual (re)localization addresses the problem of estimating the 6-DoF (Degree of Freedom) camera pose of a query image captured in a known scene, which is a key building block of many computer vision and robotics applications. Recent advances in structure-based localization solve this problem by memorizing the mapping from image pixels to scene coordinates with neural networks to build 2D-3D correspondences for camera pose optimization. However, such memorization requires training by amounts of posed images in each scene, which is heavy and inefficient. On the contrary, few-shot images are usually sufficient to cover the main regions of a scene for a human operator to perform visual localization. In this paper, we propose a scene region classification approach to achieve fast and effective scene memorization with few-shot images. Our insight is leveraging a) pre-learned feature extractor, b) scene region classifier, and c) meta-learning strategy to accelerate training while mitigating overfitting. We evaluate our method on both indoor and outdoor benchmarks. The experiments validate the effectiveness of our method in the few-shot setting, and the training time is significantly reduced to only a few minutes. Code available at: \url{https://github.com/siyandong/SRC}
翻訳日:2022-08-16 13:56:28 公開日:2022-08-14
# MAFNet: RGB-T クラウドカウントのためのマルチアテンションフュージョンネットワーク

MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting ( http://arxiv.org/abs/2208.06761v1 )

ライセンス: Link先を確認
Pengyu Chen, Junyu Gao, Yuan Yuan, Qi Wang(参考訳) RGB-Thermal (RGB-T) の群集カウントは,RGB画像と相補的な情報として熱画像を用いて,低照度又は類似の背景を持つシーンにおける単調RGB法の性能低下に対処する難題である。 既存の手法ではrgb-t群数におけるクロスモーダル融合のためのよく設計された構造を提案する。 しかし,これらの手法は,RGB-T画像の相互意味情報を符号化することが困難である。 上記の問題を考慮し,RGBの長期的コンテキスト情報と熱的モータリティを注意機構に基づいて収集することを目的とした,マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群集カウントネットワークを提案する。 具体的には、エンコーダ部において、グローバルレベルでのクロスモーダル融合のための2つのモード特異的分岐の異なるステージにマルチアテンション融合(MAF)モジュールを埋め込む。 さらに,マルチモーダル・マルチスケール・アグリゲーション(MMA)回帰ヘッドを導入し,モダリティ間のマルチスケールおよびコンテキスト情報をフル活用して,高品質な群衆密度マップを生成する。 2つの一般的なデータセットに対する大規模な実験により、提案したMAFNetはRGB-Tのクラウドカウントに有効であり、最先端のパフォーマンスを実現する。

RGB-Thermal (RGB-T) crowd counting is a challenging task, which uses thermal images as complementary information to RGB images to deal with the decreased performance of unimodal RGB-based methods in scenes with low-illumination or similar backgrounds. Most existing methods propose well-designed structures for cross-modal fusion in RGB-T crowd counting. However, these methods have difficulty in encoding cross-modal contextual semantic information in RGB-T image pairs. Considering the aforementioned problem, we propose a two-stream RGB-T crowd counting network called Multi-Attention Fusion Network (MAFNet), which aims to fully capture long-range contextual information from the RGB and thermal modalities based on the attention mechanism. Specifically, in the encoder part, a Multi-Attention Fusion (MAF) module is embedded into different stages of the two modality-specific branches for cross-modal fusion at the global level. In addition, a Multi-modal Multi-scale Aggregation (MMA) regression head is introduced to make full use of the multi-scale and contextual information across modalities to generate high-quality crowd density maps. Extensive experiments on two popular datasets show that the proposed MAFNet is effective for RGB-T crowd counting and achieves the state-of-the-art performance.
翻訳日:2022-08-16 13:51:57 公開日:2022-08-14
# ビデオ塗装用フローガイドトランス

Flow-Guided Transformer for Video Inpainting ( http://arxiv.org/abs/2208.06768v1 )

ライセンス: Link先を確認
Kaidong Zhang, Jingjing Fu, Dong Liu(参考訳) 本稿では,光フローが露出する動きのずれを革新的に活用し,高忠実度ビデオインペイントのためのトランスにおける注意検索を指導するフロー誘導型トランスフォーマーを提案する。 より具体的には、局所的な時間窓における流れの特徴を利用して、破損した流れを補完する新しいフロー補完ネットワークを設計する。 完成したフローでは、ビデオフレーム間でコンテンツを伝播し、残りの領域を合成するためにフロー誘導変換器を採用する。 変圧器を時空間的次元と空間的次元に分離することにより,局所的関連のある完結した流れを容易に統合し,空間的注意のみを指示できる。 さらに,各空間変圧器に対する完成した流れの影響を正確に制御するフローリウェイトモジュールを設計した。 効率のために,空間的および時間的トランスフォーマーの両方にウィンドウ分割戦略を導入する。 特に空間トランスフォーマでは,ウィンドウベースの注意にグローバルトークンを統合するデュアルパースペクティブ空間mhsaを設計した。 実験により,提案手法の有効性を質的,定量的に検証した。 コードはhttps://github.com/hitachinsk/fgtで入手できる。

We propose a flow-guided transformer, which innovatively leverage the motion discrepancy exposed by optical flows to instruct the attention retrieval in transformer for high fidelity video inpainting. More specially, we design a novel flow completion network to complete the corrupted flows by exploiting the relevant flow features in a local temporal window. With the completed flows, we propagate the content across video frames, and adopt the flow-guided transformer to synthesize the rest corrupted regions. We decouple transformers along temporal and spatial dimension, so that we can easily integrate the locally relevant completed flows to instruct spatial attention only. Furthermore, we design a flow-reweight module to precisely control the impact of completed flows on each spatial transformer. For the sake of efficiency, we introduce window partition strategy to both spatial and temporal transformers. Especially in spatial transformer, we design a dual perspective spatial MHSA, which integrates the global tokens to the window-based attention. Extensive experiments demonstrate the effectiveness of the proposed method qualitatively and quantitatively. Codes are available at https://github.com/hitachinsk/FGT.
翻訳日:2022-08-16 13:51:32 公開日:2022-08-14
# 自律ドローンの軽量特性と形状認識

Light Weight Character and Shape Recognition for Autonomous Drones ( http://arxiv.org/abs/2208.06804v1 )

ライセンス: Link先を確認
Neetigya Poddar, Shruti Jain(参考訳) 無人航空機は、ファーストエイズキットとフードパケットを配布するための捜索救助任務に広く利用されている。 これらのuavが効果的な分布のためにマーカーを識別し識別できることは重要である。 位置を示す一般的な方法の1つは、様々な色の形状に重畳された文字を使用することで、異なる形状、文字、およびそれぞれの色の組み合わせに基づいて様々なマーカーが生じる。 本稿では,誤検出を防止し,航空画像中の数字と形状の誤分類を最小化する物体検出・分類パイプラインを提案する。 本手法は,従来のコンピュータビジョン手法と教師なし機械学習手法を用いて地域提案を識別し,画像ターゲットを分割し,偽陽性を除去した。 分類には計算量的に軽量なモデルを用いることで,任意の航空機に容易に展開できる。

There has been an extensive use of Unmanned Aerial Vehicles in search and rescue missions to distribute first aid kits and food packets. It is important that these UAVs are able to identify and distinguish the markers from one another for effective distribution. One of the common ways to mark the locations is via the use of characters superimposed on shapes of various colors which gives rise to wide variety of markers based on combination of different shapes, characters, and their respective colors. In this paper, we propose an object detection and classification pipeline which prevents false positives and minimizes misclassification of alphanumeric characters and shapes in aerial images. Our method makes use of traditional computer vision techniques and unsupervised machine learning methods for identifying region proposals, segmenting the image targets and removing false positives. We make use of a computationally light model for classification, making it easy to be deployed on any aerial vehicle.
翻訳日:2022-08-16 13:51:13 公開日:2022-08-14
# サイクル整合性制約による半監督映像の塗装

Semi-Supervised Video Inpainting with Cycle Consistency Constraints ( http://arxiv.org/abs/2208.06807v1 )

ライセンス: Link先を確認
Zhiliang Wu, Hanyu Xuan, Changchang Sun, Kang Zhang, Yan Yan(参考訳) 深層学習に基づくビデオの塗装は有望な結果をもたらし、研究者から注目を集めている。 これらの手法は通常、各フレームの破損した領域マスクが知られ、容易に取得できると仮定する。 しかし、これらのマスクの注釈は労働集約的で高価であり、現行の手法の実践的適用を制限している。 そこで我々は,この仮定を緩和するために,新たな半教師付きインペインティング設定を定義し,ネットワークに1フレームのみの注釈付きマスクを用いて,ビデオ全体の破損領域を完遂する能力を持たせることを期待する。 具体的には、既知マスクを用いて現在のフレームの劣化コンテンツを生成し、次のフレームで満たすべき領域を決定するために設計された、完了ネットワークとマスク予測ネットワークからなるエンドツーエンドのトレーニング可能なフレームワークを提案する。 さらに,これら2つのネットワークのトレーニングパラメータを規則化するサイクル一貫性損失を導入する。 このようにして、完了ネットワークとマスク予測ネットワークは互いに拘束でき、訓練されたモデルの全体的な性能を最大化することができる。 さらに、事前知識(例えば、腐敗した内容や明確な境界)が自然に存在するため、現在のビデオ塗装データセットは、半教師付きビデオ塗装の文脈では適切ではない。 そこで、実世界のシナリオの破損したビデオをシミュレートして、新しいデータセットを作成する。 ビデオインペインティングタスクにおけるモデルの優越性を示すために,広範な実験結果が報告された。 興味深いことに、我々のモデルは半教師付き方式で訓練されているが、完全な教師付き手法と同等のパフォーマンスを達成できる。

Deep learning-based video inpainting has yielded promising results and gained increasing attention from researchers. Generally, these methods usually assume that the corrupted region masks of each frame are known and easily obtained. However, the annotation of these masks are labor-intensive and expensive, which limits the practical application of current methods. Therefore, we expect to relax this assumption by defining a new semi-supervised inpainting setting, making the networks have the ability of completing the corrupted regions of the whole video using the annotated mask of only one frame. Specifically, in this work, we propose an end-to-end trainable framework consisting of completion network and mask prediction network, which are designed to generate corrupted contents of the current frame using the known mask and decide the regions to be filled of the next frame, respectively. Besides, we introduce a cycle consistency loss to regularize the training parameters of these two networks. In this way, the completion network and the mask prediction network can constrain each other, and hence the overall performance of the trained model can be maximized. Furthermore, due to the natural existence of prior knowledge (e.g., corrupted contents and clear borders), current video inpainting datasets are not suitable in the context of semi-supervised video inpainting. Thus, we create a new dataset by simulating the corrupted video of real-world scenarios. Extensive experimental results are reported to demonstrate the superiority of our model in the video inpainting task. Remarkably, although our model is trained in a semi-supervised manner, it can achieve comparable performance as fully-supervised methods.
翻訳日:2022-08-16 13:51:01 公開日:2022-08-14
# マルチ属性オープンセット認識

Multi-Attribute Open Set Recognition ( http://arxiv.org/abs/2208.06809v1 )

ライセンス: Link先を確認
Piyapat Saranrittichai, Chaithanya Kumar Mummadi, Claudia Blaiotta, Mauricio Munoz and Volker Fischer(参考訳) Open Set Recognition (OSR)は、既知のクラスを同時に分類し、未知のクラスを識別することで、画像分類をオープンワールド設定に拡張する。 従来のOSRアプローチでは、Out-of-Distribution (OOD) サンプルを検出できるが、基礎となる視覚属性(例えば、形状、色、背景)が特定のサンプルを未知にすることを示す説明はできない。 本稿では,従来のOSRを複数の視覚属性を同時に認識するマルチ属性設定に一般化する新しい問題設定を提案する。 ここでは、OODサンプルを識別できるだけでなく、未知の属性によって分類することもできる。 我々は,この新たなシナリオに対応するために,OSRベースラインのシンプルな拡張を提案する。 これらのベースラインは、トレーニングデータセットに散発的な相関がある場合、ショートカットに対して脆弱であることを示す。 これによりood性能が低下し、実験によれば、主に予測された信頼度スコアの意図しないクロス属性相関が原因である。 我々は、この挙動が、合成データセットと実世界のデータセットの両方で異なるベースラインで一致していることを示す実証的な証拠を提供する。

Open Set Recognition (OSR) extends image classification to an open-world setting, by simultaneously classifying known classes and identifying unknown ones. While conventional OSR approaches can detect Out-of-Distribution (OOD) samples, they cannot provide explanations indicating which underlying visual attribute(s) (e.g., shape, color or background) cause a specific sample to be unknown. In this work, we introduce a novel problem setup that generalizes conventional OSR to a multi-attribute setting, where multiple visual attributes are simultaneously recognized. Here, OOD samples can be not only identified but also categorized by their unknown attribute(s). We propose simple extensions of common OSR baselines to handle this novel scenario. We show that these baselines are vulnerable to shortcuts when spurious correlations exist in the training dataset. This leads to poor OOD performance which, according to our experiments, is mainly due to unintended cross-attribute correlations of the predicted confidence scores. We provide an empirical evidence showing that this behavior is consistent across different baselines on both synthetic and real world datasets.
翻訳日:2022-08-16 13:50:37 公開日:2022-08-14
# 協調正規推定と点クラウドフィルタリングのためのコントラスト学習

Contrastive Learning for Joint Normal Estimation and Point Cloud Filtering ( http://arxiv.org/abs/2208.06811v1 )

ライセンス: Link先を確認
Dasith de Silva Edirimuni, Xuequan Lu, Gang Li, and Antonio Robles-Kelly(参考訳) 点雲フィルタリングと正規推定は3次元領域における2つの基本的な研究課題である。 既存の手法は通常、通常の推定とフィルタリングを別々に行い、しばしばノイズに対する感度を示し、角や縁などの鋭い幾何学的特徴を保存できない。 本稿では,正規分布とフィルタ点群を共同で推定する新しい深層学習法を提案する。 まず,ノイズに頑健なままポイントクラウドパッチの忠実な表現を生成可能な特徴エンコーダを訓練するために,ノイズ崩壊を補足として,3次元パッチベースのコントラスト学習フレームワークを導入する。 これらの表現は単純な回帰ネットワークによって消費され、新しいジョイントロスによって監督され、パッチセンターのフィルタに使われる点正規値と変位を同時に推定する。 実験の結果,本手法は2つのタスクを同時にサポートでき,鋭い特徴と細部を保存できることがわかった。 一般に、両方のタスクで最先端の技術よりも優れています。

Point cloud filtering and normal estimation are two fundamental research problems in the 3D field. Existing methods usually perform normal estimation and filtering separately and often show sensitivity to noise and/or inability to preserve sharp geometric features such as corners and edges. In this paper, we propose a novel deep learning method to jointly estimate normals and filter point clouds. We first introduce a 3D patch based contrastive learning framework, with noise corruption as an augmentation, to train a feature encoder capable of generating faithful representations of point cloud patches while remaining robust to noise. These representations are consumed by a simple regression network and supervised by a novel joint loss, simultaneously estimating point normals and displacements that are used to filter the patch centers. Experimental results show that our method well supports the two tasks simultaneously and preserves sharp features and fine details. It generally outperforms state-of-the-art techniques on both tasks.
翻訳日:2022-08-16 13:50:20 公開日:2022-08-14
# ヒューマン・ヒューマン・カスタマー支援音声対話におけるリアルタイム通話インテント検出

Real-time Caller Intent Detection In Human-Human Customer Support Spoken Conversations ( http://arxiv.org/abs/2208.06802v1 )

ライセンス: Link先を確認
Mrinal Rawat, Victor Barres(参考訳) ヒューマン・ヒューマン・カスタマーサポートにおけるエージェント・アシスタントは、通話者の意図に基づいてワークフローをトリガーする必要がある(呼び出しの理由)。 優れたユーザエクスペリエンスには予測のタイムラインが不可欠です。 目標は、エージェントがそれ(意図的な境界)を検出できた時点で、システムが呼び出し者の意図を検出することである。 いくつかのアプローチは、asrシステムによって完全な音声入力(例えば、会話のターン全体)が処理されたときに、オフラインで出力を予測することに焦点を当てている。 これにより、インテントがターンの早い段階で検出されるたびに、予測に望ましくない遅延が発生する。 音声アシスタントの最近の研究は、単語単位の段階的なリアルタイム予測を使用して、コマンドの終了前に意図を検出する。 しかし、人間指向音声と機械指向音声は、非常に異なる特徴を持つ。 本研究では,音声アシスタントの文脈で開発された手法を,人間と人間の対話におけるオンラインリアルタイム発信者の意図検出問題に適用する。 我々は2つのLSTMを共同で訓練するデュアルアーキテクチャを用いており、1つはIntent Boundary(IB)を予測し、もう1つはIBの意図クラスを予測する。 テレコム顧客サポートドメインからの人間と人間の会話の書き起こしを含むプライベートデータセットで実験を行った。 システムの精度とアーキテクチャの違いが全体的な精度と予測遅延のトレードオフに与える影響を解析した結果を報告する。

Agent assistance during human-human customer support spoken interactions requires triggering workflows based on the caller's intent (reason for call). Timeliness of prediction is essential for a good user experience. The goal is for a system to detect the caller's intent at the time the agent would have been able to detect it (Intent Boundary). Some approaches focus on predicting the output offline, i.e. once the full spoken input (e.g. the whole conversational turn) has been processed by the ASR system. This introduces an undesirable latency in the prediction each time the intent could have been detected earlier in the turn. Recent work on voice assistants has used incremental real-time predictions at a word-by-word level to detect intent before the end of a command. Human-directed and machine-directed speech however have very different characteristics. In this work, we propose to apply a method developed in the context of voice-assistant to the problem of online real time caller's intent detection in human-human spoken interactions. We use a dual architecture in which two LSTMs are jointly trained: one predicting the Intent Boundary (IB) and then other predicting the intent class at the IB. We conduct our experiments on our private dataset comprising transcripts of human-human telephone conversations from the telecom customer support domain. We report results analyzing both the accuracy of our system as well as the impact of different architectures on the trade off between overall accuracy and prediction latency.
翻訳日:2022-08-16 13:40:54 公開日:2022-08-14
# 大学数学の問題解決のためのAIプログラムの限界

Limits of an AI program for solving college math problems ( http://arxiv.org/abs/2208.06906v1 )

ライセンス: Link先を確認
Ernest Davis(参考訳) drori et al. (2022) は「ニューラルネットワークは、プログラム合成と人間のレベルでの数少ない学習によって、大学の数学問題を解き、説明し、生成する... [it]大学レベルの数学問題の81\%に自動的に答える。 「それらが記述するシステムは実に印象的であるが、上記の記述は非常に過大評価されている。この問題を解決する作業はニューラルネットワークではなく、記号代数学のパッケージSympyによって行われる。様々な形式の問題は考慮外である。いわゆる「説明」は単なるコード行の言い換えである。 答えは問題で特定されていない形で正しいとマークされる。 真面目な話として、多くの場合、システムはテストコーパスで与えられた正しい答えを使用して、問題解決への道筋を導いているようだ。

Drori et al. (2022) report that "A neural network solves, explains, and generates university math problems by program synthesis and few-shot learning at human level ... [It] automatically answers 81\% of university-level mathematics problems." The system they describe is indeed impressive; however, the above description is very much overstated. The work of solving the problems is done, not by a neural network, but by the symbolic algebra package Sympy. Problems of various formats are excluded from consideration. The so-called "explanations" are just rewordings of lines of code. Answers are marked as correct that are not in the form specified in the problem. Most seriously, it seems that in many cases the system uses the correct answer given in the test corpus to guide its path to solving the problem.
翻訳日:2022-08-16 13:40:34 公開日:2022-08-14
# TL;DW? タスクの関連性とクロスモーダル・サリエンシーを用いた授業ビデオ要約

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency ( http://arxiv.org/abs/2208.06773v1 )

ライセンス: Link先を確認
Medhini Narasimhan, Arsha Nagrani, Chen Sun, Michael Rubinstein, Trevor Darrell, Anna Rohrbach, Cordelia Schmid(参考訳) 特定のタスクの指示を探しているYouTubeユーザーは、自分のニーズに合った適切なビデオを見つけるために長い時間を費やしているかもしれない。 視覚的な要約(ビデオの短縮版)を作成することで、視聴者は簡単に概観でき、検索時間が大幅に短縮される。 本研究では,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。 ジェネリックビデオと比較して、指示ビデオは、示されるタスクの重要なステップに対応する意味的に意味のあるセグメントに解析することができる。 既存のビデオ要約データセットは手動のフレームレベルのアノテーションに依存しており、主観的でサイズに制限がある。 これを克服するために,まず2つの前提を生かして,授業ビデオコーパスの擬似要約を自動的に生成する。 (i)同一タスクの複数のビデオ(タスク関連)に関連のあるステップが現れる可能性があり、 (二)デモ参加者によって口頭で説明される可能性が高い(クロス・モーダル・サリエンシ)。 本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。 疑似要約を弱い監督力として用い,映像と書き起こされた音声のみの指導ビデオの視覚的要約を構築した。 本モデルを評価するために,ビデオデモやステップの視覚的描写を含むウィキハウの記事をスクラップして,質の高いテストセットであるWikiHow Summariesを収集した。 この新しいベンチマークでは,いくつかのベースラインと最先端のビデオ要約モデルに勝っています。

YouTube users looking for instructions for a specific task may spend a long time browsing content trying to find the right video that matches their needs. Creating a visual summary (abridged version of a video) provides viewers with a quick overview and massively reduces search time. In this work, we focus on summarizing instructional videos, an under-explored area of video summarization. In comparison to generic videos, instructional videos can be parsed into semantically meaningful segments that correspond to important steps of the demonstrated task. Existing video summarization datasets rely on manual frame-level annotations, making them subjective and limited in size. To overcome this, we first automatically generate pseudo summaries for a corpus of instructional videos by exploiting two key assumptions: (i) relevant steps are likely to appear in multiple videos of the same task (Task Relevance), and (ii) they are more likely to be described by the demonstrator verbally (Cross-Modal Saliency). We propose an instructional video summarization network that combines a context-aware temporal video encoder and a segment scoring transformer. Using pseudo summaries as weak supervision, our network constructs a visual summary for an instructional video given only video and transcribed speech. To evaluate our model, we collect a high-quality test set, WikiHow Summaries, by scraping WikiHow articles that contain video demonstrations and visual depictions of steps allowing us to obtain the ground-truth summaries. We outperform several baselines and a state-of-the-art video summarization model on this new benchmark.
翻訳日:2022-08-16 13:34:03 公開日:2022-08-14
# ニューロシンボリック学習における含意バイアス論理損失の低減

Reduced Implication-bias Logic Loss for Neuro-Symbolic Learning ( http://arxiv.org/abs/2208.06838v1 )

ライセンス: Link先を確認
Haoyuan He, Wangzhou Dai, Ming Li, Yu Liu, Yongchang Ma(参考訳) 論理推論を微分演算子に近似することで論理推論と機械学習を統合することは、ニューロシンボリックシステムにおいて広く使われているテクニックである。 しかし、いくつかの微分演算子は、バックプロパゲーション中に大きなバイアスをもたらし、神経シンボリック学習の性能を低下させる可能性がある。 本稿では、ファジィ論理演算子から導かれる損失関数において、textit{Implication Bias} と呼ばれるこのバイアスが一般的であることを明らかにする。 さらに,上記の問題に対処するために,バイアス付き損失関数を \textit{reduced impliation-bias logic loss (rill) に変換する簡易かつ効果的な手法を提案する。 経験的研究によれば、rillは偏りのある論理損失関数と比較して、特に知識ベースが不完全である場合には大幅に改善でき、ラベル付きデータが不十分である場合には比較方法よりも頑健である。

Integrating logical reasoning and machine learning by approximating logical inference with differentiable operators is a widely used technique in Neuro-Symbolic systems. However, some differentiable operators could bring a significant bias during backpropagation and degrade the performance of Neuro-Symbolic learning. In this paper, we reveal that this bias, named \textit{Implication Bias} is common in loss functions derived from fuzzy logic operators. Furthermore, we propose a simple yet effective method to transform the biased loss functions into \textit{Reduced Implication-bias Logic Loss (RILL)} to address the above problem. Empirical study shows that RILL can achieve significant improvements compared with the biased logic loss functions, especially when the knowledge base is incomplete, and keeps more robust than the compared methods when labelled data is insufficient.
翻訳日:2022-08-16 13:29:06 公開日:2022-08-14
# HDR-プレノキセル:自己校正高ダイナミックレンジ放射場

HDR-Plenoxels: Self-Calibrating High Dynamic Range Radiance Fields ( http://arxiv.org/abs/2208.06787v1 )

ライセンス: Link先を確認
Kim Jun-Seong, Kim Yu-Ji, Moon Ye-Bin, Tae-Hyun Oh(参考訳) 本研究では,2次元低ダイナミックレンジ(ldr)画像に固有の3次元hdr輝度場,形状情報,各種カメラ設定のプレンオプティクス関数を学習する高ダイナミックレンジ放射(hdr)フィールド,hdrプレノッセルを提案する。 我々のボクセルベースのボリュームレンダリングパイプラインは、様々なカメラ設定から撮影した多視点LDR画像のみをエンドツーエンドに再構成し、高速収束速度を有する。 実世界のシナリオにおいて,様々なカメラを扱うために,デジタルカメラ内イメージングパイプライン(isp)をモデル化し,放射計の設定を異方化するトーンマッピングモジュールを導入する。 トーンマッピングモジュールは、各新規ビューの放射設定を制御してレンダリングを可能にします。 最後に、さまざまなカメラ条件を備えたマルチビューデータセットを構築し、問題設定に適合させます。 実験の結果,HDR-Plenoxelsは様々なカメラを用いたLDR画像のみから,詳細かつ高品質なHDRノベルビューを表現できることがわかった。

We propose high dynamic range radiance (HDR) fields, HDR-Plenoxels, that learn a plenoptic function of 3D HDR radiance fields, geometry information, and varying camera settings inherent in 2D low dynamic range (LDR) images. Our voxel-based volume rendering pipeline reconstructs HDR radiance fields with only multi-view LDR images taken from varying camera settings in an end-to-end manner and has a fast convergence speed. To deal with various cameras in real-world scenarios, we introduce a tone mapping module that models the digital in-camera imaging pipeline (ISP) and disentangles radiometric settings. Our tone mapping module allows us to render by controlling the radiometric settings of each novel view. Finally, we build a multi-view dataset with varying camera conditions, which fits our problem setting. Our experiments show that HDR-Plenoxels can express detail and high-quality HDR novel views from only LDR images with various cameras.
翻訳日:2022-08-16 13:20:16 公開日:2022-08-14
# 脳波を用いた脳電位予測のための畳み込みスパイクニューラルネットワーク

Convolutional Spiking Neural Networks for Detecting Anticipatory Brain Potentials Using Electroencephalogram ( http://arxiv.org/abs/2208.06900v1 )

ライセンス: Link先を確認
Nathan Lutes, Venkata Sriram Siddhardh Nadendla and K. Krishnamurthy(参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的に妥当な機械学習モデルを開発する手段として注目を集めている。 これらのネットワークは人間の脳のシナプス接続を模倣し、二進数で近似できるスパイクトレインを生成し、浮動小数点演算回路による高い計算コストを予測している。 近年,畳み込みネットワークの特徴抽出能力とSNNの計算効率を組み合わせた畳み込み層が導入された。 本研究では,畳み込みスパイキングニューラルネットワーク(csnn)を分類器として使用することで,脳波(eeg)を用いた被験者の制動意図に関連する予測的緩い皮質電位を検出できる可能性について検討した。 脳波データは、被験者が都市環境をシミュレートしたテストベッド上で遠隔操作車を操作する実験中に収集された。 参加者は、音声カウントダウンを通じて入ってくるブレーキイベントに警告され、脳波を用いて測定された予測電位を導き出す。 CSNNのパフォーマンスは、10倍のクロスバリデーションによる標準畳み込みニューラルネットワーク(CNN)と3つのグラフニューラルネットワーク(GNN)と比較された。 その結果、CSNNは他のニューラルネットワークよりも優れていた。

Spiking neural networks (SNNs) are receiving increased attention as a means to develop "biologically plausible" machine learning models. These networks mimic synaptic connections in the human brain and produce spike trains, which can be approximated by binary values, precluding high computational cost with floating-point arithmetic circuits. Recently, the addition of convolutional layers to combine the feature extraction power of convolutional networks with the computational efficiency of SNNs has been introduced. In this paper, the feasibility of using a convolutional spiking neural network (CSNN) as a classifier to detect anticipatory slow cortical potentials related to braking intention in human participants using an electroencephalogram (EEG) was studied. The EEG data was collected during an experiment wherein participants operated a remote controlled vehicle on a testbed designed to simulate an urban environment. Participants were alerted to an incoming braking event via an audio countdown to elicit anticipatory potentials that were then measured using an EEG. The CSNN's performance was compared to a standard convolutional neural network (CNN) and three graph neural networks (GNNs) via 10-fold cross-validation. The results showed that the CSNN outperformed the other neural networks.
翻訳日:2022-08-16 13:19:22 公開日:2022-08-14
# 分類アルゴリズムを用いたCNNによる頭蓋骨骨折の予測

Predicting skull fractures via CNN with classification algorithms ( http://arxiv.org/abs/2208.06756v1 )

ライセンス: Link先を確認
Md Moniruzzaman Emon, Tareque Rahman Ornob, Moqsadur Rahman(参考訳) コンピュータ断層撮影(CT)画像は疾患の診断に極めて重要である。 CTスキャンスライスには、通常の視覚検査を用いて必要な精度と速度で適切に検査されない大量のデータが含まれている。 コンピュータ支援型頭蓋骨骨折分類エキスパートシステムが必要である。 畳み込みニューラルネットワーク(CNN)は、画像分類において最も広く使われているディープラーニングモデルである。 その後、CNNモデルを開発、テストし、いくつかの畳み込みニューラルネットワーク(CNN)アーキテクチャを比較した。 resnet50は、勾配強調決定木アルゴリズムと組み合わせて、脳ctスキャンから3つの骨折カテゴリへの頭蓋骨骨折の分類を行うための特徴抽出に用いられ、f1-scoreの最高値が96%、ハミングスコア95%、バランスのとれた精度スコア94%、roc auc曲線が96%であった。

Computer Tomography (CT) images have become quite important to diagnose diseases. CT scan slice contains a vast amount of data that may not be properly examined with the requisite precision and speed using normal visual inspection. A computer-assisted skull fracture classification expert system is needed to assist physicians. Convolutional Neural Networks (CNNs) are the most extensively used deep learning models for image categorization since most often time they outperform other models in terms of accuracy and results. The CNN models were then developed and tested, and several convolutional neural network (CNN) architectures were compared. ResNet50, which was used for feature extraction combined with a gradient boosted decision tree machine learning algorithm to act as a classifier for the categorization of skull fractures from brain CT scans into three fracture categories, had the best overall F1-score of 96%, Hamming Score of 95%, Balanced accuracy Score of 94% & ROC AUC curve of 96% for the classification of skull fractures.
翻訳日:2022-08-16 13:13:40 公開日:2022-08-14
# HyP$^2$ Loss: Multi-label Image RetrievalのためのHypersphere Metric Spaceを超えて

HyP$^2$ Loss: Beyond Hypersphere Metric Space for Multi-label Image Retrieval ( http://arxiv.org/abs/2208.06866v1 )

ライセンス: Link先を確認
Chengyin Xu, Zenghao Chai, Zhengzhuo Xu, Chun Yuan, Yanbo Fan, Jue Wang(参考訳) 画像検索は,低ストレージ化と効率的な検索に向けて,深層ハッシュが主流となる,幅広いマルチメディアアプリケーション分野において,ますます魅力的な技術になりつつある。 本稿では,多ラベルのシナリオにおいて,ペア損失が高い計算オーバーヘッドと収束困難に悩まされるような強力な計量空間を確立するための,深層ハッシュにおける計量学習に関する詳細な調査を行うとともに,プロキシ損失は深いラベル依存性を表現でき,構築されたハイパースフィア空間における矛盾を示すことができる。 この問題に対処するために,データセット全体の効率的なトレーニング複雑性を持つ表現力のあるメトリック空間を構築する,ハイブリッドなプロキシペア損失(hyp$^2$損失)を備えた新しいメトリック学習フレームワークを提案する。 提案されたhyp$^2$の損失は、学習可能なプロキシによる超球空間の最適化と、ペアベースメソッドの十分なデータ対応とプロキシベースメソッドの高効率を統合する無関係ペアのデータ対データ相関の抽出に焦点を当てている。 4つの標準マルチラベルベンチマークによる実験により、提案手法は最先端の手法よりも優れ、ハッシュビット間で堅牢であり、より高速で安定した収束速度で大幅な性能向上を実現している。 私たちのコードはhttps://github.com/JerryXu0129/HyP2-Lossで利用可能です。

Image retrieval has become an increasingly appealing technique with broad multimedia application prospects, where deep hashing serves as the dominant branch towards low storage and efficient retrieval. In this paper, we carried out in-depth investigations on metric learning in deep hashing for establishing a powerful metric space in multi-label scenarios, where the pair loss suffers high computational overhead and converge difficulty, while the proxy loss is theoretically incapable of expressing the profound label dependencies and exhibits conflicts in the constructed hypersphere space. To address the problems, we propose a novel metric learning framework with Hybrid Proxy-Pair Loss (HyP$^2$ Loss) that constructs an expressive metric space with efficient training complexity w.r.t. the whole dataset. The proposed HyP$^2$ Loss focuses on optimizing the hypersphere space by learnable proxies and excavating data-to-data correlations of irrelevant pairs, which integrates sufficient data correspondence of pair-based methods and high-efficiency of proxy-based methods. Extensive experiments on four standard multi-label benchmarks justify the proposed method outperforms the state-of-the-art, is robust among different hash bits and achieves significant performance gains with a faster, more stable convergence speed. Our code is available at https://github.com/JerryXu0129/HyP2-Loss.
翻訳日:2022-08-16 13:13:21 公開日:2022-08-14
# gpuによる多言語機械翻訳のためのクラスタリングによる高速語彙投影法

Fast Vocabulary Projection Method via Clustering for Multilingual Machine Translation on GPU ( http://arxiv.org/abs/2208.06874v1 )

ライセンス: Link先を確認
Hossam Amer, Young Jin Kim, Mohamed Afify, Hitokazu Matsushita, Hany Hassan Awadallah(参考訳) 多言語ニューラルマシン翻訳はトランスフォーマーモデルで大きな成功を収めている。 これらのモデルの展開は、通常、様々な言語に対して大きな語彙(vocab)サイズを必要とするため、難しい。 これにより、最後のvocabプロジェクション層における出力トークンの予測速度が制限される。 これらの課題を緩和するために,gpu上の多言語トランスフォーマーに使用可能なクラスタリングによる高速語彙投影法を提案する。 まず、デコーダ出力の隠れたコンテキストベクトルを考慮し、vocab検索空間を非結合クラスタにオフラインで分割し、vocabプロジェクションのためのvocabカラムをはるかに小さくする。 第2に, 提案手法は, vocab射影における隠れコンテキストベクトルのクラスタと候補アクティブトークンを予測する。 本稿では,多言語環境でのクラスタ構築方法についても分析する。 以上の結果から,float16 GPU推論では,BLEUスコアを維持しながら最大25%の高速化を実現し,メモリコストをわずかに向上させた。 提案手法はボクサブ射出工程を最大2.6倍高速化する。 また,提案手法が元のモデルからの翻訳の質を保っていることを検証するために,広範囲な人的評価を行う。

Multilingual Neural Machine Translation has been showing great success using transformer models. Deploying these models is challenging because they usually require large vocabulary (vocab) sizes for various languages. This limits the speed of predicting the output tokens in the last vocab projection layer. To alleviate these challenges, this paper proposes a fast vocabulary projection method via clustering which can be used for multilingual transformers on GPUs. First, we offline split the vocab search space into disjoint clusters given the hidden context vector of the decoder output, which results in much smaller vocab columns for vocab projection. Second, at inference time, the proposed method predicts the clusters and candidate active tokens for hidden context vectors at the vocab projection. This paper also includes analysis of different ways of building these clusters in multilingual settings. Our results show end-to-end speed gains in float16 GPU inference up to 25% while maintaining the BLEU score and slightly increasing memory cost. The proposed method speeds up the vocab projection step itself by up to 2.6x. We also conduct an extensive human evaluation to verify the proposed method preserves the quality of the translations from the original model.
翻訳日:2022-08-16 13:10:18 公開日:2022-08-14
# disenhcn:時空間活動予測のためのハイパーグラフ畳み込みネットワーク

DisenHCN: Disentangled Hypergraph Convolutional Networks for Spatiotemporal Activity Prediction ( http://arxiv.org/abs/2208.06794v1 )

ライセンス: Link先を確認
Yinfeng Li, Chen Gao, Quanming Yao, Tong Li, Depeng Jin, Yong Li(参考訳) 特定の場所と時間におけるユーザアクティビティの予測を目的とした時空間活動予測は,都市計画やモバイル広告といったアプリケーションに不可欠である。 テンソル分解やグラフ埋め込みに基づく既存の解は、以下の2つの大きな制限に悩まされる。 1) ユーザの嗜好のきめ細かい類似性を無視すること 2) ユーザのモデリングは絡み合っている。 本研究では,上記のギャップを埋めるために,disenhcnと呼ばれるハイパーグラフニューラルネットワークモデルを提案する。 特に,まず,細粒度のユーザ類似性と,ユーザ嗜好と時空間活動の複雑なマッチングを,不均一なハイパーグラフにまとめる。 次に、ユーザ表現を異なる側面(位置認識、時間認識、活動認識)に切り離し、構築したハイパーグラフ上に対応するアスペクトの特徴を集約し、異なるアスペクトから高次関係をキャプチャし、各アスペクトの影響を最終予測のためにアンハングルする。 大規模な実験により、DisenHCNは4つの実世界のデータセットで最先端の手法を14.23%から18.10%上回った。 さらなる研究は、DisenHCNの各コンポーネントの合理性も確実に検証する。

Spatiotemporal activity prediction, aiming to predict user activities at a specific location and time, is crucial for applications like urban planning and mobile advertising. Existing solutions based on tensor decomposition or graph embedding suffer from the following two major limitations: 1) ignoring the fine-grained similarities of user preferences; 2) user's modeling is entangled. In this work, we propose a hypergraph neural network model called DisenHCN to bridge the above gaps. In particular, we first unify the fine-grained user similarity and the complex matching between user preferences and spatiotemporal activity into a heterogeneous hypergraph. We then disentangle the user representations into different aspects (location-aware, time-aware, and activity-aware) and aggregate corresponding aspect's features on the constructed hypergraph, capturing high-order relations from different aspects and disentangles the impact of each aspect for final prediction. Extensive experiments show that our DisenHCN outperforms the state-of-the-art methods by 14.23% to 18.10% on four real-world datasets. Further studies also convincingly verify the rationality of each component in our DisenHCN.
翻訳日:2022-08-16 13:08:11 公開日:2022-08-14
# モデル一般化: シャープネスを意識した最適化の視点

Model Generalization: A Sharpness Aware Optimization Perspective ( http://arxiv.org/abs/2208.06915v1 )

ライセンス: Link先を確認
Jozef Marus Coldenhoff, Chengkun Li, Yurui Zhu(参考訳) シャープネス認識最小化(SAM)と適応シャープネス認識最小化(ASAM)はモデル一般化の改善を目的としている。 このプロジェクトでは、シャープネスを意識した視点で一般化を検証するための3つの実験を提案した。 また, シャープネス認識に基づく最適化手法は, モデルに強力な一般化能力を与えることができることを示した。 実験の結果,非正規化データに対するASAMの一般化性能が向上することが示されたが,それを確認するためにはさらなる研究が必要である。

Sharpness-Aware Minimization (SAM) and adaptive sharpness-aware minimization (ASAM) aim to improve the model generalization. And in this project, we proposed three experiments to valid their generalization from the sharpness aware perspective. And our experiments show that sharpness aware-based optimization techniques could help to provide models with strong generalization ability. Our experiments also show that ASAM could improve the generalization performance on un-normalized data, but further research is needed to confirm this.
翻訳日:2022-08-16 13:07:52 公開日:2022-08-14
# リアルタイム意味セグメンテーションのためのサーロゲート支援多目的ニューラルネットワーク探索

Surrogate-assisted Multi-objective Neural Architecture Search for Real-time Semantic Segmentation ( http://arxiv.org/abs/2208.06820v1 )

ライセンス: Link先を確認
Zhichao Lu, Ran Cheng, Shihua Huang, Haoming Zhang, Changxiao Qiu, and Fan Yang(参考訳) ディープニューラルネットワークのアーキテクチャの進歩は、コンピュータビジョンタスクの幅広い範囲で顕著な飛躍的な進歩をもたらした。 人間の専門知識に頼る代わりに、neural architecture search(nas)はアーキテクチャ設計の自動化に有望な道筋として登場した。 画像分類における最近の成果は機会を示唆しているが、NASの約束はセマンティックセグメンテーションのより困難なタスクについて十分に評価されていない。 nasをセマンティクスセグメンテーションに適用する主な課題は、2つの側面から生じる。 (i)加工すべき高解像度画像 (ii)自動運転などのアプリケーションに対するリアルタイム推論速度(すなわち、リアルタイム意味セグメンテーション)の追加要件。 このような課題を満たすため,本論文ではサロゲート支援多目的手法を提案する。 本手法は,一連の予測モデルを用いて,元のNASタスクを通常の多目的最適化問題に変換する。 続いて,インフィル選択のための階層的事前スクリーニング基準を定め,セグメンテーション精度と推論速度をトレードオフする効率的なアーキテクチャ群を漸進的に達成する。 Huawei Atlas 200 DKを使用したアプリケーションと組み合わせた3つのベンチマークデータセットに関する実証的な評価から、我々の手法は、人手による設計と他のNASメソッドによる自動設計の両方で、既存の最先端アーキテクチャを著しく上回るアーキテクチャを識別できることが示唆された。

The architectural advancements in deep neural networks have led to remarkable leap-forwards across a broad array of computer vision tasks. Instead of relying on human expertise, neural architecture search (NAS) has emerged as a promising avenue toward automating the design of architectures. While recent achievements in image classification have suggested opportunities, the promises of NAS have yet to be thoroughly assessed on more challenging tasks of semantic segmentation. The main challenges of applying NAS to semantic segmentation arise from two aspects: (i) high-resolution images to be processed; (ii) additional requirement of real-time inference speed (i.e., real-time semantic segmentation) for applications such as autonomous driving. To meet such challenges, we propose a surrogate-assisted multi-objective method in this paper. Through a series of customized prediction models, our method effectively transforms the original NAS task into an ordinary multi-objective optimization problem. Followed by a hierarchical pre-screening criterion for in-fill selection, our method progressively achieves a set of efficient architectures trading-off between segmentation accuracy and inference speed. Empirical evaluations on three benchmark datasets together with an application using Huawei Atlas 200 DK suggest that our method can identify architectures significantly outperforming existing state-of-the-art architectures designed both manually by human experts and automatically by other NAS methods.
翻訳日:2022-08-16 13:04:30 公開日:2022-08-14
# 畳み込み重みのSVD:CNN解釈可能性フレームワーク

The SVD of Convolutional Weights: A CNN Interpretability Framework ( http://arxiv.org/abs/2208.06894v1 )

ライセンス: Link先を確認
Brenda Praggastis, Davis Brown, Carlos Ortiz Marrero, Emilie Purvine, Madelyn Shapiro, and Bei Wang(参考訳) 画像分類に用いられるディープニューラルネットワークは、線形分類器に渡す前に特徴を識別するために畳み込みフィルタを使用することが多い。 ほとんどの解釈可能性文献は、モデルの推論プロセスを説明し、入力ドメインから関連する情報の使用を確認するために畳み込みフィルタに意味的意味を提供することに焦点を当てている。 完全連結層は、特異値分解を用いて重み行列を分解し、マップのダイナミクスを発見するために各行列の行間の相関を研究することで研究することができる。 本研究では、畳み込み層の重み付けテンソルに対する特異値分解を定義し、畳み込み写像のダイナミックスを明らかにすることにより、フィルタ間の相関の類似した理解を提供する。 我々はランダム行列理論の最近の結果を用いて定義を検証する。 画像分類ネットワークの線形層に分解を適用することにより,ハイパーグラフを用いた解釈可能性手法をモデルクラス分離に適用可能なフレームワークを提案する。 ネットワークを説明するためにアクティベーションを見るのではなく、各線形層に対して最大の対応する特異値を持つ特異ベクトルを用いて、ネットワークにとって最も重要な特徴を識別する。 本稿では,本研究に使用する分析ツールであるdeepdataprofilerライブラリを例示して紹介する。

Deep neural networks used for image classification often use convolutional filters to extract distinguishing features before passing them to a linear classifier. Most interpretability literature focuses on providing semantic meaning to convolutional filters to explain a model's reasoning process and confirm its use of relevant information from the input domain. Fully connected layers can be studied by decomposing their weight matrices using a singular value decomposition, in effect studying the correlations between the rows in each matrix to discover the dynamics of the map. In this work we define a singular value decomposition for the weight tensor of a convolutional layer, which provides an analogous understanding of the correlations between filters, exposing the dynamics of the convolutional map. We validate our definition using recent results in random matrix theory. By applying the decomposition across the linear layers of an image classification network we suggest a framework against which interpretability methods might be applied using hypergraphs to model class separation. Rather than looking to the activations to explain the network, we use the singular vectors with the greatest corresponding singular values for each linear layer to identify those features most important to the network. We illustrate our approach with examples and introduce the DeepDataProfiler library, the analysis tool used for this study.
翻訳日:2022-08-16 12:56:10 公開日:2022-08-14
# WVA構造問題に関する実証的研究

Empirical investigations on WVA structural issues ( http://arxiv.org/abs/2208.05791v2 )

ライセンス: Link先を確認
Alexey Kutalev and Alisa Lapina(参考訳) 本稿では,ニューラルネットワークにおける破滅的忘れを克服する方法について,いくつかの問題に対する実証検証の結果を提示する。 まずはじめに、我々は、この話題に精通していない人のために、破滅的な忘れ方とそれを乗り越える方法の問題を詳細に説明する。 次に,本稿で紹介したWVA法の本質と限界について論じる。 さらに,重みの勾配や最適化ステップへのwva法の適用,この手法の最適減衰関数の選択,ニューラルネットワークの逐次学習におけるタスク数に応じた最適ハイパーパラメータの選択といった問題にも触れる。

In this paper we want to present the results of empirical verification of some issues concerning the methods for overcoming catastrophic forgetting in neural networks. First, in the introduction, we will try to describe in detail the problem of catastrophic forgetting and methods for overcoming it for those who are not yet familiar with this topic. Then we will discuss the essence and limitations of the WVA method which we presented in previous papers. Further, we will touch upon the issues of applying the WVA method to gradients or optimization steps of weights, choosing the optimal attenuation function in this method, as well as choosing the optimal hyper-parameters of the method depending on the number of tasks in sequential training of neural networks.
翻訳日:2022-08-16 11:18:10 公開日:2022-08-14