このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220608となっている論文です。

PDF登録状況(公開日: 20220608)

TitleAuthorsAbstract論文公表日・翻訳日
# トラップイオンを持つ長距離ハイゼンベルクモデルのトポロジ的励起特性

Characterizing Topological Excitations of a Long-Range Heisenberg Model with Trapped Ions ( http://arxiv.org/abs/2012.09185v2 )

ライセンス: Link先を確認
Stefan Birnkammer, Annabelle Bohrdt, Fabian Grusdt, Michael Knap(参考訳) 合成量子システムにおける相互作用する位相相の認識と特徴付けは、非常に難しい課題である。 本稿では, 反強磁性ハイゼンベルクモデルを実現するためのFloquetプロトコルを提案する。 解析的および数値的な議論に基づき、このモデルは液体から原子価結合固体への量子相転移を特徴とし、格子の翻訳対称性を自発的に破壊し、magendar-ghosh状態を思い出させる。 異なる位相は、完全な二量化状態の進化を測定することによって動的に観測することができる。 さらに、相互作用する多体系のトポロジカル励起とバルクトポロジカル不変量を特徴付けるインターフェロメトリプロトコルを導入する。

Realizing and characterizing interacting topological phases in synthetic quantum systems is a formidable challenge. Here, we propose a Floquet protocol to realize the antiferromagnetic Heisenberg model with power-law decaying interactions. Based on analytical and numerical arguments, we show that this model features a quantum phase transition from a liquid to a valence bond solid that spontaneously breaks lattice translational symmetry and is reminiscent of the Majumdar-Ghosh state. The different phases can be probed dynamically by measuring the evolution of a fully dimerized state. We moreover introduce an interferometric protocol to characterize the topological excitations and the bulk topological invariants of the interacting many-body system.
翻訳日:2023-04-20 11:01:38 公開日:2022-06-08
# リングとシリンダーのスペクトル情報を抽出する効率的なMPS法

Efficient MPS methods for extracting spectral information on rings and cylinders ( http://arxiv.org/abs/2102.10982v2 )

ライセンス: Link先を確認
Maarten Van Damme, Robijn Vanhove, Jutho Haegeman, Frank Verstraete and Laurens Vanderstraeten(参考訳) mps形式に基づいて、開境界条件を持つ有限系における励起状態を取り込むためのアンサッツを導入し、量子スピン鎖のスペクトルギャップなどの計算の非常に効率的な方法を提供する。 この方法は、既存のDMRGまたはMPS基底状態コード上に簡単に実装できる。 このアプローチはオープンバウンダリMPSに基づいて構築されるが、周期境界条件を持つシステムにも適用する。 MPS表現による翻訳対称性の明確な破れにもかかわらず、運動量は良い量子数として出現し、MPS基底状態の上に励起をラベル付けするために利用されることを示す。 本手法は環上の臨界イジング鎖とシリンダー上の古典ポッツモデルに適用する。 最後に、同じアイデアを無限シリンダー上の2次元量子系の励起スペクトル計算に適用する。 繰り返しますが、周期方向における翻訳対称性の明示的な破れにもかかわらず、励起をラベル付けするための良い量子数として運動量を取り戻す。 本手法を2次元横磁場イジングモデルと半充填ハバードモデルに適用し, 後者の場合, 円柱円周のホール分散を8箇所まで精度良く評価する。

Based on the MPS formalism, we introduce an ansatz for capturing excited states in finite systems with open boundary conditions, providing a very efficient method for computing, e.g., the spectral gap of quantum spin chains. This method can be straightforwardly implemented on top of an existing DMRG or MPS ground-state code. Although this approach is built on open-boundary MPS, we also apply it to systems with periodic boundary conditions. Despite the explicit breaking of translation symmetry by the MPS representation, we show that momentum emerges as a good quantum number, and can be exploited for labeling excitations on top of MPS ground states. We apply our method to the critical Ising chain on a ring and the classical Potts model on a cylinder. Finally, we apply the same idea to compute excitation spectra for 2-D quantum systems on infinite cylinders. Again, despite the explicit breaking of translation symmetry in the periodic direction, we recover momentum as a good quantum number for labeling excitations. We apply this method to the 2-D transverse-field Ising model and the half-filled Hubbard model; for the latter, we obtain accurate results for, e.g., the hole dispersion for cylinder circumferences up to eight sites.
翻訳日:2023-04-10 05:50:45 公開日:2022-06-08
# ギャップレスII型フラクトン相の分光指紋

Spectroscopic fingerprints of gapless type-II fracton phases ( http://arxiv.org/abs/2106.15631v3 )

ライセンス: Link先を確認
Oliver Hart and Rahul Nandkishore(参考訳) フラクトン相は、分数化モビリティを持つ初等励起を特徴とし、理論物理学の様々な分野からエキサイティングな関心を集めている。 しかし、最もエキゾチックな「タイプII」フラクトン相は、ハア符号と同様に、現在、実験的な診断は知られていない。 ここでは、空隙ゲージモードを持つタイプIIフラクトン相、例えば$\mathrm{U}(1)$ Haah符号を実験的に同定する方法について説明する。 紫外赤外(uv-ir)混合を示すタイプiiフラクトン相の「多極ゲージ理論」を用いて解析を行った。 ギャップレスii型フラクトン相における中性子散乱実験は, uv-ir混合の直接的結果として, 特異な異方性輪郭を持つ構造因子にエキゾチックなピンチ点を示すべきである。 この特性ピンチ点構造は、II型フラクトン相をきれいに診断する。 また,低温比熱における3+1-D $\mathrm{U}(1)$ Haah符号の特異な符号も同定した。

Fracton phases feature elementary excitations with fractionalized mobility and are exciting interest from multiple areas of theoretical physics. However, the most exotic 'type-II' fracton phases, like the Haah codes, currently have no known experimental diagnostics. Here, we explain how type-II fracton phases with gapless gauge modes, such as the $\mathrm{U}(1)$ Haah code, may be identified experimentally. Our analysis makes use of the 'multipole gauge theory' description of type-II fracton phases, which exhibits ultraviolet-infrared (UV-IR) mixing. We show that neutron scattering experiments on gapless type-II fracton phases should generically exhibit exotic pinch points in the structure factor, with distinctive anisotropic contours as a direct consequence of UV-IR mixing. This characteristic pinch point structure provides a clean diagnostic of type-II fracton phases. We also identify distinctive signatures of the (3+1)-D $\mathrm{U}(1)$ Haah code in the low-temperature specific heat.
翻訳日:2023-03-24 19:24:18 公開日:2022-06-08
# 干渉型衛星測地計ミッションの高精度化

Enhancing the precision limits of interferometric satellite geodesy missions ( http://arxiv.org/abs/2109.07666v2 )

ライセンス: Link先を確認
Lorcan Conlon, Thibault Michel, Giovanni Guccione, Kirk McKenzie, Syed M. Assad and Ping Koy Lam(参考訳) 衛星測地は1つ以上の衛星の動きを測定することで、地球の重力場に関する正確な情報を推測する。 本研究では,現在の重力再生・気候実験(GRACE)のフォローオンミッション(レーザー位相ノイズ,加速度センサノイズ,量子ノイズ)の測定過程における3つの主要騒音源の近似モデルを調べることにより,測定精度の限界を考察する。 時間遅延干渉法により、計測からレーザー位相ノイズを除去することができ、信号-雑音比の約3桁の改善が可能であることを示す。 加速度計ノイズを除去することで、信号と雑音の比をさらに高めることができるいくつかの差分質量衛星が提示される。 最後に、量子光学の手法が研究され、他のミッション構成における量子ノイズを低減することに大きな期待が持たれている。 我々は,直観的な1次元モデルを用いてスペクトル雑音性能をモデル化し,近未来の衛星測地観測ミッションの性能向上の可能性を検証する。

Satellite geodesy uses the measurement of the motion of one or more satellites to infer precise information about the Earth's gravitational field. In this work, we consider the achievable precision limits on such measurements by examining approximate models for the three main noise sources in the measurement process of the current Gravitational Recovery and Climate Experiment (GRACE) Follow-On mission: laser phase noise, accelerometer noise and quantum noise. We show that, through time-delay interferometry, it is possible to remove the laser phase noise from the measurement, allowing for almost three orders of magnitude improvement in the signal-to-noise ratio. Several differential mass satellite formations are presented which can further enhance the signal-to-noise ratio through the removal of accelerometer noise. Finally, techniques from quantum optics have been studied, and found to have great promise for reducing quantum noise in other alternative mission configurations. We model the spectral noise performance using an intuitive 1D model and verify that our proposals have the potential to greatly enhance the performance of near-future satellite geodesy missions.
翻訳日:2023-03-14 22:51:15 公開日:2022-06-08
# ハニカム格子内の保存磁化を伴う擬スピン-1/2$ボソンのボゴリボフ-デ・ジェネス系の位相的研究

Topological study of a Bogoliubov-de Gennes system of pseudo spin-$1/2$ bosons with conserved magnetization in a honeycomb lattice ( http://arxiv.org/abs/2110.03139v3 )

ライセンス: Link先を確認
Hong Y. Ling and Ben Kain(参考訳) ボゴリボフ・デ・ゲネース(BdG)ハミルトニアン (Bogolibov-de Geenes, BdG) ハミルトニアン (Hermitian Hamiltonian) は、ハニカム格子における(擬)スピン-1/2$ボソンの系に対して、2つのスピン成分、すなわち磁化の集団差が定数であるとする。 このようなシステムは、時間反転対称性の下でトポロジカル増幅器として機能し、安定なバルクバンドを持つが、指数的に速い速度で占有できる不安定なエッジモードを持つ。 このモデルの位相的性質を非エルミート系に対する38次元の枠組みの中で定量的に研究する。 ブロッホ・ハミルトニアンの対称性解析により、このモデルが対称性クラス aiii+$\eta_-$ の2つのコピーまたは対称性クラス a+$\eta$ の2つのコピーに分類されていることが分かる。 我々は、固有状態が双正則性関係に従う非エルミート物理学の文脈において、安定バルクは1つの位相不変量、ハルダンモデルに対するチャーン数によって特徴づけられ、対の相互作用とは無関係であることを示す。 半無限平面におけるHaldaneモデルのエッジモードの便利な解析記述を構築し、広い分野にわたるHaldaneモデルのコピー上に構築されたモデルに有用であることが期待される。 最近の研究 (Phys. Rev. A 104, 013305 (2021)) において、BdGハミルトニアンより制約を受けない擬エルミート・ハミルトニアンに定理を適用し、これを適用して、ハミルトニアンの数保存部分と数保存部分の間の非伝統的な可換化が、系を位相増幅器として振る舞うことができるかどうかを示す。

We consider a Bogolibov-de Geenes (BdG) Hamiltonian, which is a non-Hermitian Hamiltonian with pseudo-Hermiticity, for a system of (pseudo) spin-$1/2$ bosons in a honeycomb lattice under the condition that the population difference between the two spin components, i.e., magnetization, is a constant. Such a system is capable of acting as a topological amplifier, under time-reversal symmetry, with stable bulk bands but unstable edge modes which can be populated at an exponentially fast rate. We quantitatively study the topological properties of this model within the framework of the 38-fold way for non-Hermitian systems. We find, through the symmetry analysis of the Bloch Hamiltonian, that this model is classified either as two copies of symmetry class AIII+$\eta_-$ or two copies of symmetry class A+$\eta$ depending on whether the (total) system is time-reversal-symmetric, where $\eta$ is the matrix representing pseudo-Hermiticity and $\eta_-$ indicates that pseudo-Hermiticity and chiral symmetry operators anticommute. We prove, within the context of non-Hermitian physics where eigenstates obey the bi-orthonormality relation, that a stable bulk is characterized by a single topological invariant, the Chern number for the Haldane model, independent of pairing interactions. We construct a convenient analytical description for the edge modes of the Haldane model in semi-infinite planes, which is expected to be useful for models built upon copies of the Haldane model across a broad array of disciplines. We adapt the theorem in our recent work [Phys. Rev. A 104, 013305 (2021)] to pseudo-Hermitian Hamiltonians that are less restrictive than BdG Hamiltonians and apply it to highlight that the vanishing of an unconventional commutator between number-conserving and number-nonconserving parts of the Hamiltonian indicates whether a system can be made to act as a topological amplifier.
翻訳日:2023-03-12 06:08:12 公開日:2022-06-08
# 外側ファンデルワールス力における符号反転

Sign inversion in the lateral van der Waals force ( http://arxiv.org/abs/2110.12027v2 )

ライセンス: Link先を確認
Edson C. M. Nogueira, Lucas Queiroz, Danilo T. Alves(参考訳) 完全導電性平面における単一のわずかに隆起を考慮し、この表面と中性偏光粒子とのファンデルワールス(vdw)相互作用を調べる。 凸が十分に滑らかで近接力近似(pfa)が十分に適用可能であれば、平面からの粒子の一定距離に対して、外側のvdw力は常に凸に向けられる。 一方, pfaを超えて計算を有効にすることで, 異方性粒子を考えると非自明な幾何学的効果が生じ, プロトゥランスの特性幅と固定粒子面距離の比を操作する。 我々は, この比が減少するにつれて, 側方vdw力の符号反転が起こりうると予測した。 また,そのようなvdw力の符号反転が1つのプロトゥランスに対して発生していない場合でも,複数のプロトゥランスが組み合わされた場合に発生し,個々の効果や集団効果に由来する符号反転を区別できることを示した。 さらに、これらの効果は全て、永久電気双極子モーメントを持つ中性粒子を含む古典的な効果を持つことを示す。 このような幾何学的効果の外側vdw力に対する予測は、古典物理学や量子物理学において粒子と波形表面との相互作用をより良く制御するのに役立つかもしれない。

We consider a single slight protuberance in a perfectly conducting plane, and investigate the van der Waals (vdW) interaction between this surface and a neutral polarizable particle. When the protuberance is sufficiently smooth, so that the proximity force approximation (PFA) is well applicable, for a fixed distance of the particle from the plane, the lateral vdW force always points to the protuberance. On the other hand, by making calculations valid beyond the PFA, we show that nontrivial geometric effects arise when we consider an anisotropic particle, and manipulate the ratio between the characteristic widths of the protuberance and the fixed particle-plane distance. We predict that, as this ratio decreases, a sign inversion in the lateral vdW force can occur, in the sense that, instead of pointing to the protuberance, in certain situations the lateral force points to the opposite direction. Moreover, we show that even when such a sign inversion in the lateral vdW force does not occur for a single protuberance, it can arise when two or more protuberances are put together, distinguishing between sign inversions originated by individual or collective effects. In addition, we show that all these effects have their classical counterparts, involving a neutral particle with a permanent electric dipole moment. The prediction of such geometric effects on the lateral vdW force may be relevant for a better controlling of the interaction between a particle and a corrugated surface in classical and quantum physics.
翻訳日:2023-03-10 19:25:47 公開日:2022-06-08
# 2量子相関を含む誤り軽減のための古典的ビットフリップ補正法

Using classical bit-flip correction for error mitigation including 2-qubit correlations ( http://arxiv.org/abs/2111.08551v3 )

ライセンス: Link先を確認
Constantia Alexandrou, Lena Funcke, Tobias Hartung, Karl Jansen, Stefan Kuehn, Georgios Polykratis, Paolo Stornati and Xiaoyang Wang(参考訳) 本稿では,NISQ(Noisy Intermediate-Scale Quantum)コンピュータの読み出し誤りを補正するエラー軽減手法を提案する。 この手法を1つの量子ビットに適用した短いレビューの後、異なる量子ビット間の相関が生じた場合について考察する。 本稿では,この場合の読み出しエラーの軽減方法を示す。 IBMQハードウェア上で実験を行うことで、そのような相関は結果に強く影響せず、無視することを正当化することを示す。

We present an error mitigation scheme which corrects readout errors on Noisy Intermediate-Scale Quantum (NISQ) computers [1,2]. After a short review of applying the method to one qubit, we proceed to discuss the case when correlations between different qubits occur. We demonstrate how the readout error can be mitigated in this case. By performing experiments on IBMQ hardware, we show that such correlations do not have a strong effect on the results, justifying to neglect them.
翻訳日:2023-03-08 00:02:11 公開日:2022-06-08
# 超伝導回路における動的拘束量子ダイナミクス

Kinetically Constrained Quantum Dynamics in Superconducting Circuits ( http://arxiv.org/abs/2112.08387v2 )

ライセンス: Link先を確認
Riccardo J. Valencia-Tortora, Nicola Pancotti, Jamir Marino(参考訳) ボゾン量子東モデルの低温における動的特性について検討する。 対応するスピン1/2量子東モデルのナイーブ一般化は、類似の遅い力学特性をポースしないことを示す。 特にスピンの場合と対照的に、ボゾン基底状態は局所化されないことが判明する。 反発的相互作用項を導入することで局在を回復する。 このモデルのボソニック性により、コヒーレント、スクイーズド、キャット状態を含む多体局所状態のリッチファミリーを構築することができる。 我々は、ボゾン交換関係を満たす超音速生成消滅作用素の集合を導入し、真空に作用すると、格子の特定の部位に指数関数的に局在する励起を生成する。 モデルの制約された性質を考えると、これらの状態は初期状態の記憶を長期間保持する。 散逸が存在する場合でも、量子情報はシステムのパラメータに調整可能なデコヒーレンス時間内に局所化されていることを示す。 本稿では, 近い将来, 現代プラットフォームにおける速度論的拘束モデルの動的特性を探求するために, 最先端超伝導回路をベースとしたボソニック量子イーストモデルの実装を提案する。

We study the dynamical properties of the bosonic quantum East model at low temperature. We show that a naive generalization of the corresponding spin-1/2 quantum East model does not posses analogous slow dynamical properties. In particular, conversely to the spin case, the bosonic ground state turns out to be not localized. We restore localization by introducing a repulsive interaction term. The bosonic nature of the model allows us to construct rich families of many-body localized states, including coherent, squeezed and cat states. We formalize this finding by introducing a set of superbosonic creation-annihilation operators which satisfy the bosonic commutation relations and, when acting on the vacuum, create excitations exponentially localized around a certain site of the lattice. Given the constrained nature of the model, these states retain memory of their initial conditions for long times. Even in the presence of dissipation, we show that quantum information remains localized within decoherence times tunable with the parameters of the system. We propose an implementation of the bosonic quantum East model based on state-of-the-art superconducting circuits, which could be used in the near future to explore dynamical properties of kinetically constrained models in modern platforms.
翻訳日:2023-03-04 11:38:37 公開日:2022-06-08
# 量子とハイブリッドアルゴリズムを用いた直流潮流問題の解法

Solving DC Power Flow Problems Using Quantum and Hybrid algorithms ( http://arxiv.org/abs/2201.04848v2 )

ライセンス: Link先を確認
Fang Gao, Guojian Wu, Suhang Guo, Wei Dai, Feng Shuang(参考訳) 電力フロー計算は、電力システムの計画、運用、制御において重要な役割を果たす。 量子HHLアルゴリズムは直流電力流計算における古典的アルゴリズムに対する理論的指数的高速化を実現することができる。 ノイズ中規模量子(NISQ)時代の量子ビット資源は限られているため、この制限を考慮した性能について議論することが重要である。 dcパワーフロー問題における方程式の線形系の係数行列は有限二進数列によって完全には表現できないため、不完全な位相推定に繋がる。 この処理は不完全な位相推定を前提として行われる。 HHLアルゴリズムの性能は、異なる精度と冗長なキュービットで体系的に検討される。 必要な量子ビット資源を更に削減するために,ハイブリッド量子古典アルゴリズムを提案する。 IEEE 5-busテストシステムの直流電力フロー計算におけるHHLとハイブリッドアルゴリズムの誤差を比較することにより, 位相推定モジュールの数を増やすことにより, ハイブリッドアルゴリズムはHHLより少ないキュービットで同等の精度を達成できることがわかった。

Power flow calculation plays an important role in planning, operation, and control of the power system. The quantum HHL algorithm can achieve theoretical exponential speedup over classical algorithms on DC power flow calculation. Since the qubit resources in the Noisy Intermediate-scale Quantum (NISQ) era are limited, it is important to discuss the performance considering this limitation. The coefficient matrix of the linear systems of equations in DC power flow problems cannot be represented perfectly by finite binary number strings, which leads to imperfect phase estimation. This work is carried out under the assumption of imperfect phase estimation. The performance of the HHL algorithm is systematically investigated with different accuracy and redundant qubits. In order to further reduce the required qubit resources, a hybrid quantum-classical algorithm is proposed. By comparing errors of the HHL and hybrid algorithms in the DC power flow calculation of the IEEE 5-bus test system, it is found that the hybrid algorithm can achieve comparable precision with fewer qubits than HHL by increasing the number of phase estimation modules, which may make the hybrid algorithm a feasible route in the NISQ era.
翻訳日:2023-03-01 06:44:47 公開日:2022-06-08
# 3次元表面符号における非パウリ誤差

Non-Pauli Errors in the Three-Dimensional Surface Code ( http://arxiv.org/abs/2202.05746v2 )

ライセンス: Link先を確認
Thomas R. Scruby, Michael Vasmer, Dan E. Browne(参考訳) stabiliser error correcting codesの強力な特徴は、stabiliser measurementが任意のエラーをpauliエラーに投影するという事実であり、物理的なエラー修正プロセスと古典的なコードパフォーマンスのシミュレーションを大幅に単純化している。 しかし、論理的非クリフォード演算は、パウリの誤差を非パウリ(クリフォード)の誤差にマッピングすることができ、その後の安定化器の測定では、クリフォードの誤差をパウリの誤差に投影するが、結果として得られる分布は、論理的演算の性質とコード構造の両方に依存する追加の相関を持つ。 従来の研究では、3次元カラーコードに$T$ゲートを施す際にこれらの効果を研究しており、非局所的な「結合電荷」現象の存在を示していた。 この研究では、これらの結果を3次元曲面コードで$ccz$ゲートの場合に一般化し、問題の多くの側面がこの設定でより理解しやすいことを見出します。 特に、結合電荷の出現は非局所的な効果ではなく局所的な効果である。 この設定におけるクリフォード誤差の相対的単純さを用いて、単一ショットマジック状態生成プロセス(これらのエラーの完全な効果を考慮に入れた最初のシミュレーション)の性能への影響をシミュレートし、その閾値に対する効果は、最新の安定化器測定の後、ゲートの塗布直前に発生するX$エラーの確率によって大きく決定されることを示す。

A powerful feature of stabiliser error correcting codes is the fact that stabiliser measurement projects arbitrary errors to Pauli errors, greatly simplifying the physical error correction process as well as classical simulations of code performance. However, logical non-Clifford operations can map Pauli errors to non-Pauli (Clifford) errors, and while subsequent stabiliser measurements will project the Clifford errors back to Pauli errors the resulting distributions will possess additional correlations that depend on both the nature of the logical operation and the structure of the code. Previous work has studied these effects when applying a transversal $T$ gate to the three-dimensional colour code and shown the existence of a non-local "linking charge" phenomenon between membranes of intersecting errors. In this work we generalise these results to the case of a $CCZ$ gate in the three-dimensional surface code and find that many aspects of the problem are much more easily understood in this setting. In particular, the emergence of linking charge is a local effect rather than a non-local one. We use the relative simplicity of Clifford errors in this setting to simulate their effect on the performance of a single-shot magic state preparation process (the first such simulation to account for the full effect of these errors) and find that their effect on the threshold is largely determined by probability of $X$ errors occurring immediately prior to the application of the gate, after the most recent stabiliser measurement.
翻訳日:2023-02-26 02:42:06 公開日:2022-06-08
# シングルシステムゲームの観点からみた多部ベル不等式のロバスト違反

Robust violation of a multipartite Bell inequality from the perspective of a single-system game ( http://arxiv.org/abs/2202.05980v2 )

ライセンス: Link先を確認
Gang-Gang He and Xing-Yan Fan and Fu-Lin Zhang(参考訳) 最近、Fan \textit{et al。 Mod. Phys. Lett. A 36, 2150223 (2021)] は一般化されたクラスー=ホルン=シモニー=ホルト(CHSH)の不等式を示し、$N$-qubit Greenberger-Horne-Zeilinger(GHZ)状態を特定する。 彼らは、一般化CHSH不等式における最大違反が特定の雑音の下で頑健である興味深い現象を示した。 本研究では,不等式をCHSHゲームにマップし,その結果,CHSH*ゲームに単一キュービットシステムでマッピングする。 このマッピングは、$n$-qubitシステムにおける堅牢な違反の説明を提供する。 すなわち、一般化CHSH作用素の退化によって生じるロバストな違反は、最大絡み合った2量子状態の対称性と1量子ゲームにおけるアイデンティティ変換に対応する。 この説明により、縮退が$2^{N-2}$であることを示すことができる。

Recently, Fan \textit{et al.} [Mod. Phys. Lett. A 36, 2150223 (2021)], presented a generalized Clauser-Horne-Shimony-Holt (CHSH) inequality, to identify $N$-qubit Greenberger-Horne-Zeilinger (GHZ) states. They showed an interesting phenomenon that the maximal violation of the generalized CHSH inequality is robust under some specific noises. In this work, we map the inequality to the CHSH game, and consequently to the CHSH* game in a single-qubit system. This mapping provides an explanation for the robust violations in $N$-qubit systems. Namely, the robust violations, resulting from the degeneracy of the generalized CHSH operators correspond to the symmetry of the maximally entangled two-qubit states and the identity transformation in the single-qubit game. This explanation enables us to exactly demonstrate that the degeneracy is $2^{N-2}$.
翻訳日:2023-02-26 00:44:51 公開日:2022-06-08
# 量子と古典的相関の効率的な分離による混合状態絡み合い

Mixed state entanglement by efficient separation of quantum from classical correlations ( http://arxiv.org/abs/2202.07420v2 )

ライセンス: Link先を確認
Christian Carisch and Oded Zilberberg(参考訳) 絡み合いは量子技術の鍵となる資源であり、エキサイティングな多体現象の根底にある。 それでも、現実の量子システムにおける絡み合いの定量化は、その環境と相互作用する際には困難である。 本稿では,混合状態の絡み合いスペクトルをフィルタリングすることにより,そのような現実的なオープンシステムに対する絡み合い測度を考案する。 まず、どのスペクトル値がエンタングルメントを符号化するかを決定し、次にシステムの密度行列のテンソルネットワーク表現を用いて効率的に実現可能なフィルタリングアルゴリズムを開発する。 我々は、デファス化の存在下で鎖上を動くスピンレス粒子の計画を示す。 本手法は,幅広い系において古典的相関と量子相関を区別し,効率的な実験的絡み合い定量化を動機付ける。

Entanglement is the key resource for quantum technologies and is at the root of exciting many-body phenomena. Nevertheless, quantifying the entanglement in a real-world quantum system is challenging when it interacts with its environment, as the latter mixes classical correlations with entanglement. Here, we devise an entanglement measure for such realistic open systems by filtering the entanglement spectrum of the mixed state. We first establish which spectral values encode entanglement and then develop a filtering algorithm that is efficiently realizable using a tensor network representation of the system's density matrix. We showcase our scheme for spinless particles moving on a chain in presence of dephasing. Crucially, our approach distinguishes classical from quantum correlations for a broad range of systems and motivates efficient experimental entanglement quantification.
翻訳日:2023-02-25 18:47:21 公開日:2022-06-08
# マイクロ波ドレッシング状態を有する固定周波数トランスモン量子ビットの緩和時間のゆらぎ対策

Combating fluctuations in relaxation times of fixed-frequency transmon qubits with microwave-dressed states ( http://arxiv.org/abs/2203.07857v2 )

ライセンス: Link先を確認
Peng Zhao, Teng Ma, Yirong Jin, and Haifeng Yu(参考訳) 長いコヒーレンス時間を持つ固定周波数トランスモン量子ビットは量子コンピューティングにとって有望な量子ビットモダリティである。 現在、固定周波数トランスモンキュービットを使用する多様なキュービットアーキテクチャが、忠実なゲート性能で実証されている。 それでも、トランスモン量子ビットの緩和時間は時間的ゆらぎが大きく、ゲート性能に不安定をもたらす可能性がある。 この変動は、ほとんど共振結合とスパース2レベルシステム(TLS)欠陥によって引き起こされると考えられている。 キュービットのコヒーレンスとゲート性能への影響を軽減するために、直近のアプローチは、これらのTLSからキュービットをチューニングすることである。 本研究では,固定周波数トランスモン量子ビットを一体化したチューナブルバスアーキテクチャにおいて,tlsにより引き起こされる性能変動に対処するために,オフ共振マイクロ波ドライブを用いてac-starkシフトを介して量子ビットの周波数を効果的にチューニングする可能性について検討する。 クビット周波数は、アクスタークシフトにより最大20MHzまで調整でき、クビット制御への影響を最小限に抑えられることを示す。 デバイス製造のより慎重な処理を通じてこれらのTLSを除去するパッシブアプローチに加えて、固定周波数トランペット量子ビットデバイスにおけるTLSによるパフォーマンス変動を緩和するためのアクティブアプローチを提供する。

With the long coherence time, the fixed-frequency transmon qubit is a promising qubit modality for quantum computing. Currently, diverse qubit architectures that utilize fixed-frequency transmon qubits have been demonstrated with high-fidelity gate performance. Nevertheless, the relaxation times of transmon qubits can have large temporal fluctuations, causing instabilities in gate performance. The fluctuations are often believed to be caused by nearly on-resonance couplings with sparse two-level-system (TLS) defects. To mitigate their impact on qubit coherence and gate performance, one direct approach is to tune the qubits away from these TLSs. In this work, to combat the potential TLS-induced performance fluctuations in a tunable-bus architecture unitizing fixed-frequency transmon qubits, we explore the possibility of using an off-resonance microwave drive to effectively tuning the qubit frequency through the ac-Stark shift while implementing universal gate operations on the microwave-dressed qubit. We show that the qubit frequency can be tuned up to 20 MHz through the ac-stark shift while keeping minimal impacts on the qubit control. Besides passive approaches that aim to remove these TLSs through more careful treatments of device fabrications, this work may offer an active approach towards mitigating the TLS-induced performance fluctuations in fixed-frequency transmon qubit devices.
翻訳日:2023-02-22 01:22:43 公開日:2022-06-08
# 曖昧さの自動化 - 人工知能の課題と落とし穴

Automating Ambiguity: Challenges and Pitfalls of Artificial Intelligence ( http://arxiv.org/abs/2206.04179v1 )

ライセンス: Link先を確認
Abeba Birhane(参考訳) 機械学習(ML)と人工知能(AI)ツールは、複雑な人間の行動や社会現象を分類、分類、予測するあらゆる社会的、政治的、経済的領域に浸透する。 しかしながら、複雑な適応システムに関する虚偽かつナイーブな根拠から、基礎となるモデルであるデータセットまで、これらのシステムは問題、挑戦、制限によって設定されます。 それらは相変わらず不透明で信頼できないままであり、社会的および構造的な抑圧的な制度を考慮せず、社会的利益を享受しながら、社会の限界において不釣り合いに否定的な影響を及ぼしている。 これらのシステムの様々な課題、問題、落とし穴は、批判的データ/アルゴリズム研究、科学および技術研究(sts)、具体化およびエンアクティブな認知科学、複雑性科学、アフロフェミニズム、そして広く構成されたフェアネス、説明責任、透明性(facct)といった様々な分野の研究のホットなトピックである。 しかし、これらの問合せの分野はしばしばサイロで進行する。 この論文は、科学と倫理の課題、落とし穴、そしてAIの問題を調査するために、明らかに異なる分野の探究をまとめている。 この論文 i では a)AI研究が出現する歴史的・文化的生態学の見直し b) 複雑行動の機械予測の不安定な科学的根拠の検討 原理上、複雑行動の正確さによる予測が不可能であることを示す。 c) 現在のaiの背後にある大規模データセットの監査 社会的な歴史的及び構造的不正を組み込む方法を示す。 d)ML研究の一見中立的な価値を研究し、ML研究の根底にある67の顕著な価値を提示する。 e)コンピュータビジョン研究の難解で心配な応用について検討すること,及び f) MLシステムを取り巻く課題や失敗,問題にアプローチするためのフレームワークと,それに代わる方法を提案する。

Machine learning (ML) and artificial intelligence (AI) tools increasingly permeate every possible social, political, and economic sphere; sorting, taxonomizing and predicting complex human behaviour and social phenomena. However, from fallacious and naive groundings regarding complex adaptive systems to datasets underlying models, these systems are beset by problems, challenges, and limitations. They remain opaque and unreliable, and fail to consider societal and structural oppressive systems, disproportionately negatively impacting those at the margins of society while benefiting the most powerful. The various challenges, problems and pitfalls of these systems are a hot topic of research in various areas, such as critical data/algorithm studies, science and technology studies (STS), embodied and enactive cognitive science, complexity science, Afro-feminism, and the broadly construed emerging field of Fairness, Accountability, and Transparency (FAccT). Yet, these fields of enquiry often proceed in silos. This thesis weaves together seemingly disparate fields of enquiry to examine core scientific and ethical challenges, pitfalls, and problems of AI. In this thesis I, a) review the historical and cultural ecology from which AI research emerges, b) examine the shaky scientific grounds of machine prediction of complex behaviour illustrating how predicting complex behaviour with precision is impossible in principle, c) audit large scale datasets behind current AI demonstrating how they embed societal historical and structural injustices, d) study the seemingly neutral values of ML research and put forward 67 prominent values underlying ML research, e) examine some of the insidious and worrying applications of computer vision research, and f) put forward a framework for approaching challenges, failures and problems surrounding ML systems as well as alternative ways forward.
翻訳日:2023-02-19 17:39:38 公開日:2022-06-08
# aiの進歩を予測する: 機械学習研究者の調査結果から

Forecasting AI Progress: Evidence from a Survey of Machine Learning Researchers ( http://arxiv.org/abs/2206.04132v1 )

ライセンス: Link先を確認
Baobao Zhang, Noemi Dreksler, Markus Anderljung, Lauren Kahn, Charlie Giattino, Allan Dafoe, Michael C. Horowitz(参考訳) 人工知能(AI)の進歩は、輸送、医療、科学、金融、国防など、現代の生活を形作っている。 AI開発予測は、ポリシーと意思決定の改善に役立つだろう。 我々は,AIと機械学習(ML)の研究者による,AIの進歩に関する信念に関する大規模な調査の結果を報告する。 2019年後半に発表されたこの調査は、短期的なai開発マイルストーンと、人間が現在できることのほぼすべてのタスクを、マシンが達成できるような、高レベルまたは人間レベルのマシンインテリジェンスに関する予測を導き出した。 本研究の一環として,ai/ml研究者が高レベルマシンインテリジェンスとai開発における短期的マイルストーンに関する予測を行ったgrace et al.(2018年)の研究から,質問者に対して再問い合わせを行った。 2019年の調査結果によると、ai/mlの研究者が2060年までに人間レベルのマシンインテリジェンスが達成される確率は50%だった。 その結果、2019年に新たに接触した研究者は、Grace et al. (2018)の調査で、高度なAIの進歩に関する同様の信念を表明した。 グレースら(2018年)の研究から再接触した参加者にとって、ハイレベルマシンインテリジェンスの確率50%の合計は2062年から2076年までシフトしたが、この変化は統計的に有意ではない。 いくつかの短期的なAIマイルストーンの予測は、時間とともに減少し、AIの進歩に対する楽観性を示唆している。 最後に、AI/MLの研究者たちは、人間レベルのマシンインテリジェンスが社会にどのような影響を及ぼすかについて、非常に楽観的だった。

Advances in artificial intelligence (AI) are shaping modern life, from transportation, health care, science, finance, to national defense. Forecasts of AI development could help improve policy- and decision-making. We report the results from a large survey of AI and machine learning (ML) researchers on their beliefs about progress in AI. The survey, fielded in late 2019, elicited forecasts for near-term AI development milestones and high- or human-level machine intelligence, defined as when machines are able to accomplish every or almost every task humans are able to do currently. As part of this study, we re-contacted respondents from a highly-cited study by Grace et al. (2018), in which AI/ML researchers gave forecasts about high-level machine intelligence and near-term milestones in AI development. Results from our 2019 survey show that, in aggregate, AI/ML researchers surveyed placed a 50% likelihood of human-level machine intelligence being achieved by 2060. The results show researchers newly contacted in 2019 expressed similar beliefs about the progress of advanced AI as respondents in the Grace et al. (2018) survey. For the recontacted participants from the Grace et al. (2018) study, the aggregate forecast for a 50% likelihood of high-level machine intelligence shifted from 2062 to 2076, although this change is not statistically significant, likely due to the small size of our panel sample. Forecasts of several near-term AI milestones have reduced in time, suggesting more optimism about AI progress. Finally, AI/ML researchers also exhibited significant optimism about how human-level machine intelligence will impact society.
翻訳日:2023-02-19 17:39:09 公開日:2022-06-08
# The Hitchhiker's Guide to Fused Twins: An Review of Access to Digital Twins in situ in Smart City

The Hitchhiker's Guide to Fused Twins: A Review of Access to Digital Twins in situ in Smart Cities ( http://arxiv.org/abs/2202.07104v2 )

ライセンス: Link先を確認
Jascha Gr\"ubel and Tyler Thrash and Leonel Aguilar and Michal Gath-Morad and Julia Chatain and Robert W. Sumner and Christoph H\"olscher and Victor R. Schinazi(参考訳) スマートシティはすでに私たちを取り囲んでいるが、しかしそれでも、日常生活に直接影響するものではない。 現在のスマートシティはアクセスできないことが多いが、日々の市民の経験は、Digital Twins(DT)とSituated Analyticsの組み合わせによって強化される可能性がある。 DTは、モデル、シミュレーション、(リモートで)知覚されたデータ、文脈認識、相互作用を通じて、現実世界の物理双対(PT)を表現する。 しかし、相互作用は都市の複雑さに対処するために適切なインターフェースを必要とする。 結局のところ、スマートシティの可能性を活用するためには、DTを包括的でアクセスしやすいものにする以上のことが必要です。 Situated Analyticsは、その空間的コンテキストにおける都市情報のアンカーを可能にする。 我々は、Situated Analyticsを通じてDTをPTに埋め込み、Fused Twins(FT)を形成するという概念を前進させる。 この融合により、エンボディされたコンテキストで生成された位置のデータへのアクセスが可能となり、データの理解性が向上する。 FTのプロトタイプは、異なるドメインから急速に出現しているが、スマートシティは、FTにとって将来的に最も可能性の高いコンテキストを表現している。 本稿では、FTの基礎としてDT、Situated Analytics、Smart Citiesをレビューする。 DTについて、既存の文献といくつかのコニャート(類似しているが異なる用語)に関連する5つのコンポーネント(物理、データ、分析、仮想、接続環境)を定義します。 Situated Analyticsでは,ユーザの体格が認知および認知負荷に与える影響を概観する。 最後に,既存のftsの部分例を文献から分類し,その構成を拡張現実,地理情報システム,建築・都市情報モデル,dtsから取り上げ,今後の方向性について概観する。

Smart Cities already surround us, and yet they are still incomprehensibly far from directly impacting everyday life. While current Smart Cities are often inaccessible, the experience of everyday citizens may be enhanced with a combination of the emerging technologies Digital Twins (DTs) and Situated Analytics. DTs represent their Physical Twin (PT) in the real world via models, simulations, (remotely) sensed data, context awareness, and interactions. However, interaction requires appropriate interfaces to address the complexity of the city. Ultimately, leveraging the potential of Smart Cities requires going beyond assembling the DT to be comprehensive and accessible. Situated Analytics allows for the anchoring of city information in its spatial context. We advance the concept of embedding the DT into the PT through Situated Analytics to form Fused Twins (FTs). This fusion allows access to data in the location that it is generated in an embodied context that can make the data more understandable. Prototypes of FTs are rapidly emerging from different domains, but Smart Cities represent the context with the most potential for FTs in the future. This paper reviews DTs, Situated Analytics, and Smart Cities as the foundations of FTs. Regarding DTs, we define five components (Physical, Data, Analytical, Virtual, and Connection environments) that we relate to several cognates (i.e., similar but different terms) from existing literature. Regarding Situated Analytics, we review the effects of user embodiment on cognition and cognitive load. Finally, we classify existing partial examples of FTs from the literature and address their construction from Augmented Reality, Geographic Information Systems, Building/City Information Models, and DTs and provide an overview of future direction
翻訳日:2023-02-19 14:53:51 公開日:2022-06-08
# 欧州価値との合意の公正性:AI規制の学際的視点

Fairness in Agreement With European Values: An Interdisciplinary Perspective on AI Regulation ( http://arxiv.org/abs/2207.01510v1 )

ライセンス: Link先を確認
Alejandra Bringas Colmenarejo, Luca Nannini, Alisa Rieger, Kristen M. Scott, Xuan Zhao, Gourab K. Patro, Gjergji Kasneci, Katharina Kinder-Kurlanda(参考訳) デジタル化が進むにつれ、人工知能(AI)はユビキタスになりつつある。 複雑な経済・社会問題に対するソリューションを特定し、最適化し、自動化し、スケールするAIベースのシステムが提案され、実装されている。 これはEUのAI法の提案を含む規制の取り組みを動機付けている。 本論文は,aiにおける公平性と差別に関する様々な懸念を考察し,ai規制がどのように対処するかを論じる。 まず、法、(AI)産業、社会技術、そして(道徳)哲学のレンズを通して、AIと公正性に注目し、様々な視点を提示します。 そして、これらの視点を3つの関心軸に沿ってマッピングします。 (i)標準化対ローカライゼーション (ii)功利主義対平等主義、及び (iii)これらの軸間の共通する議論と緊張のパターンを特定することにつながる対ドントロジー倫理(英語版) 関心の軸に議論を配置し、重要な緊張を和らげることに集中して、AI規制がAI公正性の懸念の観点からAI法の取り組みを成功させる役割を特定し、提案する。

With increasing digitalization, Artificial Intelligence (AI) is becoming ubiquitous. AI-based systems to identify, optimize, automate, and scale solutions to complex economic and societal problems are being proposed and implemented. This has motivated regulation efforts, including the Proposal of an EU AI Act. This interdisciplinary position paper considers various concerns surrounding fairness and discrimination in AI, and discusses how AI regulations address them, focusing on (but not limited to) the Proposal. We first look at AI and fairness through the lenses of law, (AI) industry, sociotechnology, and (moral) philosophy, and present various perspectives. Then, we map these perspectives along three axes of interests: (i) Standardization vs. Localization, (ii) Utilitarianism vs. Egalitarianism, and (iii) Consequential vs. Deontological ethics which leads us to identify a pattern of common arguments and tensions between these axes. Positioning the discussion within the axes of interest and with a focus on reconciling the key tensions, we identify and propose the roles AI Regulation should take to make the endeavor of the AI Act a success in terms of AI fairness concerns.
翻訳日:2023-02-19 09:40:25 公開日:2022-06-08
# 時間結晶の10年:Quo Vadis?

A Decade of Time Crystals: Quo Vadis? ( http://arxiv.org/abs/2204.06381v2 )

ライセンス: Link先を確認
Peter Hannaford and Krzysztof Sacha(参考訳) 10年前、新しい時代の結晶が誕生した。 時間結晶は、通常の空間結晶が空間次元で行うような時間次元で振る舞うシステムである。 時間結晶に関する10年の研究の短い歴史、現在の研究の方向性を説明し、課題を示し、時間領域における凝縮物質物理学の今後の展望について論じる。

Ten years ago, the new era of time crystals began. Time crystals are systems that behave in the time dimension like ordinary space crystals do in space dimensions. We present a brief history of a decade of research on time crystals, describe current research directions, indicate challenges, and discuss some future perspectives for condensed matter physics in the time domain.
翻訳日:2023-02-17 02:54:50 公開日:2022-06-08
# オープン量子システムダイナミクスのワンショット軌道学習

One-shot trajectory learning of open quantum systems dynamics ( http://arxiv.org/abs/2204.12661v2 )

ライセンス: Link先を確認
Arif Ullah and Pavlo O. Dral(参考訳) 非断熱量子力学は光ハーベスティング過程を理解するのに重要であるが、従来の方法での伝播はかなり高価である。 ここでは、温度や再編成エネルギーといった新しいシミュレーションパラメータのセットに対して、還元密度行列の軌跡全体の超高速な予測を可能にするワンショット軌道学習手法を提案する。 10psの長い伝播は、比較的大きな量子系であるフェンナ・マシューズ・オルセン(FMO)で示されるように70ミリ秒かかる。 トレーニングの時間とメモリ要件も大幅に削減します。

Nonadiabatic quantum dynamics are important for understanding light-harvesting processes, but their propagation with traditional methods can be rather expensive. Here we present a one-shot trajectory learning approach that allows to directly make ultra-fast prediction of the entire trajectory of the reduced density matrix for a new set of such simulation parameters as temperature and reorganization energy. The whole 10ps long propagation takes 70 milliseconds as we demonstrate on the comparatively large quantum system, the Fenna-Matthews-Olsen (FMO) complex. Our approach also significantly reduces time and memory requirements for training.
翻訳日:2023-02-15 09:24:28 公開日:2022-06-08
# スクイージングと量子近似最適化

Squeezing and quantum approximate optimization ( http://arxiv.org/abs/2205.10383v2 )

ライセンス: Link先を確認
Gopal Chandra Santra, Fred Jendrzejewski, Philipp Hauke, Daniel J. Egger(参考訳) 変分量子アルゴリズムは、デジタル量子コンピュータを用いた組合せ最適化問題に対する興味深い展望を提供する。 しかし、そのようなアルゴリズムにおける達成可能な性能と量子相関の役割は未だ不明である。 ここでは、一見無関係な量子距離論の分野との密接な関係を確立することで、この問題に光を当てた: メトロロジカル応用では、感度を高めるために分散の少ないスピンアンサンブルの量子状態を使用し、より精密な組合せマックスカット問題に対する最適解を求める形で、そのような圧縮状態を生成する。 量子近似最適化アルゴリズム(QAOA)を用いてこの最適化問題を解くことにより、様々な量子マシンに適応可能な体系的な手順で高度に絞られた状態が生成されるか、IBM量子チップ上で数値的にも示す。 さらに、MaxCutのQAOA用に調整されたスチーズにより、将来のハードウェアベンチマークのメリットの指標が提案できる。

Variational quantum algorithms offer fascinating prospects for the solution of combinatorial optimization problems using digital quantum computers. However, the achievable performance in such algorithms and the role of quantum correlations therein remain unclear. Here, we shed light on this open issue by establishing a tight connection to the seemingly unrelated field of quantum metrology: Metrological applications employ quantum states of spin-ensembles with a reduced variance to achieve an increased sensitivity, and we cast the generation of such squeezed states in the form of finding optimal solutions to a combinatorial MaxCut problem with an increased precision. By solving this optimization problem with a quantum approximate optimization algorithm (QAOA), we show numerically as well as on an IBM quantum chip how highly squeezed states are generated in a systematic procedure that can be adapted to a wide variety of quantum machines. Moreover, squeezing tailored for the QAOA of the MaxCut permits us to propose a figure of merit for future hardware benchmarks.
翻訳日:2023-02-12 07:45:44 公開日:2022-06-08
# 摂動理論と正方形の和

Perturbation Theory and the Sum of Squares ( http://arxiv.org/abs/2205.12325v2 )

ライセンス: Link先を確認
Matthew B. Hastings(参考訳) sum-of-squares (SoS) 階層は半定値プログラミングに基づく強力な手法であり、古典的および量子最適化の両問題に利用できる。 この階層はいくつかの名前で呼ばれ、特に量子化学では還元密度行列 (reduced density matrix, RDM) と呼ばれる。 スピン系(またはクビット系)、ボゾン系(非調和振動子)、クォート相互作用を持つフェルミオン系(フェルミオン系)の3種類の系の弱い結合摂動理論を再現するこの階層の能力を考える。 このようなフェルミオン系に対しては、次数-$4$ SoS(量子化学において2$-RDMと呼ばれる)が二階摂動理論を再現しないが、次数-$6$ SoS(3$-RDM)が再現する(そして三階摂動理論を再現すると予想する)。 実際、これを可能な6$のsosの断片を特定することは、実際の量子化学計算に有用であり、これは完全な6$sosよりも少ないコストでこの断片を実装することができるためである。 注目すべきことに、この断片は、Sachdev-Ye-Kitaev(SYK)モデルのためにHastingsとO'Donnellによって研究されたものと非常に似ている。

The sum-of-squares (SoS) hierarchy is a powerful technique based on semi-definite programming that can be used for both classical and quantum optimization problems. This hierarchy goes under several names; in particular, in quantum chemistry it is called the reduced density matrix (RDM) method. We consider the ability of this hierarchy to reproduce weak coupling perturbation theory for three different kinds of systems: spin (or qubit) systems, bosonic systems (the anharmonic oscillator), and fermionic systems with quartic interactions. For such fermionic systems, we show that degree-$4$ SoS (called $2$-RDM in quantum chemsitry) does not reproduce second order perturbation theory but degree-$6$ SoS ($3$-RDM) does (and we conjecture that it reproduces third order perturbation theory). Indeed, we identify a fragment of degree-$6$ SoS which can do this, which may be useful for practical quantum chemical calculations as it may be possible to implement this fragment with less cost than the full degree-$6$ SoS. Remarkably, this fragment is very similar to one studied by Hastings and O'Donnell for the Sachdev-Ye-Kitaev (SYK) model.
翻訳日:2023-02-11 21:45:02 公開日:2022-06-08
# 絡み合った2光子吸収の空間的性質

Spatial properties of entangled two-photon absorption ( http://arxiv.org/abs/2206.00500v2 )

ライセンス: Link先を確認
D. Tabakaev, A. Djorovic, L. La Volpe, G. Gaulier, S. Ghosh, L. Bonacina, J.-P. Wolf, H. Zbinden, R. T. Thew(参考訳) 広帯域光子対の高束の空間特性の関数としてロダミン6Gの2光子吸収を実験的に検討した。 まず, 絡み合った2光子吸収速度が絡み合った対流束減衰のタイプに大きく依存することを示す: 線形, レーザポンプパワーが減衰した場合, 二次, 対流束自体が線形損失を経験する場合である。 次に蛍光系z-scan測定を行い, ビームウエストサイズが2光子吸収過程に及ぼす影響を調べ, 従来の1光子および2光子吸収法と比較した。 絡み合った2光子吸収は、従来の2光子吸収と類似したビームウエスト依存性を共有している。 この結果は、文献における染料の2光子吸収断面積の広範囲のコントラスト値に関する追加の議論を示す。

We experimentally study entangled two-photon absorption in Rhodamine 6G as a function of the spatial properties of a high flux of broadband entangled photon pairs. We first demonstrate a key signature dependence of the entangled two-photon absorption rate on the type of entangled pair flux attenuation: linear, when the laser pump power is attenuated, and quadratic, when the pair flux itself experiences linear loss. We then perform a fluorescence-based Z-scan measurement to study the influence of beam waist size on the entangled two-photon absorption process and compare this to classical single- and two-photon absorption processes. We demonstrate that the entangled two-photon absorption shares a beam waist dependence similar to that of classical two-photon absorption. This result presents an additional argument for the wide range of contrasting values of quoted entangled two-photon absorption cross-sections of dyes in literature.
翻訳日:2023-02-11 01:12:57 公開日:2022-06-08
# 量子ドット分子からの絡み合ったフォトニッククラスター状態の決定論的生成

Deterministic generation of entangled photonic cluster states from quantum dot molecules ( http://arxiv.org/abs/2206.03647v1 )

ライセンス: Link先を確認
Arian Vezvaee, Paul Hilaire, Matthew F. Doty, Sophia E. Economou(参考訳) フォトニッククラスター状態の生成の成功は、測定に基づく量子計算と量子ネットワークプロトコルの実現において重要なステップである。 異なる固体エミッタからこのような絡み合った状態を生成するためのいくつかの提案が進められている。 これらのプロトコルはそれぞれ、概念と実装の両面で、独自の課題を抱えている。 本研究では,量子ドット分子にホストされたホールスピン量子ビットに基づくスピン-光子界面からの光子クラスター状態の決定論的生成を提案する。 提案プロトコルは既存の提案の難しさの多くを解決し,高い生産率で高絡み合いの多ビットフォトニック状態の実現を実験的に実現するための道を開く。

Successful generation of photonic cluster states is the key step in the realization of measurement-based quantum computation and quantum network protocols. Several proposals for the generation of such entangled states from different solid-state emitters have been put forward. Each of these protocols come with their own challenges in terms of both conception and implementation. In this work we propose deterministic generation of these photonic cluster states from a spin-photon interface based on a hole spin qubit hosted in a quantum dot molecule. Our protocol resolves many of the difficulties of existing proposals and paves the way for an experimentally feasible realization of highly entangled multi-qubit photonic states with a high production rate.
翻訳日:2023-02-10 04:22:44 公開日:2022-06-08
# 量子ウォークを単一量子ビットで実装する

Implementing quantum walks with a single qubit ( http://arxiv.org/abs/2206.03642v1 )

ライセンス: Link先を確認
Qi-Ping Su, Shi-Chao Wang, Yan Chi, Yong-Nan Sun, Li Yu, Zhe Sun, Franco Nori and Chui-Ping Yang(参考訳) 量子ウォークは、普遍量子計算のような量子情報に広く応用されており、量子ウォークの性質を徹底的に探究することが重要である。 単一キュービットのみを用いて離散時間量子ウォーク(DTQW)を実装する新しい手法を提案し, コインとウォーカーを1キュービットの2次元状態空間に符号化し, 単一キュービットゲートのみを用いて操作を実現し, DTQWの高次元最終状態を自然に得る方法を提案する。 この「1量子」アプローチにより、DTQW実験は、多くの量子系やDTQWの量子状態(量子相関やコヒーレンスなど)に基づく全ての性質において、従来の方法と比較してはるかに容易に実現できる。 本研究では,単一光子を用いて1粒子と2粒子のdtqwsを7段階実装する実験を行った。 さらに, DTQW実験では, コインの初期状態の異なるDTQW系の量子相関とコヒーレンス(コインとウォーカーの完全状態に基づく)を系統的に検討し, 検討した。 また, 実験から得られた2粒子dtqwの全状態を用いて, 量子コヒーレンスの蒸留支援法についても検討した。 高次元混合状態における蒸留性コヒーレンスの最大増加は, 上および下界を得ることにより初めて検討された。 我々の研究は、DTQW実験を実装し、量子ウォークの性質をよりよく探求するための新しい扉を開く。

Quantum walks have wide applications in quantum information, such as universal quantum computation, so it is important to explore properties of quantum walks thoroughly. We propose a novel method to implement discrete-time quantum walks (DTQWs) using only a single qubit, in which both coin and walker are encoded in the two-dimensional state space of a single qubit, operations are realized using single-qubit gates only, and high-dimensional final states of DTQWs can be obtained naturally. With this "one-qubit" approach, DTQW experiments can be realized much more easily, compared with previous methods, in most quantum systems and all properties based on quantum states of DTQWs (such as quantum correlation and coherence) can be investigated. By this approach, we experimentally implement one-particle and two-particle DTQWs with seven steps using single photons. Furthermore, we systematically investigate quantum correlations and coherence (based on the full state of the coin and walker) of the DTQW systems with different initial states of the coin, which have not been obtained and studied in DTQW experiments. As an application, we also study the assisted distillation of quantum coherence using the full state of the two-particle DTQW from the experiment. The maximal increase in distillable coherence for high-dimensional mixed states is investigated for the first time by obtaining its upper and lower bounds. Our work opens a new door to implement DTQW experiments and to better explore properties of quantum walks.
翻訳日:2023-02-10 04:22:36 公開日:2022-06-08
# 変分量子固有ソフラーと機械学習の統合による正確なポテンシャルエネルギー表面の探索

Exploring accurate potential energy surfaces via integrating variational quantum eigensovler with machine learning ( http://arxiv.org/abs/2206.03637v1 )

ライセンス: Link先を確認
Yanxian Tao, Xiongzhi Zeng, Yi Fan, Jie Liu, Zhenyu Li, Jinlong Yang(参考訳) ポテンシャルエネルギー表面(PES)は様々な化学反応過程を解釈するために重要である。 しかし, 計算コストが高いため, 高レベル電子構造法を用いて正確なpesの予測は難しい課題である。 量子コンピューティングの魅力ある応用として、変分量子アルゴリズムが機械学習(ML)技術と統合され、正確なPSSを探索するための有望なスキームとなることを示す。 mlモデルを用いてポテンシャルエネルギーを表現するのとは異なり、分子幾何情報をディープニューラルネットワーク(dnn)にエンコードし、変動量子固有ソルバ(vqe)のパラメータを表現し、pesを波関数ansatzに残す。 DNNモデルを訓練すると、複雑なシステムへのVQEの適用を妨げる変動最適化手順が回避され、PSSの評価が大幅に加速される。 数値計算により、DNNモデルにより、小さな分子に対して正確なPSSを再現できることが示されている。

The potential energy surface (PES) is crucial for interpreting a variety of chemical reaction processes. However, predicting accurate PESs with high-level electronic structure methods is a challenging task due to the high computational cost. As an appealing application of quantum computing, we show in this work that variational quantum algorithms can be integrated with machine learning (ML) techniques as a promising scheme for exploring accurate PESs. Different from using a ML model to represent the potential energy, we encode the molecular geometry information into a deep neural network (DNN) for representing parameters of the variational quantum eigensolver (VQE), leaving the PES to the wave function ansatz. Once the DNN model is trained, the variational optimization procedure that hinders the application of the VQE to complex systems is avoided and thus the evaluation of PESs is significantly accelerated. Numerical results demonstrate that a simple DNN model is able to reproduce accurate PESs for small molecules.
翻訳日:2023-02-10 04:22:13 公開日:2022-06-08
# 環境変化三体エネルギー伝達

Environment-modified three-body energy transfer ( http://arxiv.org/abs/2206.03790v1 )

ライセンス: Link先を確認
Madeline C. Waller and Robert Bennett(参考訳) ドナーからアクセプターへの共鳴エネルギー移動は、原子系と分子系の最も基本的な相互作用の1つである。 現実の状況では、ドナーとアクセプターは孤立していないが、実際には環境や他の原子や分子と結合している。 第三の体の存在はドナーとアクセプターの間のエネルギー移動の速度を、特に3つの部位の系が溶媒のような大きなマクロな背景と相互作用している場合に、顕著で複雑な方法で変更することができる。 この速度は摂動的に計算できるが、それは通常、非常に多くのファインマン様図の総和を必要とする。 そこで本研究では,標準摂動理論に基づく計算の労力を削減する手法を示し,この手法を用いて背景環境における3体共振エネルギー移動率の式を導出する。 原理実証として、誘電体界面近傍に位置する二量体の状態に適用し、遠方の3番目の分子が速度を制御し、系のパラメータに依存する速度の強化と抑制の両方を見いだす。

Resonant energy transfer from a donor to an acceptor is one of the most basic interactions between atomic and molecular systems. In real-life situations, the donor and acceptor are not isolated but in fact coupled to their environment and to other atoms and molecules. The presence of a third body can modify the rate of energy transfer between donor and acceptor in distinctive and intricate ways, especially when the three-site system is itself interacting with a larger macroscopic background such as a solvent. The rate can be calculated perturbatively, which ordinarily requires the summation of very large numbers of Feynman-like diagrams. Here we demonstrate a method based on canonical perturbation theory that allows us to reduce the computational effort required, and use this technique to derive a formula for the rate of three-body resonance energy transfer in a background environment. As a proof-of-principle, we apply this to the situation of a dimer positioned near a dielectric interface, with a distant third molecule controlling the rate, finding both enhancement or suppression of the rate depending on system parameters.
翻訳日:2023-02-10 04:19:55 公開日:2022-06-08
# 任意の時間依存駆動場へのモリス・ショア変換の拡張

Extension of the Morris-Shore transformation to arbitrary time-dependent driving fields ( http://arxiv.org/abs/2206.03783v1 )

ライセンス: Link先を確認
K. N. Zlatanov, A. A. Rangelov, and N. V. Vitanov(参考訳) 複数の状態を含む量子系の時間依存ダイナミクスの処理は、かなりの技術的課題をもたらす。 このようなシステムを扱う上で最も効率的なアプローチの1つはモリス=ショア変換であり、これは多状態力学を単純な相互作用パターンと未結合のオブザーバー状態の独立した系に分解する。 標準MS変換は、両方のRabi周波数が同じ時間プロファイルを持つ必要があるため、状態に対応する外部フィールドの時間依存性に制限を課す。 この研究では、フィールドが異なる時間依存を持つ可能性がある様々な物理的に興味深いプロセスの展望を開く時間依存ms変換のケースを扱います。 我々は,ある州から別の州への人口移動をもたらすMS状態間の人口移動を実証する,断熱的および二重断熱的限界を探求する。 半断熱的通過法と分画的ラマン断熱的通過法を用いて,MS状態間の重ね合わせ状態の生成を実証した。

The treatment of time-dependent dynamics of quantum systems involving multiple states poses considerable technical challenges. One of the most efficient approaches in treating such systems is the Morris-Shore (MS) transformation which decomposes the multistate dynamics to a set of independent systems of simpler interaction pattern and uncoupled spectator states. The standard MS transformation imposes restrictions on the time dependence of the external fields addressing the states, as it requires that both Rabi frequencies have the same time profile. In this work we treat the case of the time-dependent MS transformation, which opens prospects for a variety of physically interesting processes wherein the fields may have different time dependences. We explore the adiabatic and the double-adiabatic limit, in which we demonstrate population transfer between the MS states that results in population transfer from one set of states onto another. We demonstrate the generation of superposition states between the MS states by the techniques of half adiabatic passage and fractional stimulated Raman adiabatic passage, which translate to superpositions of all the states of the involved levels.
翻訳日:2023-02-10 04:19:37 公開日:2022-06-08
# 多重化高次元量子リード・ソロモン符号の資源削減

Resource Reduction in Multiplexed High-Dimensional Quantum Reed-Solomon Codes ( http://arxiv.org/abs/2206.03712v1 )

ライセンス: Link先を確認
Shin Nishio, Nicol\`o Lo Piparo, Michael Hanks, William John Munro and Kae Nemoto(参考訳) 量子通信技術は、近い将来、ネットワークデバイスが一緒になるにつれて、量子情報処理において重要な役割を果たすだろう。 しかし、その実装は、損失とゲートエラーの両方のために依然として難しい課題である。 量子誤り訂正符号はこの問題に対処するための重要な手法である。 特に、量子リード・ソロモン符号は量子通信タスクにおいて非常に効率的であることが知られている。 しかし、高い物理資源を必要とするため、そのようなコードは実際に使用するのが困難である。 量子多重化(quantum multiplexing)と呼ばれる最近の技術は、光子の多重自由度を用いて資源を減らすことが示されている。 本研究では、この量子多重化手法により、より少ない$\rm{cx}$ゲートを用いてマルチ制御ゲートを分解する方法を提案する。 本手法は,量子リード・ソロモン符号の符号化回路に必要な$\rm{CX}$ゲート数を大幅に削減できることを示す。 このアプローチは、グローバーや量子ウォークなど、他の多くの量子誤り訂正符号や量子アルゴリズムにも適用できる。

Quantum communication technologies will play an important role in quantum information processing in the near future as we network devices together. However, their implementation is still a challenging task due to both loss and gate errors. Quantum error correction codes are one important technique to address this issue. In particular, the Quantum Reed-Solomon codes are known to be quite efficient for quantum communication tasks. The high degree of physical resources required, however, makes such a code difficult to use in practice. A recent technique called quantum multiplexing has been shown to reduce resources by using multiple degrees of freedom of a photon. In this work, we propose a method to decompose multi-controlled gates using fewer $\rm{CX}$ gates via this quantum multiplexing technique. We show that our method can significantly reduce the required number of $\rm{CX}$ gates needed in the encoding circuits for the quantum Reed-Solomon code. Our approach is also applicable to many other quantum error correction codes and quantum algorithms, including Grovers and quantum walks.
翻訳日:2023-02-10 04:18:54 公開日:2022-06-08
# ゲルマニウムホール二重量子ドットにおけるゲート可変スピン軌道結合

Gate-Tunable Spin-Orbit Coupling in a Germanium Hole Double Quantum Dot ( http://arxiv.org/abs/2206.03653v1 )

ライセンス: Link先を確認
He Liu, Ting Zhang, Ke Wang, Fei Gao, Gang Xu, Xin Zhang, Shu-Xiao Li, Gang Cao, Ting Wang, Jianjun Zhang, Xuedong Hu, Hai-Ou Li and Guo-Ping Guo(参考訳) 半導体量子ドット系に閉じ込められたホールスピンは、強いスピン軌道相互作用(SOI)と比較的弱い超微細相互作用にかなりの関心を集めている。 ここでは、ゲルマニウム(Ge)ハトワイヤ(HW)の二重量子ドットに調整可能なSOIを実験的に示す。 具体的には、二重量子ドットデバイスにおけるパウリスピン遮断系の輸送スペクトルを測定し、中間トンネル結合を調整することにより、電場調整されたスピン軌道長 lso = 2.0 - 48.9 nm を得る。 このSOIのチューニング性は、Ge HWシステムにおける高忠実度量子ビットの実現への道を開くことができる。

Hole spins confined in semiconductor quantum dot systems have gained considerable interest for their strong spin-orbit interactions (SOIs) and relatively weak hyperfine interactions. Here we experimentally demonstrate a tunable SOI in a double quantum dot in a Germanium (Ge) hut wire (HW), which could help enable fast all-electric spin manipulations while suppressing unwanted decoherence. Specifically, we measure the transport spectra in the Pauli spin blockade regime in the double quantum dot device.By adjusting the interdot tunnel coupling, we obtain an electric field tuned spin-orbit length lso = 2.0 - 48.9 nm. This tunability of the SOI could pave the way toward the realization of high-fidelity qubits in Ge HW systems.
翻訳日:2023-02-10 04:17:33 公開日:2022-06-08
# 半導体量子ドットにおけるスピン量子ビットの単発読み出しのしきい値非依存法

Threshold-independent method for single-shot readout of spin qubits in semiconductor quantum dots ( http://arxiv.org/abs/2206.03650v1 )

ライセンス: Link先を確認
Rui-Zi Hu, Sheng-Kai Zhu, Xin Zhang, Yuan Zhou, Ming Ni, Rong-Long Ma, Zhen-Zhen Kong, Gui-Lei Wang, Gang Cao, Hai-Ou Li and Guo-Ping Guo(参考訳) 単一ショット読み出しデータプロセスは、半導体量子ドット内のフォールトトレラント量子アルゴリズムの高忠実度量子ビットにアクセスするために必須である。 しかしながら、読み取りプロセスの可視性は実験ハードウェアによって制限され、しきい値の選択に敏感である。 本稿では、半導体量子ドットにおけるスピン量子ビットの単発読み出しに対する代替しきい値非依存法について、読み出しのビジビティ、暗数、測定スピン状態確率の線形依存性を示すことにより述べる。 新しいテクニックが60倍効率的で堅牢であることを示す効果的な領域を定義する。 また、異なる読み出し時間としきい値電圧の読み出し可視性は、これらの2つのパラメータが従来の最適化プロセスでは独立ではないことを示している。 さらに, 外部磁場の固定化による電子温度の影響について検討し, 今後0.7k/1.5tまでの単発読み出しの予備実験を行う。

The single-shot readout data process is essential to access high-fidelity qubits for fault-tolerant quantum algorithms in semiconductor quantum dots. However, the visibility of the readout process is limited by the experimental hardwares and is sensitive to the choice of the thresholds. Here, we describe an alternative thresholdindependent method for the single-shot readout of spin qubits in semiconductor quantum dots by demonstrating the linear dependence of the readout visibilities, dark counts, and measured spin state probabilities. We define an effective area to show the new technique is 60 times more efficient and robust. Also, the readout visibility for different readout times and threshold voltages reveals that these two parameters are not independent during the conventional optimizing process. Moreover, we discuss the influence of the electron temperature with a fixed external magnetic field and provide a preliminary demonstration for a single-shot readout up to 0.7 K/1.5 T in the future.
翻訳日:2023-02-10 04:17:18 公開日:2022-06-08
# SME係数の極限を用いたGAPモデルの制約

Constraining GUP Models Using Limits on SME Coefficients ( http://arxiv.org/abs/2206.03995v1 )

ライセンス: Link先を確認
Andr\'e H. Gomes(参考訳) 本稿では,標準モデル拡張の係数の制限を用いた一般化不確実性原理(GUP)に基づくモデル制約に関する最近の取り組みについて概説する。 2つの主要な結果が報告されている: 1) 異方性 GUP モデル上のバウンダリは、以前の分光的バウンダリと比較して 10^{10}$ の係数で改善され、(2) 異方性 GUP モデルが確立され、制約される。

In this proceedings, I outline recent efforts to constrain models based on generalized uncertainty principles (GUP) using limits on coefficients of the Standard-Model Extension. Two main results are reported: (1) bounds on isotropic GUP models are improved by a factor of $10^{10}$ compared to previous spectroscopic bounds; and (2) anisotropic GUP models are established and also constrained.
翻訳日:2023-02-10 04:09:57 公開日:2022-06-08
# XY-ガンマ鎖における量子臨界性と操舵コヒーレンスの特性

Characterizing quantum criticality and steered coherence in the XY-Gamma chain ( http://arxiv.org/abs/2206.03964v1 )

ライセンス: Link先を確認
Zhuan Zhao, Tian-Cheng Yi, Ming Xue, and Wen-Long You(参考訳) 本稿では,様々な種類のカップリングを持つ効果的なスピンハミルトニアンを,原子-分子-光学実験における量子シミュレータを用いて, \emph{xy}-gamma model というモデルを用いて設計できることを示す。 ヨルダン・ウィグナー変換を用いた1次元短距離相互作用を解析的に解き、位相図を定式化する。 ギャップレス相では、ベクトル-キラル相関によって非共分散スパイラル秩序が表される。 異なるガッピング位相の間において、スピン相関やステアリング量子コヒーレンスを含む局所測度の対数スケーリング挙動が量子臨界点に対して同定され、相関長臨界指数の説得的な値が得られる。 量子臨界点近傍の励起ギャップの明示的なスケーリング形式を導出する。 抽出された臨界指数は、友長・ラッティンガー液体の境界上の量子相転移がリフシッツ普遍性クラスに属することを示した。

In this paper, we show that an effective spin Hamiltonian with various types of couplings can be engineered using quantum simulators in atomic-molecular-optical laboratories, dubbed the \emph{XY}-Gamma model. We analytically solve the one-dimensional short-range interacting case with the Jordan-Wigner transformation and establish the phase diagram. In the gapless phase, an incommensurate spiral order is manifested by the vector-chiral correlations. Between distinct gapped phases, a logarithmic scaling behavior of local measures, including spin correlations and the steered quantum coherence, is identified for the quantum critical points, yielding a compelling value of the correlation-length critical exponent. We derive explicit scaling forms of the excitation gap near the quantum critical points. The extracted critical exponents reveal the quantum phase transition on the boundary of Tomonaga-Luttinger liquid belongs to Lifshitz universality class.Our results may provide useful insights into the underlying mechanism in quantum criticality for state-of-the-art experiments of quantum simulation.
翻訳日:2023-02-10 04:09:31 公開日:2022-06-08
# 古典データベースへの量子探索アルゴリズムの適用法

A Method for Application of a Quantum Search Algorithm to Classical Databases ( http://arxiv.org/abs/2206.03938v1 )

ライセンス: Link先を確認
David Jones, Benjamin Varcoe(参考訳) グロバーのアルゴリズムは通常、データベースを探索する手法として提示されるが、より正確には、ある論理節を満たす整数の間隔の要素を特定する方法として記述される。 本稿では、まず、範囲 0:2^n-1 のインデックスの集合からデータベース要素の集合への写像を作成し、これらの要素に節を適用することにより、Grover の探索アルゴリズムを用いた真のデータベース探索を行う。 次に,数値場シーブアルゴリズムを用いて生成した候補解のデータベースをGroverの探索に基づいてDiffie-Hellman暗号システムに対する攻撃の可能性を示す。

Grover's algorithm is normally presented as a method of searching a database, however it would be more accurately described as a method of identifying elements of an interval of the integers which satisfy some logical clause - an example might be identifying binary strings which correspond to the solutions of a Sudoku problem. In this paper we present the first method of performing a true database search using Grover's search algorithm, by first creating a mapping from a set of indices in the range 0:2^n-1 to a set of database elements, then applying the clause to these elements. We then demonstrate the feasibility of an attack against the Diffie-Hellman cryptosystem based on a Grover's search of a database of candidate solutions generated via the number field sieve algorithm.
翻訳日:2023-02-10 04:09:13 公開日:2022-06-08
# 例外直交多項式の超対称性と形状不変性

Supersymmetry and Shape Invariance of exceptional orthogonal polynomials ( http://arxiv.org/abs/2206.03902v1 )

ライセンス: Link先を確認
Satish Yadav, Avinash Khare, Bhabani Prasad Mandal(参考訳) 超対称量子力学(susyqm)の枠組みにおける例外ラゲールと例外ジャコビ直交多項式について考察する。 我々はジャコビとラゲールの例外直交多項式(EOP)の微分方程式を固有値方程式として表現し、時間独立なシュルク・オーディンガー方程式と類似して「ハミルトニア」を定義することにより、SUSYQMの枠組みにおけるEOPの研究を可能にし、そのような系に付随する基礎的な形状不変性を実現する。 これらの多項式に付随する微分方程式の溶解性には, 基礎となる形状不変対称性が関与していることを示す。

We discuss the exceptional Laguerre and the exceptional Jacobi orthogonal polynomials in the framework of the supersymmetric quantum mechanics (SUSYQM). We express the differential equations for the Jacobi and the Laguerre exceptional orthogonal polynomials (EOP) as the eigenvalue equations and make an analogy with the time independent Schr\"odinger equation to define "Hamiltonians" enables us to study the EOPs in the framework of the SUSYQM and to realize the underlying shape invariance associated with such systems. We show that the underlying shape invariance symmetry is responsible for the solubility of the differential equations associated with these polynomials.
翻訳日:2023-02-10 04:09:01 公開日:2022-06-08
# 量子気体を用いた熱機械の汎用的アプローチ

A generic approach to thermal machines with quantum gases ( http://arxiv.org/abs/2206.03856v1 )

ライセンス: Link先を確認
Saikat Sur and Arnab Ghosh(参考訳) 文献では、1つの量子粒子がエネルギー量子化の人工物として熱力学機械として実現でき、したがって古典的なアナログを持たないことが示されている。 しかし、相互作用しない巨大な量子粒子の集合を考えると、その挙動は著しく異なる。 このような熱力学機械は、粒子の統計、化学的ポテンシャル、システムの寸法に依存する。 本研究では, 量子統計力学の役割を生かして, 所望の量子熱エンジンと冷凍機の実現を支援する粒子統計学とシステム次元の観点から, 量子スターリングサイクルの基本的特徴を実証する。 特に、粒子統計学の特異な挙動は、高次元よりも1次元においてかなり関係があることを示し、低次元における量子熱力学シグネチャの顕著な役割を示している。

It has been shown in literature that a single quantum particle can be realized as a thermodynamic machine as an artefact of energy quantization and hence bears no classical analogue. Yet its behaviour can be substantially different if we consider a collection of non-interacting massive indistinguishable quantum particles. Such a thermodynamic machine depends on the statistics of the particles, the chemical potential and the dimensionality of the system. Our detailed analysis demonstrates the fundamental features of quantum Stirling cycles from the view-point of particle-statistics and system dimensions that helps us to realize the desired quantum heat engines and refrigerators by exploiting the role of quantum statistical mechanics. In particular, we have shown that distinctive behaviour of particle statistics is quite pertinent in one dimension than in higher dimensions, indicating the conspicuous role of quantum thermodynamic signature in lower dimensions.
翻訳日:2023-02-10 04:08:48 公開日:2022-06-08
# マルチレベル量子演算の適応コンパイル

Adaptive Compilation of Multi-Level Quantum Operations ( http://arxiv.org/abs/2206.03842v1 )

ライセンス: Link先を確認
Kevin Mato, Martin Ringbauer, Stefan Hillmich, and Robert Wille(参考訳) 量子コンピュータは、古典的コンピュータよりも高い効率で、いくつかの重要な産業的および科学的な問題を解く可能性がある。 現在のほとんどの実現は2レベル量子ビットにフォーカスしているが、ほとんどのハードウェアで使われている基礎となる物理は、概念をマルチレベル論理にまで拡張することができる。 強力な理論的な支持と最近の物理的成果の動機に基づいて、量子回路をそれらのデバイスにコンパイルするための方法とツールも要求する。 効率的なquditコンパイルを実現するために,単一量子システムのためのエネルギー結合グラフの概念を導入し,任意のユニタリをコンパイルするためにこの表現を利用する適応アルゴリズムを提供する。 これにより最先端のコンパイルスキームが大幅に改善され、さらに最悪のケースコストと実行時間のトレードオフオプションが提供される。 開発されたコンパイラはgithub.com/cda-tum/qudit-compilationでオープンソースライセンスで入手できる。

Quantum computers have the potential to solve some important industrial and scientific problems with greater efficiency than classical computers. While most current realizations focus on two-level qubits, the underlying physics used in most hardware is capable of extending the concepts to a multi-level logic - enabling the use of qudits, which promise higher computational power and lower error rates. Based on a strong theoretical backing and motivated by recent physical accomplishments, this also calls for methods and tools for compiling quantum circuits to those devices. To enable efficient qudit compilation, we introduce the concept of an energy coupling graph for single-qudit systems and provide an adaptive algorithm that leverages this representation for compiling arbitrary unitaries. This leads to significant improvements over the state-of-the-art compilation scheme and, additionally, provides an option to trade-off worst-case costs and run-time. The developed compiler is available via github.com/cda-tum/qudit-compilation under an open-source license.
翻訳日:2023-02-10 04:08:34 公開日:2022-06-08
# 距離距離メロジのためのバランス付きSPADE検出

Balanced SPADE detection for distance metrology ( http://arxiv.org/abs/2206.05246v1 )

ライセンス: Link先を確認
Luigi Santamaria, Deborah Pallotti, Mario Siciliani de Cumis, Daniele Dequal, Cosmo Lupo(参考訳) 2つの点間距離の高精度測定のために,ホモダイン検出により強化されたhg空間モード多重化(spade)を実装した。 通信に頻繁に使用されるSPADEは、横面の距離を測定するために採用され、異常な性能を示している。 これらの測定は通常クロストークによって制限される。 ここでは,低HGモードに含まれる同時情報のバランス検出により,これらの性能を改善する。 最初の一連の測定では、チャネル間の大きなクロストークで、実際の取得セットアップをシミュレートします。 バランスの取れた検出によりクロストークの効果が抑制され、レイリー限界よりはるかに低い分解能がFWHMの100分の1まで低下することを示す。 再現性テストは、この設定の信頼性を確認する。 第2の測定セットでは、最小のクロストークに最適化された改良されたセットアップで実験を繰り返す。 この改良されたシナリオでは、0.0055 FWHM以内の2つのソースを解くことができるため、数千個のFWHMの精度を実証する。 私たちの知る限りでは、これはこのタイプの最良の測定と比較すると1桁の改善です。

We implement Hermite-Gaussian (HG) spatial-mode demultiplexing (SPADE), boosted by homodyne detection, for high-precision measurements of the transverse distance between two point-sources. Routinely used for telecommunication, SPADE has been adopted to measure distances in the transverse plane, demonstrating extraordinary performances. These measurements are typically limited by cross-talk. Here we improve on these performances by exploiting, through balanced detection, the simultaneous information contained in the lowest HG modes. In a first set of measurements, we simulate a real acquisition setup with large cross-talk between the channels. We show that balanced detection allows us to suppress the effect of cross-talks, yielding a resolution much below the Rayleigh limit, down to one hundredth of the FWHM. A reproducibility test confirms the reliability of this setup. In a second set of measurements, we repeat the experiment with an improved setup optimised for minimal cross-talks. In this improved scenario we demonstrate precision down to few thousands of the FWHM, with the power to resolve two sources within 0.0055 FWHM. To the best of our knowledge this is an improvement of one order of magnitude compared with best measurement of this type.
翻訳日:2023-02-10 04:01:35 公開日:2022-06-08
# 閉じ込められたイオン量子プロセッサにおけるネイティブクディットの絡み合い

Native qudit entanglement in a trapped ion quantum processor ( http://arxiv.org/abs/2206.04104v1 )

ライセンス: Link先を確認
Pavel Hrmo, Benjamin Wilhelm, Lukas Gerster, Martin W. van Mourik, Marcus Huber, Rainer Blatt, Philipp Schindler, Thomas Monz, Martin Ringbauer(参考訳) 量子情報キャリアは、ほとんどの物理システムと同様に、高次元ヒルベルト空間を自然に占有する。 2段階のサブスペースに制限する代わりに、これらの高次元(量子)量子システムは次世代の量子プロセッサの強力なリソースとして出現している。 しかし、これらのシステムのポテンシャルを活用するには、それらの間の望ましい相互作用を生成する効率的な方法が必要となる。 ここでは,トラップイオンキューディットシステムにおけるネイティブ2量子エンタングゲートの実装を,最大5ドルで実験的に実証する。 これは、最近提案された光シフトゲート機構を一般化して、ゲートの単一応用において真のqudit絡み合いを生成することによって達成される。 ゲートは、その次元に依存しないキャリブレーションオーバーヘッドを持つシステムの局所次元にシームレスに適応する。

Quantum information carriers, just like most physical systems, naturally occupy high-dimensional Hilbert spaces. Instead of restricting them to a two-level subspace, these high-dimensional (qudit) quantum systems are emerging as a powerful resource for the next generation of quantum processors. Yet harnessing the potential of these systems requires efficient ways of generating the desired interaction between them. Here, we experimentally demonstrate an implementation of a native two-qudit entangling gate in a trapped-ion qudit system up to dimension $5$. This is achieved by generalizing a recently proposed light-shift gate mechanism to generate genuine qudit entanglement in a single application of the gate. The gate seamlessly adapts to the local dimension of the system with a calibration overhead that is independent of the dimension.
翻訳日:2023-02-10 04:00:24 公開日:2022-06-08
# 熱密度行列はページ曲線を分解する

Thermal density matrix breaks down the Page curve ( http://arxiv.org/abs/2206.04094v1 )

ライセンス: Link先を確認
Dmitry S. Ageev and Irina Ya. Aref'eva(参考訳) 本稿では,有限温度共形物質に囲まれた四次元シュワルツシルトブラックホールにおけるエンタングルメント島とページ曲線について検討する。 有限温度配座物質は、フォック真空上において通常考慮される物質ではなく、熱密度行列によって記述される物質を意味する。 我々は、異なる温度で物質とブラックホールを取り、s波近似を用いてそのような設定の絡み合いエントロピーを計算する。 その結果,最近になって, 島式処方は熱真空中でのコンフォメーション物質の絡み合いエントロピーの指数的増大につながることがわかった。

In this paper, we study entanglement islands and the Page curve in the eternal four-dimensional Schwarzschild black hole surrounded by finite temperature conformal matter. By finite temperature conformal matter we mean the matter described by the thermal density matrix, rather than the usually considered matter above the Fock vacuum. We take the matter and the black hole at different temperatures and calculate the entanglement entropy for such a setup using the s-wave approximation. As a result, we obtain that at late times the island prescription leads to the exponential growth of the entanglement entropy of conformal matter in thermal vacuum.
翻訳日:2023-02-10 04:00:13 公開日:2022-06-08
# 勾配降下を伴う2層reluネットワークの訓練

Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent ( http://arxiv.org/abs/2002.04861v3 )

ライセンス: Link先を確認
David Holzm\"uller and Ingo Steinwart(参考訳) 例えば、he et al. (2015) によって提案され、最小二乗損失の勾配降下を用いてトレーニングされた2層(leaky)reluネットワークは、普遍的に一貫性がない。 具体的には, 1 次元データ生成分布の広いクラスについて記述し, 高確率で勾配降下を行うと, 初期化から遠方へバイアスを移動できないため, 最適化景観の悪い局所的最小値のみを求める。 これらの場合、与えられたネットワークは、対象関数が非線形であっても本質的に線形回帰を行う。 さらに, 多次元分布においてこのような現象が実際に起こること, 確率的勾配降下が同様の挙動を示すこと, を数値的に示す。 また、初期化と最適化の選択がこの振る舞いにどのように影響するかを実証的に示す。

We prove that two-layer (Leaky)ReLU networks initialized by e.g. the widely used method proposed by He et al. (2015) and trained using gradient descent on a least-squares loss are not universally consistent. Specifically, we describe a large class of one-dimensional data-generating distributions for which, with high probability, gradient descent only finds a bad local minimum of the optimization landscape, since it is unable to move the biases far away from their initialization at zero. It turns out that in these cases, the found network essentially performs linear regression even if the target function is non-linear. We further provide numerical evidence that this happens in practical situations, for some multi-dimensional distributions and that stochastic gradient descent exhibits similar behavior. We also provide empirical results on how the choice of initialization and optimizer can influence this behavior.
翻訳日:2023-01-01 19:22:13 公開日:2022-06-08
# 自動パーソナリティ予測 : アンサンブルモデリングを用いた拡張手法

Automatic Personality Prediction; an Enhanced Method Using Ensemble Modeling ( http://arxiv.org/abs/2007.04571v3 )

ライセンス: Link先を確認
Majid Ramezani, Mohammad-Reza Feizi-Derakhshi, Mohammad-Ali Balafar, Meysam Asgari-Chenaghlu, Ali-Reza Feizi-Derakhshi, Narjes Nikzad-Khasmakhi, Mehrdad Ranjbar-Khadivi, Zoleikha Jahanbakhsh-Nagadeh, Elnaz Zafarani-Moattar, Taymaz Rahkar-Farshi(参考訳) 人格は、自分のスピーチや文章で使用する言葉によって顕著に表される。 情報基盤(特にインターネットとソーシャルメディア)を広める結果として、人間のコミュニケーションは顔から顔へ顕著に変化してきた。 一般的に、自動パーソナリティ予測(英: Automatic Personality Prediction, APP)とは、テキスト、音声、画像、ビデオなど、異なるタイプの人間生成/交換コンテンツに対するパーソナリティの自動予測である。 本研究の主な目的は, APPの精度をテキストから向上することである。 そこで本研究では,周波数ベクトルベース,オントロジーベース,リッチオントロジーベース,潜在意味分析(LSA)ベース,深層学習ベース(BiLSTM)メソッドの5つの新しいAPP手法を提案する。 これらの手法は,階層型アテンションネットワーク(HAN)をメタモデルとしたアンサンブルモデリング(スタックング)により,APPの精度を高めるために相互に寄与する。 その結果,アンサンブルモデリングによりAPPの精度が向上することがわかった。

Human personality is significantly represented by those words which he/she uses in his/her speech or writing. As a consequence of spreading the information infrastructures (specifically the Internet and social media), human communications have reformed notably from face to face communication. Generally, Automatic Personality Prediction (or Perception) (APP) is the automated forecasting of the personality on different types of human generated/exchanged contents (like text, speech, image, video, etc.). The major objective of this study is to enhance the accuracy of APP from the text. To this end, we suggest five new APP methods including term frequency vector-based, ontology-based, enriched ontology-based, latent semantic analysis (LSA)-based, and deep learning-based (BiLSTM) methods. These methods as the base ones, contribute to each other to enhance the APP accuracy through ensemble modeling (stacking) based on a hierarchical attention network (HAN) as the meta-model. The results show that ensemble modeling enhances the accuracy of APP.
翻訳日:2022-11-12 03:04:55 公開日:2022-06-08
# 2段階最適化のための2時間フレームワーク:複雑度解析とアクタクリティカルへの応用

A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis and Application to Actor-Critic ( http://arxiv.org/abs/2007.05170v4 )

ライセンス: Link先を確認
Mingyi Hong, Hoi-To Wai, Zhaoran Wang, and Zhuoran Yang(参考訳) 本稿では,2段階最適化のための2段階確率アルゴリズムフレームワークを解析する。 双レベル最適化は、2レベル構造を示す問題のクラスであり、その目標は、(内)最適化問題の最適解となるよう制約された変数を持つ外部目的関数を最小化することである。 内問題に制約がなく,強い凸がある場合,外問題に制約があり,目的関数が滑らかな場合を考える。 このような二段階問題に対処するための2段階確率近似(TTSA)アルゴリズムを提案する。 このアルゴリズムでは、内側の問題にはより大きなステップサイズを持つ確率的勾配更新を用い、外側問題にはより小さなステップサイズで投影された確率的勾配更新を用いる。 TTSAアルゴリズムは,外部問題が強い凸(resp.〜weakly convex)の場合,$\mathcal{O}(K^{-2/3})$-optimal(resp.〜weakly convex)を求める。 ~$\mathcal{o}(k^{-2/5})$-stationary)解、ここでは$k$は総イテレーション数である。 アプリケーションとして,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカル・ポリシー最適化アルゴリズムが利用できることを示す。 重要なことに、自然なアクター批判アルゴリズムは、大域的最適ポリシーと比較して、期待される割引報酬のギャップの観点から$\mathcal{O}(K^{-1/4})$で収束することが示されている。

This paper analyzes a two-timescale stochastic algorithm framework for bilevel optimization. Bilevel optimization is a class of problems which exhibit a two-level structure, and its goal is to minimize an outer objective function with variables which are constrained to be the optimal solution to an (inner) optimization problem. We consider the case when the inner problem is unconstrained and strongly convex, while the outer problem is constrained and has a smooth objective function. We propose a two-timescale stochastic approximation (TTSA) algorithm for tackling such a bilevel problem. In the algorithm, a stochastic gradient update with a larger step size is used for the inner problem, while a projected stochastic gradient update with a smaller step size is used for the outer problem. We analyze the convergence rates for the TTSA algorithm under various settings: when the outer problem is strongly convex (resp.~weakly convex), the TTSA algorithm finds an $\mathcal{O}(K^{-2/3})$-optimal (resp.~$\mathcal{O}(K^{-2/5})$-stationary) solution, where $K$ is the total iteration number. As an application, we show that a two-timescale natural actor-critic proximal policy optimization algorithm can be viewed as a special case of our TTSA framework. Importantly, the natural actor-critic algorithm is shown to converge at a rate of $\mathcal{O}(K^{-1/4})$ in terms of the gap in expected discounted reward compared to a global optimal policy.
翻訳日:2022-11-11 22:45:10 公開日:2022-06-08
# 重みスケールシフト不変正則化によるニューラルネットワークの一般化とロバスト性の向上

Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations ( http://arxiv.org/abs/2008.02965v2 )

ライセンス: Link先を確認
Ziquan Liu, Yufei Cui, Antoni B. Chan(参考訳) ニューラルネットワークにおける重みのl2ノルムをペナライズするために重みの減衰を利用することは、ネットワークの複雑さを定式化する標準的なトレーニングプラクティスである。 本稿では,線形,ReLU,最大プーリング関数などの正の等質な活性化関数を持つネットワークに対して,重み付けの固有ノルムをペナライズするには,重み付けを含む正規化器群が有効でないことを示す。 均質性の結果、ネットワークによって指定された関数は、層間の重みスケールのシフトに不変である。 非効率な正則化器はそのようなシフトに敏感であり、したがってモデルの容量を不規則にし、過度に適合する。 この欠点に対処するために,重み付きスケールシフトに不変であり,ニューラルネットワークの固有ノルムを効果的に制約する改良正規化器を提案する。 導出正規化器は、ネットワークの入力勾配の上限であり、改良された正規化器の最小化は、対向ロバスト性にも寄与する。 残差接続も考慮し、正規化器がそのような残差ネットワークの入力勾配に上界を形成することを示す。 提案する正則化器を各種データセットやニューラルネットワークアーキテクチャに適用し,一般化と対向ロバスト性の向上に有効であることを示す。

Using weight decay to penalize the L2 norms of weights in neural networks has been a standard training practice to regularize the complexity of networks. In this paper, we show that a family of regularizers, including weight decay, is ineffective at penalizing the intrinsic norms of weights for networks with positively homogeneous activation functions, such as linear, ReLU and max-pooling functions. As a result of homogeneity, functions specified by the networks are invariant to the shifting of weight scales between layers. The ineffective regularizers are sensitive to such shifting and thus poorly regularize the model capacity, leading to overfitting. To address this shortcoming, we propose an improved regularizer that is invariant to weight scale shifting and thus effectively constrains the intrinsic norm of a neural network. The derived regularizer is an upper bound for the input gradient of the network so minimizing the improved regularizer also benefits the adversarial robustness. Residual connections are also considered and we show that our regularizer also forms an upper bound to input gradients of such a residual network. We demonstrate the efficacy of our proposed regularizer on various datasets and neural network architectures at improving generalization and adversarial robustness.
翻訳日:2022-11-02 00:34:54 公開日:2022-06-08
# 散逸型深層神経力学系

Dissipative Deep Neural Dynamical Systems ( http://arxiv.org/abs/2011.13492v3 )

ライセンス: Link先を確認
Jan Drgona, Soumya Vasisht, Aaron Tuor, Draguna Vrabie(参考訳) 本稿では,深部ニューラルネットワークを用いた離散時間力学系の解離性と局所漸近安定性について述べる。 ニューラルネットワークの表現をポイントワイドアフィンマップとして活用し、局所線形演算子を露出させ、古典的なシステム解析および設計手法にアクセスできるようにする。 これにより、神経力学系の挙動の「クラック・ザ・ブラックボックス」を、その分散性を評価し、静止点と状態空間の分割を推定できる。 これらの局所線型作用素のノルムを散逸系に蓄積されたエネルギーと、それらの総バイアス項で表される供給率とを関連付ける。 実験により, 重み分解, 活性化関数, バイアス項, 深さの異なる局所線形作用素の動的挙動と固有値スペクトルのばらつきを解析した。

In this paper, we provide sufficient conditions for dissipativity and local asymptotic stability of discrete-time dynamical systems parametrized by deep neural networks. We leverage the representation of neural networks as pointwise affine maps, thus exposing their local linear operators and making them accessible to classical system analytic and design methods. This allows us to "crack open the black box" of the neural dynamical system's behavior by evaluating their dissipativity, and estimating their stationary points and state-space partitioning. We relate the norms of these local linear operators to the energy stored in the dissipative system with supply rates represented by their aggregate bias terms. Empirically, we analyze the variance in dynamical behavior and eigenvalue spectra of these local linear operators with varying weight factorizations, activation functions, bias terms, and depths.
翻訳日:2022-09-20 08:10:59 公開日:2022-06-08
# (参考訳) ジェネレーティブ・アドバイサル・ネットワークと画像に基づくマルウェア分類

Generative Adversarial Networks and Image-Based Malware Classification ( http://arxiv.org/abs/2207.00421v1 )

ライセンス: CC BY 4.0
Huy Nguyen and Fabio Di Troia and Genya Ishigaki and Mark Stamp(参考訳) マルウェアの効率的な除去、マルウェアの脅威レベルの決定、被害推定のためには、マルウェアファミリー分類が重要な役割を果たす。 本稿では,マルウェア実行ファイルから特徴を抽出し,様々なアプローチを用いて画像として表現する。 次に,マルチクラス分類のためのgan(generative adversarial networks)に注目し,ganの結果を,サポートベクターマシン(svm)やxgboost,制限ボルツマンマシン(rbm)など,他の一般的な機械学習技術と比較する。 ac-gan判別器は一般に他の機械学習技術と競合する。 また,画像に基づくマルウェア検出に対する敵対的攻撃に対するgan生成モデルの有用性も評価した。 AC-GAN生成した画像は視覚的に印象的であるが、実際のマルウェア画像と容易に区別できることが分かる。 この結果から,GAN生成画像は敵攻撃においてはほとんど価値がないことが示唆された。

For efficient malware removal, determination of malware threat levels, and damage estimation, malware family classification plays a critical role. In this paper, we extract features from malware executable files and represent them as images using various approaches. We then focus on Generative Adversarial Networks (GAN) for multiclass classification and compare our GAN results to other popular machine learning techniques, including Support Vector Machine (SVM), XGBoost, and Restricted Boltzmann Machines (RBM). We find that the AC-GAN discriminator is generally competitive with other machine learning techniques. We also evaluate the utility of the GAN generative model for adversarial attacks on image-based malware detection. While AC-GAN generated images are visually impressive, we find that they are easily distinguished from real malware images using any of several learning techniques. This result indicates that our GAN generated images would be of little value in adversarial attacks.
翻訳日:2022-07-10 17:24:42 公開日:2022-06-08
# (参考訳) モデルとオントロジーのセマンティック統合によるディジタルエンジニアリング統合と相互運用性の推進

Driving Digital Engineering Integration and Interoperability Through Semantic Integration of Models with Ontologies ( http://arxiv.org/abs/2206.10454v1 )

ライセンス: CC BY 4.0
Daniel Dunbar, Thomas Hagedorn, Mark Blackburn, John Dzielski, Steven Hespelt, Benjamin Kruse, Dinesh Verma, Zhongyuan Yu(参考訳) エンジニアによるソリューションは、自然界においてより複雑で多分野に分かれている。 この進化には、さまざまな抽象化レベルで複数のドメインにまたがるさまざまなエンジニアリングツールスイート間のデータ統合と相互運用性を含む、設計と分析タスクを強化する新しい技術が必要です。 Semantic Web Technologies(SWT)は、データ統合と相互運用性の利点と、複数の異なるモデルに表される知識間の推論を強化する他の機会を提供する。 本稿では,SWTをエンジニアリング設計・解析タスクに組み込むためのDEFII(Digital Engineering Framework for Integration and Interoperability)を紹介する。 このフレームワークはオントロジーに準拠したデータと対話するための3つの表記インターフェイスを含んでいる。 また、SWTによって実現されたツールに依存しないモデル表現を提供する新しいモデルインターフェース仕様図(MISD)も導入されている。 フレームワークの使用は、ツールに依存しない、プロジェクト全体、システム、ミッションにまたがる真実の信頼できる情報源をもたらす。

Engineered solutions are becoming more complex and multi-disciplinary in nature. This evolution requires new techniques to enhance design and analysis tasks that incorporate data integration and interoperability across various engineering tool suites spanning multiple domains at different abstraction levels. Semantic Web Technologies (SWT) offer data integration and interoperability benefits as well as other opportunities to enhance reasoning across knowledge represented in multiple disparate models. This paper introduces the Digital Engineering Framework for Integration and Interoperability (DEFII) for incorporating SWT into engineering design and analysis tasks. The framework includes three notional interfaces for interacting with ontology-aligned data. It also introduces a novel Model Interface Specification Diagram (MISD) that provides a tool-agnostic model representation enabled by SWT that exposes data stored for use by external users through standards-based interfaces. Use of the framework results in a tool-agnostic authoritative source of truth spanning the entire project, system, or mission.
翻訳日:2022-06-27 01:35:11 公開日:2022-06-08
# スパイクニューラルネットワークを用いた神経様論理ゲートを用いたスパイクベースメモリの構築

Construction of a spike-based memory using neural-like logic gates based on Spiking Neural Networks on SpiNNaker ( http://arxiv.org/abs/2206.03957v1 )

ライセンス: Link先を確認
Alvaro Ayuso-Martinez, Daniel Casanueva-Morato, Juan P. Dominguez-Morales, Angel Jimenez-Fernandez and Gabriel Jimenez-Moreno(参考訳) 神経形工学は、生物学的神経系と脳全体の利点の活用を、より効率的でリアルタイムに機能するアプリケーションの設計のために探究するために、研究分野として大きな可能性のために、多くの研究者の努力を集中させる。 できる限り生物学に近いアプリケーションの開発には、スパイクニューラルネットワーク(snn)が使われ、生物学的に賞賛され、第3世代の人工ニューラルネットワーク(anns)を形成する。 一部のsnベースのアプリケーションは、後で使用するためにデータを保存する必要があるため、デジタル回路と何らかの形で生物学において、スパイクメモリが必要である。 この研究は、コンピュータアーキテクチャにおいて最も重要なコンポーネントの1つであるメモリのスパイク実装を示し、完全にスパイクするコンピュータの設計に不可欠である可能性がある。 このスパイクメモリを設計する過程で、異なる中間コンポーネントも実装され、テストされた。 実験はSpiNNakerニューロモルフィックプラットフォーム上で行われ、提示されたブロックの構築に使用されるアプローチを検証することができた。 さらに、このアプローチを使ってスパイクブロックを構築する方法を深く研究し、スパイクロジックゲートとスパイクメモリの両方を含むスパイクコンポーネントの設計に焦点を当てた他の類似の作業で使用されるものとの比較を含む。 すべての実装されたブロックと開発済みのテストはパブリックリポジトリで利用できる。

Neuromorphic engineering concentrates the efforts of a large number of researchers due to its great potential as a field of research, in a search for the exploitation of the advantages of the biological nervous system and the brain as a whole for the design of more efficient and real-time capable applications. For the development of applications as close to biology as possible, Spiking Neural Networks (SNNs) are used, considered biologically-plausible and that form the third generation of Artificial Neural Networks (ANNs). Since some SNN-based applications may need to store data in order to use it later, something that is present both in digital circuits and, in some form, in biology, a spiking memory is needed. This work presents a spiking implementation of a memory, which is one of the most important components in the computer architecture, and which could be essential in the design of a fully spiking computer. In the process of designing this spiking memory, different intermediate components were also implemented and tested. The tests were carried out on the SpiNNaker neuromorphic platform and allow to validate the approach used for the construction of the presented blocks. In addition, this work studies in depth how to build spiking blocks using this approach and includes a comparison between it and those used in other similar works focused on the design of spiking components, which include both spiking logic gates and spiking memory. All implemented blocks and developed tests are available in a public repository.
翻訳日:2022-06-26 14:50:11 公開日:2022-06-08
# 大規模グローバル最適化のためのインクリメンタル再帰ランク付けグループ

Incremental Recursive Ranking Grouping for Large Scale Global Optimization ( http://arxiv.org/abs/2206.04168v1 )

ライセンス: Link先を確認
Marcin Michal Komarnicki, Michal Witold Przewozniczek, Halina Kwasnicka(参考訳) 現実世界の最適化問題は、異なる基盤構造を持つ可能性がある。 ブラックボックス最適化では、決定変数間の依存関係は未知のままである。 しかし、そのような相互作用を正確に発見できる技法もある。 大規模グローバル最適化(LSGO)では、問題は高次元である。 LSGO問題をサブプロブレムに分解し,個別に最適化することが有効であった。 このようなアプローチの有効性は、問題分解の精度に大きく依存する可能性がある。 多くの最先端分解戦略は微分グルーピング(DG)から導かれる。 しかし、ある問題が非加法的に分離可能な部分問題からなる場合、真の相互作用のみを検出する能力は著しく減少する可能性がある。 そこで我々は,この欠陥に悩まされないインクリメンタル再帰的ランク付けグループ(IRRG)を提案する。 IRRGは、最近のDGベースの提案、例えばRecursive DG 3(RDG3)よりもフィットネス機能の評価を消費する。 それにもかかわらず、IRRGやRDG3を埋め込んだ後の協調的共進化フレームワークの有効性は、RDG3に適した付加的に分離可能なサブプロブレムの問題に類似していた。 しかし, 添加性分離性を非添加性に置き換えた結果, IRRGの埋込みは品質が著しく向上した。

Real-world optimization problems may have a different underlying structure. In black-box optimization, the dependencies between decision variables remain unknown. However, some techniques can discover such interactions accurately. In Large Scale Global Optimization (LSGO), problems are high-dimensional. It was shown effective to decompose LSGO problems into subproblems and optimize them separately. The effectiveness of such approaches may be highly dependent on the accuracy of problem decomposition. Many state-of-the-art decomposition strategies are derived from Differential Grouping (DG). However, if a given problem consists of non-additively separable subproblems, their ability to detect only true interactions might decrease significantly. Therefore, we propose Incremental Recursive Ranking Grouping (IRRG) that does not suffer from this flaw. IRRG consumes more fitness function evaluations than the recent DG-based propositions, e.g., Recursive DG 3 (RDG3). Nevertheless, the effectiveness of the considered Cooperative Co-evolution frameworks after embedding IRRG or RDG3 was similar for problems with additively separable subproblems that are suitable for RDG3. However, after replacing the additive separability with non-additive, embedding IRRG leads to results of significantly higher quality.
翻訳日:2022-06-26 14:49:47 公開日:2022-06-08
# 自然とハイブリッド量子アルゴリズムを用いたロボット軌道計画の最適化

Optimization of Robot Trajectory Planning with Nature-Inspired and Hybrid Quantum Algorithms ( http://arxiv.org/abs/2206.03651v1 )

ライセンス: Link先を確認
Martin J. A. Schuetz, J. Kyle Brubaker, Henry Montagu, Yannick van Dijk, Johannes Klepsch, Philipp Ross, Andre Luckow, Mauricio G. C. Resende and Helmut G. Katzgraber(参考訳) 産業規模でロボット軌道計画問題を解く。 我々のエンドツーエンドソリューションは、高度に多目的なランダムキーアルゴリズムとモデル積み上げとアンサンブル技術を統合し、解の洗練のためのパスリリンクを行う。 コア最適化モジュールはバイアス付きランダムキー遺伝的アルゴリズムで構成されている。 問題非依存加群と問題依存加群を分離することにより,制約をネイティブに符号化することで効率的な問題表現を実現する。 シミュレーションアニーリングのような代替アルゴリズムパラダイムへの一般化は単純であることを示す。 産業規模のデータセットに対する数値ベンチマーク結果を提供する。 提案手法は, グリーディベースライン結果より一貫して優れていた。 今日の量子ハードウェアの能力を評価するために、Amazon Braketのqbsolvを使って、量子アニールハードウェアで得られた結果と古典的なアプローチを補完する。 最後に、この問題に対する量子対応ハイブリッドソリューションを提供するため、後者をより大きなパイプラインに統合する方法を示します。

We solve robot trajectory planning problems at industry-relevant scales. Our end-to-end solution integrates highly versatile random-key algorithms with model stacking and ensemble techniques, as well as path relinking for solution refinement. The core optimization module consists of a biased random-key genetic algorithm. Through a distinct separation of problem-independent and problem-dependent modules, we achieve an efficient problem representation, with a native encoding of constraints. We show that generalizations to alternative algorithmic paradigms such as simulated annealing are straightforward. We provide numerical benchmark results for industry-scale data sets. Our approach is found to consistently outperform greedy baseline results. To assess the capabilities of today's quantum hardware, we complement the classical approach with results obtained on quantum annealing hardware, using qbsolv on Amazon Braket. Finally, we show how the latter can be integrated into our larger pipeline, providing a quantum-ready hybrid solution to the problem.
翻訳日:2022-06-26 14:47:18 公開日:2022-06-08
# (参考訳) 可変リカレントオートエンコーダを用いたスマートメータデータ異常検出

Smart Meter Data Anomaly Detection using Variational Recurrent Autoencoders with Attention ( http://arxiv.org/abs/2206.07519v1 )

ライセンス: CC BY 4.0
Wenjing Dai, Xiufeng Liu, Alfred Heller, Per Sieverts Nielsen(参考訳) エネルギーシステムのデジタル化において、センサーとスマートメーターは生産、運用、需要の監視にますます利用されている。 スマートメータデータに基づく異常検出は、適切なアクションのタイムリーな開始と管理の改善の参考となる可能性のあるリスクや異常事象を早期に特定する上で極めて重要である。 しかし、エネルギーシステムからのスマートメーターデータはラベルを欠くことが多く、ノイズや様々なパターンを含む。 一方、異なるエネルギーシナリオと非常に複雑な時間的相関における異常の定義は、異常検出に大きな課題をもたらす。 クラスタベースや距離ベースモデルのような従来の教師なし異常検出アルゴリズムの多くは、ノイズに対して頑健ではなく、時系列の時間依存性や、複数の変数(センサー)間の依存関係を十分に活用していない。 本稿では,注意機構を有する変分再帰オートエンコーダに基づく教師なし異常検出法を提案する。 スマートメータのデータでは,不足した値やグローバル異常を事前に検出して,トレーニング中の貢献を縮小する。 本稿では,vaeベースベースラインアプローチと他の教師なし学習手法を定量的に比較し,その効果と優越性を示す。 本論文は, 産業用暖房プラントからの給水温度異常を実例で検出することで, 提案手法をさらに検証する。

In the digitization of energy systems, sensors and smart meters are increasingly being used to monitor production, operation and demand. Detection of anomalies based on smart meter data is crucial to identify potential risks and unusual events at an early stage, which can serve as a reference for timely initiation of appropriate actions and improving management. However, smart meter data from energy systems often lack labels and contain noise and various patterns without distinctively cyclical. Meanwhile, the vague definition of anomalies in different energy scenarios and highly complex temporal correlations pose a great challenge for anomaly detection. Many traditional unsupervised anomaly detection algorithms such as cluster-based or distance-based models are not robust to noise and not fully exploit the temporal dependency in a time series as well as other dependencies amongst multiple variables (sensors). This paper proposes an unsupervised anomaly detection method based on a Variational Recurrent Autoencoder with attention mechanism. with "dirty" data from smart meters, our method pre-detects missing values and global anomalies to shrink their contribution while training. This paper makes a quantitative comparison with the VAE-based baseline approach and four other unsupervised learning methods, demonstrating its effectiveness and superiority. This paper further validates the proposed method by a real case study of detecting the anomalies of water supply temperature from an industrial heating plant.
翻訳日:2022-06-19 23:49:24 公開日:2022-06-08
# xr用エッジaiハードウェアのメモリ指向設計空間探索

Memory-Oriented Design-Space Exploration of Edge-AI Hardware for XR Applications ( http://arxiv.org/abs/2206.06780v1 )

ライセンス: Link先を確認
Vivek Parmar, Syed Shakib Sarwar, Ziyun Li, Hsien-Hsin S. Lee, Barbara De Salvo, Manan Suri(参考訳) 低消費電力エッジAI機能は、Metaverseのビジョンをサポートするためにデバイス上の拡張現実(XR)アプリケーションに不可欠である。 本稿では,2つの代表的なXRワークロードについて検討する。 (i)手の検出及び (ii)ハードウェアデザイン空間探査のためのアイセグメンテーション。 どちらのアプリケーションでも、ディープニューラルネットワークをトレーニングし、量子化とハードウェア固有のボトルネックの影響を分析します。 シミュレーションにより,CPUと2つのシストリック推論アクセラレータの実装を評価する。 次に、これらのハードウェアソリューションを高度な技術ノードと比較する。 最先端の非揮発性メモリ技術(STT/SOT/VGSOT MRAM)をXR-AI推論パイプラインに統合した影響を評価した。 その結果,7nmノードで設計したメモリ階層に不揮発性メモリを導入することで,手指検出(IPS=40)と目指分割(IPS=6)に有意なエネルギー利得(>=80%)を達成できることがわかった。 さらに,従来のSRAMと比較して,MRAMの形状因子が小さいため,面積(>=30%)を大幅に削減できる。

Low-Power Edge-AI capabilities are essential for on-device extended reality (XR) applications to support the vision of Metaverse. In this work, we investigate two representative XR workloads: (i) Hand detection and (ii) Eye segmentation, for hardware design space exploration. For both applications, we train deep neural networks and analyze the impact of quantization and hardware specific bottlenecks. Through simulations, we evaluate a CPU and two systolic inference accelerator implementations. Next, we compare these hardware solutions with advanced technology nodes. The impact of integrating state-of-the-art emerging non-volatile memory technology (STT/SOT/VGSOT MRAM) into the XR-AI inference pipeline is evaluated. We found that significant energy benefits (>=80%) can be achieved for hand detection (IPS=40) and eye segmentation (IPS=6) by introducing non-volatile memory in the memory hierarchy for designs at 7nm node while meeting minimum IPS (inference per second). Moreover, we can realize substantial reduction in area (>=30%) owing to the small form factor of MRAM compared to traditional SRAM.
翻訳日:2022-06-19 23:05:55 公開日:2022-06-08
# 二元一次元畳み込みニューラルネットワークによる発作予測

Binary Single-dimensional Convolutional Neural Network for Seizure Prediction ( http://arxiv.org/abs/2206.07518v1 )

ライセンス: Link先を確認
Shiqi Zhao, Jie Yang, Yankun Xu, and Mohamad Sawan(参考訳) 近年,てんかん発作予測の課題に取り組むために,いくつかの深層学習法が提案されている。 しかし、これらの方法は、大きなハードウェアとそれに対応する高消費電力のため、移植可能または効率的なウェアラブルデバイスの一部として実装することはできない。 それらは通常、複雑な特徴抽出プロセス、高精度なパラメータを格納するための大きなメモリ、複雑な演算計算を必要とする。 さらに、画像認識アプリケーションから直接ネットワークアーキテクチャを採用するため、EEG信号の特性を正確に考慮することができないため、予測性能が劣る。 本稿では,2次元畳み込みニューラルネットワーク(BSDCNN)という,てんかん発作の予測を目的としたハードウェアフレンドリーなネットワークを提案する。 BSDCNNは1D畳み込みカーネルを使用して予測性能を向上させる。 第一層を除いて、全てのパラメータは、必要な計算とストレージを減らすために双項化される。 曲線、感度、誤予測率は、それぞれAESデータセットとCHB-MITデータセットで0.915、89.26%、0.117/h、0.970、94.69%、0.095/hに達する。 提案アーキテクチャは,パラメータと計算量に対して,それぞれ7.2倍,25.5倍の削減を実現した。

Nowadays, several deep learning methods are proposed to tackle the challenge of epileptic seizure prediction. However, these methods still cannot be implemented as part of implantable or efficient wearable devices due to their large hardware and corresponding high-power consumption. They usually require complex feature extraction process, large memory for storing high precision parameters and complex arithmetic computation, which greatly increases required hardware resources. Moreover, available yield poor prediction performance, because they adopt network architecture directly from image recognition applications fails to accurately consider the characteristics of EEG signals. We propose in this paper a hardware-friendly network called Binary Single-dimensional Convolutional Neural Network (BSDCNN) intended for epileptic seizure prediction. BSDCNN utilizes 1D convolutional kernels to improve prediction performance. All parameters are binarized to reduce the required computation and storage, except the first layer. Overall area under curve, sensitivity, and false prediction rate reaches 0.915, 89.26%, 0.117/h and 0.970, 94.69%, 0.095/h on American Epilepsy Society Seizure Prediction Challenge (AES) dataset and the CHB-MIT one respectively. The proposed architecture outperforms recent works while offering 7.2 and 25.5 times reductions on the size of parameter and computation, respectively.
翻訳日:2022-06-19 23:05:13 公開日:2022-06-08
# ベイズニューラルネットワークの定量的性能評価

Quantitative performance evaluation of Bayesian neural networks ( http://arxiv.org/abs/2206.06779v1 )

ライセンス: Link先を確認
Brian Staber, S\'ebastien da Veiga(参考訳) 深層ニューラルネットワークが科学や工学の多くの分野で採用されているため、その不確かさをモデル化し、推定することが重要になっている。 ベイズニューラルネットワーク、アンサンブル、決定論的近似など様々なアプローチが研究されている。 ディープラーニングにおける不確かさの定量化に関する謎が高まっているにもかかわらず、不確実性推定の質は未解決の問題のままである。 本研究では,信頼領域の品質と生成したサンプルが未知のターゲット分布をどの程度よく表しているかを評価することにより,サンプリングおよび回帰タスクにおける複数のアルゴリズムの性能評価を試みる。 この目的のために、いくつかのサンプリングおよび回帰タスクが検討され、選択されたアルゴリズムは、カバレッジ確率、カーネル化されたスタインの相違、最大平均相違の観点から比較される。

Due to the growing adoption of deep neural networks in many fields of science and engineering, modeling and estimating their uncertainties has become of primary importance. Various approaches have been investigated including Bayesian neural networks, ensembles, deterministic approximations, amongst others. Despite the growing litterature about uncertainty quantification in deep learning, the quality of the uncertainty estimates remains an open question. In this work, we attempt to assess the performance of several algorithms on sampling and regression tasks by evaluating the quality of the confidence regions and how well the generated samples are representative of the unknown target distribution. Towards this end, several sampling and regression tasks are considered, and the selected algorithms are compared in terms of coverage probabilities, kernelized Stein discrepancies, and maximum mean discrepancies.
翻訳日:2022-06-19 22:46:16 公開日:2022-06-08
# (参考訳) BirdCLEF 2022におけるモチーフマイニングと教師なし表現学習

Motif Mining and Unsupervised Representation Learning for BirdCLEF 2022 ( http://arxiv.org/abs/2206.04805v1 )

ライセンス: CC BY 4.0
Anthony Miyaguchi, Jiangyue Yu, Bryan Cheungvivatpant, Dakota Dudley, Aniketh Swain(参考訳) 教師なし手法を用いたBirdCLEF 2022チャレンジの分類モデルを構築した。 音声モチーフのスペクトル表現における三重項損失を用いたトレーニングデータセットの教師なし表現を実装した。 私たちの最高のモデルは、公開リーダーボードでスコア0.48で実行されます。

We build a classification model for the BirdCLEF 2022 challenge using unsupervised methods. We implement an unsupervised representation of the training dataset using a triplet loss on spectrogram representation of audio motifs. Our best model performs with a score of 0.48 on the public leaderboard.
翻訳日:2022-06-14 08:52:59 公開日:2022-06-08
# (参考訳) 深層学習における構文的帰納的バイアス

Syntactic Inductive Biases for Deep Learning Methods ( http://arxiv.org/abs/2206.04806v1 )

ライセンス: CC BY 4.0
Yikang Shen(参考訳) 本論文では,深層学習モデルに構文的帰納的バイアスを導入することで,両学派のつながりを築こうとしている。 帰納バイアスの2つのファミリーを提案する。1つは構成構造、もう1つは依存構造である。 構成的帰納バイアスは、ディープラーニングモデルが異なる単位(またはニューロン)を使用して、長期的な情報と短期的な情報を別々に処理することを奨励する。 この分離により、ディープラーニングモデルはシーケンシャルな入力から潜在階層的な表現を構築することができ、より高いレベルの表現は構成され、一連の下位レベルの表現に分解できる。 例えば、本モデルでは、基底構造を知らずに、変数や演算子の表現を構文構造に従って表現に変換することにより、論理表現の処理を学習する。 一方、依存性帰納バイアスは、入力シーケンス内のエンティティ間の潜在関係を見つけることをモデルに促す。 自然言語では、潜在関係は通常、単語がちょうど1つの親ノードと0または複数の子ノードを持つ有向依存グラフとしてモデル化される。 この制約をTransformerライクなモデルに適用すると、モデルが人間の専門家のアノテーションに近い有向グラフを誘導し、異なるタスクにおける標準トランスフォーマーモデルよりも優れていることが分かる。 これらの実験結果は、ディープラーニングモデルの将来の発展にとって興味深い代替手段であると信じています。

In this thesis, we try to build a connection between the two schools by introducing syntactic inductive biases for deep learning models. We propose two families of inductive biases, one for constituency structure and another one for dependency structure. The constituency inductive bias encourages deep learning models to use different units (or neurons) to separately process long-term and short-term information. This separation provides a way for deep learning models to build the latent hierarchical representations from sequential inputs, that a higher-level representation is composed of and can be decomposed into a series of lower-level representations. For example, without knowing the ground-truth structure, our proposed model learns to process logical expression through composing representations of variables and operators into representations of expressions according to its syntactic structure. On the other hand, the dependency inductive bias encourages models to find the latent relations between entities in the input sequence. For natural language, the latent relations are usually modeled as a directed dependency graph, where a word has exactly one parent node and zero or several children nodes. After applying this constraint to a Transformer-like model, we find the model is capable of inducing directed graphs that are close to human expert annotations, and it also outperforms the standard transformer model on different tasks. We believe that these experimental results demonstrate an interesting alternative for the future development of deep learning models.
翻訳日:2022-06-14 08:45:26 公開日:2022-06-08
# (参考訳) 局所ラプラシアンフィルタのためのガウス型フーリエピラミッド

Gaussian Fourier Pyramid for Local Laplacian Filter ( http://arxiv.org/abs/2206.04681v1 )

ライセンス: CC BY 4.0
Yuto Sumiya, Tomoki Otsuka, Yoshihiro Maeda, Norishige Fukushima(参考訳) 画像処理やコンピュータグラフィックスではマルチスケール処理が不可欠である。 Halosはマルチスケール処理の中心的な問題である。 いくつかのエッジ保存分解は、例えば局所ラプラシアフィルター(LLF)のようなハロを分解し、ラプラシアピラミッドをエッジ保存特性を持つように拡張する。 そのため、高速LLFの近似加速度が複数のラプラシアピラミッドを線形に補間するために提案された。 本稿では、フーリエ級数展開によるフーリエLSFの精度をさらに向上する。 その結果,Fourier LLFは同じ数のピラミッドに対して高い精度が得られた。 さらに、Fourier LLFは、コンテンツ適応フィルタリングのパラメータ適応性を示す。 コードは、https://nori Shigefukushima.github.io/GaussianFourierPyramid/で入手できる。

Multi-scale processing is essential in image processing and computer graphics. Halos are a central issue in multi-scale processing. Several edge-preserving decompositions resolve halos, e.g., local Laplacian filtering (LLF), by extending the Laplacian pyramid to have an edge-preserving property. Its processing is costly; thus, an approximated acceleration of fast LLF was proposed to linearly interpolate multiple Laplacian pyramids. This paper further improves the accuracy by Fourier series expansion, named Fourier LLF. Our results showed that Fourier LLF has a higher accuracy for the same number of pyramids. Moreover, Fourier LLF exhibits parameter-adaptive property for content-adaptive filtering. The code is available at: https://norishigefukushima.github.io/GaussianFourierPyramid/.
翻訳日:2022-06-14 08:44:08 公開日:2022-06-08
# ReCo: 住宅用コミュニティレイアウトプランニング用データセット

ReCo: A Dataset for Residential Community Layout Planning ( http://arxiv.org/abs/2206.04678v1 )

ライセンス: Link先を確認
Xi Chen, Yun Xiong, Siqi Wang, Haofen Wang, Tao Sheng, Yao Zhang, Yu Ye(参考訳) レイアウト計画は建築と都市デザインの分野において中心的に重要である。 都市機能を有する様々な基本単位の中で、住宅コミュニティは人間の生活を支える重要な役割を担っている。 そのため,住宅群落のレイアウト計画は常に問題であり,自動レイアウト生成や空間パターン認識を容易にするディープラーニングの出現以降,特に注目されている。 しかし、研究サークルは一般的に、住宅コミュニティレイアウトベンチマークや高品質データセットの不足に苦しんでおり、住宅コミュニティレイアウト計画のためのデータ駆動型手法の今後の探求を妨げている。 データセットの欠如は、大規模な実世界の住宅データ取得と長期の専門家スクリーニングの難しさによるところが大きい。 スマートシティ開発における様々なインテリジェントな空間設計・分析アプリケーションのためのベンチマークデータセットの進歩と課題に対処するため,Residential Community Layout Planning (ReCo) Datasetを紹介した。 ReCo Datasetは、37,646人の居住コミュニティレイアウトプランを持つ複数のデータ形式で提供され、598,728の住宅情報を含む。 recoは、生成的レイアウト設計、形態的パターン認識、空間評価など、住宅コミュニティレイアウトに関連した都市デザインタスクに便利に対応できる。 自動化された住宅コミュニティレイアウト計画におけるrecoの有用性を検証するために、データセットに、gan(generative adversarial network)ベースの生成モデルをさらに適用する。 ReCo Datasetは、インテリジェントデザインなどにおいて、より創造的で実践的な仕事を刺激することを期待しています。 ReCo Datasetはhttps://www.kaggle.com/fdudsde/reco-datasetで公開されている。

Layout planning is centrally important in the field of architecture and urban design. Among the various basic units carrying urban functions, residential community plays a vital part for supporting human life. Therefore, the layout planning of residential community has always been of concern, and has attracted particular attention since the advent of deep learning that facilitates the automated layout generation and spatial pattern recognition. However, the research circles generally suffer from the insufficiency of residential community layout benchmark or high-quality datasets, which hampers the future exploration of data-driven methods for residential community layout planning. The lack of datasets is largely due to the difficulties of large-scale real-world residential data acquisition and long-term expert screening. In order to address the issues and advance a benchmark dataset for various intelligent spatial design and analysis applications in the development of smart city, we introduce Residential Community Layout Planning (ReCo) Dataset, which is the first and largest open-source vector dataset related to real-world community to date. ReCo Dataset is presented in multiple data formats with 37,646 residential community layout plans, covering 598,728 residential buildings with height information. ReCo can be conveniently adapted for residential community layout related urban design tasks, e.g., generative layout design, morphological pattern recognition and spatial evaluation. To validate the utility of ReCo in automated residential community layout planning, a Generative Adversarial Network (GAN) based generative model is further applied to the dataset. We expect ReCo Dataset to inspire more creative and practical work in intelligent design and beyond. The ReCo Dataset is published at: https://www.kaggle.com/fdudsde/reco-dataset.
翻訳日:2022-06-13 15:35:15 公開日:2022-06-08
# POODLE: アウト・オブ・ディストリビューション・サンプルのペナルティ化による一括学習の改善

POODLE: Improving Few-shot Learning via Penalizing Out-of-Distribution Samples ( http://arxiv.org/abs/2206.04679v1 )

ライセンス: Link先を確認
Duong H. Le, Khoi D. Nguyen, Khoi Nguyen, Quoc-Huy Tran, Rang Nguyen, Binh-Son Hua(参考訳) そこで本研究では,対象クラス外からのラベル付きサンプルの配布外サンプルを用いて,数発の学習を改善することを提案する。 具体的には、配布外サンプル(サポート、クエリデータなど)を最小化しつつ、プロトタイプから配布外サンプルまでの距離を最大化することで、配布外サンプルを利用して分類器を駆動する。 提案手法は実装が簡単で,特徴抽出器に依存せず,事前学習のコストを必要とせず軽量であり,インダクティブ設定とトランスダクティブ設定の両方に適用できる。 様々な標準ベンチマーク実験により,提案手法はアーキテクチャの異なる事前学習ネットワークの性能を一貫して改善することを示した。

In this work, we propose to use out-of-distribution samples, i.e., unlabeled samples coming from outside the target classes, to improve few-shot learning. Specifically, we exploit the easily available out-of-distribution samples to drive the classifier to avoid irrelevant features by maximizing the distance from prototypes to out-of-distribution samples while minimizing that of in-distribution samples (i.e., support, query data). Our approach is simple to implement, agnostic to feature extractors, lightweight without any additional cost for pre-training, and applicable to both inductive and transductive settings. Extensive experiments on various standard benchmarks demonstrate that the proposed method consistently improves the performance of pretrained networks with different architectures.
翻訳日:2022-06-13 15:28:35 公開日:2022-06-08
# 変分量子回路に基づく関数回帰の理論的誤差性能解析

Theoretical Error Performance Analysis for Variational Quantum Circuit Based Functional Regression ( http://arxiv.org/abs/2206.04804v1 )

ライセンス: Link先を確認
Jun Qi, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hsiu Hsieh(参考訳) ノイズの多い中間スケール量子(NISQ)デバイスは、量子ニューラルネットワーク(QNN)のための変分量子回路(VQC)の実装を可能にする。 VQCベースのQNNは多くの機械学習タスクに成功しているが、VQCの表現と一般化の力は、特に古典的な入力の次元的減少に関するさらなる調査を必要とする。 本研究では、まず、次元減少のためのテンソルトレインネットワーク(TTN)に基づく量子テンソルネットワークと、機能回帰のためのVQCからなる、エンドツーエンドの量子ニューラルネットワーク、TTN-VQCを提案する。 次に,ttn-vqcの表現力と一般化力の観点から誤差性能解析を行う。 また,polyak-Lojasiewicz (PL) 条件を利用してTTN-VQCの最適化特性を特徴付ける。 さらに、手書き桁分類データセット上で関数回帰の実験を行い、理論解析を正当化する。

The noisy intermediate-scale quantum (NISQ) devices enable the implementation of the variational quantum circuit (VQC) for quantum neural networks (QNN). Although the VQC-based QNN has succeeded in many machine learning tasks, the representation and generalization powers of VQC still require further investigation, particularly when the dimensionality reduction of classical inputs is concerned. In this work, we first put forth an end-to-end quantum neural network, namely, TTN-VQC, which consists of a quantum tensor network based on a tensor-train network (TTN) for dimensionality reduction and a VQC for functional regression. Then, we aim at the error performance analysis for the TTN-VQC in terms of representation and generalization powers. We also characterize the optimization properties of TTN-VQC by leveraging the Polyak-Lojasiewicz (PL) condition. Moreover, we conduct the experiments of functional regression on a handwritten digit classification dataset to justify our theoretical analysis.
翻訳日:2022-06-13 15:24:51 公開日:2022-06-08
# エージェント設計のタスクモデルに基づく質問応答としての説明

Explanation as Question Answering based on a Task Model of the Agent's Design ( http://arxiv.org/abs/2206.05030v1 )

ライセンス: Link先を確認
Ashok Goel, Harshvardhan Sikka, Vrinda Nandan, Jeonghyun Lee, Matt Lisle, Spencer Rugaber(参考訳) 我々は、人間中心とデザインに基づくAIエージェントにおける説明の生成に対するスタンスを説明する。 フォーカスグループによる参加型デザインを通じて,aiエージェントの作業に関する質問を収集する。 我々は、エージェントのタスクと目標を明確に指定したタスクメソッド知識モデルと、タスクを達成するために使用するメカニズム、知識、語彙を通してエージェントの設計をキャプチャする。 当社のアプローチは、労働者のスキルアップとリスキルのために企業と大学をリンクするAIエージェントであるSkillsyncでの説明の生成を通じて説明します。 特に、AskJillという質問応答エージェントをSkillsyncに埋め込み、そこでAskJillはSkillsyncの設計のTMKモデルを含む。 AskJillは現在、Skillsyncのタスクと語彙に関する人間による質問に答え、どのようにリコメンデーションを生成するかを説明するのに役立っている。

We describe a stance towards the generation of explanations in AI agents that is both human-centered and design-based. We collect questions about the working of an AI agent through participatory design by focus groups. We capture an agent's design through a Task-Method-Knowledge model that explicitly specifies the agent's tasks and goals, as well as the mechanisms, knowledge and vocabulary it uses for accomplishing the tasks. We illustrate our approach through the generation of explanations in Skillsync, an AI agent that links companies and colleges for worker upskilling and reskilling. In particular, we embed a question-answering agent called AskJill in Skillsync, where AskJill contains a TMK model of Skillsync's design. AskJill presently answers human-generated questions about Skillsync's tasks and vocabulary, and thereby helps explain how it produces its recommendations.
翻訳日:2022-06-13 15:23:02 公開日:2022-06-08
# バックドア攻撃は時変モデルを救えるか?

Can Backdoor Attacks Survive Time-Varying Models? ( http://arxiv.org/abs/2206.04677v1 )

ライセンス: Link先を確認
Huiying Li, Arjun Nitin Bhagoji, Ben Y. Zhao, Haitao Zheng(参考訳) バックドアはディープニューラルネットワーク(DNN)に対する強力な攻撃である。 トレーニングデータを汚染することにより、攻撃者はDNNに隠れたルール(バックドア)を注入できる。 既存の作業では、さまざまなDNNモデルに対するバックドアアタックを研究してきたが、彼らは、初期デプロイ後も変わらない静的モデルのみを考慮する。 本稿では, モデル重みを周期的に更新し, 時間とともにデータ分布のドリフトを処理する, より現実的なDNNモデルのシナリオに対するバックドア攻撃の影響について検討する。 具体的には,モデル更新に対するバックドアの「生存可能性」を実験的に定量化し,攻撃パラメータ,データドリフト挙動,モデル更新戦略がバックドア生存性にどのように影響するかを検討する。 その結果,攻撃者がトリガーサイズや中毒率を積極的に増やしても,ワンショットバックドア攻撃(訓練データ1回のみの毒殺)はいくつかのモデル更新を乗り越えないことが分かった。 モデル更新の影響を受けないように、攻撃者はトレーニングパイプラインに破損したデータを継続的に導入する必要がある。 これらの結果は、新しいデータを学ぶためにモデルが更新されると、バックドアを隠された悪意のある機能として“忘れる”ことを示しています。 古いトレーニングデータと新しいトレーニングデータの分散シフトが大きいほど、バックドアの高速化は忘れられます。 これらの知見を活用することで、モデル更新中のバックドアの忘れをさらに加速するために、スマートな学習レートスケジューラを適用し、ワンショットバックドアが1つのモデルアップデートを乗り越えることを防ぐ。

Backdoors are powerful attacks against deep neural networks (DNNs). By poisoning training data, attackers can inject hidden rules (backdoors) into DNNs, which only activate on inputs containing attack-specific triggers. While existing work has studied backdoor attacks on a variety of DNN models, they only consider static models, which remain unchanged after initial deployment. In this paper, we study the impact of backdoor attacks on a more realistic scenario of time-varying DNN models, where model weights are updated periodically to handle drifts in data distribution over time. Specifically, we empirically quantify the "survivability" of a backdoor against model updates, and examine how attack parameters, data drift behaviors, and model update strategies affect backdoor survivability. Our results show that one-shot backdoor attacks (i.e., only poisoning training data once) do not survive past a few model updates, even when attackers aggressively increase trigger size and poison ratio. To stay unaffected by model update, attackers must continuously introduce corrupted data into the training pipeline. Together, these results indicate that when models are updated to learn new data, they also "forget" backdoors as hidden, malicious features. The larger the distribution shift between old and new training data, the faster backdoors are forgotten. Leveraging these insights, we apply a smart learning rate scheduler to further accelerate backdoor forgetting during model updates, which prevents one-shot backdoors from surviving past a single model update.
翻訳日:2022-06-13 15:20:35 公開日:2022-06-08
# RT-DNAS:3次元心臓MRI分割のためのリアルタイム制約付き微分型ニューラルネットワーク探索

RT-DNAS: Real-time Constrained Differentiable Neural Architecture Search for 3D Cardiac Cine MRI Segmentation ( http://arxiv.org/abs/2206.04682v1 )

ライセンス: Link先を確認
Qing Lu, Xiaowei Xu, Shunjie Dong, Callie Hao, Lei Yang, Cheng Zhuo, and Yiyu Shi(参考訳) シン磁気共鳴画像(MRI)の正確な時間的フレーム分割は、様々なリアルタイムMRIガイド心的介入において重要なステップである。 高速かつ正確な視覚補助を実現するために、セグメンテーションフレームワークの最大レイテンシと最小スループットに厳格な要件がある。 このタスクの最先端のニューラルネットワークは、高い精度を達成しつつ、これらの制約を満たすために手作りされている。 一方で、既存の文献では、様々な医学的応用において最適なニューラルアーキテクチャを自動同定するニューラルアーキテクチャ探索(nas)の力を実証しているが、それらは主に精度、時には計算の複雑さによって導かれており、リアルタイム制約の重要性は見過ごされている。 大きな課題は、そのような制約が微分不可能であり、広く使われている差別化可能なNASフレームワークと互換性がないことである。 本稿では,RT-DNAS と呼ばれる差別化可能なNAS フレームワークにおいて,リアルタイム制約を直接処理する戦略を提案する。 2017年に拡張されたMICCAI ACDCデータセットの実験によると、最先端のアーキテクチャや自動設計アーキテクチャと比較して、RT-DNASはリアルタイムの制約を満たすことなく、より正確なアーキテクチャを識別できる。

Accurately segmenting temporal frames of cine magnetic resonance imaging (MRI) is a crucial step in various real-time MRI guided cardiac interventions. To achieve fast and accurate visual assistance, there are strict requirements on the maximum latency and minimum throughput of the segmentation framework. State-of-the-art neural networks on this task are mostly hand-crafted to satisfy these constraints while achieving high accuracy. On the other hand, while existing literature have demonstrated the power of neural architecture search (NAS) in automatically identifying the best neural architectures for various medical applications, they are mostly guided by accuracy, sometimes with computation complexity, and the importance of real-time constraints are overlooked. A major challenge is that such constraints are non-differentiable and are thus not compatible with the widely used differentiable NAS frameworks. In this paper, we present a strategy that directly handles real-time constraints in a differentiable NAS framework named RT-DNAS. Experiments on extended 2017 MICCAI ACDC dataset show that compared with state-of-the-art manually and automatically designed architectures, RT-DNAS is able to identify ones with better accuracy while satisfying the real-time constraints.
翻訳日:2022-06-13 15:20:08 公開日:2022-06-08
# (参考訳) CAINNFlow: 異常検出とローカライゼーションタスクのための畳み込みブロック注意モジュールと可逆ニューラルネットワークフロー

CAINNFlow: Convolutional block Attention modules and Invertible Neural Networks Flow for anomaly detection and localization tasks ( http://arxiv.org/abs/2206.01992v3 )

ライセンス: CC BY 4.0
Ruiqing Yan, Fan Zhang, Mengyuan Huang and Wu Liu and Dongyu Hu and Jinfeng Li, Qiang Liu and Jingrong Jiang and Qianjin Guo and Linghan Zheng(参考訳) 物体の異常検出は, 産業プロセスにおいて重要であるが, 多数の欠陥サンプルの取得が困難であり, 実生活における予測不可能な種類の異常が特に重要である。 既存の教師なし異常検出およびローカライズ手法の中で、NFベースのスキームはより良い結果を得た。 しかし、nf 内の 2 つの部分ネット(複素関数) $s_{i}(u_{i})$ と $t_{i}(u_{i})$ は通常多層パーセプトロンであり、入力された視覚特徴を 2d 平面から 1d に絞り込み、特徴マップ内の空間的位置関係を破壊し、空間構造情報を失う必要がある。 本研究は,空間構造情報の保持と抽出を効果的に行うため,正規化フローモデルにおける空間構造情報の保持と抽出が可能な,3\times3$フル畳み込みに組み込んだCBAMを交互に組み込んだ複素関数モデルの設計を行う。 CAINNFlowは、MVTec ADの異常検出のために、CNNとTransformerのバックボーンネットワークを特徴抽出器として、CAINNFlowが高度な精度と推論効率を達成し、CAINNFlowは9,8.64 %のピクセルレベルのAUCを達成している。

Detection of object anomalies is crucial in industrial processes, but unsupervised anomaly detection and localization is particularly important due to the difficulty of obtaining a large number of defective samples and the unpredictable types of anomalies in real life. Among the existing unsupervised anomaly detection and localization methods, the NF-based scheme has achieved better results. However, the two subnets (complex functions) $s_{i}(u_{i})$ and $t_{i}(u_{i})$ in NF are usually multilayer perceptrons, which need to squeeze the input visual features from 2D flattening to 1D, destroying the spatial location relationship in the feature map and losing the spatial structure information. In order to retain and effectively extract spatial structure information, we design in this study a complex function model with alternating CBAM embedded in a stacked $3\times3$ full convolution, which is able to retain and effectively extract spatial structure information in the normalized flow model. Extensive experimental results on the MVTec AD dataset show that CAINNFlow achieves advanced levels of accuracy and inference efficiency based on CNN and Transformer backbone networks as feature extractors, and CAINNFlow achieves a pixel-level AUC of $98.64\%$ for anomaly detection in MVTec AD.
翻訳日:2022-06-12 08:36:31 公開日:2022-06-08
# (参考訳) SHAPを用いた深層学習モデルの説明には背景バランスと説明データが必要である:臨床意思決定に関する実証的研究

Balanced background and explanation data are needed in explaining deep learning models with SHAP: An empirical study on clinical decision making ( http://arxiv.org/abs/2206.04050v1 )

ライセンス: CC BY 4.0
Mingxuan Liu, Yilin Ning, Han Yuan, Marcus Eng Hock Ong, Nan Liu(参考訳) Objective: Shapley Additive explanations (SHAP)はブラックボックスモデルを説明する一般的なポストホック手法である。 データ不均衡が予測モデルに与える影響は広く研究されているが、SHAPに基づくモデル説明に関してはほとんど不明である。 本研究では,データ不均衡が深層学習モデルのSHAP説明に与える影響について検討し,これらの効果を緩和するための戦略を提案する。 対象と方法:ブラックボックスモデルを説明する際に,背景のクラス分布とSHAPの説明データを調整することを提案する。 我々のデータバランス戦略は、クラスを均等に分散した背景データと説明データを構成することである。 本研究では,データ調整がモデル説明に与える影響を評価するために,「不正規」な説明アーチファクトを識別するための定性的ツールとしてbeeswarmプロットを用い,変数の重要度と予測力の一貫性を定量的に検証する。 我々は,MIMIC-IIIデータと多層パーセプトロンを用いて,入院患者の死亡を予測した経験的研究で提案手法を実証した。 結果: データバランス戦略を用いることで,ミツバチプロット内のアーティファクトの数を削減し,データ不均衡の負の効果を軽減することができる。 さらに、バランス戦略により、対応する重要度ランキングの上位変数は差別力の向上を示した。 考察と結論: 背景データと説明データのバランスは, 歪データ分布による説明結果のノイズ低減と, 変数重要度ランキングの信頼性向上に寄与することが示唆された。 さらに、これらのバランスをとることで、臨床応用における異常な特徴を有する患者を識別するSHAPの可能性が向上する。

Objective: Shapley additive explanations (SHAP) is a popular post-hoc technique for explaining black box models. While the impact of data imbalance on predictive models has been extensively studied, it remains largely unknown with respect to SHAP-based model explanations. This study sought to investigate the effects of data imbalance on SHAP explanations for deep learning models, and to propose a strategy to mitigate these effects. Materials and Methods: We propose to adjust class distributions in the background and explanation data in SHAP when explaining black box models. Our data balancing strategy is to compose background data and explanation data with an equal distribution of classes. To evaluate the effects of data adjustment on model explanation, we propose to use the beeswarm plot as a qualitative tool to identify "abnormal" explanation artifacts, and quantitatively test the consistency between variable importance and prediction power. We demonstrated our proposed approach in an empirical study that predicted inpatient mortality using the Medical Information Mart for Intensive Care (MIMIC-III) data and a multilayer perceptron. Results: Using the data balancing strategy would allow us to reduce the number of the artifacts in the beeswarm plot, thus mitigating the negative effects of data imbalance. Additionally, with the balancing strategy, the top-ranked variables from the corresponding importance ranking demonstrated improved discrimination power. Discussion and Conclusion: Our findings suggest that balanced background and explanation data could help reduce the noise in explanation results induced by skewed data distribution and improve the reliability of variable importance ranking. Furthermore, these balancing procedures improve the potential of SHAP in identifying patients with abnormal characteristics in clinical applications.
翻訳日:2022-06-11 06:53:51 公開日:2022-06-08
# (参考訳) 運動量を持つ隠れマルコフモデル

Hidden Markov Models with Momentum ( http://arxiv.org/abs/2206.04057v1 )

ライセンス: CC BY 4.0
Andrew Miller and Fabio Di Troia and Mark Stamp(参考訳) 運動量は勾配降下時の収束率を改善する一般的な手法である。 本研究では,隠れマルコフモデルの学習のためのbaum-welch expectation-maximizationアルゴリズムに運動量を追加する実験を行った。 我々は、英語のテキストとマルウェアの暗号データに基づいてトレーニングされた個別のHidden Markovモデルを比較した。 モデルスコアの変化と運動量による分類精度を測定して運動量の有効性を決定する。 広範な実験により、baum-welchに運動量を加えることで、特にモデルが収束が遅い場合に、hmmトレーニング中に初期収束に必要なイテレーションの数を削減できることが示された。 しかし、モーメントは、多数のイテレーションで最終的なモデルパフォーマンスを改善するようには見えない。

Momentum is a popular technique for improving convergence rates during gradient descent. In this research, we experiment with adding momentum to the Baum-Welch expectation-maximization algorithm for training Hidden Markov Models. We compare discrete Hidden Markov Models trained with and without momentum on English text and malware opcode data. The effectiveness of momentum is determined by measuring the changes in model score and classification accuracy due to momentum. Our extensive experiments indicate that adding momentum to Baum-Welch can reduce the number of iterations required for initial convergence during HMM training, particularly in cases where the model is slow to converge. However, momentum does not seem to improve the final model performance at a high number of iterations.
翻訳日:2022-06-11 06:52:41 公開日:2022-06-08
# (参考訳) 機械学習における公平性のためのIs and How-To: 調査, 考察, 展望

What-Is and How-To for Fairness in Machine Learning: A Survey, Reflection, and Perspective ( http://arxiv.org/abs/2206.04101v1 )

ライセンス: CC BY 4.0
Zeyu Tang, Jiji Zhang, Kun Zhang(参考訳) アルゴリズムの公正さは、機械学習コミュニティで注目を集めている。 文献では様々な定義が提案されているが、その違いや関連性は明確ではない。 本稿では、機械学習文学で提案されている様々な公平性概念を見直し、考察し、道徳哲学や政治哲学、特に正義論の議論との関連を考察する。 また,現在の予測と意思決定によって引き起こされる長期的影響についても,動的観点から公平性に関する問合せを考察する。 識別された公平性の違いに照らして,データ生成過程,予測結果,誘導影響について,異なる種類の公平性質問の暗黙の仮定と期待結果とを包含するフローチャートを提案する。 本稿では、目的を達成するために、ミッション(どんな公正を強制したいのか)と手段(どの公正分析が興味を持つのか、適切な分析手法は何か)を一致させることの重要性を示す。

Algorithmic fairness has attracted increasing attention in the machine learning community. Various definitions are proposed in the literature, but the differences and connections among them are not clearly addressed. In this paper, we review and reflect on various fairness notions previously proposed in machine learning literature, and make an attempt to draw connections to arguments in moral and political philosophy, especially theories of justice. We also consider fairness inquiries from a dynamic perspective, and further consider the long-term impact that is induced by current prediction and decision. In light of the differences in the characterized fairness, we present a flowchart that encompasses implicit assumptions and expected outcomes of different types of fairness inquiries on the data generating process, on the predicted outcome, and on the induced impact, respectively. This paper demonstrates the importance of matching the mission (which kind of fairness one would like to enforce) and the means (which spectrum of fairness analysis is of interest, what is the appropriate analyzing scheme) to fulfill the intended purpose.
翻訳日:2022-06-11 06:51:53 公開日:2022-06-08
# (参考訳) 機械学習による多元対の簡易化

Simplifying Polylogarithms with Machine Learning ( http://arxiv.org/abs/2206.04115v1 )

ライセンス: CC BY 4.0
Aur\'elien Dersy, Matthew D. Schwartz, Xiaoyuan Zhang(参考訳) 対数や対数といった多元関数は、多くの代数的同一性を満たす。 対数について、すべての同一性は積則から従う。 双対と高重の古典多元体では、5つ以上の関数を含むことができる。 素粒子物理学に関連する多くの計算において、多対数の複雑な組合せはしばしばファインマン積分から生じる。 統合から生じる初期表現は通常単純化されるが、どのIDをどの順序で適用するかを知ることはしばしば困難である。 このボトルネックに対処するために、機械学習手法がどの程度役立つのかを探求する。 本研究は,ゲーム中の動きと同一性が類似した強化学習アプローチと,言語翻訳タスクに類似した問題視を行うトランスフォーマーネットワークアプローチの両方を検討する。 どちらの手法も有効であるが、トランスフォーマーネットワークはより強力に見え、数理物理学における記号操作タスクの実用性が期待されている。

Polylogrithmic functions, such as the logarithm or dilogarithm, satisfy a number of algebraic identities. For the logarithm, all the identities follow from the product rule. For the dilogarithm and higher-weight classical polylogarithms, the identities can involve five functions or more. In many calculations relevant to particle physics, complicated combinations of polylogarithms often arise from Feynman integrals. Although the initial expressions resulting from the integration usually simplify, it is often difficult to know which identities to apply and in what order. To address this bottleneck, we explore to what extent machine learning methods can help. We consider both a reinforcement learning approach, where the identities are analogous to moves in a game, and a transformer network approach, where the problem is viewed analogously to a language-translation task. While both methods are effective, the transformer network appears more powerful and holds promise for practical use in symbolic manipulation tasks in mathematical physics.
翻訳日:2022-06-11 06:50:59 公開日:2022-06-08
# (参考訳) モチーフスキャフォールディング問題に対する3次元タンパク質骨格の拡散確率的モデリング

Diffusion probabilistic modeling of protein backbones in 3D for the motif-scaffolding problem ( http://arxiv.org/abs/2206.04119v1 )

ライセンス: CC BY 4.0
Brian L. Trippe, Jason Yim, Doug Tischer, Tamara Broderick, David Baker, Regina Barzilay, Tommi Jaakkola(参考訳) 所望のモチーフ(タンパク質機能を参照)をサポートする足場構造の構築は、ワクチンや酵素の設計を約束する。 しかし、このモチーフ・スキャフォールディング問題に対する一般的な解決策は未解決である。 現在の足場設計のための機械学習技術は、非現実的に小さな足場(長さ20まで)に限られるか、複数の多様な足場を作り出すのに苦労している。 本稿では,e(3)-同変グラフニューラルネットワークを用いて,多様で長大なタンパク質骨格構造上の分布を学習する。 所与のモチーフに条件付き分布からスキャフォールドを効率よくサンプリングするSMCDiffを開発した。このアルゴリズムは,大域的極限における拡散モデルから条件付きサンプルを理論的に保証する最初の方法である。 設計したバックボーンをAlphaFold2予測構造との整合性で評価する。 本手法は,(1)最大80残基の足場を採取し,(2)固定モチーフに対して構造的に多様な足場を作製できることを示す。

Construction of a scaffold structure that supports a desired motif, conferring protein function, shows promise for the design of vaccines and enzymes. But a general solution to this motif-scaffolding problem remains open. Current machine-learning techniques for scaffold design are either limited to unrealistically small scaffolds (up to length 20) or struggle to produce multiple diverse scaffolds. We propose to learn a distribution over diverse and longer protein backbone structures via an E(3)-equivariant graph neural network. We develop SMCDiff to efficiently sample scaffolds from this distribution conditioned on a given motif; our algorithm is the first to theoretically guarantee conditional samples from a diffusion model in the large-compute limit. We evaluate our designed backbones by how well they align with AlphaFold2-predicted structures. We show that our method can (1) sample scaffolds up to 80 residues and (2) achieve structurally diverse scaffolds for a fixed motif.
翻訳日:2022-06-11 06:48:25 公開日:2022-06-08
# (参考訳) スパース4次元畳み込みを用いた3次元LiDARデータの移動物体分割

Receding Moving Object Segmentation in 3D LiDAR Data Using Sparse 4D Convolutions ( http://arxiv.org/abs/2206.04129v1 )

ライセンス: CC BY 4.0
Benedikt Mersch, Xieyuanli Chen, Ignacio Vizzo, Lucas Nunes, Jens Behley, Cyrill Stachniss(参考訳) 自動運転車の重要な課題は、目に見えない動的環境をナビゲートすることだ。 移動中のオブジェクトを静的なオブジェクトから分離することは、ナビゲーション、ポーズ推定、および他のトラフィック参加者が近い将来どのように動くかを理解する上で不可欠である。 本研究では,現在移動中の歩行者や運転車などの移動物体に属する3次元LiDAR点と,壁や駐車中の車などの移動物体から得られる点とを区別する問題に取り組む。 我々の手法は観測されたLiDARスキャンを連続して4D点雲に変換する。 計算効率の良いスパース4D畳み込みを適用し,空間的特徴と時間的特徴を共同抽出し,各点の移動物体の信頼度を推定する。 我々は,移動物体をオンラインで予測し,新たな観測結果に基づいて移動物体の予測を洗練するための水平方向戦略を開発する。 我々はバイナリベイズフィルタを用いて、スキャンの新しい予測を再帰的に統合し、より堅牢な推定を行う。 我々は,SemanticKITTI移動物体分割問題に対するアプローチを評価し,既存の手法よりも正確な予測を行う。 我々のアプローチは、時間とともに点雲の幾何学的情報のみに作用するので、apolloデータセットで評価する新しい未知の環境にうまく一般化します。

A key challenge for autonomous vehicles is to navigate in unseen dynamic environments. Separating moving objects from static ones is essential for navigation, pose estimation, and understanding how other traffic participants are likely to move in the near future. In this work, we tackle the problem of distinguishing 3D LiDAR points that belong to currently moving objects, like walking pedestrians or driving cars, from points that are obtained from non-moving objects, like walls but also parked cars. Our approach takes a sequence of observed LiDAR scans and turns them into a voxelized sparse 4D point cloud. We apply computationally efficient sparse 4D convolutions to jointly extract spatial and temporal features and predict moving object confidence scores for all points in the sequence. We develop a receding horizon strategy that allows us to predict moving objects online and to refine predictions on the go based on new observations. We use a binary Bayes filter to recursively integrate new predictions of a scan resulting in more robust estimation. We evaluate our approach on the SemanticKITTI moving object segmentation challenge and show more accurate predictions than existing methods. Since our approach only operates on the geometric information of point clouds over time, it generalizes well to new, unseen environments, which we evaluate on the Apollo dataset.
翻訳日:2022-06-11 06:13:41 公開日:2022-06-08
# (参考訳) 逆テキスト正規化

Adversarial Text Normalization ( http://arxiv.org/abs/2206.04137v1 )

ライセンス: CC BY 4.0
Joanna Bitton and Maya Pavlova and Ivan Evtimov(参考訳) テキストベースの敵攻撃は、一般的なインターネットユーザーにとってより一般的でアクセスしやすいものになりつつある。 これらの攻撃が増加するにつれて、モデルロバストネスのギャップに対処する必要がある。 敵データの再トレーニングはパフォーマンスを高める可能性があるが、これらのモデルが失敗するキャラクターレベルの攻撃には追加のクラスが存在する。 さらに、モデルを再トレーニングするプロセスは時間とリソース集約であり、軽量で再利用可能な防御の必要性を生み出します。 本研究では,攻撃されたコンテンツのベースライン性能を低い計算オーバーヘッドで復元する手法であるAdversarial Text Normalizerを提案する。 本研究は,Hate SpeechとNatural Language Inferenceの2つの問題領域における正規化器の有効性を評価する。 テキストの正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供し、意味的な変更にもっと適した敵のリトレーニングソリューションに補完的に実装できることが分かりました。

Text-based adversarial attacks are becoming more commonplace and accessible to general internet users. As these attacks proliferate, the need to address the gap in model robustness becomes imminent. While retraining on adversarial data may increase performance, there remains an additional class of character-level attacks on which these models falter. Additionally, the process to retrain a model is time and resource intensive, creating a need for a lightweight, reusable defense. In this work, we propose the Adversarial Text Normalizer, a novel method that restores baseline performance on attacked content with low computational overhead. We evaluate the efficacy of the normalizer on two problem areas prone to adversarial attacks, i.e. Hate Speech and Natural Language Inference. We find that text normalization provides a task-agnostic defense against character-level attacks that can be implemented supplementary to adversarial retraining solutions, which are more suited for semantic alterations.
翻訳日:2022-06-11 05:58:41 公開日:2022-06-08
# (参考訳) 重大テキストコーパスからの教師なしキーイベント検出

Unsupervised Key Event Detection from Massive Text Corpora ( http://arxiv.org/abs/2206.04153v1 )

ライセンス: CC BY 4.0
Yunyi Zhang, Fang Guo, Jiaming Shen, Jiawei Han(参考訳) ニュースコーパスからのイベントの自動検出は、進化の早い構造化知識のマイニングにとって重要なタスクである。 As real-world events have different granularities, from the top-level themes to key events and then to event mentions corresponding to concrete actions, there are generally two lines of research: (1) theme detection identifies from a news corpus major themes (e.g., "2019 Hong Kong Protests" vs. "2020 U.S. Presidential Election") that have very distinct semantics; and (2) action extraction extracts from one document mention-level actions (e.g., "the police hit the left arm of the protester") that are too fine-grained for comprehending the event. 本稿では,ニュースコーパスのキーイベント(例:8月12~14日のHK空港試験)から,特定の時間/場所において,同じ話題に注目することを目的とした,中間レベルでのキーイベント検出という新たなタスクを提案する。 この課題は、重要な出来事の主題的・時間的近接性と、ニュース記事の急速な進化の性質によるラベル付きデータの不足により、イベントの理解と構造化を橋渡しすることができる。 To address these challenges, we develop an unsupervised key event detection framework, EvMine, that (1) extracts temporally frequent peak phrases using a novel ttf-itf score, (2) merges peak phrases into event-indicative feature sets by detecting communities from our designed peak phrase graph that captures document co-occurrences, semantic similarities, and temporal closeness signals, and (3) iteratively retrieves documents related to each key event by training a classifier with automatically generated pseudo labels from the event-indicative feature sets and refining the detected key events using the retrieved documents. 大規模な実験とケーススタディにより、EvMineは2つの実世界のニュースコーパスにおいて、すべてのベースライン手法とその改善を上回ります。

Automated event detection from news corpora is a crucial task towards mining fast-evolving structured knowledge. As real-world events have different granularities, from the top-level themes to key events and then to event mentions corresponding to concrete actions, there are generally two lines of research: (1) theme detection identifies from a news corpus major themes (e.g., "2019 Hong Kong Protests" vs. "2020 U.S. Presidential Election") that have very distinct semantics; and (2) action extraction extracts from one document mention-level actions (e.g., "the police hit the left arm of the protester") that are too fine-grained for comprehending the event. In this paper, we propose a new task, key event detection at the intermediate level, aiming to detect from a news corpus key events (e.g., "HK Airport Protest on Aug. 12-14"), each happening at a particular time/location and focusing on the same topic. This task can bridge event understanding and structuring and is inherently challenging because of the thematic and temporal closeness of key events and the scarcity of labeled data due to the fast-evolving nature of news articles. To address these challenges, we develop an unsupervised key event detection framework, EvMine, that (1) extracts temporally frequent peak phrases using a novel ttf-itf score, (2) merges peak phrases into event-indicative feature sets by detecting communities from our designed peak phrase graph that captures document co-occurrences, semantic similarities, and temporal closeness signals, and (3) iteratively retrieves documents related to each key event by training a classifier with automatically generated pseudo labels from the event-indicative feature sets and refining the detected key events using the retrieved documents. Extensive experiments and case studies show EvMine outperforms all the baseline methods and its ablations on two real-world news corpora.
翻訳日:2022-06-11 05:45:21 公開日:2022-06-08
# (参考訳) 分類のためのテクスチャ抽出のための組立フレームワーク

Ensembling Framework for Texture Extraction Techniques for Classification ( http://arxiv.org/abs/2206.04158v1 )

ライセンス: CC BY 4.0
Vijay Pandey, Mayank Gubba, Mohammed Faisal, Trapti Kalra(参考訳) 過去数年間、テクスチャに基づく分類問題は、産業検査から健康関連アプリケーションまで、多くの領域でその重要性が証明されてきた。 近年,テクスチャベースの分類問題を解決するため,新しい技術やCNNベースのアーキテクチャが開発されている。 これらのアプローチの限界は、いずれもあらゆる種類のテクスチャに最も適していると主張するものではないことである。 それぞれのテクニックは、特定のテクスチャタイプよりも有利です。 この問題に対処するため,既存の手法を組み合わせてテクスチャの特徴を抽出し,より優れた結果を提示するフレームワークを提案する。 提案フレームワークはテクスチャタイプの大部分で有効であり,本フレームワークでは既存のフレームワークよりも優れた結果を得るために,新たなテクニックを追加することもできる。 また,提案フレームワークを用いて,既存の3つの手法を組み合わせることで,FMDおよびKTHデータセット上でのSOTA結果も提示する。

In the past few years, texture-based classification problems have proven their significance in many domains, from industrial inspection to health-related applications. New techniques and CNN-based architectures have been developed in recent years to solve texture-based classification problems. The limitation of these approaches is that none of them claims to be the best suited for all types of textures. Each technique has its advantage over a specific texture type. To address this issue, we are proposing a framework that combines existing techniques to extract texture features and displays better results than the present ones. The proposed framework works well on the most of the texture types, and in this framework, new techniques can also be added to achieve better results than existing ones. We are also presenting the SOTA results on FMD and KTH datasets by combining three existing techniques, using the proposed framework.
翻訳日:2022-06-11 05:24:33 公開日:2022-06-08
# (参考訳) 制約付きmin-maxゲームにおける交互ミラー降下

Alternating Mirror Descent for Constrained Min-Max Games ( http://arxiv.org/abs/2206.04160v1 )

ライセンス: CC BY 4.0
Andre Wibisono and Molei Tao and Georgios Piliouras(参考訳) 本稿では,制約付き戦略空間を持つ2プレイヤーバイリニアゼロサムゲームについて検討する。 そのような制約の自然発生の例は混合戦略が使われるときであり、これは確率単純性制約に対応する。 そこで本研究では,各プレイヤーが交互に交互に行動を起こす交互ミラー降下アルゴリズムを提案し,その解析を行った。 交互ミラー降下を双対空間内の歪勾配流れの交互な離散化と解釈し、凸最適化や修正エネルギー関数のツールを用いて、k$反復後に平均的な後悔に縛られた$o(k^{-2/3}) を確立する。 このことは、ミラー降下アルゴリズムの同時バージョンよりもアルゴリズムの優れた振る舞いを定量的に検証し、このアルゴリズムは分岐し、平均後悔境界の$O(K^{-1/2})を生じる。 制約のない設定の場合、この結果から、ゼロサムゲーム(Bailey et al., COLT 2020)の交互勾配降下アルゴリズムの挙動を復元する。

In this paper we study two-player bilinear zero-sum games with constrained strategy spaces. An instance of natural occurrences of such constraints is when mixed strategies are used, which correspond to a probability simplex constraint. We propose and analyze the alternating mirror descent algorithm, in which each player takes turns to take action following the mirror descent algorithm for constrained optimization. We interpret alternating mirror descent as an alternating discretization of a skew-gradient flow in the dual space, and use tools from convex optimization and modified energy function to establish an $O(K^{-2/3})$ bound on its average regret after $K$ iterations. This quantitatively verifies the algorithm's better behavior than the simultaneous version of mirror descent algorithm, which is known to diverge and yields an $O(K^{-1/2})$ average regret bound. In the special case of an unconstrained setting, our results recover the behavior of alternating gradient descent algorithm for zero-sum games which was studied in (Bailey et al., COLT 2020).
翻訳日:2022-06-11 05:12:02 公開日:2022-06-08
# (参考訳) 文脈を共有しない分散文脈線形帯域での学習

Learning in Distributed Contextual Linear Bandits Without Sharing the Context ( http://arxiv.org/abs/2206.04180v1 )

ライセンス: CC BY 4.0
Osama A. Hanna, Lin F. Yang, Christina Fragouli(参考訳) 文脈線形帯域はリッチで理論上重要なモデルであり、多くの実用的応用がある。 最近、このセットアップは、通信制約がパフォーマンスのボトルネックになり得る、特に大きな$d$次元空間から得られるコンテキストにおいて、無線上のアプリケーションに多くの関心を寄せている。 本稿では,文脈を観察し行動を取るエージェントが,文脈を知らないまま学習を行う学習者と地理的に分離される分散メモリレス文脈線形帯域学習問題について考察する。 我々は、コンテキストが分布から生成されると仮定し、未知のコンテキスト分布の場合、1コンテキストあたり$\approx 5d$bitと、コンテキスト分布が分かっている場合、1コンテキスト当たり$0$bitを使用する方法を提案する。 前者境界は既存の境界を$\log(T)$ factorで改善し、ここでは$T$は地平線の長さであり、後者は情報理論的厳密性を達成する。

Contextual linear bandits is a rich and theoretically important model that has many practical applications. Recently, this setup gained a lot of interest in applications over wireless where communication constraints can be a performance bottleneck, especially when the contexts come from a large $d$-dimensional space. In this paper, we consider a distributed memoryless contextual linear bandit learning problem, where the agents who observe the contexts and take actions are geographically separated from the learner who performs the learning while not seeing the contexts. We assume that contexts are generated from a distribution and propose a method that uses $\approx 5d$ bits per context for the case of unknown context distribution and $0$ bits per context if the context distribution is known, while achieving nearly the same regret bound as if the contexts were directly observable. The former bound improves upon existing bounds by a $\log(T)$ factor, where $T$ is the length of the horizon, while the latter achieves information theoretical tightness.
翻訳日:2022-06-11 05:10:57 公開日:2022-06-08
# (参考訳) 知的指導システムにおけるパーソナライズされたフィードバックのためのマイズショット質問生成

Few-shot Question Generation for Personalized Feedback in Intelligent Tutoring Systems ( http://arxiv.org/abs/2206.04187v1 )

ライセンス: CC BY 4.0
Devang Kulshreshtha, Muhammad Shayan, Robert Belfer, Siva Reddy, Iulian Vlad Serban, Ekaterina Kochmar(参考訳) 既存のIntelligent Tutoring Systems(ITS)のヒント生成作業は、主に手動および非個人化されたフィードバックに焦点を当てている。 本研究では,ITSにおけるパーソナライズされたフィードバックとして自動生成された質問を探索する。 我々のパーソナライズされたフィードバックは、学生の回答の中で正しいフレーズや間違ったフレーズを特定できるだけでなく、自然言語で質問することで正しい答えへと導くことができる。 本手法では, テキスト類似性に基づくNLPトランスフォーマーモデルを用いて, 原因影響分析と生徒の回答の分解を組み合わせ, 正誤, 欠失箇所の同定を行う。 学生の回答に欠けているコンポーネントに対する質問を正解に向けて提示するために,数ショットのニューラル質問生成と質問再分類モデルを訓練する。 本モデルは,実際の対話型itsでテストした場合,学生の学習率の45%,23%という,単純かつ強固なベースラインをそれぞれ上回っている。 最後に,パーソナライズされた修正フィードバックシステムは,生成的質問応答システムを改善する可能性を秘めている。

Existing work on generating hints in Intelligent Tutoring Systems (ITS) focuses mostly on manual and non-personalized feedback. In this work, we explore automatically generated questions as personalized feedback in an ITS. Our personalized feedback can pinpoint correct and incorrect or missing phrases in student answers as well as guide them towards correct answer by asking a question in natural language. Our approach combines cause-effect analysis to break down student answers using text similarity-based NLP Transformer models to identify correct and incorrect or missing parts. We train a few-shot Neural Question Generation and Question Re-ranking models to show questions addressing components missing in the student answers which steers students towards the correct answer. Our model vastly outperforms both simple and strong baselines in terms of student learning gains by 45% and 23% respectively when tested in a real dialogue-based ITS. Finally, we show that our personalized corrective feedback system has the potential to improve Generative Question Answering systems.
翻訳日:2022-06-11 04:45:22 公開日:2022-06-08
# (参考訳) CCP: 相関クラスタリングと次元化のための投影

CCP: Correlated Clustering and Projection for Dimensionality Reduction ( http://arxiv.org/abs/2206.04189v1 )

ライセンス: CC BY 4.0
Yuta Hozumi, Rui Wang, Guo-Wei Wei(参考訳) ほとんどの次元減少法は、行列対角化から得られる周波数領域表現を用いるが、相対的に高い固有次元を持つ大規模データセットでは効率的ではない。 この課題に対処するため、Correlated Clustering and Projection (CCP)は、マトリックスを解決する必要のない、新しいデータドメイン戦略を提供する。 ccpは高次元特徴を相関クラスタに分割し、各クラスタの相関特徴をサンプル相関に基づく1次元表現に計画する。 可視化と解析のために、Residue-Similarity (R-S)スコアとインデックス、リーマン多様体におけるデータの形状、代数トポロジーに基づく永続ラプラシアンを導入する。 提案手法は、様々な機械学習アルゴリズムに関連するベンチマークデータセットで検証される。

Most dimensionality reduction methods employ frequency domain representations obtained from matrix diagonalization and may not be efficient for large datasets with relatively high intrinsic dimensions. To address this challenge, Correlated Clustering and Projection (CCP) offers a novel data domain strategy that does not need to solve any matrix. CCP partitions high-dimensional features into correlated clusters and then projects correlated features in each cluster into a one-dimensional representation based on sample correlations. Residue-Similarity (R-S) scores and indexes, the shape of data in Riemannian manifolds, and algebraic topology-based persistent Laplacian are introduced for visualization and analysis. Proposed methods are validated with benchmark datasets associated with various machine learning algorithms.
翻訳日:2022-06-11 04:31:31 公開日:2022-06-08
# デバイスサンプリングによるプッシュプル

Push--Pull with Device Sampling ( http://arxiv.org/abs/2206.04113v1 )

ライセンス: Link先を確認
Yu-Guan Hsieh, Yassine Laguel, Franck Iutzeler, J\'er\^ome Malick(参考訳) 我々は,複数のエージェントが協調して,基礎となる通信グラフを交換することにより,局所関数の平均を最小化する分散最適化問題を考える。 具体的には、各イテレーションにおいてノードのランダムな部分だけが計算を行う非同期モデルに自分自身を配置し、一方情報交換はすべてのノード間で、非対称な方法で行うことができる。 そこで本研究では,ネットワーク全体の勾配追跡と分散低減を併用したアルゴリズムを提案する。 これにより、各ノードは目的関数の勾配の平均を追跡することができる。 理論解析により, 局所目的関数が強凸である場合, 想定混合行列上の穏やかな接続条件下で, アルゴリズムは線形収束することを示した。 特に、この結果は混合行列が二重確率的である必要はない。 実験では,計算ノードから隣接ノードへ情報を送信するブロードキャスト機構を調査し,合成データと実世界データの両方において,提案手法の線形収束を確認した。

We consider decentralized optimization problems in which a number of agents collaborate to minimize the average of their local functions by exchanging over an underlying communication graph. Specifically, we place ourselves in an asynchronous model where only a random portion of nodes perform computation at each iteration, while the information exchange can be conducted between all the nodes and in an asymmetric fashion. For this setting, we propose an algorithm that combines gradient tracking and variance reduction over the entire network. This enables each node to track the average of the gradients of the objective functions. Our theoretical analysis shows that the algorithm converges linearly, when the local objective functions are strongly convex, under mild connectivity conditions on the expected mixing matrices. In particular, our result does not require the mixing matrices to be doubly stochastic. In the experiments, we investigate a broadcast mechanism that transmits information from computing nodes to their neighbors, and confirm the linear convergence of our method on both synthetic and real-world datasets.
翻訳日:2022-06-10 16:26:34 公開日:2022-06-08
# Jensen-Shannonダイバージェンスを持つシミュレータモデルに対する自由なモデル選択

Likelihood-free Model Choice for Simulator-based Models with the Jensen--Shannon Divergence ( http://arxiv.org/abs/2206.04110v1 )

ライセンス: Link先を確認
Jukka Corander (1 2 3 4), Ulpu Remes (3) and Timo Koski (1 2 5) (1 Helsinki Institute of Information Technology (HIIT) 2 University of Helsinki 3 University of Oslo 4 Wellcome Sanger Institute 5 KTH Royal Institute of Technology)(参考訳) データの光の中でモデルの適切な構造とパラメトリック次元の選択は、情報理論に触発されoccamのカミソリと呼ばれる理論を具現化したアカイケやシュワルツのモデルスコアリング基準など、1970年代に最初の独創的なアプローチが開発された統計研究において豊富な歴史を持っている。 これらの先駆的な研究の後、モデル選択はすぐに独自の研究分野として確立され、コンピュータ科学と統計の両方でかなりの注目を集めた。 しかし, シミュレータに基づくモデルの採点基準を導出する試みは, これまでのところ限定的であった。 このようなモデルにはベイズ要因が考慮されてきたが、それらの使用と一貫性に関する問題の両方について議論がなされている。 ここでは、Jensen-Shannon divergence (JSD) の漸近特性を用いて、JSD-Razor と呼ばれる確率自由設定に対する一貫したスコアリング基準を導出する。 JSD-Razorと確率ベースアプローチの確立された評価基準の関係を解析し, 実モデルと合成モデルの両方を用いて, 評価基準の好ましい特性を実証した。

Choice of appropriate structure and parametric dimension of a model in the light of data has a rich history in statistical research, where the first seminal approaches were developed in 1970s, such as the Akaike's and Schwarz's model scoring criteria that were inspired by information theory and embodied the rationale called Occam's razor. After those pioneering works, model choice was quickly established as its own field of research, gaining considerable attention in both computer science and statistics. However, to date, there have been limited attempts to derive scoring criteria for simulator-based models lacking a likelihood expression. Bayes factors have been considered for such models, but arguments have been put both for and against use of them and around issues related to their consistency. Here we use the asymptotic properties of Jensen--Shannon divergence (JSD) to derive a consistent model scoring criterion for the likelihood-free setting called JSD-Razor. Relationships of JSD-Razor with established scoring criteria for the likelihood-based approach are analyzed and we demonstrate the favorable properties of our criterion using both synthetic and real modeling examples.
翻訳日:2022-06-10 15:56:05 公開日:2022-06-08
# 強化逆散乱

Reinforced Inverse Scattering ( http://arxiv.org/abs/2206.04186v1 )

ライセンス: Link先を確認
Hanyang Jiang, Yuehaw Khoo, Haizhao Yang(参考訳) 逆波散乱は、物体がどのように入射波を散乱するかのデータを用いて、物体の特性を決定することを目的としている。 情報を収集するために、センサーは異なる場所に配置され、互いに波を送受信する。 センサ位置と入射波周波数の選択は、散乱特性の再構成品質を決定する。 本稿では,センサ位置と波動周波数をインテリジェントな方法で決定し,画像資源の制限による再構成品質の大幅な向上を図り,その精度向上を図るための強化学習を提案する。 提案手法が既存の手法よりも優れていることを示すために,広範な数値計算結果が提示される。

Inverse wave scattering aims at determining the properties of an object using data on how the object scatters incoming waves. In order to collect information, sensors are put in different locations to send and receive waves from each other. The choice of sensor positions and incident wave frequencies determines the reconstruction quality of scatterer properties. This paper introduces reinforcement learning to develop precision imaging that decides sensor positions and wave frequencies adaptive to different scatterers in an intelligent way, thus obtaining a significant improvement in reconstruction quality with limited imaging resources. Extensive numerical results will be provided to demonstrate the superiority of the proposed method over existing methods.
翻訳日:2022-06-10 15:55:42 公開日:2022-06-08
# 動的に見積もった行動コストによる計画

Planning with Dynamically Estimated Action Costs ( http://arxiv.org/abs/2206.04166v1 )

ライセンス: Link先を確認
Eyal Weiss and Gal A. Kaminka(参考訳) 実際のAI計画アプリケーションには、アクションコストに関する情報が不可欠だ。 宣言的アクションモデルのみに頼るのではなく、近年のアプローチでは、計画段階で適用されるデータから学ぶブラックボックスの外部アクションコスト推定器も使用されている。 しかし、これらは計算量的に高価であり、不確定な値を生み出す。 本稿では,行動コストに対する複数の推定器間の選択を可能にする行動コストを用いた決定論的計画の一般化を提案する。 これにより、よりリッチでより現実的な問題表現が可能になります。 重要なことは、プランナーが計画の正確性に縛られ、信頼性が向上すると同時に、不要な計算負担を軽減できることである。 本稿では,そのような計画問題の解法を一般化した探索アルゴリズムと,追加のアルゴリズム拡張を導入する。 理論的な保証に加えて、広範な実験により、代替よりも実行時の大幅な削減が示されている。

Information about action costs is critical for real-world AI planning applications. Rather than rely solely on declarative action models, recent approaches also use black-box external action cost estimators, often learned from data, that are applied during the planning phase. These, however, can be computationally expensive, and produce uncertain values. In this paper we suggest a generalization of deterministic planning with action costs that allows selecting between multiple estimators for action cost, to balance computation time against bounded estimation uncertainty. This enables a much richer -- and correspondingly more realistic -- problem representation. Importantly, it allows planners to bound plan accuracy, thereby increasing reliability, while reducing unnecessary computational burden, which is critical for scaling to large problems. We introduce a search algorithm, generalizing $A^*$, that solves such planning problems, and additional algorithmic extensions. In addition to theoretical guarantees, extensive experiments show considerable savings in runtime compared to alternatives.
翻訳日:2022-06-10 15:25:52 公開日:2022-06-08
# ハイブリッド最適化アルゴリズムを用いた深層畳み込みニューラルネットワークの改良 : 拡張mri画像を用いた脳腫瘍の検出と分類

An Improved Deep Convolutional Neural Network by Using Hybrid Optimization Algorithms to Detect and Classify Brain Tumor Using Augmented MRI Images ( http://arxiv.org/abs/2206.04056v1 )

ライセンス: Link先を確認
Shko M. Qader, Bryar A. Hassan, Tarik A. Rashid(参考訳) 脳腫瘍の自動検出は、非常に重要な医学的診断研究となっている。 近年の医学診断では、検出と分類は機械学習と深層学習技術を用いていると考えられている。 それにもかかわらず、現在のモデルの精度と性能は適切な治療のために改善する必要がある。 本稿では,強化最適化アルゴリズムの採用により,g-hhoと呼ばれるハリス・ホークス最適化(hho)を改良した深層畳み込みニューラルネットワーク(dcnn)が検討されている。 このハイブリダイゼーションでは、Grey Wolf Optimization (GWO) と HHO がより優れた結果を与え、収束率を制限し、性能を向上させる。 また、脳腫瘍検出を強調する腫瘍部分の区分には、大津しきい値が用いられる。 2073個の拡張mri画像を用いて提案手法の性能を検証する実験を行った。 この技術の性能は、精度、精度、リコール、F測定、実行時間、メモリ使用量の観点から、巨大なMRI画像上の既存の9つのアルゴリズムと比較することで保証された。 性能比較の結果、dcnn-g-hhoは既存の手法よりもはるかに成功しており、特にスコアリング精度は97%であった。 さらに、統計性能分析により、提案手法はより高速で、MRI画像上の脳腫瘍の同定と分類に少ないメモリを使用することが示された。 この検証の実装はpythonプラットフォーム上で実行される。 提案されたアプローチに関するコードは、https://github.com/bryarahassan/DCNN-G-HHOで公開されている。

Automated brain tumor detection is becoming a highly considerable medical diagnosis research. In recent medical diagnoses, detection and classification are highly considered to employ machine learning and deep learning techniques. Nevertheless, the accuracy and performance of current models need to be improved for suitable treatments. In this paper, an improvement in deep convolutional learning is ensured by adopting enhanced optimization algorithms, Thus, Deep Convolutional Neural Network (DCNN) based on improved Harris Hawks Optimization (HHO), called G-HHO has been considered. This hybridization features Grey Wolf Optimization (GWO) and HHO to give better results, limiting the convergence rate and enhancing performance. Moreover, Otsu thresholding is adopted to segment the tumor portion that emphasizes brain tumor detection. Experimental studies are conducted to validate the performance of the suggested method on a total number of 2073 augmented MRI images. The technique's performance was ensured by comparing it with the nine existing algorithms on huge augmented MRI images in terms of accuracy, precision, recall, f-measure, execution time, and memory usage. The performance comparison shows that the DCNN-G-HHO is much more successful than existing methods, especially on a scoring accuracy of 97%. Additionally, the statistical performance analysis indicates that the suggested approach is faster and utilizes less memory at identifying and categorizing brain tumor cancers on the MR images. The implementation of this validation is conducted on the Python platform. The relevant codes for the proposed approach are available at: https://github.com/bryarahassan/DCNN-G-HHO.
翻訳日:2022-06-10 15:23:38 公開日:2022-06-08
# DRHDR:マルチブラケット高ダイナミックレンジイメージングのための二重分岐残差ネットワーク

DRHDR: A Dual branch Residual Network for Multi-Bracket High Dynamic Range Imaging ( http://arxiv.org/abs/2206.04124v1 )

ライセンス: Link先を確認
Juan Mar\'in-Vega, Michael Sloth, Peter Schneider-Kamp, Richard R\"ottger(参考訳) DRHDR(Dual branch Residual Convolutional Neural Network for Multi-Bracket HDR Imaging)を紹介する。 動的シーンから複数のブラケットを融合する課題に対処するため,2つの異なる解像度で動作する効率的なデュアルブランチネットワークを提案する。 フルレゾリューションブランチでは、Deformable Convolutional Blockを使用して機能を整列し、高周波の詳細を保持する。 空間的注意ブロックを持つ低解像度のブランチは、非参照括弧から所望の領域に到達し、ゴーストのアーティファクトを発生させるような配置のずれを抑えることを目的としている。 二重分岐アプローチを用いることで、HDR結果を推定するために必要な計算資源を制約しながら、高品質な結果が得られる。

We introduce DRHDR, a Dual branch Residual Convolutional Neural Network for Multi-Bracket HDR Imaging. To address the challenges of fusing multiple brackets from dynamic scenes, we propose an efficient dual branch network that operates on two different resolutions. The full resolution branch uses a Deformable Convolutional Block to align features and retain high-frequency details. A low resolution branch with a Spatial Attention Block aims to attend wanted areas from the non-reference brackets, and suppress displaced features that could incur on ghosting artifacts. By using a dual branch approach we are able to achieve high quality results while constraining the computational resources required to estimate the HDR results.
翻訳日:2022-06-10 15:23:11 公開日:2022-06-08
# TreeFlow: ツリーベースのガウス確率的回帰を超えて

TreeFlow: Going beyond Tree-based Gaussian Probabilistic Regression ( http://arxiv.org/abs/2206.04140v1 )

ライセンス: Link先を確認
Patryk Wielopolski, Maciej Zi\k{e}ba(参考訳) 木に基づくアンサンブルは、様々な範囲や領域の混合型変数で表される特徴ベクトルを特徴とする分類と回帰問題の優れた性能で知られている。 しかし、回帰問題を考えると、主に決定論的応答を提供するか、ガウス分布による出力の不確かさをモデル化するために設計されている。 本研究では,ツリーアンサンブルの利点と,正規化フローを用いた柔軟な確率分布のモデル化機能を組み合わせたツリーベースアプローチであるTreeFlowを紹介する。 この解の主な考え方は、木に基づくモデルを特徴抽出器として使用し、正規化フローの条件変数と組み合わせることである。 その結果,本手法は回帰出力の複雑な分布をモデル化することができる。 提案手法は, 量, 特徴特性, 対象寸法の異なる難易度回帰ベンチマークを用いて評価する。 我々は,非ガウス的対象分布を持つデータセットのSOTA結果とガウス的対象分布の競合結果を得た。

The tree-based ensembles are known for their outstanding performance for classification and regression problems characterized by feature vectors represented by mixed-type variables from various ranges and domains. However, considering regression problems, they are primarily designed to provide deterministic responses or model the uncertainty of the output with a Gaussian distribution. In this work, we introduce TreeFlow, the tree-based approach that combines the benefits of using tree ensembles with capabilities of modeling flexible probability distributions using normalizing flows. The main idea of the solution is to use a tree-based model as a feature extractor and combine it with a conditional variant of normalizing flow. Consequently, our approach is capable of modeling complex distributions for the regression outputs. We evaluate the proposed method on challenging regression benchmarks with varying volume, feature characteristics, and target dimensionality. We obtain the SOTA results on datasets with non-gaussian target distributions and competitive results on gaussian ones compared to tree-based regression baselines.
翻訳日:2022-06-10 15:06:16 公開日:2022-06-08
# 複雑な分散システムにおける異常検出のためのグラフベースディープラーニング手法の総合的調査

A Comprehensive Survey of Graph-based Deep Learning Approaches for Anomaly Detection in Complex Distributed Systems ( http://arxiv.org/abs/2206.04149v1 )

ライセンス: Link先を確認
Armin Danesh Pazho, Ghazal Alinezhad Noghre, Arnab A Purkayastha, Jagannadh Vempati, Otto Martin, and Hamed Tabkhi(参考訳) 異常検出は、ハードウェアとソフトウェアコンポーネントで構成される複雑な分散システムにとって重要な問題である。 このようなシステムにおける異常検出の要件と課題を徹底的に理解することは、システムのセキュリティ、特に現実のデプロイメントにとって重要である。 この問題に対処する多様な研究領域やアプリケーションドメインが数多く存在するが、そのようなシステムを詳細に検討しようとする試みは少ない。 ほとんどの異常検出技術は特定のアプリケーションドメイン向けに特別に開発されたが、他のものはより汎用的である。 本研究では,複素分散異種系における様々な種類の異常を識別・緩和するグラフベースアルゴリズムの有意義な可能性について検討する。 私たちの主な焦点は、複雑な分散システムにまたがる異種コンピューティングデバイスに適用する場合、グラフを詳細に調べることです。 本研究は,この分野の最先端の研究論文を分析し,比較し,対比する。 まず,実世界の分散システムの特徴と,データや評価,異常の性質,実世界の要件といった複雑なネットワークにおける異常検出の課題について述べる。 後に、このようなシステムでグラフを活用できる理由とグラフを利用する利点について論じる。 その上で、最先端のアプローチを熟考し、その強みと弱みを強調します。 最後に,これらのアプローチを評価し比較し,改善可能な領域を指摘する。

Anomaly detection is an important problem for complex distributed systems consisting of hardware and software components. A thorough understanding of the requirements and challenges of anomaly detection for such systems is pivotal to the security of a system, especially for real-world deployment. While there have been many diverse research areas and application domains that deal with the problem, few have attempted to provide an in-depth look at such systems. Most anomaly detection techniques have been specifically developed for certain application domains, while others are more generic. In this survey, we explore the significant potential of graph-based algorithms to identify and mitigate different types of anomalies in complex distributed heterogeneous systems. Our main focus is to provide an in-depth look at graphs when applied on heterogeneous computing devices spread across complex distributed systems. This study analyzes, compares, and contrasts the state-of-the-art research articles in the field. First, we describe the characteristics of the real-world distributed systems and their specific challenges of anomaly detection in such complex networks, such as data and evaluation, nature of the anomalies, and real-world requirements. Later, we discuss why graphs can be leveraged in such systems and the benefits of utilizing graphs. Then we will aptly delve into the state-of-the-art approaches and highlight their strength and weaknesses. Finally, we evaluate and compare these approaches and point out the areas for possible improvements.
翻訳日:2022-06-10 15:06:00 公開日:2022-06-08
# VN変換器:ベクトルニューロンの回転同変注意

VN-Transformer: Rotation-Equivariant Attention for Vector Neurons ( http://arxiv.org/abs/2206.04176v1 )

ライセンス: Link先を確認
Serge Assaad, Carlton Downey, Rami Al-Rfou, Nigamaa Nayakanti, Ben Sapp(参考訳) 回転同分散は、運動予測や3次元知覚といった多くの実用的な応用において望ましい性質であり、サンプル効率、より良い一般化、入力摂動に対するロバスト性などの利点を提供する。 ベクトルニューロン(VN)は、1次元スカラーニューロンを3次元「ベクトルニューロン」に拡張することで、標準的な機械学習操作の回転同変アナログを導出するための、シンプルで効果的なアプローチを提供するフレームワークである。 本稿では,現在のVNモデルの欠点に対処するため,新しい「VN変換器」アーキテクチャを提案する。 私たちのコントリビューションは以下のとおりです。 (i)$は、元のベクトルニューロンモデルに必要な重い特徴前処理を不要にする回転同変注意機構を導出する。 (ii)VNフレームワークを拡張して非空間属性をサポートし、これらのモデルの適用性を現実世界のデータセットに拡張します。 (iii)$ ポイントクラウド解像度のマルチスケール低減のための回転同変機構を導出し、推論とトレーニングを大幅に高速化する。 (iv) 等価な小さなトレードオフ($-approximate equivariance) を用いて,高速化ハードウェア上での数値安定性とロバスト性の向上を図り, モデルにおける等価な違反の伝播を束縛することを示す。 最後に,vn変換器を3次元形状分類と運動予測に適用し,説得力のある結果を得た。

Rotation equivariance is a desirable property in many practical applications such as motion forecasting and 3D perception, where it can offer benefits like sample efficiency, better generalization, and robustness to input perturbations. Vector Neurons (VN) is a recently developed framework offering a simple yet effective approach for deriving rotation-equivariant analogs of standard machine learning operations by extending one-dimensional scalar neurons to three-dimensional "vector neurons." We introduce a novel "VN-Transformer" architecture to address several shortcomings of the current VN models. Our contributions are: $(i)$ we derive a rotation-equivariant attention mechanism which eliminates the need for the heavy feature preprocessing required by the original Vector Neurons models; $(ii)$ we extend the VN framework to support non-spatial attributes, expanding the applicability of these models to real-world datasets; $(iii)$ we derive a rotation-equivariant mechanism for multi-scale reduction of point-cloud resolution, greatly speeding up inference and training; $(iv)$ we show that small tradeoffs in equivariance ($\epsilon$-approximate equivariance) can be used to obtain large improvements in numerical stability and training robustness on accelerated hardware, and we bound the propagation of equivariance violations in our models. Finally, we apply our VN-Transformer to 3D shape classification and motion forecasting with compelling results.
翻訳日:2022-06-10 14:12:23 公開日:2022-06-08
# 抄録は記憶にない:BERTと英語記事システム

Abstraction not Memory: BERT and the English Article System ( http://arxiv.org/abs/2206.04184v1 )

ライセンス: Link先を確認
Harish Tayyar Madabushi, Dagmar Divjak, Petar Milin(参考訳) 記事予測は、長い間正確な言語記述に反したタスクである。 そのため,本課題は,母国語話者の直観をエミュレートするモデルの評価に最適である。 この目的のために,3つの選択肢 (a/an, the, 0) として設定された記事予測タスクにおいて,ネイティブ英語話者と事前学習モデルの性能を比較した。 BERTを用いた実験の結果,BERTは全記事において人間よりも優れていた。 特に、BERTは、深いニューラルモデルが容易に拾えるルールを使ってそれらを挿入するため、ゼロ記事の検出において人間よりもはるかに優れている。 より興味深いことに、BERTはコーパスよりもアノテータに同意する傾向にあるが、アノテータ間の合意が減少するにつれてコーパスに同意する傾向にある。 このアノテータとアノテータとのアライメントはコーパスで訓練されているにもかかわらず、BERTは記憶に残る記事の使用ではなく、人間の直感に類似した高レベルの記事の一般化を捉えることを示唆している。

Article prediction is a task that has long defied accurate linguistic description. As such, this task is ideally suited to evaluate models on their ability to emulate native-speaker intuition. To this end, we compare the performance of native English speakers and pre-trained models on the task of article prediction set up as a three way choice (a/an, the, zero). Our experiments with BERT show that BERT outperforms humans on this task across all articles. In particular, BERT is far superior to humans at detecting the zero article, possibly because we insert them using rules that the deep neural model can easily pick up. More interestingly, we find that BERT tends to agree more with annotators than with the corpus when inter-annotator agreement is high but switches to agreeing more with the corpus as inter-annotator agreement drops. We contend that this alignment with annotators, despite being trained on the corpus, suggests that BERT is not memorising article use, but captures a high level generalisation of article use akin to human intuition.
翻訳日:2022-06-10 14:08:28 公開日:2022-06-08
# 自己監督型および重み保存型ニューラルアーキテクチャ探索に向けて

Towards Self-supervised and Weight-preserving Neural Architecture Search ( http://arxiv.org/abs/2206.04125v1 )

ライセンス: Link先を確認
Zhuowei Li, Yibo Gao, Zhenzhou Zha, Zhiqiang HU, Qing Xia, Shaoting Zhang, Dimitris N. Metaxas(参考訳) neural architecture search (nas)アルゴリズムは、人間の専門家による膨大な労力を節約する。 最近の進歩により、計算のオーバーヘッドは手頃なレベルにまで削減された。 しかし、ファジィな手続きと教師あり学習パラダイムのため、NASテクニックを現実世界のアプリケーションに展開することは依然として困難である。 本研究では,現在のNASフレームワークの拡張として,自己監督・保存型ニューラルネットワーク探索(SSWP-NAS)を提案する。 したがって、NASのワークフローをワンステージかつプロキシフリーな手順に単純化する。 実験の結果,CIFAR-10,CIFAR-100,ImageNetのデータセットに対して,手動ラベルを使わずに最先端の精度が得られることがわかった。 さらに,共役重みを初期化として用いることは,半教師付き学習シナリオにおいて,ランダム初期化と二段階重み事前学習法を連続的に有意なマージンで上回ることを示した。 コードはhttps://github.com/LzVv123456/SSWP-NASで公開されている。

Neural architecture search (NAS) algorithms save tremendous labor from human experts. Recent advancements further reduce the computational overhead to an affordable level. However, it is still cumbersome to deploy the NAS techniques in real-world applications due to the fussy procedures and the supervised learning paradigm. In this work, we propose the self-supervised and weight-preserving neural architecture search (SSWP-NAS) as an extension of the current NAS framework by allowing the self-supervision and retaining the concomitant weights discovered during the search stage. As such, we simplify the workflow of NAS to a one-stage and proxy-free procedure. Experiments show that the architectures searched by the proposed framework achieve state-of-the-art accuracy on CIFAR-10, CIFAR-100, and ImageNet datasets without using manual labels. Moreover, we show that employing the concomitant weights as initialization consistently outperforms the random initialization and the two-stage weight pre-training method by a clear margin under semi-supervised learning scenarios. Codes are publicly available at https://github.com/LzVv123456/SSWP-NAS.
翻訳日:2022-06-10 14:05:35 公開日:2022-06-08
# SCAMPS: 生理信号のカメラ計測のための合成

SCAMPS: Synthetics for Camera Measurement of Physiological Signals ( http://arxiv.org/abs/2206.04197v1 )

ライセンス: Link先を確認
Daniel McDuff, Miah Wander, Xin Liu, Brian L. Hill, Javier Hernandez, Jonathan Lester, Tadas Baltrusaitis(参考訳) 非侵襲的で低コストでスケーラブルな生理的(例えば心臓と肺の)バイタルサインの測定にカメラと計算アルゴリズムを使うことは非常に魅力的である。 しかし、様々な環境、身体の動き、照明条件、生理状態を表す多様なデータは、手間がかかり、時間がかかる。 合成データは、機械学習のいくつかの分野で貴重なツールであることが証明されているが、カメラによる生理状態の測定には広く利用できない。 合成データは「完璧な」ラベル(例えば、ノイズなし、正確な同期)を提供し、それ以外のラベル(例えば、正確なピクセルレベルのセグメンテーションマップ)を得ることができないラベルを提供し、データセットのばらつきや多様性を高度に制御する。 SCAMPSは2,800本のビデオ (1.68Mフレーム) を含む合成物のデータセットである。 RGBフレームはセグメンテーションマップと共に提供される。 脈拍間間隔,心拍変動,パルス到着時間など,基礎となる波形に関する正確な記述統計情報を提供する。 最後に,これらの合成データに対するベースライン結果トレーニングと実世界のデータセットを用いたテストを行い,一般化可能性について述べる。

The use of cameras and computational algorithms for noninvasive, low-cost and scalable measurement of physiological (e.g., cardiac and pulmonary) vital signs is very attractive. However, diverse data representing a range of environments, body motions, illumination conditions and physiological states is laborious, time consuming and expensive to obtain. Synthetic data have proven a valuable tool in several areas of machine learning, yet are not widely available for camera measurement of physiological states. Synthetic data offer "perfect" labels (e.g., without noise and with precise synchronization), labels that may not be possible to obtain otherwise (e.g., precise pixel level segmentation maps) and provide a high degree of control over variation and diversity in the dataset. We present SCAMPS, a dataset of synthetics containing 2,800 videos (1.68M frames) with aligned cardiac and respiratory signals and facial action intensities. The RGB frames are provided alongside segmentation maps. We provide precise descriptive statistics about the underlying waveforms, including inter-beat interval, heart rate variability, and pulse arrival time. Finally, we present baseline results training on these synthetic data and testing on real-world datasets to illustrate generalizability.
翻訳日:2022-06-10 13:38:59 公開日:2022-06-08
# ディープニューラルネットワークを用いたtwitterの2段階ヘイトスピーチ分類の改善

Improved two-stage hate speech classification for twitter based on Deep Neural Networks ( http://arxiv.org/abs/2206.04162v1 )

ライセンス: Link先を確認
Georgios K. Pitsilis(参考訳) ヘイトスピーチ(Hate speech)は、虐待的な言葉の使用を含むオンラインハラスメントの一種であり、ソーシャルメディアの投稿でよく見られる。 この種のハラスメントは主に宗教、性別、民族など特定のグループの特徴に焦点が当てられており、今日では社会的・経済的影響がある。 テキスト投稿における乱用言語の自動検出は、常に難しい作業であったが、近年は科学界から多くの関心を集めている。 本稿ではソーシャルメディアにおけるヘイトフルコンテンツを識別する重要な問題に対処する。 本研究で提案するモデルは、LSTMニューラルネットワークアーキテクチャに基づく既存のアプローチの拡張であり、人種差別や性差別といったある種の憎しみのある言語を、短いテキストで適切に拡張し、微調整して検出する。 最も重要な拡張は、リカレントニューラルネットワーク(RNN)分類器からなる2段階スキームへの変換である。 第1段階からの全1-vs-Rest(OvR)分類器の出力を組み合わせて第2段階分類器を訓練し、最終的に嫌がらせの種類を決定する。 本研究は,16kツイートの公開コーパスで評価した第2段階に対するいくつかの代替手法の性能比較と,他のデータセットに対する一般化研究を含む。 報告した結果から,ヘイトスピーチ検出課題における提案手法の分類品質は,現在よりも優れていることがわかった。

Hate speech is a form of online harassment that involves the use of abusive language, and it is commonly seen in social media posts. This sort of harassment mainly focuses on specific group characteristics such as religion, gender, ethnicity, etc and it has both societal and economic consequences nowadays. The automatic detection of abusive language in text postings has always been a difficult task, but it is lately receiving much interest from the scientific community. This paper addresses the important problem of discerning hateful content in social media. The model we propose in this work is an extension of an existing approach based on LSTM neural network architectures, which we appropriately enhanced and fine-tuned to detect certain forms of hatred language, such as racism or sexism, in a short text. The most significant enhancement is the conversion to a two-stage scheme consisting of Recurrent Neural Network (RNN) classifiers. The output of all One-vs-Rest (OvR) classifiers from the first stage are combined and used to train the second stage classifier, which finally determines the type of harassment. Our study includes a performance comparison of several proposed alternative methods for the second stage evaluated on a public corpus of 16k tweets, followed by a generalization study on another dataset. The reported results show the superior classification quality of the proposed scheme in the task of hate speech detection as compared to the current state-of-the-art.
翻訳日:2022-06-10 13:38:21 公開日:2022-06-08
# 需要予測のための教師なし知識適応

Unsupervised Knowledge Adaptation for Passenger Demand Forecasting ( http://arxiv.org/abs/2206.04053v1 )

ライセンス: Link先を確認
Can Li, Lei Bai, Wei Liu, Lina Yao, S Travis Waller(参考訳) 輸送システムのマルチモーダル性と潜在的クロスモーダル相関を考えると、マルチモーダルデータから学習することで需要予測精度を向上させる傾向が強まっている。 これらのマルチモーダル予測モデルは、データを直接共有できない異なる機関によって所有されているマルチモーダルデータセットの異なる部分によって、精度は向上するが、実用性は低い。 さまざまな機関が直接データを共有できない場合もありますが、データセットから正確な情報を特定できないような、データによってトレーニングされた予測モデルを共有する場合もあります。 本研究では,ソースモードの直接データ共有を必要としない他モードのデータに基づく事前学習モデルを用いて,目標モードの需要を予測するための教師なし知識適応需要予測フレームワークを提案する。 提案手法では,複数のトランスポートモード間の潜在的共有パターンを利用して予測性能を向上し,異なる機関間でのデータ直接共有を回避している。 具体的には、事前学習された予測モデルは、まずソースモードのデータに基づいて学習され、ソースの移動パターンをキャプチャして記憶することができる。 そして、対象データセットの需要データを個別の知識部と共有知識部とに符号化し、個別の抽出ネットワークと共有抽出ネットワークによってそれぞれ旅行パターンを抽出する。 教師なし知識適応戦略を用いて、事前学習されたネットワークと共有抽出ネットワークを類似させて、さらなる予測のための共有機能を形成する。 本研究は,事前学習モデルと目標モードの共有による教師なし知識適応が,直接データ共有に依存せずに予測性能を向上させることを示す。

Considering the multimodal nature of transport systems and potential cross-modal correlations, there is a growing trend of enhancing demand forecasting accuracy by learning from multimodal data. These multimodal forecasting models can improve accuracy but be less practical when different parts of multimodal datasets are owned by different institutions who cannot directly share data among them. While various institutions may can not share their data with each other directly, they may share forecasting models trained by their data, where such models cannot be used to identify the exact information from their datasets. This study proposes an Unsupervised Knowledge Adaptation Demand Forecasting framework to forecast the demand of the target mode by utilizing a pre-trained model based on data of another mode, which does not require direct data sharing of the source mode. The proposed framework utilizes the potential shared patterns among multiple transport modes to improve forecasting performance while avoiding the direct sharing of data among different institutions. Specifically, a pre-trained forecasting model is first learned based on the data of a source mode, which can capture and memorize the source travel patterns. Then, the demand data of the target dataset is encoded into an individual knowledge part and a sharing knowledge part which will extract travel patterns by individual extraction network and sharing extraction network, respectively. The unsupervised knowledge adaptation strategy is utilized to form the sharing features for further forecasting by making the pre-trained network and the sharing extraction network analogous. Our findings illustrate that unsupervised knowledge adaptation by sharing the pre-trained model to the target mode can improve the forecasting performance without the dependence on direct data sharing.
翻訳日:2022-06-10 13:37:59 公開日:2022-06-08
# ExpressivE:知識グラフ補完のための比例式埋め込み

ExpressivE: A Spatio-Functional Embedding For Knowledge Graph Completion ( http://arxiv.org/abs/2206.04192v1 )

ライセンス: Link先を確認
Aleksandar Pavlovi\'c (1) and Emanuel Sallinger (1 and 2) ((1) TU Vienna (2) University of Oxford)(参考訳) 知識グラフは本質的に不完全である。 そのため、知識グラフ完備化(KGC)、すなわち知識グラフ(KG)に表される情報から欠落した三重項を予測するために、かなりの研究が進められている。 埋め込みモデルは KGC に有望な結果をもたらすが、現在の KGC 埋め込みモデルは、(1) 重要な推論パターン(例えば、構成)を完全にキャプチャし、(2) 顕著な論理規則(例えば、階層と構成)を共同でキャプチャし、(3) キャプチャーされたパターンの直感的な解釈を提供する。 本稿では,これらすべての課題を同時に解決する完全表現型空間関数埋め込みモデルであるExpressivEを提案する。 ExpressivE は、仮想三重空間 $\mathbb{R}^{2d}$ に超平行グラフとして一対の実体を点として埋め込む。 このモデル設計は、豊かな推論パターンを共同で捉えるだけでなく、ハイパーパラレルグラムの空間的関係を通じてサポート対象の推論パターンを表示することを可能にし、表現埋め込みとそのキャプチャパターンの直感的かつ一貫した幾何学的解釈を提供する。 標準のKGCベンチマーク実験の結果、ExpressivEは最先端のモデルと競合し、WN18RRよりもはるかに優れていた。

Knowledge graphs are inherently incomplete. Therefore substantial research has been directed towards knowledge graph completion (KGC), i.e., predicting missing triples from the information represented in the knowledge graph (KG). Embedding models have yielded promising results for KGC, yet any current KGC embedding model is incapable of: (1) fully capturing vital inference patterns (e.g., composition), (2) capturing prominent logical rules jointly (e.g., hierarchy and composition), and (3) providing an intuitive interpretation of captured patterns. In this work, we propose ExpressivE, a fully expressive spatio-functional embedding model that solves all these challenges simultaneously. ExpressivE embeds pairs of entities as points and relations as hyper-parallelograms in the virtual triple space $\mathbb{R}^{2d}$. This model design allows ExpressivE not only to capture a rich set of inference patterns jointly but additionally to display any supported inference pattern through the spatial relation of hyper-parallelograms, offering an intuitive and consistent geometric interpretation of ExpressivE embeddings and their captured patterns. Experimental results on standard KGC benchmarks reveal that ExpressivE is competitive with state-of-the-art models and even significantly outperforms them on WN18RR.
翻訳日:2022-06-10 13:37:34 公開日:2022-06-08
# バンドの引き上げ

Uplifting Bandits ( http://arxiv.org/abs/2206.04091v1 )

ライセンス: Link先を確認
Yu-Guan Hsieh, Shiva Prasad Kasiviswanathan, Branislav Kveton(参考訳) 我々は,報酬が複数の確率変数の和であり,各アクションがそれらの分布のみを変化させるマルチアームバンディットモデルを導入する。 各アクションの後、エージェントはすべての変数の実現を観察する。 このモデルは、クリックのような個々の顧客に対する結果を表す変数をマーケティングキャンペーンやレコメンデーションシステムによって動機付けられている。 ベースライン上のアクションの上昇を推定する UCB スタイルのアルゴリズムを提案する。 本研究は,ベースラインと影響変数が未知である場合を含む,問題の複数の変種について検討し,これらすべてに対してサブ線形後悔境界を証明した。 モデリングの前提の必要性を正当化する下限も提供します。 合成および実世界のデータセットの実験は、この構造を使用しないポリシーに対する上昇を見積もる手法の利点を示している。

We introduce a multi-armed bandit model where the reward is a sum of multiple random variables, and each action only alters the distributions of some of them. After each action, the agent observes the realizations of all the variables. This model is motivated by marketing campaigns and recommender systems, where the variables represent outcomes on individual customers, such as clicks. We propose UCB-style algorithms that estimate the uplifts of the actions over a baseline. We study multiple variants of the problem, including when the baseline and affected variables are unknown, and prove sublinear regret bounds for all of these. We also provide lower bounds that justify the necessity of our modeling assumptions. Experiments on synthetic and real-world datasets show the benefit of methods that estimate the uplifts over policies that do not use this structure.
翻訳日:2022-06-10 13:33:03 公開日:2022-06-08
# スペックル統計パラメトリック画像の深い推定

Deep Estimation of Speckle Statistics Parametric Images ( http://arxiv.org/abs/2206.04145v1 )

ライセンス: Link先を確認
Ali K. Z. Tehrani, Ivan M. Rosado-Mendez, and Hassan Rivaz(参考訳) 定量的超音波(qus)は組織特性に関する重要な情報を提供する。 QUSパラメトリック画像は、封筒データを小さな重なり合うパッチに分割し、中上およびホモディネートK分布(HK分布)のパラメータなどの異なるスペックル統計を演算することで形成することができる。 計算されたQUSパラメトリック画像は、パッチ内にはいくつかの独立したサンプルしか存在しないため、誤検出が可能である。 もう1つの課題は、パッチ内の封筒サンプルが同じ分布に由来すると仮定されていることである。 本稿では,畳み込みニューラルネットワーク(CNN)を用いたQUSパラメトリック画像をパッチなしで推定する手法を提案する。 hk-distributionからサンプリングされた大きなデータセットを構築し、ランダムな形状とqusパラメータの領域を持つ。 次に、よく知られたネットワークを用いて、マルチタスク学習方式でQUSパラメータを推定する。 提案手法は,QUSパラメトリック画像の誤差を低減し,境界定義を改善することができることを確認した。

Quantitative Ultrasound (QUS) provides important information about the tissue properties. QUS parametric image can be formed by dividing the envelope data into small overlapping patches and computing different speckle statistics such as parameters of the Nakagami and Homodyned K-distributions (HK-distribution). The calculated QUS parametric images can be erroneous since only a few independent samples are available inside the patches. Another challenge is that the envelope samples inside the patch are assumed to come from the same distribution, an assumption that is often violated given that the tissue is usually not homogenous. In this paper, we propose a method based on Convolutional Neural Networks (CNN) to estimate QUS parametric images without patching. We construct a large dataset sampled from the HK-distribution, having regions with random shapes and QUS parameter values. We then use a well-known network to estimate QUS parameters in a multi-task learning fashion. Our results confirm that the proposed method is able to reduce errors and improve border definition in QUS parametric images.
翻訳日:2022-06-10 13:27:35 公開日:2022-06-08
# グラディエント難読化(Gradient Obfuscation)は、フェデレートラーニングにおけるセキュリティの感覚を高める

Gradient Obfuscation Gives a False Sense of Security in Federated Learning ( http://arxiv.org/abs/2206.04055v1 )

ライセンス: Link先を確認
Kai Yue, Richeng Jin, Chau-Wai Wong, Dror Baron, Huaiyu Dai(参考訳) フェデレートラーニングは、複数のクライアントが生データを共有せずにコラボレーションできるプライバシー保護機械学習フレームワークとして提案されている。 しかし、このフレームワークの設計によってクライアントのプライバシー保護は保証されない。 先行研究により、フェデレーション学習における勾配共有戦略は、データ再構成攻撃に対して脆弱であることが示されている。 しかし、実際には、高い通信コストやプライバシー強化の要求により、クライアントは生の勾配を送信できない。 実験的研究は、勾配雑音注入による意図的難読化や、勾配圧縮による意図しない難読化を含む勾配難読化が、再建攻撃に対するよりプライバシー保護を提供することを示した。 本稿では,フェデレーション学習における画像分類タスクを対象とする新しいデータ再構成攻撃フレームワークを提案する。 勾配量子化,勾配スパース化,勾配摂動といった一般的な勾配後処理手法は,連合学習において誤った安心感を与える可能性がある。 従来の研究とは対照的に、プライバシー強化は勾配圧縮の副産物として扱うべきではない。 さらに,提案手法に基づいて,意味レベルで画像を再構成するための新しい手法を考案する。 画像類似度スコアに基づいて,プライバシの漏えいを定量化し,従来型と比較する。 本比較は,文献における画像データ漏洩評価手法に挑戦する。 その結果,既存のフェデレーション学習アルゴリズムにおけるクライアントデータのプライバシー保護機構の再検討と再設計の重要性を強調した。

Federated learning has been proposed as a privacy-preserving machine learning framework that enables multiple clients to collaborate without sharing raw data. However, client privacy protection is not guaranteed by design in this framework. Prior work has shown that the gradient sharing strategies in federated learning can be vulnerable to data reconstruction attacks. In practice, though, clients may not transmit raw gradients considering the high communication cost or due to privacy enhancement requirements. Empirical studies have demonstrated that gradient obfuscation, including intentional obfuscation via gradient noise injection and unintentional obfuscation via gradient compression, can provide more privacy protection against reconstruction attacks. In this work, we present a new data reconstruction attack framework targeting the image classification task in federated learning. We show that commonly adopted gradient postprocessing procedures, such as gradient quantization, gradient sparsification, and gradient perturbation, may give a false sense of security in federated learning. Contrary to prior studies, we argue that privacy enhancement should not be treated as a byproduct of gradient compression. Additionally, we design a new method under the proposed framework to reconstruct the image at the semantic level. We quantify the semantic privacy leakage and compare with conventional based on image similarity scores. Our comparisons challenge the image data leakage evaluation schemes in the literature. The results emphasize the importance of revisiting and redesigning the privacy protection mechanisms for client data in existing federated learning algorithms.
翻訳日:2022-06-10 13:25:20 公開日:2022-06-08
# 安定の端を超えた勾配のDescent Convergenceについて

On Gradient Descent Convergence beyond the Edge of Stability ( http://arxiv.org/abs/2206.04172v1 )

ライセンス: Link先を確認
Lei Chen, Joan Bruna(参考訳) Gradient Descent(GD)は、高次元空間におけるスケーラビリティと効率のおかげで、現代の機械学習の強力なワークホースである。 局所的なミニミサーを見つける能力は、リプシッツ勾配の損失に対してのみ保証されており、下層の勾配流の「ボナフィド」の離散化と見なすことができる。 しかし、過パラメータモデルを含む多くのmlセットアップは、上記のリプシッツ定数に反比例する許容しきい値にステップサイズが交差するいわゆる「安定性のエッジ」以上の研究を動機付けたこの問題クラスには入らない。 おそらく驚くべきことに、gdは局所的な不安定さに関わらず依然として収束していることが実証的に観察されている。 本研究では,低次元環境における局所ミニマまわりの不安定収束に対する局所条件について検討する。 次に,これらの知見を活かして,教師ニューロンと協調する2層relu学習ネットワークのグローバル収束を,人口減少下での安定性の限界を超えた大きな学習率で確立する。 一方,2層間のノルムの差は勾配流によって保存されるが,gdは安定性の限界を超えるとバランス効果が引き起こされ,同じノルムが層間に存在することが示されている。

Gradient Descent (GD) is a powerful workhorse of modern machine learning thanks to its scalability and efficiency in high-dimensional spaces. Its ability to find local minimisers is only guaranteed for losses with Lipschitz gradients, where it can be seen as a 'bona-fide' discretisation of an underlying gradient flow. Yet, many ML setups involving overparametrised models do not fall into this problem class, which has motivated research beyond the so-called "Edge of Stability", where the step-size crosses the admissibility threshold inversely proportional to the Lipschitz constant above. Perhaps surprisingly, GD has been empirically observed to still converge regardless of local instability. In this work, we study a local condition for such an unstable convergence around a local minima in a low dimensional setting. We then leverage these insights to establish global convergence of a two-layer single-neuron ReLU student network aligning with the teacher neuron in a large learning rate beyond the Edge of Stability under population loss. Meanwhile, while the difference of norms of the two layers is preserved by gradient flow, we show that GD above the edge of stability induces a balancing effect, leading to the same norms across the layers.
翻訳日:2022-06-10 13:24:29 公開日:2022-06-08
# 言葉がすべて必要ですか? テキスト記述子による人間の感覚類似性の獲得

Words are all you need? Capturing human sensory similarity with textual descriptors ( http://arxiv.org/abs/2206.04105v1 )

ライセンス: Link先を確認
Raja Marjieh, Pol van Rijn, Ilia Sucholutsky, Theodore R. Sumers, Harin Lee, Thomas L. Griffiths, Nori Jacoby(参考訳) マルチモーダルトレーニングの最近の進歩は、画像やビデオの機械的理解を著しく向上させるためにテキスト記述を用いた。 しかし、言語が様々なモダリティをまたいだ感覚体験を完全に捉えることができるかどうかは不明だ。 感覚体験を特徴付けるための確立されたアプローチは、類似性判断、すなわち2つの異なる刺激を類似と認識する程度に依存する。 我々は,3つのモダリティ(画像,音声,ビデオ)と2種類のテキスト記述子(単純な単語タグと自由テキストキャプション)を対象とする大規模行動研究(N=1,823ドル)において,人間の類似性判断と言語との関係を検討する。 そこで我々は,効率的かつ汎用的なタグマイニングのための新しい適応パイプラインを提案する。 テキスト記述子に基づく予測パイプラインは優れた性能を示し、視覚・オーディオ・ビデオ処理アーキテクチャに基づく611のベースラインモデルの包括的な配列と比較した。 さらに、テキスト記述子やモデルが人間の類似性を予測できる程度が、モダリティによって異なることを示す。 これらの研究は、人間と機械表現の類似点と相違点をよりよく理解するために、機械学習と認知科学のアプローチを統合することの価値を説明する。 本稿では,人間が経験した刺激と,論文で報告された様々な方法の類似性を探るため,https://words-are-all-you-need.s3.amazonaws.com/index.htmlでインタラクティブな可視化を行った。

Recent advances in multimodal training use textual descriptions to significantly enhance machine understanding of images and videos. Yet, it remains unclear to what extent language can fully capture sensory experiences across different modalities. A well-established approach for characterizing sensory experiences relies on similarity judgments, namely, the degree to which people perceive two distinct stimuli as similar. We explore the relation between human similarity judgments and language in a series of large-scale behavioral studies ($N=1,823$ participants) across three modalities (images, audio, and video) and two types of text descriptors: simple word tags and free-text captions. In doing so, we introduce a novel adaptive pipeline for tag mining that is both efficient and domain-general. We show that our prediction pipeline based on text descriptors exhibits excellent performance, and we compare it against a comprehensive array of 611 baseline models based on vision-, audio-, and video-processing architectures. We further show that the degree to which textual descriptors and models predict human similarity varies across and within modalities. Taken together, these studies illustrate the value of integrating machine learning and cognitive science approaches to better understand the similarities and differences between human and machine representations. We present an interactive visualization at https://words-are-all-you-need.s3.amazonaws.com/index.html for exploring the similarity between stimuli as experienced by humans and different methods reported in the paper.
翻訳日:2022-06-10 12:44:45 公開日:2022-06-08
# ESCHER: 履歴値関数を計算してゲームにおける重要度サンプリングを推定する

ESCHER: Eschewing Importance Sampling in Games by Computing a History Value Function to Estimate Regret ( http://arxiv.org/abs/2206.04122v1 )

ライセンス: Link先を確認
Stephen McAleer, Gabriele Farina, Marc Lanctot, Tuomas Sandholm(参考訳) 非常に大きなゲームでナッシュ平衡を近似する最近の技術は、ニューラルネットワークを利用して、ほぼ最適なポリシー(戦略)を学ぶ。 有望な研究の1つは、ニューラルネットワークを使って反実的後悔の最小化(CFR)またはその現代の変種を近似している。 モデルフリーであり、非常に大きなゲームにスケーラブルな、現在のcfrベースのニューラルメソッドであるdreamは、モンテカルロcfr(mccfr)から受け継いだ重要なサンプリング用語によって非常に高いばらつきを持つ推定後悔目標上でニューラルネットワークをトレーニングする。 本稿では,重要サンプリングを必要としない非バイアスモデルフリー手法を提案する。 本手法の原理はescherであり, 表式の場合, 高確率で近似ナッシュ平衡に収束することが保証されている。 オラクルの値関数を持つ表型バージョンのescherの推定後悔のばらつきは、結果サンプリングのmccfrやoracleの値関数の表型ドリームよりもかなり低いことを示している。 次に,ESCHERの深層学習バージョンが,DREAMとニューラル・フィクション・セルフプレイ(NFSP)の先行状態よりも優れており,ゲームサイズが大きくなるにつれてその差が劇的になることを示す。

Recent techniques for approximating Nash equilibria in very large games leverage neural networks to learn approximately optimal policies (strategies). One promising line of research uses neural networks to approximate counterfactual regret minimization (CFR) or its modern variants. DREAM, the only current CFR-based neural method that is model free and therefore scalable to very large games, trains a neural network on an estimated regret target that can have extremely high variance due to an importance sampling term inherited from Monte Carlo CFR (MCCFR). In this paper we propose an unbiased model-free method that does not require any importance sampling. Our method, ESCHER, is principled and is guaranteed to converge to an approximate Nash equilibrium with high probability in the tabular case. We show that the variance of the estimated regret of a tabular version of ESCHER with an oracle value function is significantly lower than that of outcome sampling MCCFR and tabular DREAM with an oracle value function. We then show that a deep learning version of ESCHER outperforms the prior state of the art -- DREAM and neural fictitious self play (NFSP) -- and the difference becomes dramatic as game size increases.
翻訳日:2022-06-10 12:44:17 公開日:2022-06-08
# ピクセルからの深い階層計画

Deep Hierarchical Planning from Pixels ( http://arxiv.org/abs/2206.04114v1 )

ライセンス: Link先を確認
Danijar Hafner, Kuang-Huei Lee, Ian Fischer, Pieter Abbeel(参考訳) インテリジェントエージェントは複雑なタスクを解決するために長い一連のアクションを選択する必要があります。 人間は簡単にタスクをサブゴールに分解し、何百万もの筋肉コマンドを通じてそれに到達するが、現在の人工知能は計算予算が大きいにもかかわらず、数百の意思決定を伴うタスクに限られている。 階層的強化学習の研究は、この制限を克服することを目的としているが、現在の手法は手動で指定された目標空間やサブタスクに依存しており、一般的な解決策は存在しないことが証明されている。 本稿では,学習世界モデルの潜在空間内で計画を行うことにより,画素から直接階層的振る舞いを学習する実践的手法である director を紹介する。 ハイレベル政策は潜在目標を選択してタスクと探索の報酬を最大化し、低レベル政策は目標を達成するために学習する。 潜在空間で運用されているにもかかわらず、世界モデルは可視化のために目標を画像にデコードできるため、決定は解釈可能である。 ディレクターは、エゴセントリックカメラからの四足歩行ロボットとの3D迷路トラバーサルや、前作で使われた世界的位置やトップダウンビューへのアクセスなしに、探索方法よりも優れている。 directorはまた、ビジュアルコントロール、atariゲーム、dmlabレベルなど、幅広い環境において成功した行動を学ぶ。

Intelligent agents need to select long sequences of actions to solve complex tasks. While humans easily break down tasks into subgoals and reach them through millions of muscle commands, current artificial intelligence is limited to tasks with horizons of a few hundred decisions, despite large compute budgets. Research on hierarchical reinforcement learning aims to overcome this limitation but has proven to be challenging, current methods rely on manually specified goal spaces or subtasks, and no general solution exists. We introduce Director, a practical method for learning hierarchical behaviors directly from pixels by planning inside the latent space of a learned world model. The high-level policy maximizes task and exploration rewards by selecting latent goals and the low-level policy learns to achieve the goals. Despite operating in latent space, the decisions are interpretable because the world model can decode goals into images for visualization. Director outperforms exploration methods on tasks with sparse rewards, including 3D maze traversal with a quadruped robot from an egocentric camera and proprioception, without access to the global position or top-down view that was used by prior work. Director also learns successful behaviors across a wide range of environments, including visual control, Atari games, and DMLab levels.
翻訳日:2022-06-10 12:43:52 公開日:2022-06-08
# CASS:医療画像分析のためのクロスアーキテクチャセルフスーパービジョン

CASS: Cross Architectural Self-Supervision for Medical Image Analysis ( http://arxiv.org/abs/2206.04170v1 )

ライセンス: Link先を確認
Pranav Singh, Elena Sizikova, Jacopo Cirrone(参考訳) 近年のDeep LearningとComputer Visionの進歩はボトルネックの多くを緩和し、より良いパフォーマンスでアルゴリズムをラベルフリーにしている。 具体的には、Transformerはイメージのグローバルな視点を提供し、CNN(Convolutional Neural Networks)は設計によって欠落している。 ここでは、変換器とCNNを同時に活用する新たな自己教師型学習アプローチである、簡単なクラウドサービスを通じて一般の実践者に対して計算的にアクセス可能な、‘textbf{C}ross \textbf{A}rchitectural - \textbf{S}elf \textbf{S}upervision’を提案する。 既存の最先端の自己教師付き学習手法と比較して,cass訓練されたcnnを経験的に示し,100\%のラベル付きデータで平均8.5\%,10\%のラベル付きデータで7.3\%,1\%のラベル付きデータで11.5\%のトランスフォーマーを得た。 中でも注目に値するのは,自己免疫疾患の病理組織学的所見であり,医療画像では軽視され,データも少ない点である。 また,cassは他の最先端手法に比べてトレーニング時間において2倍効率が良いことが判明した。

Recent advances in Deep Learning and Computer Vision have alleviated many of the bottlenecks, allowing algorithms to be label-free with better performance. Specifically, Transformers provide a global perspective of the image, which Convolutional Neural Networks (CNN) lack by design. Here we present \textbf{C}ross \textbf{A}rchitectural - \textbf{S}elf \textbf{S}upervision , a novel self-supervised learning approach which leverages transformers and CNN simultaneously, while also being computationally accessible to general practitioners via easily available cloud services. Compared to existing state-of-the-art self-supervised learning approaches, we empirically show CASS trained CNNs, and Transformers gained an average of 8.5\% with 100\% labelled data, 7.3\% with 10\% labelled data, and 11.5\% with 1\% labelled data, across three diverse datasets. Notably, one of the employed datasets included histopathology slides of an autoimmune disease, a topic underrepresented in Medical Imaging and has minimal data. In addition, our findings reveal that CASS is twice as efficient as other state-of-the-art methods in terms of training time.
翻訳日:2022-06-10 12:42:17 公開日:2022-06-08
# (参考訳) EVC-Net:脳抽出のための条件ランダムフィールド付きマルチスケールVネットワーク

EVC-Net: Multi-scale V-Net with Conditional Random Fields for Brain Extraction ( http://arxiv.org/abs/2206.02837v2 )

ライセンス: CC BY 4.0
Jong Sung Park, Shreyas Fadnavis, Eleftherios Garyfallidis(参考訳) 脳抽出は3D脳MRIデータを前処理する最初のステップの1つである。 これは今後の脳画像解析の前提条件である。 しかし、脳と人間の頭部の複雑な構造のため、単純なセグメンテーションの問題ではない。 文献では複数の解法が提案されているが,真に堅牢な方法には程遠い。 従来の手法では,コンピュータビジョンタスクにおける深層学習の発達に伴い,構造的・幾何学的優先順位を持つ機械学習が用いられてきたが,この意味的セグメンテーションタスクでは畳み込みニューラルネットワークアーキテクチャが提案されている。 しかし、ほとんどのモデルは、アーキテクチャの変更をほとんど受けずに、トレーニングデータと損失関数を改善することに焦点を合わせています。 本稿では,EVC-Netと呼ぶ新しいアーキテクチャを提案する。 EVC-Netは各エンコーダブロックに低スケール入力を追加する。 これにより、v-netアーキテクチャのマルチスケールスキームが強化され、モデルの効率が向上する。 ディープラーニング時代以前のイメージセグメンテーションの一般的なアプローチである条件付きランダムフィールドは、ネットワークの出力を精細化し、セグメンテーションのきめ細かい結果をキャプチャするための追加ステップとして、ここで再導入される。 hd-bet, synthstrip,brainyなどの最先端の手法と比較した。 その結果,EVC-Netはトレーニングリソースが限られていても,高いDice CoefficientとJaccard Indexと低い表面距離を達成できることがわかった。

Brain extraction is one of the first steps of pre-processing 3D brain MRI data. It is a prerequisite for any forthcoming brain imaging analyses. However, it is not a simple segmentation problem due to the complex structure of the brain and human head. Although multiple solutions have been proposed in the literature, we are still far from having truly robust methods. While previous methods have used machine learning with structural/geometric priors, with the development of deep learning in computer vision tasks, there has been an increase in proposed convolutional neural network architectures for this semantic segmentation task. Yet, most models focus on improving the training data and loss functions with little change in the architecture. In this paper, we propose a novel architecture we call EVC-Net. EVC-Net adds lower scale inputs on each encoder block. This enhances the multi-scale scheme of the V-Net architecture, hence increasing the efficiency of the model. Conditional Random Fields, a popular approach for image segmentation before the deep learning era, are re-introduced here as an additional step for refining the network's output to capture fine-grained results in segmentation. We compare our model to state-of-the-art methods such as HD-BET, Synthstrip and brainy. Results show that even with limited training resources, EVC-Net achieves higher Dice Coefficient and Jaccard Index along with lower surface distance.
翻訳日:2022-06-10 10:19:35 公開日:2022-06-08
# ニューラルネットワークプルーニングにおけるリコール歪みと未決定プルーニングアルゴリズム

Recall Distortion in Neural Network Pruning and the Undecayed Pruning Algorithm ( http://arxiv.org/abs/2206.02976v2 )

ライセンス: Link先を確認
Aidan Good and Jiaqi Lin and Hannah Sieg and Mikey Ferguson and Xin Yu and Shandian Zhe and Jerzy Wieczorek and Thiago Serra(参考訳) プルーニング技術はニューラルネットワークで精度とスパーシティのトレードオフに成功している。 しかし、ネットワークのプルーニングの影響は一様ではなく、以前の研究では、データセット内の表現不足のクラスに対するリコールがよりネガティブな影響を受ける可能性があることが示されている。 本研究では,モデルに固有の強度効果を仮定することにより,リコール中の相対歪みについて検討する。 すなわち、プルーニングは、精度より低いクラスのリコールを比較的悪くし、逆に、精度より高いクラスのリコールを比較的良くする。 また,その効果の減衰を目的とした新しい刈り込みアルゴリズムを提案する。 統計的解析により, 強化はアルゴリズムの重大さを低下させるが, 比較的難易度の高いタスク, 複雑度の低いモデル, 高い刈り取り率でより明瞭になることがわかった。 より驚くべきことに、より低いプルーニング比によるデインテンシフィケーション効果を逆に観察する。

Pruning techniques have been successfully used in neural networks to trade accuracy for sparsity. However, the impact of network pruning is not uniform: prior work has shown that the recall for underrepresented classes in a dataset may be more negatively affected. In this work, we study such relative distortions in recall by hypothesizing an intensification effect that is inherent to the model. Namely, that pruning makes recall relatively worse for a class with recall below accuracy and, conversely, that it makes recall relatively better for a class with recall above accuracy. In addition, we propose a new pruning algorithm aimed at attenuating such effect. Through statistical analysis, we have observed that intensification is less severe with our algorithm but nevertheless more pronounced with relatively more difficult tasks, less complex models, and higher pruning ratios. More surprisingly, we conversely observe a de-intensification effect with lower pruning ratios.
翻訳日:2022-06-10 09:46:44 公開日:2022-06-08
# (参考訳) ネットワークレポート:ネットワークデータセットのための構造化記述

Network Report: A Structured Description for Network Datasets ( http://arxiv.org/abs/2206.03635v1 )

ライセンス: CC BY 4.0
Xinyi Zheng, Ryan A. Rossi, Nesreen Ahmed, Dominik Moritz(参考訳) ネットワーク科学と技術の急速な発展は、共有可能なデータセットに依存する。 現在、ネットワークデータセットのレポートと共有の標準的なプラクティスはありません。 一部のネットワークデータセットプロバイダはリンクを共有するだけであり、いくつかのコンテキストや基本的な統計を提供する。 その結果、クリティカルな情報は意図せず削除され、ネットワークデータセットの消費者は批判的な側面を誤解し、見落としてしまう可能性がある。 ネットワークデータセットを不適切に使用すると、特にネットワーク上の機械学習モデルが高い領域にデプロイされる場合、深刻な結果(差別など)につながる可能性がある。 ネットワークは様々な領域(ネットワーク科学、物理学など)でよく使われ、複雑な構造を持つため、課題が発生する。 ネットワークデータセットプロバイダとコンシューマ間の通信を容易にするため,ネットワークレポートを提案する。 ネットワークレポートは、ネットワークデータセットを要約し、コンテキスト化する構造化記述である。 ネットワークレポートは、データセットレポート(Datasheets for Datasetsなど)の考え方を、非i.d.自然、人口統計情報、ネットワーク特性などのネットワーク固有の記述による以前の作業から拡張している。 ネットワークレポートは、さまざまな分野にわたるネットワーク研究と開発における透明性と説明責任を促進することを願っている。

The rapid development of network science and technologies depends on shareable datasets. Currently, there is no standard practice for reporting and sharing network datasets. Some network dataset providers only share links, while others provide some contexts or basic statistics. As a result, critical information may be unintentionally dropped, and network dataset consumers may misunderstand or overlook critical aspects. Inappropriately using a network dataset can lead to severe consequences (e.g., discrimination) especially when machine learning models on networks are deployed in high-stake domains. Challenges arise as networks are often used across different domains (e.g., network science, physics, etc) and have complex structures. To facilitate the communication between network dataset providers and consumers, we propose network report. A network report is a structured description that summarizes and contextualizes a network dataset. Network report extends the idea of dataset reports (e.g., Datasheets for Datasets) from prior work with network-specific descriptions of the non-i.i.d. nature, demographic information, network characteristics, etc. We hope network reports encourage transparency and accountability in network research and development across different fields.
翻訳日:2022-06-10 03:33:11 公開日:2022-06-08
# (参考訳) クロスドメインフェア分類のための共同学習

Joint Adversarial Learning for Cross-domain Fair Classification ( http://arxiv.org/abs/2206.03656v1 )

ライセンス: CC BY 4.0
Yueqing Liang, Canyu Chen, Tian Tian, Kai Shu(参考訳) 現代の機械学習(ML)モデルはますます普及し、意思決定システムで広く使われている。 しかし、研究はMLの差別と不公平性の重大な問題を示しており、高い評価の応用に採用を妨げている。 公正分類器に関する最近の研究は、公平性と良好な分類性能を達成する効果的なアルゴリズムの開発に多大な注目を集めている。 これらフェアネスを意識した機械学習モデルの大きな成功にもかかわらず、既存のモデルの多くはデータを前処理したり、モデル学習や後処理によって公正な予測を行うために、センシティブな属性を必要とする。 しかし、機密性の高い属性は、しばしば、プライバシー、法律、規制の制約のために不完全または不完全である。 ターゲットドメインで公正なモデルをトレーニングするためのセンシティブな属性はないが、センシティブな属性を持つ同様のドメインが存在するかもしれない。 したがって、類似ドメインからの補助情報を活用して、対象ドメインの公平な分類を改善することが重要である。 そこで本稿では,公平な分類のための領域適応の新たな課題について検討する。 対象領域の公平な分類法を学習しながら、感度特性を同時に推定できる新しいフレームワークを提案する。 実世界のデータセットに対する大規模な実験は、対象領域にセンシティブな属性が存在しない場合でも、フェア分類のためのモデルの有効性を示す。

Modern machine learning (ML) models are becoming increasingly popular and are widely used in decision-making systems. However, studies have shown critical issues of ML discrimination and unfairness, which hinder their adoption on high-stake applications. Recent research on fair classifiers has drawn significant attention to develop effective algorithms to achieve fairness and good classification performance. Despite the great success of these fairness-aware machine learning models, most of the existing models require sensitive attributes to preprocess the data, regularize the model learning or postprocess the prediction to have fair predictions. However, sensitive attributes are often incomplete or even unavailable due to privacy, legal or regulation restrictions. Though we lack the sensitive attribute for training a fair model in the target domain, there might exist a similar domain that has sensitive attributes. Thus, it is important to exploit auxiliary information from the similar domain to help improve fair classification in the target domain. Therefore, in this paper, we study a novel problem of exploring domain adaptation for fair classification. We propose a new framework that can simultaneously estimate the sensitive attributes while learning a fair classifier in the target domain. Extensive experiments on real-world datasets illustrate the effectiveness of the proposed model for fair classification, even when no sensitive attributes are available in the target domain.
翻訳日:2022-06-10 03:14:20 公開日:2022-06-08
# (参考訳) マルチモデル融合アクター臨界強化学習によるスケーラブルオンライン疾患診断

Scalable Online Disease Diagnosis via Multi-Model-Fused Actor-Critic Reinforcement Learning ( http://arxiv.org/abs/2206.03659v1 )

ライセンス: CC BY 4.0
Weijie He and Ting Chen(参考訳) オンラインの医療アドバイスを求める人にとっては、患者と対話して自動疾患診断を行うAIベースの対話エージェントが有効な選択肢だ。 この応用は、正確な診断勧告を行うために、関連する疾患症状の効率的な調査を必要とする。 これは、強化学習(RL)アプローチを自然解として提案した逐次的特徴(症状)選択と分類の問題として定式化することができる。 特徴空間が小さい場合、つまり、症状の数や診断可能な疾患のカテゴリーは限られているが、多くの特徴を持つ課題においてしばしば失敗する。 この課題に対処するために、生成アクターネットワークと診断批評家ネットワークからなるマルチモデル融合アクタークリティカル(MMF-AC)フレームワークを提案する。 アクターは変分オートエンコーダ(VAE)を組み込んで、特徴の部分的な観察によって引き起こされる不確実性をモデル化し、適切な問い合わせを容易にする。 批評家ネットワークでは,疾患予測のための教師付き診断モデルを用いて,状態値関数を正確に推定する。 さらに, 鑑別診断の医学的概念に触発されて, 生成モデルと診断モデルを組み合わせて, 広い検索空間におけるスパース報酬問題に対処する新たな報酬形成機構を創出する。 我々は経験的評価のために合成データと実世界のデータセットの両方について広範な実験を行う。 その結果,本手法は診断精度と相互作用効率の点で最先端の手法よりも優れており,大規模検索空間のスケーラビリティも向上していることがわかった。 さらに,本手法は分類的かつ連続的な特徴に適応し,オンラインアプリケーションに最適である。

For those seeking healthcare advice online, AI based dialogue agents capable of interacting with patients to perform automatic disease diagnosis are a viable option. This application necessitates efficient inquiry of relevant disease symptoms in order to make accurate diagnosis recommendations. This can be formulated as a problem of sequential feature (symptom) selection and classification for which reinforcement learning (RL) approaches have been proposed as a natural solution. They perform well when the feature space is small, that is, the number of symptoms and diagnosable disease categories is limited, but they frequently fail in assignments with a large number of features. To address this challenge, we propose a Multi-Model-Fused Actor-Critic (MMF-AC) RL framework that consists of a generative actor network and a diagnostic critic network. The actor incorporates a Variational AutoEncoder (VAE) to model the uncertainty induced by partial observations of features, thereby facilitating in making appropriate inquiries. In the critic network, a supervised diagnosis model for disease predictions is involved to precisely estimate the state-value function. Furthermore, inspired by the medical concept of differential diagnosis, we combine the generative and diagnosis models to create a novel reward shaping mechanism to address the sparse reward problem in large search spaces. We conduct extensive experiments on both synthetic and real-world datasets for empirical evaluations. The results demonstrate that our approach outperforms state-of-the-art methods in terms of diagnostic accuracy and interaction efficiency while also being more effectively scalable to large search spaces. Besides, our method is adaptable to both categorical and continuous features, making it ideal for online applications.
翻訳日:2022-06-10 03:00:22 公開日:2022-06-08
# (参考訳) 実世界流通シフトに対するロバスト性認定に向けて

Toward Certified Robustness Against Real-World Distribution Shifts ( http://arxiv.org/abs/2206.03669v1 )

ライセンス: CC BY 4.0
Haoze Wu, Teruhiro Tagomori, Alexander Robey, Fengjun Yang, Nikolai Matni, George Pappas, Hamed Hassani, Corina Pasareanu, Clark Barrett(参考訳) 我々は、現実世界の分散シフトに対するディープニューラルネットワークの堅牢性を証明する問題を考える。 そこで我々は,データから摂動を学習するために生成モデルを訓練し,学習したモデルの出力に関して仕様を定義する,新しいニューラルシンボリック検証フレームワークを提案することによって,手作り仕様と現実的な展開設定のギャップを埋める。 この設定から生じるユニークな課題は、既存の検証器が、多くの最先端生成モデルの基本であるsgmoidアクティベーションを厳密に近似できないことである。 この課題に対処するために,古典的な概念である反例誘導的抽象的洗練を利用したシグモイドの活性化処理のための一般メタアルゴリズムを提案する。 鍵となる考え方は、Sigmoid関数の抽象化を「緩やかに」洗練し、以前の抽象化で見いだされた急激な反例を排除し、状態空間を小さく保ちながら検証プロセスの進歩を保証することである。 MNISTとCIFAR-10データセットの実験により、我々のフレームワークは、様々な挑戦的な分散シフトにおいて、既存の手法を著しく上回ります。

We consider the problem of certifying the robustness of deep neural networks against real-world distribution shifts. To do so, we bridge the gap between hand-crafted specifications and realistic deployment settings by proposing a novel neural-symbolic verification framework, in which we train a generative model to learn perturbations from data and define specifications with respect to the output of the learned model. A unique challenge arising from this setting is that existing verifiers cannot tightly approximate sigmoid activations, which are fundamental to many state-of-the-art generative models. To address this challenge, we propose a general meta-algorithm for handling sigmoid activations which leverages classical notions of counter-example-guided abstraction refinement. The key idea is to "lazily" refine the abstraction of sigmoid functions to exclude spurious counter-examples found in the previous abstraction, thus guaranteeing progress in the verification process while keeping the state-space small. Experiments on the MNIST and CIFAR-10 datasets show that our framework significantly outperforms existing methods on a range of challenging distribution shifts.
翻訳日:2022-06-10 02:42:37 公開日:2022-06-08
# (参考訳) debiasbench:画像分類におけるdebiasingの公正比較のためのベンチマーク

DebiasBench: Benchmark for Fair Comparison of Debiasing in Image Classification ( http://arxiv.org/abs/2206.03680v1 )

ライセンス: CC BY 4.0
Jungsoo Lee, Juyoung Lee, Sanghun Jung, Jaegul Choo(参考訳) 画像分類器は、予測を行う際にターゲットクラス(すなわちデータセットバイアス)と強い相関を持つ周辺属性に依存することが多い。 近年、数多くの研究が、デバイアス(debiasing)と呼ばれるそのようなデータセットバイアスの軽減に焦点を当てている。 しかしながら、これらのデバイアス法は、しばしば一貫性のない実験的な設定(例えばデータセットやニューラルネットワークアーキテクチャ)を持つ。 さらに、デバイアスの以前の研究の多くは、早期停止とハイパーパラメータチューニングを含むモデルパラメータをどのように選択するかを規定していない。 本稿では,不整合実験の設定を標準化し,デバイアスのモデルパラメータ選択基準を提案する。 このような統一的な実験設定とモデルパラメータ選択基準に基づいて、5つのデータセットと7つのデバイアスメソッドを含むdebiasbenchというベンチマークを構築した。 様々な側面において広範囲に実験を行い、それぞれ異なるデータセットで異なる最先端の手法が最適であることを示す。 たとえバニラ法はデバイアスモジュールを持たない手法であり、バイアスが低いデータセットの競合結果も示している。 我々はデビアスベンチにおける既存のデバイアス法の実装を公開し、デバイアス法の研究者が公正な比較を行い、最先端のパフォーマンスをさらに推し進めるよう奨励する。

Image classifiers often rely overly on peripheral attributes that have a strong correlation with the target class (i.e., dataset bias) when making predictions. Recently, a myriad of studies focus on mitigating such dataset bias, the task of which is referred to as debiasing. However, these debiasing methods often have inconsistent experimental settings (e.g., datasets and neural network architectures). Additionally, most of the previous studies in debiasing do not specify how they select their model parameters which involve early stopping and hyper-parameter tuning. The goal of this paper is to standardize the inconsistent experimental settings and propose a consistent model parameter selection criterion for debiasing. Based on such unified experimental settings and model parameter selection criterion, we build a benchmark named DebiasBench which includes five datasets and seven debiasing methods. We carefully conduct extensive experiments in various aspects and show that different state-of-the-art methods work best in different datasets, respectively. Even, the vanilla method, the method with no debiasing module, also shows competitive results in datasets with low bias severity. We publicly release the implementation of existing debiasing methods in DebiasBench to encourage future researchers in debiasing to conduct fair comparisons and further push the state-of-the-art performances.
翻訳日:2022-06-10 02:02:26 公開日:2022-06-08
# (参考訳) Progress Report: A Deep Learning Guided Exploration of Affine Unimodular Loop Transformations

Progress Report: A Deep Learning Guided Exploration of Affine Unimodular Loop Transformations ( http://arxiv.org/abs/2206.03684v1 )

ライセンス: CC BY-SA 4.0
Massinissa Merouani, Khaled Afif Boudaoud, Iheb Nassim Aouadj, Nassim Tchoulak, Fatima Benbouzid-Sitayeb, Karima Benatchba, Hugh Leather, and Riyadh Baghdadi(参考訳) 本稿では,多面体コンパイラにおけるコードの自動最適化のための深層学習手法について述べる。 提案手法では,アフィンループ変換と非アフィンループ変換の組み合わせを探索し,プログラムの実行時間を最小化する変換列を求める。 この探索はディープラーニングに基づくコストモデルによって導かれ、変換の各シーケンスがもたらすスピードアップを評価する。 予備結果は, art polyhedral compilers (pluto) の2.35倍の幾何平均高速化を実現することを示す。

In this paper, we present a work in progress about a deep learning based approach for automatic code optimization in polyhedral compilers. The proposed technique explores combinations of affine and non-affine loop transformations to find the sequence of transformations that minimizes the execution time of a given program. This exploration is guided by a deep learning based cost model that evaluates the speedup that each sequence of transformations would yield. Preliminary results show that the proposed techniques achieve a 2.35x geometric mean speedup over state of the art polyhedral compilers (Pluto).
翻訳日:2022-06-10 01:49:17 公開日:2022-06-08
# (参考訳) データ中毒に対する自己回帰摂動

Autoregressive Perturbations for Data Poisoning ( http://arxiv.org/abs/2206.03693v1 )

ライセンス: CC BY 4.0
Pedro Sandoval-Segura, Vasu Singla, Jonas Geiping, Micah Goldblum, Tom Goldstein, David W. Jacobs(参考訳) データセット取得手段としてのソーシャルメディアからのデータのスクレイピングの頻度は、不正なデータの使用に対する懸念が高まっている。 データ中毒攻撃は、小さな、不可避な摂動を加えることでデータを「理解不能」にするため、スクレーピングに対する防弾策として提案されている。 残念なことに、既存のメソッドはターゲットアーキテクチャと完全なデータセットの両方の知識を必要とするため、サロゲートネットワークをトレーニングでき、そのパラメータが攻撃生成に使用される。 本研究では,より広いデータセットにアクセスせずに有毒なデータを生成する方法であるautoregressive (ar) poisoningを導入する。 提案されたAR摂動は汎用的であり、異なるデータセットに適用でき、異なるアーキテクチャを汚染することができる。 既存の学習不可能な方法と比較して、我々のAR毒は敵の訓練や強力なデータ強化のような一般的な防御に抵抗する。 分析は、何が効果的なデータ毒をもたらすのか、さらに洞察を与えます。

The prevalence of data scraping from social media as a means to obtain datasets has led to growing concerns regarding unauthorized use of data. Data poisoning attacks have been proposed as a bulwark against scraping, as they make data "unlearnable" by adding small, imperceptible perturbations. Unfortunately, existing methods require knowledge of both the target architecture and the complete dataset so that a surrogate network can be trained, the parameters of which are used to generate the attack. In this work, we introduce autoregressive (AR) poisoning, a method that can generate poisoned data without access to the broader dataset. The proposed AR perturbations are generic, can be applied across different datasets, and can poison different architectures. Compared to existing unlearnable methods, our AR poisons are more resistant against common defenses such as adversarial training and strong data augmentations. Our analysis further provides insight into what makes an effective data poison.
翻訳日:2022-06-10 01:43:40 公開日:2022-06-08
# (参考訳) 構成モデルと一般化回帰ニューラルネットワークを用いた磁気形状記憶合金(msma)の起電力予測

Predictions of Electromotive Force of Magnetic Shape Memory Alloy (MSMA) Using Constitutive Model and Generalized Regression Neural Network ( http://arxiv.org/abs/2206.03701v1 )

ライセンス: CC BY 4.0
Md Esharuzzaman Emu(参考訳) Ni-Mn-Ga単結晶のような強磁性形状記憶合金(MSMA)は室温での磁場印加による形状記憶効果を示す。 可変磁場と一定のバイアス応力負荷の下では、MSMAはアクチュエータ用途に使用されている。 この研究は、Ni-Mn-Ga単結晶の既存のマクロスケール磁気力学モデルに新しい特徴を導入した。 このモデルには、2つの変種における磁気的容易な軸が、D silvaらによって観測されるように正確に垂直ではないという事実が含まれる。 このオフセットは、MSMAの電力収穫能力を説明するのに役立つ。 モデル予測は、Ni-Mn-Ga単結晶上で収集された実験データと比較される。 実験には、一定バイアス磁場負荷(電力収穫やセンシングを模倣する)による応力制御負荷と、一定バイアス圧縮応力(アクチュレーションを模倣する)による磁場制御負荷の両方が含まれる。 それぞれ異なる負荷レベルで試験を行い,MSMA試料が存在しない場合の印加磁場は,Eberleらによって示唆されたように,消磁が実験的に測定された磁場に影響を及ぼさないよう測定した。 その結果,モデル予測と実験データとの適切な一致が得られた。 このモデルは実験結果を適切に予測するが、実験データの全ての特徴を捉えていない。 実験的な特徴をすべて捉えるために、最終的に一般化回帰ニューラルネットワーク(grnn)を使用して実験データ(ストレス、ひずみ、磁場、emf)を訓練し、合理的により良い予測を行うことができた。

Ferromagnetic shape memory alloys (MSMAs), such as Ni-Mn-Ga single crystals, can exhibit the shape memory effect due to an applied magnetic field at room temperature. Under a variable magnetic field and a constant bias stress loading, MSMAs have been used for actuation applications. This work introduced a new feature to the existing macroscale magneto-mechanical model for Ni-Mn-Ga single crystal. This model includes the fact that the magnetic easy axis in the two variants is not exactly perpendicular as observed by D silva et al. This offset helps explain some of the power harvesting capabilities of MSMAs. Model predictions are compared to experimental data collected on a Ni-Mn-Ga single crystal. The experiments include both stress-controlled loading with constant bias magnetic field load (which mimics power harvesting or sensing) and fieldcontrolled loading with constant bias compressive stress (which mimics actuation). Each type of test was performed at several different load levels, and the applied field was measured without the MSMA specimen present so that demagnetization does not affect the experimentally measured field as suggested by Eberle et al. Results show decent agreement between model predictions and experimental data. Although the model predicts experimental results decently, it does not capture all the features of the experimental data. In order to capture all the experimental features, finally, a generalized regression neural network (GRNN) was used to train the experimental data (stress, strain, magnetic field, and emf) so that it can make a reasonably better prediction.
翻訳日:2022-06-10 01:24:18 公開日:2022-06-08
# (参考訳) 1Cademy at Semeval-2022 Task 1:Reverse Dictionary Taskにおける多言語・マルチタスク・言語に依存しないトリックの有効性の検討

1Cademy at Semeval-2022 Task 1: Investigating the Effectiveness of Multilingual, Multitask, and Language-Agnostic Tricks for the Reverse Dictionary Task ( http://arxiv.org/abs/2206.03702v1 )

ライセンス: CC BY 4.0
Zhiyong Wang, Ge Zhang, Nineli Lashkarashvili(参考訳) 本稿では,辞書グルースと単語埋め込みをマッチングするSemEval2022タスクについて述べる。 本稿では,多言語グルースを再構成ベクトル表現にマッピングするコンペティションの逆辞書トラックに着目した。 より具体的には、モデルは文の入力をsgns、char、electraの3種類の埋め込みに変換する。 本稿では,ニューラルネットワーク,汎用多言語およびマルチタスク構造,言語に依存しないトリックをタスクに適用するためのいくつかの実験を提案する。 また,様々な種類の単語埋め込みとアブレーション研究を比較し,有用な戦略を提案する。 我々の初期変圧器モデルでは比較的低性能を実現している。 しかし, 異なる再学習手法の試行は, 性能の向上を示唆している。 提案するelmoベース単言語モデルが最も高い結果を示し,そのマルチタスクと多言語版も競争結果を示している。

This paper describes our system for the SemEval2022 task of matching dictionary glosses to word embeddings. We focus on the Reverse Dictionary Track of the competition, which maps multilingual glosses to reconstructed vector representations. More specifically, models convert the input of sentences to three types of embeddings: SGNS, Char, and Electra. We propose several experiments for applying neural network cells, general multilingual and multitask structures, and language-agnostic tricks to the task. We also provide comparisons over different types of word embeddings and ablation studies to suggest helpful strategies. Our initial transformer-based model achieves relatively low performance. However, trials on different retokenization methodologies indicate improved performance. Our proposed Elmobased monolingual model achieves the highest outcome, and its multitask, and multilingual varieties show competitive results as well.
翻訳日:2022-06-10 00:52:27 公開日:2022-06-08
# (参考訳) 学校境界設計のためのサンプリング技術

Sampling-based techniques for designing school boundaries ( http://arxiv.org/abs/2206.03703v1 )

ライセンス: CC BY 4.0
Subhodip Biswas, Fanglan Chen, Zhiqian Chen, Chang-Tien Lu and Naren Ramakrishnan(参考訳) 近年、特に政治再編成の分野では、多くの研究者が、地区計画の広大な空間から計画のサブセットを生成するためのサンプリングベースの手法を提案している。 これらの技術は、パルチザンジェリーマンダーを識別するための道具として、アメリカ合衆国法と独立委員会によってますます採用されている。 近年の進展に触発されて,フリップ提案に基づく学校境界設計のための類似したサンプリング手法を開発した。 ここでのフリップ提案は、単一割り当てによる地区計画の変更を指すことに注意してください。 これらのサンプリングベースの技術は二重目的を果たす。 これらは、ローカル検索に基づく再帰アルゴリズムの比較のベースラインとして使用できる。 さらに、これらのテクニックは、効率的な再帰メソッドの開発にさらに使われる可能性のある問題特性を推測するのに役立ちます。 我々は,学校再編成の問題に関して,これら2つの側面に経験的に触れる。

Recently, an increasing number of researchers, especially in the realm of political redistricting, have proposed sampling-based techniques to generate a subset of plans from the vast space of districting plans. These techniques have been increasingly adopted by U.S. courts of law and independent commissions as a tool for identifying partisan gerrymanders. Motivated by these recent developments, we develop a set of similar sampling techniques for designing school boundaries based on the flip proposal. Note that the flip proposal here refers to the change in the districting plan by a single assignment. These sampling-based techniques serve a dual purpose. They can be used as a baseline for comparing redistricting algorithms based on local search. Additionally, these techniques can help to infer the problem characteristics that may be further used for developing efficient redistricting methods. We empirically touch on both these aspects in regards to the problem of school redistricting.
翻訳日:2022-06-10 00:43:28 公開日:2022-06-08
# (参考訳) ゼロショットコモンセンス推論のための複数知識グラフを用いたモジュール化転送学習

Modularized Transfer Learning with Multiple Knowledge Graphs for Zero-shot Commonsense Reasoning ( http://arxiv.org/abs/2206.03715v1 )

ライセンス: CC BY 4.0
Yu Jin Kim, Beong-woo Kwak, Youngwook Kim, Reinald Kim Amplayo, Seung-won Hwang, Jinyoung Yeo(参考訳) 常識推論システムは、多様な推論ケースに一般化できるべきである。 しかし、最先端のアプローチのほとんどは高価なデータアノテーションに依存し、一般的なセマンティック推論の方法を学ぶことなく、特定のベンチマークに過剰に適合する。 これらの欠点を克服するために、ゼロショットQAシステムは、コモンセンス知識グラフ(KG)をモデルトレーニングのための合成QAフォームサンプルに変換することで、堅牢な学習スキームとして期待されている。 そこで本研究では,KGを相乗的に利用可能なマルチソース設定に,ゼロショット転送学習シナリオを拡張することを目的とする。 本研究の目的は,新たなゼロショットコモンセンス推論フレームワークとして,知識集約のモジュラー版を開発することにより,異なる知識ソース間の干渉による知識の喪失を軽減することである。 5つのcommonsense推論ベンチマークの結果から,フレームワークの有効性が示され,複数のkgsで性能が向上した。

Commonsense reasoning systems should be able to generalize to diverse reasoning cases. However, most state-of-the-art approaches depend on expensive data annotations and overfit to a specific benchmark without learning how to perform general semantic reasoning. To overcome these drawbacks, zero-shot QA systems have shown promise as a robust learning scheme by transforming a commonsense knowledge graph (KG) into synthetic QA-form samples for model training. Considering the increasing type of different commonsense KGs, this paper aims to extend the zero-shot transfer learning scenario into multiple-source settings, where different KGs can be utilized synergetically. Towards this goal, we propose to mitigate the loss of knowledge from the interference among the different knowledge sources, by developing a modular variant of the knowledge aggregation as a new zero-shot commonsense reasoning framework. Results on five commonsense reasoning benchmarks demonstrate the efficacy of our framework, improving the performance with multiple KGs.
翻訳日:2022-06-10 00:30:38 公開日:2022-06-08
# (参考訳) パフォーマンス、透明性、時間。 パーキンソン病の診断を高速化するための特徴選択

Performance, Transparency and Time. Feature selection to speed up the diagnosis of Parkinson's disease ( http://arxiv.org/abs/2206.03716v1 )

ライセンス: CC BY 4.0
Pierluigi Costanzo, Kalia Orphanou(参考訳) 疾患の正確な早期予測は、患者の将来の生活の質を計画し改善することができる。 パンデミックの状況下では、医師が病気の重篤さのリスクを診断し予測するために迅速に行動しなければならないという、医療上の決定がスピード・チャレンジとなり、パーキンソン病のような神経変性疾患の優先順位も高い。 特徴選択(FS)技術を備えた機械学習(ML)モデルは、医師が病気を迅速に診断するのに役立つ。 FSは、モデルの性能を改善し、患者に必要なテストの数を減らし、診断を高速化する最適なサブセット機能である。 本研究は,非侵襲的テスト結果データに対して,分類器アルゴリズムであるロジスティック回帰に適用した3つの特徴選択(fs)手法の結果を示す。 3つのFSは、フィルタベースの解析法としてANOVA(Analytic of Variance)、組み込み方式としてLASSO(Least Absolute Shrinkage and Selection Operator)、ラッパー方式としてSFS(Sequential Feature Selection)である。 その結果,FS手法は効率的かつ効率的な分類器を構築するのに有効であり,計算時間を短縮しながら分類器の性能を向上させることができた。

Accurate and early prediction of a disease allows to plan and improve a patient's quality of future life. During pandemic situations, the medical decision becomes a speed challenge in which physicians have to act fast to diagnose and predict the risk of the severity of the disease, moreover this is also of high priority for neurodegenerative diseases like Parkinson's disease. Machine Learning (ML) models with Features Selection (FS) techniques can be applied to help physicians to quickly diagnose a disease. FS optimally subset features that improve a model performance and help reduce the number of needed tests for a patient and hence speeding up the diagnosis. This study shows the result of three Feature Selection (FS) techniques pre-applied to a classifier algorithm, Logistic Regression, on non-invasive test results data. The three FS are Analysis of Variance (ANOVA) as filter based method, Least Absolute Shrinkage and Selection Operator (LASSO) as embedded method and Sequential Feature Selection (SFS) as wrapper method. The outcome shows that FS technique can help to build an efficient and effective classifier, hence improving the performance of the classifier while reducing the computation time.
翻訳日:2022-06-10 00:09:09 公開日:2022-06-08
# (参考訳) 境界誘導逆行訓練

Latent Boundary-guided Adversarial Training ( http://arxiv.org/abs/2206.03717v1 )

ライセンス: CC BY 4.0
Xiaowei Zhou and Ivor W. Tsang and Jie Yin(参考訳) ディープニューラルネットワーク(DNN)は近年,多くの分類タスクで大きな成功を収めている。 残念ながら、DNNモデル、特にモデル共有シナリオにおいて、小さな摂動で敵の例を生成する敵攻撃に対して脆弱である。 対戦訓練は、DNNモデルの堅牢性を改善するために、モデルトレーニングに敵の例を注入する最も効果的な戦略であることが証明されている。 しかし、既存の敵の例に基づく敵の訓練は、標準で不安定なテストデータにうまく一般化できない。 標準精度と対向ロバスト性とのトレードオフを改善するために, 潜在境界誘導対向訓練(ladder)と呼ばれる, 潜在境界誘導対向例としてdnnモデルを対向的に訓練する新しい対向訓練フレームワークを提案する。 入力空間の逆例を生成する既存の手法のほとんどとは対照的に、LADDERは潜伏した特徴に摂動を加えることによって、多数の高品質な逆例を生成する。 摂動は、注意機構を備えたSVMによって構成された決定境界の正規に沿って行われる。 境界場視点と可視化視点から, 生成した境界誘導逆例の利点を解析した。 MNIST,SVHN,CelebA,CIFAR-10の広範囲な実験と詳細な解析により,バニラDNNや競争ベースラインと比較して,標準精度と対向ロバスト性とのトレードオフが良好であることを示す。

Deep Neural Networks (DNNs) have recently achieved great success in many classification tasks. Unfortunately, they are vulnerable to adversarial attacks that generate adversarial examples with a small perturbation to fool DNN models, especially in model sharing scenarios. Adversarial training is proved to be the most effective strategy that injects adversarial examples into model training to improve the robustness of DNN models to adversarial attacks. However, adversarial training based on the existing adversarial examples fails to generalize well to standard, unperturbed test data. To achieve a better trade-off between standard accuracy and adversarial robustness, we propose a novel adversarial training framework called LAtent bounDary-guided aDvErsarial tRaining (LADDER) that adversarially trains DNN models on latent boundary-guided adversarial examples. As opposed to most of the existing methods that generate adversarial examples in the input space, LADDER generates a myriad of high-quality adversarial examples through adding perturbations to latent features. The perturbations are made along the normal of the decision boundary constructed by an SVM with an attention mechanism. We analyze the merits of our generated boundary-guided adversarial examples from a boundary field perspective and visualization view. Extensive experiments and detailed analysis on MNIST, SVHN, CelebA, and CIFAR-10 validate the effectiveness of LADDER in achieving a better trade-off between standard accuracy and adversarial robustness as compared with vanilla DNNs and competitive baselines.
翻訳日:2022-06-10 00:02:33 公開日:2022-06-08
# (参考訳) 集合依存変換器:順列ニューラルネットワークによる置換学習と構造予測

Set Interdependence Transformer: Set-to-Sequence Neural Networks for Permutation Learning and Structure Prediction ( http://arxiv.org/abs/2206.03720v1 )

ライセンス: CC BY-SA 4.0
Mateusz Jurewicz and Leon Derczynski(参考訳) 入力セットを要素の順列にマッピングする学習は、ニューラルネットワークにとって難しい課題である。 集合対系列問題は、自然言語処理、コンピュータビジョン、構造予測において起こり、大きな集合の要素間の相互作用が最適出力を定義する。 モデルは関係推論を示し、様々な濃度に対応し、組合せ複雑性を管理する必要がある。 以前の注意に基づくメソッドでは、セット変換の$n$層が$n$-th の順序関係を明示的に表現する必要がある。 我々の目標は、追加の相互依存コンポーネントを通じて高次相互作用を効率的にモデル化する能力を強化することである。 本稿では,集合の置換不変表現を任意の濃度の集合内のその要素に関連付けることのできる,集合相互依存トランスフォーマと呼ばれる新しいニューラルセット符号化法を提案する。 置換学習モジュールを3部セット・ツー・シーケンスの完全モデルに組み合わせて,その最先端性能を多数のタスクで実証する。 これらは組合せ最適化の問題から、文順序付けのための合成および確立されたNLPデータセットの置換学習課題から、製品カタログ構造予測の新しい領域まで様々である。 さらに,ネットワークのシーケンス長を一般化する能力について検討し,既存の手法の高次相互作用を学習する能力の比較実験分析を行った。

The task of learning to map an input set onto a permuted sequence of its elements is challenging for neural networks. Set-to-sequence problems occur in natural language processing, computer vision and structure prediction, where interactions between elements of large sets define the optimal output. Models must exhibit relational reasoning, handle varying cardinalities and manage combinatorial complexity. Previous attention-based methods require $n$ layers of their set transformations to explicitly represent $n$-th order relations. Our aim is to enhance their ability to efficiently model higher-order interactions through an additional interdependence component. We propose a novel neural set encoding method called the Set Interdependence Transformer, capable of relating the set's permutation invariant representation to its elements within sets of any cardinality. We combine it with a permutation learning module into a complete, 3-part set-to-sequence model and demonstrate its state-of-the-art performance on a number of tasks. These range from combinatorial optimization problems, through permutation learning challenges on both synthetic and established NLP datasets for sentence ordering, to a novel domain of product catalog structure prediction. Additionally, the network's ability to generalize to unseen sequence lengths is investigated and a comparative empirical analysis of the existing methods' ability to learn higher-order interactions is provided.
翻訳日:2022-06-10 00:01:21 公開日:2022-06-08
# (参考訳) 変圧器を用いたマルチエージェント強化学習による配電系統の電圧安定化

Stabilizing Voltage in Power Distribution Networks via Multi-Agent Reinforcement Learning with Transformer ( http://arxiv.org/abs/2206.03721v1 )

ライセンス: CC BY 4.0
Minrui Wang, Mingxiao Feng, Wengang Zhou, Houqiang Li(参考訳) 再生可能エネルギーの統合の増大は、電力供給網の運用に多くの技術的課題をもたらす。 その中でも再生可能エネルギーの不安定性に起因する電圧変動が注目されている。 電力系統の急激な変化を処理できるグリッド内の複数の制御ユニットをMARLアルゴリズムで調整する手法が近年,アクティブ電圧制御タスクにおいて広く研究されている。 しかし、既存のMARLに基づくアプローチは、グリッドのユニークな性質を無視し、限られた性能を達成する。 本稿では、電力ネットワーク問題に対応する表現を抽出するトランスフォーマーアーキテクチャを導入し、電源ネットワークの電圧を安定させるためのトランスフォーマーベースのマルチエージェントアクタ・クリティカル・フレームワーク(T-MAAC)を提案する。 また,電圧制御タスクに合わせた新たな補助タスクトレーニングプロセスを採用し,サンプル効率の向上とトランスベースモデルの表現学習の容易化を実現している。 我々は,T-MAACと異なるマルチエージェントアクタークリティカルアルゴリズムを結合し,アクティブ電圧制御タスクにおける一貫した改善により,提案手法の有効性を示す。

The increased integration of renewable energy poses a slew of technical challenges for the operation of power distribution networks. Among them, voltage fluctuations caused by the instability of renewable energy are receiving increasing attention. Utilizing MARL algorithms to coordinate multiple control units in the grid, which is able to handle rapid changes of power systems, has been widely studied in active voltage control task recently. However, existing approaches based on MARL ignore the unique nature of the grid and achieve limited performance. In this paper, we introduce the transformer architecture to extract representations adapting to power network problems and propose a Transformer-based Multi-Agent Actor-Critic framework (T-MAAC) to stabilize voltage in power distribution networks. In addition, we adopt a novel auxiliary-task training process tailored to the voltage control task, which improves the sample efficiency and facilitating the representation learning of the transformer-based model. We couple T-MAAC with different multi-agent actor-critic algorithms, and the consistent improvements on the active voltage control task demonstrate the effectiveness of the proposed method.
翻訳日:2022-06-09 23:50:03 公開日:2022-06-08
# (参考訳) hub-pathway: 事前学習されたモデルのハブからの転送学習

Hub-Pathway: Transfer Learning from A Hub of Pre-trained Models ( http://arxiv.org/abs/2206.03726v1 )

ライセンス: CC BY 4.0
Yang Shu, Zhangjie Cao, Ziyang Zhang, Jianmin Wang, Mingsheng Long(参考訳) トランスファーラーニングは、トレーニング済みのモデルからの知識を活用して、目標とするタスクに役立てることを目的としている。 先行転送学習は主に1つのモデルからの転送である。 しかし、異なるリソースから事前学習された深層モデルが出現すると、さまざまなアーキテクチャを持つ多様なモデル、事前学習されたデータセット、学習パラダイムからなるモデルハブが利用可能になる。 各モデルに単一モデル転送学習手法を直接適用することは、モデルハブの豊富な知識を浪費し、高い計算コストに苦しむ。 本稿では,モデルハブからの知識伝達を可能にするハブパスウェイフレームワークを提案する。 このフレームワークはデータ依存経路重み付けを生成し、どの経路経路経路を入力レベルに割り当て、どの事前訓練されたモデルが活性化され、パスされるかを決定し、出力レベルに経路アグリゲーションを設定し、異なるモデルからの知識を集約して予測を行う。 提案されたフレームワークは、ターゲットのタスク固有の損失でエンドツーエンドでトレーニングでき、より良い経路構成を探索し、各ターゲットのデータムに対して事前訓練されたモデルの知識を活用できる。 ノイズの多い経路生成器を用いて、探索損失を設計し、モデルハブ全体を通して様々な経路を探索する。 事前訓練されたモデルの知識を十分に活用するために、各モデルはそれを活性化する特定のデータによってさらに訓練される。 コンピュータビジョンと強化学習タスクの実験結果から,提案するHub-Pathwayフレームワークが,モデルハブ転送学習の最先端性能を実現することを示す。

Transfer learning aims to leverage knowledge from pre-trained models to benefit the target task. Prior transfer learning work mainly transfers from a single model. However, with the emergence of deep models pre-trained from different resources, model hubs consisting of diverse models with various architectures, pre-trained datasets and learning paradigms are available. Directly applying single-model transfer learning methods to each model wastes the abundant knowledge of the model hub and suffers from high computational cost. In this paper, we propose a Hub-Pathway framework to enable knowledge transfer from a model hub. The framework generates data-dependent pathway weights, based on which we assign the pathway routes at the input level to decide which pre-trained models are activated and passed through, and then set the pathway aggregation at the output level to aggregate the knowledge from different models to make predictions. The proposed framework can be trained end-to-end with the target task-specific loss, where it learns to explore better pathway configurations and exploit the knowledge in pre-trained models for each target datum. We utilize a noisy pathway generator and design an exploration loss to further explore different pathways throughout the model hub. To fully exploit the knowledge in pre-trained models, each model is further trained by specific data that activate it, which ensures its performance and enhances knowledge transfer. Experiment results on computer vision and reinforcement learning tasks demonstrate that the proposed Hub-Pathway framework achieves the state-of-the-art performance for model hub transfer learning.
翻訳日:2022-06-09 23:19:24 公開日:2022-06-08
# (参考訳) ウェーブレット規則化は対人訓練に役立つ

Wavelet Regularization Benefits Adversarial Training ( http://arxiv.org/abs/2206.03727v1 )

ライセンス: CC BY 4.0
Jun Yan, Huilin Yin, Xiaoyang Deng, Ziming Zhao, Wancheng Ge, Hao Zhang, Gerhard Rigoll(参考訳) 敵の訓練法は、敵の例に対する最先端(SOTA)実証防御法である。 多くの正規化法は、敵対的訓練の組み合わせで有効であることが証明されている。 しかし、そのような正規化手法は時間領域で実装されている。 adversarial vulnerabilityは高周波現象と見なすことができるため、周波数領域において、adversarial-trained neural networkモデルを調整することが不可欠である。 これらの課題に直面して、敵の訓練を強化することができるウェーブレットの正規化特性に関する理論的解析を行う。 本稿では,ウェーブレット平均プールと呼ばれるハールウェーブレット分解に基づくウェーブレット正規化手法を提案する。 ワイドウェーブレット規則化モジュールを広残留ニューラルネットワークに統合し、新しいワイドウェーブレットResNetモデルを形成する。 CIFAR-10 と CIFAR-100 のデータセット上で,提案手法は攻撃の種類によってかなりの堅牢性を実現する。 これはウェーブレット正則化法が特に深層ニューラルネットワークにおける対角ロバスト性を高めることができるという仮定を検証する。 本手法の有効性を示すために,周波数原理(F-Principle)と解釈可能性の可視化実験を行った。 異なるウェーブレット基底関数に基づく詳細な比較を行った。 コードはリポジトリで入手できる。 \url{https://github.com/momo1986/AdversarialWaveletTraining}。

Adversarial training methods are state-of-the-art (SOTA) empirical defense methods against adversarial examples. Many regularization methods have been proven to be effective with the combination of adversarial training. Nevertheless, such regularization methods are implemented in the time domain. Since adversarial vulnerability can be regarded as a high-frequency phenomenon, it is essential to regulate the adversarially-trained neural network models in the frequency domain. Faced with these challenges, we make a theoretical analysis on the regularization property of wavelets which can enhance adversarial training. We propose a wavelet regularization method based on the Haar wavelet decomposition which is named Wavelet Average Pooling. This wavelet regularization module is integrated into the wide residual neural network so that a new WideWaveletResNet model is formed. On the datasets of CIFAR-10 and CIFAR-100, our proposed Adversarial Wavelet Training method realizes considerable robustness under different types of attacks. It verifies the assumption that our wavelet regularization method can enhance adversarial robustness especially in the deep wide neural networks. The visualization experiments of the Frequency Principle (F-Principle) and interpretability are implemented to show the effectiveness of our method. A detailed comparison based on different wavelet base functions is presented. The code is available at the repository: \url{https://github.com/momo1986/AdversarialWaveletTraining}.
翻訳日:2022-06-09 23:00:05 公開日:2022-06-08
# (参考訳) 弱監視マルチラベル分類における大きな損失事項

Large Loss Matters in Weakly Supervised Multi-Label Classification ( http://arxiv.org/abs/2206.03740v1 )

ライセンス: CC BY 4.0
Youngwook Kim, Jae Myung Kim, Zeynep Akata, Jungwoo Lee(参考訳) 画像ごとの部分的なラベルを用いた多ラベル分類を学習するWSMLタスクは,その膨大なアノテーションコストのため,ますます重要になりつつある。 本稿では、まず、観測されていないラベルを負のラベルとみなし、WSMLタスクをノイズの多いマルチラベル分類にキャストする。 この観点から、ノイズの多いマルチクラス設定で最初に発見された暗記効果も、マルチラベル設定で発生することを実証的に観察する。 つまり、モデルはまずクリーンラベルの表現を学習し、その後ノイズの多いラベルを記憶し始める。 そこで本研究では, ノイズラベルを記憶しないために, 大規模な損失サンプルを拒絶あるいは修正するWSMLの新しい手法を提案する。 提案手法は,Pascal VOC, MS COCO, NUSWIDE, CUB, OpenImages V3データセットなど,いくつかの部分的なラベル設定において,従来のWSML手法よりも優れている。 また,様々な分析結果から,本手法は実効性を示し,弱い教師付きマルチラベル分類において大きな損失を適切に扱うことが重要であることを検証した。 私たちのコードはhttps://github.com/snucml/LargeLossMattersで利用可能です。

Weakly supervised multi-label classification (WSML) task, which is to learn a multi-label classification using partially observed labels per image, is becoming increasingly important due to its huge annotation cost. In this work, we first regard unobserved labels as negative labels, casting the WSML task into noisy multi-label classification. From this point of view, we empirically observe that memorization effect, which was first discovered in a noisy multi-class setting, also occurs in a multi-label setting. That is, the model first learns the representation of clean labels, and then starts memorizing noisy labels. Based on this finding, we propose novel methods for WSML which reject or correct the large loss samples to prevent model from memorizing the noisy label. Without heavy and complex components, our proposed methods outperform previous state-of-the-art WSML methods on several partial label settings including Pascal VOC 2012, MS COCO, NUSWIDE, CUB, and OpenImages V3 datasets. Various analysis also show that our methodology actually works well, validating that treating large loss properly matters in a weakly supervised multi-label classification. Our code is available at https://github.com/snucml/LargeLossMatters.
翻訳日:2022-06-09 22:05:49 公開日:2022-06-08
# (参考訳) 救急部門における機械学習に基づく患者選択

Machine learning-based patient selection in an emergency department ( http://arxiv.org/abs/2206.03752v1 )

ライセンス: CC BY 4.0
Nikolaus Furian, Michael O'Sullivan, Cameron Walker, Melanie Reuter-Oppermann(参考訳) 救急部門(ED)のパフォーマンスは、多くの患者のエントリーポイントとして機能するため、あらゆる医療システムにとって非常に重要である。 しかし, EDsを受診した患者に対する患者視力の変動とそれに伴う治療要件は, 意思決定者にとって大きな課題となっている。 患者が最初に診察を受けるまでの待ち時間のバランスをとることは、すべての患者にとって許容できる手術成績を維持するために重要である。 患者にアイドルリソースを割り当てる際のこれらの要件に対処するため、過去には累積優先度キューイング(apq)法などいくつかの方法が提案されてきた。 APQ法は, 患者に対して, システム内の時間と明度に関して, 優先スコアを線形に割り当てる。 したがって、選択決定は、選択関数の入力として使用される単純なシステム表現に基づいている。 本稿では機械学習(ML)に基づく患者選択手法の可能性について検討する。 多数の異なるシステム状態を含む大規模なトレーニングデータに対して、(ほぼ)最適な割り当ては、選択されたパフォーマンス指標に関して(ヒューリスティックな)オプティマイザによって計算できると仮定し、新しい状況に適用した場合にそのような最適な振る舞いを模倣することを目指している。 これにより、システムの包括的な状態表現と複雑な非線形選択関数が組み込まれる。 提案手法の動機は、高品質の選択決定は、待ち時間に限らず、EDの現在の状態を記述した様々な要因に依存し、MLモデルによって捕捉および利用することができることである。 その結果,提案手法は評価条件の大部分に対してAPQ法を著しく上回ることがわかった。

The performance of Emergency Departments (EDs) is of great importance for any health care system, as they serve as the entry point for many patients. However, among other factors, the variability of patient acuity levels and corresponding treatment requirements of patients visiting EDs imposes significant challenges on decision makers. Balancing waiting times of patients to be first seen by a physician with the overall length of stay over all acuity levels is crucial to maintain an acceptable level of operational performance for all patients. To address those requirements when assigning idle resources to patients, several methods have been proposed in the past, including the Accumulated Priority Queuing (APQ) method. The APQ method linearly assigns priority scores to patients with respect to their time in the system and acuity level. Hence, selection decisions are based on a simple system representation that is used as an input for a selection function. This paper investigates the potential of an Machine Learning (ML) based patient selection method. It assumes that for a large set of training data, including a multitude of different system states, (near) optimal assignments can be computed by a (heuristic) optimizer, with respect to a chosen performance metric, and aims to imitate such optimal behavior when applied to new situations. Thereby, it incorporates a comprehensive state representation of the system and a complex non-linear selection function. The motivation for the proposed approach is that high quality selection decisions may depend on a variety of factors describing the current state of the ED, not limited to waiting times, which can be captured and utilized by the ML model. Results show that the proposed method significantly outperforms the APQ method for a majority of evaluated settings
翻訳日:2022-06-09 21:56:41 公開日:2022-06-08
# (参考訳) ポイントクラウドからディジタル地形モデルを学ぶ - als2dtmデータセットとラスタライズベースgan

Learning Digital Terrain Models from Point Clouds: ALS2DTM Dataset and Rasterization-based GAN ( http://arxiv.org/abs/2206.03778v1 )

ライセンス: CC BY 4.0
Ho\`ang-\^An L\^e, Florent Guiotte, Minh-Tan Pham, S\'ebastien Lef\`evre, Thomas Corpetti(参考訳) 様々な領域におけるディープニューラルネットワークの人気にもかかわらず、空中レーザー走査(ALS)点雲からのデジタル地形モデル(DTM)の抽出は依然として困難である。 これは、専用の大規模アノテートデータセットの欠如と、ポイントクラウドとDTM間のデータ構造の違いによる可能性がある。 データ駆動型DTM抽出を促進するために,本稿では,ALS点雲と対応するDTMの大規模データセットを,様々な都市,森林,山間部で収集する。 深層ニューラルネットワークを訓練し、ラスタライズ技術を用いてals点雲から直接ディジタル地形モデルを抽出しようとする最初の試みとして、ベースライン法が提案されている。 データセットをベンチマークし、ポイントクラウドからDTMを抽出する学習の課題を分析するために、確立された手法による大規模な研究が行われている。 実験結果から,DTM抽出法と比較して,非依存的データ駆動手法の関心度がサブメトリック誤差レベルであることがわかった。 データとソースコードはhttps://lhoangan.github.io/deepterra/で提供されている。

Despite the popularity of deep neural networks in various domains, the extraction of digital terrain models (DTMs) from airborne laser scanning (ALS) point clouds is still challenging. This might be due to the lack of dedicated large-scale annotated dataset and the data-structure discrepancy between point clouds and DTMs. To promote data-driven DTM extraction, this paper collects from open sources a large-scale dataset of ALS point clouds and corresponding DTMs with various urban, forested, and mountainous scenes. A baseline method is proposed as the first attempt to train a Deep neural network to extract digital Terrain models directly from ALS point clouds via Rasterization techniques, coined DeepTerRa. Extensive studies with well-established methods are performed to benchmark the dataset and analyze the challenges in learning to extract DTM from point clouds. The experimental results show the interest of the agnostic data-driven approach, with sub-metric error level compared to methods designed for DTM extraction. The data and source code is provided at https://lhoangan.github.io/deepterra/ for reproducibility and further similar research.
翻訳日:2022-06-09 21:55:28 公開日:2022-06-08
# (参考訳) 相互作用粒子拡散に対するランダムバッチ法のエントロピー収束

Entropic Convergence of Random Batch Methods for Interacting Particle Diffusion ( http://arxiv.org/abs/2206.03792v1 )

ライセンス: CC BY 4.0
Dheeraj Nagaraj(参考訳) 相互作用粒子系に対する共分散補正ランダムバッチ法を提案する。 ある種のエントロピー中心極限定理を確立することにより、バッチサイズ $b \gg (\alpha n)^{\frac{1}{3}}$ (ここで$n$ は粒子の数、$\alpha$ は時間離散化パラメータである) のときに、提案法の全粒子の軌道全体の法則を離散時間相互作用粒子系の軌道の法則にエントロピー収束保証を与える。 つまり、これらのメソッドの出力は、$b$ が中程度大きい場合にほぼ \emph{statistically indistinguishable} である。 以前の研究は主にワッサーシュタイン距離の収束を考慮し、ポテンシャルや境界に対する強い仮定は時間的地平線に指数関数的依存を持つ。 この研究は相互作用ポテンシャルの仮定を最小化しており、特に粒子軌道が無限大に発散した場合でも、両者の方法も同様に行うことを定めている。 このような保証は、サンプリングのための相互作用粒子ベースのアルゴリズムの最近の進歩に照らして非常に有用である。

We propose a co-variance corrected random batch method for interacting particle systems. By establishing a certain entropic central limit theorem, we provide entropic convergence guarantees for the law of the entire trajectories of all particles of the proposed method to the law of the trajectories of the discrete time interacting particle system whenever the batch size $B \gg (\alpha n)^{\frac{1}{3}}$ (where $n$ is the number of particles and $\alpha$ is the time discretization parameter). This in turn implies that the outputs of these methods are nearly \emph{statistically indistinguishable} when $B$ is even moderately large. Previous works mainly considered convergence in Wasserstein distance with required stringent assumptions on the potentials or the bounds had an exponential dependence on the time horizon. This work makes minimal assumptions on the interaction potentials and in particular establishes that even when the particle trajectories diverge to infinity, they do so in the same way for both the methods. Such guarantees are very useful in light of the recent advances in interacting particle based algorithms for sampling.
翻訳日:2022-06-09 21:33:27 公開日:2022-06-08
# (参考訳) Dyna-DM:動的オブジェクト認識型自己教師型単眼深度マップ

Dyna-DM: Dynamic Object-aware Self-supervised Monocular Depth Maps ( http://arxiv.org/abs/2206.03799v1 )

ライセンス: CC BY 4.0
Kieran Saunders, George Vogiatzis and Luis J. Manso(参考訳) 近年、ロボット工学や自律運転に応用されているため、自己監督型単眼深度推定は激しい研究の対象となっている。 最近の研究の多くは、アーキテクチャの複雑さを増大させることによる深さ推定の改善に焦点を当てている。 本稿では,モデルの複雑さを増すのではなく,学習プロセスを改善することにより,最先端のパフォーマンスを実現することができることを示す。 より具体的に言えば (i)トレーニング中の最初のいくつかのエポックに対して不変ポーズ損失のみを使用する。 (二)訓練の際の小さな潜在的動的対象を無視して、 (iii)真にダイナミックな物体に対して、物体のポーズを別々に推定するために外観に基づくアプローチを用いる。 これらの単純化により、gpuメモリ使用量を29%削減し、質的かつ定量的に深度マップを改善できることを実証する。

Self-supervised monocular depth estimation has been a subject of intense study in recent years, because of its applications in robotics and autonomous driving. Much of the recent work focuses on improving depth estimation by increasing architecture complexity. This paper shows that state-of-the-art performance can also be achieved by improving the learning process rather than increasing model complexity. More specifically, we propose (i) only using invariant pose loss for the first few epochs during training, (ii) disregarding small potentially dynamic objects when training, and (iii) employing an appearance-based approach to separately estimate object pose for truly dynamic objects. We demonstrate that these simplifications reduce GPU memory usage by 29% and result in qualitatively and quantitatively improved depth maps
翻訳日:2022-06-09 21:05:48 公開日:2022-06-08
# (参考訳) 双対窓は重要である:縦隔窓からの学習と肺窓への焦点

Dual Windows Are Significant: Learning from Mediastinal Window and Focusing on Lung Window ( http://arxiv.org/abs/2206.03803v1 )

ライセンス: CC BY 4.0
Qiuli Wang, Xin Tan, Chen Liu(参考訳) 新型コロナウイルスのパンデミック以降,胸部CT(CT)を診断するための深層学習法がいくつか提案された。 現状では, 医療従事者が治療を決定する上で, 病コース分類が重要である。 これまでのディープラーニングベースの手法は、肺の窓から観察された特徴を抽出する。 しかし, 重篤な症状では肺の癒着が進行するなど, 肺の窓よりも縦隔の窓から診断にかかわる外観が観察されやすいことが証明されている。 本稿では,連続する縦隔窓から特徴を学習する新しいDWRNetを提案する。 肺窓から抽出した特徴について,縦隔・縦隔・縦隔の特徴を増強するために,肺窓留置ブロック(LWAブロック)を導入する。 さらに、CTスライス全体から特定のスライスを拾う代わりに、リカレントCNNを使用して、逐次スライスをビデオとして分析する。 実験の結果, 融解および代表的特徴は, 84.86%の精度でベースラインに対して90.57%の精度で疾患コースの予測を改善した。 アブレーション研究によれば、二重ウィンドウ機能は肺ウィンドウのみよりも効率的であるが、肺ウィンドウ機能に注意を払うとモデルの安定性が向上する。

Since the pandemic of COVID-19, several deep learning methods were proposed to analyze the chest Computed Tomography (CT) for diagnosis. In the current situation, the disease course classification is significant for medical personnel to decide the treatment. Most previous deep-learning-based methods extract features observed from the lung window. However, it has been proved that some appearances related to diagnosis can be observed better from the mediastinal window rather than the lung window, e.g., the pulmonary consolidation happens more in severe symptoms. In this paper, we propose a novel Dual Window RCNN Network (DWRNet), which mainly learns the distinctive features from the successive mediastinal window. Regarding the features extracted from the lung window, we introduce the Lung Window Attention Block (LWA Block) to pay additional attention to them for enhancing the mediastinal-window features. Moreover, instead of picking up specific slices from the whole CT slices, we use a Recurrent CNN and analyze successive slices as videos. Experimental results show that the fused and representative features improve the predictions of disease course by reaching the accuracy of 90.57%, against the baseline with an accuracy of 84.86%. Ablation studies demonstrate that combined dual window features are more efficient than lung-window features alone, while paying attention to lung-window features can improve the model's stability.
翻訳日:2022-06-09 20:54:18 公開日:2022-06-08
# (参考訳) 学習曲線を用いた高次元データ設定における予測性能の推定

Estimation of Predictive Performance in High-Dimensional Data Settings using Learning Curves ( http://arxiv.org/abs/2206.03825v1 )

ライセンス: CC BY 4.0
Jeroen M. Goedhart, Thomas Klausch, Mark A. van de Wiel(参考訳) 高次元の予測設定では、テスト性能を確実に見積もることは困難である。 この課題に対処するために,新しい性能推定フレームワークを提案する。 このフレームワークはLearner2Evaluateと呼ばれ、サンプルサイズの関数としてテスト性能を表す滑らかな単調曲線を組み込むことで学習曲線に基づいている。 Learn2Evaluateは一般的に適用される性能評価手法と比較していくつかの利点がある。 まず、学習曲線は学習者のグラフィカルな概要を提供する。 この概要は、トレーニングサンプルを追加することの潜在的なメリットを評価するのに役立ち、固定サブサンプルサイズでのパフォーマンス見積よりも学習者間の完全な比較を提供する。 第2に、学習曲線はサブサンプルサイズではなく、全サンプルサイズでの性能の推定を容易にする。 第三に、Learn2Evaluateは理論的に正当化され有用な低信頼境界の計算を可能にする。 さらに、バイアス補正を行うことで、この境界を締め付けることもできる。 Learn2Evaluateの利点はシミュレーション研究とオミクスデータへの応用によって説明される。

In high-dimensional prediction settings, it remains challenging to reliably estimate the test performance. To address this challenge, a novel performance estimation framework is presented. This framework, called Learn2Evaluate, is based on learning curves by fitting a smooth monotone curve depicting test performance as a function of the sample size. Learn2Evaluate has several advantages compared to commonly applied performance estimation methodologies. Firstly, a learning curve offers a graphical overview of a learner. This overview assists in assessing the potential benefit of adding training samples and it provides a more complete comparison between learners than performance estimates at a fixed subsample size. Secondly, a learning curve facilitates in estimating the performance at the total sample size rather than a subsample size. Thirdly, Learn2Evaluate allows the computation of a theoretically justified and useful lower confidence bound. Furthermore, this bound may be tightened by performing a bias correction. The benefits of Learn2Evaluate are illustrated by a simulation study and applications to omics data.
翻訳日:2022-06-09 20:38:38 公開日:2022-06-08
# (参考訳) ダウンストリームタスクにおけるマスクリコンストラクション事前トレーニングがなぜ役に立つのか

Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks ( http://arxiv.org/abs/2206.03826v1 )

ライセンス: CC BY 4.0
Jiachun Pan, Pan Zhou, Shuicheng Yan(参考訳) 教師なし事前トレーニングでは、マスク再構成事前トレーニング(MRP)がランダムに入力パッチをマスクし、オートエンコーダを介してこれらのマスクパッチのピクセルや意味的特徴を再構成する。 そして、下流タスクでは、事前学習されたエンコーダの微調整が、スクラッチから訓練された従来の教師付き学習(sl)を大幅に上回る。 しかし、まだ不明である。 1)MRPが事前学習フェーズで意味学習を行う方法と課題 2) ダウンストリームタスクになぜ役立つのか。 これらの問題を解決するために,2層/1層畳み込みエンコーダ/デコーダの自動エンコーダにおいて,mrpはプリトレーニングデータセット内のすべての識別意味をキャプチャできることを示す。 具体的には,プレトレーニングデータセットには1-\mu$の複数ビューサンプルと1-\mu$の単一ビューサンプルが含まれていると仮定する。 事前訓練のためには 1) MRPエンコーダの畳み込みカーネルは、事前学習データ中のすべての識別的意味をキャプチャし、 2)畳み込みカーネルは、少なくとも1つの意味をキャプチャする。 したがって、下流の教師付き微調整では、ほとんどのセマンティクスはキャプチャされ、異なるセマンティクスは融合しない。 これにより、下流の微調整ネットワークは、カーネルとセマンティクスクラスラベルの関係を簡単に確立できる。 このようにして、mrpの微調整エンコーダは、マルチビューとシングルビューの両方のテストデータに対して高い確率でゼロテストエラーを実現できる。 一方、~[3]で証明されたように、従来のslはシングルビューテストデータに対して0.5\mu$程度の精度しか得られない。 これらの結果は下流タスクにおけるmrpの利点を説明するものである。 実験結果はマルチビューデータの仮定と理論的意味を検証した。

For unsupervised pretraining, mask-reconstruction pretraining (MRP) approaches randomly mask input patches and then reconstruct pixels or semantic features of these masked patches via an auto-encoder. Then for a downstream task, supervised fine-tuning the pretrained encoder remarkably surpasses the conventional supervised learning (SL) trained from scratch. However, it is still unclear 1) how MRP performs semantic learning in the pretraining phase and 2) why it helps in downstream tasks. To solve these problems, we theoretically show that on an auto-encoder of a two/one-layered convolution encoder/decoder, MRP can capture all discriminative semantics in the pretraining dataset, and accordingly show its provable improvement over SL on the classification downstream task. Specifically, we assume that pretraining dataset contains multi-view samples of ratio $1-\mu$ and single-view samples of ratio $\mu$, where multi/single-view samples has multiple/single discriminative semantics. Then for pretraining, we prove that 1) the convolution kernels of the MRP encoder captures all discriminative semantics in the pretraining data; and 2) a convolution kernel captures at most one semantic. Accordingly, in the downstream supervised fine-tuning, most semantics would be captured and different semantics would not be fused together. This helps the downstream fine-tuned network to easily establish the relation between kernels and semantic class labels. In this way, the fine-tuned encoder in MRP provably achieves zero test error with high probability for both multi-view and single-view test data. In contrast, as proved by~[3], conventional SL can only obtain a test accuracy between around $0.5\mu$ for single-view test data. These results together explain the benefits of MRP in downstream tasks. Experimental results testify to multi-view data assumptions and our theoretical implications.
翻訳日:2022-06-09 20:37:46 公開日:2022-06-08
# (参考訳) バイオメカニクスを応用した潜在空間探索による心筋運動追跡

Generative Myocardial Motion Tracking via Latent Space Exploration with Biomechanics-informed Prior ( http://arxiv.org/abs/2206.03830v1 )

ライセンス: CC BY 4.0
Chen Qin, Shuo Wang, Chen Chen, Wenjia Bai and Daniel Rueckert(参考訳) 心筋運動と変形は、心臓機能を特徴づける豊富な記述子である。 画像登録は、最も一般的に用いられる心筋運動追跡の技法であり、しばしばソリューション空間の事前仮定を必要とする逆問題である。 滑らかさなどの明示的な一般正規化を強制する既存のアプローチとは対照的に、本研究では、アプリケーション固有のバイオメカニクスインフォームドプリエントを暗黙的に学習し、ニューラルネットワークパラメータ化変換モデルに組み込む新しい手法を提案する。 特に, 変分オートエンコーダに基づく生成モデルを用いて生体力学的に有理な変形の多様体を学習する。 動き追跡は、シーケンス情報を考慮して最適な変換を探索するために学習多様体を横断することで行うことができる。 本手法は,3つのパブリック心血管MRIデータセットを用いて総合評価を行った。 その結果,提案手法は他の手法よりも優れており,適度なボリューム保存による運動追跡精度が向上し,データ分布の一般化性も向上した。 また、心血管疾患を理解するための時空間的シグネチャを特徴づける手法の可能性を示すため、心筋病変のより良い推定を可能にする。

Myocardial motion and deformation are rich descriptors that characterize cardiac function. Image registration, as the most commonly used technique for myocardial motion tracking, is an ill-posed inverse problem which often requires prior assumptions on the solution space. In contrast to most existing approaches which impose explicit generic regularization such as smoothness, in this work we propose a novel method that can implicitly learn an application-specific biomechanics-informed prior and embed it into a neural network-parameterized transformation model. Particularly, the proposed method leverages a variational autoencoder-based generative model to learn a manifold for biomechanically plausible deformations. The motion tracking then can be performed via traversing the learnt manifold to search for the optimal transformations while considering the sequence information. The proposed method is validated on three public cardiac cine MRI datasets with comprehensive evaluations. The results demonstrate that the proposed method can outperform other approaches, yielding higher motion tracking accuracy with reasonable volume preservation and better generalizability to varying data distributions. It also enables better estimates of myocardial strains, which indicates the potential of the method in characterizing spatiotemporal signatures for understanding cardiovascular diseases.
翻訳日:2022-06-09 20:36:11 公開日:2022-06-08
# (参考訳) L_2$-stableランダムな学習アルゴリズムにおける一般化の信頼性向上

Boosting the Confidence of Generalization for $L_2$-Stable Randomized Learning Algorithms ( http://arxiv.org/abs/2206.03834v1 )

ライセンス: CC BY 4.0
Xiao-Tong Yuan and Ping Li(参考訳) 近年,一様安定学習アルゴリズムにおいて,近距離速度の指数一般化が確立されている。 しかし、一様安定性の概念は、データ生成分布に不変であるという意味では厳密である。 仮説安定性や$L_2$-stabilityのような安定性の弱で分布に依存した概念の下で、この文献は一般に多項式一般化境界のみが可能であることを示唆している。 本稿では,この2つの状態の長期的緊張に対処し,信頼性向上の古典的な枠組みの中での緩和に向けて前進する。 この目的のために,まず,確率的ランダム化学習アルゴリズムに対して,l_2$-stability の確率的確率的一般化誤差を仮定し,適切な設計を施したサブバッギングプロセスが,データとアルゴリズムの両方のランダム性に対してほぼ密接な指数的一般化に繋がることを示す。 さらに, 確率的勾配降下 (sgd) により, 既存の仮説安定性や一様安定性に基づく結果では証明できない自然時間減衰学習率を持つ凸あるいは非凸最適化問題に対して, 改良された高確率一般化境界を求める。

Exponential generalization bounds with near-tight rates have recently been established for uniformly stable learning algorithms. The notion of uniform stability, however, is stringent in the sense that it is invariant to the data-generating distribution. Under the weaker and distribution dependent notions of stability such as hypothesis stability and $L_2$-stability, the literature suggests that only polynomial generalization bounds are possible in general cases. The present paper addresses this long standing tension between these two regimes of results and makes progress towards relaxing it inside a classic framework of confidence-boosting. To this end, we first establish an in-expectation first moment generalization error bound for potentially randomized learning algorithms with $L_2$-stability, based on which we then show that a properly designed subbagging process leads to near-tight exponential generalization bounds over the randomness of both data and algorithm. We further substantialize these generic results to stochastic gradient descent (SGD) to derive improved high-probability generalization bounds for convex or non-convex optimization problems with natural time decaying learning rates, which have not been possible to prove with the existing hypothesis stability or uniform stability based results.
翻訳日:2022-06-09 20:08:08 公開日:2022-06-08
# (参考訳) 「gan i hire you?」 -- パーソナライズされた仮想就職面接訓練のためのシステム

"GAN I hire you?" -- A System for Personalized Virtual Job Interview Training ( http://arxiv.org/abs/2206.03869v1 )

ライセンス: CC BY 4.0
Alexander Heimerl and Silvan Mertes and Tanja Schneeberger and Tobias Baur and Ailin Liu and Linda Becker and Nicolas Rohleder and Patrick Gebhard and Elisabeth Andr\'e(参考訳) 求職面接は通常、満足な結果を得るために専門的および行動的スキルが要求される、高い評価の社会状況である。 プロの面接トレーナーは、共通標準に従って表示された行動について教育的なフィードバックを与える。 このフィードバックは、面接に必要な行動スキルの改善に役立ちます。 このようなフィードバックを生成するための技術的アプローチは、就職面接訓練における遊び心と低調な出発点となるかもしれない。 そこで我々は、まず行動の弱点を検出し、その後パーソナライズされたフィードバックを生成するGAN(Generative Adversarial Network)に基づく対話型仮想面接訓練システムを拡張した。 得られたフィードバックの有効性を評価するために,求人訓練システムからモックアップを用いた混合手法のパイロット実験を行った。 総合研究の結果,ganに基づく行動フィードバックが有効であることが示唆された。 さらに、参加者はフィードバックが面接のパフォーマンスを改善すると評価した。

Job interviews are usually high-stakes social situations where professional and behavioral skills are required for a satisfactory outcome. Professional job interview trainers give educative feedback about the shown behavior according to common standards. This feedback can be helpful concerning the improvement of behavioral skills needed for job interviews. A technological approach for generating such feedback might be a playful and low-key starting point for job interview training. Therefore, we extended an interactive virtual job interview training system with a Generative Adversarial Network (GAN)-based approach that first detects behavioral weaknesses and subsequently generates personalized feedback. To evaluate the usefulness of the generated feedback, we conducted a mixed-methods pilot study using mock-ups from the job interview training system. The overall study results indicate that the GAN-based generated behavioral feedback is helpful. Moreover, participants assessed that the feedback would improve their job interview performance.
翻訳日:2022-06-09 20:06:58 公開日:2022-06-08
# (参考訳) Veps 言語と Karelian 言語のオープンコーパスの概要と応用

The Open corpus of the Veps and Karelian languages: overview and applications ( http://arxiv.org/abs/2206.03870v1 )

ライセンス: CC BY 4.0
Tatyana Boyko, Nina Zaitseva, Natalia Krizhanovskaya, Andrew Krizhanovsky, Irina Novak, Nataliya Pellinen and Aleksandra Rodionova(参考訳) カレリア共和国のバルト・フィン語研究における最優先事項はコーパス言語学の方法と道具である。 2016年以降、カレリア研究センターの言語学者、数学者、プログラマは、2009年に設立されたVep Corpusの延長であるOpen Corpus of the Veps and Karelian Languages (VepKar)と協働している。 VepKar コーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、およびテキスト(言語、ジャンルなど)の様々な基準と多くの言語カテゴリーを用いた高度な検索システムを備えたソフトウェアから構成される。 3000本のコーパスが編纂され、テキストがアップロードされてマークアップされ、テキストを言語、方言、タイプ、ジャンルに分類するシステムが導入された。 今後の計画としては、音声録音を扱う音声モジュールと形態素解析出力を用いた構文タグモジュールの開発がある。 コーパスマネージャの継続的な機能向上と、新しい素材とテキストマークアップによるvepkarの強化により、ユーザは幅広い科学的および応用的なタスクを処理できる。 普遍的なVepKarコーパスを創設する際、開発者と管理者は19世紀から21世紀にかけてのヴェプス語とカレリア語の状態の保存と展示に全力を尽くした。

A growing priority in the study of Baltic-Finnic languages of the Republic of Karelia has been the methods and tools of corpus linguistics. Since 2016, linguists, mathematicians, and programmers at the Karelian Research Centre have been working with the Open Corpus of the Veps and Karelian Languages (VepKar), which is an extension of the Veps Corpus created in 2009. The VepKar corpus comprises texts in Karelian and Veps, multifunctional dictionaries linked to them, and software with an advanced system of search using various criteria of the texts (language, genre, etc.) and numerous linguistic categories (lexical and grammatical search in texts was implemented thanks to the generator of word forms that we created earlier). A corpus of 3000 texts was compiled, texts were uploaded and marked up, the system for classifying texts into languages, dialects, types and genres was introduced, and the word-form generator was created. Future plans include developing a speech module for working with audio recordings and a syntactic tagging module using morphological analysis outputs. Owing to continuous functional advancements in the corpus manager and ongoing VepKar enrichment with new material and text markup, users can handle a wide range of scientific and applied tasks. In creating the universal national VepKar corpus, its developers and managers strive to preserve and exhibit as fully as possible the state of the Veps and Karelian languages in the 19th-21st centuries.
翻訳日:2022-06-09 19:56:38 公開日:2022-06-08
# (参考訳) 進行性ガンマ:進行性GANによる異常検出

Progressive GANomaly: Anomaly detection with progressively growing GANs ( http://arxiv.org/abs/2206.03876v1 )

ライセンス: CC BY 4.0
Djennifer K. Madzia-Madzou and Hugo J. Kuijf(参考訳) 医用画像では、注釈や病理が乏しいため、大量のラベル付きデータを取得することがしばしばハードルとなる。 異常検出(英: anomaly detection)は、正常な(注釈なし)データのみを訓練しながら、目に見えない異常データを検出できる手法である。 生成的敵ネットワーク(GAN)に基づくいくつかのアルゴリズムがこのタスクを実行するために存在するが、GANの不安定性のために一定の制限が設けられている。 本稿では,既存手法であるGANomalyと段階的に成長するGANを組み合わせた新しい手法を提案する。 後者は高解像度画像を生成する能力を考慮するとより安定していることが知られている。 この方法は、Fashion MNIST、MOOD(Messical Out-of-Distribution Analysis Challenge)および社内脳MRIを用いて、サイズ16x16および32x32のパッチを用いて試験される。 プログレッシブ・ガノマリーはファッションMNISTにおいて一級SVMまたは正規のガノマリーよりも優れる。 人工異常は、強度や直径の異なるムード画像で生成される。 プログレッシブ・ガノマリーは強度と大きさの異なる最も異常を検知した。 また,間欠的再建は進行性GANomalyより優れていることが判明した。 社内の脳MRIデータセットでは、通常のGANomalyが他の方法よりも優れていた。

In medical imaging, obtaining large amounts of labeled data is often a hurdle, because annotations and pathologies are scarce. Anomaly detection is a method that is capable of detecting unseen abnormal data while only being trained on normal (unannotated) data. Several algorithms based on generative adversarial networks (GANs) exist to perform this task, yet certain limitations are in place because of the instability of GANs. This paper proposes a new method by combining an existing method, GANomaly, with progressively growing GANs. The latter is known to be more stable, considering its ability to generate high-resolution images. The method is tested using Fashion MNIST, Medical Out-of-Distribution Analysis Challenge (MOOD), and in-house brain MRI; using patches of sizes 16x16 and 32x32. Progressive GANomaly outperforms a one-class SVM or regular GANomaly on Fashion MNIST. Artificial anomalies are created in MOOD images with varying intensities and diameters. Progressive GANomaly detected the most anomalies with varying intensity and size. Additionally, the intermittent reconstructions are proven to be better from progressive GANomaly. On the in-house brain MRI dataset, regular GANomaly outperformed the other methods.
翻訳日:2022-06-09 19:49:41 公開日:2022-06-08
# (参考訳) メンタルヘルス知識誘導発話フィルタリングを用いたカウンセリング要約

Counseling Summarization using Mental Health Knowledge Guided Utterance Filtering ( http://arxiv.org/abs/2206.03886v1 )

ライセンス: CC BY 4.0
Aseem Srivastava, Tharun Suresh, Sarah Peregrine (Grin) Lord, Md. Shad Akhtar, Tanmoy Chakraborty(参考訳) 心理療法介入技術は、セラピストと患者の間の多面的な会話である。 一般的な臨床的議論とは異なり、精神療法のコアコンポーネント(症状)は区別が難しいため、後にまとめるには複雑な問題となる。 構造化カウンセリング会話には、症状、精神健康問題の歴史、患者の行動の発見に関する議論が含まれることがある。 また、臨床概要とは無関係に議論の記入語を含むこともある。 構造化精神療法のこれらの要素をカウンセリング要素と呼ぶ。 本稿では, 精神保健カウンセリングの要約を, ドメイン知識の構築と, 臨床医の理解の迅速化に役立てることを目的とする。 対話毎にカウンセリングコンポーネントと参照要約の12.9k発話に注釈を付けて,新たなデータセットを作成する。 さらに,新たなカウンセリング・コンポーネント・ガイド付き要約モデルであるConSumを提案する。 ConSumには3つの独立したモジュールがある。 第1に,抑うつ症状の有無を評価するために,患者健康アンケート(PHQ-9)を用いた発話をフィルタリングし,第2および第3モジュールはカウンセリング成分の分類を目的とした。 最後に,カウンセリングサマリーのための問題特異的精神健康情報収集(mhic)評価指標を提案する。 比較の結果,性能の向上とコヒーシブ,セマンティクス,コヒーレントな要約の生成が確認された。 生成された要約を包括的に分析し,心理療法要素の捉え方を検討した。 要約の人的および臨床的評価は、ConSumが品質概要を生成することを示している。 さらに、精神保健の専門家は、ConSumの臨床的受容性を検証する。 最後に、実世界でのメンタルヘルスカウンセリングの要約の独特性について論じ、mpathic.aiによるオンラインアプリケーションへの展開の証拠を示す。

The psychotherapy intervention technique is a multifaceted conversation between a therapist and a patient. Unlike general clinical discussions, psychotherapy's core components (viz. symptoms) are hard to distinguish, thus becoming a complex problem to summarize later. A structured counseling conversation may contain discussions about symptoms, history of mental health issues, or the discovery of the patient's behavior. It may also contain discussion filler words irrelevant to a clinical summary. We refer to these elements of structured psychotherapy as counseling components. In this paper, the aim is mental health counseling summarization to build upon domain knowledge and to help clinicians quickly glean meaning. We create a new dataset after annotating 12.9K utterances of counseling components and reference summaries for each dialogue. Further, we propose ConSum, a novel counseling-component guided summarization model. ConSum undergoes three independent modules. First, to assess the presence of depressive symptoms, it filters utterances utilizing the Patient Health Questionnaire (PHQ-9), while the second and third modules aim to classify counseling components. At last, we propose a problem-specific Mental Health Information Capture (MHIC) evaluation metric for counseling summaries. Our comparative study shows that we improve on performance and generate cohesive, semantic, and coherent summaries. We comprehensively analyze the generated summaries to investigate the capturing of psychotherapy elements. Human and clinical evaluations on the summary show that ConSum generates quality summary. Further, mental health experts validate the clinical acceptability of the ConSum. Lastly, we discuss the uniqueness in mental health counseling summarization in the real world and show evidences of its deployment on an online application with the support of mpathic.ai
翻訳日:2022-06-09 19:33:41 公開日:2022-06-08
# (参考訳) Confuda: 医用画像セグメンテーションのための対照的なFewshotunsupervised Domain Adaptation

ConFUDA: Contrastive Fewshot Unsupervised Domain Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2206.03888v1 )

ライセンス: CC BY 4.0
Mingxuan Gu, Sulaiman Vesal, Mareike Thies, Zhaoya Pan, Fabian Wagner, Mirabela Rusu, Andreas Maier, Ronak Kosti(参考訳) unsupervised domain adaptation (uda) はラベル付きソースドメインから学んだ知識をラベルなしのターゲットドメインに転送することを目的としている。 udaのコンテキストにおけるコントラスト学習(cl)は、機能空間でクラスを分離するのに役立つ。 しかし、画像セグメント化においては、画素単位のコントラスト損失の計算による大きなメモリフットプリントは使用を禁止している。 また,医療画像ではラベル付き対象データが容易に利用できず,新たなサンプルの取得は経済的ではない。 結果として、この作業では、ターゲットドメインから利用可能な(フェウショット)や1つの(ワンショット)イメージしか存在しない場合に、より困難なudaタスクに取り組みます。 ターゲットサンプルの不足を緩和するために,スタイル転送モジュールを適用する。 次に、ソースとターゲットの特徴を整合させ、従来のコントラスト損失のメモリ問題に取り組むために、ccl(centroid-based contrastive learning)とcnr(centroid norm regularizer)を提案し、両方向と大きさのコントラストペアを最適化する。 さらに,対象特徴のばらつきをさらに低減するために,多部構成型セントロイドコントラスト学習(mpccl)を提案する。 ms-cmrsegデータセットにおける少数のショット評価は、より厳密なワンショット設定で、confudaがターゲット領域のサイコロスコアの0.04パーセント向上し、0.31サイコロスコアの改善を実証している。

Unsupervised domain adaptation (UDA) aims to transfer knowledge learned from a labeled source domain to an unlabeled target domain. Contrastive learning (CL) in the context of UDA can help to better separate classes in feature space. However, in image segmentation, the large memory footprint due to the computation of the pixel-wise contrastive loss makes it prohibitive to use. Furthermore, labeled target data is not easily available in medical imaging, and obtaining new samples is not economical. As a result, in this work, we tackle a more challenging UDA task when there are only a few (fewshot) or a single (oneshot) image available from the target domain. We apply a style transfer module to mitigate the scarcity of target samples. Then, to align the source and target features and tackle the memory issue of the traditional contrastive loss, we propose the centroid-based contrastive learning (CCL) and a centroid norm regularizer (CNR) to optimize the contrastive pairs in both direction and magnitude. In addition, we propose multi-partition centroid contrastive learning (MPCCL) to further reduce the variance in the target features. Fewshot evaluation on MS-CMRSeg dataset demonstrates that ConFUDA improves the segmentation performance by 0.34 of the Dice score on the target domain compared with the baseline, and 0.31 Dice score improvement in a more rigorous oneshot setting.
翻訳日:2022-06-09 19:12:54 公開日:2022-06-08
# (参考訳) モバイルアプリを削除するか削除しないか? データ駆動予測モデルアプローチ

To remove or not remove Mobile Apps? A data-driven predictive model approach ( http://arxiv.org/abs/2206.03905v1 )

ライセンス: CC BY 4.0
Fadi Mohsen, Dimka Karastoyanova, and George Azzopardi(参考訳) モバイルアプリストアは、モバイルアプリケーションの重要なディストリビュータである。 デプロイされたアプリケーションに定期的にvettingプロセスを適用する。 しかし、これらのベッティングプロセスのいくつかは不適切なか、遅く適用される可能性がある。 アプリケーション削除の遅れは、開発者やユーザにとっても不快な結果をもたらす可能性がある。 そこで本研究では,各アプリが削除されるか受理されるかを決定するデータ駆動予測手法を提案する。 また、解釈において利害関係者を助ける特徴の関連性も示します。 結果的に、当社のアプローチは、削除される可能性が低いアプリをダウンロードする際の、アプリやユーザの改善を支援することができます。 私たちはGoogle Appストアに集中し、870,515のアプリケーションからなる新しいデータセットをコンパイルしました。 提案手法は,複数のXGBoost機械学習分類器のブートストラップ集約である。 47機能を使用したユーザ中心と37機能を使用した開発者中心の2つのモデルを提案する。 テストセット上のROC曲線(AUC)の下では、ユーザ中心 = 0.792、開発者中心 = 0.762 という領域が達成されます。

Mobile app stores are the key distributors of mobile applications. They regularly apply vetting processes to the deployed apps. Yet, some of these vetting processes might be inadequate or applied late. The late removal of applications might have unpleasant consequences for developers and users alike. Thus, in this work we propose a data-driven predictive approach that determines whether the respective app will be removed or accepted. It also indicates the features' relevance that help the stakeholders in the interpretation. In turn, our approach can support developers in improving their apps and users in downloading the ones that are less likely to be removed. We focus on the Google App store and we compile a new data set of 870,515 applications, 56% of which have actually been removed from the market. Our proposed approach is a bootstrap aggregating of multiple XGBoost machine learning classifiers. We propose two models: user-centered using 47 features, and developer-centered using 37 features, the ones only available before deployment. We achieve the following Areas Under the ROC Curves (AUCs) on the test set: user-centered = 0.792, developer-centered = 0.762.
翻訳日:2022-06-09 19:04:44 公開日:2022-06-08
# (参考訳) 確率的最適化法に対する統一収束定理

A Unified Convergence Theorem for Stochastic Optimization Methods ( http://arxiv.org/abs/2206.03907v1 )

ライセンス: CC BY 4.0
Xiao Li and Andre Milzarek(参考訳) 本研究では,一連の確率的最適化手法に対する期待値とほぼ確実に収束する結果を導出するために,基本的な統一収束定理を提供する。 我々の統一定理はいくつかの代表的条件を検証することのみを必要とし、いかなる特定のアルゴリズムにも適合しない。 直接的応用として、より一般的な条件下での確率勾配法(SGD)とランダムリシャッフル法(RR)の予測値とほぼ確実に収束する結果を得た。 さらに,非滑らかな非凸最適化問題に対する確率的近位勾配法 (prox-sgd) と確率的モデルベース法 (smm) の新しい期待値とほぼ確実な収束結果を確立する。 これらの応用により、我々の統一定理は、幅広い確率最適化法に対してプラグイン型収束解析と強い収束保証を提供することが明らかになった。

In this work, we provide a fundamental unified convergence theorem used for deriving expected and almost sure convergence results for a series of stochastic optimization methods. Our unified theorem only requires to verify several representative conditions and is not tailored to any specific algorithm. As a direct application, we recover expected and almost sure convergence results of the stochastic gradient method (SGD) and random reshuffling (RR) under more general settings. Moreover, we establish new expected and almost sure convergence results for the stochastic proximal gradient method (prox-SGD) and stochastic model-based methods (SMM) for nonsmooth nonconvex optimization problems. These applications reveal that our unified theorem provides a plugin-type convergence analysis and strong convergence guarantees for a wide class of stochastic optimization methods.
翻訳日:2022-06-09 19:03:46 公開日:2022-06-08
# (参考訳) 非線形連続重み付き有限オートマトンによるncwfasシーケンシャル密度推定

Sequential Density Estimation via NCWFAs Sequential Density Estimation via Nonlinear Continuous Weighted Finite Automata ( http://arxiv.org/abs/2206.03923v1 )

ライセンス: CC BY 4.0
Tianyu Li and Bogdan Mazoure and Guillaume Rabusseau(参考訳) 重み付き有限オートマトン(WFAs)は多くの分野に広く応用されている。 WFAの古典的な問題の1つは離散記号列上の確率分布の推定である。 WFAは連続入力データ、すなわち連続WFA(CWFA)を扱うために拡張されているが、モデルの表現性やCWFAによる近似密度関数のトラクタビリティに制限があるため、WFAベースのモデルを用いて連続乱数列上の密度関数をどのように近似するかはいまだ不明である。 本稿では,まずその表現性を改善するために,cwfaモデルへの非線形拡張を提案し,これを非線形連続wfas (ncwfas) と呼ぶ。 次に,ニューラルネットワークに基づくよく知られた密度推定器であるrnade法を活用し,rnade-ncwfaモデルを提案する。 RNADE-NCWFAモデルは、設計により密度関数を計算する。 このモデルは、CWFAでは近似できないガウスHMMモデルよりも厳密に表現可能であることを示す。 実験では,ガウスHMM生成データを用いた合成実験を行った。 本研究では,異なる長さ(トレーニングデータよりも長い)の列の密度を推定するモデルの能力を評価することに注力する。 比較したベースライン手法の中で,本モデルが最良であることを示す。

Weighted finite automata (WFAs) have been widely applied in many fields. One of the classic problems for WFAs is probability distribution estimation over sequences of discrete symbols. Although WFAs have been extended to deal with continuous input data, namely continuous WFAs (CWFAs), it is still unclear how to approximate density functions over sequences of continuous random variables using WFA-based models, due to the limitation on the expressiveness of the model as well as the tractability of approximating density functions via CWFAs. In this paper, we propose a nonlinear extension to the CWFA model to first improve its expressiveness, we refer to it as the nonlinear continuous WFAs (NCWFAs). Then we leverage the so-called RNADE method, which is a well-known density estimator based on neural networks, and propose the RNADE-NCWFA model. The RNADE-NCWFA model computes a density function by design. We show that this model is strictly more expressive than the Gaussian HMM model, which CWFA cannot approximate. Empirically, we conduct a synthetic experiment using Gaussian HMM generated data. We focus on evaluating the model's ability to estimate densities for sequences of varying lengths (longer length than the training data). We observe that our model performs the best among the compared baseline methods.
翻訳日:2022-06-09 18:25:31 公開日:2022-06-08
# (参考訳) 球面投影による全方位カメラの直接三角測量

Direct Triangulation with Spherical Projection for Omnidirectional Cameras ( http://arxiv.org/abs/2206.03928v1 )

ライセンス: CC BY 4.0
Ciar\'an Eising(参考訳) 本稿では, 射影球面上の光パイアの最適化により, 全方位キャリブレーションカメラの三角測量問題を解くことを提案する。 提案する解は、二次関数の根を見つけ、それゆえ閉形式であるため、従来の方法と比較して完全に非イテレーティブで計算的に安価である。 また,全方位カメラの三角測量問題を明らかに解くという動機も考えられたが,提案手法が非双方向の狭視野カメラに適用できることが実証された。

In this paper, it is proposed to solve the problem of triangulation for calibrated omnidirectional cameras through the optimisation of ray-pairs on the projective sphere. The proposed solution boils down to finding the roots of a quadratic function, and as such is closed form, completely non-iterative and computationally inexpensive when compared to previous methods. In addition, even thought the motivation is clearly to solve the triangulation problem for omnidirectional cameras, it is demonstrated that the proposed methods can be applied to non-omnidirectional, narrow field-of-view cameras.
翻訳日:2022-06-09 18:06:49 公開日:2022-06-08
# (参考訳) 制御可能な応答生成に向けたFew-shot Prompting

Few-shot Prompting Toward Controllable Response Generation ( http://arxiv.org/abs/2206.03931v1 )

ライセンス: CC BY 4.0
Hsuan Su, Pohan Chi, Shih-Cheng Huang, Chung Ho Lam, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee(参考訳) 多くの文献が、プロンプトベースの学習は、大規模な事前学習言語モデルを利用するための効率的な方法であることを示した。 最近の研究では、適切なプロンプトを差し込んでチャットボットの出力を操る可能性も示されている。 勾配に基づく手法は、しばしばプロンプトを乱すために使われる。 しかし、一部の言語モデルは一般には利用できない。 本研究ではまず,モデルのパラメータにアクセスせずにモデル生成を操るためのプロンプトと強化学習(RL)の組み合わせについて検討した。 第二に、トレーニングの労力を減らし、目に見えないタスクへの一般化性を高めるために、モデルを学習させて新しいタスクに一般化させるマルチタスク学習を適用する。 実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。 さらに、モデルは、ベースラインモデルよりも少ないステップで、目に見えないタスクに迅速に適応できる強力な能力を示す。

Much literature has shown that prompt-based learning is an efficient method to make use of the large pre-trained language model. Recent works also exhibit the possibility of steering a chatbot's output by plugging in an appropriate prompt. Gradient-based methods are often used to perturb the prompts. However, some language models are not even available to the public. In this work, we first explored the combination of prompting and reinforcement learning (RL) to steer models' generation without accessing any of the models' parameters. Second, to reduce the training effort and enhance the generalizability to the unseen task, we apply multi-task learning to make the model learn to generalize to new tasks better. The experiment results show that our proposed method can successfully control several state-of-the-art (SOTA) dialogue models without accessing their parameters. Furthermore, the model demonstrates the strong ability to quickly adapt to an unseen task in fewer steps than the baseline model.
翻訳日:2022-06-09 17:50:51 公開日:2022-06-08
# (参考訳) rgb-dセマンティクスセグメンテーションのための深さ適応cnn

Depth-Adapted CNNs for RGB-D Semantic Segmentation ( http://arxiv.org/abs/2206.03939v1 )

ライセンス: CC BY 4.0
Zongwei Wu, Guillaume Allibert, Christophe Stolz, Chao Ma, and C\'edric Demonceaux(参考訳) 近年のRGB-Dセマンティックセマンティックセグメンテーションは、入力側からの相補的モダリティのアクセシビリティによって研究の関心を喚起している。 既存の作業では、光学的および幾何学的な情報を並列に処理する2ストリームアーキテクチャを採用しており、RGB画像のサンプリング位置を調整するために深度キューの寄与を明示的に活用する手法はほとんどない。 本稿では、Z-ACN(Depth-Adapted CNN)と呼ばれるRGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しいフレームワークを提案する。 具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。 生成されたオフセットでは,cnnの基本演算子に代えて,直感的かつ効果的な操作を2つ導入する。 室内および屋外のセマンティクスセグメンテーションタスクに関する広範囲な実験を行い,提案手法の有効性を示した。

Recent RGB-D semantic segmentation has motivated research interest thanks to the accessibility of complementary modalities from the input side. Existing works often adopt a two-stream architecture that processes photometric and geometric information in parallel, with few methods explicitly leveraging the contribution of depth cues to adjust the sampling position on RGB images. In this paper, we propose a novel framework to incorporate the depth information in the RGB convolutional neural network (CNN), termed Z-ACN (Depth-Adapted CNN). Specifically, our Z-ACN generates a 2D depth-adapted offset which is fully constrained by low-level features to guide the feature extraction on RGB images. With the generated offset, we introduce two intuitive and effective operations to replace basic CNN operators: depth-adapted convolution and depth-adapted average pooling. Extensive experiments on both indoor and outdoor semantic segmentation tasks demonstrate the effectiveness of our approach.
翻訳日:2022-06-09 17:38:09 公開日:2022-06-08
# (参考訳) 自動走行のためのロバスト環境認識:視覚外物体検出のための統一学習パイプライン

Robust Environment Perception for Automated Driving: A Unified Learning Pipeline for Visual-Infrared Object Detection ( http://arxiv.org/abs/2206.03943v1 )

ライセンス: CC BY-SA 4.0
Mohsen Vadidar, Ali Kariminezhad, Christian Mayr, Laurent Kloeker and Lutz Eckstein(参考訳) RGB補体金属酸化物半導体(CMOS)センサーは可視光スペクトル内で動作する。 そのため、環境光条件に非常に敏感である。 反対に、LWIR(Long-wave Infrared)センサーは8-14マイクロメートルのスペクトル帯で動作し、可視光とは無関係に機能する。 本稿では,視覚と熱の両方の知覚ユニットをロバストな物体検出に活用する。 FLIR [1]データセットの微妙な同期と(クロス)ラベル付けの後、このマルチモーダル認識データは畳み込みニューラルネットワーク(CNN)を通過し、道路上の3つの重要な物体(歩行者、自転車、車)を検出する。 RGBと赤外線(熱と赤外線は相互に使用されることが多い)センサーを別々に評価した後、様々なネットワーク構造を比較して特徴レベルのデータを効果的に融合させる。 新たなエントロピーブロックアテンションモジュール(EBAM)を利用するRGB熱水(RGBT)融合ネットワークは、最先端ネットワーク[2]を82.9%mAPで10%上回っている。

The RGB complementary metal-oxidesemiconductor (CMOS) sensor works within the visible light spectrum. Therefore it is very sensitive to environmental light conditions. On the contrary, a long-wave infrared (LWIR) sensor operating in 8-14 micro meter spectral band, functions independent of visible light. In this paper, we exploit both visual and thermal perception units for robust object detection purposes. After delicate synchronization and (cross-) labeling of the FLIR [1] dataset, this multi-modal perception data passes through a convolutional neural network (CNN) to detect three critical objects on the road, namely pedestrians, bicycles, and cars. After evaluation of RGB and infrared (thermal and infrared are often used interchangeably) sensors separately, various network structures are compared to fuse the data at the feature level effectively. Our RGB-thermal (RGBT) fusion network, which takes advantage of a novel entropy-block attention module (EBAM), outperforms the state-of-the-art network [2] by 10% with 82.9% mAP.
翻訳日:2022-06-09 17:13:11 公開日:2022-06-08
# (参考訳) デジタル介入のための強化学習アルゴリズムの設計:事前実装ガイドライン

Designing Reinforcement Learning Algorithms for Digital Interventions: Pre-implementation Guidelines ( http://arxiv.org/abs/2206.03944v1 )

ライセンス: CC BY 4.0
Anna L. Trella, Kelly W. Zhang, Inbal Nahum-Shani, Vivek Shetty, Finale Doshi-Velez, Susan A. Murphy(参考訳) オンライン強化学習(RL)アルゴリズムは、モバイル健康とオンライン教育の分野におけるデジタル介入のパーソナライズにますます利用されている。 これらの設定でRLアルゴリズムを設計し、テストする際の一般的な課題は、RLアルゴリズムがリアルタイムの制約の下で安定して学習し、実行できるようにすること、環境の複雑さを考慮することである。 これらの課題にどのように対処できるかをガイドするために、私たちは、教師付き学習(Yu and Kumbier, 2020)における機械学習と統計学からのベストプラクティスを取り入れたデータサイエンスフレームワークであるPCS(Predictability, Computability, stability)フレームワークを、デジタル介入設定のためのRLアルゴリズムの設計に拡張しました。 さらに、PCSフレームワークを用いてRL候補アルゴリズムを評価するための重要なツールであるシミュレーション環境の設計ガイドラインを提供する。 介入メッセージのパーソナライズによるユーザの歯磨き行動を改善することを目的としたモバイル健康調査であるOralyticsのためのRLアルゴリズムの設計にPCSフレームワークを使用する方法について述べる。 Oralyticsは2022年末にこの分野に進出する。

Online reinforcement learning (RL) algorithms are increasingly used to personalize digital interventions in the fields of mobile health and online education. Common challenges in designing and testing an RL algorithm in these settings include ensuring the RL algorithm can learn and run stably under real-time constraints, and accounting for the complexity of the environment, e.g., a lack of accurate mechanistic models for the user dynamics. To guide how one can tackle these challenges, we extend the PCS (Predictability, Computability, Stability) framework, a data science framework that incorporates best practices from machine learning and statistics in supervised learning (Yu and Kumbier, 2020), to the design of RL algorithms for the digital interventions setting. Further, we provide guidelines on how to design simulation environments, a crucial tool for evaluating RL candidate algorithms using the PCS framework. We illustrate the use of the PCS framework for designing an RL algorithm for Oralytics, a mobile health study aiming to improve users' tooth-brushing behaviors through the personalized delivery of intervention messages. Oralytics will go into the field in late 2022.
翻訳日:2022-06-09 16:59:42 公開日:2022-06-08
# (参考訳) 生涯学習の時間スケールが異なる数学的モデルブリッジ

Mathematical model bridges disparate timescales of lifelong learning ( http://arxiv.org/abs/2206.03954v1 )

ライセンス: CC BY 4.0
Mingzhen Lu, Tyler Marghetis, Vicky Chuqiao Yang(参考訳) 生涯学習は数分から数十年の時間尺度で起こる。 人々は新しいスキルで自分自身を失い、疲れ果てるまで何時間も練習します。 そして、何日も何十年もかけて熟達を追求し、おそらく新しい挑戦を求めるために、古いスキルを完全に放棄することができる。 学習の完全な理解には、これらの時間スケールを統合するアカウントが必要です。 ここでは,学習のネストした時間尺度を統一する最小量的モデルを提案する。 私たちの力学モデルは、スキル獲得の古典的な説明を復元し、モチベーション、疲労、仕事の瞬間的ダイナミクスから学習がどのように生まれるかを説明し、スキルの選択、熟達、放棄の長期的なダイナミクスにも位置します。 このモデルを,さまざまなトレーニングレジームのメリットと落とし穴を探求し,モチベーションとスキル開発における個人差を特徴付けるために適用する。 私たちのモデルは、以前異なるタイムスケール – と、通常、個別に各タイムスケールを研究するサブディシデント – を結びつけて、スキル獲得のタイムコースを統一的に説明します。

Lifelong learning occurs on timescales ranging from minutes to decades. People can lose themselves in a new skill, practicing for hours until exhausted. And they can pursue mastery over days or decades, perhaps abandoning old skills entirely to seek out new challenges. A full understanding of learning requires an account that integrates these timescales. Here, we present a minimal quantitative model that unifies the nested timescales of learning. Our dynamical model recovers classic accounts of skill acquisition, and describes how learning emerges from moment-to-moment dynamics of motivation, fatigue, and work, while also situated within longer-term dynamics of skill selection, mastery, and abandonment. We apply this model to explore the benefits and pitfalls of a variety of training regimes and to characterize individual differences in motivation and skill development. Our model connects previously disparate timescales -- and the subdisciplines that typically study each timescale in isolation -- to offer a unified account of the timecourse of skill acquisition.
翻訳日:2022-06-09 16:11:54 公開日:2022-06-08
# (参考訳) QNNを用いたトレーニングデータの少ない予測

Predict better with less training data using a QNN ( http://arxiv.org/abs/2206.03960v1 )

ライセンス: CC BY 4.0
Barry D. Reese and Marek Kowalik and Christian Metzl and Christian Bauckhage and Eldar Sultanow(参考訳) 過去10年間で、機械学習は視覚ベースの品質評価に革命をもたらし、畳み込みニューラルネットワーク(cnns)が標準になった。 本稿では,従来の画像データを量子状態に効率的にマッピングし,信頼性の高い画像解析を可能にするクオン進化型ニューラルネットワーク(QNN)アルゴリズムについて述べる。 我々は、コンピュータビジョンにおける量子デバイスの利用方法と、古典的なCNNに量子畳み込みを導入する方法について実証する。 産業品質管理における実世界のユースケースに対応して,PennyLaneフレームワーク内にハイブリッドQNNモデルを実装し,従来のCNNよりもはるかに少ないトレーニングデータを用いて,予測精度の向上を実証的に実現した。 言い換えれば、より優れたデータ符号化による利点がある産業アプリケーションに対する真の量子優位性を実証的に観察する。

Over the past decade, machine learning revolutionized vision-based quality assessment for which convolutional neural networks (CNNs) have now become the standard. In this paper, we consider a potential next step in this development and describe a quanvolutional neural network (QNN) algorithm that efficiently maps classical image data to quantum states and allows for reliable image analysis. We practically demonstrate how to leverage quantum devices in computer vision and how to introduce quantum convolutions into classical CNNs. Dealing with a real world use case in industrial quality control, we implement our hybrid QNN model within the PennyLane framework and empirically observe it to achieve better predictions using much fewer training data than classical CNNs. In other words, we empirically observe a genuine quantum advantage for an industrial application where the advantage is due to superior data encoding.
翻訳日:2022-06-09 15:53:34 公開日:2022-06-08
# (参考訳) 高次元データにおける局所曲率推定のための拡散曲率

Diffusion Curvature for Estimating Local Curvature in High Dimensional Data ( http://arxiv.org/abs/2206.03977v1 )

ライセンス: CC BY 4.0
Dhananjay Bhaskar, Kincaid MacDonald, Oluwadamilola Fasina, Dawson Thomas, Bastian Rieck, Ian Adelstein, Smita Krishnaswamy(参考訳) 拡散曲率と呼ばれる点クラウドデータに局所曲率の新しい固有測度を導入する。 本研究では,データ拡散演算子を含む拡散写像の枠組みを用いて,点雲データを構築し,データの点や領域から始まるランダムウォークのラジネスに基づいて局所曲率を定義する。 このゆらぎはリーマン幾何学による体積比較結果に直接関係していることを示す。 次に,点-クラウドデータの拡散マップに基づくニューラルネットワーク推定を用いて,このスカラー曲率の概念を二次形式全体に拡張する。 本研究では,トイデータ,シングルセルデータ,およびニューラルネットワークロスランドスケープの局所ヘッセン行列の2つの推定の応用について述べる。

We introduce a new intrinsic measure of local curvature on point-cloud data called diffusion curvature. Our measure uses the framework of diffusion maps, including the data diffusion operator, to structure point cloud data and define local curvature based on the laziness of a random walk starting at a point or region of the data. We show that this laziness directly relates to volume comparison results from Riemannian geometry. We then extend this scalar curvature notion to an entire quadratic form using neural network estimations based on the diffusion map of point-cloud data. We show applications of both estimations on toy data, single-cell data, and on estimating local Hessian matrices of neural network loss landscapes.
翻訳日:2022-06-09 15:41:58 公開日:2022-06-08
# (参考訳) プライベートラーニングはどの程度不公平か?

How unfair is private learning ? ( http://arxiv.org/abs/2206.03985v1 )

ライセンス: CC BY 4.0
Amartya Sanyal, Yaxi Hu, Fanny Yang(参考訳) 機械学習アルゴリズムが重要な意思決定プロセスにおいてセンシティブなデータにデプロイされるにつれて、それらがプライベートで公正であることもますます重要になっている。 本稿では,ロングテール構造を持つデータでは,マイノリティ・サブポピュレーションにおいて,プライベートかつ精度の高い正確な学習アルゴリズムを構築することはできないことを示す。 さらに,全体としての正確さを緩和することは,厳格なプライバシー要件を伴っても公平性をもたらすことを証明した。 理論的結果を実践的に裏付けるために,我々は,様々な合成,視覚〜(CelebA),表〜(Law School)データセットと学習アルゴリズムを用いて,幅広い実験結果を提供する。

As machine learning algorithms are deployed on sensitive data in critical decision making processes, it is becoming increasingly important that they are also private and fair. In this paper, we show that, when the data has a long-tailed structure, it is not possible to build accurate learning algorithms that are both private and results in higher accuracy on minority subpopulations. We further show that relaxing overall accuracy can lead to good fairness even with strict privacy requirements. To corroborate our theoretical results in practice, we provide an extensive set of experimental results using a variety of synthetic, vision~(\cifar and CelebA), and tabular~(Law School) datasets and learning algorithms.
翻訳日:2022-06-09 15:29:19 公開日:2022-06-08
# (参考訳) 効率的な映像生成のためのパッチ型オブジェクト中心変換器

Patch-based Object-centric Transformers for Efficient Video Generation ( http://arxiv.org/abs/2206.04003v1 )

ライセンス: CC BY 4.0
Wilson Yan, Ryo Okumura, Stephen James, Pieter Abbeel(参考訳) 本研究では,映像の時間的ダイナミクスを効率的にモデル化するために,物体中心情報を利用する新しい領域ベースの映像生成アーキテクチャであるpatch-based object-centric video transformer (povt)を提案する。 我々は,圧縮ビデオの離散的潜在空間上の自己回帰トランスフォーマによる映像予測の先行研究と,バウンディングボックスによるオブジェクト中心の情報モデルの修正を行った。 オブジェクト中心表現の圧縮性が向上するため,モデルが対象情報へのアクセスのみを許可することで,トレーニング効率を向上させることができる。 様々な難解なオブジェクト中心データセットで評価すると、計算効率と拡張性は保たれながら、他のビデオ生成モデルと同等の性能が得られる。 さらに,本手法は,映像編集や視覚計画などの下流作業を支援するバウンディングボックス操作により,オブジェクト中心の制御性を実現することができることを示す。 サンプルはhttps://sites.google.com/view/povt-public}{https://sites.google.com/view/povt-publicで入手できる。

In this work, we present Patch-based Object-centric Video Transformer (POVT), a novel region-based video generation architecture that leverages object-centric information to efficiently model temporal dynamics in videos. We build upon prior work in video prediction via an autoregressive transformer over the discrete latent space of compressed videos, with an added modification to model object-centric information via bounding boxes. Due to better compressibility of object-centric representations, we can improve training efficiency by allowing the model to only access object information for longer horizon temporal information. When evaluated on various difficult object-centric datasets, our method achieves better or equal performance to other video generation models, while remaining computationally more efficient and scalable. In addition, we show that our method is able to perform object-centric controllability through bounding box manipulation, which may aid downstream tasks such as video editing, or visual planning. Samples are available at https://sites.google.com/view/povt-public}{https://sites.google.com/view/povt-public
翻訳日:2022-06-09 15:28:10 公開日:2022-06-08
# インフルエンザaウイルス宿主と抗原型を予測するマルチチャネルニューラルネットワーク

Multi-channel neural networks for predicting influenza A virus hosts and antigenic types ( http://arxiv.org/abs/2206.03823v1 )

ライセンス: Link先を確認
Yanhua Xu and Dominik Wojtczak(参考訳) インフルエンザは季節ごとに発生し、時折パンデミックを引き起こす。 死亡率が低いにもかかわらず、インフルエンザは肺炎などの重篤な疾患によって複雑になるため、公衆衛生上の問題となっている。 インフルエンザウイルスの宿主とサブタイプを予測するための、迅速で正確で低コストな手法は、ウイルスの感染を減らし、資源の乏しい地域に利益をもたらす。 本研究では,ヘマグルチニンおよびノイラミニダーゼタンパク質配列を用いたA型インフルエンザウイルスの抗原型および宿主を予測するためのマルチチャネルニューラルネットワークを提案する。 完全タンパク質配列を含む統合データセットを使用して事前訓練されたモデルを作成し、他の2つのデータセットをモデルの性能テストに使用した。 1つのテストセットは完全なタンパク質配列を含み、もう1つのテストセットは不完全なタンパク質配列を含む。 その結果,A型インフルエンザウイルスの宿主および抗原サブタイプを完全かつ部分的なタンパク質配列で予測するために,マルチチャネルニューラルネットワークが適用可能であることが示唆された。

Influenza occurs every season and occasionally causes pandemics. Despite its low mortality rate, influenza is a major public health concern, as it can be complicated by severe diseases like pneumonia. A fast, accurate and low-cost method to predict the origin host and subtype of influenza viruses could help reduce virus transmission and benefit resource-poor areas. In this work, we propose multi-channel neural networks to predict antigenic types and hosts of influenza A viruses with hemagglutinin and neuraminidase protein sequences. An integrated data set containing complete protein sequences were used to produce a pre-trained model, and two other data sets were used for testing the model's performance. One test set contained complete protein sequences, and another test set contained incomplete protein sequences. The results suggest that multi-channel neural networks are applicable and promising for predicting influenza A virus hosts and antigenic subtypes with complete and partial protein sequences.
翻訳日:2022-06-09 15:05:58 公開日:2022-06-08
# 強化学習駆動次世代ネットワークのためのSim2real

Sim2real for Reinforcement Learning Driven Next Generation Networks ( http://arxiv.org/abs/2206.03846v1 )

ライセンス: Link先を確認
Peizheng Li, Jonathan Thomas, Xiaoyang Wang, Hakan Erdol, Abdelrahim Ahmad, Rui Inacio, Shipra Kapoor, Arjun Parekh, Angela Doufexi, Arman Shojaeifard, Robert Piechocki(参考訳) 次世代のネットワークは、自動化ネットワークと最適なネットワーク運用戦略のための人工知能(AI)と機械学習(ML)技術を積極的に採用する。 Open RAN(O-RAN)で表される新しいネットワーク構造はこの傾向に対応しており、その仕様の中心にある無線インテリジェントコントローラ(RIC)はMLアプリケーションホストとして機能している。 様々なMLモデル、特に強化学習(RL)モデルは、RAN関連多目的最適化問題の解決の鍵と見なされている。 しかし、現在のRLの成功のほとんどは抽象的で単純化されたシミュレーション環境に限られており、複雑な実環境では直接的に高性能に変換されない可能性がある。 主な理由の1つはシミュレーションと実環境の間のモデリングギャップであり、RLエージェントは実環境に不適合なシミュレーションによって訓練される可能性がある。 この問題はsim2real gapと呼ばれる。 この記事では、O-RANのコンテキストにおけるsim2realチャレンジについて述べます。 具体的には、デジタルツイン(DT)がモデル開発と検証の場として持つことのできる特性とメリットを強調します。 実環境におけるシミュレーション訓練rlモデルの故障モードの例と実例を示すために,いくつかのユースケースが提示されている。 RLアルゴリズムの開発支援におけるDTの有効性について論じる。 次に、sim2realチャレンジを克服するために一般的に使用されるアート学習ベース手法の現状を示す。 最後に,データインタラクションや環境ボトルネック,アルゴリズム設計といった潜在的な問題の観点から,o-ranで実現されるrlアプリケーションの開発とデプロイメントに関する懸念について論じる。

The next generation of networks will actively embrace artificial intelligence (AI) and machine learning (ML) technologies for automation networks and optimal network operation strategies. The emerging network structure represented by Open RAN (O-RAN) conforms to this trend, and the radio intelligent controller (RIC) at the centre of its specification serves as an ML applications host. Various ML models, especially Reinforcement Learning (RL) models, are regarded as the key to solving RAN-related multi-objective optimization problems. However, it should be recognized that most of the current RL successes are confined to abstract and simplified simulation environments, which may not directly translate to high performance in complex real environments. One of the main reasons is the modelling gap between the simulation and the real environment, which could make the RL agent trained by simulation ill-equipped for the real environment. This issue is termed as the sim2real gap. This article brings to the fore the sim2real challenge within the context of O-RAN. Specifically, it emphasizes the characteristics, and benefits that the digital twins (DT) could have as a place for model development and verification. Several use cases are presented to exemplify and demonstrate failure modes of the simulations trained RL model in real environments. The effectiveness of DT in assisting the development of RL algorithms is discussed. Then the current state of the art learning-based methods commonly used to overcome the sim2real challenge are presented. Finally, the development and deployment concerns for the RL applications realisation in O-RAN are discussed from the view of the potential issues like data interaction, environment bottlenecks, and algorithm design.
翻訳日:2022-06-09 15:05:40 公開日:2022-06-08
# ニューラルネットワーク重み行列のフィルタリングにおける雑音と情報の境界

Boundary between noise and information applied to filtering neural network weight matrices ( http://arxiv.org/abs/2206.03927v1 )

ライセンス: Link先を確認
Max Staats, Matthias Thamm, Bernd Rosenow(参考訳) 深層ニューラルネットワークは、オーバーパラメトリゼーションによって部分的にランダムな重み行列が得られる幅広い問題にうまく適用されてきた。 重み行列特異ベクトルとポーター・トーマス分布の比較は、特異値スペクトルにランダム性と学習情報の境界が存在することを示唆している。 この発見に触発されて、ノイズフィルタリングアルゴリズムを導入し、ノイズとスペクトルの情報部との間のレベル反発の効果を相殺するために、小さな特異値を取り除き、大きな特異値の大きさを小さくする。 ラベルノイズの存在下でトレーニングされたネットワークでは,ノイズフィルタリングにより一般化性能が著しく向上することがわかった。

Deep neural networks have been successfully applied to a broad range of problems where overparametrization yields weight matrices which are partially random. A comparison of weight matrix singular vectors to the Porter-Thomas distribution suggests that there is a boundary between randomness and learned information in the singular value spectrum. Inspired by this finding, we introduce an algorithm for noise filtering, which both removes small singular values and reduces the magnitude of large singular values to counteract the effect of level repulsion between the noise and the information part of the spectrum. For networks trained in the presence of label noise, we indeed find that the generalization performance improves significantly due to noise filtering.
翻訳日:2022-06-09 15:04:48 公開日:2022-06-08
# 確率近似から見たゲームにおける学習

Learning in games from a stochastic approximation viewpoint ( http://arxiv.org/abs/2206.03922v1 )

ライセンス: Link先を確認
Panayotis Mertikopoulos and Ya-Ping Hsieh and Volkan Cevher(参考訳) ゲームにおけるマルチエージェントオンライン学習の長期動作を解析するための一元的確率近似フレームワークを開発した。 このフレームワークは,多種多様なゲーム理論学習アルゴリズム(段階的手法,楽観的変種,有限ゲームにおけるペイオフベースのフィードバックによる学習のためのexp3アルゴリズムなど)を包含する,mrm(mirrored robbins-monro)テンプレートに基づいている。 これらのアルゴリズムの統合ビューを提供するのに加えて、提案したMRMブループリントは、連続ゲームと有限ゲームの両方において、漸近的および有限時間の両方で、幅広い新しい収束結果を得ることができる。

We develop a unified stochastic approximation framework for analyzing the long-run behavior of multi-agent online learning in games. Our framework is based on a "primal-dual", mirrored Robbins-Monro (MRM) template which encompasses a wide array of popular game-theoretic learning algorithms (gradient methods, their optimistic variants, the EXP3 algorithm for learning with payoff-based feedback in finite games, etc.). In addition to providing an integrated view of these algorithms, the proposed MRM blueprint allows us to obtain a broad range of new convergence results, both asymptotic and in finite time, in both continuous and finite games.
翻訳日:2022-06-09 15:02:54 公開日:2022-06-08
# マスクvq-vae対応コードブックによるロバストな意味コミュニケーション

Robust Semantic Communications with Masked VQ-VAE Enabled Codebook ( http://arxiv.org/abs/2206.04011v1 )

ライセンス: Link先を確認
Qiyu Hu, Guangyi Zhang, Zhijin Qin, Yunlong Cai, Guanding Yu, Geoffrey Ye Li(参考訳) セマンティックコミュニケーションは,多くのタスクにおいて良好な性能を示したが,セマンティックノイズの影響やシステムの堅牢性は十分に研究されていない。 セマンティックノイズ(Semantic noise)とは、意図した意味記号と受信した意味記号との誤解を招き、タスクの失敗を引き起こす。 本稿ではまず,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。 特に,サンプル依存とサンプル非依存のセマンティクスノイズを分析した。 セマンティックノイズに対処するために, トレーニングデータセットにセマンティックノイズを含むサンプルを組み込むために, 重量摂動による対向訓練を開発した。 そこで我々は,意味的ノイズが頻繁に現れる入力の一部をマスキングし,ノイズ関連マスキング戦略を用いて,マスク付きベクトル量子化可変オートエンコーダ(VQ-VAE)を設計する。 我々は送信機と受信機が共有する離散コードブックを用いて特徴表現を符号化する。 システムの堅牢性をさらに向上するため,ノイズやタスク非関連機能を抑制する機能重要モジュール(FIM)を開発した。 したがって、送信側はコードブックにこれらの重要なタスク関連機能の指標を送信するだけでよい。 シミュレーションの結果,提案手法は多くの下流タスクに適用でき,伝送オーバーヘッドを著しく低減し,セマンティックノイズに対するロバスト性を大幅に向上できることがわかった。

Although semantic communications have exhibited satisfactory performance for a large number of tasks, the impact of semantic noise and the robustness of the systems have not been well investigated. Semantic noise refers to the misleading between the intended semantic symbols and received ones, thus cause the failure of tasks. In this paper, we first propose a framework for the robust end-to-end semantic communication systems to combat the semantic noise. In particular, we analyze sample-dependent and sample-independent semantic noise. To combat the semantic noise, the adversarial training with weight perturbation is developed to incorporate the samples with semantic noise in the training dataset. Then, we propose to mask a portion of the input, where the semantic noise appears frequently, and design the masked vector quantized-variational autoencoder (VQ-VAE) with the noise-related masking strategy. We use a discrete codebook shared by the transmitter and the receiver for encoded feature representation. To further improve the system robustness, we develop a feature importance module (FIM) to suppress the noise-related and task-unrelated features. Thus, the transmitter simply needs to transmit the indices of these important task-related features in the codebook. Simulation results show that the proposed method can be applied in many downstream tasks and significantly improve the robustness against semantic noise with remarkable reduction on the transmission overhead.
翻訳日:2022-06-09 15:02:41 公開日:2022-06-08
# (参考訳) 高分解能画像合成のためのスコアベース生成モデル

Accelerating Score-based Generative Models for High-Resolution Image Synthesis ( http://arxiv.org/abs/2206.04029v1 )

ライセンス: CC BY 4.0
Hengyuan Ma, Li Zhang, Xiatian Zhu, Jingfeng Zhang, Jianfeng Feng(参考訳) スコアベース生成モデル(sgms)は最近、有望な生成モデルのクラスとして登場している。 重要なアイデアは、ターゲット分布、すなわち拡散サンプリングに収束するまで、ガウスノイズや勾配をガウスサンプルに繰り返し付加することにより、高品質な画像を生成することである。 しかし、サンプリングと生成品質の収束の安定性を確保するためには、このシーケンシャルサンプリングプロセスは小さなステップサイズと多くのサンプリング反復(例えば2000)を必要とする。 低解像度生成に焦点をあてた加速法がいくつか提案されている。 本研究では,SGMによる高分解能発生の加速について考察する。 この緩やかな収束の欠点は、主に対象分布の無知に起因することを理論的に証明する。 さらに,空間領域と周波数領域の構造的前提を利用して,TDAS(Target Distribution Aware Smpling)手法を提案する。 CIFAR-10、CelebA、LSUN、FFHQのデータセットに対する大規模な実験は、TDASが一貫して最先端のSGM、特により困難な高解像度(1024x1024)画像生成タスクを18.4倍まで加速できることを示した。 サンプリングを少なくすれば、tdaは高品質な画像を生成することができる。 対照的に、既存のメソッドは劇的に劣化するか、あるいは完全に失敗する

Score-based generative models (SGMs) have recently emerged as a promising class of generative models. The key idea is to produce high-quality images by recurrently adding Gaussian noises and gradients to a Gaussian sample until converging to the target distribution, a.k.a. the diffusion sampling. To ensure stability of convergence in sampling and generation quality, however, this sequential sampling process has to take a small step size and many sampling iterations (e.g., 2000). Several acceleration methods have been proposed with focus on low-resolution generation. In this work, we consider the acceleration of high-resolution generation with SGMs, a more challenging yet more important problem. We prove theoretically that this slow convergence drawback is primarily due to the ignorance of the target distribution. Further, we introduce a novel Target Distribution Aware Sampling (TDAS) method by leveraging the structural priors in space and frequency domains. Extensive experiments on CIFAR-10, CelebA, LSUN, and FFHQ datasets validate that TDAS can consistently accelerate state-of-the-art SGMs, particularly on more challenging high resolution (1024x1024) image generation tasks by up to 18.4x, whilst largely maintaining the synthesis quality. With fewer sampling iterations, TDAS can still generate good quality images. In contrast, the existing methods degrade drastically or even fails completely
翻訳日:2022-06-09 15:00:24 公開日:2022-06-08
# 多施設ct画像のためのハイパーネットワークによる個人化連合学習

Hypernetwork-based Personalized Federated Learning for Multi-Institutional CT Imaging ( http://arxiv.org/abs/2206.03709v1 )

ライセンス: Link先を確認
Ziyuan Yang, Wenjun Xia, Zexin Lu, Yingyu Chen, Xiaoxiao Li and Yi Zhang(参考訳) ct(ct)は、侵襲的検査なしで患者の解剖情報を提供する強力な能力があるため、臨床において非常に重要であるが、その潜在的な放射線リスクは人々の関心を惹きつけている。 ディープラーニングベースの手法はCT再構成において有望であると考えられているが、これらのネットワークモデルは、通常、特定の走査プロトコルから得られた測定データで訓練され、大量のデータを集中的に収集する必要がある。 本稿では,これらの問題を解消するために,HyperFedと呼ばれる個人用CT画像のためのハイパーネットワークベースのフェデレーション学習手法を提案する。 hyperfedの基本的な前提は、各機関の最適化問題は、機関固有のハイパーネットワークとグローバルシェアリングイメージングネットワークによってそれぞれ実装されるローカルデータ適応問題とグローバルctイメージング問題という2つの部分に分けられることである。 グローバル共有画像ネットワークの目的は、様々な機関から安定的で効果的な共通特徴を学習することである。 組織固有のハイパーネットワークは,局所的CT再構成のためのグローバル共有画像ネットワークの条件を定めるために,慎重に設計されている。 実験の結果,HyperFedは他のいくつかの最先端手法と比較してCT再構成の競合性能が向上した。 これは、CT画像の画質を改善し、プライバシーデータを共有することなく、異なる機関やスキャナーのパーソナライズされた要求を達成するための有望な方向であると信じられている。 コードはhttps://github.com/zi-yuanyang/hyperfedでリリースされる。

Computed tomography (CT) is of great importance in clinical practice due to its powerful ability to provide patients' anatomical information without any invasive inspection, but its potential radiation risk is raising people's concerns. Deep learning-based methods are considered promising in CT reconstruction, but these network models are usually trained with the measured data obtained from specific scanning protocol and need to centralizedly collect large amounts of data, which will lead to serious data domain shift, and privacy concerns. To relieve these problems, in this paper, we propose a hypernetwork-based federated learning method for personalized CT imaging, dubbed as HyperFed. The basic assumption of HyperFed is that the optimization problem for each institution can be divided into two parts: the local data adaption problem and the global CT imaging problem, which are implemented by an institution-specific hypernetwork and a global-sharing imaging network, respectively. The purpose of global-sharing imaging network is to learn stable and effective common features from different institutions. The institution-specific hypernetwork is carefully designed to obtain hyperparameters to condition the global-sharing imaging network for personalized local CT reconstruction. Experiments show that HyperFed achieves competitive performance in CT reconstruction compared with several other state-of-the-art methods. It is believed as a promising direction to improve CT imaging quality and achieve personalized demands of different institutions or scanners without privacy data sharing. The codes will be released at https://github.com/Zi-YuanYang/HyperFed.
翻訳日:2022-06-09 14:39:02 公開日:2022-06-08
# pixselect: 精度と効率のよいローカライズのための信頼性の低いピクセル

PixSelect: Less but Reliable Pixels for Accurate and Efficient Localization ( http://arxiv.org/abs/2206.03775v1 )

ライセンス: Link先を確認
Mohammad Altillawi(参考訳) 正確なカメラポーズ推定は、自動運転、モバイルロボティクス、拡張現実など、多くのアプリケーションにとって基本的な要件である。 本研究では,与えられた環境において,単一のrgb画像からグローバル6自由度カメラのポーズを推定する問題に対処する。 以前の作品では、画像のすべての部分がローカライゼーションに有用であると考えられていた。 しかし、空やオクルージョン、反復的な非識別可能なパターンなどの多くの画像領域は、ローカライゼーションには利用できない。 不要な計算作業の追加に加えて、そのような領域からの抽出とマッチング機能は多くの間違ったマッチングを生成し、それによってローカライゼーションの精度と効率が低下する。 本研究は, この課題に対処し, 識別環境部品を活用でき, 単一画像のローカライゼーションのために無用な画像領域を回避できる, スパース3Dモデルという興味深い概念を活用できることを示す。 興味深いことに、木、茂み、車、歩行者、閉塞といった信頼性の低い画像領域からキーポイントを選択することを避けることで、我々の仕事は自然にアウトリーフィルタとして機能する。 これにより, 異常値数が少ないため, 最小対応セットが必要であり, 高精度なシステムを実現することができる。 私たちの研究は、Cambridge Landmarksデータセットの最先端の手法を超えています。 推論時に単一のイメージのみに依存するため、より高速な3Dモデルと/または参照モデルを利用する精度の手法よりも優れている。 100以上の対応を選択することで、より効率的でありながら、何千もの対応からローカライズする類似の方法を超える。 特に,これらの手法と比較して,オールドホスピタルシーンにおける局所化の33%向上を実現している。 さらに、画像のシーケンスから学ぶものでさえ、直接ポーズレグレッシャに立たない。

Accurate camera pose estimation is a fundamental requirement for numerous applications, such as autonomous driving, mobile robotics, and augmented reality. In this work, we address the problem of estimating the global 6 DoF camera pose from a single RGB image in a given environment. Previous works consider every part of the image valuable for localization. However, many image regions such as the sky, occlusions, and repetitive non-distinguishable patterns cannot be utilized for localization. In addition to adding unnecessary computation efforts, extracting and matching features from such regions produce many wrong matches which in turn degrades the localization accuracy and efficiency. Our work addresses this particular issue and shows by exploiting an interesting concept of sparse 3D models that we can exploit discriminatory environment parts and avoid useless image regions for the sake of a single image localization. Interestingly, through avoiding selecting keypoints from non-reliable image regions such as trees, bushes, cars, pedestrians, and occlusions, our work acts naturally as an outlier filter. This makes our system highly efficient in that minimal set of correspondences is needed and highly accurate as the number of outliers is low. Our work exceeds state-ofthe-art methods on outdoor Cambridge Landmarks dataset. With only relying on single image at inference, it outweighs in terms of accuracy methods that exploit pose priors and/or reference 3D models while being much faster. By choosing as little as 100 correspondences, it surpasses similar methods that localize from thousands of correspondences, while being more efficient. In particular, it achieves, compared to these methods, an improvement of localization by 33% on OldHospital scene. Furthermore, It outstands direct pose regressors even those that learn from sequence of images
翻訳日:2022-06-09 14:38:35 公開日:2022-06-08
# ビデオオブジェクトセグメンテーション参照のための言語ブリッジ型時空間インタラクション

Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation ( http://arxiv.org/abs/2206.03789v1 )

ライセンス: Link先を確認
Zihan Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Jizhong Han, Si Liu(参考訳) ビデオオブジェクトのセグメンテーションは、ビデオ内の自然言語表現で参照されるオブジェクトの前景ラベルを予測することを目的としている。 従来の手法は3D ConvNetsに依存するか、さらに2D ConvNetsをエンコーダとして組み込んで、複雑な時空間の特徴を抽出する。 しかし、これらの手法はデコードフェーズで発生する遅延的かつ暗黙的な空間的-時間的相互作用によって、空間的誤用や誤用に苦しむ。 そこで本稿では,この制約に対処するために,言語を中間ブリッジとして利用するlbdtモジュールを提案する。 具体的には、時間エンコーダ、参照語及び空間エンコーダ間でクロスモーダルな注意を行い、言語関連動作及び出現情報を集約・転送する。 また,チャネルワイドアクティベーションによる空間的・時間的一貫した特徴をより強調し強調するために,デコードフェーズにおけるバイラテラルチャネルアクティベーション(BCA)モジュールを提案する。 A2D文とJ-HMDB文をそれぞれ6.8%と6.9%の絶対APゲインを持つ4つのベンチマークで,計算オーバーヘッドの約7倍の時間を要した。

Referring video object segmentation aims to predict foreground labels for objects referred by natural language expressions in videos. Previous methods either depend on 3D ConvNets or incorporate additional 2D ConvNets as encoders to extract mixed spatial-temporal features. However, these methods suffer from spatial misalignment or false distractors due to delayed and implicit spatial-temporal interaction occurring in the decoding phase. To tackle these limitations, we propose a Language-Bridged Duplex Transfer (LBDT) module which utilizes language as an intermediary bridge to accomplish explicit and adaptive spatial-temporal interaction earlier in the encoding phase. Concretely, cross-modal attention is performed among the temporal encoder, referring words and the spatial encoder to aggregate and transfer language-relevant motion and appearance information. In addition, we also propose a Bilateral Channel Activation (BCA) module in the decoding phase for further denoising and highlighting the spatial-temporal consistent features via channel-wise activation. Extensive experiments show our method achieves new state-of-the-art performances on four popular benchmarks with 6.8% and 6.9% absolute AP gains on A2D Sentences and J-HMDB Sentences respectively, while consuming around 7x less computational overhead.
翻訳日:2022-06-09 14:38:06 公開日:2022-06-08
# 術前および術後脳腫瘍MRIにおける異常対応による教師なし変形性画像登録

Unsupervised Deformable Image Registration with Absent Correspondences in Pre-operative and Post-Recurrence Brain Tumor MRI Scans ( http://arxiv.org/abs/2206.03900v1 )

ライセンス: Link先を確認
Tony C. W. Mok, Albert C. S. Chung(参考訳) 脳グリオーマの治療効果を評価するには,術前および再帰後の脳画像の登録がしばしば必要となる。 近年の深層学習に基づく変形可能なレジストレーション手法は, 正常な脳画像では有意な成功を収めているが, 参照画像の対応が欠如しているため, 画像と病理を正確に一致させることは不可能である。 本稿では,非対応な領域と双方向の変形場を共同で推定する深層学習に基づく変形可能な登録手法を提案する。 前向きの一貫性制約は、2つの画像に不一致のボクセルからの切除領域と再発領域の局所化を支援するために用いられる。 BraTS-Reg Challengeの3次元臨床データから,コスト関数マスキング戦略の有無にかかわらず,従来型およびディープラーニングベースの登録手法と比較して画像アライメントを改善することができることを示した。 ソースコードはhttps://github.com/cwmok/DIRACで入手できる。

Registration of pre-operative and post-recurrence brain images is often needed to evaluate the effectiveness of brain gliomas treatment. While recent deep learning-based deformable registration methods have achieved remarkable success with healthy brain images, most of them would be unable to accurately align images with pathologies due to the absent correspondences in the reference image. In this paper, we propose a deep learning-based deformable registration method that jointly estimates regions with absent correspondence and bidirectional deformation fields. A forward-backward consistency constraint is used to aid in the localization of the resection and recurrence region from voxels with absence correspondences in the two images. Results on 3D clinical data from the BraTS-Reg challenge demonstrate our method can improve image alignment compared to traditional and deep learning-based registration approaches with or without cost function masking strategy. The source code is available at https://github.com/cwmok/DIRAC.
翻訳日:2022-06-09 14:37:28 公開日:2022-06-08
# 胸部x線異常検出のためのdual-distribution discrepancy

Dual-Distribution Discrepancy for Anomaly Detection in Chest X-Rays ( http://arxiv.org/abs/2206.03935v1 )

ライセンス: Link先を確認
Yu Cai (1 and 2), Hao Chen (3), Xin Yang (2), Yu Zhou (2), Kwang-Ting Cheng (1 and 3) ((1) Department of Electronic and Computer Engineering, The Hong Kong University of Science and Technology, Hong Kong, China, (2) School of Electronic Information and Communications, Huazhong University of Science and Technology, Wuhan, China, (3) Department of Computer Science and Engineering, The Hong Kong University of Science and Technology, Hong Kong, China)(参考訳) 胸部X線 (CXR) は様々な疾患の診断において最も典型的な放射線検査である。 高価で時間を要するアノテーションのため、教師なしの方法でCXRの異常を検出することは非常に有望である。 しかし、既存の手法のほとんどは、異常検出を1クラス分類(OCC)問題と見なしている。 トレーニング中の既知の正常画像のみの分布をモデル化し、正常なプロファイルに適合しないサンプルをテストフェーズの異常として同定する。 これにより、臨床で容易に取得できるが、トレーニング段階では、異常を含む多数のラベルなし画像が無視される。 本稿では, 正規画像とラベルなし画像の両方を利用した新しい手法であるDual-Distribution Discrepancy for Anomaly Detection (DDAD)を提案する。 トレーニング中、モジュールAは既知の正規画像と未ラベル画像の両方を入力として、ラベルなし画像から何らかの方法で異常な特徴をキャプチャし、モジュールBは既知の正規画像のみの分布をモデル化する。 その後、モジュールAとB間の相違とモジュールB内の相違は異常を示す異常スコアとして設計される。 3つのCXRデータセットの実験により、提案されたDDADが一貫した重要なゲインを達成し、最先端の手法より優れていることが示された。 コードはhttps://github.com/caiyu6666/DDADで入手できる。

Chest X-ray (CXR) is the most typical radiological exam for diagnosis of various diseases. Due to the expensive and time-consuming annotations, detecting anomalies in CXRs in an unsupervised fashion is very promising. However, almost all of the existing methods consider anomaly detection as a One-Class Classification (OCC) problem. They model the distribution of only known normal images during training and identify the samples not conforming to normal profile as anomalies in the testing phase. A large number of unlabeled images containing anomalies are thus ignored in the training phase, although they are easy to obtain in clinical practice. In this paper, we propose a novel strategy, Dual-distribution Discrepancy for Anomaly Detection (DDAD), utilizing both known normal images and unlabeled images. The proposed method consists of two modules, denoted as A and B. During training, module A takes both known normal and unlabeled images as inputs, capturing anomalous features from unlabeled images in some way, while module B models the distribution of only known normal images. Subsequently, the inter-discrepancy between modules A and B, and intra-discrepancy inside module B are designed as anomaly scores to indicate anomalies. Experiments on three CXR datasets demonstrate that the proposed DDAD achieves consistent, significant gains and outperforms state-of-the-art methods. Code is available at https://github.com/caiyu6666/DDAD.
翻訳日:2022-06-09 14:37:13 公開日:2022-06-08
# CO^3: 自律運転のための協調的教師なし3次元表現学習

CO^3: Cooperative Unsupervised 3D Representation Learning for Autonomous Driving ( http://arxiv.org/abs/2206.04028v1 )

ライセンス: Link先を確認
Runjian Chen, Yao Mu, Runsen Xu, Wenqi Shao, Chenhan Jiang, Hang Xu, Zhenguo Li, Ping Luo(参考訳) 屋内-シーンのポイントクラウドに対する教師なしのコントラスト学習は、大きな成功を収めた。 しかし、従来の手法ではシーン全体を再構築し、対照的な目的のために部分的な視点を捉える必要があるため、屋外シーンにおける教師なし学習点雲は依然として困難である。 これは移動物体、障害物、センサーを備えた屋外シーンでは実現不可能である。 本稿では,アウトドア・シーン・ポイント・クラウドの3次元表現を教師なしで学習するために,協調的なコントラスト学習と文脈形状予測を行うco^3を提案する。 CO^3は既存の方法と比較していくつかの利点がある。 1)車両側とインフラストラクチャ側からlidarポイントクラウドを使用して,従来手法で構築したビューよりも適切なコントラスト学習のための共通意味情報を維持しながら,十分に異なるビューを構築する。 2) 対照的な目的に加えて, 形状コンテキスト予測を事前学習目標として提案し, 学習した表現を下流検出タスクに転送する場合に有用である, 教師なしの3Dポイントクラウド表現学習により多くのタスク関連情報をもたらす。 3) 従来の手法と比較して,CO^3で学習した表現は,異なる種類のLiDARセンサで収集した屋外シーンのデータセットに転送することができる。 (4)CO^3は、EvenとKITTIの両方のデータセットにおける最先端の手法を最大2.58mAP改善する。 コードとモデルがリリースされます。 我々はCO^3が屋外シーンにおけるLiDAR点雲の理解を容易にすると信じている。

Unsupervised contrastive learning for indoor-scene point clouds has achieved great successes. However, unsupervised learning point clouds in outdoor scenes remains challenging because previous methods need to reconstruct the whole scene and capture partial views for the contrastive objective. This is infeasible in outdoor scenes with moving objects, obstacles, and sensors. In this paper, we propose CO^3, namely Cooperative Contrastive Learning and Contextual Shape Prediction, to learn 3D representation for outdoor-scene point clouds in an unsupervised manner. CO^3 has several merits compared to existing methods. (1) It utilizes LiDAR point clouds from vehicle-side and infrastructure-side to build views that differ enough but meanwhile maintain common semantic information for contrastive learning, which are more appropriate than views built by previous methods. (2) Alongside the contrastive objective, shape context prediction is proposed as pre-training goal and brings more task-relevant information for unsupervised 3D point cloud representation learning, which are beneficial when transferring the learned representation to downstream detection tasks. (3) As compared to previous methods, representation learned by CO^3 is able to be transferred to different outdoor scene dataset collected by different type of LiDAR sensors. (4) CO^3 improves current state-of-the-art methods on both Once and KITTI datasets by up to 2.58 mAP. Codes and models will be released. We believe CO^3 will facilitate understanding LiDAR point clouds in outdoor scene.
翻訳日:2022-06-09 14:36:48 公開日:2022-06-08
# 通信圧縮を用いた分散学習における下限と近似最適アルゴリズム

Lower Bounds and Nearly Optimal Algorithms in Distributed Learning with Communication Compression ( http://arxiv.org/abs/2206.03665v1 )

ライセンス: Link先を確認
Xinmeng Huang, Yiming Chen, Wotao Yin, Kun Yuan(参考訳) 分散最適化と学習の最近の進歩は、通信圧縮が通信を減らす最も効果的な方法の1つであることを示している。 通信圧縮下での収束率には多くの結果があるが、理論上の下限はいまだに欠けている。 通信圧縮を伴うアルゴリズムの解析は、2つの抽象的性質(偏りのない性質と収縮的性質)に収束している。 それらは一方向圧縮(ワーカからサーバへのメッセージのみ圧縮)または双方向圧縮で適用できる。 本稿では,コミュニケーション圧縮下での滑らかで非凸な対象関数を最小化するための分散確率アルゴリズムについて検討する。 一方向または二方向の非バイアス圧縮機を用いても、アルゴリズムの収束低境界を確立する。 下界と既存の上界の間のギャップを埋めるため、より穏やかな条件下で下界(対数係数まで)にほぼ到達する新石器式アルゴリズムを提案する。 また, 両方向圧縮を用いた場合, 非バイアスの一方向圧縮と同程度の速度で収束する反復的手法が得られた。 実験結果は我々の発見を裏付ける。

Recent advances in distributed optimization and learning have shown that communication compression is one of the most effective means of reducing communication. While there have been many results on convergence rates under communication compression, a theoretical lower bound is still missing. Analyses of algorithms with communication compression have attributed convergence to two abstract properties: the unbiased property or the contractive property. They can be applied with either unidirectional compression (only messages from workers to server are compressed) or bidirectional compression. In this paper, we consider distributed stochastic algorithms for minimizing smooth and non-convex objective functions under communication compression. We establish a convergence lower bound for algorithms whether using unbiased or contractive compressors in unidirection or bidirection. To close the gap between the lower bound and the existing upper bounds, we further propose an algorithm, NEOLITHIC, which almost reaches our lower bound (up to logarithm factors) under mild conditions. Our results also show that using contractive bidirectional compression can yield iterative methods that converge as fast as those using unbiased unidirectional compression. The experimental results validate our findings.
翻訳日:2022-06-09 14:34:35 公開日:2022-06-08
# (参考訳) レイトレーシングとしてのego 3次元表現の学習

Learning Ego 3D Representation as Ray Tracing ( http://arxiv.org/abs/2206.04042v1 )

ライセンス: CC BY 4.0
Jiachen Lu, Zheyuan Zhou, Xiatian Zhu, Hang Xu, Li Zhang(参考訳) 自動認識モデルは、複数のカメラから総合的に3D意味表現をエゴ車の鳥眼視(BEV)座標フレームに抽出し、下流プランナーを接地することを目的としている。 既存の知覚法では、シーン全体の誤差の少ない深さ推定や、ターゲットとなる幾何学構造を使わずに、粗い仮想3D表現を学習することが多い。 本稿では,任意の数の制約のないカメラビューから,エゴ3次元表現学習のための新しいエンドツーエンドアーキテクチャを提案する。 レイトレーシングの原理に触発され、学習可能なego 3d表現として「虚眼」の分極格子をデザインし、3d-to-2d投影と連動して適応注意機構を用いて学習プロセスを定式化する。 批判的なことに、この定式化により、奥行きの監督なしに2次元画像からリッチな3D表現を抽出できる。 その単純さと汎用性にもかかわらず、標準的なBEV視覚タスク(例えば、カメラベースの3Dオブジェクト検出とBEVセグメンテーション)に関する広範な実験により、我々のモデルは、マルチタスク学習による計算効率のさらなる優位性により、最先端の代替品を著しく上回ることを示した。

A self-driving perception model aims to extract 3D semantic representations from multiple cameras collectively into the bird's-eye-view (BEV) coordinate frame of the ego car in order to ground downstream planner. Existing perception methods often rely on error-prone depth estimation of the whole scene or learning sparse virtual 3D representations without the target geometry structure, both of which remain limited in performance and/or capability. In this paper, we present a novel end-to-end architecture for ego 3D representation learning from an arbitrary number of unconstrained camera views. Inspired by the ray tracing principle, we design a polarized grid of "imaginary eyes" as the learnable ego 3D representation and formulate the learning process with the adaptive attention mechanism in conjunction with the 3D-to-2D projection. Critically, this formulation allows extracting rich 3D representation from 2D images without any depth supervision, and with the built-in geometry structure consistent w.r.t. BEV. Despite its simplicity and versatility, extensive experiments on standard BEV visual tasks (e.g., camera-based 3D object detection and BEV segmentation) show that our model outperforms all state-of-the-art alternatives significantly, with an extra advantage in computational efficiency from multi-task learning.
翻訳日:2022-06-09 14:31:40 公開日:2022-06-08
# 交互に最適化されたグラフニューラルネットワーク

Alternately Optimized Graph Neural Networks ( http://arxiv.org/abs/2206.03638v1 )

ライセンス: Link先を確認
Haoyu Han, Xiaorui Liu, Torkamani Ali, Feng Shi, Victor Lee, Jiliang Tang(参考訳) グラフニューラルネットワーク(gnns)は多くのグラフベースのタスクで強力な表現能力を示している。 具体的には、APPNPのようなGNNの分離構造は、その単純さと性能上の利点から人気がある。 しかし、これらのGNNのエンドツーエンドのトレーニングは、計算とメモリ消費を非効率にする。 本稿では,これらの制約に対処するため,エンドツーエンドのトレーニングを必要としないグラフニューラルネットワークのための交互最適化フレームワークを提案する。 異なる条件下での広範囲な実験により、提案アルゴリズムの性能は既存の最先端アルゴリズムに匹敵するが、計算とメモリ効率は大幅に向上することが示された。 さらに、既存の疎結合GNNを強化するために、我々のフレームワークを活用できることが示される。

Graph Neural Networks (GNNs) have demonstrated powerful representation capability in numerous graph-based tasks. Specifically, the decoupled structures of GNNs such as APPNP become popular due to their simplicity and performance advantages. However, the end-to-end training of these GNNs makes them inefficient in computation and memory consumption. In order to deal with these limitations, in this work, we propose an alternating optimization framework for graph neural networks that does not require end-to-end training. Extensive experiments under different settings demonstrate that the performance of the proposed algorithm is comparable to existing state-of-the-art algorithms but has significantly better computation and memory efficiency. Additionally, we show that our framework can be taken advantage to enhance existing decoupled GNNs.
翻訳日:2022-06-09 14:13:11 公開日:2022-06-08
# pFL-Bench: 個人化フェデレーション学習のための総合ベンチマーク

pFL-Bench: A Comprehensive Benchmark for Personalized Federated Learning ( http://arxiv.org/abs/2206.03655v1 )

ライセンス: Link先を確認
Daoyuan Chen, Dawei Gao, Weirui Kuang, Yaliang Li, Bolin Ding(参考訳) パーソナライズド・フェデレート・ラーニング(pFL)は、FLクライアントの統計的不均一性を扱うことに成功し、異なるローカルモデルを活用してデプロイすることで、近年注目を集めている。 しかし,pfl法の標準化評価と体系的分析は依然として課題である。 まず、非常に多様なデータセット、FLシミュレーション設定、pFL実装は、高速かつ公平なpFL比較を妨げる。 第2に、新しいクライアントの一般化やリソース制限されたクライアントの参加など、様々な実用的なシナリオにおいて、pflメソッドの有効性と堅牢性は未検討である。 最終的に、現在のpFL文献は、採用された評価プロトコルとアブレーションプロトコルに分岐する。 これらの課題に対処するため、我々はpFLベンチマークpFL-Benchを提案し、高速で再現性があり、標準化され、徹底的なpFL評価を行う。 提案するベンチマークには,統合データ分割と現実的な異種設定を備えた多様なアプリケーションドメインの9つのデータセット,20以上の競合pflベースライン実装を備えたモジュール化された拡張容易なpflコードベース,一般化,公平性,システムオーバーヘッド,収束性といった面でのコンテナ環境下での系統的評価が含まれている。 我々は、SOTA pFL法の利点と可能性を強調し、pFL-BenchがさらなるpFL研究と、それ以外は専用のベンチマークがないため難しい幅広い応用を可能にすることを期待する。 コードはhttps://github.com/alibaba/FederatedScope/tree/master/benchmark/pFL-Benchで公開されている。

Personalized Federated Learning (pFL) has gained increasing attention in recent years due to its success in handling the statistical heterogeneity of FL clients via utilizing and deploying distinct local models. However, standardized evaluation and systematical analysis of diverse pFL methods remain a challenge. Firstly, the highly varied datasets, FL simulation settings and pFL implementations impede the fast and fair pFL comparison. Secondly, the effectiveness and robustness of pFL methods are under-explored in various practical scenarios, such as new clients generalization and resource-limited clients participation. Finally, the current pFL literature diverges in the adopted evaluation and ablation protocols. To tackle these challenges, we propose the first comprehensive pFL benchmark, pFL-Bench, for facilitating rapid, reproducible, standardized and thorough pFL evaluation. The proposed benchmark contains 9 datasets in diverse application domains with unified data partition and realistic heterogeneous settings; a modular and easy-to-extend pFL codebase with more than 20 competitive pFL baseline implementations; and systematic evaluations under containerized environments in terms of generalization, fairness, system overhead, and convergence. We highlight the benefits and potential of SOTA pFL methods and hope pFL-Bench enables further pFL research and broad applications that would otherwise be difficult owing to the absence of a dedicated benchmark. The code is released at https://github.com/alibaba/FederatedScope/tree/master/benchmark/pFL-Bench.
翻訳日:2022-06-09 14:12:57 公開日:2022-06-08
# レストレスマルチアームバンドにおけるフェアネス制約を考慮した効率的な資源配分

Efficient Resource Allocation with Fairness Constraints in Restless Multi-Armed Bandits ( http://arxiv.org/abs/2206.03883v1 )

ライセンス: Link先を確認
Dexun Li and Pradeep Varakantham(参考訳) Restless Multi-Armed Bandits (RMAB)は、公衆衛生介入(例えば、結核、母体、子育て)、反ポーチ計画、センサーモニタリング、パーソナライズされたレコメンデーションなどにおける意思決定の問題を表現するためのアプドモデルである。 RMABの既存の研究は、期待値の最大化に焦点をあてた様々な設定に、メカニズムと理論的結果に貢献している。 本稿では,RMAB意思決定が期待値の最大化を図りつつ,異なるアームに対して公平であることを保証することに関心がある。 公衆衛生の状況では、異なる人々やコミュニティが、公衆衛生介入の決定をしながら公平に表現されることを保証する。 この目的を達成するために, RMABにおける公正性制約を正式に定義し, RMABを公平に解決するための計画と学習方法を提供する。 fair rmab の重要な理論的性質を実証し,提案手法が溶液品質を犠牲にすることなく公平性制約を処理できることを実験的に証明した。

Restless Multi-Armed Bandits (RMAB) is an apt model to represent decision-making problems in public health interventions (e.g., tuberculosis, maternal, and child care), anti-poaching planning, sensor monitoring, personalized recommendations and many more. Existing research in RMAB has contributed mechanisms and theoretical results to a wide variety of settings, where the focus is on maximizing expected value. In this paper, we are interested in ensuring that RMAB decision making is also fair to different arms while maximizing expected value. In the context of public health settings, this would ensure that different people and/or communities are fairly represented while making public health intervention decisions. To achieve this goal, we formally define the fairness constraints in RMAB and provide planning and learning methods to solve RMAB in a fair manner. We demonstrate key theoretical properties of fair RMAB and experimentally demonstrate that our proposed methods handle fairness constraints without sacrificing significantly on solution quality.
翻訳日:2022-06-09 14:12:31 公開日:2022-06-08
# Q-Learningにおける連続学習手法の検討

A Study of Continual Learning Methods for Q-Learning ( http://arxiv.org/abs/2206.03934v1 )

ライセンス: Link先を確認
Benedikt Bagus and Alexander Gepperth(参考訳) 本稿では,強化学習(RL)シナリオにおける継続学習(CL)手法の使用に関する実証的研究について述べる。 clは、非定常データ分散下での機械学習に関する最近の研究テーマである。 これは自然にRLに適用されるが、専用CLメソッドの使用は依然として一般的ではない。 これは、CL法がCL問題を定常分布の解離部分タスクに分解することをしばしば前提としていること、これらのサブタスクの開始が知られていること、およびサブタスクが非矛盾であることによるかもしれない。 本研究では,物理シミュレーションロボットが視力によるレーストラックを追従しなければならないRL問題において,選択したCL手法の実証的な比較を行う。 clメソッドを適用可能にするため、rl設定を制限し、学習者の観点からは不一致であり、分布が不安定である既知の入力の非競合サブタスクを導入する。 その結果, CL法は, 基礎的手法である「経験的再生」と比較して, 学習を著しく改善できることがわかった。

We present an empirical study on the use of continual learning (CL) methods in a reinforcement learning (RL) scenario, which, to the best of our knowledge, has not been described before. CL is a very active recent research topic concerned with machine learning under non-stationary data distributions. Although this naturally applies to RL, the use of dedicated CL methods is still uncommon. This may be due to the fact that CL methods often assume a decomposition of CL problems into disjoint sub-tasks of stationary distribution, that the onset of these sub-tasks is known, and that sub-tasks are non-contradictory. In this study, we perform an empirical comparison of selected CL methods in a RL problem where a physically simulated robot must follow a racetrack by vision. In order to make CL methods applicable, we restrict the RL setting and introduce non-conflicting subtasks of known onset, which are however not disjoint and whose distribution, from the learner's point of view, is still non-stationary. Our results show that dedicated CL methods can significantly improve learning when compared to the baseline technique of "experience replay".
翻訳日:2022-06-09 14:12:09 公開日:2022-06-08
# FedHPO-B:フェデレーションハイパーパラメータ最適化のためのベンチマークスイート

FedHPO-B: A Benchmark Suite for Federated Hyperparameter Optimization ( http://arxiv.org/abs/2206.03966v1 )

ライセンス: Link先を確認
Zhen Wang, Weirui Kuang, Ce Zhang, Bolin Ding, Yaliang Li(参考訳) ハイパーパラメータ最適化(HPO)は、関連するベンチマークによって進歩が加速されている良好なパフォーマンスを達成するために、機械学習アルゴリズムにとって不可欠である。 それにもかかわらず、既存のベンチマークの取り組みは、分散データからモデルを協調学習するための有望なパラダイムであるフェデレートラーニング(FL)を無視しながら、従来の集中学習のためのHPOに焦点を当てている。 本稿ではまず,FLアルゴリズムにおけるHPOの特異性について,様々な側面から同定する。 この特異性のため、既存のHPOベンチマークはFL設定でHPOメソッドを比較する必要性をもはや満たしていない。 FL設定におけるHPOの研究を容易にするために,包括的FLタスクを組み込んだベンチマークスイートであるFedHPO-Bを提案し,その実装を行った。 我々はまた、FedHPO-Bに基づく広範な実験を行い、いくつかのHPO法をベンチマークする。 我々は、FedHPO-Bをhttps://github.com/alibaba/FederatedScope/tree/master/benchmark/FedHPOBでオープンソース化し、積極的に維持します。

Hyperparameter optimization (HPO) is crucial for machine learning algorithms to achieve satisfactory performance, whose progress has been boosted by related benchmarks. Nonetheless, existing efforts in benchmarking all focus on HPO for traditional centralized learning while ignoring federated learning (FL), a promising paradigm for collaboratively learning models from dispersed data. In this paper, we first identify some uniqueness of HPO for FL algorithms from various aspects. Due to this uniqueness, existing HPO benchmarks no longer satisfy the need to compare HPO methods in the FL setting. To facilitate the research of HPO in the FL setting, we propose and implement a benchmark suite FedHPO-B that incorporates comprehensive FL tasks, enables efficient function evaluations, and eases continuing extensions. We also conduct extensive experiments based on FedHPO-B to benchmark a few HPO methods. We open-source FedHPO-B at https://github.com/alibaba/FederatedScope/tree/master/benchmark/FedHPOB and will maintain it actively.
翻訳日:2022-06-09 14:11:50 公開日:2022-06-08
# sharp-maml:シャープネス認識モデル非依存なメタ学習

Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning ( http://arxiv.org/abs/2206.03996v1 )

ライセンス: Link先を確認
Momin Abbas, Quan Xiao, Lisha Chen, Pin-Yu Chen, Tianyi Chen(参考訳) モデルに依存しないメタラーニング(MAML)は、現在、数発のメタラーニングにおいて支配的なアプローチの1つである。 有効性はあるものの,本質的な2レベル問題構造のため,mamlの最適化は困難である。 特に、mamlの損失状況は、経験的リスク最小化よりも、多分サドルポイントと局所的最小化ではるかに複雑である。 この課題に対処するために、最近発明されたシャープネス対応の最小化を活用し、シャープネス対応のMAMLアプローチを開発した。 Sharp-MAMLとその計算効率が既存のMAMLベースライン(例:Mini-Imagenetで$+12\%の精度)を上回ることを実証的に実証した。 本稿では,シャープ-MAMLの収束速度解析と一般化境界を補完する。 我々の知る限り、これは二段階学習の文脈におけるシャープネスを意識した最小化に関する最初の経験的および理論的研究である。 コードはhttps://github.com/mominabbass/Sharp-MAMLで入手できる。

Model-agnostic meta learning (MAML) is currently one of the dominating approaches for few-shot meta-learning. Albeit its effectiveness, the optimization of MAML can be challenging due to the innate bilevel problem structure. Specifically, the loss landscape of MAML is much more complex with possibly more saddle points and local minimizers than its empirical risk minimization counterpart. To address this challenge, we leverage the recently invented sharpness-aware minimization and develop a sharpness-aware MAML approach that we term Sharp-MAML. We empirically demonstrate that Sharp-MAML and its computation-efficient variant can outperform popular existing MAML baselines (e.g., $+12\%$ accuracy on Mini-Imagenet). We complement the empirical study with the convergence rate analysis and the generalization bound of Sharp-MAML. To the best of our knowledge, this is the first empirical and theoretical study on sharpness-aware minimization in the context of bilevel learning. The code is available at https://github.com/mominabbass/Sharp-MAML.
翻訳日:2022-06-09 14:09:23 公開日:2022-06-08
# scaleformer:時系列予測のための反復型マルチスケール精錬トランス

Scaleformer: Iterative Multi-scale Refining Transformers for Time Series Forecasting ( http://arxiv.org/abs/2206.04038v1 )

ライセンス: Link先を確認
Amin Shabani, Amir Abdi, Lili Meng, Tristan Sylvain(参考訳) 近年,変圧器の導入により時系列予測の性能が大幅に向上した。 本稿では,オートフォーマタやインフォーマを含む最先端の変圧器に基づく時系列予測モデルに適用可能な汎用マルチスケールフレームワークを提案する。 複数のスケールで予測された時系列を、共有重み付け、アーキテクチャ適応、特別に設計された正規化スキームで反復的に精錬することで、計算オーバーヘッドを最小にすることで、大幅なパフォーマンス向上を達成できる。 詳細なアブレーション研究により,提案するアーキテクチャおよび方法論の革新の有効性を実証する。 さらに,4つの公開データセットに対する実験の結果,提案したマルチスケールフレームワークは,AutoformerとInformerよりも平均13%,平均38%向上した。

The performance of time series forecasting has recently been greatly improved by the introduction of transformers. In this paper, we propose a general multi-scale framework that can be applied to state-of-the-art transformer-based time series forecasting models including Autoformer and Informer. Using iteratively refining a forecasted time series at multiple scales with shared weights, architecture adaptations and a specially-designed normalization scheme, we are able to achieve significant performance improvements with minimal additional computational overhead. Via detailed ablation studies, we demonstrate the effectiveness of our proposed architectural and methodological innovations. Furthermore, our experiments on four public datasets show that the proposed multi-scale framework outperforms the corresponding baselines with an average improvement of 13% and 38% over Autoformer and Informer, respectively.
翻訳日:2022-06-09 14:09:07 公開日:2022-06-08
# Neural Collapse: モデリング原則と一般化に関するレビュー

Neural Collapse: A Review on Modelling Principles and Generalization ( http://arxiv.org/abs/2206.04041v1 )

ライセンス: Link先を確認
Vignesh Kothapalli, Ebrahim Rasromani, Vasudev Awatramani(参考訳) 近年,パパヤンらによる「ニューラル・崩壊(Neural Collapse, NC)」現象の観測により,そのモデル化と解析に様々な取り組みがなされている。 neural collapseは、深層分類器ネットワークにおいて、トレーニングデータに関連する最終隠れレイヤのクラス特徴が、各クラス特徴手段に崩壊する傾向があることを記述している。 従って、最後の層分類器の振る舞いを最も近い中心決定ルールの振る舞いに単純化する。 本研究では,このような現象を基礎からモデル化する上での原理を分析し,ncを説明するために最近提案されたモデルの共通理解をいかに構築できるかを示す。 我々は,ニューラルネットワークの一般化能力と接続する上で,NCをモデル化する多面的視点を提示できることを期待する。 最後に,今後の研究の道筋を議論し,今後の研究課題を提案する。

With a recent observation of the "Neural Collapse (NC)" phenomena by Papyan et al., various efforts have been made to model it and analyse the implications. Neural collapse describes that in deep classifier networks, the class features of the final hidden layer associated with training data tend to collapse to the respective class feature means. Thus, simplifying the behaviour of the last layer classifier to that of a nearest-class center decision rule. In this work, we analyse the principles which aid in modelling such a phenomena from the ground up and show how they can build a common understanding of the recently proposed models that try to explain NC. We hope that our analysis presents a multifaceted perspective on modelling NC and aids in forming connections with the generalization capabilities of neural networks. Finally, we conclude by discussing the avenues for further research and propose potential research problems.
翻訳日:2022-06-09 14:08:55 公開日:2022-06-08
# COVIDx CXR-3:コンピュータ支援型COVID-19診断のための胸部X線画像の大規模オープンソースベンチマークデータセット

COVIDx CXR-3: A Large-Scale, Open-Source Benchmark Dataset of Chest X-ray Images for Computer-Aided COVID-19 Diagnostics ( http://arxiv.org/abs/2206.03671v1 )

ライセンス: Link先を確認
Maya Pavlova, Tia Tuinstra, Hossein Aboutalebi, Andy Zhao, Hayden Gunraj, Alexander Wong(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの始まりから2年以上経っても、この危機のプレッシャーは世界中に広がり続けている。 胸部X線画像(CXR)をRT-PCR検査に補完するスクリーニング戦略として用いることは一般的であるだけでなく,呼吸障害に対する定期的な臨床的使用により大幅に増加した。 これまでに、CXR画像に基づく新型コロナウイルススクリーニングのための多くの視覚知覚モデルが提案されている。 それでも、これらのモデルの正確性と一般化能力は、トレーニングしたデータセットの多様性とサイズに大きく依存しています。 そこで我々は,COVID-19コンピュータビジョン研究を支援するために,CXR画像の大規模ベンチマークデータセットであるCOVIDx CXR-3を紹介する。 CXR-3は、少なくとも51カ国から17,026人の多国籍患者の30,386枚のCXR画像で構成されており、私たちの知る限り、最も広く、最も多様なCXRデータセットをオープンアクセス形式で提供しています。 本稿では, 患者人口統計, 画像所見, 感染型など, 提案するデータセットのさまざまな側面について, 包括的に詳細に述べる。 CXR-3は、新型コロナウイルス(COVID-19)のパンデミックに対するコンピュータービジョン研究の推進に役立つと期待している。

After more than two years since the beginning of the COVID-19 pandemic, the pressure of this crisis continues to devastate globally. The use of chest X-ray (CXR) imaging as a complementary screening strategy to RT-PCR testing is not only prevailing but has greatly increased due to its routine clinical use for respiratory complaints. Thus far, many visual perception models have been proposed for COVID-19 screening based on CXR imaging. Nevertheless, the accuracy and the generalization capacity of these models are very much dependent on the diversity and the size of the dataset they were trained on. Motivated by this, we introduce COVIDx CXR-3, a large-scale benchmark dataset of CXR images for supporting COVID-19 computer vision research. COVIDx CXR-3 is composed of 30,386 CXR images from a multinational cohort of 17,026 patients from at least 51 countries, making it, to the best of our knowledge, the most extensive, most diverse COVID-19 CXR dataset in open access form. Here, we provide comprehensive details on the various aspects of the proposed dataset including patient demographics, imaging views, and infection types. The hope is that COVIDx CXR-3 can assist scientists in advancing computer vision research against the COVID-19 pandemic.
翻訳日:2022-06-09 14:08:43 公開日:2022-06-08
# 単眼カメラによる3次元シーンフローの教師なし学習

Unsupervised Learning of 3D Scene Flow from Monocular Camera ( http://arxiv.org/abs/2206.03673v1 )

ライセンス: Link先を確認
Guangming Wang, Xiaoyu Tian, Ruiqi Ding, and Hesheng Wang(参考訳) シーンフローは3次元空間内の点の動きを表し、それは2次元画像中のピクセルの動きを表す光学フローの対物である。 しかし、実際の場面ではシーンの流れの基盤となる真理を得ることは困難であり、近年の研究は訓練のための合成データに基づいている。 したがって,実世界データに基づく教師なし手法を用いてシーンフローネットワークを訓練する方法が重要である。 本稿では,単眼カメラが撮影する2つの連続するフレームの映像を,シーンフローの基礎的真実を生かして学習する,シーンフローの教師なし学習手法を提案する。 本手法は,実世界データを用いたシーンフローネットワークの訓練を目標とし,トレーニングデータとテストデータとのギャップを橋渡し,利用可能なデータの範囲を広げる。 本論文におけるシーンフローの教師なし学習は主に2つの部分からなる。 (i)深度推定とカメラポーズ推定、 (ii) 4つの異なる損失関数に基づくシーンフロー推定。 深さ推定とカメラポーズ推定は、2つの連続するフレーム間の深度マップとカメラポーズを求め、次のシーンフロー推定のためのさらなる情報を提供する。 その後,シーンフローネットワークの教師なしトレーニングを行うために,深さ整合性損失,動的静的一貫性損失,シャムファー損失,ラプラシアン正規化損失を用いた。 私たちの知る限りでは、単眼カメラから3dシーンフローの教師なし学習を実現する最初の論文である。 KITTI実験の結果, 従来のICP法やFGR法と比較して, シーンフローの教師なし学習は高い性能を示した。 ソースコードはhttps://github.com/irmvlab/3dunmonoflowで入手できる。

Scene flow represents the motion of points in the 3D space, which is the counterpart of the optical flow that represents the motion of pixels in the 2D image. However, it is difficult to obtain the ground truth of scene flow in the real scenes, and recent studies are based on synthetic data for training. Therefore, how to train a scene flow network with unsupervised methods based on real-world data shows crucial significance. A novel unsupervised learning method for scene flow is proposed in this paper, which utilizes the images of two consecutive frames taken by monocular camera without the ground truth of scene flow for training. Our method realizes the goal that training scene flow network with real-world data, which bridges the gap between training data and test data and broadens the scope of available data for training. Unsupervised learning of scene flow in this paper mainly consists of two parts: (i) depth estimation and camera pose estimation, and (ii) scene flow estimation based on four different loss functions. Depth estimation and camera pose estimation obtain the depth maps and camera pose between two consecutive frames, which provide further information for the next scene flow estimation. After that, we used depth consistency loss, dynamic-static consistency loss, Chamfer loss, and Laplacian regularization loss to carry out unsupervised training of the scene flow network. To our knowledge, this is the first paper that realizes the unsupervised learning of 3D scene flow from monocular camera. The experiment results on KITTI show that our method for unsupervised learning of scene flow meets great performance compared to traditional methods Iterative Closest Point (ICP) and Fast Global Registration (FGR). The source code is available at: https://github.com/IRMVLab/3DUnMonoFlow.
翻訳日:2022-06-09 14:08:18 公開日:2022-06-08
# 実世界画像の雑音化のためのロバスト深層アンサンブル法

Robust Deep Ensemble Method for Real-world Image Denoising ( http://arxiv.org/abs/2206.03691v1 )

ライセンス: Link先を確認
Pengju Liu, Hongzhi Zhang, Jinghui Wang, Yuzhi Wang, Dongwei Ren, and Wangmeng Zuo(参考訳) 近年,合成・収集された実世界のトレーニングデータに基づく様々なデノイジングモデルが学習され,トレーニングセットと同じ分布を持つテストデータに対して有望な性能が得られた。 しかし,実世界のノイズ画像を扱う場合,その検出性能は限られている。 本稿では,様々なトレーニングデータ設定を予めトレーニングした複数の代表的な深層デノイザを融合させてロバスト性を向上させることが可能な実世界画像デノイジングのための,単純かつ効果的なベイズ深層アンサンブル(bde)手法を提案する。 bdeの基礎は、実世界の画像ノイズは信号依存度が高く、実世界のノイズ画像内の異種ノイズは異なるデノイザによって別々に処理できるということである。 特に, よく訓練されたcbdnet, nbnet, hinet, uformer, gmsnet をデノイザープールに投入し, u-net を用いてこれらのデノイザーを融合させる画素重み付けマップの予測を行う。 ピクセル単位で重み付けマップのみを学習する代わりに、ベイズディープラーニング戦略を導入し、重み付けの不確実性を予測するとともに、重み付けマップも導入する。 大規模な実験では、コストがかかる大きなデノイザーを訓練する代わりに、既存のデノイザーを融合させることで、現実世界のノイズを除去できることが示されている。 DNDデータセットでは、BDEは最先端デノナイジング法よりも+0.28~dB PSNRのゲインを達成している。 さらに,ガウス雑音レベルに基づくBDEデノイズは,実世界のノイズ画像に適用した場合,最先端のCBDNetよりも優れていた。 さらに,BDEは他の画像復元タスクにも拡張可能で,画像分解,画像デライニング,画像超解像のベンチマークデータセットで+0.30dB,+0.18dB,+0.12dBPSNRゲインが得られる。

Recently, deep learning-based image denoising methods have achieved promising performance on test data with the same distribution as training set, where various denoising models based on synthetic or collected real-world training data have been learned. However, when handling real-world noisy images, the denoising performance is still limited. In this paper, we propose a simple yet effective Bayesian deep ensemble (BDE) method for real-world image denoising, where several representative deep denoisers pre-trained with various training data settings can be fused to improve robustness. The foundation of BDE is that real-world image noises are highly signal-dependent, and heterogeneous noises in a real-world noisy image can be separately handled by different denoisers. In particular, we take well-trained CBDNet, NBNet, HINet, Uformer and GMSNet into denoiser pool, and a U-Net is adopted to predict pixel-wise weighting maps to fuse these denoisers. Instead of solely learning pixel-wise weighting maps, Bayesian deep learning strategy is introduced to predict weighting uncertainty as well as weighting map, by which prediction variance can be modeled for improving robustness on real-world noisy images. Extensive experiments have shown that real-world noises can be better removed by fusing existing denoisers instead of training a big denoiser with expensive cost. On DND dataset, our BDE achieves +0.28~dB PSNR gain over the state-of-the-art denoising method. Moreover, we note that our BDE denoiser based on different Gaussian noise levels outperforms state-of-the-art CBDNet when applying to real-world noisy images. Furthermore, our BDE can be extended to other image restoration tasks, and achieves +0.30dB, +0.18dB and +0.12dB PSNR gains on benchmark datasets for image deblurring, image deraining and single image super-resolution, respectively.
翻訳日:2022-06-09 14:07:49 公開日:2022-06-08
# (参考訳) モデルベース強化学習はオフラインゼロサムマルコフゲームに最適である

Model-Based Reinforcement Learning Is Minimax-Optimal for Offline Zero-Sum Markov Games ( http://arxiv.org/abs/2206.04044v1 )

ライセンス: CC BY 4.0
Yuling Yan and Gen Li and Yuxin Chen and Jianqing Fan(参考訳) 本稿では,オフラインデータから2プレイヤーゼロサムマルコフゲームにおけるナッシュ均衡の学習に向けて前進する。 具体的には、$s$状態を持つ$\gamma$-discounted infinite-horizon markovゲームを考えると、max-playerは$a$アクションを持ち、min-playerは$b$アクションを持つ。 我々は、ベルンシュタイン型低信頼境界を持つ悲観的モデルベースアルゴリズム(VI-LCB-Game)を提案する。これは、$\varepsilon$-approximate Nash平衡を、$\frac{C_{\mathsf{clipped}}^{\star}S(A+B)}{(1-\gamma)^{3}\varepsilon^{2}}$(いくつかのログファクターまで)以上の複雑さで証明できる。 ここで、$C_{\mathsf{clipped}}^{\star}$は、利用可能なデータのカバレッジと分散シフト(vis-\`a-vis the target data)を反映する一方的なクリップされた集中係数であり、ターゲット精度$\varepsilon$は$\big(0,\frac{1}{1-\gamma}\big]$内の任意の値である。 我々のサンプルの複雑さは、$\min\{A,B\}$の係数で先行技術を強化し、$\varepsilon$-range全体のミニマックス最適性を達成する。 この結果の特長はアルゴリズムの単純さであり, サンプル最適性を達成するために, 分散低減とサンプル分割の必要性を明らかにする。

This paper makes progress towards learning Nash equilibria in two-player zero-sum Markov games from offline data. Specifically, consider a $\gamma$-discounted infinite-horizon Markov game with $S$ states, where the max-player has $A$ actions and the min-player has $B$ actions. We propose a pessimistic model-based algorithm with Bernstein-style lower confidence bounds -- called VI-LCB-Game -- that provably finds an $\varepsilon$-approximate Nash equilibrium with a sample complexity no larger than $\frac{C_{\mathsf{clipped}}^{\star}S(A+B)}{(1-\gamma)^{3}\varepsilon^{2}}$ (up to some log factor). Here, $C_{\mathsf{clipped}}^{\star}$ is some unilateral clipped concentrability coefficient that reflects the coverage and distribution shift of the available data (vis-\`a-vis the target data), and the target accuracy $\varepsilon$ can be any value within $\big(0,\frac{1}{1-\gamma}\big]$. Our sample complexity bound strengthens prior art by a factor of $\min\{A,B\}$, achieving minimax optimality for the entire $\varepsilon$-range. An appealing feature of our result lies in algorithmic simplicity, which reveals the unnecessity of variance reduction and sample splitting in achieving sample optimality.
翻訳日:2022-06-09 14:06:25 公開日:2022-06-08
# 何を学びますか。 教師なし外乱検出の神話を解き明かす

What do we learn? Debunking the Myth of Unsupervised Outlier Detection ( http://arxiv.org/abs/2206.03698v1 )

ライセンス: Link先を確認
Cosmin I. Bercea, Daniel Rueckert, Julia A. Schnabel(参考訳) 自動エンコーダ(aes)はラベル無しでコンパクト表現を学習する望ましい性質を持ち、分布外検出(ood)にも広く適用されているが、一般にはよく理解されておらず、正規分布と異常分布が重なり合っている外れ値を検出するのに不正確である。 一般に、学習多様体は、トレーニング分布内のサンプルを記述するのにのみ重要であるキー情報を含み、異常値の再構成は高い残差誤差をもたらすと仮定される。 しかし、最近の研究は、AEsがある種のOoDサンプルの再構築にさらに優れていることを示唆している。 本研究では,この仮定に挑戦し,2つの異なる課題を解決するために,オートエンコーダが実際に何を学習するかを検討する。 まず、トレーニング分類器のFr'echet開始距離(FID)と信頼性スコアに基づいて、AEsがトレーニング分布を学習し、他のドメインからのサンプルを確実に認識できるかどうかを評価する。 第2に,AEsはより困難な肺病理診断タスクにおいて,異常領域のサンプルから正常な画像を合成できるかどうかを検討する。 最先端のsof-the-art (sota) aesは潜伏多様体を拘束できず、異常なパターンを再構成できないか、あるいは潜伏分布から入力を正確に復元できないか、あるいは不一致または不一致の再構成をもたらすことが判明した。 提案手法は,大域的画像の事前認識を学習し,推定された密度変形場に基づいてその形態を局所的に適応させる新しい変形可能なオートエンコーダ(MorphAEus)を提案する。 OoDおよび病理診断における教師なし手法よりも優れた性能を示す。

Even though auto-encoders (AEs) have the desirable property of learning compact representations without labels and have been widely applied to out-of-distribution (OoD) detection, they are generally still poorly understood and are used incorrectly in detecting outliers where the normal and abnormal distributions are strongly overlapping. In general, the learned manifold is assumed to contain key information that is only important for describing samples within the training distribution, and that the reconstruction of outliers leads to high residual errors. However, recent work suggests that AEs are likely to be even better at reconstructing some types of OoD samples. In this work, we challenge this assumption and investigate what auto-encoders actually learn when they are posed to solve two different tasks. First, we propose two metrics based on the Fr\'echet inception distance (FID) and confidence scores of a trained classifier to assess whether AEs can learn the training distribution and reliably recognize samples from other domains. Second, we investigate whether AEs are able to synthesize normal images from samples with abnormal regions, on a more challenging lung pathology detection task. We have found that state-of-the-art (SOTA) AEs are either unable to constrain the latent manifold and allow reconstruction of abnormal patterns, or they are failing to accurately restore the inputs from their latent distribution, resulting in blurred or misaligned reconstructions. We propose novel deformable auto-encoders (MorphAEus) to learn perceptually aware global image priors and locally adapt their morphometry based on estimated dense deformation fields. We demonstrate superior performance over unsupervised methods in detecting OoD and pathology.
翻訳日:2022-06-09 14:02:59 公開日:2022-06-08
# PrivHAR:プライバシー保護レンズから人間の行動を認識する

PrivHAR: Recognizing Human Actions From Privacy-preserving Lens ( http://arxiv.org/abs/2206.03891v1 )

ライセンス: Link先を確認
Carlos Hinojosa, Miguel Marquez, Henry Arguello, Ehsan Adeli, Li Fei-Fei, Juan Carlos Niebles(参考訳) デジタルカメラの迅速な使用は、特にアクション認識のようなアプリケーションにおいて、プライバシーとセキュリティに対する懸念の高まりを促す。 本稿では,人間の行動認識パイプラインに沿って,堅牢な視覚プライバシ保護を実現するための最適化フレームワークを提案する。 このフレームワークはカメラレンズをパラメータ化し、ビデオの品質を低下させ、プライバシー属性を阻害し、敵対的な攻撃から保護すると同時に、アクティビティ認識に関連する機能を維持できる。 我々は、広範囲なシミュレーションとハードウェア実験でアプローチを検証する。

The accelerated use of digital cameras prompts an increasing concern about privacy and security, particularly in applications such as action recognition. In this paper, we propose an optimizing framework to provide robust visual privacy protection along the human action recognition pipeline. Our framework parameterizes the camera lens to successfully degrade the quality of the videos to inhibit privacy attributes and protect against adversarial attacks while maintaining relevant features for activity recognition. We validate our approach with extensive simulations and hardware experiments.
翻訳日:2022-06-09 14:02:27 公開日:2022-06-08
# 環境音響の少数映像学習

Few-Shot Audio-Visual Learning of Environment Acoustics ( http://arxiv.org/abs/2206.04006v1 )

ライセンス: Link先を確認
Sagnik Majumder, Changan Chen, Ziad Al-Halah, Kristen Grauman(参考訳) 室内インパルス応答(RIR)機能は、周囲の物理的環境がリスナーが聴く音をどう変換するかを捉え、AR、VR、ロボット工学における様々な応用に影響を及ぼす。 従来のRIR推定手法では, 環境中の密度幾何学的および/または音響的計測を前提としていたが, 空間で観測された画像とエコーのスパースセットに基づいてRIRを推定する方法を探る。 その目標に向けて,自己認識を用いてリッチな音響コンテキストを構築するトランスフォーマー方式を導入し,クロスアテンションにより任意のクエリソース受信者の位置のIRを予測する。 さらに,RIR予測と目標との音響的シグネチャの一致を改善する新たな学習目標を設計する。 3D環境のための最先端オーディオ視覚シミュレータを用いた実験では,本手法が任意のIRRの生成に成功し,最先端の手法よりも優れ,従来の手法から大きく離れていることを示す。 プロジェクト: http://vision.cs.utexas.edu/projects/fs_rir。

Room impulse response (RIR) functions capture how the surrounding physical environment transforms the sounds heard by a listener, with implications for various applications in AR, VR, and robotics. Whereas traditional methods to estimate RIRs assume dense geometry and/or sound measurements throughout the environment, we explore how to infer RIRs based on a sparse set of images and echoes observed in the space. Towards that goal, we introduce a transformer-based method that uses self-attention to build a rich acoustic context, then predicts RIRs of arbitrary query source-receiver locations through cross-attention. Additionally, we design a novel training objective that improves the match in the acoustic signature between the RIR predictions and the targets. In experiments using a state-of-the-art audio-visual simulator for 3D environments, we demonstrate that our method successfully generates arbitrary RIRs, outperforming state-of-the-art methods and--in a major departure from traditional methods--generalizing to novel environments in a few-shot manner. Project: http://vision.cs.utexas.edu/projects/fs_rir.
翻訳日:2022-06-09 14:02:17 公開日:2022-06-08
# 無線マルチアクセスポリシのスケーラブルな共同学習とそのシグナル伝達

Scalable Joint Learning of Wireless Multiple-Access Policies and their Signaling ( http://arxiv.org/abs/2206.03844v1 )

ライセンス: Link先を確認
Mateus P. Mota, Alvaro Valcarce, Jean-Marie Gorce(参考訳) 本稿では,マルチエージェント強化学習(marl)フレームワークを適用し,基地局(bs)とユーザ機器(ues)が無線マルチアクセスシナリオにおいてチャネルアクセスポリシーとそのシグナルを共同で学習できるようにする。 このフレームワークでは、BSとUEはデータを配信するために協力する必要がある強化学習(RL)エージェントである。 競合のないベースラインと競合のないベースラインとの比較から,衝突速度を低く保ちながら,交通量の多い状況でも優れた性能を発揮することを示す。 提案手法のスケーラビリティについて検討し,本手法はMARLの主要な問題であり,本論文はそれに対応するための最初の結果を提供する。

In this paper, we apply an multi-agent reinforcement learning (MARL) framework allowing the base station (BS) and the user equipments (UEs) to jointly learn a channel access policy and its signaling in a wireless multiple access scenario. In this framework, the BS and UEs are reinforcement learning (RL) agents that need to cooperate in order to deliver data. The comparison with a contention-free and a contention-based baselines shows that our framework achieves a superior performance in terms of goodput even in high traffic situations while maintaining a low collision rate. The scalability of the proposed method is studied, since it is a major problem in MARL and this paper provides the first results in order to address it.
翻訳日:2022-06-09 14:01:57 公開日:2022-06-08
# SGDの高次元極限定理:有効力学と臨界スケーリング

High-dimensional limit theorems for SGD: Effective dynamics and critical scaling ( http://arxiv.org/abs/2206.04030v1 )

ライセンス: Link先を確認
Gerard Ben Arous, Reza Gheissari, and Aukosh Jagannath(参考訳) 高次元状態における確率勾配勾配勾配(SGD)のスケーリング限界について検討した。 次元が無限になるにつれて、sgd の要約統計(すなわち有限次元関数)の軌跡に対する極限定理が証明される。 提案手法では,追跡した要約統計,初期化,ステップサイズを選択することができる。 これは弾道性(ODE)と拡散性(SDE)の両方の限界をもたらし、その限界は以前の選択に大きく依存する。 興味深いことに、有効な弾道力学が人口減少の勾配流にマッチするステップサイズ以下の臨界スケールレジームを見いだすことができるが、その上で位相図を変える新しい補正項が現れる。 この実効力学の固定点について、対応する拡散極限は非常に複雑であり、さらに退化する。 スパイク行列とテンソルモデルの推定や,二元およびxor型ガウス混合モデルの2層ネットワークによる分類など,一般的な例に対するアプローチを実証する。 これらの例は、収束へのマルチモーダル時間スケールや、確率がゼロからランダム(例えばガウス)初期化から離れた準最適解への収束を含む驚くべき現象を示す。

We study the scaling limits of stochastic gradient descent (SGD) with constant step-size in the high-dimensional regime. We prove limit theorems for the trajectories of summary statistics (i.e., finite-dimensional functions) of SGD as the dimension goes to infinity. Our approach allows one to choose the summary statistics that are tracked, the initialization, and the step-size. It yields both ballistic (ODE) and diffusive (SDE) limits, with the limit depending dramatically on the former choices. Interestingly, we find a critical scaling regime for the step-size below which the effective ballistic dynamics matches gradient flow for the population loss, but at which, a new correction term appears which changes the phase diagram. About the fixed points of this effective dynamics, the corresponding diffusive limits can be quite complex and even degenerate. We demonstrate our approach on popular examples including estimation for spiked matrix and tensor models and classification via two-layer networks for binary and XOR-type Gaussian mixture models. These examples exhibit surprising phenomena including multimodal timescales to convergence as well as convergence to sub-optimal solutions with probability bounded away from zero from random (e.g., Gaussian) initializations.
翻訳日:2022-06-09 14:01:44 公開日:2022-06-08
# 法的話題分類における実写的ゼロショットクロスリンガル転送

Realistic Zero-Shot Cross-Lingual Transfer in Legal Topic Classification ( http://arxiv.org/abs/2206.03785v1 )

ライセンス: Link先を確認
Stratos Xenouleas, Alexia Tsoukara, Giannis Panagiotakis, Ilias Chalkidis, Ion Androutsopoulos(参考訳) 我々は,最近のMultiEURLEXデータセットを用いて,法的トピック分類におけるゼロショットの言語間移動を検討する。 元のデータセットは、ゼロショットの言語間転送には非現実的な並列文書を含むため、並列文書のない新しいバージョンのデータセットを開発する。 我々は,MultiEURLEXの過去のゼロショット転送手法である,多言語事前学習モデルの言語間微調整よりもはるかに優れていることを示す。 また,対象言語の無ラベル文書を活用し,ラベル付き対象言語文書上で直接微調整されたモデルよりも優れた性能を示す,バイリンガル教師のゼロショット転送手法を開発した。

We consider zero-shot cross-lingual transfer in legal topic classification using the recent MultiEURLEX dataset. Since the original dataset contains parallel documents, which is unrealistic for zero-shot cross-lingual transfer, we develop a new version of the dataset without parallel documents. We use it to show that translation-based methods vastly outperform cross-lingual fine-tuning of multilingually pre-trained models, the best previous zero-shot transfer method for MultiEURLEX. We also develop a bilingual teacher-student zero-shot transfer approach, which exploits additional unlabeled documents of the target language and performs better than a model fine-tuned directly on labeled target language documents.
翻訳日:2022-06-09 13:59:27 公開日:2022-06-08
# nlpモデルの公平性向上のための説明可能性法適用の課題

Challenges in Applying Explainability Methods to Improve the Fairness of NLP Models ( http://arxiv.org/abs/2206.03945v1 )

ライセンス: Link先を確認
Esma Balkir, Svetlana Kiritchenko, Isar Nejadgholi, and Kathleen C. Fraser(参考訳) 説明可能な人工知能(xai)の方法に対するモチベーションには、バイアスの検出、定量化、緩和、マシンラーニングモデルの公正化への寄与などが含まれる。 しかし、XAI法が偏見と戦うのにどのように役立つかは、正確には特定されていないことが多い。 本稿では,NLP研究における説明可能性と公正性の傾向を概観し,バイアスの検出・緩和に説明可能性手法が適用されている現状を検証し,公平性問題に対処するためにXAI手法がより広く使用されることを防ぐ障壁について検討する。

Motivations for methods in explainable artificial intelligence (XAI) often include detecting, quantifying and mitigating bias, and contributing to making machine learning models fairer. However, exactly how an XAI method can help in combating biases is often left unspecified. In this paper, we briefly review trends in explainability and fairness in NLP research, identify the current practices in which explainability methods are applied to detect and mitigate bias, and investigate the barriers preventing XAI methods from being used more widely in tackling fairness issues.
翻訳日:2022-06-09 13:59:14 公開日:2022-06-08
# ヘイトスピーチ正規化によるオンライン投稿のヘイトインテンシティの積極的に低減

Proactively Reducing the Hate Intensity of Online Posts via Hate Speech Normalization ( http://arxiv.org/abs/2206.04007v1 )

ライセンス: Link先を確認
Sarah Masud, Manjot Bedi, Mohammad Aflah Khan, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) オンラインヘイトスピーチのカービングは時間を要するようになったが、いくつかの地政学的、文化的な理由から、そのような行為を禁ずることは不可能である。 問題の深刻度を低減するため,本稿では,オンライン投稿によって提示される憎しみの強さを弱めることを目的とした,ヘイトスピーチ正規化という新たなタスクを導入する。 ヘイトスピーチの正規化を嫌う意図は、ヘイトをサポートしない代わりに、オンラインプラットフォームがユーザーの行動改善を監視する時間を与えながら、非ヘイトへの一歩を踏み出すことである。 この目的のために、私たちは並列コーパス(ヘイトテキストとその正規化したコーパス)を手作業でキュレートしました。 まず、サンプルのヘイト強度を計測し、次に、その中のヘイトスパンを識別し、最後にヘイトスパンをパラフレーズすることでヘイトインテンシティを低減します。 本研究では,3方向評価(内因性,外因性,人体研究)によるNACLの有効性の測定を行う。 NACLは、強度予測のためのスコア0.1365 RMSE、スパン識別におけるスコア0.622 F1、正規化テキスト生成のための82.27 BLEUと80.05 パープレキシティの6つのベースラインを上回っている。 さらに、他のプラットフォーム(Reddit、Facebook、Gab)におけるNACLの一般化可能性を示す。 naclのインタラクティブなプロトタイプがユーザスタディのために組み立てられた。 さらにこのツールは、オンラインプラットフォーム上の有害コンテンツに取り組むミッションの一環として、Wipro AIの現実世界に展開されている。

Curbing online hate speech has become the need of the hour; however, a blanket ban on such activities is infeasible for several geopolitical and cultural reasons. To reduce the severity of the problem, in this paper, we introduce a novel task, hate speech normalization, that aims to weaken the intensity of hatred exhibited by an online post. The intention of hate speech normalization is not to support hate but instead to provide the users with a stepping stone towards non-hate while giving online platforms more time to monitor any improvement in the user's behavior. To this end, we manually curated a parallel corpus - hate texts and their normalized counterparts (a normalized text is less hateful and more benign). We introduce NACL, a simple yet efficient hate speech normalization model that operates in three stages - first, it measures the hate intensity of the original sample; second, it identifies the hate span(s) within it; and finally, it reduces hate intensity by paraphrasing the hate spans. We perform extensive experiments to measure the efficacy of NACL via three-way evaluation (intrinsic, extrinsic, and human-study). We observe that NACL outperforms six baselines - NACL yields a score of 0.1365 RMSE for the intensity prediction, 0.622 F1-score in the span identification, and 82.27 BLEU and 80.05 perplexity for the normalized text generation. We further show the generalizability of NACL across other platforms (Reddit, Facebook, Gab). An interactive prototype of NACL was put together for the user study. Further, the tool is being deployed in a real-world setting at Wipro AI as a part of its mission to tackle harmful content on online platforms.
翻訳日:2022-06-09 13:59:02 公開日:2022-06-08
# モンテカルロ木探索と証明数探索の組み合わせ

Combining Monte-Carlo Tree Search with Proof-Number Search ( http://arxiv.org/abs/2206.03965v1 )

ライセンス: Link先を確認
Elliot Doe and Mark H. M. Winands and Dennis J. N. J. Soemers and Cameron Browne(参考訳) Proof-Number Search (PNS) と Monte-Carlo Tree Search (MCTS) は様々なゲームにおいて意思決定に成功している。 本稿では,この2つの木探索手法を組み合わせたPN-MCTSという新しい手法を提案する。 実験の結果、PN-MCTSはLines of Action、MiniShogi、Knightthrough、Awariなどいくつかのゲームで基本MCTSを上回っ、94.0%の勝利率を記録した。

Proof-Number Search (PNS) and Monte-Carlo Tree Search (MCTS) have been successfully applied for decision making in a range of games. This paper proposes a new approach called PN-MCTS that combines these two tree-search methods by incorporating the concept of proof and disproof numbers into the UCT formula of MCTS. Experimental results demonstrate that PN-MCTS outperforms basic MCTS in several games including Lines of Action, MiniShogi, Knightthrough, and Awari, achieving win rates up to 94.0%.
翻訳日:2022-06-09 13:58:31 公開日:2022-06-08
# 単眼3次元物体検出の事前学習パラダイムへの展開

Delving into the Pre-training Paradigm of Monocular 3D Object Detection ( http://arxiv.org/abs/2206.03657v1 )

ライセンス: Link先を確認
Zhuoling Li, Chuanrui Zhang, En Yu, Haoqian Wang(参考訳) 単眼的3次元物体検出(m3od)のラベルは、入手に費用がかかる。 一方、実用アプリケーションには通常多くのラベルなしデータが存在し、事前学習はラベルなしデータの知識を効果的に活用する方法である。 しかし、M3ODの事前学習パラダイムはほとんど研究されていない。 私たちはこの仕事のギャップを埋めることを目指している。 この目的のために,(1)事前学習タスクを考案するためのガイドラインは,対象タスクの表現を模倣することである。 2) 深度推定と2次元物体検出の組み合わせは,M3OD事前学習ベースラインとして有望である。 その後,本ガイドラインに従って,目標としたセミデンス深度推定,キーポイント認識2Dオブジェクト検出,クラスレベルの損失調整など,この基準線をさらに改善する戦略を提案する。 開発したすべての技術を組み合わせることで、得られた事前トレーニングフレームワークは、KITTI-3DとnuScenesベンチマークの両方でM3OD性能を大幅に向上させる事前トレーニングバックボーンを生成する。 例えば、ナイーブセンターベースのM3OD検出器にDLA34バックボーンを印加することにより、KITTI-3Dテストセット上の中程度の${\rm AP}_{3D}70$スコアを18.71\%引き上げ、nuScenes検証セット上のNDSスコアを40.41\%相対的に向上させる。

The labels of monocular 3D object detection (M3OD) are expensive to obtain. Meanwhile, there usually exists numerous unlabeled data in practical applications, and pre-training is an efficient way of exploiting the knowledge in unlabeled data. However, the pre-training paradigm for M3OD is hardly studied. We aim to bridge this gap in this work. To this end, we first draw two observations: (1) The guideline of devising pre-training tasks is imitating the representation of the target task. (2) Combining depth estimation and 2D object detection is a promising M3OD pre-training baseline. Afterwards, following the guideline, we propose several strategies to further improve this baseline, which mainly include target guided semi-dense depth estimation, keypoint-aware 2D object detection, and class-level loss adjustment. Combining all the developed techniques, the obtained pre-training framework produces pre-trained backbones that improve M3OD performance significantly on both the KITTI-3D and nuScenes benchmarks. For example, by applying a DLA34 backbone to a naive center-based M3OD detector, the moderate ${\rm AP}_{3D}70$ score of Car on the KITTI-3D testing set is boosted by 18.71\% and the NDS score on the nuScenes validation set is improved by 40.41\% relatively.
翻訳日:2022-06-09 13:58:20 公開日:2022-06-08
# 医用画像解析における全ネットワークアーキテクチャのための1つのハイパーイニシャライザ

One Hyper-Initializer for All Network Architectures in Medical Image Analysis ( http://arxiv.org/abs/2206.03661v1 )

ライセンス: Link先を確認
Fangxin Shang, Yehui Yang, Dalu Yang, Junde Wu, Xiaorong Wang, Yanwu Xu(参考訳) 事前トレーニングはディープラーニングモデルの性能、特に限られたトレーニングデータが利用可能な医療画像解析タスクに不可欠である。 しかし、既存の事前学習手法は、あるモデルの事前学習重量は他のネットワークアーキテクチャでは再利用できないため、柔軟性がない。 本稿では,ネットワークアーキテクチャを1回だけ事前学習した後,任意のネットワークアーキテクチャを十分に初期化することができるアーキテクチャ非関係のハイパーイニシャライザを提案する。 提案する初期化器は、ダウンストリームアーキテクチャを入力グラフとして、各アーキテクチャの初期化パラメータを出力するハイパーネットワークである。 特にデータ制限領域において,複数の医用画像モダリティに対する広範囲な実験結果を通して,ハイパーイニシャライザの有効性と有効性を示す。 さらに,提案アルゴリズムは,任意の下流アーキテクチャやタスク(分類とセグメンテーションの両方)に対して,プラグイン・アンド・プレイのイニシャライザとして再利用可能であることを示す。

Pre-training is essential to deep learning model performance, especially in medical image analysis tasks where limited training data are available. However, existing pre-training methods are inflexible as the pre-trained weights of one model cannot be reused by other network architectures. In this paper, we propose an architecture-irrelevant hyper-initializer, which can initialize any given network architecture well after being pre-trained for only once. The proposed initializer is a hypernetwork which takes a downstream architecture as input graphs and outputs the initialization parameters of the respective architecture. We show the effectiveness and efficiency of the hyper-initializer through extensive experimental results on multiple medical imaging modalities, especially in data-limited fields. Moreover, we prove that the proposed algorithm can be reused as a favorable plug-and-play initializer for any downstream architecture and task (both classification and segmentation) of the same modality.
翻訳日:2022-06-09 13:57:55 公開日:2022-06-08
# モノキュラー3次元検出と追跡のためのオブジェクト単位の深さ推定の改善

Depth Estimation Matters Most: Improving Per-Object Depth Estimation for Monocular 3D Detection and Tracking ( http://arxiv.org/abs/2206.03666v1 )

ライセンス: Link先を確認
Longlong Jing, Ruichi Yu, Henrik Kretzschmar, Kang Li, Charles R. Qi, Hang Zhao, Alper Ayvaci, Xu Chen, Dillon Cower, Yingwei Li, Yurong You, Han Deng, Congcong Li, Dragomir Anguelov(参考訳) モノクロ画像に基づく3D知覚は、自動運転への応用により近年活発な研究領域となっている。 しかし、検出と追跡を含む単眼の3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。 系統的分析により,対象毎の深さ推定精度が性能を拘束する主要な要因であることが判明した。 そこで本研究では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多段階融合手法を提案する。 提案手法は,Waymo Open Dataset,KITTI検出データセット,KITTI MOTデータセット上でのオブジェクトごとの深度推定の最先端性を実現する。 さらに,推定深度をフュージョンエンハンス深さに置き換えることで,検出や追跡を含む単眼3次元知覚タスクにおいて有意な改善が達成できることを示す。

Monocular image-based 3D perception has become an active research area in recent years owing to its applications in autonomous driving. Approaches to monocular 3D perception including detection and tracking, however, often yield inferior performance when compared to LiDAR-based techniques. Through systematic analysis, we identified that per-object depth estimation accuracy is a major factor bounding the performance. Motivated by this observation, we propose a multi-level fusion method that combines different representations (RGB and pseudo-LiDAR) and temporal information across multiple frames for objects (tracklets) to enhance per-object depth estimation. Our proposed fusion method achieves the state-of-the-art performance of per-object depth estimation on the Waymo Open Dataset, the KITTI detection dataset, and the KITTI MOT dataset. We further demonstrate that by simply replacing estimated depth with fusion-enhanced depth, we can achieve significant improvements in monocular 3D perception tasks, including detection and tracking.
翻訳日:2022-06-09 13:56:20 公開日:2022-06-08
# マルチスケールキュービックミキサーによるUHD画像の劣化

UHD Image Deblurring via Multi-scale Cubic-Mixer ( http://arxiv.org/abs/2206.03678v1 )

ライセンス: Link先を確認
Zhuoran Zheng and Xiuyi Jia(参考訳) 現在、トランスフォーマーベースのアルゴリズムは、画像の劣化の領域に飛び散っている。 彼らの達成はトークン間の長距離依存関係をモデル化するためにCNNステムを使用する自己保持機構に依存する。 残念ながら、この耳栓パイプラインは高い計算複雑性をもたらし、単一のGPU上で超高精細画像のリアルタイム実行を困難にしている。 精度と効率をトレードオフするため、入力劣化画像は3次元(c$,$w$,$h$)の信号に対して、自己着脱機構を使わずに周期的に計算される。 我々は,この深層ネットワークを,高速フーリエ変換後の実成分と虚成分の両方に作用し,フーリエ係数を推定する多次元立方体混合器と呼ぶ。 さらに,マルチスケールキュービックミキサーとスライシング戦略を組み合わせることで,より低い計算コストで高品質な結果を生成する。 実験の結果,提案手法は,複数のベンチマークと新しい超高精細データセットの精度と速度の点で,最先端のデブラリング手法に対して好適に動作することがわかった。

Currently, transformer-based algorithms are making a splash in the domain of image deblurring. Their achievement depends on the self-attention mechanism with CNN stem to model long range dependencies between tokens. Unfortunately, this ear-pleasing pipeline introduces high computational complexity and makes it difficult to run an ultra-high-definition image on a single GPU in real time. To trade-off accuracy and efficiency, the input degraded image is computed cyclically over three dimensional ($C$, $W$, and $H$) signals without a self-attention mechanism. We term this deep network as Multi-scale Cubic-Mixer, which is acted on both the real and imaginary components after fast Fourier transform to estimate the Fourier coefficients and thus obtain a deblurred image. Furthermore, we combine the multi-scale cubic-mixer with a slicing strategy to generate high-quality results at a much lower computational cost. Experimental results demonstrate that the proposed algorithm performs favorably against the state-of-the-art deblurring approaches on the several benchmarks and a new ultra-high-definition dataset in terms of accuracy and speed.
翻訳日:2022-06-09 13:56:02 公開日:2022-06-08
# 多クラス異常検出のための統一モデル

A Unified Model for Multi-class Anomaly Detection ( http://arxiv.org/abs/2206.03687v1 )

ライセンス: Link先を確認
Zhiyuan You, Lei Cui, Yujun Shen, Kai Yang, Xin Lu, Yu Zheng, Xinyi Le(参考訳) 教師なし異常検出の急速な進歩にもかかわらず、既存の手法では異なるオブジェクトの別々のモデルを訓練する必要がある。 本稿では,統一されたフレームワークで複数のクラスに対して異常検出を行うUniADを提案する。 このような困難な状況下では、一般的なレコンストラクションネットワークは、正常なサンプルと異常なサンプルの両方を適切に回収できる「特定ショートカット」に陥り、異常値を見つけることができない可能性がある。 この障害に対処するため、我々は3つの改善を行った。 まず,完全連結層,畳み込み層,および注目層の定式化を再検討し,ネットワークがショートカットを学習しないようにするためのクエリ埋め込み(すなわち注意層内)の重要性を確認する。 そこで我々は,マルチクラス分布のモデル化を支援する階層型クエリデコーダを考案した。 第2に,隣接マスク型アテンションモジュールを用いて,入力機能から再構成出力機能への情報漏洩をさらに回避する。 第3に,ノイズのある入力でも適切なメッセージを復元するようにモデルに促す機能ジッタリング戦略を提案する。 我々はMVTec-ADとCIFAR-10のデータセットでアルゴリズムを評価し、最先端の代替品を十分に大きなマージンで超えている。 例えば、MVTec-ADで15のカテゴリの統一モデルを学ぶとき、異常検出(88.1%から96.5%)と異常局所化(89.5%から96.8%)の両方のタスクにおいて、第2の競争相手を上回る。 コードは公開される予定だ。

Despite the rapid advance of unsupervised anomaly detection, existing methods require to train separate models for different objects. In this work, we present UniAD that accomplishes anomaly detection for multiple classes with a unified framework. Under such a challenging setting, popular reconstruction networks may fall into an "identical shortcut", where both normal and anomalous samples can be well recovered, and hence fail to spot outliers. To tackle this obstacle, we make three improvements. First, we revisit the formulations of fully-connected layer, convolutional layer, as well as attention layer, and confirm the important role of query embedding (i.e., within attention layer) in preventing the network from learning the shortcut. We therefore come up with a layer-wise query decoder to help model the multi-class distribution. Second, we employ a neighbor masked attention module to further avoid the information leak from the input feature to the reconstructed output feature. Third, we propose a feature jittering strategy that urges the model to recover the correct message even with noisy inputs. We evaluate our algorithm on MVTec-AD and CIFAR-10 datasets, where we surpass the state-of-the-art alternatives by a sufficiently large margin. For example, when learning a unified model for 15 categories in MVTec-AD, we surpass the second competitor on the tasks of both anomaly detection (from 88.1% to 96.5%) and anomaly localization (from 89.5% to 96.8%). Code will be made publicly available.
翻訳日:2022-06-09 13:55:40 公開日:2022-06-08
# blind face restoration:ベンチマークデータセットとベースラインモデル

Blind Face Restoration: Benchmark Datasets and a Baseline Model ( http://arxiv.org/abs/2206.03697v1 )

ライセンス: Link先を確認
Puyang Zhang, Kaihao Zhang, Wenhan Luo, Changsheng Li, Guoren Wang(参考訳) Blind Face Restoration (BFR)は、対応する低品質(LQ)入力から高品質(HQ)フェイスイメージを構築することを目的としている。 近年,多くのBFR法が提案され,大きな成功を収めている。 しかし、これらの手法はプライベートに合成されたデータセット上で訓練または評価されるため、その後のアプローチでそれと比較的比較することは不可能である。 この問題を解決するために、まず、EDFace-Celeb-1M (BFR128) とEDFace-Celeb-150K (BFR512) と呼ばれる2つのブラインドフェイス復元ベンチマークデータセットを合成する。 最先端の手法は、ブラー、ノイズ、低解像度、JPEG圧縮アーティファクト、それらの組み合わせ(完全な劣化)の5つの設定でベンチマークされる。 比較をより包括的にするために、広く使われている5つのメトリクスと、平均顔ランドマーク距離(AFLD)と平均顔IDコサイン類似度(AFICS)を含む2つのタスク駆動メトリクスを適用した。 さらに,Swin Transformer U-Net (STUNet) と呼ばれる効率的なベースラインモデルを開発した。 U-netアーキテクチャを備えたSTUNetは、注目機構とシフトウインドウ方式を適用して、長距離ピクセル間相互作用をキャプチャし、効率よくトレーニングしながら重要な特徴に集中する。 実験の結果,提案手法は様々なBFRタスクにおいてSOTA法に対して好適に動作することがわかった。

Blind Face Restoration (BFR) aims to construct a high-quality (HQ) face image from its corresponding low-quality (LQ) input. Recently, many BFR methods have been proposed and they have achieved remarkable success. However, these methods are trained or evaluated on privately synthesized datasets, which makes it infeasible for the subsequent approaches to fairly compare with them. To address this problem, we first synthesize two blind face restoration benchmark datasets called EDFace-Celeb-1M (BFR128) and EDFace-Celeb-150K (BFR512). State-of-the-art methods are benchmarked on them under five settings including blur, noise, low resolution, JPEG compression artifacts, and the combination of them (full degradation). To make the comparison more comprehensive, five widely-used quantitative metrics and two task-driven metrics including Average Face Landmark Distance (AFLD) and Average Face ID Cosine Similarity (AFICS) are applied. Furthermore, we develop an effective baseline model called Swin Transformer U-Net (STUNet). The STUNet with U-net architecture applies an attention mechanism and a shifted windowing scheme to capture long-range pixel interactions and focus more on significant features while still being trained efficiently. Experimental results show that the proposed baseline method performs favourably against the SOTA methods on various BFR tasks.
翻訳日:2022-06-09 13:55:12 公開日:2022-06-08
# タスク非依存的時間一貫性補正の学習

Learning Task Agnostic Temporal Consistency Correction ( http://arxiv.org/abs/2206.03753v1 )

ライセンス: Link先を確認
Muhammad Kashif Ali, Dongjin Kim, Tae Hyun Kim(参考訳) 画像処理手法の不足により、各フレームを独立して処理することにより、画像処理操作をビデオ領域にナビゲートする。 このビデオ処理における時間的接続の無視は、しばしば深刻な時間的不整合を引き起こす。 これらの矛盾に対処する最先端技術は、フレーム単位で処理されたビデオの時間的一貫性を回復するために、一貫したビデオダイナミクスをシフォンする未処理ビデオの可用性に依存している。 そこで本研究では,不整合映像から一貫した動きのダイナミクスを推定し,時間的隣接フレームと相対的遠方フレームの知覚品質を維持しつつ,時間的フリックを緩和する手法を提案する。 提案フレームワークは,2つの大規模データセットであるDAVISとvidevo.netに対して,多数の画像処理タスクをフィードフォワード方式で処理する。 コードとトレーニングされたモデルは受け入れ次第リリースされる。

Due to the scarcity of video processing methodologies, image processing operations are naively extended to the video domain by processing each frame independently. This disregard for the temporal connection in video processing often leads to severe temporal inconsistencies. State-of-the-art techniques that address these inconsistencies rely on the availability of unprocessed videos to siphon consistent video dynamics to restore the temporal consistency of frame-wise processed videos. We propose a novel general framework for this task that learns to infer consistent motion dynamics from inconsistent videos to mitigate the temporal flicker while preserving the perceptual quality for both the temporally neighboring and relatively distant frames. The proposed framework produces state-of-the-art results on two large-scale datasets, DAVIS and videvo.net, processed by numerous image processing tasks in a feed-forward manner. The code and the trained models will be released upon acceptance.
翻訳日:2022-06-09 13:54:47 公開日:2022-06-08
# 回転に基づく反復ガウス化のための正規直交畳み込み

Orthonormal Convolutions for the Rotation Based Iterative Gaussianization ( http://arxiv.org/abs/2206.03860v1 )

ライセンス: Link先を確認
Valero Laparra, Alexander Hepburn, J. Emmanuel Johnson, Jes\'us Malo(参考訳) 本稿では、画像ガウス化を可能にする回転型反復ガウス化RBIGの拡張について詳述する。 RBIGは多くのタスクにうまく適用されているが、(1000次元の順序で)中次元のデータに限られている。 RBIGの回転は主成分分析や独立成分分析に基づいており、これらの変換は学習とスケールが難しいため、画像の小さなパッチや孤立画素に制限されている。 ここでは、RBIG の回転が畳み込みであることを示すことによってこの問題を緩和する拡張である \emph{Convolutional RBIG} を示す。 本稿では,変換操作を用いて入力と近似逆変換の再構成損失を最適化することにより,畳み込み回転(正規直交畳み込み)を学習することを提案する。 さらに、これらの正規直交畳み込みを学ぶ際に異なる正規化子を提案する。 例えば、アクティベーションにスパーシリティを課すことは、畳み込み独立コンポーネント分析を多層アーキテクチャに拡張する変換につながる。 また,多変量相互情報などのデータの統計特性が,emph{convolutional rbig} からどのように得られるかを強調する。 テクスチャ合成の簡単な例で変換の挙動を説明し,その特性をある特徴や層における応答を最大化する刺激を可視化することによって解析する。

In this paper we elaborate an extension of rotation-based iterative Gaussianization, RBIG, which makes image Gaussianization possible. Although RBIG has been successfully applied to many tasks, it is limited to medium dimensionality data (on the order of a thousand dimensions). In images its application has been restricted to small image patches or isolated pixels, because rotation in RBIG is based on principal or independent component analysis and these transformations are difficult to learn and scale. Here we present the \emph{Convolutional RBIG}: an extension that alleviates this issue by imposing that the rotation in RBIG is a convolution. We propose to learn convolutional rotations (i.e. orthonormal convolutions) by optimising for the reconstruction loss between the input and an approximate inverse of the transformation using the transposed convolution operation. Additionally, we suggest different regularizers in learning these orthonormal convolutions. For example, imposing sparsity in the activations leads to a transformation that extends convolutional independent component analysis to multilayer architectures. We also highlight how statistical properties of the data, such as multivariate mutual information, can be obtained from \emph{Convolutional RBIG}. We illustrate the behavior of the transform with a simple example of texture synthesis, and analyze its properties by visualizing the stimuli that maximize the response in certain feature and layer.
翻訳日:2022-06-09 13:53:02 公開日:2022-06-08
# 微細粒度圧縮画像の知覚品質評価

Perceptual Quality Assessment for Fine-Grained Compressed Images ( http://arxiv.org/abs/2206.03862v1 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Wei Wu, Ying Chen, Xiongkuo Min, Guangtao Zhai(参考訳) 近年、画像圧縮が重要な役割を果たす画像記憶・伝送システムの急速な発展が目撃されている。 一般に、画像圧縮アルゴリズムは、限られたビットレートで良好な視覚品質を確保するために開発されている。 しかし、圧縮最適化方法が異なるため、圧縮画像は異なるレベルの品質を持つ可能性があり、定量化する必要がある。 現在では、圧縮画像の品質を粗いレベル(圧縮画像のビットレート差は明らかである)で予測するために、主流のフル参照(FR)メトリクスが有効であるが、ビットレート差が極めて微妙な粒度圧縮画像では不十分である。 そこで我々は,QoE(Quality of Experience)の改良と圧縮アルゴリズムのための有用なガイダンスを提供するために,精細なレベルの圧縮画像に対するフル参照画像品質評価(FR-IQA)手法を提案する。 具体的には、参照画像と圧縮画像が最初にYCbCr$色空間に変換される。 勾配特徴は圧縮アーティファクトに敏感な領域から抽出される。 次に,Log-Gabor変換を用いてテクスチャ差を解析する。 最後に、得られた特徴を質スコアに融合する。 提案手法は,圧縮画像の品質を近接ビットレートで評価するために特に構築されたFGIQAデータベース上で検証する。 実験の結果,FGIQAデータベース上でのFR-IQAの指標よりも優れていた。 また,本手法は他の圧縮IQAデータベース上でも実験を行い,より粗い圧縮IQAデータベース上でも競合性能が得られることを示した。

Recent years have witnessed the rapid development of image storage and transmission systems, in which image compression plays an important role. Generally speaking, image compression algorithms are developed to ensure good visual quality at limited bit rates. However, due to the different compression optimization methods, the compressed images may have different levels of quality, which needs to be evaluated quantificationally. Nowadays, the mainstream full-reference (FR) metrics are effective to predict the quality of compressed images at coarse-grained levels (the bit rates differences of compressed images are obvious), however, they may perform poorly for fine-grained compressed images whose bit rates differences are quite subtle. Therefore, to better improve the Quality of Experience (QoE) and provide useful guidance for compression algorithms, we propose a full-reference image quality assessment (FR-IQA) method for compressed images of fine-grained levels. Specifically, the reference images and compressed images are first converted to $YCbCr$ color space. The gradient features are extracted from regions that are sensitive to compression artifacts. Then we employ the Log-Gabor transformation to further analyze the texture difference. Finally, the obtained features are fused into a quality score. The proposed method is validated on the fine-grained compression image quality assessment (FGIQA) database, which is especially constructed for assessing the quality of compressed images with close bit rates. The experimental results show that our metric outperforms mainstream FR-IQA metrics on the FGIQA database. We also test our method on other commonly used compression IQA databases and the results show that our method obtains competitive performance on the coarse-grained compression IQA databases as well.
翻訳日:2022-06-09 13:52:40 公開日:2022-06-08
# 改良された1ミリ秒モバイルバックボーン

An Improved One millisecond Mobile Backbone ( http://arxiv.org/abs/2206.04040v1 )

ライセンス: Link先を確認
Pavan Kumar Anasosalu Vasu and James Gabriel and Jeff Zhu and Oncel Tuzel and Anurag Ranjan(参考訳) モバイルデバイス用の効率的なニューラルネットワークバックボーンは、FLOPやパラメータカウントなどのメトリクスに最適化されることが多い。 しかし、これらのメトリクスは、モバイルデバイスにデプロイされるネットワークのレイテンシとよく相関しないかもしれない。 そこで我々は,複数のモバイルフレンドリなネットワークをモバイルデバイス上に配置することで,さまざまな指標を広範囲に分析する。 我々は、最近の効率的なニューラルネットワークにおけるアーキテクチャおよび最適化ボトルネックを特定し、分析し、これらのボトルネックを緩和する方法を提供する。 この目的のために、iPhone12上で1ミリ秒未満の推論時間を実現し、ImageNet上で75.9%の精度で、効率的なバックボーンMobileOneを設計する。 我々はmobileoneが効率の良いアーキテクチャで最先端のパフォーマンスを達成し、モバイルで何倍も速くなることを示す。 我々の最良のモデルは、ImageNetとMobileFormerで38倍高速なパフォーマンスを得る。 我々のモデルは、同様のレイテンシで、ImageNetでEfficientNetよりも2.3%優れたトップ1の精度を得る。 さらに,本モデルは,モバイル機器にデプロイする際の既存の効率的なアーキテクチャと比較して,レイテンシと精度が大幅に向上し,画像分類,オブジェクト検出,意味セグメンテーションといった複数のタスクに一般化することを示す。

Efficient neural network backbones for mobile devices are often optimized for metrics such as FLOPs or parameter count. However, these metrics may not correlate well with latency of the network when deployed on a mobile device. Therefore, we perform extensive analysis of different metrics by deploying several mobile-friendly networks on a mobile device. We identify and analyze architectural and optimization bottlenecks in recent efficient neural networks and provide ways to mitigate these bottlenecks. To this end, we design an efficient backbone MobileOne, with variants achieving an inference time under 1 ms on an iPhone12 with 75.9% top-1 accuracy on ImageNet. We show that MobileOne achieves state-of-the-art performance within the efficient architectures while being many times faster on mobile. Our best model obtains similar performance on ImageNet as MobileFormer while being 38x faster. Our model obtains 2.3% better top-1 accuracy on ImageNet than EfficientNet at similar latency. Furthermore, we show that our model generalizes to multiple tasks - image classification, object detection, and semantic segmentation with significant improvements in latency and accuracy as compared to existing efficient architectures when deployed on a mobile device.
翻訳日:2022-06-09 13:52:15 公開日:2022-06-08
# (参考訳) Sparse Fusion Mixture-of-Experts is Domain Generalizable Learners

Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners ( http://arxiv.org/abs/2206.04046v1 )

ライセンス: CC BY 4.0
Bo Li, Jingkang Yang, Jiawei Ren, Yezhen Wang, Ziwei Liu(参考訳) ドメイン一般化(dg)は、分散シフト下で一般化可能なモデルを学習することを目的としており、大量のトレーニングデータを冗長にオーバーフィットすることを避ける。 複雑な損失設計と勾配制約による以前の研究はまだ大規模なベンチマークで実証的な成功には至っていない。 そこで本研究では,DGにおけるMix-of-experts(MoE)モデルの一般化可能性を明らかにする。 そこで本研究では,Sparse Fusion Mixture-of-Experts (SF-MoE)を提案する。 SF-MoEには2つの専用モジュールがある。 1)スパースブロック、及び 2) 融合ブロックは, 物体の多様な学習信号をそれぞれ分離し, 集約する。 大規模なベンチマークにおいて、SF-MoEはドメイン一般化可能な学習者であることを示す。 これは5つの大規模 dg データセット (例えば domainnet) において、同じあるいは低い計算コストで、最先端の 2% 以上 を上回っている。 さらに,分散表現(視覚属性など)の観点からsf-moeの内部機構を明らかにする。 このフレームワークが将来の研究を促進し、一般化可能なオブジェクト認識を現実の世界に押し上げることを期待しています。 コードとモデルはhttps://github.com/Luodian/SF-MoE-DGで公開されている。

Domain generalization (DG) aims at learning generalizable models under distribution shifts to avoid redundantly overfitting massive training data. Previous works with complex loss design and gradient constraint have not yet led to empirical success on large-scale benchmarks. In this work, we reveal the mixture-of-experts (MoE) model's generalizability on DG by leveraging to distributively handle multiple aspects of the predictive features across domains. To this end, we propose Sparse Fusion Mixture-of-Experts (SF-MoE), which incorporates sparsity and fusion mechanisms into the MoE framework to keep the model both sparse and predictive. SF-MoE has two dedicated modules: 1) sparse block and 2) fusion block, which disentangle and aggregate the diverse learned signals of an object, respectively. Extensive experiments demonstrate that SF-MoE is a domain-generalizable learner on large-scale benchmarks. It outperforms state-of-the-art counterparts by more than 2% across 5 large-scale DG datasets (e.g., DomainNet), with the same or even lower computational costs. We further reveal the internal mechanism of SF-MoE from distributed representation perspective (e.g., visual attributes). We hope this framework could facilitate future research to push generalizable object recognition to the real world. Code and models are released at https://github.com/Luodian/SF-MoE-DG.
翻訳日:2022-06-09 13:49:05 公開日:2022-06-08
# 総合学習におけるシナプス統合と体験リプレイの相乗効果

SYNERgy between SYNaptic consolidation and Experience Replay for general continual learning ( http://arxiv.org/abs/2206.04016v1 )

ライセンス: Link先を確認
Fahad Sarfraz, Elahe Arani, Bahram Zonooz(参考訳) 脳内の連続学習(cl)は、複雑なメカニズムによって促進される。 これには、補完学習システム(CLS)理論によって仮定された情報の統合のための複数のメモリシステムと、取得した知識を消去から保護するためのシナプス統合が含まれる。 そこで本研究では,SYNERgy(SYNERgy)とSynaptic Consolidationの相乗効果を生成する汎用CL手法を提案する。 本手法は,タスク間で情報を蓄積・集約するセマンティックメモリを保守し,有効再生のためにエピソードメモリと相互作用する。 さらに、トレーニング軌道中のパラメータの重要性を追跡し、それらをセマンティクスメモリ内の統合パラメータに固定することでシナプス統合も行う。 私たちの知識を最大限に活用するために,本研究では,ネットワークがトレーニングや推論中にタスク境界やタスクラベルを使用しない汎用的なclに適したシナプス統合と組み合わせて,デュアルメモリ体験リプレイを用いた最初の研究である。 様々な難易度CLシナリオと特徴分析の評価は,DNNにおける効果的なCLの実現にシナプス整合とCLS理論を併用することの有効性を示した。

Continual learning (CL) in the brain is facilitated by a complex set of mechanisms. This includes the interplay of multiple memory systems for consolidating information as posited by the complementary learning systems (CLS) theory and synaptic consolidation for protecting the acquired knowledge from erasure. Thus, we propose a general CL method that creates a synergy between SYNaptic consolidation and dual memory Experience Replay (SYNERgy). Our method maintains a semantic memory that accumulates and consolidates information across the tasks and interacts with the episodic memory for effective replay. It further employs synaptic consolidation by tracking the importance of parameters during the training trajectory and anchoring them to the consolidated parameters in the semantic memory. To the best of our knowledge, our study is the first to employ dual memory experience replay in conjunction with synaptic consolidation that is suitable for general CL whereby the network does not utilize task boundaries or task labels during training or inference. Our evaluation on various challenging CL scenarios and characteristics analyses demonstrate the efficacy of incorporating both synaptic consolidation and CLS theory in enabling effective CL in DNNs.
翻訳日:2022-06-09 13:26:50 公開日:2022-06-08
# クラス比推定による分布外検出

Out-of-Distribution Detection with Class Ratio Estimation ( http://arxiv.org/abs/2206.03955v1 )

ライセンス: Link先を確認
Mingtian Zhang and Andi Zhang and Tim Z. Xiao and Yitong Sun and Steven McDonagh(参考訳) 密度に基づくアウトオブディストリビューション(ood)検出は,最近はood画像の検出に信頼できないことが示されている。 様々な密度比に基づくアプローチは、優れた経験的性能を達成するが、一般的には原理的確率論的モデリングの説明を欠いている。 本研究では,エネルギーベースモデルを構築し,異なるベース分布を用いる新しい枠組みの下で密度比法を統合することを提案する。 この枠組みでは、密度比は暗黙的な意味分布の非正規化密度と見なすことができる。 さらに,データサンプルの密度比をクラス比推定によって直接推定する手法を提案する。 我々は,OOD画像問題に対する競合的な結果を,タスクのための深層生成モデルのトレーニングを必要とする最近の研究と比較する。 提案手法は,OOD検出問題に対する簡易かつ効果的な経路を実現する。

Density-based Out-of-distribution (OOD) detection has recently been shown unreliable for the task of detecting OOD images. Various density ratio based approaches achieve good empirical performance, however methods typically lack a principled probabilistic modelling explanation. In this work, we propose to unify density ratio based methods under a novel framework that builds energy-based models and employs differing base distributions. Under our framework, the density ratio can be viewed as the unnormalized density of an implicit semantic distribution. Further, we propose to directly estimate the density ratio of a data sample through class ratio estimation. We report competitive results on OOD image problems in comparison with recent work that alternatively requires training of deep generative models for the task. Our approach enables a simple and yet effective path towards solving the OOD detection problem.
翻訳日:2022-06-09 13:26:16 公開日:2022-06-08
# super-ivim-dc : 教師付き学習とデータ一貫性を併用した限定dwiデータを用いた胎児肺成熟度評価

SUPER-IVIM-DC: Intra-voxel incoherent motion based Fetal lung maturity assessment from limited DWI data using supervised learning coupled with data-consistency ( http://arxiv.org/abs/2206.03820v1 )

ライセンス: Link先を確認
Noam Korngut, Elad Rotman, Onur Afacan, Sila Kurugol, Yael Zaffrani-Reznikov, Shira Nemirovsky-Rotman, Simon Warfield, Moti Freiman(参考訳) in-voxel incoherent motion(ivim)による胎児肺拡散強調mri(dwi)データの解析は、非侵襲的胎児肺成熟評価のための間接的拡散および擬似拡散を反映する定量的イメージングバイオマーカーを提供する可能性を示している。 しかし,IVIM解析に要する「b値」画像が多種多様であったため,長期取得が可能であった。 本研究では,教師付き損失とデータコンシスタンス項を結合し,限られた数のb値で取得したdwiデータのivim解析を可能にする,dnn(deep-neural-networks)アプローチを提案する。 数値シミュレーション,健常ボランティア研究,および胎児肺成熟度データを用いた胎児肺成熟度分析による胎児肺成熟度解析による,古典的および最近のDNN法および最近のDNN法に対するsupPER-IVIM-DCの付加価値を実証した。 %増量実験の結果,DWIデータからのIVIMモデルパラメータのSUPER-IVIM-DC推定は,従来のDNN法と比較して正常化ルート平均二乗誤差が低かった。 さらに, 胎児肺のDWIデータから擬似拡散分画パラメータを推定したSUPER-IVIM-DCは, 妊娠年齢と古典的およびDNN的アプローチ(0.242 vs.-0.079, 0.239)と相関した。 SuPER-IVIM-DCは、DWIデータのIVIM分析に伴う長期取得時間を短縮し、非侵襲性胎児肺成熟度評価のための臨床的に実現可能なバイオマーカーを提供する可能性がある。

Intra-voxel incoherent motion (IVIM) analysis of fetal lungs Diffusion-Weighted MRI (DWI) data shows potential in providing quantitative imaging bio-markers that reflect, indirectly, diffusion and pseudo-diffusion for non-invasive fetal lung maturation assessment. However, long acquisition times, due to the large number of different "b-value" images required for IVIM analysis, precluded clinical feasibility. We introduce SUPER-IVIM-DC a deep-neural-networks (DNN) approach which couples supervised loss with a data-consistency term to enable IVIM analysis of DWI data acquired with a limited number of b-values. We demonstrated the added-value of SUPER-IVIM-DC over both classical and recent DNN approaches for IVIM analysis through numerical simulations, healthy volunteer study, and IVIM analysis of fetal lung maturation from fetal DWI data. % add results Our numerical simulations and healthy volunteer study show that SUPER-IVIM-DC estimates of the IVIM model parameters from limited DWI data had lower normalized root mean-squared error compared to previous DNN-based approaches. Further, SUPER-IVIM-DC estimates of the pseudo-diffusion fraction parameter from limited DWI data of fetal lungs correlate better with gestational age compared to both to classical and DNN-based approaches (0.242 vs. -0.079 and 0.239). SUPER-IVIM-DC has the potential to reduce the long acquisition times associated with IVIM analysis of DWI data and to provide clinically feasible bio-markers for non-invasive fetal lung maturity assessment.
翻訳日:2022-06-09 13:25:25 公開日:2022-06-08
# エンコーダ・デコーダモデルのためのテーブル生成フレームワーク

STable: Table Generation Framework for Encoder-Decoder Models ( http://arxiv.org/abs/2206.04045v1 )

ライセンス: Link先を確認
Micha{\l} Pietruszka, Micha{\l} Turski, {\L}ukasz Borchmann, Tomasz Dwojak, Gabriela Pa{\l}ka, Karolina Szyndler, Dawid Jurkiewicz, {\L}ukasz Garncarek(参考訳) データベースライクなテーブルの出力構造は、水平行で構成された値と名前で識別可能な縦列で構成されており、幅広いnlpタスクをカバーすることができる。 この結果に従い,線項目の抽出や関係抽出,知識ベース人口といった問題に適用可能な,テキスト対テーブルニューラルモデルの枠組みを提案する。 本提案の置換型デコーダは,表内の全セルから情報を総合的に理解するシーケンシャルな手法である。 トレーニングは、因子化順序のすべてのランダムな置換にまたがるテーブルの内容に対する、期待されるログの類似度を最大化する。 コンテント推論では,任意の順序でセルを生成できる能力を利用して,可能な順序を探索し,モデルの信頼性を最大化し,他のシーケンシャルモデルに起因する重大なエラーの蓄積を回避する。 実験は、いくつかの挑戦的なデータセットで最先端の結果を確立し、以前のソリューションを最大15%上回る、このフレームワークの高実用的価値を実証する。

The output structure of database-like tables, consisting of values structured in horizontal rows and vertical columns identifiable by name, can cover a wide range of NLP tasks. Following this constatation, we propose a framework for text-to-table neural models applicable to problems such as extraction of line items, joint entity and relation extraction, or knowledge base population. The permutation-based decoder of our proposal is a generalized sequential method that comprehends information from all cells in the table. The training maximizes the expected log-likelihood for a table's content across all random permutations of the factorization order. During the content inference, we exploit the model's ability to generate cells in any order by searching over possible orderings to maximize the model's confidence and avoid substantial error accumulation, which other sequential models are prone to. Experiments demonstrate a high practical value of the framework, which establishes state-of-the-art results on several challenging datasets, outperforming previous solutions by up to 15%.
翻訳日:2022-06-09 13:24:50 公開日:2022-06-08
# メトリックベースのFew-Shotグラフ分類

Metric Based Few-Shot Graph Classification ( http://arxiv.org/abs/2206.03695v1 )

ライセンス: Link先を確認
Donato Crisostomi, Simone Antonelli, Valentino Maiorca, Luca Moschella, Riccardo Marin, Emanuele Rodol\`a(参考訳) 現代のディープラーニング技術の多くは、膨大なデータセットなしでは機能しない。 同時に、いくつかの分野は、不足したデータを扱うメソッドを要求している。 この問題は、グラフの場合のように、サンプルが異なる構造を持つ場合にさらに複雑である。 グラフ表現学習技術は、最近様々な領域で成功している。 それでも、採用されているアーキテクチャは、データ不足に直面して惨めに動作します。 一方、少数ショット学習では、有効性を放棄することなく、不足するデータ構造に現代的なディープラーニングモデルを採用することができる。 本研究では,単純な距離距離のメートル法学習ベースラインに最先端のグラフ埋め込み器を組み込むことで,タスク上での競合的な結果が得られることを示す。しかし,アーキテクチャの単純さは,より複雑なものよりも優れているが,簡単な追加も可能である。 この目的のために,タスク条件の埋め込み空間を奨励することで,さらなる改善が得られることを示す。 最後に、潜在空間に作用するミックスアップに基づくオンラインデータ拡張手法を提案し、そのタスクの有効性を示す。

Many modern deep-learning techniques do not work without enormous datasets. At the same time, several fields demand methods working in scarcity of data. This problem is even more complex when the samples have varying structures, as in the case of graphs. Graph representation learning techniques have recently proven successful in a variety of domains. Nevertheless, the employed architectures perform miserably when faced with data scarcity. On the other hand, few-shot learning allows employing modern deep learning models in scarce data regimes without waiving their effectiveness. In this work, we tackle the problem of few-shot graph classification, showing that equipping a simple distance metric learning baseline with a state-of-the-art graph embedder allows to obtain competitive results on the task.While the simplicity of the architecture is enough to outperform more complex ones, it also allows straightforward additions. To this end, we show that additional improvements may be obtained by encouraging a task-conditioned embedding space. Finally, we propose a MixUp-based online data augmentation technique acting in the latent space and show its effectiveness on the task.
翻訳日:2022-06-09 13:23:03 公開日:2022-06-08
# オフポリティディープ強化学習におけるアクションノイズ:探索と性能への影響

Action Noise in Off-Policy Deep Reinforcement Learning: Impact on Exploration and Performance ( http://arxiv.org/abs/2206.03787v1 )

ライセンス: Link先を確認
Jakob Hollenstein, Sayantan Auddy, Matteo Saveriano, Erwan Renaudo, Justus Piater(参考訳) 多くの深層強化学習アルゴリズムは、連続制御領域でよく使われる付加的アクションノイズのような単純な探索形式に依存している。 通常、この動作ノイズのスケーリング係数はハイパーパラメータとして選択され、トレーニング中に一定に保たれる。 本稿では,学習方針が騒音の種類,規模,時間の経過とともにスケール要因の低減にどのように影響するかを分析する。 ガウスノイズとオルンシュタイン・ウレンベックノイズの2つの最も顕著なタイプの動作雑音を考察し,ノイズタイプとスケールパラメータを体系的に変化させ,探索中の方針の回帰や状態空間のカバレッジといった興味のある変数を測定することによって,膨大な実験キャンペーンを行う。 後者では,従来提案されていた測度よりも境界アーティファクトに対して堅牢な新しい状態空間カバレッジ尺度 $\operatorname{X}_{\mathcal{U}\text{rel}}$を提案する。 より大きなノイズスケールは一般に状態空間を拡大する。 しかし,大きな騒音スケールで空間範囲を増加させることは,しばしば有益ではないことがわかった。 逆に、学習過程におけるノイズスケールの低減は、ばらつきを低減し、学習性能を全般的に向上させる。 我々は,最良の雑音タイプとスケールは環境依存であり,我々の観測に基づいて,さらなる最適化のための出発点として行動騒音の選択を導くためのヒューリスティックなルールを導出する。

Many deep reinforcement learning algorithms rely on simple forms of exploration, such as the additive action-noise often used in continuous control domains. Typically, the scaling factor of this action noise is chosen as a hyper-parameter and kept constant during training. In this paper, we analyze how the learned policy is impacted by the noise type, scale, and reducing of the scaling factor over time. We consider the two most prominent types of action-noise: Gaussian and Ornstein-Uhlenbeck noise, and perform a vast experimental campaign by systematically varying the noise type and scale parameter, and by measuring variables of interest like the expected return of the policy and the state space coverage during exploration. For the latter, we propose a novel state-space coverage measure $\operatorname{X}_{\mathcal{U}\text{rel}}$ that is more robust to boundary artifacts than previously proposed measures. Larger noise scales generally increase state space coverage. However, we found that increasing the space coverage using a larger noise scale is often not beneficial. On the contrary, reducing the noise-scale over the training process reduces the variance and generally improves the learning performance. We conclude that the best noise-type and scale are environment dependent, and based on our observations, derive heuristic rules for guiding the choice of the action noise as a starting point for further optimization.
翻訳日:2022-06-09 13:22:47 公開日:2022-06-08
# Arm Group Graph を用いたニューラルバンド

Neural Bandit with Arm Group Graph ( http://arxiv.org/abs/2206.03644v1 )

ライセンス: Link先を確認
Yunzhe Qi, Yikun Ban, Jingrui He(参考訳) コンテキストブレイディットは、コンテキスト情報に基づいて最も高い報酬を持つ最適なアームのセットを識別することを目的としている。 両腕が通常集団行動を示し,相互の影響が群間に存在するという事実に触発されて,ノードが群群を表し,重み付きエッジが群間の相関を定式化する新たなモデルであるArm Group Graph(AGG)を導入する。 aggの豊富な情報を活用するために,ニューラルネットワークが報酬を推定するために設計されたバンドイットアルゴリズム agg-ucb を提案し,グラフニューラルネットワーク (gnn) を用いて相関関係を持つアーム群の表現を学ぶ。 バンディットにおけるエクスプロレーション-探索ジレンマを解決するために、探索のためのニューラルネットワーク(探索)上に構築された新しい上部信頼境界(UCB)を導出する。 さらに、AGG-UCBは、過度にパラメータ化されたニューラルネットワークに縛られたほぼ最適の後悔を達成できることを証明し、GNNを独立した関心を持つような完全に接続された層で収束解析する。 最後に,複数の公開データセットに対する最先端ベースラインに対する広範な実験を行い,提案アルゴリズムの有効性を示す。

Contextual bandits aim to identify among a set of arms the optimal one with the highest reward based on their contextual information. Motivated by the fact that the arms usually exhibit group behaviors and the mutual impacts exist among groups, we introduce a new model, Arm Group Graph (AGG), where the nodes represent the groups of arms and the weighted edges formulate the correlations among groups. To leverage the rich information in AGG, we propose a bandit algorithm, AGG-UCB, where the neural networks are designed to estimate rewards, and we propose to utilize graph neural networks (GNN) to learn the representations of arm groups with correlations. To solve the exploitation-exploration dilemma in bandits, we derive a new upper confidence bound (UCB) built on neural networks (exploitation) for exploration. Furthermore, we prove that AGG-UCB can achieve a near-optimal regret bound with over-parameterized neural networks, and provide the convergence analysis of GNN with fully-connected layers which may be of independent interest. In the end, we conduct extensive experiments against state-of-the-art baselines on multiple public data sets, showing the effectiveness of the proposed algorithm.
翻訳日:2022-06-09 13:21:20 公開日:2022-06-08
# NTK体制を脱却し、低次+スパース多項式を効率的に学習するための正しい方向の同定

Identifying good directions to escape the NTK regime and efficiently learn low-degree plus sparse polynomials ( http://arxiv.org/abs/2206.03688v1 )

ライセンス: Link先を確認
Eshaan Nichani, Yu Bai, Jason D. Lee(参考訳) 近年のディープラーニング理論の目標は、ニューラルネットワークが"怠慢なトレーニング"(Neural Tangent Kernel(NTK)体制から抜け出す方法を特定することだ。 NTKは高密度多項式の学習に最適であるが(Ghorbani et al, 2021)、特徴を学習することはできず、スパース多項式を含む多くの関数のクラスを学ぶにはサンプルの複雑さが低い。 このため、最近の研究は、勾配に基づくアルゴリズムがNTKよりも確実に一般化した設定を特定することを目的としている。 そのような例として、Bai and Lee (2020) の "QuadNTK" アプローチがあり、テイラー展開の2階項を分析する。 Bai and Lee (2020) は、2階項がスパース多項式を効率的に学習できることを示したが、一般の高次多項式を学習する能力は犠牲になる。 本稿では,NTK(Montanari and Zhong, 2020)のスペクトル特性とQuadNTKアプローチに基づく構築を利用して,2層ニューラルネットワークの勾配降下がNTK体制から逃れる方法について分析する。 まずスペクトル解析を行い、一般化を損なうことなく移動できるパラメータ空間の「良い」方向を特定する。 次に、広帯域の2層ニューラルネットワークは、NTKとQuadNTKを併用して、密度の高い低次項と疎度の高次項からなるターゲット関数に適合させることができることを示す。 最後に、パラメータベクトルを「よい」方向に移動するように促す正規化器を構築し、正規化損失の勾配勾配が、テストエラーの少ない大域最小化器に収束することを示す。 これにより、NTK と QuadNTK の双方に対して、証明可能なサンプル複雑性の改善とともに、終端収束と一般化を保証する。

A recent goal in the theory of deep learning is to identify how neural networks can escape the "lazy training," or Neural Tangent Kernel (NTK) regime, where the network is coupled with its first order Taylor expansion at initialization. While the NTK is minimax optimal for learning dense polynomials (Ghorbani et al, 2021), it cannot learn features, and hence has poor sample complexity for learning many classes of functions including sparse polynomials. Recent works have thus aimed to identify settings where gradient based algorithms provably generalize better than the NTK. One such example is the "QuadNTK" approach of Bai and Lee (2020), which analyzes the second-order term in the Taylor expansion. Bai and Lee (2020) show that the second-order term can learn sparse polynomials efficiently; however, it sacrifices the ability to learn general dense polynomials. In this paper, we analyze how gradient descent on a two-layer neural network can escape the NTK regime by utilizing a spectral characterization of the NTK (Montanari and Zhong, 2020) and building on the QuadNTK approach. We first expand upon the spectral analysis to identify "good" directions in parameter space in which we can move without harming generalization. Next, we show that a wide two-layer neural network can jointly use the NTK and QuadNTK to fit target functions consisting of a dense low-degree term and a sparse high-degree term -- something neither the NTK nor the QuadNTK can do on their own. Finally, we construct a regularizer which encourages our parameter vector to move in the "good" directions, and show that gradient descent on the regularized loss will converge to a global minimizer, which also has low test error. This yields an end to end convergence and generalization guarantee with provable sample complexity improvement over both the NTK and QuadNTK on their own.
翻訳日:2022-06-09 13:21:00 公開日:2022-06-08
# オンラインノイズコピーによるデータ強化による勾配降下訓練について

On gradient descent training under data augmentation with on-line noisy copies ( http://arxiv.org/abs/2206.03734v1 )

ライセンス: Link先を確認
Katsuyuki Hagiwara(参考訳) 機械学習では、データ拡張(DA)は一般化性能を改善する技術である。 本稿では,ノイズを入力に注入するデータ集合のノイズコピーを用いて,da下での線形回帰の勾配降下を主に検討する。 ランダムノイズコピーが新たに生成され,各エポックで使用される状況,すなわちオンラインノイズコピーを使用する場合を分析した。 したがって、da方式による訓練プロセスへのノイズ注入を用いた手法、すなわち、daのオンライン版の解析と見なされる。 本研究では,二乗誤差の和によるフルバッチトレーニング,平均二乗誤差によるフルバッチトレーニング,ミニバッチトレーニングという3つの条件下でのトレーニングプロセスの平均的挙動を導出した。 いずれの場合も,オンラインコピーによるDAのトレーニングは,正規化パラメータが注入音のばらつきに対応するリッジ回帰トレーニングとほぼ同等であることがわかった。 一方,学習速度は,2乗誤差と2乗誤差の和による完全バッチと,平均2乗誤差の和による完全バッチとで乗じることが示され,オンラインコピー付きDAはトレーニングの明らかな加速をもたらすことがわかった。 見かけの加速度と正規化効果は、それぞれコピーデータの元の部分とノイズから生じる。 これらの結果は数値実験で確認される。 数値実験の結果, パラメータ下シナリオでは通常のオフラインDAにほぼ適用でき, オーバーパラメータ化シナリオでは適用できないことがわかった。 さらに,オフラインノイズコピーを用いたda下でのニューラルネットワークの学習過程を実験的に検討し,線形回帰解析をニューラルネットワークに適用可能であることを見出した。

In machine learning, data augmentation (DA) is a technique for improving the generalization performance. In this paper, we mainly considered gradient descent of linear regression under DA using noisy copies of datasets, in which noise is injected into inputs. We analyzed the situation where random noisy copies are newly generated and used at each epoch; i.e., the case of using on-line noisy copies. Therefore, it is viewed as an analysis on a method using noise injection into training process by DA manner; i.e., on-line version of DA. We derived the averaged behavior of training process under three situations which are the full-batch training under the sum of squared errors, the full-batch and mini-batch training under the mean squared error. We showed that, in all cases, training for DA with on-line copies is approximately equivalent to a ridge regression training whose regularization parameter corresponds to the variance of injected noise. On the other hand, we showed that the learning rate is multiplied by the number of noisy copies plus one in full-batch under the sum of squared errors and the mini-batch under the mean squared error; i.e., DA with on-line copies yields apparent acceleration of training. The apparent acceleration and regularization effect come from the original part and noise in a copy data respectively. These results are confirmed in a numerical experiment. In the numerical experiment, we found that our result can be approximately applied to usual off-line DA in under-parameterization scenario and can not in over-parametrization scenario. Moreover, we experimentally investigated the training process of neural networks under DA with off-line noisy copies and found that our analysis on linear regression is possible to be applied to neural networks.
翻訳日:2022-06-09 13:20:24 公開日:2022-06-08
# 混合効果モデルを用いて関連するデータセットからベイズネットワークを学ぶ

Using Mixed-Effect Models to Learn Bayesian Networks from Related Data Sets ( http://arxiv.org/abs/2206.03743v1 )

ライセンス: Link先を確認
Marco Scutari, Christopher Marquis, Laura Azzimonti(参考訳) 一般に、データはベイズネットワークの構造を学ぶ際の均質な観測の集合であると仮定する。 しかし、それらはしばしば異なる方法で収集されたり、異なる集団から収集されたりするため、関連性はあるが同種ではない異なるデータセットから構成される。 前回の論文(Azzimonti, Corani and Scutari, 2021)では、確率構造の違いを考慮しつつ、関連するデータセットにまたがって情報をプールし、単一のネットワーク構造を学習する離散データのための閉形式ベイズ的階層ディリクレスコアを提案した。 本稿では,混合効果モデルを用いて連続データからベイズネットワークを学習し,関連するデータセット間で情報をプールする類似ソリューションを提案する。 我々は,その構造的,パラメトリックな,予測的,分類的精度について検討し,条件付きガウスベイズネットワーク(プール処理を行わない)と古典的なガウスベイズネットワーク(データの不均一性を無視した)の両方よりも優れていることを示した。 この改善は、低いサンプルサイズと不均衡データセットで特徴付けられる。

We commonly assume that data are a homogeneous set of observations when learning the structure of Bayesian networks. However, they often comprise different data sets that are related but not homogeneous because they have been collected in different ways or from different populations. In our previous work (Azzimonti, Corani and Scutari, 2021), we proposed a closed-form Bayesian Hierarchical Dirichlet score for discrete data that pools information across related data sets to learn a single encompassing network structure, while taking into account the differences in their probabilistic structures. In this paper, we provide an analogous solution for learning a Bayesian network from continuous data using mixed-effects models to pool information across the related data sets. We study its structural, parametric, predictive and classification accuracy and we show that it outperforms both conditional Gaussian Bayesian networks (that do not perform any pooling) and classical Gaussian Bayesian networks (that disregard the heterogeneous nature of the data). The improvement is marked for low sample sizes and for unbalanced data sets.
翻訳日:2022-06-09 13:18:52 公開日:2022-06-08
# 高速複数出力カーネルメソッドのための$p$-sparsified sketch

$p$-Sparsified Sketches for Fast Multiple Output Kernel Methods ( http://arxiv.org/abs/2206.03827v1 )

ライセンス: Link先を確認
Tamim El Ahmad, Pierre Laforgue, Florence d'Alch\'e-Buc(参考訳) カーネル法(英: kernel method)は、計算上の重要な制限に苦しめながら、しっかりとした理論的基礎を享受する学習アルゴリズムである。 縮小次元の部分空間の解を求めることからなるスケッチは、この数値的負担を軽減するために広く研究されているアプローチである。 しかし、非適応部分サンプリングのような素早いスケッチ戦略はアルゴリズムの保証を著しく低下させるが、ガウス的スケッチのような理論的に正確なスケッチは実際には比較的遅いままである。 本稿では,統計精度と計算効率との良好なトレードオフを実現するために,両者のアプローチの利点を組み合わせた,p$-sparsified sketchsを提案する。 本手法をサポートするため,本手法は,単一出力問題と複数出力問題の両方に対する過大なリスク境界を導出し,ロバスト回帰から複数量子量回帰まで,幅広いアプリケーションに対して新たな保証を提供する。 また、最近のSOTAアプローチよりもスケッチの方が優れているという実証的な証拠も提示する。

Kernel methods are learning algorithms that enjoy solid theoretical foundations while suffering from important computational limitations. Sketching, that consists in looking for solutions among a subspace of reduced dimension, is a widely studied approach to alleviate this numerical burden. However, fast sketching strategies, such as non-adaptive subsampling, significantly degrade the guarantees of the algorithms, while theoretically-accurate sketches, such as the Gaussian one, turn out to remain relatively slow in practice. In this paper, we introduce the $p$-sparsified sketches, that combine the benefits from both approaches to achieve a good tradeoff between statistical accuracy and computational efficiency. To support our method, we derive excess risk bounds for both single and multiple output problems, with generic Lipschitz losses, providing new guarantees for a wide range of applications, from robust regression to multiple quantile regression. We also provide empirical evidences of the superiority of our sketches over recent SOTA approaches.
翻訳日:2022-06-09 13:18:32 公開日:2022-06-08
# トポロジカルデータ解析による確率過程の分類

Classification of Stochastic Processes with Topological Data Analysis ( http://arxiv.org/abs/2206.03973v1 )

ライセンス: Link先を確認
\.Ismail G\"uzel and Atabey Kaygun(参考訳) 本研究では,工学的トポロジカルな特徴が,異なる雑音特性を持つ確率過程からサンプリングされた時系列を,バランスとバランスの取れないサンプリング方式で区別できるかどうかを検討する。 統計的特徴と生の特徴に基づいて構築された同じ分類課題の結果と比較した。 時系列の分類タスクにおいて、工学的トポロジカル特徴に基づく異なる機械学習モデルは、標準統計的特徴と生特徴に基づくものよりも一貫して優れた性能を発揮すると結論づけた。

In this study, we examine if engineered topological features can distinguish time series sampled from different stochastic processes with different noise characteristics, in both balanced and unbalanced sampling schemes. We compare our classification results against the results of the same classification tasks built on statistical and raw features. We conclude that in classification tasks of time series, different machine learning models built on engineered topological features perform consistently better than those built on standard statistical and raw features.
翻訳日:2022-06-09 13:18:13 公開日:2022-06-08
# 神経拡散過程

Neural Diffusion Processes ( http://arxiv.org/abs/2206.03992v1 )

ライセンス: Link先を確認
Vincent Dutordoir, Alan Saul, Zoubin Ghahramani, Fergus Simpson(参考訳) ガウス過程は関数上の事前分布と後続分布を特定するためのエレガントな枠組みを提供する。 しかし、それらは計算的に高価であり、共分散関数の表現性によって制限される。 拡散モデルに基づく新しい手法であるニューラル拡散プロセス(NDP)を提案し,関数上の分布からサンプルを学習する。 新たな注目ブロックを用いることで、交換可能性などの確率過程の特性を直接NDPのアーキテクチャに組み込むことができる。 我々は、NDPがガウス過程の真のベイズ的後部に近い函数分布を捉えることができることを実証的に示す。 これにより、ハイパーパラメータのマージン化やベイズ最適化など、さまざまな下流タスクが可能になる。

Gaussian processes provide an elegant framework for specifying prior and posterior distributions over functions. They are, however, also computationally expensive, and limited by the expressivity of their covariance function. We propose Neural Diffusion Processes (NDPs), a novel approach based upon diffusion models, that learn to sample from distributions over functions. Using a novel attention block, we can incorporate properties of stochastic processes, such as exchangeability, directly into the NDP's architecture. We empirically show that NDPs are able to capture functional distributions that are close to the true Bayesian posterior of a Gaussian process. This enables a variety of downstream tasks, including hyperparameter marginalisation and Bayesian optimisation.
翻訳日:2022-06-09 13:18:05 公開日:2022-06-08
# 電位ベース正規化を用いたスパイク深部Qネットワークにおけるスパイク特徴情報消滅問題の解法

Solving the Spike Feature Information Vanishing Problem in Spiking Deep Q Network with Potential Based Normalization ( http://arxiv.org/abs/2206.03654v1 )

ライセンス: Link先を確認
Yinqian Sun, Yi Zeng and Yang Li(参考訳) 脳誘発スパイクニューラルネットワーク(SNN)は多くのパターン認識領域にうまく適用されている。 SNNに基づく深層構造は、画像分類、ターゲット検出などの知覚的タスクにおいてかなりの成果を上げている。 しかし,強化学習(rl)タスクにおける深層snsの適用はまだ検討すべき課題である。 SNNとRLの組み合わせに関する以前の研究はあったが、その多くは浅いネットワークによるロボット制御の問題や、スパイク深度Qネットワーク(SDQN)を実装するためにANN-SNN変換法に焦点をあてている。 本研究では,SDQNにおけるスパイキング信号の特徴の消失に関する問題を数学的に解析し,スパイキング深度Qネットワークを直接トレーニングするための電位ベース層正規化法(pbLN)を提案する。 実験により,最先端のANN-SNN変換法や他のSDQN手法と比較して,提案したpbLNが深Qネットワーク(PL-SDQN)をスパイクすることにより,Atariゲームタスクの性能が向上した。

Brain inspired spiking neural networks (SNNs) have been successfully applied to many pattern recognition domains. The SNNs based deep structure have achieved considerable results in perceptual tasks, such as image classification, target detection. However, the application of deep SNNs in reinforcement learning (RL) tasks is still a problem to be explored. Although there have been previous studies on the combination of SNNs and RL, most of them focus on robotic control problems with shallow networks or using ANN-SNN conversion method to implement spiking deep Q Network (SDQN). In this work, we mathematically analyzed the problem of the disappearance of spiking signal features in SDQN and proposed a potential based layer normalization(pbLN) method to directly train spiking deep Q networks. Experiment shows that compared with state-of-art ANN-SNN conversion method and other SDQN works, the proposed pbLN spiking deep Q networks (PL-SDQN) achieved better performance on Atari game tasks.
翻訳日:2022-06-09 13:15:30 公開日:2022-06-08
# 異種計画への対称性の統合

Integrating Symmetry into Differentiable Planning ( http://arxiv.org/abs/2206.03674v1 )

ライセンス: Link先を確認
Linfeng Zhao, Xupeng Zhu, Lingzhi Kong, Robin Walters, Lawson L.S. Wong(参考訳) グループ対称性がデータ効率とエンドツーエンドの微分可能計画アルゴリズムの一般化にどのように役立つか,特に2次元ロボット経路計画問題(ナビゲーションと操作)について検討する。 まず,等価クラスを明示的に構築することを避け,エンドツーエンドの計画を可能にするため,畳み込みネットワークを経路計画に使用する際の値反復ネットワーク(value iteration network,vins)からアイデアを定式化する。 次に、(2D)パス計画のための畳み込み形式として、常に価値イテレーションを表現できることを示し、結果のパラダイムであるSymmetric Planner(SymPlan)を名付ける。 実装では、ステアブル畳み込みネットワークを用いて対称性を組み込む。 ナビゲーションと操作のアルゴリズムは、与えられた地図や学習された地図を用いて、VINとGPPNの非同種よりも大きなマージンで訓練効率と一般化性能を向上させる。

We study how group symmetry helps improve data efficiency and generalization for end-to-end differentiable planning algorithms, specifically on 2D robotic path planning problems: navigation and manipulation. We first formalize the idea from Value Iteration Networks (VINs) on using convolutional networks for path planning, because it avoids explicitly constructing equivalence classes and enable end-to-end planning. We then show that value iteration can always be represented as some convolutional form for (2D) path planning, and name the resulting paradigm Symmetric Planner (SymPlan). In implementation, we use steerable convolution networks to incorporate symmetry. Our algorithms on navigation and manipulation, with given or learned maps, improve training efficiency and generalization performance by large margins over non-equivariant counterparts, VIN and GPPN.
翻訳日:2022-06-09 13:15:10 公開日:2022-06-08
# Motiflets -- 時系列におけるMotifの高速かつ正確な検出

Motiflets -- Fast and Accurate Detection of Motifs in Time Series ( http://arxiv.org/abs/2206.03735v1 )

ライセンス: Link先を確認
Patrick Sch\"afer, Ulf Leser(参考訳) モチーフは直感的には、より大きな時系列の中でほぼ同じことを繰り返す短い時系列である。 このようなモチーフは、心電図記録中の心拍数や脳波睡眠データでの睡眠スピンドルなどの隠れた構造を表現することが多い。 モチーフ発見(MD)は、与えられた入力系列においてそのようなモチーフを見つけるタスクである。 モチーフが何であるかには様々な定義があるため、多くのアルゴリズムが存在する。 中心となるパラメータとして、それらは全てモチーフの長さ l とモチーフの発生の間の最大距離 r を取る。 しかし実際には、r に対する適切な値は事前決定が非常に困難であり、見いだされたモチーフは高い変数を示す。 間違った入力値を設定すると、ノイズと区別できないモチーフが生成される。 したがって、これらの手法で興味深いモチーフを見つけるには、広範な試行錯誤が必要である。 我々はMD問題に対して異なるアプローチを示す。 k-モティフレットを、最大対距離が最小となる長さ l のモチーフの正確な k 発生の集合として定義する。 中心となるパラメータは距離しきい値 r ではなく、モチーフ集合の所望のサイズ k であり、これはかなり直感的で設定が容易である。 この定義に基づいて,k-Motiflet の正確な近似アルゴリズムを提案し,その複雑性を解析する。 提案手法をより簡単にするために,入力パラメータの適切な値を自動的に決定する拡張について述べる。 したがって、初めてアプリオリ知識のない意味のあるモチーフ集合を抽出することは実現可能となる。 実世界のユースケースの評価と4つの最先端MDアルゴリズムとの比較により,提案アルゴリズムが有用であることを示す。 a) 量的に優れ、より類似度の高いより大きなモチーフセットを見つける。 (b)質的に優れ、モチーフの明確化と解釈が容易になる、 (c) ランタイムが最低である。

A motif intuitively is a short time series that repeats itself approximately the same within a larger time series. Such motifs often represent concealed structures, such as heart beats in an ECG recording, or sleep spindles in EEG sleep data. Motif discovery (MD) is the task of finding such motifs in a given input series. As there are varying definitions of what exactly a motif is, a number of algorithms exist. As central parameters they all take the length l of the motif and the maximal distance r between the motif's occurrences. In practice, however, suitable values for r are very hard to determine upfront, and the found motifs show a high variability. Setting the wrong input value will result in a motif that is not distinguishable from noise. Accordingly, finding an interesting motif with these methods requires extensive trial-and-error. We present a different approach to the MD problem. We define k-Motiflets as the set of exactly k occurrences of a motif of length l, whose maximum pairwise distance is minimal. This turns the MD problem upside-down: Our central parameter is not the distance threshold r, but the desired size k of a motif set, which we show is considerably more intuitive and easier to set. Based on this definition, we present exact and approximate algorithms for finding k-Motiflets and analyze their complexity. To further ease the use of our method, we describe extensions to automatically determine the right/suitable values for its input parameters. Thus, for the first time, extracting meaningful motif sets without any a-priori knowledge becomes feasible. By evaluating real-world use cases and comparison to 4 state-of-the-art MD algorithms, we show that our proposed algorithm is (a) quantitatively superior, finding larger motif sets at higher similarity, (b) qualitatively better, leading to clearer and easier to interpret motifs, and (c) has the lowest runtime.
翻訳日:2022-06-09 13:14:53 公開日:2022-06-08
# 機械学習における群集作業者の被写体状態の解明

Resolving the Human Subjects Status of Machine Learning's Crowdworkers ( http://arxiv.org/abs/2206.04039v1 )

ライセンス: Link先を確認
Divyansh Kaushik, Zachary C. Lipton, Alex John London(参考訳) 近年、機械学習(ML)は、より大きなデータセットの構築と、人間のインタラクションや判断を必要とする研究上の問題に対処するために、クラウドワーカーに大きく依存するようになった。 クラウドワーカーが行う多様なタスクや、結果のデータセットの無数の使い方により、これらの個人が労働者として、人間として、最もよく考えられている時期を判断することは困難である。 これらの困難は、MLのクラウドワークを人事研究として扱う機関や研究者、MLのクラウドワーカーが人事研究を構成することはめったにないと考える機関など、矛盾する政策によって複雑化している。 さらに、クラウドワークを含むML論文ではIRBの監視について言及しておらず、倫理的および規制的な要件に準拠していない可能性が高まっている。 本稿では,クラウドソーシング研究の適切な指定と,機械学習研究が研究の監視にもたらすユニークな課題について,自然言語処理の研究に焦点をあてる。 重要なことは、米国共通規則の下で、これらの判断は、収集されたデータが誰であるか(または何)、その分析が誰であるか(または何)であるかの判断にヒンジする。 我々は,(1)同一の作業員が複数の役割を担い,多種類の情報を提供することができること,(2)生命科学や社会科学と比較して,ml研究がダイナミックなワークフローを採用する傾向があること,(2)研究課題がほとんど語られず,データ共有が今後の研究の扉を開くこと,など2つの課題を強調する。 特に、我々の分析は、研究者がデータ収集と分析を別々の研究に分割することで、研究倫理の監督を免れるという共通規則の潜在的な抜け穴を露呈する。 これらの懸念に対処するための政策勧告をいくつか提示する。

In recent years, machine learning (ML) has come to rely more heavily on crowdworkers, both for building bigger datasets and for addressing research questions requiring human interaction or judgment. Owing to the diverse tasks performed by crowdworkers, and the myriad ways the resulting datasets are used, it can be difficult to determine when these individuals are best thought of as workers, versus as human subjects. These difficulties are compounded by conflicting policies, with some institutions and researchers treating all ML crowdwork as human subjects research, and other institutions holding that ML crowdworkers rarely constitute human subjects. Additionally, few ML papers involving crowdwork mention IRB oversight, raising the prospect that many might not be in compliance with ethical and regulatory requirements. In this paper, we focus on research in natural language processing to investigate the appropriate designation of crowdsourcing studies and the unique challenges that ML research poses for research oversight. Crucially, under the U.S. Common Rule, these judgments hinge on determinations of "aboutness", both whom (or what) the collected data is about and whom (or what) the analysis is about. We highlight two challenges posed by ML: (1) the same set of workers can serve multiple roles and provide many sorts of information; and (2) compared to the life sciences and social sciences, ML research tends to embrace a dynamic workflow, where research questions are seldom stated ex ante and data sharing opens the door for future studies to ask questions about different targets from the original study. In particular, our analysis exposes a potential loophole in the Common Rule, where researchers can elude research ethics oversight by splitting data collection and analysis into distinct studies. We offer several policy recommendations to address these concerns.
翻訳日:2022-06-09 12:32:39 公開日:2022-06-08
# 不確実性推定のためのアンサンブル:事前関数とブートストラップの利点

Ensembles for Uncertainty Estimation: Benefits of Prior Functions and Bootstrapping ( http://arxiv.org/abs/2206.03633v1 )

ライセンス: Link先を確認
Vikranth Dwaracherla, Zheng Wen, Ian Osband, Xiuyuan Lu, Seyed Mohammad Asghari, Benjamin Van Roy(参考訳) 機械学習では、エージェントは不確実性を推定し、効率的に探索し、適応し、効果的な決定を行う必要がある。 不確実性推定に対する一般的なアプローチは、モデルのアンサンブルを維持する。 近年、アンサンブルの訓練にいくつかのアプローチが提案されており、これらのアプローチの様々な要素の重要性に関して対立する見解が有力である。 本稿では,問題となる2つの材料(プライオリ機能とブートストラップ)の利点について考察する。 先行関数は入力間でのアンサンブルエージェントの関節予測を著しく改善し,信号-雑音比が入力間で異なる場合,ブートストレッピングにより追加の利益が得られることを示す。 我々の主張は理論と実験の両方の結果によって正当化される。

In machine learning, an agent needs to estimate uncertainty to efficiently explore and adapt and to make effective decisions. A common approach to uncertainty estimation maintains an ensemble of models. In recent years, several approaches have been proposed for training ensembles, and conflicting views prevail with regards to the importance of various ingredients of these approaches. In this paper, we aim to address the benefits of two ingredients -- prior functions and bootstrapping -- which have come into question. We show that prior functions can significantly improve an ensemble agent's joint predictions across inputs and that bootstrapping affords additional benefits if the signal-to-noise ratio varies across inputs. Our claims are justified by both theoretical and experimental results.
翻訳日:2022-06-09 12:32:05 公開日:2022-06-08
# 学習解釈可能な決定規則セット:サブモジュラー最適化アプローチ

Learning Interpretable Decision Rule Sets: A Submodular Optimization Approach ( http://arxiv.org/abs/2206.03718v1 )

ライセンス: Link先を確認
Fan Yang, Kai He, Linxiao Yang, Hongxia Du, Jingbang Yang, Bo Yang, Liang Sun(参考訳) 規則セットは、決定の述語が断続的正規形(dnf, or-of-ands)で表現される高度に解釈可能な論理モデルである。 本稿では,学習規則集合に対するサブモジュラー最適化に基づくアプローチについて検討する。 学習問題は、すべての可能なルールのサブセットを、正確かつ解釈可能なルールセットを形成するために選択する必要がある部分集合選択タスクとして構成される。 我々は,部分モジュラー性を示す客観的関数を用い,部分モジュラー最適化手法に適応する。 指数関数サイズのルールの基底集合を扱うことで生じる困難を克服するために、ルールを検索する副問題は、機能のサブセットを求める別のサブセット選択タスクとしてキャストされる。 我々は,2つの部分モジュラー(ds)関数の差分として部分問題に対する目的関数を記述できることを示し,ds最適化アルゴリズムにより近似的に解くことができることを示した。 全体として、提案されたアプローチはシンプルでスケーラブルであり、サブモジュール最適化に関するさらなる研究の恩恵を受ける可能性が高い。 実データを用いた実験により,本手法の有効性を示す。

Rule sets are highly interpretable logical models in which the predicates for decision are expressed in disjunctive normal form (DNF, OR-of-ANDs), or, equivalently, the overall model comprises an unordered collection of if-then decision rules. In this paper, we consider a submodular optimization based approach for learning rule sets. The learning problem is framed as a subset selection task in which a subset of all possible rules needs to be selected to form an accurate and interpretable rule set. We employ an objective function that exhibits submodularity and thus is amenable to submodular optimization techniques. To overcome the difficulty arose from dealing with the exponential-sized ground set of rules, the subproblem of searching a rule is casted as another subset selection task that asks for a subset of features. We show it is possible to write the induced objective function for the subproblem as a difference of two submodular (DS) functions to make it approximately solvable by DS optimization algorithms. Overall, the proposed approach is simple, scalable, and likely to be benefited from further research on submodular optimization. Experiments on real datasets demonstrate the effectiveness of our method.
翻訳日:2022-06-09 12:31:51 公開日:2022-06-08
# ゼロショット学習のための遠絡オントロジー埋め込み

Disentangled Ontology Embedding for Zero-shot Learning ( http://arxiv.org/abs/2206.03739v1 )

ライセンス: Link先を確認
Yuxia Geng, Jiaoyan Chen, Wen Zhang, Yajing Xu, Zhuo Chen, Jeff Z. Pan, Yufeng Huang, Feiyu Xiong, Huajun Chen(参考訳) 知識グラフ(KG)とその変種オントロジーは知識表現に広く用いられており、ゼロショット学習(ZSL)の増強に非常に有効であることが示されている。 しかし、KGsを利用する既存のZSL法は、KGsで表されるクラス間関係の固有の複雑さを無視している。 典型的な特徴の1つは、クラスがしばしば異なる意味的側面を持つ他のクラスと関連していることである。 本稿では,ZSLの拡張のためのオントロジーに焦点をあて,オントロジー特性によって導かれる絡み合ったオントロジー埋め込みを学習し,よりきめ細かなクラス関係を様々な面から捉え,活用することを提案する。 生成モデルとグラフ伝搬モデルに基づく2つの新しいzslソリューションを含むdozslという新しいzslフレームワークも提供し,異方性オントロジー埋め込みを効果的に活用する。 ゼロショット画像分類 (ZS-IMGC) とゼロショットKG完了 (ZS-KGC) の5つのベンチマークで広範囲に評価されている。 DOZSLはしばしば最先端技術よりも優れた性能を達成しており、その構成要素はアブレーション研究やケーススタディによって検証されている。 私たちのコードとデータセットはhttps://github.com/zjukg/dozslで利用可能です。

Knowledge Graph (KG) and its variant of ontology have been widely used for knowledge representation, and have shown to be quite effective in augmenting Zero-shot Learning (ZSL). However, existing ZSL methods that utilize KGs all neglect the intrinsic complexity of inter-class relationships represented in KGs. One typical feature is that a class is often related to other classes in different semantic aspects. In this paper, we focus on ontologies for augmenting ZSL, and propose to learn disentangled ontology embeddings guided by ontology properties to capture and utilize more fine-grained class relationships in different aspects. We also contribute a new ZSL framework named DOZSL, which contains two new ZSL solutions based on generative models and graph propagation models, respectively, for effectively utilizing the disentangled ontology embeddings. Extensive evaluations have been conducted on five benchmarks across zero-shot image classification (ZS-IMGC) and zero-shot KG completion (ZS-KGC). DOZSL often achieves better performance than the state-of-the-art, and its components have been verified by ablation studies and case studies. Our codes and datasets are available at https://github.com/zjukg/DOZSL.
翻訳日:2022-06-09 12:30:29 公開日:2022-06-08
# 行動予測モデルにおける座標フレームギャップの狭化:効率よく正確なシーン中心運動予測のための蒸留

Narrowing the Coordinate-frame Gap in Behavior Prediction Models: Distillation for Efficient and Accurate Scene-centric Motion Forecasting ( http://arxiv.org/abs/2206.03970v1 )

ライセンス: Link先を確認
DiJia Su, Bertrand Douillard, Rami Al-Rfou, Cheolho Park, Benjamin Sapp(参考訳) 行動予測モデルは近年,特に自律運転の現実的なロボット工学の応用において,安全で快適な運動計画のためには,移動エージェントの将来性に関する分布を表現することが不可欠である。 これらのモデルでは、入力と出力を表す座標フレームの選択は、2つのカテゴリの1つに大別される重要なトレードオフを持つ。 エージェント中心モデルは入力を変換し、エージェント中心の座標で推論を行う。 これらのモデルは、内在的にシーン要素間の翻訳と回転に不変であり、パブリックなリーダーボード上で最高のパフォーマンスを示すが、エージェント数とシーン要素の数で二乗的にスケールする。 シーン中心のモデルは、すべてのエージェントを処理するために固定座標システムを使用する。 これにより、すべてのエージェント間で表現を共有する利点があり、エージェント数と線形にスケールする効率的な償却推論計算を提供する。 しかし、これらのモデルはシーン要素間の変換と回転の不変性を学び、典型的にはエージェント中心のモデルに劣る。 本研究では,確率的動き予測モデル間の知識蒸留技術を開発し,エージェント中心モデルとシーン中心モデル間の性能ギャップを埋めるためにこれらの手法を適用した。 これにより、パブリックなArgoverseベンチマークで13.2%、Waymo Open Datasetで7.8%、大規模なIn-Houseデータセットで9.4%のシーン中心モデルのパフォーマンスが改善される。 これらの改善されたシーン中心のモデルは、公共のリーダーボードで高く評価され、忙しいシーンではエージェント中心の教師よりも最大15倍効率が高い。

Behavior prediction models have proliferated in recent years, especially in the popular real-world robotics application of autonomous driving, where representing the distribution over possible futures of moving agents is essential for safe and comfortable motion planning. In these models, the choice of coordinate frames to represent inputs and outputs has crucial trade offs which broadly fall into one of two categories. Agent-centric models transform inputs and perform inference in agent-centric coordinates. These models are intrinsically invariant to translation and rotation between scene elements, are best-performing on public leaderboards, but scale quadratically with the number of agents and scene elements. Scene-centric models use a fixed coordinate system to process all agents. This gives them the advantage of sharing representations among all agents, offering efficient amortized inference computation which scales linearly with the number of agents. However, these models have to learn invariance to translation and rotation between scene elements, and typically underperform agent-centric models. In this work, we develop knowledge distillation techniques between probabilistic motion forecasting models, and apply these techniques to close the gap in performance between agent-centric and scene-centric models. This improves scene-centric model performance by 13.2% on the public Argoverse benchmark, 7.8% on Waymo Open Dataset and up to 9.4% on a large In-House dataset. These improved scene-centric models rank highly in public leaderboards and are up to 15 times more efficient than their agent-centric teacher counterparts in busy scenes.
翻訳日:2022-06-09 12:30:09 公開日:2022-06-08
# (参考訳) ビジュアルカウントのためのディープラーニング技術

Deep Learning Techniques for Visual Counting ( http://arxiv.org/abs/2206.03033v2 )

ライセンス: CC BY 4.0
Luca Ciampi(参考訳) 本研究では,歩行者やセル,車両などの物体を静止画やビデオフレームでカウントする深層学習(dl)技術について検討し,拡張した。 特に、現在のDLベースのソリューションのトレーニングに必要なデータ不足に関する課題に取り組みました。 ラベル付けの予算が限られていることを考えると、データ不足は、ニューラルネットワークの教師付き学習に基づく既存のソリューションのスケーラビリティを妨げるオープンな問題であり、これらのアルゴリズムに新たなシナリオが提示された場合に、推論時にパフォーマンスが大幅に低下する原因である。 そこで我々は,いくつかの相補的な側面からこの問題に対処し,自動ラベル付けされた仮想環境から収集したデータセットを収集し,トレーニングとテストデータ分布の間に存在するドメイン間ギャップを緩和することを目的としたドメイン適応戦略を提案する。 さらに、限られた電力資源を持つ環境での畳み込みニューラルネットワーク技術の導入による、非自明なエンジニアリング上の課題に対処し、車両や歩行者を直接組込み視覚システムに搭載するソリューションを導入しました。

In this dissertation, we investigated and enhanced Deep Learning (DL) techniques for counting objects, like pedestrians, cells or vehicles, in still images or video frames. In particular, we tackled the challenge related to the lack of data needed for training current DL-based solutions. Given that the budget for labeling is limited, data scarcity still represents an open problem that prevents the scalability of existing solutions based on the supervised learning of neural networks and that is responsible for a significant drop in performance at inference time when new scenarios are presented to these algorithms. We introduced solutions addressing this issue from several complementary sides, collecting datasets gathered from virtual environments automatically labeled, proposing Domain Adaptation strategies aiming at mitigating the domain gap existing between the training and test data distributions, and presenting a counting strategy in a weakly labeled data scenario, i.e., in the presence of non-negligible disagreement between multiple annotators. Moreover, we tackled the non-trivial engineering challenges coming out of the adoption of Convolutional Neural Network-based techniques in environments with limited power resources, introducing solutions for counting vehicles and pedestrians directly onboard embedded vision systems, i.e., devices equipped with constrained computational capabilities that can capture images and elaborate them.
翻訳日:2022-06-09 11:17:40 公開日:2022-06-08
# TSFEDL:ディープラーニングを用いた時系列時空間特徴抽出と予測のためのPythonライブラリ(詳細なネットワークアーキテクチャと実験事例を含む)

TSFEDL: A Python Library for Time Series Spatio-Temporal Feature Extraction and Prediction using Deep Learning (with Appendices on Detailed Network Architectures and Experimental Cases of Study) ( http://arxiv.org/abs/2206.03179v2 )

ライセンス: Link先を確認
Ignacio Aguilera-Martos, \'Angel M. Garc\'ia-Vico, Juli\'an Luengo, Sergio Damas, Francisco J. Melero, Jos\'e Javier Valle-Alonso, Francisco Herrera(参考訳) 畳み込みニューラルネットワーク(convolutional neural network)と再帰ニューラルネットワーク(recurrent neural networks)の組み合わせは、予測、分類、異常検出などの時系列予測問題の鍵となる時間的依存性とともに、高品質の時空間的特徴の抽出を可能にする有望なフレームワークである。 本稿では,TSFEDLライブラリを紹介する。 時系列特徴抽出と予測のための20の最先端手法をコンパイルし、畳み込みと再帰的なディープニューラルネットワークを使用して、いくつかのデータマイニングタスクで使用する。 このライブラリは、AGPLv3ライセンスの下でTensorflow+KerasとPyTorchモジュールのセット上に構築されている。 この提案に含まれるアーキテクチャのパフォーマンス検証は、このPythonパッケージの有用性を確認している。

The combination of convolutional and recurrent neural networks is a promising framework that allows the extraction of high-quality spatio-temporal features together with its temporal dependencies, which is key for time series prediction problems such as forecasting, classification or anomaly detection, amongst others. In this paper, the TSFEDL library is introduced. It compiles 20 state-of-the-art methods for both time series feature extraction and prediction, employing convolutional and recurrent deep neural networks for its use in several data mining tasks. The library is built upon a set of Tensorflow+Keras and PyTorch modules under the AGPLv3 license. The performance validation of the architectures included in this proposal confirms the usefulness of this Python package.
翻訳日:2022-06-09 11:13:47 公開日:2022-06-08
# 最大化最小化による高速かつロバストな非リギッドレジストレーション

Fast and Robust Non-Rigid Registration Using Accelerated Majorization-Minimization ( http://arxiv.org/abs/2206.03410v2 )

ライセンス: Link先を確認
Yuxin Yao and Bailin Deng and Weiwei Xu and Juyong Zhang(参考訳) 非剛性登録は、ターゲット形状と整合する非剛性な方法でソース形状を変形させるが、コンピュータビジョンにおける古典的な問題である。 このような問題は、不完全なデータ(ノイズ、外れ値、部分的な重複)と高い自由度のために困難である。 既存の手法は一般に$\ell_{p}$型ロバストノルムを用いてアライメント誤差を測定し、変形の滑らかさを正則化し、近似アルゴリズムを用いて結果の非滑らかな最適化問題を解く。 しかし、そのようなアルゴリズムの緩やかな収束は幅広い応用を制限する。 本稿では,アライメントと正規化のための世界規模でスムーズなロバストなノルムに基づくロバストな非剛体登録のための定式化を提案する。 この問題は、各反復を閉形式解で凸二次問題に還元する偏極最小化アルゴリズムを用いて解決される。 さらにアンダーソン加速度を適用して解器の収束を高速化し、計算能力に制限のあるデバイス上で効率的に動作できるようにする。 広範囲にわたる実験により, 異常値と部分重なりを持つ2つの形状間の非剛性アライメント法の有効性が示され, 登録精度と計算速度の面では最先端手法よりも優れていることを示す定量的評価が得られた。 ソースコードはhttps://github.com/yaoyx689/amm_nrrで入手できる。

Non-rigid registration, which deforms a source shape in a non-rigid way to align with a target shape, is a classical problem in computer vision. Such problems can be challenging because of imperfect data (noise, outliers and partial overlap) and high degrees of freedom. Existing methods typically adopt the $\ell_{p}$ type robust norm to measure the alignment error and regularize the smoothness of deformation, and use a proximal algorithm to solve the resulting non-smooth optimization problem. However, the slow convergence of such algorithms limits their wide applications. In this paper, we propose a formulation for robust non-rigid registration based on a globally smooth robust norm for alignment and regularization, which can effectively handle outliers and partial overlaps. The problem is solved using the majorization-minimization algorithm, which reduces each iteration to a convex quadratic problem with a closed-form solution. We further apply Anderson acceleration to speed up the convergence of the solver, enabling the solver to run efficiently on devices with limited compute capability. Extensive experiments demonstrate the effectiveness of our method for non-rigid alignment between two shapes with outliers and partial overlaps, with quantitative evaluation showing that it outperforms state-of-the-art methods in terms of registration accuracy and computational speed. The source code is available at https://github.com/yaoyx689/AMM_NRR.
翻訳日:2022-06-09 11:13:34 公開日:2022-06-08
# リスク対策と上層確率:コヒーレンスと成層化

Risk Measures and Upper Probabilities: Coherence and Stratification ( http://arxiv.org/abs/2206.03183v2 )

ライセンス: Link先を確認
Christian Fr\"ohlich and Robert C. Williamson(参考訳) 機械学習は一般に、アグリゲーションが期待に基づいて構築されることを示す古典的な確率論を前提としている。 現在、機械学習の数学的基礎として、古典的確率論のよりリッチな代替を考える動機づけとなる複数の理由がある。 我々は、スペクトルリスク測度、チョーケ積分、ローレンツノルムなどと呼ばれる、強力な、リッチな代替手段のクラスを体系的に検討する。 我々は、様々な特徴付け結果を示し、このスペクトルファミリをなぜ特別なものにするかを示す。 その際、すべてのコヒーレントリスク測度の自然な階層化を、再配置不変バナッハ空間の理論の結果を駆使して誘導する上確率の観点から示す。 我々は、この新たな不確実性に対するアプローチが、実践的な機械学習問題にどのように対処するかを実証的に示す。

Machine learning typically presupposes classical probability theory which implies that aggregation is built upon expectation. There are now multiple reasons to motivate looking at richer alternatives to classical probability theory as a mathematical foundation for machine learning. We systematically examine a powerful and rich class of such alternatives, known variously as spectral risk measures, Choquet integrals or Lorentz norms. We present a range of characterization results, and demonstrate what makes this spectral family so special. In doing so we demonstrate a natural stratification of all coherent risk measures in terms of the upper probabilities that they induce by exploiting results from the theory of rearrangement invariant Banach spaces. We empirically demonstrate how this new approach to uncertainty helps tackling practical machine learning problems.
翻訳日:2022-06-09 11:13:06 公開日:2022-06-08
# Beyond Just Vision: マルチモーダルデータとテンポラルデータによる自己監督型表現学習のレビュー

Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data ( http://arxiv.org/abs/2206.02353v2 )

ライセンス: Link先を確認
Shohreh Deldari, Hao Xue, Aaqib Saeed, Jiayuan He, Daniel V. Smith, Flora D. Salim(参考訳) 近年,SSRL(Self-Supervised Representation Learning)がコンピュータビジョン,音声,自然言語処理(NLP)の分野に注目され,最近ではセンサからの時系列を含む他の種類のモダリティも注目されている。 自己教師付き学習の人気は、従来のモデルがトレーニングに大量の注釈付きデータを必要とするという事実に起因している。 注釈付きデータの取得は困難でコストのかかるプロセスである。 生データから自由に得られる監視信号を用いて,モデルの識別事前学習により,訓練データの効率を向上させるための自己指導手法が導入された。 CV や NLP の分野における単一モダリティの手法を優先的に重視した既存の SSRL のレビューとは違って,時間的データに対するマルチモーダル自己教師型学習手法の総合的なレビューを初めて提供する。 この目的のためには 1)既存のSSRL法を包括的に分類する。 2) SSRLフレームワークのキーコンポーネントを定義することで、ジェネリックパイプラインを導入する。 3) 対象機能,ネットワークアーキテクチャ,潜在的なアプリケーションの観点から既存のモデルを比較し, 4)各カテゴリの既存マルチモーダル技法と様々なモダリティについて検討する。 最後に、既存の弱点と将来の機会を紹介します。 我々は、マルチモーダルデータおよび/または時間データを利用する領域におけるSSRLの要件を考察する。

Recently, Self-Supervised Representation Learning (SSRL) has attracted much attention in the field of computer vision, speech, natural language processing (NLP), and recently, with other types of modalities, including time series from sensors. The popularity of self-supervised learning is driven by the fact that traditional models typically require a huge amount of well-annotated data for training. Acquiring annotated data can be a difficult and costly process. Self-supervised methods have been introduced to improve the efficiency of training data through discriminative pre-training of models using supervisory signals that have been freely obtained from the raw data. Unlike existing reviews of SSRL that have pre-dominately focused upon methods in the fields of CV or NLP for a single modality, we aim to provide the first comprehensive review of multimodal self-supervised learning methods for temporal data. To this end, we 1) provide a comprehensive categorization of existing SSRL methods, 2) introduce a generic pipeline by defining the key components of a SSRL framework, 3) compare existing models in terms of their objective function, network architecture and potential applications, and 4) review existing multimodal techniques in each category and various modalities. Finally, we present existing weaknesses and future opportunities. We believe our work develops a perspective on the requirements of SSRL in domains that utilise multimodal and/or temporal data
翻訳日:2022-06-09 09:34:00 公開日:2022-06-08
# サブゴールモデルによる目標空間計画

Goal-Space Planning with Subgoal Models ( http://arxiv.org/abs/2206.02902v2 )

ライセンス: Link先を確認
Chunlok Lo, Gabor Mihucz, Adam White, Farzane Aminmansour, Martha White(参考訳) 本稿では,動的プログラミング更新とモデルフリー更新を混合(近似)する,背景計画を用いたモデルベース強化学習の新しいアプローチについて検討する。 学習モデルを用いたバックグラウンドプランニングは、メモリや計算量が非常に多いにもかかわらず、double dqnのようなモデルフリーの代替案よりも悪い場合が多い。 根本的な問題は、学習したモデルが不正確であり、特に多くのステップを繰り返すと、しばしば無効な状態を生成することである。 本稿では,背景プランニングを一連のサブゴールに制約し,ローカルなサブゴール条件付きモデルのみを学習することで,この制限を回避する。 このゴールスペース計画(GSP)アプローチは計算効率が良く、時間的抽象化を組み込んで長期計画の高速化を実現し、遷移ダイナミクスを完全に学習するのを避ける。 gspアルゴリズムは,様々な状況において,ダブルdqnベースラインよりもはるかに高速に学習できることを示す。

This paper investigates a new approach to model-based reinforcement learning using background planning: mixing (approximate) dynamic programming updates and model-free updates, similar to the Dyna architecture. Background planning with learned models is often worse than model-free alternatives, such as Double DQN, even though the former uses significantly more memory and computation. The fundamental problem is that learned models can be inaccurate and often generate invalid states, especially when iterated many steps. In this paper, we avoid this limitation by constraining background planning to a set of (abstract) subgoals and learning only local, subgoal-conditioned models. This goal-space planning (GSP) approach is more computationally efficient, naturally incorporates temporal abstraction for faster long-horizon planning and avoids learning the transition dynamics entirely. We show that our GSP algorithm can learn significantly faster than a Double DQN baseline in a variety of situations.
翻訳日:2022-06-09 09:33:38 公開日:2022-06-08