このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220313となっている論文です。

PDF登録状況(公開日: 20220313)

TitleAuthorsAbstract論文公表日・翻訳日
# 熱二光子

Thermal biphotons ( http://arxiv.org/abs/2008.10636v3 )

ライセンス: Link先を確認
Ohad Lib, Yaron Bromberg(参考訳) 熱光によるハンベリー・ブラウンとtwiss(hbt)効果の観測は量子光学の誕生を意味した。 これまで考えられていたすべての熱源は、非相関光子を放出する独立した放射子から構成されていたため、光の量子的シグネチャを特徴としなかった。 本稿では、熱複光子を作製する位相ランダム化空間交絡光子に基づく非コヒーレント光源を提案し、実証する。 熱光とは対照的に、熱複光子に対するHBTピークの幅はそれらの相関関係によって決定され、シーゲルト関係の破れとスペックル変動解釈の破滅が生じる。 さらに、HBT効果と光のコヒーレント後方散乱との接続を描画することで、結果の代替解釈を提供する。 最後に, 自然パラメトリックダウン変換 (SPDC) の二重ガウス近似の下で, シュミット数とシーゲルト関係の破れ度の関係を導出し, 観測結果における空間的絡み合いの役割について考察した。 本研究は, 熱光の絡み合いの存在下でのコヒーレンス特性に関する新たな知見を反映し, 乱れ平均測定による絡み合い認証の道を開くものである。

The observation of the Hanbury Brown and Twiss (HBT) effect with thermal light marked the birth of quantum optics. All the thermal sources considered to date did not feature quantum signatures of light, as they consisted of independent emitters that emit uncorrelated photons. Here, we propose and demonstrate an incoherent light source based on phase-randomized spatially entangled photons, which we coin thermal biphotons. We show that in contrast to thermal light, the width of the HBT peak for thermal biphotons is determined by their correlations, leading to violation of the Siegert relation and breakdown of the speckle-fluctuations interpretation. We further provide an alternative interpretation of the results by drawing a connection between the HBT effect and coherent backscattering of light. Finally, we discuss the role of spatial entanglement in the observed results, deriving a relation between the Schmidt number and the degree of violation of the Siegert relation under the double-Gaussian approximation of spontaneous parametric down conversion (SPDC). Our work reflects new insights on the coherence properties of thermal light in the presence of entanglement, paving the way for entanglement certification using disorder averaged measurements.
翻訳日:2023-05-05 02:01:07 公開日:2022-03-13
# 高次元での確率的可算量子テレポーテーション

Probabilistic resumable quantum teleportation in high dimensions ( http://arxiv.org/abs/2102.03146v2 )

ライセンス: Link先を確認
Xiang Chen and Jin-Hua Zhang and Fu-Lin Zhang(参考訳) テレポーテーション(英: teleportation)は、送信者が未知の量子状態の受信機への転送を切断できる量子情報処理である。 部分的に絡み合った量子チャネルによる確率的テレポーテーションでは、伝送は(忠実度1で)正確であるが、確率で失敗し、初期状態は同時に破壊される。 本研究では,高次元量子状態の非破壊的確率的テレポーテーション法を提案する。 送信者の手元にあるアンシラの支援により、テレポーテーションが失敗すると最初の量子情報が復元される。 アンシラは送信者のサブシステムを測定する量子装置として機能する。 記録された情報の消去は、初期状態を再開することができる。

Teleportation is a quantum information processes without classical counterparts, in which the sender can disembodied transfer unknown quantum states to the receiver. In probabilistic teleportation through a partial entangled quantum channel, the transmission is exact (with fidelity 1), but may fail in a probability and the initial state is destroyed simultaneously. We propose a scheme for nondestructive probabilistic teleportation of high-dimensional quantum states. With the aid of an ancilla in the hands of the sender, the initial quantum information can be recovered when teleportation fails. The ancilla acts as a quantum apparatus to measure the sender's subsystem. Erasing the information recorded in it can resume the initial state.
翻訳日:2023-04-12 11:48:59 公開日:2022-03-13
# 量子力学と量子電気力学における静電場による分子相互作用

Molecular Interactions Induced by a Static Electric Field in Quantum Mechanics and Quantum Electrodynamics ( http://arxiv.org/abs/2103.16396v2 )

ライセンス: Link先を確認
Mohammad Reza Karimpour, Dmitry V. Fedorov, Alexandre Tkatchenko(参考訳) 結合調和ドリュード発振器に応用された量子力学と量子電磁力学を用いて、一様静電場を受ける2つの中性原子または分子間の相互作用を研究する。 本研究の目的は,非拘束型と遅延型の両方のドラウドモデルにおいて,場誘起静電/偏極化と分散相互作用に対する主要な貢献の相互作用を理解することである。 第一に、対応する量子力学的ハミルトニアンを対角化して得られる2つの結合振動子の厳密な解を示し、外部磁場が異なる分子間相互作用と分子の相対方向の強さを制御できることを実証する。 量子電磁力学によって記述された遅延状態において、電場誘起静電および偏光エネルギーは(等方的および均質な真空中で)非定常の場合と比較して変化しないことを示した。 量子ドルーデ振動子でモデル化された相互作用種に対して、量子力学と量子電磁力学に基づく開発フレームワークは、外場と真空場の複合作用の下での分子相互作用に主導的な貢献をもたらす。

By means of quantum mechanics and quantum electrodynamics applied to coupled harmonic Drude oscillators, we study the interaction between two neutral atoms or molecules subject to a uniform static electric field. Our focus is to understand the interplay between leading contributions to field-induced electrostatics/polarization and dispersion interactions, as considered within the employed Drude model for both non-retarded and retarded regimes. For the first case, we present an exact solution for two coupled oscillators obtained by diagonalizing the corresponding quantum-mechanical Hamiltonian and demonstrate that the external field can control the strength of different intermolecular interactions and relative orientations of the molecules. In the retarded regime described by quantum electrodynamics, our analysis shows that field-induced electrostatic and polarization energies remain unchanged (in isotropic and homogeneous vacuum) compared to the nonretarded case. For interacting species modeled by quantum Drude oscillators, the developed framework based on quantum mechanics and quantum electrodynamics yields the leading contributions to molecular interactions under the combined action of external and vacuum fields.
翻訳日:2023-04-06 03:41:31 公開日:2022-03-13
# 3モードガウス状態の量子照明

Quantum Illumination with three-mode Gaussian State ( http://arxiv.org/abs/2107.05203v4 )

ライセンス: Link先を確認
Eylee Jung and DaeKil Park(参考訳) 量子照明は、1つの信号と2つのアイドラービームを含む3モードの最大絡み合ったガウス状態を用いて検討される。 1信号当たり平均光子数であるn_s$が0.295ドル未満のとき、2モードガウス状態から導かれる以前の結果よりも、$\rho$(目標不在状態)と$\sigma$(目標存在状態)の間の量子バッタリーヤは少ないことが示されている。 これは、3モードガウス状態の量子照明は、$n_s < 0.295$のとき、2モードガウス状態よりも誤差確率が低いことを示している。

The quantum illumination is examined by making use of the three-mode maximally entangled Gaussian state, which involves one signal and two idler beams. It is shown that the quantum Bhattacharyya bound between $\rho$ (state for target absence) and $\sigma$ (state for target presence) is less than the previous result derived by two-mode Gaussian state when $N_S$, average photon number per signal, is less than $0.295$. This indicates that the quantum illumination with three-mode Gaussian state gives less error probability compared to that with two-mode Gaussian state when $N_S < 0.295$.
翻訳日:2023-03-22 18:26:28 公開日:2022-03-13
# 多部量子系の構成-時間的パラダイムの視点から

Composition of multipartite quantum systems: perspective from time-like paradigm ( http://arxiv.org/abs/2107.08675v2 )

ライセンス: Link先を確認
Sahil Gopalkrishna Naik, Edwin Peter Lobo, Samrat Sen, Ramkrishna Patra, Mir Alimuddin, Tamal Guha, Some Sankar Bhattacharya, Manik Banik(参考訳) 量子論の自然選択の物理的根拠を解明することは、量子基礎研究において最も賞賛された探求の1つである。 この追求は、個々のシステムの状態空間と効果空間の一般的な構造を特定し、それらの構成規則を規定することによって、理論の数学的定式化を導出するいくつかの公理的イニシアチブを刺激した。 このジェネリックフレームワークは、個々のサブシステムの状態と効果コーンが量子であると仮定された場合でも、マルチパーティタイトシステムのいくつかの一貫性のある構成規則を許容することができる。 しかしながら、どの二部構造系に対しても、これらの構成は量子空間のような相関を許さない。 このレターでは、このような二成分合成は時間的領域における量子相関よりも強く受け入れられるので、状態と効果円錐によって実行される実用的に異なる役割を示す。 コミュニケーションタスクにおけるそのような相関関係の結果を議論し、それによって基本量子間の実際の組成をテストする可能性が開ける。

Figuring out the physical rationale behind natural selection of quantum theory is one of the most acclaimed quests in quantum foundational research. This pursuit has inspired several axiomatic initiatives to derive mathematical formulation of the theory by identifying general structure of state and effect space of individual systems as well as specifying their composition rules. This generic framework can allow several consistent composition rules for a multipartite system even when state and effect cones of individual subsystems are assumed to be quantum. Nevertheless, for any bipartite system, none of these compositions allows beyond quantum space-like correlations. In this letter we show that such bipartite compositions can admit stronger than quantum correlations in the time-like domain and, hence, indicates pragmatically distinct roles carried out by state and effect cones. We discuss consequences of such correlations in a communication task, which accordingly opens up a possibility of testing the actual composition between elementary quanta.
翻訳日:2023-03-21 21:27:22 公開日:2022-03-13
# 理論非依存トモグラフィを用いたフォトニック3レベルシステムにおける量子論からの実験的境界偏差

Experimentally bounding deviations from quantum theory for a photonic three-level system using theory-agnostic tomography ( http://arxiv.org/abs/2108.05864v2 )

ライセンス: Link先を確認
Michael Grabowecky, Christopher Pollack, Andrew Cameron, Robert Spekkens, Kevin Resch(参考訳) 可能な物理理論の風景の中で多くの代替物に対して量子論をテストしようとする場合、理論に依存しない方法で実験データを分析できることが不可欠である。 これは一般化確率論(GPT)の枠組みを用いて達成できる。 本稿では、3つのモード間で共有される1つの光子に対応する3レベルシステム上でgptトモグラフィーを行う。 本手法は実験で実施した各調製物および測定値のgptキャラクタリゼーションを,事前のキャラクタリゼーションを必要とせずに達成する。 実測値と実測値の集合がトモグラフィ的に完備であると仮定し、量子理論によって予測される値と一致して、3レベル系を記述するGPTベクトル空間の最も可能性の高い次元を9とする。 この次元に対して、実 GPT の状態と効果空間の内外界を与えるポリトープを同定することにより、実験データと整合した GPT の範囲を推定する。 これらのことから、量子論からの偏差の量的境界を決定することができる。 特に、我々は、非制限仮説が我々の3レベルシステムに違反する可能性がある程度に拘束する。

If one seeks to test quantum theory against many alternatives in a landscape of possible physical theories, then it is crucial to be able to analyze experimental data in a theory-agnostic way. This can be achieved using the framework of Generalized Probabilistic Theories (GPTs). Here, we implement GPT tomography on a three-level system corresponding to a single photon shared among three modes. This scheme achieves a GPT characterization of each of the preparations and measurements implemented in the experiment without requiring any prior characterization of either. Assuming that the sets of realized preparations and measurements are tomographically complete, our analysis identifies the most likely dimension of the GPT vector space describing the three-level system to be nine, in agreement with the value predicted by quantum theory. Relative to this dimension, we infer the scope of GPTs that are consistent with our experimental data by identifying polytopes that provide inner and outer bounds for the state and effect spaces of the true GPT. From these, we are able to determine quantitative bounds on possible deviations from quantum theory. In particular, we bound the degree to which the no-restriction hypothesis might be violated for our three-level system.
翻訳日:2023-03-18 17:03:04 公開日:2022-03-13
# デジタル量子シミュレーションと$\mathbb{Z}_2$ Gauge Higgsモデルの擬似量子シミュレーション

Digital quantum simulation and Pseudoquantum Simulation of $\mathbb{Z}_2$ Gauge Higgs Model ( http://arxiv.org/abs/2108.13410v2 )

ライセンス: Link先を確認
Yiming Ding, Xiaopeng Cui, Yu Shi(参考訳) 本稿では, トロッター分解, 量子アディアバティックアルゴリズム, 回路実現に基づく3ドル3セント格子上での$\mathbb{Z}_2$ gauge-Higgsモデルのディジタル量子シミュレーションのための量子アルゴリズムを提案する。 次に、GPUシミュレータ上で擬似量子シミュレーションと呼ばれる古典的な実演を行う。 このモデルでは,分解相の位相特性を示唆し,位相図の明確化に寄与する有用な結果が得られる。 2階の分断-分断-分断-分断-分断-分断-分断-分極遷移の臨界線が交わる三項点は、この臨界線の終点以外の一階の分断-分断-分極の臨界線上にあることが示唆されている。

We present a quantum algorithm for digital quantum simulation of the $\mathbb{Z}_2$ gauge-Higgs model on a $3\times 3$ lattice, which is based on Trotter decomposition, the quantum adiabatic algorithm and its circuit realization. Then we perform a classical demonstration, dubbed a pseudoquantum simulation, on a GPU simulator. We obtain useful results on this model, which suggest the topological properties of the deconfined phase and help to clarify the phase diagram. It is suggested that the tricitical point, where the second-order critical lines of deconfinement-confinement transition and of deconfinement-Higgs transition meet, seems to be on the the first-order critical line of confinement-Higgs transition, at a point other than the end of this critical line.
翻訳日:2023-03-17 00:44:50 公開日:2022-03-13
# フォトニック渦の量子論とねじれた光子の量子統計

Quantum theory of photonic vortices and quantum statistics of twisted photons ( http://arxiv.org/abs/2110.04705v5 )

ライセンス: Link先を確認
Li-Ping Yang and Dazhi Xu(参考訳) フォトニック渦の位相電荷は特異光学における必須量であり、ねじれた光の渦性を特徴づける重要なパラメータである。 しかし、光トポロジカル電荷の定義はいまだ解明されていない。 ここでは、フォトニック渦の包括的処理を提供するための理論的定式化を行う。 我々は,同軸ヘルムホルツ方程式からの連続性方程式に基づく光子電流密度とヘリシティ電流密度の量子演算子を導入する。 我々の定式化により、超流動中でのフォトニック電流の流速と循環を相似的に導入できる。 フォトニック電流の量子化された循環は伝播中に保存され、フォトニックトポロジカル電荷をフォトニック渦の巻数として明示的に定義する。 特に、光子電流が消滅する純ヘリシティ渦が生じるヘリシティ電流を予測する。 最後に、ねじれた光子対の量子統計が本質的にスピン状態によって決定される興味深い効果を示す。

The topological charge of a photonic vortex is an essential quantity in singular optics and the critical parameter to characterize the vorticity of twisted light. However, the definition of the photonic topological charge remains elusive. Here we put forth a theoretical formalism to provide a comprehensive treatment of photonic vortices. We introduce quantum operators for the photon current density and helicity current density based on the continuity equations from the paraxial Helmholtz equation. Our formalism allows us to introduce flow velocity and circulation for photonic currents in parallel to their counterparts in superfluids. The quantized circulation of the photonic currents is conserved during propagation and it gives an explicit definition of the photonic topological charge as the winding number of a photonic vortex. In particular, we predict helicity current generated pure helicity vortices, in which the photon current vanishes. Finally, we show an interesting effect that the quantum statistics of twisted photon pairs are essentially determined by their spin states.
翻訳日:2023-03-11 21:24:39 公開日:2022-03-13
# 球状気泡トラップにおける原子フェルミ超流動のBCS-BEC交差

BCS-BEC crossover of atomic Fermi superfluid in a spherical bubble trap ( http://arxiv.org/abs/2110.09496v3 )

ライセンス: Link先を確認
Yan He, Hao Guo, and Chih-Chun Chien(参考訳) 微小重力下での超低温原子に対する球状気泡トラップの実現に着想を得て,バーディーン・クーパー・シュリーファー (BCS) - ボース・アインシュタイン凝縮 (BEC) クロスオーバーを通り抜ける球状殻に魅力的な接触相互作用を持つ2成分原子フェルミガスの理論を提案する。 この導出はBCS-レゲット理論に従い、ギャップと数方程式を得る。 bcs-becクロスオーバーは相互作用のチューニングによって誘導され、適切に正規化されたギャップと化学ポテンシャルは平面や球面形状に関係なく普遍的な挙動を示す。 それにもかかわらず、球殻幾何学は曲率による交叉を誘導する別の方法を導入する。 曲率誘起BCS-BECクロスオーバーは、球を縮めながら粒子数と相互作用強度を固定し、ペアリングと運動エネルギーの比に還元し、BCS限界に向かってシステムを押し上げることによって可能となる。 超流動密度の飽和はさらに基底状態がフェルミ超流動であることを確認する。

We present a theory of a two-component atomic Fermi gas with tunable attractive contact interactions on a spherical shell going through the Bardeen-Cooper-Schrieffer (BCS) - Bose Einstein condensation (BEC) crossover, inspired by the realizations of spherical bubble traps for ultracold atoms in microgravity. The derivation follows the BCS-Leggett theory to obtain the gap and number equations. The BCS-BEC crossover can be induced by tuning the interaction, and the properly normalized gap and chemical potential exhibit universal behavior regardless of the planar or spherical geometry. Nevertheless, the spherical-shell geometry introduces another way of inducing the crossover by the curvature. The curvature-induced BCS-BEC crossover is made possible by fixing the particle number and interaction strength while shrinking the sphere, causing a reduction to the ratio of the pairing and kinetic energies and pushing the system towards the BCS limit. The saturation of the superfluid density further confirms the ground state is a Fermi superfluid.
翻訳日:2023-03-11 04:09:01 公開日:2022-03-13
# コヒーレント制御熱化による量子冷却

Quantum cooling activated by coherently-controlled thermalisation ( http://arxiv.org/abs/2201.06954v2 )

ライセンス: Link先を確認
Hanlin Nie, Tianfeng Feng, Samuel Longden and Vlatko Vedral(参考訳) 本稿では,n個の巡回因果順序の重ね合わせにn個の同一の熱分解チャネルを印加することにより,ico冷蔵庫の熱抽出能力を著しく向上できることを示すとともに,作業キュービットをqudit加工物質に置き換えることで,超低温環境においてさらに促進できることを示す。 さらに,制御対象システムと量子相関のある貯水池量子ビットへのアクセスを付加的に有する[1]で示される代替制御スワップスキームに対して,性能を(全nと温度で3倍に)大幅に向上させることができることを示した。 次に,[3, 4] に着想を得た結果, 熱力学的タスクに対する一般的な N-SWITCH プロトコルと比較して, N 個の同一熱チャネル(因果不確定性は役に立たない)の1つで作業系を熱処理する量子コヒーレント制御が制御SWAPs スキームにおいて同じ優位性を持つことを示した。 また、コヒーレントに制御された加熱チャネルを持つ実験的なシミュラブル量子冷却プロトコルを提供し、制御ターゲットシステムにのみアクセス可能な場合に、特定の熱チャネルの実装でICO冷凍機より優れていることを認識した。 これらの2つの量子冷却プロトコルは、非定型因果順序を持つものに比べて回路の複雑さがずっと低く、最先端の量子技術を用いたこの種の非古典的冷蔵庫の実装がより容易になる。

In this paper, we show that it is possible to significantly boost the heat extraction ability of the ICO fridge by applying N identical thermalising channels in a superposition of N cyclic causal orders[2], and that this can be further boosted in the ultracold regime by replacing the working qubit with a quDit working substance. Moreover, we show that for the alternative controlled-SWAPs scheme presented in [1] where one additionally has access to the reservoir qubits which are quantum correlated with the control-target system, the performance can be greatly enhanced in general (tripled for all N and temperatures). Then inspired by [3, 4], we show that quantum coherent control between thermalising a working system with one of N identical thermalising channels (where causal indefiniteness plays no role) yield same advantages in controlled-SWAPs scheme compared to the generalised N-SWITCH protocol for the thermodynamic task described in [1]. We also provide an experimental simulatable quantum cooling protocol with coherently-controlled thermalising channels and notice that it can outperform ICO refrigerator with some specific implementations of the thermalising channel in the case when we only have access to the control-target system. These 2 quantum cooling protocols bear much lower circuit complexity compared to the one with indefinite causal order which makes it more accessible for implementation of this type of nonclassical refrigerator with cutting edge quantum technologies.
翻訳日:2023-02-28 20:48:05 公開日:2022-03-13
# 衝突モデルにおける散逸誘起情報スクランブル

Dissipation induced information scrambling in a collision model ( http://arxiv.org/abs/2201.11470v2 )

ライセンス: Link先を確認
Yan Li, Xingli Li, and Jiasen Jin(参考訳) 本稿では,散逸系における情報のダイナミクスをストロボスコープでシミュレートする衝突モデルを提案する。 特に,ボソニックシステムとガウス環境状態の情報をスクランブルするために,全光学スキームが提案されている。 環境の変化により, 散逸が存在する場合, システムモードの過渡的三部間相互情報は, 情報スクランブルの出現を示す負の値を示す可能性がある。 また,動的不特定性に基づく非マルコビアン性は情報力学に影響を及ぼす。

In this paper, we present a collision model to stroboscopically simulate the dynamics of information in dissipative systems. In particular, an all-optical scheme is proposed to investigate the information scrambling of bosonic systems with Gaussian environmental states. By varying the states of environments, we find that in the presence of dissipation the transient tripartite mutual information of system modes may show negative value signaling the appearance of information scrambling. We also find that dynamical indivisibility based non-Markovianity play dual roles in affecting the dynamics of information.
翻訳日:2023-02-27 18:30:37 公開日:2022-03-13
# ランダムな量子ゲートの普遍集合の行列濃度不等式と効率

Matrix concentration inequalities and efficiency of random universal sets of quantum gates ( http://arxiv.org/abs/2202.05371v2 )

ライセンス: Link先を確認
Piotr Dulian and Adam Sawicki(参考訳) 量子ゲートのランダム集合 $\mathcal{s}$ に対して、$\mathcal{s}$ が $\delta$-approximate $t$-design となる確率の境界を与える。 特に、高い確率で$\delta$-approximate $t$-designを持つために何個のランダムゲートが必要であるかを示す。 また、$\delta$はその期待値$\mathbb{E}\delta$ for random $\mathcal{S}$にどのように集中するかを分析する。 我々の結果は対称ゲートと非対称ゲートの両方に対して有効である。

For a random set $\mathcal{S}$ of quantum gates we provide bounds on the probability that $\mathcal{S}$ forms a $\delta$-approximate $t$-design. In particular we show how many random gates are needed to have a $\delta$-approximate $t$-design with high probability. We also analyze how $\delta$ concentrates around its expected value $\mathbb{E}\delta$ for random $\mathcal{S}$. Our results are valid for both symmetric and non-symmetric sets of gates.
翻訳日:2023-02-26 04:31:08 公開日:2022-03-13
# 一般化不確かさ原理による量子絡み合い

Quantum Entanglement with Generalized Uncertainty Principle ( http://arxiv.org/abs/2203.06557v1 )

ライセンス: Link先を確認
DaeKil Park(参考訳) 一般化不確実性原理(GUP)補正量子力学において、結合調和振動子システムを導入することにより量子絡み合いがどのように修正されるかを検討する。 基底状態 $\rho_0$ とその縮小部分状態 $\rho_a = \mbox{tr}_b \rho_0$ を構成すると、$\rho_0$,すなわち${\cal e}_{eof} (\rho_0) = s_{von} (\rho_a)$ and ${\cal e}_{\gamma} (\rho_0) = s_{\gamma} (\rho_a)$, ここで $s_{von}$ と $s_{\gamma}$ は von neumann と r\'{e}nyi のエントロピーである。 すると、${\cal E}_{\gamma} (\rho_0)$は、$\gamma = 2, 3, \cdots$のとき、$\alpha$の増加とともに増加する。 注目すべき事実は、${\cal E}_{EoF} (\rho_0)$ が $\alpha$ のファーストオーダーを持たないことである。 この結果に基づいて、${\cal E}_{\gamma} (\rho_0)$ は $\gamma > 1$ または $\gamma < 1$ のとき、それぞれ非負の実 $\gamma$ に対して$\alpha$ が増加するか減少すると予想する。

We explore how the quantum entanglement is modified in the generalized uncertainty principle (GUP)-corrected quantum mechanics by introducing the coupled harmonic oscillator system. Constructing the ground state $\rho_0$ and its reduced substate $\rho_A = \mbox{Tr}_B \rho_0$, we compute two entanglement measures of $\rho_0$, i.e. ${\cal E}_{EoF} (\rho_0) = S_{von} (\rho_A)$ and ${\cal E}_{\gamma} (\rho_0) = S_{\gamma} (\rho_A)$, where $S_{von}$ and $S_{\gamma}$ are the von Neumann and R\'{e}nyi entropies, up to the first order of the GUP parameter $\alpha$. It is shown that ${\cal E}_{\gamma} (\rho_0)$ increases with increasing $\alpha$ when $\gamma = 2, 3, \cdots$. The remarkable fact is that ${\cal E}_{EoF} (\rho_0)$ does not have first-order of $\alpha$. Based on there results we conjecture that ${\cal E}_{\gamma} (\rho_0)$ increases or decreases with increasing $\alpha$ when $\gamma > 1$ or $\gamma < 1$ respectively for nonnegative real $\gamma$.
翻訳日:2023-02-22 05:46:47 公開日:2022-03-13
# エントロピー蓄積を用いた特徴デバイスによる量子鍵分布の有限鍵解析

Finite-Key Analysis of Quantum Key Distribution with Characterized Devices Using Entropy Accumulation ( http://arxiv.org/abs/2203.06554v1 )

ライセンス: Link先を確認
Ian George, Jie Lin, Thomas van Himbeeck, Kun Fang, Norbert L\"utkenhaus(参考訳) Entropy Accumulation Theorem (EAT)は、デバイス非依存の量子鍵分布(QKD)のようなデバイス非依存の量子情報処理タスクの有限サイズ速度を大幅に改善するために導入された。 自然な疑問は、デバイス依存QKDのレートも改善するかどうかだ。 本研究では,この問題に対する肯定的な回答を与える。 デバイス依存設定にEATを適用するための新しいツールを提案する。 我々はマルコフ連鎖条件を満たすのに十分な条件と、必要となるmin-tradeoff関数を構築するための一般的なアルゴリズムを示す。 従来のスムースミンエントロピーを考慮せず,サンドウィッチしたr\'{e}nyiエントロピーを直接最適化することで,キーレートを向上させる。 我々は,BB84プロトコルとqubit-basedバージョン,現実的なパラメトリックダウンコンバージョンソース,6状態4状態プロトコル,BB84プロトコルの高次元アナログなど,これらの新しいツールを例に挙げる。

The Entropy Accumulation Theorem (EAT) was introduced to significantly improve the finite-size rates for device-independent quantum information processing tasks such as device-independent quantum key distribution (QKD). A natural question would be whether it also improves the rates for device-dependent QKD. In this work, we provide an affirmative answer to this question. We present new tools for applying the EAT in the device-dependent setting. We present sufficient conditions for the Markov chain conditions to hold as well as general algorithms for constructing the needed min-tradeoff function. Utilizing Dupuis' recent privacy amplification without smoothing result, we improve the key rate by optimizing the sandwiched R\'{e}nyi entropy directly rather than considering the traditional smooth min-entropy. We exemplify these new tools by considering several examples including the BB84 protocol with the qubit-based version and with a realistic parametric downconversion source, the six-state four-state protocol and a high-dimensional analog of the BB84 protocol.
翻訳日:2023-02-22 05:46:01 公開日:2022-03-13
# 超伝導回路における絡み合い干渉相補性と実験実証

Entanglement-interference complementarity and experimental demonstration in a superconducting circuit ( http://arxiv.org/abs/2203.06549v1 )

ライセンス: Link先を確認
Xin-Jie Huang, Pei-Rong Han, Wen Ning, Shou-Ban Yang, Xin Zhu, Jia-Hao L\"u, Ri-Hua Zheng, Hekang Li, Zhen-Biao Yang, Qi-Cheng Wu, Kai Xu, Chui-Ping Yang, Dongning Zheng, Heng Fan, and Shi-Biao Zheng(参考訳) 干渉粒子とどの経路情報を取得するための検出器との間の量子絡み合いはボーアの相補原理を補強する中心的な役割を果たすが、この絡み合いと外界の可視性の間の量的関係は未だに触れられていない。 ここでは、この関係を定量化するための平等を見出す。 干渉パターンを一定量のコヒーレンスを担った干渉粒子が、経路検出器と一定の程度に絡み合っている場合に、その干渉パターンがいかにうまく保存できるかを特徴付ける。 この等式は、コヒーレンスの統一的な枠組みにおける絡み合いと干渉の間の接続を提供し、初めて量的絡み合い-干渉相補性を明らかにする。 共振器が干渉量子ビットの経路検出器として機能する超伝導回路とこの関係を実験的に示す。 その結果、量子エンタングルメントは、干渉パターンを損なうことなく、どの検出器もどの経路情報を取得することを禁止するメカニズムであることが示された。

Quantum entanglement between an interfering particle and a detector for acquiring the which-path information plays a central role for enforcing Bohr's complementary principle, but the quantitative relation between this entanglement and the fringe visibility remains untouched upon. Here we find an equality for quantifying this relation. Our equality characterizes how well the interference pattern can be preserved when an interfering particle, initially carrying a definite amount of coherence, is entangled with a which-path detector to a certain degree. This equality provides a connection between entanglement and interference in the unified framework of coherence, revealing the quantitative entanglement-interference complementarity for the first time. We experimentally demonstrate this relation with a superconducting circuit, where a resonator serves as a which-path detector for an interfering qubit. The results demonstrate quantum entanglement is the mechanism for prohibiting any detector from acquiring which-path information without deteriorating the interference pattern, which was not confirmed previously.
翻訳日:2023-02-22 05:45:33 公開日:2022-03-13
# 重力場をもつ正方形内部の古典的および量子ビリヤード

Classical and quantum billiard inside the square with gravitational field ( http://arxiv.org/abs/2203.06179v1 )

ライセンス: Link先を確認
Daniel Jaud(参考訳) 重力場の影響下での正方形箱内の粒子の古典的および量子的挙動について研究した。 周期軌道、確率密度、予測値、不確実性に関する詳細な計算を行う。

The classical and quantum behavior of a particle inside a square box under the influence of the gravitational field is studied. Detailed calculations on periodic orbits, probability densities as well as expectation values and uncertainties are carried out.
翻訳日:2023-02-22 05:45:08 公開日:2022-03-13
# 相対状態量子論理

Relative State Quantum Logic ( http://arxiv.org/abs/2203.06695v1 )

ライセンス: Link先を確認
Martin Paul Vaughan(参考訳) 相対状態の観点からの射影量子論理を開発し、研究中のシステムと環境の間の情報伝達の重要性を強調した。 システムの歴史的進化を説明する必要性が強調され、共役変数を含む観測の結合は一貫して定義できるが、非可換であることが判明した。 量子論理に対するバーホフとフォン・ノイマンのアプローチはそのような結合に対処できないことが示されている。 提案手法は一般には分配的ではないが,システムから環境への情報伝達時に消失する可能性のある干渉効果に直接関連していることがわかった。 射影に関連する確率は直交三元論理に写像され、除外された中間の法則が依然として成り立つことが示されている。

A projective quantum logic in terms of relative states is developed, emphasizing the importance of information transfer between a system under study and its environment. The need for accounting for the historical evolution of system is highlighted and it is found that the conjunction of observations involving conjugate variables can be consistently defined but is found to be non-commutative. It is shown that the Birkhoff and von Neumann approach to quantum logic is unable to deal with such conjunctions. It is found that whilst the proposed scheme is still not distributive in general, the discrepancy is directly related to interference effects that may disappear when information is transferred from the system to its environment. It is argued that the probabilities associated with projections be mapped to an orthocomplemented ternary logic, in which it is shown that the law of the excluded middle still holds.
翻訳日:2023-02-22 05:42:28 公開日:2022-03-13
# 窒素空洞中心と光メカニクスを用いた室温量子リピータの提案

Proposal for room-temperature quantum repeaters with nitrogen-vacancy centers and optomechanics ( http://arxiv.org/abs/2203.06611v1 )

ライセンス: Link先を確認
Jia-Wei Ji, Yu-Feng Wu, Stephen C. Wein, Faezeh Kimiaee Asadi, Roohollah Ghobadi, and Christoph Simon(参考訳) 環境条件下で動作可能な量子リピータアーキテクチャを提案する。 提案手法は, 室温でも良好なスピンコヒーレンス時間を有する窒素空孔中心と, フォノン関連デコヒーレンスを回避し, 発光光子をテレコムバンド内に配置できる光力学に基づく非低温スピン光子界面への最近の進展を基盤としている。 本研究では、光子数分解法を用いて、2つの遠隔電子スピン間の絡み合いの忠実度と効率を定量化する。 電子スピンと核スピンを含む操作を準決定論的に置き換えることで核スピンに格納し、長距離に拡張する方法について述べる。 さらに,スピン-オプトメカニクスインタフェースを用いて室温でのスピン状態の高忠実な読み出しを実現する手法を提案する。 我々の研究は、室温で作動する固体成分からなる長距離量子ネットワークが、現在の技術能力の範囲内にあることを示している。

We propose a quantum repeater architecture that can operate under ambient conditions. Our proposal builds on recent progress towards non-cryogenic spin-photon interfaces based on nitrogen-vacancy centers, which have excellent spin coherence times even at room temperature, and optomechanics, which allows to avoid phonon-related decoherence and also allows the emitted photons to be in the telecom band. We apply the photon number decomposition method to quantify the fidelity and the efficiency of entanglement established between two remote electron spins. We describe how the entanglement can be stored in nuclear spins and extended to long distances via quasi-deterministic entanglement swapping operations involving the electron and nuclear spins. We furthermore propose schemes to achieve high-fidelity readout of the spin states at room temperature using the spin-optomechanics interface. Our work shows that long-distance quantum networks made of solid-state components that operate at room temperature are within reach of current technological capabilities.
翻訳日:2023-02-22 05:41:00 公開日:2022-03-13
# 単一電子箱を用いたシリコンスピンの高速高忠実単一ショット読み出し

Fast high-fidelity single-shot readout of spins in silicon using a single-electron box ( http://arxiv.org/abs/2203.06608v1 )

ライセンス: Link先を確認
G. A. Oakes, V.N. Ciriano-Tejel, D. Wise, M. A. Fogarty, T. Lundberg, C. Lain\'e, S. Schaal, F. Martins, D. J. Ibberson, L. Hutin, B. Bertrand, N. Stelmashenko, J. A. W. Robinson, L. Ibberson, A. Hashim, I. Siddiqi, A. Lee, M. Vinet, C. G. Smith, J.J.L. Morton, and M. F. Gonzalez-Zalba(参考訳) 量子プロセッサにおける読み出しシステムの3つの主要な指標は、測定速度、忠実度、フットプリントである。 高速な高忠実な読み出しは、多くの動的アルゴリズムや量子エラー修正に必要な中循環測定を可能にする一方、小さなフットプリントは、コンピューティング性能の向上に伴うスケーラブルで高接続のアーキテクチャの設計を促進する。 本稿では,小型分散電荷センサを用いたシリコン量子ドット内のスピンの高速高忠実性単発読み出しの2つの相補的な実演を示す。 このセンサーは従来の検出器よりも少ない電極を必要とするが、6ドル以下で99.2%のスピン読み出し精度を達成している。 検出点に高結合した低損失高インピーダンス共振器とジョセフソンパラメトリック増幅が最適性能を実現する上で有効であることを示す。 我々は,これらの読み出し方式におけるスピン対電荷変換機構として,スピン依存トンネル上のポーリスピン遮断の利点を定量化する。 本研究は、スケーラブル半導体スピンベース量子プロセッサの読み出し手法の最前線に分散電荷センサを配置した。

Three key metrics for readout systems in quantum processors are measurement speed, fidelity and footprint. Fast high-fidelity readout enables mid-circuit measurements, a necessary feature for many dynamic algorithms and quantum error correction, while a small footprint facilitates the design of scalable, highly-connected architectures with the associated increase in computing performance. Here, we present two complementary demonstrations of fast high-fidelity single-shot readout of spins in silicon quantum dots using a compact, dispersive charge sensor: a radio-frequency single-electron box. The sensor, despite requiring fewer electrodes than conventional detectors, performs at the state-of-the-art achieving spin read-out fidelity of 99.2% in less than 6 $\mu$s. We demonstrate that low-loss high-impedance resonators, highly coupled to the sensing dot, in conjunction with Josephson parametric amplification are instrumental in achieving optimal performance. We quantify the benefit of Pauli spin blockade over spin-dependent tunneling to a reservoir, as the spin-to-charge conversion mechanism in these readout schemes. Our results place dispersive charge sensing at the forefront of readout methodologies for scalable semiconductor spin-based quantum processors.
翻訳日:2023-02-22 05:40:41 公開日:2022-03-13
# パイルブレーキング光子の共鳴吸収による超伝導量子の準粒子捕集

Quasiparticle Poisoning of Superconducting Qubits from Resonant Absorption of Pair-breaking Photons ( http://arxiv.org/abs/2203.06577v1 )

ライセンス: Link先を確認
Chuan-Hong Liu, David C. Harrison, Shravan Patel, Christopher D. Wilen, Owen Rafferty, Abigail Shearrow, Andrew Ballard, Vito Iaia, Jaseung Ku, Britton L.T. Plourde, Robert McDermott(参考訳) 理想的な超伝導体は、量子コンピュータの繊細な状態に対して原始的な環境を提供する:励起にエネルギーギャップがあるため、量子ビットが相互作用できる刺激モードがなく、量子状態の不可逆的な崩壊を引き起こす。 しかし、実用上、超低温でも超伝導基底状態から励起される密度は高く、準粒子と呼ばれる。 観測された準粒子密度は、1〜$\mu$m$^{-3}$であり、理論から期待される平衡密度よりも数十桁大きい。 非平衡準粒子は、クォービットモードからエネルギーを抽出し、劣化の潜在的な源であるクォービットオフセット電荷の離散的な変化を誘導する。 ここで, 超伝導量子ビットにおける準粒子中毒の主なメカニズムは, 量子ビット接合部における高エネルギー光子の直接吸収である。 我々はジョセフソン接合型光子源を用いて、ミリ波放射による量子ビット回路の帯電を制御し、量子ゲートシーケンスを用いてクビット島の電荷パリティを再構成する。 量子ビット自体の構造はミリ波放射の共振アンテナとして働き、光子が準粒子励起を生成するための効率的な経路を提供する。 この物理学の深い理解は、準粒子中毒に対して堅牢であり、暗黒物質検出のための新しい種類の量子センサーを可能にする次世代超伝導量子ビットの実現の道を開くだろう。

The ideal superconductor provides a pristine environment for the delicate states of a quantum computer: because there is an energy gap to excitations, there are no spurious modes with which the qubits can interact, causing irreversible decay of the quantum state. As a practical matter, however, there exists a high density of excitations out of the superconducting ground state even at ultralow temperature; these are known as quasiparticles. Observed quasiparticle densities are of order 1~$\mu$m$^{-3}$, tens of orders of magnitude larger than the equilibrium density expected from theory. Nonequilibrium quasiparticles extract energy from the qubit mode and induce discrete changes in qubit offset charge, a potential source of dephasing. Here we show that a dominant mechanism for quasiparticle poisoning in superconducting qubits is direct absorption of high-energy photons at the qubit junction. We use a Josephson junction-based photon source to controllably dose qubit circuits with millimeter-wave radiation, and we use an interferometric quantum gate sequence to reconstruct the charge parity on the qubit island. We find that the structure of the qubit itself acts as a resonant antenna for millimeter-wave radiation, providing an efficient path for photons to generate quasiparticle excitations. A deep understanding of this physics will pave the way to realization of next-generation superconducting qubits that are robust against quasiparticle poisoning and could enable a new class of quantum sensors for dark matter detection.
翻訳日:2023-02-22 05:40:05 公開日:2022-03-13
# 資源非増加フレームワークによる量子動的資源理論

Quantum Dynamical Resource Theory under Resource Non-increasing Framework ( http://arxiv.org/abs/2203.06561v1 )

ライセンス: Link先を確認
Siren Yang and Changshui Yu(参考訳) 我々は動的資源理論を研究するためにrni(resource non-increasing)フレームワークを否定する。 このような脱却により,様々な自由操作セットの下での量子化候補候補を複数提案する。 明示的な実演では、後選択的な測定を伴わずとも、シナリオにおける量子力学のコヒーレンスを定量化する。 それに対応して、静的コヒーレンス資源理論における最大不整合演算(MIO)と不整合演算(IO)が動的コヒーレンスという意味で自由であることを示す。 また、量子識別タスクによる測度に対する運用上の意味も提供する。 さらに, 動的全コヒーレンスに対して, 簡便な尺度を示し, 振幅減衰チャネルの解析計算を行う。

We defne the resource non-increasing (RNI) framework to study the dynamical resource theory. With such a defnition, we propose several potential quantifcation candidates under various free operation sets. For explicit demonstrations, we quantify the quantum dynamical coherence in the scenarios with and without post-selective measurements. Correspondingly, we show that maximally incoherent operations (MIO) and incoherent operations (IO) in the static coherence resource theory are free in the sense of dynamical coherence. We also provide operational meanings for the measures by the quantum discrimination tasks. Moreover, for the dynamical total coherence, we also present convenient measures and give the analytic calculation for the amplitude damping channel.
翻訳日:2023-02-22 05:39:44 公開日:2022-03-13
# 注意モジュールとニュースセンシティメントを用いた動的・文脈依存型株価予測

Dynamic and Context-Dependent Stock Price Prediction Using Attention Modules and News Sentiment ( http://arxiv.org/abs/2205.01639v1 )

ライセンス: Link先を確認
Nicole Koenigstein(参考訳) 代替データのような金融における機械可読データの成長には、非定常データや非パラメトリックデータを扱う新しいモデリング技術が必要である。 基礎となる因果依存性とデータのサイズと複雑さから,金融時系列データに対する新たなモデリング手法である$\alpha_{t}$-rim (recurrent independent mechanism)を提案する。 このアーキテクチャはキーバリューの注意を使って、トップダウンとボトムアップの情報をコンテキストに依存して動的に統合する。 そのようなダイナミックな方法でデータをモデル化するために、$\alpha_{t}$-RIMは指数論的にスムーズなリカレントニューラルネットワークを使用し、非定常時系列データをモジュラーと独立のリカレント構造と組み合わせることができる。 我々は、s\&p 500宇宙の3つの選択された株式の終値とニュースの感想スコアにこのアプローチを適用した。 その結果、$\alpha_{t}$-rimは株価とニュースの感情の因果構造や季節性や傾向を反映していることが示唆された。 したがって、このモデリングアプローチは、非知覚データの一般化性能、すなわち予測を著しく改善し、長期短期記憶モデルのような最先端のネットワークを上回る。

The growth of machine-readable data in finance, such as alternative data, requires new modeling techniques that can handle non-stationary and non-parametric data. Due to the underlying causal dependence and the size and complexity of the data, we propose a new modeling approach for financial time series data, the $\alpha_{t}$-RIM (recurrent independent mechanism). This architecture makes use of key-value attention to integrate top-down and bottom-up information in a context-dependent and dynamic way. To model the data in such a dynamic manner, the $\alpha_{t}$-RIM utilizes an exponentially smoothed recurrent neural network, which can model non-stationary times series data, combined with a modular and independent recurrent structure. We apply our approach to the closing prices of three selected stocks of the S\&P 500 universe as well as their news sentiment score. The results suggest that the $\alpha_{t}$-RIM is capable of reflecting the causal structure between stock prices and news sentiment, as well as the seasonality and trends. Consequently, this modeling approach markedly improves the generalization performance, that is, the prediction of unseen data, and outperforms state-of-the-art networks such as long short-term memory models.
翻訳日:2023-02-22 05:33:11 公開日:2022-03-13
# 摂動交差を伴う量子アニールスペクトルに対するXX触媒の効果

Effects of XX-catalysts on quantum annealing spectra with perturbative crossings ( http://arxiv.org/abs/2203.06779v1 )

ライセンス: Link先を確認
Natasha Feinstein, Louis Fry-Bouriaux, Sougato Bose, P. A. Warburton(参考訳) Adiabatic Quantum Annealingの効率は、地面とアニールエネルギースペクトルの最初の励起状態の間に現れる最小ギャップのシステムサイズによるスケーリングによって制限される。 一般に,システムサイズに比例してギャップサイズが指数関数的に閉じる回避レベル交差が存在するため,多項式時間における最適化問題の解を見つけることができない。 より良好なギャップスケーリングを実現するために検討されている有望な道の1つは、触媒の形で非確率的なXXカップリングを導入することである。 ここでは、最適化問題の符号化の微妙な変化に対するXX触媒の効果の極端な感度を示す。 回避レベル交差における最小ギャップを高めるために設計された触媒は、特定の条件下ではスペクトルのギャップを閉じることができる。 これらの閉鎖ギャップの起源を理解するために,触媒の存在によって基底状態ベクトルの進化がどう変化するかを検討する。 基底状態ベクトルの負成分はギャップスペクトルの応答を理解するための鍵となる。 特に閉区間は、進化の過程でベクトル成分が負となる変化に対応する。 我々はまた、これらの閉ざされたギャップをダイアバティック量子アニーリングプロトコル(英語版)で利用し得る時と方法についても検討する - より高いエネルギーレベルへの遷移を利用してアルゴリズムの実行時間を短縮する、断熱量子アニーリングに代わる有望な方法である。

The efficiency of Adiabatic Quantum Annealing is limited by the scaling with system size of the minimum gap that appears between the ground and first excited state in the annealing energy spectrum. In general the algorithm is unable to find the solution to an optimisation problem in polynomial time due to the presence of avoided level crossings at which the gap size closes exponentially with system size. One promising avenue being explored to produce more favourable gap scaling is the introduction of non-stoquastic XX-couplings in the form of a catalyst - of particular interest are catalysts which utilise accessible information about the optimisation problem in their construction. Here we show extreme sensitivity of the effect of an XX-catalyst to subtle changes in the encoding of the optimisation problem. We observe that catalysts designed to enhance the minimum gap at an avoided level crossing can, under certain conditions, result in closing gaps in the spectrum. To understand the origin of these closing gaps, we study how the evolution of the ground state vector is altered by the presence of the catalyst. We find that the negative components of the ground state vector are key to understanding the response of the gap spectrum. In particular the closing gaps correspond to changes in which vector components become negative over the course of the evolution. We also consider how and when these closing gaps could be utilised in diabatic quantum annealing protocols - a promising alternative to adiabatic quantum annealing in which transitions to higher energy levels are exploited to reduce the run time of the algorithm.
翻訳日:2023-02-22 05:32:47 公開日:2022-03-13
# 時計を見る:ページ・ウォッター形式と内部量子参照フレームプログラムの解釈

Watching the Clocks: Interpreting the Page-Wootters Formalism and the Internal Quantum Reference Frame Programme ( http://arxiv.org/abs/2203.06755v1 )

ライセンス: Link先を確認
Emily Adlam(参考訳) ページウォッターと内部量子参照フレームの形式論を解釈しようとする際に生じるいくつかの困難について議論し、それらの形式論に対して実効性のある単世界実数論的な解釈が存在することを示すために「最終的な測定」アプローチを用いる。 これらのアプローチで呼び出される「参照フレーム」が運用上有意義かどうかを判断するには、いくつかの解釈を採用する必要があることに留意し、明確な操作的解釈がなければ、そのような参照フレームは等価原理を定義するのに適さないかもしれないと論じる。 重ね合わせの概念は、進行中の動的進化に瞬時状態が組み込まれている方法を考慮に入れるべきであり、これはこれらのアプローチにおける重ね合わせの相対性についてより微妙な考え方につながる。 これらの手法の運用内容は,少なくとも1つの参照システムのサイズが大きくなるにつれて限界にのみ現れるため,これらの形式は,我々のマクロ的参照フレームが完全に関係的な事実からどのように現れるかを示す上で重要な役割を担っている。

We discuss some difficulties that arise in attempting to interpret the Page-Wootters and Internal Quantum Reference Frames formalisms, then use a 'final measurement' approach to demonstrate that there is a workable single-world realist interpretation for these formalisms. We note that it is necessary to adopt some interpretation before we can determine if the 'reference frames' invoked in these approaches are operationally meaningful, and we argue that without a clear operational interpretation, such reference frames might not be suitable to define an equivalence principle. We argue that the notion of superposition should take into account the way in which an instantaneous state is embedded in ongoing dynamical evolution, and this leads to a more nuanced way of thinking about the relativity of superposition in these approaches. We conclude that typically the operational content of these approaches appears only in the limit as the size of at least one reference system becomes large, and therefore these formalisms have an important role to play in showing how our macroscopic reference frames can emerge out of wholly relational facts.
翻訳日:2023-02-22 05:32:08 公開日:2022-03-13
# H型イオンのK殻電子による陽電子の2光子消滅

Two-photon Annihilation of Positrons with K-shell Electrons of H-like ions ( http://arxiv.org/abs/2203.06754v1 )

ライセンス: Link先を確認
Z. A. Mandrykina, V. A. Zaytsev, V. A. Yerokhin, and V. M. Shabaev(参考訳) H型イオンの1s状態に電子が結合した陽電子の2光子消滅は、完全に相対論的QEDフレームワーク内で計算される。 核との相互作用は非摂動論的に扱われるので、重いイオンの強い結合した内殻を持つ消滅に対して計算を行うことができる。 放射された光子の1つが低周波限界に近づくと現れる赤外線ダイバージェンスが最終表現から正確に除去される。 2光子と1光子の消滅過程の全断面積は、幅広い衝突エネルギーと核電荷数に対して比較される。 2光子消滅チャネルは低zイオンと中zイオンの1光子チャネルで支配されるが、高zイオンでは状況が逆転する。

The two-photon annihilation of a positron with an electron bound in the 1s state of a H-like ion is calculated within the fully relativistic QED framework. The interaction with the nucleus is treated nonperturbatively, thus allowing the calculations to be carried out for the annihilation with strongly-bound inner shells of heavy ions. Infrared divergences, appearing when one of the emitted photons approaches the low-frequency limit, are accurately eliminated from final expressions. The total cross section of the two-photon and one-photon annihilation processes are compared for a wide range of collision energies and nuclear charge numbers. It is demonstrated that the two-photon annihilation channel dominates over the one-photon channel for the low and medium-Z ions, whereas for the high-Z ions the situation reverses.
翻訳日:2023-02-22 05:31:47 公開日:2022-03-13
# 2光子ディッケモデルによる強化光子スクイーズ

Enhanced Photon Squeezing in Two-Photon Dicke Model ( http://arxiv.org/abs/2203.06720v1 )

ライセンス: Link先を確認
Priyankar Banerjee, Deepti Sharma and Aranya B Bhattacherjee(参考訳) 熱力学的極限における平均場近似の下での2光子ディッケモデルにおける光子の二次スクイーズ現象を考察する。 光子スクイージングの強度は、結合強度が系の基本周波数の1つと同じ等級である領域において最大化される。 この領域は非有界地域(unbounded region)と呼ばれる。 フォトニック二次体のスクイージングは、量子臨界点付近と非有界領域の両方において、スクイージングが標準量子限界をはるかに超える超ラジアント相でのみ観測できる。 しかし, 長時間スクイージングは後者の場合のみ得られる。 さらに, 非有界領域近傍の光子スクイーズにおける臨界挙動について検討した。

We explore the phenomena of quadrature squeezing of photons in the Two-Photon Dicke Model under the mean-field approximation in the thermodynamic limit. The strength of photon squeezing is maximized in the region where the coupling strength is of the same order of magnitude as one of the fundamental frequency of the system. This particular region is termed as the unbounded region. The squeezing of the photonic quadratures can be observed only in the superradiant phase where the squeezing is well beyond the standard quantum limit both near the quantum critical point as well as the unbounded region. However, prolonged squeezing is only obtained in the latter case. Furthermore, we explore the critical behavior of photon squeezing near the unbounded region.
翻訳日:2023-02-22 05:31:17 公開日:2022-03-13
# スピン鎖星系:スピン量子ビットの複数の鎖を絡む

Spin-chain-star systems: entangling multiple chains of spin qubits ( http://arxiv.org/abs/2203.06711v1 )

ライセンス: Link先を確認
R. Grimaudo, A. S. M. de Castro, A. Messina, and D. Valenti(参考訳) スピン鎖星系は、各鎖のスピンと中心鎖の間のn方向多体相互作用によって特徴づけられる。 このような系はユニタリ変換によって標準スピンスター系に正確にマッピングできることを示す。 このようなアプローチは、xxスピンチェーンスターモデルの動的問題の解を可能とし、鎖間の絡み合いの概念に基づいて、系内の量子相関の出現を透過的に示す。

We consider spin-chain-star systems characterized by N-wise many-body interactions between the spins in each chain and the central one. We show that such systems can be exactly mapped into standard spin-star systems through unitary transformations. Such an approach allows the solution of the dynamic problem of an XX spin-chain-star model and transparently shows the emergence of quantum correlations in the system, based on the idea of entanglement between chains.
翻訳日:2023-02-22 05:30:46 公開日:2022-03-13
# 土壌水分推定におけるセンサ配置の影響:実例による検討

Impact of sensor placement in soil water estimation: A real-case study ( http://arxiv.org/abs/2203.06548v1 )

ライセンス: Link先を確認
Erfan Orouskhani, Soumya R. Sahoo, Bernard T. Agyeman, Song Bo, Jinfeng Liu (University of Alberta)(参考訳) クローズドループ灌水システムを実現する上で不可欠な要素の1つは、限られた数のセンサに基づく土壌水分の推定である。 関連する問題のひとつは、優れた土壌水分推定が得られるようにセンサを設置する最適な場所を決定することである。 前報では, 農業水理システムの土壌水分推定に最適なセンサ配置の問題に対処するために, 可観測性のモーダル度を用いた。 最適配置センサにより土壌水分推定性能が向上することを示した。 しかし, 最適なセンサ配置が実際の土壌水分推定性能を著しく向上するかどうかは明らかでない。 本研究では,カナダアルバータ州lethbridgeの農地におけるセンサ配置が土壌水分の推定に及ぼす影響について検討した。 実験では, 異なる深さに42種類の土壌水分センサを設置し, 生育期の土壌水分測定を行った。 研究分野の異種土壌パラメータを用いた3次元農業水理モデルを開発した。 最適センサ位置を決定するために3次元システムに観測可能性のモーダル度を適用した。 データ同化ツールとして拡張カルマンフィルタ(ekf)を選択し,土壌水分量の推定を行った。 異なるシナリオに対する土壌水分推定結果を求め, センサ配置が実用途における土壌水分推定性能に及ぼす影響について検討した。

One of the essential elements in implementing a closed-loop irrigation system is soil moisture estimation based on a limited number of available sensors. One associated problem is the determination of the optimal locations to install the sensors such that good soil moisture estimation can be obtained. In our previous work, the modal degree of observability was employed to address the problem of optimal sensor placement for soil moisture estimation of agro-hydrological systems. It was demonstrated that the optimally placed sensors can improve the soil moisture estimation performance. However, it is unclear whether the optimal sensor placement can significantly improve the soil moisture estimation performance in actual applications. In this work, we investigate the impact of sensor placement in soil moisture estimation for an actual agricultural field in Lethbridge, Alberta, Canada. In an experiment on the studied field, 42 soil moisture sensors were installed at different depths to collect the soil moisture measurements for one growing season. A three-dimensional agro-hydrological model with heterogeneous soil parameters of the studied field is developed. The modal degree of observability is applied to the three-dimensional system to determine the optimal sensor locations. The extended Kalman filter (EKF) is chosen as the data assimilation tool to estimate the soil moisture content of the studied field. Soil moisture estimation results for different scenarios are obtained and analyzed to investigate the effects of sensor placement on the performance of soil moisture estimation in the actual applications.
翻訳日:2023-02-19 15:34:52 公開日:2022-03-13
# 緊急対応のための意思決定支援システムの設計:課題と機会

Designing Decision Support Systems for Emergency Response: Challenges and Opportunities ( http://arxiv.org/abs/2202.11268v2 )

ライセンス: Link先を確認
Geoffrey Pettet and Hunter Baxter and Sayyed Mohsen Vazirizade and Hemant Purohit and Meiyi Ma and Ayan Mukhopadhyay and Abhishek Dubey(参考訳) 道路事故等の事故に対応する効果的な緊急対応管理システム(ERM)を設計することは,地域社会が直面する大きな問題である。 毎日の頻繁な事故への対応に加えて(約2億4000万の救急医療サービスコールと米国で毎年500万件の交通事故)、これらのシステムは自然災害時の対応も支援している。 近年、緊急対応者がより効率的かつ効果的に対応できるような意思決定支援と最適化ツールの構築に一貫した関心が寄せられている。 これには、初期インシデント検出、インシデント予測、戦略的リソース割り当てとディスパッチポリシを実装する、多数の原則化されたサブシステムが含まれている。 本稿では,重要な課題を取り上げ,我々のチームがコミュニティパートナと共同で開発したアプローチの概要を紹介する。

Designing effective emergency response management (ERM) systems to respond to incidents such as road accidents is a major problem faced by communities. In addition to responding to frequent incidents each day (about 240 million emergency medical services calls and over 5 million road accidents in the US each year), these systems also support response during natural hazards. Recently, there has been a consistent interest in building decision support and optimization tools that can help emergency responders provide more efficient and effective response. This includes a number of principled subsystems that implement early incident detection, incident likelihood forecasting and strategic resource allocation and dispatch policies. In this paper, we highlight the key challenges and provide an overview of the approach developed by our team in collaboration with our community partners.
翻訳日:2023-02-19 15:07:27 公開日:2022-03-13
# 2層ReLUニューラルネットワークの隠れ凸最適化景観:最適解の具体的評価

The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural Networks: an Exact Characterization of the Optimal Solutions ( http://arxiv.org/abs/2006.05900v4 )

ライセンス: Link先を確認
Yifei Wang, Jonathan Lacotte and Mert Pilanci(参考訳) コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。 我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。 凸最適化プログラムの解の集合を考えると、最適なニューラルネットワークのセット全体を正確に構築する方法を示します。 この最適集合とその不変変換の詳細な特徴付けを提供する。 凸の視点のさらなる結果として (i)確率的勾配降下によって発見されたクラーク定常点が、サブサンプル凸問題の大域的最適性に対応することを立証する。 (ii)ニューラルネットワークがトレーニング損失のグローバル最小であるかどうかをチェックする多項式時間アルゴリズムを提供する。 (iii)任意のニューラルネットワークとそのサブレベル集合のグローバル最小値の間の連続経路を明示的に構成する。 (iv)隠れた層の最小サイズを特徴付け、ニューラルネットワーク最適化のランドスケープはスプリアスな谷を持たない。 全体として、凸性によるニューラルネットワークトレーニング損失の展望を研究するための豊富なフレームワークを提供する。

We prove that finding all globally optimal two-layer ReLU neural networks can be performed by solving a convex optimization program with cone constraints. Our analysis is novel, characterizes all optimal solutions, and does not leverage duality-based analysis which was recently used to lift neural network training into convex spaces. Given the set of solutions of our convex optimization program, we show how to construct exactly the entire set of optimal neural networks. We provide a detailed characterization of this optimal set and its invariant transformations. As additional consequences of our convex perspective, (i) we establish that Clarke stationary points found by stochastic gradient descent correspond to the global optimum of a subsampled convex problem (ii) we provide a polynomial-time algorithm for checking if a neural network is a global minimum of the training loss (iii) we provide an explicit construction of a continuous path between any neural network and the global minimum of its sublevel set and (iv) characterize the minimal size of the hidden layer so that the neural network optimization landscape has no spurious valleys. Overall, we provide a rich framework for studying the landscape of neural network training loss through convexity.
翻訳日:2022-11-23 04:38:53 公開日:2022-03-13
# 運転者の赤信号走行行動予測と技術に基づく対策に関するレビュー

A Review on Drivers Red Light Running Behavior Predictions and Technology Based Countermeasures ( http://arxiv.org/abs/2008.06727v3 )

ライセンス: Link先を確認
Md Mostafizur Rahman Komol, Jack Pinnow, Mohammed Elhenawy, Shamsunnahar Yasmin, Mahmoud Masoud, Sebastien Glaser and Andry Rakotonirainy(参考訳) 信号交差点で走る赤信号は世界中の道路安全の問題であり、先進的なインテリジェント交通技術や対策の急速な発展につながっている。 しかし、既存の研究はこれらの技術に基づく技術革新が安全性を向上させる効果を要約して提示していない。 本稿では,赤信号の動作予測手法と技術に基づく対策について概観する。 具体的には,信号交差点における赤信号の走行・停止・行動作を対象とする2つの文献ストリームの総合的なレビューを行うこと,(1)赤信号の走行・停止・行関連運転行動のモデル化と予測に焦点を当てること,(2)安全でない動作に対処する様々な技術に基づく対策の効果に焦点を当てることを目的とした研究である。 この研究は、研究者や利害関係者が赤信号の走行と停止、関連する運転行動の最良の識別方法を理解し、リスクの高い行動に対処し、関連する安全性を改善するための対策を実施するための体系的なガイドを提供する。

Red light running at signalised intersections is a growing road safety issue worldwide, leading to the rapid development of advanced intelligent transportation technologies and countermeasures. However, existing studies have yet to summarise and present the effect of these technology based innovations in improving safety. This paper represents a comprehensive review of red light running behaviour prediction methodologies and technology-based countermeasures. Specifically, the major focus of this study is to provide a comprehensive review on two streams of literature targeting red light running and stop and go behaviour at signalised intersection (1) studies focusing on modelling and predicting the red light running and stop and go related driver behaviour and (2) studies focusing on the effectiveness of different technology based countermeasures which combat such unsafe behaviour. The study provides a systematic guide to assist researchers and stakeholders in understanding how to best identify red light running and stop and go associated driving behaviour and subsequently implement countermeasures to combat such risky behaviour and improve the associated safety.
翻訳日:2022-10-28 20:35:50 公開日:2022-03-13
# SWIPENET:雑音の多い水中画像における物体検出

SWIPENET: Object detection in noisy underwater images ( http://arxiv.org/abs/2010.10006v3 )

ライセンス: Link先を確認
Long Chen, Feixiang Zhou, Shengke Wang, Junyu Dong, Ning Li, Haiping Ma, Xin Wang and Huiyu Zhou(参考訳) 近年,ディープラーニングに基づくオブジェクト検出手法は,制御環境において有望な性能を実現している。 しかし,これらの手法では,(1)水中のデータセットと実際のアプリケーション内の画像はぼやけ,(2)検出器を混乱させる激しいノイズを伴う場合,(2)実際のアプリケーション内のオブジェクトは通常小さくなるという課題により,水中物体検出に十分な能力が欠如している。 本稿では,この2つの問題に同時に対処するために,Sample-WeIghted hyPEr Network(SWIPENET)とCurriculum Multi-Class Adaboost(CMA)という堅牢なトレーニングパラダイムを提案する。 まず、SWIPENETのバックボーンは、複数の高解像度かつセマンティックリッチなハイパーフィーチャーマップを生成し、小さなオブジェクト検出を大幅に改善する。 第二に,SWIPENETでは,高重量サンプルの学習と低重量サンプルの学習に重点を置いた新しいサンプル重み検出損失関数が設計されている。 さらに,難解な概念から難解な概念へと学習を促す人間教育プロセスに着想を得て,まず,ノイズデータの影響のないクリーン検出器を訓練するcmaトレーニングパラダイムを提案する。 そして、クリーン検出器に基づいて、多種多様なノイズデータを学習する複数の検出器を訓練し、強雑音免疫の統一された深層アンサンブルに組み込む。 2つの水中ロボットピッキングコンテストデータセット(URPC2017とURPC2018)の実験により、提案したSWIPENET+CMAフレームワークは、いくつかの最先端アプローチに対して、オブジェクト検出の精度が向上することが示された。

In recent years, deep learning based object detection methods have achieved promising performance in controlled environments. However, these methods lack sufficient capabilities to handle underwater object detection due to these challenges: (1) images in the underwater datasets and real applications are blurry whilst accompanying severe noise that confuses the detectors and (2) objects in real applications are usually small. In this paper, we propose a novel Sample-WeIghted hyPEr Network (SWIPENET), and a robust training paradigm named Curriculum Multi-Class Adaboost (CMA), to address these two problems at the same time. Firstly, the backbone of SWIPENET produces multiple high resolution and semantic-rich Hyper Feature Maps, which significantly improve small object detection. Secondly, a novel sample-weighted detection loss function is designed for SWIPENET, which focuses on learning high weight samples and ignore learning low weight samples. Moreover, inspired by the human education process that drives the learning from easy to hard concepts, we here propose the CMA training paradigm that first trains a clean detector which is free from the influence of noisy data. Then, based on the clean detector, multiple detectors focusing on learning diverse noisy data are trained and incorporated into a unified deep ensemble of strong noise immunity. Experiments on two underwater robot picking contest datasets (URPC2017 and URPC2018) show that the proposed SWIPENET+CMA framework achieves better accuracy in object detection against several state-of-the-art approaches.
翻訳日:2022-10-05 21:15:26 公開日:2022-03-13
# 非有界大規模環境における資源割当のための分散微分プライベートアルゴリズム

A Distributed Differentially Private Algorithm for Resource Allocation in Unboundedly Large Settings ( http://arxiv.org/abs/2011.07934v2 )

ライセンス: Link先を確認
Panayiotis Danassis, Aleksei Triastcyn, Boi Faltings(参考訳) 我々は,マルチエージェントシステムの基本問題であるマッチングとアロケーションの探索を(都市環境におけるリソース割り当て,モビリティ・オン・デマンド・システムなど)無制限に大規模設定で解決し,最悪の場合の強力なプライバシー保証を提供するための実用的でスケーラブルなアルゴリズム(palma)を導入する。 PALMAは分散化され、デバイス上で動作し、エージェント間通信を必要としない。 我々は、PALMAを、両方の実際のデータを用いて、モビリティ・オン・デマンドと紙の割り当てシナリオで評価し、強力なプライバシーレベル(\varepsilon \leq 1$、中央値が$\varepsilon = 0.5$)と高品質なマッチング(最大8.6%)を提供することを示した。

We introduce a practical and scalable algorithm (PALMA) for solving one of the fundamental problems of multi-agent systems -- finding matches and allocations -- in unboundedly large settings (e.g., resource allocation in urban environments, mobility-on-demand systems, etc.), while providing strong worst-case privacy guarantees. PALMA is decentralized, runs on-device, requires no inter-agent communication, and converges in constant time under reasonable assumptions. We evaluate PALMA in a mobility-on-demand and a paper assignment scenario, using real data in both, and demonstrate that it provides a strong level of privacy ($\varepsilon \leq 1$ and median as low as $\varepsilon = 0.5$ across agents) and high-quality matchings (up to $86\%$ of the non-private optimal, outperforming even the privacy-preserving centralized maximum-weight matching baseline).
翻訳日:2022-09-25 00:58:20 公開日:2022-03-13
# (参考訳) マルウェア検出のための静的,動的,ハイブリッド解析の比較

A Comparison of Static, Dynamic, and Hybrid Analysis for Malware Detection ( http://arxiv.org/abs/2203.09938v1 )

ライセンス: CC BY 4.0
Anusha Damodaran and Fabio Di Troia and Visaggio Aaron Corrado and Thomas H. Austin and Mark Stamp(参考訳) 本研究では,静的,動的,ハイブリッド解析に基づくマルウェア検出手法の比較を行った。 具体的には、静的特徴セットと動的特徴セットの両方でHMM(Hidden Markov Models)を訓練し、その結果の検出率を相当数のマルウェア群と比較する。 また,動的解析をトレーニングフェーズで,静的手法を検出フェーズで使用するハイブリッドケースについても検討し,その逆も検討した。 我々の実験では、完全にダイナミックなアプローチは一般的に最高の検出率をもたらす。 本稿では,ハイブリッド技術を用いたマルウェア検出における本研究の意義について論じる。

In this research, we compare malware detection techniques based on static, dynamic, and hybrid analysis. Specifically, we train Hidden Markov Models (HMMs ) on both static and dynamic feature sets and compare the resulting detection rates over a substantial number of malware families. We also consider hybrid cases, where dynamic analysis is used in the training phase, with static techniques used in the detection phase, and vice versa. In our experiments, a fully dynamic approach generally yields the best detection rates. We discuss the implications of this research for malware detection based on hybrid techniques.
翻訳日:2022-03-27 11:00:09 公開日:2022-03-13
# 1ビット圧縮センシング:深くて盲目になれるか?

One-Bit Compressive Sensing: Can We Go Deep and Blind? ( http://arxiv.org/abs/2203.11278v1 )

ライセンス: Link先を確認
Yiming Zeng, Shahin Khobahi, Mojtaba Soltanalian(参考訳) 1ビット圧縮センシングは、その1ビットノイズ測定から興味のあるスパース信号の正確な回復に関係している。 この問題に対する従来の信号回復手法は主に、センシング行列の正確な知識が利用できるという仮定に基づいて開発された。 そこで本研究では,ブラインド回復を実現する新しいデータ駆動型モデルベース手法,すなわち,センシングマトリクスの知識を必要とせずに信号回復を行う方法を提案する。 この目的のために,我々はdeep unfolding技術を利用して,このタスク用に設計されたモデル駆動型深層ニューラルネットワークアーキテクチャを開発した。 提案したディープアーキテクチャは, 提案した1ビット雑音測定から, 得られた復調アルゴリズムを精度よく, かつ高速に(繰り返し数の観点から)復調できるような, 基礎となる未展開のアルゴリズムを活用することで, 代替のセンシング行列を学習することができる。 さらに、ドメイン知識とシステムの数学的モデルが提案されたディープアーキテクチャに組み込まれたことにより、ネットワークの利点は強化され、トレーニング可能なパラメータが非常に少なく、手元にある問題に対して一般的に使用されるブラックボックスのディープニューラルネットワーク代替品と比較して、非常に少ないトレーニングサンプルが必要となる。

One-bit compressive sensing is concerned with the accurate recovery of an underlying sparse signal of interest from its one-bit noisy measurements. The conventional signal recovery approaches for this problem are mainly developed based on the assumption that an exact knowledge of the sensing matrix is available. In this work, however, we present a novel data-driven and model-based methodology that achieves blind recovery; i.e., signal recovery without requiring the knowledge of the sensing matrix. To this end, we make use of the deep unfolding technique and develop a model-driven deep neural architecture which is designed for this specific task. The proposed deep architecture is able to learn an alternative sensing matrix by taking advantage of the underlying unfolded algorithm such that the resulting learned recovery algorithm can accurately and quickly (in terms of the number of iterations) recover the underlying compressed signal of interest from its one-bit noisy measurements. In addition, due to the incorporation of the domain knowledge and the mathematical model of the system into the proposed deep architecture, the resulting network benefits from enhanced interpretability, has a very small number of trainable parameters, and requires very small number of training samples, as compared to the commonly used black-box deep neural network alternatives for the problem at hand.
翻訳日:2022-03-27 05:47:39 公開日:2022-03-13
# (参考訳) Dual Path Denoising Networkによる合成開口レーダ画像からの変化検出

Change Detection from Synthetic Aperture Radar Images via Dual Path Denoising Network ( http://arxiv.org/abs/2203.06543v1 )

ライセンス: CC BY 4.0
Junjie Wang, Feng Gao, Junyu Dong, Qian Du, Heng-Chao Li(参考訳) 合成開口レーダ(SAR)センサーの迅速かつ持続可能な開発に特化して、SAR画像からの変化検出がここ数年で注目されている。 既存の教師なしのディープラーニングベースの手法は、堅牢な特徴表現の活用に多大な努力を払っていますが、パラメータの最適化に多くの時間を費やしています。 さらに、これらの手法はクラスタリングを用いて擬似ラベルを訓練し、擬似ラベル付きサンプルはしばしば誤りを伴い、これは「ラベルノイズ」とみなすことができる。 これらの問題に対処するため、SAR画像変化検出のためのDual Path Denoising Network (DPDNet)を提案する。 特に,事前分類に関わるラベルノイズを浄化するために,ランダムなラベル伝搬を導入する。 また,特徴表現学習のための特徴的なパッチ畳み込みを提案する。 具体的には、注目機構を用いて特徴マップ内の特徴画素を選択し、これらの画素を取り巻くパッチを畳み込みカーネルとして選択する。 したがって、PDNetはパラメータ最適化のための多くのトレーニングサンプルを必要としておらず、その計算効率は大幅に向上している。 提案したPDNetを検証するため、5つのSARデータセットで大規模な実験が行われた。 実験の結果,本手法は変化検出結果においていくつかの最先端手法よりも優れていた。

Benefited from the rapid and sustainable development of synthetic aperture radar (SAR) sensors, change detection from SAR images has received increasing attentions over the past few years. Existing unsupervised deep learning-based methods have made great efforts to exploit robust feature representations, but they consume much time to optimize parameters. Besides, these methods use clustering to obtain pseudo-labels for training, and the pseudo-labeled samples often involve errors, which can be considered as "label noise". To address these issues, we propose a Dual Path Denoising Network (DPDNet) for SAR image change detection. In particular, we introduce the random label propagation to clean the label noise involved in preclassification. We also propose the distinctive patch convolution for feature representation learning to reduce the time consumption. Specifically, the attention mechanism is used to select distinctive pixels in the feature maps, and patches around these pixels are selected as convolution kernels. Consequently, the DPDNet does not require a great number of training samples for parameter optimization, and its computational efficiency is greatly enhanced. Extensive experiments have been conducted on five SAR datasets to verify the proposed DPDNet. The experimental results demonstrate that our method outperforms several state-of-the-art methods in change detection results.
翻訳日:2022-03-19 16:30:13 公開日:2022-03-13
# (参考訳) 連続評価センサデータによる自動断層木学習--家庭用ヒーターを事例として

Automated fault tree learning from continuous-valued sensor data: a case study on domestic heaters ( http://arxiv.org/abs/2203.07374v1 )

ライセンス: CC BY 4.0
Bart Verkuil, Carlos E. Budde, Doina Bucur(参考訳) 多くの産業部門が大規模なセンサーデータを集めている。 ビッグデータ処理の最近の技術により、企業はこれを自動障害検出と防止に活用できる。 本研究では, 連続変数を用いた観測データから, 故障解析, 機械学習断層木を自動生成する手法を提案する。 提案手法は,オランダにおける5年間の家庭内ヒーター運用の実際のデータセットを用いて,27のセンサと11の障害変数を含む1300万のユニークなヒーターデイリーディングを計測した。 本手法は,c4.5決定木学習アルゴリズムとbooleanデータからのリフトフォールトツリー学習アルゴリズムの2つの手順に基づいている。 C4.5は各連続変数を前処理し、トップレベルのシステムの故障と正常な動作を区別する最適な数値閾値を学習する。 これらのしきい値は変数を識別し、LIFTはシステムのルート障害機構をモデル化し説明可能なフォールトツリーを学習することができる。 11の障害変数に対するフォールトツリーを取得し、それらを定量的に、重要なスコアで、定性的に、ドメインスペシャリストと2つの方法で評価する。 断層木の中には、ほぼ最大意味を持つものもあれば(0.95)、中から低い意味を持つもの(約0.30)もあり、大きな、うるさい実世界のセンサーデータから学ぶことが困難である。 ドメインスペシャリストは、フォールトツリーが変数間の有意義な関係をモデル化していることを確認した。

Many industrial sectors have been collecting big sensor data. With recent technologies for processing big data, companies can exploit this for automatic failure detection and prevention. We propose the first completely automated method for failure analysis, machine-learning fault trees from raw observational data with continuous variables. Our method scales well and is tested on a real-world, five-year dataset of domestic heater operations in The Netherlands, with 31 million unique heater-day readings, each containing 27 sensor and 11 failure variables. Our method builds on two previous procedures: the C4.5 decision-tree learning algorithm, and the LIFT fault tree learning algorithm from Boolean data. C4.5 pre-processes each continuous variable: it learns an optimal numerical threshold which distinguishes between faulty and normal operation of the top-level system. These thresholds discretise the variables, thus allowing LIFT to learn fault trees which model the root failure mechanisms of the system and are explainable. We obtain fault trees for the 11 failure variables, and evaluate them in two ways: quantitatively, with a significance score, and qualitatively, with domain specialists. Some of the fault trees learnt have almost maximum significance (above 0.95), while others have medium-to-low significance (around 0.30), reflecting the difficulty of learning from big, noisy, real-world sensor data. The domain specialists confirm that the fault trees model meaningful relationships among the variables.
翻訳日:2022-03-19 16:08:53 公開日:2022-03-13
# 高速かつ高精度な数値最適制御のためのニューラルソルバ

Neural Solvers for Fast and Accurate Numerical Optimal Control ( http://arxiv.org/abs/2203.08072v1 )

ライセンス: Link先を確認
Federico Berto, Stefano Massaroli, Michael Poli, Jinkyoo Park(参考訳) 動的システムのための最適コントローラの合成は、しばしばハードリアルタイム制約による最適化問題を解く。 これらの制約は適用可能な数値手法のクラスを決定する:計算に高価だが正確な数値ルーチンは高速で不正確な方法に置き換えられる。 本稿では,計算予算の固定化により,最適制御政策の品質を向上させる手法を提案する。 我々は、微分方程式解法とニューラルネットワークをハイブリダイズする超解法アプローチにより、上記のことを実現する。 提案手法は, 解の精度と制御性能に一貫性のあるpareto改善を示すため, 低次元と高次元の両方において, 直接および再帰ホリゾン最適制御タスクで性能を評価する。

Synthesizing optimal controllers for dynamical systems often involves solving optimization problems with hard real-time constraints. These constraints determine the class of numerical methods that can be applied: computationally expensive but accurate numerical routines are replaced by fast and inaccurate methods, trading inference time for solution accuracy. This paper provides techniques to improve the quality of optimized control policies given a fixed computational budget. We achieve the above via a hypersolvers approach, which hybridizes a differential equation solver and a neural network. The performance is evaluated in direct and receding-horizon optimal control tasks in both low and high dimensions, where the proposed approach shows consistent Pareto improvements in solution accuracy and control performance.
翻訳日:2022-03-16 16:15:42 公開日:2022-03-13
# 粗いMRI画像を用いた肩関節再3次元分割

Recursive 3D Segmentation of Shoulder Joint with Coarse-scanned MR Image ( http://arxiv.org/abs/2203.07846v1 )

ライセンス: Link先を確認
Xiaoxiao He, Chaowei Tan, Virak Tan, Kang Li(参考訳) 肩関節疾患の診断には,MR画像から得られた医用画像から肩甲骨と上腕骨の形態変化を観察することが不可欠である。 しかし、画像スライス間の物理的距離の減少が走査時間の延長を引き起こすため、高解像度MR画像の撮影には時間と費用がかかる。 さらに、トレーニングイメージの欠如により、さまざまなソースからのイメージを利用する必要があるため、データセット間での高分散の問題が発生する。 また,低解像度で3次元画像のラベル付けを行う場合,空間的関係を考慮しにくいため,画像間にはヒューマンエラーが存在する。 そこで本研究では, 上腕骨と肩甲骨を粗大で低解像度のmr画像から分割する完全自動化アルゴリズムと, 生成ラベルを反復的に活用し, セグメント間の誤差を低減し, 次のラウンドネットワークを訓練するためのデータセット集合を増加させる再帰学習フレームワークを開発した。 本研究では,複数の施設から50個のmr画像が収集され,相互に排他的な5つの組に分けて5次元クロスバリデーションを行う。 提案手法により生成された輪郭は, 地上の真実や従来の手法と比較して高い精度を示した。 提案したニューラルネットワークと再帰学習手法は、低解像度データセット上の上腕骨と肩甲骨のセグメンテーションの全体的な品質を改善し、地上の真実における誤ったセグメンテーションを減らし、肩痛の原因の発見と患者の早期救済に肯定的な影響を与える可能性がある。

For diagnosis of shoulder illness, it is essential to look at the morphology deviation of scapula and humerus from the medical images that are acquired from Magnetic Resonance (MR) imaging. However, taking high-resolution MR images is time-consuming and costly because the reduction of the physical distance between image slices causes prolonged scanning time. Moreover, due to the lack of training images, images from various sources must be utilized, which creates the issue of high variance across the dataset. Also, there are human errors among the images due to the fact that it is hard to take the spatial relationship into consideration when labeling the 3D image in low resolution. In order to combat all obstacles stated above, we develop a fully automated algorithm for segmenting the humerus and scapula bone from coarsely scanned and low-resolution MR images and a recursive learning framework that iterative utilize the generated labels for reducing the errors among segmentations and increase our dataset set for training the next round network. In this study, 50 MR images are collected from several institutions and divided into five mutually exclusive sets for carrying five-fold cross-validation. Contours that are generated by the proposed method demonstrated a high level of accuracy when compared with ground truth and the traditional method. The proposed neural network and the recursive learning scheme improve the overall quality of the segmentation on humerus and scapula on the low-resolution dataset and reduced incorrect segmentation in the ground truth, which could have a positive impact on finding the cause of shoulder pain and patient's early relief.
翻訳日:2022-03-16 15:39:24 公開日:2022-03-13
# SATr: ユニバーサル病変検出のためのトランスを用いたスライス注意

SATr: Slice Attention with Transformer for Universal Lesion Detection ( http://arxiv.org/abs/2203.07373v1 )

ライセンス: Link先を確認
Han Li, Long Chen, Hu Han, S. Kevin Zhou(参考訳) コンピュータ断層撮影におけるユニバーサル病変検出(ULD)は,コンピュータ支援診断において重要な役割を担っている。 複数の隣接ctスライスから3dコンテキストをモデル化するマルチスライス入力検出手法によって、有望なuld結果が報告されているが、畳み込みベースの融合操作のみを使用するため、異なるスライス間および個々のスライス内におけるグローバル表現を得るのが困難である。 本稿では,畳み込み型uldバックボーンに容易に接続してハイブリッドネットワーク構造を構築することができる新しいslice attention transformer (satr)ブロックを提案する。 このような新しく形成されたハイブリッドバックボーンは、トランスフォーマーブロック内のカスケードされたセルフアテンションモジュールを介して長距離特徴依存性をモデル化すると同時に、元のバックボーンでの畳み込み操作とローカル特徴をモデル化する強力な力を保持します。 5つの最先端手法を用いた実験により、提案されたsatrブロックは、余分なハイパーパラメータや特別なネットワーク設計なしに、病変検出精度をほぼ無償で向上できることを示した。

Universal Lesion Detection (ULD) in computed tomography plays an essential role in computer-aided diagnosis. Promising ULD results have been reported by multi-slice-input detection approaches which model 3D context from multiple adjacent CT slices, but such methods still experience difficulty in obtaining a global representation among different slices and within each individual slice since they only use convolution-based fusion operations. In this paper, we propose a novel Slice Attention Transformer (SATr) block which can be easily plugged into convolution-based ULD backbones to form hybrid network structures. Such newly formed hybrid backbones can better model long-distance feature dependency via the cascaded self-attention modules in the Transformer block while still holding a strong power of modeling local features with the convolutional operations in the original backbone. Experiments with five state-of-the-art methods show that the proposed SATr block can provide an almost free boost to lesion detection accuracy without extra hyperparameters or special network designs.
翻訳日:2022-03-16 15:09:26 公開日:2022-03-13
# (参考訳) AutoGPart: 一般化可能な3次元部分分割のための中間スーパービジョン検索

AutoGPart: Intermediate Supervision Search for Generalizable 3D Part Segmentation ( http://arxiv.org/abs/2203.06558v1 )

ライセンス: CC BY 4.0
Xueyi Liu, Xiaomeng Xu, Anyi Rao, Chuang Gan, Li Yi(参考訳) 一般化可能な3d部分セグメンテーションネットワークのトレーニングは非常に難しいが、現実のアプリケーションでは極めて重要である。 この問題に対処するために、タスクの人間の理解を機械の学習プロセスに翻訳することでタスク固有のソリューションを設計する者もいる。 タスク優先知識を考慮せず、ドメインの一般化問題用に設計された従来のタスク非依存のアプローチを使おうとする者もいる。 そこで本研究では,従来検討したタスクで一般化可能な3次元部分セグメンテーションネットワークをトレーニングできる汎用手法であるautogpartを提案する。 AutoGPartは、幾何学的な事前知識を符号化した監視空間を構築し、マシンが特定のセグメンテーションタスクのために空間から最適な監督を検索できるようにする。 3つの一般化された3次元部分セグメンテーションタスクに関する広範囲な実験を行い,autogpartの有効性と汎用性を示す。 単純なバックボーンを用いたセグメンテーションネットワークの性能は,本手法で探索した教師によるトレーニングにより著しく向上することを示した。

Training a generalizable 3D part segmentation network is quite challenging but of great importance in real-world applications. To tackle this problem, some works design task-specific solutions by translating human understanding of the task to machine's learning process, which faces the risk of missing the optimal strategy since machines do not necessarily understand in the exact human way. Others try to use conventional task-agnostic approaches designed for domain generalization problems with no task prior knowledge considered. To solve the above issues, we propose AutoGPart, a generic method enabling training generalizable 3D part segmentation networks with the task prior considered. AutoGPart builds a supervision space with geometric prior knowledge encoded, and lets the machine to search for the optimal supervisions from the space for a specific segmentation task automatically. Extensive experiments on three generalizable 3D part segmentation tasks are conducted to demonstrate the effectiveness and versatility of AutoGPart. We demonstrate that the performance of segmentation networks using simple backbones can be significantly improved when trained with supervisions searched by our method.
翻訳日:2022-03-16 10:35:30 公開日:2022-03-13
# (参考訳) ラガ・ラサ・アソシエーションを利用したインド古典音楽におけるバイサンプリング手法

Bi-Sampling Approach to Classify Music Mood leveraging Raga-Rasa Association in Indian Classical Music ( http://arxiv.org/abs/2203.06583v1 )

ライセンス: CC BY 4.0
Mohan Rao B C, Vinayak Arkachaari, Harsha M N, Sushmitha M N, Gayathri Ramesh K K, Ullas M S, Pathi Mohan Rao, Sudha G, Narayana Darapaneni(参考訳) 音楽が聞き手の気分や感情に与える影響は、人間の心理学や行動科学においてよく研究されている分野である。 インド古典音楽では、ラガ(Ragas)は音楽の様々なスタイルと形式を定義する旋律構造である。 それぞれのラガは、リスナーの特定の感情を誘発することを発見した。 音声信号処理の高度な能力の出現と機械学習の応用により、インテリジェントな音楽分類器やレコメンダの需要は、特に'music as a service'クラウドアプリケーションにおいて、注目を集めている。 本稿では,インドの古典音楽におけるraga-rasaアソシエーションを活用し,ユーザの現在の気分や気分に基づいて,インテリジェントな分類器とその音楽推薦システムへの応用について検討する。

The impact of Music on the mood or emotion of the listener is a well-researched area in human psychology and behavioral science. In Indian classical music, ragas are the melodic structure that defines the various styles and forms of the music. Each raga has been found to evoke a specific emotion in the listener. With the advent of advanced capabilities of audio signal processing and the application of machine learning, the demand for intelligent music classifiers and recommenders has received increased attention, especially in the 'Music as a service' cloud applications. This paper explores a novel framework to leverage the raga-rasa association in Indian classical Music to build an intelligent classifier and its application in music recommendation system based on user's current mood and the mood they aspire to be in.
翻訳日:2022-03-16 10:19:58 公開日:2022-03-13
# (参考訳) ORDSIM:Eコマースクエリ類似性予測のための正規回帰

ORDSIM: Ordinal Regression for E-Commerce Query Similarity Prediction ( http://arxiv.org/abs/2203.06591v1 )

ライセンス: CC BY 4.0
Md. Ahsanul Kabir, Mohammad Al Hasan, Aritra Mandal, Daniel Tunkelang, Zhe Wu(参考訳) クエリ類似性予測タスクは一般的に、平方損失を持つ回帰モデルによって解決される。 そのようなモデルは絶対的類似度値に無関係であり、同じスケールで全ての類似度値の回帰誤差をペナルティ化する。 しかし、電子商取引プラットフォームの収益化を促進するためには、ユーザインテリジェントによるアイテムの検索と、中程度に類似したアイテムが購入に繋がらないような関連アイテムを検索する場合、低レベルの類似度よりも正確に高いレベルの類似度を予測することが重要である。 回帰モデルでは、損失関数をカスタマイズして高相似性帯域に集中できないため、クエリ相似性予測タスクのパフォーマンスが低下する。 本稿では,クエリ予測を順序回帰問題として考慮し,ORDSIM(ORDinal Regression for SIMilarity Prediction)モデルを提案する。 ORDSIMは可変幅バケットを用いてオーディナル損失をモデル化し、高いレベルの類似性におけるエラーを厳格に解析し、高い類似性値に対するより良い予測結果を得る。 我々は、eBayプラットフォームから1000万以上のeコマースクエリのデータセット上でORDSIMを評価し、このデータセット上の競合する回帰手法と比較して、ORDSIMが予測誤差を大幅に小さくすることを示す。

Query similarity prediction task is generally solved by regression based models with square loss. Such a model is agnostic of absolute similarity values and it penalizes the regression error at all ranges of similarity values at the same scale. However, to boost e-commerce platform's monetization, it is important to predict high-level similarity more accurately than low-level similarity, as highly similar queries retrieves items according to user-intents, whereas moderately similar item retrieves related items, which may not lead to a purchase. Regression models fail to customize its loss function to concentrate around the high-similarity band, resulting poor performance in query similarity prediction task. We address the above challenge by considering the query prediction as an ordinal regression problem, and thereby propose a model, ORDSIM (ORDinal Regression for SIMilarity Prediction). ORDSIM exploits variable-width buckets to model ordinal loss, which penalizes errors in high-level similarity harshly, and thus enable the regression model to obtain better prediction results for high similarity values. We evaluate ORDSIM on a dataset of over 10 millions e-commerce queries from eBay platform and show that ORDSIM achieves substantially smaller prediction error compared to the competing regression methods on this dataset.
翻訳日:2022-03-16 10:05:20 公開日:2022-03-13
# (参考訳) 依存木型パターンを用いた医学文献からの有益因果抽出

Informative Causality Extraction from Medical Literature via Dependency-tree based Patterns ( http://arxiv.org/abs/2203.06592v1 )

ライセンス: CC BY 4.0
Md. Ahsanul Kabir, AlJohara Almulhim, Xiao Luo, Mohammad Al Hasan(参考訳) 医学文献から原因因子を抽出することは医療情報検索において重要な課題である。 この課題を解決するための解決策は、疾患と症状間の因果関係、薬物と副作用間の因果関係、遺伝子と疾患間の因果関係などの様々な因果関係のコンパイルに利用できる。 因果効果エンティティを抽出する既存のソリューションは、因果句と効果句が名前実体、単語名詞、または2語から3語からなる名詞句である文に対してうまく機能する。 残念なことに、医学文献では、文の因果句は単に名詞や名詞句ではなく、複数の単語からなる複雑な句であり、既存の方法はそのような文の因果語や効果語を正しく抽出することができない。 原因と効果の実体の部分的抽出は、品質の悪い非情報的かつしばしば矛盾した事実を、与えられた文で意図されたものと比較して伝達する。 そこで本研究では, 医学文献に特に適している, 原因・効果句抽出のための教師なし手法, パターンカウシリティを考案し, この問題を解決した。 提案手法は,まず,原因効果依存パターンの集合をテンプレートとして,原因・効果句の見出し語を抽出し,その後,新しい句抽出法を用いて文から完全かつ有意義な原因・効果句を得る。 pubmedアーティクルの文から構築された原因効果データセットの実験では、原因と効果の実体を抽出する場合、既存の手法よりもパターンカウサリティが大幅に優れており、既存の手法よりもf-scoreメトリックが桁違いに改善されていることが示されている。

Extracting cause-effect entities from medical literature is an important task in medical information retrieval. A solution for solving this task can be used for compilation of various causality relations, such as, causality between disease and symptoms, between medications and side effects, between genes and diseases, etc. Existing solutions for extracting cause-effect entities work well for sentences where the cause and the effect phrases are name entities, single-word nouns, or noun phrases consisting of two to three words. Unfortunately, in medical literature, cause and effect phrases in a sentence are not simply nouns or noun phrases, rather they are complex phrases consisting of several words, and existing methods fail to correctly extract the cause and effect entities in such sentences. Partial extraction of cause and effect entities conveys poor quality, non informative, and often, contradictory facts, comparing to the one intended in the given sentence. In this work, we solve this problem by designing an unsupervised method for cause and effect phrase extraction, PatternCausality, which is specifically suitable for the medical literature. Our proposed approach first uses a collection of cause-effect dependency patterns as template to extract head words of cause and effect phrases and then it uses a novel phrase extraction method to obtain complete and meaningful cause and effect phrases from a sentence. Experiments on a cause-effect dataset built from sentences from PubMed articles show that for extracting cause and effect entities, PatternCausality is substantially better than the existing methods with an order of magnitude improvement in the F-score metric over the best of the existing methods.
翻訳日:2022-03-16 09:50:22 公開日:2022-03-13
# (参考訳) 1ビット圧縮型重畳CSIフィードバックの深層学習

Deep Learning for 1-Bit Compressed Sensing-based Superimposed CSI Feedback ( http://arxiv.org/abs/2203.06606v1 )

ライセンス: CC0 1.0
Chaojin Qing, Qing Ye, Bin Cai, Wenhui Liu, and Jiafan Wang(参考訳) 周波数分割二重化 (FDD) 大規模マルチインプット多重出力 (MIMO) システムでは、1ビット圧縮センシング (CS) に基づく重畳チャネル状態情報 (CSI) フィードバックが多くの利点を示す一方で、ダウンリンクCSI回復の精度の低下や大きな処理遅延といった多くの課題に直面している。 これらの欠点を克服するため,本稿では1ビット圧縮センシングに基づくcsiフィードバックの改善を目的とした深層学習(dl)方式を提案する。 ユーザ側では、ダウンリンクCSIを1ビットCS技術で圧縮し、アップリンクユーザデータシーケンス(UL-US)に重畳し、基地局(BS)に送信する。 BSでは、モデル駆動方式をベースとして、重畳干渉キャンセル技術により、UL-USとダウンリンクCSIの両方を検出するマルチタスク検出ネットワークを構築した。 特に、この検出ネットワークは、ul-usとdownlink csiを同時に検出するために共同で訓練され、グローバルに最適化されたネットワークパラメータをキャプチャする。 そして、回収したダウンリンクcsiのビットを用いて、簡易な従来の方法によるダウンリンクcsiの最初の特徴抽出と単一の隠れ層ネットワークからなる軽量な再構成スキームを用いて、ダウンリンクcsiを低処理遅延で再構築する。 1ビットcsベース重畳csiフィードバック方式と比較して,提案方式は処理遅延の少ないul-usおよびdownlink csiの復元精度を向上し,パラメータ変動に対するロバスト性を有する。

In frequency-division duplexing (FDD) massive multiple-input multiple-output (MIMO) systems, 1-bit compressed sensing (CS)-based superimposed channel state information (CSI) feedback has shown many advantages, while still faces many challenges, such as low accuracy of the downlink CSI recovery and large processing delays. To overcome these drawbacks, this paper proposes a deep learning (DL) scheme to improve the 1-bit compressed sensing-based superimposed CSI feedback. On the user side, the downlink CSI is compressed with the 1-bit CS technique, superimposed on the uplink user data sequences (UL-US), and then sent back to the base station (BS). At the BS, based on the model-driven approach and assisted by the superimposition-interference cancellation technology, a multi-task detection network is first constructed for detecting both the UL-US and downlink CSI. In particular, this detection network is jointly trained to detect the UL-US and downlink CSI simultaneously, capturing a globally optimized network parameter. Then, with the recovered bits for the downlink CSI, a lightweight reconstruction scheme, which consists of an initial feature extraction of the downlink CSI with the simplified traditional method and a single hidden layer network, is utilized to reconstruct the downlink CSI with low processing delay. Compared with the 1-bit CS-based superimposed CSI feedback scheme, the proposed scheme improves the recovery accuracy of the UL-US and downlink CSI with lower processing delay and possesses robustness against parameter variations.
翻訳日:2022-03-16 09:29:37 公開日:2022-03-13
# (参考訳) 自然言語処理システムを用いたベンガル伝承の体系的研究と分析

A Systematic Study and Analysis of Bengali Folklore with Natural Language Processing Systems ( http://arxiv.org/abs/2203.06607v1 )

ライセンス: CC0 1.0
Mustain Billah, Md. Mynoddin, Mostafijur Rahman Akhond, Md. Nasim Adnan, Syed Md. Galib, Rizwanur Rahad, M Nurujjaman Khan(参考訳) フォークロア(Folklore)は、民族文学の一分野であり、あらゆる国や社会の目印である。 口承の伝統など、証明やジョークとして、伝統的な民間信仰や様々な習慣の材料文化も含んでいる。 ベンガルの民間伝承は驚くべきほど豊かである。 それにもかかわらず、その存在を継続することが決定されている。 そこで本研究の目的は,より高度な計算方法で,我々の豊かな伝承をより理解しやすいものにすることである。 ベンガル語の様々な側面をNLPで締めくくった研究もある。 提案モデルはベンガルの民俗伝承に特有なものである。 技術的には、ベンガルの民俗学を研究し分析するためのベンガル自然言語処理への第一歩となる。

Folklore, a solid branch of folk literature, is the hallmark of any nation or any society. Such as oral tradition; as proverbs or jokes, it also includes material culture as well as traditional folk beliefs, and various customs. Bengali folklore is as rich in-depth as it is amazing. Nevertheless, in the womb of time, it is determined to sustain its existence. Therefore, our aim in this study is to make our rich folklore more comprehensible to everyone in a more sophisticated computational way. Some studies concluded various aspects of the Bengali language with NLP. Our proposed model is to be specific for Bengali folklore. Technically, it will be the first step towards Bengali natural language processing for studying and analyzing the folklore of Bengal.
翻訳日:2022-03-16 09:07:21 公開日:2022-03-13
# (参考訳) aldi++: 建物エネルギー負荷プロファイルの自動およびパラメータレスディスコードおよび異常検出

ALDI++: Automatic and parameter-less discord and outlier detection for building energy load profiles ( http://arxiv.org/abs/2203.06618v1 )

ライセンス: CC BY 4.0
Matias Quintana, Till Stoeckmann, June Young Park, Marian Turowski, Veit Hagenmeyer, Clayton Miller(参考訳) データ駆動のビルディングエネルギー予測は、測定と検証、ベンチマークの構築、およびグリッド間相互作用のためのプロセスの不可欠な部分である。 ASHRAE Great Energy Predictor III (GEPIII) 機械学習コンペティションは、建築エネルギー予測全体の最も正確な機械学習ワークフローをクラウドソースするために、広範囲なメーターデータセットを使用した。 勝利したソリューションの重要な要素は、異常なトレーニングデータを削除する前処理フェーズだった。 現代の事前処理手法は、統計しきい値のフィルタリングや、訓練データと複数のハイパーパラメータを必要とする深層学習に重点を置いている。 ALDI(Automated Load Profile Discord Identification)と呼ばれる最近の手法は、これらの不一致を行列プロファイルを用いて識別することに成功したが、この手法は依然としてユーザ定義パラメータを必要とする。 本研究では,ユーザ定義パラメータをバイパスし,不協和性を利用したALDI++を開発した。 我々は,ALDI++を,統計しきい値,変分自動エンコーダ,原型ALDIを,不協和音の分類とエネルギー予測のシナリオのベースラインとして評価する。 この結果から,aldi++は従来の手法よりも分類性能が向上するが,aldi++は最良予測エラーを6倍の計算時間で達成できることがわかった。

Data-driven building energy prediction is an integral part of the process for measurement and verification, building benchmarking, and building-to-grid interaction. The ASHRAE Great Energy Predictor III (GEPIII) machine learning competition used an extensive meter data set to crowdsource the most accurate machine learning workflow for whole building energy prediction. A significant component of the winning solutions was the pre-processing phase to remove anomalous training data. Contemporary pre-processing methods focus on filtering statistical threshold values or deep learning methods requiring training data and multiple hyper-parameters. A recent method named ALDI (Automated Load profile Discord Identification) managed to identify these discords using matrix profile, but the technique still requires user-defined parameters. We develop ALDI++, a method based on the previous work that bypasses user-defined parameters and takes advantage of discord similarity. We evaluate ALDI++ against a statistical threshold, variational auto-encoder, and the original ALDI as baselines in classifying discords and energy forecasting scenarios. Our results demonstrate that while the classification performance improvement over the original method is marginal, ALDI++ helps achieve the best forecasting error improving 6% over the winning's team approach with six times less computation time.
翻訳日:2022-03-16 08:59:16 公開日:2022-03-13
# (参考訳) バーテンダー型社会ロボットを用いた個人化HRIのためのROSアーキテクチャ

A ROS Architecture for Personalised HRI with a Bartender Social Robot ( http://arxiv.org/abs/2203.06631v1 )

ライセンス: CC BY-SA 4.0
Alessandra Rossi, Maria Di Maro, Antonio Origlia and Silvia Rossi(参考訳) brillo(interactive long-lasting operations用バーテンダーロボット)プロジェクトは、バーテンダータスクを完了しながら顧客と対話できる自律的なバーテンダーを作ることを目標としている。 このようなシナリオでは、魅力的な技術の使用に関連している人々のノベルティ効果は、摩耗する運命にあり、その結果、サービスロボティクスアプリケーションの成功に悪影響を及ぼす。 そのため、サービスにアクセスしながらパーソナライズされた自然なインタラクションを提供することは、ユーザのエンゲージメントを高め、その結果、彼らの忠誠心を高める上で最重要となる。 本稿では,異なる社会的信号の処理を管理する知覚層,多人数インタラクションを処理する意思決定層,腕と顔からなる複合ロボットの動作を制御する実行層を統合した3層rosアーキテクチャを提案する。 最後に、信条層を通じたユーザモデリングは、個人化されたインタラクションを可能にする。

BRILLO (Bartending Robot for Interactive Long-Lasting Operations) project has the overall goal of creating an autonomous robotic bartender that can interact with customers while accomplishing its bartending tasks. In such a scenario, people's novelty effect connected to the use of an attractive technology is destined to wear off and, consequently, it negatively affects the success of the service robotics application. For this reason, providing personalised natural interaction while accessing its services is of paramount importance for increasing users' engagement and, consequently, their loyalty. In this paper, we present the developed three-layers ROS architecture integrating a perception layer managing the processing of different social signals, a decision-making layer for handling multi-party interactions, and an execution layer controlling the behaviour of a complex robot composed of arms and a face. Finally, user modelling through a beliefs layer allows for personalised interaction.
翻訳日:2022-03-16 08:44:43 公開日:2022-03-13
# (参考訳) ワイルドのスケーリング: ホグウィルドの分散化! スタイル共有メモリSGD

Scaling the Wild: Decentralizing Hogwild!-style Shared-memory SGD ( http://arxiv.org/abs/2203.06638v1 )

ライセンス: CC BY 4.0
Bapi Chatterjee and Vyacheslav Kungurtsev and Dan Alistarh(参考訳) hogwilld!は、ロックフリーの非同期性によって、共有メモリ設定上でsgdを並列化するためのgo-toアプローチである。 並列プロセスが共有モデルを分割された勾配で更新するpassm+のような人気と共用的な拡張にもかかわらず、分散されたワーカーにスケールすることは驚くほど未開拓である。 我々の知る限り、そのような手法の収束理論や、スピードアップを評価する体系的な数値比較は存在しない。 本稿では,マルチプロセッシング並列共有メモリsgd自体を実行するノード毎に分散分散分散メモリコンピューティングアーキテクチャを組み込んだアルゴリズムを提案する。 我々のスキームは以下のアルゴリズムツールと特徴に基づいている。 (a)ワーカーの共有メモリに関する非同期ローカル勾配更新。 b)部分的バックプロパゲーション,及び (c)局所モデルの非ブロッキングインプレース平均化。 本手法は,非凸目標に対するエルゴード収束率を保証する。 本手法は,CIFAR-10, CIFAR-100, Imagenetデータセット上での標準画像分類ベンチマークにおいて,スループットと競合精度の向上を示す。 私たちのコードはhttps://github.com/bapi/lpp-sgdで利用可能です。

Powered by the simplicity of lock-free asynchrony, Hogwilld! is a go-to approach to parallelize SGD over a shared-memory setting. Despite its popularity and concomitant extensions, such as PASSM+ wherein concurrent processes update a shared model with partitioned gradients, scaling it to decentralized workers has surprisingly been relatively unexplored. To our knowledge, there is no convergence theory of such methods, nor systematic numerical comparisons evaluating speed-up. In this paper, we propose an algorithm incorporating decentralized distributed memory computing architecture with each node running multiprocessing parallel shared-memory SGD itself. Our scheme is based on the following algorithmic tools and features: (a) asynchronous local gradient updates on the shared-memory of workers, (b) partial backpropagation, and (c) non-blocking in-place averaging of the local models. We prove that our method guarantees ergodic convergence rates for non-convex objectives. On the practical side, we show that the proposed method exhibits improved throughput and competitive accuracy for standard image classification benchmarks on the CIFAR-10, CIFAR-100, and Imagenet datasets. Our code is available at https://github.com/bapi/LPP-SGD.
翻訳日:2022-03-16 08:30:50 公開日:2022-03-13
# (参考訳) 自然言語による仮想ロボットの過去の行動の要約

Summarizing a virtual robot's past actions in natural language ( http://arxiv.org/abs/2203.06671v1 )

ライセンス: CC BY 4.0
Chad DeChant and Daniel Bauer(参考訳) 本稿では,仮想環境におけるロボットエージェントの行動の自然言語要約を提示するタスクを提案し,実演する。 このようなタスクがなぜ重要で、なぜ難しいのかを説明し、どのように対処するかを議論する。 そこで,本研究では,ロボット動作と自然言語記述とをマッチングする一般的なデータセットを,ロボット動作要約作業の訓練場として利用することを提案する。 自動プランナーが使用する動作のエゴセントリックな映像フレームや中間的なテキスト表現から、このような要約を生成するための学習方法をいくつか提案し、テストする。 我々は,研究成果の定量的,質的な評価を行い,今後の研究のベースラインとして機能する。

We propose and demonstrate the task of giving natural language summaries of the actions of a robotic agent in a virtual environment. We explain why such a task is important, what makes it difficult, and discuss how it might be addressed. To encourage others to work on this, we show how a popular existing dataset that matches robot actions with natural language descriptions designed for an instruction following task can be repurposed to serve as a training ground for robot action summarization work. We propose and test several methods of learning to generate such summaries, starting from either egocentric video frames of the robot taking actions or intermediate text representations of the actions used by an automatic planner. We provide quantitative and qualitative evaluations of our results, which can serve as a baseline for future work.
翻訳日:2022-03-16 08:00:24 公開日:2022-03-13
# (参考訳) 深層学習を用いた食材検出に基づく食品レシピ推薦

Food Recipe Recommendation Based on Ingredients Detection Using Deep Learning ( http://arxiv.org/abs/2203.06721v1 )

ライセンス: CC0 1.0
Md. Shafaat Jamil Rokon, Md Kishor Morol, Ishra Binte Hasan, A. M. Saif, and Rafid Hussain Khan(参考訳) 食べ物は人間の生存に不可欠であり、人々はいつも異なる種類の美味しいレシピを味わおうとする。 しばしば、自分の名前を知ることなく食材を選択したり、食料品店から見当たらない食材を拾ったりすることも多い。 どの成分を混ぜておいしい料理を作るかを知ることが不可欠である。 料理人にとって、材料のリストを選択して正しいレシピを選択することは極めて困難である。 しかし、専門家にとっても問題になり得る。 そのような例の1つは、画像処理によるオブジェクトの認識である。 このプロセスは食品成分が異なるため複雑であるが、伝統的なアプローチでは不正確になる。 これらの問題は、機械学習とディープラーニングアプローチによって解決できる。 本稿では,食品成分認識モデルを実装し,認識された成分に基づいてレシピを推薦するアルゴリズムを設計した。 32種類の食品材料クラスに属する9856枚の画像からなるカスタムデータセットを作成した。 convolution neural network(cnn)モデルは食品成分の識別に使用され、レシピの推奨には機械学習を使用しました。 精度は94%で、非常に印象的です。

Food is essential for human survival, and people always try to taste different types of delicious recipes. Frequently, people choose food ingredients without even knowing their names or pick up some food ingredients that are not obvious to them from a grocery store. Knowing which ingredients can be mixed to make a delicious food recipe is essential. Selecting the right recipe by choosing a list of ingredients is very difficult for a beginner cook. However, it can be a problem even for experts. One such example is recognising objects through image processing. Although this process is complex due to different food ingredients, traditional approaches will lead to an inaccuracy rate. These problems can be solved by machine learning and deep learning approaches. In this paper, we implemented a model for food ingredients recognition and designed an algorithm for recommending recipes based on recognised ingredients. We made a custom dataset consisting of 9856 images belonging to 32 different food ingredients classes. Convolution Neural Network (CNN) model was used to identify food ingredients, and for recipe recommendations, we have used machine learning. We achieved an accuracy of 94 percent, which is quite impressive.
翻訳日:2022-03-16 07:42:43 公開日:2022-03-13
# (参考訳) 信頼できるサーバを持たないプライベートな非凸フェデレーション学習

Private Non-Convex Federated Learning Without a Trusted Server ( http://arxiv.org/abs/2203.06735v1 )

ライセンス: CC BY-SA 4.0
Andrew Lowy, Ali Ghafelebashi, Meisam Razaviyayn(参考訳) 非凸損失関数と不均質な(非等質な)クライアントデータを持つ差分プライベート(DP)フェデレーション学習(FL)について,クライアントレポートを匿名化するためのセキュアな「シャフラー」なしで,信頼されたサーバがない場合に検討する。 本稿では,Lipschitz連続損失関数の3つのクラスに対して,クライアントレベルでの局所差分プライバシー(LDP)とシャッフル差分プライバシー(SDP)を満たす新しいアルゴリズムを提案する。 dp pl最適化の研究は、強凸、最小二乗、正規化ロジスティック回帰など、多くの興味深い実用的損失を除外するリプシッツ損失関数の制約のない問題のみを考慮に入れている。 しかし、近位plシナリオを解析することにより、制限パラメータ領域上のリプシッツとなるような損失を許容する。 最適凸, 等質(d.d.)速度をほぼ達成できる LDP および SDP アルゴリズムを提案する。 次に,非凸・非スムース損失関数に対する最初のdpアルゴリズムを提案する。 第3に, 解析を滑らかで制約のない非凸flに特化する。 私たちの境界は、単一のクライアントの特別な場合でさえ、最先端に改善され、特定の実用的なパラメータレジームにおける非プライベートな下限に適合します。 数値実験の結果,プライバシレベルのベースラインよりも精度がよいことがわかった。

We study differentially private (DP) federated learning (FL) with non-convex loss functions and heterogeneous (non-i.i.d.) client data in the absence of a trusted server, both with and without a secure "shuffler" to anonymize client reports. We propose novel algorithms that satisfy local differential privacy (LDP) at the client level and shuffle differential privacy (SDP) for three classes of Lipschitz continuous loss functions: First, we consider losses satisfying the Proximal Polyak-Lojasiewicz (PL) inequality, which is an extension of the classical PL condition to the constrained setting. Prior works studying DP PL optimization only consider the unconstrained problem with Lipschitz loss functions, which rules out many interesting practical losses, such as strongly convex, least squares, and regularized logistic regression. However, by analyzing the proximal PL scenario, we permit such losses which are Lipschitz on a restricted parameter domain. We propose LDP and SDP algorithms that nearly attain the optimal strongly convex, homogeneous (i.i.d.) rates. Second, we provide the first DP algorithms for non-convex/non-smooth loss functions. Third, we specialize our analysis to smooth, unconstrained non-convex FL. Our bounds improve on the state-of-the-art, even in the special case of a single client, and match the non-private lower bound in certain practical parameter regimes. Numerical experiments show that our algorithm yields better accuracy than baselines for most privacy levels.
翻訳日:2022-03-16 07:32:58 公開日:2022-03-13
# (参考訳) 異常検出のためのデータ前処理としての特徴空間削減

Feature space reduction as data preprocessing for the anomaly detection ( http://arxiv.org/abs/2203.06747v1 )

ライセンス: CC BY 4.0
Simon Bilik, Karel Horak(参考訳) 本稿では,1クラスSVMを用いた異常検出のための特徴量を削減するために,2つのパイプラインを提案する。 両パイプラインの第一段階として、3つの畳み込みオートエンコーダの性能を比較する。 第1のパイプラインはPCA法,第1のパイプラインはt-SNE法,第2のパイプラインは再構成誤りに基づく手法を用いている。 どちらの手法も異常検出の可能性を秘めているが、再構成誤差の指標はこの問題に対してより堅牢であることが証明されている。 畳み込み型オートエンコーダアーキテクチャは、このタスクに大きな影響を及ぼさないことを示し、現実世界のデータセットに対する我々のアプローチの可能性を証明する。

In this paper, we present two pipelines in order to reduce the feature space for anomaly detection using the One Class SVM. As a first stage of both pipelines, we compare the performance of three convolutional autoencoders. We use the PCA method together with t-SNE as the first pipeline and the reconstruction errors based method as the second. Both methods have potential for the anomaly detection, but the reconstruction error metrics prove to be more robust for this task. We show that the convolutional autoencoder architecture doesn't have a significant effect for this task and we prove the potential of our approach on the real world dataset.
翻訳日:2022-03-16 07:31:25 公開日:2022-03-13
# (参考訳) cmkd: 音声分類のためのcnn/transformerベースのクロスモデル知識蒸留

CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification ( http://arxiv.org/abs/2203.06760v1 )

ライセンス: CC BY 4.0
Yuan Gong, Sameer Khurana, Andrew Rouditchenko, and James Glass(参考訳) 音声分類は、幅広い応用分野の活発な研究分野である。 過去10年間、畳み込みニューラルネットワーク(CNN)は、エンドツーエンドのオーディオ分類モデルのデファクト標準ビルディングブロックであった。 近年,Audio Spectrogram Transformer(AST)のような自己注意機構のみに基づくニューラルネットワークがCNNより優れていることが示されている。 本稿では,CNNモデルとASTモデルという2つの非常に異なるモデル間の興味深い相互作用について述べる。 いずれのモデルも教師として使用し,他のモデルを知識蒸留(kd)を通して生徒として訓練する場合,生徒モデルのパフォーマンスは顕著に向上し,多くの場合,教師モデルよりも優れている。 このCNN/Transformer Cross-Model Knowledge Distillation (CMKD)法を用いて,FSD50K,AudioSet,ESC-50上での最先端性能を実現する。

Audio classification is an active research area with a wide range of applications. Over the past decade, convolutional neural networks (CNNs) have been the de-facto standard building block for end-to-end audio classification models. Recently, neural networks based solely on self-attention mechanisms such as the Audio Spectrogram Transformer (AST) have been shown to outperform CNNs. In this paper, we find an intriguing interaction between the two very different models - CNN and AST models are good teachers for each other. When we use either of them as the teacher and train the other model as the student via knowledge distillation (KD), the performance of the student model noticeably improves, and in many cases, is better than the teacher model. In our experiments with this CNN/Transformer Cross-Model Knowledge Distillation (CMKD) method we achieve new state-of-the-art performance on FSD50K, AudioSet, and ESC-50.
翻訳日:2022-03-16 07:27:06 公開日:2022-03-13
# (参考訳) 雑音を伴う人間の反応に対するアルゴリズム的リアクション

Algorithmic Recourse in the Face of Noisy Human Responses ( http://arxiv.org/abs/2203.06768v1 )

ライセンス: CC BY 4.0
Martin Pawelczyk and Teresa Datta and Johannes van-den-Heuvel and Gjergji Kasneci and Himabindu Lakkaraju(参考訳) 機械学習(ml)モデルが高リスクアプリケーションにデプロイされることが増えているため、モデル予測によって悪影響を受ける個人(例えば、ローンが拒否された申請者)へのリアクションの提供への関心が高まっている。 この目的のために、最近の文献ではいくつかのポストホック技術が提案されている。 これらの手法は、影響を受ける個人が正確に所定のリコースを実行すると仮定してリコースを生成する。 しかし、最近の研究では、例えば、所定のリコースが500ドルの増加を示唆した場合、給与を505ドルで上げるなど、個人が騒がしく一貫性のない方法でリコースを実施することがしばしばある。 そこで我々は, 騒音に強い人間の反応に対して, リコース無効化の問題を紹介し, 研究した。 より具体的には、最先端アルゴリズムの挙動を理論的および実証的に分析し、小さな変更が加えられた場合には、これらのアルゴリズムが生成するリルーチンが無効になる可能性が非常に高いことを実証する。 さらに,雑音応答に直面するリコース無効化の確率を明示的に最小化することにより,上記の問題に対処する新しいフレームワークEXPECT(EXPECTing Noisy Response)を提案する。 複数の実世界のデータセットによる実験的評価は,提案手法の有効性を示し,我々の理論的知見を支持する。

As machine learning (ML) models are increasingly being deployed in high-stakes applications, there has been growing interest in providing recourse to individuals adversely impacted by model predictions (e.g., an applicant whose loan has been denied). To this end, several post hoc techniques have been proposed in recent literature. These techniques generate recourses under the assumption that the affected individuals will implement the prescribed recourses exactly. However, recent studies suggest that individuals often implement recourses in a noisy and inconsistent manner - e.g., raising their salary by \$505 if the prescribed recourse suggested an increase of \$500. Motivated by this, we introduce and study the problem of recourse invalidation in the face of noisy human responses. More specifically, we theoretically and empirically analyze the behavior of state-of-the-art algorithms, and demonstrate that the recourses generated by these algorithms are very likely to be invalidated if small changes are made to them. We further propose a novel framework, EXPECTing noisy responses (EXPECT), which addresses the aforementioned problem by explicitly minimizing the probability of recourse invalidation in the face of noisy responses. Experimental evaluation with multiple real world datasets demonstrates the efficacy of the proposed framework, and supports our theoretical findings
翻訳日:2022-03-16 06:55:43 公開日:2022-03-13
# (参考訳) ショートストーリーオーダリングのためのPruned Graph Neural Network

Pruned Graph Neural Network for Short Story Ordering ( http://arxiv.org/abs/2203.06778v1 )

ライセンス: CC BY 4.0
Melika Golestani, Zeinab Borhanifard, Farnaz Tahmasebian, and Heshaam Faili(参考訳) テキストコヒーレンスは自然言語の生成と理解における根本的な問題である。 文をコヒーレンスを最大化する順序に整理することは、文順序と呼ばれる。 本稿では,文の集合を符号化し,短編の順序を学習するためのグラフニューラルネットワークアプローチに基づく新しいアプローチを提案する。 そこで本研究では,短文の文実体グラフを構築し,文間のエッジを作成し,代名詞を参照エンティティに置き換えることで,文の雑音を低減する新しい手法を提案する。 我々は,最先端手法の多数決に基づく集計手法を導入し,文の順序付けを改善した。 提案手法では,文の意味表現の学習にBERTに基づくモデルを用いる。 その結果,提案手法は,PMR(Perfect Match Ratio)とKendall's Tau(Tau)の指標を用いて,新しい最先端性能を持つ短編のコーパスにおいて,既存のベースラインを著しく上回ることを示した。 より正確には,本手法はPMRおよびTau基準を5%以上,Tau基準を4.3%以上向上させる。 これらの結果は、コサインの類似性に基づいて文間の縁を形成する利点を強調している。 また,代名詞から参照エンティティへの置換は,文実体グラフの文を効果的にエンコードする。

Text coherence is a fundamental problem in natural language generation and understanding. Organizing sentences into an order that maximizes coherence is known as sentence ordering. This paper is proposing a new approach based on the graph neural network approach to encode a set of sentences and learn orderings of short stories. We propose a new method for constructing sentence-entity graphs of short stories to create the edges between sentences and reduce noise in our graph by replacing the pronouns with their referring entities. We improve the sentence ordering by introducing an aggregation method based on majority voting of state-of-the-art methods and our proposed one. Our approach employs a BERT-based model to learn semantic representations of the sentences. The results demonstrate that the proposed method significantly outperforms existing baselines on a corpus of short stories with a new state-of-the-art performance in terms of Perfect Match Ratio (PMR) and Kendall's Tau (Tau) metrics. More precisely, our method increases PMR and Tau criteria by more than 5% and 4.3%, respectively. These outcomes highlight the benefit of forming the edges between sentences based on their cosine similarity. We also observe that replacing pronouns with their referring entities effectively encodes sentences in sentence-entity graphs.
翻訳日:2022-03-16 06:20:19 公開日:2022-03-13
# (参考訳) 学習分類器による適応モデル予測制御

Adaptive Model Predictive Control by Learning Classifiers ( http://arxiv.org/abs/2203.06783v1 )

ライセンス: CC BY 4.0
Rel Guzman, Rafael Oliveira, Fabio Ramos(参考訳) 確率モデル予測制御は、システムダイナミクスモデルが少し不正確なり、環境障害が存在する多くのロボットタスクにおいて、成功し、堅牢な制御フレームワークである。 成功にもかかわらず、モデルパラメータの不確実性と異種雑音の存在下で、制御パラメータを現在のタスクに最適に調整する方法はまだ不明である。 本稿では,ベイズ最適化(bo)と古典的期待改善獲得関数のアイデアを活用し,制御パラメータとモデルパラメータを自動的に推定する適応型mpc変種を提案する。 分類器を学習するだけで効率的に近似できる密度比推定としてboを定式化できることを示す最近の研究結果を活用する。 その後、これはモデル予測経路積分制御フレームワークに統合され、様々な困難なロボティクスタスクのための堅牢なコントローラを生成する。 モデル不確実性とロボット操作タスクにおける古典的制御問題に対するアプローチを実証する。

Stochastic model predictive control has been a successful and robust control framework for many robotics tasks where the system dynamics model is slightly inaccurate or in the presence of environment disturbances. Despite the successes, it is still unclear how to best adjust control parameters to the current task in the presence of model parameter uncertainty and heteroscedastic noise. In this paper, we propose an adaptive MPC variant that automatically estimates control and model parameters by leveraging ideas from Bayesian optimization (BO) and the classical expected improvement acquisition function. We leverage recent results showing that BO can be formulated as a density ratio estimation which can be efficiently approximated by simply learning a classifier. This is then integrated into a model predictive path integral control framework yielding robust controllers for a variety of challenging robotics tasks. We demonstrate the approach on classical control problems under model uncertainty and robotics manipulation tasks.
翻訳日:2022-03-16 06:07:10 公開日:2022-03-13
# (参考訳) 関節方位スケール空間表現の類似同変線形変換

Similarity Equivariant Linear Transformation of Joint Orientation-Scale Space Representations ( http://arxiv.org/abs/2203.06786v1 )

ライセンス: CC BY 4.0
Xinhua Zhang and Lance R. Williams(参考訳) 畳み込みは、1つ以上の変数がシフトで通勤する関数の線形演算として定義される。 群畳み込み(group convolution)は、より一般的な幾何学的変換を表す群要素の関数上の線型演算の概念を一般化し、それらの変換と交換する。 類似度変換は形状を保存する画像上の最も一般的な幾何学的変換であるため、類似度変換に同値な群畳み込みは最も一般的な形状保存線形作用素である。 類似性変換は4つの自由パラメータを持つため、群畳み込みは4次元の共役向きスケール空間上で定義される。 等変線型作用素に関する以前の研究は離散群に限定されているが、類似性群は連続である。 本稿では,連続類似性変換に同値な離散表現上の線形作用素について述べる。 これは、ジョイントシフト可能-ツイスタブル-スケーリング機能である関数の基底を使用することで達成される。 これらの it ピンホイール関数は向き付け次元におけるフーリエ級数と対数スケール次元におけるラプラス変換を使い、位置、向き、スケールで連続的に補間できる空間的局所化関数の基底を形成する。 この結果は、一般に視覚計算に関して有意であるが、ブラウン運動の速度における粒子が追従する閉じた輪郭の形状同変分布を計算するために、その実用性を最初に示す。 輪郭は、よく知られた双安定な照明輪郭誘導パターンを表す点と線端の集合によって制約される。

Convolution is conventionally defined as a linear operation on functions of one or more variables which commutes with shifts. Group convolution generalizes the concept to linear operations on functions of group elements representing more general geometric transformations and which commute with those transformations. Since similarity transformation is the most general geometric transformation on images that preserves shape, the group convolution that is equivariant to similarity transformation is the most general shape preserving linear operator. Because similarity transformations have four free parameters, group convolutions are defined on four-dimensional, joint orientation-scale spaces. Although prior work on equivariant linear operators has been limited to discrete groups, the similarity group is continuous. In this paper, we describe linear operators on discrete representations that are equivariant to continuous similarity transformation. This is achieved by using a basis of functions that is it joint shiftable-twistable-scalable. These it pinwheel functions use Fourier series in the orientation dimension and Laplace transform in the log-scale dimension to form a basis of spatially localized functions that can be continuously interpolated in position, orientation and scale. Although this result is potentially significant with respect to visual computation generally, we present an initial demonstration of its utility by using it to compute a shape equivariant distribution of closed contours traced by particles undergoing Brownian motion in velocity. The contours are constrained by sets of points and line endings representing well known bistable illusory contour inducing patterns.
翻訳日:2022-03-16 05:55:27 公開日:2022-03-13
# (参考訳) 局所フーリエ・メリン記述子のマグニチュードヒストグラムを用いた2次元形状のユークリッド不変認識

Euclidean Invariant Recognition of 2D Shapes Using Histograms of Magnitudes of Local Fourier-Mellin Descriptors ( http://arxiv.org/abs/2203.06787v1 )

ライセンス: CC BY 4.0
Xinhua Zhang and Lance R. Williams(参考訳) 基本関数を持つ内積の大きさは回転やスケールの変化に不変であるため、フーリエ・メリン変換はユークリッド不変な2次元形状認識システムにおいて長い間使われてきた。 しかし、フーリエ・メリン変換の規模は既知の中心点に関する回転とスケールの変化にのみ不変であり、この中心点が一貫して正確に識別される以外はフルユークリッド不変形状認識は不可能である。 本稿では,フーリエメルリン変換が画像の各点において計算されるシステムについて述べる。 フーリエ・メルリン基底関数の空間的サポートは、多項式包絡を乗じることで局所化される。 重要なことに、分離された点におけるこれらの複雑なフィルタとの畳み込みの大きさは(それ自体によって)ユークリッド不変形状認識の特徴として使われていない。 代わりに、大きさの正規化されたヒストグラムが完全にユークリッド不変量であるという事実に依存する。 本研究では,2次元形状のユークリッド不変な認識を行い,畳み込みニューラルネットワークに基づく同等の手法よりも1桁少ないトレーニングデータを必要とするvlad機械学習に基づくシステムを示す。

Because the magnitude of inner products with its basis functions are invariant to rotation and scale change, the Fourier-Mellin transform has long been used as a component in Euclidean invariant 2D shape recognition systems. Yet Fourier-Mellin transform magnitudes are only invariant to rotation and scale changes about a known center point, and full Euclidean invariant shape recognition is not possible except when this center point can be consistently and accurately identified. In this paper, we describe a system where a Fourier-Mellin transform is computed at every point in the image. The spatial support of the Fourier-Mellin basis functions is made local by multiplying them with a polynomial envelope. Significantly, the magnitudes of convolutions with these complex filters at isolated points are not (by themselves) used as features for Euclidean invariant shape recognition because reliable discrimination would require filters with spatial support large enough to fully encompass the shapes. Instead, we rely on the fact that normalized histograms of magnitudes are fully Euclidean invariant. We demonstrate a system based on the VLAD machine learning method that performs Euclidean invariant recognition of 2D shapes and requires an order of magnitude less training data than comparable methods based on convolutional neural networks.
翻訳日:2022-03-16 05:28:05 公開日:2022-03-13
# スペイン国の公式データを用いたタバコ販売の異常測定:トランスナショナル・タバコ会社(TTCs)が使用したEmpty Pack Surveys(EPS)による異常のみを検出するか?

Measuring anomalies in cigarette sales by using official data from Spanish provinces: Are there only the anomalies detected by the Empty Pack Surveys (EPS) used by Transnational Tobacco Companies (TTCs)? ( http://arxiv.org/abs/2203.06640v1 )

ライセンス: Link先を確認
Pedro Cadahia, Antonio A. Golpe, Juan M. Mart\'in \'Alvarez, E. Asensio(参考訳) 全国タバコ会社(TTC)が不正タバコ取引を計測するよう依頼した研究の正確性に疑問を呈する文献がある。 さらに,TTCが発注したEmpty Pack Surveys (EPS) が大きすぎることを示す研究もある。 本研究の目新しさは,epssで分析された異常を検出することに加えて,タバコ販売が妥当な値よりも高い地域があり,ttcは無視していることである。 この研究は、まず、スペイン47州で確立されたEPSが満たされた場合、同時に分析した。 第2に、売上が期待値を超える地域で観察される異常を測定する。 本論文の目的は,1人当たりのタバコ販売,価格,GDPに関する地方データを利用することである。 これらのデータは、他の領域で異常を検出するために広く使用される機械学習技術でモデル化される。 その結果,適切な値以下で販売される地域(EPSで検出される)は,地理的に明確なパターンを示すことが明らかとなった。 さらに、以前の文献に示されているように、スペインにおけるEPSによって提供される価値はわずかに過大である。 最後に、他国と接する地域や、観測された売上が期待値よりも高い観光の影響が強い地域が存在する。

There is literature that questions the veracity of the studies commissioned by the transnational tobacco companies (TTC) to measure the illicit tobacco trade. Furthermore, there are studies that indicate that the Empty Pack Surveys (EPS) ordered by the TTCs are oversized. The novelty of this study is that, in addition to detecting the anomalies analyzed in the EPSs, there are provinces in which cigarette sales are higher than reasonable values, something that the TTCs ignore. This study analyzed simultaneously, firstly, if the EPSs established in each of the 47 Spanish provinces were fulfilled. Second, anomalies observed in provinces where sales exceed expected values are measured. To achieve the objective of the paper, provincial data on cigarette sales, price and GDP per capita are used. These data are modeled with machine learning techniques widely used to detect anomalies in other areas. The results reveal that the provinces in which sales below reasonable values are observed (as detected by the EPSs) present a clear geographical pattern. Furthermore, the values provided by the EPSs in Spain, as indicated in the previous literature, are slightly oversized. Finally, there are regions bordering other countries or with a high tourist influence in which the observed sales are higher than the expected values.
翻訳日:2022-03-15 17:45:30 公開日:2022-03-13
# ディープグラフ生成に関する調査:方法と応用

A Survey on Deep Graph Generation: Methods and Applications ( http://arxiv.org/abs/2203.06714v1 )

ライセンス: Link先を確認
Yanqiao Zhu and Yuanqi Du and Yinkai Wang and Yichen Xu and Jieyu Zhang and Qiang Liu and Shu Wu(参考訳) グラフは多くのドメインで現実世界のオブジェクトのリレーショナル情報を符号化するのにユビキタスである。 グラフ生成は、観測されたグラフに似た分布から新しいグラフを生成することを目的としており、近年のディープラーニングモデルの発展により注目されている。 本稿では,既存のグラフ生成の文献を,様々な新興手法から幅広い応用分野へ総合的に検討する。 具体的には,まず深層グラフ生成の問題を定式化し,その差異を関連する複数のグラフ学習課題と議論する。 第2に,最先端手法をモデルアーキテクチャに基づく3つのカテゴリに分け,生成戦略を要約する。 第3に,深部グラフ生成の3つの重要な応用分野を紹介する。 最後に、深層グラフ生成の今後の研究における課題と機会を強調します。

Graphs are ubiquitous in encoding relational information of real-world objects in many domains. Graph generation, whose purpose is to generate new graphs from a distribution similar to the observed graphs, has received increasing attention thanks to the recent advances of deep learning models. In this paper, we conduct a comprehensive review on the existing literature of graph generation from a variety of emerging methods to its wide application areas. Specifically, we first formulate the problem of deep graph generation and discuss its difference with several related graph learning tasks. Secondly, we divide the state-of-the-art methods into three categories based on model architectures and summarize their generation strategies. Thirdly, we introduce three key application areas of deep graph generation. Lastly, we highlight challenges and opportunities in the future study of deep graph generation.
翻訳日:2022-03-15 17:45:06 公開日:2022-03-13
# ラベルのみのモデル反転攻撃:最小情報を必要とする攻撃

Label-only Model Inversion Attack: The Attack that Requires the Least Information ( http://arxiv.org/abs/2203.06555v1 )

ライセンス: Link先を確認
Dayong Ye and Tianqing Zhu and Shuai Zhou and Bo Liu and Wanlei Zhou(参考訳) モデル反転攻撃では、敵はモデル出力のみを使用してターゲットモデルをトレーニングするために使用されるデータレコードを再構築しようとする。 現代のモデル反転攻撃を開始する際、議論される戦略は一般的に予測された信頼度スコアベクトル、すなわちブラックボックス攻撃またはターゲットモデルのパラメータ、すなわちホワイトボックス攻撃に基づいている。 しかし、実際の世界では、モデル所有者は予測されたラベルのみを出力し、信頼スコアベクトルとモデルパラメータはそのような攻撃を防ぐための防御メカニズムとして隠されている。 残念なことに、出力ラベルのみに基づいて入力データレコードを再構成できるモデル逆変換法が見つかった。 これは最も少ない情報を必要とする攻撃であり、最適な適用性があると信じています。 鍵となる考え方は、ターゲットモデルの誤差率を利用して、データレコードの集合からターゲットモデルの決定境界までの中央値距離を計算することである。 距離は、アタックモデルをトレーニングしてデータレコードを再構築するために使用される信頼スコアベクトルを生成するために使用される。 実験の結果,高認識性の高いデータレコードは,既存の方法よりもはるかに少ない情報で再構築できることがわかった。

In a model inversion attack, an adversary attempts to reconstruct the data records, used to train a target model, using only the model's output. In launching a contemporary model inversion attack, the strategies discussed are generally based on either predicted confidence score vectors, i.e., black-box attacks, or the parameters of a target model, i.e., white-box attacks. However, in the real world, model owners usually only give out the predicted labels; the confidence score vectors and model parameters are hidden as a defense mechanism to prevent such attacks. Unfortunately, we have found a model inversion method that can reconstruct the input data records based only on the output labels. We believe this is the attack that requires the least information to succeed and, therefore, has the best applicability. The key idea is to exploit the error rate of the target model to compute the median distance from a set of data records to the decision boundary of the target model. The distance, then, is used to generate confidence score vectors which are adopted to train an attack model to reconstruct the data records. The experimental results show that highly recognizable data records can be reconstructed with far less information than existing methods.
翻訳日:2022-03-15 16:50:20 公開日:2022-03-13
# トランスファー学習に対するモデル反転攻撃--アクセスしないモデル逆転

Model Inversion Attack against Transfer Learning: Inverting a Model without Accessing It ( http://arxiv.org/abs/2203.06570v1 )

ライセンス: Link先を確認
Dayong Ye and Huiqiang Chen and Shuai Zhou and Tianqing Zhu and Wanlei Zhou and Shouling Ji(参考訳) 転校学習は、専門的な生徒モデルを簡単に構築するために使用できる、事前学習された教師モデルを生成する重要なアプローチである。 しかし、近年のトランスファーラーニングの研究では、誤分類やバックドア攻撃など、様々な攻撃に弱いことが判明している。 しかし、トランスファーラーニングがモデル反転攻撃に弱いかどうかはまだ不明である。 トランスファー学習スキームに対するモデル逆攻撃の起動は困難である。 生徒モデルは、その構造パラメータを隠すだけでなく、敵にもアクセスできない。 したがって、学生モデルをターゲットにする場合、既存のモデル反転攻撃のホワイトボックス版とブラックボックス版の両方が失敗する。 ホワイトボックス攻撃はターゲットモデルのパラメータを必要とするため失敗する。 ブラックボックス攻撃は、ターゲットモデルの繰り返しクエリに依存するため失敗する。 しかし、転送学習モデルが反転攻撃をモデル化することができないという意味ではないかもしれない。 そこで,本研究では,2つの新しい攻撃手法を用いたトランスファー学習手法に対するモデル逆攻撃の研究を開始する。 どちらもブラックボックス攻撃であり、ターゲットの学生モデルへのクエリに依存しない、異なる状況に適合する。 最初の方法では、相手は教師モデルのトレーニングセットと同じ分布を共有するデータサンプルを持っている。 第2の方法では、敵はそのようなサンプルを持っていない。 実験の結果,この2つの手法で高い認識可能なデータレコードを復元できることがわかった。 つまり、モデルがアクセス不能なブラックボックスであっても、それを反転することができる。

Transfer learning is an important approach that produces pre-trained teacher models which can be used to quickly build specialized student models. However, recent research on transfer learning has found that it is vulnerable to various attacks, e.g., misclassification and backdoor attacks. However, it is still not clear whether transfer learning is vulnerable to model inversion attacks. Launching a model inversion attack against transfer learning scheme is challenging. Not only does the student model hide its structural parameters, but it is also inaccessible to the adversary. Hence, when targeting a student model, both the white-box and black-box versions of existing model inversion attacks fail. White-box attacks fail as they need the target model's parameters. Black-box attacks fail as they depend on making repeated queries of the target model. However, they may not mean that transfer learning models are impervious to model inversion attacks. Hence, with this paper, we initiate research into model inversion attacks against transfer learning schemes with two novel attack methods. Both are black-box attacks, suiting different situations, that do not rely on queries to the target student model. In the first method, the adversary has the data samples that share the same distribution as the training set of the teacher model. In the second method, the adversary does not have any such samples. Experiments show that highly recognizable data records can be recovered with both of these methods. This means that even if a model is an inaccessible black-box, it can still be inverted.
翻訳日:2022-03-15 16:49:51 公開日:2022-03-13
# 1つのパラメータ防御 -- 差分プライバシーによるデータ推論攻撃の防御

One Parameter Defense -- Defending against Data Inference Attacks via Differential Privacy ( http://arxiv.org/abs/2203.06580v1 )

ライセンス: Link先を確認
Dayong Ye and Sheng Shen and Tianqing Zhu and Bo Liu and Wanlei Zhou(参考訳) 機械学習モデルは、メンバシップ推論やモデル反転攻撃といったデータ推論攻撃に対して脆弱である。 この種の侵入では、敵はデータセット内のデータレコードのメンバシップを推論したり、ターゲットモデルによって予測された信頼度スコアベクトルを使ってデータレコードを再構築したりする。 しかし、既存の防衛手法の多くは、メンバーシップ推論攻撃からのみ保護される。 どちらの攻撃にも対処できる手法は、新しいモデルを訓練する必要があるが、これは時間効率が良くないかもしれない。 本稿では,プライバシ予算の1つのパラメータのみをチューニングすることにより,両タイプの攻撃を時間効率良く処理する差分プライベート防御手法を提案する。 中心となる考え方は、プライバシを保護し、メンバーシップと再構築されたデータを隠蔽する差分プライバシーメカニズムで、信頼性スコアベクターを修正および正規化することである。 さらに,分類精度の低下を回避するため,ベクトルにおけるスコアの順序を保証できる。 実験の結果, 精度を低下させることなく, メンバーシップ推論とモデル反転攻撃を効果的かつタイムリーに防ぐ方法が示された。

Machine learning models are vulnerable to data inference attacks, such as membership inference and model inversion attacks. In these types of breaches, an adversary attempts to infer a data record's membership in a dataset or even reconstruct this data record using a confidence score vector predicted by the target model. However, most existing defense methods only protect against membership inference attacks. Methods that can combat both types of attacks require a new model to be trained, which may not be time-efficient. In this paper, we propose a differentially private defense method that handles both types of attacks in a time-efficient manner by tuning only one parameter, the privacy budget. The central idea is to modify and normalize the confidence score vectors with a differential privacy mechanism which preserves privacy and obscures membership and reconstructed data. Moreover, this method can guarantee the order of scores in the vector to avoid any loss in classification accuracy. The experimental results show the method to be an effective and timely defense against both membership inference and model inversion attacks with no reduction in accuracy.
翻訳日:2022-03-15 16:49:32 公開日:2022-03-13
# 単一の対応だけで十分:都市環境の縮退を避けるためのロバストなグローバル登録

A Single Correspondence Is Enough: Robust Global Registration to Avoid Degeneracy in Urban Environments ( http://arxiv.org/abs/2203.06612v1 )

ライセンス: Link先を確認
Hyungtae Lim, Suyong Yeon, Soohyun Ryu, Yonghan Lee, Youngji Kim, Jaeseong Yun, Euigon Jung, Donghwan Lee and Hyun Myung(参考訳) 3Dポイントクラウドを使用したグローバルな登録は、モバイルプラットフォームがローカライズやループ閉鎖の状況を管理する上で重要な技術である。 近年,多くの研究者が,多数の外乱対応に対処するためのグローバルな登録手法を提案している。 残念なことに、推定インレーヤ数が3より少なくなる現象を表す縮退問題は、いまだに避けられない。 この問題に対処するために、Quatroと呼ばれるデジェネリティー・ロバスト・デカップリングに基づくグローバルな登録手法を提案する。 特に,都市環境におけるアトランタ・ワールドの仮定を活用し,回転推定の縮退を回避することで擬似so(3)推定を行う。 したがって、我々の手法の最小自由度(DoF)は3から1に減少する。 屋内および屋外の3dlidarデータセットで検証されたように,提案手法は,遠方の点クラウドペアであっても,他のグローバル登録手法と比較してロバストなグローバル登録性能をもたらす。 さらに, 実験結果から, 粗いアライメントとしての適用性を確認した。 コードはhttps://github.com/url-kaist/quatro.com/。

Global registration using 3D point clouds is a crucial technology for mobile platforms to achieve localization or manage loop-closing situations. In recent years, numerous researchers have proposed global registration methods to address a large number of outlier correspondences. Unfortunately, the degeneracy problem, which represents the phenomenon in which the number of estimated inliers becomes lower than three, is still potentially inevitable. To tackle the problem, a degeneracy-robust decoupling-based global registration method is proposed, called Quatro. In particular, our method employs quasi-SO(3) estimation by leveraging the Atlanta world assumption in urban environments to avoid degeneracy in rotation estimation. Thus, the minimum degree of freedom (DoF) of our method is reduced from three to one. As verified in indoor and outdoor 3D LiDAR datasets, our proposed method yields robust global registration performance compared with other global registration methods, even for distant point cloud pairs. Furthermore, the experimental results confirm the applicability of our method as a coarse alignment. Our code is available: https://github.com/url-kaist/quatro.
翻訳日:2022-03-15 16:44:38 公開日:2022-03-13
# ソーシャル・ネットワーク・マイニングによる教育におけるcovid-19の影響調査

Investigating the Impact of COVID-19 on Education by Social Network Mining ( http://arxiv.org/abs/2203.06584v1 )

ライセンス: Link先を確認
Mohadese Jamalian, Hamed Vahdat-Nejad, Hamideh Hajiabadi(参考訳) コビッドウイルスは、2020年と2021年のソーシャルネットワークで最も議論されたトピックの一つであり、世界中の古典的な教育パラダイムに影響を与えてきた。 本研究では,地理情報データベース「geonames geographic database」を用いて,新型コロナウイルス(covid-19)と教育に関する多くのつぶやきを検討・タグ付けした。 ユーザの感情を検出するために,RoBERTa言語モデルを用いて感情分析を行う。 最後に,コビッド19の確認件数の多い国では,総ツイート数,肯定ツイート数,否定ツイート数が増加傾向にある。 調査の結果、複数の国で確認されたケースのツイート頻度と公式統計値の相関が明らかになった。

The Covid-19 virus has been one of the most discussed topics on social networks in 2020 and 2021 and has affected the classic educational paradigm, worldwide. In this research, many tweets related to the Covid-19 virus and education are considered and geo-tagged with the help of the GeoNames geographic database, which contains a large number of place names. To detect the feeling of users, sentiment analysis is performed using the RoBERTa language-based model. Finally, we obtain the trends of frequency of total, positive, and negative tweets for countries with a high number of Covid-19 confirmed cases. Investigating the results reveals a correlation between the trends of tweet frequency and the official statistic of confirmed cases for several countries.
翻訳日:2022-03-15 16:18:06 公開日:2022-03-13
# DARA: オフライン強化学習におけるダイナミック・アウェア・リワード強化

DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement Learning ( http://arxiv.org/abs/2203.06662v1 )

ライセンス: Link先を確認
Jinxin Liu, Hongyin Zhang, Donglin Wang(参考訳) オフライン強化学習アルゴリズムは、固定データセットが利用可能で、新しいエクスペリエンスが取得できない設定に適用できることを約束している。 しかし、このような定式化は必然的にオフラインデータ処理であり、実際には、1つの特定のタスクに対する大規模なオフラインデータセットを1つの特定の環境上で収集するのも費用がかかる。 そこで本研究では, 1) 広範な(ターゲット)オフラインデータの要求を緩和するために、他のダイナミクスから収集された(ソース)オフラインデータを使用して、オフラインダイナミックス適応を公式化する。 2)事前オフラインメソッドが十分にスケールしないダイナミクスシフト問題の特徴と課題 3) モデルフリーおよびモデルベースオフライン設定の両方から、シンプルなDynamics-Aware reward Augmentation (DARA)フレームワークを導き出す。 具体的には、DARAは、ターゲット環境に適応するソース遷移ペアからの学習を強調し、以前のオフラインRL法でスケッチされた典型的な状態-動作分布ではなく、状態-動作-next状態ペアを特徴付けることによって、オフラインダイナミクスシフトを緩和する。 実験評価の結果、daraは、ソースオフラインデータセットの報酬を増強することで、ターゲット環境に対する適応ポリシーを取得しながら、ターゲットオフラインデータの必要性を著しく低減できることが示されている。 ターゲットとするオフラインデータの量が少ないため、シミュレーションと実世界の両方のタスクにおいて、従来のオフラインRLメソッドよりも一貫してパフォーマンスが向上します。

Offline reinforcement learning algorithms promise to be applicable in settings where a fixed dataset is available and no new experience can be acquired. However, such formulation is inevitably offline-data-hungry and, in practice, collecting a large offline dataset for one specific task over one specific environment is also costly and laborious. In this paper, we thus 1) formulate the offline dynamics adaptation by using (source) offline data collected from another dynamics to relax the requirement for the extensive (target) offline data, 2) characterize the dynamics shift problem in which prior offline methods do not scale well, and 3) derive a simple dynamics-aware reward augmentation (DARA) framework from both model-free and model-based offline settings. Specifically, DARA emphasizes learning from those source transition pairs that are adaptive for the target environment and mitigates the offline dynamics shift by characterizing state-action-next-state pairs instead of the typical state-action distribution sketched by prior offline RL methods. The experimental evaluation demonstrates that DARA, by augmenting rewards in the source offline dataset, can acquire an adaptive policy for the target environment and yet significantly reduce the requirement of target offline data. With only modest amounts of target offline data, our performance consistently outperforms the prior offline RL methods in both simulated and real-world tasks.
翻訳日:2022-03-15 16:16:08 公開日:2022-03-13
# ロバスト顔アライメントのためのスパース局所パッチ変換器とランドマークの固有関係学習

Sparse Local Patch Transformer for Robust Face Alignment and Landmarks Inherent Relation Learning ( http://arxiv.org/abs/2203.06541v1 )

ライセンス: Link先を確認
Jiahao Xia and Weiwei qu and Wenjian Huang and Jianguo Zhang and Xi Wang and Min Xu(参考訳) ヒートマップ回帰法は近年、異なるランドマーク間の固有の関係を無視しながら、顔のアライメント領域を支配している。 本稿では,固有関係を学習するためのスパース局所パッチトランスフォーマ(slpt)を提案する。 SLPTは、局所パッチから個々のランドマークの表現を生成し、アテンション機構に基づいて適応固有の関係でそれらを集約する。 各ランドマークのサブピクセル座標は、集約された特徴に基づいて独立に予測される。 さらに、SLPTを組み込むために粗粒度フレームワークがさらに導入され、これにより初期ランドマークが動的に再サイズされた局所パッチの微細な特徴を用いて、ターゲットの顔ランドマークに徐々に収束する。 WFLW、300W、COFWを含む3つの一般的なベンチマークで実施された大規模な実験により、提案手法は、顔のランドマーク間の固有の関係を学習することで、より少ない計算量で、最先端のレベルで機能することを示した。 コードはプロジェクトのwebサイトから入手できる。

Heatmap regression methods have dominated face alignment area in recent years while they ignore the inherent relation between different landmarks. In this paper, we propose a Sparse Local Patch Transformer (SLPT) for learning the inherent relation. The SLPT generates the representation of each single landmark from a local patch and aggregates them by an adaptive inherent relation based on the attention mechanism. The subpixel coordinate of each landmark is predicted independently based on the aggregated feature. Moreover, a coarse-to-fine framework is further introduced to incorporate with the SLPT, which enables the initial landmarks to gradually converge to the target facial landmarks using fine-grained features from dynamically resized local patches. Extensive experiments carried out on three popular benchmarks, including WFLW, 300W and COFW, demonstrate that the proposed method works at the state-of-the-art level with much less computational complexity by learning the inherent relation between facial landmarks. The code is available at the project website.
翻訳日:2022-03-15 16:09:28 公開日:2022-03-13
# CEKD:微粒化データのための知識蒸留のクロスアンサンブル化

CEKD:Cross Ensemble Knowledge Distillation for Augmented Fine-grained Data ( http://arxiv.org/abs/2203.06551v1 )

ライセンス: Link先を確認
Ke Zhang, Jin Fan, Shaoli Huang, Yongliang Qiao, Xiaofeng Yu, Feiwei Qin(参考訳) データ拡張は深層モデルのトレーニングに有効であることが証明されている。 既存のデータ拡張手法では、画像ペアをブレンドし、ネットワークの性能に有害な追加ノイズを生成する混合画素の統計に従って対応するラベルを融合することにより、きめ細かい問題に対処している。 そこで本研究では,細粒度特徴学習のための簡単なクロスアンサンブル知識蒸留(CEKD)モデルを提案する。 本稿では,騒音問題を軽減するため,クロス蒸留モジュールを提案するとともに,競合問題に対処するための協調アンサンブルモジュールを提案する。 提案モデルはエンドツーエンドでトレーニング可能であり,イメージレベルのラベル管理のみを必要とする。 広範に用いられているきめ細かいベンチマーク実験により,提案モデルの有効性が示された。 具体的には、ResNet-101のバックボーンで、CEKDは3つのデータセットでそれぞれ89.59%、95.96%、94.56%の精度を得る。

Data augmentation has been proved effective in training deep models. Existing data augmentation methods tackle the fine-grained problem by blending image pairs and fusing corresponding labels according to the statistics of mixed pixels, which produces additional noise harmful to the performance of networks. Motivated by this, we present a simple yet effective cross ensemble knowledge distillation (CEKD) model for fine-grained feature learning. We innovatively propose a cross distillation module to provide additional supervision to alleviate the noise problem, and propose a collaborative ensemble module to overcome the target conflict problem. The proposed model can be trained in an end-to-end manner, and only requires image-level label supervision. Extensive experiments on widely used fine-grained benchmarks demonstrate the effectiveness of our proposed model. Specifically, with the backbone of ResNet-101, CEKD obtains the accuracy of 89.59%, 95.96% and 94.56% in three datasets respectively, outperforming state-of-the-art API-Net by 0.99%, 1.06% and 1.16%.
翻訳日:2022-03-15 16:09:14 公開日:2022-03-13
# インスタンスセグメンテーションに基づく自動車用ミリ波レーダ検出点のコントラスト学習

Contrastive Learning for Automotive mmWave Radar Detection Points Based Instance Segmentation ( http://arxiv.org/abs/2203.06553v1 )

ライセンス: Link先を確認
Weiyi Xiong, Jianan Liu, Yuxuan Xia, Tao Huang, Bing Zhu and Wei Xiang(参考訳) 自動車用mmWaveレーダーは、高度運転支援システム(ADAS)と自律運転において重要な役割を果たしている。 ディープラーニングベースのインスタンスセグメンテーションは、レーダ検出ポイントからのリアルタイムオブジェクト識別を可能にする。 従来のトレーニングプロセスでは、正確なアノテーションが鍵となる。 しかし,レーダー検出点の良質なアノテーションは,あいまいさやスパース性から達成が困難である。 本稿では,レーダ検出点に基づくインスタンスセグメンテーションを実現するためのコントラスト学習手法を提案する。 正と負のサンプルを接地ラベルに従って定義し、コントラスト損失を適用してまずモデルをトレーニングし、次に次の下流タスクのトレーニングを行う。 さらに、これら2つのステップを1つにマージして、ラベルのないデータに対して擬似ラベルを生成してパフォーマンスをさらに向上させることができる。 したがって、この方法には4つの異なるトレーニング設定がある。 実験の結果, 地中真実情報が5%のトレーニングデータでのみ利用可能である場合, 提案手法は, 教師付き手法と同等の性能を示し, 100%の地中真実情報が得られる。

The automotive mmWave radar plays a key role in advanced driver assistance systems (ADAS) and autonomous driving. Deep learning-based instance segmentation enables real-time object identification from the radar detection points. In the conventional training process, accurate annotation is the key. However, high-quality annotations of radar detection points are challenging to achieve due to their ambiguity and sparsity. To address this issue, we propose a contrastive learning approach for implementing radar detection points-based instance segmentation. We define the positive and negative samples according to the ground-truth label, apply the contrastive loss to train the model first, and then perform training for the following downstream task. In addition, these two steps can be merged into one, and pseudo labels can be generated for the unlabeled data to improve the performance further. Thus, there are four different training settings for our method. Experiments show that when the ground-truth information is only available for 5% of the training data, our method still achieves a comparable performance to the approach trained in a supervised manner with 100% ground-truth information.
翻訳日:2022-03-15 16:08:53 公開日:2022-03-13
# CVFNet:クロスビュー特徴の学習によるリアルタイム3次元物体検出

CVFNet: Real-time 3D Object Detection by Learning Cross View Features ( http://arxiv.org/abs/2203.06585v1 )

ライセンス: Link先を確認
Jiaqi Gu, Zhiyu Xiang, Pan Zhao, Tingming Bai, Lingxuan Wang, Zhiyuan Zhang(参考訳) 近年、LiDARポイントクラウドからの3Dオブジェクト検出は、ディープラーニング技術の開発により大きな進歩を遂げている。 ボクセルやポイントベースの手法は3Dオブジェクト検出で人気があるが、通常、ボクセル上の3D畳み込みやポイント間のボールクエリといった時間を要する操作を伴い、結果としてネットワークが時間クリティカルなアプリケーションに不適切になる。 一方,2次元ビューベース法では,voxel法やポイントベース法に比べて性能が劣るが,高い計算効率を示す。 本研究では,この課題を満たすために,リアルタイムのビューベース1段3Dオブジェクト検出器CVFNetを提案する。 要求効率の条件下でのクロスビュー特徴学習を強化するため,異なる視点の特徴を抽出し,効率的なプログレッシブな方法で融合させる。 まず,複数段階の視点特徴と視点特徴を深く統合した,新しい点距離特徴融合モジュールを提案する。 次に, 得られた深度視点特徴を鳥の目視に変換する際に, 3次元形状を良好に維持する特別のスライスピラーを設計する。 試料比のバランスを良くするため、スパースピラー検出ヘッドを提示し、非空グリッドに検出を集中させる。 我々はKITTIとNuScenesのベンチマークで実験を行い、精度と速度の両面で最先端のパフォーマンスを実現する。

In recent years 3D object detection from LiDAR point clouds has made great progress thanks to the development of deep learning technologies. Although voxel or point based methods are popular in 3D object detection, they usually involve time-consuming operations such as 3D convolutions on voxels or ball query among points, making the resulting network inappropriate for time critical applications. On the other hand, 2D view-based methods feature high computing efficiency while usually obtaining inferior performance than the voxel or point based methods. In this work, we present a real-time view-based single stage 3D object detector, namely CVFNet to fulfill this task. To strengthen the cross-view feature learning under the condition of demanding efficiency, our framework extracts the features of different views and fuses them in an efficient progressive way. We first propose a novel Point-Range feature fusion module that deeply integrates point and range view features in multiple stages. Then, a special Slice Pillar is designed to well maintain the 3D geometry when transforming the obtained deep point-view features into bird's eye view. To better balance the ratio of samples, a sparse pillar detection head is presented to focus the detection on the nonempty grids. We conduct experiments on the popular KITTI and NuScenes benchmark, and state-of-the-art performances are achieved in terms of both accuracy and speed.
翻訳日:2022-03-15 16:08:35 公開日:2022-03-13
# ポイントクラウド自己教師型学習のためのマスクオートエンコーダ

Masked Autoencoders for Point Cloud Self-supervised Learning ( http://arxiv.org/abs/2203.06604v1 )

ライセンス: Link先を確認
Yatian Pang, Wenxiao Wang, Francis E.H. Tay, Wei Liu, Yonghong Tian, Li Yuan(参考訳) 自己教師付き学習の有望なスキームとして、マスク付きオートエンコーディングは、自然言語処理とコンピュータビジョンを大きく進歩させた。 そこで本研究では,ポイントクラウドの自己教師型学習のためのマスク付きオートエンコーダの巧妙なスキームを提案し,位置情報の漏洩や不均一な情報密度など,ポイントクラウドの特性がもたらす課題に対処する。 具体的には,入力点雲を不規則点パッチに分割し,ランダムに高い比で隠蔽する。 そして、非対称な設計とシフトマスクトークン操作を備えた標準変圧器ベースのオートエンコーダは、マスク点パッチから高レベルな潜伏特徴を学習し、マスク点パッチを再構築する。 広範な実験により,本手法は事前学習時の効率が良く,様々な下流タスクをうまく一般化できることが示された。 具体的には、ScanObjectNNで84.52\%の精度、ModelNet40で94.04%の精度を達成し、他の教師あり学習方法よりも優れています。 標準トランスフォーマーをベースとするシンプルなアーキテクチャは,教師付き学習から専用トランスフォーマーモデルを超えることができる。 本手法は, 被写体分類において, 最先端のアキュラティティを1.5%-2.3%向上させる。 さらに、我々の研究は、言語や画像からポイントクラウドへの統一アーキテクチャの適用可能性に刺激を与えます。

As a promising scheme of self-supervised learning, masked autoencoding has significantly advanced natural language processing and computer vision. Inspired by this, we propose a neat scheme of masked autoencoders for point cloud self-supervised learning, addressing the challenges posed by point cloud's properties, including leakage of location information and uneven information density. Concretely, we divide the input point cloud into irregular point patches and randomly mask them at a high ratio. Then, a standard Transformer based autoencoder, with an asymmetric design and a shifting mask tokens operation, learns high-level latent features from unmasked point patches, aiming to reconstruct the masked point patches. Extensive experiments show that our approach is efficient during pre-training and generalizes well on various downstream tasks. Specifically, our pre-trained models achieve 84.52\% accuracy on ScanObjectNN and 94.04% accuracy on ModelNet40, outperforming all the other self-supervised learning methods. We show with our scheme, a simple architecture entirely based on standard Transformers can surpass dedicated Transformer models from supervised learning. Our approach also advances state-of-the-art accuracies by 1.5%-2.3% in the few-shot object classification. Furthermore, our work inspires the feasibility of applying unified architectures from languages and images to the point cloud.
翻訳日:2022-03-15 16:08:10 公開日:2022-03-13
# ヘッドビデオ生成のための奥行き認識型生成アドバイザラルネットワーク

Depth-Aware Generative Adversarial Network for Talking Head Video Generation ( http://arxiv.org/abs/2203.06605v1 )

ライセンス: Link先を確認
Fa-Ting Hong, Longhao Zhang, Li Shen, and Dan Xu(参考訳) トーキングヘッドビデオ生成は、入力画像から学習した2次元表現(外観や動きなど)に重きを置き、与えられた音源画像と駆動映像から識別情報とポーズ情報とをそれぞれ含む合成ヒューマンフェイスビデオを作成することを目的としている。 しかし,高密度な3次元顔形状(例えば画素幅の深さ)は,特に正確な3次元顔構造を生成し,ノイズのある情報を散らばった背景と区別することが有用であるため,この作業にとって極めて重要である。 それでも、密集した3dジオメトリのアノテーションはビデオには高価であり、通常このビデオ生成タスクには使用できない。 本稿では,まず,高価な3dアノテーションデータを必要とせずに,顔映像から密集した3次元形状(すなわち奥行き)を自動的に復元する自己教師付き幾何学習手法を提案する。 さらに,学習した深度マップに基づいて,人間の頭部の臨界運動を捉えた粗い顔のキーポイントを推定する手法を提案する。 より密集した方法では、深度を利用して3D対応のクロスモーダル(外観と深さ)の注意を学習し、ソース画像表現を歪ませるための運動場の生成を導く。 これらすべての貢献は、トーキングヘッド生成のための新しい深さ認識生成逆ネットワーク(dagan)を構成する。 大規模な実験により,提案手法は極めて現実的な顔を生成し,目に見えない人間の顔に対して有意な結果が得られた。

Talking head video generation aims to produce a synthetic human face video that contains the identity and pose information respectively from a given source image and a driving video.Existing works for this task heavily rely on 2D representations (e.g. appearance and motion) learned from the input images. However, dense 3D facial geometry (e.g. pixel-wise depth) is extremely important for this task as it is particularly beneficial for us to essentially generate accurate 3D face structures and distinguish noisy information from the possibly cluttered background. Nevertheless, dense 3D geometry annotations are prohibitively costly for videos and are typically not available for this video generation task. In this paper, we first introduce a self-supervised geometry learning method to automatically recover the dense 3D geometry (i.e.depth) from the face videos without the requirement of any expensive 3D annotation data. Based on the learned dense depth maps, we further propose to leverage them to estimate sparse facial keypoints that capture the critical movement of the human head. In a more dense way, the depth is also utilized to learn 3D-aware cross-modal (i.e. appearance and depth) attention to guide the generation of motion fields for warping source image representations. All these contributions compose a novel depth-aware generative adversarial network (DaGAN) for talking head generation. Extensive experiments conducted demonstrate that our proposed method can generate highly realistic faces, and achieve significant results on the unseen human faces.
翻訳日:2022-03-15 16:07:12 公開日:2022-03-13
# LAS-AT: 学習可能な攻撃戦略による敵の訓練

LAS-AT: Adversarial Training with Learnable Attack Strategy ( http://arxiv.org/abs/2203.06616v1 )

ライセンス: Link先を確認
Xiaojun Jia, Yong Zhang, Baoyuan Wu, Ke Ma, Jue Wang, Xiaochun Cao(参考訳) 逆トレーニング(AT)は常にミニマックス問題として定式化され、その性能は逆例(AE)の生成を伴う内部最適化に依存する。 従来のほとんどの手法では、AE生成の攻撃パラメータを手動で指定するPGD(Projected Gradient Decent)を採用していた。 攻撃パラメータの組み合わせを攻撃戦略と呼ぶことができる。 いくつかの研究により、トレーニングフェーズ全体でAEを生成するための固定攻撃戦略がモデルロバスト性を制限し、異なるトレーニング段階における異なる攻撃戦略を利用してロバスト性を改善することを提案する。 しかし、これらの多段階の手作り攻撃戦略はドメインの専門知識を必要とし、堅牢性の改善は限られている。 本稿では,モデルロバスト性を改善するための攻撃戦略を自動生成することを学ぶlas-atと呼ばれる「学習可能な攻撃戦略」の概念を導入することで,敵対的訓練のための新しい枠組みを提案する。 当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。 3つのベンチマークデータベースを用いた実験により,提案手法の優位性を示す。 コードはhttps://github.com/jiaxiaojunqaq/las-atでリリースされる。

Adversarial training (AT) is always formulated as a minimax problem, of which the performance depends on the inner optimization that involves the generation of adversarial examples (AEs). Most previous methods adopt Projected Gradient Decent (PGD) with manually specifying attack parameters for AE generation. A combination of the attack parameters can be referred to as an attack strategy. Several works have revealed that using a fixed attack strategy to generate AEs during the whole training phase limits the model robustness and propose to exploit different attack strategies at different training stages to improve robustness. But those multi-stage hand-crafted attack strategies need much domain expertise, and the robustness improvement is limited. In this paper, we propose a novel framework for adversarial training by introducing the concept of "learnable attack strategy", dubbed LAS-AT, which learns to automatically produce attack strategies to improve the model robustness. Our framework is composed of a target network that uses AEs for training to improve robustness and a strategy network that produces attack strategies to control the AE generation. Experimental evaluations on three benchmark databases demonstrate the superiority of the proposed method. The code is released at https://github.com/jiaxiaojunQAQ/LAS-AT.
翻訳日:2022-03-15 16:06:47 公開日:2022-03-13
# イベントカメラを用いたマルチブラケット高ダイナミックレンジイメージング

Multi-Bracket High Dynamic Range Imaging with Event Cameras ( http://arxiv.org/abs/2203.06622v1 )

ライセンス: Link先を確認
Nico Messikommer, Stamatios Georgoulis, Daniel Gehrig, Stepan Tulyakov, Julius Erbach, Alfredo Bochicchio, Yuanyou Li, Davide Scaramuzza(参考訳) 現代の高ダイナミックレンジ(HDR)撮像パイプラインは、異なる露光時間で撮影された多重低ダイナミックレンジ(LDR)画像を調整して融合する。 これらの手法は静的なシーンではうまく機能するが、LDR画像は飽和とノイズに悩まされているため、動的シーンは依然として課題である。 このようなシナリオでは、イベントカメラは時間分解能が高く、ダイナミックレンジがあるため、有効な補完となる。 本稿では,標準カメラとイベントカメラを組み合わせた最初のマルチブラケットHDRパイプラインを提案する。 以上の結果から,PSNRの合成データでは最大5dB,実世界のデータでは最大0.7dBの改善が得られた。 また,アライメントイベントとhdr基底真理を持つ括弧付きldr画像を含む新しいデータセットも紹介する。

Modern high dynamic range (HDR) imaging pipelines align and fuse multiple low dynamic range (LDR) images captured at different exposure times. While these methods work well in static scenes, dynamic scenes remain a challenge since the LDR images still suffer from saturation and noise. In such scenarios, event cameras would be a valid complement, thanks to their higher temporal resolution and dynamic range. In this paper, we propose the first multi-bracket HDR pipeline combining a standard camera with an event camera. Our results show better overall robustness when using events, with improvements in PSNR by up to 5dB on synthetic data and up to 0.7dB on real-world data. We also introduce a new dataset containing bracketed LDR images with aligned events and HDR ground truth.
翻訳日:2022-03-15 16:06:28 公開日:2022-03-13
# 深層半教師付き学習の再検討--経験的分布アライメントフレームワークとその一般化

Revisiting Deep Semi-supervised Learning: An Empirical Distribution Alignment Framework and Its Generalization Bound ( http://arxiv.org/abs/2203.06639v1 )

ライセンス: Link先を確認
Feiyu Wang, Qin Wang, Wen Li, Dong Xu, Luc Van Gool(参考訳) 本研究では,ラベル付きサンプルとラベルなしサンプル間の経験的分布ミスマッチを明示的に低減する新たな視点から,半教師付き学習(SSL)問題を再考する。 この新たな視点から,我々はまず,ラベル付きデータとラベルなしデータの間の経験的分布距離を減らし,ドメイン適応コミュニティの既存技術で容易にセミ教師付き学習問題に対処できる,SLEDA(Semi-supervised Learning by Empirical Distribution Alignment)という,深層半教師付き学習フレームワークを提案する。 この枠組みに基づき,ラベル付きデータとラベル付きデータ間の学習誤差と経験的分布距離を最小化することにより,半教師付き学習の一般化誤差を効果的に境界付けることができる,半教師付き学習問題をよりよく理解するための,研究コミュニティのための新たな理論一般化法を開発した。 そこで我々は,新しい枠組みと理論的境界に基づいて,ドメイン適応型コミュニティの確立した敵対的学習戦略とデータ拡張のための簡単なサンプル補間戦略を同時に採用し,拡張分散アライメントネットワーク (ada-net) と呼ばれる簡易かつ効果的な深層半教師付き学習手法を開発した。 さらに、ADA-Netの両戦略を2つの出口SSLメソッドに組み込んで、その一般化能力をさらに向上させ、新たなフレームワークがSSL問題を解決するための補完的なソリューションを提供することを示す。 半教師付き画像認識タスクのためのベンチマークデータセットsvhnとcifar-10と、半教師付きポイントクラウド認識タスクのためのベンチマークデータセットmodelnet40とshapenet55の包括的実験結果から、sslのフレームワークの有効性を実証した。

In this work, we revisit the semi-supervised learning (SSL) problem from a new perspective of explicitly reducing empirical distribution mismatch between labeled and unlabeled samples. Benefited from this new perspective, we first propose a new deep semi-supervised learning framework called Semi-supervised Learning by Empirical Distribution Alignment (SLEDA), in which existing technologies from the domain adaptation community can be readily used to address the semi-supervised learning problem through reducing the empirical distribution distance between labeled and unlabeled data. Based on this framework, we also develop a new theoretical generalization bound for the research community to better understand the semi-supervised learning problem, in which we show the generalization error of semi-supervised learning can be effectively bounded by minimizing the training error on labeled data and the empirical distribution distance between labeled and unlabeled data. Building upon our new framework and the theoretical bound, we develop a simple and effective deep semi-supervised learning method called Augmented Distribution Alignment Network (ADA-Net) by simultaneously adopting the well-established adversarial training strategy from the domain adaptation community and a simple sample interpolation strategy for data augmentation. Additionally, we incorporate both strategies in our ADA-Net into two exiting SSL methods to further improve their generalization capability, which indicates that our new framework provides a complementary solution for solving the SSL problem. Our comprehensive experimental results on two benchmark datasets SVHN and CIFAR-10 for the semi-supervised image recognition task and another two benchmark datasets ModelNet40 and ShapeNet55 for the semi-supervised point cloud recognition task demonstrate the effectiveness of our proposed framework for SSL.
翻訳日:2022-03-15 16:06:16 公開日:2022-03-13
# global2local:ビデオキャプションのための共同階層的注意

Global2Local: A Joint-Hierarchical Attention for Video Captioning ( http://arxiv.org/abs/2203.06663v1 )

ライセンス: Link先を確認
Chengpeng Dai, Fuhai Chen, Xiaoshuai Sun, Rongrong Ji, Qixiang Ye, Yongjian Wu(参考訳) 近年,ビデオの自動キャプションが注目され,オブジェクトやアクションなどの重要なセマンティックな項目のキャプチャや,冗長なフレームやセマンティックな内容からの空間的時間的相関が問題となっている。 この目的のために、既存の作業では、グローバルレベル~(マルチフレーム全体)のキービデオクリップを選択するか、または各フレーム内のキー領域を選択する。 本稿では,映像キャプションモデルにキークリップ,キーフレーム,キー領域を階層的に組み込む,映像キャプションのための統合階層的注意モデルを提案する。 このような共同階層型アテンションモデルは、まず、キーフレームを識別するグローバル選択を行い、続いて、ガムベルサンプリング操作を行い、キーフレームに基づいてさらにキー領域を識別し、キャプションをガイドする正確なグローバル-ローカル特徴表現を実現する。 MSVDとMSR-VTTの2つの公開ベンチマークデータセットの大規模な定量的評価は、提案手法が最先端手法よりも優れていることを示す。

Recently, automatic video captioning has attracted increasing attention, where the core challenge lies in capturing the key semantic items, like objects and actions as well as their spatial-temporal correlations from the redundant frames and semantic content. To this end, existing works select either the key video clips in a global level~(across multi frames), or key regions within each frame, which, however, neglect the hierarchical order, i.e., key frames first and key regions latter. In this paper, we propose a novel joint-hierarchical attention model for video captioning, which embeds the key clips, the key frames and the key regions jointly into the captioning model in a hierarchical manner. Such a joint-hierarchical attention model first conducts a global selection to identify key frames, followed by a Gumbel sampling operation to identify further key regions based on the key frames, achieving an accurate global-to-local feature representation to guide the captioning. Extensive quantitative evaluations on two public benchmark datasets MSVD and MSR-VTT demonstrates the superiority of the proposed method over the state-of-the-art methods.
翻訳日:2022-03-15 16:05:45 公開日:2022-03-13
# PNM:一般画像分割のための画素核モデル

PNM: Pixel Null Model for General Image Segmentation ( http://arxiv.org/abs/2203.06677v1 )

ライセンス: Link先を確認
Han Zhang, Zihao Zhang, Wenhao Zheng, Wei Xu(参考訳) イメージセグメンテーションにおける大きな課題は、オブジェクト境界の分類である。 近年,境界マスクによるセグメンテーション結果の改善が提案されている。 しかし、モデルはまだ、オブジェクトの輪郭を正しく捉えた場合でも境界画素を誤分類する傾向にある。 そのような場合、完全な境界写像でさえ、セグメンテーションの細分化には役に立たない。 本稿では,オブジェクト境界などのエラーが発生しやすい画素に適切な事前重みを割り当てることで,セグメント化品質が著しく向上することを示す。 具体的には、ランダムセグメンタによって正しく分類される確率に応じて各ピクセルを重み付けする先行モデルである「textit{pixel null model} (PNM)」を提案する。 実証分析により、PNMは異なる最先端(SOTA)セグメントの誤分類分布を捉えていることが示された。 3つのデータセット(Cityscapes, ADE20K, MS COCO)上のセグメンテーションタスクに関する大規模な実験により、PNMは、ほとんどのSOTAメソッド(ビジョントランスフォーマーを含む)のセグメンテーション品質を一貫して改善し、境界ベースのメソッドを大きなマージンで上回ることを確認した。 また、広く使われている平均IoU(mIoU)メートル法は、異なる鋭さの境界に敏感であることも観察した。 副生成物として,境界のシャープさを知覚し,誤差のある領域におけるモデルのセグメンテーション性能をよりよく反映する新しい計量である \textit{PNM IoU} を提案する。

A major challenge in image segmentation is classifying object boundaries. Recent efforts propose to refine the segmentation result with boundary masks. However, models are still prone to misclassifying boundary pixels even when they correctly capture the object contours. In such cases, even a perfect boundary map is unhelpful for segmentation refinement. In this paper, we argue that assigning proper prior weights to error-prone pixels such as object boundaries can significantly improve the segmentation quality. Specifically, we present the \textit{pixel null model} (PNM), a prior model that weights each pixel according to its probability of being correctly classified by a random segmenter. Empirical analysis shows that PNM captures the misclassification distribution of different state-of-the-art (SOTA) segmenters. Extensive experiments on semantic, instance, and panoptic segmentation tasks over three datasets (Cityscapes, ADE20K, MS COCO) confirm that PNM consistently improves the segmentation quality of most SOTA methods (including the vision transformers) and outperforms boundary-based methods by a large margin. We also observe that the widely-used mean IoU (mIoU) metric is insensitive to boundaries of different sharpness. As a byproduct, we propose a new metric, \textit{PNM IoU}, which perceives the boundary sharpness and better reflects the model segmentation performance in error-prone regions.
翻訳日:2022-03-15 16:05:24 公開日:2022-03-13
# 顔形態検出装置開発のためのプライバシフレンドリな合成データ

Privacy-friendly Synthetic Data for the Development of Face Morphing Attack Detectors ( http://arxiv.org/abs/2203.06691v1 )

ライセンス: Link先を確認
Naser Damer, C\'esar Augusto Fontanillo L\'opez, Meiling Fang, No\'emie Spiller, Minh Vu Pham, Fadi Boutros(参考訳) モーフィング攻撃検出(MAD)ソリューションは、合成データに基づいて、うまく開発できるのか? . そこで本研究では,最初の合成型mad開発データセットであるsynthetic morphing attack detection development dataset (smdd)を提案する。 このデータセットは、3つのMADバックボーンのトレーニングに成功し、完全に未知の攻撃タイプでも高いMAD性能が証明された。 さらに、本研究の重要な側面は、実際の生体データの使用と共有の課題に関する詳細な法的分析であり、提案するsmddデータセットは非常に不可欠である。 SMDDデータセットは3万の攻撃と5万のボナフィドサンプルで構成され、研究目的で公開されている。

The main question this work aims at answering is: can morphing attack detection (MAD) solutions be successfully developed based on synthetic data?. Towards that, this work introduces the first synthetic-based MAD development dataset, namely the Synthetic Morphing Attack Detection Development dataset (SMDD). This dataset is utilized successfully to train three MAD backbones where it proved to lead to high MAD performance, even on completely unknown attack types. Additionally, an essential aspect of this work is the detailed legal analyses of the challenges of using and sharing real biometric data, rendering our proposed SMDD dataset extremely essential. The SMDD dataset, consisting of 30,000 attack and 50,000 bona fide samples, is made publicly available for research purposes.
翻訳日:2022-03-15 16:04:55 公開日:2022-03-13
# トレーニングプロトコル問題:トレーニングプロトコル検索による正確なシーンテキスト認識に向けて

Training Protocol Matters: Towards Accurate Scene Text Recognition via Training Protocol Searching ( http://arxiv.org/abs/2203.06696v1 )

ライセンス: Link先を確認
Xiaojie Chu, Yongtao Wang, Chunhua Shen, Jingdong Chen, Wei Chu(参考訳) ディープラーニング時代のシーンテキスト認識(STR)の開発は主にSTRモデルの新しいアーキテクチャに焦点を当てている。 しかし、優れたSTRモデルのトレーニングにおいて等しく重要な役割を果たすトレーニングプロトコル(すなわちSTRモデルのトレーニングにかかわるハイパーパラメータの設定)は、シーンテキスト認識には未熟である。 本研究では,既存のSTRモデルの最適トレーニングプロトコルを探索することで,精度の向上を試みる。 具体的には,新しく設計された探索空間に基づく学習プロトコル探索アルゴリズムと,進化的最適化とプロキシタスクを用いた効率的な探索アルゴリズムを開発した。 実験結果から,本研究の学習プロトコルは,主要なSTRモデルの認識精度を2.7%~3.9%向上できることがわかった。 特に、検索したトレーニングプロトコルでは、TRBA-Netは最先端のSTRモデル(EFIFSTR)よりも2.1%高い精度で、推論速度はCPUとGPUでそれぞれ2.3倍と3.7倍速い。 提案手法の有効性と,本手法で検出したトレーニングプロトコルの一般化能力を示すため,大規模な実験を行った。

The development of scene text recognition (STR) in the era of deep learning has been mainly focused on novel architectures of STR models. However, training protocol (i.e., settings of the hyper-parameters involved in the training of STR models), which plays an equally important role in successfully training a good STR model, is under-explored for scene text recognition. In this work, we attempt to improve the accuracy of existing STR models by searching for optimal training protocol. Specifically, we develop a training protocol search algorithm, based on a newly designed search space and an efficient search algorithm using evolutionary optimization and proxy tasks. Experimental results show that our searched training protocol can improve the recognition accuracy of mainstream STR models by 2.7%~3.9%. In particular, with the searched training protocol, TRBA-Net achieves 2.1% higher accuracy than the state-of-the-art STR model (i.e., EFIFSTR), while the inference speed is 2.3x and 3.7x faster on CPU and GPU respectively. Extensive experiments are conducted to demonstrate the effectiveness of the proposed method and the generalization ability of the training protocol found by our search method.
翻訳日:2022-03-15 16:04:43 公開日:2022-03-13
# 画像超解像のための効率的な長距離アテンションネットワーク

Efficient Long-Range Attention Network for Image Super-resolution ( http://arxiv.org/abs/2203.06697v1 )

ライセンス: Link先を確認
Xindong Zhang, Hui Zeng, Shi Guo, Lei Zhang(参考訳) 近年,画像超解像 (SR) を含む様々な視覚タスクにおいて,特徴抽出に自己注意 (SA) を利用するトランスフォーマー方式が注目されている。 しかし、既存のトランスモデルにおけるSAの計算は非常に高価であり、SRタスクには冗長な操作もいくつかある。 これにより、sa計算の範囲とsr性能が制限される。 本研究では,画像SRのための効率的な長距離アテンションネットワーク(ELAN)を提案する。 具体的には,まずシフト畳み込み(shift-conv)を用いて,1x1畳み込みと同じレベルの複雑さを維持しつつ,画像局所構造情報を効果的に抽出し,さらに,異なるウィンドウサイズを用いた非オーバーラップ特徴群に対するsaを計算し,長距離画像依存性を生かしたグループワイズマルチスケールセルフアテンション(gmsa)モジュールを提案する。 次に、2つのシフトコンブをGMSAモジュールで単純にカスケードすることで、高効率な長距離アテンションブロック(ELAB)を構築し、共有アテンション機構を用いてさらに加速する。 ベルとホイッスルがなければ、私たちのELANはELABを順次カスケードすることで、かなりシンプルな設計を踏襲します。 大規模な実験により、ELANはトランスフォーマーベースのSRモデルに対してより優れた結果を得るが、複雑さは著しく少ないことが示されている。 ソースコードはhttps://github.com/xindongzhang/ELANで確認できる。

Recently, transformer-based methods have demonstrated impressive results in various vision tasks, including image super-resolution (SR), by exploiting the self-attention (SA) for feature extraction. However, the computation of SA in most existing transformer based models is very expensive, while some employed operations may be redundant for the SR task. This limits the range of SA computation and consequently the SR performance. In this work, we propose an efficient long-range attention network (ELAN) for image SR. Specifically, we first employ shift convolution (shift-conv) to effectively extract the image local structural information while maintaining the same level of complexity as 1x1 convolution, then propose a group-wise multi-scale self-attention (GMSA) module, which calculates SA on non-overlapped groups of features using different window sizes to exploit the long-range image dependency. A highly efficient long-range attention block (ELAB) is then built by simply cascading two shift-conv with a GMSA module, which is further accelerated by using a shared attention mechanism. Without bells and whistles, our ELAN follows a fairly simple design by sequentially cascading the ELABs. Extensive experiments demonstrate that ELAN obtains even better results against the transformer-based SR models but with significantly less complexity. The source code can be found at https://github.com/xindongzhang/ELAN.
翻訳日:2022-03-15 16:04:23 公開日:2022-03-13
# 超距離ランナーの視線性能解析のための非テキスト化I3D ConvNet

Decontextualized I3D ConvNet for ultra-distance runners performance analysis at a glance ( http://arxiv.org/abs/2203.06749v1 )

ライセンス: Link先を確認
David Freire-Obreg\'on, Javier Lorenzo-Navarro, Modesto Castrill\'on-Santana(参考訳) 2021年5月、サイトRunnersworld.comは、過去23年間で超長距離レースへの参加が1,676%増加したと発表した。 さらに、これらのランナーの41%近くが年に1回以上のレースに参加している。 ウェアラブルデバイスの開発は、リアルタイムでパフォーマンス対策を提供することによって、参加者のモチベーションを高めることに間違いなく貢献している。 しかし、特にオーガナイザの観点からは、改善の余地があると考えています。 本研究は,超過シナリオに着目した非侵襲的手法を考えることで,ランナーのパフォーマンスを定量化し,予測することを目的とする。 この意味では、参加者はレーストラックに沿って配置された一連の場所を通過するときに捕らえられる。 各映像はI3D ConvNetへの入力と見なされ、作業中の参加者の走行歩行を抽出する。 さらに、天候や照明による捕獲条件やオクルージョンは、レーススタッフや他のランナーによる映像に影響を与える可能性がある。 この課題に対処するため、いくつかのRPにおいて参加者のランニング歩行を追跡し、コーデレートし、関心のあるランナーの適切な評価を保証するためのコンテキストを削除した。 この評価は、I3D ConvNetによって抽出された特徴が、異なるレーストラックに沿って参加者のパフォーマンスを推定するのに十分な情報を提供することを示している。

In May 2021, the site runnersworld.com published that participation in ultra-distance races has increased by 1,676% in the last 23 years. Moreover, nearly 41% of those runners participate in more than one race per year. The development of wearable devices has undoubtedly contributed to motivating participants by providing performance measures in real-time. However, we believe there is room for improvement, particularly from the organizers point of view. This work aims to determine how the runners performance can be quantified and predicted by considering a non-invasive technique focusing on the ultra-running scenario. In this sense, participants are captured when they pass through a set of locations placed along the race track. Each footage is considered an input to an I3D ConvNet to extract the participant's running gait in our work. Furthermore, weather and illumination capture conditions or occlusions may affect these footages due to the race staff and other runners. To address this challenging task, we have tracked and codified the participant's running gait at some RPs and removed the context intending to ensure a runner-of-interest proper evaluation. The evaluation suggests that the features extracted by an I3D ConvNet provide enough information to estimate the participant's performance along the different race tracks.
翻訳日:2022-03-15 16:03:41 公開日:2022-03-13
# SummaReranker: 抽象的な要約のためのマルチタスク・ミックス・オブ・エクササイズ・リグレードフレームワーク

SummaReranker: A Multi-Task Mixture-of-Experts Re-ranking Framework for Abstractive Summarization ( http://arxiv.org/abs/2203.06569v1 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Nancy F. Chen(参考訳) sequence-to-sequenceニューラルネットワークは最近、抽象的な要約、特に下流のデータセットで事前学習された大きな言語モデルを微調整することで、大きな成功を収めている。 これらのモデルは通常ビームサーチでデコードされ、ユニークな要約を生成する。 しかし、探索空間は非常に大きく、露光バイアスがあるため、そのような復号化は最適ではない。 本稿では,サマリ候補のセットで再ランキングを行う2段モデルを直接トレーニングすることが可能であることを示す。 当社のmixed-of-experts summarerankerは、よりよい候補を選ぶことを学び、ベースモデルのパフォーマンスを一貫して改善します。 PEGASUSをベースとしたROUGEスコアは、CNN-DailyMail(47.16 ROUGE-1)で5.44%、XSum(48.12 ROUGE-1)で1.31%、Reddit TIFU(29.83 ROUGE-1)で9.34%、新しい最先端に到達した。 私たちのコードとチェックポイントはhttps://github.com/ntunlp/summarerankerで利用可能です。

Sequence-to-sequence neural networks have recently achieved great success in abstractive summarization, especially through fine-tuning large pre-trained language models on the downstream dataset. These models are typically decoded with beam search to generate a unique summary. However, the search space is very large, and with the exposure bias, such decoding is not optimal. In this paper, we show that it is possible to directly train a second-stage model performing re-ranking on a set of summary candidates. Our mixture-of-experts SummaReranker learns to select a better candidate and consistently improves the performance of the base model. With a base PEGASUS, we push ROUGE scores by 5.44% on CNN-DailyMail (47.16 ROUGE-1), 1.31% on XSum (48.12 ROUGE-1) and 9.34% on Reddit TIFU (29.83 ROUGE-1), reaching a new state-of-the-art. Our code and checkpoints will be available at https://github.com/ntunlp/SummaReranker.
翻訳日:2022-03-15 14:50:42 公開日:2022-03-13
# 対話状態追跡のための連続的プロンプトチューニング

Continual Prompt Tuning for Dialog State Tracking ( http://arxiv.org/abs/2203.06654v1 )

ライセンス: Link先を確認
Qi Zhu, Bing Li, Fei Mi, Xiaoyan Zhu, Minlie Huang(参考訳) 望ましいダイアログシステムは、古いスキルを忘れずに継続的に新しいスキルを学び、それによってライフサイクルにおける新しいドメインやタスクに適応できるべきである。 しかしながら、モデルを継続的にトレーニングすることは、よく知られた破滅的な忘れる問題につながる。 本稿では,タスク間の知識伝達を可能にするパラメータ効率の高いフレームワークであるcontinual prompt tuningを提案する。 忘れることを避けるために、バックボーン事前訓練されたモデルを凍結しながら、各タスクに対していくつかのプロンプトトークンの埋め込みを学習し、保存する。 本稿では,タスク間の双方向の知識伝達を実現するために,先行タスクから知識を伝達する複数の手法(連続的初期化,クエリ融合,メモリリプレイ)と,その後のタスクから知識を伝達するメモリ誘導技術を提案する。 ダイアログ状態追跡のための連続学習における提案手法の有効性と効率を,最先端のベースラインと比較して検証した。

A desirable dialog system should be able to continually learn new skills without forgetting old ones, and thereby adapt to new domains or tasks in its life cycle. However, continually training a model often leads to a well-known catastrophic forgetting issue. In this paper, we present Continual Prompt Tuning, a parameter-efficient framework that not only avoids forgetting but also enables knowledge transfer between tasks. To avoid forgetting, we only learn and store a few prompt tokens' embeddings for each task while freezing the backbone pre-trained model. To achieve bi-directional knowledge transfer among tasks, we propose several techniques (continual prompt initialization, query fusion, and memory replay) to transfer knowledge from preceding tasks and a memory-guided technique to transfer knowledge from subsequent tasks. Extensive experiments demonstrate the effectiveness and efficiency of our proposed method on continual learning for dialog state tracking, compared with state-of-the-art baselines.
翻訳日:2022-03-15 14:50:20 公開日:2022-03-13
# SciNLI: 科学テキストによる自然言語推論のためのコーパス

SciNLI: A Corpus for Natural Language Inference on Scientific Text ( http://arxiv.org/abs/2203.06728v1 )

ライセンス: Link先を確認
Mobashir Sadat and Cornelia Caragea(参考訳) 既存の自然言語推論(NLI)データセットは、自然言語理解(NLU)研究の進展に役立っているが、科学的テキストとは無関係である。 本稿では,NLPと計算言語学の学術論文から抽出した107,412の文対を含む,科学テキストの形式を捉えるNLIのための大規模データセットであるSciNLIを紹介する。 科学文献で用いられるテキストは語彙と文構造の両方において日常言語で使われるテキストとは大きく異なるので,本データセットは科学的なNLUモデルを評価するためのベンチマークとして適している。 我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。 XLNetで最高のパフォーマンスモデルは、わずか78.18%のマクロF1スコアと78.23の精度で達成し、改善の余地があることを示しています。

Existing Natural Language Inference (NLI) datasets, while being instrumental in the advancement of Natural Language Understanding (NLU) research, are not related to scientific text. In this paper, we introduce SciNLI, a large dataset for NLI that captures the formality in scientific text and contains 107,412 sentence pairs extracted from scholarly papers on NLP and computational linguistics. Given that the text used in scientific literature differs vastly from the text used in everyday language both in terms of vocabulary and sentence structure, our dataset is well suited to serve as a benchmark for the evaluation of scientific NLU models. Our experiments show that SciNLI is harder to classify than the existing NLI datasets. Our best performing model with XLNet achieves a Macro F1 score of only 78.18% and an accuracy of 78.23 showing that there is substantial room for improvement.
翻訳日:2022-03-15 14:50:03 公開日:2022-03-13
# protagonisttagger - さまざまな言語やドメインのテキスト中の人物のエンティティリンクのためのツール

ProtagonistTagger -- a Tool for Entity Linkage of Persons in Texts from Various Languages and Domains ( http://arxiv.org/abs/2203.06746v1 )

ライセンス: Link先を確認
Weronika Lajewska and Anna Wroblewska(参考訳) 名前付きエンティティ認識(NER)と曖昧化(NED)は、認識された名前付きエンティティに意味的コンテキストを追加することができる。 ドメインに関係なく、名前付きエンティティリンクは、非構造化テキストで言及されるエンティティと、現実世界のオブジェクトの個々のインスタンスとの間のリンクを提供する。 本ポスターでは,NER と NED をテキストで表すツールである protagonistTagger を提示する。 このツールは、古典英語の小説やポーランドのインターネットニュースから抽出されたテキストでテストされた。 ツールのパフォーマンス(精度とリコールの両方)は78%から88%の間で変動する。

Named entities recognition (NER) and disambiguation (NED) can add semantic context to the recognized named entities in texts. Named entity linkage in texts, regardless of a domain, provides links between the entities mentioned in unstructured texts and individual instances of real-world objects. In this poster, we present a tool - protagonistTagger - for person NER and NED in texts. The tool was tested on texts extracted from classic English novels and Polish Internet news. The tool's performance (both precision and recall) fluctuates between 78% and even 88%.
翻訳日:2022-03-15 14:48:50 公開日:2022-03-13
# AugShuffleNet: さらなる情報通信によるShuffleNetV2の改善

AugShuffleNet: Improve ShuffleNetV2 via More Information Communication ( http://arxiv.org/abs/2203.06589v1 )

ライセンス: Link先を確認
Longqing Ye(参考訳) ShuffleNetV2をベースとして,AugShuffleNetsと呼ばれるより強力で効率的なモデルファミリを構築した。 CIFAR-10とCIFAR-100のデータセットから評価すると、AugShuffleNetはShuffleNetV2よりも精度が高く、計算コストも少なく、パラメータ数も少ない。

Based on ShuffleNetV2, we build a more powerful and efficient model family, termed as AugShuffleNets, by introducing higher frequency of cross-layer information communication for better model performance. Evaluated on the CIFAR-10 and CIFAR-100 datasets, AugShuffleNet consistently outperforms ShuffleNetV2 in terms of accuracy, with less computational cost, fewer parameter count.
翻訳日:2022-03-15 14:19:43 公開日:2022-03-13
# TurbuGAN:空間変化型多フレームブラインドデコンボリューションの逆学習手法と乱流画像への応用

TurbuGAN: An Adversarial Learning Approach to Spatially-Varying Multiframe Blind Deconvolution with Applications to Imaging Through Turbulence ( http://arxiv.org/abs/2203.06764v1 )

ライセンス: Link先を確認
Brandon Y. Feng, Mingyang Xie, Christopher A. Metzler(参考訳) 本稿では,TurbuGANと呼ばれる大気乱流の画像化のための自己監督型,自己校正型マルチショット手法を提案する。 我々のアプローチでは、ペア化されたトレーニングデータを必要としず、乱流の分布に適応し、ドメイン固有の事前データを活用し、既存のアプローチより優れ、数万から数万の計測から一般化することができる。 そこで我々は,cryoganを応用した逆センシングフレームワークを用いて,識別器ネットワークを用いて計測値とシミュレーション値の分布をマッチングする機能を実現する。 本手法は,(1)不等平面乱流による光伝搬の物理的精度と計算効率のよいモデルを取り入れた前方計測モデルの一般化,(2)わずかに不特定な前方モデルへの適応,(3)事前学習された生成ネットワークを用いた領域固有事前知識の活用により,クライオガンを基盤とする。 本研究では,大気乱流誘起歪みの現実モデルを用いて,TurbuGANをシミュレーションで検証する。

We present a self-supervised and self-calibrating multi-shot approach to imaging through atmospheric turbulence, called TurbuGAN. Our approach requires no paired training data, adapts itself to the distribution of the turbulence, leverages domain-specific data priors, outperforms existing approaches, and can generalize from tens to tens of thousands of measurements. We achieve such functionality through an adversarial sensing framework adapted from CryoGAN, which uses a discriminator network to match the distributions of captured and simulated measurements. Our framework builds on CryoGAN by (1) generalizing the forward measurement model to incorporate physically accurate and computationally efficient models for light propagation through anisoplanatic turbulence, (2) enabling adaptation to slightly misspecified forward models, and (3) leveraging domain-specific prior knowledge using pretrained generative networks, when available. We validate TurbuGAN in simulation using realistic models for atmospheric turbulence-induced distortion.
翻訳日:2022-03-15 14:19:32 公開日:2022-03-13
# レコメンダシステムにおける顧客価格選択と製品利益の役割の検討

Exploring Customer Price Preference and Product Profit Role in Recommender Systems ( http://arxiv.org/abs/2203.06641v1 )

ライセンス: Link先を確認
Michal Kompan, Peter Gaspar, Jakub Macina, Matus Cimerman and Maria Bielikova(参考訳) 推薦システム領域における研究の大部分は、平均精度(MAP)やリコールといった過去のデータに基づくメトリクスの最適化に焦点を当てている。 しかし、ビジネスにおける主要なパフォーマンス指標(kpi)は収益と利益であるため、研究と産業の間にはギャップがある。 本稿では,レコメンデーションシステムの利益意識を操作することの影響について検討する。 平均的なeコマースビジネスは通常、複雑な推奨アルゴリズムを使用しない。 スコアベースレコメンデーションシステムにおける予測ランキングの調整を提案し,ファッション領域からの2つの産業データセットに対する利益と顧客価格の選好の影響について検討する。 実験では、精度と生成したレコメンデーションの利益の両方を改善する能力を示す。 このような結果は、Eコマースが利益を増やし、顧客がより多くの価値あるレコメンデーションを得るときの勝利の状況を表している。

Most of the research in the recommender systems domain is focused on the optimization of the metrics based on historical data such as Mean Average Precision (MAP) or Recall. However, there is a gap between the research and industry since the leading Key Performance Indicators (KPIs) for businesses are revenue and profit. In this paper, we explore the impact of manipulating the profit awareness of a recommender system. An average e-commerce business does not usually use a complicated recommender algorithm. We propose an adjustment of a predicted ranking for score-based recommender systems and explore the effect of the profit and customers' price preferences on two industry datasets from the fashion domain. In the experiments, we show the ability to improve both the precision and the generated recommendations' profit. Such an outcome represents a win-win situation when e-commerce increases the profit and customers get more valuable recommendations.
翻訳日:2022-03-15 14:16:42 公開日:2022-03-13
# FlexBlock:マルチモードブロック浮動小数点をサポートしたフレキシブルDNNトレーニングアクセラレータ

FlexBlock: A Flexible DNN Training Accelerator with Multi-Mode Block Floating Point Support ( http://arxiv.org/abs/2203.06673v1 )

ライセンス: Link先を確認
Seock-Hwan Noh, Jahyun Koo, Seunghyun Lee, Jongse Park, Jaeha Kung(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは計算コストがかかる仕事であり、高性能GPUでも数週間から数ヶ月かかる。 この課題に対する対策として、コミュニティはトレーニングプロセスにおけるより効率的なデータ表現(例えばブロック浮動小数点(BFP))の使用を模索し始めた。 しかしながら、BFPベースのDNNアクセラレータに関する以前の研究は、特定のBFP表現に依存しており、より汎用性が低い。 本稿では,最終的な精度を損なうことなく,複数のBFP精度を活用することにより,トレーニングを高速化するアルゴリズムに基づく。 このアルゴリズムの機会に支えられ、FlexBlockと呼ばれるフレキシブルなDNNトレーニングアクセラレータを開発し、これは3つの異なるBFP精度モードをサポートし、おそらくアクティベーション、ウェイト、勾配テンソルが異なる。 いくつかの先行研究がdnnアクセラレータのマルチ精度サポートを提案しているが、それらは推論のみに焦点を当てているだけでなく、トレーニングを考慮すれば、そのコア利用は固定精度と特定の層タイプにおいて最適である。 代わりにFlexBlockは、高いコア利用が達成可能な方法で設計されている。 一 様々な層の種類、及び 二 データをその計算単位に階層的にマッピングすることによる三つのbfp精度 CIFAR, ImageNet, WMT14データセット上でよく知られたDNNを用いてFlexBlockアーキテクチャの有効性を評価する。 その結果、flexblockでのトレーニングは、トレーニング速度を1.5~5.3倍、エネルギー効率を2.4~7.0倍向上させ、全精度トレーニングに比べて限界精度の損失を生じさせる。

Training deep neural networks (DNNs) is a computationally expensive job, which can take weeks or months even with high performance GPUs. As a remedy for this challenge, community has started exploring the use of more efficient data representations in the training process, e.g., block floating point (BFP). However, prior work on BFP-based DNN accelerators rely on a specific BFP representation making them less versatile. This paper builds upon an algorithmic observation that we can accelerate the training by leveraging multiple BFP precisions without compromising the finally achieved accuracy. Backed up by this algorithmic opportunity, we develop a flexible DNN training accelerator, dubbed FlexBlock, which supports three different BFP precision modes, possibly different among activation, weight, and gradient tensors. While several prior works proposed such multi-precision support for DNN accelerators, not only do they focus only on the inference, but also their core utilization is suboptimal at a fixed precision and specific layer types when the training is considered. Instead, FlexBlock is designed in such a way that high core utilization is achievable for i) various layer types, and ii) three BFP precisions by mapping data in a hierarchical manner to its compute units. We evaluate the effectiveness of FlexBlock architecture using well-known DNNs on CIFAR, ImageNet and WMT14 datasets. As a result, training in FlexBlock significantly improves the training speed by 1.5~5.3x and the energy efficiency by 2.4~7.0x on average compared to other training accelerators and incurs marginal accuracy loss compared to full-precision training.
翻訳日:2022-03-15 14:16:28 公開日:2022-03-13
# スケールにおけるパーソナライズドインテリジェンスを目指して

Towards Personalized Intelligence at Scale ( http://arxiv.org/abs/2203.06668v1 )

ライセンス: Link先を確認
Yiping Kang, Ashish Mahendra, Christopher Clarke, Lingjia Tang, Jason Mars(参考訳) パーソナライズドインテリジェンス(PI)は、個々のユーザーに合わせてカスタマイズされたAIエクスペリエンスを提供する問題である。 多くのアプリケーションでは、PIが好まれる。 既存のパーソナライズアプローチには、カスタマイズされたモデルを作成するための、微調整済みのモデルが含まれる。 しかし、これらのアプローチではトレーニングにかなりの量の計算が必要であり、モデルサイズとユーザ数でスケーリングすることで、piを広く実現することを妨げる。 本研究では,大規模にパーソナライズされたインテリジェンスを実現するための新しいモデルアーキテクチャとトレーニング/推論フレームワークを提案する。 我々は、Personalization Head (PH) を事前訓練された言語モデル (LM) にアタッチすることでこれを実現する。 トレーニング中、基本LMは凍結され、PH内のパラメータのみが更新され、ユーザ毎にユニークである。 その結果、モデルのサイズやトレーニングコストは、多くのユーザにわたってスケールする従来の微調整アプローチよりも大幅に小さくなります。 我々は,学界および産業に焦点を絞ったデータセットにおけるphsを評価し,f1スコアのゼロショットベースラインよりもphsの方が優れており,従来の微調整アプローチよりもかなりスケーラブルであることを示した。 有効なPH設計とトレーニングに必要な重要な要素を同定する。

Personalized Intelligence (PI) is the problem of providing customized AI experiences tailored to each individual user. In many applications, PI is preferred or even required. Existing personalization approaches involve fine-tuning pre-trained models to create new customized models. However, these approaches require a significant amount of computation to train, scaling with model size and the number of users, inhibiting PI to be realized widely. In this work, we introduce a novel model architecture and training/inference framework to enable Personalized Intelligence at scale. We achieve this by attaching a Personalization Head (PH) to pre-trained language models (LM). During training, the base LMs are frozen and only the parameters in PH are updated and are unique per user. This results in significantly smaller overall model sizes and training cost than traditional fine-tuning approaches when scaled across many users. We evaluate PHs on academia and industry-focused datasets and show that the PHs outperform zeroshot baseline in F1 score and are significantly more scalable than traditional fine-tuning approaches. We identify key factors required for effective PH design and training.
翻訳日:2022-03-15 14:11:57 公開日:2022-03-13
# Few-Shot認識の最悪の事例

Worst Case Matters for Few-Shot Recognition ( http://arxiv.org/abs/2203.06574v1 )

ライセンス: Link先を確認
Minghao Fu, Yun-Hao Cao and Jianxin Wu(参考訳) 少ないショット認識は、カテゴリー毎に非常に少ない(例:1または5)画像を持つ認識モデルを学び、現在の数ショット学習方法は、多くのエピソードの平均精度を改善することに重点を置いている。 実世界のアプリケーションでは、多くではなく1つのエピソードだけを試すことが多いため、最悪のケースの正確さを最大化することは、平均的な精度を最大化するよりも重要である、と論じている。 実験により,高い平均精度が必ずしも最悪の場合の精度を意味するとは限らないことが示された。 この目的には到達できないため,標準偏差を低減し,同時に平均精度を向上させることを提案する。 次に、バイアス分散トレードオフの観点から2つの戦略を考案し、この目標を暗黙的に達成する: 微調整時の分散を減らすためのモデルアンサンブルとともに、単純で効果的な安定正規化(sr)損失とバイアスを減らす適応性キャリブレーション機構である。 ベンチマークデータセットに関する広範な実験により,提案手法の有効性が示され,平均値だけでなく,最悪の場合の精度も大幅に向上した。

Few-shot recognition learns a recognition model with very few (e.g., 1 or 5) images per category, and current few-shot learning methods focus on improving the average accuracy over many episodes. We argue that in real-world applications we may often only try one episode instead of many, and hence maximizing the worst-case accuracy is more important than maximizing the average accuracy. We empirically show that a high average accuracy not necessarily means a high worst-case accuracy. Since this objective is not accessible, we propose to reduce the standard deviation and increase the average accuracy simultaneously. In turn, we devise two strategies from the bias-variance tradeoff perspective to implicitly reach this goal: a simple yet effective stability regularization (SR) loss together with model ensemble to reduce variance during fine-tuning, and an adaptability calibration mechanism to reduce the bias. Extensive experiments on benchmark datasets demonstrate the effectiveness of the proposed strategies, which outperforms current state-of-the-art methods with a significant margin in terms of not only average, but also worst-case accuracy.
翻訳日:2022-03-15 14:08:44 公開日:2022-03-13
# モバイルユーザプロファイリングのための強化Immitative Graph Learning

Reinforced Imitative Graph Learning for Mobile User Profiling ( http://arxiv.org/abs/2203.06550v1 )

ライセンス: Link先を確認
Dongjie Wang, Pengyang Wang, Yanjie Fu, Kunpeng Liu, Hui Xiong, and Charles E. Hughes(参考訳) モバイルユーザプロファイリング(mobile user profile)は、ユーザの特性をモバイルアクティビティから抽出する取り組みである。 効率的なユーザプロファイリングを生成するために,ユーザ特性の動的変化を捉えるために,模倣ベースのモバイルユーザプロファイリングフレームワークを提案する。 ユーザのプロファイルに基づいて、自律エージェントにユーザモビリティを模倣するように教えることの目的を考えると、エージェントがユーザ行動パターンを完全に模倣できる場合、ユーザプロファイルが最も正確である。 プロファイリングフレームワークは強化学習タスクとして定式化され、エージェントが次の訪問プランナーであり、アクションはユーザが次に訪問するpoiであり、環境の状態はユーザと空間エンティティの融合表現である。 ユーザがPOIを訪問するイベントは、エージェントがユーザのモビリティをより正確に予測するのに役立つ新しい状態を構築する。 本フレームワークでは,接続された空間エンティティ上でのユーザ訪問の意味を特徴付ける空間知識グラフ(KG)を導入する。 さらに、時間とともに進化する状態を定量化する相互更新戦略を開発する。 これらに沿って,モバイルユーザプロファイリングのための強化模倣グラフ学習フレームワークを開発した。 最後に、我々のアプローチの優位性を実証する広範な実験を行う。

Mobile user profiling refers to the efforts of extracting users' characteristics from mobile activities. In order to capture the dynamic varying of user characteristics for generating effective user profiling, we propose an imitation-based mobile user profiling framework. Considering the objective of teaching an autonomous agent to imitate user mobility based on the user's profile, the user profile is the most accurate when the agent can perfectly mimic the user behavior patterns. The profiling framework is formulated into a reinforcement learning task, where an agent is a next-visit planner, an action is a POI that a user will visit next, and the state of the environment is a fused representation of a user and spatial entities. An event in which a user visits a POI will construct a new state, which helps the agent predict users' mobility more accurately. In the framework, we introduce a spatial Knowledge Graph (KG) to characterize the semantics of user visits over connected spatial entities. Additionally, we develop a mutual-updating strategy to quantify the state that evolves over time. Along these lines, we develop a reinforcement imitative graph learning framework for mobile user profiling. Finally, we conduct extensive experiments to demonstrate the superiority of our approach.
翻訳日:2022-03-15 14:06:36 公開日:2022-03-13
# 最適化のためのシンボリックラーニング:解釈可能性とスケーラビリティを目指して

Symbolic Learning to Optimize: Towards Interpretability and Scalability ( http://arxiv.org/abs/2203.06578v1 )

ライセンス: Link先を確認
Wenqing Zheng, Tianlong Chen, Ting-Kuei Hu, Zhangyang Wang(参考訳) 近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。 既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。 スケーラビリティ: ニューラルネットワークで表される数値ルールは、L2Oモデルを適用するための余分なメモリオーバーヘッドを生成し、より大きなタスクを最適化するためにそれらの適用性を制限します。 両者の落とし穴を避けるため,本論文では,l2o に記号回帰の強力なツールを導入することで,「1石で2羽の鳥を殺す」ことができるという概念を実証する。 本稿では,L2Oの総合的な記号表現と解析の枠組みを構築し,学習可能なオプティマイザに一連の洞察を与える。 また,本研究の成果を生かして,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。 我々の研究は、l2o研究に新しい視点を提供する予定です。 コードは、https://github.com/VITA-Group/Symbolic-Learning-To-Optimizeで入手できる。

Recent studies on Learning to Optimize (L2O) suggest a promising path to automating and accelerating the optimization procedure for complicated tasks. Existing L2O models parameterize optimization rules by neural networks, and learn those numerical rules via meta-training. However, they face two common pitfalls: (1) scalability: the numerical rules represented by neural networks create extra memory overhead for applying L2O models, and limit their applicability to optimizing larger tasks; (2) interpretability: it is unclear what an L2O model has learned in its black-box optimization rule, nor is it straightforward to compare different L2O models in an explainable way. To avoid both pitfalls, this paper proves the concept that we can "kill two birds by one stone", by introducing the powerful tool of symbolic regression to L2O. In this paper, we establish a holistic symbolic representation and analysis framework for L2O, which yields a series of insights for learnable optimizers. Leveraging our findings, we further propose a lightweight L2O model that can be meta-trained on large-scale problems and outperformed human-designed and tuned optimizers. Our work is set to supply a brand-new perspective to L2O research. Codes are available at: https://github.com/VITA-Group/Symbolic-Learning-To-Optimize.
翻訳日:2022-03-15 14:06:17 公開日:2022-03-13
# 代数学習: 解釈可能な情報モデリングに向けて

Algebraic Learning: Towards Interpretable Information Modeling ( http://arxiv.org/abs/2203.06690v1 )

ライセンス: Link先を確認
Tong Owen Yang(参考訳) センサ技術を用いて収集されたデジタルデータの普及と計算能力の向上に伴い、ディープラーニング(dl)ベースのアプローチは、生データから複雑な関係を抽出し、貴重な情報を表現することで、過去10年間に多大な注目を集めてきた。 しかし、その悪名高いブラックボックスの性質に根ざして、DLの認識は解釈可能性の欠如のために非常に議論されている。 一方、DLは生データに含まれる統計的特徴のみを利用し、基礎システムの人的知識を無視し、データ非効率性と信頼の問題の両方をもたらす。一方、訓練されたDLモデルは、その出力以外の基盤システムに関する余分な洞察を与えていない。 この論文は、一般的な情報モデリングにおける解釈可能性の問題に対処し、2つのスコープから問題を緩和する試みである。 第一に、知識をモデリングの実践に取り入れるために問題指向の視点が適用され、興味深い数学的性質が自然に出現し、モデリングに制約が生じる。 第二に、訓練されたモデルを考えると、基礎となるシステムに関するさらなる洞察を抽出するために様々な方法を適用することができる。 これら2つの経路は誘導モデル設計と二次計測と呼ばれる。 興味深いことに、統計学習におけるモデリングの実践のために新しいスキームが出現する:代数学習(AgLr)。 特定のモデルの議論に制限される代わりに、AgLrは学習タスク自体の慣用性から始まり、正当なモデルクラスの構造を研究する。 この新しいスキームは、最近の進歩で見過ごされている汎用AIの抽象代数学の注目すべき価値を示し、解釈可能な情報モデリングにさらなる光を当てる可能性がある。

Along with the proliferation of digital data collected using sensor technologies and a boost of computing power, Deep Learning (DL) based approaches have drawn enormous attention in the past decade due to their impressive performance in extracting complex relations from raw data and representing valuable information. Meanwhile, though, rooted in its notorious black-box nature, the appreciation of DL has been highly debated due to the lack of interpretability. On the one hand, DL only utilizes statistical features contained in raw data while ignoring human knowledge of the underlying system, which results in both data inefficiency and trust issues; on the other hand, a trained DL model does not provide to researchers any extra insight about the underlying system beyond its output, which, however, is the essence of most fields of science, e.g. physics and economics. This thesis addresses the issue of interpretability in general information modeling and endeavors to ease the problem from two scopes. Firstly, a problem-oriented perspective is applied to incorporate knowledge into modeling practice, where interesting mathematical properties emerge naturally which cast constraints on modeling. Secondly, given a trained model, various methods could be applied to extract further insights about the underlying system. These two pathways are termed as guided model design and secondary measurements. Remarkably, a novel scheme emerges for the modeling practice in statistical learning: Algebraic Learning (AgLr). Instead of being restricted to the discussion of any specific model, AgLr starts from idiosyncrasies of a learning task itself and studies the structure of a legitimate model class. This novel scheme demonstrates the noteworthy value of abstract algebra for general AI, which has been overlooked in recent progress, and could shed further light on interpretable information modeling.
翻訳日:2022-03-15 14:05:54 公開日:2022-03-13
# ミスマッチ生成モードを用いたロバストマルコフ決定プロセスのポリシ学習

Policy Learning for Robust Markov Decision Process with a Mismatched Generative Mode ( http://arxiv.org/abs/2203.06587v1 )

ライセンス: Link先を確認
Jialian Li, Tongzheng Ren, Dong Yan, Hang Su, Jun Zhu(参考訳) 医療や自動操縦といった高度なシナリオでは、オンラインの実験データを収集してエージェントを訓練するのは危険か不可能です。 シミュレーションベースのトレーニングはこの問題を軽減することができるが、シミュレータと実際の環境から固有のミスマッチに悩まされる可能性がある。 したがって,シミュレータを用いて実世界展開のための堅牢なポリシーを学ぶことが不可欠である。 本研究では,ロバスト・マルコフ決定過程(RMDP)に対する政策学習について考察する。 具体的には、学習環境を生成モデルとして特徴付けることができ、テスト中に制約のある摂動をモデルに追加できるような設定に焦点を当てる。 これは,サンプルからトレーニング環境の不確実性を同時に推定し,テストの最悪の摂動を見出す必要があるため,さらなる技術的困難をもたらすものだ。 そこで本研究では,対戦相手としての摂動を形式化し,二人プレイのゼロサムゲームを得る汎用的な手法を提案し,さらにnash均衡がロバストな方針に対応することを示す。 生成モデルからのサンプルの多項式数を用いて,本アルゴリズムは高い確率で最適に近いロバストポリシを求めることができることを示す。 本手法は穏やかな仮定の下で一般的な摂動に対処でき,ゲーム理論的な定式化によりロバスト部分可観測マルコフ決定プロセスのようなより複雑な問題にも拡張することができる。

In high-stake scenarios like medical treatment and auto-piloting, it's risky or even infeasible to collect online experimental data to train the agent. Simulation-based training can alleviate this issue, but may suffer from its inherent mismatches from the simulator and real environment. It is therefore imperative to utilize the simulator to learn a robust policy for the real-world deployment. In this work, we consider policy learning for Robust Markov Decision Processes (RMDP), where the agent tries to seek a robust policy with respect to unexpected perturbations on the environments. Specifically, we focus on the setting where the training environment can be characterized as a generative model and a constrained perturbation can be added to the model during testing. Our goal is to identify a near-optimal robust policy for the perturbed testing environment, which introduces additional technical difficulties as we need to simultaneously estimate the training environment uncertainty from samples and find the worst-case perturbation for testing. To solve this issue, we propose a generic method which formalizes the perturbation as an opponent to obtain a two-player zero-sum game, and further show that the Nash Equilibrium corresponds to the robust policy. We prove that, with a polynomial number of samples from the generative model, our algorithm can find a near-optimal robust policy with a high probability. Our method is able to deal with general perturbations under some mild assumptions and can also be extended to more complex problems like robust partial observable Markov decision process, thanks to the game-theoretical formulation.
翻訳日:2022-03-15 14:01:58 公開日:2022-03-13
# 不況を先導する指標としての利回り曲線。 傾斜ブースティングとランダム森林への応用

The Yield Curve as a Recession Leading Indicator. An Application for Gradient Boosting and Random Forest ( http://arxiv.org/abs/2203.06648v1 )

ライセンス: Link先を確認
Pedro Cadahia Delgado, Emilio Congregado, Antonio A. Golpe, Jos\'e Carlos Vides(参考訳) 多くの代表的な決定ツリーアンサンブル手法は、米国経済不況を予測し、米国の経済不況を検知するための規則を生成するために、財務用語の拡散の変動の重要性を調べるために用いられてきた。 財務用語を表わした分類器を訓練するための戦略を提案し, 解釈可能性の最良のモデルを選択するために, 結果を比較した。 また,Shapley Additive exPlanations (SHAP) フレームワークを用いて,特徴の重要度を分析し,米国の景気後退予測を理解する。 既存の文献と一致して、米国経済不況を予測するための最も関連性の高い財務用語が広がり、経済不況の検出に関する関連するルールを検出するための方法論が見つかる。 この場合、最も関連する用語は3ヶ月から6ヶ月であり、経済当局によって監視されることが提案されている。 最後に、この手法は、これらのエンティティが利用できる経済不況を予測するための高揚力ルールを検出する。 後者の結果は、多くの代替アルゴリズムを比較するのに機械学習手法が有用であることを示す文献が増えているのとは対照的に、本研究の解釈を議論し、本研究に沿うさらなる研究線を提案する。

Most representative decision tree ensemble methods have been used to examine the variable importance of Treasury term spreads to predict US economic recessions with a balance of generating rules for US economic recession detection. A strategy is proposed for training the classifiers with Treasury term spreads data and the results are compared in order to select the best model for interpretability. We also discuss the use of SHapley Additive exPlanations (SHAP) framework to understand US recession forecasts by analyzing feature importance. Consistently with the existing literature we find the most relevant Treasury term spreads for predicting US economic recession and a methodology for detecting relevant rules for economic recession detection. In this case, the most relevant term spread found is 3 month to 6 month, which is proposed to be monitored by economic authorities. Finally, the methodology detected rules with high lift on predicting economic recession that can be used by these entities for this propose. This latter result stands in contrast to a growing body of literature demonstrating that machine learning methods are useful for interpretation comparing many alternative algorithms and we discuss the interpretation for our result and propose further research lines aligned with this work.
翻訳日:2022-03-15 14:01:33 公開日:2022-03-13
# Context-LSTM: UCF101上のビデオ検出のための堅牢な分類器

Context-LSTM: a robust classifier for video detection on UCF101 ( http://arxiv.org/abs/2203.06610v1 )

ライセンス: Link先を確認
Dengshan Li, Rujing Wang(参考訳) ビデオ検出と人間の行動認識は計算コストが高く、モデルを訓練するのに長い時間がかかる。 本稿では,ビデオ検出のトレーニング時間とGPUメモリ使用量を削減することを目的として,競合検出精度を実現した。 Two-stream, C3D, TSNなどの他の研究成果は、UCF101で優れたパフォーマンスを示している。 そこで我々は,ビデオ検出にLSTM構造を用いた。 ucf101の検証データセット全体の競合top-1精度を実現するために,簡単な構造を用いた。 LSTM構造は、深い時間的特徴を処理できるため、Context-LSTMと呼ばれている。 Context-LSTMは人間の認識システムをシミュレートすることができる。 我々はPyTorchのLSTMブロックをカスケードし、細胞状態の流れと隠れ出力の流れを接続した。 ブロックの接続時に、ReLU、バッチ正規化、MaxPooling関数を使用しました。 Context-LSTMはトレーニング時間とGPUメモリ使用量を削減し、UCF101全体の検証データセット上で最先端のトップ1の精度を維持しながら、ビデオアクション検出における堅牢なパフォーマンスを示す。

Video detection and human action recognition may be computationally expensive, and need a long time to train models. In this paper, we were intended to reduce the training time and the GPU memory usage of video detection, and achieved a competitive detection accuracy. Other research works such as Two-stream, C3D, TSN have shown excellent performance on UCF101. Here, we used a LSTM structure simply for video detection. We used a simple structure to perform a competitive top-1 accuracy on the entire validation dataset of UCF101. The LSTM structure is named Context-LSTM, since it may process the deep temporal features. The Context-LSTM may simulate the human recognition system. We cascaded the LSTM blocks in PyTorch and connected the cell state flow and hidden output flow. At the connection of the blocks, we used ReLU, Batch Normalization, and MaxPooling functions. The Context-LSTM could reduce the training time and the GPU memory usage, while keeping a state-of-the-art top-1 accuracy on UCF101 entire validation dataset, show a robust performance on video action detection.
翻訳日:2022-03-15 13:21:49 公開日:2022-03-13
# カーネルを31x31にスケールアップする - cnnで大規模カーネル設計を再検討する

Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs ( http://arxiv.org/abs/2203.06717v1 )

ライセンス: Link先を確認
Xiaohan Ding, Xiangyu Zhang, Yizhuang Zhou, Jungong Han, Guiguang Ding, Jian Sun(参考訳) 本稿では,近年無視されている現代畳み込みニューラルネットワーク(CNN)の大規模カーネル設計を再考する。 視覚変換器(ViT)の最近の進歩に触発されて、小さな畳み込みのスタックではなく、少数の大きなカーネルを使用することが、より強力なパラダイムになり得ることを指摘した。 そこで我々は、例えば、効率的な高性能大カーネルCNNの設計に再パラメータ化された大深度畳み込みを適用した5つのガイドラインを要約する。 本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。 RepLKNetは、CNNとViTのパフォーマンスギャップを大幅に橋渡しする。例えば、ImageNetや下流タスクにおいて、Swin Transformerと同等またはより良い結果を達成する一方で、RepLKNetのレイテンシははるかに低い。 さらに、RepLKNetは、ビッグデータや大規模モデルに対して実現可能なスケーラビリティを示し、ImageNetでは87.8%、ADE20Kでは56.0%のmIoUが得られる。 最終的に、我々の研究は、大型カーネルCNNが、従来のCNNよりもはるかに大きな効果的な受容場や、テクスチャバイアスよりも高い形状バイアスなど、ViTといくつかの優れた特性を共有していることを示唆している。 コードとモデルはhttps://github.com/megvii-research/replknet。

In this paper we revisit large kernel design in modern convolutional neural networks (CNNs), which is often neglected in the past few years. Inspired by recent advances of vision transformers (ViTs), we point out that using a few large kernels instead of a stack of small convolutions could be a more powerful paradigm. We therefore summarize 5 guidelines, e.g., applying re-parameterized large depth-wise convolutions, to design efficient high-performance large-kernel CNNs. Following the guidelines, we propose RepLKNet, a pure CNN architecture whose kernel size is as large as 31x31. RepLKNet greatly bridges the performance gap between CNNs and ViTs, e.g., achieving comparable or better results than Swin Transformer on ImageNet and downstream tasks, while the latency of RepLKNet is much lower. Moreover, RepLKNet also shows feasible scalability to big data and large models, obtaining 87.8% top-1 accuracy on ImageNet and 56.0%} mIoU on ADE20K. At last, our study further suggests large-kernel CNNs share several nice properties with ViTs, e.g., much larger effective receptive fields than conventional CNNs, and higher shape bias rather than texture bias. Code & models at https://github.com/megvii-research/RepLKNet.
翻訳日:2022-03-15 13:21:33 公開日:2022-03-13
# 転送に基づく事前指示によるクエリ効率の高いブラックボックス逆攻撃

Query-Efficient Black-box Adversarial Attacks Guided by a Transfer-based Prior ( http://arxiv.org/abs/2203.06560v1 )

ライセンス: Link先を確認
Yinpeng Dong, Shuyu Cheng, Tianyu Pang, Hang Su, Jun Zhu(参考訳) デプロイ前にディープラーニングモデルの脆弱性を識別できるため、adversarial attackは近年広く研究されている。 本稿では,対象モデルの勾配にアクセスできることなく,敵が敵の例を作らなければならないブラックボックスの敵設定について考察する。 従来の手法では、代用ホワイトボックスモデルの転送勾配を用いたり、モデルクエリのフィードバックに基づいて真の勾配を近似しようとした。 しかし,既存の手法では情報量が少ない高次元入力空間での勾配推定が困難であるため,攻撃成功率の低下やクエリ効率の低下に必然的に悩まされる。 これらの問題に対処し、ブラックボックス攻撃を改善するために、バイアスサンプリングと勾配平均化に基づく2つの事前誘導ランダム勾配フリー(PRGF)アルゴリズムを提案する。 提案手法は,サロゲートモデルの勾配と問合せ情報を同時に与えた転送に基づく先行手法を活用できる。 理論解析により、転送ベースプリエントは各手法の最適係数によってモデルクエリと適切に統合される。 広範な実験によって、我々の手法は、より高い成功率でブラックボックスモデルを攻撃するために、より少ないクエリを必要とすることが示されました。

Adversarial attacks have been extensively studied in recent years since they can identify the vulnerability of deep learning models before deployed. In this paper, we consider the black-box adversarial setting, where the adversary needs to craft adversarial examples without access to the gradients of a target model. Previous methods attempted to approximate the true gradient either by using the transfer gradient of a surrogate white-box model or based on the feedback of model queries. However, the existing methods inevitably suffer from low attack success rates or poor query efficiency since it is difficult to estimate the gradient in a high-dimensional input space with limited information. To address these problems and improve black-box attacks, we propose two prior-guided random gradient-free (PRGF) algorithms based on biased sampling and gradient averaging, respectively. Our methods can take the advantage of a transfer-based prior given by the gradient of a surrogate model and the query information simultaneously. Through theoretical analyses, the transfer-based prior is appropriately integrated with model queries by an optimal coefficient in each method. Extensive experiments demonstrate that, in comparison with the alternative state-of-the-arts, both of our methods require much fewer queries to attack black-box models with higher success rates.
翻訳日:2022-03-15 13:20:46 公開日:2022-03-13
# 医科教育ビデオにおける視覚プロンプト時間解答接地に向けて

Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional Video ( http://arxiv.org/abs/2203.06667v1 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Bin Sun and Shutao Li(参考訳) ビデオ中の時間応答グラウンドディング(TAGV)は、ビデオ中の時間文グラウンドディング(TSGV)から自然に導出される新しいタスクである。 未解決のビデオとテキストの質問を考えると、このタスクは、意味的に質問に答えられるビデオからマッチングスパンを見つけることを目的としています。 既存の手法では、テキスト質問によって検索された視覚的フレーム幅をマッチングすることにより、視覚的スパンベースの質問応答(QA)アプローチでTAGVタスクを定式化する傾向にある。 しかし,テキスト質問と視覚応答の特徴のセマンティクスの弱い相関や大きなギャップのため,既存の視覚的スパン予測手法はTAGVタスクではうまく機能しない。 本稿では,事前学習型言語モデル (plm) におけるテキストスパンのローカライズを視覚強調機能で強化する,vptsl(visual-prompt text span localizing)法を提案する。 具体的には、コンテキストクエリアテンションを用いて、テキスト特徴と視覚的特徴との間のクロスモーダルモデリングを行う。 次に、線状層を有するハイライトモジュールを介してハイライト機能を取得し、ビジュアルプロンプトを提供する。 テキストの特徴と視覚的特徴のセマンティクスと相関を緩和するために,PLMにおける疑問,字幕,視覚的プロンプトを符号化してテキストスパン予測器を設計する。 その結果、TAGVタスクは、応答フレームタイムラインに一致するサブタイトルのスパンを予測するために定式化される。 MedVidQAと呼ばれる医療指導データセットに関する大規模な実験では、提案されたVPTSLは他の最先端の手法よりも優れており、視覚的プロンプトとテキストスパン予測器の有効性を示している。

The temporal answering grounding in the video (TAGV) is a new task naturally deriving from temporal sentence grounding in the video (TSGV). Given an untrimmed video and a text question, this task aims at locating the matching span from the video that can semantically answer the question. Existing methods tend to formulate the TAGV task with a visual span-based question answering (QA) approach by matching the visual frame span queried by the text question. However, due to the weak correlations and huge gaps in semantics in features between the textual question and visual answer, existing methods adopting visual span predictor fail to perform well in the TAGV task. In this work, we propose a visual-prompt text span localizing (VPTSL) method, which enhances the text span localization in the pre-trained language model (PLM) with the visual highlight features. Specifically, the context query attention is utilized to perform cross-modal modeling between the textual and visual features. Then, the highlight features are obtained through the highlight module with a linear layer to provide the visual prompt. To alleviate the differences in semantics and correlations between textual and visual features, we design the text span predictor by encoding the question, the subtitles, and the visual prompt in the PLM. As a result, the TAGV task is formulated to predict the span of subtitles matching the answering frame timeline. Extensive experiments on the medical instructional dataset, namely MedVidQA, show the proposed VPTSL outperforms other state-of-the-art methods, which demonstrates the effectiveness of visual prompt and the text span predictor.
翻訳日:2022-03-15 13:04:39 公開日:2022-03-13
# 制約付き表現複雑性をもつ階層分類における集合値予測

Set-valued prediction in hierarchical classification with constrained representation complexity ( http://arxiv.org/abs/2203.06676v1 )

ライセンス: Link先を確認
Thomas Mortier, Eyke H\"ullermeier, Krzysztof Dembczy\'nski, Willem Waegeman(参考訳) 集合値予測は多クラス分類においてよく知られた概念である。 分類器がテストインスタンスのクラスラベルについて不確かである場合、単一のクラスではなくクラスの集合を予測することができる。 本稿では,階層型マルチクラス分類問題に着目し,有効集合(典型的には)が階層の内部ノードに対応する。 これは非常に強い制約であり、予測された集合に対して表現複雑性の概念を導入することで緩和を提案する。 確率的分類器と組み合わせることで、特定の組合せ最適化アルゴリズムが必要であるという難しい推論問題につながる。 本研究では,行列ベクトル乗法に基づくna\"iveアプローチ,コンフリクトグラフを用いたナップサック問題としての再構成,再帰木探索法という3つの手法を提案する。 実験の結果, 条件クラス分布の階層的分解により, 最後の手法は他の2つの手法よりも計算効率が高かった。

Set-valued prediction is a well-known concept in multi-class classification. When a classifier is uncertain about the class label for a test instance, it can predict a set of classes instead of a single class. In this paper, we focus on hierarchical multi-class classification problems, where valid sets (typically) correspond to internal nodes of the hierarchy. We argue that this is a very strong restriction, and we propose a relaxation by introducing the notion of representation complexity for a predicted set. In combination with probabilistic classifiers, this leads to a challenging inference problem for which specific combinatorial optimization algorithms are needed. We propose three methods and evaluate them on benchmark datasets: a na\"ive approach that is based on matrix-vector multiplication, a reformulation as a knapsack problem with conflict graph, and a recursive tree search method. Experimental results demonstrate that the last method is computationally more efficient than the other two approaches, due to a hierarchical factorization of the conditional class distribution.
翻訳日:2022-03-15 13:03:12 公開日:2022-03-13
# タスク関連アンタングルメントと制御可能なサンプル合成による非生成的一般化ゼロショット学習

Non-generative Generalized Zero-shot Learning via Task-correlated Disentanglement and Controllable Samples Synthesis ( http://arxiv.org/abs/2203.05335v2 )

ライセンス: Link先を確認
Yaogong Feng, Xiaowen Huang, Pengbo Yang, Jian Yu, Jitao Sang(参考訳) 擬似サンプルの合成は、現在、一般化ゼロショット学習(GZSL)問題を解決する最も効果的な方法である。 Most models achieve competitive performance but still suffer from two problems: (1) Feature confounding, the overall representations confound task-correlated and task-independent features, and existing models disentangle them in a generative way, but they are unreasonable to synthesize reliable pseudo samples with limited samples; (2) Distribution uncertainty, that massive data is needed when existing models synthesize samples from the uncertain distribution, which causes poor performance in limited samples of seen classes. 本稿では,タスク関連特徴のゆがみ(タスク関連特徴のゆがみ)とタスク関連特徴(タスク関連特徴のゆがみ)を,ドメイン適応の合理的な合成への逆習学習(ドメイン適応の逆習学習)と,エッジ擬似サンプル合成(エッジ擬似サンプル合成)とセンター擬似サンプル合成(センター擬似サンプル合成)の2つのモジュールで対応付ける非生成モデルを提案する。 加えて、トレーニングプロセスで見られるクラスサンプルの制限である新しいシーンを記述するために、「Few-shot Seen class and Zero-shot Unseen class learning」(FSZU)という新しいZSLタスクを定式化する。 4つのベンチマークにおいて、提案手法がGZSLとFSZUタスクで競合することを確認した。

Synthesizing pseudo samples is currently the most effective way to solve the Generalized Zero Shot Learning (GZSL) problem. Most models achieve competitive performance but still suffer from two problems: (1) Feature confounding, the overall representations confound task-correlated and task-independent features, and existing models disentangle them in a generative way, but they are unreasonable to synthesize reliable pseudo samples with limited samples; (2) Distribution uncertainty, that massive data is needed when existing models synthesize samples from the uncertain distribution, which causes poor performance in limited samples of seen classes. In this paper, we propose a non-generative model to address these problems correspondingly in two modules: (1) Task-correlated feature disentanglement, to exclude the task-correlated features from task-independent ones by adversarial learning of domain adaption towards reasonable synthesis; (2) Controllable pseudo sample synthesis, to synthesize edge-pseudo and center-pseudo samples with certain characteristics towards more diversity generated and intuitive transfer. In addation, to describe the new scene that is the limit seen class samples in the training process, we further formulate a new ZSL task named the 'Few-shot Seen class and Zero-shot Unseen class learning' (FSZU). Extensive experiments on four benchmarks verify that the proposed method is competitive in the GZSL and the FSZU tasks.
翻訳日:2022-03-15 11:24:32 公開日:2022-03-13