このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220901となっている論文です。

PDF登録状況(公開日: 20220901)

TitleAuthorsAbstract論文公表日・翻訳日
# ページタイムの前に 最大の絡み合いか モンスターの返却か?

Before the Page time: maximum entanglements or the return of the monster? ( http://arxiv.org/abs/2002.03543v2 )

ライセンス: Link先を確認
Jeong-Myeong Bae, Dong Jin Lee, Dong-han Yeom, Heeseung Zoe(参考訳) 蒸発するブラックホールの情報保存は、量子力学の基本的な対称性であるユニタリティーの非常に自然な結果である。 情報の保存を研究するためには,絡み合いのエントロピーの性質を理解する必要がある。 ホーキング放射のエントロピーは、ブラックホールがページ時間前の状態にある場合、すなわちホーキング放射のエントロピーがブラックホールのエントロピーよりも小さい場合、エントロピーの最大値とほぼ等しい。 しかし、最大エンタングルメントよりも小さなエンタングルメントを生成するプロセスが存在する場合、ホーキング放射のエントロピーはページ時間前のエンタングルメントエントロピーの最大値よりも小さくなる。 この過程が蓄積されると、確率が小さいとしても、放出された放射は最終的に正確な熱状態と区別される。 本稿では,(1)崩壊した物質の情報がページタイム前に放出されるか,(2)ページタイムの前にファイアウォールや非局所効果が存在するか,(3)統計的エントロピーが基底エントロピーよりも大きいか,モンスターを形成するか,という解釈を述べる。 我々の結論は、さらなる研究の基盤を提供することで、情報損失パラドックスの解決に役立ちます。

The conservation of information of evaporating black holes is a very natural consequence of unitarity which is the fundamental symmetry of quantum mechanics. In order to study the conservation of information, we need to understand the nature of the entanglement entropy. The entropy of Hawking radiation is approximately equal to the maximum of entanglement entropy if a black hole is in a state before the Page time, i.e., when the entropy of Hawking radiation is smaller than the entropy of the black hole. However, if there exists a process generating smaller entanglements rather than maximal entanglements, the entropy of Hawking radiation will become smaller than the maximum of the entanglement entropy before the Page time. If this process accumulates, even though the probability is small, the emitted radiation can eventually be distinguished from the exactly thermal state. In this paper, we provide several interpretations of this phenomenon: (1) information of the collapsed matter is emitted before the Page time, (2) there exists a firewall or a non-local effect before the Page time, or (3) the statistical entropy is greater than the areal entropy; a monster is formed. Our conclusion will help resolve the information loss paradox by providing groundwork for further research.
翻訳日:2023-06-04 02:02:40 公開日:2022-09-01
# Rydberg励起遮断における状態混合の影響の定量化

Quantifying the impact of state mixing on the Rydberg excitation blockade ( http://arxiv.org/abs/2004.07280v2 )

ライセンス: Link先を確認
Milo Eder, Andrew Lesak, Abigail Plone, Tomohisa Yoda, Michael Highman, and Aaron Reinhard(参考訳) ライドベルクの励起遮断は、近年の成果の目覚ましい中心にあるが、状態混合相互作用はその効率を損なう可能性がある。 超低温の原子がF\"オースター共鳴の近くでリドベルク状態に励起されると、励起後の数十 ns以内の双極子結合生成物状態に最大$\sim 50\%の原子が見つかる。 この混合が起こるメカニズムについては文献に異論がある。 狭帯域レーザー励起中におけるRydberg状態の分布をショットバイショットで測定するために、状態選択電離分光法を用いる。 本手法により,各混合イベントに付加されるrydberg励起数を決定できるとともに,どの状態が 'breaks'' を混合しているかを定量化することができる。 超低温ルビジウム原子を$nd_{5/2}$状態まで励起すると、混合は正確なf\"orster共鳴を除いて3体過程と一致することが分かる。

The Rydberg excitation blockade has been at the heart of an impressive array of recent achievements; however, state-mixing interactions can compromise its efficiency. When ultracold atoms are excited to Rydberg states near F\"orster resonance, up to $\sim 50\%$ of atoms can be found in dipole coupled product states within tens of ns after excitation. There has been disagreement in the literature regarding the mechanism by which this mixing occurs. We use state-selective field ionization spectroscopy to measure, on a shot-by-shot basis, the distribution of Rydberg states populated during narrowband laser excitation. Our method allows us to both determine the number of additional Rydberg excitations added by each mixing event, and to quantify the extent to which state mixing ``breaks'' the blockade. For excitation of ultracold rubidium atoms to $nD_{5/2}$ states, we find that the mixing is consistent with a three-body process, except near exact F\"orster resonance.
翻訳日:2023-05-23 09:00:15 公開日:2022-09-01
# 古典的ビットフリップ補正による量子コンピュータの誤差測定

Measurement Error Mitigation in Quantum Computers Through Classical Bit-Flip Correction ( http://arxiv.org/abs/2007.03663v3 )

ライセンス: Link先を確認
Lena Funcke, Tobias Hartung, Karl Jansen, Stefan K\"uhn, Paolo Stornati, Xiaoyang Wang(参考訳) 量子コンピュータにおける測定誤差を緩和する古典的なビットフリップ補正法を開発した。 この方法は任意の演算子、任意の数のキュービット、および任意の現実的なビットフリップ確率に適用できる。 まず, 縦型イジングモデルの地中エネルギーのノイズ測定を補正することにより, この手法の有効性を実証する。 次に、任意の演算子に結果を一般化し、IBM量子ハードウェア上で数値的および実験的に手法をテストする。 その結果,量子ハードウェアにおける測定誤差を最大1桁まで低減できることがわかった。 最後に,この手法を事前処理し,測定誤差を超えて他のエラー源に拡張する方法について論じる。 局所ハミルトニアンのオーバーヘッドコストは、たとえ多重量子ビット相関を含むとしても、キュービット数の多項式である。

We develop a classical bit-flip correction method to mitigate measurement errors on quantum computers. This method can be applied to any operator, any number of qubits, and any realistic bit-flip probability. We first demonstrate the successful performance of this method by correcting the noisy measurements of the ground-state energy of the longitudinal Ising model. We then generalize our results to arbitrary operators and test our method both numerically and experimentally on IBM quantum hardware. As a result, our correction method reduces the measurement error on the quantum hardware by up to one order of magnitude. We finally discuss how to pre-process the method and extend it to other errors sources beyond measurement errors. For local Hamiltonians, the overhead costs are polynomial in the number of qubits, even if multi-qubit correlations are included.
翻訳日:2023-05-11 01:29:14 公開日:2022-09-01
# 深層学習を用いたセルオートマトン解釈へのアプローチ

Approach to the cellular automaton interpretation with deep learning ( http://arxiv.org/abs/2012.06441v5 )

ライセンス: Link先を確認
Hyunju Go(参考訳) 本稿では,セルオートマトン解釈(CAI)に基づいて基礎物理理論を学習できる機械学習システムについて考察する。 まず,任意の初期CAの時間進化型セルオートマトン(CA)を,与えられたシステムの時間進化法則を知ることによって計算できると仮定すると,ある例として計算されたデータセットのみを用いて,このシステムの時間進化法則を学習できる畳み込みニューラルネットワーク(CNN)アーキテクチャが存在することを示す。 caを学べるcnnアーキテクチャを見つけることは、時間変化の時間発展作用素が時間に依存しない線型関数とrelu型非線形関数の有限合成として表現できることを示すのと同値である。 具体的な例として、時間的に可逆であり、時間とともに変化する行列乗法として表されるブロックCAが時間進化法則として使用され、この進化法則を学習できるCNNアーキテクチャが提案される。 しかし、普遍近似定理によれば、任意の量子系のデータであっても、ネットワークの深さが十分に深いならば、ハミルトニアンによらず実際のルールを学習できるcnnアーキテクチャを見つけることができ、したがって時間発展法則は一貫してcnnとして表現することができる。 また、畳み込み層は共変形式で表現できるので、重力を含むデータセットの進化則を学ぶことができるcnnアーキテクチャを見つけるのに役立つかもしれない。 一方、第1層と第2層の活性化関数がバイパスされた場合、CNNは従来の量子力学において確率論的解釈の対応する部分を含むように訓練することができる。 最後に、量子重力の次元的減少が最初に提示されるCAモデルについて、非自明な進化則を導出的に見つけることができるCNNアーキテクチャについて論じる。

In this paper, we will consider the machine learning system that can learn fundamental physics theory based on cellular automaton interpretation (CAI). First, assuming that we can calculate the time-evolved cellular automaton (CA) for any initial CA by knowing the time-evolution law of the given system, we will show that there exists a convolutional neural network (CNN) architecture that can learn the time-evolution law of this system with only the calculated data set for a certain example. Finding a CNN architecture that can learn CA is equivalent to showing that a time-varying time-evolution operator can be represented as a finite composition of time-independent linear functions and ReLU type non-linear functions. As a concrete example, block CA, which is time reversible and expressed as a matrix multiplication that changes with time, will be used as the time-evolution law, and the CNN architecture that can learn this evolution law will be proposed. However, by the universal approximation theorem, even with data of arbitrary quantum systems, if the depth of the network is deep enough, a CNN architecture that can learn actual rules can be found, regardless of the Hamiltonian, and therefore, the time-evolution law can be consistently expressed as a CNN. Also, since the convolution layer can be expressed in a covariant form, it could be helpful to find a CNN architecture that can learn the evolution law for a data set that includes gravity. Meanwhile, it will be shown that if the activation function of the first and last hidden layer is bypass, the CNN can be trained to include the corresponding part of the probabilistic interpretation in conventional quantum mechanics. Finally, for the CA model in which the dimensional reduction in quantum gravity is first presented, we will discuss the CNN architecture that can find the non-trivial evolution law in a deductive way.
翻訳日:2023-04-21 05:27:04 公開日:2022-09-01
# 量子電磁力学と磁気電荷の双対対称性

Duality Symmetry of Quantum Electrodynamics and Magnetic Charges ( http://arxiv.org/abs/2103.01000v5 )

ライセンス: Link先を確認
Li-Ping Yang and Dazhi Xu(参考訳) 古典的なマクスウェル方程式に隠された電気と磁性の双対対称性は、通常磁気電荷として解釈され、実験では観測されていない双対電荷の存在を示唆している。 量子電磁力学(qed)では、電場と磁場は1つのゲージ場に統一されており、この対称性は目立たない。 ここでは、双対ゲージ場と双対対称ラグランジアンを導入することにより、QEDの双対対称性を再確認する。 ゲージ場理論の枠組みの中で、電磁気双対対称性が新しい保存則を与えることができないことを示す。 電荷-電荷相互作用と量子ローレンツ力方程式をチェックすることで、導入された二重電荷は電荷ではなく電荷であることが分かる。 より重要なことに、真の磁気電荷は、ゲージ光子の交換によって電荷と電荷の相互作用を仲介できないため、qedのゲージ場理論と相容れないことが示されている。

The duality symmetry between electricity and magnetism hidden in classical Maxwell equations suggests the existence of dual charges, which have usually been interpreted as magnetic charges and have not been observed in experiments. In quantum electrodynamics (QED), both the electric and magnetic fields have been unified into one gauge field, which makes this symmetry inconspicuous. Here, we recheck the duality symmetry of QED by introducing a dual gauge field and a dual symmetric Lagrangian. Within the framework of gauge-field theory, we show that the electric-magnetic duality symmetry cannot give any new conservation law. By checking the charge-charge interaction and the quantum Lorentz-force equation, we find that the introduced dual charges are electric charges, not magnetic charges. More importantly, we show that true magnetic charges are not compatible with the gauge-field theory of QED, because the interaction between a magnetic charge and an electric charge cannot be mediated via the exchange of gauge photons.
翻訳日:2023-04-09 14:45:02 公開日:2022-09-01
# 量子鍵分布率計算のためのロバスト内部点法

Robust Interior Point Method for Quantum Key Distribution Rate Computation ( http://arxiv.org/abs/2104.03847v2 )

ライセンス: Link先を確認
Hao Hu, Jiyoung Im, Jie Lin, Norbert L\"utkenhaus and Henry Wolkowicz(参考訳) 数値鍵レート計算問題に基づく量子鍵分布のセキュリティ証明手法であるQKDは原理的に強力である。 しかし,本手法の実用性は計算資源と基礎となる凸最適化アルゴリズムの効率と精度によって制限される。 我々は、鍵レート計算問題に対する凸非線形半定値計画(SDP)の安定な再構成を導出する。 これを使って効率的で正確なアルゴリズムを開発します。 安定な再構成は、線形制約と非線形量子相対エントロピー目的関数の両方に対する新しい顔の還元法frに基づいている。 これによりgauss-newton型内接点アプローチが可能となり、現在文献で使われている手法である厳密な実現性を得るために摂動の必要性を回避できる。 その結果、FR安定化による元のQKDに対する理論的に証明された下界を持つ高精度解が得られた。 これは一般SDPのためのFRに新しい貢献を提供する。 従来の難解な問題を解決するとともに,速度と精度を劇的に向上させる実験結果について報告する。

Security proof methods for quantum key distribution, QKD, that are based on the numerical key rate calculation problem, are powerful in principle. However, the practicality of the methods are limited by computational resources and the efficiency and accuracy of the underlying algorithms for convex optimization. We derive a stable reformulation of the convex nonlinear semidefinite programming, SDP, model for the key rate calculation problems. We use this to develop an efficient, accurate algorithm. The stable reformulation is based on novel forms of facial reduction, FR, for both the linear constraints and nonlinear quantum relative entropy objective function. This allows for a Gauss-Newton type interior-point approach that avoids the need for perturbations to obtain strict feasibility, a technique currently used in the literature. The result is high accuracy solutions with theoretically proven lower bounds for the original QKD from the FR stable reformulation. This provides novel contributions for FR for general SDP. We report on empirical results that dramatically improve on speed and accuracy, as well as solving previously intractable problems.
翻訳日:2023-04-04 12:04:48 公開日:2022-09-01
# 交流場センシングのための積分型量子多体センサ

Integrable quantum many-body sensors for AC field sensing ( http://arxiv.org/abs/2105.13507v2 )

ライセンス: Link先を確認
Utkarsh Mishra and Abolfazl Bayat(参考訳) 量子センシングは必然的に、量子技術の古典的優位性のエレガントな例である。 量子メトロロジーの望ましい取り組みの1つは交流フィールドセンシングである。 そこで,解析および数値解析により,積分可能な多体系を効率的に活用して交流磁場の振幅を検出できることを示す。 パラメータ推定のための臨界多体プローブにおける基底状態を用いる従来の戦略とは異なり、サブシステムへの部分アクセスのみを考慮する。 力学の周期性のため、系の任意の局所的なブロックは定常状態に飽和し、古典的限界を超える精度を実現し、ほぼハイゼンベルク境界に達する。 臨界系の基底状態における量子センシングの特徴に類似した、量子精度の向上とフロケギャップの閉鎖を関連付ける。 提案プロトコルは、例えばイオントラップなどの短期量子シミュレータにおいて、限られた数の量子ビットで実現可能であることを示す。 このようなシステムでは、単純なブロック磁化測定とベイズ推論推定器が極めて高精度な交流フィールドセンシングを実現できることを示す。

Quantum sensing is inevitably an elegant example of the supremacy of quantum technologies over their classical counterparts. One of the desired endeavors of quantum metrology is AC field sensing. Here, by means of analytical and numerical analysis, we show that integrable many-body systems can be exploited efficiently for detecting the amplitude of an AC field. Unlike the conventional strategies in using the ground states in critical many-body probes for parameter estimation, we only consider partial access to a subsystem. Due to the periodicity of the dynamics, any local block of the system saturates to a steady state which allows achieving sensing precision well beyond the classical limit, almost reaching the Heisenberg bound. We associate the enhanced quantum precision to closing of the Floquet gap, resembling the features of quantum sensing in the ground state of critical systems. We show that the proposed protocol can also be realized in near-term quantum simulators, e.g. ion-traps, with a limited number of qubits. We show that in such systems a simple block magnetization measurement and a Bayesian inference estimator can achieve very high precision AC field sensing.
翻訳日:2023-03-29 06:56:11 公開日:2022-09-01
# 高データレートグレーティング磁気光学トラップとフォトニック集積回路対応レーザーを用いた小型冷原子干渉計

A Compact Cold-Atom Interferometer with a High Data-Rate Grating Magneto-Optical Trap and a Photonic-Integrated-Circuit-Compatible Laser System ( http://arxiv.org/abs/2107.04792v3 )

ライセンス: Link先を確認
Jongmin Lee, Roger Ding, Justin Christensen, Randy R. Rosenthal, Aaron Ison, Daniel Paul Gillund, David Bossert, Kyle H. Fuerschbach, William Kindel, Patrick S. Finnegan, Joel R. Wendt, Michael Gehl, Ashok Kodigala, Hayden McGuinness, Charles A. Walker, Shanalyn A. Kemme, Anthony Lentine, Grant Biedermann, and Peter D. D. Schwindt(参考訳) 冷原子干渉計の極端に小型化は、干渉計サブシステムのための新しい技術とアーキテクチャの開発を必要とする。 本稿では, 小型化を実現するために, 部品技術とレーザーシステムアーキテクチャについて述べる。 我々は, 単一冷却ビームを用いた四面体格子磁気トラップ(GMOT)用マイクロファブリケートグレーティングチップを内蔵した, 小型のチタン真空パッケージを開発した。 さらに,単発のシードレーザと単発のサイドバンド変調器で実装したマルチチャネルフォトニック集積回路対応レーザーシステムの設計を行い,センサヘッドに接続された光チャネル数を削減した。 真空パッケージを含む小型センサヘッドにおいて、GMOTのサブドップラー冷却により15UK温度が生成され、GMOTは20Hzのデータレートで動作可能である。 マイクロ波分光法を用いてラムゼー干渉計を用いて原子コヒーレンスを検証し、10Hzの測定データレートとT = 0 - 4.5msの尋問時間で光パルス原子干渉計を実験し、その結果$$$Delta$ g / g = 2.0e-6を得た。 この研究は、大きな振幅運動ダイナミクスの下で展開可能なコールド原子慣性センサーへの重要な一歩である。

The extreme miniaturization of a cold-atom interferometer accelerometer requires the development of novel technologies and architectures for the interferometer subsystems. Here we describe several component technologies and a laser system architecture to enable a path to such miniaturization. We developed a custom, compact titanium vacuum package containing a microfabricated grating chip for a tetrahedral grating magneto-optical trap (GMOT) using a single cooling beam. In addition, we designed a multi-channel photonic-integrated-circuit-compatible laser system implemented with a single seed laser and single sideband modulators in a time-multiplexed manner, reducing the number of optical channels connected to the sensor head. In a compact sensor head containing the vacuum package, sub-Doppler cooling in the GMOT produces 15 uK temperatures, and the GMOT can operate at a 20 Hz data rate. We validated the atomic coherence with Ramsey interferometry using microwave spectroscopy, then demonstrated a light-pulse atom interferometer in a gravimeter configuration for a 10 Hz measurement data rate and T = 0 - 4.5 ms interrogation time, resulting in $\Delta$ g / g = 2.0e-6. This work represents a significant step towards deployable cold-atom inertial sensors under large amplitude motional dynamics.
翻訳日:2023-03-22 21:56:29 公開日:2022-09-01
# 位相的$\theta$-termの存在下でのCP(1)モデルの位相構造

Phase structure of the CP(1) model in the presence of a topological $\theta$-term ( http://arxiv.org/abs/2107.14220v2 )

ライセンス: Link先を確認
Katsumasa Nakayama, Lena Funcke, Karl Jansen, Ying-Jer Kao, Stefan K\"uhn(参考訳) 我々は,従来の格子モンテカルロシミュレーションの符号問題に起因するトポロジカル$\theta$-termの存在下でのCP(1)モデルの位相構造を数値的に研究する。 結合重み付きテンソル再正規化群法を用いて、0\leq \beta \leq 1.1$ の逆カップリングの自由エネルギーを計算し、cp違反の一階相転移を $\theta=\pi$ で求める。 従来の結果とは対照的に,2次相転移が$\theta=\pi$および/または1次相転移ラインが$\theta\neq\pi$で分岐する臨界結合$\beta_c<1.1$以上の証拠は得られない。 そのような臨界結合が存在すると、Haldaneの予想によって示唆されるように、我々の研究は$\beta_c>1.1$よりも大きいことを示す。

We numerically study the phase structure of the CP(1) model in the presence of a topological $\theta$-term, a regime afflicted by the sign problem for conventional lattice Monte Carlo simulations. Using a bond-weighted tensor renormalization group method, we compute the free energy for inverse couplings ranging from $0\leq \beta \leq 1.1$ and find a CP-violating, first-order phase transition at $\theta=\pi$. In contrast to previous findings, our numerical results provide no evidence for a critical coupling $\beta_c<1.1$ above which a second-order phase transition emerges at $\theta=\pi$ and/or the first-order transition line bifurcates at $\theta\neq\pi$. If such a critical coupling exists, as suggested by Haldane's conjecture, our study indicates that is larger than $\beta_c>1.1$.
翻訳日:2023-03-20 11:24:21 公開日:2022-09-01
# 大きな摂動に対する可逆・フラストレーションのない基底状態の安定性

Stability of invertible, frustration-free ground states against large perturbations ( http://arxiv.org/abs/2110.11194v4 )

ライセンス: Link先を確認
Sven Bachmann, Wojciech De Roeck, Brecht Donvil, Martin Fraas(参考訳) 量子スピン系のガッピング基底状態は、ギャップによって設定された自然な長さスケールを持つ。 この長さスケールは相関の減衰を制御する。 一般的な直観は、この長さスケールが不純物や境界から離れた基底状態への空間緩和を制御することである。 この記事の目的は、この直観の証明に向けて一歩踏み出すことです。 基底状態はフラストレーションのない可逆状態であり、すなわち長距離の絡み合いを持たないと仮定する。 さらに、ある特定の境界条件、すなわち開境界条件について証明しようとする性質を仮定する。 この仮定は、"local topological quantum order"(ltqo)条件としても知られている。 これらの仮定により、摂動系の基底状態に対して、境界や不純物から引き延ばされた指数的崩壊を証明できる。 初期の結果とは対照的に、境界や不純物における摂動が小さいとは考えていない。 特に摂動系自体が長距離絡み合いを持つことがある。

A gapped ground state of a quantum spin system has a natural length scale set by the gap. This length scale governs the decay of correlations. A common intuition is that this length scale also controls the spatial relaxation towards the ground state away from impurities or boundaries. The aim of this article is to take a step towards a proof of this intuition. We assume that the ground state is frustration-free and invertible, i.e.\ it has no long-range entanglement. Moreover, we assume the property that we are aiming to prove for one specific kind of boundary condition; namely open boundary conditions. This assumption is also known as the "local topological quantum order" (LTQO) condition. With these assumptions we can prove stretched exponential decay away from boundaries or impurities, for any of the ground states of the perturbed system. In contrast to most earlier results, we do not assume that the perturbations at the boundary or the impurity are small. In particular, the perturbed system itself can have long-range entanglement.
翻訳日:2023-03-10 21:41:32 公開日:2022-09-01
# 量子格子シービング

Quantum Lattice Sieving ( http://arxiv.org/abs/2110.13352v2 )

ライセンス: Link先を確認
Nishant Rodrigues, Brad Lackey(参考訳) 格子は量子攻撃に対して安全な暗号プリミティブを構築するために非常に重要なオブジェクトである。 格子の研究における中心的な問題は、格子内の最も短い非零ベクトルを見つけることである。 漸近的に、シービングは最短ベクトル問題を解決する最もよく知られた技法であるが、シービングは格子の次元においてメモリ指数を必要とする。 その結果、列挙アルゴリズムは、超指数的ランタイムにもかかわらず、線形メモリの複雑さのために、しばしばシービングの代わりに使用される。 本研究では,シーブの初期段階におけるサンプルベクトル長の大きさのメモリ複雑性多項式を持つヒューリスティックな量子シービングアルゴリズムを提案する。 言い換えれば、ほとんどのシーブアルゴリズムとは異なり、我々のアルゴリズムのメモリ複雑性は、シーブの初期段階におけるサンプリングされたベクトルの数に依存しない。

Lattices are very important objects in the effort to construct cryptographic primitives that are secure against quantum attacks. A central problem in the study of lattices is that of finding the shortest non-zero vector in the lattice. Asymptotically, sieving is the best known technique for solving the shortest vector problem, however, sieving requires memory exponential in the dimension of the lattice. As a consequence, enumeration algorithms are often used in place of sieving due to their linear memory complexity, despite their super-exponential runtime. In this work, we present a heuristic quantum sieving algorithm that has memory complexity polynomial in the size of the length of the sampled vectors at the initial step of the sieve. In other words, unlike most sieving algorithms, the memory complexity of our algorithm does not depend on the number of sampled vectors at the initial step of the sieve.
翻訳日:2023-03-10 05:50:24 公開日:2022-09-01
# 文脈独立写像と自由選択は等価である

Context-independent mapping and free choice are equivalent ( http://arxiv.org/abs/2110.15910v6 )

ライセンス: Link先を確認
Ehtibar N. Dzhafarov(参考訳) 隠れ変数モデル(HVM)における自由選択(あるいは統計的独立)の仮定は、実験者が選択した設定が隠れ変数の値に依存しないことを意味する。 HVMにおける文脈非依存(CI)マッピングの仮定は、測定結果が他の測定値の設定に依存しないことを意味する。 測度が空間的に分離されている場合、この仮定は局所因果関係と呼ばれる。 自由選択とCIマッピングの仮定は、文脈性/非局所性のベル型基準の導出に必要とされている。 しかし、様々な特別な場合において、2つの仮定は論理的に独立ではないことが知られている。 ここでは、乱れ/シグナリングの有無にかかわらず任意の確率変数系に対して、CIマッピングを仮定するHVMが自由選択を仮定するHVMと等価であることを示す。 もしある経験的シナリオが他の測定値の設定に依存するHVMによって記述できる可能性を否定するならば、自由選択違反も否定されるべきであり、その逆も同様である。 KEYWORDS: コンテキスト性、文脈に依存しないマッピング、自由選択、局所因果性、非局所性。

Free choice (or statistical independence) assumption in a hidden variable model (HVM) means that the settings chosen by experimenters do not depend on the values of the hidden variable. The assumption of context-independent (CI) mapping in an HVM means that the results of a measurement do not depend on settings for other measurements. If the measurements are spacelike separated, this assumption is known as local causality. Both free choice and CI mapping assumptions are considered necessary for derivation of the Bell-type criteria of contextuality/nonlocality. It is known, however, for a variety of special cases, that the two assumptions are not logically independent. We show here, in complete generality, for any system of random variables with or without disturbance/signaling, that an HVM that postulates CI mapping is equivalent to an HVM that postulates free choice. If one denies the possibility that a given empirical scenario can be described by an HVM in which measurements depend on other measurements' settings, free choice violations should be denied too, and vice versa. KEYWORDS: Contextuality; context-independent mapping; free choice; local causality; nonlocality.
翻訳日:2023-03-09 22:51:26 公開日:2022-09-01
# 量子フォン・ノイマン建築のプロトタイプ

A prototype of quantum von Neumann architecture ( http://arxiv.org/abs/2112.09345v2 )

ライセンス: Link先を確認
D.-S. Wang(参考訳) フォン・ノイマンアーキテクチャに基づく現代のコンピュータシステムは、いくつかのインタラクティブなモジュラー部品を持つ複雑なシステムである。 量子コンピューティングは、量子情報の最も一般的な利用として、これまでのところ、量子アルゴリズムは古典的に保存され制御され、その実行は主に量子であり、いわゆる量子処理ユニットへと繋がるハイブリッドアーキテクチャに従っている。 このような量子古典ハイブリッドは、古典的な成分によって制約されており、場の始めから考え出された完全量子コンピュータシステムの計算能力を明らかにすることはできない。 近年、ノープログラミングやノーコントロールの定理、量子アルゴリズムと計算モデルの統一的な理解など、量子情報の性質がさらに認識されるようになった。 そこで本研究では,フォン・ノイマンアーキテクチャの量子バージョンである普遍量子コンピュータシステムのモデルを提案する。 量子メモリユニットの要素としてebit(ベル状態)を使用し、量子制御ユニットと処理ユニットの要素としてqubitを使用する。 デジタル量子システムとして、そのグローバル構成はテンソルネットワーク状態と見なすことができる。 その普遍性は、ユニバーサル量子ゲートテレポーテーションを介してプログラム合成スキームに基づいて量子アルゴリズムを実行する能力によって証明される。 また、量子情報の基本的な法則である不確実性原理によって保護され、古典的な場合とは量子安全性が異なる。 特に、量子メモリと制御の役割を特徴付けるために、テール、ネスト、トポロジなど、量子回路のいくつかの変種を導入する。 いずれにせよ、我々の最初の研究は、量子情報の多様体力を示し、近い将来に量子コンピュータシステムを構築するための道を開くものである。

A modern computer system, based on the von Neumann architecture, is a complicated system with several interactive modular parts. Quantum computing, as the most generic usage of quantum information, follows a hybrid architecture so far, namely, quantum algorithms are stored and controlled classically, and mainly the executions of them are quantum, leading to the so-called quantum processing units. Such a quantum-classical hybrid is constrained by its classical ingredients, and cannot reveal the computational power of a fully quantum computer system as conceived from the beginning of the field. Recently, the nature of quantum information has been further recognized, such as the no-programming and no-control theorems, and the unifying understandings of quantum algorithms and computing models. As a result, in this work we propose a model of universal quantum computer system, the quantum version of the von Neumann architecture. It uses ebits (i.e., Bell states) as elements of the quantum memory unit, and qubits as elements of the quantum control unit and processing unit. As a digital quantum system, its global configurations can be viewed as tensor-network states. Its universality is proved by the capability to execute quantum algorithms based on a program composition scheme via a universal quantum gate teleportation. It is also protected by the uncertainty principle, the fundamental law of quantum information, making it quantum-secure distinct from the classical case. In particular, we introduce a few variants of quantum circuits, including the tailed, nested, and topological ones, to characterize the roles of quantum memory and control, which could also be of independent interest in other contexts. In all, our primary study demonstrates the manifold power of quantum information and paves the way for the creation of quantum computer systems in the near future.
翻訳日:2023-03-04 07:28:17 公開日:2022-09-01
# 時間依存微分方程式の解法に対する適応的ニューラルネットワーク領域の改良

Adaptive neural domain refinement for solving time-dependent differential equations ( http://arxiv.org/abs/2112.12517v2 )

ライセンス: Link先を確認
Toni Schneidereit and Michael Breu{\ss}(参考訳) ニューラルネットワークで微分方程式を解く古典的なアプローチは、解領域の離散化を伴う微分方程式を用いるニューラルネットワークに基づいている。 時間依存微分方程式にニューラルフォームを用いることで、最近開発されたドメインフラグメンテーション法を適用できる。 すなわち、ドメインはいくつかのサブドメインに分割され、最適化問題が解決される。 古典的な適応的数値法では、メッシュと領域をそれぞれ洗練または分解して精度を向上させることができる。 また、近似精度の程度も適応できる。 このような重要かつ成功した戦略をニューラルネットワークベースのソリューションの分野に移行することが望ましい。 本研究では,時間依存問題の解決を目的とした適応型ニューラルアプローチを提案する。 これにより、最適化が予め定義されたトレーニング精度まで解決されるまで、各サブドメインのサイズを小さくする。 さらに、ニューラルネットワークはデフォルトでは小さいが、適応的な方法でニューロンの数を調整する手段を提案する。 解の信頼性を自動的に確認し,必要であれば計算パラメータを最適化するための条件を導入する。 その結果,本手法の重要な計算特性を示すいくつかの初期値問題が得られた。 提案手法は,ネットワークエラーと数値的精度の関係を詳細に解析するだけでなく,解析を行う。 新しいアプローチでは、大規模な計算領域における信頼性の高いニューラルネットワークソリューションも実現している。

A classic approach for solving differential equations with neural networks builds upon neural forms, which employ the differential equation with a discretisation of the solution domain. Making use of neural forms for time-dependent differential equations, one can apply the recently developed method of domain fragmentation. That is, the domain may be split into several subdomains, on which the optimisation problem is solved. In classic adaptive numerical methods, the mesh as well as the domain may be refined or decomposed, respectively, in order to improve accuracy. Also the degree of approximation accuracy may be adapted. It would be desirable to transfer such important and successful strategies to the field of neural network based solutions. In the present work, we propose a novel adaptive neural approach to meet this aim for solving time-dependent problems. To this end, each subdomain is reduced in size until the optimisation is resolved up to a predefined training accuracy. In addition, while the neural networks employed are by default small, we propose a means to adjust also the number of neurons in an adaptive way. We introduce conditions to automatically confirm the solution reliability and optimise computational parameters whenever it is necessary. Results are provided for several initial value problems that illustrate important computational properties of the method alongside. In total, our approach not only allows to analyse in high detail the relation between network error and numerical accuracy. The new approach also allows reliable neural network solutions over large computational domains.
翻訳日:2023-03-03 18:01:31 公開日:2022-09-01
# 層状半量子セキュア通信プロトコル

Layered semiquantum secure communication protocols ( http://arxiv.org/abs/2201.06540v2 )

ライセンス: Link先を確認
Rajni Bala, Sooryansh Asthana and V. Ravishankar(参考訳) 本稿では,1つの量子参加者のみとのセキュアな通信において,多次元状態がもたらすポテンシャルを利用する。 提案する4つのプロトコル-- (i)層状半量子鍵分布 (ii)層状半量子秘密共有 (iii)層状半量子鍵分布と秘密共有、及び (4) 任意の層状ネットワークにおいて秘密情報を共有するための直接通信と鍵分配を統合した層状半量子。 4つのプロトコルはすべて、多次元状態のおかげで、ネットワークのすべての層にセキュアな情報の同時分散を可能にする。

In this paper, we harness the potential offered by multidimensional states in secure communication with only one quantum participant. We propose four protocols for--(i) layered semi--quantum key distribution, (ii) layered semi-quantum secret sharing, (iii) integrated layered semi-quantum key distribution and secret sharing, and, (iv) integrated layered semi-quantum secure direct communication and key distribution to share secret information in an arbitrary layered network. All the four protocols allow for simultaneous distribution of secure information in all the layers of a network, thanks to multidimensional states.
翻訳日:2023-02-28 22:36:09 公開日:2022-09-01
# 損失量子通信ネットワークの究極的エンドツーエンド率を達成する

Achieving the ultimate end-to-end rates of lossy quantum communication networks ( http://arxiv.org/abs/2203.13924v4 )

ライセンス: Link先を確認
Matthew S. Winnel, Joshua J. Guanzon, Nedasadat Hosseinidehaj, Timothy C. Ralph(参考訳) 量子通信の分野は、量子情報の忠実な分配、量子絡み合い、絶対秘密鍵を約束するが、これらのタスクの最高速度は、量子リピータ間の伝送距離によって根本的に制限される。 量子通信ネットワークの究極的なエンドツーエンドの速度は、最適な絡み合った蒸留プロトコルで達成できることが知られている。 本研究では,この達成性を実現するための実用的な設計を提案する。 我々の究極の設計は反復的なアプローチであり、各浄化工程は共有絡み合った状態で動作し、物理学で許容される最も高い速度で損失エラーを検出する。 シンプルな設計として、第1ラウンドのイテレーションが完全に高いレートで浄化可能であることを示す。 非効率な操作や測定に頑健な線形光学と光子数測定を用いた実験実装を提案し,その短期的可能性を示す。

The field of quantum communications promises the faithful distribution of quantum information, quantum entanglement, and absolutely secret keys, however, the highest rates of these tasks are fundamentally limited by the transmission distance between quantum repeaters. The ultimate end-to-end rates of quantum communication networks are known to be achievable by an optimal entanglement distillation protocol followed by teleportation. In this work, we give a practical design for this achievability. Our ultimate design is an iterative approach, where each purification step operates on shared entangled states and detects loss errors at the highest rates allowed by physics. As a simpler design, we show that the first round of iteration can purify completely at high rates. We propose an experimental implementation using linear optics and photon-number measurements which is robust to inefficient operations and measurements, showcasing its near-term potential for real-world practical applications.
翻訳日:2023-02-20 20:38:18 公開日:2022-09-01
# ${\cal C}$osmological ${\cal K}$rylov ${\cal C}$omplexity

${\cal C}$osmological ${\cal K}$rylov ${\cal C}$omplexity ( http://arxiv.org/abs/2203.14330v3 )

ライセンス: Link先を確認
Kiran Adhikari, Sayantan Choudhury(参考訳) 本稿では,音速$c_s$を有する実効場の存在下での2つのモード圧縮状態形式を用いて,ド・ジッター空間の平面/インフレーションパッチからクリロフ複雑性(k$)について検討する。 本分析から,有効音速$c_s$の存在下での時間スケールとスケール係数について,クリロフ複雑性(K$)およびランコス係数(b_n$)の明示的な挙動を求める。 ランコズ係数 (b_n$) は整数 $n$ で線形に成長するので、宇宙はこの期間にカオス系のように振る舞うことを示唆する。 また、有効な音速$c_s$ の存在下で対応する lyapunov exponent $\lambda$ を得る。 この系に対するクリロフ複雑性(K$)は、体積との関係を示す平均粒子数と等しいことを示す。 最後に、Krylov complexity (K$) と entanglement entropy (Von-Neumann) を比較し、Krylov complexity (K$) と entanglement entropy の間に大きな違いがあることを発見した。 このことは、クリロフ複雑性(K$)が、絡み合いエントロピーの飽和後も宇宙系の力学を研究するための重要なプローブとなることを示唆している。

In this paper, we study the Krylov complexity ($K$) from the planar/inflationary patch of the de Sitter space using the two mode squeezed state formalism in the presence of an effective field having sound speed $c_s$. From our analysis, we obtain the explicit behavior of Krylov complexity ($K$) and lancoz coefficients ($b_n$) with respect to the conformal time scale and scale factor in the presence of effective sound speed $c_s$. Since lancoz coefficients ($b_n$) grow linearly with integer $n$, this suggests that universe acts like a chaotic system during this period. We also obtain the corresponding Lyapunov exponent $\lambda$ in presence of effective sound speed $c_s$. We show that the Krylov complexity ($K$) for this system is equal to average particle numbers suggesting it's relation to the volume. Finally, we give a comparison of Krylov complexity ($K$) with entanglement entropy (Von-Neumann) where we found that there is a large difference between Krylov complexity ($K$) and entanglement entropy for large values of squeezing amplitude. This suggests that Krylov complexity ($K$) can be a significant probe for studying the dynamics of the cosmological system even after the saturation of entanglement entropy.
翻訳日:2023-02-20 17:00:26 公開日:2022-09-01
# 質問&回答ポータルのエキスパートを特定する:Redditのデータサイエンス能力に関するケーススタディ

Identifying Experts in Question & Answer Portals: A Case Study on Data Science Competencies in Reddit ( http://arxiv.org/abs/2204.04098v2 )

ライセンス: Link先を確認
Sofia Strukova, Jos\'e A. Ruip\'erez-Valiente, F\'elix G\'omez M\'armol(参考訳) 質問と回答の勝利(q&a)の鍵となるのは、さまざまなトピックにまたがる難題に対する、高品質な回答を提供するユーザだ。 10年以上にわたり、専門家による検索問題は情報検索研究に多くの注目を集めた。 いくつかのQ&Aポータルにまたがる専門家の識別に遭遇するギャップに基づき、Redditでデータサイエンスの専門家を特定する可能性を検討する。 本手法は,2人のデータサイエンス専門家が専門家と専門家以外のコメントだけでなく,文献への新たな貢献であるスコープ外コメントをラベル付けし,Webポータル全体にわたるコメントのグループの特定を可能にする,手作業によるコーディング結果に基づいている。 1,113のラベル付きコメントと100,226の未ラベルのコメントを組み合わせた半教師付きアプローチを提案する。 提案モデルは,自然言語処理(NLP)やクラウドソース,ユーザ機能セットなど,すべてのユーザの行動を利用する。 NLPとユーザ機能セットはこれらの3つのクラスをよりよく識別するのに最も役立ちます。 これは、このメソッドがドメイン内でうまく一般化できることを意味する。 最後に、redditでさまざまなタイプのユーザーを提示することで、新たな貢献を行ないます。

The irreplaceable key to the triumph of Question & Answer (Q&A) platforms is their users providing high-quality answers to the challenging questions posted across various topics of interest. From more than a decade, the expert finding problem attracted much attention in information retrieval research. Based on the encountered gaps in the expert identification across several Q&A portals, we inspect the feasibility of identifying data science experts in Reddit. Our method is based on the manual coding results where two data science experts labelled not only expert and non-expert comments, but also out-of-scope comments, which is a novel contribution to the literature, enabling the identification of more groups of comments across web portals. We present a semi-supervised approach which combines 1,113 labelled comments with 100,226 unlabelled comments during training. The proposed model uses the activity behaviour of every user, including Natural Language Processing (NLP), crowdsourced and user feature sets. We conclude that the NLP and user feature sets contribute the most to the better identification of these three classes. It means that this method can generalise well within the domain. Finally, we make a novel contribution by presenting different types of users in Reddit, which opens many future research directions.
翻訳日:2023-02-19 16:12:41 公開日:2022-09-01
# 署名ネットワークによるアメリカ議会の分極と均衡の分析と可視化

Analyzing and Visualizing American Congress Polarization and Balance with Signed Networks ( http://arxiv.org/abs/2209.00676v1 )

ライセンス: Link先を確認
Arthur Capozzi and Alfonso Semeraro and Giancarlo Ruffo(参考訳) 符号付きネットワークとバランス理論は、偏極力学、正・負の関係、政治的パルチザン性を示す実世界のシナリオに自然な設定を提供する。 例えば、第2次世界大戦以降のアメリカ大陸会議の2つの議場における票の分極の増大を研究するのに有効であることが証明されている。 そこで本研究では,対応するラプラシア行列のスペクトル特性の活用に基づいて,符号付きグラフの構成を分析し,視覚化するためのフレームワークを提案する。 全体的な方法論はフラストレーション指数に基づく他の手法に匹敵するが、少なくとも2つの大きな利点がある: 1つは計算コストがはるかに低いこと、2つ目は、任意に小さな部分グラフ(単一ノードでさえ)がネットワーク全体のバランス(またはアンバランス)にどのように貢献するかを定量的かつ視覚的に評価できることである。 提案されたパイプラインは、1945年から2020年にかけてアメリカ議会で示された分極ダイナミクスを、異なる解像度スケールで探求することができる。 実際、私たちは、全体バランスにおける一部の(グループの)議員の影響を見つけ、指摘することができ、また、何年もの間、両室の分極の進化を観察し、調査することができる。

Signed networks and balance theory provide a natural setting for real-world scenarios that show polarization dynamics, positive/negative relationships, and political partisanships. For example, they have been proven effective for studying the increasing polarization of the votes in the two chambers of the American Congress from World War II on. To provide further insights into this particular case study, we propose the application of a framework to analyze and visualize a signed graph's configuration based on the exploitation of the corresponding Laplacian matrix' spectral properties. The overall methodology is comparable with others based on the frustration index, but it has at least two main advantages: first, it requires a much lower computational cost; second, it allows for a quantitative and visual assessment of how arbitrarily small subgraphs (even single nodes) contribute to the overall balance (or unbalance) of the network. The proposed pipeline allows to explore the polarization dynamics shown by the American Congress from 1945 to 2020 at different resolution scales. In fact, we are able to spot and to point out the influence of some (groups of) congressmen in the overall balance, as well as to observe and explore polarization's evolution of both chambers across the years.
翻訳日:2023-02-19 10:55:32 公開日:2022-09-01
# トランスバースで家にいるの? 社会的想像力の展望

Being at Home in the Metaverse? Prospectus for a Social Imaginary ( http://arxiv.org/abs/2209.00559v1 )

ライセンス: Link先を確認
Tim Gorichanaz(参考訳) metaverseはここ数年、企業や大衆の関心が高まっている。 ビジョンは異なるが、メタバースは一般的にインターネットの拡張と見なされ、新しい技術基盤や標準と同様に、拡張現実や仮想現実といった多くのデジタル技術の進歩によって発展する可能性がある。 メタバースは、私たちの共有する存在を理解し、指示する方法である、新たな社会の想像を構成する。 本稿では,Martin Heidegger氏が考案した,この新興社会想像概念を,現象学的な「住居」という概念を通じて考察する。 本稿では,Meta(元Facebook)のCEOであるMark Zuckerberg氏が想定するメタバースに焦点を当てた。 本稿では,このメタバースに関するザッカーバーグの公的な発言をテーマとして分析し,このビジョンを詳しく読む。 そして, ハイデッガーの住居観のレンズを通して, メタバース社会の想像力による住居に対する多くの脅威を特定する。 本稿では,これらの脅威とその予後を解説し,人間の居住を促進するためにメタバースがどのように設計できるかを考察した。

The metaverse has seen growing corporate and popular interest over the past few years. While visions vary, the metaverse is generally seen as an extension of the internet that may be developed through advances in a number of digital technologies, such as augmented and virtual reality, as well as new technical infrastructure and standards. The metaverse constitutes an emerging social imaginary, a way of both understanding and directing our shared existence. This paper examines this emerging social imaginary through the phenomenological concept of dwelling, or being at home in the world, as developed by Martin Heidegger. To examine in depth one influential articulation of this social imaginary, this paper focuses on the metaverse as envisioned by Mark Zuckerberg, CEO of Meta (formerly Facebook). The paper presents a thematic analysis of Zuckerberg's public statements regarding the metaverse to provide a close reading of this particular vision. Then, through the lens of Heidegger's philosophy of dwelling, this paper identifies numerous threats to dwelling posed by the metaverse social imaginary. This paper explains these threats and their prognoses, and it closes with some considerations for how the metaverse could be designed to better facilitate human dwelling.
翻訳日:2023-02-19 10:55:07 公開日:2022-09-01
# 説明可能性の評価方法 --3つの基準について

How to Evaluate Explainability? -- A Case for Three Criteria ( http://arxiv.org/abs/2209.00366v1 )

ライセンス: Link先を確認
Timo Speith(参考訳) ソフトウェアシステムの複雑さの増大と、私たちの社会におけるソフトウェア支援決定の影響が、安全で信頼性があり公正なソフトウェアの必要性を引き起こしました。 説明可能性はこの性質を達成する手段として認識されている。 システム品質に大きな影響を与える、新たな非機能要件(NFR)として認識されている。 しかし、説明可能なシステムを開発するためには、システムがこのnfrを満たすときを理解する必要がある。 そのため、適切な評価方法が必要となる。 しかし、この分野は評価手法が混在しており、どちらが「正しい」かについてのコンセンサスはない。 それよりもはるかに少ないが、どの基準を評価するべきかという合意さえない。 本稿では,システムが提供する情報,理解性,忠実性,評価可能性の3つの品質基準について,多分野のモチベーションを提供する。 本研究の目的は,これらの基準に関する議論を加速させ,適切な評価手法を考案することである。

The increasing complexity of software systems and the influence of software-supported decisions in our society have sparked the need for software that is safe, reliable, and fair. Explainability has been identified as a means to achieve these qualities. It is recognized as an emerging non-functional requirement (NFR) that has a significant impact on system quality. However, in order to develop explainable systems, we need to understand when a system satisfies this NFR. To this end, appropriate evaluation methods are required. However, the field is crowded with evaluation methods, and there is no consensus on which are the "right" ones. Much less, there is not even agreement on which criteria should be evaluated. In this vision paper, we will provide a multidisciplinary motivation for three such quality criteria concerning the information that systems should provide: comprehensibility, fidelity, and assessability. Our aim is to to fuel the discussion regarding these criteria, such that adequate evaluation methods for them will be conceived.
翻訳日:2023-02-19 10:54:48 公開日:2022-09-01
# 時間ベースウィンドウを用いたシーケンス分類による学生の成績予測

Predicting student performance using sequence classification with time-based windows ( http://arxiv.org/abs/2208.07749v2 )

ライセンス: Link先を確認
Galina Deeva and Johannes De Smedt and Cecilia Saint-Pierre and Richard Weber and Jochen De Weerdt(参考訳) 世界中の多くの大学が、学術カリキュラムの一部として様々な形態のオンラインとブレンドラーニングを使用している。 さらに、新型コロナウイルスのパンデミックによる最近の変化により、オンライン教育の重要性とユビキタスが大幅に増加した。 e-learningの主な利点は、学生の学習経験の向上と教育的展望の拡大だけでなく、学習分析によって学生の学習プロセスに関する洞察を得ることである。 本研究は,eラーニングプロセスの改善と理解の課題に,以下の方法で貢献する。 まず, 学生の行動データから得られた逐次パターンに基づいて正確な予測モデルを構築し, 授業の早い段階で成績の悪い生徒を識別できることを実証する。 第2に,予測モデルの構築における特異性-一般化性トレードオフを,各コースごとに,コース固有の逐次パターンに基づいて個別に構築すべきか,あるいはより一般的な行動パターンに基づいて複数のコースにまたがって構築すべきかを検討する。 最後に,行動データの時間的側面を把握し,モデルの性能予測に与える影響を解析する手法を提案する。 改良されたシーケンス分類手法は,高レベルの精度で生徒のパフォーマンスを予測でき,コース固有のモデルでは90%に達する。

A growing number of universities worldwide use various forms of online and blended learning as part of their academic curricula. Furthermore, the recent changes caused by the COVID-19 pandemic have led to a drastic increase in importance and ubiquity of online education. Among the major advantages of e-learning is not only improving students' learning experience and widening their educational prospects, but also an opportunity to gain insights into students' learning processes with learning analytics. This study contributes to the topic of improving and understanding e-learning processes in the following ways. First, we demonstrate that accurate predictive models can be built based on sequential patterns derived from students' behavioral data, which are able to identify underperforming students early in the course. Second, we investigate the specificity-generalizability trade-off in building such predictive models by investigating whether predictive models should be built for every course individually based on course-specific sequential patterns, or across several courses based on more general behavioral patterns. Finally, we present a methodology for capturing temporal aspects in behavioral data and analyze its influence on the predictive performance of the models. The results of our improved sequence classification technique are capable to predict student performance with high levels of accuracy, reaching 90 percent for course-specific models.
翻訳日:2023-02-19 10:33:26 公開日:2022-09-01
# オンラインゲームにおける子どもの操作的および中毒的戦略からの保護の高度化:プライバシー規制を超えた法的および技術的解決

Upgrading the protection of children from manipulative and addictive strategies in online games: Legal and technical solutions beyond privacy regulation ( http://arxiv.org/abs/2207.09928v2 )

ライセンス: Link先を確認
Tommaso Crepax, Jan Tobias Muehlberg(参考訳) 学界、市民社会、メディアからネット上での児童操作問題への認識が高まりつつあるにもかかわらず、現在のEU規制システムは十分なレベルの保護を提供していない。 問題の普遍性を考えると、これらの散在した努力を、原因と効果を識別し、マニピュティブおよび中毒的戦術に関する技術的および法的知識を体系化し、立法のギャップを埋めるための効果的な規制機構を見つけるための、統一的で多分野的なデジタル操作理論に統合し、さらに発展させる必要がある。 本稿では,子ども向けオンラインゲームにおけるマニピュレーション的かつ搾取的戦略について論じ,適用可能な規制システムの失敗の原因を示唆し,思考の自由の観点からこれらのリスクに対処するための規制アプローチの「アップグレード」を提案し,プレイヤーのプライバシーと自由を事実上保護するゲームの開発を可能にする技術的アプローチを提示し,議論する。

Despite the increasing awareness from academia, civil society and media to the issue of child manipulation online, the current EU regulatory system fails at providing sufficient levels of protection. Given the universality of the issue, there is a need to combine and further these scattered efforts into a unitary, multidisciplinary theory of digital manipulation that identifies causes and effects, systematizes the technical and legal knowledge on manipulative and addictive tactics, and to find effective regulatory mechanisms to fill the legislative gaps. In this paper we discuss manipulative and exploitative strategies in the context of online games for children, suggest a number of possible reasons for the failure of the applicable regulatory system, propose an "upgrade" for the regulatory approach to address these risks from the perspective of freedom of thought, and present and discuss technological approaches that allow for the development of games that verifiably protect the privacy and freedoms of players.
翻訳日:2023-02-19 09:59:25 公開日:2022-09-01
# 開量子系におけるトレース距離の速度限界

Speed limits of the trace distance for open quantum system ( http://arxiv.org/abs/2204.02884v4 )

ライセンス: Link先を確認
Satoshi Nakajima and Yasuhiro Utsumi(参考訳) リンドブラッド型量子マスター方程式によって記述されたオープン量子系の状態変換の速度限界について検討する。 相互作用図における初期状態と最終状態の間のトレース距離によって記述される全エントロピー生成の普遍的境界を求める。 我々の境界は、初期状態と最終状態の固有値による距離を測定する、Vu と Hasegawa (Phys. Lett. 126, 010601 (2021)) の境界よりも厳密である。 このため, vu-hasegawa のバウンドを大幅に改善することができた。 schr\"{o}dinger 図におけるトレース距離は、相互作用図におけるトレース距離と、量子マスター方程式におけるハミルトニアンのみによって記述されたユニタリダイナミクスのトレース距離の和で区切られている。

We investigate the speed limit of the state transformation in open quantum systems described by the Lindblad type quantum master equation. We obtain universal bounds of the total entropy production described by the trace distance between the initial and final states in the interaction picture. Our bounds can be tighter than the bound of Vu and Hasegawa [Phys. Rev. Lett. 126, 010601 (2021)] which measures the distance by the eigenvalues of the initial and final states: This distance is less than or equal to the trace distance. For this reason, our results can significantly improve Vu-Hasegawa's bound. The trace distance in the Schr\"{o}dinger picture is bounded by a sum of the trace distance in the interaction picture and the trace distance for unitary dynamics described by only the Hamiltonian in the quantum master equation.
翻訳日:2023-02-18 02:41:12 公開日:2022-09-01
# 絡み合い浄化の繰り返しプロトコルにおける最適2量子ゲート

Optimal two-qubit gates in recurrence protocols of entanglement purification ( http://arxiv.org/abs/2205.12091v2 )

ライセンス: Link先を確認
Francesco Preti, Tommaso Calarco, Juan Mauricio Torres, J\'ozsef Zsolt Bern\'ad(参考訳) 本稿では,繰り返し絡み合った浄化プロトコルの最適化手法を提案する。 このアプローチは、準ニュートンアルゴリズムの助けを借りて、su(4)行列全体の数値探索に基づいている。 また,混合絡み合った状態の確率的発生を考慮した平均的コンカレンスの評価を行った。 制御NOTゲートにより最適プロトコルが必ずしも達成されるとは限らないことを示す。 提案手法は, 量子情報処理において, エンタングルメント浄化プロトコルを実験的に実装する際の柔軟性と, 興味深い視点を提供する。

We propose and investigate a method to optimize recurrence entanglement purification protocols. The approach is based on a numerical search in the whole set of SU(4) matrices with the aid of a quasi-Newton algorithm. Our method evaluates average concurrences where the probabilistic occurrence of mixed entangled states is also taken into account. We show for certain families of states that optimal protocols are not necessarily achieved by bilaterally applied controlled-NOT gates. As we discover several optimal solutions, the proposed method offers some flexibility in experimental implementations of entanglement purification protocols and interesting perspectives in quantum information processing.
翻訳日:2023-02-11 22:04:04 公開日:2022-09-01
# 決定図を用いた量子状態の効率的な決定論的生成

Efficient Deterministic Preparation of Quantum States Using Decision Diagrams ( http://arxiv.org/abs/2206.08588v2 )

ライセンス: Link先を確認
Fereshte Mozafari, Giovanni De Micheli, Yuxiang Yang(参考訳) 古典データを量子レジスタにロードすることは、量子コンピューティングにおいて最も重要なプリミティブの1つである。 一般的な量子状態を作成する複雑さは量子ビットの数で指数関数的であるが、多くの実用的なタスクでは、準備する状態はより高速な準備を可能にする一定の構造を持つ。 本稿では,ブール関数の表現と解析のための汎用データ構造である(縮小)決定ダイアグラムによって効率的に表現できる量子状態を考える。 我々は、決定図の構造を利用して関連する量子状態を作成するアルゴリズムを設計する。 我々のアルゴリズムは、決定図の経路数に線形な回路複雑性を持つ。 数値実験により,非ゼロ振幅の異なる一般のn$-qubit状態を生成する場合,本アルゴリズムは回路の複雑さを最先端アルゴリズムと比較して最大31.85%低減することを示した。 さらに、量子ビザンチン合意プロトコルの初期状態を含むスパース決定図を持つ状態の場合、我々のアルゴリズムはCNOTの数を86.61%$\sim$ 99.9%削減する。

Loading classical data into quantum registers is one of the most important primitives of quantum computing. While the complexity of preparing a generic quantum state is exponential in the number of qubits, in many practical tasks the state to prepare has a certain structure that allows for faster preparation. In this paper, we consider quantum states that can be efficiently represented by (reduced) decision diagrams, a versatile data structure for the representation and analysis of Boolean functions. We design an algorithm that utilises the structure of decision diagrams to prepare their associated quantum states. Our algorithm has a circuit complexity that is linear in the number of paths in the decision diagram. Numerical experiments show that our algorithm reduces the circuit complexity by up to 31.85% compared to the state-of-the-art algorithm, when preparing generic $n$-qubit states with different degrees of non-zero amplitudes. Additionally, for states with sparse decision diagrams, including the initial state of the quantum Byzantine agreement protocol, our algorithm reduces the number of CNOTs by 86.61% $\sim$ 99.9%.
翻訳日:2023-02-09 02:08:31 公開日:2022-09-01
# 衝突モデルに基づくバイオインスパイアシステムにおける環境支援熱流束変調

Environment-assisted modulation of heat flux in a bio-inspired system based on collision model ( http://arxiv.org/abs/2206.14933v2 )

ライセンス: Link先を確認
Ali Pedram, Bar{\i}\c{s} \c{C}akmak, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 光合成錯体の高エネルギー移動効率は、多くの分野の研究のトピックとなっている。 このエネルギー移動の促進を、エネルギーと振動のコヒーレンスや環境騒音の構成的効果といった量子力学的資源の観点から説明するために、いくつかの試みがなされている。 この系統の発達は、生物光収穫複合体の基盤となるメカニズムを合成システムの改善に活用することを目的とした様々な生体模倣研究に影響を与えた。 本稿では,システムと相互作用する補助的な階層構造環境がシステム全体の定常熱輸送に及ぼす影響について検討する。 冷温浴と熱湯は, それぞれの熱状態において同一に調製された一連の量子ビットによってモデル化され, 衝突モデルを用いて系の開量子力学をシミュレートする。 本研究では, システム環境, 環境間結合, 構造環境のコヒーレンスが定常熱流束に及ぼす影響について検討し, その結合がエネルギー移動を促進することを見出した。 定常熱流束と上記パラメータとの間には,非単調かつ非自明な関係があることが計算により明らかとなった。

The high energy transfer efficiency of photosynthetic complexes has been a topic of research across many disciplines. Several attempts have been made in order to explain this energy transfer enhancement in terms of quantum mechanical resources such as energetic and vibration coherence and constructive effects of environmental noise. The developments in this line of research have inspired various biomimetic works aiming to use the underlying mechanisms in biological light harvesting complexes for improvement of synthetic systems. In this article we explore the effect of an auxiliary hierarchically structured environment interacting with a system on the steady-state heat transport across the system. The cold and hot baths are modeled by a series of identically prepared qubits in their respective thermal states, and we use collision model to simulate the open quantum dynamics of the system. We investigate the effects of system-environment, inter-environment couplings and coherence of the structured environment on the steady state heat flux and find that such a coupling enhances the energy transfer. Our calculations reveal that there exists a non-monotonic and non-trivial relationship between the steady-state heat flux and the mentioned parameters.
翻訳日:2023-02-07 07:10:34 公開日:2022-09-01
# Casimir-Polder--van der Waals力に対する曲率誘発の反動効果

Curvature-induced repulsive effect on the lateral Casimir-Polder--van der Waals force ( http://arxiv.org/abs/2207.01671v2 )

ライセンス: Link先を確認
Danilo T. Alves, Lucas Queiroz, Edson C. M. Nogueira, N. M. R. Peres(参考訳) 我々は、半径$R$の完全導電性無限円筒を考察し、シリンダーの軸から離れた面に移動するように制約された中性偏光性粒子とのカシミール・ポルダー(CP)とファンデルワールス(vdW)相互作用について検討する。 相対曲率$x_0/R \lesssim 6.44$のとき、この粒子は横方向のCP力(CP力の前記平面への投射である)の作用を受け、シリンダー面に最も近い平面上の点に惹かれる。 一方、$x_0/r \gtrsim 6.44$の場合、ある粒子配向と異方性に対して、側cp力は粒子をシリンダーから遠ざけることも示している。 このようなCP力の成分の反発的挙動は、表面幾何学、特に相対曲率とのCP相互作用の非自明な依存を明らかにする。 vdW系では、同様の非自明な反発挙動が生じるが、相対曲率$x_0/R \gtrsim 2.18$の場合、この効果はCP系よりも小さいシリンダー曲率を必要とする。 さらに,これらの効果には,永久的な電気双極子モーメントを持つ中性粒子を含む古典的効果があることを示した。 この力に対する幾何学的効果の予測は、古典物理学や量子物理学における粒子と曲面の相互作用のより優れた制御に関係しているかもしれない。

We consider a perfectly conducting infinite cylinder with radius $R$, and investigate the Casimir-Polder (CP) and van der Waals (vdW) interactions with a neutral polarizable particle constrained to move in a plane distant $x_0>R$ from the axis of the cylinder. We show that when the relative curvature $x_0/R \lesssim 6.44$, this particle, under the action of the lateral CP force (which is the projection of the CP force onto the mentioned plane), is attracted to the point on the plane which is closest to the cylinder surface. On the other hand, when $x_0/R \gtrsim 6.44$, we also show that, for certain particle orientations and anisotropy, the lateral CP force can move the particle away from the cylinder. This repulsive behavior of such a component of the CP force reveals a nontrivial dependence of the CP interaction with the surface geometry, specifically of the relative curvature. In the vdW regime, we show that a similar nontrivial repulsive behavior occurs, but for the relative curvature $x_0/R \gtrsim 2.18$, which means that this effect requires a smaller cylinder curvature in the vdW regime than in the CP one. In addition, we also show that there are classical counterparts of these effects, involving a neutral particle with a permanent electric dipole moment. The prediction of such geometric effects on this force may be relevant for a better controlling of the interaction between a particle and a curved surface in classical and quantum physics.
翻訳日:2023-02-06 18:53:43 公開日:2022-09-01
# 量子信号処理による振幅推定

Amplitude Estimation from Quantum Signal Processing ( http://arxiv.org/abs/2207.08628v2 )

ライセンス: Link先を確認
Patrick Rall and Bryce Fuller(参考訳) 振幅推定アルゴリズムはgroverのアルゴリズムに基づいている:入力状態と所望の結果に関する交互反射である。 しかし、ただの反射ではなく、任意の回転を行う能力が与えられたらどうだろうか? この状況では、量子信号処理により、より柔軟な方法で振幅を推定できることがわかった。 我々はこの手法を利用して、多くの振幅推定タスクに改良された単純化されたアルゴリズムを提供し、振幅の仮定なしに非破壊的な推定を行い、実際に性能を向上したアルゴリズムを開発し、非バイアスの振幅推定の新しい手法を提案し、最後に、短い回路のより反復的な量子回路深さの交換方法を提案する。

Amplitude estimation algorithms are based on Grover's algorithm: alternating reflections about the input state and the desired outcome. But what if we are given the ability to perform arbitrary rotations, instead of just reflections? In this situation, we find that quantum signal processing lets us estimate the amplitude in a more flexible way. We leverage this technique to give improved and simplified algorithms for many amplitude estimation tasks: we perform non-destructive estimation without any assumptions on the amplitude, develop an algorithm with improved performance in practice, present a new method for unbiased amplitude estimation, and finally give a simpler method for trading quantum circuit depth for more repetitions of short circuits.
翻訳日:2023-02-04 15:49:32 公開日:2022-09-01
# 旅行時地震インバージョンのための量子計算インテリジェンス

Quantum computational intelligence for traveltime seismic inversion ( http://arxiv.org/abs/2208.05794v2 )

ライセンス: Link先を確認
Anton Simen Albino, Otto Menegasso Pires, Peterson Nogueira, Renato Ferreira de Souza, Erick Giovani Sperandio Nascimento(参考訳) 量子コンピューティングは実装の初期段階にある。 ここ数年でその能力は増大してきたが、いくつかの科学分野への応用はまだ単純化された問題に限られている。 この段階では、量子コンピューティングが技術の展開準備が整ったときに準備すべき最も有望な結果を提示する状況を特定することが重要である。 物理分野には、現在の計算能力によって制限されているいくつかの領域があり、その中でも、いわゆる地震インバージョンは、量子コンピューティングの恩恵を受ける強力な候補の一つである。 本研究では,勾配フリーな量子回路学習に基づく近距離量子アルゴリズムによるトラベルタイム地震インバージョン手法を実装した。 ノイズがあっても、何千もの量子ビットを持つ量子コンピュータは、物理問題を解くことができる。 さらに,本手法の収束度を変動量子アルゴリズムと比較した。

Quantum computing is in its early stage of implementation. Its capacity has been growing in the last years but its application in several fields of sciences is still restricted to oversimplified problems. In this stage, it is important to identify the situations where quantum computing presents the most promising results to be prepared when the technology is ready to be deployed. The geophysics field has several areas which are limited by the current computation capability, among them the so-called seismic inversion is one of the most important ones, which are strong candidates to benefit from quantum computing. In this work, we implement an approach for traveltime seismic inversion through a near-term quantum algorithm based on gradient-free quantum circuit learning. We demonstrate that a quantum computer with thousands of qubits, even if noisy, can solve geophysical problems. In addition, we compared the convergence of the method with the variational quantum algorithms.
翻訳日:2023-01-31 21:13:29 公開日:2022-09-01
# NEO-QEC: ニューラルネットワークによる表面コード用オンライン超電導デコーダ

NEO-QEC: Neural Network Enhanced Online Superconducting Decoder for Surface Codes ( http://arxiv.org/abs/2208.05758v2 )

ライセンス: Link先を確認
Yosuke Ueno, Masaaki Kondo, Masamitsu Tanaka, Yasunari Suzuki, Yutaka Tabuchi(参考訳) 量子誤り訂正(QEC)は量子コンピューティングにおいて量子ビット上の誤差の影響を軽減するために不可欠であり、表面符号(SC)は最も有望なQEC法の一つである。 SCの復号化は量子コンピュータ(QC)の制御装置において最もコストがかかるタスクであり、ニューラルネットワーク(NN)を含む多くの研究は、SCの正確な復号アルゴリズムに焦点を当てている。 実用的なqcには低レイテンシのデコーディングも必要であり、低遅延デコーディングはキュービットにエラーが蓄積され、論理的に障害が発生する。 超伝導量子ビットを持つQCの場合、実用デコーダは高い精度と低レイテンシを持つことに加えて、非常に電力効率が高い。 QCのハードウェアの複雑さを軽減するため、超伝導量子ビットが動作する限られた電力予算で低温環境でSCを復号する。 本稿では,SCと格子手術 (LS) 操作をアシラリー量子ビット上の測定誤差で復号できるNNベースの高精度,高速,低消費電力デコーダを提案する。 SCデコーダの精度とハードウェア効率を両立させるため,二項化NNを適用した。 SFQベースのディジタル回路を用いたデコーダ用ニューラル処理ユニット(NPU)を設計し,SPICEレベルのシミュレーションにより評価する。 単一論理量子ビット保護のための量子誤差シミュレータとコード距離13までのLSの最小演算によるデコーダ性能の評価を行い、それぞれ2.5%と1.0%の精度閾値を達成した。

Quantum error correction (QEC) is essential for quantum computing to mitigate the effect of errors on qubits, and surface code (SC) is one of the most promising QEC methods. Decoding SCs is the most computational expensive task in the control device of quantum computers (QCs), and many works focus on accurate decoding algorithms for SCs, including ones with neural networks (NNs). Practical QCs also require low-latency decoding because slow decoding leads to the accumulation of errors on qubits, resulting in logical failures. For QCs with superconducting qubits, a practical decoder must be very power-efficient in addition to having high accuracy and low latency. In order to reduce the hardware complexity of QC, we are supposed to decode SCs in a cryogenic environment with a limited power budget, where superconducting qubits operate. In this paper, we propose an NN-based accurate, fast, and low-power decoder capable of decoding SCs and lattice surgery (LS) operations with measurement errors on ancillary qubits. To achieve both accuracy and hardware efficiency of the SC decoder, we apply a binarized NN. We design a neural processing unit (NPU) for the decoder with SFQ-based digital circuits and evaluate it with a SPICE-level simulation. We evaluate the decoder performance by a quantum error simulator for the single logical qubit protection and the minimum operation of LS with code distances up to 13, and it achieves 2.5% and 1.0% accuracy thresholds, respectively.
翻訳日:2023-01-31 21:13:08 公開日:2022-09-01
# SU(2)離散部分群に対する原始量子ゲート:BT

Primitive Quantum Gates for an SU(2) Discrete Subgroup: BT ( http://arxiv.org/abs/2208.12309v2 )

ライセンス: Link先を確認
Erik J. Gustafson, Henry Lamm, Felicity Lovelace, Damian Musk(参考訳) 2つの量子アーキテクチャ上の二元四面体(\mathbb{BT}$)群のディジタル量子シミュレーションのための原始ゲートセットを構築する。 この非可換離散群は、5つの量子ビットまたは1つのquicosotetritのゲージリンクを必要とする一方で、$su(2)$格子ゲージ理論の粗い近似として機能する。 基本的なプリミティブは、反転ゲート、群乗算ゲート、トレースゲート、および$\mathbb{bt}$ 上の$\mathbb{bt}$フーリエ変換である。 ibmnaiirobiの逆転ゲートとトレースゲートを実験的に評価し,入力状態に応じて14-55\%の忠実度を推定した。

We construct a primitive gate set for the digital quantum simulation of the binary tetrahedral ($\mathbb{BT}$) group on two quantum architectures. This nonabelian discrete group serves as a crude approximation to $SU(2)$ lattice gauge theory while requiring five qubits or one quicosotetrit per gauge link. The necessary basic primitives are the inversion gate, the group multiplication gate, the trace gate, and the $\mathbb{BT}$ Fourier transform over $\mathbb{BT}$. We experimentally benchmark the inversion and trace gates on ibm nairobi, with estimated fidelities between $14-55\%$, depending on the input state.
翻訳日:2023-01-29 21:07:43 公開日:2022-09-01
# 量子相関における非局所性蒸留

Distilling nonlocality in quantum correlations ( http://arxiv.org/abs/2208.13976v2 )

ライセンス: Link先を確認
Sahil Gopalkrishna Naik, Govind Lal Sidhardh, Samrat Sen, Arup Roy, Ashutosh Rai, Manik Banik(参考訳) セミナルベルの定理によって確立された非局所性は、分離事象のような空間に存在する相関の最も顕著な特徴であると考えられている。 デバイスに依存しないプロトコル、例えば、セキュアな鍵分布、ランダム性認証などにおける実用的応用。 量子世界で観測された相関関係の同定と増幅を要求する。 本文では,非局所性蒸留の展望を考察し,弱非局所系の多くのコピーに自然集合の自由操作(配線と呼ばれる)を適用することにより,高い非局所強度の相関関係を生成することを目的とする。 最も単純なベルシナリオでは、非局所性が任意に弱い量子非局所相関からかなり高い程度に分散できるプロトコル、すなわち論理的な or-and wiring を同定する。 私たちのプロトコルにはいくつかの興味深い側面があります。 i)全8次元相関空間において、蒸留可能な量子相関の集合がゼロ測度を持たないことを示す。 (ii)その構造を維持して量子ハーディ相関を分離することができる。 3) 局所決定論点に十分近い(非局所的な)量子相関は、かなりの量で蒸留可能であることを示す。 最後に, ポスト量子相関の検出における蒸留プロトコルの有効性を実証する。

Nonlocality, as established by seminal Bell's theorem, is considered to be the most striking feature of correlations present in space like separated events. Its practical application in device independent protocols, such as, secure key distribution, randomness certification {\it etc.}, demands identification and amplification of such correlations observed in quantum world. In this letter we study the prospect of nonlocality distillation, wherein, by applying a natural set of free operations (called wirings) on many copies of weakly nonlocal systems, one aims to generate correlations of higher nonlocal strength. In the simplest Bell scenario, we identify a protocol, namely logical OR-AND wiring, that can distil nonlocality to significantly high degree starting from arbitrarily weak quantum nonlocal correlations. As it turns out, our protocol has several interesting facets: (i) it demonstrates that set of distillable quantum correlations has non zero measure in the full eight dimensional correlation space, (ii) it can distil quantum Hardy correlations by preserving its structure, (iii) it shows that (nonlocal) quantum correlations sufficiently close to the local deterministic points can be distilled by a significant amount. Finally, we also demonstrate efficacy of the considered distillation protocol in detecting post quantum correlations.
翻訳日:2023-01-28 12:09:51 公開日:2022-09-01
# 2つの近接した光遷移を増強する波長可変オープンダブルキャビティ

Wavelength-tunable open double-microcavity to enhance two closely spaced optical transitions ( http://arxiv.org/abs/2208.14790v2 )

ライセンス: Link先を確認
Simon Seyfferle, Thomas Herzog, Robert Sittig, Michael Jetter, Simone Luca Portalupi, Peter Michler(参考訳) マイクロキャビティは、光抽出と光-物質相互作用の強化に有用であるため、量子フォトニクス研究において欠かせない要素として長年認識されてきた。 従来の高qキャビティ構造は、1つの光遷移のみを特定のモードと共鳴させることができる。 しかし、より高度な二重共振器構造への遷移は、2つの異なる共振器モードで2つのスペクトル閉光遷移を同時に拡張するといった新しい興味深い可能性をもたらす。 本稿では,2つの半導体分散ブラッグ反射体(DBR)とファイバ先端に堆積したトップ誘電体ミラーとの間に,モノリシックな平面空洞からなる空洞構造について検討する。 底空洞は2つのDBRによって形成されるが、半導体チップのファイバ先端とトップDBRのミラーは第2の調整可能な空洞を形成する。 これらの結合キャビティは共振に調整されたときモードハイブリダイゼーションを示し、その分割は適切な試料設計により密接な空間の光学遷移のスペクトル分離と一致するように調整することができる。 さらに, 半導体量子ドットの励起子とバイエクシトン遷移の共振共振を, オープンファイバベースの二重キャビティの分離モードにそれぞれ適用した。 同時共鳴における減衰時間測定は、エキシトン転移に対するPurcell-factorの$F_P^X$=1.9$\pm$0.4を示した。

Microcavities have long been recognized as indispensable elements in quantum photonic research due to their usefulness for enhanced light extraction and light-matter interaction. A conventional high-Q cavity structure typically allows only a single optical transition to be tuned into resonance with a specific mode. The transition to a more advanced double-cavity structure, however, introduces new and interesting possibilities such as enhancing two spectrally close optical transitions at the same time with two distinct cavity modes. Here, we investigate a cavity structure composed of a monolithic planar cavity enclosed between two semiconductor distributed Bragg reflectors (DBR) and a top dielectric mirror deposited on a fiber tip. While the bottom cavity is formed by the two DBRs, the mirror on the fiber tip and the top DBR of the semiconductor chip create a second tunable cavity. These coupled cavities exhibit mode hybridization when tuned into resonance and their splitting can be adjusted to match with the spectral separation of closely spaced optical transitions by a suitable sample design. Furthermore, we report on the simultaneous resonance tuning of the exciton and biexciton transition of a semiconductor quantum dot, each to a separate mode of the open fiber-based double cavity. Decay time measurements at simultaneous resonance showed a Purcell-factor of $F_P^X$=1.9$\pm$0.4 for the exciton transition.
翻訳日:2023-01-28 09:17:22 公開日:2022-09-01
# 化学結合の相補的キャラクタリゼーションに向けて

Towards Complementary Characterization of the Chemical Bond ( http://arxiv.org/abs/2209.00336v1 )

ライセンス: Link先を確認
Maciej Hendzel, Maciej Fidrysiak, J\'ozef Spa{\l}ek(参考訳) 単一結合の精密な議論には、関連する粒子の2粒子波動関数を考慮する必要がある。 ここでは,ch{H2}分子の正準例における内在的同値性と連結特性を厳密に定義し,決定する。 これは、結合を形成する電子の2粒子波動関数の解析形式から始まり、原子の寄与(\textit{atomicity})を非特定の方法で選び出すことによって達成される。 原子性およびイオン性因子の存在は、結合の既存の特性を補完する。 このように、分子状態の2原子対応体への段階的な進化は、原子間距離の増加とともに体系的に追跡される。 実際、本質的同値性およびイオン性に対する初期モット・ハバード原子性(\textit{Mottness})の開始と直接関係が確立される。 この目標は、粒子(第2の量子化)表現における1粒子波動関数の再調整と2粒子状態の同時決定を組み合わせることで達成される。

A precise discussion of a single bond requires consideration of two-particle wave function for the particles involved. Here we define and determine rigorously the intrinsic covalency and connected characteristics on the canonical example of \ch{H2} molecule. This is achieved by starting from analytic form for the two--particle wave function for electrons forming the bond, in which we single out the atomic contribution (\textit{atomicity}) in an unequivocal manner. The presence the of atomicity and ionicity factors complements the existing attributes of the bond. In this way, a gradual evolution of the molecular state to its two-atomic correspondant is traced systematically with increasing interatomic distance. In effect, a direct relation to the onset of incipient Mott-Hubbard atomicity (\textit{Mottness}) to the intrinsic covalency and ionicity is established. This goal is achieved by combining the single--particle wave function readjustment with a simultaneous determination of two--particle states in the particle (second--quantization) representation.
翻訳日:2023-01-28 06:47:09 公開日:2022-09-01
# ディック三角形におけるキラル量子相と三臨界性

Chiral Quantum Phases and Tricriticality in a Dicke Triangle ( http://arxiv.org/abs/2209.00294v1 )

ライセンス: Link先を確認
Guo-Jing Chen, Diego Fallas Padilla, Tao Deng, Yu-Yu Zhang, Han Pu(参考訳) 量子三臨界性とエキゾチック相の存在は、人工磁場の作用によって3つの空洞(それぞれ3つの原子のアンサンブルを含む)が互いに接続されるディック三角形(TDT)で見られる。 従来の超放射位相(SR)は、1階と2階の境界を通して通常の位相に接続され、そのような境界の交差点に三臨界点がある。 SR相とは別に、人工磁場をチューニングすることで、キラル超放射(CSR)相が見つかる。 この相は非ゼロ光子電流によって特徴づけられ、その境界はキラル三臨界点(CTCP)を呈する。 異なる臨界指数の研究を通じて、CTCPとTCPの普遍性クラスを2次臨界点の普遍性クラスと区別することができ、また、2つの異なる超放射能位相の間に顕著な臨界挙動を見出すことができる。 TDTは、光学キャビティの原子や回路QEDシステムなど様々なシステムで実装することができ、様々な臨界多様体を探索することができる。

The existence of quantum tricriticality and exotic phases are found in a Dicke triangle (TDT) where three cavities, each one containing an ensemble of three-level atoms, are connected to each other through the action of an artificial magnetic field. The conventional superradiant phase (SR) is connected to the normal phase through first- and second-order boundaries, with tricritical points located at the intersection of such boundaries. Apart from the SR phase, a chiral superradiant (CSR) phase is found by tuning the artificial magnetic field. This phase is characterized by a nonzero photon current and its boundary presents chiral tricritical points (CTCPs). Through the study of different critical exponents, we are able to differentiate the universality class of the CTCP and TCP from that of second-order critical points, as well as find distinctive critical behavior among the two different superradiant phases. The TDT can be implemented in various systems, including atoms in optical cavities as well as the circuit QED system, allowing the exploration of a great variety of critical manifolds.
翻訳日:2023-01-28 06:46:56 公開日:2022-09-01
# ガウスボソニック環境における開系マルチタイム期待値の非摂動的処理

Non-perturbative treatment of open-system multi-time expectation values in Gaussian bosonic environments ( http://arxiv.org/abs/2209.00293v1 )

ライセンス: Link先を確認
A. Smirne, D. Tamascelli, J. Lim, M.B. Plenio, and S.F. Huelga(参考訳) 一般有限次元開量子系の多次元期待値と自由ユニタリ進化を行う環境,あるいは固有なゴリニ・コサコフスキー・リンドブラッド・スダルシャン生成器によって固定された自由進化の下での離散環境との相互作用条件を決定する。 この同値性は、両環境がボソニックかつガウス的であることと、対応する相互作用作用素の 1 と 2 つの時間相関関数が常に同じであるときに成り立つ。 この結果は、限られた数の減衰モードを用いて、一連のボソニックモードの連続的な集合と相互作用する開放量子系の作用素と写像のマルチタイム期待値の非摂動的評価につながり、完全な一般状態におけるオープンシステムマルチタイム量の研究の基盤となる。

We determine the conditions for the equivalence between the multi-time expectation values of a general finite-dimensional open quantum system when interacting with, respectively, an environment undergoing a free unitary evolution or a discrete environment under a free evolution fixed by a proper Gorini-Kossakowski-Lindblad-Sudarshan generator. We prove that the equivalence holds if both environments are bosonic and Gaussian and if the one- and two-time correlation functions of the corresponding interaction operators are the same at all times. This result leads to a non-perturbative evaluation of the multi-time expectation values of operators and maps of open quantum systems interacting with a continuous set of bosonic modes by means of a limited number of damped modes, thus setting the ground for the investigation of open-system multi-time quantities in fully general regimes.
翻訳日:2023-01-28 06:46:37 公開日:2022-09-01
# 六方晶窒化ホウ素スピン欠陥アレイからの反射誘電体空洞励起放出

Reflective Dielectric Cavity Enhanced Emission from Hexagonal Boron Nitride Spin Defect Arrays ( http://arxiv.org/abs/2209.00256v1 )

ライセンス: Link先を確認
Xiao-Dong Zeng, Yuan-Ze Yang, Nai-Jie Guo, Zhi-Peng Li, Zhao-An Wang, Lin-Ke Xie, Shang Yu, Yu Meng, Qiang Li, Jin-Shi Xu, Wei Liu, Yi-Tao Wang, Jian-Shun Tang, Chuan-Feng Li, Guang-Can Guo(参考訳) hbnの様々なスピン欠陥のうち、決定論的に生成できる負電荷のホウ素空隙(英語版)($\rm v_b^-$)は量子センシングの潜在的な候補であることは間違いないが、量子効率の低さは実用上の利用を制限している。 ここでは, 簡単なオンチップ統合, 便利な処理, 低コスト, および$\rm V_B^-$欠陥に対する適切な広帯域拡張を含む, 強靭な拡張構造を示す。 %改善光ルミネッセンス(pl)強度と光学的に検出された磁気共鳴(odmr)は,$\rm v_b^-$欠陥アレイのコントラストであった。 実験では,hBNフレークの下の金属反射層を中央に遷移誘電体層を充填し,誘電体層の厚みを調整し,反射誘電体キャビティとhBNスピン欠陥との最適結合を実現した。 反射誘電体共振器を用いて約7倍のpl増倍を達成し,対応するodmrコントラストは18\%となった。 また、反射誘電体キャビティの酸化物層を二次処理用マイクロナノフォトニック装置の集積材料として使用することができ、他の強化構造と組み合わせてより強力な強化を実現することができる。 この研究は、2次元材料におけるスピン欠陥のオンチップ統合を実現する上で重要である。

Among the various kinds of spin defects in hBN, the negatively charged boron vacancy ($\rm V_B^-$) spin defect that can be deterministically generated is undoubtedly a potential candidate for quantum sensing, but its low quantum efficiency restricts its %use in practical applications. Here, we demonstrate a robust enhancement structure with advantages including easy on-chip integration, convenient processing, low cost and suitable broad-spectrum enhancement for $\rm V_B^-$ defects. %Improved photoluminescence (PL) intensity and optically detected magnetic resonance (ODMR) contrast of $\rm V_B^-$ defect arrays. In the experiment, we used a metal reflective layer under the hBN flakes, filled with a transition dielectric layer in the middle, and adjusted the thickness of the dielectric layer to achieve the best coupling between the reflective dielectric cavity and the hBN spin defect. Using a reflective dielectric cavity, we achieved a PL enhancement of approximately 7-fold, and the corresponding ODMR contrast achieved 18\%. Additionally, the oxide layer of the reflective dielectric cavity can be used as an integrated material for micro-nano photonic devices for secondary processing, which means that it can be combined with other enhancement structures to achieve stronger enhancement. This work has guiding significance for realizing the on-chip integration of spin defects in two-dimensional materials.
翻訳日:2023-01-28 06:46:03 公開日:2022-09-01
# 原子量子アニーラの計算力に及ぼす量子統計量の影響

Effect of Quantum Statistics on Computational Power of Atomic Quantum Annealers ( http://arxiv.org/abs/2209.00201v1 )

ライセンス: Link先を確認
Yuchen Luo and Xiaopeng Li(参考訳) 量子粒子統計は粒子の相互作用を根本的に制御し、低温での系の特性を決定する上で重要な役割を果たす。 本稿では,量子統計が量子アニーリングの計算能力に与える影響について検討する。 正方形格子上を移動する量子粒子を記述したアニーリングハミルトニアンを提案し,その計算性能を,スピンレスフェルミオンとハードコアボソンの2つの統計的に異なる成分で比較した。 さらに、従来の横場量子ゆらぎによって駆動されるイジング量子アニールをベースラインとしている。 組合せ最適化問題を解く量子アニールのポテンシャルは、ランダムな3規則グラフ分割において実証される。 ボソニック量子アニールがフェルミオンのケースより優れていることが分かる。 ボソニック量子アニーラーの優れた性能は、より大きな励起ギャップと、その瞬間的な量子基底状態の滑らかな断熱変換に起因する。 我々のアニーリングスケジュールに従って、ボソニック量子アニーラーはガラスオーダーの影響が少なく、ヒルベルト空間をより効率的に探索する。 我々の理論的発見は、ライドバーグ原子を光学格子に用いた原子量子アニーラーの構築に光を当てることができた。

Quantum particle statistics fundamentally controls the way particles interact, and plays an essential role in determining the properties of the system at low temperature. Here we study how the quantum statistics affects the computational power of quantum annealing. We propose an annealing Hamiltonian describing quantum particles moving on a square lattice and compare the computational performance of the atomic quantum annealers between two statistically-different components: spinless fermions and hard-core bosons. In addition, we take an Ising quantum annealer driven by traditional transverse-field quantum fluctuations as a baseline. The potential of our quantum annealers to solve combinatorial optimization problems is demonstrated on random 3-regular graph partitioning. We find that the bosonic quantum annealer outperforms the fermionic case. The superior performance of the bosonic quantum annealer is attributed to larger excitation gaps and the consequent smoother adiabatic transformation of its instantaneous quantum ground states. Along our annealing schedule, the bosonic quantum annealer is less affected by the glass order and explores the Hilbert space more efficiently. Our theoretical finding could shed light on constructing atomic quantum annealers using Rydberg atoms in optical lattices.
翻訳日:2023-01-28 06:45:28 公開日:2022-09-01
# アハロノフ・ボーム効果におけるコヒーレンスとリアリズム

Coherence and realism in the Aharonov-Bohm effect ( http://arxiv.org/abs/2209.00480v1 )

ライセンス: Link先を確認
Ismael L. Paiva, Pedro R. Dieguez, Renato M. Angelo, Eliahu Cohen(参考訳) アハルノフ・ボーム効果は、幅広い応用を持つ基本的な位相現象である。 それは、磁束によって影響を受ける相対位相を有する波束の重ね合わせにおいて磁束のある領域を囲む電荷からなる。 本研究では,この効果を実数論として知られるエントロピー測度を用いて解析し,その効果を実数論の量化器として導入し,大域的および局所的な量子コヒーレンスの概念と数学的に関連づけた。 より正確には、ループが完了する前に電荷に付随するゲージ不変な現実性をもたらす可観測性を求める。 これらの作用素の現実性は、両方のウェーブパケットの中心を結ぶ線がソレノイドを渡るときに突然変化する。 さらに,2つのケースの類似点と相違点を指摘し,量子化磁界源の場合について考察する。 最後に、これらの結果が効果の理解に与える影響について論じる。

The Aharonov-Bohm effect is a fundamental topological phenomenon with a wide range of applications. It consists of a charge encircling a region with a magnetic flux in a superposition of wavepackets having their relative phase affected by the flux. In this work, we analyze this effect using an entropic measure known as realism, originally introduced as a quantifier of a system's degree of reality and mathematically related to notions of global and local quantum coherence. More precisely, we look for observables that lead to gauge-invariant realism associated with the charge before it completes its loop. We find that the realism of these operators has a sudden change when the line connecting the center of both wavepackets crosses the solenoid. Moreover, we consider the case of a quantized magnetic field source, pointing out similarities and differences between the two cases. Finally, we discuss the implications of these results to the understanding of the effect.
翻訳日:2023-01-28 06:41:04 公開日:2022-09-01
# ウェッジ製品と幾何学による絡み合いの分類と定量化

Classification and Quantification of Entanglement Through Wedge Product and Geometry ( http://arxiv.org/abs/2209.00438v1 )

ライセンス: Link先を確認
Soumik Mahanti, Sagnik Dutta, and Prasanta K. Panigrahi(参考訳) パラレルグラムの「領域」測度に繋がる測定後のベクトルのウェッジ積は、エンタングルメントの一般化されたi-共起測度を与える。 ウェッジ積の定式化をマルチキューディット系に拡張し,ポスト測定ベクトルによって形成される高次元体積と並列入力の面積要素を組み込んだ改良された忠実絡み合い尺度を提示した。 この測定は絡み合いモノトンを微粒化し、異なる絡み合いクラスが異なるジオメトリーで表される。 我々は,すべての可能な幾何学的構造を考慮した二部的クトリットケースの完全解析を行った。 3つの絡み合いクラスは、測位後のベクトルの異なる幾何学、すなわち3つの平面ベクトル、3つの相互直交ベクトル、3つの平面的でない3つのベクトルと同一視できる。 さらに、面積と体積の最大化の幾何学的条件は、自然に絡み合いの最大化をもたらすことが示される。 ウェッジ積のアプローチは、エンタングルメントの固有の幾何学を明らかにし、高次元系におけるエンタングルメントのキャラクタリゼーションと定量化に非常に有用である。

Wedge product of post-measurement vectors leading to an `area' measure of the parallelogram has been shown to give the generalized I-concurrence measure of entanglement. Extending the wedge product formalism to multi qudit systems, we have presented a modified faithful entanglement measure, incorporating the higher dimensional volume and the area elements of the parallelepiped formed by the post-measurement vectors. The measure fine grains the entanglement monotone, wherein different entangled classes manifest with different geometries. We have presented a complete analysis for the bipartite qutrit case considering all possible geometric structures. Three entanglement classes can be identified with different geometries of post-measurement vectors, namely three planar vectors, three mutually orthogonal vectors, and three vectors that are neither planar and not all of them are mutually orthogonal. It is further demonstrated that the geometric condition of area and volume maximization naturally leads to the maximization of entanglement. The wedge product approach uncovers an inherent geometry of entanglement and is found to be very useful for characterization and quantification of entanglement in higher dimensional systems.
翻訳日:2023-01-28 06:40:22 公開日:2022-09-01
# 単一光子状態の量子ホログラフィー

Quantum holography with single-photon states ( http://arxiv.org/abs/2209.00431v1 )

ライセンス: Link先を確認
Denis Abramovi\'c, Nazif Demoli, Mario Stip\v{c}evi\'c, Hrvoje Skenderovi\'c(参考訳) 単光子状態による位相の検索は、根本的な技術的挑戦である。 本稿では、単一光子照明による量子ホログラム記録の初回実験と、基本干渉計の前後における光子統計の連続観測について報告する。 これにより、古典波理論では説明できない単光子状態を持つホログラフィの基本原理を示す。 非古典的ホログラムの再構成は古典的ホログラムと比較して振幅と位相のコントラストが向上した。

The retrieval of the phase with single-photon states is a fundamental and technical challenging endeavor. Here we report the first experimental realization of quantum hologram recordings with single-photon illumination and continuous observation of photon statistics before and after a basic interferometer. Thereby, we demonstrate the basic principle of holography with single-photon states which cannot be described with the classical wave theory. Remarkably, the reconstructions of non-classical holograms show an improvement in amplitude and phase contrast compared to the classical holograms.
翻訳日:2023-01-28 06:39:58 公開日:2022-09-01
# キャビティを連続的に通過する2つのv型3レベル原子と非線形および非共鳴相互作用する単一モード量子化場の物理的性質のダイナミクス

Dynamics of physical properties of a single-mode quantized field nonlinearly and non-resonantly interacting with two V-type three-level atoms passing consecutively through a cavity ( http://arxiv.org/abs/2209.00419v1 )

ライセンス: Link先を確認
Elham Faraji and Mohammad Kazem Tavassoly(参考訳) 本稿では, 単モード共振器場を連続的に通過する2つの同一V型3レベル原子間の非共鳴相互作用の解析解について述べる。 両方の原子と初期コヒーレント場について同じ初期条件を考えることで、原子場系全体の状態ベクトルの解析解を見つける。 したがって,原子集団反転,原子-磁場の絡み合い,フィールドスクイージング,サブポアソニアン統計,ウィグナー準確率分布関数などの物理量に対する相互作用系の状況における様々なパラメータの影響を慎重に検討することができた。 具体的には, 調律パラメータと特定の非線形性関数が上記の量に与える影響を数値的に検討し, 上記の非古典的性質の時間的挙動に与える影響を実証する。

In this paper we address the analytical solution of the non-resonant interaction between two identical V-type three-level atoms passing consecutively through a single-mode cavity field in the presence of intensity-dependent coupling. By considering an identical initial condition for both atoms and an initial coherent field, we find the analytical solution of the state vector of the entire atom-field system. Accordingly, we could carefully investigate the influence of various parameters in the circumstances of the interacting system on different physical quantities such as the atomic population inversion, atom-field entanglement, field squeezing, sub-Poissonian statistics and the Wigner quasi-probability distribution function. In detail, we discuss numerically the influences of the detuning parameters and a particular nonlinearity function on the mentioned quantities and demonstrate that they have substantial effects on the temporal behavior of the above-mentioned nonclassical properties.
翻訳日:2023-01-28 06:39:51 公開日:2022-09-01
# 動的グラフ上の多角量子近似最適化アルゴリズムと連続時間量子ウォークの関係

Relating the multi-angle quantum approximate optimization algorithm and continuous-time quantum walks on dynamic graphs ( http://arxiv.org/abs/2209.00415v1 )

ライセンス: Link先を確認
Rebekah Herrman(参考訳) 本研究では,ma-QAOAが動的グラフ上の連続時間量子ウォークの制限と等価であることを示す。 次に,Ma-QAOA フレームワークの Hadamard,$\pi/8$ および Controlled-Not ゲートからなるユニバーサルゲートセットを実装した,適切な$B$ および $C$ 演算子と角度を求めることにより,計算に普遍性を示す。 この結果は、連続時間量子ウォークモデルと量子計算のゲートモデルの間のギャップを橋渡しし始める。

In this work, we show that ma-QAOA is equivalent to a restriction of continuous-time quantum walks on dynamic graphs. We then show it is universal for computation by finding the appropriate $B$ and $C$ operators and angles that implement the universal gate set consisting of the Hadamard, $\pi/8$ and Controlled-Not gates in the ma-QAOA framework. This result begins to bridge the gap between the continuous-time quantum walk model and gate model of quantum computation.
翻訳日:2023-01-28 06:39:34 公開日:2022-09-01
# 高忠実度放射モデルによる立方体軌道上の性能評価

CubeSat in-orbit validation of in-situ performance by high fidelity radiation modelling ( http://arxiv.org/abs/2209.00408v1 )

ライセンス: Link先を確認
Arpad Lenart, Srihari Sivasankaran, Daniel K. L. Oi, Alexander Ling, Peter Neilson, Bernhard Hidding(参考訳) 宇宙ベースの量子技術は、グローバル量子ネットワークにとって必須の構成要素である。 しかし、光電子部品やデバイスは放射線損傷の影響を受けやすい。 SpooQy-1 CubeSatミッションは、単一光子検出のためのアバランシェフォトダイオードを用いた偏光に基づく量子エンタングルメント相関を実証した。 2年間にわたって観測された2つのシリコン・ガイガーモード・アバランシェ・フォトダイオード(GM-APD)の暗黒光数の増加を報告した。 暗黒数の増加の予期せぬ傾向を診断する手段として,光ダイオードに蓄積した変位損傷量を推定するために,高忠実度放射モデルと3次元コンピュータ支援のSpooQy-1 CubeSatの設計モデルを組み合わせる。 これらの結果から,放射線遮蔽の違いが観測された軌道内データに大きく寄与しているという主張を裏付けることができた。 このことは、放射線モデリングが、低軌道のCubeSatに対する従来の寿命推定を超える応用を持つことを示す。

Space based quantum technologies are essential building blocks for global quantum networks. However, the optoelectronic components and devices used are susceptible to radiation damage. The SpooQy-1 CubeSat mission demonstrated polarization-based quantum entanglement correlations using avalanche photodiodes for single-photon detection. We report the increasing dark count rates of two silicon Geiger-mode avalanche photodiodes (GM-APD) observed throughout its 2 year orbital lifetime. As a means of diagnosing the unexpected trends in the increase of dark counts, we implement a high-fidelity radiation model combined with 3D computer aided design models of the SpooQy-1 CubeSat to estimate the accumulated displacement damage dose in each photodiode. Using these results, we were able to support the claim that differences in radiation shielding was a major contributor to the observed in-orbit data. This illustrates how radiation modelling can have applications beyond conventional lifetime estimates for low-earth orbit CubeSats.
翻訳日:2023-01-28 06:39:23 公開日:2022-09-01
# 非対角的dephasing機構による多粒子系の記憶効果

Memory effects in multipartite systems coupled by non-diagonal dephasing mechanisms ( http://arxiv.org/abs/2209.00400v1 )

ライセンス: Link先を確認
Adri\'an A. Budini(参考訳) 非マルコフ的)メモリ効果の開発は、基盤となるシステム環境のダイナミクスに大きく依存する。 本稿では,すべてのサブシステム同士が非対角的マルコフ(lindblad)分解機構によって結合する多成分配置において,この問題を考察する。 量子非マルコビアン性に対する操作的および非操作的アプローチは、システムおよび環境の任意の部分集合として、厳密な分析方法で特徴づけられることが示されている。 この種のダイナミクス(Seif, Wang, and Clerk, Phys. Rev. Lett. 128, 070402 (2022)]における散逸・絡み合いの発生に関する以前の研究と同様に、時間反転対称性が破れたときにのみメモリ効果が出現することを発見した。 それにもかかわらず、マルコフ性からの離脱は、システム環境の絡み合いを含まないマルコフの退化力学の統計的混合によって同等に表現できる。 特定の二成分と多成分のダイナミクスは、主な一般的な結果を示す。

The developing of (non-Markovian) memory effects strongly depends on the underlying system-environment dynamics. Here we study this problem in multipartite arrangements where all subsystems are coupled to each other by non-diagonal Markovian (Lindblad) dephasing mechanisms. Taking as system and environment arbitrary sets of complementary subsystems it is shown that both operational and non-operational approaches to quantum non-Markovianity can be characterized in an exact analytical way. Similarly to previous studies about dissipative-entanglement-generation in this kind of dynamics [Seif, Wang, and Clerk, Phys. Rev. Lett. 128, 070402 (2022)], we found that memory effects can only emerge when a time-reversal symmetry is broken. Nevertheless, it is also found that departures from Markovianity can equivalently be represented through a statistical mixture of Markovian dephasing dynamics, which does not involve any system-environment entanglement. Specific bipartite and multipartite dynamics exemplify the main general results.
翻訳日:2023-01-28 06:39:07 公開日:2022-09-01
# 荷電粒子のメソスコピック系における配向融解

Orientational melting in a mesoscopic system of charged particles ( http://arxiv.org/abs/2209.00395v1 )

ライセンス: Link先を確認
Lucia Duca, Naoto Mizukami, Elia Perego, Massimo Inguscio, Carlo Sias(参考訳) 数個の粒子からなるメソスコピック系は、マクロ構造と大きく異なる挙動を示す。 マクロ系相転移は普遍的であるが、メソスコピック系の状態の変化は、粒子の数のような特定の性質に依存するため、状態の変化が特定のマジック数に対して不利になる。 2次元結晶を形成する長距離反発相互作用を持つ局在化粒子が、一般的な円形または楕円軌道において非局在化される。 配向融解はコンピュータシミュレーションで広く研究され、いくつかの先駆的な実験で観察された。 しかし、その非普遍性を完全に明らかにする詳細な実験研究は、今のところ欠落している。 本稿では,最大15イオンの2次元アンサンブルにおける回転クーロン相互作用による配向融解の観察について報告する。 配向融解を定量的に特徴付け,モンテカルロシミュレーションと比較し,粒子運動エネルギーを抽出した。 マジックナンバーの存在を実証し,ピンニング不純物添加による融解の発生を局所的に制御する。 本システムは,小型系の熱力学を研究するための完全制御可能な実験ベッドを実現するとともに,非局在化イオン系における量子現象の研究方法として,量子揺らぎや量子統計の出現からマルチシェル量子ロータの制御への道を開いた。

A mesoscopic system of a few particles exhibits behaviors that strongly differ from those of a macroscopic system. While in a macroscopic system phase transitions are universal, a change in the state of a mesoscopic system depends on its specific properties, like the number of particles, to the point that changes of state can be disfavored for specific magic numbers. A transition that has no counterpart in the macroscopic world is orientational melting, in which localized particles with long-range repulsive interactions forming a two-dimensional crystal become delocalized in common circular or elliptical trajectories. Orientational melting has been studied extensively with computer simulations and witnessed in a few pioneering experiments. However, a detailed experimental investigation fully revealing its non-universal nature has been missing so far. Here we report the observation of orientational melting in a two-dimensional ensemble of up to 15 ions with repulsive Coulomb interaction. We quantitatively characterize orientational melting, and compare the results with a Monte Carlo simulation to extract the particles kinetic energy. We demonstrate the existence of magic numbers, and control locally the occurrence of melting by adding a pinning impurity. Our system realizes a fully-controllable experimental testbed for studying the thermodynamics of small systems, and our results pave the way for the study of quantum phenomena in systems of delocalized ions, from the emergence of quantum fluctuations and quantum statistics, to the control of multi-shell quantum rotors.
翻訳日:2023-01-28 06:38:44 公開日:2022-09-01
# ラゲール励起スクイズド状態によるマッハ・ツェンダー干渉計の位相推定

Phase estimation of Mach-Zehnder interferometer via Laguerre excitation squeezed state ( http://arxiv.org/abs/2209.00338v1 )

ライセンス: Link先を確認
Zekun Zhao, Huan Zhang, Yibing Huang, Liyun Hu(参考訳) 量子計測学は、量子光学と量子情報処理の分野で重要な役割を担っている。 ここでは,従来のマッハ・ゼーダー干渉計の入力として,非ガウス状態,ラゲール励起スクイーズ状態を導入して,実例における位相推定について検討する。 内部および外部の損失が位相推定に与える影響を,量子フィッシャー情報とパリティ検出を用いて検討する。 外部損失は, 内部損失よりも大きい効果を示すことが示された。 光子数を増やすことで位相感度と量子フィッシャー情報を改善することができ、現実的な場合、特定の位相シフト領域において2モード圧縮真空により理想的な位相感度を超えることができる。

Quantum metrology has an important role in the fields of quantum optics and quantum information processing. Here we introduce a kind of non-Gaussian state, Laguerre excitation squeezed state as input of traditional Mach-Zehnder interferometer to examine phase estimation in realistic case. We consider the effects of both internal and external losses on phase estimation by using quantum Fisher information and parity detection. It is shown that the external loss presents a bigger effect than the internal one. The phase sensitivity and the quantum Fisher information can be improved by increasing the photon number and even surpass the ideal phase sensitivity by two-mode squeezed vacuum in a certain region of phase shift for realistic case.
翻訳日:2023-01-28 06:38:23 公開日:2022-09-01
# Bayesian Diabatic Quantum Annealing を用いたマルチターゲット追跡とフィルタリング

Multiple Target Tracking and Filtering using Bayesian Diabatic Quantum Annealing ( http://arxiv.org/abs/2209.00615v1 )

ライセンス: Link先を確認
Timothy M. McCormick, Zipporah Klain, Ian Herbert, Anthony M. Charles, R. Blair Angle, Bryan R. Osborn, Roy L. Streit(参考訳) 本稿では、マルチターゲットデータアソシエーション(MTDA)と追跡問題と呼ばれるNPハード組合せ問題を解くためのハイブリッド量子/古典的アルゴリズムを提案する。 ダイアバティック・量子アニーリング (DQA) を用いて低エネルギー, 高確率, 実現可能な割り当てを列挙し, ベイズ予測平均トラック推定値を求める。 簡単な例で、我々のハイブリッド量子/古典的アプローチを実証する。 これはベイズハイブリッド量子古典的多重目標追跡フィルタの最初の実演かもしれない。 MTDAに対するAQC(adiabatic quantum computing)手法とDQA法を対比する。 本稿では、DQAの理論的概要と、この新奇なダイアバティック・モダリティにおける量子アニールの使用に関する技術的な制限を特徴づける。

In this paper, we present a hybrid quantum/classical algorithm to solve an NP-hard combinatorial problem called the multiple target data association (MTDA) and tracking problem. We use diabatic quantum annealing (DQA) to enumerate the low energy, or high probability, feasible assignments, and we use a classical computer to find the Bayesian expected mean track estimate by summing over these assignments. We demonstrate our hybrid quantum/classical approach on a simple example. This may be the first demonstration of a Bayesian hybrid quantum-classical multiple target tracking filter. We contrast our DQA method with the adiabatic quantum computing (AQC) approach to MTDA. We give a theoretical overview of DQA and characterize some of the technical limitations of using quantum annealers in this novel diabatic modality.
翻訳日:2023-01-28 06:31:27 公開日:2022-09-01
# 測定誘起相転移のクロスエントロピーベンチマーク

Cross Entropy Benchmark for Measurement-Induced Phase Transitions ( http://arxiv.org/abs/2209.00609v1 )

ライセンス: Link先を確認
Yaodong Li, Yijian Zou, Paolo Glorioso, Ehud Altman, Matthew P. A. Fisher(参考訳) 線形クロスエントロピーを用いて測定誘起相転移(MIPT)を量子軌道のポストセレクションなしで実験的にアクセスする可能性を検討する。 バルクで同一だが初期状態が異なる2つのランダム回路の場合、2つの回路におけるバルク測定結果分布間の線形クロスエントロピー$\chi$は境界順序パラメータとして機能し、領域法相と体積法則を区別するのに使うことができる。 体積則フェーズ(および熱力学的極限)では、バルク測定は2つの異なる初期状態と$\chi = 1$と区別できない。 地域法では、$\chi < 1$ である。 クリフォードゲートを持つ回路の場合、第1の回路をポストセレクションなしで量子シミュレータ上で実行することにより、$\chi$が$O(1/\epsilon^2)$ trajectoriesから$\epsilon$にサンプリングできるという数値的な証拠を提供する。 また、弱い非偏極雑音に対しては、MIPTの符号はいまだ中間システムサイズに存在している。 我々のプロトコルでは、「古典的」側を効率的にシミュレートできるような初期状態を選択する自由があり、「量子的」側をシミュレートすることは古典的に難しい。

We investigate the prospects of employing the linear cross-entropy to experimentally access measurement-induced phase transitions (MIPT) without requiring any postselection of quantum trajectories. For two random circuits that are identical in the bulk but with different initial states, the linear cross-entropy $\chi$ between the bulk measurement outcome distributions in the two circuits acts as a boundary order parameter, and can be used to distinguish the volume law from area law phases. In the volume law phase (and in the thermodynamic limit) the bulk measurements cannot distinguish between the two different initial states, and $\chi = 1$. In the area law phase $\chi < 1$. For circuits with Clifford gates, we provide numerical evidence that $\chi$ can be sampled to accuracy $\epsilon$ from $O(1/\epsilon^2)$ trajectories, by running the first circuit on a quantum simulator without postselection, aided by a classical simulation of the second. We also find that for weak depolarizing noise the signature of the MIPT is still present for intermediate system sizes. In our protocol we have the freedom of choosing initial states such that the "classical" side can be simulated efficiently, while simulating the "quantum" side is still classically hard.
翻訳日:2023-01-28 06:31:14 公開日:2022-09-01
# マトリックス生成物状態の浅量子回路への分解

Decomposition of Matrix Product States into Shallow Quantum Circuits ( http://arxiv.org/abs/2209.00595v1 )

ライセンス: Link先を確認
Manuel S. Rudolph, Jing Chen, Jacob Miller, Atithi Acharya, Alejandro Perdomo-Ortiz(参考訳) 最近の数値計算の急速な進歩、特にgpuとtpuハードウェアアクセラレーターの台頭により、テンソルネットワーク(tn)アルゴリズムはさらに大きな量子シミュレーション問題にスケールすることができ、機械学習タスクの解法としてより広く使われるようになった。 量子インスパイアされたTNの性質は、TNとPQCモデルの異なる強みから恩恵を受ける共同量子古典的トレーニングフレームワークを可能にするとともに、近距離量子デバイスを用いたTNアルゴリズムの性能向上に関する最近の提案にインスパイアされた、パラメトリズド量子回路(PQC)にそれらをマッピングすることを可能にする。 しかしながら、そのような方法の成功は、現実的な量子回路を用いてtn状態の近似を行う効率的で正確な方法に依存する。 本研究では,任意の結合次元の行列積状態 (mps) を2量子ビットユニタリの重ね合わせ線形層からなる低深さ量子回路に分解するための,新規で以前に開発されたアルゴリズムプロトコルの比較を行った。 これらのプロトコルは、回路ユニタリの制約付き最適化を伴う既存の分析分解スキームの異なる組み合わせから形成され、すべて効率的な古典的ランタイムを持つ。 実験の結果、量子回路の逐次成長と最適化を含む1つのプロトコルが他の手法よりも優れており、限られた計算資源の設定においてさらに大きな利点があることが明らかとなった。 これらの有望な結果を踏まえ、提案した分解プロトコルは、TNsとPQCsのジョイントアプリケーションにおいて有用な要素となることを期待し、古典的および量子計算のリッチで補完的な利点をさらに解放する。

The rapid pace of recent advancements in numerical computation, notably the rise of GPU and TPU hardware accelerators, have allowed tensor network (TN) algorithms to scale to even larger quantum simulation problems, and to be employed more broadly for solving machine learning tasks. The "quantum-inspired" nature of TNs permits them to be mapped to parametrized quantum circuits (PQCs), a fact which has inspired recent proposals for enhancing the performance of TN algorithms using near-term quantum devices, as well as enabling joint quantum-classical training frameworks which benefit from the distinct strengths of TN and PQC models. However, the success of any such methods depends on efficient and accurate methods for approximating TN states using realistic quantum circuits, something which remains an unresolved question. In this work, we compare a range of novel and previously-developed algorithmic protocols for decomposing matrix product states (MPS) of arbitrary bond dimensions into low-depth quantum circuits consisting of stacked linear layers of two-qubit unitaries. These protocols are formed from different combinations of a preexisting analytical decomposition scheme with constrained optimization of circuit unitaries, and all possess efficient classical runtimes. Our experimental results reveal one particular protocol, involving sequential growth and optimization of the quantum circuit, to outperform all other methods, with even greater benefits seen in the setting of limited computational resources. Given these promising results, we expect our proposed decomposition protocol to form a useful ingredient within any joint application of TNs and PQCs, in turn further unlocking the rich and complementary benefits of classical and quantum computation.
翻訳日:2023-01-28 06:30:46 公開日:2022-09-01
# 絡み合い支援通信のための強 Converse Exponent

Strong Converse Exponent for Entanglement-Assisted Communication ( http://arxiv.org/abs/2209.00555v1 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao(参考訳) エンタングルメント支援の古典的容量は、古典的チャネルの古典的容量の自然な量子汎化と見なされる。 エンタングルメント支援の古典的コミュニケーションの厳密な逆指数を決定する。 我々の主な貢献は、サンドイッチされた R{\'e}nyi の発散によって特徴づけられる強い逆指数の上限の導出である。 この上限は gupta と wilde の下限と一致することが判明した(数学 phys 334:867--887, 2015)。 したがって、強い逆指数はこれら2つの境界の組み合わせから従う。 この結果は、Cooney, Mosonyi and Wilde (Commun Math Phys 344:797--829, 2016) が導いた量子フィードバック支援古典通信の強い逆性に対する指数的境界が最適であることを示している。 それゆえ、我々はこの問題に対する厳密な逆指数も決定しました。 これは,絡み合い支援型古典通信の強い逆指数に付加的なフィードバックが影響しないことを示している。 上記の結果は、同じ設定で量子情報の伝送に対処するために拡張され、同様の結果が得られる。

Entanglement-assisted classical capacity is regarded as the natural quantum generalization of the classical capacity of a classical channel. We determine the exact strong converse exponent for entanglement-assisted classical communication. Our main contribution is the derivation of an upper bound for the strong converse exponent which is characterized by the sandwiched R{\'e}nyi divergence. It turns out that this upper bound coincides with the lower bound of Gupta and Wilde (Commun Math Phys 334:867--887, 2015). Thus, the strong converse exponent follows from the combination of these two bounds. Our result also implies that the exponential bound for the strong converse property of quantum-feedback-assisted classical communication, derived by Cooney, Mosonyi and Wilde (Commun Math Phys 344:797--829, 2016), is optimal. Hence, we have determined the exact strong converse exponent for this problem as well. This shows that additional feedback does not affect the strong converse exponent of entanglement-assisted classical communication. The above findings can be extended to deal with the transmission of quantum information in the same settings, yielding similar results.
翻訳日:2023-01-28 06:30:15 公開日:2022-09-01
# 異方性粒子と半球状突起を持つ平面の間の側方ファンデルワールス力の符号反転:正確な計算

Sign inversion in the lateral van der Waals force between an anisotropic particle and a plane with a hemispherical protuberance: an exact calculation ( http://arxiv.org/abs/2209.00547v1 )

ライセンス: Link先を確認
Lucas Queiroz, Edson C. M. Nogueira, Danilo T. Alves(参考訳) 異方性偏光性粒子と、半径$R$の半球状隆起をもつ完全導電面との間の側方ファンデルワールス(vdW)力について検討した。 我々は、正確な計算によって、ある状況において、この力は進行方向を指さなくても反対方向を指しているという意味で、横方向のvdW力の符号反転を予測する。 文献では, 粒子と平面との間の距離$z_0$と比較した場合, プロトゥランスの高さが非常に小さい場合に有効となる摂動解に基づいて, 横方向vdw力における符号反転の予測を行った。 ここでは、正確な式を考慮すると、そのような非自明な幾何効果が$R/z_0$の比と、粒子配向と異方性がこの符号反転にどのように影響するかを考察する。

We investigate the lateral van der Waals (vdW) force between an anisotropic polarizable particle and a perfectly conducting plane with a hemispherical protuberance with radius $R$. We predict, via an exact calculation, a sign inversion in the lateral vdW force, in the sense that, instead of pointing to the protuberance, in certain situations this force points to the opposite direction. In the literature, predictions of sign inversions in the lateral vdW force were based on perturbative solutions, valid when the height of the protuberance is very small when compared to the distance $z_0$ between the particle and the plane. Here, taking into account exact formulas, we investigate how such nontrivial geometric effect depends on the ratio $R/z_0$, and how the particle orientation and anisotropy affect this sign inversion.
翻訳日:2023-01-28 06:29:32 公開日:2022-09-01
# 量子混合状態コンパイル

Quantum Mixed State Compiling ( http://arxiv.org/abs/2209.00528v1 )

ライセンス: Link先を確認
Nic Ezzell, Elliott M. Ball, Aliza U. Siddiqui, Mark M. Wilde, Andrew T. Sornborger, Patrick J. Coles, Zo\"e Holmes(参考訳) 与えられた混合状態を作成するために量子回路を学ぶタスクは、基本的な量子サブルーチンである。 本稿では,短期ハードウェアに適した混合状態を学習するための変分量子アルゴリズム(VQA)を提案する。 本アルゴリズムは、純粋状態のための準備回路の学習を目的とした従来のVQAの一般化を表す。 対象状態のコンパイルには2つの異なるans\"{a}tzeを考える。1つは状態の浄化を学習すること、もう1つは純粋状態の凸結合として表現することである。 どちらの場合も、コンパイルされた状態の保存と操作に必要なリソースは近似のランクで増加する。 したがって、対象状態の下位近似を学習することにより、より効率的な処理のために状態を圧縮する方法を提供する。 アルゴリズムの副産物として、ターゲット状態の主成分を効果的に学習し、そのアルゴリズムはさらに主成分分析の新しい方法を提供する。 提案アルゴリズムの有効性を数値解析により検証し,多くの身体系の典型的ランダム状態と熱状態がこの方法で学習可能であることを示す。 さらに,量子ハードウェア上では,ハードウェアノイズ誘起状態の研究にアルゴリズムをどのように利用できるかを実証する。

The task of learning a quantum circuit to prepare a given mixed state is a fundamental quantum subroutine. We present a variational quantum algorithm (VQA) to learn mixed states which is suitable for near-term hardware. Our algorithm represents a generalization of previous VQAs that aimed at learning preparation circuits for pure states. We consider two different ans\"{a}tze for compiling the target state; the first is based on learning a purification of the state and the second on representing it as a convex combination of pure states. In both cases, the resources required to store and manipulate the compiled state grow with the rank of the approximation. Thus, by learning a lower rank approximation of the target state, our algorithm provides a means of compressing a state for more efficient processing. As a byproduct of our algorithm, one effectively learns the principal components of the target state, and hence our algorithm further provides a new method for principal component analysis. We investigate the efficacy of our algorithm through extensive numerical implementations, showing that typical random states and thermal states of many body systems may be learnt this way. Additionally, we demonstrate on quantum hardware how our algorithm can be used to study hardware noise-induced states.
翻訳日:2023-01-28 06:29:14 公開日:2022-09-01
# シリカナノ粒子の真空中でのドライローンチ

Dry launching of silica nanoparticles in vacuum ( http://arxiv.org/abs/2209.00482v1 )

ライセンス: Link先を確認
Ayub Khodaee, Kahan Dare, Aisling Johnson, Uro\v{s} Deli\'c, Markus Aspelmeyer(参考訳) 超高真空下での浮遊光力学の実験には、半径50nm程度のシリカナノ粒子のクリーンロードが必要である。 本稿では, ポリテトラフルオロエチレン (ptfe) 表面の振動によるシリカナノ粒子の乾式打ち上げのための安価で簡単な実験方法を提案する。 本報告では, 最低半径43nmの単一シリカナノ粒子の打ち上げに成功したことを報告する。 43nmと71.5nmのラジイを持つナノ粒子は、高フラックスで小さな角展開の$\sim \pm 10^\circ$で打ち上げられる。 測定速度は1m/sよりかなり小さい。 実演した発射法では、(ウルトラ)高真空中の光学トラップに43nm程度の半径の乾式ナノ粒子を添加することができるが、より小型のナノ粒子のロードも同様に実現可能であると予測している。

Clean loading of silica nanoparticles with a radius as small as ~50 nm is required for experiments in levitated optomechanics that operate in ultra-high vacuum. We present a cheap and simple experimental method for dry launching of silica nanoparticles by shaking from a polytetrafluoroethylene (PTFE) surface. We report on the successful launching of single silica nanoparticles with a minimum radius of 43 nm, which is enabled by the low stiction to the launching surface. Nanoparticles with radii of 43 nm and 71.5 nm are launched with a high flux and small angular spread of $\sim \pm 10^\circ$, which allows for trapping in a tightly focused optical tweezer within a couple of minutes. The measured velocities are significantly smaller than 1 m/s. The demonstrated launching method allows for controlled loading of dry nanoparticles with radii as small as 43 nm into optical traps in (ultra-)high vacuum, although we anticipate that loading of smaller sizes is equally feasible.
翻訳日:2023-01-28 06:28:46 公開日:2022-09-01
# マイクロマニピュレーションによるスーパーキックと運動量密度試験

Superkicks and momentum density tests via micromanipulation ( http://arxiv.org/abs/2209.15387v1 )

ライセンス: Link先を確認
Andrei Afanasev (George Washington Univ.), Carl E. Carlson (William & Mary), and Asmita Mukherjee (I.I.T., Bombay)(参考訳) 電磁場の局所運動量密度と角運動量密度(あるいは実際には任意の非スカラー場の)の正しい表現を選択するには、未解決の問題がある。 平面波のみを調べる場合、問題はmootであり、既知の表現は全て同じ結果を与える。 運動量と角運動量密度の式は一般にエネルギー-運動量テンソルから得られ、ラグランジアンから得られる。 正準手順によって得られる電磁力学式は、対称ベリンファント再構成と同じではない。 物質の構造光との相互作用、例えばねじれた光子では、これは重要である。小さなテスト対象に対して引き起こされる力と角モーメントの予測は、大きく異なる。 効果の大きさを数値的に見積もって、2つの予測を検証できる状況を示す。

There is an unsettled problem in choosing the correct expressions for the local momentum density and angular momentum density of electromagnetic fields (or indeed, of any non-scalar field). If one only examines plane waves, the problem is moot, as the known possible expressions all give the same result. The momentum and angular momentum density expressions are generally obtained from the energy-momentum tensor, in turn obtained from a Lagrangian. The electrodynamic expressions obtained by the canonical procedure are not the same as the symmetric Belinfante reworking. For the interaction of matter with structured light, for example, twisted photons, this is important; there are drastically different predictions for forces and angular momenta induced on small test objects. We show situations where the two predictions can be checked, with numerical estimates of the size of the effects.
翻訳日:2023-01-28 06:22:26 公開日:2022-09-01
# 測定結果の系と測定器間の量子コヒーレント相互作用のダイナミクス依存性

Dependence of measurement outcomes on the dynamics of quantum coherent interactions between the system and the meter ( http://arxiv.org/abs/2209.00751v1 )

ライセンス: Link先を確認
Tomonori Matsushita and Holger F. Hofmann(参考訳) システムの内部特性に関する情報は、システムと外部メーターの相互作用によってのみ得ることができる。 しかしながら、そのような相互作用は一般にシステムとメーターの間の絡み合いをもたらすため、測定結果をシステムの物理的性質の特定の値に遡ることが困難である。 したがって、量子測定の結果は測定相互作用の力学に非自明な方法で依存しており、量子力学における測定コンテキストの役割について物理的に説明できる可能性がある。 ここでは,計測相互作用が測定値に与える影響を,系のバックアクションに伴う量子コヒーレント系のダイナミクスの観点から完全に説明できることを示す。 十分に小さなバックアクションの不確かさに対して、系の物理的性質はバックアクションダイナミクスのハミルトン・ジャコビ方程式から得られる弱い値によって記述される。 高い測定解像度では、観測された値は異なる量のバックアクションの間の量子干渉によって決定される。 固有値は、異なるバックアクション間の量子干渉がバックアクションパラメータのフーリエ変換に対応するときに現れる。 量子測定で得られた物理特性の値は、相互作用中にその物理特性によって生成されるバックアクションダイナミクスの量子コヒーレントな性質に由来すると結論付ける。 測定結果はダイナミクスの要素を表しており、現実の独立した要素の測定では説明できない。

Information about the internal properties of a system can only be obtained through interactions of the system with an external meter. However, such interactions generally result in entanglement between the system and the meter, making it difficult to trace the measurement result back to a specific value of the physical property in the system. It is therefore possible that the outcomes of quantum measurements depend in a non-trivial manner on the dynamics of the measurement interaction, possibly providing a physical explanation for the role of measurement contexts in quantum mechanics. Here, we show that the effects of the measurement interaction on the meter can be described entirely in terms of the quantum coherent system dynamics associated with the back-action on the system. For sufficiently small back-action uncertainties, the physical property of the system is described by a weak value obtained from the Hamilton-Jacobi equation of the back-action dynamics. At higher measurement resolutions, the observed values are determined by quantum interferences between different amounts of back-action. Eigenvalues emerge when the quantum interferences between different back-actions correspond to a Fourier transform in the back-action parameter. We conclude that the values of physical properties obtained in quantum measurements originate from the quantum coherent properties of the back-action dynamics generated by that physical property during an interaction. Measurement outcomes represent elements of the dynamics and cannot be explained by measurement independent elements of reality.
翻訳日:2023-01-28 06:21:50 公開日:2022-09-01
# メカニカルタスクにおける量子超越性:発射体、ロケット、量子バックフロー

Quantum supremacy in mechanical tasks: projectiles, rockets and quantum backflow ( http://arxiv.org/abs/2209.00725v1 )

ライセンス: Link先を確認
David Trillo, Thinh P. Le and Miguel Navascues(参考訳) 非相対論的な一次元量子粒子が空間のある有界領域で準備され、自由に伝播するシナリオを考える。 一定時間経過した後、粒子が離れた目標領域に到達したかどうかを確認する。 我々は、同じ運動量分布を持つどの古典的な系よりも到着確率が大きい「超高速(ultrafast)」量子状態が存在することを発見した。 量子と最適の到達確率、および自己推進粒子やロケットの最大差は、1969$で導入されたブラッケン・メロイ定数 $c_{bm}$ によって制限され、量子バックフローとして知られる現象の最大表現を特徴付けることが証明される。 この数学的対応は、量子優位性を持つ他の力学的効果の例にまで拡張され、その研究は、最初の厳密な上界$c_{bm} \leq 0.0725$から導かれる。 また、c_{bm}$ によって与えられるハードリミットは、元の射影シナリオの変種において克服可能であることを証明している: 古典粒子が持つ必要のある場合、量子粒子と同じ運動量分布だけでなく、同じ位置分布でも、到達確率の差は 0.228$ に達する。

We consider a scenario where a non-relativistic one-dimensional quantum particle is prepared in some bounded region of space and left to propagate freely. After a certain amount of time, we check if the particle has reached some distant target region. We find that there exist "ultrafast" ("ultraslow") quantum states, whose probability of arrival is greater (smaller) than that of any classical system prepared in the same region with the same momentum distribution. We prove that the maximum possible difference between quantum and optimal classical arrival probabilities for projectiles, as well as for self-propelling particles or rockets, is limited by the Bracken-Melloy constant $c_{bm}$, introduced in $1969$ to characterize the maximum expression of the phenomenon known as quantum backflow. This mathematical correspondence extends to other examples of mechanical effects with a quantum advantage, whose study we advance by deriving the first rigorous upper bound $c_{bm} \leq 0.0725$. We also prove that the hard limit given by $c_{bm}$ can be overcome in a variant of the original projectile scenario: if the classical particle is required to possess, not just the same momentum distribution as the quantum particle, but also the same position distribution, then the difference between arrival probabilities can reach $0.1228$.
翻訳日:2023-01-28 06:21:34 公開日:2022-09-01
# ケル中間体存在下での単一モードキャビティ場と相互作用する3レベルルビジウム原子の移動

A Moving Three Level Lambda Rubidium Atom Interacting with a Single Mode Cavity Field in the Presence of Kerr Medium ( http://arxiv.org/abs/2209.00704v1 )

ライセンス: Link先を確認
Ahmed Salah and N. H. Abd El-Wahab(参考訳) 移動する3レベルラムダルビジウム原子と単一モードキャビティフィールドとの相互作用について,kerr様媒質の存在下で検討した。 原子系の運動の基本方程式を導出し、回転波近似 (rwa) で正確に解くことができることを示した。 本システムの運動量増分,運動量拡散およびマンデルqパラメータについて検討した。 我々は,Kerr-like媒質が,運動量固有状態と圧縮状態の場で原子が最初に調製された正確な共振器および非共振器の過去の統計特性の進化に与える影響を数値的に検討した。 ケラー媒質は、その進化に重要な影響を与えることが判明した。 最後に、結論と議論が行われる。

We study the interaction between a moving three-level lambda rubidium atom and a single mode cavity field in the presence of Kerr-like medium. We derive the basic equations of motion for atomic system and show that it is exactly solvable in the rotating wave approximation (RWA). The momentum increment, the momentum diffusion and the Mandel Q parameter of this system are studied. We investigate numerically the influence of Kerr-Like medium on the evolution of the previous statistical properties in the exact resonate and nonresonate case where the atom is initially prepared in a momentum eigenstate and the field in the squeezed state. It is found that the Kerr medium has an important effect on their evolution. Finally, conclusion and discussion are given.
翻訳日:2023-01-28 06:21:09 公開日:2022-09-01
# 量子電気力学時間依存性密度汎関数理論への実空間リアルタイムアプローチ

Real-Space, Real-Time Approach to Quantum-Electrodynamical Time-Dependent Density Functional Theory ( http://arxiv.org/abs/2209.00691v1 )

ライセンス: Link先を確認
Justin Malave, Alexander Ahrens, Daniel Pitagora, Cody Covington, and K\'alm\'an Varga(参考訳) QED-TDDFT(Quantum-Electrodynamical Time-Dependent Density Functional Theory)方程式は、フォック空間および実空間格子のテンソル積上の波動関数の伝播時間によって解かれる。 キャビティ内の分子の応用は、アプローチの精度を示している。 例えば、エネルギーの結合強度と光周波数依存性、波動関数、光吸収スペクトル、キャビティにおけるラビ分割等があり、またキャビティにおける高調波発生について記述している。

The Quantum-Electrodynamical Time-Dependent Density Functional Theory (QED-TDDFT) equations are solved by time propagating the wave function on a tensor product of a Fock-space and real-space grid. Applications for molecules in cavities show the accuracy of the approach. Examples include the coupling strength and light frequency dependence of the energies, wave functions, optical absorption spectra, and Rabi splitting magnitudes in cavities, as well as a description of high harmonic generation in cavities.
翻訳日:2023-01-28 06:20:43 公開日:2022-09-01
# 二層グラフェンの多光子コヒーレント状態

Multiphoton coherent states for bilayer graphene ( http://arxiv.org/abs/2209.00690v1 )

ライセンス: Link先を確認
David J. Fern\'andez C. and Dennis I. Mart\'inez-Moreno(参考訳) 多光子コヒーレント状態(コヒーレントサテライトへの一般化)は、二層表面と直交する一定の均一な均一磁場中に置かれた二層グラフェン中の電子に対して導出される。 この目的のために一般化消滅作用素は、複素固有値を持つ作用素の固有状態として多光子コヒーレント状態を決定するために構成される。 さらに、ハイゼンベルクの不確実性関係、確率密度、平均エネルギー値など、これらの状態に対していくつかの物理量を計算する。 最後に,システムのダイナミクスを研究するために,時間発展を探究し,時間相関関数を計算した。

The multiphoton coherent states, a generalization to coherent sates, are derived for electrons in bilayer graphene placed in a constant homogeneous magnetic field which is orthogonal to the bilayer surface. For that purpose a generalized annihilation operator is constructed in order to determine the multiphoton coherent states as eigenstates of such operator with complex eigenvalue. In addition, some physical quantities are calculated for these states, as the Heisenberg uncertainty relation, probability density and mean energy value. Finally, in order to study the dynamics of the system the time evolution is explored and the time-correlation function is computed.
翻訳日:2023-01-28 06:20:33 公開日:2022-09-01
# エンタングルメントに基づく短期量子ハードウェアの体積ベンチマーク

An entanglement-based volumetric benchmark for near-term quantum hardware ( http://arxiv.org/abs/2209.00678v1 )

ライセンス: Link先を確認
Kathleen E. Hamilton, Nouamane Laanait, Akhil Francis, Sophia E. Economou, George S. Barron, K\"ubra Yeter-Aydeniz, Titus Morris, Harrison Cooley, Muhun Kang, Alexander F. Kemper, and Raphael Pooser(参考訳) グラフ状態と直接安定化器測定を用いたn-量子ビット間の真の絡み合いの生成と検証に基づく、短期量子プラットフォームのためのボリュームベンチマークを提案する。 本ベンチマークでは,マルチパーティタイトおよびバイパートナイトnビットの絡み合いの頑健さをハードウェアノイズの多くの源であるqubit decoherence,CNOT,スワップゲートノイズ,読み出し誤差について評価する。 我々はIBMから利用可能な複数の超伝導量子ビットプラットフォーム(ibmq_belem, ibmq_toronto, ibmq_guadalupe, ibmq_jakarta)についてベンチマークを行った。 n<10$ qubits の部分集合はグラフ状態の準備と安定化測定に使用される。 本報告では, 5 キュービットの真の絡み合いの観測を報告するが, 頑健な多部絡み合いは$n>4 キュービットで生成することは困難であり, 2 キュービットのゲートノイズは, 真の多部絡み合いの質と強く相関している。

We introduce a volumetric benchmark for near-term quantum platforms based on the generation and verification of genuine entanglement across n-qubits using graph states and direct stabilizer measurements. Our benchmark evaluates the robustness of multipartite and bipartite n-qubit entanglement with respect to many sources of hardware noise: qubit decoherence, CNOT and swap gate noise, and readout error. We demonstrate our benchmark on multiple superconducting qubit platforms available from IBM (ibmq_belem, ibmq_toronto, ibmq_guadalupe and ibmq_jakarta). Subsets of $n<10$ qubits are used for graph state preparation and stabilizer measurement. Evaluation of genuine and biseparable entanglement witnesses we report observations of $5$ qubit genuine entanglement, but robust multipartite entanglement is difficult to generate for $n>4$ qubits and identify two-qubit gate noise as strongly correlated with the quality of genuine multipartite entanglement.
翻訳日:2023-01-28 06:20:22 公開日:2022-09-01
# 教師付き表現学習のための深度低減

Deep Dimension Reduction for Supervised Representation Learning ( http://arxiv.org/abs/2006.05865v3 )

ライセンス: Link先を確認
Jian Huang, Yuling Jiao, Xu Liao, Jin Liu, Zhou Yu(参考訳) 教師付き表現学習の目的は、予測のための効果的なデータ表現を構築することである。 高次元複素データの理想的な非パラメトリック表現のすべての特徴の中で、十分性、低次元性、および非絡み合いが最も不可欠である。 これらの特徴を持つ表現を学習するための深次元化手法を提案する。 提案手法は, 十分次元還元法の非パラメトリック一般化である。 我々は、条件付き独立性を特徴付ける目的関数を最小化し、人口レベルでの混乱を促進する非パラメトリック表現を見つけるための理想表現学習タスクを定式化する。 次に、ディープニューラルネットワークを用いて非パラメトリックなサンプルレベルでターゲット表現を推定する。 推定された深い非パラメトリック表現は、その過剰なリスクがゼロに収束するという意味で一貫していることを示す。 シミュレーションおよび実際のベンチマークデータを用いた広範囲な数値実験により,提案手法は,既存の次元縮小法や標準ディープラーニングモデルよりも,分類と回帰の文脈で優れた性能を示す。

The goal of supervised representation learning is to construct effective data representations for prediction. Among all the characteristics of an ideal nonparametric representation of high-dimensional complex data, sufficiency, low dimensionality and disentanglement are some of the most essential ones. We propose a deep dimension reduction approach to learning representations with these characteristics. The proposed approach is a nonparametric generalization of the sufficient dimension reduction method. We formulate the ideal representation learning task as that of finding a nonparametric representation that minimizes an objective function characterizing conditional independence and promoting disentanglement at the population level. We then estimate the target representation at the sample level nonparametrically using deep neural networks. We show that the estimated deep nonparametric representation is consistent in the sense that its excess risk converges to zero. Our extensive numerical experiments using simulated and real benchmark data demonstrate that the proposed methods have better performance than several existing dimension reduction methods and the standard deep learning models in the context of classification and regression.
翻訳日:2022-11-23 04:40:42 公開日:2022-09-01
# 予測・制御のための画像からのラグランジアンダイナミクスの教師なし学習

Unsupervised Learning of Lagrangian Dynamics from Images for Prediction and Control ( http://arxiv.org/abs/2007.01926v3 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Naomi Ehrich Leonard(参考訳) ニューラルネットワークを用いた物理系のモデリングの最近のアプローチは、予測と一般化を改善するためにラグランジアン構造やハミルトン構造を適用している。 しかし、座標が画像などの高次元データに埋め込まれている場合、これらの手法は解釈可能性を失うか、特定の例にのみ適用できる。 我々は、イメージからラグランジアン力学を学習し、予測と制御の恩恵を受けることができる新しい教師なしニューラルネットワークモデルを導入する。 このモデルは、座標認識型変分オートエンコーダ(vae)で同時に学習される一般化座標のラグランジアンダイナミクスを推定する。 vaeは、平面内の複数の剛体からなる物理系の形状を説明するために設計された。 解釈可能なラグランジュ力学を推定することにより、モデルは運動学やポテンシャルエネルギーといった物理系の特性を学習し、画像空間におけるダイナミクスの長期予測とエネルギーベースの制御器の合成を可能にする。

Recent approaches for modelling dynamics of physical systems with neural networks enforce Lagrangian or Hamiltonian structure to improve prediction and generalization. However, when coordinates are embedded in high-dimensional data such as images, these approaches either lose interpretability or can only be applied to one particular example. We introduce a new unsupervised neural network model that learns Lagrangian dynamics from images, with interpretability that benefits prediction and control. The model infers Lagrangian dynamics on generalized coordinates that are simultaneously learned with a coordinate-aware variational autoencoder (VAE). The VAE is designed to account for the geometry of physical systems composed of multiple rigid bodies in the plane. By inferring interpretable Lagrangian dynamics, the model learns physical system properties, such as kinetic and potential energy, which enables long-term prediction of dynamics in the image space and synthesis of energy-based controllers.
翻訳日:2022-11-14 05:12:29 公開日:2022-09-01
# 最適な近似が簡単になる

Optimal Approximations Made Easy ( http://arxiv.org/abs/2008.08970v3 )

ライセンス: Link先を確認
M\'onika Csik\'os and Nabil H. Mustafa(参考訳) li、long、srinivasanによる集合系の近似の基本的な結果は、学習理論、アルゴリズム、計算幾何学、組合せ論、データ解析など、いくつかのコミュニティで重要なツールとなっている。 本稿の目的は、有限集合系に対してモジュラーで自己完結した直感的な証明を提供することである。 私たちが想定する唯一の成分は、標準チャーノフ濃度境界である。 これにより、この証明は、統計的学習理論のテクニックに詳しくない読者や、幾何学、アルゴリズム、コンビネータのコースにおいて、単一の自己完結した講義でカバーできるようになる。

The fundamental result of Li, Long, and Srinivasan on approximations of set systems has become a key tool across several communities such as learning theory, algorithms, computational geometry, combinatorics and data analysis. The goal of this paper is to give a modular, self-contained, intuitive proof of this result for finite set systems. The only ingredient we assume is the standard Chernoff's concentration bound. This makes the proof accessible to a wider audience, readers not familiar with techniques from statistical learning theory, and makes it possible to be covered in a single self-contained lecture in a geometry, algorithms or combinatorics course.
翻訳日:2022-10-27 03:14:08 公開日:2022-09-01
# Vaguenessの最適性について:"Around"、"Between"および"Gricean Maxims"について

On the Optimality of Vagueness: "Around", "Between", and the Gricean Maxims ( http://arxiv.org/abs/2008.11841v4 )

ライセンス: Link先を確認
Paul Egr\'e, Benjamin Spector, Ad\`ele Mortier, Steven Verheyen(参考訳) なぜ普通の言語はあいまいなのか? 協調話者が世界について完全には知らされない文脈において、あいまいな表現を使うことは、真理性(gricean quality)と情報性(gricean quantity)の最適なトレードオフをもたらすと論じる。 意味的に曖昧な"around"のような近似の表現に着目して,話者が間接的確率的情報を伝達できることを示す。 つまり、曖昧な文は、正確な文よりもより情報的になる。 我々は,「アラウンド」の解釈を確率論的に処理し,Rational Speech Act(RSA)フレームワーク内での「アラウンド」ステートメントの解釈と使用のモデルを提供する。 本報告では,話者分布の形状は,曖昧な述語のためのrsaフレームワークで標準的に使用される語彙的不確実性モデルでは予測できない方法で問題となる。 提案手法は,曖昧な表現の意味的柔軟性と,そのより正確な意味への既約性に関するさらなる教訓を導き出す。

Why is ordinary language vague? We argue that in contexts in which a cooperative speaker is not perfectly informed about the world, the use of vague expressions can offer an optimal tradeoff between truthfulness (Gricean Quality) and informativeness (Gricean Quantity). Focusing on expressions of approximation such as "around", which are semantically vague, we show that they allow the speaker to convey indirect probabilistic information, in a way that can give the listener a more accurate representation of the information available to the speaker than any more precise expression would (intervals of the form "between"). That is, vague sentences can be more informative than their precise counterparts. We give a probabilistic treatment of the interpretation of "around", and offer a model for the interpretation and use of "around"-statements within the Rational Speech Act (RSA) framework. In our account the shape of the speaker's distribution matters in ways not predicted by the Lexical Uncertainty model standardly used in the RSA framework for vague predicates. We use our approach to draw further lessons concerning the semantic flexibility of vague expressions and their irreducibility to more precise meanings.
翻訳日:2022-10-24 21:39:19 公開日:2022-09-01
# metatrader:ポートフォリオ最適化のための多様なポリシーを統合する強化学習アプローチ

MetaTrader: An Reinforcement Learning Approach Integrating Diverse Policies for Portfolio Optimization ( http://arxiv.org/abs/2210.01774v1 )

ライセンス: Link先を確認
Hui Niu, Siyuan Li, Jian Li(参考訳) ポートフォリオ管理は金融の基本的な問題である。 資産を定期的に再配置し、適切なレベルのリスク露光で期待されるリターンを最大化する。 深層強化学習(RL)は、シーケンシャルな意思決定における強力な能力のため、この問題を解決するための有望なアプローチと考えられている。 しかし、金融市場の非定常的な性質のため、ポートフォリオ最適化にRL技術を適用することは難しい問題である。 様々な専門家戦略から取引知識を抽出することは、市場の変化に対応するエージェントにとって有用である。 本稿では,ポートフォリオ管理のための新たな2段階RLベースのアプローチであるMetaTraderを提案する。 第一段階では、MetaTraderは強化学習フレームワークに模倣学習の目的を取り入れている。 さまざまな専門家のデモを真似て、metatraderは多様な貿易政策を獲得した。 第二段階では、MetaTraderはメタ政治を学び、市場状況を認識し、最も適切な学習方針を決定する。 提案手法を実世界の3つの指標データセットで評価し,それを最先端のベースラインと比較する。 実験の結果,メタトラダは利益とリスクのバランスにおいて,これらのベースラインを著しく上回っていることがわかった。 さらに, 徹底的なアブレーション研究により, 提案手法における成分の有効性が検証された。

Portfolio management is a fundamental problem in finance. It involves periodic reallocations of assets to maximize the expected returns within an appropriate level of risk exposure. Deep reinforcement learning (RL) has been considered a promising approach to solving this problem owing to its strong capability in sequential decision making. However, due to the non-stationary nature of financial markets, applying RL techniques to portfolio optimization remains a challenging problem. Extracting trading knowledge from various expert strategies could be helpful for agents to accommodate the changing markets. In this paper, we propose MetaTrader, a novel two-stage RL-based approach for portfolio management, which learns to integrate diverse trading policies to adapt to various market conditions. In the first stage, MetaTrader incorporates an imitation learning objective into the reinforcement learning framework. Through imitating different expert demonstrations, MetaTrader acquires a set of trading policies with great diversity. In the second stage, MetaTrader learns a meta-policy to recognize the market conditions and decide on the most proper learned policy to follow. We evaluate the proposed approach on three real-world index datasets and compare it to state-of-the-art baselines. The empirical results demonstrate that MetaTrader significantly outperforms those baselines in balancing profits and risks. Furthermore, thorough ablation studies validate the effectiveness of the components in the proposed approach.
翻訳日:2022-10-09 17:25:09 公開日:2022-09-01
# スマートビルにおける物理安全のための低コストマルチエージェントシステム

A Low-Cost Multi-Agent System for Physical Security in Smart Buildings ( http://arxiv.org/abs/2209.00741v1 )

ライセンス: Link先を確認
Tiago Fonseca, Tiago Dias, Jo\~ao Vitorino, Lu\'is Lino Ferreira, Isabel Pra\c{c}a(参考訳) 現代の組織は、火災の危険から監視や不正な人員に関するより複雑な懸念まで、多くの物理的なセキュリティの脅威に直面しています。 従来のスタンドアローンの火災および侵入検知ソリューションは独立して設置し維持する必要があるため、資本と運用コストが高くなる。 しかしながら、近年のスマートセンサー、コンピュータビジョン技術、無線通信技術の発展により、これらのソリューションはモジュール化された低コストで統合することができる。 Integrated Physical Security System (IP2S)は、多様なモノのインターネット(IoT)センサーとアクチュエータを協調して複数の物理的セキュリティイベントを効率的に緩和できるマルチエージェントシステムである。 提案システムは,4つの異なるセクター,2つの監視カメラ,および消防ロボットを用いて,産業用店床環境における火災と侵入検知を組み合わせた実例実験で検証した。 実験の結果、単一の自動化システムに複数のイベントを統合することは、スマートな建物のセキュリティに有利であり、誤報や遅延を低減できることが示された。

Modern organizations face numerous physical security threats, from fire hazards to more intricate concerns regarding surveillance and unauthorized personnel. Conventional standalone fire and intrusion detection solutions must be installed and maintained independently, which leads to high capital and operational costs. Nonetheless, due to recent developments in smart sensors, computer vision techniques, and wireless communication technologies, these solutions can be integrated in a modular and low-cost manner. This work introduces Integrated Physical Security System (IP2S), a multi-agent system capable of coordinating diverse Internet of Things (IoT) sensors and actuators for an efficient mitigation of multiple physical security events. The proposed system was tested in a live case study that combined fire and intrusion detection in an industrial shop floor environment with four different sectors, two surveillance cameras, and a firefighting robot. The experimental results demonstrate that the integration of several events in a single automated system can be advantageous for the security of smart buildings, reducing false alarms and delays.
翻訳日:2022-10-02 23:57:29 公開日:2022-09-01
# 量子ランドスケープにおける非自明対称性とその量子ノイズに対するレジリエンス

Non-trivial symmetries in quantum landscapes and their resilience to quantum noise ( http://arxiv.org/abs/2011.08763v3 )

ライセンス: Link先を確認
Enrico Fontana, M. Cerezo, Andrew Arrasmith, Ivan Rungger, Patrick J. Coles(参考訳) パラメトリズド量子回路(pqcs)のコストの展望についてはほとんど知られていない。 それでも、PQCは量子ニューラルネットワークや変分量子アルゴリズムで採用されており、短期的な量子優位性を実現することができる。 このようなアプリケーションは、PQCのトレーニングに優れたオプティマイザを必要とする。 最近の研究は、特にPQCに適した量子認識オプティマイザに焦点を当てている。 しかし、コスト環境の無知は、そのような最適化への進歩を妨げる可能性がある。 本研究では,(1)PQCsにおいて指数関数的に大きな対称性が見出され,コストランドスケープにおける最小値の指数関数的に大きな縮退性が得られることを示す。 あるいは、これは関連する超パラメータ空間の体積の指数関数的減少としてキャストできる。 2) 雑音下での対称性のレジリエンスについて検討し, 単位雑音下で保存されているが, 非単位チャネルはこれらの対称性を破り, ミニマの退化を誘発し, 複数の局所ミニマを発生させることを示す。 これらの結果に基づいて,PQCの基盤となる対称性を利用するSymmetry-based Minima Hopping (SYMH) という最適化手法を提案する。 シミュレーションにより、SYMHは、現在のハードウェアに匹敵するレベルの非単体ノイズの存在下で、全体的な最適化性能を向上させることを示す。 本研究は,局所ゲート変換から大規模回路対称性を導出し,雑音を考慮した最適化手法を構築する。

Very little is known about the cost landscape for parametrized Quantum Circuits (PQCs). Nevertheless, PQCs are employed in Quantum Neural Networks and Variational Quantum Algorithms, which may allow for near-term quantum advantage. Such applications require good optimizers to train PQCs. Recent works have focused on quantum-aware optimizers specifically tailored for PQCs. However, ignorance of the cost landscape could hinder progress towards such optimizers. In this work, we analytically prove two results for PQCs: (1) We find an exponentially large symmetry in PQCs, yielding an exponentially large degeneracy of the minima in the cost landscape. Alternatively, this can be cast as an exponential reduction in the volume of relevant hyperparameter space. (2) We study the resilience of the symmetries under noise, and show that while it is conserved under unital noise, non-unital channels can break these symmetries and lift the degeneracy of minima, leading to multiple new local minima. Based on these results, we introduce an optimization method called Symmetry-based Minima Hopping (SYMH), which exploits the underlying symmetries in PQCs. Our numerical simulations show that SYMH improves the overall optimizer performance in the presence of non-unital noise at a level comparable to current hardware. Overall, this work derives large-scale circuit symmetries from local gate transformations, and uses them to construct a noise-aware optimization method.
翻訳日:2022-09-24 16:31:25 公開日:2022-09-01
# SkeletonMAE:自己教師型骨格行動認識のための時空間マスケ自動エンコーダ

SkeletonMAE: Spatial-Temporal Masked Autoencoders for Self-supervised Skeleton Action Recognition ( http://arxiv.org/abs/2209.02399v1 )

ライセンス: Link先を確認
Wenhan Wu, Yilei Hua, Ce zheng, Shiqian Wu, Chen Chen, Aidong Lu(参考訳) 完全な教師付きスケルトンベースのアクション認識は、ディープラーニング技術の出現によって大きな進歩を遂げている。 しかし、これらの手法は容易には得られない十分なラベル付きデータを必要とする。 対照的に、自己監督型骨格に基づく行動認識はより注目を集めている。 ラベルなしデータを利用することで、オーバーフィッティング問題を緩和し、大量のラベル付きトレーニングデータの需要を減らすために、より一般化可能な特徴を学ぶことができる。 MAEにインスパイアされた自己教師型3次元骨格に基づく行動認識(SkeletonMAE)のための空間時間マスク付きオートエンコーダフレームワークを提案する。 MAEのマスキングおよび再構成パイプラインに続いて,スケルトンをベースとしたエンコーダ・デコーダ・トランスフォーマアーキテクチャを用いて,マスクしたスケルトン配列を再構成する。 骨格配列の結合レベルとフレームレベルの両方の観点から,空間的マスキングと呼ばれる新しいマスキング戦略を導入する。 この事前学習戦略は、エンコーダ出力を空間的および時間的依存関係を持つ一般化可能なスケルトン特徴にする。 未マスクのスケルトンシーケンスが与えられると、エンコーダはアクション認識タスクのために微調整される。 我々のSkeletonMAEは、NTU RGB+DおよびNTU RGB+D 120データセットの最先端手法よりも優れた性能を示す。

Fully supervised skeleton-based action recognition has achieved great progress with the blooming of deep learning techniques. However, these methods require sufficient labeled data which is not easy to obtain. In contrast, self-supervised skeleton-based action recognition has attracted more attention. With utilizing the unlabeled data, more generalizable features can be learned to alleviate the overfitting problem and reduce the demand of massive labeled training data. Inspired by the MAE, we propose a spatial-temporal masked autoencoder framework for self-supervised 3D skeleton-based action recognition (SkeletonMAE). Following MAE's masking and reconstruction pipeline, we utilize a skeleton based encoder-decoder transformer architecture to reconstruct the masked skeleton sequences. A novel masking strategy, named Spatial-Temporal Masking, is introduced in terms of both joint-level and frame-level for the skeleton sequence. This pre-training strategy makes the encoder output generalizable skeleton features with spatial and temporal dependencies. Given the unmasked skeleton sequence, the encoder is fine-tuned for the action recognition task. Extensive experiments show that our SkeletonMAE achieves remarkable performance and outperforms the state-of-the-art methods on both NTU RGB+D and NTU RGB+D 120 datasets.
翻訳日:2022-09-11 13:10:18 公開日:2022-09-01
# YouTubeと科学:研究への影響モデル

YouTube and Science: Models for Research Impact ( http://arxiv.org/abs/2209.02380v1 )

ライセンス: Link先を確認
Abdul Rahman Shaikh, Hamed Alhoori, Maoyuan Sun(参考訳) YouTubeはユーザーが投稿し、発見し、共有し、ビデオに反応できるメディアを提供している。 研究論文を引用するビデオの数も増加しており、特にビデオ提出を必要とする学術会議が比較的一般的になっているためである。 しかし,研究記事とYouTubeビデオの関係は明確ではなく,本論文の目的はこの問題に対処することである。 YouTubeのビデオと、さまざまなオンラインプラットフォームに関する研究論文の言及を使って、新しいデータセットを作成しました。 ビデオで引用された記事のほとんどは、医学と生化学に関連していることがわかった。 これらのデータセットを統計的手法と可視化を用いて分析し,(1)ビデオに研究論文が引用されているか,(2)ビデオに引用された研究論文が人気レベルに達するか,(3)研究論文を引用するビデオが人気になるかを予測するために,機械学習モデルを構築した。 ベストモデルはF1得点の80%から94%を達成した。 調査結果によると、より多くのツイートやニュースで言及されている研究記事は、ビデオの引用を受ける確率が高い。 また, 引用の予測, 研究論文の人気向上, 科学への公的な関与等において, ビデオビューが重要であることも分かった。

Video communication has been rapidly increasing over the past decade, with YouTube providing a medium where users can post, discover, share, and react to videos. There has also been an increase in the number of videos citing research articles, especially since it has become relatively commonplace for academic conferences to require video submissions. However, the relationship between research articles and YouTube videos is not clear, and the purpose of the present paper is to address this issue. We created new datasets using YouTube videos and mentions of research articles on various online platforms. We found that most of the articles cited in the videos are related to medicine and biochemistry. We analyzed these datasets through statistical techniques and visualization, and built machine learning models to predict (1) whether a research article is cited in videos, (2) whether a research article cited in a video achieves a level of popularity, and (3) whether a video citing a research article becomes popular. The best models achieved F1 scores between 80% and 94%. According to our results, research articles mentioned in more tweets and news coverage have a higher chance of receiving video citations. We also found that video views are important for predicting citations and increasing research articles' popularity and public engagement with science.
翻訳日:2022-09-11 13:08:24 公開日:2022-09-01
# 連続手話映像における話題検出

Topic Detection in Continuous Sign Language Videos ( http://arxiv.org/abs/2209.02402v1 )

ライセンス: Link先を確認
Alvaro Budria, Laia Tarres, Gerard I. Gallego, Francesc Moreno-Noguer, Jordi Torres, Xavier Giro-i-Nieto(参考訳) 近年,手話認識や翻訳,生産など,手話の自動理解における課題課題が大幅に進展している。 しかし、これらの作品は、比較的少ないサンプル、短い録音、限られた語彙と署名空間を持つデータセットに焦点を当てている。 本稿では,手話話題検出の新たな課題について紹介する。 複数のセマンティックドメインにまたがる大規模ビデオデータセットであるHow2Signについて実験を行った。 話題検出の課題に対して強力なベースラインを提供し,手話領域で一般的に使用される視覚的特徴の比較を行う。

Significant progress has been made recently on challenging tasks in automatic sign language understanding, such as sign language recognition, translation and production. However, these works have focused on datasets with relatively few samples, short recordings and limited vocabulary and signing space. In this work, we introduce the novel task of sign language topic detection. We base our experiments on How2Sign, a large-scale video dataset spanning multiple semantic domains. We provide strong baselines for the task of topic detection and present a comparison between different visual features commonly used in the domain of sign language.
翻訳日:2022-09-11 13:03:56 公開日:2022-09-01
# ウィスカを用いた多次元テキスト知覚と分類

Towards Multidimensional Textural Perception and Classification Through Whisker ( http://arxiv.org/abs/2209.03750v1 )

ライセンス: Link先を確認
Prasanna Kumar Routray, Aditya Sanjiv Kanade, Pauline Pounds, Manivannan Muniyandi(参考訳) テクスチャベースの研究とデザインが最近注目されている。 ウィスカーベースの多次元表面テクスチャデータが欠落している。 このデータは、テクスチャ面の分類と回帰において、ロボット工学および機械知覚アルゴリズムにとって重要である。 本研究では,多次元テクスチャ情報を取得するためのセンサ設計を提案する。 表面の粗さと硬さをスイーピングとダビングを用いて実験的に測定した。 3つの機械学習モデル (SVM, RF, MLP) は表面テクスチャの粗さと硬さに優れた分類精度を示した。 ウイスキーセンサを用いた標準機械標本から収集した圧力と加速度計データの組み合わせにより,分類精度が向上することを示す。 さらに, このセンサは, 粗さ深度が2.5\mu m$以下のテクスチャを90\%以上の精度で分類し, 粗さと硬さに基づいて材料を分離できることを実験的に検証した。 本稿では,テクスチャデータ取得の質を事前に保証するために,ウイスキーセンサを設計しながら考慮すべき新しい指標を提案する。 同じ表面テクスチャ集合からレーザセンサから収集したデータに対して,機械学習モデルの性能を検証した。 私たちの研究の一環として,2次元テクスチャデータ – 粗さと硬さ – を研究コミュニティに公開しています。

Texture-based studies and designs have been in focus recently. Whisker-based multidimensional surface texture data is missing in the literature. This data is critical for robotics and machine perception algorithms in the classification and regression of textural surfaces. In this study, we present a novel sensor design to acquire multidimensional texture information. The surface texture's roughness and hardness were measured experimentally using sweeping and dabbing. Three machine learning models (SVM, RF, and MLP) showed excellent classification accuracy for the roughness and hardness of surface textures. We show that the combination of pressure and accelerometer data, collected from a standard machined specimen using the whisker sensor, improves classification accuracy. Further, we experimentally validate that the sensor can classify texture with roughness depths as low as $2.5\mu m$ at an accuracy of $90\%$ or more and segregate materials based on their roughness and hardness. We present a novel metric to consider while designing a whisker sensor to guarantee the quality of texture data acquisition beforehand. The machine learning model performance was validated against the data collected from the laser sensor from the same set of surface textures. As part of our work, we are releasing two-dimensional texture data: roughness and hardness to the research community.
翻訳日:2022-09-11 13:02:44 公開日:2022-09-01
# johnson-lindenstraussによるノイズベクトルへの埋め込み -- 雑音を利用した

Johnson-Lindenstrauss embeddings for noisy vectors -- taking advantage of the noise ( http://arxiv.org/abs/2209.01006v1 )

ライセンス: Link先を確認
Zhen Shao(参考訳) 本稿では,(未知)付加ガウス雑音を持つベクトルに対するユークリッドノルム保存埋め込みを近似するためのツールとして,サブサンプリングとハッシュの理論的性質について検討する。 このような埋め込みは、しばしばジョンソン・リンデンシュトラウス(Johnson-lindenstrauss)と呼ばれる。 以前の研究は、スパース埋め込みと同様に、サブサンプリングとハッシュの成功は、写像されるベクトルの$l_\infty$と$l_2$の比に依存することを示している。 本稿では,ノイズの存在が高次元化においてそのような制約を取り除き,言い換えれば,高次元化と同等の埋め込み次元を持つ部分サンプリングやハッシュ化といったスパース埋め込みは,同様の近似ノルム保存次元還元特性を持つことを示す。 鍵となるのは、ノイズは単に取り除くのではなく、悪用すべき情報として扱うべきだということです。 ノイズの存在下での高次元ベクトルの近似ノルムを回復するためのサブサンプリングとハッシュの理論的境界が導出され、ノイズの存在下でのより良い性能を示す数値図示が達成される。

This paper investigates theoretical properties of subsampling and hashing as tools for approximate Euclidean norm-preserving embeddings for vectors with (unknown) additive Gaussian noises. Such embeddings are sometimes called Johnson-lindenstrauss embeddings due to their celebrated lemma. Previous work shows that as sparse embeddings, the success of subsampling and hashing closely depends on the $l_\infty$ to $l_2$ ratios of the vector to be mapped. This paper shows that the presence of noise removes such constrain in high-dimensions, in other words, sparse embeddings such as subsampling and hashing with comparable embedding dimensions to dense embeddings have similar approximate norm-preserving dimensionality-reduction properties. The key is that the noise should be treated as an information to be exploited, not simply something to be removed. Theoretical bounds for subsampling and hashing to recover the approximate norm of a high dimension vector in the presence of noise are derived, with numerical illustrations showing better performances are achieved in the presence of noise.
翻訳日:2022-09-05 13:05:34 公開日:2022-09-01
# 強化学習の内在的変動は協調を促進する

Intrinsic fluctuations of reinforcement learning promote cooperation ( http://arxiv.org/abs/2209.01013v1 )

ライセンス: Link先を確認
Wolfram Barfuss and Janusz Meylahn(参考訳) 本研究は,古典的強化学習を協調させる要因を問うものである。 社会的ジレンマ状況における協調は動物、人間、機械にとって不可欠である。 進化論は協力を促進する様々なメカニズムを明らかにしたが、エージェントが協力を学ぶ条件は議論されている。 本稿では,マルチエージェント学習環境の個々の要素がどのように協調につながるかを示す。 具体的には,1周期記憶を伴う反復囚人のジレンマの古典環境におけるエプシロン・グリーディ探索を用いた時間拡散強化学習アルゴリズムについて考察する。 2人の学習エージェントはそれぞれ、前回のラウンドにおける両方のエージェントのアクション選択に対して以下のアクション選択を条件付ける戦略を学ぶ。 今後の報酬や調査率の低さ,学習率の低さに加えて,強化学習プロセスの本質的な確率的ゆらぎとして,最終的な協力率を最大80-%に倍増させることを見出した。 したがって、本質的なノイズは反復学習プロセスの必要悪ではない。 それは協力を学ぶための重要な資産である。 しかし,協調行動の可能性が高く,合理的な時間で達成できるというトレードオフも指摘されている。 本研究は,協調アルゴリズムを意図的に設計し,望ましくない癒着効果の制御に関係している。

In this work, we ask for and answer what makes classical reinforcement learning cooperative. Cooperating in social dilemma situations is vital for animals, humans, and machines. While evolutionary theory revealed a range of mechanisms promoting cooperation, the conditions under which agents learn to cooperate are contested. Here, we demonstrate which and how individual elements of the multi-agent learning setting lead to cooperation. Specifically, we consider the widely used temporal-difference reinforcement learning algorithm with epsilon-greedy exploration in the classic environment of an iterated Prisoner's dilemma with one-period memory. Each of the two learning agents learns a strategy that conditions the following action choices on both agents' action choices of the last round. We find that next to a high caring for future rewards, a low exploration rate, and a small learning rate, it is primarily intrinsic stochastic fluctuations of the reinforcement learning process which double the final rate of cooperation to up to 80\%. Thus, inherent noise is not a necessary evil of the iterative learning process. It is a critical asset for the learning of cooperation. However, we also point out the trade-off between a high likelihood of cooperative behavior and achieving this in a reasonable amount of time. Our findings are relevant for purposefully designing cooperative algorithms and regulating undesired collusive effects.
翻訳日:2022-09-05 13:05:13 公開日:2022-09-01
# イジングマシンと分解マシンを用いた整数変数問題に対するブラックボックス最適化

Black-box optimization for integer-variable problems using Ising machines and factorization machines ( http://arxiv.org/abs/2209.01016v1 )

ライセンス: Link先を確認
Yuya Seki, Ryo Tamura, Shu Tanaka(参考訳) ブラックボックス最適化は、機械学習におけるハイパーパラメータ最適化や実験の設計における最適化など、多くのアプリケーションで潜在的なものである。 イジングマシンは、変数をイジングマシンの1つのバイナリ変数で表現できるため、バイナリ最適化問題に有用である。 しかしながら、イジングマシンを用いた従来のアプローチでは、非バイナリ値のブラックボックス最適化問題には対処できない。 この制限を克服するために,Ising/annealing マシンと factorization マシンを3つの異なる整数エンコーディング手法と連携させて,整数可変ブラックボックス最適化問題の解法を提案する。 本手法の性能は,水素分子のエネルギーを最も安定な状態で計算する簡単な問題を用いて,異なる符号化法を用いて数値評価を行った。 提案手法は任意の整数エンコーディング法を用いてエネルギーを計算することができる。 しかし、1-hotエンコーディングは小さいサイズの問題に有用である。

Black-box optimization has potential in numerous applications such as hyperparameter optimization in machine learning and optimization in design of experiments. Ising machines are useful for binary optimization problems because variables can be represented by a single binary variable of Ising machines. However, conventional approaches using an Ising machine cannot handle black-box optimization problems with non-binary values. To overcome this limitation, we propose an approach for integer-variable black-box optimization problems by using Ising/annealing machines and factorization machines in cooperation with three different integer-encoding methods. The performance of our approach is numerically evaluated with different encoding methods using a simple problem of calculating the energy of the hydrogen molecule in the most stable state. The proposed approach can calculate the energy using any of the integer-encoding methods. However, one-hot encoding is useful for problems with a small size.
翻訳日:2022-09-05 13:04:02 公開日:2022-09-01
# CASPER:ロボットの社会的知覚とエンゲージメントのための認知アーキテクチャ

CASPER: Cognitive Architecture for Social Perception and Engagement in Robots ( http://arxiv.org/abs/2209.01012v1 )

ライセンス: Link先を確認
Samuele Vinanzi and Angelo Cangelosi(参考訳) 私たちの世界は、さまざまな自律性を持つインテリジェントなロボットによって、ますます広まっています。 私たちの社会にシームレスに統合するには、人間の直接入力がなくても、これらのマシンは日々のルーチンの複雑さをナビゲートする能力を持つべきです。 言い換えれば、これらのロボットはパートナーの意図を理解して、彼らを助ける最良の方法を予測したいのです。 本稿では,ロボットにおける社会的知覚と関与のための認知的アーキテクチャであるcasper(cognitive architecture for social perception and engagement in robots)について述べる。 これは、低レベルのアクション認識と高レベルのゴール理解をモデル化する並列プロセスのアンサンブルを通じて行われ、どちらも正式に検証される。 このアーキテクチャをシミュレーションされたキッチン環境でテストした結果、ロボットが現在進行中の目標を認識し、その達成に向けて適切に協力できることが判明した。 これは,人間とロボットの相互作用領域における意図読解問題に適用できる質的空間関係の新たな利用を示す。

Our world is being increasingly pervaded by intelligent robots with varying degrees of autonomy. To seamlessly integrate themselves in our society, these machines should possess the ability to navigate the complexities of our daily routines even in the absence of a human's direct input. In other words, we want these robots to understand the intentions of their partners with the purpose of predicting the best way to help them. In this paper, we present CASPER (Cognitive Architecture for Social Perception and Engagement in Robots): a symbolic cognitive architecture that uses qualitative spatial reasoning to anticipate the pursued goal of another agent and to calculate the best collaborative behavior. This is performed through an ensemble of parallel processes that model a low-level action recognition and a high-level goal understanding, both of which are formally verified. We have tested this architecture in a simulated kitchen environment and the results we have collected show that the robot is able to both recognize an ongoing goal and to properly collaborate towards its achievement. This demonstrates a new use of Qualitative Spatial Relations applied to the problem of intention reading in the domain of human-robot interaction.
翻訳日:2022-09-05 12:56:36 公開日:2022-09-01
# グラフカーネルインフォマックスを用いた電子健康記録の自己教師あり表現学習

Self-supervised Representation Learning on Electronic Health Records with Graph Kernel Infomax ( http://arxiv.org/abs/2209.00655v1 )

ライセンス: Link先を確認
Hao-Ren Yao, Nairen Cao, Katina Russell, Der-Chen Chang, Ophir Frieder, Jeremy Fineman(参考訳) 電子健康記録(ehrs)の学習は、未発見の研究テーマである。 これは、例えば、治療結果の予測や患者の類似性検索など、様々な臨床決定支援アプリケーションに役立ちます。 現在のアプローチでは、大規模な教師なしシナリオには適用できないベクトル化シーケンシャルEHRのタスク固有のラベル管理に重点を置いている。 近年,コントラスト学習は自己指導型表現学習問題において大きな成功を収めている。 しかし、複雑な時間性はしばしば性能を低下させる。 本稿では,ehrのグラフィカル表現に対する自己教師付きグラフカーネル学習手法であるgraph kernel infomaxを提案する。 最先端と異なり、グラフ構造を変更して拡張ビューを構築することはありません。 代わりに、Kernel Subspace Augmentationを使って、ノードを幾何学的に異なる2つの多様体ビューに埋め込む。 フレームワーク全体は、一般的に使用されるコントラッシブな目的を通じて、これらの2つの多様体ビュー上のノードとグラフ表現の対比によって訓練される。 実証的手法として,EHRデータセットを公開することにより,臨床下流のタスクにおいて,最先端のタスクを上回るパフォーマンスが得られる。 理論的には、距離メトリクスの変動はグラフ構造を変えることなくデータ拡張として自然に異なるビューを生成する。

Learning Electronic Health Records (EHRs) representation is a preeminent yet under-discovered research topic. It benefits various clinical decision support applications, e.g., medication outcome prediction or patient similarity search. Current approaches focus on task-specific label supervision on vectorized sequential EHR, which is not applicable to large-scale unsupervised scenarios. Recently, contrastive learning shows great success on self-supervised representation learning problems. However, complex temporality often degrades the performance. We propose Graph Kernel Infomax, a self-supervised graph kernel learning approach on the graphical representation of EHR, to overcome the previous problems. Unlike the state-of-the-art, we do not change the graph structure to construct augmented views. Instead, we use Kernel Subspace Augmentation to embed nodes into two geometrically different manifold views. The entire framework is trained by contrasting nodes and graph representations on those two manifold views through the commonly used contrastive objectives. Empirically, using publicly available benchmark EHR datasets, our approach yields performance on clinical downstream tasks that exceeds the state-of-the-art. Theoretically, the variation on distance metrics naturally creates different views as data augmentation without changing graph structures.
翻訳日:2022-09-05 12:55:55 公開日:2022-09-01
# インテリジェンスを作る - 倫理、IQ、MLベンチマーク

Making Intelligence: Ethics, IQ, and ML Benchmarks ( http://arxiv.org/abs/2209.00692v1 )

ライセンス: Link先を確認
Borhane Blili-Hamelin and Leif Hancox-Li(参考訳) MLコミュニティは、ベンチマーク研究の潜在的なネガティブな影響を予測し緩和することの重要性を認識している。 本稿では,mlベンチマークの技術的・科学的コアにある倫理的リスクの領域に対して,より多くの注意を払う必要があることを論じる。 人間のIQとMLのベンチマークで見過ごされた構造的類似性を同定する。 ヒューマンインテリジェンスとMLベンチマークは、インテリジェンスに関連するタスクのパフォーマンスを記述、評価、比較するための標準の設定において類似点を共有している。 これにより、MLベンチマークコミュニティが考慮すべきフェミニストの科学研究哲学からの教訓を解放することができる。 最後に,ベンチマーク研究の倫理と倫理に関するレビューの実践的勧告について概説する。

The ML community recognizes the importance of anticipating and mitigating the potential negative impacts of benchmark research. In this position paper, we argue that more attention needs to be paid to areas of ethical risk that lie at the technical and scientific core of ML benchmarks. We identify overlooked structural similarities between human IQ and ML benchmarks. Human intelligence and ML benchmarks share similarities in setting standards for describing, evaluating and comparing performance on tasks relevant to intelligence. This enables us to unlock lessons from feminist philosophy of science scholarship that need to be considered by the ML benchmark community. Finally, we outline practical recommendations for benchmark research ethics and ethics review.
翻訳日:2022-09-05 12:55:38 公開日:2022-09-01
# バイオメカニクスインフォームドモデリングによる画像からの心臓運動の学習対応

Learning correspondences of cardiac motion from images using biomechanics-informed modeling ( http://arxiv.org/abs/2209.00726v1 )

ライセンス: Link先を確認
Xiaoran Zhang, Chenyu You, Shawn Ahn, Juntang Zhuang, Lawrence Staib, James Duncan(参考訳) 画像から心臓運動の時空間対応を学習することは、心臓解剖学的構造の基礎となる力学を理解する上で重要である。 多くの手法は、変位ベクトル場(DVF)上の$\mathcal{L}_2$ノルムのような滑らかな制約を明示的に課すが、通常は変換における生体力学的実現可能性を無視している。 他の幾何学的制約は、心筋に非圧縮性を付与するなどの特定の関心領域の規則化や、物理的にシミュレートされたデータセット上で別々のネットワークベースの正規化器をトレーニングするなどの追加ステップの導入である。 そこで本研究では, 予測値dvfの正則化に先立って, より汎用的な生体力学的に有理な心構造変換をモデル化する手法を提案する。 提案手法の有効性とロバスト性を他の競合する正規化手法と比較し,2次元MRIデータを用いて2つの公開データセット上で検証し,提案手法の有効性とロバスト性を示す。 提案手法は, 生体力学的特性を視覚的評価により保存し, 定量的評価指標を用いたセグメンテーション性能の利点を示す。 コードは \url{https://github.com/Voldemort108X/bioinformed_reg} で公開されている。

Learning spatial-temporal correspondences in cardiac motion from images is important for understanding the underlying dynamics of cardiac anatomical structures. Many methods explicitly impose smoothness constraints such as the $\mathcal{L}_2$ norm on the displacement vector field (DVF), while usually ignoring biomechanical feasibility in the transformation. Other geometric constraints either regularize specific regions of interest such as imposing incompressibility on the myocardium or introduce additional steps such as training a separate network-based regularizer on physically simulated datasets. In this work, we propose an explicit biomechanics-informed prior as regularization on the predicted DVF in modeling a more generic biomechanically plausible transformation within all cardiac structures without introducing additional training complexity. We validate our methods on two publicly available datasets in the context of 2D MRI data and perform extensive experiments to illustrate the effectiveness and robustness of our proposed methods compared to other competing regularization schemes. Our proposed methods better preserve biomechanical properties by visual assessment and show advantages in segmentation performance using quantitative evaluation metrics. The code is publicly available at \url{https://github.com/Voldemort108X/bioinformed_reg}.
翻訳日:2022-09-05 12:50:22 公開日:2022-09-01
# HistoSeg : デジタルヒストロジー画像における多層構造分割のためのマルチロス機能付きクイックアテンション

HistoSeg : Quick attention with multi-loss function for multi-structure segmentation in digital histology images ( http://arxiv.org/abs/2209.00729v1 )

ライセンス: Link先を確認
Saad Wazir, Muhammad Moazam Fraz(参考訳) 医用画像分割は、コンピュータ支援診断、手術、治療を支援する。 組織スライド画像のデジタル化は、腺、核、およびその他のバイオマーカーの分析と分割に使用され、コンピュータ支援医療でさらに使用される。 この目的のために、多くの研究者が異なるニューラルネットワークを開発し、組織像のセグメンテーションを行い、そのほとんどはエンコーダ・デコーダアーキテクチャに基づいており、複雑な注意モジュールやトランスフォーマーも利用している。 しかし,これらのネットワークは,局所的および大域的特徴を複数のスケールで正確に検出する精度が低く,エンコーダ・デコーダネットワーク,クイックアテンションモジュール,マルチロス関数(バイナリクロスエントロピー(bce)損失,焦点損失,サイス損失の組合せ)を提案した。 医用画像セグメンテーション用の2つの公開データセットであるMoNuSegとGlaSにおける提案ネットワークの一般化能力を評価し,MoNuSegデータセットの1.99%,GlaSデータセットの7.15%で最先端ネットワークを上回った。 実装コードは、このリンクで利用可能である。

Medical image segmentation assists in computer-aided diagnosis, surgeries, and treatment. Digitize tissue slide images are used to analyze and segment glands, nuclei, and other biomarkers which are further used in computer-aided medical applications. To this end, many researchers developed different neural networks to perform segmentation on histological images, mostly these networks are based on encoder-decoder architecture and also utilize complex attention modules or transformers. However, these networks are less accurate to capture relevant local and global features with accurate boundary detection at multiple scales, therefore, we proposed an Encoder-Decoder Network, Quick Attention Module and a Multi Loss Function (combination of Binary Cross Entropy (BCE) Loss, Focal Loss & Dice Loss). We evaluate the generalization capability of our proposed network on two publicly available datasets for medical image segmentation MoNuSeg and GlaS and outperform the state-of-the-art networks with 1.99% improvement on the MoNuSeg dataset and 7.15% improvement on the GlaS dataset. Implementation Code is available at this link: https://bit.ly/HistoSeg
翻訳日:2022-09-05 12:50:01 公開日:2022-09-01
# 物理インフォームMTA-UNet:衛星の熱応力と熱変形の予測

Physics-informed MTA-UNet: Prediction of Thermal Stress and Thermal Deformation of Satellites ( http://arxiv.org/abs/2209.01009v1 )

ライセンス: Link先を確認
Zeyu Cao, Wei Peng, Xiaoya Zhang, Kairui Bao, Wen Yao(参考訳) 熱応力と変形の急速な解析は、衛星の構造設計の制御と最適化において重要な役割を担っている。 本稿では,衛星マザーボードのリアルタイム熱応力と熱変形解析を実現するために,マルチタスク学習(mtl)とu-netの両方の利点と注意機構を組み合わせた,新しいマルチタスクアテンションunet(mta-unet)ニューラルネットワークを提案する。 さらに、物理インフォームド戦略は、偏微分方程式(PDE)を残留項として損失関数に統合する訓練過程において用いられる。 最後に、不確実性に基づく損失分散アプローチを、複数のトレーニングタスクの異なる損失関数の重み付けに適用する。 実験の結果,MTA-UNetはSTLモデルと比較して,複数の物理タスクの予測精度を効果的に向上することが示された。 さらに、物理に変形した手法は、各タスク、特に小さなデータセットの予測における誤差を少なくする。 コードは次の通りダウンロードできる。 \url{https://github.com/KomorebiTso/MTA-UNet}。

The rapid analysis of thermal stress and deformation plays a pivotal role in the thermal control measures and optimization of the structural design of satellites. For achieving real-time thermal stress and thermal deformation analysis of satellite motherboards, this paper proposes a novel Multi-Task Attention UNet (MTA-UNet) neural network which combines the advantages of both Multi-Task Learning (MTL) and U-Net with attention mechanism. Besides, a physics-informed strategy is used in the training process, where partial differential equations (PDEs) are integrated into the loss functions as residual terms. Finally, an uncertainty-based loss balancing approach is applied to weight different loss functions of multiple training tasks. Experimental results show that the proposed MTA-UNet effectively improves the prediction accuracy of multiple physics tasks compared with Single-Task Learning (STL) models. In addition, the physics-informed method brings less error in the prediction of each task, especially on small data sets. The code can be downloaded at: \url{https://github.com/KomorebiTso/MTA-UNet}.
翻訳日:2022-09-05 12:44:57 公開日:2022-09-01
# 強化学習によるWeaker Abstract Board Game Agents作成手法

A Technique to Create Weaker Abstract Board Game Agents via Reinforcement Learning ( http://arxiv.org/abs/2209.00711v1 )

ライセンス: Link先を確認
Peter Jamieson and Indrima Upadhyay(参考訳) ボードゲームは、ソロゲームを除くと、少なくとも1人のプレイヤーがプレイする必要がある。 このため、対戦相手が行方不明になったとき、私たちと対戦するためにAIエージェントを作成しました。 これらのAIエージェントはさまざまな方法で作られていますが、エージェントの課題のひとつは、エージェントが私たちよりも優れた能力を持つことです。 この研究では、ボードゲームをする弱いAIエージェントの作り方を説明します。 我々はtic-tac-toe,nine-men's morris,mancalaを用い,エージェントがq-learningアルゴリズムを用いてこれらのゲームを学ぶ強化学習モデルを用いる。 これらのエージェントがボードゲームを完璧にプレイすることを学ぶ方法を示し、より弱いバージョンのエージェントを作るための私たちのアプローチを説明します。 最後に、AIエージェントを比較する方法論を提供する。

Board games, with the exception of solo games, need at least one other player to play. Because of this, we created Artificial Intelligent (AI) agents to play against us when an opponent is missing. These AI agents are created in a number of ways, but one challenge with these agents is that an agent can have superior ability compared to us. In this work, we describe how to create weaker AI agents that play board games. We use Tic-Tac-Toe, Nine-Men's Morris, and Mancala, and our technique uses a Reinforcement Learning model where an agent uses the Q-learning algorithm to learn these games. We show how these agents can learn to play the board game perfectly, and we then describe our approach to making weaker versions of these agents. Finally, we provide a methodology to compare AI agents.
翻訳日:2022-09-05 12:43:05 公開日:2022-09-01
# 人工知能との会話:言語モデルと人間の価値の整合性

In conversation with Artificial Intelligence: aligning language models with human values ( http://arxiv.org/abs/2209.00731v1 )

ライセンス: Link先を確認
Atoosa Kasirzadeh, Iason Gabriel(参考訳) 大規模言語技術は、様々な文脈で人間と様々な形のコミュニケーションにますます使われている。 これらの技術のユースケースのひとつに会話エージェントがあり、プロンプトやクエリに応答して自然言語を出力する。 この行動様式は多くの社会的・倫理的疑問を提起する。 例えば、会話エージェントを人間の規範や価値観に合わせることが何を意味するのか? どの規範や値に合わせるべきか? どのように達成できるのでしょうか? 本稿では,これらの疑問に答えるためのステップをいくつか提案する。 まず,会話エージェントと対話者間の言語コミュニケーションの構成要素に関する哲学的分析を行うことから始める。 次に、この分析を用いて、人間と会話エージェント間の言語コミュニケーションを成功させることのできる会話の理想的な規範を特定し、定式化する。 さらに,これらの規範を用いて,会話エージェントと人間の価値観を,さまざまな分散ドメインで一致させる方法について検討する。 本稿では,これらの規範や価値観に適合した対話エージェントの設計に関する提案の実践的意味を論じる。

Large-scale language technologies are increasingly used in various forms of communication with humans across different contexts. One particular use case for these technologies is conversational agents, which output natural language text in response to prompts and queries. This mode of engagement raises a number of social and ethical questions. For example, what does it mean to align conversational agents with human norms or values? Which norms or values should they be aligned with? And how can this be accomplished? In this paper, we propose a number of steps that help answer these questions. We start by developing a philosophical analysis of the building blocks of linguistic communication between conversational agents and human interlocutors. We then use this analysis to identify and formulate ideal norms of conversation that can govern successful linguistic communication between humans and conversational agents. Furthermore, we explore how these norms can be used to align conversational agents with human values across a range of different discursive domains. We conclude by discussing the practical implications of our proposal for the design of conversational agents that are aligned with these norms and values.
翻訳日:2022-09-05 12:39:53 公開日:2022-09-01
# ドメイン一般化のための最適化とモデル選択:混合誘導解

Towards Optimization and Model Selection for Domain Generalization: A Mixup-guided Solution ( http://arxiv.org/abs/2209.00652v1 )

ライセンス: Link先を確認
Wang Lu, Jindong Wang, Yidong Wang, Kan Ren, Yiqiang Chen, Xing Xie(参考訳) トレーニングとテストデータの分散シフトは、一般的にディープラーニングモデルのパフォーマンスを損なう。 近年,分散シフトが存在する領域一般化(DG)や,対象データに見当たらない領域一般化に多くの作業が注がれている。 アルゴリズム設計の進歩にもかかわらず、2つの基本的な要素は長い間無視されてきた。 1)正規化に基づく目標(分布アライメントなど)の最適化、及び 2) DG のモデル選択は対象領域に関する知識を利用できないためである。 本稿では,ドメイン一般化のためのMixup Guided Optimizationと選択手法を提案する。 最適化のために、適応したミックスアップを使用して、好みの方向を導き、pareto最適化で最適化できる分散データセットを生成する。 モデル選択のために、ターゲット分布との距離が近い検証データセットを生成し、ターゲットデータをよりよく表現できる。 提案の背後にある理論的洞察も提示する。 1つの視覚分類ベンチマークと3つの時系列ベンチマークによる総合的な実験により、我々のモデル最適化と選択技術は、既存の領域一般化アルゴリズムの性能を大幅に改善し、新しい最先端の結果も達成できることを示した。

The distribution shifts between training and test data typically undermine the performance of deep learning models. In recent years, lots of work pays attention to domain generalization (DG) where distribution shift exists and target data are unseen. Despite the progress in algorithm design, two foundational factors have long been ignored: 1) the optimization for regularization-based objectives (e.g., distribution alignment), and 2) the model selection for DG since no knowledge about the target domain can be utilized. In this paper, we propose Mixup guided optimization and selection techniques for domain generalization. For optimization, we utilize an adapted Mixup to generate an out-of-distribution dataset that can guide the preference direction and optimize with Pareto optimization. For model selection, we generate a validation dataset with a closer distance to the target distribution, and thereby it can better represent the target data. We also present some theoretical insights behind our proposals. Comprehensive experiments on one visual classification benchmark and three time-series benchmarks demonstrate that our model optimization and selection techniques can largely improve the performance of existing domain generalization algorithms and even achieve new state-of-the-art results.
翻訳日:2022-09-05 12:39:38 公開日:2022-09-01
# SMOTEと畳み込みニューラルネットワークに基づく効果的なクラスバランス学習

Effective Class-Imbalance learning based on SMOTE and Convolutional Neural Networks ( http://arxiv.org/abs/2209.00653v1 )

ライセンス: Link先を確認
Javad Hasannataj Joloudari, Abdolreza Marefat and Mohammad Ali Nematollahi(参考訳) 不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。 IDは、あるクラスに属するサンプルの量が他のクラスよりも広いマージンで倍増し、そのような学習プロセスが多数クラスに偏っている状況の発生である。 近年、この問題に対処するために、マイノリティクラスの新しいデータを合成的に生成するか、データのバランスをとるために多数派クラスの数を減らしたいくつかのソリューションが提案されている。 そこで本稿では,Deep Neural Networks (DNN) とConvolutional Neural Networks (CNN) に基づく手法の有効性を検討する。 本手法を評価するために,KEEL,乳癌,Z-アリザデー・サニデータセットを用いた。 信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。 その結果,混合合成マイノリティオーバーサンプリング法(SMOTE)-Normalization-CNNは,24個の不均衡データセットに対して99.08%の精度で異なる手法より優れていた。 したがって,提案する混合モデルは他の実データに対する不均衡バイナリ分類問題に適用することができる。

Imbalanced Data (ID) is a problem that deters Machine Learning (ML) models for achieving satisfactory results. ID is the occurrence of a situation where the quantity of the samples belonging to one class outnumbers that of the other by a wide margin, making such models learning process biased towards the majority class. In recent years, to address this issue, several solutions have been put forward, which opt for either synthetically generating new data for the minority class or reducing the number of majority classes for balancing the data. Hence, in this paper, we investigate the effectiveness of methods based on Deep Neural Networks (DNNs) and Convolutional Neural Networks (CNNs), mixed with a variety of well-known imbalanced data solutions meaning oversampling and undersampling. To evaluate our methods, we have used KEEL, breast cancer, and Z-Alizadeh Sani datasets. In order to achieve reliable results, we conducted our experiments 100 times with randomly shuffled data distributions. The classification results demonstrate that the mixed Synthetic Minority Oversampling Technique (SMOTE)-Normalization-CNN outperforms different methodologies achieving 99.08% accuracy on the 24 imbalanced datasets. Therefore, the proposed mixed model can be applied to imbalanced binary classification problems on other real datasets.
翻訳日:2022-09-05 12:39:20 公開日:2022-09-01
# 多変量時系列における分布ドリフト適応のための時間条件vae

Temporal Conditional VAE for Distributional Drift Adaptation in Multivariate Time Series ( http://arxiv.org/abs/2209.00654v1 )

ライセンス: Link先を確認
Hui He, Qi Zhang, Kun Yi, Kaize Shi, Simeng Bai, Zhendong Niu and Longbin Cao(参考訳) 非定常性のため、実世界の多変量時系列(mts)の分布は、分布ドリフトとして知られる時間とともに変化する。 既存のmts予測モデルのほとんどは,分布ドリフトと時間経過に伴う予測性能の低下に非常に苦しむ。 既存の方法では、最新の到着データへの適応や、将来のデータから派生したメタ知識の自己修正による分散ドリフトに対処する。 MTS予測において大きな成功を収めたにもかかわらず、本質的な分布変化を特に分布の観点から捉えることはほとんどない。 そこで本研究では,過去の観測データとMSSの将来のデータとの時間的依存性をモデル化し,その依存性を時間的条件分布として推定し,潜時変数を活用するための新しいフレームワークTCVAEを提案する。 具体的には、新しい時間的ホークス注意機構は、その後フィードフォワードネットワークに供給され、潜在変数の以前のガウス分布を推定する時間的要因を表す。 時間的因子の表現は、ゲートアテンション機構を利用してトランスフォーマーベースのエンコーダとデコーダの構造を分散変化に動的に調整する。 さらに, 条件付き連続正規化フローを導入し, 事前ガウス分布を複雑で非形式な分布に変換し, 時間条件分布のフレキシブルな推論を容易にする。 6つの実世界のmtsデータセットで実施された広範な実験は、ttvaeが最先端のmts予測ベースラインよりも優れた堅牢性と有効性を示している。 さらに、実世界のシナリオにおける多面的ケーススタディと可視化によるTCVAEの適用性について説明する。

Due to the nonstationary nature, the distribution of real-world multivariate time series (MTS) changes over time, which is known as distribution drift. Most existing MTS forecasting models greatly suffer from the distribution drift and degrade the forecasting performance over time. Existing methods address distribution drift via adapting to the latest arrived data or self-correcting per the meta knowledge derived from future data. Despite their great success in MTS forecasting, these methods hardly capture the intrinsic distribution changes especially from a distributional perspective. Accordingly, we propose a novel framework temporal conditional variational autoencoder (TCVAE) to model the dynamic distributional dependencies over time between historical observations and future data in MTS and infer the dependencies as a temporal conditional distribution to leverage latent variables. Specifically, a novel temporal Hawkes attention mechanism represents temporal factors subsequently fed into feed-forward networks to estimate the prior Gaussian distribution of latent variables. The representation of temporal factors further dynamically adjusts the structures of Transformer-based encoder and decoder to distribution changes by leveraging a gated attention mechanism. Moreover, we introduce conditional continuous normalization flow to transform the prior Gaussian to a complex and form-free distribution to facilitate flexible inference of the temporal conditional distribution. Extensive experiments conducted on six real-world MTS datasets demonstrate the TCVAE's superior robustness and effectiveness over the state-of-the-art MTS forecasting baselines. We further illustrate the TCVAE applicability through multifaceted case studies and visualization in real-world scenarios.
翻訳日:2022-09-05 12:38:59 公開日:2022-09-01
# 暗黙的神経表現の定量化について

On Quantizing Implicit Neural Representations ( http://arxiv.org/abs/2209.01019v1 )

ライセンス: Link先を確認
Cameron Gordon, Shin-Fang Chng, Lachlan MacDonald, Simon Lucey(参考訳) 暗黙的/座標的ニューラルネットワークにおける量子化の役割は、まだ完全には理解されていない。 トレーニング中に標準固定量子化スキームを用いることは,ネットワークの重み分布がトレーニングの過程で変化するため,低速度での成績が低くなることに留意する。 本研究では,神経重みの非一様量子化が著しい改善をもたらすことを示す。 具体的には,クラスター量子化により,復元性が向上することを示す。 最後に、量子化とネットワーク容量のトレードオフを特徴付けることにより、バイナリニューラルネットワークを用いた信号再構成が可能であることを実証する。 本研究では, 2次元画像再構成と3次元放射場について実験的に検討し, 単純な量子化法とアーキテクチャ探索により, nerfの圧縮を16kb未満に抑え, 性能の低下を最小化できることを示した。

The role of quantization within implicit/coordinate neural networks is still not fully understood. We note that using a canonical fixed quantization scheme during training produces poor performance at low-rates due to the network weight distributions changing over the course of training. In this work, we show that a non-uniform quantization of neural weights can lead to significant improvements. Specifically, we demonstrate that a clustered quantization enables improved reconstruction. Finally, by characterising a trade-off between quantization and network capacity, we demonstrate that it is possible (while memory inefficient) to reconstruct signals using binary neural networks. We demonstrate our findings experimentally on 2D image reconstruction and 3D radiance fields; and show that simple quantization methods and architecture search can achieve compression of NeRF to less than 16kb with minimal loss in performance (323x smaller than the original NeRF).
翻訳日:2022-09-05 12:32:35 公開日:2022-09-01
# 非線形デシラビリティ理論

Nonlinear desirability theory ( http://arxiv.org/abs/2209.00686v1 )

ライセンス: Link先を確認
Enrique Miranda and Marco Zaffalon(参考訳) 好ましさはアンスコムとアウマンのベイズ決定理論を期待されたユーティリティの集合に拡張したものと解釈できる。 期待可能性の核心は、報酬を測定するスケールの線形性の仮定である。 しかしこれは、合理的な意思決定の一般的な表現と衝突する期待された実用性モデルを引き出すのに使用される伝統的な仮定である。 特にアライスは1953年に有名なパラドックスでこれを指摘した。 論理理論としてデスティラビリティを考えるとき、ユーティリティスケールがクロージャ演算子の役割を担っていることに注意する。 この観察により,汎用スケールを一般閉包演算子で表現することで,非線形ケースへの期待可能性を拡張することができる。 この新しい理論は、サベージの精神の多くにおいて、実際の非線形通貨(マネー)の報酬を直接表現する一方で、建国仮説を最小化するものである。 我々は、ギャンブルの集合とそれらの低値・高値(プレビジョン)の両方の観点から、新理論の主な特性を特徴づける。 我々は、アライアス・パラドックスが新しい理論の解を見つける方法を示し、理論における確率の集合の役割について議論する。

Desirability can be understood as an extension of Anscombe and Aumann's Bayesian decision theory to sets of expected utilities. At the core of desirability lies an assumption of linearity of the scale in which rewards are measured. It is a traditional assumption used to derive the expected utility model, which clashes with a general representation of rational decision making, though. Allais has, in particular, pointed this out in 1953 with his famous paradox. We note that the utility scale plays the role of a closure operator when we regard desirability as a logical theory. This observation enables us to extend desirability to the nonlinear case by letting the utility scale be represented via a general closure operator. The new theory directly expresses rewards in actual nonlinear currency (money), much in Savage's spirit, while arguably weakening the founding assumptions to a minimum. We characterise the main properties of the new theory both from the perspective of sets of gambles and of their lower and upper prices (previsions). We show how Allais paradox finds a solution in the new theory, and discuss the role of sets of probabilities in the theory.
翻訳日:2022-09-05 12:27:27 公開日:2022-09-01
# GANにおける勾配に基づく多方向制御の探索

Exploring Gradient-based Multi-directional Controls in GANs ( http://arxiv.org/abs/2209.00698v1 )

ライセンス: Link先を確認
Zikun Chen, Ruowei Jiang, Brendan Duke, Han Zhao, Parham Aarabi(参考訳) GAN(Generative Adversarial Networks)は多様な画像分布のモデル化に広く利用されている。 しかし、その印象的な応用にもかかわらず、GANにおける潜伏空間の構造はブラックボックスとして残っており、制御可能な生成はオープンな問題であり、特に画像分布に異なる意味的属性間の急激な相関が存在する場合である。 この問題に対処するため、従来の手法は画像空間における意味的属性を制御する線形方向や個々のチャネルを学習する。 しかし、しばしば不完全な絡み合いに悩まされるか、多方向制御ができない。 本稿では,これらの課題を踏まえ,学習したGANラテント空間の勾配情報に基づいて,多方向操作と効果的なアンタングル化を可能にする非線形制御を新たに発見する手法を提案する。 具体的には、まず属性を個別に訓練した分類ネットワークから勾配に従って補間方向を学習し、学習方向の目標属性に対して活性化されるチャネルを排他的に制御することで潜時空間をナビゲートする。 実験により,本手法は2方向・多方向属性の多種多様な属性に対してきめ細かな制御が可能であり,定性的に,定量的に,最先端の手法よりもはるかに高い歪みを実現する能力を示す。

Generative Adversarial Networks (GANs) have been widely applied in modeling diverse image distributions. However, despite its impressive applications, the structure of the latent space in GANs largely remains as a black-box, leaving its controllable generation an open problem, especially when spurious correlations between different semantic attributes exist in the image distributions. To address this problem, previous methods typically learn linear directions or individual channels that control semantic attributes in the image space. However, they often suffer from imperfect disentanglement, or are unable to obtain multi-directional controls. In this work, in light of the above challenges, we propose a novel approach that discovers nonlinear controls, which enables multi-directional manipulation as well as effective disentanglement, based on gradient information in the learned GAN latent space. More specifically, we first learn interpolation directions by following the gradients from classification networks trained separately on the attributes, and then navigate the latent space by exclusively controlling channels activated for the target attribute in the learned directions. Empirically, with small training data, our approach is able to gain fine-grained controls over a diverse set of bi-directional and multi-directional attributes, and we showcase its ability to achieve disentanglement significantly better than state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2022-09-05 12:27:05 公開日:2022-09-01
# 衛星画像を用いた国別土地被覆図の作成

Enabling Country-Scale Land Cover Mapping with Meter-Resolution Satellite Imagery ( http://arxiv.org/abs/2209.00727v1 )

ライセンス: Link先を確認
Xin-Yi Tong, Gui-Song Xia, Xiao Xiang Zhu(参考訳) 高分解能衛星画像は、複雑な建築環境の研究に特に重要である土地被覆分類のための豊富な詳細な空間情報を提供することができる。 しかし, 複雑な土地被覆パターン, 費用のかかるサンプル収集, 衛星画像の高度分布変化などにより, 大規模に詳細な土地被覆地図に高解像度画像を適用した研究は少ない。 このギャップを埋めるために,我々は5億ピクセルという大規模土地被覆データセットを提案する。 50億画素以上の高解像度のGaofen-2 (4 m)衛星画像が含まれており、人工的に構築された、農業、自然のクラスをカバーする24カテゴリのシステムに注釈が付けられている。 さらに,ラベル付きデータセットで訓練された分類モデル(ソースドメイン)を,大規模土地被覆マッピングのためのラベル付きデータ(ターゲットドメイン)に転送する,ディープラーニングに基づく教師なしドメイン適応手法を提案する。 具体的には、動的擬似ラベル割り当てとクラスバランス戦略を用いて、適応的なドメイン共同学習を行う。 我々のデータセットの一般化可能性と、異なるセンサと異なる地理的領域にまたがるアプローチを検証するために、プラネットスコープ(3m)、gaofen-1(8m)、sentinel-2(10m)の衛星画像を用いて、中国と他の5つのアジアの6つの都市における5つのメガシティの土地被覆マッピングを行った。 総面積は6万平方キロメートルで、入力画像が完全にラベル付けされていなくても有望な結果が得られる。 提案手法はFive-Billion-Pixelsデータセットを用いてトレーニングされ,中国全土および他のアジア諸国における高品質で詳細な土地被覆地図をメートル分解能で作成することができる。

High-resolution satellite images can provide abundant, detailed spatial information for land cover classification, which is particularly important for studying the complicated built environment. However, due to the complex land cover patterns, the costly training sample collections, and the severe distribution shifts of satellite imageries, few studies have applied high-resolution images to land cover mapping in detailed categories at large scale. To fill this gap, we present a large-scale land cover dataset, Five-Billion-Pixels. It contains more than 5 billion labeled pixels of 150 high-resolution Gaofen-2 (4 m) satellite images, annotated in a 24-category system covering artificial-constructed, agricultural, and natural classes. In addition, we propose a deep-learning-based unsupervised domain adaptation approach that can transfer classification models trained on labeled dataset (referred to as the source domain) to unlabeled data (referred to as the target domain) for large-scale land cover mapping. Specifically, we introduce an end-to-end Siamese network employing dynamic pseudo-label assignment and class balancing strategy to perform adaptive domain joint learning. To validate the generalizability of our dataset and the proposed approach across different sensors and different geographical regions, we carry out land cover mapping on five megacities in China and six cities in other five Asian countries severally using: PlanetScope (3 m), Gaofen-1 (8 m), and Sentinel-2 (10 m) satellite images. Over a total study area of 60,000 square kilometers, the experiments show promising results even though the input images are entirely unlabeled. The proposed approach, trained with the Five-Billion-Pixels dataset, enables high-quality and detailed land cover mapping across the whole country of China and some other Asian countries at meter-resolution.
翻訳日:2022-09-05 12:26:42 公開日:2022-09-01
# 量子マルチパラメータ推定のための深部強化学習

Deep reinforcement learning for quantum multiparameter estimation ( http://arxiv.org/abs/2209.00671v1 )

ライセンス: Link先を確認
Valeria Cimini, Mauro Valeri, Emanuele Polino, Simone Piacentini, Francesco Ceccarelli, Giacomo Corrielli, Nicol\`o Spagnolo, Roberto Osellame and Fabio Sciarrino(参考訳) 物理量の推定は、ほとんどの科学研究の中核であり、量子デバイスの使用は、その性能を向上させることを約束している。 実際のシナリオでは、リソースは限定的であり、ベイズ適応推定は、推定プロセス中に利用可能なすべてのリソースを効率的に割り当てる強力なアプローチであると考えることが基本である。 しかしながら、このフレームワークはシステムモデルの正確な知識に依存しており、計算学的および実験的に要求されるような細かいキャリブレーションによって得られる。 本稿では,aプライオリ知識に頼らずに,関連する課題をすべて達成した現実的なベイズ型量子メトロロジータスクを効率的に実装するためのモデルフリー・ディープラーニング手法を提案する。 このニーズを克服するために、ニューラルネットワークは実験データに基づいて直接トレーニングされ、マルチパラメータベイズ更新を学ぶ。 そして、研究した量子センサの実験ヒューリスティックを再構築・強化するために訓練された強化学習アルゴリズムのフィードバックにより、最適作業点にシステムを設定する。 特に,標準手法よりも高い推定性能の達成を実験的に証明し,これら2つのブラックボックスアルゴリズムの組み合わせの強度をフォトニック回路上で実証した。 この研究は、完全な人工知能ベースの量子力学への重要な一歩である。

Estimation of physical quantities is at the core of most scientific research and the use of quantum devices promises to enhance its performances. In real scenarios, it is fundamental to consider that the resources are limited and Bayesian adaptive estimation represents a powerful approach to efficiently allocate, during the estimation process, all the available resources. However, this framework relies on the precise knowledge of the system model, retrieved with a fine calibration that often results computationally and experimentally demanding. Here, we introduce a model-free and deep learning-based approach to efficiently implement realistic Bayesian quantum metrology tasks accomplishing all the relevant challenges, without relying on any a-priori knowledge on the system. To overcome this need, a neural network is trained directly on experimental data to learn the multiparameter Bayesian update. Then, the system is set at its optimal working point through feedbacks provided by a reinforcement learning algorithm trained to reconstruct and enhance experiment heuristics of the investigated quantum sensor. Notably, we prove experimentally the achievement of higher estimation performances than standard methods, demonstrating the strength of the combination of these two black-box algorithms on an integrated photonic circuit. This work represents an important step towards fully artificial intelligence-based quantum metrology.
翻訳日:2022-09-05 12:15:48 公開日:2022-09-01
# 繰り返し畳み込みニューラルネットワークは帰属学習アルゴリズムを学習する

Recurrent Convolutional Neural Networks Learn Succinct Learning Algorithms ( http://arxiv.org/abs/2209.00735v1 )

ライセンス: Link先を確認
Surbhi Goel, Sham Kakade, Adam Tauman Kalai, Cyril Zhang(参考訳) ニューラルネットワーク(NN)は、それらの問題に対して単純な学習アルゴリズムがある場合でも、パリティ問題のような特定の問題を効率的に学習するのに苦労する。 NNは学習アルゴリズムを自分で発見できるのか? 我々は、多項式時間で学習するNNアーキテクチャと、定数サイズの学習アルゴリズムで記述可能な効率的な学習アルゴリズムを示す。 例えば、パリティ問題では、NNは簡潔に記述できる効率的なアルゴリズムである行の削減と同様に学習する。 我々のアーキテクチャは、ネットワーク自体に数兆のノードがあるとしても、レイヤ間の繰り返し重み共有と畳み込み重み共有の両方を組み合わせてパラメータの数を一定に減らします。 実際には、我々の分析の定数は直接的に意味を持つには大きすぎるが、我々の研究は、リカレントと畳み込みNN(RCNN)のシナジーが、どちらよりも強力である可能性を示唆している。

Neural Networks (NNs) struggle to efficiently learn certain problems, such as parity problems, even when there are simple learning algorithms for those problems. Can NNs discover learning algorithms on their own? We exhibit a NN architecture that, in polynomial time, learns as well as any efficient learning algorithm describable by a constant-sized learning algorithm. For example, on parity problems, the NN learns as well as row reduction, an efficient algorithm that can be succinctly described. Our architecture combines both recurrent weight-sharing between layers and convolutional weight-sharing to reduce the number of parameters down to a constant, even though the network itself may have trillions of nodes. While in practice the constants in our analysis are too large to be directly meaningful, our work suggests that the synergy of Recurrent and Convolutional NNs (RCNNs) may be more powerful than either alone.
翻訳日:2022-09-05 12:10:17 公開日:2022-09-01
# MIME: 主要グループによるAIパフォーマンス向上のためのマイナーインクルージョン

MIME: Minority Inclusion for Majority Group Enhancement of AI Performance ( http://arxiv.org/abs/2209.00746v1 )

ライセンス: Link先を確認
Pradyumna Chari, Yunhao Ba, Shreeram Athreya, Achuta Kadambi(参考訳) いくつかの論文では、マイノリティグループや社会規模のテスト推論を改善するために、人工知能(AI)トレーニングデータにマイノリティグループを含めている。 社会全体は少数派と多数派の両方から成り立っている。 一般的な誤解は、少数派が多数派だけではパフォーマンスを向上しないということである。 本稿では,少数派のサンプルを含め,多数派のテストエラーを改善できるという驚きの発見を行う。 言い換えれば、少数派グループの参加は、パフォーマンスの多数派グループ拡張(MIME)につながる。 MIME効果の理論的存在証明が提示され、6つの異なるデータセットの実験結果と一致していることがわかった。 プロジェクトWebページ: https://visual.ee.ucla.edu/mime.htm/

Several papers have rightly included minority groups in artificial intelligence (AI) training data to improve test inference for minority groups and/or society-at-large. A society-at-large consists of both minority and majority stakeholders. A common misconception is that minority inclusion does not increase performance for majority groups alone. In this paper, we make the surprising finding that including minority samples can improve test error for the majority group. In other words, minority group inclusion leads to majority group enhancements (MIME) in performance. A theoretical existence proof of the MIME effect is presented and found to be consistent with experimental results on six different datasets. Project webpage: https://visual.ee.ucla.edu/mime.htm/
翻訳日:2022-09-05 12:09:28 公開日:2022-09-01
# 病理診断のための従来の機械学習の探索

Exploring traditional machine learning for identification of pathological auscultations ( http://arxiv.org/abs/2209.00672v1 )

ライセンス: Link先を確認
Haroldas Razvadauskas, Evaldas Vaiciukynas, Kazimieras Buskus, Lukas Drukteinis, Lukas Arlauskas, Saulius Sadauskas, and Albinas Naudziunas(参考訳) 現在、データ収集は様々な分野で改善されており、医療分野も例外ではない。 聴診は、デジタル聴診器の進歩と可用性により、医師にとって重要な診断技術であり、機械学習の応用に有用である。 多数のオーカルトレーションが実施されているため、データの可用性は、専門家の間でも予測精度が低い音をより効果的に分析する機会を開く。 本研究は, 正常と異常な肺音の鑑別を目的とした, 45例のデジタル6チャンネル聴診を, 様々な機械学習シナリオに応用した。 音声の特徴(基本周波数F0-4, ラウドネス, HNR, DFA, およびログエネルギー, RMS, MFCC)をPythonライブラリSurfboardを用いて抽出した。 ウィンドウ化と特徴集約と連結戦略を用いて、教師なし(フェアカット森林)と教師なし(ランダム森林)の機械学習設定において、木に基づくアンサンブルモデルのデータを準備した。 この評価は, 9倍層状クロスバリデーションを30回繰り返して行った。 被験者に対する平均出力による決定融合試験を行い,有用性を確認した。 監視されていないモデルに対して一貫した優位性を示し、平均AUC ROCは71.11%(精度71.11%、カッパ0.416、F1スコア0.771)、平均AUC ROCは0.721(精度68.89%、カッパ0.371、F1スコア0.650)である。

Today, data collection has improved in various areas, and the medical domain is no exception. Auscultation, as an important diagnostic technique for physicians, due to the progress and availability of digital stethoscopes, lends itself well to applications of machine learning. Due to the large number of auscultations performed, the availability of data opens up an opportunity for more effective analysis of sounds where prognostic accuracy even among experts remains low. In this study, digital 6-channel auscultations of 45 patients were used in various machine learning scenarios, with the aim of distinguishing between normal and anomalous pulmonary sounds. Audio features (such as fundamental frequencies F0-4, loudness, HNR, DFA, as well as descriptive statistics of log energy, RMS and MFCC) were extracted using the Python library Surfboard. Windowing and feature aggregation and concatenation strategies were used to prepare data for tree-based ensemble models in unsupervised (fair-cut forest) and supervised (random forest) machine learning settings. The evaluation was carried out using 9-fold stratified cross-validation repeated 30 times. Decision fusion by averaging outputs for a subject was tested and found to be useful. Supervised models showed a consistent advantage over unsupervised ones, achieving mean AUC ROC of 0.691 (accuracy 71.11%, Kappa 0.416, F1-score 0.771) in side-based detection and mean AUC ROC of 0.721 (accuracy 68.89%, Kappa 0.371, F1-score 0.650) in patient-based detection.
翻訳日:2022-09-05 12:03:28 公開日:2022-09-01
# ゼロショット多モードアーティスト検索と3次元オブジェクト集合の探索

Zero-Shot Multi-Modal Artist-Controlled Retrieval and Exploration of 3D Object Sets ( http://arxiv.org/abs/2209.00682v1 )

ライセンス: Link先を確認
Kristofer Schlachter, Benjamin Ahlbrand, Zhu Wang, Valerio Ortenzi, Ken Perlin(参考訳) 3dコンテンツを作成する場合、オブジェクトやその他の資産のモデルを手作業で設計・生成するには、高度に専門的なスキルが必要となる。 2次元スケッチや画像,テキストなど,マルチモーダル入力からの高品質な3dアセット検索によってこの問題に対処した。 高いレベルの潜在機能へのブリッジを提供するために、CLIPを使用します。 これらの機能をマルチモダリティ融合(multi-modality fusion)に使用して、一般的なデータ駆動アプローチに影響を与える芸術的コントロールの欠如に対処する。 提案手法は,入力潜伏埋め込みの組み合わせを利用して,3Dアセットデータベースによるマルチモーダル条件付き特徴駆動検索を可能にする。 様々な入力タイプと重み付けメソッドにまたがる特徴埋め込みの異なる組み合わせの効果について検討する。

When creating 3D content, highly specialized skills are generally needed to design and generate models of objects and other assets by hand. We address this problem through high-quality 3D asset retrieval from multi-modal inputs, including 2D sketches, images and text. We use CLIP as it provides a bridge to higher-level latent features. We use these features to perform a multi-modality fusion to address the lack of artistic control that affects common data-driven approaches. Our approach allows for multi-modal conditional feature-driven retrieval through a 3D asset database, by utilizing a combination of input latent embeddings. We explore the effects of different combinations of feature embeddings across different input types and weighting methods.
翻訳日:2022-09-05 11:57:45 公開日:2022-09-01
# Evolving Behavior:ゲームNPCのための行動ツリーの協調的進化を目指して

EvolvingBehavior: Towards Co-Creative Evolution of Behavior Trees for Game NPCs ( http://arxiv.org/abs/2209.01020v1 )

ライセンス: Link先を確認
Nathan Partlan, Luis Soto, Jim Howe, Sarthak Shrivastava, Magy Seif El-Nasr, Stacy Marsella(参考訳) ゲーム開発者がゲームnpcを作成するのを支援するために、unreal engine 4の振る舞いツリーを進化させる遺伝的プログラミングのための新しいツールであるevolutioningbehaviorを提案する。 最初の評価では、3Dサバイバルゲームにおいて、進化した振る舞いを、研究者が設計した手作りの木とランダムに成長した木と比較した。 EvolvingBehaviorは、このコンテキストでデザイナの目標に近づく行動を生成することができる。 最後に,共同創造型ゲームai設計ツールの意義と今後の展望,および行動木進化における課題と課題について考察する。

To assist game developers in crafting game NPCs, we present EvolvingBehavior, a novel tool for genetic programming to evolve behavior trees in Unreal Engine 4. In an initial evaluation, we compare evolved behavior to hand-crafted trees designed by our researchers, and to randomly-grown trees, in a 3D survival game. We find that EvolvingBehavior is capable of producing behavior approaching the designer's goals in this context. Finally, we discuss implications and future avenues of exploration for co-creative game AI design tools, as well as challenges and difficulties in behavior tree evolution.
翻訳日:2022-09-05 11:55:38 公開日:2022-09-01
# フェデレーション学習におけるプライバシ、ユーティリティ、効率の取引

Trading Off Privacy, Utility and Efficiency in Federated Learning ( http://arxiv.org/abs/2209.00230v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Yan Kang, Kai Chen, Lixin Fan, Qiang Yang(参考訳) フェデレートラーニング(FL)は、参加者がプライベートデータ情報を開示することなく、強化されたユーティリティでグローバルモデルを構築することを可能にする。 適切な保護機構は、 \textit{privacy} と高モデル \textit{utility} の保存において、反対の要件を満たすために採用されなければならない。 さらに、大規模モデルのトレーニングと展開を可能にするために、連合学習システムでは、高い \textit{efficiency} を達成する義務がある。 本稿では,水平および垂直の連携学習を両立する統合学習フレームワークを提案する。 この枠組みに基づいて,プライバシリーク,ユーティリティ損失,効率低下のトレードオフを定式化し,定量化することにより,フェデレート学習システムに対するNo-Free-Lunch(NFL)定理を導出する。 NFLは、FLアルゴリズムが特定のシナリオで優れたプライバシ、ユーティリティ、効率を同時に提供することを期待することは非現実的であることを示している。 次に,プライバシリークやユーティリティ損失,効率低下といった,広く採用されている保護機構である \textit{randomization}, \textit{homomorphic encryption}, \textit{secret sharing}, \textit{compression} について,その下限を分析する。 私たちの分析は、特定の要件を満たす保護パラメータを選択するためのガイドとなり得る。

Federated learning (FL) enables participating parties to collaboratively build a global model with boosted utility without disclosing private data information. Appropriate protection mechanisms have to be adopted to fulfill the opposing requirements in preserving \textit{privacy} and maintaining high model \textit{utility}. In addition, it is a mandate for a federated learning system to achieve high \textit{efficiency} in order to enable large-scale model training and deployment. We propose a unified federated learning framework that reconciles horizontal and vertical federated learning. Based on this framework, we formulate and quantify the trade-offs between privacy leakage, utility loss, and efficiency reduction, which leads us to the No-Free-Lunch (NFL) theorem for the federated learning system. NFL indicates that it is unrealistic to expect an FL algorithm to simultaneously provide excellent privacy, utility, and efficiency in certain scenarios. We then analyze the lower bounds for the privacy leakage, utility loss and efficiency reduction for several widely-adopted protection mechanisms including \textit{Randomization}, \textit{Homomorphic Encryption}, \textit{Secret Sharing} and \textit{Compression}. Our analysis could serve as a guide for selecting protection parameters to meet particular requirements.
翻訳日:2022-09-02 14:24:01 公開日:2022-09-01
# フィルと改善によるコヒーレントドラムの伴奏生成

Generating Coherent Drum Accompaniment With Fills And Improvisations ( http://arxiv.org/abs/2209.00291v1 )

ライセンス: Link先を確認
Rishabh Dahale, Vaibhav Talwadker, Preeti Rao, Prateek Verma(参考訳) 音楽のような複雑な芸術作品を作るには、深い創造性が必要です。 近年のディープラーニングの進歩とトランスフォーマーのような強力なモデルにより、自動音楽生成に大きな進歩があった。 伴奏生成の文脈では、経験豊富なドラマーであっても、曲中の適切な場所でアポサイトフィリングと即興によるコヒーレントドラムパターンを作成することは難しい課題である。 ドラムビートは、セクション境界での埋め合わせや即興でスタンザを通して繰り返しパターンに従う傾向がある。 そこで本研究では,4つの旋律楽器(ピアノ,ギター,ベース,弦楽器)が演奏する伴奏音楽に基づくドラムパターン生成の課題に取り組んだ。 我々は、トランスフォーマーシーケンスをシーケンスモデルに使用して、メロディ伴奏に条件付けされた基本ドラムパターンを生成し、即興化がほとんど欠落していること、おそらくトレーニングデータにおける比較的低い表現に起因することを見出す。 バー内の即興の程度を隣人と比較して捉えるための新規関数を提案する。 メロディック伴奏トラックから即興位置を予測するためのモデルを訓練する。 最後に、即興音楽のインフィル要素にドラムとメロディの両方の構造を学ぶために、bertにインスパイアされた新しいインフィル構造を用いる。

Creating a complex work of art like music necessitates profound creativity. With recent advancements in deep learning and powerful models such as transformers, there has been huge progress in automatic music generation. In an accompaniment generation context, creating a coherent drum pattern with apposite fills and improvisations at proper locations in a song is a challenging task even for an experienced drummer. Drum beats tend to follow a repetitive pattern through stanzas with fills or improvisation at section boundaries. In this work, we tackle the task of drum pattern generation conditioned on the accompanying music played by four melodic instruments: Piano, Guitar, Bass, and Strings. We use the transformer sequence to sequence model to generate a basic drum pattern conditioned on the melodic accompaniment to find that improvisation is largely absent, attributed possibly to its expectedly relatively low representation in the training data. We propose a novelty function to capture the extent of improvisation in a bar relative to its neighbors. We train a model to predict improvisation locations from the melodic accompaniment tracks. Finally, we use a novel BERT-inspired in-filling architecture, to learn the structure of both the drums and melody to in-fill elements of improvised music.
翻訳日:2022-09-02 14:23:34 公開日:2022-09-01
# テンソルスケッチのための最適サブサンプリングポリシーを用いた学習生成埋め込み

Learning Generative Embeddings using an Optimal Subsampling Policy for Tensor Sketching ( http://arxiv.org/abs/2209.00372v1 )

ライセンス: Link先を確認
Chandrajit Bajaj, Taemin Heo, Rochan Avlur(参考訳) 順序 3 以上のデータテンソルが日常的に生成される。 これらのデータ収集はますます大きくなりつつある。 それらはテンソル場(画像、ビデオ、地理的データなど)であり、データのそれぞれの位置は重要な情報や置換不変な一般的なテンソル(例えば、教師なしラテント空間学習、グラフネットワーク解析、レコメンデーションシステムなど)を含む。 このような大規模なデータテンソルコレクションに直接アクセスすることは、ますます禁じられている。 テンソル場 (P-SCT) と一般テンソル (P-SCT-Permute) のコンパクトな空間, 時間, スペクトル埋め込みを提供する非共有表現を用いた近似フルランクおよびコンパクトテンソルスケッチを学習する。 その後のすべての情報クエリを高精度に生成スケッチ上で行う。 テンソルスライスのサンプル効率サブサンプリングからテンソルスケッチを構築することにより、任意の順序データテンソルの最適ランクrタッカー分解を生成する。 提案手法は,共役前駆体を用いたディリクレ分布を用いた適応確率トンプソンサンプリングにより学習した。

Data tensors of orders 3 and greater are routinely being generated. These data collections are increasingly huge and growing. They are either tensor fields (e.g., images, videos, geographic data) in which each location of data contains important information or permutation invariant general tensors (e.g., unsupervised latent space learning, graph network analysis, recommendation systems, etc.). Directly accessing such large data tensor collections for information has become increasingly prohibitive. We learn approximate full-rank and compact tensor sketches with decompositive representations providing compact space, time and spectral embeddings of both tensor fields (P-SCT) and general tensors (P-SCT-Permute). All subsequent information querying with high accuracy is performed on the generative sketches. We produce optimal rank-r Tucker decompositions of arbitrary order data tensors by building tensor sketches from a sample-efficient sub-sampling of tensor slices. Our sample efficient policy is learned via an adaptable stochastic Thompson sampling using Dirichlet distributions with conjugate priors.
翻訳日:2022-09-02 14:23:14 公開日:2022-09-01
# 適応解法による最適正則化オンライン凸割当

Optimal Regularized Online Convex Allocation by Adaptive Re-Solving ( http://arxiv.org/abs/2209.00399v1 )

ライセンス: Link先を確認
Wanteng Ma and Ying Cao and Danny H.K. Tsang and Dong Xia(参考訳) 本稿では, 累積凸報酬, ハードリソース制約, および非分離正則化器を有する, 正規化オンラインリソース割り当て問題を解決するための二元的アルゴリズムフレームワークを提案する。 資源制約を適応的に更新する戦略の下で、提案されたフレームワークは経験的双対問題の近似解を一定の精度まで要求するだけでなく、局所的に強い凸の仮定の下で最適な対数的後悔をもたらす。 驚いたことに、二重目的関数の微妙な解析により、後悔境界における悪名高いログ係数を排除できる。 フレキシブルなフレームワークは、例えば双対勾配勾配や確率勾配勾配など、有名で計算的に高速なアルゴリズムを直ちに適用する。 リソース制約が2つの最適化の間に適応的に更新されない場合、最悪の平方根後悔の低い境界が確立される。 総合的な数値実験と実データ応用は,提案するアルゴリズムフレームワークの利点を実証する。

This paper introduces a dual-based algorithm framework for solving the regularized online resource allocation problems, which have cumulative convex rewards, hard resource constraints, and a non-separable regularizer. Under a strategy of adaptively updating the resource constraints, the proposed framework only requests an approximate solution to the empirical dual problem up to a certain accuracy, and yet delivers an optimal logarithmic regret under a locally strongly convex assumption. Surprisingly, a delicate analysis of dual objective function enables us to eliminate the notorious loglog factor in regret bound. The flexible framework renders renowned and computationally fast algorithms immediately applicable, e.g., dual gradient descent and stochastic gradient descent. A worst-case square-root regret lower bound is established if the resource constraints are not adaptively updated during dual optimization, which underscores the critical role of adaptive dual variable update. Comprehensive numerical experiments and real data application demonstrate the merits of proposed algorithm framework.
翻訳日:2022-09-02 14:22:53 公開日:2022-09-01
# 単一量子システムによる量子古典的ハイブリッド情報処理

Quantum-Classical Hybrid Information Processing via a Single Quantum System ( http://arxiv.org/abs/2209.00497v1 )

ライセンス: Link先を確認
Quoc Hoan Tran, Sanjib Ghosh and Kohei Nakajima(参考訳) 量子ベースの通信における現在の技術は、ハイブリッド処理のための量子データと古典データとの新たな統合をもたらす。 しかしながら、これらの技術のフレームワークは単一の古典的または量子的なタスクに限定されており、短期的なアプリケーションにおける柔軟性を制限している。 古典的および量子的な入力を必要とする計算タスクにおいて量子力学を利用する量子貯水池プロセッサを提案する。 本発明のアナログプロセッサは、ネットワークに量子データが入射し、古典的なデータがネットワークを刺激するコヒーレントフィールドを介して符号化される量子ドットのネットワークを含む。 量子トモグラフィーと古典チャネルの非線形等化のマルチタスク応用を行う。 興味深いことに、トモグラフィーは古典データのフィードバック制御によってクローズドループ方式で行うことができる。 したがって、古典入力が力学系から来る場合、このシステムを閉ループに埋め込むことで、外部古典入力へのアクセスを中断してもハイブリッド処理が可能である。 最後に,量子データ処理のための新しい量子機械学習手法として,量子非分極チャネルの作成を示す。

Current technologies in quantum-based communications bring a new integration of quantum data with classical data for hybrid processing. However, the frameworks of these technologies are restricted to a single classical or quantum task, which limits their flexibility in near-term applications. We propose a quantum reservoir processor to harness quantum dynamics in computational tasks requiring both classical and quantum inputs. This analog processor comprises a network of quantum dots in which quantum data is incident to the network and classical data is encoded via a coherent field exciting the network. We perform a multitasking application of quantum tomography and nonlinear equalization of classical channels. Interestingly, the tomography can be performed in a closed-loop manner via the feedback control of classical data. Therefore, if the classical input comes from a dynamical system, embedding this system in a closed loop enables hybrid processing even if access to the external classical input is interrupted. Finally, we demonstrate preparing quantum depolarizing channels as a novel quantum machine learning technique for quantum data processing.
翻訳日:2022-09-02 14:22:36 公開日:2022-09-01
# SketchBetween:スケッチによるスプライトアニメーションのためのビデオ合成

SketchBetween: Video-to-Video Synthesis for Sprite Animation via Sketches ( http://arxiv.org/abs/2209.00185v1 )

ライセンス: Link先を確認
Dagmar Lukka Loftsd\'ottir and Matthew Guzdial(参考訳) 2dアニメーションは、キャラクター、エフェクト、背景アートに使用されるゲーム開発における一般的な要素である。 スキルと時間の両方を必要とする作業を伴うが、一部は反復的で退屈である。 自動アニメーションアプローチは存在するが、アニメーターを念頭に置いて設計されている。 オブジェクトの移動に関する厳格な法則に従っており、2Dアニメーションでしばしば見られるスタイル的な動きを考慮していない。 本稿では,アニメーションの標準的なワークフローに密着した問題定式化を提案する。 また、キーフレーム間のマッピングとスケッチによるスプライトアニメーションの描画を学ぶSketchBetweenというモデルもデモしています。 我々は,問題の定式化がタスクに必要な情報を提供し,モデルが既存の手法を上回ることを実証する。

2D animation is a common factor in game development, used for characters, effects and background art. It involves work that takes both skill and time, but parts of which are repetitive and tedious. Automated animation approaches exist, but are designed without animators in mind. The focus is heavily on real-life video, which follows strict laws of how objects move, and does not account for the stylistic movement often present in 2D animation. We propose a problem formulation that more closely adheres to the standard workflow of animation. We also demonstrate a model, SketchBetween, which learns to map between keyframes and sketched in-betweens to rendered sprite animations. We demonstrate that our problem formulation provides the required information for the task and that our model outperforms an existing method.
翻訳日:2022-09-02 14:21:29 公開日:2022-09-01
# Hermes: パーセプトロンベースのオフチップ負荷予測による長時間負荷要求の高速化

Hermes: Accelerating Long-Latency Load Requests via Perceptron-Based Off-Chip Load Prediction ( http://arxiv.org/abs/2209.00188v1 )

ライセンス: Link先を確認
Rahul Bera, Konstantinos Kanellopoulos, Shankar Balachandran, David Novo, Ataberk Olgun, Mohammad Sadrosadati, Onur Mutlu(参考訳) 長時間の遅延負荷要求は高性能プロセッサの性能を制限し続ける。 プロセッサのレイテンシ耐性を高めるため、アーキテクトは主に2つの重要な技術、洗練されたデータプリフェッチと大きなオンチップキャッシュに頼っている。 この研究で、私たちは次のように示します。 1)最先端のプリフェッチャーでさえ、さまざまなワークロードで平均でオフチップのロード要求の半分しか予測できない。 2) オンチップキャッシュのサイズと複雑さの増大により,オフチップ負荷要求のレイテンシの大部分がオンチップキャッシュ階層へのアクセスに費やされている。 この作業の目標は、オンチップのキャッシュアクセス遅延をクリティカルパスから削除することで、オフチップのロード要求を高速化することである。 この目的のために、我々はHermesと呼ばれる新しい手法を提案している。 1)どの負荷要求がオフチップになるかを正確に予測し、 2) 予測したオフチップロードに必要なデータをメインメモリから直接フェッチすると同時に,キャッシュ階層にも同時にアクセスする。 ヘルメスを実現するために,複数のプログラム機能(プログラムカウンタのシーケンスなど)を用いて,オフチップ負荷要求を識別することを学ぶための,新しい軽量なパーセプトロンベースのオフチップ負荷予測手法を開発した。 ロード要求毎に、予測者は一連のプログラム機能を観察し、負荷がオフチップになるかどうかを予測する。 負荷がオフチップになると予測された場合、Hermesは負荷の物理アドレスが生成されると、メモリコントローラに直接投機要求を発行する。 予測が正しければ、最終的に負荷はキャッシュ階層を逃し、進行中の投機的要求が終了するのを待つため、オンチップキャッシュ階層アクセスレイテンシはオフチップロードのクリティカルパスから隠される。 評価の結果,hermesは最先端のベースラインの性能を大幅に向上させた。 Hermesをオープンソースにしています。

Long-latency load requests continue to limit the performance of high-performance processors. To increase the latency tolerance of a processor, architects have primarily relied on two key techniques: sophisticated data prefetchers and large on-chip caches. In this work, we show that: 1) even a sophisticated state-of-the-art prefetcher can only predict half of the off-chip load requests on average across a wide range of workloads, and 2) due to the increasing size and complexity of on-chip caches, a large fraction of the latency of an off-chip load request is spent accessing the on-chip cache hierarchy. The goal of this work is to accelerate off-chip load requests by removing the on-chip cache access latency from their critical path. To this end, we propose a new technique called Hermes, whose key idea is to: 1) accurately predict which load requests might go off-chip, and 2) speculatively fetch the data required by the predicted off-chip loads directly from the main memory, while also concurrently accessing the cache hierarchy for such loads. To enable Hermes, we develop a new lightweight, perceptron-based off-chip load prediction technique that learns to identify off-chip load requests using multiple program features (e.g., sequence of program counters). For every load request, the predictor observes a set of program features to predict whether or not the load would go off-chip. If the load is predicted to go off-chip, Hermes issues a speculative request directly to the memory controller once the load's physical address is generated. If the prediction is correct, the load eventually misses the cache hierarchy and waits for the ongoing speculative request to finish, thus hiding the on-chip cache hierarchy access latency from the critical path of the off-chip load. Our evaluation shows that Hermes significantly improves performance of a state-of-the-art baseline. We open-source Hermes.
翻訳日:2022-09-02 14:21:16 公開日:2022-09-01
# マルチモーダル統合のためのプログレッシブフュージョン

Progressive Fusion for Multimodal Integration ( http://arxiv.org/abs/2209.00302v1 )

ライセンス: Link先を確認
Shiv Shankar, Laure Thompson, Madalina Fiterau(参考訳) さまざまなソースからのマルチモーダル情報の統合は、機械学習モデルのパフォーマンスを高めることが示されており、近年は注目を集めている。 このようなモデルは、しばしばディープモダリティ特有のネットワークを使用して、"late-fusion"表現を得るために結合されるユニモーダルな特徴を得る。 しかし、これらの設計は、各単調パイプラインにおいて情報損失のリスクを負う。 一方で、早期に特徴を結合する「早期融合」手法は、特徴の多様性や高いサンプルの複雑さに関連する問題に苦しむ。 本研究では,後期融合表現の問題を緩和するプログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。 モデル非依存手法では,後期融合表現を初期層に利用可能とし,それらの段階で表現の表現性を改善しつつ,後期融合設計の利点を保ちながら,後方接続を導入する。 情緒的感情検出,マルチメディア分析,時系列融合といったタスクのプログレッシブ融合を異なるモデルでテストし,その汎用性を示す。 提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。

Integration of multimodal information from various sources has been shown to boost the performance of machine learning models and thus has received increased attention in recent years. Often such models use deep modality-specific networks to obtain unimodal features which are combined to obtain "late-fusion" representations. However, these designs run the risk of information loss in the respective unimodal pipelines. On the other hand, "early-fusion" methodologies, which combine features early, suffer from the problems associated with feature heterogeneity and high sample complexity. In this work, we present an iterative representation refinement approach, called Progressive Fusion, which mitigates the issues with late fusion representations. Our model-agnostic technique introduces backward connections that make late stage fused representations available to early layers, improving the expressiveness of the representations at those stages, while retaining the advantages of late fusion designs. We test Progressive Fusion on tasks including affective sentiment detection, multimedia analysis, and time series fusion with different models, demonstrating its versatility. We show that our approach consistently improves performance, for instance attaining a 5% reduction in MSE and 40% improvement in robustness on multimodal time series prediction.
翻訳日:2022-09-02 14:20:46 公開日:2022-09-01
# 医療への応用のためのamlas方法論のレビュー

Review of the AMLAS Methodology for Application in Healthcare ( http://arxiv.org/abs/2209.00421v1 )

ライセンス: Link先を確認
Shakir Laher, Carla Brackstone, Sara Reis, An Nguyen, Sean White, Ibrahim Habli(参考訳) 近年、医療に対する規制当局の承認を得た機械学習(ml)技術の数は大幅に増加し、市場に投入されている。 しかしながら、それらに適用される規制フレームワークは、MLのデータ駆動と学習の振る舞いと比較して、主にルールベースの振る舞いを持つ従来のソフトウェアのために考案されたものだ。 フレームワークは改革の過程にあるため、患者の安全が損なわれないように、積極的にMLの安全性を保証する必要がある。 Assurance of Machine Learning for Use in Autonomous Systems (AMLAS) は、システム安全性の確立された概念に基づいて、Assuring Autonomy International Programmeによって開発された。 本総説では,ML製造業者に対して,現在の安全保証プラクティスの収束・分散,構造にギャップと限界があるか,医療分野に適用した場合の目的に適したか,などについて検討した。 本研究を通じて,医療用機械学習技術に適用した場合の安全保証方法論としてのAMLASの明確な有用性は明らかである。

In recent years, the number of machine learning (ML) technologies gaining regulatory approval for healthcare has increased significantly allowing them to be placed on the market. However, the regulatory frameworks applied to them were originally devised for traditional software, which has largely rule-based behaviour, compared to the data-driven and learnt behaviour of ML. As the frameworks are in the process of reformation, there is a need to proactively assure the safety of ML to prevent patient safety being compromised. The Assurance of Machine Learning for use in Autonomous Systems (AMLAS) methodology was developed by the Assuring Autonomy International Programme based on well-established concepts in system safety. This review has appraised the methodology by consulting ML manufacturers to understand if it converges or diverges from their current safety assurance practices, whether there are gaps and limitations in its structure and if it is fit for purpose when applied to the healthcare domain. Through this work we offer the view that there is clear utility for AMLAS as a safety assurance methodology when applied to healthcare machine learning technologies, although development of healthcare specific supplementary guidance would benefit those implementing the methodology.
翻訳日:2022-09-02 14:20:24 公開日:2022-09-01
# 大規模CTR予測のためのインクリメンタルラーニングフレームワーク

An Incremental Learning framework for Large-scale CTR Prediction ( http://arxiv.org/abs/2209.00458v1 )

ライセンス: Link先を確認
Petros Katsileros (1 and 2), Nikiforos Mandilaras (1 and 2), Dimitrios Mallis (1 and 2), Vassilis Pitsikalis (1 and 2), Stavros Theodorakis (1 and 2) and Gil Chamiel (2) ((1) Deeplab - Greece, (2) Taboola.com - Israel)(参考訳) 本稿では,クリックスルーレート(ctr)予測のためのインクリメンタル学習フレームワークを導入し,taboolaの大規模レコメンデーションサービスの有効性を示す。 このアプローチでは,既存のモデルからウォームスタートし,"フレッシュ"データのみを微調整することで,新たなトレンドを迅速に捉えることができる。 過去の知識は、教師が蒸留技術として働き、破滅的な忘れ物現象を緩和する教師-学生パラダイムを通じて維持される。 インクリメンタルな学習フレームワークは、トレーニングとデプロイメントサイクル(x12スピードアップ)を大幅に高速化します。 我々は、複数のトラフィックセグメントをまたいだ一貫した収益パーミル(RPM)リフトと、新しく導入されたアイテムに対するCTRの大幅な増加を示す。

In this work we introduce an incremental learning framework for Click-Through-Rate (CTR) prediction and demonstrate its effectiveness for Taboola's massive-scale recommendation service. Our approach enables rapid capture of emerging trends through warm-starting from previously deployed models and fine tuning on "fresh" data only. Past knowledge is maintained via a teacher-student paradigm, where the teacher acts as a distillation technique, mitigating the catastrophic forgetting phenomenon. Our incremental learning framework enables significantly faster training and deployment cycles (x12 speedup). We demonstrate a consistent Revenue Per Mille (RPM) lift over multiple traffic segments and a significant CTR increase on newly introduced items.
翻訳日:2022-09-02 14:20:05 公開日:2022-09-01
# Marginalized Graph Kernelに基づく能動学習による効率的な化学空間探索:分子シミュレーションによるアルカンの熱力学特性予測への応用

Efficient Chemical Space Exploration Using Active Learning Based on Marginalized Graph Kernel: an Application for Predicting the Thermodynamic Properties of Alkanes with Molecular Simulation ( http://arxiv.org/abs/2209.00514v1 )

ライセンス: Link先を確認
Yan Xiang, Yu-Hang Tang, Zheng Gong, Hongyi Liu, Liang Wu, Guang Lin, Huai Sun(参考訳) 本稿では,gaussian process regression and marginalized graph kernel (gpr-mgk)に基づく探索的アクティブラーニング(al)アルゴリズムを導入し,最小コストで化学空間を探索する。 高出力分子動力学シミュレーションを用いてデータとグラフニューラルネットワーク(GNN)の予測を行い、熱力学特性予測のための能動的学習分子シミュレーションフレームワークを構築した。 具体的には, 4〜19個の炭素原子からなる251,728個のアルカン分子とその液体物性, 密度, 熱容量, 気化エンタルピーを対象とし, ALアルゴリズムを用いて化学空間を表す最も情報性の高い分子を選択する。 計算および実験用テストセットの検証では、計算用テストセットに$\rm R^2 > 0.99$、実験用テストセットに$\rm R^2 > 0.94$の正確なGNNモデルを訓練するのに十分な分子は313分子 (0.124 %) しかなかった。 高スループットデータ生成と信頼性の高い不確実性定量化の2つの利点を浮き彫りにした。

We introduce an explorative active learning (AL) algorithm based on Gaussian process regression and marginalized graph kernel (GPR-MGK) to explore chemical space with minimum cost. Using high-throughput molecular dynamics simulation to generate data and graph neural network (GNN) to predict, we constructed an active learning molecular simulation framework for thermodynamic property prediction. In specific, targeting 251,728 alkane molecules consisting of 4 to 19 carbon atoms and their liquid physical properties: densities, heat capacities, and vaporization enthalpies, we use the AL algorithm to select the most informative molecules to represent the chemical space. Validation of computational and experimental test sets shows that only 313 (0.124\% of the total) molecules were sufficient to train an accurate GNN model with $\rm R^2 > 0.99$ for computational test sets and $\rm R^2 > 0.94$ for experimental test sets. We highlight two advantages of the presented AL algorithm: compatibility with high-throughput data generation and reliable uncertainty quantification.
翻訳日:2022-09-02 14:19:51 公開日:2022-09-01
# シナジスティックインメモリ・プルーニングとオンチップ・リ計算によるスパースアテンション高速化

Sparse Attention Acceleration with Synergistic In-Memory Pruning and On-Chip Recomputation ( http://arxiv.org/abs/2209.00606v1 )

ライセンス: Link先を確認
Amir Yazdanbakhsh, Ashkan Moradifirouzabadi, Zheng Li, Mingu Kang(参考訳) 中心となる計算として、セルフアテンション機構は入力列全体の対関係を計測する。 良好な性能にもかかわらず、ペアの相関を計算するのは非常にコストがかかる。 最近の研究は、低い注意点を持つ要素の実行時のプルーニングの利点を示しているが、自己注意機構の2次複雑さとオンチップメモリ容量の要求は見過ごされている。 この研究はSPRINTと呼ばれる加速器を設計することでこれらの制約に対処し、これはReRAMクロスバーアレイの固有の並列性を利用して、近似的に注意スコアを計算する。 我々の設計では、ReRAM内の軽量アナログしきい値回路を用いて低アテンションスコアを推定し、SPRINTは関連するデータの小さなサブセットのみをオンチップメモリに取得できる。 モデル精度に対する潜在的な負の反感を軽減するため、SPRINTはデジタルで取得された数少ないデータに対する注意スコアを再計算する。 関連する注意スコアのメモリ内プルーニングとオンチップ再計算の組み合わせにより、スプリントは二次複雑性を単に線形なものに変換できる。 さらに,pruning後でも隣接したアテンション操作間の動的空間的局所性を識別し,活用することで,コスト的かつ冗長なデータフェッチを解消する。 提案手法を多種多様な最先端変圧器モデルで評価する。 平均すると、スプリントは16kbのオンチップメモリを使用すると7.5倍のスピードアップと19.6倍のエネルギー削減をもたらすが、ベースラインモデルのiso精度とほぼ同等である(平均0.36%の劣化)。

As its core computation, a self-attention mechanism gauges pairwise correlations across the entire input sequence. Despite favorable performance, calculating pairwise correlations is prohibitively costly. While recent work has shown the benefits of runtime pruning of elements with low attention scores, the quadratic complexity of self-attention mechanisms and their on-chip memory capacity demands are overlooked. This work addresses these constraints by architecting an accelerator, called SPRINT, which leverages the inherent parallelism of ReRAM crossbar arrays to compute attention scores in an approximate manner. Our design prunes the low attention scores using a lightweight analog thresholding circuitry within ReRAM, enabling SPRINT to fetch only a small subset of relevant data to on-chip memory. To mitigate potential negative repercussions for model accuracy, SPRINT re-computes the attention scores for the few fetched data in digital. The combined in-memory pruning and on-chip recompute of the relevant attention scores enables SPRINT to transform quadratic complexity to a merely linear one. In addition, we identify and leverage a dynamic spatial locality between the adjacent attention operations even after pruning, which eliminates costly yet redundant data fetches. We evaluate our proposed technique on a wide range of state-of-the-art transformer models. On average, SPRINT yields 7.5x speedup and 19.6x energy reduction when total 16KB on-chip memory is used, while virtually on par with iso-accuracy of the baseline models (on average 0.36% degradation).
翻訳日:2022-09-02 14:19:25 公開日:2022-09-01
# flame: フリーフォーム言語ベースのモーション合成と編集

FLAME: Free-form Language-based Motion Synthesis & Editing ( http://arxiv.org/abs/2209.00349v1 )

ライセンス: Link先を確認
Jihoon Kim, Jiseob Kim, Sungjoon Choi(参考訳) テキストベースのモーション生成モデルは、ゲーム、アニメーション、ロボット産業におけるモーション作成プロセスを自動化する可能性への関心が高まっている。 本稿では,FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。 近年の拡散モデルの成功に触発されて、拡散に基づく生成モデルを運動領域に統合する。 FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。 また、フレームとジョイントの両方で、微調整することなく、モーションの一部を編集できる。 FLAMEには、より優れた動きデータを扱うために考案した新しいトランスフォーマーベースのアーキテクチャが含まれています。 実験の結果,FLAMEはHumanML3D,BABEL,KITの3つのテキスト・モーション・データセット上で,最先端のテキスト生成性能を実現することがわかった。 また,フレイムの編集機能を,従来専用モデルでカバーされていた動作予測や動作間移動といった他のタスクにも拡張可能であることを実証した。

Text-based motion generation models are drawing a surge of interest for their potential for automating the motion-making process in the game, animation, or robot industries. In this paper, we propose a diffusion-based motion synthesis and editing model named FLAME. Inspired by the recent successes in diffusion models, we integrate diffusion-based generative models into the motion domain. FLAME can generate high-fidelity motions well aligned with the given text. Also, it can edit the parts of the motion, both frame-wise and joint-wise, without any fine-tuning. FLAME involves a new transformer-based architecture we devise to better handle motion data, which is found to be crucial to manage variable-length motions and well attend to free-form text. In experiments, we show that FLAME achieves state-of-the-art generation performances on three text-motion datasets: HumanML3D, BABEL, and KIT. We also demonstrate that editing capability of FLAME can be extended to other tasks such as motion prediction or motion in-betweening, which have been previously covered by dedicated models.
翻訳日:2022-09-02 14:15:14 公開日:2022-09-01
# GANによるモーフィング攻撃の検出について

On the detection of morphing attacks generated by GANs ( http://arxiv.org/abs/2209.00404v1 )

ライセンス: Link先を確認
Laurent Colbois, S\'ebastien Marcel(参考訳) 近年の研究では、従来のランドマークベースの手法と同様の成功率に達するGANベースのモーフィング攻撃の可能性を示している。 この新しいタイプの「深い」形態は、顔認識システムを保護するための新しい適切な検出器の開発を必要とするかもしれない。 本研究では,スペクトル特徴とlppヒストグラム特徴に基づく簡易な深部形態検出ベースラインと,データセット内およびデータセット横断の場合のcnnモデルについて検討する。 単純なLPPベースのシステムはすでに、データセット内設定においてかなり正確であるが、これらのシステムの一部をスコアレベルで融合させることによって部分的に緩和される一般化に苦慮している。 GAN画像検出に有効な事前トレーニングされたResNetが最も有効であり、精度は完璧に近いと結論付けている。 しかしながら, LBP ベースのシステムは, 計算能力の低下と CNN に対する解釈可能性の向上に加えて, LBP+ResNet 融合では, 性能が ResNet のみに比例する場合があり, LBP ベースのシステムは CNN 検出器で必ずしも拾われない有意義な信号に集中できることを示している。

Recent works have demonstrated the feasibility of GAN-based morphing attacks that reach similar success rates as more traditional landmark-based methods. This new type of "deep" morphs might require the development of new adequate detectors to protect face recognition systems. We explore simple deep morph detection baselines based on spectral features and LBP histograms features, as well as on CNN models, both in the intra-dataset and cross-dataset case. We observe that simple LBP-based systems are already quite accurate in the intra-dataset setting, but struggle with generalization, a phenomenon that is partially mitigated by fusing together several of those systems at score-level. We conclude that a pretrained ResNet effective for GAN image detection is the most effective overall, reaching close to perfect accuracy. We note however that LBP-based systems maintain a level of interest : additionally to their lower computational requirements and increased interpretability with respect to CNNs, LBP+ResNet fusions sometimes also showcase increased performance versus ResNet-only, hinting that LBP-based systems can focus on meaningful signal that is not necessarily picked up by the CNN detector.
翻訳日:2022-09-02 14:14:58 公開日:2022-09-01
# セル・インスタンス・セグメンテーションにおける色変化の影響に関する研究

Adversarial Stain Transfer to Study the Effect of Color Variation on Cell Instance Segmentation ( http://arxiv.org/abs/2209.00585v1 )

ライセンス: Link先を確認
Huaqian Wu, Nicolas Souedet, Camille Mabillon, Caroline Jan, C\'edric Clouchoux, Thierry Delzescaux(参考訳) 各種因子による組織像の染色色変化は、病理学者の視覚的診断だけでなく、細胞分画アルゴリズムにおいても課題となっている。 色変化を解消するため,多くの染色正規化手法が提案されている。 しかし, ほとんどがヘマトキシリンおよびエオシン染色画像用に設計され, 免疫組織化学的染色画像では不十分であった。 現在のセルセグメンテーション法では, 染色の正規化を前処理段階として体系的に適用しているが, 色変化による影響は定量化されていない。 本稿では,異なる色のNeuN染色画像の5つのグループを作成した。 組織像群間の色移動に深層学習画像再構成法を適用した。 最後に,セグメンテーションセットの色を変え,セルセグメンテーションにおける色変化の影響を定量化した。 その結果,その後の分析に先立って色正規化の必要性が示された。

Stain color variation in histological images, caused by a variety of factors, is a challenge not only for the visual diagnosis of pathologists but also for cell segmentation algorithms. To eliminate the color variation, many stain normalization approaches have been proposed. However, most were designed for hematoxylin and eosin staining images and performed poorly on immunohistochemical staining images. Current cell segmentation methods systematically apply stain normalization as a preprocessing step, but the impact brought by color variation has not been quantitatively investigated yet. In this paper, we produced five groups of NeuN staining images with different colors. We applied a deep learning image-recoloring method to perform color transfer between histological image groups. Finally, we altered the color of a segmentation set and quantified the impact of color variation on cell segmentation. The results demonstrated the necessity of color normalization prior to subsequent analysis.
翻訳日:2022-09-02 14:14:37 公開日:2022-09-01
# STAR-RIS支援ネットワークにおけるDRLのカバーとキャパシティ最適化

DRL Enabled Coverage and Capacity Optimization in STAR-RIS Assisted Networks ( http://arxiv.org/abs/2209.00511v1 )

ライセンス: Link先を確認
Xinyu Gao, Wenqiang Yi, Yuanwei Liu, Jianhua Zhang, Ping Zhang(参考訳) 再構成可能なインテリジェントサーフェス(STAR-RISs)は、インシデント信号の送信とリフレクションを同時に行うことで、フルスペースカバレッジに寄与する有望なパッシブデバイスである。 無線通信における新しいパラダイムとして、STAR-RISのカバレッジとキャパシティ性能を分析する方法が不可欠であるが、難しい。 STAR-RIS支援ネットワークにおけるカバレッジとキャパシティ最適化(CCO)の問題を解決するために,従来の最適化アルゴリズムよりも長期的利益を扱うために,MO-PPOアルゴリズムを提案する。 それぞれの目的のバランスをとるために、MO-PPOアルゴリズムは最適解のセットを提供し、PF上の任意の解を最適結果と見なすパレートフロント(PF)を形成する。 さらに,MO-PPOアルゴリズムの性能向上のために,アクション値ベースの更新戦略(AVUS)と損失関数ベースの更新戦略(LFUS)の2つの更新戦略を検討した。 AVUSでは、改善されたポイントは、カバレッジとキャパシティの両方のアクション値を統合し、損失関数を更新することである。 LFUSでは、改善点は、カバーとキャパシティの両方の損失関数に動的重みを割り当てることに過ぎず、その重みは更新毎にmin-normソルバによって計算される。 解析の結果,提案手法は,サンプルグリッド数,STAR-RIS数,STAR-RIS数,STAR-RISのサイズなど,様々なケースにおいて,固定重み付けMO最適化アルゴリズムよりも優れていることがわかった。 さらにSTAR-RISはSTAR-RISを使わずに従来の無線ネットワークよりも優れた性能を実現する。 さらに、同じ帯域幅で、ミリ波はサブ-6ghzよりも高い容量を提供することができるが、カバー幅は小さい。

Simultaneously transmitting and reflecting reconfigurable intelligent surfaces (STAR-RISs) is a promising passive device that contributes to a full-space coverage via transmitting and reflecting the incident signal simultaneously. As a new paradigm in wireless communications, how to analyze the coverage and capacity performance of STAR-RISs becomes essential but challenging. To solve the coverage and capacity optimization (CCO) problem in STAR-RIS assisted networks, a multi-objective proximal policy optimization (MO-PPO) algorithm is proposed to handle long-term benefits than conventional optimization algorithms. To strike a balance between each objective, the MO-PPO algorithm provides a set of optimal solutions to form a Pareto front (PF), where any solution on the PF is regarded as an optimal result. Moreover, in order to improve the performance of the MO-PPO algorithm, two update strategies, i.e., action-value-based update strategy (AVUS) and loss function-based update strategy (LFUS), are investigated. For the AVUS, the improved point is to integrate the action values of both coverage and capacity and then update the loss function. For the LFUS, the improved point is only to assign dynamic weights for both loss functions of coverage and capacity, while the weights are calculated by a min-norm solver at every update. The numerical results demonstrated that the investigated update strategies outperform the fixed weights MO optimization algorithms in different cases, which includes a different number of sample grids, the number of STAR-RISs, the number of elements in the STAR-RISs, and the size of STAR-RISs. Additionally, the STAR-RIS assisted networks achieve better performance than conventional wireless networks without STAR-RISs. Moreover, with the same bandwidth, millimeter wave is able to provide higher capacity than sub-6 GHz, but at a cost of smaller coverage.
翻訳日:2022-09-02 14:14:24 公開日:2022-09-01
# 高次元条件因子モデル推定のための統一的枠組み

A Unified Framework for Estimation of High-dimensional Conditional Factor Models ( http://arxiv.org/abs/2209.00391v1 )

ライセンス: Link先を確認
Qihui Chen(参考訳) 本稿では,核ノルム正規化による高次元条件因子モデル推定のための一般的な枠組みを開発する。 提案手法は,推定器の大規模なサンプル特性を確立し,推定器を見つけるための効率的な計算アルゴリズムと正規化パラメータを選択するための相互検証手法を提供する。 一般的なフレームワークでは、様々な条件因子モデルを統一的に推定し、新しい漸近的な結果を迅速に得ることができる。 本手法は, 個々の米国株リターンの断面分析に応用し, 均質性がモデル外予測性を改善する可能性を見出した。

This paper develops a general framework for estimation of high-dimensional conditional factor models via nuclear norm regularization. We establish large sample properties of the estimators, and provide an efficient computing algorithm for finding the estimators as well as a cross validation procedure for choosing the regularization parameter. The general framework allows us to estimate a variety of conditional factor models in a unified way and quickly deliver new asymptotic results. We apply the method to analyze the cross section of individual US stock returns, and find that imposing homogeneity may improve the model's out-of-sample predictability.
翻訳日:2022-09-02 14:13:12 公開日:2022-09-01
# STDEN:交通流予測のための物理誘導ニューラルネットワークを目指して

STDEN: Towards Physics-Guided Neural Networks for Traffic Flow Prediction ( http://arxiv.org/abs/2209.00225v1 )

ライセンス: Link先を確認
Jiahao Ji, Jingyuan Wang, Zhe Jiang, Jiawei Jiang, Hu Zhang(参考訳) インテリジェントトランスポーテーションシステムの中核技術である高性能交通流予測モデルの設計は、長年にわたるが、産業と学術のコミュニティにとって難しい課題である。 物理原則とデータ駆動モデルの統合の欠如は、この分野の開発を制限する重要な理由である。 文献では、物理に基づく手法は通常、トラフィックフローシステムの動的過程の明確な解釈を提供することができるが、精度は限られており、データ駆動手法、特にブラックボックス構造を用いた深層学習は、性能が向上するが、合理的な物理的基盤が欠如しているため、完全に信頼できない。 純粋にデータ駆動型と物理駆動型のアプローチのギャップを埋めるため,深層ニューラルネットワークフレームワークにトラフィックフローダイナミクスの物理機構を組み込む,時空間微分方程式ネットワーク(STDEN)という物理誘導型ディープラーニングモデルを提案する。 具体的には、道路網上の交通の流れは(水流が重力場によって駆動されるような)潜在ポテンシャルエネルギー場によって駆動されるものと仮定し、ポテンシャルエネルギー場の時空間動的過程を微分方程式ネットワークとしてモデル化する。 STDENは、データ駆動モデルの性能優位性と物理学に基づくモデルの解釈可能性の両方を吸収し、物理誘導予測モデルと呼ばれる。 北京の3つの実世界の交通データセットの実験では、我々のモデルは最先端のベースラインをかなり上回っている。 ケーススタディでは,STDENが都市交通のメカニズムを把握し,物理的な意味で正確な予測を生成できることを確認した。 微分方程式ネットワークモデリングの枠組みは、他の類似の応用にも光を当てることができる。

High-performance traffic flow prediction model designing, a core technology of Intelligent Transportation System, is a long-standing but still challenging task for industrial and academic communities. The lack of integration between physical principles and data-driven models is an important reason for limiting the development of this field. In the literature, physics-based methods can usually provide a clear interpretation of the dynamic process of traffic flow systems but are with limited accuracy, while data-driven methods, especially deep learning with black-box structures, can achieve improved performance but can not be fully trusted due to lack of a reasonable physical basis. To bridge the gap between purely data-driven and physics-driven approaches, we propose a physics-guided deep learning model named Spatio-Temporal Differential Equation Network (STDEN), which casts the physical mechanism of traffic flow dynamics into a deep neural network framework. Specifically, we assume the traffic flow on road networks is driven by a latent potential energy field (like water flows are driven by the gravity field), and model the spatio-temporal dynamic process of the potential energy field as a differential equation network. STDEN absorbs both the performance advantage of data-driven models and the interpretability of physics-based models, so is named a physics-guided prediction model. Experiments on three real-world traffic datasets in Beijing show that our model outperforms state-of-the-art baselines by a significant margin. A case study further verifies that STDEN can capture the mechanism of urban traffic and generate accurate predictions with physical meaning. The proposed framework of differential equation network modeling may also cast light on other similar applications.
翻訳日:2022-09-02 14:09:34 公開日:2022-09-01
# 道路網の大規模自己回帰モデリング

Large-Scale Auto-Regressive Modeling Of Street Networks ( http://arxiv.org/abs/2209.00281v1 )

ライセンス: Link先を確認
Michael Birsak, Tom Kelly, Wamiq Para, Peter Wonka(参考訳) 本稿では,都市規模の道路レイアウト作成のための新しい生成手法を提案する。 近年の手法の出力はカバー面積と多様性の両面で制限されているが,本フレームワークは,400平方キロメートル以上の道路網を網羅する頂点と辺からなる,高品質な大規模トラバーサブルグラフを生成する。 我々のフレームワークは一般的な2D埋め込みグラフを処理できるが、トレーニングデータの普及により、ストリートネットワークに注目する。 私たちの生成フレームワークは、スライディングウィンドウ方式でインデックスのフィールドを予測するトランスデコーダで構成されており、各インデックスはローカル近傍の表現をエンコードしています。 各インデックスの意味は、文脈ベクトルの辞書によって決定される。 次にインデックスフィールドがデコーダに入力され、ストリートグラフが計算される。 OpenStreetMapのデータを使って、私たちは都市全体、さらには米国などの大国でも、私たちのシステムをトレーニングし、最終的に最先端のアートと比較します。

We present a novel generative method for the creation of city-scale road layouts. While the output of recent methods is limited in both size of the covered area and diversity, our framework produces large traversable graphs of high quality consisting of vertices and edges representing complete street networks covering 400 square kilometers or more. While our framework can process general 2D embedded graphs, we focus on street networks due to the wide availability of training data. Our generative framework consists of a transformer decoder that is used in a sliding window manner to predict a field of indices, with each index encoding a representation of the local neighborhood. The semantics of each index is determined by a dictionary of context vectors. The index field is then input to a decoder to compute the street graph. Using data from OpenStreetMap, we train our system on whole cities and even across large countries such as the US, and finally compare it to the state of the art.
翻訳日:2022-09-02 14:09:06 公開日:2022-09-01
# 敗血症早期診断における予測とプライバシ向上のためのセンシングニューラルネットワーク

Ensembling Neural Networks for Improved Prediction and Privacy in Early Diagnosis of Sepsis ( http://arxiv.org/abs/2209.00439v1 )

ライセンス: Link先を確認
Shigehiko Schamoni, Michael Hagmann, Stefan Riezler(参考訳) ニューラルネットワークの組み立ては、委員会決定を通じてネットワークと直交特性を組み合わせることにより、ニューラルネットワークの一般化エラーを改善するための長年のテクニックである。 第一に、アンサンブルは並列および非同期学習に適しており、患者固有のコンポーネントニューラルネットワークの効率的なトレーニングを可能にする。 第二に、非相関性のある患者特化ネットワークを選択して一般化誤差を最小化するアイデアに基づいて、より大規模なプールデータセットで訓練された単一のモデルよりも優れた数個の患者特化モデルのアンサンブルを構築することができることを示す。 第3に、患者固有のネットワークのプライバシを保証するために出力摂動を適用するための最適低次元エントリポイントである。 臨床専門家によってラベル付けされた実生活集中治療単位データを用いて,敗血症早期予測作業における個人差分アンサンブルの枠組みを実証する。

Ensembling neural networks is a long-standing technique for improving the generalization error of neural networks by combining networks with orthogonal properties via a committee decision. We show that this technique is an ideal fit for machine learning on medical data: First, ensembles are amenable to parallel and asynchronous learning, thus enabling efficient training of patient-specific component neural networks. Second, building on the idea of minimizing generalization error by selecting uncorrelated patient-specific networks, we show that one can build an ensemble of a few selected patient-specific models that outperforms a single model trained on much larger pooled datasets. Third, the non-iterative ensemble combination step is an optimal low-dimensional entry point to apply output perturbation to guarantee the privacy of the patient-specific networks. We exemplify our framework of differentially private ensembles on the task of early prediction of sepsis, using real-life intensive care unit data labeled by clinical experts.
翻訳日:2022-09-02 14:08:52 公開日:2022-09-01
# 不均一グラフツリーネットワーク

Heterogeneous Graph Tree Networks ( http://arxiv.org/abs/2209.00610v1 )

ライセンス: Link先を確認
Nan Wu, Chaofan Wang(参考訳) 異種グラフニューラルネットワーク(HGNN)は近年,研究の関心が高まっている。 ほとんどの既存のHGNNは2つのクラスに分類される。 1つのクラスはメタパスベースのhgnnで、ハンドクラフトメタパスにドメイン知識を必要とするか、メタパスを自動的に構築するために膨大な時間とメモリを消費する。 他のクラスはメタパス構成に依存しない。 同種畳み込みグラフニューラルネットワーク(Conv-GNN)をバックボーンとし、ノード型およびエッジ型依存パラメータを導入して異種グラフに拡張する。 メタパスの依存関係にかかわらず、既存のHGNNはGCNやGATなどの浅いConv-GNNを使用して近隣情報を集約し、高次の地区の情報を取得する能力に制限がある。 本研究では,ヘテロジニアスグラフ木畳み込みネットワーク(HetGTCN)とヘテロジニアスグラフ木アテンションネットワーク(HetGTAN)の2つの異種グラフ木ネットワークモデルを提案する。 3つの実世界の異種グラフデータに対する大規模な実験により、提案したHetGTCNとHetGTANは、半教師付きノード分類タスクにおける最先端のHGNNベースラインを効率的かつ一貫して上回り、性能を損なうことなく深く進むことができることを示した。

Heterogeneous graph neural networks (HGNNs) have attracted increasing research interest in recent three years. Most existing HGNNs fall into two classes. One class is meta-path-based HGNNs which either require domain knowledge to handcraft meta-paths or consume huge amount of time and memory to automatically construct meta-paths. The other class does not rely on meta-path construction. It takes homogeneous convolutional graph neural networks (Conv-GNNs) as backbones and extend them to heterogeneous graphs by introducing node-type- and edge-type-dependent parameters. Regardless of the meta-path dependency, most existing HGNNs employ shallow Conv-GNNs such as GCN and GAT to aggregate neighborhood information, and may have limited capability to capture information from high-order neighborhood. In this work, we propose two heterogeneous graph tree network models: Heterogeneous Graph Tree Convolutional Network (HetGTCN) and Heterogeneous Graph Tree Attention Network (HetGTAN), which do not rely on meta-paths to encode heterogeneity in both node features and graph structure. Extensive experiments on three real-world heterogeneous graph data demonstrate that the proposed HetGTCN and HetGTAN are efficient and consistently outperform all state-of-the-art HGNN baselines on semi-supervised node classification tasks, and can go deep without compromising performance.
翻訳日:2022-09-02 14:08:09 公開日:2022-09-01
# 微分可能アルゴリズムによる学習

Learning with Differentiable Algorithms ( http://arxiv.org/abs/2209.00616v1 )

ライセンス: Link先を確認
Felix Petersen(参考訳) ニューラルネットワークのような古典的なアルゴリズムと機械学習システムはどちらも日常生活に豊富です。 古典的なコンピュータサイエンスアルゴリズムは、大きなグラフで最短経路を見つけるなど、正確に定義されたタスクの正確な実行に適しているが、ニューラルネットワークは、画像分類のようなより複雑なタスクにおいて、データから学習することで、最も可能性の高い答えを予測できる。 両方の世界を最大限に活用するために、この論文は、より堅牢で、より良いパフォーマンス、より解釈可能で、計算効率が高く、よりデータ効率の良いアーキテクチャへと導く2つの概念を組み合わせたものである。 この論文はアルゴリズムの監督という概念を定式化し、ニューラルネットワークがアルゴリズムから、あるいはアルゴリズムと連動して学習できるようにする。 アルゴリズムをニューラルネットワークに統合する場合、アーキテクチャをエンドツーエンドに訓練し、勾配をアルゴリズムを通じて有意義な方法で伝播させることができるように、アルゴリズムが微分可能であることが重要である。 アルゴリズムを微分可能にするために、この論文は変数を摂動させ、期待値を閉形式、すなわちサンプリングせずに近似することでアルゴリズムを連続的に緩和する一般的な方法を提案する。 さらに、この論文は微分可能ソートネットワーク、微分可能レンダラ、微分可能論理ゲートネットワークなどの微分可能アルゴリズムを提案する。 最後に、この論文はアルゴリズムで学ぶための代替のトレーニング戦略を示す。

Classic algorithms and machine learning systems like neural networks are both abundant in everyday life. While classic computer science algorithms are suitable for precise execution of exactly defined tasks such as finding the shortest path in a large graph, neural networks allow learning from data to predict the most likely answer in more complex tasks such as image classification, which cannot be reduced to an exact algorithm. To get the best of both worlds, this thesis explores combining both concepts leading to more robust, better performing, more interpretable, more computationally efficient, and more data efficient architectures. The thesis formalizes the idea of algorithmic supervision, which allows a neural network to learn from or in conjunction with an algorithm. When integrating an algorithm into a neural architecture, it is important that the algorithm is differentiable such that the architecture can be trained end-to-end and gradients can be propagated back through the algorithm in a meaningful way. To make algorithms differentiable, this thesis proposes a general method for continuously relaxing algorithms by perturbing variables and approximating the expectation value in closed form, i.e., without sampling. In addition, this thesis proposes differentiable algorithms, such as differentiable sorting networks, differentiable renderers, and differentiable logic gate networks. Finally, this thesis presents alternative training strategies for learning with algorithms.
翻訳日:2022-09-02 14:07:42 公開日:2022-09-01
# 書評に隠れた著作家バイアス

Hidden Author Bias in Book Recommendation ( http://arxiv.org/abs/2209.00371v1 )

ライセンス: Link先を確認
Savvina Daniil, Mirjam Cuper, Cynthia C.S. Liem, Jacco van Ossenbruggen, Laura Hollink(参考訳) 協調フィルタリングアルゴリズムは、レコメンデーションを提供するためにセンシティブなユーザやアイテムの情報を必要としないという利点がある。 しかし、それでも人気バイアスのような公平な問題に苦しんでいる。 本研究では,研究者に付加的なユーザ情報やアイテム情報が提供されない場合,人気バイアスが他のバイアスにつながる場合が多いことを論じる。 本論文では,本格付データセットを用いて本推薦事例の仮説を検証した。 公開されている外部ソースを使用して著者情報を豊かにします。 人気書籍は,主に米国市民がデータセットで執筆し,それらの書籍は,ユーザのプロファイルと比較して,一般的な協調フィルタリングアルゴリズムによって不釣り合いに推奨される傾向がみられた。 我々は,人気バイアスの社会的含意を,学者コミュニティによってさらに検討すべきだと結論づける。

Collaborative filtering algorithms have the advantage of not requiring sensitive user or item information to provide recommendations. However, they still suffer from fairness related issues, like popularity bias. In this work, we argue that popularity bias often leads to other biases that are not obvious when additional user or item information is not provided to the researcher. We examine our hypothesis in the book recommendation case on a commonly used dataset with book ratings. We enrich it with author information using publicly available external sources. We find that popular books are mainly written by US citizens in the dataset, and that these books tend to be recommended disproportionally by popular collaborative filtering algorithms compared to the users' profiles. We conclude that the societal implications of popularity bias should be further examined by the scholar community.
翻訳日:2022-09-02 14:07:19 公開日:2022-09-01
# マルチAIコンペティションの可能性と意義

Possibilities and Implications of the Multi-AI Competition ( http://arxiv.org/abs/2209.00509v1 )

ライセンス: Link先を確認
Jialin Wu(参考訳) スーパーAIが世界を支配する可能性については、多くの学者が集中的に研究している。 本稿では,スーパーAIのパワーを前提としたマルチAI競争シナリオに焦点を当てる。 まず、単AI支配を支持する既存の議論の欠陥を指摘し、マルチAI競争に有利な議論を提示する。 記事は、マルチAI競争状況は無視できない可能性である、と結論付けている。 そして、マルチAIコンペティションが、単一のAIが力を持っている状況よりも、人類全体の利益にとって良いかどうかに注意が向けられる。 ベスト、ワースト、中間のシナリオを分析した後、記事はマルチaiコンペティションは人類にとってより良いと結論付けている。 最後に、複数のAIのベストケースシナリオの形成に関連する要因を考慮して、この記事では、AI開発における現在のイニシアティブについて提案する。

The possibility of super-AIs taking over the world has been intensively studied by numerous scholars. This paper focuses on the multi-AI competition scenario under the premise of super-AIs in power. Firstly, the article points out the defects of existing arguments supporting single-AI domination and presents arguments in favour of multi-AI competition. Then the article concludes that the multi-AI competition situation is a non-negligible possibility. Attention then turns to whether multi-AI competition is better for the overall good of humanity than a situation where a single AI is in power. After analysing the best, worst, and intermediate scenarios, the article concludes that multi-AI competition is better for humanity. Finally, considering the factors related to the formation of the best-case scenario of multiple AIs, the article gives some suggestions for current initiatives in AI development.
翻訳日:2022-09-02 14:07:07 公開日:2022-09-01
# 不完全なオブザーバを爆発させるほぼ確実な意図的偽装計画について

On Almost-Sure Intention Deception Planning that Exploits Imperfect Observers ( http://arxiv.org/abs/2209.00573v1 )

ライセンス: Link先を確認
Jie Fu(参考訳) 意図的な騙しは、エージェントの意図や目的に対する間違った信念に敵を欺く戦略を計算することを含む。 本稿では,意図を隠蔽しながら攻撃目標をほぼ確実に達成するために,意図を欺いた確率的計画問題の類型を検証し,攻撃者による限定的な知覚的モダリティの活用方法について検討する。 特に,マルコフ決定過程(MDP)をモデル化した確率的システムによる攻撃計画のモデル化を行う。 攻撃者はシステム内の安全でない状態を避けながらターゲット状態に到達し、その振る舞いが部分的に観察されたディフェンダーによって監視されていることを知る。 ディフェンダーに対する部分的状態観察を前提として,アクション可視ディフェンダーとアクション不可視ディフェンダーとをそれぞれ対戦させる攻撃戦略を構築する定性的意図推論計画アルゴリズムを開発した。 合成された攻撃戦略は、攻撃目標がほぼ確実に満たされることを保証するだけでなく、観察された動作が正常/正規のユーザによって発生し、攻撃の存在を検知できないという信念をディフェンダーを欺く。 提案アルゴリズムは正確かつ完全であることを示すとともに,擬似計画手法を例示する。

Intention deception involves computing a strategy which deceives the opponent into a wrong belief about the agent's intention or objective. This paper studies a class of probabilistic planning problems with intention deception and investigates how a defender's limited sensing modality can be exploited by an attacker to achieve its attack objective almost surely (with probability one) while hiding its intention. In particular, we model the attack planning in a stochastic system modeled as a Markov decision process (MDP). The attacker is to reach some target states while avoiding unsafe states in the system and knows that his behavior is monitored by a defender with partial observations. Given partial state observations for the defender, we develop qualitative intention deception planning algorithms that construct attack strategies to play against an action-visible defender and an action-invisible defender, respectively. The synthesized attack strategy not only ensures the attack objective is satisfied almost surely but also deceives the defender into believing that the observed behavior is generated by a normal/legitimate user and thus failing to detect the presence of an attack. We show the proposed algorithms are correct and complete and illustrate the deceptive planning methods with examples.
翻訳日:2022-09-02 14:06:54 公開日:2022-09-01
# mm-pcqa:クラウド品質評価のためのマルチモーダル学習

MM-PCQA: Multi-Modal Learning for No-reference Point Cloud Quality Assessment ( http://arxiv.org/abs/2209.00244v1 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Xiongkuo Min, Quan Zhou, Jun He, Qiyuan Wang, and Guangtao Zhai(参考訳) ポイントクラウドの視覚的品質は、ますます増加する3Dビジョンアプリケーションが、ユーザにとってコスト効率と高品質なエクスペリエンスを提供すると予想されて以来、大幅に強調されてきた。 ポイントクラウド品質評価法(PCQA)の開発を振り返ると、視覚的品質は通常、単一のモーダル情報、すなわち2Dプロジェクションから抽出されるか、3Dポイントクラウドを用いて評価される。 2Dプロジェクションは豊かなテクスチャとセマンティック情報を含んでいるが、3Dポイントの雲は幾何学的歪みに敏感であり、視点に不変である。 そこで我々は,点雲と投影画像モダリティの両方の利点を活用するために,マルチモーダル方式で新しい非参照点雲質評価(NR-PCQA)指標を提案する。 具体的には、点雲を部分モデルに分割し、点シフトやダウンサンプリングのような局所的な幾何学的歪みを表す。 次に、点雲を2次元画像投影に描画してテクスチャ特徴抽出を行う。 目標を達成するために、サブモデルと投影された画像は、ポイントベースおよびイメージベースニューラルネットワークで符号化される。 最後に,マルチモーダル品質認識情報を融合するために対称的なクロスモーダル注意が用いられる。 実験の結果,提案手法は従来のNR-PCQA法よりもはるかに優れており,提案手法の有効性が示された。

The visual quality of point clouds has been greatly emphasized since the ever-increasing 3D vision applications are expected to provide cost-effective and high-quality experiences for users. Looking back on the development of point cloud quality assessment (PCQA) methods, the visual quality is usually evaluated by utilizing single-modal information, i.e., either extracted from the 2D projections or 3D point cloud. The 2D projections contain rich texture and semantic information but are highly dependent on viewpoints, while the 3D point clouds are more sensitive to geometry distortions and invariant to viewpoints. Therefore, to leverage the advantages of both point cloud and projected image modalities, we propose a novel no-reference point cloud quality assessment (NR-PCQA) metric in a multi-modal fashion. In specific, we split the point clouds into sub-models to represent local geometry distortions such as point shift and down-sampling. Then we render the point clouds into 2D image projections for texture feature extraction. To achieve the goals, the sub-models and projected images are encoded with point-based and image-based neural networks. Finally, symmetric cross-modal attention is employed to fuse multi-modal quality-aware information. Experimental results show that our approach outperforms all compared state-of-the-art methods and is far ahead of previous NR-PCQA methods, which highlights the effectiveness of the proposed method.
翻訳日:2022-09-02 14:06:34 公開日:2022-09-01
# 3次元物体追跡のための重要かつ効率的な点クラウド補完

Implicit and Efficient Point Cloud Completion for 3D Single Object Tracking ( http://arxiv.org/abs/2209.00522v1 )

ライセンス: Link先を確認
Pan Wang, Liangliang Ren, Shengkai Wu, Jinrong Yang, En Yu, Hangcheng Yu, Xiaoping Li(参考訳) ポイントクラウドベースの3Dオブジェクトトラッキング(3DSOT)が注目を集めている。 多くのブレークスルーが行われたが、2つの深刻な問題も明らかにした。 広範な分析により,現在の予測手法はロバストでないこと,すなわち,予測スコアと実際の局所化精度とのずれを露呈することを見出した。 もう一つの問題は、スパースポイントリターンがSOTタスクの特徴マッチング手順を損なうことである。 これらの知見に基づき,適応的洗練予測 (adaptive refine prediction, arp) と目標知識伝達 (target knowledge transfer, tkt) という2つの新しいモジュールを導入する。 そこで我々はまず,識別的特徴を抽出するための強固なパイプラインを設計し,注意機構とマッチングを行う。 次に、予測された全ての候補を貴重な手がかりで集約することで、アライメント問題に対処するためにARPモジュールを提案する。 最後に、TKTモジュールはスパースとオクルージョンの問題により、不完全なポイントクラウドを効果的に克服するように設計されている。 フレームワーク全体をPCETと呼びます。 KITTI と Waymo Open Dataset に関する広範な実験を行うことで,より少ない計算消費を維持しながら最先端の性能を実現する。

The point cloud based 3D single object tracking (3DSOT) has drawn increasing attention. Lots of breakthroughs have been made, but we also reveal two severe issues. By an extensive analysis, we find the prediction manner of current approaches is non-robust, i.e., exposing a misalignment gap between prediction score and actually localization accuracy. Another issue is the sparse point returns will damage the feature matching procedure of the SOT task. Based on these insights, we introduce two novel modules, i.e., Adaptive Refine Prediction (ARP) and Target Knowledge Transfer (TKT), to tackle them, respectively. To this end, we first design a strong pipeline to extract discriminative features and conduct the matching procedure with the attention mechanism. Then, ARP module is proposed to tackle the misalignment issue by aggregating all predicted candidates with valuable clues. Finally, TKT module is designed to effectively overcome incomplete point cloud due to sparse and occlusion issues. We call our overall framework PCET. By conducting extensive experiments on the KITTI and Waymo Open Dataset, our model achieves state-of-the-art performance while maintaining a lower computational consumption.
翻訳日:2022-09-02 14:03:46 公開日:2022-09-01
# 2次元ポーズ表現の最適化:教師なし2次元ポーズ推定における精度,安定性,汎用性の向上

Optimising 2D Pose Representation: Improve Accuracy, Stability and Generalisability Within Unsupervised 2D-3D Human Pose Estimation ( http://arxiv.org/abs/2209.00618v1 )

ライセンス: Link先を確認
Peter Hardy, Srinandan Dasmahapatra, Hansung Kim(参考訳) 本稿では,3次元ポーズ推定モデルの精度,安定性,一般化性を向上させるために,教師なし2次元ポーズリフト中の2次元ポーズ表現の問題に対処する。 教師なし2D-3D HPEアプローチはすべて、トレーニング中にモデルに2Dキネマティックスケルトン全体を提供する。 訓練中に独立した2dキーポイントと予測された3dオーディネートの間で長距離相関が引き起こされるため、これは最適かつ破壊的である。 この目的のために、以下の研究を行う。 アーキテクチャの最大容量は6ブロックであり, 2D-3D HPEプロセスにおいて, それぞれ異なる2Dポーズを示す5つのモデルの性能を評価する。 さらに,トレーニングプロセス中に学習した2Dキーポイント間の相関関係を示し,揚力モデルに2Dポーズ全体を提供する際に生じる直感的相関関係を明らかにする。 その結果、2次元ポーズの最も最適な表現は2つの独立した部分(胴体と脚)であり、各リフトネットワーク間に共通な特徴はないことがわかった。 このアプローチにより、Human3.6Mデータセットの平均誤差は、2Dキネマティックスケルトン全体でトレーニングされたほぼ同一のパラメータ数を持つモデルと比較すると、20\%減少した。 さらに, 対人学習の複雑な性質から, この表現が学習中の収束を向上し, 最適結果がより頻繁に得られることを示す。

This paper addresses the problem of 2D pose representation during unsupervised 2D to 3D pose lifting to improve the accuracy, stability and generalisability of 3D human pose estimation (HPE) models. All unsupervised 2D-3D HPE approaches provide the entire 2D kinematic skeleton to a model during training. We argue that this is sub-optimal and disruptive as long-range correlations are induced between independent 2D key points and predicted 3D ordinates during training. To this end, we conduct the following study. With a maximum architecture capacity of 6 residual blocks, we evaluate the performance of 5 models which each represent a 2D pose differently during the adversarial unsupervised 2D-3D HPE process. Additionally, we show the correlations between 2D key points which are learned during the training process, highlighting the unintuitive correlations induced when an entire 2D pose is provided to a lifting model. Our results show that the most optimal representation of a 2D pose is that of two independent segments, the torso and legs, with no shared features between each lifting network. This approach decreased the average error by 20\% on the Human3.6M dataset when compared to a model with a near identical parameter count trained on the entire 2D kinematic skeleton. Furthermore, due to the complex nature of adversarial learning, we show how this representation can also improve convergence during training allowing for an optimum result to be obtained more often.
翻訳日:2022-09-02 14:03:25 公開日:2022-09-01
# シーケンスからシーケンスへの変換による完全かつタイムスタンプ教師付き時間行動分節化

Unified Fully and Timestamp Supervised Temporal Action Segmentation via Sequence to Sequence Translation ( http://arxiv.org/abs/2209.00638v1 )

ライセンス: Link先を確認
Nadine Behrmann, S. Alireza Golestaneh, Zico Kolter, Juergen Gall, Mehdi Noroozi(参考訳) 本稿では,シーケンス to シーケンス (seq2seq) 変換によるビデオアクションセグメンテーションを,完全かつタイムスタンプによる教師付きセットアップで統合したフレームワークを提案する。 現在の最先端のフレームレベル予測手法とは対照的に、アクションセグメンテーションをseq2seq翻訳タスク、すなわちビデオフレームのシーケンスをアクションセグメンテーションのシーケンスにマッピングする。 提案手法では、短い出力シーケンスと比較的少ないビデオに対して長い入力シーケンスに対処するために、標準トランスフォーマーseq2seq変換モデルの一連の修正と補助損失関数を含む。 フレーム方向損失によるエンコーダの補助監督信号を取り込んで,暗黙的持続時間予測のための分離アライメントデコーダを提案する。 最後に,提案した制約付きk-medoidsアルゴリズムを用いてタイムスタンプ制御設定に拡張し,擬似セグメンテーションを生成する。 提案するフレームワークは,完全かつタイムスタンプの教師付き設定でも,複数のデータセットの最先端設定よりもパフォーマンスが優れている。

This paper introduces a unified framework for video action segmentation via sequence to sequence (seq2seq) translation in a fully and timestamp supervised setup. In contrast to current state-of-the-art frame-level prediction methods, we view action segmentation as a seq2seq translation task, i.e., mapping a sequence of video frames to a sequence of action segments. Our proposed method involves a series of modifications and auxiliary loss functions on the standard Transformer seq2seq translation model to cope with long input sequences opposed to short output sequences and relatively few videos. We incorporate an auxiliary supervision signal for the encoder via a frame-wise loss and propose a separate alignment decoder for an implicit duration prediction. Finally, we extend our framework to the timestamp supervised setting via our proposed constrained k-medoids algorithm to generate pseudo-segmentations. Our proposed framework performs consistently on both fully and timestamp supervised settings, outperforming or competing state-of-the-art on several datasets.
翻訳日:2022-09-02 14:03:00 公開日:2022-09-01
# Image Inpaintingによるビジュアルプロンプティング

Visual Prompting via Image Inpainting ( http://arxiv.org/abs/2209.00647v1 )

ライセンス: Link先を確認
Amir Bar, Yossi Gandelsman, Trevor Darrell, Amir Globerson, Alexei A. Efros(参考訳) タスク固有の微調整やモデル修正なしに、トレーニング済みの視覚モデルを下流タスクにどのように適応させるか? テスト時に新しいタスクの入力出力画像例と新しい入力画像の入力出力画像例を与えられた場合、そのサンプルと一致して出力画像を自動的に生成することが目的である。 この問題を単純な画像のインペイント(文字通り、連結された視覚的プロンプト画像に穴を埋める)として表すと、そのインペイントアルゴリズムが正しいデータでトレーニングされていることを仮定して、驚くほど効果的であることが判明した。 私たちは、arxivに関する学術論文ソースから88万のラベルのない数値を収集した新しいデータセットで、マスク付きオートエンコーダをトレーニングしました。 これらの事前学習モデルに視覚的プロンプトを適用し,フォアグラウンドセグメンテーション,単一物体検出,カラー化,エッジ検出など,下流のさまざまなタスクにおける結果を示す。

How does one adapt a pre-trained visual model to novel downstream tasks without task-specific finetuning or any model modification? Inspired by prompting in NLP, this paper investigates visual prompting: given input-output image example(s) of a new task at test time and a new input image, the goal is to automatically produce the output image, consistent with the given examples. We show that posing this problem as simple image inpainting - literally just filling in a hole in a concatenated visual prompt image - turns out to be surprisingly effective, provided that the inpainting algorithm has been trained on the right data. We train masked auto-encoders on a new dataset that we curated - 88k unlabeled figures from academic papers sources on Arxiv. We apply visual prompting to these pretrained models and demonstrate results on various downstream image-to-image tasks, including foreground segmentation, single object detection, colorization, edge detection, etc.
翻訳日:2022-09-02 14:02:18 公開日:2022-09-01
# クロススペクトル神経放射場

Cross-Spectral Neural Radiance Fields ( http://arxiv.org/abs/2209.00648v1 )

ライセンス: Link先を確認
Matteo Poggi, Pierluigi Zama Ramirez, Fabio Tosi, Samuele Salti, Stefano Mattoccia, Luigi Di Stefano(参考訳) ニューラル・ラミアンス・フィールドの定式化に基づき、異なる光スペクトル感度のカメラから撮像された画像からクロススペクトルのシーン表現を学習する新しい手法であるx-nerfを提案する。 x-nerfはトレーニング中にカメラのポーズを最適化し、正規化クロスデバイス座標(nxdc)を利用して任意の視点から異なるモダリティの画像を描画する。 カラー・マルチスペクトル・赤外線画像を用いた16面前向きシーンの実験により,クロススペクトルシーン表現のモデル化におけるX-NeRFの有効性が確認された。

We propose X-NeRF, a novel method to learn a Cross-Spectral scene representation given images captured from cameras with different light spectrum sensitivity, based on the Neural Radiance Fields formulation. X-NeRF optimizes camera poses across spectra during training and exploits Normalized Cross-Device Coordinates (NXDC) to render images of different modalities from arbitrary viewpoints, which are aligned and at the same resolution. Experiments on 16 forward-facing scenes, featuring color, multi-spectral and infrared images, confirm the effectiveness of X-NeRF at modeling Cross-Spectral scene representations.
翻訳日:2022-09-02 14:02:01 公開日:2022-09-01
# 確率微分方程式に対する連続時間粒子フィルタリング

Continuous-time Particle Filtering for Latent Stochastic Differential Equations ( http://arxiv.org/abs/2209.00173v1 )

ライセンス: Link先を確認
Ruizhi Deng, Greg Mori, Andreas M. Lehrmann(参考訳) 粒子フィルタリングは、幅広い逐次推論タスクに対するモンテカルロの標準的なアプローチである。 粒子フィルタの鍵成分は、いくつかの確率過程の真の後部分布のプロキシとなる重要な重みを持つ粒子の集合である。 本研究では, 粒子フィルタリングを連続時間領域に拡張する手法である連続潜在粒子フィルタを提案する。 本研究では, 連続潜時粒子フィルタが, 学習した変動後部に依存した推論手法の汎用的なプラグイン代替として利用できることを示す。 ニューラル確率微分方程式に基づくモデルファミリを用いた実験は,確率推定や様々な確率過程の逐次予測といった推論タスクにおいて,連続時間粒子フィルタリングの優れた性能を示す。

Particle filtering is a standard Monte-Carlo approach for a wide range of sequential inference tasks. The key component of a particle filter is a set of particles with importance weights that serve as a proxy of the true posterior distribution of some stochastic process. In this work, we propose continuous latent particle filters, an approach that extends particle filtering to the continuous-time domain. We demonstrate how continuous latent particle filters can be used as a generic plug-in replacement for inference techniques relying on a learned variational posterior. Our experiments with different model families based on latent neural stochastic differential equations demonstrate superior performance of continuous-time particle filtering in inference tasks like likelihood estimation and sequential prediction for a variety of stochastic processes.
翻訳日:2022-09-02 14:01:07 公開日:2022-09-01
# 限定ストレージによるフェデレーション学習のためのオンラインデータ選択

Online Data Selection for Federated Learning with Limited Storage ( http://arxiv.org/abs/2209.00195v1 )

ライセンス: Link先を確認
Chen Gong, Zhenzhe Zheng, Fan Wu, Bingshuai Li, Yunfeng Shao, Guihai Chen(参考訳) マシンラーニングモデルがモバイルネットワークにデプロイされ、さまざまなレイヤのデータを処理して、デバイス上のネットワーク管理とインテリジェンスを自動化する。 集中型機械学習の通信コストと厳しいプライバシー問題に対処するため、ネットワークデバイス間の分散機械学習を実現するために、フェデレートラーニング(FL)が提案されている。 flでは計算と通信の制限が広く研究されているが、デバイス上のストレージがflの性能に与える影響はまだ検討されていない。 デバイス上の豊富なストリーミングデータをフィルタリングするための効率的で効果的なデータ選択ポリシーがなければ、従来のFLはより長いモデルトレーニング時間(4\times$以上)と、我々の実験で観察された重要な推論精度の低下(7\%$以上)に悩まされる可能性がある。 本研究では,デバイス上のストレージを限定したFLのオンラインデータ選択について検討する。 まず,データ選択のための新たなデータ評価指標をflで定義する。 オンデバイスデータサンプル上の局所勾配を,すべてのデバイスからのデータ上でグローバル勾配に投影する。 さらに, fl のための \textbf{o}nline \textbf{d}ata s\textbf{e}lection のフレームワークである \textbf{ode} を設計, モデル収束を高速化し, 最終モデルの精度を向上させるための理論的保証とともに, 価値のあるデータサンプルを協調的に保存するためにネットワークデバイスを調整する。 1つの産業タスク(移動ネットワークトラフィック分類)と3つの公共タスク(合成タスク、画像分類、人間の活動認識)の実験的結果は、最先端のアプローチよりもODEの顕著な優位性を示している。 特に産業データセットでは、odeはトレーニング時間の2.5\times$スピードアップと最終的な推論精度の6\%$向上を達成し、実用環境におけるさまざまな要因に対して堅牢である。

Machine learning models have been deployed in mobile networks to deal with the data from different layers to enable automated network management and intelligence on devices. To overcome high communication cost and severe privacy concerns of centralized machine learning, Federated Learning (FL) has been proposed to achieve distributed machine learning among networked devices. While the computation and communication limitation has been widely studied in FL, the impact of on-device storage on the performance of FL is still not explored. Without an efficient and effective data selection policy to filter the abundant streaming data on devices, classical FL can suffer from much longer model training time (more than $4\times$) and significant inference accuracy reduction (more than $7\%$), observed in our experiments. In this work, we take the first step to consider the online data selection for FL with limited on-device storage. We first define a new data valuation metric for data selection in FL: the projection of local gradient over an on-device data sample onto the global gradient over the data from all devices. We further design \textbf{ODE}, a framework of \textbf{O}nline \textbf{D}ata s\textbf{E}lection for FL, to coordinate networked devices to store valuable data samples collaboratively, with theoretical guarantees for speeding up model convergence and enhancing final model accuracy, simultaneously. Experimental results on one industrial task (mobile network traffic classification) and three public tasks (synthetic task, image classification, human activity recognition) show the remarkable advantages of ODE over the state-of-the-art approaches. Particularly, on the industrial dataset, ODE achieves as high as $2.5\times$ speedup of training time and $6\%$ increase in final inference accuracy, and is robust to various factors in the practical environment.
翻訳日:2022-09-02 14:00:55 公開日:2022-09-01
# PointCLM: マルチインスタンスポイントクラウド登録のためのコントラスト学習ベースのフレームワーク

PointCLM: A Contrastive Learning-based Framework for Multi-instance Point Cloud Registration ( http://arxiv.org/abs/2209.00219v1 )

ライセンス: Link先を確認
Mingzhi Yuan, Zhihao Li, Qiuye Jin, Xinrong Chen, Manning Wang(参考訳) マルチインスタンスポイントクラウド登録は、ターゲットポイントクラウド内のソースポイントクラウドインスタンスの複数のポーズを推定する問題である。 この問題の解決は、あるインスタンスの不整合が他のすべてのインスタンスの外れ値を構成するため、難しい。 既存の手法はしばしば時間を要する仮説サンプリングや空間的一貫性を利用した特徴に依存しており、性能は限られている。 本稿では,マルチインスタンス・ポイント・クラウド登録のためのコントラスト学習ベースのフレームワークであるPointCLMを提案する。 まず, コントラスト学習を活用し, 入力文の対応によく分布した深層表現を学習する。 次に,これらの表現に基づいて,外れ値除去戦略とクラスタリング戦略を提案し,外れ値を効率的に除去し,残余の対応を正しいインスタンスに割り当てる。 本手法は,合成データと実データの両方において最先端の手法を大きなマージンで上回っている。

Multi-instance point cloud registration is the problem of estimating multiple poses of source point cloud instances within a target point cloud. Solving this problem is challenging since inlier correspondences of one instance constitute outliers of all the other instances. Existing methods often rely on time-consuming hypothesis sampling or features leveraging spatial consistency, resulting in limited performance. In this paper, we propose PointCLM, a contrastive learning-based framework for mutli-instance point cloud registration. We first utilize contrastive learning to learn well-distributed deep representations for the input putative correspondences. Then based on these representations, we propose a outlier pruning strategy and a clustering strategy to efficiently remove outliers and assign the remaining correspondences to correct instances. Our method outperforms the state-of-the-art methods on both synthetic and real datasets by a large margin.
翻訳日:2022-09-02 13:58:00 公開日:2022-09-01
# 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: End-to-End Recognition of Out of Vocabulary Words

1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: End-to-End Recognition of Out of Vocabulary Words ( http://arxiv.org/abs/2209.00224v1 )

ライセンス: Link先を確認
Zhangzi Zhu, Chuhui Xue, Yu Hao, Wenqing Zhang, Song Bai(参考訳) 近年,多言語翻訳や自動運転などの幅広い応用により,シーンテキスト認識への関心が高まっている。 本稿では,自然シーン画像から語彙外単語(OOV)を抽出することを目的としたOOV-ST(Out of Vocabulary Scene Text Understanding)チャレンジに対する解決策について述べる。 我々のoCLIPベースのモデルは、ECCV2022 TiEワークショップにおけるOOVチャレンジのエンドツーエンドOOV音声認識トラックにおいて、28.59 %のh平均を達成する。

Scene text recognition has attracted increasing interest in recent years due to its wide range of applications in multilingual translation, autonomous driving, etc. In this report, we describe our solution to the Out of Vocabulary Scene Text Understanding (OOV-ST) Challenge, which aims to extract out-of-vocabulary (OOV) words from natural scene images. Our oCLIP-based model achieves 28.59\% in h-mean which ranks 1st in end-to-end OOV word recognition track of OOV Challenge in ECCV2022 TiE Workshop.
翻訳日:2022-09-02 13:57:44 公開日:2022-09-01
# カプセル学習のためのWasserstein埋め込み

Wasserstein Embedding for Capsule Learning ( http://arxiv.org/abs/2209.00232v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Swagatam Das, Eric Granger, Salvador Garcia(参考訳) Capsule Network(CapsNets)は、イメージをオブジェクト、部品、それらの関係からなる階層的なコンポーネント構造に解析することを目的としている。 その可能性にもかかわらず、計算コストは高く、より複雑なデータセット上でこれらのネットワークを効率的に利用することを制限する大きな欠点となる。 現在のCapsNetモデルは、その性能をカプセルベースラインと比較するだけで、複雑なタスクにおいて深いCNNベースのモデルと同じレベルでは動作しない。 本稿では,入力ベクトルを投影するサブカプセル群を通して,入力画像の原子部分を検出するカプセルを効率的に学習する方法を提案する。 次に、まず、SubCapsulesによってモデル化された入力とコンポーネントの相違を計測し、学習された最適輸送に基づいてそれらのアライメントの度合いを求めるWasserstein Embedding Moduleを提案する。 この戦略は、各コンポーネントの分布間の類似性に基づいて、入力とSubCapsule間のアライメントを定義するための新しい洞察を活用する。 提案したモデル。 i)軽量で、より複雑な視覚タスクにカプセルを適用することができる。 (ii)これらの困難なタスクにおいて、CNNベースのモデルと同等あるいは同等の性能を発揮する。 実験の結果,Wasserstein Embedding Capsules (WECapsules) はアフィン変換をより堅牢に行い,より大きなデータセットに効果的にスケールアップし,CNN と CapsNet モデルを上回る性能を示した。

Capsule networks (CapsNets) aim to parse images into a hierarchical component structure that consists of objects, parts, and their relations. Despite their potential, they are computationally expensive and pose a major drawback, which limits utilizing these networks efficiently on more complex datasets. The current CapsNet models only compare their performance with the capsule baselines and do not perform at the same level as deep CNN-based models on complicated tasks. This paper proposes an efficient way for learning capsules that detect atomic parts of an input image, through a group of SubCapsules, upon which an input vector is projected. Subsequently, we present the Wasserstein Embedding Module that first measures the dissimilarity between the input and components modeled by the SubCapsules, and then finds their degree of alignment based on the learned optimal transport. This strategy leverages new insights on defining alignment between the input and SubCapsules based on the similarity between their respective component distributions. Our proposed model, (i) is lightweight and allows to apply capsules for more complex vision tasks; (ii) performs better than or at par with CNN-based models on these challenging tasks. Our experimental results indicate that Wasserstein Embedding Capsules (WECapsules) perform more robustly on affine transformations, effectively scale up to larger datasets, and outperform the CNN and CapsNet models in several vision tasks.
翻訳日:2022-09-02 13:57:31 公開日:2022-09-01
# 周波数に埋もれ込む:フーリエ空間における時間的に連続した人間の運動伝達

Delving into the Frequency: Temporally Consistent Human Motion Transfer in the Fourier Space ( http://arxiv.org/abs/2209.00233v1 )

ライセンス: Link先を確認
Guang Yang, Wu Liu, Xinchen Liu, Xiaoyan Gu, Juan Cao, Jintao Li(参考訳) 人間の動き伝達は、ある人の動きを模倣することのできる、写実的で時間的に整合したビデオの合成を指す。 しかし、現在の合成ビデオは、映像品質を著しく低下させるシーケンシャルフレームの時間的不整合に苦しむが、画素領域の既存の方法によって解決されるには程遠い。 近年、DeepFake検出の研究は、画像合成法の周波数不足のため、周波数領域の自然画像と合成画像の区別を試みる。 それでも、自然と合成のビデオ間の周波数領域のギャップから合成ビデオの時間的矛盾を研究する研究は行われていない。 本稿では,人間の運動伝達を時間的に一貫したものにするための周波数空間を探究する。 まず, 周波数領域における自然映像と合成映像の包括的解析を行い, 個々のフレームの空間次元と映像の時間次元の両方における周波数ギャップを明らかにする。 自然映像と合成映像の周波数ギャップを縮めるために,fremotrと呼ばれる新しい周波数ベースヒューマンモーショントランスファーフレームワークを提案し,合成映像の空間的アーティファクトと時間的不整合を効果的に緩和する。 FreMOTRは2つの新しい周波数ベース正規化モジュールを探索する。 1)個別フレームにおける人物の出現を改善する周波数領域出現規則化(far) 2)隣接するフレーム間の時間的一貫性を保証するための時間周波数規則化(TFR)。 最後に、総合的な実験により、FreMOTRは時間的一貫性の指標において優れた性能を得るだけでなく、合成ビデオのフレームレベルの視覚的品質も向上することが示された。 特に、時間的一貫性の指標は最先端モデルよりも30%近く改善されている。

Human motion transfer refers to synthesizing photo-realistic and temporally coherent videos that enable one person to imitate the motion of others. However, current synthetic videos suffer from the temporal inconsistency in sequential frames that significantly degrades the video quality, yet is far from solved by existing methods in the pixel domain. Recently, some works on DeepFake detection try to distinguish the natural and synthetic images in the frequency domain because of the frequency insufficiency of image synthesizing methods. Nonetheless, there is no work to study the temporal inconsistency of synthetic videos from the aspects of the frequency-domain gap between natural and synthetic videos. In this paper, we propose to delve into the frequency space for temporally consistent human motion transfer. First of all, we make the first comprehensive analysis of natural and synthetic videos in the frequency domain to reveal the frequency gap in both the spatial dimension of individual frames and the temporal dimension of the video. To close the frequency gap between the natural and synthetic videos, we propose a novel Frequency-based human MOtion TRansfer framework, named FreMOTR, which can effectively mitigate the spatial artifacts and the temporal inconsistency of the synthesized videos. FreMOTR explores two novel frequency-based regularization modules: 1) the Frequency-domain Appearance Regularization (FAR) to improve the appearance of the person in individual frames and 2) Temporal Frequency Regularization (TFR) to guarantee the temporal consistency between adjacent frames. Finally, comprehensive experiments demonstrate that the FreMOTR not only yields superior performance in temporal consistency metrics but also improves the frame-level visual quality of synthetic videos. In particular, the temporal consistency metrics are improved by nearly 30% than the state-of-the-art model.
翻訳日:2022-09-02 13:57:07 公開日:2022-09-01
# 長テール画像分類における雑音ラベル対策

Combating Noisy Labels in Long-Tailed Image Classification ( http://arxiv.org/abs/2209.00273v1 )

ライセンス: Link先を確認
Chaowei Fang, Lechao Cheng, Huiyan Qi, and Dingwen Zhang(参考訳) ノイズの多いラベルに対処する既存の方法の多くは、クラス分布はバランスがよく、トレーニングサンプルがバランスの取れない分布を持つ現実的なシナリオに対処する能力が不足していると仮定する。 そこで本稿では,長期分布とラベルノイズの両面から,画像分類タスクを早期に実施する。 既存のノイズロバスト学習手法では,テールクラスのクリーンサンプルからノイズサンプルを区別することが難しいため,このシナリオでは機能しない。 この問題に対処するために,弱いデータと強いデータに対する推測の一致に基づく新たな学習パラダイムを提案する。 さらに,オンライン事前分布に基づく新たな予測ペナルティを導入し,ヘッドクラスに対する偏見を回避する。 この機構は,従来のロングテール分類法と比較して,クラス適合度をリアルタイムで取得する上で優れている。 提案手法は,ノイズラベル下の長尾分類における分散不均衡問題に対処する最先端アルゴリズムよりも優れていることを示す。

Most existing methods that cope with noisy labels usually assume that the class distributions are well balanced, which has insufficient capacity to deal with the practical scenarios where training samples have imbalanced distributions. To this end, this paper makes an early effort to tackle the image classification task with both long-tailed distribution and label noise. Existing noise-robust learning methods cannot work in this scenario as it is challenging to differentiate noisy samples from clean samples of tail classes. To deal with this problem, we propose a new learning paradigm based on matching between inferences on weak and strong data augmentations to screen out noisy samples and introduce a leave-noise-out regularization to eliminate the effect of the recognized noisy samples. Furthermore, we incorporate a novel prediction penalty based on online prior distribution to avoid bias towards head classes. This mechanism has superiority in capturing the class fitting degree in realtime compared to the existing long-tail classification methods. Exhaustive experiments demonstrate that the proposed method outperforms state-of-the-art algorithms that address the distribution imbalance problem in long-tailed classification under noisy labels.
翻訳日:2022-09-02 13:56:39 公開日:2022-09-01
# マルチホップ時空間スイッチを用いた野生の歩行認識

Gait Recognition in the Wild with Multi-hop Temporal Switch ( http://arxiv.org/abs/2209.00355v1 )

ライセンス: Link先を確認
Jinkai Zheng, Xinchen Liu, Xiaoyan Gu, Yaoqi Sun, Chuang Gan, Jiyong Zhang, Wu Liu, Chenggang Yan(参考訳) 既存の歩行認識の研究は、バンド内シナリオに支配されている。 人々は現実世界の感覚に生きているので、野生での歩行認識はより実用的な問題であり、最近マルチメディアとコンピュータビジョンのコミュニティの注目を集めている。 これらの手法は、制約のないシーンにおける歩数列の時間的変動をモデル化し難いため、最近提案された組込みデータセットにおいて、組込みベンチマークの最先端性能を得るための現在の手法は、はるかに精度が良い。 そこで本稿では,実世界における歩行パターンの効果的な時間モデリングを実現するためのマルチホップ時間切替手法を提案する。 具体的には,マルチホップテンポラルスイッチネットワーク(MTSGait)と呼ばれる新しい歩行認識ネットワークを設計し,空間的特徴とマルチスケール時間的特徴を同時に学習する。 時間的モデリングに3次元畳み込みを用いた既存の方法とは異なり、MTSGaitは2次元畳み込みによる歩行系列の時間的ダイナミクスをモデル化する。 つまり、3D畳み込みモデルと比較して、モデルのパラメータを少なくして高効率を実現し、最適化の難しさを低減する。 2次元畳み込みカーネルの具体的設計に基づき,提案手法は隣接フレーム間の特徴の不一致を解消することができる。 さらに、モデルがより堅牢な時間的特徴を学ぶために、新しいサンプリング戦略、すなわち非循環連続サンプリングが提案されている。 最後に,提案手法は,GREWとGait3Dの2つの公開歩行データに対して,最先端の手法と比較して優れた性能を実現する。

Existing studies for gait recognition are dominated by in-the-lab scenarios. Since people live in real-world senses, gait recognition in the wild is a more practical problem that has recently attracted the attention of the community of multimedia and computer vision. Current methods that obtain state-of-the-art performance on in-the-lab benchmarks achieve much worse accuracy on the recently proposed in-the-wild datasets because these methods can hardly model the varied temporal dynamics of gait sequences in unconstrained scenes. Therefore, this paper presents a novel multi-hop temporal switch method to achieve effective temporal modeling of gait patterns in real-world scenes. Concretely, we design a novel gait recognition network, named Multi-hop Temporal Switch Network (MTSGait), to learn spatial features and multi-scale temporal features simultaneously. Different from existing methods that use 3D convolutions for temporal modeling, our MTSGait models the temporal dynamics of gait sequences by 2D convolutions. By this means, it achieves high efficiency with fewer model parameters and reduces the difficulty in optimization compared with 3D convolution-based models. Based on the specific design of the 2D convolution kernels, our method can eliminate the misalignment of features among adjacent frames. In addition, a new sampling strategy, i.e., non-cyclic continuous sampling, is proposed to make the model learn more robust temporal features. Finally, the proposed method achieves superior performance on two public gait in-the-wild datasets, i.e., GREW and Gait3D, compared with state-of-the-art methods.
翻訳日:2022-09-02 13:56:19 公開日:2022-09-01
# マージンエントロピー損失を用いた安全臨界2次元物体検出のためのリアルタイム分布外サンプルの同定

Identifying Out-of-Distribution Samples in Real-Time for Safety-Critical 2D Object Detection with Margin Entropy Loss ( http://arxiv.org/abs/2209.00364v1 )

ライセンス: Link先を確認
Yannik Blei, Nicolas Jourdan, Nils G\"ahlert(参考訳) 畳み込みニューラルネットワーク(CNN)は、現在、自律運転や無人航空機(UAV)のような安全クリティカルなアプリケーションのための視覚ベースの知覚スタックによく使われている。 これらのユースケースの安全性要件のため、CNNの限界を知ることが重要であり、したがって、アウト・オブ・ディストリビューション(OOD)サンプルを検出することが重要である。 本研究では, マージンエントロピー(me)損失を用いて, 2次元物体検出のためのood検出を可能にする手法を提案する。 提案手法は実装が容易で,既存のほとんどのオブジェクト検出アーキテクチャに適用可能である。 さらに,物体検出におけるOODサンプル検出の指標としてセパビリティを導入する。 我々は,ME損失をトレーニングしたCNNが標準信頼度スコアを用いてOOD検出を著しく上回ることを示す。 同時に、基盤となるオブジェクト検出フレームワークのランタイムは、OOD検出を可能にする強力なツールであるME損失を常にレンダリングします。

Convolutional Neural Networks (CNNs) are nowadays often employed in vision-based perception stacks for safetycritical applications such as autonomous driving or Unmanned Aerial Vehicles (UAVs). Due to the safety requirements in those use cases, it is important to know the limitations of the CNN and, thus, to detect Out-of-Distribution (OOD) samples. In this work, we present an approach to enable OOD detection for 2D object detection by employing the margin entropy (ME) loss. The proposed method is easy to implement and can be applied to most existing object detection architectures. In addition, we introduce Separability as a metric for detecting OOD samples in object detection. We show that a CNN trained with the ME loss significantly outperforms OOD detection using standard confidence scores. At the same time, the runtime of the underlying object detection framework remains constant rendering the ME loss a powerful tool to enable OOD detection.
翻訳日:2022-09-02 13:55:51 公開日:2022-09-01
# MAPLE: 半教師付きポイントクラウド行動認識のための擬似擬似ラベル自動エンコーダ

MAPLE: Masked Pseudo-Labeling autoEncoder for Semi-supervised Point Cloud Action Recognition ( http://arxiv.org/abs/2209.00407v1 )

ライセンス: Link先を確認
Xiaodong Chen and Wu Liu and Xinchen Liu and Yongdong Zhang and Jungong Han and Tao Mei(参考訳) point cloudのビデオから人間の行動を認識することは、自動運転やロボティクスなどの幅広い応用により、学界や業界から大きな注目を集めている。 しかし、現在のポイントクラウドアクション認識の方法は、手作業によるアノテーションと計算コストの高い複雑なバックボーンネットワークを持つ膨大なデータを必要とするため、現実のアプリケーションでは実用的ではない。 そこで本稿では,半教師付き点雲認識の課題について考察する。 本稿では, ポイントクラウドのアクション認識のためのアノテーションをはるかに少なくして効率的な表現を学習するための, Masked Pseudo-Labeling autoEncoder (\textbf{MAPLE}) フレームワークを提案する。 特に、maple のバックボーンとして、新しい効率的な \textbf{de}coupled \textbf{s}patial-\textbf{t}emporal trans\textbf{former} (\textbf{destformer}) を設計する。 destformerでは、4d point cloudビデオの空間的および時間的次元を分離し、長期的および短期的特徴を学習するための効率的な自己照準を達成する。 さらに,より少ないアノテーションから識別的特徴を学習するために,マスク付き擬似ラベル自動エンコーダ構造を設計し,マスク付きフレームの特徴を利用可能なフレームから再構築する。 さらに,ラベルなしデータについては,分類ヘッドからの擬似ラベルを,マスク付きフレームから特徴を再構築するための監督信号として利用する。 最後に、MSR-Action3Dデータセットにおいて、MAPLEが3つの公開ベンチマークで優れた結果を示し、最先端の手法を8.08倍の精度で上回ることを示す。

Recognizing human actions from point cloud videos has attracted tremendous attention from both academia and industry due to its wide applications like automatic driving, robotics, and so on. However, current methods for point cloud action recognition usually require a huge amount of data with manual annotations and a complex backbone network with high computation costs, which makes it impractical for real-world applications. Therefore, this paper considers the task of semi-supervised point cloud action recognition. We propose a Masked Pseudo-Labeling autoEncoder (\textbf{MAPLE}) framework to learn effective representations with much fewer annotations for point cloud action recognition. In particular, we design a novel and efficient \textbf{De}coupled \textbf{s}patial-\textbf{t}emporal Trans\textbf{Former} (\textbf{DestFormer}) as the backbone of MAPLE. In DestFormer, the spatial and temporal dimensions of the 4D point cloud videos are decoupled to achieve efficient self-attention for learning both long-term and short-term features. Moreover, to learn discriminative features from fewer annotations, we design a masked pseudo-labeling autoencoder structure to guide the DestFormer to reconstruct features of masked frames from the available frames. More importantly, for unlabeled data, we exploit the pseudo-labels from the classification head as the supervision signal for the reconstruction of features from the masked frames. Finally, comprehensive experiments demonstrate that MAPLE achieves superior results on three public benchmarks and outperforms the state-of-the-art method by 8.08\% accuracy on the MSR-Action3D dataset.
翻訳日:2022-09-02 13:55:38 公開日:2022-09-01
# REMOT: リアルな人間の動き伝達のための地域間Wholeフレームワーク

REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer ( http://arxiv.org/abs/2209.00475v1 )

ライセンス: Link先を確認
Quanwei Yang, Xinchen Liu, Wu Liu, Hongtao Xie, Xiaoyan Gu, Lingyun Yu, Yongdong Zhang(参考訳) human video motion transfer (hvmt) は、ソースの人物の画像が与えられたとき、運転者の動きを模倣したビデオを生成することを目的としている。 HVMTの既存の方法は、主にGAN(Generative Adversarial Networks)を利用して、ソース画像と各駆動ビデオフレームから推定されるフローに基づいてワープ操作を行う。 しかし、これらの方法は常に、ポーズ、スケール、およびソースの人物と運転者のシフトの劇的な違いのために明白なアーティファクトを生成する。 これらの課題を克服するために,本稿では,GANをベースとしたREMOT(Regionto-whole Human Motion Transfer)フレームワークを提案する。 現実的な動きを生成するために、REMOTはプログレッシブ・ジェネレーション・パラダイムを採用し、フローベース・ワープを使わずに駆動ポーズの各身体部分を生成し、次に全ての部分を駆動動作の完全な人体に合成する。 さらに,自然のグローバルな外観を保ちつつ,そのレイアウトに基づいて,原点の規模と位置を運転者の位置と整合させるグローバルアライメントモジュールを設計する。 さらに,テクスチャの類似性に応じて各部位を整列させるテクスチャアライメントモジュールを提案する。 最後に, 定量的・質的実験により, 2つの公開ベンチマークで最新の結果を得た。

Human Video Motion Transfer (HVMT) aims to, given an image of a source person, generate his/her video that imitates the motion of the driving person. Existing methods for HVMT mainly exploit Generative Adversarial Networks (GANs) to perform the warping operation based on the flow estimated from the source person image and each driving video frame. However, these methods always generate obvious artifacts due to the dramatic differences in poses, scales, and shifts between the source person and the driving person. To overcome these challenges, this paper presents a novel REgionto-whole human MOtion Transfer (REMOT) framework based on GANs. To generate realistic motions, the REMOT adopts a progressive generation paradigm: it first generates each body part in the driving pose without flow-based warping, then composites all parts into a complete person of the driving motion. Moreover, to preserve the natural global appearance, we design a Global Alignment Module to align the scale and position of the source person with those of the driving person based on their layouts. Furthermore, we propose a Texture Alignment Module to keep each part of the person aligned according to the similarity of the texture. Finally, through extensive quantitative and qualitative experiments, our REMOT achieves state-of-the-art results on two public benchmarks.
翻訳日:2022-09-02 13:55:08 公開日:2022-09-01
# TempCLR: タイムコヒーレントなコントラスト学習による手作り

TempCLR: Reconstructing Hands via Time-Coherent Contrastive Learning ( http://arxiv.org/abs/2209.00489v1 )

ライセンス: Link先を確認
Andrea Ziani, Zicong Fan, Muhammed Kocabas, Sammy Christen, Otmar Hilliges(参考訳) 本研究では,3次元手再構成における構造化回帰課題に対して,時間コヒーレントなコントラスト学習手法であるTempCLRを紹介する。 従来の手のポーズ推定法とは異なり, 時間的一貫性を補足スキームで考慮し, 時間的方向に沿った手のポーズの違いを考慮に入れる。 データ駆動方式では,合成データや擬似ラベル,特殊なアーキテクチャに頼らずに,ラベルなしのビデオや標準cnnを活用する。 本手法は, HO-3D と FreiHAND のデータセット上で, PA-V2V が 15.9% と 7.6% 向上し, 新たな最先端性能が確立される。 最後に,本手法は時間を通じてよりスムーズな手再建を可能とし,定量的・定性的に示す先行技術に比べ,重咬合に対してより頑健であることを示す。 私たちのコードとモデルはhttps://eth-ait.github.io/tempclrで利用可能です。

We introduce TempCLR, a new time-coherent contrastive learning approach for the structured regression task of 3D hand reconstruction. Unlike previous time-contrastive methods for hand pose estimation, our framework considers temporal consistency in its augmentation scheme, and accounts for the differences of hand poses along the temporal direction. Our data-driven method leverages unlabelled videos and a standard CNN, without relying on synthetic data, pseudo-labels, or specialized architectures. Our approach improves the performance of fully-supervised hand reconstruction methods by 15.9% and 7.6% in PA-V2V on the HO-3D and FreiHAND datasets respectively, thus establishing new state-of-the-art performance. Finally, we demonstrate that our approach produces smoother hand reconstructions through time, and is more robust to heavy occlusions compared to the previous state-of-the-art which we show quantitatively and qualitatively. Our code and models will be available at https://eth-ait.github.io/tempclr.
翻訳日:2022-09-02 13:54:41 公開日:2022-09-01
# 実世界の環境クレーム検出のためのデータセット

A Dataset for Detecting Real-World Environmental Claims ( http://arxiv.org/abs/2209.00507v1 )

ライセンス: Link先を確認
Dominik Stammbach, Nicolas Webersinke, Julia Anna Bingler, Mathias Kraus, Markus Leippold(参考訳) 本稿では,上場企業による実世界の環境クレームを検出するためのエキスパートアノテートデータセットを提案する。 この新しいデータセットを用いて,環境要求を検出するためのベースラインモデルをトレーニングし,リリースする。 私たちは、2012年から2020年にかけての四半期決算報告の回答セクションで得られた環境要求を検出するために、微調整されたモデルを使用し、2015年のパリ協定以降、環境要求の量は着実に増加したことが分かりました。

In this paper, we introduce an expert-annotated dataset for detecting real-world environmental claims made by listed companies. We train and release baseline models for detecting environmental claims using this new dataset. We further preview potential applications of our dataset: We use our fine-tuned model to detect environmental claims made in answer sections of quarterly earning calls between 2012 and 2020 -- and we find that the amount of environmental claims steadily increased since the Paris Agreement in 2015.
翻訳日:2022-09-02 13:51:40 公開日:2022-09-01
# 質問応答における意味的変化を扱うために,なぜニューラル言語モデルがコモンセンスの知識を必要とするのか?

Why Do Neural Language Models Still Need Commonsense Knowledge to Handle Semantic Variations in Question Answering? ( http://arxiv.org/abs/2209.00599v1 )

ライセンス: Link先を確認
Sunjae Kwon, Cheongwoong Kang, Jiyeon Han, Jaesik Choi(参考訳) 多くの文脈化された単語表現は、マスク付きニューラルネットワークモデル(mnlms)のような複雑なニューラルネットワークモデルによって学習され、巨大なニューラルネットワーク構造で構成され、マスク付きテキストを復元するように訓練されている。 このような表現は、質問に対する適切な回答を抽出する読解理解(RC)タスクにおいて、超人的なパフォーマンスを示す。 しかし、MNLMで訓練された詳細な知識を特定することは、多数のモデルパラメータが混在しているため困難である。 本稿では,MNLMの事前学習に含まれるコモンセンス知識について,新たな知見と実証分析を行った。 まず,コモンセンス知識がmnlmsで適切に訓練されているかどうかを評価する診断試験を行う。 我々は,MNLMにおいて,多くのコモンセンス知識が適切に訓練されておらず,MNLMが関係の意味を正確に理解していないことを観察する。 さらに,MNLMに基づくRCモデルは,コモンセンスの知識を必要とするセマンティックなバリエーションに対して依然として脆弱であることがわかった。 最後に、ある知識が訓練されていない根本的な理由を見つけます。 さらに,外部のcommonsense知識レポジトリを利用することが効果的なソリューションとなることを示唆する。 制御実験において,外部コモンセンス知識リポジトリから必要な知識をテキストで強化することにより,mnlmベースのrcモデルの限界を克服する可能性を実証する。

Many contextualized word representations are now learned by intricate neural network models, such as masked neural language models (MNLMs) which are made up of huge neural network structures and trained to restore the masked text. Such representations demonstrate superhuman performance in some reading comprehension (RC) tasks which extract a proper answer in the context given a question. However, identifying the detailed knowledge trained in MNLMs is challenging owing to numerous and intermingled model parameters. This paper provides new insights and empirical analyses on commonsense knowledge included in pretrained MNLMs. First, we use a diagnostic test that evaluates whether commonsense knowledge is properly trained in MNLMs. We observe that a large proportion of commonsense knowledge is not appropriately trained in MNLMs and MNLMs do not often understand the semantic meaning of relations accurately. In addition, we find that the MNLM-based RC models are still vulnerable to semantic variations that require commonsense knowledge. Finally, we discover the fundamental reason why some knowledge is not trained. We further suggest that utilizing an external commonsense knowledge repository can be an effective solution. We exemplify the possibility to overcome the limitations of the MNLM-based RC models by enriching text with the required knowledge from an external commonsense knowledge repository in controlled experiments.
翻訳日:2022-09-02 13:51:32 公開日:2022-09-01
# 確率的推論:確率的構造化議論へのアプローチ

Probabilistic Deduction: an Approach to Probabilistic Structured Argumentation ( http://arxiv.org/abs/2209.00210v1 )

ライセンス: Link先を確認
Xiuyi Fan(参考訳) 本稿では確率的構造的議論へのアプローチとして確率的推論(PD)を紹介する。 PDフレームワークは確率規則(p-ルール)から構成される。 古典的な構造化議論フレームワークの規則として、p-ルールは推論系を形成する。 さらに、p-ルールは共役確率分布を定義する条件確率も表す。 PDフレームワークでは、ルール-確率的満足度を解くことによって確率論的推論を行う。 同時に、議論や攻撃を伴う確率論的推論に対する議論的読解を得ることができる。 本研究では、P-CWAの確率バージョンを導入し、P-CWAの下での古典的議論の完全拡張と最大エントロピー推論との確率的アプローチが一致することを示す。 PDの実用的証明理論を実現するために, p-rules からの結合確率分布を計算するためのいくつかの手法を提案する。 PDは確率論的推論と議論的推論を統一するフレームワークを提供する。 これは、結合分布が外部ソースとして仮定されない確率的構造化議論における最初の研究である。

This paper introduces Probabilistic Deduction (PD) as an approach to probabilistic structured argumentation. A PD framework is composed of probabilistic rules (p-rules). As rules in classical structured argumentation frameworks, p-rules form deduction systems. In addition, p-rules also represent conditional probabilities that define joint probability distributions. With PD frameworks, one performs probabilistic reasoning by solving Rule-Probabilistic Satisfiability. At the same time, one can obtain an argumentative reading to the probabilistic reasoning with arguments and attacks. In this work, we introduce a probabilistic version of the Closed-World Assumption (P-CWA) and prove that our probabilistic approach coincides with the complete extension in classical argumentation under P-CWA and with maximum entropy reasoning. We present several approaches to compute the joint probability distribution from p-rules for achieving a practical proof theory for PD. PD provides a framework to unify probabilistic reasoning with argumentative reasoning. This is the first work in probabilistic structured argumentation where the joint distribution is not assumed form external sources.
翻訳日:2022-09-02 13:51:09 公開日:2022-09-01
# ProCo:ロングテール医用画像分類のためのプロトタイプ対応コントラスト学習

ProCo: Prototype-aware Contrastive Learning for Long-tailed Medical Image Classification ( http://arxiv.org/abs/2209.00183v1 )

ライセンス: Link先を確認
Zhixiong Yang, Junwen Pan, Yanzhan Yang, Xiaozhou Shi, Hong-Yu Zhou, Zhicheng Zhang, and Cheng Bian(参考訳) 医用画像分類は医用画像解析に広く採用されている。 しかし、医療領域におけるデータの収集とラベル付けが困難であるため、医療画像データセットは通常、高度に不均衡である。 この問題に対処するために、以前の作業ではクラスサンプルを再重み付けや再サンプリングに使用していたが、機能表現は依然として十分に識別できない。 本稿では,長期医療の不均衡問題に対処するために,コントラスト学習を採用する。 具体的には,まず,代表的なコントラストペアを生成するために,カテゴリープロトタイプと,逆プロトインテンスを提案する。 そして, 高度に不均衡なデータ分布に対処するため, 試作手法を提案する。 最後に、我々のフレームワークをトレーニングするために、統一されたプロトロスが設計されます。 ProCo(Prototype-aware Contrastive Learning)と呼ばれる全体的なフレームワークは、医療画像分類における不均衡の問題を軽減するために、エンドツーエンドで単一ステージパイプラインとして統合されている。 2つの高度にバランスの取れない医用画像分類データセットに関する広範囲な実験により,本手法が既存の最先端手法を大差で上回ることを示した。

Medical image classification has been widely adopted in medical image analysis. However, due to the difficulty of collecting and labeling data in the medical area, medical image datasets are usually highly-imbalanced. To address this problem, previous works utilized class samples as prior for re-weighting or re-sampling but the feature representation is usually still not discriminative enough. In this paper, we adopt the contrastive learning to tackle the long-tailed medical imbalance problem. Specifically, we first propose the category prototype and adversarial proto-instance to generate representative contrastive pairs. Then, the prototype recalibration strategy is proposed to address the highly imbalanced data distribution. Finally, a unified proto-loss is designed to train our framework. The overall framework, namely as Prototype-aware Contrastive learning (ProCo), is unified as a single-stage pipeline in an end-to-end manner to alleviate the imbalanced problem in medical image classification, which is also a distinct progress than existing works as they follow the traditional two-stage pipeline. Extensive experiments on two highly-imbalanced medical image classification datasets demonstrate that our method outperforms the existing state-of-the-art methods by a large margin.
翻訳日:2022-09-02 13:49:12 公開日:2022-09-01
# 転校学習による駐車スポット検出と地理的局所化

Public Parking Spot Detection And Geo-localization Using Transfer Learning ( http://arxiv.org/abs/2209.00213v1 )

ライセンス: Link先を確認
Moseli Mots'oehli and Yao Chao Yang(参考訳) 世界中の都市では、公共駐車場と空き駐車場の配置が大きな問題であり、通勤時間が短縮され、交通渋滞が増す。 この研究は、携帯電話カメラからのGeo-Tagged画像のデータセットを、ニューラルネットワーク駆動のパブリックカメラによって検出された利用可能な駐車スペースを備えたヨハネスブルグの最も便利な公共駐車場へのナビゲートに利用する方法を説明する。 画像は,imagenetデータセットに事前トレーニングされた detectionron2 モデルを微調整して,空き駐車場の検出と分割を実証し,駐車場の経度と緯度座標を追加して,ハーベシン距離と利用可能な駐車場数に基づいて,最も便利な駐車場をドライバーに推奨する。 VGG Image Annotation (VIA)を使用して、拡大する画像のデータセットから76の画像を使用し、これらを、車、駐車場、人、自動車ナンバープレートの4つの異なる種類のオブジェクトのポリゴンアウトラインで注釈します。 セグメンテーションモデルを用いて、車両登録の匿名化を目的として、ナンバープレートを生産に利用できるようにする。 車と駐車スペースでは、ユニオンカバースコアよりも89%と82%の交差点がある。 この作業は、通勤者が無料の公共駐車場を探す時間を短縮し、ショッピングコンプレックスなどの公共の場所での交通渋滞を緩和し、公道での運転に関して人々の利便性を最大化する可能性がある。

In cities around the world, locating public parking lots with vacant parking spots is a major problem, costing commuters time and adding to traffic congestion. This work illustrates how a dataset of Geo-tagged images from a mobile phone camera, can be used in navigating to the most convenient public parking lot in Johannesburg with an available parking space, detected by a neural network powered-public camera. The images are used to fine-tune a Detectron2 model pre-trained on the ImageNet dataset to demonstrate detection and segmentation of vacant parking spots, we then add the parking lot's corresponding longitude and latitude coordinates to recommend the most convenient parking lot to the driver based on the Haversine distance and number of available parking spots. Using the VGG Image Annotation (VIA) we use 76 images from an expanding dataset of images, and annotate these with polygon outlines of the four different types of objects of interest: cars, open parking spots, people, and car number plates. We use the segmentation model to ensure number plates can be occluded in production for car registration anonymity purposes. We get an 89% and 82% intersection over union cover score on cars and parking spaces respectively. This work has the potential to help reduce the amount of time commuters spend searching for free public parking, hence easing traffic congestion in and around shopping complexes and other public places, and maximize people's utility with respect to driving on public roads.
翻訳日:2022-09-02 13:48:51 公開日:2022-09-01
# モデル透明性と解釈可能性 : 保険業界への調査と応用

Model Transparency and Interpretability : Survey and Application to the Insurance Industry ( http://arxiv.org/abs/2209.00562v1 )

ライセンス: Link先を確認
Dimitri Delcaillau, Antoine Ly, Alize Papp and Franck Vermet(参考訳) モデルの使用は、たとえ効率的であっても、データ(上流と下流)を変換するプロセスのあらゆるレベルでの理解を伴う必要がある。 したがって、個々のデータとアルゴリズムが分析に基づいて行うことができる選択(例えば、1つの製品または1つのプロモーションオファーの推薦、またはリスクを表す保険率)との関係を定義する必要がある。 モデルユーザは、モデルが差別されないようにし、結果を説明することも可能であることを保証する必要がある。 本稿では,モデル解釈の重要性を紹介し,モデル透過性の概念に取り組む。 保険のコンテキスト内では、現在機械学習に活用できるアクチュアリモデルのコントロールを強制するために、いくつかのツールをどのように使用できるかを具体的に説明している。 自動車保険における損失頻度推定の簡単な例において,対象者への説明に適応するための解釈可能性手法の興味を示す。

The use of models, even if efficient, must be accompanied by an understanding at all levels of the process that transforms data (upstream and downstream). Thus, needs increase to define the relationships between individual data and the choice that an algorithm could make based on its analysis (e.g. the recommendation of one product or one promotional offer, or an insurance rate representative of the risk). Model users must ensure that models do not discriminate and that it is also possible to explain their results. This paper introduces the importance of model interpretation and tackles the notion of model transparency. Within an insurance context, it specifically illustrates how some tools can be used to enforce the control of actuarial models that can nowadays leverage on machine learning. On a simple example of loss frequency estimation in car insurance, we show the interest of some interpretability methods to adapt explanation to the target audience.
翻訳日:2022-09-02 13:45:22 公開日:2022-09-01
# 非可逆性評価のためのwasserstein barycentersによるフェアラーニング

Fair learning with Wasserstein barycenters for non-decomposable performance measures ( http://arxiv.org/abs/2209.00427v1 )

ライセンス: Link先を確認
Solenne Gaucher and Nicolas Schreuder and Evgenii Chzhen(参考訳) この研究は、階層パリティ制約の下での最適分類関数の基本的特徴を提供する。 認識フレームワークでは、古典的制約のない分類の場合と同様に、この公正性制約の下での精度の最大化は、対応する回帰問題の解法と等価であることを示す。 この結果を線形屈折法分類尺度(例えば${\rm F}$-score、AM測度、平衡精度など)に拡張する。 このフレームワークにおける回帰問題によって果たす基本的な役割を強調する。 本研究では,近年,人口統計学的パリティ制約とマルチマルジナル最適輸送定式との関連を生かした。 この結果から,不規則な問題と公正な問題との遷移は,公正回帰問題の解によってラベルの条件付き期待を置き換えることによって達成されることを示す。 最後に,本分析を活用し,2つの敏感なグループにおいて,認識と無意識設定の等価性を示す。

This work provides several fundamental characterizations of the optimal classification function under the demographic parity constraint. In the awareness framework, akin to the classical unconstrained classification case, we show that maximizing accuracy under this fairness constraint is equivalent to solving a corresponding regression problem followed by thresholding at level $1/2$. We extend this result to linear-fractional classification measures (e.g., ${\rm F}$-score, AM measure, balanced accuracy, etc.), highlighting the fundamental role played by the regression problem in this framework. Our results leverage recently developed connection between the demographic parity constraint and the multi-marginal optimal transport formulation. Informally, our result shows that the transition between the unconstrained problems and the fair one is achieved by replacing the conditional expectation of the label by the solution of the fair regression problem. Finally, leveraging our analysis, we demonstrate an equivalence between the awareness and the unawareness setups in the case of two sensitive groups.
翻訳日:2022-09-02 13:45:09 公開日:2022-09-01
# 等方性表現は高密度検索を改善する

Isotropic Representation Can Improve Dense Retrieval ( http://arxiv.org/abs/2209.00218v1 )

ライセンス: Link先を確認
Euna Jung, Jungwon Park, Jaekeol Choi, Sungyoon Kim, Wonjong Rhee(参考訳) 近年の言語表現モデリングの進歩は,高密度検索モデルの設計に大きな影響を与えている。 特に、高パフォーマンスな高密度検索モデルの多くはBERTを用いてクエリと文書の表現を評価し、コサイン類似度に基づくスコアを適用して関連性を決定する。 しかし、BERT表現は狭い円錐形状の異方性分布に従うことが知られており、このような異方性分布はコサイン類似性に基づくスコアリングでは望ましくない。 本研究では,BERTに基づくDRも異方性分布に従うことを示す。 この問題に対処するために,フローの正規化と白化の教師なし後処理手法を導入し,高密度検索モデルの表現に後処理手法を適用するシーケンシャルワイズ法に加えてトークンワイズ法を開発した。 提案手法は、等方性を示す表現を効果的に強化し、文書の再ランク付けにおける性能(NDCG at 10)をColBERTに対して5.17\%$\sim$8.09\%、RepBERTに対して6.88\%$\sim$22.81\%向上できることを示す。 DRモデルのロバスト性向上のための等方性表現の可能性を検討するために,テストデータセットがトレーニングデータセットと異なる分布外タスクを検討する。 その結果、等方性表現は一般に性能が向上することが示された。 例えば、トレーニングデータセットがms-marcoでテストデータセットがロバスト04である場合、等方性後処理によってベースラインのパフォーマンスが最大24.98\%向上する。 さらに,分布外データセットでトレーニングした等方性モデルは,分布内データセットでトレーニングしたベースラインモデルよりも優れていることを示す。

The recent advancement in language representation modeling has broadly affected the design of dense retrieval models. In particular, many of the high-performing dense retrieval models evaluate representations of query and document using BERT, and subsequently apply a cosine-similarity based scoring to determine the relevance. BERT representations, however, are known to follow an anisotropic distribution of a narrow cone shape and such an anisotropic distribution can be undesirable for the cosine-similarity based scoring. In this work, we first show that BERT-based DR also follows an anisotropic distribution. To cope with the problem, we introduce unsupervised post-processing methods of Normalizing Flow and whitening, and develop token-wise method in addition to the sequence-wise method for applying the post-processing methods to the representations of dense retrieval models. We show that the proposed methods can effectively enhance the representations to be isotropic, then we perform experiments with ColBERT and RepBERT to show that the performance (NDCG at 10) of document re-ranking can be improved by 5.17\%$\sim$8.09\% for ColBERT and 6.88\%$\sim$22.81\% for RepBERT. To examine the potential of isotropic representation for improving the robustness of DR models, we investigate out-of-distribution tasks where the test dataset differs from the training dataset. The results show that isotropic representation can achieve a generally improved performance. For instance, when training dataset is MS-MARCO and test dataset is Robust04, isotropy post-processing can improve the baseline performance by up to 24.98\%. Furthermore, we show that an isotropic model trained with an out-of-distribution dataset can even outperform a baseline model trained with the in-distribution dataset.
翻訳日:2022-09-02 13:43:47 公開日:2022-09-01
# 詳細: フラストレーションやすいが効果的なアプローチによる最先端の連続関係抽出モデルの再考

Less is More: Rethinking State-of-the-art Continual Relation Extraction Models with a Frustratingly Easy but Effective Approach ( http://arxiv.org/abs/2209.00243v1 )

ライセンス: Link先を確認
Peiyi Wang, Yifan Song, Tianyu Liu, Rundong Gao, Binghuai Lin, Yunbo Cao and Zhifang Sui(参考訳) 連続関係抽出(cre)は、クラスインクリメンタルなデータストリームから新しい関係を継続的に学習するモデルを必要とする。 本稿では, CREの学習段階が2段階あるフラストレーション的に簡単だが効果的なアプローチ (FEA) を提案する。 1)高速適応(FA)は新しいデータだけでモデルをウォームアップします。 2) バランストチューニング(BT)は、バランストメモリデータに基づいてモデルを微調整する。 その単純さにもかかわらず、feaは最先端のベースラインと比べて、同等のパフォーマンス(tacredまたはpresorrel)を達成している。 注意深い検討により,新しい関係と古い関係との間のデータの不均衡が,事前学習したエンコーダ上のヘッド分類器のゆがみを生じさせ,全体的な性能を損なうことが分かった。 FEAでは、FAステージは後続の微調整のためのメモリデータのポテンシャルを解放し、BTステージはよりバランスの取れた決定境界を確立するのに役立つ。 統一されたビューでは、2つの強力なCREベースラインが提案されたトレーニングパイプラインに仮定できる。 FEAの成功はまた、CREにおける将来のモデル設計のための実用的な洞察と提案を提供する。

Continual relation extraction (CRE) requires the model to continually learn new relations from class-incremental data streams. In this paper, we propose a Frustratingly easy but Effective Approach (FEA) method with two learning stages for CRE: 1) Fast Adaption (FA) warms up the model with only new data. 2) Balanced Tuning (BT) finetunes the model on the balanced memory data. Despite its simplicity, FEA achieves comparable (on TACRED or superior (on FewRel) performance compared with the state-of-the-art baselines. With careful examinations, we find that the data imbalance between new and old relations leads to a skewed decision boundary in the head classifiers over the pretrained encoders, thus hurting the overall performance. In FEA, the FA stage unleashes the potential of memory data for the subsequent finetuning, while the BT stage helps establish a more balanced decision boundary. With a unified view, we find that two strong CRE baselines can be subsumed into the proposed training pipeline. The success of FEA also provides actionable insights and suggestions for future model designing in CRE.
翻訳日:2022-09-02 13:43:13 公開日:2022-09-01
# 話題駆動対話における効果的な情報活用の探索

Exploring Effective Information Utilization in Multi-Turn Topic-Driven Conversations ( http://arxiv.org/abs/2209.00250v1 )

ライセンス: Link先を確認
Jiatong Li, Bin He, Fei Mi(参考訳) 会話は常に特定のトピックに関連する。 しかし,既存の対話生成モデルでは,事前学習言語モデル(PLM)の入力長制限のため,様々な情報源からの対話履歴や話題情報を同時に融合することは困難である。 PLMが利用できる情報を拡張するために、我々は、Fusion-in-Decoder(FiD)の複数のチャンネルで特定のプロンプトを用いてトピックと対話履歴情報をエンコードし、3つの異なるチャンネル設定の影響を探る。 本稿では,最近のニュースを中心に会話が展開されるNaturalConvという,中国の特定のデータセットに焦点を当てた実験を行った。 異なる対話モデルと異なるFiDチャンネル設定を徹底的に比較した。 実験の結果,提案した全経路チャネルと追加の履歴チャネルを組み合わせることで,NaturalConv上での競合性能を実現し,過度に長いテキストから様々な情報をエンコードできることがわかった。

Conversations are always related to certain topics. However, it is challenging to fuse dialogue history and topic information from various sources at the same time in current dialogue generation models because of the input length limit of pre-trained language models (PLMs). In order to expand the information that PLMs can utilize, we encode topic and dialogue history information using certain prompts with multiple channels of Fusion-in-Decoder (FiD) and explore the influence of three different channel settings. In this paper, our experiments focus on a specific Chinese dataset named NaturalConv, where the conversation revolves around a piece of recent news. We thoroughly compared different dialogue models and different FiD channel settings. Empirical results show that by combining our proposed whole passage channel with additional history channel, our methods can achieve competitive performance on NaturalConv, making it possible to encode various information from excessively long texts.
翻訳日:2022-09-02 13:42:55 公開日:2022-09-01
# どの匿名化技術がどのNLPタスクに最適なのか? --依拠する。 臨床テキスト処理に関する体系的研究

Which anonymization technique is best for which NLP task? -- It depends. A Systematic Study on Clinical Text Processing ( http://arxiv.org/abs/2209.00262v1 )

ライセンス: Link先を確認
Iyadh Ben Cheikh Larbi and Aljoscha Burchardt and Roland Roller(参考訳) 近年,臨床テキスト処理が注目されている。 一方、機密性の高い患者データへのアクセスは、法的ハードルや個人情報の削除なしには、テキストを共有できないため、依然として大きな課題である。 患者関連情報を修正または削除する技法は数多くあり、それぞれに強みがある。 本稿では,5つの異なるNLPタスクに対応する複数のデータセットを用いて,異なる匿名化手法がMLモデルの性能に与える影響について検討する。 いくつかの学びとレコメンデーションが提示される。 この研究は、特に強力な匿名化技術がパフォーマンスを著しく低下させることを確認した。 さらに,提案手法の多くは類似性探索に基づく再識別攻撃に対して安全ではない。

Clinical text processing has gained more and more attention in recent years. The access to sensitive patient data, on the other hand, is still a big challenge, as text cannot be shared without legal hurdles and without removing personal information. There are many techniques to modify or remove patient related information, each with different strengths. This paper investigates the influence of different anonymization techniques on the performance of ML models using multiple datasets corresponding to five different NLP tasks. Several learnings and recommendations are presented. This work confirms that particularly stronger anonymization techniques lead to a significant drop of performance. In addition to that, most of the presented techniques are not secure against a re-identification attack based on similarity search.
翻訳日:2022-09-02 13:42:39 公開日:2022-09-01
# 音声認識のためのディープスパース変換器

Deep Sparse Conformer for Speech Recognition ( http://arxiv.org/abs/2209.00260v1 )

ライセンス: Link先を確認
Xianchao Wu(参考訳) conformerは、transformerによるコンテンツベースのグローバルインタラクションのキャプチャと畳み込みニューラルネットワークによる局所的特徴の活用を利用して、自動音声認識(asr)で素晴らしい結果を得ている。 conformerでは、半段の残差接続を持つ2つのマカロン状のフィードフォワード層が、マルチヘッドのセルフアテンションと畳み込みモジュールとポスト層正規化を挟んでいる。 コンフォーマーの長列表現能力を2方向, \emph{sparser} と \emph{deeper} で改善する。 時間複雑性とメモリ使用量で$\mathcal{O}(L\text{log}L)$のスパース自己アテンション機構を適用する。 深い正規化戦略は、数百レベルのコンフォーメータブロックのトレーニングを保証するために、残留接続を実行する際に利用される。 日本のcsj-500hデータセットでは、3つの評価セットで5.52\%,4.03\%,4.50\%,4.16\%,2.84\%,3.20\%のcerをそれぞれ達成し、12~16,16,17,50,および100のエンコーダ層をセンスする。

Conformer has achieved impressive results in Automatic Speech Recognition (ASR) by leveraging transformer's capturing of content-based global interactions and convolutional neural network's exploiting of local features. In Conformer, two macaron-like feed-forward layers with half-step residual connections sandwich the multi-head self-attention and convolution modules followed by a post layer normalization. We improve Conformer's long-sequence representation ability in two directions, \emph{sparser} and \emph{deeper}. We adapt a sparse self-attention mechanism with $\mathcal{O}(L\text{log}L)$ in time complexity and memory usage. A deep normalization strategy is utilized when performing residual connections to ensure our training of hundred-level Conformer blocks. On the Japanese CSJ-500h dataset, this deep sparse Conformer achieves respectively CERs of 5.52\%, 4.03\% and 4.50\% on the three evaluation sets and 4.16\%, 2.84\% and 3.20\% when ensembling five deep sparse Conformer variants from 12 to 16, 17, 50, and finally 100 encoder layers.
翻訳日:2022-09-02 13:39:44 公開日:2022-09-01
# 音声認識のための注意増強シトリネット

Attention Enhanced Citrinet for Speech Recognition ( http://arxiv.org/abs/2209.00261v1 )

ライセンス: Link先を確認
Xianchao Wu(参考訳) Citrinet(シトリネット)は、CTC(CTC)に基づく自動音声認識(ASR)モデルである。 局所的およびグローバルな文脈情報をキャプチャするために、Citrinetではサブワードエンコーディングと圧縮・アンド・エキサイティング(SE)を組み合わせた1D時間チャネル分離畳み込みが使用され、アーキテクチャ全体が23ブロック、畳み込み層は235、線形層は46である。 この純粋な畳み込みと深いアーキテクチャにより、Critrinetは収束が比較的遅い。 本稿では,seモジュールと残留モジュールを不変に保ちながら,citrinetブロックの畳み込みモジュールに,フィードフォワードネットワークと共にマルチヘッド注意を導入することを提案する。 高速化のために,注目度の高いCitrinetブロックの8つの畳み込み層を除去し,23ブロックを13に削減する。 CSJ-500h と Magic-1600h のデータセットを用いた実験では,(1) 学習時間 80 %,(2) 学習時間 40 %,モデルサイズ 29.8 % のCitrinet よりも低い文字誤り率で,注意を増すCitrinet がより高速に収束することがわかった。

Citrinet is an end-to-end convolutional Connectionist Temporal Classification (CTC) based automatic speech recognition (ASR) model. To capture local and global contextual information, 1D time-channel separable convolutions combined with sub-word encoding and squeeze-and-excitation (SE) are used in Citrinet, making the whole architecture to be as deep as including 23 blocks with 235 convolution layers and 46 linear layers. This pure convolutional and deep architecture makes Critrinet relatively slow at convergence. In this paper, we propose to introduce multi-head attentions together with feed-forward networks in the convolution module in Citrinet blocks while keeping the SE module and residual module unchanged. For speeding up, we remove 8 convolution layers in each attention-enhanced Citrinet block and reduce 23 blocks to 13. Experiments on the Japanese CSJ-500h and Magic-1600h dataset show that the attention-enhanced Citrinet with less layers and blocks and converges faster with lower character error rates than (1) Citrinet with 80\% training time and (2) Conformer with 40\% training time and 29.8\% model size.
翻訳日:2022-09-02 13:39:20 公開日:2022-09-01
# 部分観測された部分グラフの表現学習モデルとベンチマーク

Models and Benchmarks for Representation Learning of Partially Observed Subgraphs ( http://arxiv.org/abs/2209.00508v1 )

ライセンス: Link先を確認
Dongkwan Kim, Jiho Jin, Jaimeen Ahn, Alice Oh(参考訳) グラフはグラフの豊富な部分構造であり、それらのノードとエッジは現実世界のタスクで部分的に観察できる。 部分的観察の下で、既存のノードまたはサブグラフレベルのメッセージパッシングは、サブ最適表現を生成する。 本稿では,部分観測された部分グラフの学習表現の新たなタスクを定式化する。 そこで本研究では,DGI,InfoGraph,MVGRL,GraphCLなどの既存のInfoMaxモデルをフレームワークに一般化し,部分部分グラフInfoMax(PSI)フレームワークを提案する。 これらのモデルは部分部分グラフの要約とノードから全部分グラフまでの様々な部分構造の間の相互情報を最大化する。 さらに,全部分グラフの表現を再構成し,異なる局所的グローバル構造からの表現性を向上させる,k$-hop psiの新たな2段階モデルを提案する。 この問題のために設計されたトレーニングおよび評価プロトコルでは、3つの実世界のデータセットについて実験を行い、psiモデルがベースラインを上回ることを実証する。

Subgraphs are rich substructures in graphs, and their nodes and edges can be partially observed in real-world tasks. Under partial observation, existing node- or subgraph-level message-passing produces suboptimal representations. In this paper, we formulate a novel task of learning representations of partially observed subgraphs. To solve this problem, we propose Partial Subgraph InfoMax (PSI) framework and generalize existing InfoMax models, including DGI, InfoGraph, MVGRL, and GraphCL, into our framework. These models maximize the mutual information between the partial subgraph's summary and various substructures from nodes to full subgraphs. In addition, we suggest a novel two-stage model with $k$-hop PSI, which reconstructs the representation of the full subgraph and improves its expressiveness from different local-global structures. Under training and evaluation protocols designed for this problem, we conduct experiments on three real-world datasets and demonstrate that PSI models outperform baselines.
翻訳日:2022-09-02 13:38:57 公開日:2022-09-01
# 自動到達性テストのための複雑な3Dゲーム環境

Go-Explore Complex 3D Game Environments for Automated Reachability Testing ( http://arxiv.org/abs/2209.00570v1 )

ライセンス: Link先を確認
Cong Lu, Raluca Georgescu, Johan Verwey(参考訳) 現代のaaaビデオゲームは巨大なゲームレベルとマップを備えており、レベルテスターが徹底的にカバーすることがますます困難になっている。 その結果、ゲームはしばしば、プレイヤーが床から落ちたり、壁に閉じ込められたりするなどの破滅的なバグと共に出荷される。 本稿では,地図上のユニークなチェックポイントを節約し,そこから探索する有望なものを識別する,強力な探索アルゴリズムであるGo-Exploreに基づいて,シミュレーションされた3D環境における到達可能性バグを対象とするアプローチを提案する。 ゲームのナビゲーションメッシュから派生した単純なヒューリスティックと組み合わせると、go-exploreは難しいバグを発見し、人間のデモやゲームダイナミクスの知識を必要とせずに複雑な環境を包括的に探索する。 Go-Exploreは、ナビゲーションメッシュをカバーし、マップ全体にわたるユニークな位置の数の両方において、固有の好奇心を持つ強化学習を含む、より複雑なベースラインをはるかに上回る。 最後に,並列エージェントの使用により,1台のマシン上で10時間以内に1.5km x 1.5kmのゲーム世界を完全にカバーできるため,連続テストスイートに極めて有望である。

Modern AAA video games feature huge game levels and maps which are increasingly hard for level testers to cover exhaustively. As a result, games often ship with catastrophic bugs such as the player falling through the floor or being stuck in walls. We propose an approach specifically targeted at reachability bugs in simulated 3D environments based on the powerful exploration algorithm, Go-Explore, which saves unique checkpoints across the map and then identifies promising ones to explore from. We show that when coupled with simple heuristics derived from the game's navigation mesh, Go-Explore finds challenging bugs and comprehensively explores complex environments without the need for human demonstration or knowledge of the game dynamics. Go-Explore vastly outperforms more complicated baselines including reinforcement learning with intrinsic curiosity in both covering the navigation mesh and number of unique positions across the map discovered. Finally, due to our use of parallel agents, our algorithm can fully cover a vast 1.5km x 1.5km game world within 10 hours on a single machine making it extremely promising for continuous testing suites.
翻訳日:2022-09-02 13:38:42 公開日:2022-09-01
# ジェスチャーとビジュアルスマートセンサのためのインクリメンタルオンライン学習アルゴリズムの比較

Incremental Online Learning Algorithms Comparison for Gesture and Visual Smart Sensors ( http://arxiv.org/abs/2209.00591v1 )

ライセンス: Link先を確認
Alessandro Avi, Andrea Albanese, Davide Brunelli(参考訳) IoTシステムにおけるTinyMLは、MCUをデータ処理のエッジデバイスとして活用する。 しかし、従来のTinyMLメソッドは推論のみを実行でき、静的環境やクラスに限られる。 実際のケースシナリオは通常、動的環境で動作するため、元のニューラルモデルがもはや適切でないコンテキストを漂流させる。 このため、事前訓練されたモデルは、記録されたデータが徐々に時代遅れになったり、新しいパターンが現れるため、その寿命の間に精度と信頼性を低下させる。 継続的な学習戦略はモデルを最新の状態まで維持し、実行時のパラメータの微調整を行う。 本稿では,4つの最先端アルゴリズムを2つの実例で比較する。 一 加速度計データに基づくジェスチャー認識及び ii)画像分類。 本結果は,これらのシステムの信頼性と,最小メモリのMCUへのデプロイの実現可能性を確認し,制約のないコンピューティングプラットフォームの初期モデルに対して,数パーセントの精度の低下を図った。

Tiny machine learning (TinyML) in IoT systems exploits MCUs as edge devices for data processing. However, traditional TinyML methods can only perform inference, limited to static environments or classes. Real case scenarios usually work in dynamic environments, thus drifting the context where the original neural model is no more suitable. For this reason, pre-trained models reduce accuracy and reliability during their lifetime because the data recorded slowly becomes obsolete or new patterns appear. Continual learning strategies maintain the model up to date, with runtime fine-tuning of the parameters. This paper compares four state-of-the-art algorithms in two real applications: i) gesture recognition based on accelerometer data and ii) image classification. Our results confirm these systems' reliability and the feasibility of deploying them in tiny-memory MCUs, with a drop in the accuracy of a few percentage points with respect to the original models for unconstrained computing platforms.
翻訳日:2022-09-02 13:38:21 公開日:2022-09-01
# サイバーセキュリティにおける限定ローカル情報によるCPS攻撃検出:マルチノード分類アンサンブルアプローチ

CPS Attack Detection under Limited Local Information in Cyber Security: A Multi-node Multi-class Classification Ensemble Approach ( http://arxiv.org/abs/2209.00170v1 )

ライセンス: Link先を確認
Junyi Liu and Yifu Tang and Haimeng Zhao and Xieheng Wang and Fangyu Li and Jingyi Zhang(参考訳) サイバーセキュリティ侵害は、分散サイバーフィジカルシステム(cps)の一般的な異常である。 しかし、最先端の人工知能(AI)アプローチであっても、サイバーセキュリティ違反の分類は依然として難しい問題である。 本稿では,サイバーセキュリティにおける攻撃検出の多種分類問題について検討する。 挑戦的なマルチノードデータ検閲ケースを検討する。 この場合、各データセンタ/ノード内のデータは、ローカルデータが不完全である間は共有できない。 特に、ローカルノードは複数のクラスの一部だけを含む。 全ノード間で生データを共有することなく、グローバルマルチクラス分類器をトレーニングするために、本研究の主な成果は、マルチノードマルチクラス分類アンサンブル手法の設計である。 各ローカルノードからバイナリ分類器の推定パラメータとデータ密度を収集することにより、各ローカルノードの欠落情報を完成させ、グローバルマルチクラス分類器を構築する。 提案手法の有効性を検証するために, 複数ノードデータ検閲における数値実験を行った。 このようなケースでは、フルデータアプローチよりも提案手法のアウトパフォーマンスを示すことさえできる。

Cybersecurity breaches are the common anomalies for distributed cyber-physical systems (CPS). However, the cyber security breach classification is still a difficult problem, even using cutting-edge artificial intelligence (AI) approaches. In this paper, we study the multi-class classification problem in cyber security for attack detection. A challenging multi-node data-censoring case is considered. In such a case, data within each data center/node cannot be shared while the local data is incomplete. Particularly, local nodes contain only a part of the multiple classes. In order to train a global multi-class classifier without sharing the raw data across all nodes, the main result of our study is designing a multi-node multi-class classification ensemble approach. By gathering the estimated parameters of the binary classifiers and data densities from each local node, the missing information for each local node is completed to build the global multi-class classifier. Numerical experiments are given to validate the effectiveness of the proposed approach under the multi-node data-censoring case. Under such a case, we even show the out-performance of the proposed approach over the full-data approach.
翻訳日:2022-09-02 13:37:37 公開日:2022-09-01
# 損失の幾何学と計算

The Geometry and Calculus of Losses ( http://arxiv.org/abs/2209.00238v1 )

ライセンス: Link先を確認
Robert C. Williamson and Zac Cranko(参考訳) 統計的決定問題は統計機械学習の基礎である。 最も単純な問題は二進分類と多クラス分類とクラス確率推定である。 それらの定義の中心は損失関数の選択であり、これは解の品質を評価する手段である。 本稿では,そのような問題に対する損失関数の理論を,基本成分が特定の構造を持つ凸集合である新しい視点から体系的に展開する。 損失関数は凸集合の支持関数の次数として定義される。 したがって、自動的に正しい(確率推定の校正)。 この視点は3つの新しい機会をもたらす。 これにより、これまで気付かなかったと思われる損失と(反)ノルムの基本的な関係の開発が可能になる。 第二に、異なる損失間の補間を可能にする凸集合の微積分によって引き起こされる損失の計算法の開発を可能にするので、特定の問題に対する損失の調整に潜在的に有用な設計ツールとなる。 これを行う際、凸集合の M-sum に関する既存の結果の上に構築し、かなり拡張する。 第三に、この視点は、損失を定義する凸集合の極双対から導出され、vovkの集約アルゴリズムの自然な普遍的置換関数を形成する「極」損失関数(または「逆」)の自然理論を導く。

Statistical decision problems are the foundation of statistical machine learning. The simplest problems are binary and multiclass classification and class probability estimation. Central to their definition is the choice of loss function, which is the means by which the quality of a solution is evaluated. In this paper we systematically develop the theory of loss functions for such problems from a novel perspective whose basic ingredients are convex sets with a particular structure. The loss function is defined as the subgradient of the support function of the convex set. It is consequently automatically proper (calibrated for probability estimation). This perspective provides three novel opportunities. It enables the development of a fundamental relationship between losses and (anti)-norms that appears to have not been noticed before. Second, it enables the development of a calculus of losses induced by the calculus of convex sets which allows the interpolation between different losses, and thus is a potential useful design tool for tailoring losses to particular problems. In doing this we build upon, and considerably extend, existing results on M-sums of convex sets. Third, the perspective leads to a natural theory of `polar' (or `inverse') loss functions, which are derived from the polar dual of the convex set defining the loss, and which form a natural universal substitution function for Vovk's aggregating algorithm.
翻訳日:2022-09-02 13:37:22 公開日:2022-09-01
# 勾配推定器の可変単ループ法:一階と二階の最適性とそのフェデレート学習への応用

Versatile Single-Loop Method for Gradient Estimator: First and Second Order Optimality, and its Application to Federated Learning ( http://arxiv.org/abs/2209.00361v1 )

ライセンス: Link先を確認
Kazusato Oko, Shunta Akiyama, Tomoya Murata, and Taiji Suzuki(参考訳) 分散還元法は大規模最適化問題を解くのに大きな成功を収めているが、それらの多くは累積誤差に苦しむため、定期的な勾配計算が必要となる。 本稿では,勾配推定器の周期的リフレッシュを必要としない有限サム非凸最適化のために,SLEDGE (Single-Loop mEthoD for Gradient Estimator) という単一ループアルゴリズムを提案する。 既存の方法とは異なり、SLEDGEは汎用性の利点がある。 (i)二階最適性 (ii)pl領域における指数収束、及び (iii)データの不均一性が少ないほど複雑さが小さくなる。 これらの特性を生かして,効率的なフェデレーション学習アルゴリズムを構築する。 出力の1次および2次最適性を示し,pl条件下での分析も行う。 ローカル予算が十分に大きく、クライアントが(ヘッセン)〜ヘテロジニアスである場合、アルゴリズムは通信ラウンドを減らし、FedAvg、SCAFFOLD、Mimeなどの既存のメソッドを必要とする。 本手法の優位性を数値実験で検証した。

While variance reduction methods have shown great success in solving large scale optimization problems, many of them suffer from accumulated errors and, therefore, should periodically require the full gradient computation. In this paper, we present a single-loop algorithm named SLEDGE (Single-Loop mEthoD for Gradient Estimator) for finite-sum nonconvex optimization, which does not require periodic refresh of the gradient estimator but achieves nearly optimal gradient complexity. Unlike existing methods, SLEDGE has the advantage of versatility; (i) second-order optimality, (ii) exponential convergence in the PL region, and (iii) smaller complexity under less heterogeneity of data. We build an efficient federated learning algorithm by exploiting these favorable properties. We show the first and second-order optimality of the output and also provide analysis under PL conditions. When the local budget is sufficiently large and clients are less (Hessian-)~heterogeneous, the algorithm requires fewer communication rounds then existing methods such as FedAvg, SCAFFOLD, and Mime. The superiority of our method is verified in numerical experiments.
翻訳日:2022-09-02 13:37:03 公開日:2022-09-01
# マトリックスとテンソル分解による非教師付きEHRによるヘノタイピング

Unsupervised EHR-based Phenotyping via Matrix and Tensor Decompositions ( http://arxiv.org/abs/2209.00322v1 )

ライセンス: Link先を確認
Florian Becker, Age K. Smilde, Evrim Acar(参考訳) 計算的表現型付けは、患者のサブグループの教師なしの発見と、電子健康記録(EHR)からの関連医療状況の発見を可能にする。 通常、EHRデータには人口統計情報、診断、実験結果が含まれる。 ノーベル表現型を発見することは、予後および治療的価値の可能性がある。 医療従事者に透明で解釈可能な結果を提供することは、精密医療を進める上で重要な要件であり、重要な部分である。 行列(例えば非負行列分解)やテンソル分解(例えば、CANDECOMP/PARAFAC)のような低ランクデータ近似法は、そのような透明で解釈可能な洞察を提供できることを示した。 近年,様々な制約を組み込んだ低ランクデータ近似手法が開発され,解釈可能性の向上が図られている。 さらに、高次元性、データ空間性、不完全性など、EHRデータ内の共通の課題に対する解決策を提供する。 特に縦型ehrからの時間的表現型抽出は近年注目されている。 本稿では,計算表現のための低ランク近似に基づくアプローチについて概説する。 既存の文献は、行列対テンソル分解に基づく時間対静的表現型アプローチに分類される。 さらに,表現型を検証するための異なるアプローチ,すなわち臨床的意義の評価について概説する。

Computational phenotyping allows for unsupervised discovery of subgroups of patients as well as corresponding co-occurring medical conditions from electronic health records (EHR). Typically, EHR data contains demographic information, diagnoses and laboratory results. Discovering (novel) phenotypes has the potential to be of prognostic and therapeutic value. Providing medical practitioners with transparent and interpretable results is an important requirement and an essential part for advancing precision medicine. Low-rank data approximation methods such as matrix (e.g., non-negative matrix factorization) and tensor decompositions (e.g., CANDECOMP/PARAFAC) have demonstrated that they can provide such transparent and interpretable insights. Recent developments have adapted low-rank data approximation methods by incorporating different constraints and regularizations that facilitate interpretability further. In addition, they offer solutions for common challenges within EHR data such as high dimensionality, data sparsity and incompleteness. Especially extracting temporal phenotypes from longitudinal EHR has received much attention in recent years. In this paper, we provide a comprehensive review of low-rank approximation-based approaches for computational phenotyping. The existing literature is categorized into temporal vs. static phenotyping approaches based on matrix vs. tensor decompositions. Furthermore, we outline different approaches for the validation of phenotypes, i.e., the assessment of clinical significance.
翻訳日:2022-09-02 13:33:31 公開日:2022-09-01
# B\'ezier Gaussian Processs for Tall and Wide Data

B\'ezier Gaussian Processes for Tall and Wide Data ( http://arxiv.org/abs/2209.00343v1 )

ライセンス: Link先を確認
Martin J{\o}rgensen and Michael A. Osborne(参考訳) ガウス過程に対する現代の近似は「全てのデータ」に適しており、観測回数は良くスケールするが、'ワイドデータ'では性能が低く、入力特徴数ではスケールが不十分である。 つまり、入力機能の数が増加するにつれて、優れた予測性能には、変数の総数とその関連するコストが急速に増加する必要がある。 本稿では,入力特徴量に比例して指数関数的に拡張できるカーネルを導入するが,観測数と入力特徴量の両方において線形コストしか必要としない。 このスケーリングは、行列逆数や行列式を使わずに近似推論が可能なB\'ezier buttressの導入によって達成される。 我々のカーネルはガウスのプロセスレグレッションにおいて最もよく使われているカーネルのいくつかとよく似ており、カーネルが高いデータセットと広いデータセットの両方にスケールできることを実証的に示す。

Modern approximations to Gaussian processes are suitable for "tall data", with a cost that scales well in the number of observations, but under-performs on ``wide data'', scaling poorly in the number of input features. That is, as the number of input features grows, good predictive performance requires the number of summarising variables, and their associated cost, to grow rapidly. We introduce a kernel that allows the number of summarising variables to grow exponentially with the number of input features, but requires only linear cost in both number of observations and input features. This scaling is achieved through our introduction of the B\'ezier buttress, which allows approximate inference without computing matrix inverses or determinants. We show that our kernel has close similarities to some of the most used kernels in Gaussian process regression, and empirically demonstrate the kernel's ability to scale to both tall and wide datasets.
翻訳日:2022-09-02 13:33:13 公開日:2022-09-01
# 歩行の列挙符号化による六足歩行適応に向けて:勾配自由ヒューリスティックス

Towards Hexapod Gait Adaptation using Enumerative Encoding of Gaits: Gradient-Free Heuristics ( http://arxiv.org/abs/2209.00486v1 )

ライセンス: Link先を確認
Victor Parque(参考訳) 多脚ロボットシステムの状況変化への効率的な適応を求める試みは、ロボットの制御と移動に新たな洞察をもたらすことが期待されている。 本稿では,六脚歩行の数値的(因子的)エンコーディングによる脚障害の早期回復に向けたパフォーマンスのフロンティアについて検討する。 5つの自然にインスパイアされた勾配なし最適化ヒューリスティックを用いた計算研究により、いくつかの評価(trials)により、所望のロコモーションディレクティブに対する最小の偏差を達成する、実現可能なリカバリの歩行戦略を作成できることが示されている。 例えば、2.5cmに達する回復歩行戦略を生成することが可能である。 (10cm) 指示方向に対する平均偏差が40~60(20) 評価/審理値であった。 その結果,新しい条件への効率的な適応が可能となり,ロボットロコモーション問題における正準表現のさらなる探索が可能となった。

The quest for the efficient adaptation of multilegged robotic systems to changing conditions is expected to render new insights into robotic control and locomotion. In this paper, we study the performance frontiers of the enumerative (factorial) encoding of hexapod gaits for fast recovery to conditions of leg failures. Our computational studies using five nature-inspired gradient-free optimization heuristics have shown that it is possible to render feasible recovery gait strategies that achieve minimal deviation to desired locomotion directives with a few evaluations (trials). For instance, it is possible to generate viable recovery gait strategies reaching 2.5 cm. (10 cm.) deviation on average with respect to a commanded direction with 40 - 60 (20) evaluations/trials. Our results are the potential to enable efficient adaptation to new conditions and to explore further the canonical representations for adaptation in robotic locomotion problems.
翻訳日:2022-09-02 13:32:54 公開日:2022-09-01
# 音声ビデオグラウンドニングのためのビデオガイド型カリキュラム学習

Video-Guided Curriculum Learning for Spoken Video Grounding ( http://arxiv.org/abs/2209.00277v1 )

ライセンス: Link先を確認
Yan Xia, Zhou Zhao, Shangwei Ye, Yang Zhao, Haoyuan Li, Yi Ren(参考訳) 本稿では,音声言語記述から所望のビデオフラグメントをローカライズすることを目的とした,svg(stalkd video grounding)という新しいタスクを提案する。 テキストを使用する場合と比較して、音声を使用するには、生の音声からビデオに関連する有用な音素や音節を直接活用する必要がある。 さらに,この音声音声に無作為な環境雑音を付加することで,作業の難易度を高め,実環境をシミュレートする。 識別音素を修正し、ノイズの多い音声から映像関連情報を抽出するために、音声事前学習過程において、音声言語を理解して外部雑音を抑制するために重要な視覚的知覚を利用する新しいビデオ誘導カリキュラム学習(VGCL)を開発する。 提案手法は,提案モデルでは基礎的真理ビデオセグメントが得られないため,基礎的真理ビデオから事前学習中の全映像コンテンツへ段階的に変換するカリキュラム戦略を設計する。 最後に、モデルはビデオクリップ全体から重要な視覚情報を抽出する方法を学び、話し言葉を理解するのに役立つ。 また, activitynet 音声データセットと名づけられた activitynet をベースに,最初の大規模音声ビデオ接地データセットを収集した。 提案するビデオガイド型カリキュラム学習は, 相互音声エンコーダ獲得のための事前学習プロセスを容易にし, 音声映像接地作業の性能を著しく向上させる。 また, 雑音音の場合, 提案手法はasr転写物による映像の接地手法よりも優れており, カリキュラム戦略の有効性も実証している。

In this paper, we introduce a new task, spoken video grounding (SVG), which aims to localize the desired video fragments from spoken language descriptions. Compared with using text, employing audio requires the model to directly exploit the useful phonemes and syllables related to the video from raw speech. Moreover, we randomly add environmental noises to this speech audio, further increasing the difficulty of this task and better simulating real applications. To rectify the discriminative phonemes and extract video-related information from noisy audio, we develop a novel video-guided curriculum learning (VGCL) during the audio pre-training process, which can make use of the vital visual perceptions to help understand the spoken language and suppress the external noise. Considering during inference the model can not obtain ground truth video segments, we design a curriculum strategy that gradually shifts the input video from the ground truth to the entire video content during pre-training. Finally, the model can learn how to extract critical visual information from the entire video clip to help understand the spoken language. In addition, we collect the first large-scale spoken video grounding dataset based on ActivityNet, which is named as ActivityNet Speech dataset. Extensive experiments demonstrate our proposed video-guided curriculum learning can facilitate the pre-training process to obtain a mutual audio encoder, significantly promoting the performance of spoken video grounding tasks. Moreover, we prove that in the case of noisy sound, our model outperforms the method that grounding video with ASR transcripts, further demonstrating the effectiveness of our curriculum strategy.
翻訳日:2022-09-02 13:32:41 公開日:2022-09-01
# 野生における任意の話者に対する口唇音声合成

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild ( http://arxiv.org/abs/2209.00642v1 )

ライセンス: Link先を確認
Sindhu B Hegde, K R Prajwal, Rudrabha Mukhopadhyay, Vinay P Namboodiri, C. V. Jawahar(参考訳) そこで本研究では,無声唇映像から自然界のどの話者に対しても音声を生成する問題に対処する。 従来の作品とは対照的に,我々の方法 (i)一定数の話者に限定されない。 (ii)ドメイン又は語彙に明示的に制約を課していないこと。 (iii)実験室での撮影とは対照的に野生で撮影された映像を扱っている。 この課題は、音声、ピッチ、言語内容など、目的とする音声の多くの特徴が、サイレントな顔ビデオから完全に推測できないという、多くの課題を提示している。 これらの確率的変動に対処するために,この変動の中で唇と音声列を関連付けることを学習する新しいVAE-GANアーキテクチャを提案する。 訓練過程を指導する複数の強力な判別器の助けを借りて,任意の音声中の音声シーケンスを合成し,任意の人の唇の動きを推定する。 複数のデータセットに対する大規模な実験は、すべてのベースラインを大きなマージンで上回ることを示した。 さらに、当社のネットワークは、特定のidの動画に微調整することで、$4\times$以上のデータでトレーニングされたシングルスピーカーモデルに匹敵するパフォーマンスを実現できます。 我々は,アーキテクチャの異なるモジュールの効果を分析するために,多数のアブレーション研究を行っている。 また、コードとトレーニングされたモデルとともに、いくつかの定性的な結果を示すデモビデオもWebサイトで公開しています。

In this work, we address the problem of generating speech from silent lip videos for any speaker in the wild. In stark contrast to previous works, our method (i) is not restricted to a fixed number of speakers, (ii) does not explicitly impose constraints on the domain or the vocabulary and (iii) deals with videos that are recorded in the wild as opposed to within laboratory settings. The task presents a host of challenges, with the key one being that many features of the desired target speech, like voice, pitch and linguistic content, cannot be entirely inferred from the silent face video. In order to handle these stochastic variations, we propose a new VAE-GAN architecture that learns to associate the lip and speech sequences amidst the variations. With the help of multiple powerful discriminators that guide the training process, our generator learns to synthesize speech sequences in any voice for the lip movements of any person. Extensive experiments on multiple datasets show that we outperform all baselines by a large margin. Further, our network can be fine-tuned on videos of specific identities to achieve a performance comparable to single-speaker models that are trained on $4\times$ more data. We conduct numerous ablation studies to analyze the effect of different modules of our architecture. We also provide a demo video that demonstrates several qualitative results along with the code and trained models on our website: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/lip-to-speech-synthesis}}
翻訳日:2022-09-02 13:32:14 公開日:2022-09-01
# 2次元医用画像分割のための自己監督型事前訓練

Self-Supervised Pretraining for 2D Medical Image Segmentation ( http://arxiv.org/abs/2209.00314v1 )

ライセンス: Link先を確認
Andr\'as Kalapos and B\'alint Gyires-T\'oth(参考訳) Supervised Machine Learningは、幅広いコンピュータビジョン問題に対する最先端のソリューションを提供する。 しかし、ラベル付きトレーニングデータの必要性は、そのような入力が少ない、あるいは高価であるシナリオにおいて、これらのアルゴリズムの機能を制限する。 自己教師付き学習は、不正なデータに対して特定のドメインのモデルを事前訓練することで、手動でアノテートされたデータの必要性を下げる方法を提供する。 このアプローチでは、ラベル付きデータは下流タスクのモデルを微調整するためにのみ必要です。 医療画像セグメンテーション(medical image segmentation)は、データラベリングが専門知識を必要とする分野であり、大きなラベル付きデータセットの収集は困難である。 それにもかかわらず、自己教師付き学習アルゴリズムは医用画像セグメンテーションネットワークの事前学習にはほとんど使われない。 本稿では,下流の医用画像セグメンテーションにおける教師付きおよび自己指導型プレトレーニングアプローチの有効性について,コンバージェンスとデータ効率に着目し,詳しく分析する。 自然画像と対象領域固有の画像に対する自己教師付き事前学習は,最も速く,最も安定した下流収束につながる。 acdc心筋セグメンテーションデータセットの実験では、このプリトレーニングアプローチはimagenetプリトレーニングモデルよりも4~5倍高速に微調整収束を実現する。 また、この手法では、下流収束時間を改善するために、ドメイン固有データに対する事前訓練が5回未満必要であることを示す。 最後に、低データシナリオでは、教師付きimagenetプリトレーニングが最高の精度を達成し、最小限のエラーに近付くために100以下の注釈付きサンプルが必要となる。

Supervised machine learning provides state-of-the-art solutions to a wide range of computer vision problems. However, the need for copious labelled training data limits the capabilities of these algorithms in scenarios where such input is scarce or expensive. Self-supervised learning offers a way to lower the need for manually annotated data by pretraining models for a specific domain on unlabelled data. In this approach, labelled data are solely required to fine-tune models for downstream tasks. Medical image segmentation is a field where labelling data requires expert knowledge and collecting large labelled datasets is challenging; therefore, self-supervised learning algorithms promise substantial improvements in this field. Despite this, self-supervised learning algorithms are used rarely to pretrain medical image segmentation networks. In this paper, we elaborate and analyse the effectiveness of supervised and self-supervised pretraining approaches on downstream medical image segmentation, focusing on convergence and data efficiency. We find that self-supervised pretraining on natural images and target-domain-specific images leads to the fastest and most stable downstream convergence. In our experiments on the ACDC cardiac segmentation dataset, this pretraining approach achieves 4-5 times faster fine-tuning convergence compared to an ImageNet pretrained model. We also show that this approach requires less than five epochs of pretraining on domain-specific data to achieve such improvement in the downstream convergence time. Finally, we find that, in low-data scenarios, supervised ImageNet pretraining achieves the best accuracy, requiring less than 100 annotated samples to realise close to minimal error.
翻訳日:2022-09-02 13:31:52 公開日:2022-09-01
# 神経プロセスファミリー:調査,応用,展望

The Neural Process Family: Survey, Applications and Perspectives ( http://arxiv.org/abs/2209.00517v1 )

ライセンス: Link先を確認
Saurav Jha, Dong Gong, Xuesong Wang, Richard E. Turner, Lina Yao(参考訳) ニューラルネットワークの実装に対する標準的なアプローチは、強力な関数近似能力をもたらすが、メタ表現を学ぶ能力や予測における確率的不確実性は限られている。 一方ガウス過程は、そのような不確実性を推定するためにベイズ学習スキームを採用するが、効率と近似能力に制約される。 ニューラルプロセスファミリー(NPF)は、メタ学習予測の不確実性にニューラルネットワークを活用することによって、両方の世界の長所を提供する。 このような可能性から近年は家族にかなりの研究活動がもたらされている。 そのため,npfモデルの総合的な調査を行い,その動機,方法論,実験を整理し,関連付ける必要がある。 本論文は,家族に関する定式化,研究テーマ,応用について深く掘り下げながら,このギャップに対処しようとするものである。 私たちは、他の深層学習分野のいくつかの最近の進歩を一つの傘の下に持ってくる可能性に光を当てました。 次に,家族の厳密な分類を提供し,1-d,2-d,3-d入力領域で動作するデータ生成関数をモデル化する能力実証を行った。 我々は、この分野の研究の進歩を加速させる有望な方向性について、我々の視点を議論することで結論づける。 実験用のコードはhttps://github.com/srvCodes/neural-processes-survey.comで公開されます。

The standard approaches to neural network implementation yield powerful function approximation capabilities but are limited in their abilities to learn meta representations and reason probabilistic uncertainties in their predictions. Gaussian processes, on the other hand, adopt the Bayesian learning scheme to estimate such uncertainties but are constrained by their efficiency and approximation capacity. The Neural Processes Family (NPF) intends to offer the best of both worlds by leveraging neural networks for meta-learning predictive uncertainties. Such potential has brought substantial research activity to the family in recent years. Therefore, a comprehensive survey of NPF models is needed to organize and relate their motivation, methodology, and experiments. This paper intends to address this gap while digging deeper into the formulation, research themes, and applications concerning the family members. We shed light on their potential to bring several recent advances in other deep learning domains under one umbrella. We then provide a rigorous taxonomy of the family and empirically demonstrate their capabilities for modeling data generating functions operating on 1-d, 2-d, and 3-d input domains. We conclude by discussing our perspectives on the promising directions that can fuel the research advances in the field. Code for our experiments will be made available at https://github.com/srvCodes/neural-processes-survey.
翻訳日:2022-09-02 13:31:28 公開日:2022-09-01
# IDとOODのパフォーマンスは実世界のデータセットと逆相関することがある

ID and OOD Performance Are Sometimes Inversely Correlated on Real-world Datasets ( http://arxiv.org/abs/2209.00613v1 )

ライセンス: Link先を確認
Damien Teney, Seong Joon Oh, Ehsan Abbasnejad(参考訳) いくつかの研究では、様々なモデルの分布内(ID)と分布外(OOD)のパフォーマンスを実証的に比較している。 彼らはコンピュータビジョンとNLPのベンチマークで頻繁に正の相関を報告した。 驚くべきことに、彼らは必要なトレードオフを示す逆相関を決して観察しない。 これは、IDパフォーマンスがOOD一般化のプロキシとして機能するかどうかを決定するために重要である。 本稿では,実世界のベンチマークにおいて,IDとOOD性能の逆相関が生じることを示す。 モデルの選択が偏っているため、過去の研究で見落とされた可能性がある。 WILDS-Camelyon17データセットに、複数の訓練エポックとランダムシードのモデルを用いてパターンの例を示す。 我々の観察は、ERMの目的に対する解を多様化する正規化器で訓練されたモデルに特に顕著である。 我々は過去の研究でなされた推薦と結論を否定する。 1)高OOD性能にはID性能のトレードオフが必要になることがある。 2) ID 性能のみに注目すると OOD 性能が最適になる訳ではなく,OOD 性能が低下し,最終的に負のリターンが生じる可能性がある。 (3)具体例では,実証研究は既存の手法で達成可能な制度を表わすのみであり,規範的勧告の導出はケアが保証される。

Several studies have empirically compared in-distribution (ID) and out-of-distribution (OOD) performance of various models. They report frequent positive correlations on benchmarks in computer vision and NLP. Surprisingly, they never observe inverse correlations suggesting necessary trade-offs. This matters to determine whether ID performance can serve as a proxy for OOD generalization. This short paper shows that inverse correlations between ID and OOD performance do happen in real-world benchmarks. They may have been missed in past studies because of a biased selection of models. We show an example of the pattern on the WILDS-Camelyon17 dataset, using models from multiple training epochs and random seeds. Our observations are particularly striking on models trained with a regularizer that diversifies the solutions to the ERM objective. We nuance recommendations and conclusions made in past studies. (1) High OOD performance does sometimes require trading off ID performance. (2) Focusing on ID performance alone may not lead to optimal OOD performance: it can lead to diminishing and eventually negative returns in OOD performance. (3) Our example reminds that empirical studies only chart regimes achievable with existing methods: care is warranted in deriving prescriptive recommendations.
翻訳日:2022-09-02 13:31:06 公開日:2022-09-01
# 資金を見つける - 不完全な資金基盤とのエンティティリンク

Find the Funding: Entity Linking with Incomplete Funding Knowledge Bases ( http://arxiv.org/abs/2209.00351v1 )

ライセンス: Link先を確認
Gizem Aydin, Seyed Amin Tabatabaei, Giorgios Tsatsaronis, Faegheh Hasibi(参考訳) 学術論文からの資金情報の自動抽出は、資金提供団体による研究成果の追跡、資金提供を受けた研究者や大学へのプロファイリング、オープンアクセスポリシーのサポートなど、産業や研究コミュニティに重要な価値をもたらす。 資金機関の特定とリンクに関する2つの大きな課題は次のとおりである。 (i)知識ベース(KB)のスパースグラフ構造により、一般的に用いられるグラフベースのエンティティリンクは、資金領域に最適化される。 (ii) KBに欠落したエンティティは(最近のゼロショットアプローチとは異なり)、NILとしてKBエントリを含まないエンティティの参照をマークする必要がある。 我々は,NIL予測を行い,データ不足問題を時間とデータ効率で克服できるエンティティリンクモデルを提案する。 我々のモデルはトランスベースの参照検出とバイエンコーダモデルに基づいてエンティティリンクを行う。 私たちのモデルは,既存のベースラインよりも優れています。

Automatic extraction of funding information from academic articles adds significant value to industry and research communities, such as tracking research outcomes by funding organizations, profiling researchers and universities based on the received funding, and supporting open access policies. Two major challenges of identifying and linking funding entities are: (i) sparse graph structure of the Knowledge Base (KB), which makes the commonly used graph-based entity linking approaches suboptimal for the funding domain, (ii) missing entities in KB, which (unlike recent zero-shot approaches) requires marking entity mentions without KB entries as NIL. We propose an entity linking model that can perform NIL prediction and overcome data scarcity issues in a time and data-efficient manner. Our model builds on a transformer-based mention detection and bi-encoder model to perform entity linking. We show that our model outperforms strong existing baselines.
翻訳日:2022-09-02 13:28:18 公開日:2022-09-01
# TokenCut: 自己監督型トランスフォーマーと正規化カットによる画像とビデオ中のオブジェクトのセグメンテーション

TokenCut: Segmenting Objects in Images and Videos with Self-supervised Transformer and Normalized Cut ( http://arxiv.org/abs/2209.00383v1 )

ライセンス: Link先を確認
Yangtao Wang (M-PSI), Xi Shen, Yuan Yuan (MIT CSAIL), Yuming Du, Maomao Li, Shell Xu Hu, James L Crowley (M-PSI), Dominique Vaufreydaz (M-PSI)(参考訳) 本稿では,自己教師付きトランスフォーマによって得られた特徴を用いて,画像や映像中の有価物の検出とセグメント化を行うグラフベースアルゴリズムについて述べる。 このアプローチにより、画像やビデオを構成する画像パッチは、完全に連結されたグラフに編成され、各パッチ間のエッジに、トランスフォーマーが学習した特徴を用いて、パッチ間の類似度スコアをラベル付けする。 有線物体の検出と分割はグラフカット問題として定式化し、古典的な正規化カットアルゴリズムを用いて解く。 このアプローチの単純さにもかかわらず、いくつかの共通画像およびビデオ検出およびセグメンテーションタスクにおける最先端の結果を達成する。 教師なしのオブジェクト発見において、このアプローチは、VOC07、VOC12、COCO20Kデータセットでテストした場合、それぞれ6.1%、5.7%、および2.6%のマージンで競合するアプローチより優れている。 画像中の教師なし唾液濃度検出タスクでは、IoU(Intersection over Union)のスコアを4.4%、5.6%、5.2%改善する。 現在の最先端技術と比較して、ECSSD、DUTS、DUT-OMRONデータセットでそれぞれテストする。 この方法は、davis、segtv2、fbmsデータセットで教師なしのビデオオブジェクトセグメンテーションタスクの競合結果も得る。

In this paper, we describe a graph-based algorithm that uses the features obtained by a self-supervised transformer to detect and segment salient objects in images and videos. With this approach, the image patches that compose an image or video are organised into a fully connected graph, where the edge between each pair of patches is labeled with a similarity score between patches using features learned by the transformer. Detection and segmentation of salient objects is then formulated as a graph-cut problem and solved using the classical Normalized Cut algorithm. Despite the simplicity of this approach, it achieves state-of-the-art results on several common image and video detection and segmentation tasks. For unsupervised object discovery, this approach outperforms the competing approaches by a margin of 6.1%, 5.7%, and 2.6%, respectively, when tested with the VOC07, VOC12, and COCO20K datasets. For the unsupervised saliency detection task in images, this method improves the score for Intersection over Union (IoU) by 4.4%, 5.6% and 5.2%. When tested with the ECSSD, DUTS, and DUT-OMRON datasets, respectively, compared to current state-of-the-art techniques. This method also achieves competitive results for unsupervised video object segmentation tasks with the DAVIS, SegTV2, and FBMS datasets.
翻訳日:2022-09-02 13:28:03 公開日:2022-09-01
# ログ校正によるラベル分布スキューによるフェデレーション学習

Federated Learning with Label Distribution Skew via Logits Calibration ( http://arxiv.org/abs/2209.00189v1 )

ライセンス: Link先を確認
Jie Zhang, Zhiqi Li, Bo Li, Jianghe Xu, Shuang Wu, Shouhong Ding, Chao Wu(参考訳) 従来のフェデレーション最適化手法は不均一なデータ(すなわち精度の低下)、特に高度に歪んだデータに対して不適切な処理を行う。 本稿では,クライアント間でラベルの分布が変化するflにおけるラベル分布スキューについて検討する。 まず,統計的視点からラベル分布スキューについて検討する。 我々は,従来のソフトマックスのクロスエントロピーに基づく手法が適切でないことを理論的および実証的に証明し,局所モデルがマイノリティクラスや欠落クラスに過度に適合することを示す。 さらに,局所更新後の勾配の偏差を測定するための偏差を理論的に導入する。 最後に,各クラスの発生確率に応じてソフトマックスクロスエントロピー前のロジットを結合するfeedlc (\textbf {fed} erated learning via\textbf {l} ogits\textbf {c} alibration)を提案する。 fedlcは、粒度調整されたクロスエントロピー損失を、ペアワイズラベルマージンを追加することでローカルアップデートに適用する。 フェデレーションデータセットと実世界のデータセットに関する大規模な実験は、FedLCがより正確なグローバルモデルをもたらし、パフォーマンスが大幅に向上したことを示している。 さらに,本手法に他のFL手法を組み込むことにより,グローバルモデルの性能をさらに向上させることができる。

Traditional federated optimization methods perform poorly with heterogeneous data (ie, accuracy reduction), especially for highly skewed data. In this paper, we investigate the label distribution skew in FL, where the distribution of labels varies across clients. First, we investigate the label distribution skew from a statistical view. We demonstrate both theoretically and empirically that previous methods based on softmax cross-entropy are not suitable, which can result in local models heavily overfitting to minority classes and missing classes. Additionally, we theoretically introduce a deviation bound to measure the deviation of the gradient after local update. At last, we propose FedLC (\textbf {Fed} erated learning via\textbf {L} ogits\textbf {C} alibration), which calibrates the logits before softmax cross-entropy according to the probability of occurrence of each class. FedLC applies a fine-grained calibrated cross-entropy loss to local update by adding a pairwise label margin. Extensive experiments on federated datasets and real-world datasets demonstrate that FedLC leads to a more accurate global model and much improved performance. Furthermore, integrating other FL methods into our approach can further enhance the performance of the global model.
翻訳日:2022-09-02 13:27:12 公開日:2022-09-01
# リチウムイオン電池状態推定のためのサイクル離散学習を用いた移動可能多段階モデル

A Transferable Multi-stage Model with Cycling Discrepancy Learning for Lithium-ion Battery State of Health Estimation ( http://arxiv.org/abs/2209.00190v1 )

ライセンス: Link先を確認
Yan Qin and Chau Yuen and Xunyuan Yin and Biao Huang(参考訳) 健康状態に関する重要な要素として、リチウムイオン電池(LiB)では、データ駆動型健康状態推定(SOH)が主流となっている。 電池間のデータ不一致を処理するため、現在のSOH推定モデルは転送学習(TL)に携わり、オフライン訓練モデルの部分構造を再利用することで得られる知識を予備的に確保する。 しかし、電池の全ライフサイクルの複数の劣化パターンはTLを追求することが困難である。 ステージの概念は、同様の劣化パターンを示す連続サイクルの集合を記述するために導入された。 移動可能な多段soh推定モデルを提案し、4段階からなる同じ段階の電池間でtlを行う。 第一に、特定ステージ情報により、電源電池からの生サイクルデータを高次元の位相空間に再構成し、限られたセンサーで隠れたダイナミクスを探索する。 次に、再構成されたデータで離散部分空間をサイクリングすることで、各段階のサイクルにまたがるドメイン不変表現を提案する。 第3に、異なるステージ間の不均衡放電サイクルを考慮して、長い短期記憶ネットワークを持つ軽量モデルと、提案した時間カプセルネットワークを持つ強力なモデルからなる切換推定戦略を提案し、推定精度を高める。 最後に、更新方式は、目標電池のサイクリング一貫性がドリフトするときに推定誤差を補償する。 提案手法は,3つの電池を搭載したラン・トゥ・フェイルアベンチマークにおいて,様々な転送タスクにおいて,その競合アルゴリズムを上回っている。

As a significant ingredient regarding health status, data-driven state-of-health (SOH) estimation has become dominant for lithium-ion batteries (LiBs). To handle data discrepancy across batteries, current SOH estimation models engage in transfer learning (TL), which reserves apriori knowledge gained through reusing partial structures of the offline trained model. However, multiple degradation patterns of a complete life cycle of a battery make it challenging to pursue TL. The concept of the stage is introduced to describe the collection of continuous cycles that present a similar degradation pattern. A transferable multi-stage SOH estimation model is proposed to perform TL across batteries in the same stage, consisting of four steps. First, with identified stage information, raw cycling data from the source battery are reconstructed into the phase space with high dimensions, exploring hidden dynamics with limited sensors. Next, domain invariant representation across cycles in each stage is proposed through cycling discrepancy subspace with reconstructed data. Third, considering the unbalanced discharge cycles among different stages, a switching estimation strategy composed of a lightweight model with the long short-term memory network and a powerful model with the proposed temporal capsule network is proposed to boost estimation accuracy. Lastly, an updating scheme compensates for estimation errors when the cycling consistency of target batteries drifts. The proposed method outperforms its competitive algorithms in various transfer tasks for a run-to-failure benchmark with three batteries.
翻訳日:2022-09-02 13:26:48 公開日:2022-09-01
# 進行的文脈化による動的適応型連続強化学習

Dynamics-Adaptive Continual Reinforcement Learning via Progressive Contextualization ( http://arxiv.org/abs/2209.00347v1 )

ライセンス: Link先を確認
Tiantian Zhang, Zichuan Lin, Yuxing Wang, Deheng Ye, Qiang Fu, Wei Yang, Xueqian Wang, Bin Liang, Bo Yuan, and Xiu Li(参考訳) 動的環境における連続強化学習(CRL)の鍵となる課題は、学習情報の破滅的な忘れを最小化しつつ、環境が生涯にわたって変化するにつれてRLエージェントの行動に迅速に適応することである。 この課題に対処するため、本稿では、動的適応連続RLであるDaCoRLを提案する。 DaCoRLは、プログレッシブな文脈化を使用してコンテキスト条件付きポリシーを学習し、動的環境内の定常タスクのストリームを一連のコンテキストに段階的にクラスタ化し、ポリシーを近似するために拡張可能なマルチヘッドニューラルネットワークを選択する。 具体的には、環境コンテキストとして類似のダイナミクスを持つタスクのセットを定義し、環境特徴に基づいてオンラインベイズ無限ガウス混合をクラスタリングする手法としてコンテキスト推論を形式化し、オンラインベイズ推論を用いてコンテキスト上の後続分布を推測する。 従来の中華料理店プロセスの想定では、現在のタスクを予め見たコンテキストに正確に分類したり、環境変化を事前に知らせる外部指標に頼ることなく、必要に応じて新しいコンテキストをインスタンス化することができる。 さらに、出力層が新たにインスタンス化されたコンテキストと同期的に拡張された拡張可能なマルチヘッドニューラルネットワークと、学習タスクの性能を維持するための知識蒸留規則化用語を用いる。 様々なディープRLアルゴリズムと組み合わせられる一般的なフレームワークとして、DaCoRLは、いくつかのロボットナビゲーションおよびMuJoCoロコモーションタスクに関する広範な実験によって検証され、安定性、全体的な性能、一般化能力の観点から、既存の手法よりも一貫した優位性を特徴としている。

A key challenge of continual reinforcement learning (CRL) in dynamic environments is to promptly adapt the RL agent's behavior as the environment changes over its lifetime, while minimizing the catastrophic forgetting of the learned information. To address this challenge, in this article, we propose DaCoRL, i.e., dynamics-adaptive continual RL. DaCoRL learns a context-conditioned policy using progressive contextualization, which incrementally clusters a stream of stationary tasks in the dynamic environment into a series of contexts and opts for an expandable multihead neural network to approximate the policy. Specifically, we define a set of tasks with similar dynamics as an environmental context and formalize context inference as a procedure of online Bayesian infinite Gaussian mixture clustering on environment features, resorting to online Bayesian inference to infer the posterior distribution over contexts. Under the assumption of a Chinese restaurant process prior, this technique can accurately classify the current task as a previously seen context or instantiate a new context as needed without relying on any external indicator to signal environmental changes in advance. Furthermore, we employ an expandable multihead neural network whose output layer is synchronously expanded with the newly instantiated context, and a knowledge distillation regularization term for retaining the performance on learned tasks. As a general framework that can be coupled with various deep RL algorithms, DaCoRL features consistent superiority over existing methods in terms of the stability, overall performance and generalization ability, as verified by extensive experiments on several robot navigation and MuJoCo locomotion tasks.
翻訳日:2022-09-02 13:26:24 公開日:2022-09-01
# 深層学習における表現の複雑さ

Complexity of Representations in Deep Learning ( http://arxiv.org/abs/2209.00525v1 )

ライセンス: Link先を確認
Tin Kam Ho(参考訳) ディープニューラルネットワークは、複数の関数層を使用して、入力ベクトルで表されるオブジェクトを、異なる表現に段階的にマッピングし、十分なトレーニングで、最終的な決定関数の出力である各クラスの単一のスコアにマッピングする。 理想的には、この出力空間において、異なるクラスのオブジェクトは最大分離を達成する。 深層ニューラルネットワークの内部動作をよりよく理解する必要性から、データ複雑性の観点からクラスを分離する際の学習された表現の有効性を分析する。 単純な複雑性尺度、一般的なベンチマークタスク、よく知られたアーキテクチャ設計を用いて、データ複雑性がネットワークを通してどのように進化するか、トレーニング中にどのように変化するのか、そしてそれがネットワーク設計やトレーニングサンプルの可用性にどのように影響するかを示す。 我々は,観測の意義と今後の研究の可能性について議論する。

Deep neural networks use multiple layers of functions to map an object represented by an input vector progressively to different representations, and with sufficient training, eventually to a single score for each class that is the output of the final decision function. Ideally, in this output space, the objects of different classes achieve maximum separation. Motivated by the need to better understand the inner working of a deep neural network, we analyze the effectiveness of the learned representations in separating the classes from a data complexity perspective. Using a simple complexity measure, a popular benchmarking task, and a well-known architecture design, we show how the data complexity evolves through the network, how it changes during training, and how it is impacted by the network design and the availability of training samples. We discuss the implications of the observations and the potentials for further studies.
翻訳日:2022-09-02 13:25:32 公開日:2022-09-01
# アクターの優先体験リプレイ

Actor Prioritized Experience Replay ( http://arxiv.org/abs/2209.00532v1 )

ライセンス: Link先を確認
Baturay Saglam, Furkan B. Mutlu, Dogan C. Cicek, Suleyman S. Kozat(参考訳) 優先度付き経験再現(PER)として知られる広く研究されている深層強化学習(RL)技術により、エージェントは時間差(TD)誤差に比例した一様でない確率でサンプリングされた遷移から学習することができる。 per は離散的行動領域における深い rl 法全体の性能にとって最も重要な要素の1つであることが示されているが、多くの経験的研究は、連続制御においてアクター-批判的アルゴリズムをかなり過小評価していることを示している。 理論的には、アクターネットワークは、大きなTDエラーを持つ遷移で効果的に訓練できないことを示す。 その結果、Q-ネットワークの下で計算された近似ポリシー勾配は、最適Q-関数で計算された実際の勾配から分岐する。 そこで本研究では,アクタ-批判的手法に対する新しい経験リプレイサンプリングフレームワークを導入し,安定性の問題やperの低経験的性能の背景にある最近の知見についても考察する。 導入されたアルゴリズムはPERの改良の新たなブランチを提案し、アクターネットワークと批評家ネットワークの両方で効率的かつ効率的なトレーニングをスケジュールする。 我々の理論的主張を検証し、提案手法が競合するアプローチを著しく上回り、標準的な非政治的アクター批判アルゴリズムよりも最先端の結果が得られることを示した。

A widely-studied deep reinforcement learning (RL) technique known as Prioritized Experience Replay (PER) allows agents to learn from transitions sampled with non-uniform probability proportional to their temporal-difference (TD) error. Although it has been shown that PER is one of the most crucial components for the overall performance of deep RL methods in discrete action domains, many empirical studies indicate that it considerably underperforms actor-critic algorithms in continuous control. We theoretically show that actor networks cannot be effectively trained with transitions that have large TD errors. As a result, the approximate policy gradient computed under the Q-network diverges from the actual gradient computed under the optimal Q-function. Motivated by this, we introduce a novel experience replay sampling framework for actor-critic methods, which also regards issues with stability and recent findings behind the poor empirical performance of PER. The introduced algorithm suggests a new branch of improvements to PER and schedules effective and efficient training for both actor and critic networks. An extensive set of experiments verifies our theoretical claims and demonstrates that the introduced method significantly outperforms the competing approaches and obtains state-of-the-art results over the standard off-policy actor-critic algorithms.
翻訳日:2022-09-02 13:25:19 公開日:2022-09-01
# トランスフォーマーは効率的な世界モデルです

Transformers are Sample Efficient World Models ( http://arxiv.org/abs/2209.00588v1 )

ライセンス: Link先を確認
Vincent Micheli, Eloi Alonso, Fran\c{c}ois Fleuret(参考訳) 深層強化学習エージェントは非効率なサンプルであり、実際の問題への応用をかなり制限している。 近年、この問題を解決するために多くのモデルベース手法が設計されており、世界モデルがもっとも顕著なアプローチの1つであることを想像している。 しかし、シミュレーション環境との事実上無限の相互作用は魅力的だが、世界モデルは長期にわたって正確でなければならない。 シーケンシャルモデリングタスクにおけるトランスフォーマーの成功に触発され、離散オートエンコーダと自己回帰トランスフォーマーからなる世界モデルで学習するデータ効率のエージェントであるIRISを導入した。 Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。 提案手法は, 検索を行なわず, MuZero を超越する手法として, 手法の新たな現状を定めている。 サンプル効率強化学習のためのトランスフォーマーと世界モデルに関する今後の研究を促進するため、私たちはhttps://github.com/eloialonso/iris.comでコードベースをリリースします。

Deep reinforcement learning agents are notoriously sample inefficient, which considerably limits their application to real-world problems. Recently, many model-based methods have been designed to address this issue, with learning in the imagination of a world model being one of the most prominent approaches. However, while virtually unlimited interaction with a simulated environment sounds appealing, the world model has to be accurate over extended periods of time. Motivated by the success of Transformers in sequence modeling tasks, we introduce IRIS, a data-efficient agent that learns in a world model composed of a discrete autoencoder and an autoregressive Transformer. With the equivalent of only two hours of gameplay in the Atari 100k benchmark, IRIS achieves a mean human normalized score of 1.046, and outperforms humans on 10 out of 26 games. Our approach sets a new state of the art for methods without lookahead search, and even surpasses MuZero. To foster future research on Transformers and world models for sample-efficient reinforcement learning, we release our codebase at https://github.com/eloialonso/iris.
翻訳日:2022-09-02 13:22:28 公開日:2022-09-01
# 異なるキャラクタのためのイオン交換機構によるストーリーエンドジェネレータ

An Ion Exchange Mechanism Inspired Story Ending Generator for Different Characters ( http://arxiv.org/abs/2209.00200v1 )

ライセンス: Link先を確認
Xinyu Jiang, Qi Zhang, Chongyang Shi, Kaiying Jiang, Liang Hu and Shoujin Wang(参考訳) ストーリーエンディング生成は、与えられたストーリーコンテキストに対して合理的なエンディングを生成することを目的としています。 この分野の既存の研究のほとんどは、コヒーレントまたは多様化したストーリーエンディングの生成に焦点を当てているが、異なるキャラクターが与えられたストーリーのエンディングに異なる結果をもたらす可能性があることを無視している。 本稿では,物語中の各キャラクターのエンディングをカスタマイズする文字指向ストーリーエンディングジェネレータ(CoSEG)を提案する。 具体的には、まず、ストーリーコンテキストから抽出した記述経験からキャラクターの個性を学ぶためのキャラクタモデリングモジュールを提案する。 そこで, 化学反応におけるイオン交換機構に着想を得て, 類似情報交換による各文字と対応するコンテキスト間の固有相互作用を学習するための新しいベクトル破れモジュールを設計した。 最後に、アテンションメカニズムを利用して、効果的な文字固有相互作用を学習し、各インタラクションをデコーダに供給し、文字指向の終端を生成する。 実験結果とケーススタディにより、CoSEGは、最先端の手法と比較して生成エンディングの品質を大幅に向上し、異なる文字に対して効果的にエンディングをカスタマイズすることを示した。

Story ending generation aims at generating reasonable endings for a given story context. Most existing studies in this area focus on generating coherent or diversified story endings, while they ignore that different characters may lead to different endings for a given story. In this paper, we propose a Character-oriented Story Ending Generator (CoSEG) to customize an ending for each character in a story. Specifically, we first propose a character modeling module to learn the personalities of characters from their descriptive experiences extracted from the story context. Then, inspired by the ion exchange mechanism in chemical reactions, we design a novel vector breaking/forming module to learn the intrinsic interactions between each character and the corresponding context through an analogical information exchange procedure. Finally, we leverage the attention mechanism to learn effective character-specific interactions and feed each interaction into a decoder to generate character-orient endings. Extensive experimental results and case studies demonstrate that CoSEG achieves significant improvements in the quality of generated endings compared with state-of-the-art methods, and it effectively customizes the endings for different characters.
翻訳日:2022-09-02 13:21:56 公開日:2022-09-01
# 抽象対話要約のための自己教師あり手法による意味理解の強化

Enhancing Semantic Understanding with Self-supervised Methods for Abstractive Dialogue Summarization ( http://arxiv.org/abs/2209.00278v1 )

ライセンス: Link先を確認
Hyunjae Lee, Jaewoong Yun, Hyunjin Choi, Seongho Joe, Youngjune L. Gwon(参考訳) 文脈化された単語埋め込みは、自然言語理解において最先端のパフォーマンスをもたらす可能性がある。 近年,BERT などの事前学習した深層文脈化テキストエンコーダは,抽象的な要約を含む自然言語タスクを改善する可能性を示している。 既存の対話要約のアプローチは、複数の話者の対話ではなく、ニュース記事からなる大規模コーパスで訓練された要約タスクに、大きな言語モデルを統合することに焦点を当てている。 本稿では,対話要約モデルを学習するための欠点を補う自己指導手法を提案する。 我々の原理は,対話文の文脈化能力を高めるために,前文対話文を用いて不整合情報の流れを検出することである。 拡張BERTを用いて,共有エンコーダデコーダアーキテクチャ上に抽象対話要約モデルを構築し,微調整する。 我々は,最近導入された抽象対話要約データセットであるSAMSum corpusを用いて,抽象対話要約器を実証的に評価した。 これらの手法は,ROUGEスコアで測定した抽象的要約の改善に寄与している。 また,広範なアブレーション研究を通じて,臨界モデルハイパーパラメータに対する感度解析,スイッチング発話の確率,マスキングインターロカクタについて述べる。

Contextualized word embeddings can lead to state-of-the-art performances in natural language understanding. Recently, a pre-trained deep contextualized text encoder such as BERT has shown its potential in improving natural language tasks including abstractive summarization. Existing approaches in dialogue summarization focus on incorporating a large language model into summarization task trained on large-scale corpora consisting of news articles rather than dialogues of multiple speakers. In this paper, we introduce self-supervised methods to compensate shortcomings to train a dialogue summarization model. Our principle is to detect incoherent information flows using pretext dialogue text to enhance BERT's ability to contextualize the dialogue text representations. We build and fine-tune an abstractive dialogue summarization model on a shared encoder-decoder architecture using the enhanced BERT. We empirically evaluate our abstractive dialogue summarizer with the SAMSum corpus, a recently introduced dataset with abstractive dialogue summaries. All of our methods have contributed improvements to abstractive summary measured in ROUGE scores. Through an extensive ablation study, we also present a sensitivity analysis to critical model hyperparameters, probabilities of switching utterances and masking interlocutors.
翻訳日:2022-09-02 13:21:35 公開日:2022-09-01
# コチェット(KoCHET):朝鮮文化遺産法人、エンティティ関連事業

KoCHET: a Korean Cultural Heritage corpus for Entity-related Tasks ( http://arxiv.org/abs/2209.00367v1 )

ライセンス: Link先を確認
Gyeongmin Kim, Jinsung Kim, Junyoung Son, Heuiseok Lim(参考訳) デジタル化された伝統文化遺産文書が急速に増加し、保存・管理の必要性が増し、実体の実践的認識と類型化が不可欠となった。 そこで我々は,韓国の文化遺産コーパスであるKoCHETを提案する。これは,エンティティ認識(NER)や関係抽出(RE),エンティティタイピング(ET)といった,典型的なエンティティ関連タスクのためのものだ。 政府系団体のデータ構築ガイドラインに基づく文化遺産専門家の助言により、韓国文化遺産に関連するすべての実体を網羅した112,362, 38,765, 113,198件のNER, RE, ETの事例からなる。 さらに、既存の公的なコーパスとは異なり、修正された再分配は国内外の研究者にも許される。 実験の結果,KoCHETの実用性は文化遺産の面でより有益であることがわかった。 また,統計的および言語学的分析の観点から,KoCHETの実践的洞察を提供する。 当社のコーパスはhttps://github.com/Gyeongmin47/KoCHET.comから無償で入手可能です。

As digitized traditional cultural heritage documents have rapidly increased, resulting in an increased need for preservation and management, practical recognition of entities and typification of their classes has become essential. To achieve this, we propose KoCHET - a Korean cultural heritage corpus for the typical entity-related tasks, i.e., named entity recognition (NER), relation extraction (RE), and entity typing (ET). Advised by cultural heritage experts based on the data construction guidelines of government-affiliated organizations, KoCHET consists of respectively 112,362, 38,765, 113,198 examples for NER, RE, and ET tasks, covering all entity types related to Korean cultural heritage. Moreover, unlike the existing public corpora, modified redistribution can be allowed both domestic and foreign researchers. Our experimental results make the practical usability of KoCHET more valuable in terms of cultural heritage. We also provide practical insights of KoCHET in terms of statistical and linguistic analysis. Our corpus is freely available at https://github.com/Gyeongmin47/KoCHET.
翻訳日:2022-09-02 13:21:19 公開日:2022-09-01
# 医学的質問要約のためのフォーカス駆動コントラスト学習

Focus-Driven Contrastive Learniang for Medical Question Summarization ( http://arxiv.org/abs/2209.00484v1 )

ライセンス: Link先を確認
Ming Zhang, Shuai Dou, Ziyang Wang, Yunfang Wu(参考訳) 自動的な医療質問要約は、消費者の健康問題を理解し、正しい回答を得るのに役立つ。 このタスクには,最大推定(MLE)に基づくSeq2Seqモデルが適用されており,このモデルでは十分な疑問の焦点を捉えることができず,従来のMLE戦略では文レベルのセマンティクスを理解する能力に欠ける2つの一般的な問題に直面している。 そこで本研究では,これらの問題を緩和するために,QFCL(Contentive Learning framework)を提案する。 特に,質問焦点に基づく難解なサンプルを生成するための簡便で効果的な手法を提案し,コントラスト学習をエンコーダとデコーダの両方で活用し,文章レベルの表現性を向上させる。 3つの医用ベンチマーク・データセットにおいて,提案モデルでは,3つのデータセットのベースラインBARTモデルに対して,それぞれ5.33,12.85,3.81点の性能向上が得られた。 さらに人間の判断と詳細な分析により、我々のQFCLモデルは、異なる文の意味を識別してより良い文表現を学習し、質問焦点を捉えて高品質な要約を生成する。

Automatic medical question summarization can significantly help the system to understand consumer health questions and retrieve correct answers. The Seq2Seq model based on maximum likelihood estimation (MLE) has been applied in this task, which faces two general problems: the model can not capture well question focus and and the traditional MLE strategy lacks the ability to understand sentence-level semantics. To alleviate these problems, we propose a novel question focus-driven contrastive learning framework (QFCL). Specially, we propose an easy and effective approach to generate hard negative samples based on the question focus, and exploit contrastive learning at both encoder and decoder to obtain better sentence level representations. On three medical benchmark datasets, our proposed model achieves new state-of-the-art results, and obtains a performance gain of 5.33, 12.85 and 3.81 points over the baseline BART model on three datasets respectively. Further human judgement and detailed analysis prove that our QFCL model learns better sentence representations with the ability to distinguish different sentence meanings, and generates high-quality summaries by capturing question focus.
翻訳日:2022-09-02 13:20:47 公開日:2022-09-01
# 遺伝的アルゴリズムを用いた統計的パワーマニフォールド学習フレームワーク

A Genetic Algorithm-based Framework for Learning Statistical Power Manifold ( http://arxiv.org/abs/2209.00215v1 )

ライセンス: Link先を確認
Abhishek K. Umrawal, Sean P. Lane, and Erin P. Hennes(参考訳) 統計力は仮説テストの良さ/強さの尺度である。 正式には、それが検出すべき真の効果がある場合、その効果を検出する確率である。 したがって、仮説検定のパラメータの関数として統計的パワーを最適化することが望ましい。 しかし、ほとんどの仮説テストでは、これらのパラメータの関数としての統計的パワーの明示的な汎関数形式は未知であるが、与えられたパラメータの値の集合に対する統計的パワーを計算することはシミュレーション実験を用いて可能である。 これらのシミュレーション実験は通常計算コストがかかる。 したがって、シミュレーションを用いて統計パワー多様体全体を開発するのは非常に時間がかかる。 そこで本研究では,統計量多様体を学習するための新しい遺伝的アルゴリズムに基づくフレームワークを提案する。 多重線形回帰$f$-testの場合、提案するアルゴリズム/フレームワークは、oracleのパワーに対するクエリ数が大幅に減少するので、ブルートフォースアプローチに比べてはるかに高速に統計パワー多様体を学習できることを示します。 また, 遺伝的アルゴリズムの反復数の増加に伴い, 多様体学習の質が向上することを示した。

Statistical power is a measure of the goodness/strength of a hypothesis test. Formally, it is the probability of detecting an effect, if there is a true effect present to detect. Hence, optimizing statistical power as a function of some parameters of a hypothesis test is desirable. However, for most hypothesis tests, the explicit functional form of statistical power as a function of those parameters is unknown but calculating statistical power for a given set of values of those parameters is possible using simulated experiments. These simulated experiments are usually computationally expensive. Hence, developing the entire statistical power manifold using simulations can be very time-consuming. Motivated by this, we propose a novel genetic algorithm-based framework for learning statistical power manifold. For a multiple linear regression $F$-test, we show that the proposed algorithm/framework learns the statistical power manifold much faster as compared to a brute-force approach as the number of queries to the power oracle is significantly reduced. We also show that the quality of learning the manifold improves as the number of iterations increases for the genetic algorithm.
翻訳日:2022-09-02 13:20:14 公開日:2022-09-01
# インクリメンタルFew-Shot表面欠陥検出のための新しい知識蒸留ネットワーク

A New Knowledge Distillation Network for Incremental Few-Shot Surface Defect Detection ( http://arxiv.org/abs/2209.00519v1 )

ライセンス: Link先を確認
Chen Sun, Liang Gao, Xinyu Li, Yiping Gao(参考訳) 表面欠陥検出は産業品質検査において最も重要なプロセスの1つである。 深層学習に基づく表面欠陥検出手法は大きな可能性を秘めている。 しかし、性能の良いモデルは、通常、大きなトレーニングデータを必要とし、トレーニング段階で現れる欠陥のみを検出することができる。 インクリメンタルな少数ショットデータに直面すると、欠陥検出モデルは必然的に壊滅的な忘れや誤分類の問題に直面する。 そこで本研究では,DKAN(Dual Knowledge Align Network)と呼ばれる新しい知識蒸留ネットワークを提案する。 提案したDKAN法は,事前学習型ファインタニング伝達学習パラダイムを踏襲し,ファインタニングのための知識蒸留フレームワークを設計した。 具体的には、異なるカテゴリの分離された安定な特徴表現を実現するために、インクリメンタルRCNNを提案する。 本フレームワークでは,クラスに依存しない機能マップ間でのFKA(Feature Knowledge Align)の損失が破滅的な忘れ問題に対処するように設計され,ロジット分布間でLKA(Logit Knowledge Align)の損失が展開され,誤分類問題に対処する。 インクリメンタルなFew-shot NEU-DETデータセットを用いて実験を行った結果、DKANは様々な撮影シーンにおいて、平均精度の6.65%で他の手法よりも優れており、提案手法の有効性が証明されている。

Surface defect detection is one of the most essential processes for industrial quality inspection. Deep learning-based surface defect detection methods have shown great potential. However, the well-performed models usually require large training data and can only detect defects that appeared in the training stage. When facing incremental few-shot data, defect detection models inevitably suffer from catastrophic forgetting and misclassification problem. To solve these problems, this paper proposes a new knowledge distillation network, called Dual Knowledge Align Network (DKAN). The proposed DKAN method follows a pretraining-finetuning transfer learning paradigm and a knowledge distillation framework is designed for fine-tuning. Specifically, an Incremental RCNN is proposed to achieve decoupled stable feature representation of different categories. Under this framework, a Feature Knowledge Align (FKA) loss is designed between class-agnostic feature maps to deal with catastrophic forgetting problems, and a Logit Knowledge Align (LKA) loss is deployed between logit distributions to tackle misclassification problems. Experiments have been conducted on the incremental Few-shot NEU-DET dataset and results show that DKAN outperforms other methods on various few-shot scenes, up to 6.65% on the mean Average Precision metric, which proves the effectiveness of the proposed method.
翻訳日:2022-09-02 13:19:54 公開日:2022-09-01
# 高速フーリエ畳み込みによる地球観測のためのリモートセンサ画像検出

Fast Fourier Convolution Based Remote Sensor Image Object Detection for Earth Observation ( http://arxiv.org/abs/2209.00551v1 )

ライセンス: Link先を確認
Gu Lingyun, Eugene Popov, Dong Ge(参考訳) リモートセンシング画像検出は、地球観測において重要な技術であり、森林火災監視や海洋モニタリングなどの様々なタスクで使用されている。 画像オブジェクト検出技術は、大きな進歩にもかかわらず、小さなオブジェクトのピクセルが限られているため、リモートセンサーイメージや小さなオブジェクトを扱うのに苦労している。 多くの既存研究では、小さな物体の検出を促進する効果的な方法として、空間的文脈を導入することが示されている。 一方、画像分類に関する最近の研究は、スペクトル畳み込み操作は空間領域よりも周波数領域における長期空間依存をより効率的に知覚できることを示した。 本稿では,新しい周波数認識型ResNet(F-ResNet)とバイラテラル・スペクトル認識型Feature Pyramid Network(BS-FPN)からなる,リモートセンシング対象検出のための周波数認識型Feature Pyramid Framework(FFPF)を提案する。 具体的には、F-ResNetは、周波数領域の畳み込みをバックボーンの各ステージに挿入し、小さなオブジェクトのよりリッチな特徴を抽出することで、スペクトルコンテキスト情報を知覚する。 我々の知る限り、これはリモートセンシングオブジェクト検出タスクに周波数領域の畳み込みを導入する最初の試みである。 さらに、BSFPNは、F-ResNetからスペクトルコンテキスト情報の可能性を解き放つために、双方向サンプリング戦略とスキップ接続を用いて、異なるスケールのオブジェクト特徴の関連をより良くモデル化するように設計されている。 光リモートセンシング画像データセット (dior and dota) における物体検出のための広範な実験を行った。 実験の結果,本手法の優れた性能が得られた。 トリックなしで平均精度(mAP)を達成する。

Remote sensor image object detection is an important technology for Earth observation, and is used in various tasks such as forest fire monitoring and ocean monitoring. Image object detection technology, despite the significant developments, is struggling to handle remote sensor images and small-scale objects, due to the limited pixels of small objects. Numerous existing studies have demonstrated that an effective way to promote small object detection is to introduce the spatial context. Meanwhile, recent researches for image classification have shown that spectral convolution operations can perceive long-term spatial dependence more efficiently in the frequency domain than spatial domain. Inspired by this observation, we propose a Frequency-aware Feature Pyramid Framework (FFPF) for remote sensing object detection, which consists of a novel Frequency-aware ResNet (F-ResNet) and a Bilateral Spectral-aware Feature Pyramid Network (BS-FPN). Specifically, the F-ResNet is proposed to perceive the spectral context information by plugging the frequency domain convolution into each stage of the backbone, extracting richer features of small objects. To the best of our knowledge, this is the first work to introduce frequency-domain convolution into remote sensing object detection task. In addition, the BSFPN is designed to use a bilateral sampling strategy and skipping connection to better model the association of object features at different scales, towards unleashing the potential of the spectral context information from F-ResNet. Extensive experiments are conducted for object detection in the optical remote sensing image dataset (DIOR and DOTA). The experimental results demonstrate the excellent performance of our method. It achieves an average accuracy (mAP) without any tricks.
翻訳日:2022-09-02 13:19:30 公開日:2022-09-01
# 有限サイズ振動による等方性平衡伝播計算

Holomorphic Equilibrium Propagation Computes Exact Gradients Through Finite Size Oscillations ( http://arxiv.org/abs/2209.00530v1 )

ライセンス: Link先を確認
Axel Laborieux, Friedemann Zenke(参考訳) 平衡伝播(Equilibrium propagation、EP)は、深層ニューラルネットワークの局所学習規則によるトレーニングを可能にするバックプロパゲーション(BP)の代替である。 これにより、ニューロモーフィックシステムを訓練し、神経生物学における学習を理解するための魅力的な枠組みを提供する。 しかし、EPは無限小の教育信号を必要とするため、ノイズの多い物理系における適用性が制限される。 さらに,アルゴリズムには時間相の分離が必要であり,大規模問題には適用されていない。 ここでは、EPを正則ネットワークに拡張することで、これらの問題に対処する。 この拡張が有限振幅の教示信号に対しても自然に正確な勾配をもたらすことを示す。 重要なことに、勾配は有限個のニューロン活動振動から分離した位相を必要とせず、第1のフーリエ係数として連続時間で計算することができる。 さらに,提案手法が雑音の存在下での勾配のロバストな推定を可能にし,より深いモデルが有限指導信号の恩恵を受けることを数値シミュレーションで示す。 最後に、ImageNet 32x32データセット上でEPの最初のベンチマークを確立し、BPでトレーニングした等価ネットワークの性能と一致することを示す。 我々の研究は、EPを大規模問題に拡張できる分析的洞察を提供し、振動が生物学的およびニューロモルフィックシステムの学習をどのようにサポートするかの公式な枠組みを確立する。

Equilibrium propagation (EP) is an alternative to backpropagation (BP) that allows the training of deep neural networks with local learning rules. It thus provides a compelling framework for training neuromorphic systems and understanding learning in neurobiology. However, EP requires infinitesimal teaching signals, thereby limiting its applicability in noisy physical systems. Moreover, the algorithm requires separate temporal phases and has not been applied to large-scale problems. Here we address these issues by extending EP to holomorphic networks. We show analytically that this extension naturally leads to exact gradients even for finite-amplitude teaching signals. Importantly, the gradient can be computed as the first Fourier coefficient from finite neuronal activity oscillations in continuous time without requiring separate phases. Further, we demonstrate in numerical simulations that our approach permits robust estimation of gradients in the presence of noise and that deeper models benefit from the finite teaching signals. Finally, we establish the first benchmark for EP on the ImageNet 32x32 dataset and show that it matches the performance of an equivalent network trained with BP. Our work provides analytical insights that enable scaling EP to large-scale problems and establishes a formal framework for how oscillations could support learning in biological and neuromorphic systems.
翻訳日:2022-09-02 13:16:08 公開日:2022-09-01
# 法的文書の教師なし簡易化

Unsupervised Simplification of Legal Texts ( http://arxiv.org/abs/2209.00557v1 )

ライセンス: Link先を確認
Mert Cemri, Tolga \c{C}ukur, Aykut Ko\c{c}(参考訳) 法律文書の処理は自然言語処理(NLP)の新たな分野として発展してきた。 法的テキストには独自の用語と、語彙、意味論、構文、形態学における複雑な言語的属性が含まれている。 したがって、法領域特有のts(text simplification)メソッドの開発は、一般人による法典理解の促進や、主流の法定nlpアプリケーションのための高レベルモデルへのインプットの提供において極めて重要である。 最近の研究では、法文の規則に基づくTS法が提案されているが、法域における学習に基づくTS法はこれまで検討されていない。 本稿では,法的テキスト(USLT)の教師なし単純化手法を紹介する。 USLTは複雑な単語を置換し、長い文を分割することでドメイン固有のTSを実行する。 この目的のために、USLTは文中の複雑な単語を検出し、マスク変換器モデルを介して候補を生成し、ランクスコアに基づいて置換候補を選択する。 その後、USLTは長い文を、意味的な意味を保ちながら、短いコアとコンテキストの文の階層に再帰的に分解する。 我々は,USLTがテキストの簡潔さを保ちながら,最先端のドメイン汎用TSメソッドよりも優れていることを示す。

The processing of legal texts has been developing as an emerging field in natural language processing (NLP). Legal texts contain unique jargon and complex linguistic attributes in vocabulary, semantics, syntax, and morphology. Therefore, the development of text simplification (TS) methods specific to the legal domain is of paramount importance for facilitating comprehension of legal text by ordinary people and providing inputs to high-level models for mainstream legal NLP applications. While a recent study proposed a rule-based TS method for legal text, learning-based TS in the legal domain has not been considered previously. Here we introduce an unsupervised simplification method for legal texts (USLT). USLT performs domain-specific TS by replacing complex words and splitting long sentences. To this end, USLT detects complex words in a sentence, generates candidates via a masked-transformer model, and selects a candidate for substitution based on a rank score. Afterward, USLT recursively decomposes long sentences into a hierarchy of shorter core and context sentences while preserving semantic meaning. We demonstrate that USLT outperforms state-of-the-art domain-general TS methods in text simplicity while keeping the semantics intact.
翻訳日:2022-09-02 13:15:32 公開日:2022-09-01
# イベント時間関係抽出のためのマルチスケールコントラストコトレーニング

Multi-Scale Contrastive Co-Training for Event Temporal Relation Extraction ( http://arxiv.org/abs/2209.00568v1 )

ライセンス: Link先を確認
Hao-Ren Yao, Luke Breitfeller, Aakanksha Naik, Chunxiao Zhou, Carolyn Rose(参考訳) テキスト中のイベントのペア間の時間的関係を抽出することは、自然言語理解にとって非常に難しい問題である。 イベント間の距離によっては、モデルが時間関係予測のためにイベントペアを取り巻くローカルコンテキストとグローバルコンテキストの異なるバランス情報を学ぶ必要がある。 この情報を融合する方法を学ぶことは、トランスフォーマーベースの言語モデルでは難しいことが証明されている。 そこで本稿では,mulco: multi-scale contrastive co-training (mulco: multi-scale contrastive co-training)を提案する。 我々のモデルは、ローカルコンテキストを符号化するBERTベースの言語モデルと、グローバルな文書レベルの構文と時間特性を表現するグラフニューラルネットワーク(GNN)を用いている。 高度な強化学習手法を用いて,多視点特徴の単純な連結や最適な文の選択を用いた従来の最先端手法とは異なり,多スケールのコントラスト学習目的を用いてgnnとbertモジュールを共同学習する。 GNNとBERTモジュールは、GNNマルチレイヤのマルチホップサブグラフ(グローバルコンテキスト埋め込み)とBERT出力(ローカルコンテキスト埋め込み)をエンドツーエンドのバックプロパゲーションを通じて対比することにより、相乗的パラメータ化を学ぶ。 mulco は bert と gnn を使ってエンコードされたローカルコンテキストとグローバルコンテキストを融合する能力が,現在の最先端と比較して改善されていることを実証的に示す。 実験の結果,mulcoは複数の時間関係抽出データセットで新たな最先端結果を得ることができた。

Extracting temporal relationships between pairs of events in texts is a crucial yet challenging problem for natural language understanding. Depending on the distance between the events, models must learn to differently balance information from local and global contexts surrounding the event pair for temporal relation prediction. Learning how to fuse this information has proved challenging for transformer-based language models. Therefore, we present MulCo: Multi-Scale Contrastive Co-Training, a technique for the better fusion of local and global contextualized features. Our model uses a BERT-based language model to encode local context and a Graph Neural Network (GNN) to represent global document-level syntactic and temporal characteristics. Unlike previous state-of-the-art methods, which use simple concatenation on multi-view features or select optimal sentences using sophisticated reinforcement learning approaches, our model co-trains GNN and BERT modules using a multi-scale contrastive learning objective. The GNN and BERT modules learn a synergistic parameterization by contrasting GNN multi-layer multi-hop subgraphs (i.e., global context embeddings) and BERT outputs (i.e., local context embeddings) through end-to-end back-propagation. We empirically demonstrate that MulCo provides improved ability to fuse local and global contexts encoded using BERT and GNN compared to the current state-of-the-art. Our experimental results show that MulCo achieves new state-of-the-art results on several temporal relation extraction datasets.
翻訳日:2022-09-02 13:15:13 公開日:2022-09-01
# オランダ臨床テキストにおける否定検出:ルールベースおよび機械学習手法の評価

Negation detection in Dutch clinical texts: an evaluation of rule-based and machine learning methods ( http://arxiv.org/abs/2209.00470v1 )

ライセンス: Link先を確認
Bram van Es, Leon C. Reteig, Sander C. Tan, Marijn Schraagen, Myrthe M. Hemker, Sebastiaan R.S. Arends, Miguel A.R. Rios, Saskia Haitjema(参考訳) 構造化データはしばしば不十分であるため、臨床情報検索・意思決定支援システムのモデルを開発する際には、電子健康記録のフリーテキストからラベルを抽出する必要がある。 臨床テキストで最も重要な文脈特性の1つは否定であり、発見の欠如を示している。 オランダの臨床ノートにおいて,3つの否定検出法を比較し,ラベルの大規模抽出の改善を目的とした。 我々はErasmus Medical Center Dutch Clinical Corpusを用いて、MedCAT を用いた biLSTM モデルであるContextD に基づくルールベース手法とRoBERTa を用いた(微調整)モデルを比較した。 その結果,biLSTMモデルとRoBERTaモデルはF1スコア,精度,リコールという点で,ルールベースモデルよりも一貫して優れていた。 さらに,各モデルの分類誤差を体系的に分類し,特定のアプリケーションにおけるモデル性能をさらに向上させることができた。 3つのモデルを組み合わせることは、性能面では有益ではなかった。 特に, BiLSTM と RoBERTa をベースとしたモデルでは, 臨床否定の検出精度は高いが, いずれのアプローチも, 実例によっては有効である可能性が示唆された。

As structured data are often insufficient, labels need to be extracted from free text in electronic health records when developing models for clinical information retrieval and decision support systems. One of the most important contextual properties in clinical text is negation, which indicates the absence of findings. We aimed to improve large scale extraction of labels by comparing three methods for negation detection in Dutch clinical notes. We used the Erasmus Medical Center Dutch Clinical Corpus to compare a rule-based method based on ContextD, a biLSTM model using MedCAT and (finetuned) RoBERTa-based models. We found that both the biLSTM and RoBERTa models consistently outperform the rule-based model in terms of F1 score, precision and recall. In addition, we systematically categorized the classification errors for each model, which can be used to further improve model performance in particular applications. Combining the three models naively was not beneficial in terms of performance. We conclude that the biLSTM and RoBERTa-based models in particular are highly accurate accurate in detecting clinical negations, but that ultimately all three approaches can be viable depending on the use case at hand.
翻訳日:2022-09-02 13:14:45 公開日:2022-09-01
# MSGNN:新しい磁気標識ラプラシアンに基づくスペクトルグラフニューラルネットワーク

MSGNN: A Spectral Graph Neural Network Based on a Novel Magnetic Signed Laplacian ( http://arxiv.org/abs/2209.00546v1 )

ライセンス: Link先を確認
Yixuan He, Michael Permultter, Gesine Reinert, Mihai Cucuringu(参考訳) 署名された有向ネットワークは現実世界のアプリケーションにおいてユビキタスである。 しかし、そのようなネットワークを分析するためのスペクトルグラフニューラルネットワーク(GNN)手法を提案する研究は比較的少ない。 ここでは、符号付きラプラス行列を導入し、符号付きラプラス行列は符号付きグラフ上の符号付きラプラス行列と有向グラフ上の磁気ラプラス行列の両方の自然な一般化である。 次に、この行列を用いて新しいスペクトルGNNアーキテクチャを構築し、ノードクラスタリングとリンク予測タスクの両方について広範な実験を行う。 これらの実験では,署名情報,方向情報に関連するタスク,および署名情報と方向情報の両方に関連するタスクについて検討する。 提案するスペクトルgnnは,符号情報と方向情報の両方を組み込むのに有効であり,幅広いデータセットで有意な性能が得られることを示す。 さらに,金融時系列におけるリード・ラグ関係に基づく新たな実世界データセットとして,符号付き有向確率ブロックモデル(signed directed stochastic block model)と呼ぶ新しい合成ネットワークモデルを提案する。

Signed directed networks are ubiquitous in real-world applications. However, there has been relatively little work proposing spectral graph neural network (GNN) methods for analyzing such networks. Here we introduce a signed directed Laplacian matrix, which we call the magnetic signed Laplacian, as a natural generalization of both the signed Laplacian on signed graphs and the magnetic Laplacian on directed graphs. We then use this matrix to construct a novel spectral GNN architecture and conduct extensive experiments on both node clustering and link prediction tasks. In these experiments, we consider tasks related to signed information, tasks related to directional information, and tasks related to both signed and directional information. We demonstrate that our proposed spectral GNN is effective for incorporating both signed and directional information, and attains leading performance on a wide range of data sets. Additionally, we provide a novel synthetic network model, which we refer to as the signed directed stochastic block model, and a number of novel real-world data sets based on lead-lag relationships in financial time series.
翻訳日:2022-09-02 13:14:26 公開日:2022-09-01
# フェアマッピング

Fair mapping ( http://arxiv.org/abs/2209.00617v1 )

ライセンス: Link先を確認
S\'ebastien Gambs and Rosin Claude Ngueveu(参考訳) モデルにおける望ましくないバイアスの影響を軽減するために、いくつかの手法が入力データセットを前処理し、機密属性の推測を防止して識別のリスクを低減する。 残念なことに、これらの前処理手法のほとんどは、元のものとは全く異なる新しい分布を生成し、したがってしばしば非現実的なデータを生み出す。 副作用として、この新しいデータ分布は、既存のモデルを正確に予測できるように再トレーニングする必要があることを示唆している。 この問題に対処するため,我々は,保護されたグループを選択対象グループへ変換し,機密属性の推測を防止することを目的とした,新たなプライバシ制約を課した公正な事前処理手法を提案する。 より正確には、Wasserstein GANおよびAttGANフレームワークの最近の研究を活用し、属性推論に対する保護を強制する識別器と結合したデータポイントの最適な転送を実現する。 提案手法はデータの解釈性を保ち,センシティブなグループを正確に定義することなく利用できる。 さらに,本手法は既存の最先端手法のモデル化に特化して,これらの手法の統一的な視点を提案することができる。 最後に、実データおよび合成データセットに関するいくつかの実験により、我々のアプローチは、データの歪みを抑えながら、機密属性を隠蔽できることを示した。

To mitigate the effects of undesired biases in models, several approaches propose to pre-process the input dataset to reduce the risks of discrimination by preventing the inference of sensitive attributes. Unfortunately, most of these pre-processing methods lead to the generation a new distribution that is very different from the original one, thus often leading to unrealistic data. As a side effect, this new data distribution implies that existing models need to be re-trained to be able to make accurate predictions. To address this issue, we propose a novel pre-processing method, that we coin as fair mapping, based on the transformation of the distribution of protected groups onto a chosen target one, with additional privacy constraints whose objective is to prevent the inference of sensitive attributes. More precisely, we leverage on the recent works of the Wasserstein GAN and AttGAN frameworks to achieve the optimal transport of data points coupled with a discriminator enforcing the protection against attribute inference. Our proposed approach, preserves the interpretability of data and can be used without defining exactly the sensitive groups. In addition, our approach can be specialized to model existing state-of-the-art approaches, thus proposing a unifying view on these methods. Finally, several experiments on real and synthetic datasets demonstrate that our approach is able to hide the sensitive attributes, while limiting the distortion of the data and improving the fairness on subsequent data analysis tasks.
翻訳日:2022-09-02 13:14:06 公開日:2022-09-01
# SemSegDepth:Semantic SegmentationとDepth Completionを組み合わせたモデル

SemSegDepth: A Combined Model for Semantic Segmentation and Depth Completion ( http://arxiv.org/abs/2209.00381v1 )

ライセンス: Link先を確認
Juan Pablo Lagos and Esa Rahtu(参考訳) 総合的なシーン理解は自律機械の性能にとって重要である。 本稿では,セマンティックセグメンテーションと深度補完を共同で行うエンド・ツー・エンドモデルを提案する。 最近のアプローチの大半は、独立したタスクとしてセマンティックセグメンテーションと深さ補完を開発した。 提案手法はモデルへの入力としてRGBとスパース深度に依存し,深度マップと対応するセマンティックセグメンテーション画像を生成する。 特徴抽出器、深さ完了枝、意味分割枝、および意味情報と深さ情報を全て処理する結合枝から構成される。 Virtual KITTI 2データセットで実施された実験は、セマンティックセグメンテーションとディープコンプリートの両方をマルチタスクネットワークで組み合わせることで、各タスクのパフォーマンスを効果的に改善できるという、さらなる証拠を実証し、提示する。 コードはhttps://github.com/juanb09111/semantic depthで入手できる。

Holistic scene understanding is pivotal for the performance of autonomous machines. In this paper we propose a new end-to-end model for performing semantic segmentation and depth completion jointly. The vast majority of recent approaches have developed semantic segmentation and depth completion as independent tasks. Our approach relies on RGB and sparse depth as inputs to our model and produces a dense depth map and the corresponding semantic segmentation image. It consists of a feature extractor, a depth completion branch, a semantic segmentation branch and a joint branch which further processes semantic and depth information altogether. The experiments done on Virtual KITTI 2 dataset, demonstrate and provide further evidence, that combining both tasks, semantic segmentation and depth completion, in a multi-task network can effectively improve the performance of each task. Code is available at https://github.com/juanb09111/semantic depth.
翻訳日:2022-09-02 13:13:42 公開日:2022-09-01
# MODNet:マルチオフセットポイントクラウド マルチスケールパッチ用にカスタマイズされたネットワーク

MODNet: Multi-offset Point Cloud Denoising Network Customized for Multi-scale Patches ( http://arxiv.org/abs/2208.14160v2 )

ライセンス: Link先を確認
Anyi Huang, Qian Xie, Zhoutao Wang, Dening Lu, Mingqiang Wei, Jun Wang(参考訳) 3次元表面の複雑度は、しばしば、残留ノイズを含む表面劣化における最先端の点雲デノイング(PCD)モデルが誤って取り除かれた幾何学的詳細をもたらす。 点の幾何を符号化するマルチスケールパッチはPCDでは一般的な知恵となっているが,抽出した多スケール特徴の単純な集約は,雑音点周辺の幾何情報に基づいて適切なスケール情報を適応的に利用できない。 これは、特に複雑な曲面上の辺や点に近い点に対して、表面劣化をもたらす。 マルチスケールの幾何学的知覚情報をネットワークに誘導し、マルチスケールの情報を活用すれば、表面劣化の問題を取り除くことができるのか? そこで我々は,マルチスケールパッチ用にカスタマイズされたMODNet(Multi-offset Denoising Network)を提案する。 まず,3つのスケールパッチの低レベル特徴をパッチ特徴エンコーダによって抽出する。 第二に、マルチスケール知覚モジュールは、各スケールの特徴に対してマルチスケールの幾何学情報を埋め込み、マルチスケールの重みを補強し、マルチオフセットのデノジング変位を導出するように設計されている。 第三に、マルチオフセットデコーダは3つのスケールオフセットを回帰し、これは多スケールの重みによって誘導され、適応的に重み付けして最終変位を予測する。 実験は,合成データと実データの両方において,新たな最先端性能を実現することを実証する。

The intricacy of 3D surfaces often results cutting-edge point cloud denoising (PCD) models in surface degradation including remnant noise, wrongly-removed geometric details. Although using multi-scale patches to encode the geometry of a point has become the common wisdom in PCD, we find that simple aggregation of extracted multi-scale features can not adaptively utilize the appropriate scale information according to the geometric information around noisy points. It leads to surface degradation, especially for points close to edges and points on complex curved surfaces. We raise an intriguing question -- if employing multi-scale geometric perception information to guide the network to utilize multi-scale information, can eliminate the severe surface degradation problem? To answer it, we propose a Multi-offset Denoising Network (MODNet) customized for multi-scale patches. First, we extract the low-level feature of three scales patches by patch feature encoders. Second, a multi-scale perception module is designed to embed multi-scale geometric information for each scale feature and regress multi-scale weights to guide a multi-offset denoising displacement. Third, a multi-offset decoder regresses three scale offsets, which are guided by the multi-scale weights to predict the final displacement by weighting them adaptively. Experiments demonstrate that our method achieves new state-of-the-art performance on both synthetic and real-scanned datasets.
翻訳日:2022-09-02 11:38:39 公開日:2022-09-01
# 学習可能なアクティベーション機能を有するトランスフォーマー

Transformers with Learnable Activation Functions ( http://arxiv.org/abs/2208.14111v2 )

ライセンス: Link先を確認
Haishuo Fang, Ji-Ung Lee, Nafise Sadat Moosavi, Iryna Gurevych(参考訳) アクティベーション関数は入力データのトポロジカルな複雑さを低減し、モデルの性能を向上させる上で大きな影響を与える可能性がある。 適切なアクティベーション関数の選択は、ニューラルモデル設計において不可欠なステップである。 しかし、アクティベーション関数の選択はトランスフォーマーベースの言語モデルではほとんど議論されない。 アクティベーション機能は事前に選択され、事前訓練から微調整まで固定される。 その結果、モデルに課された帰納バイアスは、この長いライフサイクルの間に調整できない。 さらに、後に開発されたモデル(例えばRoBERTa、BART、GPT-3)は、しばしば以前の作業(例えばBERT)を正当化せずに同じアクティベーション関数を使用する。 本稿では,Transformerアーキテクチャにおいて,学習可能なアクティベーション関数であるRational Activation Function(RAF)の有効性を検討する。 従来の事前定義されたアクティベーション関数とは対照的に、RAFは入力データに従ってトレーニング中に最適なアクティベーション関数を適応的に学習することができる。 実験の結果,RAFT(RAFT)はGELU関数を持つバニラBERTよりも精度が低いことがわかった。 ダウンストリームタスクにおけるRAFTを、低域およびフルデータ設定で評価する。 この結果から,RAFTはタスクや設定の大部分において,対応するモデルよりも優れていた。 例えば、RAFTはGLUEベンチマークのバニラBERTを、ローデータシナリオ(100のトレーニング例が利用可能)で平均5.71ポイント、フルデータ設定で2.05ポイントで上回っている。 学習されたRAFの形状の分析により、それらは事前訓練されたモデルの異なる層間で大きく異なり、従来の活性化関数と大きく異なるように見えることが明らかになった。 RAFTは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。

Activation functions can have a significant impact on reducing the topological complexity of input data and therefore improve the performance of the model. Selecting a suitable activation function is an essential step in neural model design. However, the choice of activation function is seldom discussed or explored in Transformer-based language models. Their activation functions are chosen beforehand and then remain fixed from pre-training to fine-tuning. As a result, the inductive biases they imposed on models cannot be adjusted during this long life cycle. Moreover, subsequently developed models (e.g., RoBERTa, BART, and GPT-3) often follow up prior work (e.g., BERT) to use the same activation function without justification. In this paper, we investigate the effectiveness of using Rational Activation Function (RAF), a learnable activation function, in the Transformer architecture. In contrast to conventional, predefined activation functions, RAFs can adaptively learn optimal activation functions during training according to input data. Our experiments show the RAF-based Transformer (RAFT) achieves a lower validation perplexity than a vanilla BERT with the GELU function. We further evaluate RAFT on downstream tasks in low- and full-data settings. Our results show that RAFT outperforms the counterpart model across the majority of tasks and settings. For instance, RAFT outperforms vanilla BERT on the GLUE benchmark by 5.71 points on average in low-data scenario (where 100 training examples are available) and by 2.05 points on SQuAD in full-data setting. Analysis of the shapes of learned RAFs further unveils that they substantially vary between different layers of the pre-trained model and mostly look very different from conventional activation functions. RAFT opens a new research direction for analyzing and interpreting pre-trained models according to the learned activation functions.
翻訳日:2022-09-02 11:37:45 公開日:2022-09-01
# マルチスケール局所線形変換学習によるRGB-Dポイントクラウド登録の改善

Improving RGB-D Point Cloud Registration by Learning Multi-scale Local Linear Transformation ( http://arxiv.org/abs/2208.14893v2 )

ライセンス: Link先を確認
Ziming Wang, Xiaoliang Huo, Zhenghao Chen, Jing Zhang, Lu Sheng, Dong Xu(参考訳) 点クラウド登録は、2点クラウドスキャン間の幾何学的変換を推定することを目的としており、点対応推定がその成功の鍵となる。 近年,手作り・学習した幾何学的特徴による対応を求める従来の手法に加えて,RGB-Dデータを用いてより正確な対応を試みている。 しかし、これらの2つの特異なモード、特に登録問題から幾何学的および視覚的情報を効果的に解き放つことは容易ではない。 本研究では,多スケールの局所線形変換を用いて,深度データからの幾何学的特徴を幾何依存畳み込み核として作用させ,rgbデータから視覚的特徴を変換する,新たな幾何認識型視覚特徴抽出器(gave)を提案する。 結果として得られる視覚幾何学的特徴は、幾何学的変化による視覚的相違を緩和した標準的特徴空間にあり、より信頼性の高い対応が達成できる。 提案されたGAVEモジュールは、最新のRGB-Dポイントクラウド登録フレームワークに簡単にプラグインできる。 3D Match と ScanNet の大規模な実験により,我々の手法は通信やポーズの監督なしに,最先端のクラウド登録方法よりも優れていることが示された。 コードはhttps://github.com/514dna/llt。

Point cloud registration aims at estimating the geometric transformation between two point cloud scans, in which point-wise correspondence estimation is the key to its success. In addition to previous methods that seek correspondences by hand-crafted or learnt geometric features, recent point cloud registration methods have tried to apply RGB-D data to achieve more accurate correspondence. However, it is not trivial to effectively fuse the geometric and visual information from these two distinctive modalities, especially for the registration problem. In this work, we propose a new Geometry-Aware Visual Feature Extractor (GAVE) that employs multi-scale local linear transformation to progressively fuse these two modalities, where the geometric features from the depth data act as the geometry-dependent convolution kernels to transform the visual features from the RGB data. The resultant visual-geometric features are in canonical feature spaces with alleviated visual dissimilarity caused by geometric changes, by which more reliable correspondence can be achieved. The proposed GAVE module can be readily plugged into recent RGB-D point cloud registration framework. Extensive experiments on 3D Match and ScanNet demonstrate that our method outperforms the state-of-the-art point cloud registration methods even without correspondence or pose supervision. The code is available at: https://github.com/514DNA/LLT.
翻訳日:2022-09-02 11:37:17 公開日:2022-09-01
# 知識ベース更新のためのトピック対応グラフニューラルネットワークモデル

A topic-aware graph neural network model for knowledge base updating ( http://arxiv.org/abs/2208.14601v2 )

ライセンス: Link先を確認
Jiajun Tong, Zhixiao Wang, Xiaobin Rui(参考訳) オープンドメインの知識基盤は非常に重要です。 典型的には百科事典のウェブサイトから抽出され、知識検索システム、質問応答システム、レコメンデーションシステムで広く利用されている。 実際、重要な課題は、最新の知識ベースを維持することです。 Unwieldyが百科事典のダンプからすべてのデータをフェッチするのと異なり、無効なフェッチを避けながら、可能な限り知識ベースの鮮度を拡大するため、現在の知識ベース更新方法は通常、予測モデルを構築してエンティティを更新する必要があるかどうかを判断する。 しかし、これらの手法は特定のフィールドでのみ定義することができ、その結果、データソースやデータ構造の問題により明らかなバイアスとなることが判明した。 ユーザのクエリ意図はオープンドメインの知識に関して多様であり,ユーザクエリログに基づいた知識更新のためのトピック対応グラフネットワークを構築している。 我々の手法は次のように要約できる。 1. ユーザのログからエンティティを抽出し、種として選択する 2. 百科事典ウェブサイトにおける種実体の属性を抽出し、各エンティティの属性グラフを自己管理的に構築する。 3. エンティティ属性グラフを使用して、GNNエンティティ更新モデルをトレーニングし、エンティティを同期する必要があるかどうかを判断する。 4. 最小編集時間アルゴリズムにより、百科事典知識を用いて、フィルタリングされたエンティティを知識ベース内のエンティティとマッチングして更新する。

The open domain knowledge base is very important. It is usually extracted from encyclopedia websites and is widely used in knowledge retrieval systems, question answering systems, or recommendation systems. In practice, the key challenge is to maintain an up-to-date knowledge base. Different from Unwieldy fetching all of the data from the encyclopedia dumps, to enlarge the freshness of the knowledge base as big as possible while avoiding invalid fetching, the current knowledge base updating methods usually determine whether entities need to be updated by building a prediction model. However, these methods can only be defined in some specific fields and the result turns out to be obvious bias, due to the problem of data source and data structure. The users' query intentions are often diverse as to the open domain knowledge, so we construct a topic-aware graph network for knowledge updating based on the user query log. Our methods can be summarized as follow: 1. Extract entities through the user's log and select them as seeds 2. Scrape the attributes of seed entities in the encyclopedia website, and self-supervised construct the entity attribute graph for each entity. 3. Use the entity attribute graph to train the GNN entity update model to determine whether the entity needs to be synchronized. 4.Use the encyclopedia knowledge to match and update the filtered entity with the entity in the knowledge base according to the minimum edit times algorithm.
翻訳日:2022-09-02 11:36:54 公開日:2022-09-01
# NISQアルゴリズムを用いた量子機械学習分類のための前処理的視点

A preprocessing perspective for quantum machine learning classification advantage using NISQ algorithms ( http://arxiv.org/abs/2208.13251v2 )

ライセンス: Link先を確認
Javier Mancilla and Christophe Pere(参考訳) 量子機械学習(QML)は、古典的な機械学習アプローチと比較して、そのメリットを広く、明確に示していない。 今のところ、いくつかの量子にインスパイアされた技術が小さな漸進的な利点を達成している特定のケースのみが存在しており、ハイブリッド量子コンピューティングのいくつかの実験ケースは、中期的な未来を考えることを約束している。 現在の量子コンピュータはノイズが多く、量子ビットがほとんどテストできないため、qml法の現在および潜在的な量子利点を示すのは難しい。 本研究では,データ前処理段階において線形判別分析(LDA)を用いて量子分類器の古典的符号化と性能を向上できることを示す。 その結果、変分量子アルゴリズム(VQA)は、LDA手法とバランスの取れた精度で性能が向上し、ベースラインの古典的分類器を上回った。

Quantum Machine Learning (QML) hasn't yet demonstrated extensively and clearly its advantages compared to the classical machine learning approach. So far, there are only specific cases where some quantum-inspired techniques have achieved small incremental advantages, and a few experimental cases in hybrid quantum computing are promising considering a mid-term future (not taking into account the achievements purely associated with optimization using quantum-classical algorithms). The current quantum computers are noisy and have few qubits to test, making it difficult to demonstrate the current and potential quantum advantage of QML methods. This study shows that we can achieve better classical encoding and performance of quantum classifiers by using Linear Discriminant Analysis (LDA) during the data preprocessing step. As a result, Variational Quantum Algorithm (VQA) shows a gain of performance in balanced accuracy with the LDA technique and outperforms baseline classical classifiers.
翻訳日:2022-09-02 11:36:32 公開日:2022-09-01
# 葉から樹構造を学習して粒子崩壊を再現する

Learning Tree Structures from Leaves For Particle Decay Reconstruction ( http://arxiv.org/abs/2208.14924v2 )

ライセンス: Link先を確認
James Kahn, Ilias Tsaklidis, Oskar Taubert, Lea Reuter, Giulio Dujany, Tobias Boeckh, Arthur Thaller, Pablo Goldenzweig, Florian Bernlochner, Achim Streit and Markus G\"otz(参考訳) 本研究では,階層的相互作用を記述したルート木グラフを再構築するためのニューラルネットワークを提案し,その表現をLCAG行列と呼ぶ。 このコンパクトな定式化は、隣接行列と同値であるが、隣接行列を直接使用する場合に必要となる事前仮定なしに、葉のみから木の構造を学ぶことができる。 したがってLCAGを利用することで、終端木葉のみを使用して、様々な木の大きさの階層構造を直接学習する、最初のエンドツーエンドのトレーニング可能なソリューションが可能になる。 高エネルギー粒子物理学の場合、粒子崩壊は、最終生成物のみを実験的に観察できる階層木構造を形成し、可能木の大きな組合せ空間は解析的な解を導出することができる。 本稿では,TransformerエンコーダとNeural Relational Inference Encoder Graph Neural Networkを用いて,シミュレーション粒子物理学の崩壊構造を予測する作業において,LCAGをターゲットとして利用することを示す。 このアプローチで、lcagをリーフ機能から純粋に予測することが可能で、最大で8ドル(約9万5000円)のツリー深度で、最大で6ドル(約6万円)のリーフ(約6万円)と、シミュレーションされたデータセットで10ドルまでのツリーに対して59.7ドル(約9万7000円)のケースを予測できます。

In this work, we present a neural approach to reconstructing rooted tree graphs describing hierarchical interactions, using a novel representation we term the Lowest Common Ancestor Generations (LCAG) matrix. This compact formulation is equivalent to the adjacency matrix, but enables learning a tree's structure from its leaves alone without the prior assumptions required if using the adjacency matrix directly. Employing the LCAG therefore enables the first end-to-end trainable solution which learns the hierarchical structure of varying tree sizes directly, using only the terminal tree leaves to do so. In the case of high-energy particle physics, a particle decay forms a hierarchical tree structure of which only the final products can be observed experimentally, and the large combinatorial space of possible trees makes an analytic solution intractable. We demonstrate the use of the LCAG as a target in the task of predicting simulated particle physics decay structures using both a Transformer encoder and a Neural Relational Inference encoder Graph Neural Network. With this approach, we are able to correctly predict the LCAG purely from leaf features for a maximum tree-depth of $8$ in $92.5\%$ of cases for trees up to $6$ leaves (including) and $59.7\%$ for trees up to $10$ in our simulated dataset.
翻訳日:2022-09-02 11:36:15 公開日:2022-09-01
# Palmer Drought Severity Index の空間分布予測

Predicting spatial distribution of Palmer Drought Severity Index ( http://arxiv.org/abs/2208.14833v2 )

ライセンス: Link先を確認
V. Grabar, A. Lukashevich, A. Zaytsev(参考訳) 特定の地域で干ばつが起こる確率は、農業に関する決定を行う際に重要である。 この確率を予測することはマネジメントにとって重要であり、同時に挑戦する。 予測モデルは、関心領域と近隣領域の複雑な関係を持つ複数の要因を考慮すべきである。 本稿では,時空間ニューラルネットワークに基づくエンドツーエンドのソリューションを提案することでこの問題に対処する。 このモデルは、関心のサブリージョンに対するPalmer Drought Severity Index(PDSI)を予測する。 気候モデルによる予測は、より正確な干ばつ予測につながるモデルに関するさらなる知識を提供する。 我々のモデルは、ベースライン勾配ブースティングソリューションよりも精度が良く、それに対する$r^2$スコアは$0.90$であり、勾配ブースティングは$0.85$である。 特定の注意は、モデルの適用範囲に向けられる。 我々は世界中の様々な地域を調査し、異なる条件下で検証する。 我々は、異なるシナリオにおける将来の気候変動がpdsiに与える影響と、我々のモデルがより良い意思決定とより持続可能な経済にどのように役立つかを分析して、結果を補完する。

The probability of a drought for a particular region is crucial when making decisions related to agriculture. Forecasting this probability is critical for management and challenging at the same time. The prediction model should consider multiple factors with complex relationships across the region of interest and neighbouring regions. We approach this problem by presenting an end-to-end solution based on a spatio-temporal neural network. The model predicts the Palmer Drought Severity Index (PDSI) for subregions of interest. Predictions by climate models provide an additional source of knowledge of the model leading to more accurate drought predictions. Our model has better accuracy than baseline Gradient boosting solutions, as the $R^2$ score for it is $0.90$ compared to $0.85$ for Gradient boosting. Specific attention is on the range of applicability of the model. We examine various regions across the globe to validate them under different conditions. We complement the results with an analysis of how future climate changes for different scenarios affect the PDSI and how our model can help to make better decisions and more sustainable economics.
翻訳日:2022-09-02 11:35:49 公開日:2022-09-01