このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211118となっている論文です。

PDF登録状況(公開日: 20211118)

TitleAuthorsAbstract論文公表日・翻訳日
# 二重Y接合を持つ対称リング系の特異性と磁気効果

Peculiarity of Symmetric Ring Systems with Double Y-Junctions and the magnetic effects ( http://arxiv.org/abs/2011.11937v3 )

ライセンス: Link先を確認
Yukihiro Fujimoto, Kohkichi Konno, Tomoaki Nagasawa(参考訳) 両腕が同じ長さの二重Y接合を持つ環系の量子力学について議論する。 Y-接合のノードは U(3) でパラメータ化できる。 数学的に許容される接合条件を真剣に考えると、そのような系を散乱行列によって定式化する。 反射対称性の下で同じパラメータを持つ2つのノードからなる対称リング系は、必然的に局所化状態が存在するという顕著な側面を持ち、散乱行列の絶対値が1ドルである極端の場合を除いて、入射波の波数と局所化状態の波数が一致する場合、共振完全伝送が発生することを示す。 また,対称リング系に対する磁気外乱についても検討した。

We discuss quantum dynamics in the ring systems with double Y-junctions in which two arms have same length. The node of a Y-junction can be parametrized by U(3). Considering mathematically permitted junction conditions seriously, we formulate such systems by scattering matrices. We show that the symmetric ring systems, which consist of two nodes with the same parameters under the reflection symmetry, have remarkable aspects that there exist localized states inevitably, and resonant perfect transmission occurs when the wavenumber of an incoming wave coincides with that of the localized states, for any parameters of the nodes except for the extremal cases in which the absolute values of components of scattering matrices take $1$. We also investigate the magnetic disturbance to the symmetric ring systems.
翻訳日:2023-04-23 06:50:27 公開日:2021-11-18
# ボソンの自己相互作用粒子-反粒子系

Selfinteracting Particle-Antiparticle System of Bosons ( http://arxiv.org/abs/2102.02529v3 )

ライセンス: Link先を確認
D. Anchishkin, V. Gnatovskyy, D. Zhuravel, and V. Karpenko(参考訳) 有限温度におけるボソン粒子と反粒子の相互作用系の熱力学的性質を熱力学的に一貫したスカイム様平均場模型の枠組みで研究した。 平均場は魅力的な項と反発的な項の両方を含む。 平均場と熱力学関数の自己整合関係が導出される。 すべての温度におけるイソスピン密度の保存を仮定する。 この系は、魅力的な平均場の強さとは独立に、臨界温度$T_{\rm c}$において、温度間隔$0 \le T \le T_{\rm c}$に存在するボース=アインシュタイン凝縮体への2階の相転移を受ける。 その結果、縮合は熱容量の微分の不連続性を$T = T_{\rm c}$で表し、縮合は粒子-反粒子系の粒子数密度が高い成分に対してのみ起こることがわかった。

Thermodynamic properties of a system of interacting boson particles and antiparticles at finite temperatures are studied within the framework of the thermodynamically consistent Skyrme-like mean-field model. The mean field contains both attractive and repulsive terms. Self-consistency relations between the mean field and thermodynamic functions are derived. We assume conservation of the isospin density for all temperatures. It is shown that, independently of the strength of the attractive mean field, at the critical temperature $T_{\rm c}$ the system undergoes the phase transition of second-order to the Bose-Einstein condensate, which exists in the temperature interval $0 \le T \le T_{\rm c}$. We obtained that the condensation represents a discontinuity of the derivative of the heat capacity at $T = T_{\rm c}$, and condensate occurs only for the component with a higher particle-number density in the particle-antiparticle system.
翻訳日:2023-04-12 20:00:49 公開日:2021-11-18
# 測定の乱れ、情報、直交性に関する

Relating measurement disturbance, information and orthogonality ( http://arxiv.org/abs/2105.02074v2 )

ライセンス: Link先を確認
Yizhou Liu and John B. DeBrota(参考訳) 量子測定の一般理論において、任意の測度の$n$可能な結果のそれぞれに$d$次元ヒルベルト空間上の正半定値作用素を関連付ける。 射影計測の特別な場合、これらの作用素はペアワイズ hilbert--schmidt 直交であるが、$n>d$ の場合、直交性は正値性によって制限される。 この制限により、より正確に量子アドアージを記述できる: システムの情報ゲインは常に避けられない障害を伴う。 具体的には,l\"udersルールを更新した測定の3つの特性について検討する: その外乱, 期待された測定後の状態が入力からどのように逸脱するかの尺度, 測定強度, 測定の固有情報生成能力の測定値, 直交性, 測定演算子が正規直交集合と異なる程度の測定値である。 これらの量は、直交によって引き起こされる付加的な役割を強調する情報障害トレードオフ関係を満たす。 最後に、これらの根拠に基づくいくつかの測定クラスを評価し、対称的な情報完全量子測定を、完全に有益で不変性な古典的イデアル測定のユニークな量子アナログとして同定する。

In the general theory of quantum measurement, one associates a positive semidefinite operator on a $d$-dimensional Hilbert space to each of the $n$ possible outcomes of an arbitrary measurement. In the special case of a projective measurement, these operators are pairwise Hilbert--Schmidt orthogonal, but when $n>d$, orthogonality is restricted by positivity. This restriction allows us to more precisely state the quantum adage: information gain of a system is always accompanied by unavoidable disturbance. Specifically, we investigate three properties of a measurement with L\"uders rule updating: its disturbance, a measure of how the expected post-measurement state deviates from the input; its measurement strength, a measure of the intrinsic information producing capacity of the measurement; and its orthogonality, a measure of the degree to which the measurement operators differ from an orthonormal set. These quantities satisfy an information-disturbance trade-off relation that highlights the additional role played by orthogonality. Finally, we assess several classes of measurements on these grounds and identify symmetric informationally complete quantum measurements as the unique quantum analogs of a perfectly informative and nondisturbing classical ideal measurement.
翻訳日:2023-04-01 13:15:44 公開日:2021-11-18
# ダイヤモンドの着衣スピン状態を用いたサブミクロ秒時間分解能温度選択温度測定

Temperature selective thermometry with sub-microsecond time resolution using dressed-spin states in diamond ( http://arxiv.org/abs/2105.03628v2 )

ライセンス: Link先を確認
Jiwon Yun, Kiho Kim, Sungjoon Park and Dohun Kim(参考訳) 様々な物理量の変化に影響を受けやすい可視性ナノスケールセンサーは、しばしば限られた選択性を示す。 本稿では,ダイヤモンド量子センサを用いた光プローブ型ナノスケール温度検出のためのマイクロ波配向スピン状態に基づく新しい手法について述べる。 この方式と, ナノダイヤモンド中の窒素空孔中心を用いた連続的なポンププローブ方式を組み合わせることで, 温度感度3.7 k$\cdot$hz$^{-1/2}$のサブマイクロ秒時間分解能が, 2 g のオーダーで外部磁場の変動に影響を受けないことを示した。 この結果は、変動磁場下での温度イメージングを必要とする時間分解ナノスケール量子センシングの実用化に好適である。

Versatile nanoscale sensors that are susceptible to changes in a variety of physical quantities often exhibit limited selectivity. This paper reports a novel scheme based on microwave-dressed spin states for optically probed nanoscale temperature detection using diamond quantum sensors, which provides selective sensitivity to temperature changes. By combining this scheme with a continuous pump-probe scheme using ensemble nitrogen-vacancy centers in nanodiamonds, a sub-microsecond temporal resolution with thermal sensitivity of 3.7 K$\cdot$Hz$^{-1/2}$ that is insensitive to variations in external magnetic fields on the order of 2 G is demonstrated. The presented results are favorable for the practical application of time-resolved nanoscale quantum sensing, where temperature imaging is required under fluctuating magnetic fields.
翻訳日:2023-04-01 03:27:14 公開日:2021-11-18
# 2+1)次元スピンブラックホールのホーキング放射とトンネル問題

Hawking radiation for a (2+1)-dimensional spinning black hole and the issue of tunneling ( http://arxiv.org/abs/2105.12423v3 )

ライセンス: Link先を確認
Sauvik Sen(参考訳) 2+1)次元スピンブラックホールのホーキング放射を調べ、古典的に禁止される障壁として作用する事象地平線をトンネルする興味深い可能性について検討する。 我々の発見は、回転しないものよりもずっと低いことを示している。 さらに、ホーキング温度の観点から関連する熱力学を探求し、表面重力やエントロピーのようなブラックホールのパラメータを推定する。

We examine Hawking radiation for a (2+1)-dimensional spinning black hole and study the interesting possibility of tunneling through the event horizon which acts as a classically forbidden barrier. Our finding shows it to be much lower than its nonrotating counterpart. We further explore the associated thermodynamics in terms of Hawking temperature and give estimates of black hole parameters like the surface gravity and entropy.
翻訳日:2023-03-29 20:30:40 公開日:2021-11-18
# 古典影を用いた実験量子状態測定

Experimental quantum state measurement with classical shadows ( http://arxiv.org/abs/2106.10190v2 )

ライセンス: Link先を確認
Ting Zhang, Jinzhao Sun, Xiao-Xu Fang, Xiao-Ming Zhang, Xiao Yuan, and He Lu(参考訳) 様々な量子コンピューティングおよび通信アルゴリズムにとって重要なサブルーチンは、量子状態の異なる古典的性質を効率的に抽出することである。 Huang, Kueng, and Preskill [Nat. Phys. 1050 (2020)] による最近の顕著な理論研究において、スリフティスキームは量子状態を古典的な影に投影する方法を示し、同時に$M$の異なる状態の関数を$\mathcal{O}(\log_2 M)$測定で予測し、システムサイズに依存し、情報理論の限界を飽和させる方法を示した。 本稿では,有限個の計測値と雑音操作を用いて,現実的なシナリオにおけるスキームの実現可能性について実験的に検討する。 我々は、4量子GHZ状態を作成し、複数の観測値とハミルトニアンの期待値を推定する方法を示す。 本研究では,各状態関数を逐次計測し,重要サンプリングと可観測グルーピングを併用する手法と,一様,偏り,非ランダム化された古典的影を比較した。 次に,古典影を用いた非線形関数の推定を行い,量子状態の絡み合い解析を行う。 本実験は,(デランドマイズされた)古典影の活用の有効性を検証し,ノイズの多い中間スケール量子ハードウェアを用いた効率的な量子コンピューティングに光を当てる。

A crucial subroutine for various quantum computing and communication algorithms is to efficiently extract different classical properties of quantum states. In a notable recent theoretical work by Huang, Kueng, and Preskill [Nat. Phys. 16, 1050 (2020)], a thrifty scheme showed how to project the quantum state into classical shadows and simultaneously predict $M$ different functions of a state with only $\mathcal{O}(\log_2 M)$ measurements, independent of the system size and saturating the information-theoretical limit. Here, we experimentally explore the feasibility of the scheme in the realistic scenario with a finite number of measurements and noisy operations. We prepare a four-qubit GHZ state and show how to estimate expectation values of multiple observables and Hamiltonians. We compare the measurement strategies with uniform, biased, and derandomized classical shadows to conventional ones that sequentially measure each state function exploiting either importance sampling or observable grouping. We next demonstrate the estimation of nonlinear functions using classical shadows and analyze the entanglement of the prepared quantum state. Our experiment verifies the efficacy of exploiting (derandomized) classical shadows and sheds light on efficient quantum computing with noisy intermediate-scale quantum hardware.
翻訳日:2023-03-26 08:17:30 公開日:2021-11-18
# 量子ターゲット検出のための最適スクイーズ

Optimal squeezing for quantum target detection ( http://arxiv.org/abs/2108.08573v3 )

ライセンス: Link先を確認
Gaetana Spedalieri and Stefano Pirandola(参考訳) 量子ライダーやレーダーの性能がアイドラーを使わず、ガウス資源のみを用いることで、コヒーレントな状態とホモダイン検出に基づく半古典的な設定の性能を超えるかどうかは明らかでない。 ここでは、イドラーフリーの圧縮ベースのセットアップがこの半古典的なベンチマークに勝てることを示すことで、これが事実であることを証明している。 より一般的には、変位とスクイージングが共同で最適化されたプローブは、量子照明と読み取りの両方の問題に対して、同じ入力光子数を持つコヒーレント状態を厳密に超越することができる。

It is not clear if the performance of a quantum lidar or radar, without an idler and only using Gaussian resources, could exceed the performance of a semiclassical setup based on coherent states and homodyne detection. Here we prove this is indeed the case by showing that an idler-free squeezed-based setup can beat this semiclassical benchmark. More generally, we show that probes whose displacement and squeezing are jointly optimized can strictly outperform coherent states with the same mean number of input photons for both the problems of quantum illumination and reading.
翻訳日:2023-03-18 01:26:30 公開日:2021-11-18
# 分数チャーン絶縁体の消散性

Dissipative preparation of fractional Chern insulators ( http://arxiv.org/abs/2108.10327v2 )

ライセンス: Link先を確認
Zhao Liu, Emil J. Bergholtz, Jan Carl Budich(参考訳) 分数量子ホール状態を一意な定常状態として特徴付ける量子マスター方程式によって支配される散逸ダイナミクスの数値的正確なシミュレーションについて報告する。 特に、パラダイム的ホフシュタッターモデルでは、強い相互作用を持つボソンを対応する単一粒子スペクトルの最も低いチャーンバンドに単純に励起することによって、ラウリン状態が任意の初期状態から散逸的に準備された良い近似にどのように対応できるかを示す。 純粋な(トポロジカル縮退まで)定常状態は、低フラックス限界または拡張ホッピング範囲にしか到達しないが、実験的によく制御されたフラックス密度に対する分数量子ホール状態と定常状態の重なりに関するある種の堅牢性について観察する。 これは、量子シミュレータにおいて強く相関した位相相を準備するという長年の課題に対処するための奨励的なステップと見なすことができる。

We report on the numerically exact simulation of the dissipative dynamics governed by quantum master equations that feature fractional quantum Hall states as unique steady states. In particular, for the paradigmatic Hofstadter model, we show how Laughlin states can be to good approximation prepared in a dissipative fashion from arbitrary initial states by simply pumping strongly interacting bosons into the lowest Chern band of the corresponding single-particle spectrum. While pure (up to topological degeneracy) steady states are only reached in the low-flux limit or for extended hopping range, we observe a certain robustness regarding the overlap of the steady state with fractional quantum Hall states for experimentally well-controlled flux densities. This may be seen as an encouraging step towards addressing the long-standing challenge of preparing strongly correlated topological phases in quantum simulators.
翻訳日:2023-03-17 11:50:28 公開日:2021-11-18
# アンダーソン絶縁体における多体局在の伝播

Propagation of Many-body Localization in an Anderson Insulator ( http://arxiv.org/abs/2109.07332v2 )

ライセンス: Link先を確認
Pietro Brighi, Alexios A. Michailidis, Dmitry A. Abanin, Maksym Serbyn(参考訳) 多体局在(MBL)は熱化を避ける物質の動的相の例である。 MBL相は弱い局所摂動に対して頑健であるが、「熱浴」を表す熱化量子系と結合したMBL系の運命は、理論的、実験的に活発に研究されるオープンな問題である。 この研究では、小さな量子バスである単一の移動不純物と相互作用する粒子の有限密度のアンダーソン絶縁体の安定性について考察する。 強相互作用系における局在の安定性を支持する摂動論を述べる。 動力学の大規模テンソルネットワークシミュレーションは、局所化相の存在を腐食させ、熱力学の限界を定量的に予測するために用いられる。 我々は,強い相互作用機構におけるダイナミクスの現象論的記述を発達させ,その不純物がアンダーソン絶縁体を効果的にmbl相に変換し,現象学的によく捉えられた非自明な絡み合いダイナミクスを生じさせることを示した。

Many-body localization (MBL) is an example of a dynamical phase of matter that avoids thermalization. While the MBL phase is robust to weak local perturbations, the fate of an MBL system coupled to a thermalizing quantum system that represents a "heat bath" is an open question that is actively investigated theoretically and experimentally. In this work we consider the stability of an Anderson insulator with a finite density of particles interacting with a single mobile impurity -- a small quantum bath. We give perturbative arguments that support the stability of localization in the strong interaction regime. Large scale tensor network simulations of dynamics are employed to corroborate the presence of the localized phase and give quantitative predictions in the thermodynamic limit. We develop a phenomenological description of the dynamics in the strong interaction regime, and demonstrate that the impurity effectively turns the Anderson insulator into an MBL phase, giving rise to non-trivial entanglement dynamics well captured by our phenomenology.
翻訳日:2023-03-15 00:58:45 公開日:2021-11-18
# 変分量子状態固有解法の事前スクリーニング法

A prescreening method for variational quantum state eigensolver ( http://arxiv.org/abs/2111.02448v2 )

ライセンス: Link先を確認
Hikaru Wakaura and Andriyan B. Suksmono(参考訳) フォールトトレラント量子コンピュータ(FTQC)の開発は、徐々に量子位相推定(QPE)アルゴリズムの実装の可能性を高めている。 しかし、QPEは正規化されたシステムでのみ動作する。 これはハミルトンの固有値の最小値と最大値を必要とする。 ノイズ中間量子(NISQ)時代に発達した変分量子固有解法(VQE)は、正確な状態に近い初期固有ベクトルを作成するために必要である。 本稿では,変分量子状態固有解法(vqse)と部分空間探索型vqe法(ssvqe)を用いて,全ての状態を高精度に導出する方法を提案する。 我々は,VQSEとSSVQEプレスクリーニング法を用いて,水素分子の状態をすべて正しく抽出できることを実証した。

The development of Fault-Tolerant Quantum Computer (FTQC) gradually raises a possibility to implement the Quantum Phase Estimation (QPE) algorithm. However, QPE works only for normalized systems. This requires the minimum and maximum of eigenvalues of a Hamiltonian. Variational Quantum Eigensolver (VQE) well developed in the Noisy Intermediate Scale Quantum (NISQ) era is necessary for preparing the initial eigenvectors that close to the exact states. In this paper, we propose a method to derive all of the states with high accuracy by using the Variational Quantum State Eigensolver (VQSE) and Subspace-Search VQE (SSVQE) methods. We show that by using the VQSE and the SSVQE prescreening methods, we can derive all of the hydrogen molecules states correctly.
翻訳日:2023-03-09 06:41:57 公開日:2021-11-18
# 非エルミート準粒子の確率的リセットからの絡み合い遷移

Entanglement Transitions from Stochastic Resetting of Non-Hermitian Quasiparticles ( http://arxiv.org/abs/2111.03500v2 )

ライセンス: Link先を確認
Xhek Turkeshi, Marcello Dalmonte, Rosario Fazio, Marco Schir\`o(参考訳) 我々は、よく定義された準粒子を持つ監視量子多体系における絡み合い力学の現象論的理論を提唱した。 この理論の中での絡み合いは、有限逆寿命で与えられる速度で測定プロトコルによって確率的にリセットされる非エルミート準粒子を確率的に伝播させることによってもたらされる。 エンタングルメントエントロピーの統計量に対する更新式を書き、準粒子崩壊率のスペクトルによって異なるエンタングルメントスケーリングが起こり、さらには急激なエンタングルメント相転移が起こることを示した。 量子ジャンプによって横磁化を測定する量子イジングチェーンに適用した場合、この理論はエンタングルメントの対数的スケーリング、領域法相、およびそれらの間の連続相転移を伴う臨界相を予測し、遷移点における正方根として有効中心電荷が消滅する。 我々はこれらの予測と同一モデル上の正確な数値計算を比較し、優れた一致を見出す。

We put forward a phenomenological theory for entanglement dynamics in monitored quantum many-body systems with well-defined quasiparticles. Within this theory entanglement is carried by ballistically propagating non-Hermitian quasiparticles which are stochastically reset by the measurement protocol with rate given by their finite inverse lifetime. We write down a renewal equation for the statistics of the entanglement entropy and show that depending on the spectrum of quasiparticle decay rates different entanglement scaling can arise and even sharp entanglement phase transitions. When applied to a Quantum Ising chain where the transverse magnetization is measured by quantum jumps, our theory predicts a critical phase with logarithmic scaling of the entanglement, an area law phase and a continuous phase transition between them, with an effective central charge vanishing as a square root at the transition point. We compare these predictions with with exact numerical calculations on the same model and find an excellent agreement.
翻訳日:2023-03-09 02:15:50 公開日:2021-11-18
# 量子カーネルアルファトロンによる量子位相学習における確率的アドバンテージ

Provable Advantage in Quantum Phase Learning via Quantum Kernel Alphatron ( http://arxiv.org/abs/2111.07553v2 )

ライセンス: Link先を確認
Yusen Wu, Bujiao Wu, Jingbo Wang, Xiao Yuan(参考訳) 量子コンピュータを使って、実用上重要な問題を解決する古典的な機械学習をスピードアップできるだろうか? 本稿では,多体量子物理学において重要な課題である量子位相学習問題に焦点をあてる。 複雑性理論の仮定では、古典的資源と古典的データを用いた機械学習アルゴリズムでは量子位相学習問題は効率的に解くことができないことが証明される。 量子データを用いるのに対し、理論上、量子核アルファトロンは量子位相を効率的に予測し、この学習問題の量子長所を示す。 我々は,対称性保護位相と対称性破壊位相の認識を含む,様々な問題のアルゴリズムを数値的にベンチマークする。 本結果は,量子位相の効率的な予測における量子機械学習の能力を強調した。

Can we use a quantum computer to speed up classical machine learning in solving problems of practical significance? Here, we study this open question focusing on the quantum phase learning problem, an important task in many-body quantum physics. We prove that, under widely believed complexity theory assumptions, quantum phase learning problem cannot be efficiently solved by machine learning algorithms using classical resources and classical data. Whereas using quantum data, we theoretically prove the universality of quantum kernel Alphatron in efficiently predicting quantum phases, indicating quantum advantages in this learning problem. We numerically benchmark the algorithm for a variety of problems,including recognizing symmetry-protected topological phases and symmetry-broken phases. Our results highlight the capability of quantum machine learning in efficient prediction of quantum phases.
翻訳日:2023-03-08 02:32:06 公開日:2021-11-18
# 非マルコフ環境により駆動される任意長XXスピン鎖

Arbitrary length XX spin chains boundary-driven by non-Markovian environments ( http://arxiv.org/abs/2111.07859v2 )

ライセンス: Link先を確認
G. Mouloudakis, T. Ilias and P. Lambropoulos(参考訳) 本研究は、任意のスペクトル密度を持つ非マルコフ貯水池に両端で結合したXXスピン鎖の波動関数を計算する再帰的方法である。 この方法は、ラプラス空間における時間依存シュロディンガーの運動方程式の適切な扱いに基づいており、任意の鎖長と任意の初期条件に対する変換振幅の閉形式解を単励起部分空間内で導く。 パラメータの様々な組み合わせに対するシステムの動的および状態伝達特性に関する結果も提示する。 特にローレンツ貯水池とオーミック貯水池の詳細な定量的比較が示されている。

In this work we provide a recursive method of calculating the wavefunction of a XX spin chain coupled at both ends to non-Markovian reservoirs with arbitrary spectral density. The method is based on the appropriate handling of the time-dependent Schrodinger's equations of motion in Laplace space and leads to closed form solutions of the transformed amplitudes, for arbitrary chain lengths as well as arbitrary initial conditions, within the single-excitation subspace. Results on the dynamical as well as state transfer properties of the system for various combinations of parameters are also presented. In particular, detailed quantitative comparisons for Lorentzian and Ohmic reservoirs are illustrated.
翻訳日:2023-03-08 02:15:58 公開日:2021-11-18
# 局所ルールを用いたスパイクネットワークの継続的学習

Continuous learning of spiking networks trained with local rules ( http://arxiv.org/abs/2111.09553v1 )

ライセンス: Link先を確認
Dmitry Antonov, Kirill Sviatov, Sergey Sukhov(参考訳) 人工知能ニューラルネットワーク(ANN)は、逐次学習中に破滅的な忘れ(CF)を経験する。 対照的に、脳は壊滅的な忘れの兆候なしに連続的に学習することができる。 スパイキングニューラルネットワーク(SNN)は、生物ニューラルネットワークから多くの特徴を借りた次世代のANNである。 これにより、snsはcfに対するレジリエンス向上を約束できる。 本稿では,SNNのCFに対する感受性について検討し,破滅的忘れを緩和するための生物学的に誘発されたいくつかの方法をテストする。 SNNはスパイク刺激依存的可塑性(STDP)に基づく生物学的に妥当な局所訓練規則で訓練されている。 ローカルトレーニングは、グローバルな損失関数の勾配に基づくCF防止手法の直接使用を禁止している。 我々は,勾配を必要とせず,確率的ランゲヴィンダイナミクスに基づくシナプス(ウェイト)の重要性を判定する手法を開発した。 アナログニューラルネットワークに適応した破滅的忘れ防止法もいくつか試験された。 実験はSpykeTorch環境で無料で利用可能なデータセットで実施された。

Artificial neural networks (ANNs) experience catastrophic forgetting (CF) during sequential learning. In contrast, the brain can learn continuously without any signs of catastrophic forgetting. Spiking neural networks (SNNs) are the next generation of ANNs with many features borrowed from biological neural networks. Thus, SNNs potentially promise better resilience to CF. In this paper, we study the susceptibility of SNNs to CF and test several biologically inspired methods for mitigating catastrophic forgetting. SNNs are trained with biologically plausible local training rules based on spike-timing-dependent plasticity (STDP). Local training prohibits the direct use of CF prevention methods based on gradients of a global loss function. We developed and tested the method to determine the importance of synapses (weights) based on stochastic Langevin dynamics without the need for the gradients. Several other methods of catastrophic forgetting prevention adapted from analog neural networks were tested as well. The experiments were performed on freely available datasets in the SpykeTorch environment.
翻訳日:2023-03-07 12:57:44 公開日:2021-11-18
# 実局所発振器を用いた連続可変量子鍵分布の位相参照強度攻撃

Phase-reference intensity attack on continuous-variable quantum key distribution with a real local oscillator ( http://arxiv.org/abs/2111.09542v1 )

ライセンス: Link先を確認
Yun Shao, Yang Li, Heng Wang, Yan Pan, Yaodi Pi, Yichen Zhang, Wei Huang, and Bingjie Xu(参考訳) 局所局所発振器(llo cv-qkd)を用いた実用的な連続可変量子鍵分布システムでは、受信側で局所的に校正できるコヒーレント検出や位相参照パルス強度に関連する位相ノイズが信頼できるノイズであると考えられる。 しかし、位相参照パルスの強度がリアルタイムで正確に監視されない場合、盗聴者が攻撃を開始するためのセキュリティの抜け穴が開く。 そこで本研究では,eveが位相参照パルスの強度を操ることで信頼された位相ノイズを低減し,総余剰ノイズが変わらずに信号パルスへのアタックを隠蔽する,2つの実用的な位相参照パルスアタック戦略を提案する。 これらの攻撃下でのLLO CV-QKDシステムの性能解析を行った。 提案する攻撃を防ぐために,位相参照パルスの強度をリアルタイムに正確に監視することが不可欠であることを示す。 さらに, 実用LLO CV-QKDシステムのセキュリティを強化し, 信頼相ノイズモデルをより堅牢にするため, 位相参照パルスの強度モニタリング方式を提案する。

In practical continuous-variable quantum key distribution system using local local oscillator (LLO CV-QKD), the phase noise related to coherent detection and phase-reference pulse intensity that can be locally calibrated at the receiver side is considered to be trusted noise to improve the performance. However, if the intensity of the phase-reference pulse is not monitored precisely in real-time, a security loophole will be opened for the eavesdropper to launch attacks. To this end, we propose two practical phase-reference pulse intensity attack strategies, where Eve can reduce the trusted phase noise by manipulating the intensity of the phase-reference pulse, thereby hiding her attack on the signal pulse if the total excess noise remains unchanged. The performance of the LLO CV-QKD system under these attacks has been analyzed. We show that precisely monitoring the intensity of the phase-reference pulse in real-time is an essential countermeasure to prevent the proposed attacks. Moreover, an intensity-monitoring scheme for the phase-reference pulse is proposed to strengthen the security of the practical LLO CV-QKD system and make the trusted phase noise model more robust.
翻訳日:2023-03-07 12:57:33 公開日:2021-11-18
# 首都圏におけるサブgbps鍵レート4状態連続可変量子鍵分布

Sub-Gbps key rate four-state continuous-variable quantum key distribution within metropolitan area ( http://arxiv.org/abs/2111.09540v1 )

ライセンス: Link先を確認
Heng Wang, Yang Li, Yaodi Pi, Yan Pan, Yun Shao, Li Ma, Jie Yang, Yichen Zhang, Wei Huang and Bingjie Xu(参考訳) 連続可変量子鍵分布(CVQKD)は、高速大都市圏ネットワークアプリケーションに非常に適している秘密鍵レートの潜在的な利点を有する。 しかし、現在報告されているcvqkdシステムの最高秘密鍵レートは、数mbpsで制限されている。 本稿では,大都市圏におけるGbps未満のキーレートを持つ単一キャリアの4状態CVQKDを実証する。 局所発振器を用いた実演4状態CVQKDにおいて、超低レベルの余剰雑音が得られ、最終キーを実質的に抽出するための高効率後処理機構が設計されている。 したがって、達成されたセキュアキーレートは、線形チャネル仮定セキュリティ解析法で190.54mbps、137.76mbps、52.48mbps、半定型プログラミングセキュリティ解析法で233.87mbps、133.6mbps、21.53mbpsである。 この記録破りの結果、前の秘密鍵レートの記録を桁違いに増加させ、ワンタイムの暗号処理を達成するのに十分である。 我々の研究は、セキュアなブロードバンド大都市圏とアクセスネットワークにおける高速かつ大規模CVQKD展開の道筋を示す。

Continuous-variable quantum key distribution (CVQKD) has potential advantages of high secret key rate, which is very suitable for high-speed metropolitan network application. However, the reported highest secret key rates of the CVQKD systems up to now are limited in a few Mbps. Here, we address the fundamental experimental problems and demonstrate a single-carrier four-state CVQKD with sub-Gbps key rate within metropolitan area. In the demonstrated four-state CVQKD using local local oscillator, an ultra-low level of excess noise is obtained and a high efficient post-processing setup is designed for practically extracting the final secure keys. Thus, the achieved secure key rates are 190.54 Mbps and 137.76 Mbps and 52.48 Mbps using linear channel assuming security analysis method and 233.87 Mbps, 133.6 Mbps and 21.53 Mbps using semidefinite programming security analysis method over transmission distances of 5 km, 10 km and 25 km, respectively. This record-breaking result increases the previous secret key rate record by an order of magnitude, which is sufficient to achieve the one-time pad cryptographic task. Our work shows the road for future high-rate and large-scale CVQKD deployment in secure broadband metropolitan and access networks.
翻訳日:2023-03-07 12:57:12 公開日:2021-11-18
# 量子ステアリングによる認証ランダム数生成

Certified Random Number Generation from Quantum Steering ( http://arxiv.org/abs/2111.09506v1 )

ライセンス: Link先を確認
Dominick J. Joch, Sergei Slussarenko, Yuanlong Wang, Alex Pepper, Shouyi Xie, Bin-Bin Xu, Ian R. Berkman, Sven Rogge, Geoff J. Pryde(参考訳) 究極の乱数生成器は、逆数を含む予測不能であると認定されたものである。 単純な量子プロセスを使用することで、物理的なオブザーバーが予測できない数値を提供するが、実際には望ましくないノイズや不完全なデバイスは基本的なランダム性とプロトコルのセキュリティを損なう可能性がある。 非局所性を利用してデバイスへの信頼をなくすための認証ランダム性プロトコルが開発されている。 ここでは、一方のデバイス独立フレームワークにおいてランダム性を証明できる量子ステアリングシナリオで動作する、我々のプロトコルを実装するためにフォトニックプラットフォームを使用します。 本稿では, ステアリングをベースとした公あるいは私的ランダム性生成手法と, 検出ループを閉じた第1世代のランダムビットについて, ステアリングのシナリオで示す。

The ultimate random number generators are those certified to be unpredictable -- including to an adversary. The use of simple quantum processes promises to provide numbers that no physical observer could predict but, in practice, unwanted noise and imperfect devices can compromise fundamental randomness and protocol security. Certified randomness protocols have been developed which remove the need for trust in devices by taking advantage of nonlocality. Here, we use a photonic platform to implement our protocol, which operates in the quantum steering scenario where one can certify randomness in a one-sided device independent framework. We demonstrate an approach for a steering-based generator of public or private randomness, and the first generation of certified random bits, with the detection loophole closed, in the steering scenario.
翻訳日:2023-03-07 12:56:12 公開日:2021-11-18
# ニューラルネットワークが量子状態トモグラフィーをどのように強化するかの比較研究

A comparative study on how neural networks enhance quantum state tomography ( http://arxiv.org/abs/2111.09504v1 )

ライセンス: Link先を確認
Hailan Ma, Daoyi Dong, Ian R. Petersen, Chang-Jiang Huang, Guo-Yong Xiang(参考訳) 量子状態の密度行列の再構成を目的とした量子状態トモグラフィーは、様々な新興量子技術において重要な役割を果たす。 機械学習はロバスト性と一般化に適しているという直観に触発されて,深層ニューラルネットワークを用いた量子状態トモグラフィ(dnn-qst)手法を提案する。 数値計算により,DNN-QSTは測定資源が限られている量子状態トモグラフィーにおいて高い忠実性を実現する大きな可能性を示し,トモグラフィ計測がノイズに悩まされる際の推定精度の向上を図っている。 さらに、量子光学デバイスからの2量子状態の結果は、DNN-QSTの一般化と、実験装置における潜在的なエラーに対する堅牢性を示す。

Quantum state tomography aiming at reconstructing the density matrix of a quantum state plays an important role in various emerging quantum technologies. Inspired by the intuition that machine learning has favorable robustness and generalization, we propose a deep neural networks based quantum state tomography (DNN-QST) approach, that can be applied to three cases, including few measurement copies and incomplete measurements as well as noisy measurements. Numerical results demonstrate that DNN-QST exhibits a great potential to achieve high fidelity for quantum state tomography with limited measurement resources and can achieve improved estimation when tomographic measurements suffer from noise. In addition, the results for 2-qubit states from quantum optical devices demonstrate the generalization of DNN-QST and its robustness against possible error in the experimental devices
翻訳日:2023-03-07 12:55:53 公開日:2021-11-18
# PT対称非線形シュリンガー方程式の高次元ソリトン生成、安定性および励起

Higher-dimensional soliton generation, stability and excitations of the PT-symmetric nonlinear Schr\"odinger equations ( http://arxiv.org/abs/2111.09482v1 )

ライセンス: Link先を確認
Yong Chen, Zhenya Yan, Boris A. Malomed(参考訳) PT対称一般化Scarf-II(GS-II)ポテンシャルのクラスについて検討し,一次元および多次元非線形シュレーディンガー方程式において正確なソリトンを支持できることを示した。 1Dおよび複数D設定では、適切に調整された局所化パラメータが完全な実エネルギースペクトルをサポートする可能性がある。 また、基本および高次ソリトン連続族が生成される。 基本状態は安定であり、1D多モードソリトン、2Dソリトン、3D軽弾を含む高次状態は不安定である。 さらに、安定ソリトンは常に頑健な形で伝播し、光学ソリトン操作の道を開くGS-II型のゆっくりと動くポテンシャル井戸に閉じ込められていることが判明した。 ソリトンはポテンシャルパラメータのアディバティックな変化によって安定な形に変換することもできる。 最後に、n次元のPT対称GS-II電位の代替型も報告されている。 これらの結果は、高次元のPT対称ソリトンを探索し、相対的な物理実験を設計するのに有用である。

We study a class of physically intriguing PT-symmetric generalized Scarf-II (GS-II) potentials, which can support exact solitons in one- and multi-dimensional nonlinear Schr\"odinger equation. In the 1D and multi-D settings, we find that a properly adjusted localization parameter may support fully real energy spectra. Also, continuous families of fundamental and higher-order solitons are produced. The fundamental states are shown to be stable, while the higher-order ones, including 1D multimodal solitons, 2D solitons, and 3D light bullets, are unstable. Further, we find that the stable solitons can always propagate, in a robust form, remaining trapped in slowly moving potential wells of the GS-II type, which opens the way for manipulations of optical solitons. Solitons may also be transformed into stable forms by means of adibatic variation of potential parameters. Finally, an alternative type of n-dimensional PT-symmetric GS-II potentials is reported too. These results will be useful to further explore the higher-dimensional PT-symmetric solitons and to design the relative physical experiments.
翻訳日:2023-03-07 12:55:39 公開日:2021-11-18
# 量子コンピュータを用いた航空ゲートスケジューリング最適化の探索

Exploring Airline Gate-Scheduling Optimization Using Quantum Computers ( http://arxiv.org/abs/2111.09472v1 )

ライセンス: Link先を確認
Hamed Mohammadbagherpoor, Patrick Dreher, Mohannad Ibrahim, Young-Hyun Oh, James Hall, Richard E Stone, Mirela Stojkovic(参考訳) 本稿では,航空ゲートスケジューリング2次代入問題(QAP)に対する量子コンピューティング技術の応用について検討する。 これらの問題の古典的なバージョンを量子コンピュータに移植するために必要な量子コンピューティングハードウェアアーキテクチャとソフトウェア環境について検討する。 変分量子固有解法と空間効率のよいグラフカラー化を準非制約二項最適化(QUBO)に含めることについて議論する。 これらの拡張量子コンピューティングアルゴリズムは、IBM量子コンピューティングシミュレータと27量子ビット超伝導トランスモンIBM量子コンピューティングハードウェアプラットフォームの両方を用いて、8ゲートと24フライトテストケースでテストされる。

This paper investigates the application of quantum computing technology to airline gate-scheduling quadratic assignment problems (QAP). We explore the quantum computing hardware architecture and software environment required for porting classical versions of these type of problems to quantum computers. We discuss the variational quantum eigensolver and the inclusion of space-efficient graph coloring to the Quadratic Unconstrained Binary Optimization (QUBO). These enhanced quantum computing algorithms are tested with an 8 gate and 24 flight test case using both the IBM quantum computing simulator and a 27 qubit superconducting transmon IBM quantum computing hardware platform.
翻訳日:2023-03-07 12:55:20 公開日:2021-11-18
# ナノスケールフォトクロミズムによる光近接場統計によるシューベルト多項式の次数認識

Order recognition by Schubert polynomials generated by optical near-field statistics via nanometre-scale photochromism ( http://arxiv.org/abs/2111.09462v1 )

ライセンス: Link先を確認
Kazuharu Uchiyama, Sota Nakajima, Hirotsugu Suzui, Nicolas Chauvet, Hayato Saigo, Ryoichi Horisaki, Kingo Uchida, Makoto Naruse, Hirokazu Hori(参考訳) 局所光学的近接場励起により異性化したフォトクロミック結晶による光子透過の不規則な空間分布を観察し, 材料の変形と近接場光子移動による複雑な分岐過程を示す。 さらに、このような自然に構築された複素光子伝送と単純な光子検出プロトコルを組み合わせることで、数学における万能置換演算の基礎であるシューベルト多項式が生成される。 本研究では,ナノメートルスケールフォトクロミズムを用いた光学的近接場統計を用いたシューベルト計算に触発された順序認識アルゴリズムを示す。 より具体的には、光学的近接場パターンによって生成されるシューベルト多項式を利用して、当初未知の報酬確率を持つスロットマシンの順序が認識されることを示す。 従来のアルゴリズムとは異なり,提案手法では報酬確率を推定できないことを強調する。 代わりに、シューベルト多項式に含まれる反転関係を利用する。 光近接場パターンから発生するシューベルト多項式の影響を定量的に評価するために、光近接場パターンが他のパターンを上回る一様分布および空間的に強く歪んだ確率分布と比較する。 我々は、シューベルト多項式に含まれる特異点数と与えられた問題や考慮された環境の特異点数が明確な対応を示し、与えられた問題の特異点が仮定された場合、優れた順序認識性能が得られることを示した。 本研究は、複雑な自然過程の相互作用とシューベルト計算によって得られた数学的洞察によって、ナノフォトニックインテリジェントデバイスやシステムへの新しいアプローチを開拓する。

We have previously observed an irregular spatial distribution of photon transmission through a photochromic crystal photoisomerized by a local optical near-field excitation, manifesting complex branching processes via the interplay of deformation of the material and near-field photon transfer therein. Furthermore, by combining such naturally constructed complex photon transmission with a simple photon detection protocol, Schubert polynomials, the foundation of versatile permutation operations in mathematics, have been generated. In this study, we demonstrate an order recognition algorithm inspired by Schubert calculus using optical near-field statistics via nanometre-scale photochromism. More specifically, by utilizing Schubert polynomials generated via optical near-field patterns, we show that the order of slot machines with initially unknown reward probability is successfully recognized. We emphasize that, unlike conventional algorithms in the literature, the proposed principle does not estimate the reward probabilities. Instead, it exploits the inversion relations contained in the Schubert polynomials. To quantitatively evaluate the impact of the Schubert polynomials generated from an optical near-field pattern, order recognition performances are compared with uniformly distributed and spatially strongly skewed probability distributions, where the optical near-field pattern outperforms the others. We found that the number of singularities contained in Schubert polynomials and that of the given problem or considered environment exhibits a clear correspondence, indicating that superior order recognition performances may be attained if the singularity of the given problem is presupposed. This study paves a new way toward nanophotonic intelligent devices and systems by the interplay of complex natural processes and mathematical insights gained by Schubert calculus.
翻訳日:2023-03-07 12:55:10 公開日:2021-11-18
# 量子推定理論への幾何学的アプローチ

A Geometrical Approach to Quantum Estimation Theory ( http://arxiv.org/abs/2111.09667v1 )

ライセンス: Link先を確認
Keiji Matsumoto(参考訳) この記事は1997年の著者の博士論文である。 まず、様々な多パラメータ純粋状態モデルの達成可能なcracker-rao型境界について研究する。 第2に、混合状態と純状態の両方のCR-ブッドとベリー・ウルマン曲率を関連付ける。 概して、統計モデルが古典的な確率分布族とどのように異なるかを特徴付ける。 この関係は混合状態に対してかなり定性的であるが、純粋な状態モデルでは量的関係が得られている。 第3のトピックはベリー・ウルマン幾何学とアマリ・ナガオカの量子情報幾何学の関係である。 推定理論を用いて、量子物理学における諸問題、不確実性関係、温度の測定、時間反転対称性などについて論じる。

This post is the author's doctoral dissertation back in 1997. The dissertation covers following four kinds of problems: First, it studies achievable Cramer-Rao type bounds of various multi-parameter pure state models. Second, it relates CR-bouds, both of mixed state and pure states, with Berry-Uhlmann curvature. Roughly, it characterize how the statistical model differs from classical probability distribution family. Though the relation is rather qualitative for mixed states, the quantitative relation is obtained for pure state models. Third topic is relation between Berry-Uhlmann geometry and Amari-Nagaoka's quantum information geometry. Forth, various problems in quantum physics, uncertainty relations, measurement of temperature, time reversal symmetry, etc., are discussed using estimation theory.
翻訳日:2023-03-07 12:47:24 公開日:2021-11-18
# 関係物理学と自然法則の大きなカンティアン成分の関係について

Remarks About the Relationship Between Relational Physics and a Large Kantian Component of the Laws of Nature ( http://arxiv.org/abs/2111.09609v1 )

ライセンス: Link先を確認
Sheldon Goldstein and Nino Zanghi(参考訳) リレーショナル力学(Relational Mechanics)は、空間がリレーショナルであるメカニクス(古典的または量子的)の再構成である。 これは、$N$粒子系の構成が形状であり、回転、翻訳、拡張の影響が商化されるときに残っていることを意味する。 この力学の再構成は、自然に時間の関係の概念を導くものであり、宇宙の歴史は絶対ニュートン時間によって与えられる曲線の特別なパラメトリゼーションに言及せずに、形空間におけるただの曲線である。 関係力学(古典的あるいは量子的)が基本であると見なされるとき、絶対空間と絶対時間に関する通常の記述は単にゲージの選択に対応するものとして現れる。 このゲージの自由は、我々が伝統的に物理学の基本と見なされてきたものが、実際にゲージの選択を通じて我々によって課されるかもしれないことを認識させる。 したがって、物理的理論に幾らかカント的側面を与える。

Relational mechanics is a reformulation of mechanics (classical or quantum) for which space is relational. This means that the configuration of an $N$-particle system is a shape, which is what remains when the effects of rotations, translations, and dilations are quotiented out. This reformulation of mechanics naturally leads to a relational notion of time as well, in which a history of the universe is just a curve in shape space without any reference to a special parametrization of the curve given by an absolute Newtonian time. When relational mechanics (classical or quantum) is regarded as fundamental, the usual descriptions in terms of absolute space and absolute time emerge merely as corresponding to the choice of a gauge. This gauge freedom forces us to recognize that what we have traditionally regarded as fundamental in physics might in fact be imposed by us through our choice of gauge. It thus imparts a somewhat Kantian aspect to physical theory.
翻訳日:2023-03-07 12:46:54 公開日:2021-11-18
# コヒーレンス強化量子ドット熱エンジン

Coherence enhanced quantum-dot heat engine ( http://arxiv.org/abs/2111.09582v1 )

ライセンス: Link先を確認
Jaegon Um, Konstantin E. Dorfman, Hyunggyu Park(参考訳) 量子コヒーレンスにより、リンドブラッドの記述における連続量子熱エンジンの性能が向上することを示す。 2つの熱浴に並列に結合した縮退二重量子ドットからなる粒子交換型量子熱エンジンの定常解について検討し、そこでは緩和チャネル間の干渉により量子コヒーレンスが発生する可能性がある。 点と2つの浴の間の結合配置の対称性が損なわれている場合, 非線形応答系のコヒーレンスによりエンジンパワーを向上できることがわかった。 対称の場合、初期条件に依存した複数の定常状態がダーク状態に現れる最大干渉退化ケースを除いて、コヒーレンスを定常状態に維持することはできない。

We show that quantum coherence can enhance the performance of a continuous quantum heat engine in the Lindblad description. We investigate the steady-state solutions of the particle-exchanging quantum heat engine, composed of degenerate double quantum dots coupled to two heat baths in parallel, where quantum coherence may be induced due to interference between relaxation channels. We find that the engine power can be enhanced by the coherence in the nonlinear response regime, when the symmetry of coupling configurations between dots and two baths is broken. In the symmetric case, the coherence cannot be maintained in the steady state, except for the maximum interference degenerate case, where initial-condition-dependent multiple steady states appear with a dark state.
翻訳日:2023-03-07 12:45:52 公開日:2021-11-18
# 偏光励起光を用いたルビジウム原子アンサンブルのスピンノイズ分光の高度化

Enhancement of spin noise spectroscopy of rubidium atomic ensemble by using of the polarization squeezed light ( http://arxiv.org/abs/2111.09572v1 )

ライセンス: Link先を確認
Lele Bai, Lulu Zhang, Yongbiao Yang, Rui Chang, Yao Qin, Jun He, Xin Wen, and Junmin Wang(参考訳) また,Stokes演算子S2による795nm光界の偏光励起状態(PSS)を用いて,2つの異なる原子蒸気セル(バッファガスを充填するか,あるいはパラフィン膜を内壁上に塗布した)とルビジウム原子アンサンブルのスピンノイズスペクトル(SNS)を測定し,信号と雑音比(SNR)の増大を実証した。 サブスレッショルド光パラメトリック発振器によって得られた光の圧縮真空状態と、量子ノイズロックにより直交偏波局所発振器ビームとの相対位相をロックしてpssを構成する。 同じ条件下では、PSSはSNRの改善だけでなく、ポーラライゼーションコヒーレント状態(PCS)を使用する場合と比較してSNSの半幅(FWHM)を一定に保ち、SNRの増強はPSSのスクイーズレベルと正に相関する。 プローブレーザーパワーと原子数密度の増加に伴い、snsのsnrとfwhmは対応するほど増加する。 SNS信号のSNRおよびFWHMの量子化は,ストークス作用素S2のPSSを用いて,S2偏光励起光ビームの光力や原子数密度の制御によって実証されている。

We measured the spin noise spectroscopy (SNS) of rubidium atomic ensemble with two different atomic vapor cells (filled with the buffer gases or coated with paraffin film on the inner wall), and demonstrated the enhancement of signal to noise ratio (SNR) by using of the polarization squeezed state (PSS) of 795 nm light field with Stokes operator S2 squeezed. PSS is prepared by locking the relative phase between the squeezed vacuum state of light obtained by a sub-threshold optical parametric oscillator and the orthogonal polarized local oscillator beam by means of the quantum noise lock. Under the same conditions, PSS can be employed not only to improve SNR, but also to keep the full width at half maximum (FWHM) of SNS unchanged, compared with the case of using polarization coherent state (PCS), and the enhancement of SNR is positively correlated with the squeezing level of PSS. With the increase of probe laser power and atomic number density, the SNR and FWHM of SNS will increase correspondingly. With the help of PSS of Stokes operator S2, quantum enhancement of both SNR and FWHM of SNS signal has been demonstrated by controlling optical power of the S2 polarization squeezed light beam or atomic number density in our experiments.
翻訳日:2023-03-07 12:45:40 公開日:2021-11-18
# btzブラックホール再訪のためのホーキング放射のトンネル化

Tunneling of Hawking radiation for BTZ black hole revisited ( http://arxiv.org/abs/2111.09569v1 )

ライセンス: Link先を確認
Bijan Bagchi, Sauvik Sen(参考訳) 我々は,非回転(2+1)次元BTZブラックホールに対するホーキング放射を再検討し,WKB近似の標準手法を用いて,事象地平線の障壁を通るトンネルの透過確率を評価する。 結果は未チャージケースとチャージケースの両方に表示されます。 また、ホーキング温度の観点から関連する熱力学を探索し、表面重力やエントロピーのようなブラックホールのパラメータを推定する。

We re-examine Hawking radiation for a nonrotating (2+1)-dimensional BTZ black hole and evaluate the transmission probability of tunneling through the barrier of the event horizon employing the standard method of WKB approximation. Our results are presented for both uncharged and charged cases. We also explore the associated thermodynamics in terms of Hawking temperature and provide estimates of black hole parameters like the surface gravity and entropy.
翻訳日:2023-03-07 12:45:10 公開日:2021-11-18
# 強い光子-光子結合を持つ多モード非線形系の古典-量子遷移

Classical-to-quantum transition in multimode nonlinear systems with strong photon-photon coupling ( http://arxiv.org/abs/2111.09557v1 )

ライセンス: Link先を確認
Yue-Xun Huang, Ming Li, Ke Lin, Yan-Lei Zhang, Guang-Can Guo, Chang-Ling Zou(参考訳) 先端的なマイクロフォトニック構造とナノフォトニック構造により、真空光子-光子カップリング速度は本質的損失率に近づき、非慣習的な量子効果をもたらすことが期待されている。 本稿では,第2高調波発生過程に係わる基本および高調波光場の大光子数状態を追跡する際の計算課題に対処する量子クラスター展開法を用いて,そのような光子非線形系の古典-量子遷移について検討する。 弱結合限界で用いられる平均場近似と比較して、量子クラスター展開法はマルチモードダイナミクスを効率的に解き、閾値周辺の光パラメトリック振動の量子挙動を明らかにする。 この研究は、マルチモードシステムの量子力学を研究し、連続可変量子情報処理のための非線形フォトニックデバイスを探索するための普遍的なツールを提供する。

With advanced micro- and nano-photonic structures, the vacuum photon-photon coupling rate is anticipated to approach the intrinsic loss rate and lead to unconventional quantum effects. Here, we investigate the classical-to-quantum transition of such photonic nonlinear systems using the quantum cluster-expansion method, which addresses the computational challenge in tracking large photon number states of the fundamental and harmonic optical fields involved in the second harmonic generation process. Compared to the mean-field approximation used in weak coupling limit, the quantum cluster-expansion method solves multimode dynamics efficiently and reveals the quantum behaviors of optical parametric oscillations around the threshold. This work presents a universal tool to study quantum dynamics of multimode systems and explore the nonlinear photonic devices for continuous-variable quantum information processing.
翻訳日:2023-03-07 12:45:02 公開日:2021-11-18
# スピン量子ビットに基づくアイソトープ加工ダイヤモンドのロバスト量子ネットワークメモリ

Robust quantum-network memory based on spin qubits in isotopically engineered diamond ( http://arxiv.org/abs/2111.09772v1 )

ライセンス: Link先を確認
C. E. Bradley, S. W. de Bone, P. F. W. Moller, S. Baier, M. J. Degen, S. J. H. Loenen, H. P. Bartling, M. Markham, D. J. Twitchen, R. Hanson, D. Elkouss, T. H. Taminiau(参考訳) 量子ネットワークは長距離量子通信とモジュラー量子計算を可能にする。 強力なアプローチは、量子メモリと計算能力を提供し、絡み合い蒸留、量子誤差補正、情報処理を行うマルチ量子ビットネットワークノードを使用することである。 ダイヤモンドの光学活性欠陥に関連する核スピンはこの役割に有望な量子ビットである。 しかし、光ネットワーク間の絡み合い分布におけるデフォーカスは、より大きなシステムへのスケーリングを妨げる。 本研究では,アイソトープ加工ダイヤモンド中の1つの13cスピンが,nv中心の光リンク操作に頑健な長寿命の量子メモリを提供することを示す。 メモリ寿命は最先端の2桁のオーダーで改善され、リモートの絡み合い生成に最適な時間を超える。 我々は,nv中心のイオン化を新たに制限されたデコヒーレンス機構と同定した。 この限界を克服するための第一歩として、イオン化と再捕獲の完全なサイクルの後、核スピン状態が高い忠実度で取り戻せることを実証する。 最後に,前述した絡み合いリンクとゲート操作の組み合わせにより,決定論的非局所2量子ビット論理演算や4つのネットワークノード間のghz状態生成といった量子ネットワークの重要なプリミティブが実現可能であることを示すために,数値シミュレーションを用いた。 その結果、複雑なアルゴリズムや誤り訂正を検証できるテストベッド量子ネットワークへの道が開けた。

Quantum networks can enable long-range quantum communication and modular quantum computation. A powerful approach is to use multi-qubit network nodes which provide the quantum memory and computational power to perform entanglement distillation, quantum error correction, and information processing. Nuclear spins associated with optically-active defects in diamond are promising qubits for this role. However, their dephasing during entanglement distribution across the optical network hinders scaling to larger systems. In this work, we show that a single 13C spin in isotopically engineered diamond offers a long-lived quantum memory that is robust to the optical link operation of an NV centre. The memory lifetime is improved by two orders-of-magnitude upon the state-of-the-art, and exceeds the best reported times for remote entanglement generation. We identify ionisation of the NV centre as a newly limiting decoherence mechanism. As a first step towards overcoming this limitation, we demonstrate that the nuclear spin state can be retrieved with high fidelity after a complete cycle of ionisation and recapture. Finally, we use numerical simulations to show that the combination of this improved memory lifetime with previously demonstrated entanglement links and gate operations can enable key primitives for quantum networks, such as deterministic non-local two-qubit logic operations and GHZ state creation across four network nodes. Our results pave the way for test-bed quantum networks capable of investigating complex algorithms and error correction.
翻訳日:2023-03-07 12:39:12 公開日:2021-11-18
# メンバーが少ない直交多部積状態の非局所集合

Nonlocal sets of orthogonal multipartite product states with less members ( http://arxiv.org/abs/2111.09770v1 )

ライセンス: Link先を確認
Hui-Juan Zuo, Jia-Huan Liu, Xiao-Fan Zhen, Shao-Ming Fei(参考訳) 局所演算や古典通信では区別できない多成分系における非局所直交積状態の構成について検討する。 まず、三項系 $\mathcal{C}^{d}\otimes\mathcal{C}^{d}\otimes\mathcal{C}^{d}~(d\geq3)$ と $\mathcal{C}^d\otimes \mathcal{C}^{d+1}\otimes \mathcal{C}^{d+2}~(d\geq 3)$ に非局所直交積状態の2つの構成を示す。 すると、一般三成分量子系$\mathcal{c}^{n_{1}}\otimes\mathcal{c}^{n_{2}}\otimes\mathcal{c}^{n_{3}}$(3\leq n_{1}\leq n_{2}\leq n_{3})$に対して、2(n_{2}+n_{3}-1)-n_{1}$非局所直交積状態が得られる。 最後に、$\mathcal{C}^{d_{1}}\otimes \mathcal{C}^{d_{2}}\otimes\cdots\otimes \mathcal{C}^{d_{n}}$ $(d_1,d_2,\cdots d_n\geq3,\,n>6)$ multipartite system に新しい構成アプローチを提案する。 注目すべきは、我々の区別できない集合は、既存のものよりも非局所的な生成状態が少なく、最近の結果を改善し、量子情報処理におけるそれらの関連する応用を強調していることである。

We study the constructions of nonlocal orthogonal product states in multipartite systems that cannot be distinguished by local operations and classical communication. We first present two constructions of nonlocal orthogonal product states in tripartite systems $\mathcal{C}^{d}\otimes\mathcal{C}^{d}\otimes\mathcal{C}^{d}~(d\geq3)$ and $\mathcal{C}^d\otimes \mathcal{C}^{d+1}\otimes \mathcal{C}^{d+2}~(d\geq 3)$. Then for general tripartite quantum system $\mathcal{C}^{n_{1}}\otimes\mathcal{C}^{n_{2}}\otimes\mathcal{C}^{n_{3}}$ $(3\leq n_{1}\leq n_{2}\leq n_{3})$, we obtain $2(n_{2}+n_{3}-1)-n_{1}$ nonlocal orthogonal product states. Finally, we put forward a new construction approach in $\mathcal{C}^{d_{1}}\otimes \mathcal{C}^{d_{2}}\otimes\cdots\otimes \mathcal{C}^{d_{n}}$ $(d_1,d_2,\cdots d_n\geq3,\, n>6)$ multipartite systems. Remarkably, our indistinguishable sets contain less nonlocal product states than the existing ones, which improves the recent results and highlights their related applications in quantum information processing.
翻訳日:2023-03-07 12:38:47 公開日:2021-11-18
# 理想的NOON状態限界を超える決定論的量子位相推定

Deterministic quantum phase estimation beyond the ideal NOON state limit ( http://arxiv.org/abs/2111.09756v1 )

ライセンス: Link先を確認
Jens Arnbak Holb{\o}ll Nielsen, Jonas Schou Neergaard-Nielsen, Tobias Gehring and Ulrik Lund Andersen(参考訳) 物理パラメータの測定は科学の主要な柱の一つである。 古典的な例は、光干渉法によって実現された光学位相の測定であり、N光子で得られる最高の感度は、ハイゼンベルク極限と呼ばれる1/Nスケールである。 ハイゼンベルク極限での位相推定を達成するために、非常に複雑なNOON状態の光に基づくプロトコルを考えることが一般的である。 しかしながら、何十年もの研究といくつかの実験的探査にもかかわらず、正午状態がハイゼンベルク限界に達したり、ショットノイズ限界を超えるような決定論的位相推定の実証は行われていない。 ここでは,ガウス圧縮真空状態の決定論的源と高効率ホモダイン検出に基づく位相推定法を用いて,ショットノイズの限界を大幅に超え,理想的かつ非現実的な正午状態プロトコルの性能をも上回る極感度の位相推定を求める。 総損失が約11%の高効率設定を用いることで、他の光学位相推定技術に比例しない15.8(6) rad^2のフィッシャー情報が得られる。 この研究は量子力学の基本的な成果であり、光に敏感な生物学的システムの尋問のための将来の量子センシング技術への扉を開く。

The measurement of physical parameters is one of the main pillars of science. A classic example is the measurement of the optical phase enabled by optical interferometry where the best sensitivity achievable with N photons scales as 1/N - known as the Heisenberg limit . To achieve phase estimation at the Heisenberg limit, it has been common to consider protocols based on highly complex NOON states of light. However, despite decades of research and several experimental explorations, there has been no demonstration of deterministic phase estimation with NOON states reaching the Heisenberg limit or even surpassing the shot noise limit. Here we use a phase estimation scheme based on a deterministic source of Gaussian squeezed vacuum states and high-efficiency homodyne detection to obtain phase estimates with an extreme sensitivity that significantly surpasses the shot noise limit and even beats the performance of an ideal, and thus unrealistic, NOON state protocol. Using a high-efficiency setup with a total loss of about 11% we achieve a Fisher Information of 15.8(6) rad^2 per photon unparalleled by any other optical phase estimation technology. The work represents a fundamental achievement in quantum metrology, and it opens the door to future quantum sensing technologies for the interrogation of light-sensitive biological systems.
翻訳日:2023-03-07 12:38:09 公開日:2021-11-18
# 非線形プラズモニックメタサーフェスにおける自発的パラメトリックダウンコンバージョンによる高効率単光子対生成

Efficient single-photon pair generation by spontaneous parametric down-conversion in nonlinear plasmonic metasurfaces ( http://arxiv.org/abs/2111.09753v1 )

ライセンス: Link先を確認
Boyuan Jin, Dhananjay Mishra, and Christos Argyropoulos(参考訳) 自発パラメトリックダウン変換(SPDC)は、絡み合った相関した単光子対を生成するための最も多目的な非線形光学技術の一つである。 しかし、非常に効率が悪く、光子発生率が非常に低くなる。 本稿では,銀ナノストライプとバルクニオブ酸リチウム(linbo3)結晶を組み合わせたプラズモニックメタサーフェス設計を提案し,スケーラブルで超薄型,効率的なspd源を実現する。 生成した信号およびアイドラー周波数とメタサーフェスの基本及び高次共鳴を融合させることにより、非線形媒質中の電界が著しく増大する。 これによりSPDCプロセスが大幅に向上し、量子古典的対応原理を用いることで非常に高い光子対生成率が得られる。 放出された放射は、関連する誘電体構造とは反対のメタサーフェスに対して高度に方向的かつ垂直である。 円偏光励起の導入により光子対生成効率はさらに向上する。 提案した研究は、自由空間量子光学通信において重要なコンポーネントであると思われる室温で作業する超高効率SPDC単光子ナノフォトニクス源の設計につながる。 より一般的な文脈で、我々の発見は量子プラズモンの出現する分野における様々な応用を見出すことができる。

Spontaneous parametric down-conversion (SPDC) is one of the most versatile nonlinear optical techniques for the generation of entangled and correlated single-photon pairs. However, it suffers from very poor efficiency leading to extremely weak photon generation rates. Here we propose a plasmonic metasurface design based on silver nanostripes combined with a bulk lithium niobate (LiNbO3) crystal to realize a new scalable, ultrathin, and efficient SPDC source. By coinciding fundamental and higher order resonances of the metasurface with the generated signal and idler frequencies, respectively, the electric field in the nonlinear media is significantly boosted. This leads to a substantially enhancement in the SPDC process which, subsequently, by using the quantum-classical correspondence principle, translates to very high photon-pair generation rates. The emitted radiation is highly directional and perpendicular to the metasurface on the contrary to relevant dielectric structures. The incorporation of circular polarized excitation further increases the photon-pair generation efficiency. The presented work will lead to the design of new efficient ultrathin SPDC single-photon nanophotonic sources working at room temperature that are expected to be critical components in free-space quantum optical communications. In a more general context, our findings can find various applications in the emerging field of quantum plasmonics.
翻訳日:2023-03-07 12:37:48 公開日:2021-11-18
# ロスレスマルチパーティシステムにおける絡み合いの凍結と解凍

Freezing and Thawing of Entanglement in Lossless Multiparty Systems ( http://arxiv.org/abs/2111.09752v1 )

ライセンス: Link先を確認
X.-F. Qian, C. Qu, and J.H. Eberly(参考訳) 様々なノイズ性脱コヒーレンス機構に結束凍結が存在することが示されている。 ここでは、ロスレス・マルチパーティ・システム(n$-site optical lattice (または等価スピンチェーン)システム)における凍結挙動を調査することにより、その普遍性を探る。 無限大の場合(N\rightarrow\infty$)には、永久エンタングルメント凍結の興味深い現象がある。 マルチパーティのシステムサイズが有限の$N$に減少するにつれて、動的絡み合いの興味深い振る舞いが出現し始める。 特に「凍結」と「解凍」の別の外観は、時間が進化するにつれて識別できる。 我々の結果は量子タスクの絡み合い制御に有用なガイダンスを提供するかもしれない。

Entanglement freezing has been demonstrated existing in various noisy decoherence mechanisms. Here we explore its universality by investigating freezing behavior in a lossless multiparty system, i.e., an $N$-site optical lattice (or equivalently spin-chain) system. Interesting phenomenon of permanent entanglement freezing is found for the infinite-size case ($N\rightarrow\infty$). As the multiparty system size reduces to finite $N$, the interesting behavior of dynamical entanglement "thawing" start to emerge. Especifically, alternative appearances of "freezing" and "thawing" can be identified as time evolves. Our results may provide useful guidance to entanglement control in quantum tasks.
翻訳日:2023-03-07 12:37:27 公開日:2021-11-18
# 多体散逸系における単一励起の非マルコフダイナミクス

Non-Markovian Dynamics of a Single Excitation within Many-Body Dissipative Systems ( http://arxiv.org/abs/2111.09730v1 )

ライセンス: Link先を確認
Adam Burgess and Marian Florescu(参考訳) 我々は、n$結合原子の特定の系対称性の下での一般ボソニック貯水池へのダイナミクスを探求する。 同一のカップリングを持つ1つの貯水池に結合した複数の原子の配置において、原子励起状態の振幅の初期配置はシステムのダイナミクスに強く影響し、システムの環境から完全に切り離すことさえ可能であることが特に顕著である。 さらに, 励起状態の定常振幅は貯水池の選択とは独立になることがわかった。 本フレームワークはフォトニック結晶に関連付けられた構造されたフォトニック貯水池に適用され, 従来の理論および実験結果を再現し, 単一励起状態における超ラジカル挙動を予測する。

We explore the dynamics of $N$ coupled atoms to a generic bosonic reservoir under specific system symmetries. In the regime of multiple atoms coupled to a single reservoir with identical couplings, we identify remarkable effects, notably that the initial configuration of the atomic excited state amplitudes strongly impacts the dynamics of the system and can even fully sever the system from its environment. Additionally, we find that steady state amplitudes of the excited states become independent of the choice of the reservoir. The framework introduced is applied to a structured photonic reservoir associated with a photonic crystal, where we show it reproduces previous theoretical and experimental results and it predicts superradiant behaviour within the single-excitation regime.
翻訳日:2023-03-07 12:37:05 公開日:2021-11-18
# NavIC同期完全自動化QKDフレームワークの開発と量子セキュアビデオ通話の実証

Development of NavIC synchronized fully automated inter-building QKD framework and demonstration of quantum secured video calling ( http://arxiv.org/abs/2111.09716v1 )

ライセンス: Link先を確認
Adarsh Jain, Abhishek Khanna, Jay Bhatt, Parthkumar V Sakhiya, Shashank Kumar, Rohan S Urdhwareshe, Nilesh M Desai(参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、量子力学の基本原理を利用して究極のセキュリティ保証を約束する革命的な通信技術である。 本研究では,弱いコヒーレントパルスベースのBB84プロトコルを実行することにより,暗号鍵の生成と配布をセキュアかつシームレスに行うための,完全自動ビルド間QKDフレームワークの設計と開発について報告する。 この枠組みは、自由空間大気チャネルの300m程度で分離された2つの建物間の量子通信リンクを確立することで実験的に検証される。 土着のNavIC(IRNSS)コンステレーションで実現された新しい同期技術を開発し実装した。 このQKDシステムは、平均光子 no に対して QBER< 3% で300 Kbps のセキュアな鍵レートを生成することを示した。 per pulse ($) は 0.15 である。 インターセプト・resend eavesdropping攻撃はシステム内でエミュレートされ、実験中に評価されている。 量子通信と共に機能する新しい量子セキュアなエンドツーエンドビデオ通話アプリQuViC(QuViC)も開発され、QKDフレームワークと統合され、イーサネット上での無条件でセキュアな双方向通信を実証する。

Quantum key distribution (QKD) is a revolutionary communication technology that promises ultimate security assurance by exploiting the fundamental principles of quantum mechanics. In this work, we report design and development of a fully automated inter-building QKD framework for generation and distribution of cryptographic keys, securely and seamlessly, by executing weak coherent pulse based BB84 protocol. This framework is experimentally validated by establishing a quantum communication link between two buildings separated by ~300m of free-space atmospheric channel. A novel synchronization technique enabled with indigenous NavIC (IRNSS) constellation is developed and implemented. This QKD system demonstrates generation of secure key rate as high as 300 Kbps with QBER< 3% for mean photon no. per pulse (${\mu}$) of 0.15. The intercept-resend eavesdropping attack has been emulated within the system and evaluated during experiment. A novel quantum secured end-to-end encrypted video calling app (QuViC) is also developed and integrated with QKD framework to demonstrate unconditionally secure two-way communication over Ethernet, functioning alongside with quantum communication.
翻訳日:2023-03-07 12:36:21 公開日:2021-11-18
# メタバースに関する調査 : 最先端,技術,応用,課題

A Survey on Metaverse: the State-of-the-art, Technologies, Applications, and Challenges ( http://arxiv.org/abs/2111.09673v1 )

ライセンス: Link先を確認
Huansheng Ning, Hang Wang, Yujia Lin, Wenxi Wang, Sahraoui Dhelim, Fadi Farha, Jianguo Ding, Mahmoud Daneshmand(参考訳) Metaverseは、様々な新しい技術を統合する新しいタイプのインターネットアプリケーションとソーシャルフォームである。 マルチテクノロジー、社会性、超時空間性の特徴を持つ。 本稿では,Metaverseの開発状況について,ネットワークインフラストラクチャ,管理技術,基本共通技術,仮想現実オブジェクト接続,仮想現実コンバージェンスという5つの観点から紹介し,Metaverseの技術枠組みを紹介する。 本稿では,メタバースの社会的・超時空間的性質についても紹介するとともに,メタバースの応用領域と課題と課題について考察する。

Metaverse is a new type of Internet application and social form that integrates a variety of new technologies. It has the characteristics of multi-technology, sociality, and hyper spatiotemporality. This paper introduces the development status of Metaverse, from the five perspectives of network infrastructure, management technology, basic common technology, virtual reality object connection, and virtual reality convergence, it introduces the technical framework of Metaverse. This paper also introduces the nature of Metaverse's social and hyper spatiotemporality, and discusses the first application areas of Metaverse and some of the problems and challenges it may face.
翻訳日:2023-03-07 12:36:02 公開日:2021-11-18
# 窒素空洞中心の暗状態を用いた実時間磁気計測

Real-Time Magnetometry Using Dark States of a Nitrogen Vacancy Center ( http://arxiv.org/abs/2111.09943v1 )

ライセンス: Link先を確認
Ethan Turner, Shu-Hao Wu, Xinzhu Li, and Hailin Wang(参考訳) 本研究では,コヒーレント集団トラップ設定における窒素空隙中心からの蛍光を検出し,観測された光子数時系列から磁場を推定することにより,リアルタイム磁気計測を行う。 原理実証実験では、オルンシュタイン-ウレンベック(ou)過程に従う外部の時変磁場を用いる。 OU過程の統計的性質を考慮し、ベイズ推定に基づく推定器は、単一の光子を検出することで、フィールドの動的情報をリアルタイムで効果的に更新することができる。

We demonstrate real-time magnetometry by detecting fluorescence from a nitrogen vacancy center in the setting of coherent population trapping and by estimating magnetic field from the time series of the observed photon counts, which are correlated with the underlying field. The proof-of-principle experiment uses an external time-varying magnetic field that follows an Ornstein-Uhlenbeck (OU) process. By taking into consideration the statistical properties of the OU process, a Bayesian inference-based estimator can effectively update dynamical information of the field in real time with the detection of just a single photon.
翻訳日:2023-03-07 12:29:24 公開日:2021-11-18
# ハーモニック振動子からチャープ信号の時間周波数解析へ

From the Harmonic Oscillator to Time-Frequency Analysis of Chirp Signals ( http://arxiv.org/abs/2111.09936v1 )

ライセンス: Link先を確認
Donald J. Kouri, Caleb Broodo, Bernhard G. Bodmann, Cameron L. Williams(参考訳) 本稿では,調和力学の役割を理解し,量子力学内外への影響を深く理解するための新しいアプローチを提案する。 これには調和力学の結果や異常拡散の不確実性原理、チャープ信号の時間周波数解析が含まれる。 このアプローチでは、「一般化された」座標と運動量の新しい系において、座標 $x$ と運動量 $p_x$ を持つ正準変数の系を見るための接触変換を考える。 この新システムは、非相対論的量子力学の文脈で最初に研究されている。 古典的なアナログはポアソンブラケット方程式を用いて探索される。 このことから、古典的な現象に新しい意味が示される。 1つは、異常と正規拡散の新しいモデルである。 別の例として、一般化変数の観点から新しいガウスフーリエ変換核を探索する「混合フーリエ変換」の概念を紹介する。 これはチャープ信号の「調和化」や、他の非ハーモニックチャープからハーモニック信号を生成するという究極の目的を持っている。

This paper presents a novel approach to understanding the role of harmonic dynamics and gaining a deeper appreciation for its impact within and outside of quantum mechanics. This includes consequences of harmonic dynamics and the uncertainty principle for anomalous diffusion and for the time-frequency analysis of chirp signals. In this approach, we consider a contact transformation to view a system of canonical variables with coordinate $x$ and momentum $p_x$ in the context of a new system of "generalized" coordinates and momentum. This new system is first studied in the context of non-relativistic quantum mechanics. The classical analog is then explored by use of the Poisson bracket equation. From this, new implications are demonstrated in classical phenomena. One is for a new model of Anomalous and Normal Diffusion. In another, we introduce the concept of the "Mixed Fourier Transform" which explores a new Gaussian Fourier Transform kernel in terms of the generalized variables. This has the ultimate objective of "harmonizing" chirp signals or producing a harmonic signal from an otherwise non-harmonic chirp.
翻訳日:2023-03-07 12:29:13 公開日:2021-11-18
# 量子状態フィードバック制御学習のための確率最適化

Stochastic optimization for learning quantum state feedback control ( http://arxiv.org/abs/2111.09896v1 )

ライセンス: Link先を確認
Ethan N. Evans, Ziyi Wang, Adam G. Frim, Michael R. DeWeese, Evangelos A. Theodorou(参考訳) 高忠実性状態形成は量子技術応用における根本的な課題である。 最適制御アプローチの大部分はフィードバックを使ってコントローラを改善するが、コントローラ自体が明示的な状態依存を含まないことが多い。 本稿では,他の多くの技術で禁止されている様々なシステムや制御構造を可能とし,非線形フィルタリングによる非モデル化効果に効果的に対応可能な,オープン量子系に対する深いフィードバックネットワークのトレーニングフレームワークを提案する。 本手法は,並列性,オープンシステム間インタラクションの堅牢性,シミュレーションにおけるランドマーク状態フィードバック制御結果よりも優れることを示す。

High fidelity state preparation represents a fundamental challenge in the application of quantum technology. While the majority of optimal control approaches use feedback to improve the controller, the controller itself often does not incorporate explicit state dependence. Here, we present a general framework for training deep feedback networks for open quantum systems with quantum nondemolition measurement that allows a variety of system and control structures that are prohibitive by many other techniques and can in effect react to unmodeled effects through nonlinear filtering. We demonstrate that this method is efficient due to inherent parallelizability, robust to open system interactions, and outperforms landmark state feedback control results in simulation.
翻訳日:2023-03-07 12:28:13 公開日:2021-11-18
# グラフ同型問題に対する変分的観点について

On The Variational Perspectives To The Graph Isomorphism Problem ( http://arxiv.org/abs/2111.09821v1 )

ライセンス: Link先を確認
Turbasu Chatterjee, Shah Ishmam Mohtashim and Akash Kundu(参考訳) 本稿では,量子近似最適化アルゴリズム (qaoa) と変分量子固有解法 (vqe) を用いて,二次二元最適化 (qubo) によるグラフ同型問題の定式化とその後の実行について,変分アルゴリズムの観点から検討する。 本研究では,これらのアルゴリズムの結果と,4ノードと5ノードのグラフに対して発生する変動について述べる。 この論文の主な発見は、同じ数のノードとエッジを持つ同型グラフにおけるqaoaのエネルギー環境におけるクラスタリングである。 この傾向は、VQEを用いた基底状態エネルギー削減の研究によってさらに強化された。 さらに,グラフの同型対が基底状態のエネルギーで変化し,エッジやノードが変化する傾向について考察する。

This paper studies the Graph Isomorphism Problem from a variational algorithmic perspective, specifically studying the Quadratic Unconstrained Binary Optimization (QUBO) formulation of the Graph Isomorphism Problem and subsequent execution using the Quantum Approximate Optimization Algorithm (QAOA) and the Variational Quantum Eigensolver (VQE). This study presents the results of these algorithms and the variations that occur therein for graphs of four and five nodes. The main findings of this paper include the clustering in the energy landscape for the QAOA in isomorphic graphs having an equal number of nodes and edges. This trend found in the QAOA study was further reinforced by studying the ground state energy reduction using VQEs. Furthermore, this paper examines the trend under which isomorphic pairs of graphs vary in the ground state energies, with varying edges and nodes.
翻訳日:2023-03-07 12:26:59 公開日:2021-11-18
# 超低温錯体が単一チャネルに崩壊する異常な寿命:そこで何がそんなに長いのか?

Anomalous Lifetimes of Ultracold Complexes Decaying into a Single Channel: What's Taking So Long in There? ( http://arxiv.org/abs/2111.09956v1 )

ライセンス: Link先を確認
James F. E. Croft and John L. Bohn and Goulven Qu\'em\'ener(参考訳) 超低温分子衝突で生成する錯体の寿命を調べる。 遷移状態理論と光学モデルアプローチの両方を用いて、米-ラムスペルガー-カッセル-マルカス理論によって予測される以上の錯体の寿命を延長できる過程を調べる。 我々は1つの開水路のみを有する錯体に注目し、この場合の幅の極端分布が低減衰率を好むことを見出した。 したがって、複合体から単一のエネルギー可能なチャネルへの崩壊は、異常に遅く、しかも時間的に非指数的である。 この理論をRbCsとNaRbという2つの実験的興味を持つ系に適用し、経験的時間スケールが理論において考慮できると定性的に見出す。

We investigate the lifetimes of complexes formed in ultracold molecule collisions. Employing both transition-state-theory and an optical model approach we examine processes that can extend the lifetime of complexes beyond that predicted by Rice-Ramsperger-Kassel-Marcus theory. We focus on complexes that possess only one open channel, and find that the extreme distribution of widths for this case favors low decay rates. Thus decay from a complex into a single energetically available channel can be anomalously slow, and moreover nonexponential in time. We apply the theory to two systems of current experimental interest, RbCs and NaRb, finding qualitatively that the empirical time scales can be accounted for in the theory.
翻訳日:2023-03-07 12:17:45 公開日:2021-11-18
# 量子チャネル識別性における適応戦略の利点評価

Evaluating the Advantage of Adaptive Strategies for Quantum Channel Distinguishability ( http://arxiv.org/abs/2001.05376v2 )

ライセンス: Link先を確認
Vishal Katariya, Mark M. Wilde(参考訳) 近年,[wang et al., phys. rev. research 1, 033169 (2019)]により,量子戦略の非対称識別性に関する資源理論が導入された。 資源理論の基本的な対象は、任意の量子相互作用を記述する枠組みを提供する量子チャネルの一般化である量子戦略の対である。 本稿では,この資源理論における一発運用量の半確定的プログラム特性について述べる。 次に, 一般化振幅減衰チャネルの識別・識別性蒸留における適応戦略の利点を研究するために, これらの半定値プログラムを適用した。 適応的戦略と非適応的戦略との間には,大きなギャップがあることが分かっています。

Recently, the resource theory of asymmetric distinguishability for quantum strategies was introduced by [Wang et al., Phys. Rev. Research 1, 033169 (2019)]. The fundamental objects in the resource theory are pairs of quantum strategies, which are generalizations of quantum channels that provide a framework to describe an arbitrary quantum interaction. In the present paper, we provide semi-definite program characterizations of the one-shot operational quantities in this resource theory. We then apply these semi-definite programs to study the advantage conferred by adaptive strategies in discrimination and distinguishability distillation of generalized amplitude damping channels. We find that there are significant gaps between what can be accomplished with an adaptive strategy versus a non-adaptive strategy.
翻訳日:2023-01-11 06:50:06 公開日:2021-11-18
# 階層確率ブロックモデルにおけるスペクトルクラスタリングの整合性

Consistency of Spectral Clustering on Hierarchical Stochastic Block Models ( http://arxiv.org/abs/2004.14531v2 )

ライセンス: Link先を確認
Lihua Lei, Xiaodong Li, and Xingmei Lou(参考訳) 実世界のネットワークにおけるコミュニティの階層構造を,接続確率を二分木で構成する一般確率ブロックモデルを用いて検討する。 このようなモデルの下で、標準的な再帰的二分割アルゴリズムは、ネットワークを非正規化グラフラプラシアンのフィドラーベクトルに基づいて2つのコミュニティに分割し、停止規則がこれ以上のコミュニティ構造を示さないまで分割を繰り返している。 我々は、この手法の強い一貫性を幅広いモデルパラメータで証明し、これには$o(\log n)$ 以下のノード次数を持つスパースネットワークが含まれる。 加えて、既存のほとんどの作業と異なり、我々の理論は、接続確率が桁違いに異なるかもしれないマルチスケールネットワークをカバーしており、実際に関連するが技術的に難しい重要なモデルのクラスを構成している。 最後に,合成データと実世界の実例におけるアルゴリズムの性能を示す。

We study the hierarchy of communities in real-world networks under a generic stochastic block model, in which the connection probabilities are structured in a binary tree. Under such model, a standard recursive bi-partitioning algorithm is dividing the network into two communities based on the Fiedler vector of the unnormalized graph Laplacian and repeating the split until a stopping rule indicates no further community structures. We prove the strong consistency of this method under a wide range of model parameters, which include sparse networks with node degrees as small as $O(\log n)$. In addition, unlike most of existing work, our theory covers multiscale networks where the connection probabilities may differ by orders of magnitude, which comprise an important class of models that are practically relevant but technically challenging to deal with. Finally we demonstrate the performance of our algorithm on synthetic data and real-world examples.
翻訳日:2022-12-08 05:37:02 公開日:2021-11-18
# 緊急管理のためのインシデント予測・資源割当・派遣モデルの検討

A Review of Incident Prediction, Resource Allocation, and Dispatch Models for Emergency Management ( http://arxiv.org/abs/2006.04200v7 )

ライセンス: Link先を確認
Ayan Mukhopadhyay and Geoffrey Pettet and Sayyed Vazirizade and Di Lu and Said El Said and Alex Jaimes and Hiba Baroud and Yevgeniy Vorobeychik and Mykel Kochenderfer and Abhishek Dubey(参考訳) 過去50年間で、研究者は緊急対応管理システム(ERM)の設計と改善のための統計的、データ駆動、分析、アルゴリズム的なアプローチを開発してきた。 この問題は本質的に困難であり、不確実性の下での時空間決定を構成することが指摘されており、様々な仮定とアプローチで文献で論じられている。 この調査は4つのサブプロセスに関する重要な課題と課題に焦点を当て、これらのアプローチの詳細なレビューを提供する。 (a)インシデント予測。 (b)インシデント検出 (c)資源割り当て、及び (c)緊急対応のためのコンピュータ支援の派遣 我々は、このドメインにおける事前作業の強みと弱みを強調し、異なるモデリングパラダイム間の類似性と相違を探求する。 我々は、この複雑な領域における今後の研究のためのオープンな挑戦と機会を図示することで結論づける。

In the last fifty years, researchers have developed statistical, data-driven, analytical, and algorithmic approaches for designing and improving emergency response management (ERM) systems. The problem has been noted as inherently difficult and constitutes spatio-temporal decision making under uncertainty, which has been addressed in the literature with varying assumptions and approaches. This survey provides a detailed review of these approaches, focusing on the key challenges and issues regarding four sub-processes: (a) incident prediction, (b) incident detection, (c) resource allocation, and (c) computer-aided dispatch for emergency response. We highlight the strengths and weaknesses of prior work in this domain and explore the similarities and differences between different modeling paradigms. We conclude by illustrating open challenges and opportunities for future research in this complex domain.
翻訳日:2022-11-24 08:30:10 公開日:2021-11-18
# 解釈可能な専門家の混合による連続的行動強化学習

Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts ( http://arxiv.org/abs/2006.05911v3 )

ライセンス: Link先を確認
Riad Akrour, Davide Tateo, Jan Peters(参考訳) 強化学習(Reinforcement Learning, RL)は, 非線形関数近似を用いて高次元課題を解く能力を示した。 しかし、これらの成功は主に模擬領域における「黒箱」政策によって達成される。 RLを現実世界にデプロイする場合、"ブラックボックス"ポリシーの使用に関するいくつかの懸念が提起される可能性がある。 本稿では,学習方針をより透明にするために,その内的価値予測に近似する複雑な関数を保ちながら,解釈可能な専門家の混合に基づいて,簡潔で階層的で可読な構造を持つようにポリシーを制約する政策反復スキームを提案する。 各専門家は、原型状態までの距離に応じて原始的な行動を選択する。 このような専門家を解釈し続けるための重要な設計決定は、軌跡データから原型状態を選択することである。 論文の主な技術的貢献は、この非微分可能な原型的状態選択手順によって引き起こされる課題に対処することである。 実験により,提案アルゴリズムは,ニューラルネットワークに基づくポリシのパフォーマンスに適合しながら,ニューラルネットワークやリニア・イン・フェールポリシよりも人間の検査に適するポリシを返却する,連続的なアクション深度RLベンチマークに関する説得力のあるポリシを学習できることが示唆された。

Reinforcement learning (RL) has demonstrated its ability to solve high dimensional tasks by leveraging non-linear function approximators. However, these successes are mostly achieved by 'black-box' policies in simulated domains. When deploying RL to the real world, several concerns regarding the use of a 'black-box' policy might be raised. In order to make the learned policies more transparent, we propose in this paper a policy iteration scheme that retains a complex function approximator for its internal value predictions but constrains the policy to have a concise, hierarchical, and human-readable structure, based on a mixture of interpretable experts. Each expert selects a primitive action according to a distance to a prototypical state. A key design decision to keep such experts interpretable is to select the prototypical states from trajectory data. The main technical contribution of the paper is to address the challenges introduced by this non-differentiable prototypical state selection procedure. Experimentally, we show that our proposed algorithm can learn compelling policies on continuous action deep RL benchmarks, matching the performance of neural network based policies, but returning policies that are more amenable to human inspection than neural network or linear-in-feature policies.
翻訳日:2022-11-23 04:38:34 公開日:2021-11-18
# 非混合ベイズ計算のためのスタック化:マルチモーダル後部の曲線と祝福

Stacking for Non-mixing Bayesian Computations: The Curse and Blessing of Multimodal Posteriors ( http://arxiv.org/abs/2006.12335v3 )

ライセンス: Link先を確認
Yuling Yao, Aki Vehtari, Andrew Gelman(参考訳) マルチモーダルベイズ分布を扱う場合、マルコフ連鎖モンテカルロ (MCMC) アルゴリズムはモード間の移動が困難であり、デフォルトの変分あるいはモードベースの近似推論は後続の不確実性を示す。 そして、最も重要なモードが見つかるとしても、後部の相対的な重みを評価することは困難である。 本稿では,mcmc,変分法,モードベース推論の並列実行を用いて,可能な限り多くのモードや分離領域をヒットし,重み付け平均値を構築するスケーラブルな手法であるベイジアン・スタッキングを用いてこれを組み合わせる手法を提案する。 多モード後部分布から効率的にサンプリングし、交差検証予測誤差を最小化し、変分推論よりも後部不確実性を表現した結果は、必ずしも漸近的に完全にベイズ推定に等価ではない。 本稿では, モデル不特定モデルと非混合標本から真のデータ生成過程を近似し, 予測性能がベイズ推定より優れていることを例示し, モデル不特定の下での呪いよりもマルチモーダル性を祝福することができることを示す。 いくつかのモデルファミリにおいて,潜在ディリクレ割り当て,ガウス過程回帰,階層回帰,ホースシュー変数選択,ニューラルネットワークの実践的実装を示す。

When working with multimodal Bayesian posterior distributions, Markov chain Monte Carlo (MCMC) algorithms have difficulty moving between modes, and default variational or mode-based approximate inferences will understate posterior uncertainty. And, even if the most important modes can be found, it is difficult to evaluate their relative weights in the posterior. Here we propose an approach using parallel runs of MCMC, variational, or mode-based inference to hit as many modes or separated regions as possible and then combine these using Bayesian stacking, a scalable method for constructing a weighted average of distributions. The result from stacking efficiently samples from multimodal posterior distribution, minimizes cross validation prediction error, and represents the posterior uncertainty better than variational inference, but it is not necessarily equivalent, even asymptotically, to fully Bayesian inference. We present theoretical consistency with an example where the stacked inference approximates the true data generating process from the misspecified model and a non-mixing sampler, from which the predictive performance is better than full Bayesian inference, hence the multimodality can be considered a blessing rather than a curse under model misspecification. We demonstrate practical implementation in several model families: latent Dirichlet allocation, Gaussian process regression, hierarchical regression, horseshoe variable selection, and neural networks.
翻訳日:2022-11-18 06:41:36 公開日:2021-11-18
# ニューラルネットワーク微分方程式解法における誤差推定と補正

Error Estimation and Correction from within Neural Network Differential Equation Solvers ( http://arxiv.org/abs/2007.04433v2 )

ライセンス: Link先を確認
Akshunna S. Dogra(参考訳) ニューラルネットワーク微分方程式(NN DE)の解法は、最適化をより容易にする計算の進歩、高次元問題に対処する能力、モデルの解釈容易性など、様々な要因が組み合わさって人気が高まっている。 しかし、ほとんど全ての nn de ソルバは基本的な制限に苦しめられている:それらは見積もりに関連するエラーに暗黙的にのみ依存する損失関数を使って訓練される。 したがって、ソリューション推定の検証とエラー分析は、真のソリューションの知識を必要とする。 実際、真の解が不明な場合、我々は単に「十分低い」損失が「十分小さい」エラーを意味することを願うだけに縮小される。 本稿では,ニューラルネットワーク微分方程式解法における誤差推定と補正を効率的に構築するための一般的な戦略について述べる。 提案手法では, 真の解の事前知識を必要とせず, 損失関数と解推定に伴う誤差との明確な関係を求める。 逆に、これらの明示的な関係は、直接エラーを見積もり、修正することができます。

Neural Network Differential Equation (NN DE) solvers have surged in popularity due to a combination of factors: computational advances making their optimization more tractable, their capacity to handle high dimensional problems, easy interpret-ability of their models, etc. However, almost all NN DE solvers suffer from a fundamental limitation: they are trained using loss functions that depend only implicitly on the error associated with the estimate. As such, validation and error analysis of solution estimates requires knowledge of the true solution. Indeed, if the true solution is unknown, we are often reduced to simply hoping that a "low enough" loss implies "small enough" errors, since explicit relationships between the two are not available/well defined. In this work, we describe a general strategy for efficiently constructing error estimates and corrections for Neural Network Differential Equation solvers. Our methods do not require advance knowledge of the true solutions and obtain explicit relationships between loss functions and the error associated with solution estimates. In turn, these explicit relationships directly allow us to estimate and correct for the errors.
翻訳日:2022-11-12 05:27:40 公開日:2021-11-18
# 強化学習のための効果的なサンプル収集戦略

A Provably Efficient Sample Collection Strategy for Reinforcement Learning ( http://arxiv.org/abs/2007.06437v2 )

ライセンス: Link先を確認
Jean Tarbouriech, Matteo Pirotta, Michal Valko, Alessandro Lazaric(参考訳) オンライン強化学習(rl)における課題の1つは、エージェントがその動作を最適化するために環境の探索とサンプルの活用をトレードオフする必要があることである。 後悔、サンプルの複雑さ、状態空間のカバレッジ、あるいはモデル推定を最適化するために、異なる探索と探索のトレードオフを打つ必要があります。 本稿では, 切り離されたアプローチの後に, 探索・探索問題に取り組むことを提案する。 1) 生成モデル(例えば、環境のシミュレータ)へのアクセスがあるかのように、どの状態で収集するサンプル数を(適応的に)規定する「目的固有の」アルゴリズム。 2) 所定のサンプルをできるだけ早く生成する「目的に依存しない」サンプルコレクション探索戦略。 確率的最短経路問題における最近の探索法に基づいて、まず、各状態-作用ペアに必要となるサンプル数$b(s,a)$を入力すると、$\tilde{O}(B D + D^{3/2} S^2A)$時間ステップで$B=\sum_{s,a} b(s,a)$所望のサンプルを収集できる。 次に、この汎用探索アルゴリズムと、様々な設定(例えば、モデル推定、スパース報酬発見、mdp通信における目標フリーなコストフリー探索)に取り組むためのサンプル要求を規定する「目的固有の」戦略を組み合わせることにより、改善または新規なサンプル複雑性保証を得る方法を示す。

One of the challenges in online reinforcement learning (RL) is that the agent needs to trade off the exploration of the environment and the exploitation of the samples to optimize its behavior. Whether we optimize for regret, sample complexity, state-space coverage or model estimation, we need to strike a different exploration-exploitation trade-off. In this paper, we propose to tackle the exploration-exploitation problem following a decoupled approach composed of: 1) An "objective-specific" algorithm that (adaptively) prescribes how many samples to collect at which states, as if it has access to a generative model (i.e., a simulator of the environment); 2) An "objective-agnostic" sample collection exploration strategy responsible for generating the prescribed samples as fast as possible. Building on recent methods for exploration in the stochastic shortest path problem, we first provide an algorithm that, given as input the number of samples $b(s,a)$ needed in each state-action pair, requires $\tilde{O}(B D + D^{3/2} S^2 A)$ time steps to collect the $B=\sum_{s,a} b(s,a)$ desired samples, in any unknown communicating MDP with $S$ states, $A$ actions and diameter $D$. Then we show how this general-purpose exploration algorithm can be paired with "objective-specific" strategies that prescribe the sample requirements to tackle a variety of settings -- e.g., model estimation, sparse reward discovery, goal-free cost-free exploration in communicating MDPs -- for which we obtain improved or novel sample complexity guarantees.
翻訳日:2022-11-10 22:55:23 公開日:2021-11-18
# フェアネス・正確なパレートフロント

The Fairness-Accuracy Pareto Front ( http://arxiv.org/abs/2008.10797v2 )

ライセンス: Link先を確認
Susan Wei, Marc Niethammer(参考訳) アルゴリズムフェアネスは、機械学習アルゴリズムのバイアス源を特定し、修正しようとする。 結論として、公平さの確保は、しばしば正確さの犠牲になる。 アルゴリズムフェアネスにおけるこの基本的な緊張を和らげるための形式的なツールを提供する。 具体的には、多目的最適化からParetoの最適性の概念を使い、ニューラルネットワーク分類器の正当性-正確性を求める。 既存のアルゴリズムフェアネス法の多くが,パレート最適解の回復に厳しい制約を持つ線形スカラー化方式を実践していることを示す。 その代わり、理論上はより優れており、パレート最適解を回復するのに計算上負担を要しないチェビシェフスカラー化スキームを線形スキームと比較して適用する。

Algorithmic fairness seeks to identify and correct sources of bias in machine learning algorithms. Confoundingly, ensuring fairness often comes at the cost of accuracy. We provide formal tools in this work for reconciling this fundamental tension in algorithm fairness. Specifically, we put to use the concept of Pareto optimality from multi-objective optimization and seek the fairness-accuracy Pareto front of a neural network classifier. We demonstrate that many existing algorithmic fairness methods are performing the so-called linear scalarization scheme which has severe limitations in recovering Pareto optimal solutions. We instead apply the Chebyshev scalarization scheme which is provably superior theoretically and no more computationally burdensome at recovering Pareto optimal solutions compared to the linear scheme.
翻訳日:2022-10-25 03:08:50 公開日:2021-11-18
# 確率的マクロケミカルモデリングによる微生物のバイオマス収量と細胞量の推定

Inferring Microbial Biomass Yield and Cell Weight using Probabilistic Macrochemical Modeling ( http://arxiv.org/abs/2010.02759v4 )

ライセンス: Link先を確認
Antonio R. Paiva and Giovanni Pilloni(参考訳) 成長速度とバイオマス収量は、微生物が環境の変化にどのように反応するかを理解するために微生物学的研究で使われる重要な記述である。 これらのうち、バイオマス収量推定は、通常、細胞数と飼料基質の測定によって得られる。 しかし、これらの量は測定ノイズとともに摂動する。 おそらく最も重要なのは、収量を評価するために必要な細胞数からバイオマスを推定することは、仮定された細胞量に依存していることである。 これらの仮定のノイズと不一致は、微生物の反応に関する結論に大きな変化をもたらす可能性がある。 本稿では,微生物成長の確率的マクロケミカルモデルを用いて,これらの課題に対処する手法を提案する。 実験データを完全に利用し、仮定を緩和し、細胞重量の事前推定に対するロバスト性を大幅に改善するモデルを開発し、鍵パラメータの不確実性推定を提供する。 この手法は特定のケーススタディの文脈で実証され、合成微生物成長データを用いていくつかのシナリオで評価特性が検証される。

Growth rates and biomass yields are key descriptors used in microbiology studies to understand how microbial species respond to changes in the environment. Of these, biomass yield estimates are typically obtained using cell counts and measurements of the feed substrate. These quantities are perturbed with measurement noise however. Perhaps most crucially, estimating biomass from cell counts, as needed to assess yields, relies on an assumed cell weight. Noise and discrepancies on these assumptions can lead to significant changes in conclusions regarding the microbes' response. This article proposes a methodology to address these challenges using probabilistic macrochemical models of microbial growth. It is shown that a model can be developed to fully use the experimental data, relax assumptions and greatly improve robustness to a priori estimates of the cell weight, and provides uncertainty estimates of key parameters. This methodology is demonstrated in the context of a specific case study and the estimation characteristics are validated in several scenarios using synthetically generated microbial growth data.
翻訳日:2022-10-10 07:49:57 公開日:2021-11-18
# ビュー不変・オクルージョン・ロバスト確率埋め込み

View-Invariant, Occlusion-Robust Probabilistic Embedding for Human Pose ( http://arxiv.org/abs/2010.13321v3 )

ライセンス: Link先を確認
Ting Liu, Jennifer J. Sun, Long Zhao, Jiaping Zhao, Liangzhe Yuan, Yuxiao Wang, Liang-Chieh Chen, Florian Schroff, Hartwig Adam(参考訳) 人間のポーズや行動の認識は、自律システムが人とスムーズに対話するために不可欠である。 しかし、一般的にカメラは2Dの人間のポーズを画像やビデオとして捉えており、認識タスクを困難にするような視点間で大きな外観の変化をもたらす可能性がある。 これを解決するために,既存の研究でよく研究されていない2次元情報から3次元人体ポーズの類似性を認識することを検討する。 本稿では, 3次元ポーズを明示的に予測することなく, 2次元体関節キーポイントからコンパクトな視野不変埋め込み空間を学習する手法を提案する。 射影と咬合による2次元ポーズの入力あいまいさは決定論的マッピングでは表現が難しいため,埋め込み空間に対して確率的定式化を適用する。 実験の結果, 3次元ポーズ推定モデルと比較して, 異なるカメラビューで同様のポーズを求める場合, 埋め込みモデルの方が高い精度が得られることがわかった。 また,簡易な時空間埋め込みモデルの学習により,ポーズシーケンス検索において優れた性能を達成し,効率的な大規模検索のためにスタックフレームベース埋め込みの埋め込み次元を大幅に削減できることを示した。 さらに,埋め込みを部分的に視覚的な入力で動作させるために,学習中のキーポイント閉塞増強戦略についても検討する。 これらの咬合増強は,部分的な2次元入力ポーズの検索性能を大幅に向上させる。 アクション認識とビデオアライメントの結果は、追加のトレーニングなしで埋め込みを使用することで、各タスク用に特別にトレーニングされた他のモデルと比較して、競争力のあるパフォーマンスが得られることを示している。

Recognition of human poses and actions is crucial for autonomous systems to interact smoothly with people. However, cameras generally capture human poses in 2D as images and videos, which can have significant appearance variations across viewpoints that make the recognition tasks challenging. To address this, we explore recognizing similarity in 3D human body poses from 2D information, which has not been well-studied in existing works. Here, we propose an approach to learning a compact view-invariant embedding space from 2D body joint keypoints, without explicitly predicting 3D poses. Input ambiguities of 2D poses from projection and occlusion are difficult to represent through a deterministic mapping, and therefore we adopt a probabilistic formulation for our embedding space. Experimental results show that our embedding model achieves higher accuracy when retrieving similar poses across different camera views, in comparison with 3D pose estimation models. We also show that by training a simple temporal embedding model, we achieve superior performance on pose sequence retrieval and largely reduce the embedding dimension from stacking frame-based embeddings for efficient large-scale retrieval. Furthermore, in order to enable our embeddings to work with partially visible input, we further investigate different keypoint occlusion augmentation strategies during training. We demonstrate that these occlusion augmentations significantly improve retrieval performance on partial 2D input poses. Results on action recognition and video alignment demonstrate that using our embeddings without any additional training achieves competitive performance relative to other models specifically trained for each task.
翻訳日:2022-10-03 23:27:54 公開日:2021-11-18
# 側情報からのゼロショット関係分類

Zero-shot Relation Classification from Side Information ( http://arxiv.org/abs/2011.07126v2 )

ライセンス: Link先を確認
Jiaying Gong and Hoda Eldardiry(参考訳) 本稿では,訓練データに存在しない新しい関係を認識できることにより,最先端の知識を改良したゼロショット学習関係分類(zslrc)フレームワークを提案する。 ゼロショット学習アプローチは、人間が事前知識のない新しい概念を学習し、認識する方法を模倣する。 これを実現するためにZSLRCは、重み付けされた側(補助的)情報を利用するように修正された高度なプロトタイプネットワークを使用する。 ZSLRCのサイド情報はキーワード、名前エンティティのハイパーネーム、ラベルとそのシノニムから構築されている。 ZSLRCはまた、Webから直接様々な名前エンティティのハイパーネムを取得する自動ハイパーネム抽出フレームワークも備えている。 ZSLRCは、ラベル付きトレーニングデータに依存する最先端の数発学習関係分類法を改善しており、ある関係にラベル付きトレーニングの例がない実世界のシナリオにおいてもより広く適用可能である。 我々は,2つの公開データセット(NYTとFewRel)の広範な実験結果を用いて,ZSLRCが教師付き学習,少数ショット学習,ゼロショット学習タスクにおいて,最先端の手法を著しく上回っていることを示す。 また,提案モデルの有効性とロバスト性についても実験的に検証した。

We propose a zero-shot learning relation classification (ZSLRC) framework that improves on state-of-the-art by its ability to recognize novel relations that were not present in training data. The zero-shot learning approach mimics the way humans learn and recognize new concepts with no prior knowledge. To achieve this, ZSLRC uses advanced prototypical networks that are modified to utilize weighted side (auxiliary) information. ZSLRC's side information is built from keywords, hypernyms of name entities, and labels and their synonyms. ZSLRC also includes an automatic hypernym extraction framework that acquires hypernyms of various name entities directly from the web. ZSLRC improves on state-of-the-art few-shot learning relation classification methods that rely on labeled training data and is therefore applicable more widely even in real-world scenarios where some relations have no corresponding labeled examples for training. We present results using extensive experiments on two public datasets (NYT and FewRel) and show that ZSLRC significantly outperforms state-of-the-art methods on supervised learning, few-shot learning, and zero-shot learning tasks. Our experimental results also demonstrate the effectiveness and robustness of our proposed model.
翻訳日:2022-09-25 23:25:58 公開日:2021-11-18
# 最適輸送損失とユニモーダル出力確率を用いた深部順序回帰

Deep Ordinal Regression using Optimal Transport Loss and Unimodal Output Probabilities ( http://arxiv.org/abs/2011.07607v2 )

ライセンス: Link先を確認
Uri Shaham, Igal Zaidman, Jonathan Svirsky(参考訳) 順序回帰モデルがユニモーダル予測をもたらすことがしばしば望まれる。 しかし、近年の多くの作品では、この特徴は欠落しているか、あるいは、推論においてユニモーダル出力を保証しないソフトターゲットを使用して実装されている。 さらに, 標準極大目標が順序回帰問題に適さないこと, クラス順序を自然に捉えているため, 最適輸送がこの課題に適していることを論じる。 本研究では, 単調な出力分布と最適輸送損失に基づく, 奥行き回帰のためのフレームワークを提案する。 本稿では,よく知られたProportional Oddsモデルにインスパイアされ,モデル出力分布が一様であることを保証するアーキテクチャ機構を用いて設計を変更することを提案する。 我々は,提案手法の異なるコンポーネントを分析し,そのモデルの性能への寄与を実証する。 実世界の8つのデータセットに対する実験結果から,提案手法は,出力一様性を保証する一方,一様性を持つ深度順序回帰に対するいくつかの深度学習手法と同等で,多くの場合は同等であることがわかった。 さらに,提案手法は現在のベースラインよりも信頼性が低いことを示す。

It is often desired that ordinal regression models yield unimodal predictions. However, in many recent works this characteristic is either absent, or implemented using soft targets, which do not guarantee unimodal outputs at inference. In addition, we argue that the standard maximum likelihood objective is not suitable for ordinal regression problems, and that optimal transport is better suited for this task, as it naturally captures the order of the classes. In this work, we propose a framework for deep ordinal regression, based on unimodal output distribution and optimal transport loss. Inspired by the well-known Proportional Odds model, we propose to modify its design by using an architectural mechanism which guarantees that the model output distribution will be unimodal. We empirically analyze the different components of our proposed approach and demonstrate their contribution to the performance of the model. Experimental results on eight real-world datasets demonstrate that our proposed approach consistently performs on par with and often better than several recently proposed deep learning approaches for deep ordinal regression with unimodal output probabilities, while having guarantee on the output unimodality. In addition, we demonstrate that proposed approach is less overconfident than current baselines.
翻訳日:2022-09-25 06:54:26 公開日:2021-11-18
# 移動学習のための効率的な条件付き事前学習

Efficient Conditional Pre-training for Transfer Learning ( http://arxiv.org/abs/2011.10231v5 )

ライセンス: Link先を確認
Shuvam Chakraborty, Burak Uzkent, Kumar Ayush, Kumar Tanmay, Evan Sheehan, Stefano Ermon(参考訳) コンピュータビジョンタスクのための最先端ニューラルネットワークのほとんど全ては、(1)大規模データセットの事前トレーニングと(2)ターゲットデータセットの微調整によって訓練されている。 この戦略は、ターゲットデータセットへの依存を減らし、目標タスクの収束率と一般化を改善する。 大規模データセットでの事前トレーニングは非常に有用であるが、最大の欠点は高いトレーニングコストである。 そこで本研究では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。 さらに,事前学習段階における画像解像度の低下は,コストと性能に大きなトレードオフをもたらすことがわかった。 我々は、教師なし設定と教師なし設定の両方でImageNetを事前トレーニングし、さまざまなターゲットデータセットとタスクのコレクションを微調整することで、我々の技術を検証する。 提案手法は,事前学習コストを大幅に削減し,高い性能向上を実現する。 最後に、我々のサブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。

Almost all the state-of-the-art neural networks for computer vision tasks are trained by (1) pre-training on a large-scale dataset and (2) finetuning on the target dataset. This strategy helps reduce dependence on the target dataset and improves convergence rate and generalization on the target task. Although pre-training on large-scale datasets is very useful, its foremost disadvantage is high training cost. To address this, we propose efficient filtering methods to select relevant subsets from the pre-training dataset. Additionally, we discover that lowering image resolutions in the pre-training step offers a great trade-off between cost and performance. We validate our techniques by pre-training on ImageNet in both the unsupervised and supervised settings and finetuning on a diverse collection of target datasets and tasks. Our proposed methods drastically reduce pre-training cost and provide strong performance boosts. Finally, we improve standard ImageNet pre-training by 1-3% by tuning available models on our subsets and pre-training on a dataset filtered from a larger scale dataset.
翻訳日:2022-09-23 05:57:45 公開日:2021-11-18
# (参考訳) Microsoft HoloLens用拡張現実環境におけるセマンティックインタラクション

Semantic Interaction in Augmented Reality Environments for Microsoft HoloLens ( http://arxiv.org/abs/2112.05846v1 )

ライセンス: CC BY 4.0
Peer Sch\"uett, Max Schwarz, Sven Behnke(参考訳) Augmented Realityは、人間と機械のインタラクションのための有望なテクニックだ。 特にロボット工学では、常に環境のシステムを考える場合、可視化を表示し、その環境で直接ユーザー入力を受け取ることは極めて有益である。 このアイデアをMicrosoft HoloLensを使って検討し、屋内環境をキャプチャし、既知のオブジェクトクラスとのインタラクションキューを表示する。 HoloLensが記録する3Dメッシュは、ユーザが動きながら、プロジェクティブアプローチを使用してセマンティッククラスをオンラインでアノテートするので、最先端の2Dセマンティックセマンティックセマンティックセマンティクス手法が利用できます。 結果はメッシュに融合され、顕著なオブジェクトセグメントが識別され、ユーザに3Dで表示される。 最後に、ユーザはオブジェクトをジェスチャーすることでアクションをトリガーできる。 室内データセットを用いて定性的な結果を示し,その精度と性能を詳細に分析した。

Augmented Reality is a promising technique for human-machine interaction. Especially in robotics, which always considers systems in their environment, it is highly beneficial to display visualizations and receive user input directly in exactly that environment. We explore this idea using the Microsoft HoloLens, with which we capture indoor environments and display interaction cues with known object classes. The 3D mesh recorded by the HoloLens is annotated on-line, as the user moves, with semantic classes using a projective approach, which allows us to use a state-of-the-art 2D semantic segmentation method. The results are fused onto the mesh; prominent object segments are identified and displayed in 3D to the user. Finally, the user can trigger actions by gesturing at the object. We both present qualitative results and analyze the accuracy and performance of our method in detail on an indoor dataset.
翻訳日:2021-12-19 16:11:46 公開日:2021-11-18
# 制御可能な質問生成器を用いたロバストFAQチャットボットの作り方

How to Build Robust FAQ Chatbot with Controllable Question Generator? ( http://arxiv.org/abs/2112.03007v1 )

ライセンス: Link先を確認
Yan Pan and Mingyang Ma and Bernhard Pflugfelder and Georg Groh(参考訳) 不可解な敵の質問の多くは、質問答えシステム(QA)を騙している。 堅牢で頻繁に聞かれる質問(faq)の構築 チャットボットには、多くの多様な敵の例が必要です。 近年の質問生成手法は,非構造化テキストから高品質で多様な質問応答対を生成するのに有効ではない。 そこで,本研究では,セマンティクスグラフを用いた標準的および敵対的サンプルを生成するための,高品質で多様で制御可能な手法である,セマンティクス的に有効な攻撃者(dcsa)を提案する。 流動的で意味的に生成されたQAペアは、我々の通過検索モデルをうまく騙す。 その後、異なる領域間で生成されたQAペアによるQAモデルの堅牢性と一般化に関する研究を行う。 生成したデータセットは、新しいターゲット領域へのQAモデルの一般化性と、QAモデルの堅牢性を改善して、解決不可能な逆問題を検出する。

Many unanswerable adversarial questions fool the question-answer (QA) system with some plausible answers. Building a robust, frequently asked questions (FAQ) chatbot needs a large amount of diverse adversarial examples. Recent question generation methods are ineffective at generating many high-quality and diverse adversarial question-answer pairs from unstructured text. We propose the diversity controllable semantically valid adversarial attacker (DCSA), a high-quality, diverse, controllable method to generate standard and adversarial samples with a semantic graph. The fluent and semantically generated QA pairs fool our passage retrieval model successfully. After that, we conduct a study on the robustness and generalization of the QA model with generated QA pairs among different domains. We find that the generated data set improves the generalizability of the QA model to the new target domain and the robustness of the QA model to detect unanswerable adversarial questions.
翻訳日:2021-12-12 15:45:41 公開日:2021-11-18
# ニュースはどのように進化するか? グラフとホークスプロセスを用いたニューステキストとカバレッジのモデリング

How News Evolves? Modeling News Text and Coverage using Graphs and Hawkes Process ( http://arxiv.org/abs/2112.03008v1 )

ライセンス: Link先を確認
Honggen Zhang and June Zhang(参考訳) ニュースコンテンツの自動監視は重要な問題だ。 ニュースコンテンツは、従来のテキストと異なり、時間的要素を持っている。 しかし、自然言語処理と動的システムモデルの組み合わせを探求した作品はほとんどない。 一つの理由は、自然言語のニュアンスを数学的にモデル化することが難しいためである。 本稿では,時間とともに収集されたニュース記事の新たなデータセットの構築方法について論じる。 次に、時間とともに収集されたニューステキストを、意味的三重項を表す有向多グラフの列に変換する方法を提案する(Subject ! Predicate ! Object)。 我々は離散時間ホークス過程を用いて、これらのグラフから特定の位相変化のダイナミクスをモデル化する。 実世界のデータを用いて、グラフの構造と離散時間ホークスプロセスモデルを分析することで、ニュースイベントがどのようにカバーされ、将来どのようにカバーされるかを予測できるかについての洞察が得られることを示した。

Monitoring news content automatically is an important problem. The news content, unlike traditional text, has a temporal component. However, few works have explored the combination of natural language processing and dynamic system models. One reason is that it is challenging to mathematically model the nuances of natural language. In this paper, we discuss how we built a novel dataset of news articles collected over time. Then, we present a method of converting news text collected over time to a sequence of directed multi-graphs, which represent semantic triples (Subject ! Predicate ! Object). We model the dynamics of specific topological changes from these graphs using discrete-time Hawkes processes. With our real-world data, we show that analyzing the structures of the graphs and the discrete-time Hawkes process model can yield insights on how the news events were covered and how to predict how it may be covered in the future.
翻訳日:2021-12-12 15:45:25 公開日:2021-11-18
# (参考訳) ブランチ・アンド・カットにおける学習境界の改善

Improved Learning Bounds for Branch-and-Cut ( http://arxiv.org/abs/2111.11207v1 )

ライセンス: CC BY 4.0
Maria-Florina Balcan, Siddharth Prasad, Tuomas Sandholm, Ellen Vitercik(参考訳) ブランチ・アンド・カット(英: Branch-and-cut)は、CPLEX や Gurobi といった商用の解法を用いて、整数プログラムを解くアルゴリズムである。 ブランチ・アンド・カットは様々な変更可能なパラメータを持ち、それが構築する検索ツリーのサイズに大きな影響を与えるが、手動でチューニングすることは難しい。 マシンラーニングを使用してこれらのパラメータをチューニングするアプローチがますます普及している。アプリケーションドメインから手元にある整数プログラムのトレーニングセットを使用することで、将来予想されるパフォーマンスが、同じドメインから見当たらない整数プログラムの強い設定を見つけることが目標だ。 トレーニングセットが小さすぎる場合、構成はトレーニングセットよりも優れたパフォーマンスを持つが、将来の整数プログラムではパフォーマンスが劣る。 本稿では,任意の構成において,トレーニングセットに対する平均性能が将来期待される性能にほぼ近いことを保証するために,トレーニングセットがどの程度の大きさであるべきかを境界として,この手順のサンプル複雑性を保証する。 我々の保証は、ノードの選択、分岐制約の選択、平面の選択といった、分岐とカットの最も重要な側面を制御するパラメータに適用され、以前の研究よりも鋭く、より一般的なものである。

Branch-and-cut is the most widely used algorithm for solving integer programs, employed by commercial solvers like CPLEX and Gurobi. Branch-and-cut has a wide variety of tunable parameters that have a huge impact on the size of the search tree that it builds, but are challenging to tune by hand. An increasingly popular approach is to use machine learning to tune these parameters: using a training set of integer programs from the application domain at hand, the goal is to find a configuration with strong predicted performance on future, unseen integer programs from the same domain. If the training set is too small, a configuration may have good performance over the training set but poor performance on future integer programs. In this paper, we prove sample complexity guarantees for this procedure, which bound how large the training set should be to ensure that for any configuration, its average performance over the training set is close to its expected future performance. Our guarantees apply to parameters that control the most important aspects of branch-and-cut: node selection, branching constraint selection, and cutting plane selection, and are sharper and more general than those found in prior research.
翻訳日:2021-11-26 11:53:54 公開日:2021-11-18
# (参考訳) 意思決定を改善するためのメタ勾配降下による有用な予測を見つける

Finding Useful Predictions by Meta-gradient Descent to Improve Decision-making ( http://arxiv.org/abs/2111.11212v1 )

ライセンス: CC BY 4.0
Alex Kearney, Anna Koop, Johannes G\"unther, Patrick M. Pilarski(参考訳) 計算強化学習において、成長する研究機関は、未来の感覚に関する予測を通じて、エージェントの世界のモデルを表現する。 この原稿では、一般的な値関数として表現される予測に焦点を当てている: 将来の信号の蓄積の時間的拡張推定。 1つの課題は、エージェントが決定を支援するかもしれない予測を無限に多くの予測から決定することである。 本研究では,設計者の指示によらず,エージェントが学習した予測を直接指定できるメタ勾配降下法を提案する。 そのために,本研究に適した部分観測可能な領域を導入する。 エージェントが環境とのインタラクションを通じて、部分観測可能性を解決する予測を独立に選択し、結果として、専門家が選択した値関数と同じようなパフォーマンスが得られることを実証する。 これらの予測を手動で指定するのではなく、エージェントが自己管理的な方法で有用な予測を特定できるようにし、真に自律的なシステムに向けた一歩を踏み出す。

In computational reinforcement learning, a growing body of work seeks to express an agent's model of the world through predictions about future sensations. In this manuscript we focus on predictions expressed as General Value Functions: temporally extended estimates of the accumulation of a future signal. One challenge is determining from the infinitely many predictions that the agent could possibly make which might support decision-making. In this work, we contribute a meta-gradient descent method by which an agent can directly specify what predictions it learns, independent of designer instruction. To that end, we introduce a partially observable domain suited to this investigation. We then demonstrate that through interaction with the environment an agent can independently select predictions that resolve the partial-observability, resulting in performance similar to expertly chosen value functions. By learning, rather than manually specifying these predictions, we enable the agent to identify useful predictions in a self-supervised manner, taking a step towards truly autonomous systems.
翻訳日:2021-11-26 11:32:49 公開日:2021-11-18
# 全能率可変レートニューラルイメージ圧縮

Universal Efficient Variable-rate Neural Image Compression ( http://arxiv.org/abs/2111.11305v1 )

ライセンス: Link先を確認
Shanzhi Yin, Chao Li, Youneng Bao, Yongshang Liang(参考訳) 近年、学習ベースの画像圧縮は従来の画像コーデック(JPEG、BPG、WebPなど)と同等のパフォーマンスに達している。 しかし、計算複雑性とレートの柔軟性は、実用的展開において依然として2つの大きな課題である。 本稿では,既存の画像圧縮モデルに直接組み込むことができるEnergy-based Channel Gating(ECG)とBit-rate Modulator(BM)という2つのユニバーサルモジュールを提案する。 ECGは動的プルーニングを用いて、畳み込み層のFLOPを50%以上削減し、BMペアは遅延表現を変調し、チャネル的にビットレートを制御する。 これら2つのモジュールを実装することで、既存の学習ベースのイメージコーデックは、1つのモデルで任意のビットレートを出力でき、計算量を削減できる。

Recently, Learning-based image compression has reached comparable performance with traditional image codecs(such as JPEG, BPG, WebP). However, computational complexity and rate flexibility are still two major challenges for its practical deployment. To tackle these problems, this paper proposes two universal modules named Energy-based Channel Gating(ECG) and Bit-rate Modulator(BM), which can be directly embedded into existing end-to-end image compression models. ECG uses dynamic pruning to reduce FLOPs for more than 50\% in convolution layers, and a BM pair can modulate the latent representation to control the bit-rate in a channel-wise manner. By implementing these two modules, existing learning-based image codecs can obtain ability to output arbitrary bit-rate with a single model and reduced computation.
翻訳日:2021-11-23 17:15:53 公開日:2021-11-18
# 自己指導型インクリメンタルラーニング

Self-Supervised Class Incremental Learning ( http://arxiv.org/abs/2111.11208v1 )

ライセンス: Link先を確認
Zixuan Ni, Siliang Tang, Yueting Zhuang(参考訳) 既存のクラスインクリメンタル学習(cil)メソッドは、データラベルに敏感な教師付き分類フレームワークに基づいている。 新しいクラスデータに基づいてそれらを更新すると、それらは壊滅的な忘れに苦しむ: モデルは古いクラスデータを新しいものと明確に区別することはできない。 本稿では,データラベルとモデルの分類器を捨てるクラスインクリメンタル学習(sscil)において,自己教師付き表現学習(self-supervised representation learning)を初めて実施する。 cilにおける教師付きメソッドと自己教師付きメソッドのパフォーマンスの違いを包括的に議論するために、様々なクラスインクリメンタル学習シナリオをシミュレートするために、ランダムクラススキーム、セマンティッククラススキーム、クラスタスキームという3つの異なるクラスインクリメンタルスキームを設定した。 さらに,線形評価プロトコル (LEP) と一般化評価プロトコル (GEP) を提案し,CILにおけるモデルの表現分類能力と一般化を計測する。 我々の実験(ImageNet-100とImageNet)では、SSCILはCILの監視戦略よりも優れたアンチフォゲッティング能力と堅牢性を示している。 SSCILにおける破滅的な忘れを和らげる要因を理解するため、SSCILの主要なコンポーネントについて検討し、(1)異なるデータ拡張の合成によってモデルの表現の質が向上し、(2)textit{Grayscale}操作によりSSCILにおけるデータ拡張のシステムノイズが減少する、という結論に達した。 2) プロジェクタはバッファのように、SSCILにおけるモデルの不要なパラメータ更新を減らし、モデルの堅牢性を高める。 SSCIL の性能は CIL の教師あり手法よりも著しく高いが, 共同学習にはまだ明らかなギャップがある。 本稿では,大規模データセットを用いた自己教師型クラスインクリメンタル学習のベースラインを提供し,CILにおける破滅的な忘れを緩和するための前向き戦略に寄与する。

Existing Class Incremental Learning (CIL) methods are based on a supervised classification framework sensitive to data labels. When updating them based on the new class data, they suffer from catastrophic forgetting: the model cannot discern old class data clearly from the new. In this paper, we explore the performance of Self-Supervised representation learning in Class Incremental Learning (SSCIL) for the first time, which discards data labels and the model's classifiers. To comprehensively discuss the difference in performance between supervised and self-supervised methods in CIL, we set up three different class incremental schemes: Random Class Scheme, Semantic Class Scheme, and Cluster Scheme, to simulate various class incremental learning scenarios. Besides, we propose Linear Evaluation Protocol (LEP) and Generalization Evaluation Protocol (GEP) to metric the model's representation classification ability and generalization in CIL. Our experiments (on ImageNet-100 and ImageNet) show that SSCIL has better anti-forgetting ability and robustness than supervised strategies in CIL. To understand what alleviates the catastrophic forgetting in SSCIL, we study the major components of SSCIL and conclude that (1) the composition of different data augmentation improves the quality of the model's representation and the \textit{Grayscale} operation reduces the system noise of data augmentation in SSCIL. (2) the projector, like a buffer, reduces unnecessary parameter updates of the model in SSCIL and increases the robustness of the model. Although the performance of SSCIL is significantly higher than supervised methods in CIL, there is still an apparent gap with joint learning. Our exploration gives a baseline of self-supervised class incremental learning on large-scale datasets and contributes some forward strategies for mitigating the catastrophic forgetting in CIL.
翻訳日:2021-11-23 14:08:02 公開日:2021-11-18
# gcr:グラデーションコアセットに基づく連続学習のためのリプレイバッファ選択

GCR: Gradient Coreset Based Replay Buffer Selection For Continual Learning ( http://arxiv.org/abs/2111.11210v1 )

ライセンス: Link先を確認
Rishabh Tiwari, Krishnateja Killamsetty, Rishabh Iyer, Pradeep Shenoy(参考訳) 連続学習(CL)は、単一のモデルが連続的に遭遇するタスクの数の増加に適応し、リソース効率のよい方法でタスク間の学習を活用する技術を開発することを目的としている。 CLシステムの大きな課題は、新しいタスクを学習しながら、以前のタスクを忘れてしまう破滅的な忘れ事である。 これに対処するために、リプレイベースのclアプローチは、遭遇したタスク間で選択されたデータの小さなバッファをメンテナンスし、繰り返し再トレーニングする。 本稿では,注意深く設計した最適化基準を用いて,バッファ選択と更新を行う新しい戦略であるgradient coreset replay (gcr)を提案する。 具体的には、現在のモデルパラメータに関してこれまで見てきたすべてのデータの勾配を密接に近似する「コアセット」を選択して維持し、その有効利用に必要な重要な戦略について論じる。 我々は,オフライン連続学習環境において,最先端を上回って(2%~4%の絶対値)有意な向上を示した。 また、オンライン/ストリーミングのCL設定にも効果的に移行し、既存のアプローチよりも最大5%向上しました。 最後に,継続学習における教師付きコントラスト損失の価値を実証し,集合選択戦略と組み合わせることで,最大5%精度の累積利得が得られることを示した。

Continual learning (CL) aims to develop techniques by which a single model adapts to an increasing number of tasks encountered sequentially, thereby potentially leveraging learnings across tasks in a resource-efficient manner. A major challenge for CL systems is catastrophic forgetting, where earlier tasks are forgotten while learning a new task. To address this, replay-based CL approaches maintain and repeatedly retrain on a small buffer of data selected across encountered tasks. We propose Gradient Coreset Replay (GCR), a novel strategy for replay buffer selection and update using a carefully designed optimization criterion. Specifically, we select and maintain a "coreset" that closely approximates the gradient of all the data seen so far with respect to current model parameters, and discuss key strategies needed for its effective application to the continual learning setting. We show significant gains (2%-4% absolute) over the state-of-the-art in the well-studied offline continual learning setting. Our findings also effectively transfer to online / streaming CL settings, showing upto 5% gains over existing approaches. Finally, we demonstrate the value of supervised contrastive loss for continual learning, which yields a cumulative gain of up to 5% accuracy when combined with our subset selection strategy.
翻訳日:2021-11-23 14:07:26 公開日:2021-11-18
# (参考訳) 線形アレイ超音波データからの3次元物体追跡のためのニューラルネットワークカルマンフィルタリング

Neural Network Kalman filtering for 3D object tracking from linear array ultrasound data ( http://arxiv.org/abs/2111.09631v1 )

ライセンス: CC BY 4.0
Arttu Arjas, Erwin J. Alles, Efthymios Maneas, Simon Arridge, Adrien Desjardins, Mikko J. Sillanp\"a\"a and Andreas Hauptmann(参考訳) 多くの介入手術は、機器の可視化と追跡のために医療画像に頼っている。 このようなイメージング手法は、リアルタイムに機能するだけでなく、正確で堅牢な位置情報も提供する。 超音波応用では、リニアアレイからの2次元データのみが利用可能であり、3次元での正確な位置推定を得ることは非自明である。 そこで本研究では,実際の合成学習データを用いてニューラルネットワークをまず訓練し,再構成した超音波画像における軸収差を伴う物体の面外オフセットを推定する。 得られた推定値は、従来の時間枠で得られた位置推定を利用して局所化ロバスト性を改善し、測定ノイズの影響を低減するカルマンフィルタ手法と組み合わせられる。 提案手法の精度をシミュレーションを用いて評価し,新しい光学超音波イメージング装置を用いて得られた実験データを用いて実用性を示す。 正確な位置情報がリアルタイムに提供される。 平面外物体の軸座標と横座標は、シミュレーションデータの平均誤差0.1mm、実験データの平均誤差0.2mmと推定される。 3次元の局所化は1mm以上の高架距離において最も正確であり、最大距離は25mmの開口部と考えられる5mmである。

Many interventional surgical procedures rely on medical imaging to visualise and track instruments. Such imaging methods not only need to be real-time capable, but also provide accurate and robust positional information. In ultrasound applications, typically only two-dimensional data from a linear array are available, and as such obtaining accurate positional estimation in three dimensions is non-trivial. In this work, we first train a neural network, using realistic synthetic training data, to estimate the out-of-plane offset of an object with the associated axial aberration in the reconstructed ultrasound image. The obtained estimate is then combined with a Kalman filtering approach that utilises positioning estimates obtained in previous time-frames to improve localisation robustness and reduce the impact of measurement noise. The accuracy of the proposed method is evaluated using simulations, and its practical applicability is demonstrated on experimental data obtained using a novel optical ultrasound imaging setup. Accurate and robust positional information is provided in real-time. Axial and lateral coordinates for out-of-plane objects are estimated with a mean error of 0.1mm for simulated data and a mean error of 0.2mm for experimental data. Three-dimensional localisation is most accurate for elevational distances larger than 1mm, with a maximum distance of 5mm considered for a 25mm aperture.
翻訳日:2021-11-23 05:49:34 公開日:2021-11-18
# (参考訳) サブスペースグラフ物理:実時間剛体駆動粒状流シミュレーション

Subspace Graph Physics: Real-Time Rigid Body-Driven Granular Flow Simulation ( http://arxiv.org/abs/2111.10206v1 )

ライセンス: CC BY 4.0
Amin Haeri and Krzysztof Skonieczny(参考訳) ロボット工学における重要な課題は、粒状材料からなる変形可能な地形とロボットの相互作用を理解することである。 粒状流と剛体との相互作用は、まだいくつかのオープンな疑問を引き起こす。 正確で効率的なモデリングのための有望な方向は連続体法である。 また、リアルタイム物理モデリングの新しい方向性は、ディープラーニングの利用である。 この研究は、剛体駆動の粒状流れをモデリングするための機械学習手法を進歩させ、地上産業機械や宇宙ロボット(重力の影響が重要な要素である)に適用する。 特に,本研究では,サブスペース機械学習シミュレーション手法の開発について考察する。 トレーニングデータセットを生成するために,高忠実度連続法,物質点法(MPM)を用いる。 主成分分析(PCA)はデータの次元性を低減するために用いられる。 高い次元データの最初の数つの主成分が、データ全体のばらつきをほとんど保持していることを示す。 グラフネットワークシミュレータ(GNS)は、基礎となる部分空間力学を学ぶために訓練される。 学習したGNSは、正しい精度で粒子の位置と相互作用力を予測することができる。 さらに、PCAはトレーニングとロールアウトの両方において、GNSの時間とメモリ効率を大幅に向上させる。 これにより、GNSは、適度なVRAMを持つ単一のデスクトップGPUを使用してトレーニングすることができる。 これにより、GNSを大規模3次元物理構成(連続体法よりも700倍高速)でリアルタイム化する。

An important challenge in robotics is understanding the interactions between robots and deformable terrains that consist of granular material. Granular flows and their interactions with rigid bodies still pose several open questions. A promising direction for accurate, yet efficient, modeling is using continuum methods. Also, a new direction for real-time physics modeling is the use of deep learning. This research advances machine learning methods for modeling rigid body-driven granular flows, for application to terrestrial industrial machines as well as space robotics (where the effect of gravity is an important factor). In particular, this research considers the development of a subspace machine learning simulation approach. To generate training datasets, we utilize our high-fidelity continuum method, material point method (MPM). Principal component analysis (PCA) is used to reduce the dimensionality of data. We show that the first few principal components of our high-dimensional data keep almost the entire variance in data. A graph network simulator (GNS) is trained to learn the underlying subspace dynamics. The learned GNS is then able to predict particle positions and interaction forces with good accuracy. More importantly, PCA significantly enhances the time and memory efficiency of GNS in both training and rollout. This enables GNS to be trained using a single desktop GPU with moderate VRAM. This also makes the GNS real-time on large-scale 3D physics configurations (700x faster than our continuum method).
翻訳日:2021-11-23 05:28:33 公開日:2021-11-18
# (参考訳) コンテキスト計画ネットワークを用いた視覚目標指向メタラーニング

Visual Goal-Directed Meta-Learning with Contextual Planning Networks ( http://arxiv.org/abs/2111.09908v1 )

ライセンス: CC BY 4.0
Corban G. Rivera, David A Handelman(参考訳) メタラーニングの目標は、新しいタスクと目標をできるだけ早く一般化することである。 理想的には、最初の試みで新しい目標とタスクに一般化したアプローチを望みます。 そこで我々は,文脈計画ネットワーク(CPN)を導入する。 タスクはゴールイメージとして表現され、アプローチの条件付けに使用される。 ゼロショット目標指向メタラーニングに適応した他の手法とともにcpnを評価した。 メタワールドベンチマークタスクを用いて、24個の異なる操作タスクにまたがるこれらのアプローチを評価する。 CPNは、あるタスクにおけるいくつかのアプローチやベースラインよりも優れており、他のタスクに対する既存のアプローチと競合していることがわかった。 我々は,Kinova Jacoロボットアームを用いたJengaタスクの物理プラットフォームへのアプローチを示す。

The goal of meta-learning is to generalize to new tasks and goals as quickly as possible. Ideally, we would like approaches that generalize to new goals and tasks on the first attempt. Toward that end, we introduce contextual planning networks (CPN). Tasks are represented as goal images and used to condition the approach. We evaluate CPN along with several other approaches adapted for zero-shot goal-directed meta-learning. We evaluate these approaches across 24 distinct manipulation tasks using Metaworld benchmark tasks. We found that CPN outperformed several approaches and baselines on one task and was competitive with existing approaches on others. We demonstrate the approach on a physical platform on Jenga tasks using a Kinova Jaco robotic arm.
翻訳日:2021-11-23 04:54:24 公開日:2021-11-18
# (参考訳) 物理形ニューラルネットワークを用いた自律力学系のアトラクション領域推定のための学習

Learning To Estimate Regions Of Attraction Of Autonomous Dynamical Systems Using Physics-Informed Neural Networks ( http://arxiv.org/abs/2111.09930v1 )

ライセンス: CC BY 4.0
Cody Scharzenberger, Joe Hays(参考訳) シミュレーション環境でモータータスクを実行することを学ぶとき、ニューラルネットワークは、新たな潜在的ソリューションを発見するために、そのアクション空間を探索することを許さなければならない。 しかし、物理ハードウェアを用いたオンライン学習シナリオでは、エージェントのハードウェアや環境の損傷を避けるために、この探索は関連する安全上の配慮によって制約されなければならない。 我々は、制御された自律力学系のアトラクション(ROA)領域を推定するために、「安全ネットワーク」と呼ぶニューラルネットワークをトレーニングすることで、この問題に対処することを目指している。 これにより、提案した制御行動の相対的安全性を定量化し、損傷行為の選択を防止することができる。 本稿では,複数の自律力学系ベンチマーク問題のroaを表現するために,ニューラルネットワーク(ann)を訓練することにより,安全性ネットワークの開発を行う。 このネットワークのトレーニングは、リアプノフ理論と偏微分方程式(PDE)に対するニューラル解の両方に基づいている。 関心システムの力学を含む特殊選択されたPDEに粘性解を近似することを学ぶことにより、安全ネットワークは、ROAの境界がゼロとなるリャプノフ関数と同様に、特定の関数を近似することを学ぶ。 物理学インフォームドニューラルネットワーク(pinn)アプローチの修正版に従って、pdeの初期条件と境界条件との不一致を罰する損失関数と、非ゼロの残差および変動項を利用して、これらのpdeを半教師付きで解くように安全ネットワークを訓練する。 今後の課題として,運動学習タスクにおける強化学習エージェントに適用する。

When learning to perform motor tasks in a simulated environment, neural networks must be allowed to explore their action space to discover new potentially viable solutions. However, in an online learning scenario with physical hardware, this exploration must be constrained by relevant safety considerations in order to avoid damage to the agent's hardware and environment. We aim to address this problem by training a neural network, which we will refer to as a "safety network", to estimate the region of attraction (ROA) of a controlled autonomous dynamical system. This safety network can thereby be used to quantify the relative safety of proposed control actions and prevent the selection of damaging actions. Here we present our development of the safety network by training an artificial neural network (ANN) to represent the ROA of several autonomous dynamical system benchmark problems. The training of this network is predicated upon both Lyapunov theory and neural solutions to partial differential equations (PDEs). By learning to approximate the viscosity solution to a specially chosen PDE that contains the dynamics of the system of interest, the safety network learns to approximate a particular function, similar to a Lyapunov function, whose zero level set is boundary of the ROA. We train our safety network to solve these PDEs in a semi-supervised manner following a modified version of the Physics Informed Neural Network (PINN) approach, utilizing a loss function that penalizes disagreement with the PDE's initial and boundary conditions, as well as non-zero residual and variational terms. In future work we intend to apply this technique to reinforcement learning agents during motor learning tasks.
翻訳日:2021-11-23 04:43:20 公開日:2021-11-18
# (参考訳) 早期糖尿病予測に用いる異なる機械学習アルゴリズムの弁別可能な予測

Explainable predictions of different machine learning algorithms used to predict Early Stage diabetes ( http://arxiv.org/abs/2111.09939v1 )

ライセンス: CC BY 4.0
V. Vakil, S. Pachchigar, C. Chavda, S. Soni(参考訳) 機械学習と人工知能は、慢性疾患の診断に広く使われ、必要な予防治療を臨界時間内に行うことができる。 主要な疾患の1つである糖尿病は、いくつかの機械学習アルゴリズムによって容易に診断することができる。 早期診断は危険な結果を防ぐために不可欠である。 本稿では,いくつかの機械学習アルゴリズムの比較分析を行った。 Random Forest, Decision Tree, Artificial Neural Networks, K Nearest Neighbor, Support Vector Machine, XGBoost, そしてSHAPを使ってSylhet病院から収集したデータセット上で糖尿病を予測する上で最も重要な特徴を特定する。 実験結果によると、ランダムフォレストアルゴリズムは、この特定のデータセットの99%の精度で他のアルゴリズムよりも優れています。

Machine Learning and Artificial Intelligence can be widely used to diagnose chronic diseases so that necessary precautionary treatment can be done in critical time. Diabetes Mellitus which is one of the major diseases can be easily diagnosed by several Machine Learning algorithms. Early stage diagnosis is crucial to prevent dangerous consequences. In this paper we have made a comparative analysis of several machine learning algorithms viz. Random Forest, Decision Tree, Artificial Neural Networks, K Nearest Neighbor, Support Vector Machine, and XGBoost along with feature attribution using SHAP to identify the most important feature in predicting the diabetes on a dataset collected from Sylhet Hospital. As per the experimental results obtained, the Random Forest algorithm has outperformed all the other algorithms with an accuracy of 99 percent on this particular dataset.
翻訳日:2021-11-23 04:42:08 公開日:2021-11-18
# (参考訳) 分類法における敵対的攻撃と防御の展望

A Review of Adversarial Attack and Defense for Classification Methods ( http://arxiv.org/abs/2111.09961v1 )

ライセンス: CC BY 4.0
Yao Li, Minhao Cheng, Cho-Jui Hsieh, Thomas C. M. Lee(参考訳) 機械学習システムの効率性とスケーラビリティにもかかわらず、最近の研究では、多くの分類方法、特にディープニューラルネットワーク(DNN)が敵の例に弱いことが示されている。 これにより、セキュリティクリティカルな領域でDNNや関連するメソッドを適用するのが安全でない可能性がある。 この問題が最初に発見されたのは、Biggio et al. (2013) と Szegedy et al である。 (2014年)、敵の事例を生成する攻撃方法の開発や、そのような事例に対する防御技術の構築など、この分野で多くの研究がなされている。 本稿では,この話題とその最新の展開を,主に敵の事例の生成と保護に焦点をあてて,統計的コミュニティに紹介することを目的とする。 数値実験で使用される計算符号 (python と R) は、読者が調査手法を探索するために公開されている。 この論文は、より多くの統計学者が、敵対的な事例を生成・防御するこの重要かつエキサイティングな分野に取り組むことを奨励することを期待している。

Despite the efficiency and scalability of machine learning systems, recent studies have demonstrated that many classification methods, especially deep neural networks (DNNs), are vulnerable to adversarial examples; i.e., examples that are carefully crafted to fool a well-trained classification model while being indistinguishable from natural data to human. This makes it potentially unsafe to apply DNNs or related methods in security-critical areas. Since this issue was first identified by Biggio et al. (2013) and Szegedy et al.(2014), much work has been done in this field, including the development of attack methods to generate adversarial examples and the construction of defense techniques to guard against such examples. This paper aims to introduce this topic and its latest developments to the statistical community, primarily focusing on the generation and guarding of adversarial examples. Computing codes (in python and R) used in the numerical experiments are publicly available for readers to explore the surveyed methods. It is the hope of the authors that this paper will encourage more statisticians to work on this important and exciting field of generating and defending against adversarial examples.
翻訳日:2021-11-23 04:34:55 公開日:2021-11-18
# (参考訳) NDCGを超えて: RecListによるレコメンデータシステムの振る舞いテスト

Beyond NDCG: behavioral testing of recommender systems with RecList ( http://arxiv.org/abs/2111.09963v1 )

ライセンス: CC BY 4.0
Patrick John Chia, Jacopo Tagliabue, Federico Bianchi, Chloe He, Brian Ko(参考訳) ほとんどの機械学習システムと同様に、レコメンダシステムは通常、保持されたデータポイントで計算されたパフォーマンスメトリクスによって評価される。 アドホックなエラー分析とデプロイメント特有のテストは、実際のデプロイメントで望ましい品質を保証するために採用する必要があります。 本稿では,行動に基づくテスト手法であるreclistを提案する。 RecListはユースケースによってレコメンデータシステムを整理し、振る舞いテストのスケールアップのための一般的なプラグアンドプレイ手順を導入する。 我々は、既知のアルゴリズムとブラックボックスの商用システムを分析し、コミュニティ向けのオープンソースの拡張可能なパッケージとしてRecListをリリースした。

As with most Machine Learning systems, recommender systems are typically evaluated through performance metrics computed over held-out data points. However, real-world behavior is undoubtedly nuanced: ad hoc error analysis and deployment-specific tests must be employed to ensure the desired quality in actual deployments. In this paper, we propose RecList, a behavioral-based testing methodology. RecList organizes recommender systems by use case and introduces a general plug-and-play procedure to scale up behavioral testing. We demonstrate its capabilities by analyzing known algorithms and black-box commercial systems, and we release RecList as an open source, extensible package for the community.
翻訳日:2021-11-23 04:33:50 公開日:2021-11-18
# (参考訳) Deep IDA: 特徴ランク付きマルチビューデータの統合的識別分析のためのディープラーニング手法 - COVID-19重症度への適用

Deep IDA: A Deep Learning Method for Integrative Discriminant Analysis of Multi-View Data with Feature Ranking -- An Application to COVID-19 severity ( http://arxiv.org/abs/2111.09964v1 )

ライセンス: CC BY 4.0
Jiuzhou Wang, Sandra E. Safo(参考訳) 新型コロナウイルスの重症度はSARS-Cov-2の合併症によるものであるが、臨床経過は個人によって異なり、分子レベルでの疾患の理解を深める必要性を強調している。 我々は、集中治療室に入院した(または入院していない)新型コロナウイルス患者から得られた臨床および複数の分子データ(またはビュー)を用いて、重症度に光を当てた。 ビューを共同で関連付ける方法や、COVID-19グループ(すなわちワンステップメソッド)を分離する方法は、線形関係に重点を置いている。 しかし、ビューと新型コロナウイルスの患者グループとの関係は複雑すぎて、線形的な方法だけでは理解できない。 既存の非線形ワンステップ法は、疾患の複雑さを理解するのに役立つシグネチャを特定するために使用できません。 我々は、関心事問題における分析課題に対処するため、Deep IDA(Integrative Discriminant Analysis)を提案する。 Deep IDAは2つ以上のビューの非線形投影を学習し、ビューを最大限に関連付け、各ビューのクラスを分離し、解釈可能な結果のフィーチャーランキングを可能にする。 我々の応用は、Deep IDAが他の最先端手法と比較して競争力のある分類率を持ち、新型コロナウイルスの重症度を理解するための分子シグネチャを識別できることを示している。

COVID-19 severity is due to complications from SARS-Cov-2 but the clinical course of the infection varies for individuals, emphasizing the need to better understand the disease at the molecular level. We use clinical and multiple molecular data (or views) obtained from patients with and without COVID-19 who were (or not) admitted to the intensive care unit to shed light on COVID-19 severity. Methods for jointly associating the views and separating the COVID-19 groups (i.e., one-step methods) have focused on linear relationships. The relationships between the views and COVID-19 patient groups, however, are too complex to be understood solely by linear methods. Existing nonlinear one-step methods cannot be used to identify signatures to aid in our understanding of the complexity of the disease. We propose Deep IDA (Integrative Discriminant Analysis) to address analytical challenges in our problem of interest. Deep IDA learns nonlinear projections of two or more views that maximally associate the views and separate the classes in each view, and permits feature ranking for interpretable findings. Our applications demonstrate that Deep IDA has competitive classification rates compared to other state-of-the-art methods and is able to identify molecular signatures that facilitate an understanding of COVID-19 severity.
翻訳日:2021-11-23 04:23:29 公開日:2021-11-18
# (参考訳) M2A:正確な映像行動認識のための動き認識

M2A: Motion Aware Attention for Accurate Video Action Recognition ( http://arxiv.org/abs/2111.09976v1 )

ライセンス: CC BY 4.0
Brennan Gebotys, Alexander Wong, David A. Clausi(参考訳) 注意機構の進歩は、時間的シーケンスの動的モデリングを可能にするため、機械学習の様々な領域において、大幅なパフォーマンス向上をもたらした。 コンピュータビジョンの特定の領域は、ビデオアクション認識における注意機構の導入から大きな恩恵を受ける可能性が高い。 しかし、現在の注意メカニズムに焦点をあてた研究の多くは、ビデオで見られる固有の動きを活用できない空間的・時間的注意に焦点が当てられている。 そこで我々は,運動特性を明示的に組み込む運動認識注意(m2a)と呼ばれる新しい注意機構を開発した。 より具体的には、m2aは連続するフレーム間の動き情報を抽出し、フレーム間の動きパターンに注目し、ビデオ内の動作を正確に認識する。 提案するm2aメカニズムは実装が簡単であり、任意のニューラルネットワークバックボーンアーキテクチャに容易に組み込むことができる。 提案したM2A機構を用いて動作機構をアテンション機構に組み込むことで,様々なバックボーンアーキテクチャにおけるトップ1の精度が15%から26%向上し,計算量もわずかに向上することを示した。 さらに,M2Aと他の最先端モーションおよび注意機構を,Something V1ビデオアクション認識ベンチマークで比較した。 実験の結果、M2Aは他の時間的メカニズムと組み合わせることでさらなる改善が得られ、ベンチマークの特定のクラスにおいて、最大で60%の精度で、他の動きのみまたは注意のみのメカニズムよりも優れていることがわかった。

Advancements in attention mechanisms have led to significant performance improvements in a variety of areas in machine learning due to its ability to enable the dynamic modeling of temporal sequences. A particular area in computer vision that is likely to benefit greatly from the incorporation of attention mechanisms in video action recognition. However, much of the current research's focus on attention mechanisms have been on spatial and temporal attention, which are unable to take advantage of the inherent motion found in videos. Motivated by this, we develop a new attention mechanism called Motion Aware Attention (M2A) that explicitly incorporates motion characteristics. More specifically, M2A extracts motion information between consecutive frames and utilizes attention to focus on the motion patterns found across frames to accurately recognize actions in videos. The proposed M2A mechanism is simple to implement and can be easily incorporated into any neural network backbone architecture. We show that incorporating motion mechanisms with attention mechanisms using the proposed M2A mechanism can lead to a +15% to +26% improvement in top-1 accuracy across different backbone architectures, with only a small increase in computational complexity. We further compared the performance of M2A with other state-of-the-art motion and attention mechanisms on the Something-Something V1 video action recognition benchmark. Experimental results showed that M2A can lead to further improvements when combined with other temporal mechanisms and that it outperforms other motion-only or attention-only mechanisms by as much as +60% in top-1 accuracy for specific classes in the benchmark.
翻訳日:2021-11-23 04:05:18 公開日:2021-11-18
# (参考訳) 第2次ミラーダイス:ゲームにおける平均とカウント以上の収束性

Second-Order Mirror Descent: Convergence in Games Beyond Averaging and Discounting ( http://arxiv.org/abs/2111.09982v1 )

ライセンス: CC BY 4.0
Bolin Gao, Lacra Pavel(参考訳) 本稿では、平均化や割引といった一般的な補助技術を用いることなく、単に(必ずしも厳密ではない)変分安定状態(VSS)に収束する連続時間ゲーム理論ミラー降下(MD2)ダイナミクスの2次拡張を提案する。 MD2は, 若干の修正を加えて, 強いVSSへの収束率と指数的収束率を享受できることを示す。 さらに、md2は多くの新しい原始空間ダイナミクスを導出するために使うことができる。 最後に,確率近似法を用いた離散時間md2の収束保証と,内部vssに対するノイズ観測について述べる。 結果を説明するために選択されたシミュレーションが提供される。

In this paper, we propose a second-order extension of the continuous-time game-theoretic mirror descent (MD) dynamics, referred to as MD2, which converges to mere (but not necessarily strict) variationally stable states (VSS) without using common auxiliary techniques such as averaging or discounting. We show that MD2 enjoys no-regret as well as exponential rate of convergence towards a strong VSS upon a slight modification. Furthermore, MD2 can be used to derive many novel primal-space dynamics. Lastly, using stochastic approximation techniques, we provide a convergence guarantee of discrete-time MD2 with noisy observations towards interior mere VSS. Selected simulations are provided to illustrate our results.
翻訳日:2021-11-23 03:54:54 公開日:2021-11-18
# 中堅企業市場におけるデフォルト予測のための変圧器モデル

A transformer-based model for default prediction in mid-cap corporate markets ( http://arxiv.org/abs/2111.09902v1 )

ライセンス: Link先を確認
Kamesh Korangi, Christophe Mues, Cristi\'an Bravo(参考訳) 本稿では,市場資本が100億ドル未満の企業,すなわち上場企業について調査する。 30年以上にわたって観察された米国中規模企業の大規模なデータセットを用いて、中期にわたってデフォルトの確率項構造を予測し、どのデータソース(基本データ、市場データ、価格データ)がデフォルトのリスクに最も寄与するかを理解する。 既存の手法では、異なる時間周期のデータがまず集約されて断面的特徴に変換されることが要求されるが、この問題はマルチラベルの時系列分類問題である。 我々は,自然言語処理領域から発生する最先端のディープラーニングモデルであるtransformer modelを,信用リスクモデリング設定に適用する。 また,これらのモデルの予測を注意熱マップを用いて解釈する。 さらにモデルを最適化するために,マルチラベル分類のためのカスタムロス関数と,すべての入力データを効率的に使用できる差分トレーニングを備えた新しいマルチチャネルアーキテクチャを提案する。 その結果,従来のモデルよりもAUC(Area Under the receiver operating characteristic Curve)が13%向上した。 また、これらのモデルに特有のShapleyアプローチを用いて、異なるデータソースと時間的関係の重要ランキングを作成する方法を示す。

In this paper, we study mid-cap companies, i.e. publicly traded companies with less than US $10 billion in market capitalisation. Using a large dataset of US mid-cap companies observed over 30 years, we look to predict the default probability term structure over the medium term and understand which data sources (i.e. fundamental, market or pricing data) contribute most to the default risk. Whereas existing methods typically require that data from different time periods are first aggregated and turned into cross-sectional features, we frame the problem as a multi-label time-series classification problem. We adapt transformer models, a state-of-the-art deep learning model emanating from the natural language processing domain, to the credit risk modelling setting. We also interpret the predictions of these models using attention heat maps. To optimise the model further, we present a custom loss function for multi-label classification and a novel multi-channel architecture with differential training that gives the model the ability to use all input data efficiently. Our results show the proposed deep learning architecture's superior performance, resulting in a 13% improvement in AUC (Area Under the receiver operating characteristic Curve) over traditional models. We also demonstrate how to produce an importance ranking for the different data sources and the temporal relationships using a Shapley approach specific to these models.
翻訳日:2021-11-22 16:35:15 公開日:2021-11-18
# 安全専門家によるロバストな出力制御障壁関数の学習

Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations ( http://arxiv.org/abs/2111.09971v1 )

ライセンス: Link先を確認
Lars Lindemann, Alexander Robey, Lejun Jiang, Stephen Tu, and Nikolai Matni(参考訳) 本稿では,専門家による実証実験から安全な制御法を学習する。 システムダイナミクスと出力計測マップの適切なモデルが、対応する誤差境界とともに利用可能であると仮定する。 まず,安全な集合の制御前方不変性を通じて定義された安全を保証する手段として,ロバスト出力制御障壁関数(ROCBF)を提案する。 次に,人間の操作者から収集したデータなど,安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を提案する。 最適化問題とともに、得られたROCBFの妥当性を保証する検証条件を提供する。 これらの条件はデータの密度、リプシッツの値、学習関数の有界性定数、システムのダイナミクスと出力測定マップのモデルによって記述される。 ROCBFのパラメトリゼーションが線型であれば、軽微な仮定の下で最適化問題は凸である。 自律走行シミュレータCARLAで得られた知見を検証し,RGBカメラ画像から安全な制御法を学習する方法を示す。

This paper addresses learning safe control laws from expert demonstrations. We assume that appropriate models of the system dynamics and the output measurement map are available, along with corresponding error bounds. We first propose robust output control barrier functions (ROCBFs) as a means to guarantee safety, as defined through controlled forward invariance of a safe set. We then present an optimization problem to learn ROCBFs from expert demonstrations that exhibit safe system behavior, e.g., data collected from a human operator. Along with the optimization problem, we provide verifiable conditions that guarantee validity of the obtained ROCBF. These conditions are stated in terms of the density of the data and on Lipschitz and boundedness constants of the learned function and the models of the system dynamics and the output measurement map. When the parametrization of the ROCBF is linear, then, under mild assumptions, the optimization problem is convex. We validate our findings in the autonomous driving simulator CARLA and show how to learn safe control laws from RGB camera images.
翻訳日:2021-11-22 16:34:54 公開日:2021-11-18
# 観測データを用いた離散的文脈価格の損失関数

Loss Functions for Discrete Contextual Pricing with Observational Data ( http://arxiv.org/abs/2111.09933v1 )

ライセンス: Link先を確認
Max Biggs, Ruijiang Gao, Wei Sun(参考訳) 顧客の商品価値を予測できる顧客機能や製品機能に基づいて、各顧客がコンテキスト化された価格を提示される価格設定について検討する。 顧客の真の価値ではなく、各顧客が所定の価格で商品を購入しているかどうかを観察できるのは、歴史的販売記録のみであることが多い。 このように、データは、困難をもたらす歴史的販売政策の影響を受けている。 a) 実際の実験を行うことなく、価格政策の将来の損失/利益を見積もること b)収益管理などの下流タスクの新たなポリシーの最適化。 本研究では,中間需要推定段階を通過するのではなく,価格政策を直接最適化するために使用できる損失関数の定式化について検討する。 評価データが利用可能な場合,既存の手法が提案されているが,観測データ設定における損失関数を提案する。 これを実現するために、私たちは、顧客評価の(既知の)確率的変換として、観測された各顧客の結果(所定の価格で購入されるか否かに関わらず)を考慮可能なラベル付き機械学習からのアイデアを適応させる。 この変換から、適切な非バイアス損失関数のクラスを導出する。 このクラスで最小分散推定器を同定し,低需要関数推定に頑健であり,推定需要関数がいつ有用かのガイダンスを提供する。 さらに,我々の文脈的価格設定に適用すると,オフ・ポリティカル評価文献で人気のある推定者は,この損失関数のクラスに収まり,また,各推定者が実際にうまく機能する可能性を示す管理的洞察を提供する。

We study a pricing setting where each customer is offered a contextualized price based on customer and/or product features that are predictive of the customer's valuation for that product. Often only historical sales records are available, where we observe whether each customer purchased a product at the price prescribed rather than the customer's true valuation. As such, the data is influenced by the historical sales policy which introduces difficulties in a) estimating future loss/regret for pricing policies without the possibility of conducting real experiments and b) optimizing new policies for downstream tasks such as revenue management. We study how to formulate loss functions which can be used for optimizing pricing policies directly, rather than going through an intermediate demand estimation stage, which can be biased in practice due to model misspecification, regularization or poor calibration. While existing approaches have been proposed when valuation data is available, we propose loss functions for the observational data setting. To achieve this, we adapt ideas from machine learning with corrupted labels, where we can consider each observed customer's outcome (purchased or not for a prescribed price), as a (known) probabilistic transformation of the customer's valuation. From this transformation we derive a class of suitable unbiased loss functions. Within this class we identify minimum variance estimators, those which are robust to poor demand function estimation, and provide guidance on when the estimated demand function is useful. Furthermore, we also show that when applied to our contextual pricing setting, estimators popular in the off-policy evaluation literature fall within this class of loss functions, and also offer managerial insights on when each estimator is likely to perform well in practice.
翻訳日:2021-11-22 16:16:46 公開日:2021-11-18
# zig-zagサンプラーの逐次マルコフ連鎖モンテカルロへの応用

The Application of Zig-Zag Sampler in Sequential Markov Chain Monte Carlo ( http://arxiv.org/abs/2111.10210v1 )

ライセンス: Link先を確認
Yu Han, Kazuyuki Nakamura(参考訳) 粒子フィルタリング法は非線形非ガウス状態空間モデルにおける逐次状態推定に広く適用されている。 しかし、従来の粒子フィルタリング法は高次元状態空間モデルにおいて重縮退に苦しむ。 現在、高次元状態空間モデルにおける粒子フィルタリングの性能を向上させる方法は数多く存在する。 これらのうち、より進んだ方法は、複合メトロポリス・ハスティング(MH)カーネルを実装することで、シークエンシャル・マコフ・キアン・モンテカルロ(SMCMC)フレームワークを構築することである。 本稿では,Zig-Zagサンプラーを離散化し,Zig-ZagサンプラーをSMCMCフレームワーク内の複合MHカーネルの精製段階に適用することを提案する。 複雑な高次元フィルタリング例の数値実験により,提案手法の性能を評価する。 ネマラル実験により, 高次元状態推定例において, 提案手法は評価精度を向上し, 受け入れ率を増加させることを示した。

Particle filtering methods are widely applied in sequential state estimation within nonlinear non-Gaussian state space model. However, the traditional particle filtering methods suffer the weight degeneracy in the high-dimensional state space model. Currently, there are many methods to improve the performance of particle filtering in high-dimensional state space model. Among these, the more advanced method is to construct the Sequential Makov chian Monte Carlo (SMCMC) framework by implementing the Composite Metropolis-Hasting (MH) Kernel. In this paper, we proposed to discrete the Zig-Zag Sampler and apply the Zig-Zag Sampler in the refinement stage of the Composite MH Kernel within the SMCMC framework which is implemented the invertible particle flow in the joint draw stage. We evaluate the performance of proposed method through numerical experiments of the challenging complex high-dimensional filtering examples. Nemurical experiments show that in high-dimensional state estimation examples, the proposed method improves estimation accuracy and increases the acceptance ratio compared with state-of-the-art filtering methods.
翻訳日:2021-11-22 16:10:08 公開日:2021-11-18
# 受入れ業務における品質・コストトレードオフ

Quality and Cost Trade-offs in Passage Re-ranking Task ( http://arxiv.org/abs/2111.09927v1 )

ライセンス: Link先を確認
Pavel Podberezko, Vsevolod Mitskevich, Raman Makouski, Pavel Goncharov, Andrei Khobnia, Nikolay Bushkov, Marina Chernyshevich(参考訳) トランスフォーマーと呼ばれるディープラーニングモデルは最先端の成果を達成し、計算の複雑さと高メモリ消費のコストを犠牲にして、nlpタスクの大部分を実現した。 リアルタイム推論におけるトランスフォーマーモデルの使用は、高価な計算リソースを必要とするため、実運用環境での実装において大きな課題となる。 トランスの実行が多ければ多いほど、全体のスループットが低くなり、より小さなエンコーダに切り替えることで、精度が低下する。 本稿では,情報検索パイプラインのランク付けステップにおいて,必要なトランスフォーマーエンコーダの呼び出し数が最小限に抑えられるように,適切なアーキテクチャを選択するかという問題に焦点をあてる。 colbert や poly-encoder などの遅延相互作用モデルとその修正について検討した。 また,検索インデックスのメモリフットプリントに着目し,トランスコーダからの出力ベクトルのバイナリ化に learning-to-hash 法を適用した。 評価結果はTREC 2019-2021とMS Marco開発データセットを用いて行われる。

Deep learning models named transformers achieved state-of-the-art results in a vast majority of NLP tasks at the cost of increased computational complexity and high memory consumption. Using the transformer model in real-time inference becomes a major challenge when implemented in production, because it requires expensive computational resources. The more executions of a transformer are needed the lower the overall throughput is, and switching to the smaller encoders leads to the decrease of accuracy. Our paper is devoted to the problem of how to choose the right architecture for the ranking step of the information retrieval pipeline, so that the number of required calls of transformer encoder is minimal with the maximum achievable quality of ranking. We investigated several late-interaction models such as Colbert and Poly-encoder architectures along with their modifications. Also, we took care of the memory footprint of the search index and tried to apply the learning-to-hash method to binarize the output vectors from the transformer encoders. The results of the evaluation are provided using TREC 2019-2021 and MS Marco dev datasets.
翻訳日:2021-11-22 15:59:13 公開日:2021-11-18
# 制約に基づくJOPガジェットの多様化

Constraint-based Diversification of JOP Gadgets ( http://arxiv.org/abs/2111.09934v1 )

ライセンス: Link先を確認
Rodothea Myrsini Tsoupidi, Roberto Casta\~neda Lozano, Benoit Baudry(参考訳) 現代のソフトウェアデプロイメントプロセスは均一で、ジャンプ指向プログラミング(jop)攻撃のような大規模なコード再利用攻撃に対して脆弱なソフトウェアを生成する。 コンパイラベースの多様化は、あるプログラムの異なるアセンブリコードバージョンを自動的に生成することで、ソフトウェアシステムのレジリエンスを向上させる。 既存の技術は効率的だが、生成された派生品の品質を正確に制御できない。 本稿では,ソフトウェア多様化のための制約ベースアプローチであるdiversity by construction (divcon)を提案する。 従来のアプローチとは異なり、DivConでは、多様性とコード品質の相反する目標を制御および調整することができる。 重要なイネーブルは、Large Neighborhood Search (LNS)を使用して、高度に多様なコードを生成することである。 より大規模な問題に対して,LNSと構造的分解の組合せを提案する。 jop攻撃に対するdivconの多様化効率をさらに高めるため,jop攻撃の特徴に合わせたアプリケーション固有の距離測定法を提案する。 組込みシステムのベンチマークスイートから20関数のDivConを評価する。 これらの実験により、LNSとアプリケーション固有の距離測定の組み合わせは、JOP攻撃に対して高い耐性を持つバイナリプログラムを生成することがわかった。 結果から,各アセンブリコードバージョンの品質とバージョンプール全体の多様性との間にはトレードオフがあることが確認された。 特に実験の結果、DivConは少数のガジェットを共有できる準最適バイナリプログラムを生成することがわかった。 制約プログラミングの研究者や実践者にとって,LSNは多様な解を見つける上で貴重な手法であることを示す。 セキュリティ研究者やソフトウェアエンジニアにとって、DivConは、コンパイラベースの多様化の範囲をパフォーマンスクリティカルでリソース制約のあるアプリケーションにまで広げている。

Modern software deployment process produces software that is uniform and hence vulnerable to large-scale code-reuse attacks, such as Jump-Oriented Programming (JOP) attacks. Compiler-based diversification improves the resilience of software systems by automatically generating different assembly code versions of a given program. Existing techniques are efficient but do not have a precise control over the quality of the generated variants. This paper introduces Diversity by Construction (DivCon), a constraint-based approach to software diversification. Unlike previous approaches, DivCon allows users to control and adjust the conflicting goals of diversity and code quality. A key enabler is the use of Large Neighborhood Search (LNS) to generate highly diverse code efficiently. For larger problems, we propose a combination of LNS with a structural decomposition of the problem. To further improve the diversification efficiency of DivCon against JOP attacks, we propose an application-specific distance measure tailored to the characteristics of JOP attacks. We evaluate DivCon with 20 functions from a popular benchmark suite for embedded systems. These experiments show that the combination of LNS and our application-specific distance measure generates binary programs that are highly resilient against JOP attacks. Our results confirm that there is a trade-off between the quality of each assembly code version and the diversity of the entire pool of versions. In particular, the experiments show that DivCon generates near-optimal binary programs that share a small number of gadgets. For constraint programming researchers and practitioners, this paper demonstrates that LNS is a valuable technique for finding diverse solutions. For security researchers and software engineers, DivCon extends the scope of compiler-based diversification to performance-critical and resource-constrained applications.
翻訳日:2021-11-22 15:55:31 公開日:2021-11-18
# 広角映像における顔の歪み補正

Correcting Face Distortion in Wide-Angle Videos ( http://arxiv.org/abs/2111.09950v1 )

ライセンス: Link先を確認
Wei-Sheng Lai, YiChang Shih, Chia-Kai Liang, Ming-Hsuan Yang(参考訳) ビデオブログや自撮りはソーシャルメディアのフォーマットとして人気があり、広角カメラが人の対象と背景を映し出す。 残念なことに、視点の投影により、角や縁付近に明らかな歪みがあり、顔の特徴を伸縮させ、ビデオ品質を損なう。 本研究では,これらの歪みを補正するビデオワーピングアルゴリズムを提案する。 私たちのキーとなるアイデアは、顔領域に局所的に立体投影を適用することです。 本研究では,空間的時間的エネルギー最小化を用いてメッシュワープ問題を定式化し,線形保存項を用いて背景変形を最小限に抑える。 時間的コヒーレンシに対処するために,反りメッシュの時間的滑らかさと潜在変数による顔の軌跡を制約する。 性能評価のために,焦点距離の広い広角ビデオデータセットを開発した。 ユーザ調査によると、83.9%のユーザが、視点予測に基づく他の選択肢よりもアルゴリズムを好んでいる。

Video blogs and selfies are popular social media formats, which are often captured by wide-angle cameras to show human subjects and expanded background. Unfortunately, due to perspective projection, faces near corners and edges exhibit apparent distortions that stretch and squish the facial features, resulting in poor video quality. In this work, we present a video warping algorithm to correct these distortions. Our key idea is to apply stereographic projection locally on the facial regions. We formulate a mesh warp problem using spatial-temporal energy minimization and minimize background deformation using a line-preservation term to maintain the straight edges in the background. To address temporal coherency, we constrain the temporal smoothness on the warping meshes and facial trajectories through the latent variables. For performance evaluation, we develop a wide-angle video dataset with a wide range of focal lengths. The user study shows that 83.9% of users prefer our algorithm over other alternatives based on perspective projection.
翻訳日:2021-11-22 15:53:10 公開日:2021-11-18
# リアルタイム意味セグメンテーションのための拡張畳み込みの再考

Rethink Dilated Convolution for Real-time Semantic Segmentation ( http://arxiv.org/abs/2111.09957v1 )

ライセンス: Link先を確認
Roland Gao(参考訳) セマンティクスセグメンテーションの最近の進歩は、一般的にimagenetプリトレーニングされたバックボーンを特別なコンテキストモジュールに適応させ、視野を素早く拡大する。 成功したが、計算のほとんどが存在しているバックボーンは、最善の決定を下すのに十分な視野を持っていない。 最近の進歩では、バックボーンの解像度を迅速にダウンサンプリングし、さらに1つ以上の並列ブランチを高い解像度で持つことで、この問題に対処している。 異なる拡張率を持つ2つの並列3x3畳み込み層を用いて,局所的な詳細を保ちながら視野を拡大する,再帰的インスパイアされたブロック構造を設計することにより,異なるアプローチをとる。 このブロック構造をバックボーンに繰り返すことで、その後に特別なコンテキストモジュールを追加する必要はない。 さらに、ローカル情報を一般的な代替手段よりもよく復元する軽量デコーダを提案する。 提案手法の有効性を示すため,我々のモデルであるRegSegは,リアルタイムCityscapesとCamVidデータセットの最先端結果を実現する。 混合精度のT4 GPUを用いて、RegSegは30FPSのCityscapesテストセットで78.3mIOU、70FPSのCamVidテストセットで80.9mIOUを達成した。

Recent advances in semantic segmentation generally adapt an ImageNet pretrained backbone with a special context module after it to quickly increase the field-of-view. Although successful, the backbone, in which most of the computation lies, does not have a large enough field-of-view to make the best decisions. Some recent advances tackle this problem by rapidly downsampling the resolution in the backbone while also having one or more parallel branches with higher resolutions. We take a different approach by designing a ResNeXt inspired block structure that uses two parallel 3x3 convolutional layers with different dilation rates to increase the field-of-view while also preserving the local details. By repeating this block structure in the backbone, we do not need to append any special context module after it. In addition, we propose a lightweight decoder that restores local information better than common alternatives. To demonstrate the effectiveness of our approach, our model RegSeg achieves state-of-the-art results on real-time Cityscapes and CamVid datasets. Using a T4 GPU with mixed precision, RegSeg achieves 78.3 mIOU on Cityscapes test set at 30 FPS, and 80.9 mIOU on CamVid test set at 70 FPS, both without ImageNet pretraining.
翻訳日:2021-11-22 15:52:52 公開日:2021-11-18
# 胸部X線画像におけるCOVID-19検出:CNNアーキテクチャとアンサンブルの比較

COVID-19 Detection on Chest X-Ray Images: A comparison of CNN architectures and ensembles ( http://arxiv.org/abs/2111.09972v1 )

ライセンス: Link先を確認
Fabricio Breve(参考訳) 新型コロナウイルス(covid-19)は、最初の検出からわずか4ヶ月で急速に世界的なパンデミックとなった。 この病気をできるだけ早く検出し、拡散を減少させることが重要である。 胸部X線画像(CXR)は, 逆転写-ポリメラーゼ鎖反応(RT-PCR)と相補的に, 効果的なスクリーニング戦略となった。 畳み込みニューラルネットワーク(cnns)は、画像の自動分類によく用いられ、cxr診断において非常に有用である。 本稿では、CXR画像中のCOVID-19を識別するタスクにおいて、21の異なるCNNアーキテクチャをテストする。 それらは、最も大きく、より多様なCOVID-19データセットであるCOVIDx8Bデータセットに適用された。 CNNのアンサンブルも採用され、個々のインスタンスよりも効果が高かった。 最も優れたCNNのインスタンス結果はDenseNet169で達成され、精度は98.15%、F1スコアは98.12%だった。 さらに99.25%と99.24%に増加し、5つのDenseNet169がアンサンブルされた。 これらの結果は、同じデータセットを用いた最近の研究で得られたものよりも高い。

COVID-19 quickly became a global pandemic after only four months of its first detection. It is crucial to detect this disease as soon as possible to decrease its spread. The use of chest X-ray (CXR) images became an effective screening strategy, complementary to the reverse transcription-polymerase chain reaction (RT-PCR). Convolutional neural networks (CNNs) are often used for automatic image classification and they can be very useful in CXR diagnostics. In this paper, 21 different CNN architectures are tested and compared in the task of identifying COVID-19 in CXR images. They were applied to the COVIDx8B dataset, which is the largest and more diverse COVID-19 dataset available. Ensembles of CNNs were also employed and they showed better efficacy than individual instances. The best individual CNN instance results were achieved by DenseNet169, with an accuracy of 98.15% and an F1 score of 98.12%. These were further increased to 99.25% and 99.24%, respectively, through an ensemble with five instances of DenseNet169. These results are higher than those obtained in recent works using the same dataset.
翻訳日:2021-11-22 15:52:29 公開日:2021-11-18
# グラフェン上の勾配流:存在、収束、連続性方程式

Gradient flows on graphons: existence, convergence, continuity equations ( http://arxiv.org/abs/2111.09459v1 )

ライセンス: Link先を確認
Sewoong Oh, Soumik Pal, Raghav Somani, Raghav Tripathi(参考訳) 確率測度上のワッサーシュタイン勾配流は、様々な最適化問題に多くの応用を見出した。 通常は、勾配型ポテンシャルを含む平均場相互作用によって進化する交換可能な粒子系の連続極限として生じる。 しかし、多層ニューラルネットワークのような多くの問題において、いわゆる粒子はノードが交換可能な大きなグラフ上のエッジ重みである。 このような大きなグラフは、その大きさが無限大になるにつれて、グラトンと呼ばれる連続体極限に収束することが知られている。 辺重みの適当な関数のユークリッド勾配流は、グラノンの空間上の曲線によって与えられる新しい連続極限に収束し、勾配流あるいはより技術的には最大勾配の曲線として適切に記述できることを示す。 準同型函数やスカラーエントロピーのようなグラトン上のいくつかの自然関数は、この集合によってカバーされ、その例が詳細に研究されている。

Wasserstein gradient flows on probability measures have found a host of applications in various optimization problems. They typically arise as the continuum limit of exchangeable particle systems evolving by some mean-field interaction involving a gradient-type potential. However, in many problems, such as in multi-layer neural networks, the so-called particles are edge weights on large graphs whose nodes are exchangeable. Such large graphs are known to converge to continuum limits called graphons as their size grow to infinity. We show that the Euclidean gradient flow of a suitable function of the edge-weights converges to a novel continuum limit given by a curve on the space of graphons that can be appropriately described as a gradient flow or, more technically, a curve of maximal slope. Several natural functions on graphons, such as homomorphism functions and the scalar entropy, are covered by our set-up, and the examples have been worked out in detail.
翻訳日:2021-11-22 15:51:24 公開日:2021-11-18
# MS-nowcasting: Microsoft Weatherにおける畳み込みLSTMによる運用上の沈降

MS-nowcasting: Operational Precipitation Nowcasting with Convolutional LSTMs at Microsoft Weather ( http://arxiv.org/abs/2111.09954v1 )

ライセンス: Link先を確認
Sylwester Klocek, Haiyu Dong, Matthew Dixon, Panashe Kanengoni, Najeeb Kazmi, Pete Luferenko, Zhongjian Lv, Shikhar Sharma, Jonathan Weyn, Siqi Xiang(参考訳) 本稿では,microsoft weatherの運転時降雨nowcasting製品を支えるエンコーダ・フォアキャスター畳み込み型long short-term memory(lstm)ディープラーニングモデルを提案する。 このモデルは、気象レーダーモザイクのシーケンスを入力とし、リードタイムを最大6時間で将来のレーダー反射率を決定論的に予測する。 物理に基づく高分解能ラピッドリフレッシュ(HRRR)モデルを用いて,特徴次元に沿って大きな入力受容場を積み重ね,モデルの予測器を条件付けることで,すべてのリードタイムの平均値に対して,光学的フローとHRRRベースラインを20~25%上回ることができる。

We present the encoder-forecaster convolutional long short-term memory (LSTM) deep-learning model that powers Microsoft Weather's operational precipitation nowcasting product. This model takes as input a sequence of weather radar mosaics and deterministically predicts future radar reflectivity at lead times up to 6 hours. By stacking a large input receptive field along the feature dimension and conditioning the model's forecaster with predictions from the physics-based High Resolution Rapid Refresh (HRRR) model, we are able to outperform optical flow and HRRR baselines by 20-25% on multiple metrics averaged over all lead times.
翻訳日:2021-11-22 15:50:33 公開日:2021-11-18
# (参考訳) 土地被覆画像分類のための効率的な深層学習モデル

Efficient deep learning models for land cover image classification ( http://arxiv.org/abs/2111.09451v1 )

ライセンス: CC BY-SA 4.0
Ioannis Papoutsis, Nikolaos-Ioannis Bountos, Angelos Zavras, Dimitrios Michail, Christos Tryfonopoulos(参考訳) Copernicus Sentinel 画像の高容量化により、土地利用土地被覆(LULC)を大規模に深層学習でマッピングする新たな機会が生まれた。 しかし、このような大きなデータセットでのトレーニングは簡単な作業ではない。 本研究では,畳み込みニューラルネットワーク,多層パーセプトロン,視覚トランスフォーマ,効率ネット,広帯域残留ネットワーク(wrn)アーキテクチャなど,lulc画像分類とベンチマークのためのbigearthnetデータセットを実験した。 本研究の目的は,分類精度,訓練時間,推論率の活用である。 本稿では,ネットワークの奥行き,幅,入力データの解像度という観点から,wrnの複合スケーリングのための効率性に基づくフレームワークを提案し,異なるモデルのセットアップを効率的にトレーニングし,テストする。 本稿では,効率的なチャネルアテンション機構を備えたWRNアーキテクチャを設計する。 提案する軽量モデルは、訓練可能なパラメータが桁違いに小さく、平均的なFスコア分類精度が19のLULCクラスすべてに対して4.5%向上し、ベースラインとして使用するResNet50の2倍高速に訓練される。 トレーニングされた50以上のモデルへのアクセスと、複数のGPUノード上での分散トレーニングのためのコードを提供しています。

The availability of the sheer volume of Copernicus Sentinel imagery has created new opportunities for land use land cover (LULC) mapping at large scales using deep learning. Training on such large datasets though is a non-trivial task. In this work we experiment with the BigEarthNet dataset for LULC image classification and benchmark different state-of-the-art models, including Convolution Neural Networks, Multi-Layer Perceptrons, Visual Transformers, EfficientNets and Wide Residual Networks (WRN) architectures. Our aim is to leverage classification accuracy, training time and inference rate. We propose a framework based on EfficientNets for compound scaling of WRNs in terms of network depth, width and input data resolution, for efficiently training and testing different model setups. We design a novel scaled WRN architecture enhanced with an Efficient Channel Attention mechanism. Our proposed lightweight model has an order of magnitude less trainable parameters, achieves 4.5% higher averaged f-score classification accuracy for all 19 LULC classes and is trained two times faster with respect to a ResNet50 state-of-the-art model that we use as a baseline. We provide access to more than 50 trained models, along with our code for distributed training on multiple GPU nodes.
翻訳日:2021-11-19 23:59:56 公開日:2021-11-18
# (参考訳) 有人境界ボックスのないオープンボキャブラリ物体検出に向けて

Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes ( http://arxiv.org/abs/2111.09452v1 )

ライセンス: CC BY 4.0
Mingfei Gao, Chen Xing, Juan Carlos Niebles, Junnan Li, Ran Xu, Wenhao Liu, Caiming Xiong(参考訳) オブジェクト検出の進歩にもかかわらず、ほとんどの既存のメソッドは、インスタンスレベルのバウンディングボックスアノテーションに必要な膨大な人的労力のために、小さなオブジェクトカテゴリに限られています。 この問題を軽減するために、最近のオープン語彙とゼロショット検出法は、トレーニング中に見えない対象カテゴリを検出する。 しかし、これらのアプローチは、ベースクラスのセットに手動で境界ボックスアノテーションを提供している。 手動でバウンディングボックスアノテーションを指定せずにトレーニングできるオープン語彙検出フレームワークを提案する。 本手法は,事前学習した視覚言語モデルのローカライズ機能を活用し,直接対象検出器の訓練に使用できる擬似境界ボックスラベルを生成する。 COCO,PASCAL VOC,Objects365,LVISの実験結果から,本手法の有効性が示された。 具体的には、トレーニングソースに手動バウンディングボックスラベルが備わっていないにもかかわらず、COCOの新規カテゴリにおいて、人間のアノテーション付きバウンディングボックスを用いてトレーニングされた最先端技術(SOTA)を3%APで上回ります。 本手法は,手動バウンディングボックスラベルをベースラインとして利用する場合,ほぼ8%の精度でSOTAを超える。

Despite great progress in object detection, most existing methods are limited to a small set of object categories, due to the tremendous human effort needed for instance-level bounding-box annotation. To alleviate the problem, recent open vocabulary and zero-shot detection methods attempt to detect object categories not seen during training. However, these approaches still rely on manually provided bounding-box annotations on a set of base classes. We propose an open vocabulary detection framework that can be trained without manually provided bounding-box annotations. Our method achieves this by leveraging the localization ability of pre-trained vision-language models and generating pseudo bounding-box labels that can be used directly for training object detectors. Experimental results on COCO, PASCAL VOC, Objects365 and LVIS demonstrate the effectiveness of our method. Specifically, our method outperforms the state-of-the-arts (SOTA) that are trained using human annotated bounding-boxes by 3% AP on COCO novel categories even though our training source is not equipped with manual bounding-box labels. When utilizing the manual bounding-box labels as our baselines do, our method surpasses the SOTA largely by 8% AP.
翻訳日:2021-11-19 23:27:38 公開日:2021-11-18
# (参考訳) RoBERTuito: スペイン語のソーシャルメディアテキストのための事前訓練言語モデル

RoBERTuito: a pre-trained language model for social media text in Spanish ( http://arxiv.org/abs/2111.09453v1 )

ライセンス: CC BY 4.0
Juan Manuel P\'erez, Dami\'an A. Furman, Laura Alonso Alemany, Franco Luque(参考訳) BERTが登場して以来、トランスフォーマー言語モデルとトランスファーラーニングは自然言語理解タスクの最先端技術となっている。 近年では、科学論文や医学文書など、特定の分野の事前訓練、特製モデルに向けられた作品もある。 本稿では,スペイン語のユーザ生成コンテンツのための事前学習型言語モデルRoBERTuitoを紹介する。 スペイン語の5億ツイートでRoBERTuitoを訓練しました。 ユーザ生成テキストを含む4つのタスクのベンチマーク実験では、RoBERTuitoがスペイン語の事前学習言語モデルよりも優れていた。 さらなる研究を支援するため、RoBERTuitoをHuggingFaceモデルハブで公開しています。

Since BERT appeared, Transformer language models and transfer learning have become state-of-the-art for Natural Language Understanding tasks. Recently, some works geared towards pre-training, specially-crafted models for particular domains, such as scientific papers, medical documents, and others. In this work, we present RoBERTuito, a pre-trained language model for user-generated content in Spanish. We trained RoBERTuito on 500 million tweets in Spanish. Experiments on a benchmark of 4 tasks involving user-generated text showed that RoBERTuito outperformed other pre-trained language models for Spanish. In order to help further research, we make RoBERTuito publicly available at the HuggingFace model hub.
翻訳日:2021-11-19 23:12:53 公開日:2021-11-18
# (参考訳) 実写衛星画像作成のための自己獲得タスク生成支援ネットワーク

Self-Attending Task Generative Adversarial Network for Realistic Satellite Image Creation ( http://arxiv.org/abs/2111.09463v1 )

ライセンス: CC BY 4.0
Nathan Toner and Justin Fletcher(参考訳) 本稿では,satgan(self-attending task generative adversarial network)を紹介し,現実的ノイズパターンとセンサ特性を有する居住空間オブジェクトの合成ハイコントラスト科学画像の拡張問題に適用する。 これらの合成データの強化は、保存しなければならないデータにおけるセマンティックコンテンツの高度にローカライズされた性質のために難しい。 実際の収集画像は、特定のセンサーのイメージがどのようなものになるかをネットワークにトレーニングするために使用される。 トレーニングされたネットワークは、ノイズのないコンテキストイメージのフィルタとして機能し、セマンティックコンテンツを変更せずに現実的な偽物を出力する。 アーキテクチャは条件付きGANにインスパイアされているが、拡張を通じて意味情報を保存するタスクネットワークを含むように修正されている。 さらに、このアーキテクチャは、空間観察シーンを表す文脈画像における幻覚的対象の例や意味的内容の難読化を減少させる。

We introduce a self-attending task generative adversarial network (SATGAN) and apply it to the problem of augmenting synthetic high contrast scientific imagery of resident space objects with realistic noise patterns and sensor characteristics learned from collected data. Augmenting these synthetic data is challenging due to the highly localized nature of semantic content in the data that must be preserved. Real collected images are used to train a network what a given class of sensor's images should look like. The trained network then acts as a filter on noiseless context images and outputs realistic-looking fakes with semantic content unaltered. The architecture is inspired by conditional GANs but is modified to include a task network that preserves semantic information through augmentation. Additionally, the architecture is shown to reduce instances of hallucinatory objects or obfuscation of semantic content in context images representing space observation scenes.
翻訳日:2021-11-19 23:01:21 公開日:2021-11-18
# (参考訳) 複数の時間分解能におけるフレーム間動き分断による3次元リップイベント検出

3D Lip Event Detection via Interframe Motion Divergence at Multiple Temporal Resolutions ( http://arxiv.org/abs/2111.09485v1 )

ライセンス: CC BY 4.0
Jie Zhang and Robert B. Fisher(参考訳) 唇は、人が話しているときに支配的な動的顔ユニットである。 唇イベントの検出は音声分析や聴覚障害に対するサポートに有用である。 本稿では,3次元音声リップシーケンスから自動的に唇イベントを検出する3Dリップイベント検出パイプラインを提案する。 本研究では3次元唇ランドマークを用いて3次元唇のフレーム間ダイナミクスの定量化を行う。 次に,フレーム間動作検出をマルチタイムレゾリューション・フレームワークにキャストし,異なる発話速度に適用可能とした。 s3dfmデータセットにおける実験は,提案する動きの発散に基づく3次元リップダイナミクス全体の検討を行った。 提案する3dパイプラインは,100シーケンスにわたるリップイベントの開閉を検知し,最先端のパフォーマンスを実現する。

The lip is a dominant dynamic facial unit when a person is speaking. Detecting lip events is beneficial to speech analysis and support for the hearing impaired. This paper proposes a 3D lip event detection pipeline that automatically determines the lip events from a 3D speaking lip sequence. We define a motion divergence measure using 3D lip landmarks to quantify the interframe dynamics of a 3D speaking lip. Then, we cast the interframe motion detection in a multi-temporal-resolution framework that allows the detection to be applicable to different speaking speeds. The experiments on the S3DFM Dataset investigate the overall 3D lip dynamics based on the proposed motion divergence. The proposed 3D pipeline is able to detect opening and closing lip events across 100 sequences, achieving a state-of-the-art performance.
翻訳日:2021-11-19 22:51:59 公開日:2021-11-18
# (参考訳) 機械学習モデルにおける社会的要因関連性能バイアスの評価:ICU集団における高塩素血症予測の事例

Assessing Social Determinants-Related Performance Bias of Machine Learning Models: A case of Hyperchloremia Prediction in ICU Population ( http://arxiv.org/abs/2111.09507v1 )

ライセンス: CC BY 4.0
Songzi Liu, Yuan Luo(参考訳) 医学における機械学習は、豊富な医療データを活用して知識を抽出し、臨床的意思決定を促進し、最終的にはケアデリバリーを改善する。 しかし、人口の多様性に欠けるデータセットに基づいて訓練されたMLモデルは、少数民族(例えば少数民族、社会的経済的地位の低下)に適用された場合、最適以下のパフォーマンスをもたらす可能性がある。 本研究は,ICU集団におけるアグレッシブ流体投与による高塩素血症を予測するために構築された4つの分類器について評価し,人種,性別,保険サブグループの成績を比較した。 実験結果から,すべての患者に社会的決定要因を加えることで,モデル性能が向上した。 サブグループテストでは、44のモデルサブグループのうち40のAUCスコアが有意に異なっており、MLモデルを社会決定群に適用する場合の相違が示唆された。 将来の研究者は、潜在的なバイアスを積極的に調整し、研究にサブグループレポートを含めるモデルを設計するよう促す。

Machine learning in medicine leverages the wealth of healthcare data to extract knowledge, facilitate clinical decision-making, and ultimately improve care delivery. However, ML models trained on datasets that lack demographic diversity could yield suboptimal performance when applied to the underrepresented populations (e.g. ethnic minorities, lower social-economic status), thus perpetuating health disparity. In this study, we evaluated four classifiers built to predict Hyperchloremia - a condition that often results from aggressive fluids administration in the ICU population - and compared their performance in racial, gender, and insurance subgroups. We observed that adding social determinants features in addition to the lab-based ones improved model performance on all patients. The subgroup testing yielded significantly different AUC scores in 40 out of the 44 model-subgroup, suggesting disparities when applying ML models to social determinants subgroups. We urge future researchers to design models that proactively adjust for potential biases and include subgroup reporting in their studies.
翻訳日:2021-11-19 22:40:46 公開日:2021-11-18
# (参考訳) DeepGuard: 一貫性のない振る舞いから自律運転システムを保護するフレームワーク

DeepGuard: A Framework for Safeguarding Autonomous Driving Systems from Inconsistent Behavior ( http://arxiv.org/abs/2111.09533v1 )

ライセンス: CC BY 4.0
Manzoor Hussain, Nazakat Ali, and Jang-Eui Hong(参考訳) ディープニューラルネットワーク(DNN)ベースの自律運転システム(ADS)は、運転タスクからヒューマンエラーの要因を取り除くため、道路事故を減らし、交通領域の安全性を向上させることが期待されている。 dnnベースの広告は、事故を引き起こす可能性のある予期せぬ運転条件による誤った行動または予期しない行動を示すことがある。 全ての運転条件に対してDNNモデルの性能を一般化することは不可能である。 したがって、ADSの訓練中に考慮されなかった運転条件は、自動運転車の安全性に予測不可能な結果をもたらす可能性がある。 本研究では,自動エンコーダと時系列解析に基づく異常検出システムを提案する。 DeepGuardと呼ばれるアプローチは2つのコンポーネントで構成されています。 最初のコンポーネントである一貫性のない動作予測器は、自動エンコーダと時系列解析に基づいて駆動シナリオを再構築する。 復元誤差としきい値に基づいて、通常の運転シナリオと予期せぬ運転シナリオを決定し、潜在的な矛盾した振る舞いを予測する。 第2のコンポーネントは、ハエの安全ガード、すなわち、自動的に治癒戦略を活性化し、行動の不一致を防止する。 Udacityシミュレータで既に利用可能なDNNベースのADSを用いて、注入された異常運転シナリオの予測におけるDeepGuardの性能を評価した。 シミュレーションの結果、deepguardの最良のバージョンは、chauffeur広告の最大93%、dave2広告の83%、epoch広告モデルにおける一貫性のない行動の80%、そしてselforacleとdeeproadを上回っていることがわかった。 全体として、DeepGuardは事前に定義された安全ガードを実行することで、予測されたADSの不整合行動の最大99%を防止できる。

The deep neural networks (DNNs)based autonomous driving systems (ADSs) are expected to reduce road accidents and improve safety in the transportation domain as it removes the factor of human error from driving tasks. The DNN based ADS sometimes may exhibit erroneous or unexpected behaviors due to unexpected driving conditions which may cause accidents. It is not possible to generalize the DNN model performance for all driving conditions. Therefore, the driving conditions that were not considered during the training of the ADS may lead to unpredictable consequences for the safety of autonomous vehicles. This study proposes an autoencoder and time series analysis based anomaly detection system to prevent the safety critical inconsistent behavior of autonomous vehicles at runtime. Our approach called DeepGuard consists of two components. The first component, the inconsistent behavior predictor, is based on an autoencoder and time series analysis to reconstruct the driving scenarios. Based on reconstruction error and threshold it determines the normal and unexpected driving scenarios and predicts potential inconsistent behavior. The second component provides on the fly safety guards, that is, it automatically activates healing strategies to prevent inconsistencies in the behavior. We evaluated the performance of DeepGuard in predicting the injected anomalous driving scenarios using already available open sourced DNN based ADSs in the Udacity simulator. Our simulation results show that the best variant of DeepGuard can predict up to 93 percent on the CHAUFFEUR ADS, 83 percent on DAVE2 ADS, and 80 percent of inconsistent behavior on the EPOCH ADS model, outperforming SELFORACLE and DeepRoad. Overall, DeepGuard can prevent up to 89 percent of all predicted inconsistent behaviors of ADS by executing predefined safety guards.
翻訳日:2021-11-19 22:30:41 公開日:2021-11-18
# (参考訳) 新型コロナウイルスにおける人工知能の優位性

The Prominence of Artificial Intelligence in COVID-19 ( http://arxiv.org/abs/2111.09537v1 )

ライセンス: CC0 1.0
MD Abdullah Al Nasim, Aditi Dhali, Faria Afrin, Noshin Tasnim Zaman, Nazmul Karim(参考訳) 2019年12月、新型コロナウイルス(COVID-19)と呼ばれる新型ウイルスが大量の原因となった。 新型ウイルス「コロナウイルス」との闘いは、スペイン・インフルエンザの影響で激化している。 最前線の医師や医学研究者は、高度に連続したウイルスの拡散を抑えるために大きな進歩を遂げてきたが、技術も戦闘においてその重要性を証明している。 さらに、人工知能は多くの医学的応用で多くの病気の診断に採用されている。 そこで本研究では,早期・安価な診断方法として,医師や研究者を支援する手法について検討した。 ほとんどの途上国では、従来の方法でのテストが難しいが、機械学習やディープラーニングでは重要な方法が採用できる。 一方で、さまざまな種類の医療画像へのアクセスが研究者の動機となっている。 その結果,マンモス数が多い技術が提案されている。 本稿では,人工知能分野における従来の手法の背景知識について述べる。 その後、一般的に使用されるデータセットとそのユースケースを現在まで収集します。 さらに,深層学習よりも機械学習を採用する研究者の割合も示す。 したがって、我々はこのシナリオを徹底的に分析する。 最後に、研究課題として、covid-19研究で直面する課題を詳述し、明るく健全な環境を構築するための理解の問題点について論じる。

In December 2019, a novel virus called COVID-19 had caused an enormous number of causalities to date. The battle with the novel Coronavirus is baffling and horrifying after the Spanish Flu 2019. While the front-line doctors and medical researchers have made significant progress in controlling the spread of the highly contiguous virus, technology has also proved its significance in the battle. Moreover, Artificial Intelligence has been adopted in many medical applications to diagnose many diseases, even baffling experienced doctors. Therefore, this survey paper explores the methodologies proposed that can aid doctors and researchers in early and inexpensive methods of diagnosis of the disease. Most developing countries have difficulties carrying out tests using the conventional manner, but a significant way can be adopted with Machine and Deep Learning. On the other hand, the access to different types of medical images has motivated the researchers. As a result, a mammoth number of techniques are proposed. This paper first details the background knowledge of the conventional methods in the Artificial Intelligence domain. Following that, we gather the commonly used datasets and their use cases to date. In addition, we also show the percentage of researchers adopting Machine Learning over Deep Learning. Thus we provide a thorough analysis of this scenario. Lastly, in the research challenges, we elaborate on the problems faced in COVID-19 research, and we address the issues with our understanding to build a bright and healthy environment.
翻訳日:2021-11-19 22:11:30 公開日:2021-11-18
# (参考訳) 深層ニューラルネットワークを用いたct画像化モデルとその有効性

Deep neural networks-based denoising models for CT imaging and their efficacy ( http://arxiv.org/abs/2111.09539v1 )

ライセンス: CC0 1.0
Prabhat KC, Rongping Zeng, M. Mehdi Farhangi, Kyle J. Myers(参考訳) ディープニューラルネットワーク(DNN)をベースとしたCT画像のほとんどが、DNNがRMSE、PSNR、SSIMなどのメトリクスで従来の反復法よりも優れていることを示している。 多くの場合、同じメトリクスを使用して、低用量入力によるDNNの結果は、高用量入力と同等であることが示される。 しかし、これらの指標は、DNN結果が微妙な病変の視認性を維持するか、ノイズテクスチャなどのCT画像特性を変更するかは明らかにしない。 そこで本研究では,低線量ct画像に対する総合的な視点から,dnn結果の画質について検討する。 まず,先進的なDNN記述型アーキテクチャのライブラリを構築する。 このライブラリは、DnCNN、U-Net、Red-Net、GANなどのアーキテクチャを記述している。 次に、各ネットワークはトレーニングと同時にモデル化され、PSNRとSSIMの点で最高の性能が得られる。 これにより、データ入力(例えば、パッチサイズ、再構成カーネル)と数値最適化入力(例えば、ミニバッチサイズ、学習率、損失関数)が調整される。 最後に、トレーニングされたネットワークからの出力は、コントラスト依存MTF、NPS、HU精度などの一連のCTベンチテストメトリクスにさらに従属する。 これらのメトリクスは、DNN出力の低コントラスト特性、ノイズテクスチャ、CT番号の精度をより微妙に調べて、各DNNアルゴリズムが画像品質の基本的な特性に与える影響をよりよく理解するために使用される。

Most of the Deep Neural Networks (DNNs) based CT image denoising literature shows that DNNs outperform traditional iterative methods in terms of metrics such as the RMSE, the PSNR and the SSIM. In many instances, using the same metrics, the DNN results from low-dose inputs are also shown to be comparable to their high-dose counterparts. However, these metrics do not reveal if the DNN results preserve the visibility of subtle lesions or if they alter the CT image properties such as the noise texture. Accordingly, in this work, we seek to examine the image quality of the DNN results from a holistic viewpoint for low-dose CT image denoising. First, we build a library of advanced DNN denoising architectures. This library is comprised of denoising architectures such as the DnCNN, U-Net, Red-Net, GAN, etc. Next, each network is modeled, as well as trained, such that it yields its best performance in terms of the PSNR and SSIM. As such, data inputs (e.g. training patch-size, reconstruction kernel) and numeric-optimizer inputs (e.g. minibatch size, learning rate, loss function) are accordingly tuned. Finally, outputs from thus trained networks are further subjected to a series of CT bench testing metrics such as the contrast-dependent MTF, the NPS and the HU accuracy. These metrics are employed to perform a more nuanced study of the resolution of the DNN outputs' low-contrast features, their noise textures, and their CT number accuracy to better understand the impact each DNN algorithm has on these underlying attributes of image quality.
翻訳日:2021-11-19 22:10:26 公開日:2021-11-18
# (参考訳) DeBERTaV3: ELECTRA-Style Pre-TrainingによるDeBERTaの改善

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing ( http://arxiv.org/abs/2111.09543v1 )

ライセンス: CC BY 4.0
Pengcheng He, Jianfeng Gao and Weizhu Chen(参考訳) 本稿では,マスク言語モデリング(MLM)を,よりサンプル効率の高い事前学習タスクであるRTDに置き換えることで,従来のDeBERTaモデルを改善する新しい事前学習言語モデルであるDeBERTaV3を提案する。 ELECTRAにおけるバニラ埋め込み共有は,訓練効率とモデル性能を損なうことが示された。 これは、ディスクリミネータとジェネレータのプルトークンのトレーニング損失が異なる方向に埋め込み、"綱引き"のダイナミクスを生成するためである。 そこで本研究では,タッグ・オブ・ウォーのダイナミクスを回避し,トレーニング効率と事前学習モデルの質を両立させる,新しい勾配偏角埋め込み共有法を提案する。 我々はDeBERTaV3をDeBERTaと同じ設定で事前訓練し、広範囲の下流自然言語理解(NLU)タスクにおいて例外的な性能を示す。 GLUEベンチマークを例に挙げると、DeBERTaV3 Largeモデルは平均スコア91.37%で、DeBERTaは1.37%、ELECTRAは1.91%で、同様の構造を持つモデルに新しい最先端(SOTA)が設定されている。 さらに,多言語モデルmdebertaを事前学習し,英語モデルに比べて強いベースラインよりも大きな改善が見られた。 例えば、mDeBERTa Baseは、XNLIで79.8%のゼロショットのクロスランガル精度を達成し、XLM-R Baseで3.6%改善した。 トレーニング済みのモデルと推論コードをhttps://github.com/microsoft/DeBERTaで公開しました。

This paper presents a new pre-trained language model, DeBERTaV3, which improves the original DeBERTa model by replacing mask language modeling (MLM) with replaced token detection (RTD), a more sample-efficient pre-training task. Our analysis shows that vanilla embedding sharing in ELECTRA hurts training efficiency and model performance. This is because the training losses of the discriminator and the generator pull token embeddings in different directions, creating the "tug-of-war" dynamics. We thus propose a new gradient-disentangled embedding sharing method that avoids the tug-of-war dynamics, improving both training efficiency and the quality of the pre-trained model. We have pre-trained DeBERTaV3 using the same settings as DeBERTa to demonstrate its exceptional performance on a wide range of downstream natural language understanding (NLU) tasks. Taking the GLUE benchmark with eight tasks as an example, the DeBERTaV3 Large model achieves a 91.37% average score, which is 1.37% over DeBERTa and 1.91% over ELECTRA, setting a new state-of-the-art (SOTA) among the models with a similar structure. Furthermore, we have pre-trained a multi-lingual model mDeBERTa and observed a larger improvement over strong baselines compared to English models. For example, the mDeBERTa Base achieves a 79.8% zero-shot cross-lingual accuracy on XNLI and a 3.6% improvement over XLM-R Base, creating a new SOTA on this benchmark. We have made our pre-trained models and inference code publicly available at https://github.com/microsoft/DeBERTa.
翻訳日:2021-11-19 21:53:32 公開日:2021-11-18
# (参考訳) c-oph:循環置換によるone permutation hashing (oph)の精度向上

C-OPH: Improving the Accuracy of One Permutation Hashing (OPH) with Circulant Permutations ( http://arxiv.org/abs/2111.09544v1 )

ライセンス: CC BY 4.0
Xiaoyun Li and Ping Li(参考訳) Minwise hashing(MinHash)は、大規模バイナリ(0/1)データのJaccrad類似性を効率的に推定する古典的な手法である。 データベクトルごとに$K$ハッシュ値を生成するには、MinHashの標準理論は$K$独立置換を必要とする。 興味深いことに、"circulant MinHash"(C-MinHash)に関する最近の研究は、2つの置換しか必要ないことを示している。 第1の置換はデータの構造を破り、第2の置換は循環的に$K$時間に再使用される。 驚いたことに、C-MinHashの推定精度はオリジナルのMinHashよりも厳密に小さいことが証明された。 より最近の研究は、事実上1つの置換しか必要ないことを証明している。 なお、C-MinHash は NIPS'12 で発表された "One Permutation Hashing (OPH)" の有名な作品とは異なる。 OPHとその変種は、標準のMinHashの代替として人気がある。 One Permutation Hashingに存在する空のビンを扱うには、デンシフィケーションステップが必要である。 本稿では,C-MinHashの基本的な考え方を取り入れ,一置換ハッシュの精度を向上させることを提案する。 基本的に,既存のOPHの密度化手法と比較して最小の推定分散を実現する新しいOPHの密度化法を開発した。 提案手法はC-OPH (Circulant OPH) と呼ばれる。 最初の置換(データの既存の構造を壊す)の後、C-OPHは長さ$D/K$($D$の代わりに)の"shorter"の置換しか必要とせず、$D$は元のデータ次元であり、$K$はOPHのビンの総数である。 この短い置換は、循環シフト方式で$K$ビンで再使用される。 ジャカード類似度の推定分散は、既存の(同定された) OPH 法よりも厳密に小さいことを示すことができる。

Minwise hashing (MinHash) is a classical method for efficiently estimating the Jaccrad similarity in massive binary (0/1) data. To generate $K$ hash values for each data vector, the standard theory of MinHash requires $K$ independent permutations. Interestingly, the recent work on "circulant MinHash" (C-MinHash) has shown that merely two permutations are needed. The first permutation breaks the structure of the data and the second permutation is re-used $K$ time in a circulant manner. Surprisingly, the estimation accuracy of C-MinHash is proved to be strictly smaller than that of the original MinHash. The more recent work further demonstrates that practically only one permutation is needed. Note that C-MinHash is different from the well-known work on "One Permutation Hashing (OPH)" published in NIPS'12. OPH and its variants using different "densification" schemes are popular alternatives to the standard MinHash. The densification step is necessary in order to deal with empty bins which exist in One Permutation Hashing. In this paper, we propose to incorporate the essential ideas of C-MinHash to improve the accuracy of One Permutation Hashing. Basically, we develop a new densification method for OPH, which achieves the smallest estimation variance compared to all existing densification schemes for OPH. Our proposed method is named C-OPH (Circulant OPH). After the initial permutation (which breaks the existing structure of the data), C-OPH only needs a "shorter" permutation of length $D/K$ (instead of $D$), where $D$ is the original data dimension and $K$ is the total number of bins in OPH. This short permutation is re-used in $K$ bins in a circulant shifting manner. It can be shown that the estimation variance of the Jaccard similarity is strictly smaller than that of the existing (densified) OPH methods.
翻訳日:2021-11-19 21:30:59 公開日:2021-11-18
# (参考訳) comet: エラーバウンド損失圧縮を用いた新しいメモリ効率の高いディープラーニングトレーニングフレームワーク

COMET: A Novel Memory-Efficient Deep Learning Training Framework by Using Error-Bounded Lossy Compression ( http://arxiv.org/abs/2111.09562v1 )

ライセンス: CC BY 4.0
Sian Jin, Chengming Zhang, Xintong Jiang, Yunhe Feng, Hui Guan, Guanpeng Li, Shuaiwen Leon Song, Dingwen Tao(参考訳) 広い深層ニューラルネットワーク(DNN)のトレーニングには、前方伝播中に中間活性化データをメモリに保存し、後方伝播のために復元する必要があるため、メモリなどの大量のストレージリソースが必要になる。 しかし、GPUのような最先端のアクセラレータは、ハードウェア設計の制約によりメモリ容量が非常に限られており、大規模なDNNをトレーニングする際の最大バッチサイズを著しく制限している。 従来のメモリセーブ技術は性能上のオーバーヘッドに悩まされるか、限られた帯域幅または特定の相互接続技術によって制約される。 本稿では,エラーバウンドの損失圧縮を利用したメモリ効率の高いCNNトレーニングフレームワーク(COMET)を提案し,トレーニングのメモリ要求を大幅に低減し,より大きなモデルをトレーニングしたり,トレーニングを高速化する。 画像ベースの損失圧縮機(JPEGなど)を用いてアクティベーションデータを圧縮する最先端のソリューションとは違って,我々のフレームワークは,厳密なエラー制御機構を備えたエラーバウンド損失圧縮を意図的に採用している。 具体的には,変化したアクティベーションデータから勾配への圧縮誤差伝播に関する理論的解析を行い,学習過程における変化勾配の影響を実験的に検討する。 これらの解析に基づいて,エラーバウンド損失圧縮を最適化し,アクティベーションデータ圧縮のための適応型エラーバウンド制御方式を提案する。 我々は5つの広く登録されたCNNとImageNetデータセットによる最先端のソリューションに対する設計を評価する。 実験により,提案フレームワークは,ベースライントレーニングよりも最大13.5倍,他の最先端圧縮ベースフレームワークよりも1.8倍のトレーニングメモリ使用量を大幅に削減できることを示した。

Training wide and deep neural networks (DNNs) require large amounts of storage resources such as memory because the intermediate activation data must be saved in the memory during forward propagation and then restored for backward propagation. However, state-of-the-art accelerators such as GPUs are only equipped with very limited memory capacities due to hardware design constraints, which significantly limits the maximum batch size and hence performance speedup when training large-scale DNNs. Traditional memory saving techniques either suffer from performance overhead or are constrained by limited interconnect bandwidth or specific interconnect technology. In this paper, we propose a novel memory-efficient CNN training framework (called COMET) that leverages error-bounded lossy compression to significantly reduce the memory requirement for training, to allow training larger models or to accelerate training. Different from the state-of-the-art solutions that adopt image-based lossy compressors (such as JPEG) to compress the activation data, our framework purposely adopts error-bounded lossy compression with a strict error-controlling mechanism. Specifically, we perform a theoretical analysis on the compression error propagation from the altered activation data to the gradients, and empirically investigate the impact of altered gradients over the training process. Based on these analyses, we optimize the error-bounded lossy compression and propose an adaptive error-bound control scheme for activation data compression. We evaluate our design against state-of-the-art solutions with five widely-adopted CNNs and ImageNet dataset. Experiments demonstrate that our proposed framework can significantly reduce the training memory consumption by up to 13.5X over the baseline training and 1.8X over another state-of-the-art compression-based framework, respectively, with little or no accuracy loss.
翻訳日:2021-11-19 21:11:06 公開日:2021-11-18
# (参考訳) LAnoBERT : BERT Masked Language Modelに基づくシステムログ異常検出

LAnoBERT : System Log Anomaly Detection based on BERT Masked Language Model ( http://arxiv.org/abs/2111.09564v1 )

ライセンス: CC BY 4.0
Yukyung Lee, Jina Kim and Pilsung Kang(参考訳) コンピュータシステムで生成されたシステムログは、同時に収集され、単純なエラーを判定し、外部の逆侵入やインサイダーの異常行動を検出するための基本データとして使用される大規模データを指す。 システムログ異常検出の目的は、人間の介入を最小限に抑えながら異常を迅速に特定することである。 従来の研究では,様々なログデータを解析器を用いて標準化テンプレートに変換し,アルゴリズムによる異常検出を行った。 これらのメソッドは、ログキーを書き換えるためのテンプレートを生成する。 特に,ログキー内の情報が失われる可能性のあるすべてのログデータに対して,特定のイベントに対応するテンプレートを事前に定義する必要がある。本研究では,BERTモデルを用いたパーサフリーシステムログ異常検出手法であるLAnoBERTを提案する。 提案手法であるLAnoBERTは,BERTに基づく事前学習手法であるマスク付き言語モデリングを用いてモデルを学習し,推論処理中にログキーワードあたりのマスク付き言語モデリング損失関数を用いて教師なし学習に基づく異常検出を行う。 LAnoBERTは、ベンチマークログデータセット、HDFS、BGLを使用して実施された実験において、従来の方法論よりも優れたパフォーマンスを実現し、また、教師付き学習ベースモデルと比較した。

The system log generated in a computer system refers to large-scale data that are collected simultaneously and used as the basic data for determining simple errors and detecting external adversarial intrusion or the abnormal behaviors of insiders. The aim of system log anomaly detection is to promptly identify anomalies while minimizing human intervention, which is a critical problem in the industry. Previous studies performed anomaly detection through algorithms after converting various forms of log data into a standardized template using a parser. These methods involved generating a template for refining the log key. Particularly, a template corresponding to a specific event should be defined in advance for all the log data using which the information within the log key may get lost.In this study, we propose LAnoBERT, a parser free system log anomaly detection method that uses the BERT model, exhibiting excellent natural language processing performance. The proposed method, LAnoBERT, learns the model through masked language modeling, which is a BERT-based pre-training method, and proceeds with unsupervised learning-based anomaly detection using the masked language modeling loss function per log key word during the inference process. LAnoBERT achieved better performance compared to previous methodology in an experiment conducted using benchmark log datasets, HDFS, and BGL, and also compared to certain supervised learning-based models.
翻訳日:2021-11-19 20:47:15 公開日:2021-11-18
# (参考訳) マルチモーダル関節防御によるロバストな人物再同定

Robust Person Re-identification with Multi-Modal Joint Defence ( http://arxiv.org/abs/2111.09571v1 )

ライセンス: CC BY 4.0
Yunpeng Gong and Lifei Chen(参考訳) メトリック学習に基づくperson re-identification(reid)システムは、adversarailメトリックアタックによって簡単に騙されるディープニューラルネットワーク(dnn)の脆弱性を継承することが証明されている。 既存の研究は主にメートル法防衛のための敵の訓練に依存しており、多くの手法が研究されていない。 本研究は,攻撃が基礎となる特徴に与える影響を探索し,メトリック攻撃と防御手法のターゲット手法を提案する。 メトリックアタックの観点からは、入力のクラス内変動を構築して色特徴を攻撃するために、局所的な色偏差を用いる。 メートル法防衛の観点からは,プロアクティブ防御とパッシブ防御の2つの部分を含む共同防衛手法を提案する。 積極的防御は、マルチモーダル画像からの異なる入力を構築することで、モデルの色変化に対する堅牢性や構造関係の学習を促進するのに役立ち、受動的防御は、回路的スケーリングによって変化する画素空間における構造的特徴の不変性を利用して、いくつかの対向ノイズを排除し、構造的特徴の保存を行う。 広範な実験により,提案手法は,複数の攻撃に対して同時に行うだけでなく,モデルの一般化能力を大幅に低下させることなく,既存の敵対的距離防衛手法と比較できることを示した。 コードはhttps://github.com/finger-monkey/multi-modal_joint_defenceで入手できる。

The Person Re-identification (ReID) system based on metric learning has been proved to inherit the vulnerability of deep neural networks (DNNs), which are easy to be fooled by adversarail metric attacks. Existing work mainly relies on adversarial training for metric defense, and more methods have not been fully studied. By exploring the impact of attacks on the underlying features, we propose targeted methods for metric attacks and defence methods. In terms of metric attack, we use the local color deviation to construct the intra-class variation of the input to attack color features. In terms of metric defenses, we propose a joint defense method which includes two parts of proactive defense and passive defense. Proactive defense helps to enhance the robustness of the model to color variations and the learning of structure relations across multiple modalities by constructing different inputs from multimodal images, and passive defense exploits the invariance of structural features in a changing pixel space by circuitous scaling to preserve structural features while eliminating some of the adversarial noise. Extensive experiments demonstrate that the proposed joint defense compared with the existing adversarial metric defense methods which not only against multiple attacks at the same time but also has not significantly reduced the generalization capacity of the model. The code is available at https://github.com/finger-monkey/multi-modal_joint_defence.
翻訳日:2021-11-19 20:26:39 公開日:2021-11-18
# (参考訳) ALBERTはどんな感情的安定か? 感性分析課題における確率重み平均化によるロバストネスの検証

How Emotionally Stable is ALBERT? Testing Robustness with Stochastic Weight Averaging on a Sentiment Analysis Task ( http://arxiv.org/abs/2111.09612v1 )

ライセンス: CC BY 4.0
Urja Khurana, Eric Nalisnick, Antske Fokkens(参考訳) 彼らの成功にもかかわらず、現代の言語モデルは脆弱です。 トレーニングパイプラインの小さな変更でも、予期しない結果につながる可能性がある。 感情分析タスク(sst-2)におけるalbert(arxiv:1909.11942)と確率的重量平均化(swa)(arxiv:1803.05407)のロバスト性について検討した。 特に,swaの安定性をチェックリストの基準(arxiv:2005.04118)で分析し,ランダムシードでのみ異なるモデルによる誤差の一致について検討した。 SWAは勾配降下軌道に沿って撮影されるモデルスナップショットをアンサンブルするため、より安定していると仮定する。 モデルの誤りをfleiss' kappa(fleiss, 1971)とオーバーラップ比スコアと比較することで安定性を定量化する。 SWAは一般的にエラー率を低下させるが、モデルはそれぞれ独自のバイアスを被っている(CheckListによると)。

Despite their success, modern language models are fragile. Even small changes in their training pipeline can lead to unexpected results. We study this phenomenon by examining the robustness of ALBERT (arXiv:1909.11942) in combination with Stochastic Weight Averaging (SWA) (arXiv:1803.05407) -- a cheap way of ensembling -- on a sentiment analysis task (SST-2). In particular, we analyze SWA's stability via CheckList criteria (arXiv:2005.04118), examining the agreement on errors made by models differing only in their random seed. We hypothesize that SWA is more stable because it ensembles model snapshots taken along the gradient descent trajectory. We quantify stability by comparing the models' mistakes with Fleiss' Kappa (Fleiss, 1971) and overlap ratio scores. We find that SWA reduces error rates in general; yet the models still suffer from their own distinct biases (according to CheckList).
翻訳日:2021-11-19 20:13:46 公開日:2021-11-18
# (参考訳) 共用アスペクトに基づく感情分析モデルにおける共通だが識別可能な差異を求める

Seeking Common but Distinguishing Difference, A Joint Aspect-based Sentiment Analysis Model ( http://arxiv.org/abs/2111.09634v1 )

ライセンス: CC BY 4.0
Hongjiang Jing, Zuchao Li, Hai Zhao and Shu Jiang(参考訳) アスペクトベース感情分析(ABSA)タスクは、アスペクト項抽出、意見項抽出、感情極性分類の3つの典型的なサブタスクから構成される。 これら3つのサブタスクは通常、リソースの節約とパイプライン内のエラー伝搬の低減のために共同で実行される。 しかし、既存のジョイントモデルのほとんどは、サブタスク間のエンコーダ共有の利点のみに焦点を当てているが、違いは無視されている。 そこで本研究では,エンコーダ共有のメリットを享受するだけでなく,モデルの有効性向上のための差分に着目した共同ABSAモデルを提案する。 具体的には,ペアエンコーダが候補アスペクト-オピニオンペアの分類に特に注目し,元のエンコーダがシーケンスラベリングに注目しているデュアルエンコーダ設計を提案する。 実験の結果,提案モデルが頑健性を示し,従来の4つのベンチマークデータセットよりも大幅に優れていた。

Aspect-based sentiment analysis (ABSA) task consists of three typical subtasks: aspect term extraction, opinion term extraction, and sentiment polarity classification. These three subtasks are usually performed jointly to save resources and reduce the error propagation in the pipeline. However, most of the existing joint models only focus on the benefits of encoder sharing between subtasks but ignore the difference. Therefore, we propose a joint ABSA model, which not only enjoys the benefits of encoder sharing but also focuses on the difference to improve the effectiveness of the model. In detail, we introduce a dual-encoder design, in which a pair encoder especially focuses on candidate aspect-opinion pair classification, and the original encoder keeps attention on sequence labeling. Empirical results show that our proposed model shows robustness and significantly outperforms the previous state-of-the-art on four benchmark datasets.
翻訳日:2021-11-19 19:56:22 公開日:2021-11-18
# (参考訳) 画像のデハージングに必要な密度の認識とモデリング

Perceiving and Modeling Density is All You Need for Image Dehazing ( http://arxiv.org/abs/2111.09733v1 )

ライセンス: CC0 1.0
Tian Ye, Mingchao Jiang, Yunchen Zhang, Liang Chen, Erkang Chen, Pen Chen, Zhiyong Lu(参考訳) 実世界では、ヘイズの下で撮影された画像の劣化は非常に複雑であり、ヘイズの空間分布は画像によって異なる。 近年の手法では、深層ニューラルネットワークを用いて、ぼんやりとした画像から直接クリーンなシーンを復元している。 しかし, 実写ヘイズ画像における実写ヘイズ分布の変動によるパラドックスや, 現在のネットワークの固定劣化パラメータによるパラドックスにより, 実写ヘイズ画像に対する最近のデヘイズ手法の一般化能力は理想的ではなく, 実写ヘイズ劣化をモデル化する問題に対処するために, 不均一ヘイズ分布の密度を知覚し, モデル化することでこの問題を解決することを提案する。 本稿では,この目的を達成するために,直交方向の特徴を捉えることで,ヘイズ密度を符号化する新たなSHAモジュールを提案する。 さらに,Hazeの不均一分布を明示的にモデル化する密度写像を提案する。 密度マップは半教師あり方式で位置符号化を生成する。 このようなヘイズ密度の知覚とモデリングは、不均等に分散したデジェネレーションを効果的に特徴レベルで捉える。 SHAと密度マップの適切な組み合わせにより、我々は、高い複雑性と性能のトレードオフを実現する新しいデハージングネットワークアーキテクチャを設計する。 2つの大規模データセットに関する広範な実験により、我々の手法は、定量的にも定性的にも、すべての最先端アプローチを定量的に上回り、最高のPSNRメトリックをHaze4kテストデータセットで28.53dBから33.49dB、SOTS屋内テストデータセットで37.17dBから38.41dBに引き上げることを示した。

In the real world, the degradation of images taken under haze can be quite complex, where the spatial distribution of haze is varied from image to image. Recent methods adopt deep neural networks to recover clean scenes from hazy images directly. However, due to the paradox caused by the variation of real captured haze and the fixed degradation parameters of the current networks, the generalization ability of recent dehazing methods on real-world hazy images is not ideal.To address the problem of modeling real-world haze degradation, we propose to solve this problem by perceiving and modeling density for uneven haze distribution. We propose a novel Separable Hybrid Attention (SHA) module to encode haze density by capturing features in the orthogonal directions to achieve this goal. Moreover, a density map is proposed to model the uneven distribution of the haze explicitly. The density map generates positional encoding in a semi-supervised way. Such a haze density perceiving and modeling capture the unevenly distributed degeneration at the feature level effectively. Through a suitable combination of SHA and density map, we design a novel dehazing network architecture, which achieves a good complexity-performance trade-off. The extensive experiments on two large-scale datasets demonstrate that our method surpasses all state-of-the-art approaches by a large margin both quantitatively and qualitatively, boosting the best published PSNR metric from 28.53 dB to 33.49 dB on the Haze4k test dataset and from 37.17 dB to 38.41 dB on the SOTS indoor test dataset.
翻訳日:2021-11-19 19:37:09 公開日:2021-11-18
# (参考訳) ClipCap: イメージキャプションのためのCLIPプリフィックス

ClipCap: CLIP Prefix for Image Captioning ( http://arxiv.org/abs/2111.09734v1 )

ライセンス: CC BY 4.0
Ron Mokady, Amir Hertz, and Amit H. Bermano(参考訳) 画像キャプションは、与えられた入力画像に対するテキスト情報キャプションを予測する視覚言語理解の基本的なタスクである。 本稿では,この課題に対処するための簡単なアプローチを提案する。 簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。 最近提案されたCLIPモデルには、テキストコンテキストでトレーニングされたリッチなセマンティック機能が含まれており、視覚言語知覚に最適である。 我々のキーとなる考え方は、事前学習された言語モデル(GPT2)とともに、視覚データとテキストデータの両方を広く理解することである。 したがって、我々のアプローチは、有能なキャプションモデルを作成するために、かなり速い訓練しか必要としない。 追加のアノテーションや事前トレーニングなしで、大規模で多様なデータセットに対して意味のあるキャプションを効率的に生成する。 驚いたことに、我々の手法はマッピングネットワークのみをトレーニングしてもうまく機能するが、CLIPと言語モデルの両方は凍結され、トレーニング可能なパラメータの少ない軽量アーキテクチャを実現している。 定量的評価により,本モデルはよりシンプルで高速で軽量な概念キャプションとnocapsデータセットにおいて,最先端の手法に匹敵する結果が得られることを示した。 私たちのコードはhttps://github.com/rmokady/CLIP_prefix_captionで利用可能です。

Image captioning is a fundamental task in vision-language understanding, where the model predicts a textual informative caption to a given input image. In this paper, we present a simple approach to address this task. We use CLIP encoding as a prefix to the caption, by employing a simple mapping network, and then fine-tunes a language model to generate the image captions. The recently proposed CLIP model contains rich semantic features which were trained with textual context, making it best for vision-language perception. Our key idea is that together with a pre-trained language model (GPT2), we obtain a wide understanding of both visual and textual data. Hence, our approach only requires rather quick training to produce a competent captioning model. Without additional annotations or pre-training, it efficiently generates meaningful captions for large-scale and diverse datasets. Surprisingly, our method works well even when only the mapping network is trained, while both CLIP and the language model remain frozen, allowing a lighter architecture with less trainable parameters. Through quantitative evaluation, we demonstrate our model achieves comparable results to state-of-the-art methods on the challenging Conceptual Captions and nocaps datasets, while it is simpler, faster, and lighter. Our code is available in https://github.com/rmokady/CLIP_prefix_caption.
翻訳日:2021-11-19 19:24:34 公開日:2021-11-18
# (参考訳) 重みマップと動的ユーザインタラクションを用いたu-netを用いたインタラクティブセグメンテーション

Interactive segmentation using U-Net with weight map and dynamic user interactions ( http://arxiv.org/abs/2111.09740v1 )

ライセンス: CC BY 4.0
Ragavie Pirabaharan and Naimul Khan(参考訳) 対話型セグメンテーションは、セグメンテーション性能をさらに向上させるためにエキスパートインプットを必要とする特殊なタスクに注目されている。 本研究では,ユーザクリックを現在のセグメンテーションマスクに基づいて動的にサイズに適応させる対話型セグメンテーションフレームワークを提案する。 クリックされた領域は重みマップを形成し、新しい重み付き損失関数としてディープニューラルネットワークに供給される。 損失関数を評価するために,前景と背景クリックの両方を主操作として適用する対話型u-net(iu-net)モデルを採用する。 重み付き損失関数を用いた標準U-Netと比較して,MSDデータセットからの脾・結腸癌CT画像を用いて,BCVデータセットのトレーニングと検証を行い,全体のセグメンテーション精度を向上させる。 動的なユーザクリックサイズを適用すると、それぞれ5.60%と10.39%の精度が向上する。

Interactive segmentation has recently attracted attention for specialized tasks where expert input is required to further enhance the segmentation performance. In this work, we propose a novel interactive segmentation framework, where user clicks are dynamically adapted in size based on the current segmentation mask. The clicked regions form a weight map and are fed to a deep neural network as a novel weighted loss function. To evaluate our loss function, an interactive U-Net (IU-Net) model which applies both foreground and background user clicks as the main method of interaction is employed. We train and validate on the BCV dataset, while testing on spleen and colon cancer CT images from the MSD dataset to improve the overall segmentation accuracy in comparison to the standard U-Net using our weighted loss function. Applying dynamic user click sizes increases the overall accuracy by 5.60% and 10.39% respectively by utilizing only a single user interaction.
翻訳日:2021-11-19 19:09:23 公開日:2021-11-18
# (参考訳) cover information disentanglement: unbiased permutation importanceによるモデルの透明性

Covered Information Disentanglement: Model Transparency via Unbiased Permutation Importance ( http://arxiv.org/abs/2111.09744v1 )

ライセンス: CC BY-SA 4.0
Jo\~ao Pereira and Erik S.G. Stroes and Aeilko H. Zwinderman and Evgeni Levin(参考訳) モデルの透明性は、多くのドメインにおいて必須条件であり、機械学習研究でますます人気が高まっている分野である。 例えば、医学領域では、疾患の背後にあるメカニズムを明らかにすることは、治療や研究の方向性を指示する可能性があるため、診断自体よりも優先度が高いことが多い。 モデルグローバル予測を説明する最も一般的なアプローチの1つは、順列データのパフォーマンスがベースラインに対してベンチマークされる順列の重要性である。 しかし,本手法や他の関連手法は,提供情報の一部をカバーしているため,共変量の存在下での特徴の重要性を過小評価する。 そこで本研究では,すべての特徴情報を重ね合わせて置換重要度によって提供された値を補正する手法であるcovered information disentanglement (cid)を提案する。 さらに,マルコフ確率場と組み合わせてCIDを効率的に計算する方法を示す。 まず,コントロールトイデータセット上での順応重要度調整の効果を実証し,実世界医療データへの影響について考察する。

Model transparency is a prerequisite in many domains and an increasingly popular area in machine learning research. In the medical domain, for instance, unveiling the mechanisms behind a disease often has higher priority than the diagnostic itself since it might dictate or guide potential treatments and research directions. One of the most popular approaches to explain model global predictions is the permutation importance where the performance on permuted data is benchmarked against the baseline. However, this method and other related approaches will undervalue the importance of a feature in the presence of covariates since these cover part of its provided information. To address this issue, we propose Covered Information Disentanglement (CID), a method that considers all feature information overlap to correct the values provided by permutation importance. We further show how to compute CID efficiently when coupled with Markov random fields. We demonstrate its efficacy in adjusting permutation importance first on a controlled toy dataset and discuss its effect on real-world medical data.
翻訳日:2021-11-19 19:02:02 公開日:2021-11-18
# (参考訳) オープン知識グラフを用いた言語横断プラジャリズムの検出

Detecting Cross-Language Plagiarism using Open Knowledge Graphs ( http://arxiv.org/abs/2111.09749v1 )

ライセンス: CC BY 4.0
Johannes Stegm\"uller, Fabian Bauer-Marquart, Norman Meuschke, Terry Ruas, Moritz Schubotz, Bela Gipp(参考訳) 言語横断プラジャリズムの特定は、特に遠方の言語対や意味のある翻訳において困難である。 本稿では,多言語検索モデルであるCL-Language Ontology-Based similarity Analysis (CL\nobreakdash-OSA)を提案する。 CL-OSAはオープン知識グラフWikidataから得られたエンティティベクトルとして文書を表す。 他の方法とは異なり、cl\nobreakdash-osaは計算コストの高い機械翻訳を必要としない。 ホモニムとスケールを確実に曖昧にし、Webスケールのドキュメントコレクションに適用できるようにします。 CL-OSAは,日本語のような遠い言語対を含む5つの大規模かつ多種多様なテストコーパスから,候補文書を検索するための最先端手法よりも優れていることを示す。 言語横断プラジャリズムを文字レベルで識別するために、CL-OSAは主にセンス・フォー・センス翻訳の検出を改善している。 これらの困難なケースでは、CL-OSAが確立したPagDetスコアは、第2因子以上で最高の競合相手のスコアを上回っている。 私たちの研究のコードとデータは公開されています。

Identifying cross-language plagiarism is challenging, especially for distant language pairs and sense-for-sense translations. We introduce the new multilingual retrieval model Cross-Language Ontology-Based Similarity Analysis (CL\nobreakdash-OSA) for this task. CL-OSA represents documents as entity vectors obtained from the open knowledge graph Wikidata. Opposed to other methods, CL\nobreakdash-OSA does not require computationally expensive machine translation, nor pre-training using comparable or parallel corpora. It reliably disambiguates homonyms and scales to allow its application to Web-scale document collections. We show that CL-OSA outperforms state-of-the-art methods for retrieving candidate documents from five large, topically diverse test corpora that include distant language pairs like Japanese-English. For identifying cross-language plagiarism at the character level, CL-OSA primarily improves the detection of sense-for-sense translations. For these challenging cases, CL-OSA's performance in terms of the well-established PlagDet score exceeds that of the best competitor by more than factor two. The code and data of our study are openly available.
翻訳日:2021-11-19 18:42:38 公開日:2021-11-18
# (参考訳) 変分オートエンコーディングによるcsiクラスタリング

CSI Clustering with Variational Autoencoding ( http://arxiv.org/abs/2111.09758v1 )

ライセンス: CC BY 4.0
Michael Baur, Michael W\"urth, Vlad-Costin Andrei, Michael Koller, Wolfgang Utschick(参考訳) 無線チャネルのモデル順序は、通信工学における様々な応用において重要な役割を果たし、例えば、送信機から受信機への非無視的な電力入射を伴う解決可能なインシデント・ウェーブフロントの数を表す。 到着方向推定のような領域は、チャネル状態情報のマルチパス成分を分析するためにモデル順序を利用する。 本研究では,変分オートエンコーダの潜在空間におけるモデル順序に関するラベルなしチャネル状態情報を教師なしでグループ化する変分オートエンコーダを提案する。 シミュレーションによる3gppチャネルデータによる検証を行った。 この結果から, 適切なクラスタリングを学習するためには, 標準アプリケーションの場合よりも, 可変オートエンコーダデコーダに柔軟な確率モデルを用いることが重要であることが示唆された。

The model order of a wireless channel plays an important role for a variety of applications in communications engineering, e.g., it represents the number of resolvable incident wavefronts with non-negligible power incident from a transmitter to a receiver. Areas such as direction of arrival estimation leverage the model order to analyze the multipath components of channel state information. In this work, we propose to use a variational autoencoder to group unlabeled channel state information with respect to the model order in the variational autoencoder latent space in an unsupervised manner. We validate our approach with simulated 3GPP channel data. Our results suggest that, in order to learn an appropriate clustering, it is crucial to use a more flexible likelihood model for the variational autoencoder decoder than it is usually the case in standard applications.
翻訳日:2021-11-19 18:22:12 公開日:2021-11-18
# (参考訳) ハイブリッドスーパーインテリジェンスとポリメトリック解析

Hybrid Super Intelligence and Polymetric Analysis ( http://arxiv.org/abs/2111.09762v1 )

ライセンス: CC BY 4.0
Vladislav Dorofeev, Petro Trokhimchuk(参考訳) 人工知能の解決問題に対する多量解析の応用の可能性について論じる。 例えば、N. Moiseev型によるハイブリッドスーパーインテリジェンスシステムが選択された。 ポリメトリック分析とハイブリッドスーパーインテリジェンスシステムとの結合性を示した。 運用意味では、多元分析はより一般的なシステムである。 したがって、モイゼフの概念の主な原理は、多計量解析の助けを借りて統一することができる。 この統一の主な特徴は分析される。

The problem of possible applications Polymetric Analysis for the resolution problems of artificial Intelligence is discussed. As example the hybrid super intelligence system by N. Moiseev type was selected. The bond between polymetric analysis and hybrid super intelligence system was shown. In operational sense polymetric analysis is more general system. Therefore main principles of Moiseev concept may be unify with the help of polymetric analysis. Main peculiarities of this unification are analyzed.
翻訳日:2021-11-19 18:13:33 公開日:2021-11-18
# (参考訳) 事前学習言語モデルによる未学習アラビア語のサポート

Supporting Undotted Arabic with Pre-trained Language Models ( http://arxiv.org/abs/2111.09791v1 )

ライセンス: CC BY 4.0
Aviad Rom and Kfir Bar(参考訳) 我々は,コンテンツ分類アルゴリズムをバイパスするために,アラビア語文字から意図的に子音点を取り除いたソーシャルメディア上での最近の行動を観察した。 コンテンツの分類は通常、事前学習された言語モデルによって行われ、近年多くの自然言語処理アプリケーションで採用されている。 本研究では,事前学習されたアラビア語モデルが「未熟な」アラビア語テキストに与える影響について検討する。 我々は,事前学習されたモデルで未学習のテキストをサポートするいくつかの方法を提案し,その性能をアラビア語自然言語処理のダウンストリームタスクで測定する。 私たちのメソッドのタスクの1つは、ほぼ完璧なパフォーマンスを示しています。

We observe a recent behaviour on social media, in which users intentionally remove consonantal dots from Arabic letters, in order to bypass content-classification algorithms. Content classification is typically done by fine-tuning pre-trained language models, which have been recently employed by many natural-language-processing applications. In this work we study the effect of applying pre-trained Arabic language models on "undotted" Arabic texts. We suggest several ways of supporting undotted texts with pre-trained models, without additional training, and measure their performance on two Arabic natural-language-processing downstream tasks. The results are encouraging; in one of the tasks our method shows nearly perfect performance.
翻訳日:2021-11-19 18:04:37 公開日:2021-11-18
# (参考訳) 視覚記憶を用いた非教師なしオンライン学習

Unsupervised Online Learning for Robotic Interestingness with Visual Memory ( http://arxiv.org/abs/2111.09793v1 )

ライセンス: CC0 1.0
Chen Wang, Yuheng Qiu, Wenshan Wang, Yafei Hu, Seungchan Kim, Sebastian Scherer(参考訳) 自律ロボットは、さらなる探索を決定するために「興味深い」シーンを検出したり、協力のために共有するデータを決定する必要がある。 これらのシナリオは、ほとんど、あるいはまったくトレーニングデータを持たない高速なデプロイメントを必要とすることが多い。 先行研究では、同じ分布のデータに基づいて「興味」を考える。 代わりに,オンライン環境に自動的に適応して興味ある場面を素早く報告する手法を開発することを提案する。 この問題に対処するため,我々は,新しい翻訳不変ビジュアルメモリを開発し,長期・短期・オンライン学習のための3段階アーキテクチャを設計した。 このシステムにより,地下トンネル環境における最先端の非監視手法よりも平均20%高い精度が得られる。 提案手法の有効性を示すロボット探索シナリオにおける教師付き手法と同等の性能を示す。 提案手法は,ロボットの興味をそそる探索作業において重要な役割を果たすことを期待する。

Autonomous robots frequently need to detect "interesting" scenes to decide on further exploration, or to decide which data to share for cooperation. These scenarios often require fast deployment with little or no training data. Prior work considers "interestingness" based on data from the same distribution. Instead, we propose to develop a method that automatically adapts online to the environment to report interesting scenes quickly. To address this problem, we develop a novel translation-invariant visual memory and design a three-stage architecture for long-term, short-term, and online learning, which enables the system to learn human-like experience, environmental knowledge, and online adaption, respectively. With this system, we achieve an average of 20% higher accuracy than the state-of-the-art unsupervised methods in a subterranean tunnel environment. We show comparable performance to supervised methods for robot exploration scenarios showing the efficacy of our approach. We expect that the presented method will play an important role in the robotic interestingness recognition exploration tasks.
翻訳日:2021-11-19 17:55:50 公開日:2021-11-18
# (参考訳) 協調学習による教師付き学習パフォーマンスの向上

Boosting Supervised Learning Performance with Co-training ( http://arxiv.org/abs/2111.09797v1 )

ライセンス: CC BY 4.0
Xinnan Du, William Zhang, Jose M. Alvarez(参考訳) ディープラーニングの知覚モデルは、優れたパフォーマンスを達成するために大量のラベル付きトレーニングデータを必要とする。 ラベルのないデータは簡単に取得できるが、ラベリングのコストは禁じられ、企業や個人にとって大きな負担になる可能性がある。 近年,ラベルのないデータを活用する代替手段として自己スーパービジョンが登場している。 本稿では,教師付き学習性能を最小限の計算コストで向上させることができる,軽量な自己教師付き学習フレームワークを提案する。 本稿では,任意の教師付きタスクに自己教師付きタスクを統合する,単純で柔軟なマルチタスク協調学習フレームワークを提案する。 提案手法では,プリテキストタスクを利用して最小計算量とパラメータのオーバーヘッドを発生させ,既存のトレーニングパイプラインに最小限のディスラプションを与える。 本研究では,2つの自己教師型タスク,物体検出と汎視的セグメンテーションを用いて,異なる知覚モデル上でのフレームワークの有効性を示す。 以上の結果から,両タスクとも教師付きタスクの精度が向上すると同時に,追加のラベル付きデータを用いた場合のドメイン適応能力も向上することが示唆された。

Deep learning perception models require a massive amount of labeled training data to achieve good performance. While unlabeled data is easy to acquire, the cost of labeling is prohibitive and could create a tremendous burden on companies or individuals. Recently, self-supervision has emerged as an alternative to leveraging unlabeled data. In this paper, we propose a new light-weight self-supervised learning framework that could boost supervised learning performance with minimum additional computation cost. Here, we introduce a simple and flexible multi-task co-training framework that integrates a self-supervised task into any supervised task. Our approach exploits pretext tasks to incur minimum compute and parameter overheads and minimal disruption to existing training pipelines. We demonstrate the effectiveness of our framework by using two self-supervised tasks, object detection and panoptic segmentation, on different perception models. Our results show that both self-supervised tasks can improve the accuracy of the supervised task and, at the same time, demonstrates strong domain adaption capability when used with additional unlabeled data.
翻訳日:2021-11-19 17:26:30 公開日:2021-11-18
# (参考訳) コードミキシングテキストにおけるドラビディアン言語の感性分析の発見

Findings of the Sentiment Analysis of Dravidian Languages in Code-Mixed Text ( http://arxiv.org/abs/2111.09811v1 )

ライセンス: CC BY 4.0
Bharathi Raja Chakravarthi and Ruba Priyadharshini and Sajeetha Thavareesan and Dhivya Chinnappa and Durairaj Thenmozhi and Elizabeth Sherly and John P. McCrae and Adeep Hande and Rahul Ponnusamy and Shubhanker Banerjee and Charangan Vasantharajan(参考訳) FIRE 2021で実施したDravidian-CodeMix共有タスクの結果を,Code-Mixed TextにおけるDravidian言語に対する感情分析のトラックとして提示する。 タスク、その組織、および提出されたシステムについて説明する。 この共有タスクは、FIRE 2020で開催されている昨年のDravidian-CodeMix共有タスクの継続である。 今年のタスクは、トケン内とトケン間のレベルのコード混合だった。 さらに、タミル語とマラヤラム語を除いて、カンナダ語も導入された。 タミル語では22のシステム、マラヤラム語では15のシステム、カンナダ語では15のシステムを受け取りました。 タミル・イングリッシュ、マラヤラム・イングリッシュ、カナダ・イングリッシュの上位システムは、それぞれ0.711、0.804、0.630である。 要約すると、提出内容の品質と量は、コード混合設定におけるドラビダ言語に対する大きな関心と、このドメインにおける最先端技術にはまだ改善が必要であることを示している。

We present the results of the Dravidian-CodeMix shared task held at FIRE 2021, a track on sentiment analysis for Dravidian Languages in Code-Mixed Text. We describe the task, its organization, and the submitted systems. This shared task is the continuation of last year's Dravidian-CodeMix shared task held at FIRE 2020. This year's tasks included code-mixing at the intra-token and inter-token levels. Additionally, apart from Tamil and Malayalam, Kannada was also introduced. We received 22 systems for Tamil-English, 15 systems for Malayalam-English, and 15 for Kannada-English. The top system for Tamil-English, Malayalam-English and Kannada-English scored weighted average F1-score of 0.711, 0.804, and 0.630, respectively. In summary, the quality and quantity of the submission show that there is great interest in Dravidian languages in code-mixed setting and state of the art in this domain still needs more improvement.
翻訳日:2021-11-19 17:15:11 公開日:2021-11-18
# (参考訳) 漁獲量平均化によるマージングモデル

Merging Models with Fisher-Weighted Averaging ( http://arxiv.org/abs/2111.09832v1 )

ライセンス: CC BY 4.0
Michael Matena and Colin Raffel(参考訳) 転送学習は、あるタスクから別のタスクを学ぶときに知識を活用する方法を提供する。 転送学習は通常、トレーニングデータセットの勾配降下を通じてモデルのパラメータを反復的に更新する。 本稿では,複数のモデルを1つのモデルに"マージ"するモデル間で知識を伝達する,根本的に異なる手法を提案する。 提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。 この平均化はモデル重みの後部からのおよそのサンプリングと等価であることを示す。 等方性ガウス近似を用いるとうまく機能する場合もあるが、フィッシャー情報を介して精度行列を近似する利点も示している。 まとめると、我々の手法は、標準的な勾配に基づく訓練に比べて計算コストが極端に低い複数のモデルで「知識」を組み合わせることができる。 モデルマージは,中間タスクトレーニングとドメイン適応問題において,勾配降下に基づく伝達学習と同等の性能を発揮することを実証する。 また、マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。 提案手法のロバスト性を評価するため,アルゴリズムの設計について広範囲にわたるアブレーションを行う。

Transfer learning provides a way of leveraging knowledge from one task when learning another task. Performing transfer learning typically involves iteratively updating a model's parameters through gradient descent on a training dataset. In this paper, we introduce a fundamentally different method for transferring knowledge across models that amounts to "merging" multiple models into one. Our approach effectively involves computing a weighted average of the models' parameters. We show that this averaging is equivalent to approximately sampling from the posteriors of the model weights. While using an isotropic Gaussian approximation works well in some cases, we also demonstrate benefits by approximating the precision matrix via the Fisher information. In sum, our approach makes it possible to combine the "knowledge" in multiple models at an extremely low computational cost compared to standard gradient-based training. We demonstrate that model merging achieves comparable performance to gradient descent-based transfer learning on intermediate-task training and domain adaptation problems. We also show that our merging procedure makes it possible to combine models in previously unexplored ways. To measure the robustness of our approach, we perform an extensive ablation on the design of our algorithm.
翻訳日:2021-11-19 16:51:33 公開日:2021-11-18
# (参考訳) 固定スパースマスクを用いたニューラルネットワークのトレーニング

Training Neural Networks with Fixed Sparse Masks ( http://arxiv.org/abs/2111.09839v1 )

ライセンス: CC BY 4.0
Yi-Lin Sung, Varun Nair, and Colin Raffel(参考訳) ディープニューラルネットワークの典型的な勾配に基づくトレーニングでは、モデルのパラメータは各イテレーションで更新される。 最近の研究は、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることを示しており、ストレージと通信の要求を緩和することができる。 本稿では,モデルのパラメータに固定されたスパースマスクを誘導することで,多数のイテレーションで更新する部分集合を選択できることを示す。 提案手法では,最大のフィッシャー情報を持つ$k$パラメータのマスクを,目の前のタスクにとって最も重要なパラメータの近似として構成する。 パラメータ効率の高い転送学習と分散トレーニングの実験では、メモリ使用量や通信コストの面では効率が向上しつつも、スパース更新による他のトレーニング方法のパフォーマンスに匹敵する、あるいは超えていることを示す。 このアプローチのさらなる応用を促進するために、コードを公開しています。

During typical gradient-based training of deep neural networks, all of the model's parameters are updated at each iteration. Recent work has shown that it is possible to update only a small subset of the model's parameters during training, which can alleviate storage and communication requirements. In this paper, we show that it is possible to induce a fixed sparse mask on the model's parameters that selects a subset to update over many iterations. Our method constructs the mask out of the $k$ parameters with the largest Fisher information as a simple approximation as to which parameters are most important for the task at hand. In experiments on parameter-efficient transfer learning and distributed training, we show that our approach matches or exceeds the performance of other methods for training with sparse updates while being more efficient in terms of memory usage and communication costs. We release our code publicly to promote further applications of our approach.
翻訳日:2021-11-19 16:31:28 公開日:2021-11-18
# (参考訳) 形態変化するロボットシステムにおける学習の効果

The Effects of Learning in Morphologically Evolving Robot Systems ( http://arxiv.org/abs/2111.09851v1 )

ライセンス: CC BY 4.0
Jie Luo, Aart Stuurman, Jakub M. Tomczak, Jacintha Ellers, Agoston E. Eiben(参考訳) 同時に進化する形態学(身体)とロボットの制御器(脳)は、子孫の遺伝体と脳のミスマッチを引き起こす可能性がある。 この問題を緩和するために、いわゆる三角式生活フレームワークによる幼児の学習期間の追加が、比較的以前から提案されてきた。 しかし、まだ実証的な評価が不足している。 本稿では,このような学習メカニズムの効果について,異なる視点から検討する。 広範囲なシミュレーションを用いて、学習はタスクのパフォーマンスを大幅に向上させ、特定のフィットネスレベルに達するために必要な世代数を純粋に進化的なアプローチと比較して減少させることができることを示す。 さらに,学習はコントローラにのみ直接影響を与えるが,進化した形態も異なることを示す。 これは、脳の変化が身体の変化を誘発できる定量的なデモンストレーションを提供する。 最後に,ある身体が学習する能力によって定量化される形態的知性の概念を検討する。 進化過程を通じて、遺伝と学習した脳のパフォーマンス差である学習デルタが成長しているのを観察する。 これは、進化が可塑性を増すロボットを生産していることを示している。つまり、連続する世代がより良くなり、学習者が増え、それによって与えられたタスクがより良くなる。 全体として、我々の結果は、生命の三角形は理論的な関心のコンセプトであるだけでなく、実際的な利益を持つシステムアーキテクチャであることを示している。

Simultaneously evolving morphologies (bodies) and controllers (brains) of robots can cause a mismatch between the inherited body and brain in the offspring. To mitigate this problem, the addition of an infant learning period by the so-called Triangle of Life framework has been proposed relatively long ago. However, an empirical assessment is still lacking to-date. In this paper we investigate the effects of such a learning mechanism from different perspectives. Using extensive simulations we show that learning can greatly increase task performance and reduce the number of generations required to reach a certain fitness level compared to the purely evolutionary approach. Furthermore, although learning only directly affects the controllers, we demonstrate that the evolved morphologies will be also different. This provides a quantitative demonstration that changes in the brain can induce changes in the body. Finally, we examine the concept of morphological intelligence quantified by the ability of a given body to learn. We observe that the learning delta, the performance difference between the inherited and the learned brain, is growing throughout the evolutionary process. This shows that evolution is producing robots with an increasing plasticity, that is, consecutive generations are becoming better and better learners which in turn makes them better and better at the given task. All in all, our results demonstrate that the Triangle of Life is not only a concept of theoretical interest, but a system architecture with practical benefits.
翻訳日:2021-11-19 16:12:52 公開日:2021-11-18
# (参考訳) ワンショット生成ドメイン適応

One-Shot Generative Domain Adaptation ( http://arxiv.org/abs/2111.09876v1 )

ライセンス: CC BY 4.0
Ceyuan Yang, Yujun Shen, Zhiyi Zhang, Yinghao Xu, Jiapeng Zhu, Zhirong Wu, Bolei Zhou(参考訳) 本研究の目的は,GAN (Generative Adversarial Network) を1つの画像領域に事前トレーニングし,対象とする画像がわずかに少ない新しい領域に転送することである。 主な課題は、限られた監督下では、対象の代表的な文字を取得しながら、写実的で非常に多様な画像を合成することが極めて困難であることである。 バニラファインチューニング戦略を採用する既存のアプローチとは異なり、我々は2つの軽量モジュールをジェネレータと識別器にそれぞれインポートする。 具体的には, ジェネレータに属性適応器を導入し, 元のパラメータを凍結し, 従来の知識を最大限に再利用し, 合成品質と多様性を維持する。 次に、よく学習した識別器のバックボーンに属性分類器を装備し、ジェネレータが参照から適切な文字をキャプチャすることを保証する。 さらに,訓練データの多様性の低さ(すなわち1枚の画像に限らず)を考慮して,学習過程における生成領域の多様性を制約し,最適化の困難さを緩和することを提案する。 提案手法は様々な条件下で魅力的な結果をもたらし、特に合成の多様性において最先端の代替品をはるかに上回っている。 特に、我々の手法は大きな領域ギャップでもうまく機能し、実験毎に数分以内にしっかりと収束する。

This work aims at transferring a Generative Adversarial Network (GAN) pre-trained on one image domain to a new domain referring to as few as just one target image. The main challenge is that, under limited supervision, it is extremely difficult to synthesize photo-realistic and highly diverse images, while acquiring representative characters of the target. Different from existing approaches that adopt the vanilla fine-tuning strategy, we import two lightweight modules to the generator and the discriminator respectively. Concretely, we introduce an attribute adaptor into the generator yet freeze its original parameters, through which it can reuse the prior knowledge to the most extent and hence maintain the synthesis quality and diversity. We then equip the well-learned discriminator backbone with an attribute classifier to ensure that the generator captures the appropriate characters from the reference. Furthermore, considering the poor diversity of the training data (i.e., as few as only one image), we propose to also constrain the diversity of the generative domain in the training process, alleviating the optimization difficulty. Our approach brings appealing results under various settings, substantially surpassing state-of-the-art alternatives, especially in terms of synthesis diversity. Noticeably, our method works well even with large domain gaps, and robustly converges within a few minutes for each experiment.
翻訳日:2021-11-19 15:52:08 公開日:2021-11-18
# (参考訳) Swin Transformer V2: 容量と解像度のスケールアップ

Swin Transformer V2: Scaling Up Capacity and Resolution ( http://arxiv.org/abs/2111.09883v1 )

ライセンス: CC BY 4.0
Ze Liu and Han Hu and Yutong Lin and Zhuliang Yao and Zhenda Xie and Yixuan Wei and Jia Ning and Yue Cao and Zheng Zhang and Li Dong and Furu Wei and Baining Guo(参考訳) 我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536$\times$1,536解像度の画像でトレーニングできるようにする。 キャパシティと解像度のスケールアップにより、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定した: ImageNet-V2イメージ分類の84.0%、COCOオブジェクト検出の63.1/54.4ボックス/マスクmAP、ADE20Kセマンティックセグメンテーションの59.9 mIoU、Kinetics-400ビデオアクション分類の86.8%。 私たちの技術は一般的に,nlp言語モデルとして広く研究されていないビジョンモデルのスケールアップに適用できる。 1)ビジョンモデルは、しばしば大規模で不安定な問題に直面する。 2) 多くのダウンストリームビジョンタスクでは高解像度画像やウィンドウが必要であり、低解像度で事前トレーニングされたモデルを高解像度に効果的に転送する方法は明確ではない。 gpuメモリ消費もまた、画像解像度が高い場合に問題となる。 これらの課題に対処するために,Swin Transformer を事例として,いくつかの手法を提案する。 1) 大型視覚モデルの安定性を向上させるためのポスト正規化技術とスケールドコサイン注意アプローチ 2) 低解像度画像や窓で事前学習したモデルを高解像度画像に効果的に転送する対数空間連続位置バイアス技術。 さらに、GPUメモリ消費の大幅な削減につながる重要な実装の詳細を共有し、通常のGPUで大きなビジョンモデルをトレーニングできるようにする。 これらの手法と自己教師付き事前学習を用いて,強力な3b swinトランスフォーマーモデルをトレーニングし,高分解能画像やウィンドウを含む様々な視覚タスクに効果的に転送し,様々なベンチマークで最先端の精度を実現する。

We present techniques for scaling Swin Transformer up to 3 billion parameters and making it capable of training with images of up to 1,536$\times$1,536 resolution. By scaling up capacity and resolution, Swin Transformer sets new records on four representative vision benchmarks: 84.0% top-1 accuracy on ImageNet-V2 image classification, 63.1/54.4 box/mask mAP on COCO object detection, 59.9 mIoU on ADE20K semantic segmentation, and 86.8% top-1 accuracy on Kinetics-400 video action classification. Our techniques are generally applicable for scaling up vision models, which has not been widely explored as that of NLP language models, partly due to the following difficulties in training and applications: 1) vision models often face instability issues at scale and 2) many downstream vision tasks require high resolution images or windows and it is not clear how to effectively transfer models pre-trained at low resolutions to higher resolution ones. The GPU memory consumption is also a problem when the image resolution is high. To address these issues, we present several techniques, which are illustrated by using Swin Transformer as a case study: 1) a post normalization technique and a scaled cosine attention approach to improve the stability of large vision models; 2) a log-spaced continuous position bias technique to effectively transfer models pre-trained at low-resolution images and windows to their higher-resolution counterparts. In addition, we share our crucial implementation details that lead to significant savings of GPU memory consumption and thus make it feasible to train large vision models with regular GPUs. Using these techniques and self-supervised pre-training, we successfully train a strong 3B Swin Transformer model and effectively transfer it to various vision tasks involving high-resolution images or windows, achieving the state-of-the-art accuracy on a variety of benchmarks.
翻訳日:2021-11-19 15:35:18 公開日:2021-11-18
# 新しい最適化非同期フェデレーション学習フレームワーク

A Novel Optimized Asynchronous Federated Learning Framework ( http://arxiv.org/abs/2111.09487v1 )

ライセンス: Link先を確認
Zhicheng Zhou, Hailong Chen, Kunhua Li, Fei Hu, Bingjie Yan, Jieren Cheng, Xuyan Wei, Bernie Liu, Xiulai Li, Fuwen Chen, Yongji Sui(参考訳) 連合学習(federated learning、fl)は、クレジットアセスメントや医療など、多くの分野に適用されてきた。 ネットワークやコンピューティングリソースの違いのため、クライアントは勾配を同時に更新せず、待機やアイドルに多くの時間を要する可能性がある。 そのため、非同期フェデレートラーニング(AFL)メソッドが必要になります。 AFLの主なボトルネックは通信です。 AFLでは、モデルパフォーマンスと通信コストのバランスを見つける方法が課題です。 本稿では,新しいAFLフレームワークVAFLを提案する。 そして,十分な実験によりアルゴリズムの性能を検証した。 実験の結果,VAFL は平均通信圧縮率 48.23 % で約 51.02 % の通信時間を短縮し,モデルをより早く収束させることができることがわかった。 コードは \url{https://github.com/RobAI-Lab/VAFL} で入手できる。

Federated Learning (FL) since proposed has been applied in many fields, such as credit assessment, medical, etc. Because of the difference in the network or computing resource, the clients may not update their gradients at the same time that may take a lot of time to wait or idle. That's why Asynchronous Federated Learning (AFL) method is needed. The main bottleneck in AFL is communication. How to find a balance between the model performance and the communication cost is a challenge in AFL. This paper proposed a novel AFL framework VAFL. And we verified the performance of the algorithm through sufficient experiments. The experiments show that VAFL can reduce the communication times about 51.02\% with 48.23\% average communication compression rate and allow the model to be converged faster. The code is available at \url{https://github.com/RobAI-Lab/VAFL}
翻訳日:2021-11-19 15:14:45 公開日:2021-11-18
# 普遍的対向摂動によるディープラーニングAIハードウェアの攻撃

Attacking Deep Learning AI Hardware with Universal Adversarial Perturbation ( http://arxiv.org/abs/2111.09488v1 )

ライセンス: Link先を確認
Mehdi Sadi, B. M. S. Bahar Talukder, Kaniz Mishty, and Md Tauhidur Rahman(参考訳) Universal Adversarial Perturbationsは、画像に依存しないモデルに依存しないノイズであり、任意の画像を追加すると、訓練されたDeep Convolutional Neural Networksを誤った予測に導くことができる。 これらのユニバーサル・アドバイサル・パーバベーションは、実用的なディープラーニングアプリケーションのセキュリティと整合性を著しく損なう可能性があるため、既存の手法では、入力画像ソースにおけるこれらのノイズの存在を検出するために、追加のニューラルネットワークを使用している。 本稿では,不正な手段(マルウェア,トロイの木馬など)によって起動された場合,aiハードウェアアクセラレーションの段階での敵対的ノイズを増大させることで,既存の対策を回避できる攻撃戦略を示す。 本稿では,conv2d関数のソフトウェアカーネルとハードウェアのverilog rtlモデルとの共シミュレーションを用いて,複数の深層学習モデルにおけるアクセラレーションレベルユニバーサル・コンバーサリーノイズ攻撃を実証する。

Universal Adversarial Perturbations are image-agnostic and model-independent noise that when added with any image can mislead the trained Deep Convolutional Neural Networks into the wrong prediction. Since these Universal Adversarial Perturbations can seriously jeopardize the security and integrity of practical Deep Learning applications, existing techniques use additional neural networks to detect the existence of these noises at the input image source. In this paper, we demonstrate an attack strategy that when activated by rogue means (e.g., malware, trojan) can bypass these existing countermeasures by augmenting the adversarial noise at the AI hardware accelerator stage. We demonstrate the accelerator-level universal adversarial noise attack on several deep Learning models using co-simulation of the software kernel of Conv2D function and the Verilog RTL model of the hardware under the FuseSoC environment.
翻訳日:2021-11-19 15:14:31 公開日:2021-11-18
# リアルタイムディジタルプリディストリクトのためのモジュラー1d-cnnアーキテクチャ

A Modular 1D-CNN Architecture for Real-time Digital Pre-distortion ( http://arxiv.org/abs/2111.09637v1 )

ライセンス: Link先を確認
Udara De Silva (1), Toshiaki Koike-Akino (1), Rui Ma (1), Ao Yamashita (2), Hideyuki Nakamizo (2) ((1) Mitsubishi Electric Research Labs, Cambridge, MA, USA, (2) Mitsubishi Electric Corporation, Information Tech. R&D Center, Kanagawa, Japan)(参考訳) This study reports a novel hardware-friendly modular architecture for implementing one dimensional convolutional neural network (1D-CNN) digital predistortion (DPD) technique to linearize RF power amplifier (PA) real-time.The modular nature of our design enables DPD system adaptation for variable resource and timing constraints.Our work also presents a co-simulation architecture to verify the DPD performance with an actual power amplifier hardware-in-the-loop.The experimental results with 100 MHz signals show that the proposed 1D-CNN obtains superior performance compared with other neural network architectures for real-time DPD application.

This study reports a novel hardware-friendly modular architecture for implementing one dimensional convolutional neural network (1D-CNN) digital predistortion (DPD) technique to linearize RF power amplifier (PA) real-time.The modular nature of our design enables DPD system adaptation for variable resource and timing constraints.Our work also presents a co-simulation architecture to verify the DPD performance with an actual power amplifier hardware-in-the-loop.The experimental results with 100 MHz signals show that the proposed 1D-CNN obtains superior performance compared with other neural network architectures for real-time DPD application.
翻訳日:2021-11-19 15:14:11 公開日:2021-11-18
# モデル誤差予測による複雑な地形ナビゲーション

Complex Terrain Navigation via Model Error Prediction ( http://arxiv.org/abs/2111.09768v1 )

ライセンス: Link先を確認
Adam Polevoy, Craig Knuth, Katie M. Popek, Kapil D. Katyal(参考訳) ロボットナビゲーションは従来、衝突のない軌道を望ましい目標に計画するために使われる明示的な地図を構築することに依存している。 変形可能で複雑な地形では、幾何学的アプローチを用いることで、変形可能な物体を剛性かつ不可避と誤認するため、経路を見つけることができない。 代わりに、地形領域の移動可能性の推定を予測し、移動しやすい地域(例えば、小さな低木よりも短い草)を優先することを学ぶ。 衝突を予測する代わりに、正準力学モデルと比較して現実の誤差を抑える。 私たちは、オンラインのアプローチでトレーニングを行い、その結果、シミュレーションと現実世界にまたがる、50分間のトレーニングデータを使用して、ナビゲーションポリシーを成功させました。 私たちの学習に基づくナビゲーションシステムは,草原や森林など,様々な地形を横断するクリアパス・ハスキーを実演する,効率的な短期プランナーのサンプルである。

Robot navigation traditionally relies on building an explicit map that is used to plan collision-free trajectories to a desired target. In deformable, complex terrain, using geometric-based approaches can fail to find a path due to mischaracterizing deformable objects as rigid and impassable. Instead, we learn to predict an estimate of traversability of terrain regions and to prefer regions that are easier to navigate (e.g., short grass over small shrubs). Rather than predicting collisions, we instead regress on realized error compared to a canonical dynamics model. We train with an on-policy approach, resulting in successful navigation policies using as little as 50 minutes of training data split across simulation and real world. Our learning-based navigation system is a sample efficient short-term planner that we demonstrate on a Clearpath Husky navigating through a variety of terrain including grassland and forest
翻訳日:2021-11-19 15:13:47 公開日:2021-11-18
# リカレント変分ネットワーク: 高速化MRI再構成作業に応用したディープラーニング逆問題解法

Recurrent Variational Network: A Deep Learning Inverse Problem Solver applied to the task of Accelerated MRI Reconstruction ( http://arxiv.org/abs/2111.09639v1 )

ライセンス: Link先を確認
George Yiasemis, Clara I. S\'anchez, Jan-Jakob Sonke, Jonas Teuwen(参考訳) 磁気共鳴イメージングは、腫瘍などの病理の診断と治療を支援する人体の解剖学と生理学の詳細な画像を生成することができる。 しかし、MRIは、患者の運動アーティファクトに影響を受けやすく、ダイナミックな治療を提供する可能性を制限する、非常に長い取得時間に悩まされている。 並列イメージングや圧縮センシングのような従来のアプローチでは、複数の受信コイルを用いてMRIデータを少ない精度で取得することで、MRI画像の再構成によりMRIの取得速度が向上する。 近年のDeep LearningとParallel ImagingとCompressed Sensingの併用により、高速度MRIデータから高忠実度再構成が実現されている。 本稿では,Recurrent Variational Network (RecurrentVarNet) と呼ばれる,畳み込みリカレントネットワークの特性と,逆問題解決のためのアンロールアルゴリズムを利用して,MRIの高速化作業に適用した新しい逆問題解法を提案する。 recurrentvarnetは複数のブロックで構成され、それぞれが逆問題を解くための勾配降下最適化アルゴリズムの1つの未ロールイテレーションを担当している。 従来のアプローチとは対照的に、最適化手順は画像領域ではなく観察領域($k$-space)で行われる。 RecurrentVarNetの各リカレントブロックは、観測された$k$-スペースを洗練し、データ一貫性項と、学習された隠れ状態と前のブロックの予測を入力とするリカレントユニットから構成される。 提案手法は,一般のマルチチャネル脳データセットから5倍および10倍の加速度データに対して,従来型および深層学習に基づくアプローチを上回って,新しい質的,定量的な再構築結果を得る。 すべてのモデルコードとベースラインをパブリックリポジトリにリリースします。

Magnetic Resonance Imaging can produce detailed images of the anatomy and physiology of the human body that can assist doctors in diagnosing and treating pathologies such as tumours. However, MRI suffers from very long acquisition times that make it susceptible to patient motion artifacts and limit its potential to deliver dynamic treatments. Conventional approaches such as Parallel Imaging and Compressed Sensing allow for an increase in MRI acquisition speed by reconstructing MR images by acquiring less MRI data using multiple receiver coils. Recent advancements in Deep Learning combined with Parallel Imaging and Compressed Sensing techniques have the potential to produce high-fidelity reconstructions from highly accelerated MRI data. In this work we present a novel Deep Learning-based Inverse Problem solver applied to the task of accelerated MRI reconstruction, called Recurrent Variational Network (RecurrentVarNet) by exploiting the properties of Convolution Recurrent Networks and unrolled algorithms for solving Inverse Problems. The RecurrentVarNet consists of multiple blocks, each responsible for one unrolled iteration of the gradient descent optimization algorithm for solving inverse problems. Contrary to traditional approaches, the optimization steps are performed in the observation domain ($k$-space) instead of the image domain. Each recurrent block of RecurrentVarNet refines the observed $k$-space and is comprised of a data consistency term and a recurrent unit which takes as input a learned hidden state and the prediction of the previous block. Our proposed method achieves new state of the art qualitative and quantitative reconstruction results on 5-fold and 10-fold accelerated data from a public multi-channel brain dataset, outperforming previous conventional and deep learning-based approaches. We will release all models code and baselines on our public repository.
翻訳日:2021-11-19 15:13:05 公開日:2021-11-18
# 酵素-基質相互作用予測のためのコントラストマルチビュー符号化

Contrastive Multiview Coding for Enzyme-Substrate Interaction Prediction ( http://arxiv.org/abs/2111.09467v1 )

ライセンス: Link先を確認
Apurva Kalia (1), Dilip Krishnan (2), Soha Hassoun (1) ((1) Tufts University, (2) Google Research)(参考訳) 酵素機能の特徴付けは、酵素-基質相互作用を予測する上で重要な要件である。 本稿では,この問題にContrastive Multiview Codingを適用し,予測性能を向上させるための新しい手法を提案する。 KEGGのような酵素データベースからの補助的データを利用して、酵素-基質反応の複数ビューに存在する相互情報を学習する手法を提案する。 反応データの複数ビューの一致性は予測性能の向上に有効であることを示す。

Characterizing Enzyme function is an important requirement for predicting Enzyme-Substrate interactions. In this paper, we present a novel approach of applying Contrastive Multiview Coding to this problem to improve the performance of prediction. We present a method to leverage auxiliary data from an Enzymatic database like KEGG to learn the mutual information present in multiple views of enzyme-substrate reactions. We show that congruency in the multiple views of the reaction data can be used to improve prediction performance.
翻訳日:2021-11-19 15:12:15 公開日:2021-11-18
# 深層ニューラルネットワーク学習スキームによるB\'acklund変換とソリトン進化方程式のデータ駆動的発見

Data-driven discovery of B\"acklund transforms and soliton evolution equations via deep neural network learning schemes ( http://arxiv.org/abs/2111.09489v1 )

ライセンス: Link先を確認
Zijian Zhou, Li Wang, Zhenya Yan(参考訳) 本稿では、ソリトン進化方程式のB\'acklund変換(BT)を学習するためのディープニューラルネットワーク学習方式と、既知のBTに基づくデータ駆動ソリトン方程式探索のための拡張ディープラーニング方式を導入する。 最初のスキームは、シネ・ゴルドン方程式のデータ駆動BTを研究するための解(またはソリトン方程式)情報と、ミウラ変換によるデータ駆動mKdV方程式の発見と同様に、デフォーカス(焦点)mKdV方程式とKdV方程式の間の複素および実ミウラ変換を利用する。 第2のディープラーニング方式では、高階ソリトンを生成する明示的/単純BTを用いて、mKdVとsine-Gordon方程式のデータ駆動的な発見を訓練する。

We introduce a deep neural network learning scheme to learn the B\"acklund transforms (BTs) of soliton evolution equations and an enhanced deep learning scheme for data-driven soliton equation discovery based on the known BTs, respectively. The first scheme takes advantage of some solution (or soliton equation) information to study the data-driven BT of sine-Gordon equation, and complex and real Miura transforms between the defocusing (focusing) mKdV equation and KdV equation, as well as the data-driven mKdV equation discovery via the Miura transforms. The second deep learning scheme uses the explicit/implicit BTs generating the higher-order solitons to train the data-driven discovery of mKdV and sine-Gordon equations, in which the high-order solution informations are more powerful for the enhanced leaning soliton equations with higher accurates.
翻訳日:2021-11-19 15:12:08 公開日:2021-11-18
# 多変量平均推定のための近似量子アルゴリズム

Near-Optimal Quantum Algorithms for Multivariate Mean Estimation ( http://arxiv.org/abs/2111.09787v1 )

ライセンス: Link先を確認
Arjan Cornelissen, Yassine Hamoudi, Sofiene Jerbi(参考訳) 有限平均と共分散を持つベクトル値の確率変数の平均をユークリッドノルムで推定するための最初の近似量子アルゴリズムを提案する。 この結果は、多変量準ゲージ推定子の理論を量子集合に拡張することを目的としている。 古典的には、任意の単変量推定器を少なくとも次元の対数的オーバーヘッドを持つ多変量推定器にすることができるのとは異なり、量子設定では同様の結果が証明できない。 実際、ハインリヒはサンプルの複雑さが次元よりも小さい場合、平均推定問題に対する量子的優位性の存在を指摘した。 我々の主な成果は、この低精度な状態以外では、古典的推定器よりも優れた量子推定器が存在することを示すことである。 我々のアプローチは、ほとんどの量子推定器が位相推定にのみ依存する単変量設定よりもはるかに複雑である。 振幅増幅法, ベルンシュタイン・ヴァジラニ法, 量子特異値変換法などの様々なアルゴリズム手法を応用した。 また,多変量切断統計には濃度不等式を用いる。 文献に現れる2つの異なる入力モデルを用いて量子推定器を開発する。 第一に、ランダム変数のバイナリ表現へのコヒーレントなアクセスを提供し、古典的な設定を包含する。 2つ目のモデルでは、ランダム変数は直接量子レジスタの位相に符号化される。 このモデルは、多くの量子アルゴリズムにおいて自然に現れるが、しばしば古典的サンプルを持つのと相容れない。 提案手法を2つの設定に適用し, 平均推定問題の解法として2番目のモデルの方が厳格に弱いことを示す。 最後に,提案アルゴリズムのいくつかの応用,特に通勤可観測物の期待値や機械学習分野における期待値の測定について述べる。

We propose the first near-optimal quantum algorithm for estimating in Euclidean norm the mean of a vector-valued random variable with finite mean and covariance. Our result aims at extending the theory of multivariate sub-Gaussian estimators to the quantum setting. Unlike classically, where any univariate estimator can be turned into a multivariate estimator with at most a logarithmic overhead in the dimension, no similar result can be proved in the quantum setting. Indeed, Heinrich ruled out the existence of a quantum advantage for the mean estimation problem when the sample complexity is smaller than the dimension. Our main result is to show that, outside this low-precision regime, there is a quantum estimator that outperforms any classical estimator. Our approach is substantially more involved than in the univariate setting, where most quantum estimators rely only on phase estimation. We exploit a variety of additional algorithmic techniques such as amplitude amplification, the Bernstein-Vazirani algorithm, and quantum singular value transformation. Our analysis also uses concentration inequalities for multivariate truncated statistics. We develop our quantum estimators in two different input models that showed up in the literature before. The first one provides coherent access to the binary representation of the random variable and it encompasses the classical setting. In the second model, the random variable is directly encoded into the phases of quantum registers. This model arises naturally in many quantum algorithms but it is often incomparable to having classical samples. We adapt our techniques to these two settings and we show that the second model is strictly weaker for solving the mean estimation problem. Finally, we describe several applications of our algorithms, notably in measuring the expectation values of commuting observables and in the field of machine learning.
翻訳日:2021-11-19 15:11:32 公開日:2021-11-18
# (参考訳) SimMIM: マスク画像モデリングのためのシンプルなフレームワーク

SimMIM: A Simple Framework for Masked Image Modeling ( http://arxiv.org/abs/2111.09886v1 )

ライセンス: CC BY 4.0
Zhenda Xie and Zheng Zhang and Yue Cao and Yutong Lin and Jianmin Bao and Zhuliang Yao and Qi Dai and Han Hu(参考訳) 本稿では,マスク画像モデリングのためのシンプルなフレームワークであるSimMIMを提案する。 ブロックワイドマスキングや,個別のVAEやクラスタリングによるトークン化といった特別な設計を伴わない,最近提案された関連するアプローチを単純化する。 マスク画像モデリングタスクが優れた表現を学習させる方法を検討するため,我々は,フレームワークの主要コンポーネントを体系的に研究し,各コンポーネントのシンプルな設計により,非常に強力な表現学習性能が明らかにされていることを見出した。 2)直接回帰によるrgb値の生画素の予測は,複雑な設計によるパッチ分類アプローチに劣らない。 3) 予測ヘッドは線形層と同じくらい軽量であり, 重いものほど性能が悪くない。 ViT-Bを用いて、このデータセット上でも事前トレーニングを行うことで、ImageNet-1Kの83.8%の微調整精度を達成し、以前のベストアプローチを+0.6%上回る結果となった。 約6億5000万のパラメータであるSwinV2-Hのより大きなモデルに適用すると、ImageNet-1Kのデータのみを使用して、ImageNet-1K上で87.1%のトップ1精度を達成する。 また、この手法を利用して3Bモデル(SwinV2-G)のトレーニングをしやすくし、40\times$それよりも少ないデータで、4つの代表的なビジョンベンチマークの最先端を実現する。 コードとモデルはhttps://github.com/microsoft/SimMIM.comで公開される。

This paper presents SimMIM, a simple framework for masked image modeling. We simplify recently proposed related approaches without special designs such as block-wise masking and tokenization via discrete VAE or clustering. To study what let the masked image modeling task learn good representations, we systematically study the major components in our framework, and find that simple designs of each component have revealed very strong representation learning performance: 1) random masking of the input image with a moderately large masked patch size (e.g., 32) makes a strong pre-text task; 2) predicting raw pixels of RGB values by direct regression performs no worse than the patch classification approaches with complex designs; 3) the prediction head can be as light as a linear layer, with no worse performance than heavier ones. Using ViT-B, our approach achieves 83.8% top-1 fine-tuning accuracy on ImageNet-1K by pre-training also on this dataset, surpassing previous best approach by +0.6%. When applied on a larger model of about 650 million parameters, SwinV2-H, it achieves 87.1% top-1 accuracy on ImageNet-1K using only ImageNet-1K data. We also leverage this approach to facilitate the training of a 3B model (SwinV2-G), that by $40\times$ less data than that in previous practice, we achieve the state-of-the-art on four representative vision benchmarks. The code and models will be publicly available at https://github.com/microsoft/SimMIM.
翻訳日:2021-11-19 15:09:20 公開日:2021-11-18
# LiDARクラスタファーストとカメラ推論:自動運転への新たな展望

LiDAR Cluster First and Camera Inference Later: A New Perspective Towards Autonomous Driving ( http://arxiv.org/abs/2111.09799v1 )

ライセンス: Link先を確認
Jiyang Chen, Simon Yu, Rohan Tabish, Ayoosh Bansal, Shengzhong Liu, Tarek Abdelzaher, and Lui Sha(参考訳) 最先端自動運転車(av)フレームワークにおけるオブジェクト検出は、ディープニューラルネットワークに大きく依存する。 通常、これらのネットワークはカメラのLiDARフレーム全体に一様にオブジェクト検出を行う。 しかし、この均一性は、AVに衝突するリスクに関係なく、シーン内のすべてのオブジェクトに同じ優先度を与えることで、AVの安全性を損なう。 本稿では、まずLiDARクラスタの概念を導入し、次にカメラ推論を行い、オブジェクトを検出して分類するAVのための新しいエンドツーエンドパイプラインを提案する。 提案するフレームワークの利点は2つあります。 まず、当社のパイプラインでは、avに衝突するリスクが高いオブジェクトの検出を優先し、安全でない条件にavが反応する時間を増やします。 第2に、一般的なディープニューラルネットワークパイプラインと比較して、平均的な推論速度も速い。 実世界のデータセットであるWaymo Open Datasetを使用して,LiDARセンサとオブジェクト検出アルゴリズムの限界から生じる課題を解決するフレームワークを設計する。 提案する新たなオブジェクト検出パイプラインは,カメラ推論のみと比較して,高いリスクオブジェクトの検出を優先すると同時に,同等の精度と平均速度を25%向上することを示す。

Object detection in state-of-the-art Autonomous Vehicles (AV) framework relies heavily on deep neural networks. Typically, these networks perform object detection uniformly on the entire camera LiDAR frames. However, this uniformity jeopardizes the safety of the AV by giving the same priority to all objects in the scenes regardless of their risk of collision to the AV. In this paper, we present a new end-to-end pipeline for AV that introduces the concept of LiDAR cluster first and camera inference later to detect and classify objects. The benefits of our proposed framework are twofold. First, our pipeline prioritizes detecting objects that pose a higher risk of collision to the AV, giving more time for the AV to react to unsafe conditions. Second, it also provides, on average, faster inference speeds compared to popular deep neural network pipelines. We design our framework using the real-world datasets, the Waymo Open Dataset, solving challenges arising from the limitations of LiDAR sensors and object detection algorithms. We show that our novel object detection pipeline prioritizes the detection of higher risk objects while simultaneously achieving comparable accuracy and a 25% higher average speed compared to camera inference only.
翻訳日:2021-11-19 14:50:47 公開日:2021-11-18
# transmix: 視覚トランスフォーマーのためのミックスに参加

TransMix: Attend to Mix for Vision Transformers ( http://arxiv.org/abs/2111.09833v1 )

ライセンス: Link先を確認
Jie-Neng Chen, Shuyang Sun, Ju He, Philip Torr, Alan Yuille, Song Bai(参考訳) ミックスアップベースの拡張はトレーニング中のモデルの一般化、特に視覚変換器(ViT)のオーバーフィットに有効であることが判明した。 しかし、これまでのミックスアップに基づく手法では、対象の線形補間比は入力補間で提案された比と同一に保つべきであるという事前の知識を持っている。 これは、時折増大中のランダムな過程のために混合画像に有効な対象が存在しないという奇妙な現象を引き起こすかもしれないが、ラベル空間にはまだ応答がある。 入力空間とラベル空間のギャップを埋めるために,視覚変換器のアテンションマップに基づいてラベルを混合するTransMixを提案する。 対応する入力画像が注意マップによって重み付けされた場合、ラベルの信頼度は大きくなる。 TransMixは恥ずかしいほどシンプルで、ViTベースのモデルに追加のパラメータやFLOPを導入することなく、ほんの数行のコードで実装できる。 実験結果から,ImageNet分類による様々なViTモデルの改良が一貫して可能であることがわかった。 imagenetでtransmixを事前トレーニングした後、vitベースのモデルは、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションへの転送性も向上している。 TransMixはまた、4つの異なるベンチマークで評価する場合、より堅牢であることを示している。 コードはhttps://github.com/Beckschen/TransMix.comで公開される。

Mixup-based augmentation has been found to be effective for generalizing models during training, especially for Vision Transformers (ViTs) since they can easily overfit. However, previous mixup-based methods have an underlying prior knowledge that the linearly interpolated ratio of targets should be kept the same as the ratio proposed in input interpolation. This may lead to a strange phenomenon that sometimes there is no valid object in the mixed image due to the random process in augmentation but there is still response in the label space. To bridge such gap between the input and label spaces, we propose TransMix, which mixes labels based on the attention maps of Vision Transformers. The confidence of the label will be larger if the corresponding input image is weighted higher by the attention map. TransMix is embarrassingly simple and can be implemented in just a few lines of code without introducing any extra parameters and FLOPs to ViT-based models. Experimental results show that our method can consistently improve various ViT-based models at scales on ImageNet classification. After pre-trained with TransMix on ImageNet, the ViT-based models also demonstrate better transferability to semantic segmentation, object detection and instance segmentation. TransMix also exhibits to be more robust when evaluating on 4 different benchmarks. Code will be made publicly available at https://github.com/Beckschen/TransMix.
翻訳日:2021-11-19 14:50:29 公開日:2021-11-18
# Restormer:高分解能画像復元のための効率的なトランス

Restormer: Efficient Transformer for High-Resolution Image Restoration ( http://arxiv.org/abs/2111.09881v1 )

ライセンス: Link先を確認
Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang(参考訳) 畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習に優れており、これらのモデルは画像復元や関連するタスクに広く適用されている。 近年,ニューラルアーキテクチャの別のクラスであるTransformersは,自然言語や高レベルの視覚タスクにおいて,大幅なパフォーマンス向上を示している。 トランスフォーマーモデルはCNNの欠点を緩和するが、その計算複雑性は空間分解能と2次的に増大し、高解像度画像を含むほとんどの画像復元タスクに適用することは不可能である。 本研究では,ビルディングブロック (マルチヘッドアテンション, フィードフォワードネットワーク) における複数のキー設計を, 大規模画像に適用しながら, 長距離画素間相互作用を捉えることで, 効率的なトランスフォーマーモデルを提案する。 このモデルでは,画像のデアライニング,シングルイメージ動作のデブロアリング,デフォーカスデブロアリング(シングルイメージとデュアルピクセルのデータ),イメージデノナイジング(ガウスのグレースケール/カラーデノナイジング,実画像デノナイジング)など,画像修復作業における最先端の成果が得られた。 ソースコードと事前トレーニングされたモデルはhttps://github.com/swz30/Restormer.comで入手できる。

Since convolutional neural networks (CNNs) perform well at learning generalizable image priors from large-scale data, these models have been extensively applied to image restoration and related tasks. Recently, another class of neural architectures, Transformers, have shown significant performance gains on natural language and high-level vision tasks. While the Transformer model mitigates the shortcomings of CNNs (i.e., limited receptive field and inadaptability to input content), its computational complexity grows quadratically with the spatial resolution, therefore making it infeasible to apply to most image restoration tasks involving high-resolution images. In this work, we propose an efficient Transformer model by making several key designs in the building blocks (multi-head attention and feed-forward network) such that it can capture long-range pixel interactions, while still remaining applicable to large images. Our model, named Restoration Transformer (Restormer), achieves state-of-the-art results on several image restoration tasks, including image deraining, single-image motion deblurring, defocus deblurring (single-image and dual-pixel data), and image denoising (Gaussian grayscale/color denoising, and real image denoising). The source code and pre-trained models are available at https://github.com/swz30/Restormer.
翻訳日:2021-11-19 14:50:05 公開日:2021-11-18
# 単純だが効果的なCLIP埋め込み

Simple but Effective: CLIP Embeddings for Embodied AI ( http://arxiv.org/abs/2111.09888v1 )

ライセンス: Link先を確認
Apoorv Khandelwal, Luca Weihs, Roozbeh Mottaghi, Aniruddha Kembhavi(参考訳) コントラスト言語イメージプリトレーニング(clip)エンコーダは、分類や検出からキャプションや画像操作に至るまで、さまざまな視覚タスクに有効であることが示されている。 具体的AIタスクにおけるCLIP視覚バックボーンの有効性を検討する。 embclipと名付けられた信じられないくらいシンプルなベースラインを構築しており、タスク固有のアーキテクチャや(セマンティックマップの使用のような)帰納的バイアス、トレーニング中の補助タスク、奥行きマップといったものはありません。 EmbCLIPはRoboTHOR ObjectNavのリーダーボードを20pts(Success Rate)で上回っている。 iTHOR 1-Phase Rearrangementのリーダーボードを上回り、アクティブニューラルマッピングを採用し、%固定ストリットメトリック(0.08から0.17)の倍増以上の、次の最高の応募を上回ります。 また、2021年のhabitat objectnav challengeでは、補助的なタスク、深度マップ、人間によるデモンストレーション、そして2019年のhabitat pointnav challengeの勝者にも勝っている。 私たちは,CLIPの視覚的表現が入力観測のセマンティック情報をキャプチャする能力(ナビゲーションが重いエンボディされたタスクに有用なプリミティブ)を評価し,これらのプリミティブをImageNetが推奨するバックボーンよりも効率的にエンコードしていることを確認した。 最後に、ベースラインの1つを拡張し、ゼロショットオブジェクトナビゲーションが可能なエージェントを生成し、トレーニング中にターゲットとして使用されなかったオブジェクトにナビゲートする。

Contrastive language image pretraining (CLIP) encoders have been shown to be beneficial for a range of visual tasks from classification and detection to captioning and image manipulation. We investigate the effectiveness of CLIP visual backbones for embodied AI tasks. We build incredibly simple baselines, named EmbCLIP, with no task specific architectures, inductive biases (such as the use of semantic maps), auxiliary tasks during training, or depth maps -- yet we find that our improved baselines perform very well across a range of tasks and simulators. EmbCLIP tops the RoboTHOR ObjectNav leaderboard by a huge margin of 20 pts (Success Rate). It tops the iTHOR 1-Phase Rearrangement leaderboard, beating the next best submission, which employs Active Neural Mapping, and more than doubling the % Fixed Strict metric (0.08 to 0.17). It also beats the winners of the 2021 Habitat ObjectNav Challenge, which employ auxiliary tasks, depth maps, and human demonstrations, and those of the 2019 Habitat PointNav Challenge. We evaluate the ability of CLIP's visual representations at capturing semantic information about input observations -- primitives that are useful for navigation-heavy embodied tasks -- and find that CLIP's representations encode these primitives more effectively than ImageNet-pretrained backbones. Finally, we extend one of our baselines, producing an agent capable of zero-shot object navigation that can navigate to objects that were not used as targets during training.
翻訳日:2021-11-19 14:49:39 公開日:2021-11-18
# CCSL:複数の未知環境からの因果構造学習手法

CCSL: A Causal Structure Learning Method from Multiple Unknown Environments ( http://arxiv.org/abs/2111.09666v1 )

ライセンス: Link先を確認
Wei Chen, Yunjin Wu, Ruichu Cai, Yueguo Chen, Zhifeng Hao(参考訳) 既存の因果構造学習法の多くは、データが独立して同一の分散(すなわち、異なる環境から来るときに保証されない)を必要とする。 以前の試みでは、この問題を2つの独立した段階、すなわち、まず非i.d.サンプルからi.d.クラスタを発見し、次に異なるグループから因果構造を学習しようとした。 この簡単な解は、クラスタリング段階と学習段階の両方が同じ因果メカニズムでガイドされるべきである2つのステージ間の固有の接続を無視します。 この目的のために、非i.d.データからの因果発見のための統一因果クラスタ構造学習法(CCSL)を提案する。 この方法は以下の2つのタスクを同時に統合する。 1) 同一因果機構を有する被験者のクラスタリング 2)被験者のサンプルから因果構造を学習する。 特に, 前者に対しては, 因果構造の類似性に基づいてサンプルをクラスタリングする因果関係の中華レストランプロセスを提供し, 後者では因果構造を学習するための変分推論に基づくアプローチを提案する。 理論的結果は、線形非ガウス的仮定の下で因果モデルとクラスタリングモデルを同定する。 シミュレーションおよび実世界のデータを用いた実験結果により,提案手法の有効性と妥当性が検証された。

Most existing causal structure learning methods require data to be independent and identically distributed (i.i.d.), which often cannot be guaranteed when the data come from different environments. Some previous efforts try to tackle this problem in two independent stages, i.e., first discovering i.i.d. clusters from non-i.i.d. samples, then learning the causal structures from different groups. This straightforward solution ignores the intrinsic connections between the two stages, that is both the clustering stage and the learning stage should be guided by the same causal mechanism. Towards this end, we propose a unified Causal Cluster Structures Learning (named CCSL) method for causal discovery from non-i.i.d. data. This method simultaneously integrates the following two tasks: 1) clustering subjects with the same causal mechanism; 2) learning causal structures from the samples of subjects. Specifically, for the former, we provide a Causality-related Chinese Restaurant Process to cluster samples based on the similarity of the causal structure; for the latter, we introduce a variational-inference-based approach to learn the causal structures. Theoretical results provide identification of the causal model and the clustering model under the linear non-Gaussian assumption. Experimental results on both simulated and real-world data further validate the correctness and effectiveness of the proposed method.
翻訳日:2021-11-19 14:46:52 公開日:2021-11-18
# DIVA: 学習課題から派生したデータセット

DIVA: Dataset Derivative of a Learning Task ( http://arxiv.org/abs/2111.09785v1 )

ライセンス: Link先を確認
Yonatan Dukler, Alessandro Achille, Giovanni Paolini, Avinash Ravichandran, Marzia Polito, Stefano Soatto(参考訳) 本稿では,データセットに対する学習タスクの導出を計算する手法を提案する。 学習タスクは、トレーニングセットから検証エラーまでの関数であり、トレーニングされたディープニューラルネットワーク(DNN)で表現することができる。 データセット微分(dataset derivative)は、トレーニングされたモデル周りで計算された線形作用素であり、各トレーニングサンプルの重みの摂動が検証エラーにどのように影響するかを知らせる。 本手法は, 事前学習したDNNの周囲の残余のクロスバリデーション誤差を, クローズドフォームで微分可能な表現に基づいて評価する。 このような表現はデータセットデリバティブを構成する。 例えば、欠陥のあるアノテーション付きのサンプルの削除、関連するサンプルの追加によるデータセットの強化、再バランスなどだ。 より一般的には、divaはトレーニングプロセスの一部としてモデルのパラメータとともにデータセットの最適化に使用できるが、automlでカスタム化されたbiレベル最適化メソッドとは異なり、個別の検証データセットは必要ない。 divaの柔軟性を説明するために,outlier reject,dataset extension,およびmulti-modal dataの自動集約など,自動調達タスクのサンプルについて実験を行った。

We present a method to compute the derivative of a learning task with respect to a dataset. A learning task is a function from a training set to the validation error, which can be represented by a trained deep neural network (DNN). The "dataset derivative" is a linear operator, computed around the trained model, that informs how perturbations of the weight of each training sample affect the validation error, usually computed on a separate validation dataset. Our method, DIVA (Differentiable Validation) hinges on a closed-form differentiable expression of the leave-one-out cross-validation error around a pre-trained DNN. Such expression constitutes the dataset derivative. DIVA could be used for dataset auto-curation, for example removing samples with faulty annotations, augmenting a dataset with additional relevant samples, or rebalancing. More generally, DIVA can be used to optimize the dataset, along with the parameters of the model, as part of the training process without the need for a separate validation dataset, unlike bi-level optimization methods customary in AutoML. To illustrate the flexibility of DIVA, we report experiments on sample auto-curation tasks such as outlier rejection, dataset extension, and automatic aggregation of multi-modal data.
翻訳日:2021-11-19 14:46:23 公開日:2021-11-18
# 深部未知物検出におけるスパーシフィケーションの有効性について

On the Effectiveness of Sparsification for Detecting the Deep Unknowns ( http://arxiv.org/abs/2111.09805v1 )

ライセンス: Link先を確認
Yiyou Sun and Yixuan Li(参考訳) out-of-distribution (ood)インプットの検出は、現実世界に機械学習モデルを安全にデプロイするための中心的な課題である。 従来の方法では、過度にパラメータ化された重量空間から得られるOODスコアに依存していたが、大部分はスパシフィケーションの役割を見落としていた。 本稿では,OOD検出の脆さに直接起因して,重要でない重量や単位に依存しているという重要な知見を明らかにする。 この問題を軽減するため,DICEと呼ばれるスペーシフィケーションに基づくOOD検出フレームワークを提案する。 私たちのキーとなるアイデアは、コントリビューションの尺度に基づいてウェイトをランク付けし、最も健全なウェイトを選択的に使用してOOD検出の出力を導出することです。 我々は、DICEがOOD検出を改善するメカニズムを特徴づけ、説明し、経験的および理論的知見を提供する。 ノイズ信号を除去することにより、DICEはOODデータの出力分散を確実に低減し、よりシャープな出力分布とIDデータからの分離性を高める。 DICEは優れた性能を確立し、FPR95を以前のベストメソッドに比べて最大24.69%削減した。

Detecting out-of-distribution (OOD) inputs is a central challenge for safely deploying machine learning models in the real world. Previous methods commonly rely on an OOD score derived from the overparameterized weight space, while largely overlooking the role of sparsification. In this paper, we reveal important insights that reliance on unimportant weights and units can directly attribute to the brittleness of OOD detection. To mitigate the issue, we propose a sparsification-based OOD detection framework termed DICE. Our key idea is to rank weights based on a measure of contribution, and selectively use the most salient weights to derive the output for OOD detection. We provide both empirical and theoretical insights, characterizing and explaining the mechanism by which DICE improves OOD detection. By pruning away noisy signals, DICE provably reduces the output variance for OOD data, resulting in a sharper output distribution and stronger separability from ID data. DICE establishes superior performance, reducing the FPR95 by up to 24.69% compared to the previous best method.
翻訳日:2021-11-19 14:46:02 公開日:2021-11-18
# 人工知能におけるプライバシー保護コラボレーションによる新型コロナウイルスの診断の改善

Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in Artificial Intelligence ( http://arxiv.org/abs/2111.09461v1 )

ライセンス: Link先を確認
Xiang Bai, Hanchen Wang, Liya Ma, Yongchao Xu, Jiefeng Gan, Ziwei Fan, Fan Yang, Ke Ma, Jiehua Yang, Song Bai, Chang Shu, Xinyu Zou, Renhao Huang, Changzheng Zhang, Xiaowu Liu, Dandan Tu, Chuou Xu, Wenqing Zhang, Xi Wang, Anguo Chen, Yu Zeng, Dehua Yang, Ming-Wei Wang, Nagaraj Holalkere, Neil J. Halin, Ihab R. Kamel, Jia Wu, Xuehua Peng, Xiang Wang, Jianbo Shao, Pattanasak Mongkolwat, Jianjun Zhang, Weiyang Liu, Michael Roberts, Zhongzhao Teng, Lucian Beer, Lorena Escudero Sanchez, Evis Sala, Daniel Rubin, Adrian Weller, Joan Lasenby, Chuangsheng Zheng, Jianming Wang, Zhen Li, Carola-Bibiane Sch\"onlieb, Tian Xia(参考訳) 人工知能(AI)は、新型コロナウイルスの診断を合理化するための有望な代替手段を提供する。 しかし、安全と信頼性に関する懸念は、大規模な代表的医療データの収集を妨げ、臨床実践において一般化されたモデルを訓練する上で大きな課題となる。 この問題を解決するために、我々はUnified CT-COVID AI Diagnostic Initiative (UCADI)を立ち上げ、AIモデルをデータ共有なしで各ホスト機関で分散訓練および独立して実行することができる。 ここでは,我々のFLモデルがすべての局所モデルを大きな収率(中国の感度/特異性:0.973/0.951,イギリス:0.730/0.942)で上回り,プロの放射線技師のパネルで同等のパフォーマンスを達成したことを示す。 さらに,モデルによる意思決定の視覚的な説明を提供し,モデル性能と連合訓練プロセスにおけるコミュニケーションコストのトレードオフを解析し,ホールドアウトモデル(flを除外した2つの病院から収集)と異種データ(コントラスト材料で取得)について評価した。 本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。 私たちの研究は、デジタルヘルスにおけるプライバシー保護AIのためのフェデレーション学習の活用の見通しを総合的に進めました。

Artificial intelligence (AI) provides a promising substitution for streamlining COVID-19 diagnoses. However, concerns surrounding security and trustworthiness impede the collection of large-scale representative medical data, posing a considerable challenge for training a well-generalised model in clinical practices. To address this, we launch the Unified CT-COVID AI Diagnostic Initiative (UCADI), where the AI model can be distributedly trained and independently executed at each host institution under a federated learning framework (FL) without data sharing. Here we show that our FL model outperformed all the local models by a large yield (test sensitivity /specificity in China: 0.973/0.951, in the UK: 0.730/0.942), achieving comparable performance with a panel of professional radiologists. We further evaluated the model on the hold-out (collected from another two hospitals leaving out the FL) and heterogeneous (acquired with contrast materials) data, provided visual explanations for decisions made by the model, and analysed the trade-offs between the model performance and the communication costs in the federated training process. Our study is based on 9,573 chest computed tomography scans (CTs) from 3,336 patients collected from 23 hospitals located in China and the UK. Collectively, our work advanced the prospects of utilising federated learning for privacy-preserving AI in digital health.
翻訳日:2021-11-19 14:45:42 公開日:2021-11-18
# 責任あるAIのためのソフトウェアエンジニアリング:実証的研究と運用パターン

Software Engineering for Responsible AI: An Empirical Study and Operationalised Patterns ( http://arxiv.org/abs/2111.09478v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle, David Douglas, Conrad Sanderson(参考訳) 人工知能(AI)は現実世界の課題を解決し、産業を変革しているが、その行動と決定を責任ある方法で行う能力には深刻な懸念がある。 責任あるAIのための多くのAI倫理原則とガイドラインは、最近政府、組織、企業によって発行されている。 しかしながら、これらのAI倫理原則とガイドラインは一般的にハイレベルであり、責任あるAIシステムの設計と開発に関する具体的なガイダンスを提供していない。 この欠点に対処するために、まず21人の科学者とエンジニアにインタビューを行い、ai倫理の原則とその実施に関する実践者の認識を理解する。 次に,ai倫理原則を具体的パターンとして運用可能にするテンプレートを提案し,新たに作成されたテンプレートを用いたパターンリストを提案する。 これらのパターンは、責任あるAIシステムの開発を容易にする具体的な、運用されたガイダンスを提供する。

Although artificial intelligence (AI) is solving real-world challenges and transforming industries, there are serious concerns about its ability to behave and make decisions in a responsible way. Many AI ethics principles and guidelines for responsible AI have been recently issued by governments, organisations, and enterprises. However, these AI ethics principles and guidelines are typically high-level and do not provide concrete guidance on how to design and develop responsible AI systems. To address this shortcoming, we first present an empirical study where we interviewed 21 scientists and engineers to understand the practitioners' perceptions on AI ethics principles and their implementation. We then propose a template that enables AI ethics principles to be operationalised in the form of concrete patterns and suggest a list of patterns using the newly created template. These patterns provide concrete, operationalised guidance that facilitate the development of responsible AI systems.
翻訳日:2021-11-19 14:45:17 公開日:2021-11-18
# 完全ベイズ推論のための局所学習シナプスドロップアウト

Locally Learned Synaptic Dropout for Complete Bayesian Inference ( http://arxiv.org/abs/2111.09780v1 )

ライセンス: Link先を確認
Kevin L. McKee, Ian C. Crandell, Rishidev Chaudhuri, Randall C. O'Reilly(参考訳) ベイズ脳仮説は、脳がベイズの定理に従って統計的分布に基づいて正確に動作していると仮定している。 シナプス前小胞の神経伝達物質放出のランダムな失敗は、脳がネットワークパラメータの後方分布からサンプルを採取することを可能にする。 以前にも、ランダムな故障が観測された分布からネットワークをサンプリングする方法は示されていない。 両方の分布からサンプリングすることで確率的推論、効率的な探索、創造的あるいは生成的問題解決が可能になる。 個体群コードに基づく神経活動の解釈により,両種類の分布を相乗的障害のみで表現し,サンプル化できることを実証する。 まず,シナプス障害と側方抑制に基づく生物学的拘束型ニューラルネットワークとサンプリングスキームを定義する。 このフレームワークの中で、ドロップアウトに基づく認識の不確かさを導出し、シナプス効果から解放確率への解析的マッピングを証明し、ネットワークが受信層で表される任意の学習された分布からサンプル化できるようにする。 第2に,この結果は,シナプスがリリース確率に適応する局所学習ルールをもたらす。 その結果,局所学習されたシナプス障害率のみを用いた生物学的制約付きネットワークにおいて,ドロップアウトの変分学習法に関連する完全なベイズ推定が得られた。

The Bayesian brain hypothesis postulates that the brain accurately operates on statistical distributions according to Bayes' theorem. The random failure of presynaptic vesicles to release neurotransmitters may allow the brain to sample from posterior distributions of network parameters, interpreted as epistemic uncertainty. It has not been shown previously how random failures might allow networks to sample from observed distributions, also known as aleatoric or residual uncertainty. Sampling from both distributions enables probabilistic inference, efficient search, and creative or generative problem solving. We demonstrate that under a population-code based interpretation of neural activity, both types of distribution can be represented and sampled with synaptic failure alone. We first define a biologically constrained neural network and sampling scheme based on synaptic failure and lateral inhibition. Within this framework, we derive drop-out based epistemic uncertainty, then prove an analytic mapping from synaptic efficacy to release probability that allows networks to sample from arbitrary, learned distributions represented by a receiving layer. Second, our result leads to a local learning rule by which synapses adapt their release probabilities. Our result demonstrates complete Bayesian inference, related to the variational learning method of dropout, in a biologically constrained network using only locally-learned synaptic failure rates.
翻訳日:2021-11-19 14:43:56 公開日:2021-11-18
# ボックス回帰ネットワークに基づく単一SAR画像からの大規模建物の高さ検索

Large-scale Building Height Retrieval from Single SAR Imagery based on Bounding Box Regression Networks ( http://arxiv.org/abs/2111.09460v1 )

ライセンス: Link先を確認
Yao Sun, Lichao Mou, Yuanyuan Wang, Sina Montazeri, Xiao Xiang Zhu(参考訳) 合成開口レーダ(SAR)画像からの高層化は,都市部において非常に重要であるが,SARデータの複雑さのため非常に困難である。 本稿では,1つのTerraSAR-Xスポットライトやストリップマップ画像から大規模都市部におけるビルの高さ検索の問題に対処する。 レーダの視線幾何学に基づいて,この問題を境界ボックス回帰問題として定式化することにより,複数のデータソースからの高さデータを統合し,より大規模な地上真実を生成することが可能になる。 地理情報システム(gis)のデータからビルの足跡を補足情報として紹介し,ビルの足跡とそのバウンディングボックスの位置関係を利用して高速な計算を可能にするバウンディングボックス回帰ネットワークを提案する。 これは大規模アプリケーションにとって重要である。 高解像度スポットライトとストリップマップモードの両方でTerraSAR-X画像を用いて4つの都市データセット上で検証を行った。 実験の結果,提案ネットワークは,r-cnn方式の高速化に比較して,個々の建物の高さ精度を保ちつつ,計算コストを大幅に削減できることがわかった。 さらに,提案ネットワークにおける不正確なGISデータの影響について検討し,提案ネットワークはGISデータの位置決め誤差に対して堅牢であることを示す。 提案手法は,地域規模やグローバルスケールにも適用できる可能性が非常に高い。

Building height retrieval from synthetic aperture radar (SAR) imagery is of great importance for urban applications, yet highly challenging owing to the complexity of SAR data. This paper addresses the issue of building height retrieval in large-scale urban areas from a single TerraSAR-X spotlight or stripmap image. Based on the radar viewing geometry, we propose that this problem can be formulated as a bounding box regression problem and therefore allows for integrating height data from multiple data sources in generating ground truth on a larger scale. We introduce building footprints from geographic information system (GIS) data as complementary information and propose a bounding box regression network that exploits the location relationship between a building's footprint and its bounding box, allowing for fast computation. This is important for large-scale applications. The method is validated on four urban data sets using TerraSAR-X images in both high-resolution spotlight and stripmap modes. Experimental results show that the proposed network can reduce the computation cost significantly while keeping the height accuracy of individual buildings compared to a Faster R-CNN based method. Moreover, we investigate the impact of inaccurate GIS data on our proposed network, and this study shows that the bounding box regression network is robust against positioning errors in GIS data. The proposed method has great potential to be applied to regional or even global scales.
翻訳日:2021-11-19 14:43:20 公開日:2021-11-18
# 速度を有するライダー:振動走査ライダーからの点雲の運動歪み補正

Lidar with Velocity: Motion Distortion Correction of Point Clouds from Oscillating Scanning Lidars ( http://arxiv.org/abs/2111.09497v1 )

ライセンス: Link先を確認
Wen Yang, Zheng Gong, Baifu Huang and Xiaoping Hong(参考訳) 移動物体からのlidar点雲の歪みは、自動運転において重要な問題であり、最近は、バック・アンド・フォア・フォア・スキャンパターンを備えた新しいlidarの登場により、さらに需要が高まっている。 移動物体の速度を正確に推定することは、追跡能力を提供するだけでなく、移動物体のより正確な記述で点雲の歪みを補正する。 lidarは飛行時間を測定するが、偏角分解能を持つため、ラジアル測定では正確な測定を行うが、角度に欠ける。 一方、カメラは密集した角分解能を提供する。 本稿では,全速度を推定し,ライダー歪みを補正するために,ガウス系lidarとカメラ融合を提案する。 移動物体を追跡し、速度を推定し、点雲の歪みを同時に補正する確率的カルマンフィルタフレームワークが提供される。 このフレームワークは実際の道路データに基づいて評価され、融合法は従来のICP法やポイントクラウド法よりも優れている。 完全動作するフレームワークはオープンソースである(https://github.com/isee-technology/lidar-with-velocity)。

Lidar point cloud distortion from moving object is an important problem in autonomous driving, and recently becomes even more demanding with the emerging of newer lidars, which feature back-and-forth scanning patterns. Accurately estimating moving object velocity would not only provide a tracking capability but also correct the point cloud distortion with more accurate description of the moving object. Since lidar measures the time-of-flight distance but with a sparse angular resolution, the measurement is precise in the radial measurement but lacks angularly. Camera on the other hand provides a dense angular resolution. In this paper, Gaussian-based lidar and camera fusion is proposed to estimate the full velocity and correct the lidar distortion. A probabilistic Kalman-filter framework is provided to track the moving objects, estimate their velocities and simultaneously correct the point clouds distortions. The framework is evaluated on real road data and the fusion method outperforms the traditional ICP-based and point-cloud only method. The complete working framework is open-sourced (https://github.com/ISEE-Technology/lidar-with-velocity) to accelerate the adoption of the emerging lidars.
翻訳日:2021-11-19 14:42:56 公開日:2021-11-18
# 表面再構成のための学習修飾指標関数

Learning Modified Indicator Functions for Surface Reconstruction ( http://arxiv.org/abs/2111.09526v1 )

ライセンス: Link先を確認
Dong Xiao, Siyou Lin, Zuoqiang Shi, Bin Wang(参考訳) 表面再構成は3Dグラフィックスの基本的な問題である。 本稿では,正規化のない原点雲からの暗黙的表面再構成のための学習に基づくアプローチを提案する。 この方法はポテンシャルエネルギー理論におけるガウス・補題に触発され、指標関数に対する明示的な積分公式を与える。 本研究では,表面積分を行う新しい深層ニューラルネットワークを設計し,無指向・無騒音点群から修正インジケータ関数を学習する。 積分への正確なポイントワイズ貢献のために、異なるスケールで特徴を結合する。 さらに,局所形状特性を学習する新しい表面要素特徴抽出器を提案する。 提案手法は,ノイズスケールの異なる点群から高い正規性を持つ平滑な表面を生成し,現在のデータ駆動型および非データ駆動型アプローチと比較して,最先端の再構築性能を実現する。

Surface reconstruction is a fundamental problem in 3D graphics. In this paper, we propose a learning-based approach for implicit surface reconstruction from raw point clouds without normals. Our method is inspired by Gauss Lemma in potential energy theory, which gives an explicit integral formula for the indicator functions. We design a novel deep neural network to perform surface integral and learn the modified indicator functions from un-oriented and noisy point clouds. We concatenate features with different scales for accurate point-wise contributions to the integral. Moreover, we propose a novel Surface Element Feature Extractor to learn local shape properties. Experiments show that our method generates smooth surfaces with high normal consistency from point clouds with different noise scales and achieves state-of-the-art reconstruction performance compared with current data-driven and non-data-driven approaches.
翻訳日:2021-11-19 14:42:34 公開日:2021-11-18
# SimpleTrack: 3Dマルチオブジェクト追跡の理解と再考

SimpleTrack: Understanding and Rethinking 3D Multi-object Tracking ( http://arxiv.org/abs/2111.09621v1 )

ライセンス: Link先を確認
Ziqi Pang, Zhichao Li, Naiyan Wang(参考訳) 3Dマルチオブジェクトトラッキング(MOT)は、特に「トラッキング・バイ・検出」パラダイムの下で、近年多くの新しいベンチマークやアプローチを目撃している。 その進歩と有用性にもかかわらず、その強さと弱点の詳細な分析はまだ得られていない。 本稿では,現在の3D MOT手法を,検出前処理,関連付け,動作モデル,ライフサイクル管理の4つの構成要素に分解することで,統一されたフレームワークにまとめる。 次に、既存のアルゴリズムの障害事例を各コンポーネントに記述し、それらを詳細に調査します。 分析に基づいて、より強力で単純なベースラインであるsimpletrackに繋がる対応する改善を提案する。 Waymo Open Dataset と nuScenes の総合的な実験結果から、我々の最終的な手法は、小さな修正を加えて新しい最先端の成果を得られることを示した。 さらに,現在のベンチマークが実世界の課題に対するアルゴリズムの能力を反映しているかどうかを再考する。 既存のベンチマークの詳細を調べ、興味深い事実を見つけます。 最後に, \name\における障害の分布と原因を分析し, 3次元MOTの今後の方向性を提案する。 私たちのコードはhttps://github.com/tusimple/simpletrackで利用可能です。

3D multi-object tracking (MOT) has witnessed numerous novel benchmarks and approaches in recent years, especially those under the "tracking-by-detection" paradigm. Despite their progress and usefulness, an in-depth analysis of their strengths and weaknesses is not yet available. In this paper, we summarize current 3D MOT methods into a unified framework by decomposing them into four constituent parts: pre-processing of detection, association, motion model, and life cycle management. We then ascribe the failure cases of existing algorithms to each component and investigate them in detail. Based on the analyses, we propose corresponding improvements which lead to a strong yet simple baseline: SimpleTrack. Comprehensive experimental results on Waymo Open Dataset and nuScenes demonstrate that our final method could achieve new state-of-the-art results with minor modifications. Furthermore, we take additional steps and rethink whether current benchmarks authentically reflect the ability of algorithms for real-world challenges. We delve into the details of existing benchmarks and find some intriguing facts. Finally, we analyze the distribution and causes of remaining failures in \name\ and propose future directions for 3D MOT. Our code is available at https://github.com/TuSimple/SimpleTrack.
翻訳日:2021-11-19 14:42:19 公開日:2021-11-18
# 心への道は、コントラスト学習を通す:非ラベリングビデオからのリモート光胸腺撮影

The Way to my Heart is through Contrastive Learning: Remote Photoplethysmography from Unlabelled Video ( http://arxiv.org/abs/2111.09748v1 )

ライセンス: Link先を確認
John Gideon and Simon Stent(参考訳) ビデオから生理的信号を確実に推定する能力は、低コストで臨床前の健康モニタリングにおいて強力なツールである。 本研究では,人の顔や皮膚の観察から血液量の変化を計測するリモート光胸腺造影法(rPPG)の新たなアプローチを提案する。 rPPGの現在の最先端手法と同様に、ニューラルネットを用いてニュアンス画像の変化に相違のある深部表現を学習する。 このような方法とは対照的に、我々は、高価な地上真理生理訓練データに依存しない、完全な自己監督訓練アプローチを採用している。 提案手法では,対象信号の周波数および時間的平滑性よりも先行する弱みを持つコントラスト学習を用いる。 我々は4つのrppgデータセットに対するアプローチを評価し,最近の教師付き深層学習法と比較して,アノテーションを使わずに,同等あるいは優れた結果が得られることを示した。 さらに,教師なしアプローチと教師なしベースラインの両方に,学習された塩分再サンプリングモジュールを組み込んだ。 モデルが入力イメージのサンプルの場所を学習できるようにすることで、ハンドエンジニアリング機能の必要性を低減し、モデルの振る舞いや起こりうる障害モードに対する解釈性を提供することができる。 私たちは、このエキサイティングな新しい方向における再現可能な進歩を促すために、完全なトレーニングと評価パイプラインのためのコードをリリースします。

The ability to reliably estimate physiological signals from video is a powerful tool in low-cost, pre-clinical health monitoring. In this work we propose a new approach to remote photoplethysmography (rPPG) - the measurement of blood volume changes from observations of a person's face or skin. Similar to current state-of-the-art methods for rPPG, we apply neural networks to learn deep representations with invariance to nuisance image variation. In contrast to such methods, we employ a fully self-supervised training approach, which has no reliance on expensive ground truth physiological training data. Our proposed method uses contrastive learning with a weak prior over the frequency and temporal smoothness of the target signal of interest. We evaluate our approach on four rPPG datasets, showing that comparable or better results can be achieved compared to recent supervised deep learning methods but without using any annotation. In addition, we incorporate a learned saliency resampling module into both our unsupervised approach and supervised baseline. We show that by allowing the model to learn where to sample the input image, we can reduce the need for hand-engineered features while providing some interpretability into the model's behavior and possible failure modes. We release code for our complete training and evaluation pipeline to encourage reproducible progress in this exciting new direction.
翻訳日:2021-11-19 14:41:42 公開日:2021-11-18
# (参考訳) Pegasus@Dravidian-CodeMix-HASOC2021: 攻撃テキスト検出のためのソーシャルメディアコンテンツの解析

Pegasus@Dravidian-CodeMix-HASOC2021: Analyzing Social Media Content for Detection of Offensive Text ( http://arxiv.org/abs/2111.09836v1 )

ライセンス: CC BY 4.0
Pawan Kalyan Jada, Konthala Yasaswini, Karthik Puranik, Anbukkarasi Sampath, Sathiyaraj Thangasamy, Kingston Pal Thamburaj(参考訳) 本研究は,非構造的,非構造的,誤記述的,コード混合的,不快なコメント・ポストを検知するための2つの手法を提案する。 ソーシャルメディアプラットフォーム上の不快なコメントや投稿は、個人やグループ、未成年者にも影響を与えうる。 タミル語とマラヤラム語という2つの人気言語でコメント/ポストを分類するために、hasoc - dravidiancodemix fire 2021共有タスクの一部として、2つのトランスフォーマーベースのプロトタイプを使用して、すべてのタスクでトップ8に立った。 私たちのアプローチのコードは閲覧して利用できます。

To tackle the conundrum of detecting offensive comments/posts which are considerably informal, unstructured, miswritten and code-mixed, we introduce two inventive methods in this research paper. Offensive comments/posts on the social media platforms, can affect an individual, a group or underage alike. In order to classify comments/posts in two popular Dravidian languages, Tamil and Malayalam, as a part of the HASOC - DravidianCodeMix FIRE 2021 shared task, we employ two Transformer-based prototypes which successfully stood in the top 8 for all the tasks. The codes for our approach can be viewed and utilized.
翻訳日:2021-11-19 14:40:01 公開日:2021-11-18
# テクスチャ変換を用いた参照型磁気共鳴画像再構成

Reference-based Magnetic Resonance Image Reconstruction Using Texture Transforme ( http://arxiv.org/abs/2111.09492v1 )

ライセンス: Link先を確認
Pengfei Guo, Vishal M. Patel(参考訳) 近年,磁気共鳴(MR)画像再構成のためのディープラーニング(DL)に基づく手法が,優れた性能を発揮することが示されている。 しかし、これらの手法はアンダーサンプリングデータのみを活用するか、あるいはマルチモーダル再構成を行うためにペアの完全サンプリング補助モダリティを必要とする。 その結果、既存のアプローチでは、参照された全サンプルデータから単一のモダリティ内でアンダーサンプルデータにテクスチャを転送できる注意機構の探索は行わない。 本稿では,MRI再構成を高速化する新しいテクスチャトランスフォーマーモジュール(TTM)を提案する。 TTMは、アンダーサンプルと参照データ間の共同特徴学習を容易にするので、注意によって特徴対応を発見でき、再構築時に正確なテクスチャ特徴を活用できる。 特に、提案したTTMは、MRIの事前再構成アプローチに基づいて、パフォーマンスをさらに向上することができる。 広汎な実験により、TTMはいくつかのDLベースのMRI再構成法の性能を大幅に改善できることが示された。

Deep Learning (DL) based methods for magnetic resonance (MR) image reconstruction have been shown to produce superior performance in recent years. However, these methods either only leverage under-sampled data or require a paired fully-sampled auxiliary modality to perform multi-modal reconstruction. Consequently, existing approaches neglect to explore attention mechanisms that can transfer textures from reference fully-sampled data to under-sampled data within a single modality, which limits these approaches in challenging cases. In this paper, we propose a novel Texture Transformer Module (TTM) for accelerated MRI reconstruction, in which we formulate the under-sampled data and reference data as queries and keys in a transformer. The TTM facilitates joint feature learning across under-sampled and reference data, so the feature correspondences can be discovered by attention and accurate texture features can be leveraged during reconstruction. Notably, the proposed TTM can be stacked on prior MRI reconstruction approaches to further improve their performance. Extensive experiments show that TTM can significantly improve the performance of several popular DL-based MRI reconstruction methods.
翻訳日:2021-11-19 14:20:01 公開日:2021-11-18
# 高エネルギーガンマ粒子検出のための機械学習アルゴリズムに基づく分類モデルの開発

Developing a Machine Learning Algorithm-Based Classification Models for the Detection of High-Energy Gamma Particles ( http://arxiv.org/abs/2111.09496v1 )

ライセンス: Link先を確認
Emmanuel Dadzie, Kelvin Kwakye(参考訳) チェレンコフガンマ望遠鏡は高エネルギーガンマ線を観測し、ガンマ線が発する電磁シャワーの中で発生する荷電粒子から放出される放射を利用して大気中に発達する。 検出器はシャワーパラメータの記録と再構成を可能にする。 パラメータ値の再構成は、CORSIKAと呼ばれるモンテカルロシミュレーションアルゴリズムを用いて達成された。 本研究では,複数の機械学習に基づく分類モデルを開発し,その性能評価を行った。 異なるデータ変換と特徴抽出技術がデータセットに適用され、2つの別々のパフォーマンスメトリクスへの影響を評価した。 提案手法の結果,異なるデータ変換はモデルの性能に大きな影響を与えなかった(p = 0.3165)。 対比較の結果,各変換データの性能は生データの性能と大きく異なるものではないことがわかった。 さらに、SVMアルゴリズムは標準化データセット上で最高のパフォーマンススコアを生成した。 本研究は,様々なデータ変換を行う他のアルゴリズムと比較して,標準データセット上でsvmを用いて十分な精度で高エネルギーガンマ粒子を予測可能であることを示唆する。

Cherenkov gamma telescope observes high energy gamma rays, taking advantage of the radiation emitted by charged particles produced inside the electromagnetic showers initiated by the gammas, and developing in the atmosphere. The detector records and allows for the reconstruction of the shower parameters. The reconstruction of the parameter values was achieved using a Monte Carlo simulation algorithm called CORSIKA. The present study developed multiple machine-learning-based classification models and evaluated their performance. Different data transformation and feature extraction techniques were applied to the dataset to assess the impact on two separate performance metrics. The results of the proposed application reveal that the different data transformations did not significantly impact (p = 0.3165) the performance of the models. A pairwise comparison indicates that the performance from each transformed data was not significantly different from the performance of the raw data. Additionally, the SVM algorithm produced the highest performance score on the standardized dataset. In conclusion, this study suggests that high-energy gamma particles can be predicted with sufficient accuracy using SVM on a standardized dataset than the other algorithms with the various data transformations.
翻訳日:2021-11-19 14:19:40 公開日:2021-11-18
# ピクセル、フレーム、ビデオから徐々に学習する360{\deg}ビデオのブラインドvqa

Blind VQA on 360{\deg} Video via Progressively Learning from Pixels, Frames and Video ( http://arxiv.org/abs/2111.09503v1 )

ライセンス: Link先を確認
Li Yang, Mai Xu, Shengxi Li, Yichen Guo, Zulin Wang(参考訳) 360{\textdegree}ビデオのblind visual quality assessment (bvqa)は没入型マルチメディアシステムの最適化において重要な役割を果たす。 360{\textdegree}ビデオの品質を評価するとき、人間は、各球面フレームのビューポートに基づく空間的歪みから、隣接するフレーム間のモーションアーティファクトまでの品質劣化を知覚し、ビデオレベルの品質スコア、すなわち進歩的品質評価パラダイムで終わる傾向がある。 しかし、既存のBVQAによる360度ビデオのアプローチはこのパラダイムを無視している。 本稿では, 球面映像品質に対する人間の知覚の進歩的パラダイムを考慮し, 画素, フレーム, ビデオから段階的に学習する360度ビデオのための新しいBVQAアプローチ(別名ProVQA)を提案する。 ProVQAアプローチでは,画素,フレーム,ビデオの進行学習に対応して,球面認識品質予測(SPAQ),運動認識品質予測(MPAQ),マルチフレーム時間非局所(MFTN)サブネット(MFTN)という3つのサブネットが設計されている。 SPAQサブネットは、まず人間の球面知覚機構に基づいて空間的品質劣化をモデル化する。 そして、隣接フレーム間のモーションキューを活用して、mpaqサブネットは360{\textdegree}ビデオの品質評価のためにモーションコンテキスト情報を適切に組み込む。 最後に、MFTNサブネットは、複数のフレームから長期的な品質相関を探索することにより、マルチフレームの品質劣化を集約し、最終的な品質スコアを得る。 実験により,360{\textdegree}ビデオ上での最先端のBVQA性能は2つのデータセットで著しく向上し,そのコードは \url{https://github.com/yanglixiaoshen/ProVQAで公開されている。 }

Blind visual quality assessment (BVQA) on 360{\textdegree} video plays a key role in optimizing immersive multimedia systems. When assessing the quality of 360{\textdegree} video, human tends to perceive its quality degradation from the viewport-based spatial distortion of each spherical frame to motion artifact across adjacent frames, ending with the video-level quality score, i.e., a progressive quality assessment paradigm. However, the existing BVQA approaches for 360{\textdegree} video neglect this paradigm. In this paper, we take into account the progressive paradigm of human perception towards spherical video quality, and thus propose a novel BVQA approach (namely ProVQA) for 360{\textdegree} video via progressively learning from pixels, frames and video. Corresponding to the progressive learning of pixels, frames and video, three sub-nets are designed in our ProVQA approach, i.e., the spherical perception aware quality prediction (SPAQ), motion perception aware quality prediction (MPAQ) and multi-frame temporal non-local (MFTN) sub-nets. The SPAQ sub-net first models the spatial quality degradation based on spherical perception mechanism of human. Then, by exploiting motion cues across adjacent frames, the MPAQ sub-net properly incorporates motion contextual information for quality assessment on 360{\textdegree} video. Finally, the MFTN sub-net aggregates multi-frame quality degradation to yield the final quality score, via exploring long-term quality correlation from multiple frames. The experiments validate that our approach significantly advances the state-of-the-art BVQA performance on 360{\textdegree} video over two datasets, the code of which has been public in \url{https://github.com/yanglixiaoshen/ProVQA.}
翻訳日:2021-11-19 14:19:24 公開日:2021-11-18
# RAANet:補助密度レベル推定によるLiDARに基づく3次元物体検出のためのレンジアウェアアテンションネットワーク

RAANet: Range-Aware Attention Network for LiDAR-based 3D Object Detection with Auxiliary Density Level Estimation ( http://arxiv.org/abs/2111.09515v1 )

ライセンス: Link先を確認
Yantao Lu, Xuetao Hao, Shiqi Sun, Weiheng Chai, Muchenxuan Tong, Senem Velipasalar(参考訳) 自動運転のためのLiDARデータからの3Dオブジェクト検出は、近年顕著な進歩を遂げている。 最先端の手法では、鳥眼ビュー(BEV)に点雲を符号化することが効果的かつ効果的であることが示されている。 ビュービューと異なり、BEVはオブジェクト間の豊富な空間情報と距離情報を保存し、同じタイプのオブジェクトはBEVでは小さく見えないが、スペーサー点雲の特徴を含んでいる。 この事実は、共有重畳み込みニューラルネットワークを用いたBEV特徴抽出を弱める。 この課題に対処するために,より強力なbev特徴を抽出し,優れた3dオブジェクト検出を生成する範囲認識アテンションネットワーク(raanet)を提案する。 RAA(Range-Aware attention)畳み込みは、近距離および遠距離物体の特徴抽出を著しく改善する。 さらに, 隠蔽対象に対するRAANetの検出精度を高めるために, 密度推定のための新たな補助損失を提案する。 提案したRAA畳み込みは軽量で互換性があり,BEV検出に使用されるCNNアーキテクチャに統合可能である点に注意が必要だ。 nuScenesデータセットの大規模な実験により,提案手法はLiDARを用いた3Dオブジェクト検出の最先端手法よりも優れており,実時間での推測速度はフルバージョンで16Hz,ライトバージョンで22Hzであることがわかった。 コードは匿名のGithubリポジトリhttps://github.com/anonymous0522/RAANで公開されている。

3D object detection from LiDAR data for autonomous driving has been making remarkable strides in recent years. Among the state-of-the-art methodologies, encoding point clouds into a bird's-eye view (BEV) has been demonstrated to be both effective and efficient. Different from perspective views, BEV preserves rich spatial and distance information between objects; and while farther objects of the same type do not appear smaller in the BEV, they contain sparser point cloud features. This fact weakens BEV feature extraction using shared-weight convolutional neural networks. In order to address this challenge, we propose Range-Aware Attention Network (RAANet), which extracts more powerful BEV features and generates superior 3D object detections. The range-aware attention (RAA) convolutions significantly improve feature extraction for near as well as far objects. Moreover, we propose a novel auxiliary loss for density estimation to further enhance the detection accuracy of RAANet for occluded objects. It is worth to note that our proposed RAA convolution is lightweight and compatible to be integrated into any CNN architecture used for the BEV detection. Extensive experiments on the nuScenes dataset demonstrate that our proposed approach outperforms the state-of-the-art methods for LiDAR-based 3D object detection, with real-time inference speed of 16 Hz for the full version and 22 Hz for the lite version. The code is publicly available at an anonymous Github repository https://github.com/anonymous0522/RAAN.
翻訳日:2021-11-19 14:17:32 公開日:2021-11-18
# テキスト検出のための適応縮小マスク

Adaptive Shrink-Mask for Text Detection ( http://arxiv.org/abs/2111.09560v1 )

ライセンス: Link先を確認
Chuang Yang, Mulin Chen, Yuan Yuan, Qi Wang, Xuelong Li(参考訳) 既存のリアルタイムテキスト検出器は、テキストの輪郭を縮小マスクで直接再構築し、フレームワークを単純化し、モデルの実行を高速化する。 しかしながら、予測された収縮マスクへの強い依存は不安定な検出結果をもたらす。 さらに,縮小マスクの識別は画素単位の予測課題である。 縮小マスクによるネットワークの監視は、多くの意味的コンテキストを失うため、縮小マスクの誤検出につながる。 これらの問題に対処するため, テキスト検出のための適応スリンクマスク (ASMTD) という効率的なテキスト検出ネットワークを構築し, トレーニング中の精度を向上し, 推論過程の複雑さを低減する。 まず,asm(adaptive shrink-mask)を用いて,縮小マスクと独立適応オフセットを用いてテキストを表現する。 テキストの結合を縮小マスクに弱め、検出結果の堅牢性を向上させる。 次に、スーパーピクセルウィンドウ(SPW)がネットワークを監督するように設計されている。 それぞれのピクセルの周囲を利用して予測される縮小マスクの信頼性を改善し、テスト中に現れない。 最後に,計算コストを削減するために,軽量な機能統合ブランチを構築した。 実験で示されたように,本手法は複数のベンチマークにおける検出精度と速度の両面で既存のSOTA法よりも優れている。

Existing real-time text detectors reconstruct text contours by shrink-masks directly, which simplifies the framework and can make the model run fast. However, the strong dependence on predicted shrink-masks leads to unstable detection results. Moreover, the discrimination of shrink-masks is a pixelwise prediction task. Supervising the network by shrink-masks only will lose much semantic context, which leads to the false detection of shrink-masks. To address these problems, we construct an efficient text detection network, Adaptive Shrink-Mask for Text Detection (ASMTD), which improves the accuracy during training and reduces the complexity of the inference process. At first, the Adaptive Shrink-Mask (ASM) is proposed to represent texts by shrink-masks and independent adaptive offsets. It weakens the coupling of texts to shrink-masks, which improves the robustness of detection results. Then, the Super-pixel Window (SPW) is designed to supervise the network. It utilizes the surroundings of each pixel to improve the reliability of predicted shrink-masks and does not appear during testing. In the end, a lightweight feature merging branch is constructed to reduce the computational cost. As demonstrated in the experiments, our method is superior to existing state-of-the-art (SOTA) methods in both detection accuracy and speed on multiple benchmarks.
翻訳日:2021-11-19 14:17:07 公開日:2021-11-18
# IMFNet: ポイントクラウド登録のための解釈可能なマルチモーダルフュージョン

IMFNet: Interpretable Multimodal Fusion for Point Cloud Registration ( http://arxiv.org/abs/2111.09624v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Wentao Qu, Yifan Zuo, Yuming Fang, Xiaowei Zhao(参考訳) 既存の最先端のディスクリプタは、テクスチャ情報を省略する構造情報のみに依存している。 しかし, テクスチャ情報は人間にとって, シーン部分の識別に不可欠である。 さらに、現在の学習ベースのポイントディスクリプタはすべてブラックボックスであり、元のポイントが最終的なディスクリプタにどのように寄与するかは不明だ。 本稿では,構造情報とテクスチャ情報の両方を考慮して,ポイントクラウド登録記述子を生成するマルチモーダル融合手法を提案する。 具体的には、ディスクリプタ抽出のための重み付けテクスチャ情報を抽出する新しい注意融合モジュールを設計する。 さらに,最終的な記述子への寄与点を説明するための解釈可能なモジュールを提案する。 我々は、デクリプタ要素を損失としてターゲット層にバックプロパゲートし、その勾配を最終記述子に対するこの点の意義とみなす。 本稿では,登録タスクにおける説明可能な深層学習に一歩前進する。 3DMatch, 3DLoMatch, KITTIの総合的な実験により、マルチモーダル融合記述子は最先端の精度を達成し、記述子の特異性を向上することを示した。 また、登録記述子抽出を説明する際の解釈可能なモジュールについても示す。

The existing state-of-the-art point descriptor relies on structure information only, which omit the texture information. However, texture information is crucial for our humans to distinguish a scene part. Moreover, the current learning-based point descriptors are all black boxes which are unclear how the original points contribute to the final descriptor. In this paper, we propose a new multimodal fusion method to generate a point cloud registration descriptor by considering both structure and texture information. Specifically, a novel attention-fusion module is designed to extract the weighted texture information for the descriptor extraction. In addition, we propose an interpretable module to explain the original points in contributing to the final descriptor. We use the descriptor element as the loss to backpropagate to the target layer and consider the gradient as the significance of this point to the final descriptor. This paper moves one step further to explainable deep learning in the registration task. Comprehensive experiments on 3DMatch, 3DLoMatch and KITTI demonstrate that the multimodal fusion descriptor achieves state-of-the-art accuracy and improve the descriptor's distinctiveness. We also demonstrate that our interpretable module in explaining the registration descriptor extraction.
翻訳日:2021-11-19 14:16:48 公開日:2021-11-18
# モデル精度を効率的に保存する自動ニューラルネットワークプルーニング

Automatic Neural Network Pruning that Efficiently Preserves the Model Accuracy ( http://arxiv.org/abs/2111.09635v1 )

ライセンス: Link先を確認
Thibault Castells and Seul-Ki Yeom(参考訳) ニューラルネットワークの性能はここ数年で大幅に改善され、毎秒の浮動小数点演算(FLOP)が増加している。 しかし、計算資源が限られている場合、より多くのFLOPが問題となる。 この問題を解決する試みとして、プルーニングフィルタは一般的な解決策であるが、既存のプルーニング法はモデルの精度を効率的に保たず、多くの微調整エポックを必要とする。 本稿では,FLOPを予め定義された目標に還元しつつ,モデル精度を維持するため,どのニューロンを保存すべきかを学習する自動プルーニング手法を提案する。 この課題を達成するために、データセットの25.6%(CIFAR-10)と7.49%(ILSVRC2012)の1つのエポックしか必要としないトレーニング可能なボトルネックを導入する。 各種アーキテクチャとデータセットを用いた実験により,提案手法はプルーニング後の精度を維持できるだけでなく,微調整後の既存手法よりも優れることが示された。 我々は,ResNet-50上で52.00%のFLOPs削減を実現し,プルーニング後のTop-1精度は47.51%,ILSVRC2012の微調整後の最先端(SOTA)精度は76.63%であった。 コードは (link anonymized for review) で入手できる。

Neural networks performance has been significantly improved in the last few years, at the cost of an increasing number of floating point operations per second (FLOPs). However, more FLOPs can be an issue when computational resources are limited. As an attempt to solve this problem, pruning filters is a common solution, but most existing pruning methods do not preserve the model accuracy efficiently and therefore require a large number of finetuning epochs. In this paper, we propose an automatic pruning method that learns which neurons to preserve in order to maintain the model accuracy while reducing the FLOPs to a predefined target. To accomplish this task, we introduce a trainable bottleneck that only requires one single epoch with 25.6% (CIFAR-10) or 7.49% (ILSVRC2012) of the dataset to learn which filters to prune. Experiments on various architectures and datasets show that the proposed method can not only preserve the accuracy after pruning but also outperform existing methods after finetuning. We achieve a 52.00% FLOPs reduction on ResNet-50, with a Top-1 accuracy of 47.51% after pruning and a state-of-the-art (SOTA) accuracy of 76.63% after finetuning on ILSVRC2012. Code is available at (link anonymized for review).
翻訳日:2021-11-19 14:16:28 公開日:2021-11-18
# 軽量動作認識のための変圧器の評価

Evaluating Transformers for Lightweight Action Recognition ( http://arxiv.org/abs/2111.09641v1 )

ライセンス: Link先を確認
Raivo Koot, Markus Hennerbichler, Haiping Lu(参考訳) ビデオアクション認識では、トランスフォーマーは常に最先端の精度に達する。 しかし、多くのモデルはハードウェアリソースが限られている平均的な研究者には重すぎる。 本研究では,軽量動作認識のためのビデオトランスフォーマーの限界について検討する。 13の動画トランスフォーマーとベースラインを3つの大規模データセットと10のハードウェアデバイスでベンチマークします。 本研究は,複数のデバイスにまたがる動作認識モデルの効率性を評価し,同じ条件下で広範囲のビデオトランスフォーマーを訓練する最初の試みである。 提案手法を3つのクラスに分類し, コンボリューションバックボーンを増強する複合トランスフォーマーは, 精度に欠けるにもかかわらず, 軽量な動作認識に最適であることを示す。 一方、注目のみのモデルには、より多くのモーションモデリング機能と、現在過度の遅延を発生させているスタンドアロンのアテンションブロックモデルが必要である。 我々の実験では、現在のビデオトランスフォーマーは従来の畳み込みベースラインと同等の軽量な動作認識能力を持っておらず、上記の欠点は、このギャップを埋めるために対処する必要があると結論付けている。 私たちの実験を再現するコードは公開されます。

In video action recognition, transformers consistently reach state-of-the-art accuracy. However, many models are too heavyweight for the average researcher with limited hardware resources. In this work, we explore the limitations of video transformers for lightweight action recognition. We benchmark 13 video transformers and baselines across 3 large-scale datasets and 10 hardware devices. Our study is the first to evaluate the efficiency of action recognition models in depth across multiple devices and train a wide range of video transformers under the same conditions. We categorize current methods into three classes and show that composite transformers that augment convolutional backbones are best at lightweight action recognition, despite lacking accuracy. Meanwhile, attention-only models need more motion modeling capabilities and stand-alone attention block models currently incur too much latency overhead. Our experiments conclude that current video transformers are not yet capable of lightweight action recognition on par with traditional convolutional baselines, and that the previously mentioned shortcomings need to be addressed to bridge this gap. Code to reproduce our experiments will be made publicly available.
翻訳日:2021-11-19 14:16:01 公開日:2021-11-18
# 亜深度:自己蒸留と不確かさ向上による自己監督単眼深度推定

SUB-Depth: Self-distillation and Uncertainty Boosting Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2111.09692v1 )

ライセンス: Link先を確認
Hang Zhou, Sarah Taylor, David Greenwood(参考訳) 本稿では,自己教師付き単眼深度推定(SDE)のための汎用マルチタスクトレーニングフレームワークである‘textbf{SUB-Depth} を提案する。 SUB-Depthでトレーニングされた深度モデルは、標準のシングルタスクSDEフレームワークでトレーニングされた同じモデルより優れている。 新たな自己蒸留タスクを標準のSDEトレーニングフレームワークに導入することにより、Sub-Depthは、画像再構成タスクの深度マップを予測するだけでなく、学習した教師ネットワークから学習データを用いて知識を抽出する深度ネットワークを訓練する。 このマルチタスク設定を活用するために,教師ネットワークノイズの影響を受けやすい領域やSDEの仮定に反する領域を罰する,各タスクに対する相似不確実性定式化を提案する。 提案するフレームワークを用いて,既存のネットワークをトレーニングすることで達成された改善を実証するために,KITTIの広範な評価を行い,その課題に対して最先端の性能を実現する。 さらに、SUB-Depthは深度出力の不確かさを推定できる。

We propose \textbf{SUB-Depth}, a universal multi-task training framework for self-supervised monocular depth estimation (SDE). Depth models trained with SUB-Depth outperform the same models trained in a standard single-task SDE framework. By introducing an additional self-distillation task into a standard SDE training framework, SUB-Depth trains a depth network, not only to predict the depth map for an image reconstruction task, but also to distill knowledge from a trained teacher network with unlabelled data. To take advantage of this multi-task setting, we propose homoscedastic uncertainty formulations for each task to penalize areas likely to be affected by teacher network noise, or violate SDE assumptions. We present extensive evaluations on KITTI to demonstrate the improvements achieved by training a range of existing networks using the proposed framework, and we achieve state-of-the-art performance on this task. Additionally, SUB-Depth enables models to estimate uncertainty on depth output.
翻訳日:2021-11-19 14:15:44 公開日:2021-11-18
# (参考訳) 共同作業型AIチームメイトのための人間決定モデルの強化学習

Reinforcement Learning on Human Decision Models for Uniquely Collaborative AI Teammates ( http://arxiv.org/abs/2111.09800v1 )

ライセンス: CC BY 4.0
Nicholas Kantack(参考訳) 2021年、ジョンズ・ホプキンス大学応用物理学研究所は、共同カードゲーム「ハナビ」に匹敵する人工知能(ai)エージェントを開発する社内チャレンジを行った。 エージェントは、エージェントがこれまで遭遇したことのない人間のプレーヤーと遊ぶ能力について評価された。 本研究は,人間の演奏平均得点16.5を達成し,人間ロボットハナビスコアの現況を上回り,挑戦に勝ったエージェントの開発を詳述する。 優勝エージェントの開発は、ハナビにおける著者の意思決定を観察し、正確にモデル化し、その後、著者の行動クローンでトレーニングすることであった。 エージェントは、まず人間の意思決定を模倣し、次にシミュレーションされた人間のボットスコアに繋がる人間のような戦略のバリエーションを探索することで、人間の補完的なプレイスタイルを発見した。 この研究は、人間互換のハナビチームメイトの設計と実装、および人間の補完戦略の存在と意味、そして、人間のマシンチームにおけるAIのより成功した応用のためにそれらがどのように探索されるのかを詳細に調べる。

In 2021 the Johns Hopkins University Applied Physics Laboratory held an internal challenge to develop artificially intelligent (AI) agents that could excel at the collaborative card game Hanabi. Agents were evaluated on their ability to play with human players whom the agents had never previously encountered. This study details the development of the agent that won the challenge by achieving a human-play average score of 16.5, outperforming the current state-of-the-art for human-bot Hanabi scores. The winning agent's development consisted of observing and accurately modeling the author's decision making in Hanabi, then training with a behavioral clone of the author. Notably, the agent discovered a human-complementary play style by first mimicking human decision making, then exploring variations to the human-like strategy that led to higher simulated human-bot scores. This work examines in detail the design and implementation of this human compatible Hanabi teammate, as well as the existence and implications of human-complementary strategies and how they may be explored for more successful applications of AI in human machine teams.
翻訳日:2021-11-19 14:13:22 公開日:2021-11-18
# 深層強化学習の一般化に関する調査研究

A Survey of Generalisation in Deep Reinforcement Learning ( http://arxiv.org/abs/2111.09794v1 )

ライセンス: Link先を確認
Robert Kirk, Amy Zhang, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 深層強化学習(rl)における一般化の研究は、展開時の新たな未熟な状況によく一般化し、トレーニング環境への過度な適合を避けるための、rlアルゴリズムの開発を目標としている。 環境が多様で動的で予測不能な現実のシナリオに強化学習アルゴリズムを展開するには、これに取り組むことが不可欠です。 この調査は、この初期段階の分野の概要である。 我々は、様々な一般化問題について議論するための統一形式主義と用語を提供する。 一般化のための既存のベンチマークと、一般化問題に取り組む現在の手法を分類します。 最後に,今後の作業の推奨など,この分野の現状に関する批判的な議論を行う。 その他の結論として, ベンチマーク設計に純粋に手続き的コンテンツ生成アプローチを採用することは, 一般化の進展に寄与しない, オンライン適応とRL固有の問題への対処を, 一般化手法の今後の研究分野として提案し, オフラインRLの一般化や報酬関数の変動といった未解決の問題設定において, ベンチマークを構築することを推奨する。

The study of generalisation in deep Reinforcement Learning (RL) aims to produce RL algorithms whose policies generalise well to novel unseen situations at deployment time, avoiding overfitting to their training environments. Tackling this is vital if we are to deploy reinforcement learning algorithms in real world scenarios, where the environment will be diverse, dynamic and unpredictable. This survey is an overview of this nascent field. We provide a unifying formalism and terminology for discussing different generalisation problems, building upon previous works. We go on to categorise existing benchmarks for generalisation, as well as current methods for tackling the generalisation problem. Finally, we provide a critical discussion of the current state of the field, including recommendations for future work. Among other conclusions, we argue that taking a purely procedural content generation approach to benchmark design is not conducive to progress in generalisation, we suggest fast online adaptation and tackling RL-specific problems as some areas for future work on methods for generalisation, and we recommend building benchmarks in underexplored problem settings such as offline RL generalisation and reward-function variation.
翻訳日:2021-11-19 14:00:46 公開日:2021-11-18
# 最適性からロバスト性:確率帯域におけるディリクレサンプリング戦略

From Optimality to Robustness: Dirichlet Sampling Strategies in Stochastic Bandits ( http://arxiv.org/abs/2111.09724v1 )

ライセンス: Link先を確認
Dorian Baudry (CRIStAL, Scool, CNRS), Patrick Saux (CRIStAL, Scool), Odalric-Ambrym Maillard (CRIStAL, Scool)(参考訳) 確率的マルチアームバンドイット問題は、腕の分布に関する標準的な仮定(例えば、既知の支持、指数族など)の下で広く研究されている。 これらの仮定は多くの実世界の問題に適しているが、実践者が正確にアクセスできない知識(例えばテール)を必要とすることがあるため、誤った特定をモデル化するためにバンディットアルゴリズムの頑健さが問題となる。 本稿では,両腕の観測値の再サンプリングとデータ依存探索ボーナスで計算された経験指標のペアワイズ比較に基づいて,汎用ディリクレサンプリング(ds)アルゴリズムについて検討する。 この戦略の異なる変種は、分布が有界であるときに最適の後悔を保証し、穏やかな質的条件を持つ半有界分布に対して対数的後悔を与える。 また、単純なチューニングは、対数的漸近的後悔よりもわずかに悪いコストで、大きな非有界分布のクラスに対してロバスト性を達成することを示す。 合成農業データにおける決定問題におけるDSのメリットを示す数値実験を行った。

The stochastic multi-arm bandit problem has been extensively studied under standard assumptions on the arm's distribution (e.g bounded with known support, exponential family, etc). These assumptions are suitable for many real-world problems but sometimes they require knowledge (on tails for instance) that may not be precisely accessible to the practitioner, raising the question of the robustness of bandit algorithms to model misspecification. In this paper we study a generic Dirichlet Sampling (DS) algorithm, based on pairwise comparisons of empirical indices computed with re-sampling of the arms' observations and a data-dependent exploration bonus. We show that different variants of this strategy achieve provably optimal regret guarantees when the distributions are bounded and logarithmic regret for semi-bounded distributions with a mild quantile condition. We also show that a simple tuning achieve robustness with respect to a large class of unbounded distributions, at the cost of slightly worse than logarithmic asymptotic regret. We finally provide numerical experiments showing the merits of DS in a decision-making problem on synthetic agriculture data.
翻訳日:2021-11-19 13:57:43 公開日:2021-11-18
# MCCE:モンテカルロによる現実的対実的説明のサンプリング

MCCE: Monte Carlo sampling of realistic counterfactual explanations ( http://arxiv.org/abs/2111.09790v1 )

ライセンス: Link先を確認
Annabelle Redelmeier, Martin Jullum, Kjersti Aas, Anders L{\o}land(参考訳) 本稿では,条件付き推論木を用いて実現可能な一組の例を生成することで,反事実的説明を生成するモデルベース手法である,現実的反事実的説明のモンテカルロサンプリングを提案する。 複雑な最適化問題を解くアルゴリズムベースのカウンターファクト法や、重機械学習モデルを用いてデータ分散をモデル化する他のモデルベースの方法とは異なり、MCCEは2つの軽量ステップ(生成と後処理)のみで構成されている。 MCCEはまた、エンドユーザーが理解し実装し、どんな種類の予測モデルや機能にも対処し、反現実的な説明を生成する際にアクション可能性の制約を考慮に入れ、必要に応じて多くの反現実的な説明を生成する。 本稿では,MCCEについて紹介し,反実的説明の比較に使用できるパフォーマンス指標の包括的リストを提供する。 また,mceと最先端手法とベンチマークデータセットにおける新しいベースライン法を比較した。 MCCEは、妥当性(正確に変化する予測)と動作可能性の制約を考慮した場合、すべてのモデルベースの手法やアルゴリズムベースの手法よりも優れている。 最後に、MCCEはトレーニングデータの小さなサブセットを与えられると、ほぼ同等の性能を発揮することを示す。

In this paper we introduce MCCE: Monte Carlo sampling of realistic Counterfactual Explanations, a model-based method that generates counterfactual explanations by producing a set of feasible examples using conditional inference trees. Unlike algorithmic-based counterfactual methods that have to solve complex optimization problems or other model based methods that model the data distribution using heavy machine learning models, MCCE is made up of only two light-weight steps (generation and post-processing). MCCE is also straightforward for the end user to understand and implement, handles any type of predictive model and type of feature, takes into account actionability constraints when generating the counterfactual explanations, and generates as many counterfactual explanations as needed. In this paper we introduce MCCE and give a comprehensive list of performance metrics that can be used to compare counterfactual explanations. We also compare MCCE with a range of state-of-the-art methods and a new baseline method on benchmark data sets. MCCE outperforms all model-based methods and most algorithmic-based methods when also taking into account validity (i.e., a correctly changed prediction) and actionability constraints. Finally, we show that MCCE has the strength of performing almost as well when given just a small subset of the training data.
翻訳日:2021-11-19 13:57:26 公開日:2021-11-18
# 因果予測:自己回帰モデルに対する一般化境界

Causal Forecasting:Generalization Bounds for Autoregressive Models ( http://arxiv.org/abs/2111.09831v1 )

ライセンス: Link先を確認
Leena Chennuru Vankadara, Philipp Michael Faller, Lenon Minorics, Debarghya Ghoshdastidar, Dominik Janzing(参考訳) 予測手法の関連性は高まっているが、これらのアルゴリズムの因果関係はほとんど解明されていない。 これは、因果正当性のような仮定を単純化しても、モデルの統計的リスクは、その \textit{causal risk} と大きく異なる可能性があることを考慮している。 本稿では,観測分布から介入分布へ一般化する*因果一般化*の予測問題について検討する。 我々の目標は、統計的関連性を予測するための自己回帰モデル(VAR)の有効性は、介入下での予測能力とどのように比較できるのか? この目的のために、予測のための *causal learning theory* の枠組みを紹介する。 この枠組みを用いて,統計的リスクと因果リスクの差異を解析し,それらの相違点の同定を支援する。 因果的充足の下では、因果的一般化の問題は、追加構造(介入分布の制限)があるにもかかわらず、共変量シフトの下での学習に比例する。 この構造により、VARモデルのクラスに対する因果一般化性に関する一様収束境界が得られる。 我々の知る限りでは、時系列設定における因果一般化の理論的保証を提供する最初の研究である。

Despite the increasing relevance of forecasting methods, the causal implications of these algorithms remain largely unexplored. This is concerning considering that, even under simplifying assumptions such as causal sufficiency, the statistical risk of a model can differ significantly from its \textit{causal risk}. Here, we study the problem of *causal generalization* -- generalizing from the observational to interventional distributions -- in forecasting. Our goal is to find answers to the question: How does the efficacy of an autoregressive (VAR) model in predicting statistical associations compare with its ability to predict under interventions? To this end, we introduce the framework of *causal learning theory* for forecasting. Using this framework, we obtain a characterization of the difference between statistical and causal risks, which helps identify sources of divergence between them. Under causal sufficiency, the problem of causal generalization amounts to learning under covariate shifts albeit with additional structure (restriction to interventional distributions). This structure allows us to obtain uniform convergence bounds on causal generalizability for the class of VAR models. To the best of our knowledge, this is the first work that provides theoretical guarantees for causal generalization in the time-series setting.
翻訳日:2021-11-19 13:57:03 公開日:2021-11-18
# ベイジアンベストアーム識別における最適簡易レグレット

Optimal Simple Regret in Bayesian Best Arm Identification ( http://arxiv.org/abs/2111.09885v1 )

ライセンス: Link先を確認
Junpei Komiyama, Kaito Ariu, Masahiro Kato and Chao Qin(参考訳) 我々は多腕バンディット問題においてベイズ最高の腕の識別を考える。 前者の一定の連続性条件を仮定すると、ベイズ的単純後悔の速度を特徴づける。 ベイズ人の後悔の最小化 (lai, 1987) とは異なり、ベイズ人の単純な後悔の主要な要因は、最適腕と準最適腕の差が$\sqrt{\frac{\log t}{t}}$よりも小さい領域に由来する。 我々は,その主因子が定数まで下限と一致するような,単純で容易に計算可能なアルゴリズムを提案する。

We consider Bayesian best arm identification in the multi-armed bandit problem. Assuming certain continuity conditions of the prior, we characterize the rate of the Bayesian simple regret. Differing from Bayesian regret minimization (Lai, 1987), the leading factor in Bayesian simple regret derives from the region where the gap between optimal and sub-optimal arms is smaller than $\sqrt{\frac{\log T}{T}}$. We propose a simple and easy-to-compute algorithm with its leading factor matches with the lower bound up to a constant factor; simulation results support our theoretical findings.
翻訳日:2021-11-19 13:56:45 公開日:2021-11-18
# 効率的な意味セグメンテーションのための動的pruning segformer

Dynamically pruning segformer for efficient semantic segmentation ( http://arxiv.org/abs/2111.09499v1 )

ライセンス: Link先を確認
Haoli Bai, Hongda Mao, Dinesh Nair(参考訳) コンピュータビジョンタスクにおけるトランスフォーマティブベースモデルの成功例として、segformerはセマンティックセグメンテーションにおいて優れた性能を示している。 それでも、高い計算コストは、エッジデバイスへのSegFormerのデプロイに大きく挑戦する。 本稿では,効率的なセマンティクスセグメンテーションのための軽量セグフォーマの設計を試みる。 segformer層のニューロンが、異なる画像にまたがって大きなばらつきを示すという観測に基づいて、入力インスタンスに基づいて最も不規則なニューロンの集合をプルーピングする動的ゲート線形層を提案する。 動的に刈り取ったsegformerを改善するために,原教師の知識を刈り取った学生ネットワークに移すために,二段階の知識蒸留を導入する。 実験の結果,本手法はsegformerの性能低下を伴わずに計算オーバーヘッドを大幅に削減できることがわかった。 例えば、ADE20K上では3.3GのFLOPで36.9%のmIoUを達成でき、mIoUの0.5%の低下で60%以上の計算を節約できる。

As one of the successful Transformer-based models in computer vision tasks, SegFormer demonstrates superior performance in semantic segmentation. Nevertheless, the high computational cost greatly challenges the deployment of SegFormer on edge devices. In this paper, we seek to design a lightweight SegFormer for efficient semantic segmentation. Based on the observation that neurons in SegFormer layers exhibit large variances across different images, we propose a dynamic gated linear layer, which prunes the most uninformative set of neurons based on the input instance. To improve the dynamically pruned SegFormer, we also introduce two-stage knowledge distillation to transfer the knowledge within the original teacher to the pruned student network. Experimental results show that our method can significantly reduce the computation overhead of SegFormer without an apparent performance drop. For instance, we can achieve 36.9% mIoU with only 3.3G FLOPs on ADE20K, saving more than 60% computation with the drop of only 0.5% in mIoU
翻訳日:2021-11-19 13:56:16 公開日:2021-11-18
# 低温環境におけるてんかん不確実性の定量化限界の探索

Exploring the Limits of Epistemic Uncertainty Quantification in Low-Shot Settings ( http://arxiv.org/abs/2111.09808v1 )

ライセンス: Link先を確認
Matias Valdenegro-Toro(参考訳) ニューラルネットワークの不確実性定量化は、AIシステムの安全性を高めることを約束するが、トレーニングセットのサイズによってパフォーマンスがどう変わるかは明らかではない。 本稿では,ファッションmnistとcifar10の7つの不確実性評価手法について,サブサンプルとして評価し,様々なトレーニングセットサイズを生成する。 キャリブレーション誤差と分布検出性能はトレーニングセットのサイズに強く依存しており、ほとんどのメソッドは小さなトレーニングセットでテストセット上で誤校正されている。 グラディエントに基づく手法は, てんかん不確実性の推定に乏しく, トレーニングセットサイズに最も影響を受けやすい。 我々は,不確実性定量化に関する今後の研究を指導し,特定のデータに基づく方法の選択を支援することを期待する。

Uncertainty quantification in neural network promises to increase safety of AI systems, but it is not clear how performance might vary with the training set size. In this paper we evaluate seven uncertainty methods on Fashion MNIST and CIFAR10, as we sub-sample and produce varied training set sizes. We find that calibration error and out of distribution detection performance strongly depend on the training set size, with most methods being miscalibrated on the test set with small training sets. Gradient-based methods seem to poorly estimate epistemic uncertainty and are the most affected by training set size. We expect our results can guide future research into uncertainty quantification and help practitioners select methods based on their particular available data.
翻訳日:2021-11-19 13:55:55 公開日:2021-11-18
# 医用画像の意味セグメンテーションのためのエッジ保存領域適応

Edge-preserving Domain Adaptation for semantic segmentation of Medical Images ( http://arxiv.org/abs/2111.09847v1 )

ライセンス: Link先を確認
Thong Vo, Naimul Khan(参考訳) ドメイン適応(domain adaptation)は、未知の環境で大量のラベル付きデータの欠如に対処するテクニックである。 非教師付きドメイン適応は、ラベル付きソースデータとラベルなしターゲットドメインデータを用いて、新しいモダリティにモデルを適用するために提案される。 多くの画像空間領域適応法がピクセルレベルの領域シフトを捉えるために提案されているが、そのような手法はセグメンテーションタスクの高レベルな意味情報を維持できない可能性がある。 バイオメディカル画像の場合、ドメイン間の画像変換操作中に血管などの細部が失われることがある。 本研究では,適応プロセス中にエッジベース損失を強制することにより,元の画像のエッジ詳細を維持しながら,サイクル一貫性損失を用いたドメイン間適応モデルを提案する。 2つの眼底血管セグメンテーションデータセット上の他のアプローチと比較し,本アルゴリズムの有効性を示す。 我々はDICEスコアの1.1から9.2インクリメントをSOTAおよび5.2インクリメントと比較し、バニラのCycleGAN実装と比較した。

Domain Adaptation is a technique to address the lack of massive amounts of labeled data in unseen environments. Unsupervised domain adaptation is proposed to adapt a model to new modalities using solely labeled source data and unlabeled target domain data. Though many image-spaces domain adaptation methods have been proposed to capture pixel-level domain-shift, such techniques may fail to maintain high-level semantic information for the segmentation task. For the case of biomedical images, fine details such as blood vessels can be lost during the image transformation operations between domains. In this work, we propose a model that adapts between domains using cycle-consistent loss while maintaining edge details of the original images by enforcing an edge-based loss during the adaptation process. We demonstrate the effectiveness of our algorithm by comparing it to other approaches on two eye fundus vessels segmentation datasets. We achieve 1.1 to 9.2 increment in DICE score compared to the SOTA and ~5.2 increments compared to a vanilla CycleGAN implementation.
翻訳日:2021-11-19 13:55:41 公開日:2021-11-18
# PyTorchVideo: ビデオ理解のためのディープラーニングライブラリ

PyTorchVideo: A Deep Learning Library for Video Understanding ( http://arxiv.org/abs/2111.09887v1 )

ライセンス: Link先を確認
Haoqi Fan, Tullie Murrell, Heng Wang, Kalyan Vasudev Alwala, Yanghao Li, Yilei Li, Bo Xiong, Nikhila Ravi, Meng Li, Haichuan Yang, Jitendra Malik, Ross Girshick, Matt Feiszli, Aaron Adcock, Wan-Yen Lo, Christoph Feichtenhofer(参考訳) 我々はPyTorchVideoを紹介した。PyTorchVideoはオープンソースのディープラーニングライブラリで,分類,検出,自己教師型学習,低レベル処理など,さまざまなビデオ理解タスクに対して,モジュール化,効率的,再現可能な豊富なコンポーネントセットを提供する。 このライブラリには、マルチモーダルデータ読み込み、変換、最先端のパフォーマンスを再現するモデルを含む、ビデオ理解ツールのフルスタックが含まれている。 PyTorchVideoはさらに、モバイルデバイス上でリアルタイムの推論を可能にするハードウェアアクセラレーションをサポートしている。 ライブラリはPyTorchをベースにしており、PyTorchLightning、PySlowFast、Classy Visionなど、任意のトレーニングフレームワークで使用することができる。 pytorchvideoはhttps://pytorchvideo.org/で入手できる。

We introduce PyTorchVideo, an open-source deep-learning library that provides a rich set of modular, efficient, and reproducible components for a variety of video understanding tasks, including classification, detection, self-supervised learning, and low-level processing. The library covers a full stack of video understanding tools including multimodal data loading, transformations, and models that reproduce state-of-the-art performance. PyTorchVideo further supports hardware acceleration that enables real-time inference on mobile devices. The library is based on PyTorch and can be used by any training framework; for example, PyTorchLightning, PySlowFast, or Classy Vision. PyTorchVideo is available at https://pytorchvideo.org/
翻訳日:2021-11-19 13:55:22 公開日:2021-11-18
# マルチタスク学習によるドッキング型仮想スクリーニング

Docking-based Virtual Screening with Multi-Task Learning ( http://arxiv.org/abs/2111.09502v1 )

ライセンス: Link先を確認
Zijing Liu, Xianbin Ye, Xiaoming Fang, Fan Wang, Hua Wu, Haifeng Wang(参考訳) 機械学習は、薬物発見のための仮想スクリーニングに大きな可能性を示している。 ドッキングベースの仮想スクリーニングを加速する現在の取り組みは、既に開発された他のターゲットの既存のデータを使用しない。 本研究では,他のターゲットの知識を活用し,既存のデータを活用するために,ドッキングベースの仮想スクリーニング問題にマルチタスク学習を適用する。 2つの大きなドッキングデータセットで、広範囲な実験の結果、マルチタスク学習はドッキングスコア予測においてより良いパフォーマンスを達成できることが示されている。 複数のターゲットの知識を学習することで、マルチタスク学習によってトレーニングされたモデルは、新しいターゲットに適応するより良い能力を示す。 実験的な研究により、薬物発見における他の問題、例えば実験的な薬物標的親和性予測はマルチタスク学習の恩恵を受ける可能性が示されている。 以上の結果から,マルチタスク学習はドッキングベースの仮想スクリーニングと薬物発見プロセスの促進に有望な機械学習手法であることが示された。

Machine learning shows great potential in virtual screening for drug discovery. Current efforts on accelerating docking-based virtual screening do not consider using existing data of other previously developed targets. To make use of the knowledge of the other targets and take advantage of the existing data, in this work, we apply multi-task learning to the problem of docking-based virtual screening. With two large docking datasets, the results of extensive experiments show that multi-task learning can achieve better performances on docking score prediction. By learning knowledge across multiple targets, the model trained by multi-task learning shows a better ability to adapt to a new target. Additional empirical study shows that other problems in drug discovery, such as the experimental drug-target affinity prediction, may also benefit from multi-task learning. Our results demonstrate that multi-task learning is a promising machine learning approach for docking-based virtual screening and accelerating the process of drug discovery.
翻訳日:2021-11-19 13:54:48 公開日:2021-11-18
# CLMB : 強靭なメダゲノミクスビンニングのための深層的コントラスト学習

CLMB: deep contrastive learning for robust metagenomic binning ( http://arxiv.org/abs/2111.09656v1 )

ライセンス: Link先を確認
Pengfei Zhang, Zhengyuan Jiang, Yixuan Wang and Yu Li(参考訳) 大きなメダゲノミクスデータセットからの微生物ゲノムの再構成は、未培養の微生物集団を発見し、それらの微生物の機能的役割を定義するための重要な手順である。 これを実現するために、我々はメダゲノミクス・ビニングを行い、組立てられたコンティグをドラフトゲノムにまとめる必要がある。 既存の計算ツールにもかかわらず、そのほとんどはメダゲノミクスデータの重要な特性、すなわちノイズを無視している。 メタジェノミーバイナリ化の段階をさらに改善し、より優れたメタジェノミーを再構築するために、ノイズの乱れを効率的に除去し、より安定かつ堅牢な結果を生み出すメタジェノミーバイナリ化(clmb)のための深層コントラスト学習フレームワークを提案する。 本質的には、データを明示的に飾る代わりに、トレーニングデータにシミュレートされたノイズを加え、ディープラーニングモデルにノイズのないデータと歪んだデータの両方に対して、同様の安定した表現を強制する。 したがって、トレーニングされたモデルはノイズに対して堅牢であり、使用中に暗黙的に処理される。 clmbは以前の最先端のバイナリ法を大幅に上回り、ほぼすべてのベンチマークデータセットでほぼ完成に近いゲノムを回収している(第2の方法と比較して最大で17\%の再構成ゲノム)。 また、ビンリファインメントの性能も向上し、8-22の高品質ゲノムと15-32の中間品質ゲノムを2番目の結果よりも再構成する。 驚くべきことに、binning refinerとの互換性に加えて、シングルclmbはベンチマークデータセットのvambとmaxbinの精製機よりも平均15個のhqゲノムで回復する。 CLMBはオープンソースであり、https://github.com/zpf0117b/CLMB/で入手できる。

The reconstruction of microbial genomes from large metagenomic datasets is a critical procedure for finding uncultivated microbial populations and defining their microbial functional roles. To achieve that, we need to perform metagenomic binning, clustering the assembled contigs into draft genomes. Despite the existing computational tools, most of them neglect one important property of the metagenomic data, that is, the noise. To further improve the metagenomic binning step and reconstruct better metagenomes, we propose a deep Contrastive Learning framework for Metagenome Binning (CLMB), which can efficiently eliminate the disturbance of noise and produce more stable and robust results. Essentially, instead of denoising the data explicitly, we add simulated noise to the training data and force the deep learning model to produce similar and stable representations for both the noise-free data and the distorted data. Consequently, the trained model will be robust to noise and handle it implicitly during usage. CLMB outperforms the previous state-of-the-art binning methods significantly, recovering the most near-complete genomes on almost all the benchmarking datasets (up to 17\% more reconstructed genomes compared to the second-best method). It also improves the performance of bin refinement, reconstructing 8-22 more high-quality genomes and 15-32 more middle-quality genomes than the second-best result. Impressively, in addition to being compatible with the binning refiner, single CLMB even recovers on average 15 more HQ genomes than the refiner of VAMB and Maxbin on the benchmarking datasets. CLMB is open-source and available at https://github.com/zpf0117b/CLMB/.
翻訳日:2021-11-19 13:54:34 公開日:2021-11-18
# 航空分野における信頼性・安全分析の設計・実行のための安全な実験サンドボックス

A Secure Experimentation Sandbox for the design and execution of trusted and secure analytics in the aviation domain ( http://arxiv.org/abs/2111.09863v1 )

ライセンス: Link先を確認
Dimitrios Miltiadou (1), Stamatis Pitsios (1), Dimitrios Spyropoulos (1), Dimitrios Alexandrou (1), Fenareti Lampathaki (2), Domenico Messina (3), Konstantinos Perakis (1) ((1) UBITECH, (2) Suite5, (3) ENGINEERING Ingegneria Informatica S.p.A.)(参考訳) 航空産業も、それに結びついている産業も、ビッグデータ分析という形でのイノベーションのために熟している。 利用可能なビッグデータテクノロジの数は常に増加していますが、同時に既存のテクノロジも急速に進化し、新機能によって権限が与えられています。 しかし、ビッグデータ時代は、異種データソースからの大規模で急速に進化するデータを管理しながら、情報セキュリティを効果的に扱うための重要な課題を課している。 複数の技術が登場したが、複数のセキュリティ要件、プライバシ義務、システムパフォーマンス、大規模データセットの高速な動的解析のバランスを見つける必要がある。 本稿では,ICARUSプラットフォームのセキュア実験サンドボックスについて紹介する。 ICARUSプラットフォームは、航空データとインテリジェンス市場のための"ワンストップショップ"になることを目標とするビッグデータ対応プラットフォームを提供することを目的としており、信頼され、セキュアな「サンドボックス」分析ワークスペースを提供し、信頼され、公正な方法でオリジナルデータとデリバティブデータの探索、統合、分析を可能にする。 この目的のために、セキュア実験サンドボックスがICARUSプラットフォームに設計および統合され、データの安全性と機密性を完全に保証できる洗練された環境のプロビジョニングを可能にし、関係者がプラットフォームを使用してクローズドラブ環境で分析実験を行うことが可能になる。

The aviation industry as well as the industries that benefit and are linked to it are ripe for innovation in the form of Big Data analytics. The number of available big data technologies is constantly growing, while at the same time the existing ones are rapidly evolving and empowered with new features. However, the Big Data era imposes the crucial challenge of how to effectively handle information security while managing massive and rapidly evolving data from heterogeneous data sources. While multiple technologies have emerged, there is a need to find a balance between multiple security requirements, privacy obligations, system performance and rapid dynamic analysis on large datasets. The current paper aims to introduce the ICARUS Secure Experimentation Sandbox of the ICARUS platform. The ICARUS platform aims to provide a big data-enabled platform that aspires to become an 'one-stop shop' for aviation data and intelligence marketplace that provides a trusted and secure 'sandboxed' analytics workspace, allowing the exploration, integration and deep analysis of original and derivative data in a trusted and fair manner. Towards this end, a Secure Experimentation Sandbox has been designed and integrated in the ICARUS platform offering, that enables the provisioning of a sophisticated environment that can completely guarantee the safety and confidentiality of data, allowing to any interested party to utilise the platform to conduct analytical experiments in closed-lab conditions.
翻訳日:2021-11-19 13:53:51 公開日:2021-11-18
# 航空産業のためのビッグデータインテリジェンス市場とセキュアな分析実験プラットフォーム

A big data intelligence marketplace and secure analytics experimentation platform for the aviation industry ( http://arxiv.org/abs/2111.09872v1 )

ライセンス: Link先を確認
Dimitrios Miltiadou (1), Stamatis Pitsios (1), Dimitrios Spyropoulos (1), Dimitrios Alexandrou (1), Fenareti Lampathaki (2), Domenico Messina (3), Konstantinos Perakis (1) ((1) UBITECH, (2) Suite5, (3) ENGINEERING Ingegneria Informatica S.p.A.)(参考訳) 取得、生成、保存、管理が可能な航空データの前例のない量、多様性、豊かさは、航空関連産業に特有の機能を提供し、革新的なビッグデータ分析技術の採用によってまだ解き放たれている価値に関するものである。 研究とイノベーションに対する大きな取り組みと投資にもかかわらず、ビッグデータ技術は採用者に多くの課題をもたらしている。 効果的なストレージと基盤となるビッグデータへのアクセスに加えて、効率的なデータ統合とデータ相互運用性も考慮すべきであり、同時に異なる利害関係者間でのデータ交換とデータ共有を行うことによって、複数のデータソースを効果的に組み合わせるべきである。 しかし、これは収集したデータの情報セキュリティ、信頼されセキュアなデータ交換とデータ共有、そして堅牢なデータアクセス制御を維持するための追加の課題を明らかにしている。 本論文は,新しい航空データおよびインテリジェンス市場を提供する多面的なプラットフォームと,信頼性とセキュアな分析作業空間を提供するICARUSビッグデータ対応プラットフォームの導入を目的とする。 データ収集、データキュレーション、データ探索から、ベロシティ、バラエティ、ボリュームの異なる異質なデータソースから生まれたデータのデータ統合とデータ分析まで、完全にビッグデータライフサイクルを信頼できる方法で処理します。

The unprecedented volume, diversity and richness of aviation data that can be acquired, generated, stored, and managed provides unique capabilities for the aviation-related industries and pertains value that remains to be unlocked with the adoption of the innovative Big Data Analytics technologies. Despite the large efforts and investments on research and innovation, the Big Data technologies introduce a number of challenges to its adopters. Besides the effective storage and access to the underlying big data, efficient data integration and data interoperability should be considered, while at the same time multiple data sources should be effectively combined by performing data exchange and data sharing between the different stakeholders. However, this reveals additional challenges for the crucial preservation of the information security of the collected data, the trusted and secure data exchange and data sharing, as well as the robust data access control. The current paper aims to introduce the ICARUS big data-enabled platform that aims provide a multi-sided platform that offers a novel aviation data and intelligence marketplace accompanied by a trusted and secure analytics workspace. It holistically handles the complete big data lifecycle from the data collection, data curation and data exploration to the data integration and data analysis of data originating from heterogeneous data sources with different velocity, variety and volume in a trusted and secure manner.
翻訳日:2021-11-19 13:53:26 公開日:2021-11-18
# ロバスト報酬設計を支援する

Assisted Robust Reward Design ( http://arxiv.org/abs/2111.09884v1 )

ライセンス: Link先を確認
Jerry Zhi-Yang He, Anca D. Dragan(参考訳) 現実世界のロボットは複雑な報酬関数を必要とする。 ロボットが解決すべき問題を定義するとき、設計者がこの複雑な報酬を正確に指定したふりをして、その後は石にセットする。 しかし、実際には報酬設計は反復的なプロセスであり、デザイナーは報酬を選択し、最終的には報酬が間違った行動にインセンティブを与え、報酬を改訂し、繰り返し繰り返す「エッジケース」環境に遭遇する。 ロボット工学の問題を再考して、報酬デザインの反復的な性質を正式に説明することは何を意味するのだろうか? 我々は,ロボットが与えられた報酬を当然受け取らず,その不確実性を有し,将来の設計イテレーションを将来の証拠として考慮することを提案する。 我々は,設計者が最終的に失敗事例に遭遇し,その報酬を修正させる代わりに,開発段階で積極的に設計者をそのような環境に露出させることによって,設計プロセスを高速化する補助的報酬設計手法を提案する。 本研究では,この手法を簡易な自律運転タスクでテストし,現在の報酬に対して「エッジケース」である環境を提案することにより,保留環境における自動車の挙動をより迅速に改善することを確認する。

Real-world robotic tasks require complex reward functions. When we define the problem the robot needs to solve, we pretend that a designer specifies this complex reward exactly, and it is set in stone from then on. In practice, however, reward design is an iterative process: the designer chooses a reward, eventually encounters an "edge-case" environment where the reward incentivizes the wrong behavior, revises the reward, and repeats. What would it mean to rethink robotics problems to formally account for this iterative nature of reward design? We propose that the robot not take the specified reward for granted, but rather have uncertainty about it, and account for the future design iterations as future evidence. We contribute an Assisted Reward Design method that speeds up the design process by anticipating and influencing this future evidence: rather than letting the designer eventually encounter failure cases and revise the reward then, the method actively exposes the designer to such environments during the development phase. We test this method in a simplified autonomous driving task and find that it more quickly improves the car's behavior in held-out environments by proposing environments that are "edge cases" for the current reward.
翻訳日:2021-11-19 13:53:06 公開日:2021-11-18
# 機械学習モデルに対するメンバーシップ推論攻撃の強化

Enhanced Membership Inference Attacks against Machine Learning Models ( http://arxiv.org/abs/2111.09679v1 )

ライセンス: Link先を確認
Jiayuan Ye, Aadyaa Maddi, Sasi Kumar Murakonda, Reza Shokri(参考訳) トレーニングセット内の個々のデータレコードについて、トレーニングされたモデルがどの程度リークしているか? メンバーシップ推論攻撃は、モデルがトレーニングセット内の個々のデータポイントについてリークするプライベート情報を定量化する監査ツールとして使用される。 メンバーシップ推論攻撃は、攻撃者がトレーニングデータ、トレーニングアルゴリズム、基礎となるデータ分布について解決しなければならないさまざまな不確実性に影響される。 したがって、攻撃の成功率(文献における多くの攻撃)は、攻撃アルゴリズムが持つ他の不確実性も反映しているため、そのデータに関するモデルの情報漏洩を正確に捉えていない。 本稿では,仮説テストの枠組みを用いて,先行研究における暗黙的な仮定と単純化について述べる。 また,高いaucスコアを達成可能なフレームワークから新たな攻撃アルゴリズムを導出するとともに,その性能に影響するさまざまな要因を強調する。 我々のアルゴリズムは、モデルにおけるプライバシ損失の極めて正確な近似を捉え、機械学習モデルにおけるプライバシリスクの正確かつ詳細な推定を行うためのツールとして使用できる。 我々は、さまざまな機械学習タスクやベンチマークデータセットに対する攻撃戦略を徹底的に評価する。

How much does a given trained model leak about each individual data record in its training set? Membership inference attacks are used as an auditing tool to quantify the private information that a model leaks about the individual data points in its training set. Membership inference attacks are influenced by different uncertainties that an attacker has to resolve about training data, the training algorithm, and the underlying data distribution. Thus attack success rates, of many attacks in the literature, do not precisely capture the information leakage of models about their data, as they also reflect other uncertainties that the attack algorithm has. In this paper, we explain the implicit assumptions and also the simplifications made in prior work using the framework of hypothesis testing. We also derive new attack algorithms from the framework that can achieve a high AUC score while also highlighting the different factors that affect their performance. Our algorithms capture a very precise approximation of privacy loss in models, and can be used as a tool to perform an accurate and informed estimation of privacy risk in machine learning models. We provide a thorough empirical evaluation of our attack strategies on various machine learning tasks and benchmark datasets.
翻訳日:2021-11-19 13:52:44 公開日:2021-11-18
# 知能指向型音声音声強調に向けて

Towards Intelligibility-Oriented Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2111.09642v1 )

ライセンス: Link先を確認
Tassadaq Hussain, Mandar Gogate, Kia Dashtipour, Amir Hussain(参考訳) 既存のディープラーニング(DL)に基づく音声強調手法は、クリーンな音声特徴と強化された音声特徴との距離を最小化するために一般的に最適化されている。 これらはしばしば音声品質の向上をもたらすが、一般化の欠如に苦しめられ、本当に騒がしい状況では必要な音声知性を提供できない。 これらの課題に対処するため、研究者はi-o(intelligibility-oriented)損失関数と、より頑健な音声強調(se)のためのav情報の統合を検討してきた。 本稿では,新しい研究方向であるAV情報を利用したDLベースのI-O SEアルゴリズムを提案する。 具体的には,完全畳み込み型av seモデルを提案し,学習コスト関数としてstoi(short-time objective intelligibility)メトリックを用いた。 我々の知る限りでは、これはSEのためのI-Oベースの損失関数とAVモダリティの統合を利用する最初の研究である。 比較実験の結果,提案したI-O AV SEフレームワークは,従来の距離に基づく損失関数で訓練されたAOモデルとAVモデルよりも優れており,不明瞭な話者や雑音に対処する際の客観的評価の基準となる。

Existing deep learning (DL) based speech enhancement approaches are generally optimised to minimise the distance between clean and enhanced speech features. These often result in improved speech quality however they suffer from a lack of generalisation and may not deliver the required speech intelligibility in real noisy situations. In an attempt to address these challenges, researchers have explored intelligibility-oriented (I-O) loss functions and integration of audio-visual (AV) information for more robust speech enhancement (SE). In this paper, we introduce DL based I-O SE algorithms exploiting AV information, which is a novel and previously unexplored research direction. Specifically, we present a fully convolutional AV SE model that uses a modified short-time objective intelligibility (STOI) metric as a training cost function. To the best of our knowledge, this is the first work that exploits the integration of AV modalities with an I-O based loss function for SE. Comparative experimental results demonstrate that our proposed I-O AV SE framework outperforms audio-only (AO) and AV models trained with conventional distance-based loss functions, in terms of standard objective evaluation measures when dealing with unseen speakers and noises.
翻訳日:2021-11-19 13:51:55 公開日:2021-11-18
# 超スペクトル画像復元のための訓練可能なスペクトル空間スパース符号化モデル

A Trainable Spectral-Spatial Sparse Coding Model for Hyperspectral Image Restoration ( http://arxiv.org/abs/2111.09708v1 )

ライセンス: Link先を確認
Th\'eo Bodrito (Thoth, Inria, UGA, CNRS, Grenoble INP, LJK), Alexandre Zouaoui (Thoth, Inria, UGA, CNRS, Grenoble INP, LJK), Jocelyn Chanussot (Thoth, Inria, UGA, CNRS, Grenoble INP, LJK), Julien Mairal (Thoth, Inria, UGA, CNRS, Grenoble INP, LJK)(参考訳) ハイパースペクトルイメージングは、航空機や衛星のリモートセンシングによる環境のモニタリング、精密農業、食品の安全性、惑星探査、天体物理学など、様々な用途に新しい視点を提供する。 残念なことに、情報のスペクトルの多様性は様々な劣化源を犠牲にしており、現場で取得した正確な「クリーン」ハイパースペクトル信号の欠如は復元作業に困難をもたらす。 特に、ディープモデルが輝きやすい従来のRGBイメージング問題とは対照的に、修復のためのディープニューラルネットワークのトレーニングは困難である。 本稿では,手作り画像に先立ってドメイン知識をエンコードする古典的な手法の解釈性を保ちながら,膨大なデータなしでエンドツーエンドでモデルパラメータをトレーニングできる疎結合なコーディング原則に基づくハイブリッドアプローチを提唱する。 本稿では,提案手法が計算効率が高く,その性能が著しく向上していることを示す。

Hyperspectral imaging offers new perspectives for diverse applications, ranging from the monitoring of the environment using airborne or satellite remote sensing, precision farming, food safety, planetary exploration, or astrophysics. Unfortunately, the spectral diversity of information comes at the expense of various sources of degradation, and the lack of accurate ground-truth "clean" hyperspectral signals acquired on the spot makes restoration tasks challenging. In particular, training deep neural networks for restoration is difficult, in contrast to traditional RGB imaging problems where deep models tend to shine. In this paper, we advocate instead for a hybrid approach based on sparse coding principles that retains the interpretability of classical techniques encoding domain knowledge with handcrafted image priors, while allowing to train model parameters end-to-end without massive amounts of data. We show on various denoising benchmarks that our method is computationally efficient and significantly outperforms the state of the art.
翻訳日:2021-11-19 13:51:31 公開日:2021-11-18
# 分類器のロバスト性を改善するための重み付け

Wiggling Weights to Improve the Robustness of Classifiers ( http://arxiv.org/abs/2111.09779v1 )

ライセンス: Link先を確認
Sadaf Gulshad, Ivan Sosnovik, Arnold Smeulders(参考訳) 不要な摂動に対するロバスト性は、現実世界にニューラルネットワーク分類器を配置する上で重要な側面である。 一般的な自然摂動はノイズ、飽和、咬合、視点変化、ぼやけ変形である。 これら全ては、新しく提案された変換拡張畳み込みネットワークによってモデル化することができる。 ネットワークに拡張データを提供することで、堅牢性に関する多くのアプローチがネットワークをトレーニングする一方で、ネットワークアーキテクチャの摂動を統合して、より良く、より一般的な堅牢性を達成することを目指している。 重み付けが一貫した分類を改善することを示すために、標準ネットワークを選択し、それを変換拡張ネットワークに修正する。 摂動型CIFAR-10画像では、修正されたネットワークは元のネットワークよりも優れたパフォーマンスを提供する。 はるかに小さなstl-10データセットでは、より汎用的なロバスト性の提供に加えて、wigglingは、不安定でクリーンな画像の分類を大幅に改善する。 我々は、トレーニング中に見えない摂動であっても、スイッチング変換強化ネットワークは良好な堅牢性が得られると結論付けた。

Robustness against unwanted perturbations is an important aspect of deploying neural network classifiers in the real world. Common natural perturbations include noise, saturation, occlusion, viewpoint changes, and blur deformations. All of them can be modelled by the newly proposed transform-augmented convolutional networks. While many approaches for robustness train the network by providing augmented data to the network, we aim to integrate perturbations in the network architecture to achieve improved and more general robustness. To demonstrate that wiggling the weights consistently improves classification, we choose a standard network and modify it to a transform-augmented network. On perturbed CIFAR-10 images, the modified network delivers a better performance than the original network. For the much smaller STL-10 dataset, in addition to delivering better general robustness, wiggling even improves the classification of unperturbed, clean images substantially. We conclude that wiggled transform-augmented networks acquire good robustness even for perturbations not seen during training.
翻訳日:2021-11-19 13:50:51 公開日:2021-11-18
# SDCUP: 表セマンティック解析のためのスキーマ依存強化カリキュラム事前学習

SDCUP: Schema Dependency-Enhanced Curriculum Pre-Training for Table Semantic Parsing ( http://arxiv.org/abs/2111.09486v1 )

ライセンス: Link先を確認
Bowen Qin, Lihan Wang, Binyuan Hui, Ruiying Geng, Zheng Cao, Min Yang, Jian Sun, Yongbin Li(参考訳) 近年,ニューラルネットワークの文脈表現能力を向上させるために大規模テキストコーパスを活用することにより,各種NLPタスクの性能が大幅に向上した。 大規模な事前学習言語モデルは、テーブルセマンティックパーシングの領域にも適用されている。 しかしながら、既存の事前学習アプローチでは、質問とそれに対応するデータベーススキーマの間の明示的なインタラクション関係を慎重に検討していない。 さらに,これらの課題を軽減するために,テーブル事前学習のための学習表現に所望の帰納バイアスを課すための2つの新しい事前学習目標を設計する。 さらに,ノイズの影響を緩和し,事前学習データから容易にハードな方法で効果的に学習する,スキーマ対応のカリキュラム学習手法を提案する。 我々は、SpiderとSQUALLの2つのベンチマークでそれを微調整することで、事前学習したフレームワークを評価する。 その結果, 各種ベースラインと比較して, 事前学習目標とカリキュラムの有効性が示された。

Recently pre-training models have significantly improved the performance of various NLP tasks by leveraging large-scale text corpora to improve the contextual representation ability of the neural network. The large pre-training language model has also been applied in the area of table semantic parsing. However, existing pre-training approaches have not carefully explored explicit interaction relationships between a question and the corresponding database schema, which is a key ingredient for uncovering their semantic and structural correspondence. Furthermore, the question-aware representation learning in the schema grounding context has received less attention in pre-training objective.To alleviate these issues, this paper designs two novel pre-training objectives to impose the desired inductive bias into the learned representations for table pre-training. We further propose a schema-aware curriculum learning approach to mitigate the impact of noise and learn effectively from the pre-training data in an easy-to-hard manner. We evaluate our pre-trained framework by fine-tuning it on two benchmarks, Spider and SQUALL. The results demonstrate the effectiveness of our pre-training objective and curriculum compared to a variety of baselines.
翻訳日:2021-11-19 13:50:35 公開日:2021-11-18
# 言語モデルはトレーニングデータからどれくらいコピーしますか? RAVENを用いたテキスト生成における言語的ノベルティの評価

How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN ( http://arxiv.org/abs/2111.09509v1 )

ライセンス: Link先を確認
R. Thomas McCoy, Paul Smolensky, Tal Linzen, Jianfeng Gao, Asli Celikyilmaz(参考訳) 現在の言語モデルは高品質なテキストを生成することができる。 彼らは単に以前見たテキストをコピーしただけなのか、それとも一般化可能な言語抽象化を学んだのか? そこで本研究では,生成テキストの新規性評価のための分析スイートであるravenを,逐次構造(n-grams)と構文構造に着目して紹介する。 これらの分析を4つのニューラルネットワークモデル(LSTM, Transformer, Transformer-XL, GPT-2)に適用する。 ローカルな構造 - 例えば、個々の依存関係 - モデル生成テキストは、各モデルのテストセットから生成された人間の生成テキストのベースラインよりも、かなり新しくありません。 大規模構造の場合。 全体的な文構造 - モデル生成テキストは、人間の生成したベースラインと同じくらい、あるいはさらに新しいものであるが、モデルはまだかなりコピーされる場合があり、訓練セットから1000語以上の節を重複させる場合もある。 また, gpt-2 の新規テキストは, 形態学的, 統語論的によく形成されているが, 意味的問題(例えば, 自己矛盾)が多様であることを示す手作業解析を行った。

Current language models can generate high-quality text. Are they simply copying text they have seen before, or have they learned generalizable linguistic abstractions? To tease apart these possibilities, we introduce RAVEN, a suite of analyses for assessing the novelty of generated text, focusing on sequential structure (n-grams) and syntactic structure. We apply these analyses to four neural language models (an LSTM, a Transformer, Transformer-XL, and GPT-2). For local structure - e.g., individual dependencies - model-generated text is substantially less novel than our baseline of human-generated text from each model's test set. For larger-scale structure - e.g., overall sentence structure - model-generated text is as novel or even more novel than the human-generated baseline, but models still sometimes copy substantially, in some cases duplicating passages over 1,000 words long from the training set. We also perform extensive manual analysis showing that GPT-2's novel text is usually well-formed morphologically and syntactically but has reasonably frequent semantic issues (e.g., being self-contradictory).
翻訳日:2021-11-19 13:50:18 公開日:2021-11-18
# SummaC: 要約における矛盾検出のためのNLIモデルの再視覚化

SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization ( http://arxiv.org/abs/2111.09525v1 )

ライセンス: Link先を確認
Philippe Laban and Tobias Schnabel and Paul N. Bennett and Marti A. Hearst(参考訳) 要約領域では、要約の鍵となる要件は、実際に入力文書と整合することである。 これまでの研究では、自然言語推論(NLI)モデルが不整合検出に適用しても競合しないことがわかった。 本研究では,NLIデータセット(文レベル)と不整合検出(文書レベル)の入力粒度のミスマッチに悩まされていることから,非整合検出におけるNLIの使用を再考する。 我々は,文書を文単位に分割し,一対の文間のスコアを集約することにより,NLIモデルをこのタスクにうまく利用することができるSummaCConvという,高効率で軽量な手法を提案する。 6つの大きな不整合検出データセットからなるSummaC(Summary Consistency)と呼ばれる新しいベンチマークで、SummaCConvは、バランスの取れた精度74.4%の最先端結果を得る。 モデルとデータセットを利用可能にする。 https://github.com/tingofurro/summac

In the summarization domain, a key requirement for summaries is to be factually consistent with the input document. Previous work has found that natural language inference (NLI) models do not perform competitively when applied to inconsistency detection. In this work, we revisit the use of NLI for inconsistency detection, finding that past work suffered from a mismatch in input granularity between NLI datasets (sentence-level), and inconsistency detection (document level). We provide a highly effective and light-weight method called SummaCConv that enables NLI models to be successfully used for this task by segmenting documents into sentence units and aggregating scores between pairs of sentences. On our newly introduced benchmark called SummaC (Summary Consistency) consisting of six large inconsistency detection datasets, SummaCConv obtains state-of-the-art results with a balanced accuracy of 74.4%, a 5% point improvement compared to prior work. We make the models and datasets available: https://github.com/tingofurro/summac
翻訳日:2021-11-19 13:49:58 公開日:2021-11-18
# アラビア語攻撃言語訓練の自動拡張と再ターゲティング

Automatic Expansion and Retargeting of Arabic Offensive Language Training ( http://arxiv.org/abs/2111.09574v1 )

ライセンス: Link先を確認
Hamdy Mubarak, Ahmed Abdelali, Kareem Darwish and Younes Samih(参考訳) ソーシャルメディアでの攻撃的言語の使用は、こうした言語の自動識別への最近の取り組みに繋がった。 攻撃的言語は一般的な特徴を持つが、特定の実体に対する攻撃は、名前の綴りの悪質な変更のような異なる現象を示すことがある。 本稿では,エンティティ固有の攻撃言語を識別する手法を提案する。 私たちは、2つの重要な洞察を生かしています。すなわち、twitterでの返信は、しばしば反対を示し、一部のアカウントは特定のターゲットに対する攻撃性に固執しています。 我々の手法により、攻撃的なツイートを数千件集めることができる。 深層学習ベースとベクターマシンベース分類器を用いた場合, エンティティ固有攻撃言語検出における13%と79%の相対的なF1尺度の改善によるアプローチの有効性を示す。 さらに、複数のエンティティに向けられた攻撃的ツイートを自動的に認識してトレーニングセットを拡張することで、f1測定を48%改善できる。

Rampant use of offensive language on social media led to recent efforts on automatic identification of such language. Though offensive language has general characteristics, attacks on specific entities may exhibit distinct phenomena such as malicious alterations in the spelling of names. In this paper, we present a method for identifying entity specific offensive language. We employ two key insights, namely that replies on Twitter often imply opposition and some accounts are persistent in their offensiveness towards specific targets. Using our methodology, we are able to collect thousands of targeted offensive tweets. We show the efficacy of the approach on Arabic tweets with 13% and 79% relative F1-measure improvement in entity specific offensive language detection when using deep-learning based and support vector machine based classifiers respectively. Further, expanding the training set with automatically identified offensive tweets directed at multiple entities can improve F1-measure by 48%.
翻訳日:2021-11-19 13:49:39 公開日:2021-11-18
# 時間論理式とリワードマシンを用いた生涯強化学習

Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward Machines ( http://arxiv.org/abs/2111.09475v1 )

ライセンス: Link先を確認
Xuejing Zheng, Chao Yu, Chen Chen, Jianye Hao, Hankz Hankui Zhuo(参考訳) 高レベルのアイデアや知識を使って新しいタスクを継続的に学習することは、人間の重要な能力である。 本稿では,事前学習された知識を活用し,論理的に指定されたタスクの学習を高速化できる逐次線形時相論理式と報酬機械(lsrm)を用いた生涯強化学習を提案する。 タスクのより柔軟な仕様化のために、まず、既存のLTL(Linear Temporal Logic)形式言語を補完するSequential Linear Temporal Logic (SLTL)を導入する。 次に,高レベルイベントにエンコードされたタスクの構造的報酬関数を利用するための報酬機械(rm)を利用し,rmの自動拡張と生涯学習のためのタスクの効率的な知識伝達を提案する。 実験の結果,lsrmは,stlを用いたタスク分解とrm上での知識伝達を生かして,目標タスクをスクラッチから学習する手法よりも優れていることがわかった。

Continuously learning new tasks using high-level ideas or knowledge is a key capability of humans. In this paper, we propose Lifelong reinforcement learning with Sequential linear temporal logic formulas and Reward Machines (LSRM), which enables an agent to leverage previously learned knowledge to fasten learning of logically specified tasks. For the sake of more flexible specification of tasks, we first introduce Sequential Linear Temporal Logic (SLTL), which is a supplement to the existing Linear Temporal Logic (LTL) formal language. We then utilize Reward Machines (RM) to exploit structural reward functions for tasks encoded with high-level events, and propose automatic extension of RM and efficient knowledge transfer over tasks for continuous learning in lifetime. Experimental results show that LSRM outperforms the methods that learn the target tasks from scratch by taking advantage of the task decomposition using SLTL and knowledge transfer over RM during the lifelong learning process.
翻訳日:2021-11-19 13:49:25 公開日:2021-11-18
# (参考訳) 長期ホライゾン目標条件強化学習のための後継特徴ランドマーク

Successor Feature Landmarks for Long-Horizon Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2111.09858v1 )

ライセンス: CC BY 4.0
Christopher Hoang, Sungryull Sohn, Jongwook Choi, Wilka Carvalho, Honglak Lee(参考訳) 現実世界で運用するには、エージェントが複雑な環境について学び、この理解を適用して幅広い目標を達成する必要がある。 ゴール条件強化学習(GCRL)と呼ばれるこの問題は、特に長期的目標において困難となる。 現在の手法では、ゴール条件付きポリシーをグラフベースの計画アルゴリズムで強化することでこの問題に対処している。 しかし、大規模で高次元な状態空間への拡張に苦労し、効率的にトレーニングデータを収集するための探索機構へのアクセスを想定している。 そこで本研究では,大規模かつ高次元な環境を探索する枠組みであるsflを導入し,任意の目標に熟達した方針を得る。 SFLは、遷移ダイナミクスを捉えるための後継機能(SF)の能力を生かし、ステートノベルティを推定して探索を推進し、ステート空間を非パラメトリックなランドマークベースのグラフとして抽象化することで高レベルの計画を可能にする。 さらに、我々はSFを利用してランドマーク間トラバーサルのゴール条件付きポリシーを直接計算し、探索された状態空間の端でランドマークを「フロンティア」する計画を実行する。 我々はMiniGridとViZDoomの実験において、SFLは大規模かつ高次元の状態空間の効率的な探索を可能にし、長距離GCRLタスクにおける最先端のベースラインより優れていることを示す。

Operating in the real-world often requires agents to learn about a complex environment and apply this understanding to achieve a breadth of goals. This problem, known as goal-conditioned reinforcement learning (GCRL), becomes especially challenging for long-horizon goals. Current methods have tackled this problem by augmenting goal-conditioned policies with graph-based planning algorithms. However, they struggle to scale to large, high-dimensional state spaces and assume access to exploration mechanisms for efficiently collecting training data. In this work, we introduce Successor Feature Landmarks (SFL), a framework for exploring large, high-dimensional environments so as to obtain a policy that is proficient for any goal. SFL leverages the ability of successor features (SF) to capture transition dynamics, using it to drive exploration by estimating state-novelty and to enable high-level planning by abstracting the state-space as a non-parametric landmark-based graph. We further exploit SF to directly compute a goal-conditioned policy for inter-landmark traversal, which we use to execute plans to "frontier" landmarks at the edge of the explored state space. We show in our experiments on MiniGrid and ViZDoom that SFL enables efficient exploration of large, high-dimensional state spaces and outperforms state-of-the-art baselines on long-horizon GCRL tasks.
翻訳日:2021-11-19 13:48:38 公開日:2021-11-18
# 拡張型自己スーパービジョンによる表現の伝達性の向上

Improving Transferability of Representations via Augmentation-Aware Self-Supervision ( http://arxiv.org/abs/2111.09613v1 )

ライセンス: Link先を確認
Hankook Lee, Kibok Lee, Kimin Lee, Honglak Lee, Jinwoo Shin(参考訳) 近年の非教師なし表現学習法は、ランダムトリミングやカラージッタリングといったデータ拡張に不変な表現を学習することで、視覚タスクに有効であることが示されている。 しかし、そのような不変性は、例えば位置や色に敏感なデータ拡張の特性に依存する場合、下流タスクに有害である可能性がある。 これは教師なし学習のための問題ではなく、教師なし学習でも発生することが分かりました。 このような障害を回避し、より一般化可能な表現を得るため、ランダムに強化された2つのサンプル間の拡張パラメータ(例えば、収穫位置、色調整強度)の違いを学習する補助的な自己監督的損失であるAugSelfを最適化することを提案する。 私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。 さらに、AugSelfは、最新の最先端表現学習手法に、無視できる追加トレーニングコストで簡単に組み込むことができる。 広範な実験により,様々なトランスファー学習シナリオにおいて,教師なしおよび教師なしの手法によって学習される表現の転送性を一貫して改善できることを示した。 コードはhttps://github.com/hankook/augselfで入手できる。

Recent unsupervised representation learning methods have shown to be effective in a range of vision tasks by learning representations invariant to data augmentations such as random cropping and color jittering. However, such invariance could be harmful to downstream tasks if they rely on the characteristics of the data augmentations, e.g., location- or color-sensitive. This is not an issue just for unsupervised learning; we found that this occurs even in supervised learning because it also learns to predict the same label for all augmented samples of an instance. To avoid such failures and obtain more generalizable representations, we suggest to optimize an auxiliary self-supervised loss, coined AugSelf, that learns the difference of augmentation parameters (e.g., cropping positions, color adjustment intensities) between two randomly augmented samples. Our intuition is that AugSelf encourages to preserve augmentation-aware information in learned representations, which could be beneficial for their transferability. Furthermore, AugSelf can easily be incorporated into recent state-of-the-art representation learning methods with a negligible additional training cost. Extensive experiments demonstrate that our simple idea consistently improves the transferability of representations learned by supervised and unsupervised methods in various transfer learning scenarios. The code is available at https://github.com/hankook/AugSelf.
翻訳日:2021-11-19 13:20:09 公開日:2021-11-18
# 増やすか、増やさないか? 低リソースNLPのためのテキスト拡張手法の比較検討

To Augment or Not to Augment? A Comparative Study on Text Augmentation Techniques for Low-Resource NLP ( http://arxiv.org/abs/2111.09618v1 )

ライセンス: Link先を確認
G\"ozde G\"ul \c{S}ahin(参考訳) データ格納型ディープニューラルネットワークは、従来のシーケンスタグ付け機能を含む多くのnlpタスクの標準として確立されている。 ハイリソース言語における最先端のパフォーマンスにもかかわらず、低リソースのシナリオでは統計上のカウンターパートに置き換わっている。 この問題に対処するための方法の1つは、既存のデータから新しい合成トレーニングデータポイントを生成するテキスト拡張である。 NLPは最近、多くのテキスト拡張テクニックを目撃しているが、多種多様な言語やシーケンスタグタスクに関する体系的なパフォーマンス分析はいまだに欠けている。 このギャップを埋めるために,テキスト拡張手法の3つのカテゴリについて検討し,構文(例えば,サブセンスの切り抜き),トークン(例えば,ランダムな単語挿入),文字(例えば,文字の入れ替え)の変化について検討した。 mBERTのような事前学習された多言語言語モデルに依存するアーキテクチャを含む様々なモデルを用いて、音声タグ付け、依存性解析、意味的役割ラベル付けを体系的に比較する。 拡張は依存性のパースを最も大幅に改善し、続いてpart-of-speech taggingとsemantic role labelingが続く。 ベトナム語のような分析言語ではなく,形態学的にリッチな言語全般に有効な実験手法を見出した。 以上の結果から,拡張手法はmbertに基づく強固なベースラインよりもさらに改善できることが示唆された。 キャラクタレベルの手法を最も一貫性のあるパフォーマーとみなし,同義語置換と構文拡張が矛盾する改善を提供する。 最後に、結果がタスク、言語ペア、モデルタイプに最も大きく依存していることについて議論する。

Data-hungry deep neural networks have established themselves as the standard for many NLP tasks including the traditional sequence tagging ones. Despite their state-of-the-art performance on high-resource languages, they still fall behind of their statistical counter-parts in low-resource scenarios. One methodology to counter attack this problem is text augmentation, i.e., generating new synthetic training data points from existing data. Although NLP has recently witnessed a load of textual augmentation techniques, the field still lacks a systematic performance analysis on a diverse set of languages and sequence tagging tasks. To fill this gap, we investigate three categories of text augmentation methodologies which perform changes on the syntax (e.g., cropping sub-sentences), token (e.g., random word insertion) and character (e.g., character swapping) levels. We systematically compare them on part-of-speech tagging, dependency parsing and semantic role labeling for a diverse set of language families using various models including the architectures that rely on pretrained multilingual contextualized language models such as mBERT. Augmentation most significantly improves dependency parsing, followed by part-of-speech tagging and semantic role labeling. We find the experimented techniques to be effective on morphologically rich languages in general rather than analytic languages such as Vietnamese. Our results suggest that the augmentation techniques can further improve over strong baselines based on mBERT. We identify the character-level methods as the most consistent performers, while synonym replacement and syntactic augmenters provide inconsistent improvements. Finally, we discuss that the results most heavily depend on the task, language pair, and the model type.
翻訳日:2021-11-19 13:19:48 公開日:2021-11-18
# 動的TinyBERT:動的シーケンス長によるTinyBERTの推論効率の向上

Dynamic-TinyBERT: Boost TinyBERT's Inference Efficiency by Dynamic Sequence Length ( http://arxiv.org/abs/2111.09645v1 )

ライセンス: Link先を確認
Shira Guskin, Moshe Wasserblat, Ke Ding, Gyuwan Kim(参考訳) 限られた計算予算は、しばしば変圧器が生産に使用され、高い精度で使用されることを妨げている。 TinyBERTは、BERTを自己蒸留することで計算効率を、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換する。 しかし、TinyBERTの性能は、レイヤ数を50%減らせば低下し、スパン質問応答のような高度なNLPタスクでは、レイヤ数を75%減らせば、さらに突然低下する。 さらに、異なる計算予算を持つ推論シナリオごとに、別のモデルを訓練する必要がある。 本稿では,任意の計算予算における推論効率の向上のために,シーケンス長削減とハイパーパラメータ最適化を利用するTinyBERTモデルであるDynamic-TinyBERTを提案する。 Dynamic-TinyBERTは1回だけ訓練され、BERTでオンパーを行い、他の効率的なアプローチ(最大3.3倍のロスドロップ)よりも精度の高いスピードアップトレードオフを達成する。 公開後、我々の作品を再現するコードはオープンソース化される。

Limited computational budgets often prevent transformers from being used in production and from having their high accuracy utilized. TinyBERT addresses the computational efficiency by self-distilling BERT into a smaller transformer representation having fewer layers and smaller internal embedding. However, TinyBERT's performance drops when we reduce the number of layers by 50%, and drops even more abruptly when we reduce the number of layers by 75% for advanced NLP tasks such as span question answering. Additionally, a separate model must be trained for each inference scenario with its distinct computational budget. In this work we present Dynamic-TinyBERT, a TinyBERT model that utilizes sequence-length reduction and Hyperparameter Optimization for enhanced inference efficiency per any computational budget. Dynamic-TinyBERT is trained only once, performing on-par with BERT and achieving an accuracy-speedup trade-off superior to any other efficient approaches (up to 3.3x with <1% loss-drop). Upon publication, the code to reproduce our work will be open-sourced.
翻訳日:2021-11-19 13:19:21 公開日:2021-11-18
# 一度だけ(ほぼ)サンプル:リニアコスト自撮り(Bernoulli Smpling)

You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling ( http://arxiv.org/abs/2111.09714v1 )

ライセンス: Link先を確認
Zhanpeng Zeng, Yunyang Xiong, Sathya N. Ravi, Shailesh Acharya, Glenn Fung, Vikas Singh(参考訳) トランスフォーマーベースのモデルは自然言語処理(NLP)で広く使われている。 トランスモデルの中心は自己保持機構であり、入力シーケンスにおけるトークンペアの相互作用を捉え、シーケンスの長さに2次に依存する。 長いシーケンスでそのようなモデルをトレーニングするのはコストがかかる。 本稿では,LSH(Locality Sensitive Hashing)に基づくBernoulliサンプリングアテンション機構が,そのようなモデルの二次的複雑性を線形に減少させることを示す。 我々は、ベルヌーイ確率変数に関連する個々のトークンの和として自己注意を考えることで二次コストを回避し、原則として1つのハッシュで一度にサンプリングできる(実際にはこの数は小さい定数かもしれない)。 これにより、LSHの特定の変更(GPUアーキテクチャへのデプロイを可能にする)に依存する自己注意を推定する効率的なサンプリングスキームが実現される。 提案アルゴリズムは,標準512列長のGLUEベンチマークで評価し,標準事前学習トランスに比べて良好な性能を示した。 ロングレンジ・アリーナ (lra) ベンチマークでは, 長いシーケンスでの性能を評価するために, ソフトマックスの自己着脱と一貫性のある結果が得られるが, ある程度のスピードアップとメモリ節約が可能であり, 他の効率的な自己着脱法よりも優れることが多い。 私たちのコードはhttps://github.com/mlpen/YOSOで利用可能です。

Transformer-based models are widely used in natural language processing (NLP). Central to the transformer model is the self-attention mechanism, which captures the interactions of token pairs in the input sequences and depends quadratically on the sequence length. Training such models on longer sequences is expensive. In this paper, we show that a Bernoulli sampling attention mechanism based on Locality Sensitive Hashing (LSH), decreases the quadratic complexity of such models to linear. We bypass the quadratic cost by considering self-attention as a sum of individual tokens associated with Bernoulli random variables that can, in principle, be sampled at once by a single hash (although in practice, this number may be a small constant). This leads to an efficient sampling scheme to estimate self-attention which relies on specific modifications of LSH (to enable deployment on GPU architectures). We evaluate our algorithm on the GLUE benchmark with standard 512 sequence length where we see favorable performance relative to a standard pretrained Transformer. On the Long Range Arena (LRA) benchmark, for evaluating performance on long sequences, our method achieves results consistent with softmax self-attention but with sizable speed-ups and memory savings and often outperforms other efficient self-attention methods. Our code is available at https://github.com/mlpen/YOSO
翻訳日:2021-11-19 13:19:01 公開日:2021-11-18
# (参考訳) 表情認識のための局所的マルチヘッドチャネル自己認識

Local Multi-Head Channel Self-Attention for Facial Expression Recognition ( http://arxiv.org/abs/2111.07224v2 )

ライセンス: CC BY 4.0
Roberto Pecoraro, Valerio Basile, Viviana Bono, Sara Gallo(参考訳) 2017年にTransformerアーキテクチャが導入されて以来、コンピュータビジョンの分野で自己注意パラダイムを導入する試みが数多く行われている。 本稿では,事実上すべての畳み込みニューラルネットワークに容易に統合でき,コンピュータビジョンのために特別に設計された新しい自己注意モジュール LHC: Local (multi) Head Channel (self-attention)を提案する。 第一に、コンピュータビジョンにおいて、自己注意パラダイムを利用する最善の方法は、より探究された空間的注意ではなくチャネル回りのアプリケーションであり、畳み込みは、再帰的ネットワークがnlpにあるような注意モジュールに置き換えられず、第二に、局所的なアプローチは、グローバルな注意よりも畳み込みの限界を克服する可能性を秘めている。 lhc-net では,これまでの sota と比較した場合の計算コストの観点から,複雑性と "ホスト" アーキテクチャへの影響を大幅に低減した,有名な fer2013 データセット の新たな最先端を実現することができました。

Since the Transformer architecture was introduced in 2017 there has been many attempts to bring the self-attention paradigm in the field of computer vision. In this paper we propose a novel self-attention module that can be easily integrated in virtually every convolutional neural network and that is specifically designed for computer vision, the LHC: Local (multi) Head Channel (self-attention). LHC is based on two main ideas: first, we think that in computer vision the best way to leverage the self-attention paradigm is the channel-wise application instead of the more explored spatial attention and that convolution will not be replaced by attention modules like recurrent networks were in NLP; second, a local approach has the potential to better overcome the limitations of convolution than global attention. With LHC-Net we managed to achieve a new state of the art in the famous FER2013 dataset with a significantly lower complexity and impact on the "host" architecture in terms of computational cost when compared with the previous SOTA.
翻訳日:2021-11-19 13:17:00 公開日:2021-11-18
# (参考訳) 神経クラス発現合成

Neural Class Expression Synthesis ( http://arxiv.org/abs/2111.08486v2 )

ライセンス: CC BY 4.0
N'Dah Jean Kouagou, Stefan Heindorf, Caglar Demir, Axel-Cyrille Ngonga Ngomo(参考訳) クラス表現学習は、重要性を増すための説明可能な教師付き機械学習の分野である。 記述論理におけるクラス表現学習の既存のアプローチは、探索アルゴリズムやハードルールベースである。 特に、洗練演算子に基づくアプローチは、各学習問題に対する大きな探索空間を探索するためにヒューリスティック関数に依存するため、スケーラビリティの問題に悩まされる。 そこで我々は,合成手法を考案した新しいアプローチのファミリーを提案する。 このファミリーのインスタンスは、提供される例から直接クラス式を計算します。 したがって、検索ベースのアプローチのランタイム制限や、ハードルールベースのアプローチの柔軟性の欠如には従わない。 本研究では,軽量ニューラルネットワークアーキテクチャを用いて,ポジティブな例の集合からクラス表現を合成する手法の3つの例について検討した。 4つのベンチマークデータセットで評価した結果, 平均1秒以内の入力例に対して, 高品質なクラス表現を効果的に合成できることが示唆された。 さらに, CELOE と ELTL との比較により, 大規模オントロジーにおけるF測定精度が有意に向上していることが示唆された。 再現性のために、私たちは実装と事前トレーニングされたモデルをhttps://github.com/conceptlengthlearner/ncesのgithubリポジトリで提供します。

Class expression learning is a branch of explainable supervised machine learning of increasing importance. Most existing approaches for class expression learning in description logics are search algorithms or hard-rule-based. In particular, approaches based on refinement operators suffer from scalability issues as they rely on heuristic functions to explore a large search space for each learning problem. We propose a new family of approaches, which we dub synthesis approaches. Instances of this family compute class expressions directly from the examples provided. Consequently, they are not subject to the runtime limitations of search-based approaches nor the lack of flexibility of hard-rule-based approaches. We study three instances of this novel family of approaches that use lightweight neural network architectures to synthesize class expressions from sets of positive examples. The results of their evaluation on four benchmark datasets suggest that they can effectively synthesize high-quality class expressions with respect to the input examples in under a second on average. Moreover, a comparison with the state-of-the-art approaches CELOE and ELTL suggests that we achieve significantly better F-measures on large ontologies. For reproducibility purposes, we provide our implementation as well as pre-trained models in the public GitHub repository at https://github.com/ConceptLengthLearner/NCES
翻訳日:2021-11-19 12:59:47 公開日:2021-11-18
# (参考訳) 自動生成会話メトリクスと再生ビデオによるテレタンデム反射のファシリテート

Facilitating reflection in teletandem through automatically generated conversation metrics and playback video ( http://arxiv.org/abs/2111.08788v2 )

ライセンス: CC BY 4.0
Aparajita Dey-Plissonneau, Hyowon Lee, Michael Scriney, Alan F. Smeaton, Vincent Pradier, Hamza Riaz(参考訳) このパイロット研究は、L2Lと呼ばれるツールに焦点を当てており、第二言語(L2)学習者は、ネイティブスピーカーとのZoomインタラクションを視覚化し分析することができる。 L2LはZoom transcriptを使用して会話メトリクスを自動生成し、タイムスタンプによる再生機能により、学生は会話の選択した部分を再生して、セッション後のリフレクションと自己レビューを行うことができる。 本研究は,アイルランド大学でフランス語を学ぶ大学生(b2)がzoomで英語を学ぶフランスの大学(b2+)の仲間と交流する,7週間のテレタンデムプロジェクトを調査した。 質問紙調査(N=43)と半構造化インタビュー(N=35)から収集したデータから,会話の量的指標と同期コンテンツの質的評価が,母語話者と対話しながら学生の信頼度を高めることを示唆した。 さらに、参加を改善するために具体的な目標を設定し、何、なぜ、どのように学習しているかをより認識できるようになった。

This pilot study focuses on a tool called L2L that allows second language (L2) learners to visualise and analyse their Zoom interactions with native speakers. L2L uses the Zoom transcript to automatically generate conversation metrics and its playback feature with timestamps allows students to replay any chosen portion of the conversation for post-session reflection and self-review. This exploratory study investigates a seven-week teletandem project, where undergraduate students from an Irish University learning French (B2) interacted with their peers from a French University learning English (B2+) via Zoom. The data collected from a survey (N=43) and semi-structured interviews (N=35) show that the quantitative conversation metrics and qualitative review of the synchronous content helped raise students' confidence levels while engaging with native speakers. Furthermore, it allowed them to set tangible goals to improve their participation, and be more aware of what, why and how they are learning.
翻訳日:2021-11-19 12:40:51 公開日:2021-11-18
# (参考訳) DeltaConv: 外部計算による異方性ポイントクラウド学習

DeltaConv: Anisotropic Point Cloud Learning with Exterior Calculus ( http://arxiv.org/abs/2111.08799v2 )

ライセンス: CC BY 4.0
Ruben Wiersma, Ahmad Nasikun, Elmar Eisemann, Klaus Hildebrandt(参考訳) 3Dポイントクラウドデータからの学習は、画像の深層学習の成功と3Dデータの可用性の向上によって、急速に勢いづきつつある。 本稿では,点雲から導出される表面に直接作用する異方性畳み込みを構築することを目的とする。 これは、表面上の接角方向のグローバル座標系が欠如しているため、難しい。 デルタコンブと呼ばれる新しい畳み込み演算子を導入し、外部計算から幾何演算子を組み合わせて点雲上に異方性フィルタを構築する。 これらの作用素はスカラーフィールドとベクトルフィールドで定義されるので、ネットワークをスカラーストリームとベクトルストリームに分離し、オペレータが接続する。 ベクトルストリームにより、ネットワークは方向情報を明示的に表現し、評価し、処理することができる。 私たちの畳み込みは堅牢で実装が簡単で、いくつかのベンチマークで最先端のアプローチと比較して精度が向上しています。

Learning from 3D point-cloud data has rapidly gained momentum, motivated by the success of deep learning on images and the increased availability of 3D data. In this paper, we aim to construct anisotropic convolutions that work directly on the surface derived from a point cloud. This is challenging because of the lack of a global coordinate system for tangential directions on surfaces. We introduce a new convolution operator called DeltaConv, which combines geometric operators from exterior calculus to enable the construction of anisotropic filters on point clouds. Because these operators are defined on scalar- and vector-fields, we separate the network into a scalar- and a vector-stream, which are connected by the operators. The vector stream enables the network to explicitly represent, evaluate, and process directional information. Our convolutions are robust and simple to implement and show improved accuracy compared to state-of-the-art approaches on several benchmarks, while also speeding up training and inference.
翻訳日:2021-11-19 12:36:11 公開日:2021-11-18
# (参考訳) シリコン後検証のための自己学習チューニング

Self-Learning Tuning for Post-Silicon Validation ( http://arxiv.org/abs/2111.08995v2 )

ライセンス: CC BY 4.0
Peter Domanski, Dirk Pfl\"uger, Jochen Rivoir, Rapha\"el Latty(参考訳) 現代のチップの複雑さが増すと、設計検証が難しくなる。 既存のアプローチは、ポストシリコン検証における堅牢なパフォーマンスチューニングのようなタスクの複雑さにもはや対処できない。 そこで本稿では,複雑な混合型チューニングタスクを効率的かつ堅牢な方法で解くために,学習の最適化と強化学習に基づく新しいアプローチを提案する。

Increasing complexity of modern chips makes design validation more difficult. Existing approaches are not able anymore to cope with the complexity of tasks such as robust performance tuning in post-silicon validation. Therefore, we propose a novel approach based on learn-to-optimize and reinforcement learning in order to solve complex and mixed-type tuning tasks in a efficient and robust way.
翻訳日:2021-11-19 12:20:40 公開日:2021-11-18
# (参考訳) 不均衡データにおける不規則な観測の予測を改善するサンプリング

Sampling To Improve Predictions For Underrepresented Observations In Imbalanced Data ( http://arxiv.org/abs/2111.09065v2 )

ライセンス: CC BY 4.0
Rune D. Kj{\ae}rsgaard, Manja G. Gr{\o}nberg, Line K. H. Clemmensen(参考訳) データの不均衡はプロダクションデータにおいて一般的であり、管理されたプロダクション設定では、データ分析の洞察ではなく品質評価を念頭に置いたデータ収集が必要となる。 この不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。 そこで本研究では,過去の生産データに基づくモデルの性能向上を目標として,この不均衡を解消するためのサンプリングを提案する。 不均衡に適応するための3つのサンプリング手法について検討する。 目標はトレーニングデータのコ変数をダウンサンプルし、その後回帰モデルに適合させることだ。 本研究は,サンプルデータとオリジナルデータを用いて,モデルの予測能力がどのように変化するかを検討する。 本手法は,ペニシリン生産の高度シミュレーションから得られた大規模バイオ医薬品製造データに適用し,サンプルデータを用いてモデルに適合させることで予測性能が小さくなるが,低表示の観察で体系的に優れた性能が得られることを見出した。 さらに、結果は、代替、公正、バランスの取れたモデル評価の必要性を強調している。

Data imbalance is common in production data, where controlled production settings require data to fall within a narrow range of variation and data are collected with quality assessment in mind, rather than data analytic insights. This imbalance negatively impacts the predictive performance of models on underrepresented observations. We propose sampling to adjust for this imbalance with the goal of improving the performance of models trained on historical production data. We investigate the use of three sampling approaches to adjust for imbalance. The goal is to downsample the covariates in the training data and subsequently fit a regression model. We investigate how the predictive power of the model changes when using either the sampled or the original data for training. We apply our methods on a large biopharmaceutical manufacturing data set from an advanced simulation of penicillin production and find that fitting a model using the sampled data gives a small reduction in the overall predictive performance, but yields a systematically better performance on underrepresented observations. In addition, the results emphasize the need for alternative, fair, and balanced model evaluations.
翻訳日:2021-11-19 12:17:19 公開日:2021-11-18
# TimeVAE:多変量時系列生成のための変分自動エンコーダ

TimeVAE: A Variational Auto-Encoder for Multivariate Time Series Generation ( http://arxiv.org/abs/2111.08095v2 )

ライセンス: Link先を確認
Abhyuday Desai, Cynthia Freeman, Zuhui Wang, Ian Beaver(参考訳) 時系列領域における合成データ生成の最近の研究は、ジェネレーティブ・アドバイサル・ネットワークの利用に焦点を当てている。 本稿では,変分自動エンコーダ(VAE)を用いて時系列データを合成生成する新しいアーキテクチャを提案する。 提案されたアーキテクチャには、解釈可能性、ドメイン知識をエンコードする能力、トレーニング時間の短縮など、いくつかの異なる特性がある。 4つの多変量データセットに対する類似性と予測可能性によってデータ生成品質を評価する。 我々は,vae法および最先端データ生成法において,データ可用性が生成品質に与える影響を測定するために,トレーニングデータのサイズを変化させる実験を行った。 類似性試験の結果から,VAE手法が元のデータの時間特性を正確に表現できることが示唆された。 生成データを用いた次のステップ予測タスクでは,提案するvaeアーキテクチャが最先端データ生成手法の性能を一貫して満たしているか,あるいは超えている。 ノイズ低減は、生成したデータを元のデータから逸脱させる可能性があるが、生成したデータを用いた次のステップ予測の性能を著しく向上させることができることを示す。 最後に、提案アーキテクチャは、多項式トレンドや季節性などのドメイン固有の時間パターンを組み込んで解釈可能な出力を提供する。 このような解釈性は、モデル出力の透明性を必要とするアプリケーションや、ユーザが時系列パターンの事前知識を生成モデルに注入したい場合に非常に有利である。

Recent work in synthetic data generation in the time-series domain has focused on the use of Generative Adversarial Networks. We propose a novel architecture for synthetically generating time-series data with the use of Variational Auto-Encoders (VAEs). The proposed architecture has several distinct properties: interpretability, ability to encode domain knowledge, and reduced training times. We evaluate data generation quality by similarity and predictability against four multivariate datasets. We experiment with varying sizes of training data to measure the impact of data availability on generation quality for our VAE method as well as several state-of-the-art data generation methods. Our results on similarity tests show that the VAE approach is able to accurately represent the temporal attributes of the original data. On next-step prediction tasks using generated data, the proposed VAE architecture consistently meets or exceeds performance of state-of-the-art data generation methods. While noise reduction may cause the generated data to deviate from original data, we demonstrate the resulting de-noised data can significantly improve performance for next-step prediction using generated data. Finally, the proposed architecture can incorporate domain-specific time-patterns such as polynomial trends and seasonalities to provide interpretable outputs. Such interpretability can be highly advantageous in applications requiring transparency of model outputs or where users desire to inject prior knowledge of time-series patterns into the generative model.
翻訳日:2021-11-19 12:10:12 公開日:2021-11-18
# HiRID-ICU-Benchmark - 高解像度ICUデータの総合的機械学習ベンチマーク

HiRID-ICU-Benchmark -- A Comprehensive Machine Learning Benchmark on High-resolution ICU Data ( http://arxiv.org/abs/2111.08536v3 )

ライセンス: Link先を確認
Hugo Y\`eche, Rita Kuznetsova, Marc Zimmermann, Matthias H\"user, Xinrui Lyu, Martin Faltys, Gunnar R\"atsch(参考訳) Intensive Care Units (ICU) から収集した時系列に適用される機械学習手法の最近の成功は、そのような手法の開発と比較のための標準化された機械学習ベンチマークの欠如を露呈している。 mimic-iv や eicu といった生のデータセットは physionet 上で自由にアクセスすることができるが、タスクの選択や前処理は各出版物に対して副次的に選択され、出版物間の互換性が制限される。 本研究では,ICU関連タスクの幅広い範囲をカバーするベンチマークを提供することで,この状況を改善することを目的とする。 HiRIDデータセットを用いて,臨床医とのコラボレーションによって開発された複数の臨床関連タスクを定義した。 さらに、再現可能なエンドツーエンドパイプラインを提供し、データとラベルの両方を構築する。 最後に,最先端のシーケンスモデリング手法の詳細な分析を行い,この種のデータに対するディープラーニングアプローチの限界を浮き彫りにする。 このベンチマークでは、研究コミュニティに彼らの成果を公正に比較できる可能性を与えたいと思っています。

The recent success of machine learning methods applied to time series collected from Intensive Care Units (ICU) exposes the lack of standardized machine learning benchmarks for developing and comparing such methods. While raw datasets, such as MIMIC-IV or eICU, can be freely accessed on Physionet, the choice of tasks and pre-processing is often chosen ad-hoc for each publication, limiting comparability across publications. In this work, we aim to improve this situation by providing a benchmark covering a large spectrum of ICU-related tasks. Using the HiRID dataset, we define multiple clinically relevant tasks developed in collaboration with clinicians. In addition, we provide a reproducible end-to-end pipeline to construct both data and labels. Finally, we provide an in-depth analysis of current state-of-the-art sequence modeling methods, highlighting some limitations of deep learning approaches for this type of data. With this benchmark, we hope to give the research community the possibility of a fair comparison of their work.
翻訳日:2021-11-19 12:09:51 公開日:2021-11-18
# ディープヘッジ:最小等価近傍マーチンゲール対策によるトレーディング摩擦下でのドリフト除去学習

Deep Hedging: Learning to Remove the Drift under Trading Frictions with Minimal Equivalent Near-Martingale Measures ( http://arxiv.org/abs/2111.07844v2 )

ライセンス: Link先を確認
Hans Buehler, Phillip Murray, Mikko S. Pakkanen, Ben Wood(参考訳) 取引可能な機器の市場シミュレーター(スポット価格やオプションなど)について,最小限の等価なマーチンゲール尺度を学習するための数値的に効率的な手法を提案する。 取引コストと取引制限の存在下では、予測されたリターンが既定の入札/リスク拡散内にとどまる最小の等価な「近辺マーチンゲール措置」を学習する結果を緩和する。 したがって、高次元複素空間における「ドリフトの除去」に対する我々のアプローチは完全にモデルフリーであり、古典的な仲裁を示さない任意の市場シミュレータに適用できる。 結果として得られるモデルは、リスク中立的な価格、あるいは“ディープヘッジ”のトランザクションコストやトレーディング制約に使用することができる。 本稿では,2つの市場シミュレータ,自動回帰的離散時間確率的暗黙的変動モデル,GAN(Generative Adversarial Network)ベースのシミュレータに適用し,統計量に基づくオプション価格の履歴データに基づいて,スポットとオプション価格の現実的なサンプルを生成する手法を提案する。 当初の市場シミュレータの推定誤差に関して,ロバスト性についてコメントする。

We present a numerically efficient approach for learning minimal equivalent martingale measures for market simulators of tradable instruments, e.g. for a spot price and options written on the same underlying. In the presence of transaction cost and trading restrictions, we relax the results to learning minimal equivalent "near-martingale measures" under which expected returns remain within prevailing bid/ask spreads. Our approach to thus "removing the drift" in a high dimensional complex space is entirely model-free and can be applied to any market simulator which does not exhibit classic arbitrage. The resulting model can be used for risk neutral pricing, or, in the case of transaction costs or trading constraints, for "Deep Hedging". We demonstrate our approach by applying it to two market simulators, an auto-regressive discrete-time stochastic implied volatility model, and a Generative Adversarial Network (GAN) based simulator, both of which trained on historical data of option prices under the statistical measure to produce realistic samples of spot and option prices. We comment on robustness with respect to estimation error of the original market simulator.
翻訳日:2021-11-19 12:09:34 公開日:2021-11-18
# ハードラベル攻撃の歪み低減のための最適タンジェント点の探索

Finding Optimal Tangent Points for Reducing Distortions of Hard-label Attacks ( http://arxiv.org/abs/2111.07492v2 )

ライセンス: Link先を確認
Chen Ma, Xiangyu Guo, Li Chen, Jun-Hai Yong, Yisen Wang(参考訳) ブラックボックスの敵攻撃の大きな問題は、上位1つのラベルしか使用できないハードラベル攻撃設定におけるクエリの複雑さである。 本稿では,決定境界上に位置する仮想半球の最適接点を同定し,攻撃の歪みを低減させる,タンジェント攻撃(ta)と呼ばれる新しい幾何学的アプローチを提案する。 決定境界が局所平坦であると仮定すると、各反復においてそのような接点を通る接線に沿って決定境界に達することにより、最小$\ell_2$歪みが得られることが理論的に証明される。 さらに,本手法のロバスト性を向上させるため,半楕円形で半球を置き換え,曲線決定境界に適応する一般化手法を提案する。 我々のアプローチはハイパーパラメータと事前トレーニングがない。 ImageNet と CIFAR-10 データセットで行った大規模な実験により,我々の手法は少数のクエリしか消費できず,低マグニチュード歪みを実現することができた。 実装ソースコードはhttps://github.com/machanic/TangentAttack.comで公開されている。

One major problem in black-box adversarial attacks is the high query complexity in the hard-label attack setting, where only the top-1 predicted label is available. In this paper, we propose a novel geometric-based approach called Tangent Attack (TA), which identifies an optimal tangent point of a virtual hemisphere located on the decision boundary to reduce the distortion of the attack. Assuming the decision boundary is locally flat, we theoretically prove that the minimum $\ell_2$ distortion can be obtained by reaching the decision boundary along the tangent line passing through such tangent point in each iteration. To improve the robustness of our method, we further propose a generalized method which replaces the hemisphere with a semi-ellipsoid to adapt to curved decision boundaries. Our approach is free of hyperparameters and pre-training. Extensive experiments conducted on the ImageNet and CIFAR-10 datasets demonstrate that our approach can consume only a small number of queries to achieve the low-magnitude distortion. The implementation source code is released online at https://github.com/machanic/TangentAttack.
翻訳日:2021-11-19 12:09:12 公開日:2021-11-18
# (参考訳) 視覚的質問応答におけるヒューマンパリティの達成

Achieving Human Parity on Visual Question Answering ( http://arxiv.org/abs/2111.08896v2 )

ライセンス: CC BY 4.0
Ming Yan, Haiyang Xu, Chenliang Li, Junfeng Tian, Bin Bi, Wei Wang, Weihua Chen, Xianzhe Xu, Fan Wang, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Luo Si, Rong Jin(参考訳) 視覚質問応答(vqa)タスクは、視覚画像と言語分析の両方を使用して、画像に関するテキスト質問に応答する。 この10年間で現実世界のアプリケーションが増えていることで、人気のある研究テーマとなっている。 本稿では,alicemind-mmu (alibaba's collection of encoder-decoder from machine intelligence lab of damo academy - multimedia understanding) に関する最近の研究について述べる。 これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。 異なるタイプの視覚的質問を必要な専門知識で扱うことは、VQAアーキテクチャのパフォーマンスを人間レベルまで上げる上で重要な役割を担います。 新しい研究成果の有効性を示すために,広範囲にわたる実験と分析を行った。

The Visual Question Answering (VQA) task utilizes both visual image and language analysis to answer a textual question with respect to an image. It has been a popular research topic with an increasing number of real-world applications in the last decade. This paper describes our recent research of AliceMind-MMU (ALIbaba's Collection of Encoder-decoders from Machine IntelligeNce lab of Damo academy - MultiMedia Understanding) that obtains similar or even slightly better results than human being does on VQA. This is achieved by systematically improving the VQA pipeline including: (1) pre-training with comprehensive visual and textual feature representation; (2) effective cross-modal interaction with learning to attend; and (3) A novel knowledge mining framework with specialized expert modules for the complex VQA task. Treating different types of visual questions with corresponding expertise needed plays an important role in boosting the performance of our VQA architecture up to the human level. An extensive set of experiments and analysis are conducted to demonstrate the effectiveness of the new research work.
翻訳日:2021-11-19 12:08:23 公開日:2021-11-18
# 異常検出のための自己監督型予測畳み込み回避ブロック

Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection ( http://arxiv.org/abs/2111.09099v2 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Neelu Madan, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 異常検出は、通常と異常の両方のテストサンプルで評価しながら、モデルが通常のトレーニングサンプルからのみ学習できる、一級分類問題として一般的に追求されている。 異常検出に成功している手法としては,マスク情報(パッチ,将来のフレームなど)の予測や,マスク情報に対する再構成誤差を異常スコアとして活用する手法がある。 関連する手法と異なり,新しい自己教師あり予測アーキテクチャ構築ブロックに再構成に基づく機能を統合することを提案する。 提案する自己教師ブロックは汎用的であり、様々な最先端の異常検出方法に容易に組み込むことができる。 私たちのブロックは、レセプティブフィールドの中心領域がマスクされている拡張フィルタを備えた畳み込み層から始まります。 得られた活性化マップはチャネルアテンションモジュールを通過します。 我々のブロックは、受容領域におけるマスク領域に対する再構成誤差を最小限に抑える損失を備える。 画像や動画の異常検出のための最先端フレームワークに組み込んで,MVTec AD, Avenue, ShanghaiTechの性能向上を示す実証的な証拠を提供することで,ブロックの汎用性を実証する。

Anomaly detection is commonly pursued as a one-class classification problem, where models can only learn from normal training samples, while being evaluated on both normal and abnormal test samples. Among the successful approaches for anomaly detection, a distinguished category of methods relies on predicting masked information (e.g. patches, future frames, etc.) and leveraging the reconstruction error with respect to the masked information as an abnormality score. Different from related methods, we propose to integrate the reconstruction-based functionality into a novel self-supervised predictive architectural building block. The proposed self-supervised block is generic and can easily be incorporated into various state-of-the-art anomaly detection methods. Our block starts with a convolutional layer with dilated filters, where the center area of the receptive field is masked. The resulting activation maps are passed through a channel attention module. Our block is equipped with a loss that minimizes the reconstruction error with respect to the masked area in the receptive field. We demonstrate the generality of our block by integrating it into several state-of-the-art frameworks for anomaly detection on image and video, providing empirical evidence that shows considerable performance improvements on MVTec AD, Avenue, and ShanghaiTech.
翻訳日:2021-11-19 11:30:27 公開日:2021-11-18
# 解釈可能で信頼性の高い読み理解に向けて : 予測不能なパイプラインモデル

Towards Interpretable and Reliable Reading Comprehension: A Pipeline Model with Unanswerability Prediction ( http://arxiv.org/abs/2111.09029v2 )

ライセンス: Link先を確認
Kosuke Nishida, Kyosuke Nishida, Itsumi Saito, Sen Yoshida(参考訳) 回答の解釈可能性を考慮した読解(RC)課題である注釈付きサポート事実を持つマルチホップQAについて検討した。 本研究では,解釈不能な問合せを予測可能なパイプラインモデルとして解釈可能な読解理解(IRC)モデルを定義する。 IRCモデルは、予測された支持事実と解釈可能性の実際の理論的根拠との整合性を確立することにより、回答予測を正当化する。 ircモデルは、十分な情報に基づいて強制的に回答を出力するのではなく、解答不能な質問を検出し、解答の信頼性を確保する。 また,パイプラインRCモデルのエンドツーエンドトレーニング手法を提案する。 解釈可能性と信頼性を評価するために,各経路に対するマルチホップ質問の解答可能性を考慮した実験を行った。 我々のエンドツーエンドのトレーニング可能なパイプラインモデルは、修正されたHotpotQAデータセットで非解釈可能なモデルよりも優れていることを示す。 また, 予測性能と解釈可能性のトレードオフにもかかわらず, IRCモデルは従来の非解釈モデルと同等の結果が得られることを示した。

Multi-hop QA with annotated supporting facts, which is the task of reading comprehension (RC) considering the interpretability of the answer, has been extensively studied. In this study, we define an interpretable reading comprehension (IRC) model as a pipeline model with the capability of predicting unanswerable queries. The IRC model justifies the answer prediction by establishing consistency between the predicted supporting facts and the actual rationale for interpretability. The IRC model detects unanswerable questions, instead of outputting the answer forcibly based on the insufficient information, to ensure the reliability of the answer. We also propose an end-to-end training method for the pipeline RC model. To evaluate the interpretability and the reliability, we conducted the experiments considering unanswerability in a multi-hop question for a given passage. We show that our end-to-end trainable pipeline model outperformed a non-interpretable model on our modified HotpotQA dataset. Experimental results also show that the IRC model achieves comparable results to the previous non-interpretable models in spite of the trade-off between prediction performance and interpretability.
翻訳日:2021-11-19 11:30:08 公開日:2021-11-18