このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210506となっている論文です。

PDF登録状況(公開日: 20210506)

TitleAuthorsAbstract論文公表日・翻訳日
# 動的に補正された相互共鳴ゲートのランダム化ベンチマーク

Simulated Randomized Benchmarking of a Dynamically Corrected Cross-Resonance Gate ( http://arxiv.org/abs/2002.11802v2 )

ライセンス: Link先を確認
R. K. L. Colmenar, Utkan G\"ung\"ord\"u, J. P. Kestner(参考訳) 理論的には、Calderon-Vargas & Kestner, Physにより提案されたパルスシーケンスによって実装されたクロス共振(CR)ゲートを考える。 Rev. Lett. 118, 150502 (2017). これらのシーケンスは系統的エラーを1次に緩和するが、その有効性は1量子ビットゲートの不完全さによって制限される。 さらにマイクロ波制御パルスを用いることで、有効CRハミルトニアンをこれらの配列が最適に動作する状態に調整することができる。 これにより、誤り訂正に必要な1キュービット演算を減らすことで、これらのシーケンスの全体的な実現可能性を向上させる。 弱結合トランスモン系のランダム化ベンチマークをシミュレーションし、この新しいパルスシーケンスはトランスモンの最先端技術には利点がないが、1量子ゲート不整合によるCRゲート不整合のスケーリングを改善していることを示す。

We theoretically consider a cross-resonance (CR) gate implemented by pulse sequences proposed by Calderon-Vargas & Kestner, Phys. Rev. Lett. 118, 150502 (2017). These sequences mitigate systematic error to first order, but their effectiveness is limited by one-qubit gate imperfections. Using additional microwave control pulses, it is possible to tune the effective CR Hamiltonian into a regime where these sequences operate optimally. This improves the overall feasibility of these sequences by reducing the one-qubit operations required for error correction. We illustrate this by simulating randomized benchmarking for a system of weakly coupled transmons and show that while this novel pulse sequence does not offer an advantage with the current state of the art in transmons, it does improve the scaling of CR gate infidelity with one-qubit gate infidelity.
翻訳日:2023-06-01 20:55:47 公開日:2021-05-06
# ダイソン方程式によるマルコフ過程の多重実現における古典観測値と量子観測値の平均化

A Dyson equation approach for averaging of classical and quantum observables on multiple realizations of Markov processes ( http://arxiv.org/abs/2004.01183v3 )

ライセンス: Link先を確認
Simone Sturniolo(参考訳) 核磁気共鳴 (NMR) やミューオンスピン緩和 (muSR) のような実験技術における時間依存信号は、多くの顕微鏡力学過程におけるアンサンブル平均の結果であることが多い。 これらの信号に適合する関数はいくつか存在するが、それらは特定のレジームでのみ有効であることが多く、システムの特性周波数に匹敵する時間スケールでダイナミクスが起こる「スペクトル拡散」レジームをほとんど適切に記述していない。 これらの問題の完全な処理は、時間依存ハミルトニアンの力学のすべての可能な実現に関する経路積分を実行する必要がある。 本稿では,このような時間発展問題の解法として使用可能な数値的手法を提案するとともに,同様の問題に対するモンテカルロシミュレーションと比較する。 このアプローチは任意の種類のダイナミクスに使用できるが、マルコフプロセスとして近似できるあらゆるダイナミクスに特に強力であり、各ステップのダイナミクスはシステムの前の状態のみに依存する。 このアプローチは古典的観測量と量子観測量の両方を平均するために使われ、後者の場合、リウヴィリアンと密度行列を用いた形式化が用いられる。

Time dependent signals in experimental techniques such as Nuclear Magnetic Resonance (NMR) and Muon Spin Relaxation (muSR) are often the result of an ensemble average over many microscopical dynamical processes. While there are a number of functions used to fit these signals, they are often valid only in specific regimes, and almost never properly describe the "spectral diffusion" regime, in which the dynamics happen on time scales comparable to the characteristic frequencies of the system. Full treatment of these problems would require one to carry out a path integral over all possible realizations of the dynamics of the time dependent Hamiltonian. In this paper we present a numerical approach that can potentially be used to solve such time evolution problems, and we benchmark it against a Monte Carlo simulations of the same problems. The approach can be used for any sort of dynamics, but is especially powerful for any dynamics that can be approximated as Markov processes, in which the dynamics at each step only depend on the previous state of the system. The approach is used to average both classical and quantum observables; in the latter case, a formalism making use of Liouvillians and density matrices is used.
翻訳日:2023-05-27 05:23:51 公開日:2021-05-06
# ハイブリッドエンタングルメントを用いた階層量子ネットワーク

Hierarchical Quantum Network using Hybrid Entanglement ( http://arxiv.org/abs/2004.13176v3 )

ライセンス: Link先を確認
Chitra Shukla, Priya Malpani, Kishore Thapliyal(参考訳) ハイブリッドエンタングル状態(hybrid entangled state)と呼ばれる新しい種類のエンタングル状態、すなわち異なる自由度のエンタングル状態の出現により、少ないリソースで様々な量子計算および通信タスクを実行できる。 ここでは,量子ネットワーク上での通信において,これらの絡み合った状態の利点を活用しようとする。 残念ながら、ネットワーク上で共有される絡み合いは、周囲との避けられない相互作用のために悪化する。 そこで, エンタングルメント濃度プロトコルを提案し, 対応する非最大エンタングルド状態から最大エンタングルドハイブリッドオメガ型状態を得る。 エンタングルメント集中プロトコルの利点は、このプロトコルを線形光学部品と現在の技術で実装できることである。 対応する線形光量子回路は実験的な実現のために提供され、濃度プロトコルの成功確率も報告される。 そこで本研究では,階層型量子テレポーテーションネットワークにおける最大絡み合いハイブリッド状態の応用として,これまでのハイブリッド領域における最初の階層型量子通信方式であるomega型状態を用いた情報分割手法を提案する。 現在のハイブリッドエンタングル状態は、単一量子ビットの偏光回転によってコヒーレント状態のポーリ操作を回避し、より少ない誤差で実行することができる。

The advent of a new kind of entangled state known as hybrid entangled state, i.e., entanglement between different degrees of freedom, makes it possible to perform various quantum computational and communication tasks with lesser amount of resources. Here, we aim to exploit the advantage of these entangled states in communication over quantum networks. Unfortunately, the entanglement shared over the network deteriorates due to its unavoidable interaction with surroundings. Thus, an entanglement concentration protocol is proposed to obtain a maximally entangled hybrid Omega-type state from the corresponding non-maximally entangled states. The advantage of the proposed entanglement concentration protocol is that it is feasible to implement this protocol with linear optical components and present technology. The corresponding linear optical quantum circuit is provided for experimental realizations, while the success probability of the concentration protocol is also reported. Thereafter, we propose an application of maximally entangled hybrid state in the hierarchical quantum teleportation network by performing information splitting using Omega-type state, which is also the first hierarchical quantum communication scheme in the hybrid domain so far. The present hybrid entangled state has advantage in circumventing Pauli operations on the coherent state by polarization rotation of single qubit, which can be performed with lesser errors.
翻訳日:2023-05-21 23:52:47 公開日:2021-05-06
# 有界ノルムを持つ行列を駆動する量子対数空間アルゴリズム

Quantum Logspace Algorithm for Powering Matrices with Bounded Norm ( http://arxiv.org/abs/2006.04880v3 )

ライセンス: Link先を確認
Uma Girish, Ran Raz, Wei Zhan(参考訳) 縮約行列を駆動する量子対数空間アルゴリズム、すなわちスペクトルノルムが最大で1であるような行列を与える。 このアルゴリズムは任意の$n\times n$ contraction matrix $A$とパラメータ$T \leq \mathrm{poly}(n)$として入力され、多項式的に小さな加算誤差まで$A^T$のエントリを出力する。 このアルゴリズムは中間測度を使わずにユニタリ演算子のみを適用する。 第一に、このアルゴリズムを用いて、量子メモリのみを持つ量子対数空間アルゴリズムのクラスと中間測定値を持つ量子対数空間アルゴリズムのクラスが、中間測定なしで量子メモリのみを持つ量子対数空間アルゴリズムのクラスと等価であることを示す。 このことは、量子コンピューティングの基本原理である遅延測定原理が(古典記憶なしで)量子対数アルゴリズムにも適用されることを示している。 より一般に、量子空間 $o(s + \log t)$ を持つ量子アルゴリズムに、量子空間 $s$ と時間 $t$ の量子アルゴリズムの記述を入力として与え、(古典的記憶を持たない)中間的な測定を行い、中間的な測定なしで多項式的に小さい誤差と一元的にシミュレートする。 ユニタリ変換は可逆である(測定は不可逆である)ので、この結果の興味深い側面は、任意の量子対数空間アルゴリズム(古典記憶を持たない)が可逆量子対数空間アルゴリズムによってシミュレートできることである。 これは、ラング、マッケンジー、タップの結果の量子アナログであり、決定論的対数空間は可逆対数空間 [lmt00] に等しいことを証明している。 最後に,量子対数空間学習アルゴリズムの非自明な古典的シミュレーションを行う。

We give a quantum logspace algorithm for powering contraction matrices, that is, matrices with spectral norm at most~1. The algorithm gets as an input an arbitrary $n\times n$ contraction matrix $A$, and a parameter $T \leq \mathrm{poly}(n)$ and outputs the entries of $A^T$, up to (arbitrary) polynomially small additive error. The algorithm applies only unitary operators, without intermediate measurements. We show various implications and applications of this result: First, we use this algorithm to show that the class of quantum logspace algorithms with only quantum memory and with intermediate measurements is equivalent to the class of quantum logspace algorithms with only quantum memory without intermediate measurements. This shows that the deferred-measurement principle, a fundamental principle of quantum computing, applies also for quantum logspace algorithms (without classical memory). More generally, we give a quantum algorithm with space $O(S + \log T)$ that takes as an input the description of a quantum algorithm with quantum space $S$ and time $T$, with intermediate measurements (without classical memory), and simulates it unitarily with polynomially small error, without intermediate measurements. Since unitary transformations are reversible (while measurements are irreversible) an interesting aspect of this result is that it shows that any quantum logspace algorithm (without classical memory) can be simulated by a reversible quantum logspace algorithm. This proves a quantum analogue of the result of Lange, McKenzie and Tapp that deterministic logspace is equal to reversible logspace [LMT00]. Finally, we use our results to show non-trivial classical simulations of quantum logspace learning algorithms.
翻訳日:2023-05-16 06:48:43 公開日:2021-05-06
# 自由空間量子通信の限界とセキュリティ

Limits and Security of Free-Space Quantum Communications ( http://arxiv.org/abs/2010.04168v3 )

ライセンス: Link先を確認
Stefano Pirandola(参考訳) 自由空間量子通信の研究は、量子情報理論、光学、乱流理論のツールを必要とする。 ここでは, 量子系の伝播は一般に回折, 大気の絶滅, 乱流, ポインティングエラー, 背景雑音の影響を受ける自由空間リンクを通じて, 鍵および絡み合い分布の究極の速度に結合する。 究極の限界を確立するだけでなく、適切な(パイロットガイドおよびポスト選択された)コヒーレント状態プロトコルで実現可能な構成可能な秘密鍵レートは、これらの限界に十分近いため、高速量子鍵分布における自由空間チャネルの適合性を示す。 本研究は,コヒーレントステートプロトコルのコンポーザブル有限サイズセキュリティを,安定な通信チャネルの標準仮定(ファイバベース接続では典型的)から,フェードチャネルのより困難なシナリオ(フリースペースリンクでは典型的)まで,一般的な条件下で評価するための解析ツールを提供する。

The study of free-space quantum communications requires tools from quantum information theory, optics and turbulence theory. Here we combine these tools to bound the ultimate rates for key and entanglement distribution through a free-space link, where the propagation of quantum systems is generally affected by diffraction, atmospheric extinction, turbulence, pointing errors, and background noise. Besides establishing ultimate limits, we also show that the composable secret-key rate achievable by a suitable (pilot-guided and post-selected) coherent-state protocol is sufficiently close to these limits, therefore showing the suitability of free-space channels for high-rate quantum key distribution. Our work provides analytical tools for assessing the composable finite-size security of coherent-state protocols in general conditions, from the standard assumption of a stable communication channel (as is typical in fiber-based connections) to the more challenging scenario of a fading channel (as is typical in free-space links).
翻訳日:2023-04-29 15:23:55 公開日:2021-05-06
# ユニバーサル古典量子重畳符号化とユニバーサル古典量子多重アクセスチャネル符号化

Universal classical-quantum superposition coding and universal classical-quantum multiple access channel coding ( http://arxiv.org/abs/2011.00410v3 )

ライセンス: Link先を確認
Masahito Hayashi and Ning Cai(参考訳) 型法に一般化されたパッキング補題を用いて,普遍古典量子重畳符号と普遍古典量子多重アクセスチャネル符号を導出する。 古典的量子重畳符号を用いて、劣化したメッセージセットを持つ古典的量子複合放送チャンネルの容量領域を確立する。 古典量子多重アクセスチャネル符号には2種類の符号がある。 1つは共同復号化コード、もう1つは別個の復号化コードである。 前者は容量領域のコーナーポイントを普遍的に達成し、後者は容量領域の一般ポイントを普遍的に達成する。 後者のユニバーサルコードとQuantum Inf Processによる既存の結果を組み合わせる。 18,246 (2019) では,古典量子複合多元アクセスチャネルの容量領域の単一レタライズ式を確立した。

We derive universal classical-quantum superposition coding and universal classical-quantum multiple access channel code by using generalized packing lemmas for the type method. Using our classical-quantum universal superposition code, we establish the capacity region of a classical-quantum compound broadcast channel with degraded message sets. Our universal classical-quantum multiple access channel codes have two types of codes. One is a code with joint decoding and the other is a code with separate decoding. The former universally achieves corner points of the capacity region and the latter universally achieves general points of the capacity region. Combining the latter universal code with the existing result by Quantum Inf Process. 18, 246 (2019), we establish a single-letterized formula for the capacity region of a classical-quantum compound multiple access channel.
翻訳日:2023-04-26 03:53:56 公開日:2021-05-06
# 量子シミュレーションのためのカオス支援ロングレンジトンネル

Chaos-Assisted Long-Range Tunneling for Quantum Simulation ( http://arxiv.org/abs/2011.02557v3 )

ライセンス: Link先を確認
Maxime Martinez, Olivier Giraud, Denis Ullmo, Juliette Billy, David Gu\'ery-Odelin, Bertrand Georgeot, Gabriel Lemari\'e(参考訳) 本稿では,カオス支援トンネル機構の空間周期格子系への拡張について述べる。 このような格子系を変調の中間構造で駆動すると、カオスによって引き起こされる長距離ホッピングを持つ密結合ハミルトニアンが、距離がn$でサイト間を1/n$で移動することを実証する。 結果のロバスト性に関する数値的な実証を行い,ホッピング項法の解析的予測を導出する。 このようなシステムは、量子シミュレーションの範囲を広げて、凝縮物質の長距離モデルを実験的に実現することができる。

We present an extension of the chaos-assisted tunneling mechanism to spatially periodic lattice systems. We demonstrate that driving such lattice systems in an intermediate regime of modulation maps them onto tight-binding Hamiltonians with chaos-induced long-range hoppings $t_n \propto 1/n$ between sites at a distance $n$. We provide a numerical demonstration of the robustness of the results and derive an analytical prediction for the hopping term law. Such systems can thus be used to enlarge the scope of quantum simulations to experimentally realize long-range models of condensed matter.
翻訳日:2023-04-25 11:29:38 公開日:2021-05-06
# 正のp, q, doubled位相空間表現における多重時間相関

Multi-time correlations in the positive-P, Q, and doubled phase-space representations ( http://arxiv.org/abs/2011.10107v2 )

ライセンス: Link先を確認
Piotr Deuar(参考訳) 量子力学の位相空間表現における多重時間相関の計算に関する多くの物理的直感的な結果を得る。 時間依存確率的サンプルとマルチタイム観測変数を関連付け、微分自由作用素のアイデンティティの存在に依存する。 特に、正-P分布における時間順序正規観測値の式は、ハイゼンベルク作用素を素時間依存確率変数に置き換え、グラウバー・スダルシャン P に対するそのような結果の以前の拡張を確認するために導かれる。 後者は、p、wigner、doubled-wigner表現でさらに反正規および混合順序の多時間可観測性を計算するために容易に利用される。 混合順序オブザーバブルが amenable で表示されないものはどれで、明示的な集計は 4 階まで与えられる。 全体として、位相空間表現における量子多時間可観測性の理論は拡張され、多くのケースで非摂動的処理が可能となる。 従来の光子遮断系とBose-Hubbard連鎖の確率的シミュレーションを用いて, 大規模システムに対する結果の精度, ユーザビリティ, スケーラビリティを実証した。 さらに、位相空間サンプルに対する確率方程式の積分のためのロバストだが単純なアルゴリズムを提供する。

A number of physically intuitive results for the calculation of multi-time correlations in phase-space representations of quantum mechanics are obtained. They relate time-dependent stochastic samples to multi-time observables, and rely on the presence of derivative-free operator identities. In particular, expressions for time-ordered normal-ordered observables in the positive-P distribution are derived which replace Heisenberg operators with the bare time-dependent stochastic variables, confirming extension of earlier such results for the Glauber-Sudarshan P. Analogous expressions are found for the anti-normal-ordered case of the doubled phase-space Q representation, along with conversion rules among doubled phase-space s-ordered representations. The latter are then shown to be readily exploited to further calculate anti-normal and mixed-ordered multi-time observables in the positive-P, Wigner, and doubled-Wigner representations. Which mixed-order observables are amenable and which are not is indicated, and explicit tallies are given up to 4th order. Overall, the theory of quantum multi-time observables in phase-space representations is extended, allowing non-perturbative treatment of many cases. The accuracy, usability, and scalability of the results to large systems is demonstrated using stochastic simulations of the unconventional photon blockade system and a related Bose-Hubbard chain. In addition, a robust but simple algorithm for integration of stochastic equations for phase-space samples is provided.
翻訳日:2023-04-23 16:56:33 公開日:2021-05-06
# 原子・分子共鳴の量子コンピューティング

Quantum Computing for Atomic and Molecular Resonances ( http://arxiv.org/abs/2011.13999v3 )

ライセンス: Link先を確認
Teng Bian and Sabre Kais(参考訳) 複素スケーリング法は、電子座標が核座標とは独立に拡張されていると仮定して、ボルン-オッペンハイマー近似内の分子共鳴を計算するのに使うことができる。 この方法では、実部が共鳴位置と関連付けられ、虚部が寿命の逆である非エルミートハミルトニアンの複素エネルギーを計算する。 本研究では,量子コンピュータ上での共振をシミュレートする手法を提案する。 まず、スケールド分子ハミルトニアンを第二量子化に変換し、次にヨルダン・ウィグナー変換を用いてスケールドハミルトニアンをキュービット空間に変換する。 複雑な固有値を得るためには、二原子分子に見られるものと類似した先行解離共鳴を示す単純な1次元モデルポテンシャルの共鳴を求めるために、直接測定法を導入する。 最後に, H$_2^-$分子の共鳴をシミュレートするために本手法を適用した。 IBM QiskitシミュレータとIBM量子コンピュータの数値計算結果から,我々の技術を検証する。

The complex-scaling method can be used to calculate molecular resonances within the Born-Oppenheimer approximation, assuming the electronic coordinates are dilated independently of the nuclear coordinates. With this method, one will calculate the complex energy of a non-Hermitian Hamiltonian, whose real part is associated with the resonance position and the imaginary part is the inverse of the lifetime. In this study, we propose techniques to simulate resonances on a quantum computer. First, we transformed the scaled molecular Hamiltonian to second-quantization and then used the Jordan-Wigner transformation to transform the scaled Hamiltonian to the qubit space. To obtain the complex eigenvalues, we introduce the Direct Measurement method, which is applied to obtain the resonances of a simple one-dimensional model potential that exhibits pre-dissociating resonances analogous to those found in diatomic molecules. Finally, we applied the method to simulate the resonances of the H$_2^-$ molecule. Numerical results from the IBM Qiskit simulators and IBM quantum computers verify our techniques.
翻訳日:2023-04-22 20:21:00 公開日:2021-05-06
# 量子フィッシャー情報行列の一般表現と離散量子イメージングへの応用

General expressions for the quantum Fisher information matrix with applications to discrete quantum imaging ( http://arxiv.org/abs/2012.01572v2 )

ライセンス: Link先を確認
Lukas J. Fiderer, Tommaso Tufarelli, Samanta Piano, Gerardo Adesso(参考訳) 量子フィッシャー情報行列は、多パラメータ量子推定理論の中心的な対象である。 ほとんどの計算方法は密度行列の対角化に依存しているため、解析式を得るのは通常困難である。 本稿では,行列対角化をバイパスし,正規直交状態集合上の作用素の展開を必要としない量子フィッシャー情報行列の一般表現を導出する。 さらに、任意のランクの密度行列に取り組むこともできる。 ここで示される方法は、例えば、密度行列がコヒーレント状態のような非直交状態の項でより自然に表現される場合に、解析計算をかなり単純化する。 我々の導出は、密度行列が閉形式で対角化できない場合でも、原理的に解析的に評価できる2つの行列逆数に依存する。 我々は、離散量子イメージングの時間領域における新しい結果、すなわち不整点源の位置と強度を導出することで、我々のアプローチの力を実証する。 異なる強度を持つ2つの点源の完全推定問題に対する解析式と、3つの点源を持つ特定の例に対する解析式を求める。 量子力学において,本手法が標準となることを期待する。

The quantum Fisher information matrix is a central object in multiparameter quantum estimation theory. It is usually challenging to obtain analytical expressions for it because most calculation methods rely on the diagonalization of the density matrix. In this paper, we derive general expressions for the quantum Fisher information matrix which bypass matrix diagonalization and do not require the expansion of operators on an orthonormal set of states. Additionally, we can tackle density matrices of arbitrary rank. The methods presented here simplify analytical calculations considerably when, for example, the density matrix is more naturally expressed in terms of non-orthogonal states, such as coherent states. Our derivation relies on two matrix inverses which, in principle, can be evaluated analytically even when the density matrix is not diagonalizable in closed form. We demonstrate the power of our approach by deriving novel results in the timely field of discrete quantum imaging: the estimation of positions and intensities of incoherent point sources. We find analytical expressions for the full estimation problem of two point sources with different intensities, and for specific examples with three point sources. We expect that our method will become standard in quantum metrology.
翻訳日:2023-04-22 07:40:10 公開日:2021-05-06
# 量子曲率の相関とチャーン数の分散

Correlations of quantum curvature and variance of Chern numbers ( http://arxiv.org/abs/2012.03884v2 )

ライセンス: Link先を確認
Omri Gat and Michael Wilkinson(参考訳) 複素量子系における量子曲率の相関関数を、ランダム行列モデルを用いて解析し、普遍的相関関数の例を示す。 相関関数は小さな分離点における距離の逆転として発散することを示す。 また、混合状態の相関関数を定義し解析し、小さな分離において有限であるが特異であることを示した。 両方の種類の相関関係に対する普遍的な形式のスケーリング仮説はモンテカルロシミュレーションによって支持される。 量子化されたホールコンダクタンスを記述することができるチャーン整数の分散と曲率の相関関数を関連付ける。

We analyse the correlation function of the quantum curvature in complex quantum systems, using a random matrix model to provide an exemplar of a universal correlation function. We show that the correlation function diverges as the inverse of the distance at small separations. We also define and analyse a correlation function of mixed states, showing that it is finite but singular at small separations. A scaling hypothesis on a universal form for both types of correlations is supported by Monte-Carlo simulations. We relate the correlation function of the curvature to the variance of Chern integers which can describe quantised Hall conductance.
翻訳日:2023-04-21 20:56:20 公開日:2021-05-06
# 箱模型における核スピンダイナミクス、ノイズ、スクイーズおよび絡み合い

Nuclear spin dynamics, noise, squeezing and entanglement in box model ( http://arxiv.org/abs/2012.03872v2 )

ライセンス: Link先を確認
A. V. Shumilin and D. S. Smirnov(参考訳) 中心スピンボックスモデルにおける核スピンダイナミクスの非線形方程式に対する、多くの核スピンの極限におけるコンパクトな解析解を得る。 外部磁場に沿った全核スピン成分は保存され、2つの垂直成分は、原子スピン偏極によって決定される周波数に従って電子スピン偏極に依存するか振動する。 本手法の応用として, 核スピンノイズスペクトルを計算し, 系励起の欠如による核スピンのスクイーズと多くの体絡みの影響について述べる。

We obtain a compact analytical solution for the nonlinear equation for the nuclear spin dynamics in the central spin box model in the limit of many nuclear spins. The total nuclear spin component along the external magnetic field is conserved and the two perpendicular components precess or oscillate depending on the electron spin polarization, with the frequency, determined by the nuclear spin polarization. As applications of our solution, we calculate the nuclear spin noise spectrum and describe the effects of nuclear spin squeezing and many body entanglement in the absence of a system excitation.
翻訳日:2023-04-21 20:55:41 公開日:2021-05-06
# 光リーブ格子におけるハバードモデルと状態準備

Hubbard models and state preparation in an optical Lieb lattice ( http://arxiv.org/abs/2101.03819v2 )

ライセンス: Link先を確認
Stuart Flannigan, Luisa Madail, Ricardo G. Dias and Andrew J. Daley(参考訳) 新たな2次元格子ジオメトリーにおける多体相の探索への関心の高まりに触発され、光学的リーブ格子で観測できるような低温原子の性質について研究する。 まず、現実的な実験的なセットアップのために個々の場所で局所化されたワニエ関数を計算し、ハバードのようなモデルの係数を決定する。 これに基づいて, 対角境界条件を持つリーブ格子のエッジ状態のロバスト性について, 相互作用の影響について検討し, この幾何学における強い相関多体相を実現する方法を示す。 そして、これを半充填1Dリーブはしごの相互作用粒子に一般化し、励起は平らなバンド状態に支配される。 強い相互作用に対しては,dirac錐との強い混合がある場合でも対相関が強化されることを示した。 これらの1次元での発見は、現在の実験で調べられるような2次元リーブ格子の位相に関する興味深い疑問を提起する。

Inspired by the growing interest in probing many-body phases in novel two-dimensional lattice geometries we investigate the properties of cold atoms as they could be observed in an optical Lieb lattice. We begin by computing Wannier functions localised at individual sites for a realistic experimental setup, and determining coefficients for a Hubbard-like model. Based on this, we show how experiments could probe the robustness of edge states in a Lieb lattice with diagonal boundary conditions to the effects of interactions and realise strongly correlated many-body phases in this geometry. We then generalise this to interacting particles in a half-filled 1D Lieb ladder, where excitations are dominated by flat band states. We show that for strong attractive interactions, pair correlations are enhanced even when there is strong mixing with the Dirac cone. These findings in 1D raise interesting questions about the phases in the full 2D Lieb lattice which we show can be explored in current experiments.
翻訳日:2023-04-17 02:52:19 公開日:2021-05-06
# 熱機械の作動物質としての2つの結合量子ドット系

Two Coupled Double Quantum Dots Systems as an working substance for Heat Machines ( http://arxiv.org/abs/2102.00908v2 )

ライセンス: Link先を確認
Jefferson Luan D. de Oliveira, Moises Rojas and Cleverson Filgueiras(参考訳) 本稿では,2つの二重量子ドット(dqds)を結合し,それぞれのdqdと余剰電子を作用物質として用いる量子熱機械の概念設計について述べる。 圧縮比を,量子オットーサイクルの等調過程における電子間の相互作用を記述するクーロンカップリングの比と定義し,熱機械の異なる操作系の発生を解析する。 また、各dqd間での単一電子の量子トンネルに関連するパラメータによる効果を考慮すれば、古典的に考えられないオットーエンジンを実現する方法を示す。

This paper presents a conceptual design for quantum heat machines using a pair of coupled double quantum dots (DQDs), each DQD with an excess electron to interact, as an working substance. We define a compression ratio as the ratio between the Coulomb couplings which describes the interaction between the electrons during the isochoric processes of the quantum Otto cycle and then we analyse the arising of different regimes of operations of our thermal machine. We also show how we can achieve a classically inconceivable Otto engine, when considering the effects due to the parameters related to the quantum tunneling of a single electron between each individual DQD.
翻訳日:2023-04-13 02:55:54 公開日:2021-05-06
# AIデータセットにおける年齢の表現と表現の理解

Understanding the Representation and Representativeness of Age in AI Data Sets ( http://arxiv.org/abs/2103.09058v2 )

ライセンス: Link先を確認
Joon Sung Park, Michael S. Bernstein, Robin N. Brewer, Ece Kamar, Meredith Ringel Morris(参考訳) aiトレーニングデータセットにおけるさまざまな人口集団の多様な表現は、モデルが幅広いユーザーのために機能することを保証する上で重要である。 この目的のために、aiフェアネスとインクルージョンにおける最近の取り組みは、人種、性別、社会経済的地位、障害ステータス間でバランスの取れたaiデータセットの作成を提唱している。 本稿では, 高齢者がAIデータセット全体において人口に比例するかどうかを問うことで, 年齢の表現に焦点をあてることで, この研究の行程に寄与する。 本研究は,92の顔データ集合に関する公開情報を用いて,年齢の体系化に関する事例研究を行い,対象者の年齢と年齢の表現方法について検討した。 対象者の閉じた年齢間隔を明示的に記録した研究の5つのデータセットには、65歳以上の高齢者(65歳以上)と85歳以上の高齢者(85歳以上)が含まれている。 さらに,24組のデータセットには,資料やメタデータに年齢関連情報が含まれていること,対象者の年齢を収集・記録するための一貫性のある方法が存在しないことが判明した。 私たちは、年齢の観点から代表的データセットを作成することの難しさを認識していますが、それを、包括的AIに関心のある研究者やエンジニアが考慮すべき重要な次元として挙げます。

A diverse representation of different demographic groups in AI training data sets is important in ensuring that the models will work for a large range of users. To this end, recent efforts in AI fairness and inclusion have advocated for creating AI data sets that are well-balanced across race, gender, socioeconomic status, and disability status. In this paper, we contribute to this line of work by focusing on the representation of age by asking whether older adults are represented proportionally to the population at large in AI data sets. We examine publicly-available information about 92 face data sets to understand how they codify age as a case study to investigate how the subjects' ages are recorded and whether older generations are represented. We find that older adults are very under-represented; five data sets in the study that explicitly documented the closed age intervals of their subjects included older adults (defined as older than 65 years), while only one included oldest-old adults (defined as older than 85 years). Additionally, we find that only 24 of the data sets include any age-related information in their documentation or metadata, and that there is no consistent method followed across these data sets to collect and record the subjects' ages. We recognize the unique difficulties in creating representative data sets in terms of age, but raise it as an important dimension that researchers and engineers interested in inclusive AI should consider.
翻訳日:2023-04-08 13:25:17 公開日:2021-05-06
# U(1)対称性富化位相の厳密解モデル

Exactly solvable models for U(1) symmetry-enriched topological phases ( http://arxiv.org/abs/2103.13399v2 )

ライセンス: Link先を確認
Qing-Rui Wang and Meng Cheng(参考訳) U(1)対称性に富んだ2次元および3次元位相の可換射影格子モデルの一般的な構成を、サイトごとに有限次元ヒルベルト空間で提案する。 構成はトポロジカル位相の通勤プロジェクターモデルから始まり、一貫した方法で状態空間へのU(1)電荷をデコレートする。 対称性を破ることなくガッピング境界を許容する2次元u(1)対称性エンリッチ位相位相相は,本構成により実現可能であることを示す。 また, u(1)対称性が粒子あるいはループ励起に分別化された3次元位相相の大きなクラスを構成する。

We propose a general construction of commuting projector lattice models for 2D and 3D topological phases enriched by U(1) symmetry, with finite-dimensional Hilbert space per site. The construction starts from a commuting projector model of the topological phase and decorates U(1) charges to the state space in a consistent manner. We show that all 2D U(1) symmetry-enriched topological phases which allow gapped boundary without breaking symmetry, can be realized through our construction. We also construct a large class of 3D topological phases with U(1) symmetry fractionalized on particles or loop excitations.
翻訳日:2023-04-06 23:45:15 公開日:2021-05-06
# トラップイオン量子ビットと移動光子間の決定論的界面

Towards a deterministic interface between trapped-ion qubits and travelling photons ( http://arxiv.org/abs/2105.02121v2 )

ライセンス: Link先を確認
Josef Schupp, Vojtech Krcmarsky, Victor Krutyanskiy, Martin Meraner, Tracy E. Northup, Ben P. Lanyon(参考訳) 物質ベースの量子ビットとフォトニック量子ビットの間の量子インターフェースの効率限界について実験結果を示す。 光キャビティ内に閉じ込められたイオンを用いて、0.69(3)の確率でキャビティ出力の1つのイオン絡み合い光子を得る。 本システムの性能は,エミッタの電子構造とキャビティパラメータによって設定されたキャビティ内の量子エミッタからのフォトンコレクション確率の上限を飽和させることが示されている。 イオン結合ファイバ結合光子を発生・検出する確率は0.462(3)であり、前回の最高性能よりも5倍に増加する。 最後に、最大15個のシーケンシャル偏光子の生成と検出は、捕捉されたイオンが多光子源として機能することを示す。 測定された確率と予測された境界の比較は、閉じ込められたイオンを超えた量子エミッタ、特に量子物質からの光子収集と吸収を最適化する将来の系の設計に関係している。

Experimental results are presented on the efficiency limits for a quantum interface between a matter-based qubit and a photonic qubit. Using a trapped ion in an optical cavity, we obtain a single ion-entangled photon at the cavity output with a probability of 0.69(3). The performance of our system is shown to saturate the upper limit to photon-collection probability from a quantum emitter in a cavity, set by the emitter's electronic structure and by the cavity parameters. The probability for generating and detecting the ion-entangled fiber-coupled photon is 0.462(3), a five-fold increase over the previous best performance. Finally, the generation and detection of up to 15 sequential polarised photons demonstrates the ability of a trapped ion to serve as a multi-photon source. The comparison between measured probabilities and predicted bounds is relevant for quantum emitters beyond trapped ions, in particular, for the design of future systems optimising photon collection from, and absorption in, quantum matter.
翻訳日:2023-04-01 13:18:00 公開日:2021-05-06
# 純状態分解の平均量子コヒーレンス

The Average Quantum Coherence of Pure State Decomposition ( http://arxiv.org/abs/2105.02382v1 )

ライセンス: Link先を確認
Ming-Jing Zhao, Teng Ma, and Rajesh Pereira(参考訳) 混合量子状態の純粋状態分解における平均量子コヒーレンスについて検討する。 平均量子コヒーレンスの上界が提供され、上界の飽和のための十分な条件が示される。 これらの十分条件は常に2次元と3次元の系に対して成り立つ。 これにより、対角線要素のみを測定することで平均コヒーレンスを実験的に推定できる。 次にブロッホ球面におけるキュービット状態の純粋状態分解を幾何学的に記述する。 任意の量子ビット状態に対して、最大平均量子コヒーレンスを達成する最適純粋状態分解と他の3つの純粋状態分解がブロッホ球に示されている。 平均量子コヒーレンス間の順序関係は任意のコヒーレンス測度に対して不変である。 本稿では,すべてのコヒーレンス測度に対して普遍的かつ適切な結果を示す。

We study the average quantum coherence over the pure state decompositions of a mixed quantum state. An upper bound of the average quantum coherence is provided and sufficient conditions for the saturation of the upper bound are shown. These sufficient conditions always hold for two and three dimensional systems. This provides a tool to estimate the average coherence experimentally by measuring only the diagonal elements, which remarkably requires less measurements compared with state tomography. We then describe the pure state decompositions of qubit state in Bloch sphere geometrically. For any given qubit state, the optimal pure state decomposition achieving the maximal average quantum coherence as well as three other pure state decompositions are shown in the Bloch sphere. The order relations among their average quantum coherence are invariant for any coherence measure. The results presented in this paper are universal and suitable for all coherence measures.
翻訳日:2023-04-01 08:10:57 公開日:2021-05-06
# 離散時間収束系に対する小利得定理とその応用

A Small-Gain Theorem for Discrete-Time Convergent Systems and Its Applications ( http://arxiv.org/abs/2105.02376v1 )

ライセンス: Link先を確認
Jiayen Chen and Hendra I. Nurdin(参考訳) 非線形システムの収束的、収縮的、あるいは漸進的安定性特性はオブザーバ設計、出力制御、同期といった制御タスクに注目されている。 収束特性は、非線形システムの情報処理能力を活用しようとする貯水池計算のニューロモルフィック(脳にインスパイアされた)コンピューティングにおいて中心的な役割を果たす。 本稿では、離散時間出力-フィードバック相互接続系に対する小利得定理を、入力によって一意に決定される有界基準出力に収束する出力で一様に入力-出力収束(UIOC)する。 相互接続された時間変化離散時間均一な入出力安定系に対する小さな利得定理も中間結果として提示される。 UIOC小利得定理の応用は、ブラックボックスシステム同定のためのオブザーバーベースのコントローラと相互接続された非線形古典的量子力学系(貯水池コンピュータ)の設計において説明される。

Convergent, contractive or incremental stability properties of nonlinear systems have attracted interest for control tasks such as observer design, output regulation and synchronization. The convergence property plays a central role in the neuromorphic (brain-inspired) computing of reservoir computing, which seeks to harness the information processing capability of nonlinear systems. This paper presents a small-gain theorem for discrete-time output-feedback interconnected systems to be uniformly input-to-output convergent (UIOC) with outputs converging to a bounded reference output uniquely determined by the input. A small-gain theorem for interconnected time-varying discrete-time uniform input-to-output stable systems that could be of separate interest is also presented as an intermediate result. Applications of the UIOC small-gain theorem are illustrated in the design of observer-based controllers and interconnected nonlinear classical and quantum dynamical systems (as reservoir computers) for black-box system identification.
翻訳日:2023-04-01 08:10:46 公開日:2021-05-06
# ダイクロマティック変動測定における広帯域バックアクションキャンセル

Broadband Back Action Cancellation in a Dichromatic Variational Measurement ( http://arxiv.org/abs/2105.02506v1 )

ライセンス: Link先を確認
Sergey P. Vyatchanin and Andrey B. Matsko(参考訳) 量子バックアクションは、量子測定の大多数に基本的な感度制限を課す。 この効果は、測定されたパラメータとメーターの量子ノイズの避けられない汚染の結果である。 バックアクション回避測定は、測定器に研究中のシステムによって導入された量子相関を利用して、基本的な限界を克服する。 測定は、システムコンポーネントの応答時間が有限であるため、帯域幅で頻繁に制限される。 ここでは、発振器周波数で分離された周波数の2色場を持つ機械発振器の探索により、量子バック動作に伴う測定ノイズの独立検出と完全減算が可能となることを示す。

Quantum back action imposes fundamental sensitivity limits to the majority of quantum measurements. The effect results from the unavoidable contamination of the measured parameter with the quantum noise of a meter. Back action evading measurements take advantage of the quantum correlations introduced by the system under study to the meter and allow overcoming the fundamental limitations. The measurements are frequently restricted in their bandwidth due to a finite response time of the system components. Here we show that probing a mechanical oscillator with a dichromatic field with frequencies separated by the oscillator frequency enables independent detection and complete subtraction of the measurement noise associated with the quantum back action.
翻訳日:2023-04-01 08:08:36 公開日:2021-05-06
# vo$_2$相転移近傍の振動双極子上の光学力

Optical forces on an oscillating dipole near VO$_2$ phase transition ( http://arxiv.org/abs/2105.02493v1 )

ライセンス: Link先を確認
Daniela Szilard, Patr\'icia P. Abrantes, Felipe A. Pinheiro, Felipe S. S. Rosa, Carlos Farina, Wilton J. M. Kort-Kamp(参考訳) 相変化二酸化バナジウム (VO$_2$) 膜に近接する双極子振動の光学力について検討し, 金属絶縁体転移を約340ドル, 低熱ヒステリシスを示す。 この構成は励起二レベル量子エミッタからなるもので、放射-物質相互作用の重要な側面を捉えるために古典的な記述を用いる。 電気的双極子と磁気的双極子を2つの異なる構成、すなわち、VO$2$膜に平行かつ垂直な双極子モーメントを考える。 ブリュッゲマン理論を用いて材料の有効光応答を記述することにより, 近接場状態においては, 膜を選択周波数範囲で加熱することによって, 誘電体上の力が誘電性から反発性に変化することを示す。 vo$_2$遷移に存在する熱ヒステリシスは、光学力の挙動に明らかに現れ、相変化材料を用いた光-物質相互作用を制御するための代替アプローチの根拠となった。

We investigate optical forces on oscillating dipoles close to a phase-change vanadium dioxide (VO$_2$) film, which exhibits a metal-insulator transition around $340$ K and low thermal hysteresis. This configuration is related to one composed of an excited two-level quantum emitter and we employ a classical description to capture important aspects of the radiation-matter interaction. We consider both electric and magnetic dipoles for two different configurations, namely, with the dipole moments parallel and perpendicular to the VO$_2$ film. By using Bruggeman theory to describe the effective optical response of the material, we show that, in the near-field regime, the force on the dipoles can change from attractive to repulsive just by heating the film for a selected frequency range. We demonstrate that the thermal hysteresis present in the VO$_2$ transition clearly shows up in the behavior of the optical forces, setting the grounds for alternative approaches to control light-matter interactions using phase-change materials.
翻訳日:2023-04-01 08:08:26 公開日:2021-05-06
# 回転波近似における多値系の長時間マルコビアン性

Long-time Markovianity of multi-level systems in the rotating wave approximation ( http://arxiv.org/abs/2105.02443v1 )

ライセンス: Link先を確認
A.E. Teretenkov(参考訳) 回転波近似における多レベル系のモデルに対して、ボゴルーボフ・ヴァン・ホーブスケーリングを用いた摂動理論を用いて、通常の弱結合極限ダイナミクスの補正を求める。 回転波近似におけるスピンボーソンモデルについて、これまでの結果を一般化する。 さらに、本研究では、システムのハミルトニアンが小さいパラメータに依存することを考慮に入れる。 本研究は,浴槽相関時間の後,初期条件と相関関数の再正規化により,全ての非マルコビアン性を捉えることが可能であることを示す。

For the model of a multi-level system in the rotating wave approximation we obtain the corrections for a usual weak coupling limit dynamics by means of perturbation theory with Bogolubov-van Hove scaling. It generalizes our previous results on a spin-boson model in the rotating wave approximation. Additionally, in this work we take into account some dependence of the system Hamiltonian on the small parameter. We show that the dynamics is long-time Markovian, i.e. after the bath correlation time all the non-Markovianity could be captured by the renormalization of initial condition and correlation functions.
翻訳日:2023-04-01 08:07:50 公開日:2021-05-06
# AI倫理における多様性と包摂性の再設定

Reconfiguring Diversity and Inclusion for AI Ethics ( http://arxiv.org/abs/2105.02407v1 )

ライセンス: Link先を確認
Nicole Chi, Emma Lurie, Deirdre K. Mulligan(参考訳) 活動家、ジャーナリスト、学者は、データ集約ツールやサービスにおける多様性、表現、構造的排除の関係について、長い間批判的な疑問を提起してきた。 私たちは、コーポレートai倫理の創発的な風景を、これらの会話の1つの成果であるコーポレートai倫理活動への多様性と包括性の法人化の中心にマッピングする作業を構築します。 設計分野における価値からの解釈的文書分析と分析ツールを用いて、アプリケーションおよびサービス層aiインフラストラクチャー(google、microsoft、salesforce)を作成する3社によって作成された公開のai倫理文書において、多様性と包摂性がどのように表現されているかを検討する。 これらの文書が技術者や技術クライアントにとってより扱いやすいようになれば、1980年代中頃の企業による多様性管理と共鳴する公民権の正当化から脱却されることになる。 多様性と包括性を備えたデータセットのような技術的アーティファクトにフォーカスし、平等を公平に置き換えることで、日常的な実践者にとって倫理的な作業がより効果的になる。 しかし、彼らはより広範なdeiイニシアティブや他の主題の専門家と離婚しているように見え、これらの価値の運用方法に関する微妙な決定に必要なコンテキストを提供することができる。 最後に、多様性と包摂性(diversity and inclusion)は、エンジニアリング論理によって構成されるように、企業は倫理の所有者ではなく倫理のアロケータとして位置づけられる。

Activists, journalists, and scholars have long raised critical questions about the relationship between diversity, representation, and structural exclusions in data-intensive tools and services. We build on work mapping the emergent landscape of corporate AI ethics to center one outcome of these conversations: the incorporation of diversity and inclusion in corporate AI ethics activities. Using interpretive document analysis and analytic tools from the values in design field, we examine how diversity and inclusion work is articulated in public-facing AI ethics documentation produced by three companies that create application and services layer AI infrastructure: Google, Microsoft, and Salesforce. We find that as these documents make diversity and inclusion more tractable to engineers and technical clients, they reveal a drift away from civil rights justifications that resonates with the managerialization of diversity by corporations in the mid-1980s. The focus on technical artifacts, such as diverse and inclusive datasets, and the replacement of equity with fairness make ethical work more actionable for everyday practitioners. Yet, they appear divorced from broader DEI initiatives and other subject matter experts that could provide needed context to nuanced decisions around how to operationalize these values. Finally, diversity and inclusion, as configured by engineering logic, positions firms not as ethics owners but as ethics allocators; while these companies claim expertise on AI ethics, the responsibility of defining who diversity and inclusion are meant to protect and where it is relevant is pushed downstream to their customers.
翻訳日:2023-04-01 08:07:42 公開日:2021-05-06
# 4波混合による量子関連画像の生成における2ビーム結合

Two-beam Coupling in the Production of Quantum Correlated Images by Four-wave Mixing ( http://arxiv.org/abs/2105.02399v1 )

ライセンス: Link先を確認
Meng-Chang Wu, Nicholas R. Brewer, Rory W. Speirs, Kevin M. Jones, Paul D. Lett(参考訳) Rb原子蒸気中の4波混合(4WM)からの強度差スキューズ発生における2ビームカップリングの効果について検討した。 最近導入された二重探索技術は、シード4波混合プロセスにおいて古典的なノイズをキャンセルすることができる。 しかし、この二重探索技術は、原子蒸気中の異なるシード空間モード間の2ビームカップリングを含む新しい複雑さを導入し、原子線幅以下の周波数でスクイーズを破滅させることができる。 これはこれらのシステムを用いた量子イメージングのいくつかの形態を複雑にする。 ここで,4wmプロセスをスキュー線でシードすることで,2ビーム結合による余分なノイズを除去できることを示す。 鮮やかなシード画像における2ビームのカップリングを避けるためには、利得媒体内のオブジェクトを再イメージすることが重要である。

We investigate the effect of 2-beam coupling in different imaging geometries in generating intensity-difference squeezing from four-wave mixing (4WM) in Rb atomic vapors. A recently-introduced dual-seeding technique can cancel out the classical noise in a seeded four-wave mixing process. This dual-seeding technique, however, can introduce new complications that involve 2-beam coupling between different seeded spatial modes in the atomic vapor and can ruin squeezing at frequencies on the order of the atomic linewidth and below. This complicates some forms of quantum imaging using these systems. Here we show that seeding the 4WM process with skew rays can eliminate the excess noise caused by 2-beam coupling. To avoid 2-beam coupling in bright, seeded images, it is important to re-image the object in the gain medium, instead of focussing through it.
翻訳日:2023-04-01 08:07:13 公開日:2021-05-06
# 高制約連続最適化問題の量子サンプリングのための機械学習フレームワーク

Machine Learning Framework for Quantum Sampling of Highly-Constrained, Continuous Optimization Problems ( http://arxiv.org/abs/2105.02396v1 )

ライセンス: Link先を確認
Blake A. Wilson, Zhaxylyk A. Kudyshev, Alexander V. Kildishev, Sabre Kais, Vladimir M. Shalaev, and Alexandra Boltasseva(参考訳) 近年,組合せ最適化問題を解くために量子コンピュータの利用への関心が高まっている。 本研究では,連続空間逆設計問題を2次非制約バイナリ最適化(QUBO)問題にバイナリ変分オートエンコーダと因子化マシンを用いてマッピングする,汎用的な機械学習ベースのフレームワークを開発した。 因子化機は連続設計空間の低次元二元代理モデルとして訓練され、様々なQUBOサンプルを用いてサンプリングされる。 D-Wave Advantageハイブリッドサンプリングとシミュレート・アニーリングを用いて,因子化機の再サンプリングと再トレーニングを繰り返して,本フレームワークはトレーニングセットの値を超える有益値を示す設計を見出した。 最適化による2つの逆設計問題に対するフレームワークの性能について紹介する。 一 熱光学応用のための熱エミッタトポロジー及び熱エミッタトポロジー (ii)高効率ビームステアリング用回折メタグレーティング この手法は、量子最適化における将来の発展を活用して、科学と工学の応用のための高度な逆設計問題を解決するためにさらに拡張することができる。

In recent years, there is a growing interest in using quantum computers for solving combinatorial optimization problems. In this work, we developed a generic, machine learning-based framework for mapping continuous-space inverse design problems into surrogate quadratic unconstrained binary optimization (QUBO) problems by employing a binary variational autoencoder and a factorization machine. The factorization machine is trained as a low-dimensional, binary surrogate model for the continuous design space and sampled using various QUBO samplers. Using the D-Wave Advantage hybrid sampler and simulated annealing, we demonstrate that by repeated resampling and retraining of the factorization machine, our framework finds designs that exhibit figures of merit exceeding those of its training set. We showcase the framework's performance on two inverse design problems by optimizing (i) thermal emitter topologies for thermophotovoltaic applications and (ii) diffractive meta-gratings for highly efficient beam steering. This technique can be further scaled to leverage future developments in quantum optimization to solve advanced inverse design problems for science and engineering applications.
翻訳日:2023-04-01 08:06:44 公開日:2021-05-06
# EPR論文:教育的アプローチ

The EPR paper: a pedagogical approach ( http://arxiv.org/abs/2105.02384v1 )

ライセンス: Link先を確認
Angel Garcia-Chung(参考訳) アインシュタイン、ポドルスキー、ローゼンによる独創的な論文[1]において、量子力学の完全性に対する批判が提起された。 量子力学が完備であれば、非可換作用素を持つ2つの物理量(英語版)は同時に現実を持つことができる。 本稿では,EPRの議論で使用される概念に対する教育的アプローチを提案する。

On the seminal paper written by Einstein, Podolsky and Rosen [1], a critique to the completeness of quantum mechanics was posed. Part of the critique consisted in the following argument: if quantum mechanics is complete, then, two physical quantities, with non-commuting operators, can have simultaneous reality. In this paper I aim to provide a pedagogical approach to the notions used in the EPR's argument.
翻訳日:2023-04-01 08:06:25 公開日:2021-05-06
# 量子対数空間とポスト選択

Quantum Logarithmic Space and Post-selection ( http://arxiv.org/abs/2105.02681v1 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall, Harumichi Nishimura, and Abuzer Yakary{\i}lmaz(参考訳) ポスト選択は、望ましくない事象が発生する計算の全ての実行を破棄する力であり、アーロンソンによって量子複雑性理論の分野に導入された影響力のある概念である(王立協会a, 2005)。 本稿では,空間境界量子複雑性クラスに対するポスト選択の研究を開始する。 我々の主な結果は、$\sf PostBQL=PL$、すなわち、ポスト選択(\sf PostBQL$)を持つ有界エラー(多項式時間)対数空間量子アルゴリズムによって解ける問題のクラスは、非有界エラー対数空間古典アルゴリズム(\sf PL$)によって解ける問題のクラスに等しいことを示す。 この結果は、多項式時間量子計算のためにアーロンソンによって証明されたよく知られた結果の空間有界版$\sf PostBQP=PP$を与える。 副産物として、$\sf PL$は時間境界のない有界誤差対数空間量子アルゴリズムによって解決できる問題のクラスと一致することも示している。

Post-selection, the power of discarding all runs of a computation in which an undesirable event occurs, is an influential concept introduced to the field of quantum complexity theory by Aaronson (Proceedings of the Royal Society A, 2005). In the present paper, we initiate the study of post-selection for space-bounded quantum complexity classes. Our main result shows the identity $\sf PostBQL=PL$, i.e., the class of problems that can be solved by a bounded-error (polynomial-time) logarithmic-space quantum algorithm with post-selection ($\sf PostBQL$) is equal to the class of problems that can be solved by unbounded-error logarithmic-space classical algorithms ($\sf PL$). This result gives a space-bounded version of the well-known result $\sf PostBQP=PP$ proved by Aaronson for polynomial-time quantum computation. As a by-product, we also show that $\sf PL$ coincides with the class of problems that can be solved by bounded-error logarithmic-space quantum algorithms that have no time bound.
翻訳日:2023-04-01 07:59:26 公開日:2021-05-06
# ジョセフソンフォトニクスデバイスにおけるインジェクションロックと同期

Injection locking and synchronization in Josephson photonics devices ( http://arxiv.org/abs/2105.02564v1 )

ライセンス: Link先を確認
Lukas Danner, Ciprian Padurariu, Joachim Ankerhold, and Bj\"orn Kubala(参考訳) 射出ロックは放射源を安定させ、ノイズによるスペクトル拡大を効果的に抑制し、狭いスペクトルに導くことができる。 この技法はレーザー物理学においてよく確立されており、アドラーによる現象学的記述は通常十分である。 近年,マイクロ波共振器と直列に接続された直流バイアスジョセフソン接合を横切る非弾性クーパー対トンネルによりマイクロ波放射が生成されるジョセフソンフォトニクスデバイスにおいてロック実験が行われた。 ジョセフソンの非線形性と特定の工学的環境を考慮した、そのような装置のロックに関する深い理論が欠けている。 そこで本研究では,環境が単一モードキャビティで構成される典型的なジョセフソン光子デバイスにおける注入ロックについて検討する。 直列抵抗は小さいが、自己持続型ジョセフソン振動を記述する上で重要な要素であり、ロック領域を可能にする。 我々は、特定の回路方程式から、アドラー方程式と同様のロックを記述する動的方程式を導出する。 ロックされたジョセフソン相に対するノイズの影響は、変形した洗面板電位の位相すべりの観点から説明される。 弱い雑音に対しては、射出信号とともにスペクトル拡大を指数的に低減する。 この信号が第2のジョセフソン装置から供給されると、2つの装置は同期する。 線形化限界では同期発振器の倉本モデルを復元する。 ここで確立された古典位相スリップの図は、量子状態におけるロックの理論への自然な拡張を示唆している。

Injection locking can stabilize a source of radiation, leading to an efficient suppression of noise-induced spectral broadening and therefore, to a narrow spectrum. The technique is well established in laser physics, where a phenomenological description due to Adler is usually sufficient. Recently, locking experiments were performed in Josephson photonics devices, where microwave radiation is created by inelastic Cooper pair tunneling across a dc-biased Josephson junction connected in-series with a microwave resonator. An in-depth theory of locking for such devices, accounting for the Josephson non-linearity and the specific engineered environments, is lacking. Here, we study injection locking in a typical Josephson photonics device where the environment consists of a single mode cavity, operated in the classical regime. We show that an in-series resistance, however small, is an important ingredient in describing self-sustained Josephson oscillations and enables the locking region. We derive a dynamical equation describing locking, similar to an Adler equation, from the specific circuit equations. The effect of noise on the locked Josephson phase is described in terms of phase slips in a modified washboard potential. For weak noise, the spectral broadening is reduced exponentially with the injection signal. When this signal is provided from a second Josephson device, the two devices synchronize. In the linearized limit, we recover the Kuramoto model of synchronized oscillators. The picture of classical phase slips established here suggests a natural extension towards a theory of locking in the quantum regime.
翻訳日:2023-04-01 07:58:25 公開日:2021-05-06
# 単一分子真空ラビ分割:4波混合と単一光子レベルでの光スイッチ

Single-molecule vacuum Rabi splitting: four-wave mixing and optical switching at the single-photon level ( http://arxiv.org/abs/2105.02560v1 )

ライセンス: Link先を確認
Andr\'e Pscherer, Manuel Meierhofer, Daqing Wang, Hrishikesh Kelkar, Diego Mart\'in-Cano, Tobias Utikal, Stephan G\"otzinger, Vahid Sandoghdar(参考訳) 単一の量子エミッタは非常に強い固有非線形性を持つことができるが、非線形効果に対する全体的な期待は、入射光子への効率的な結合の挑戦によって妨げられる。 一方、一般的な非線形光学材料は結合し易いがかさばるため、フォトニック系の小型化には厳しい制限が課せられる。 本研究では,単一有機分子が空洞量子電磁力学の強結合状態において非常に効率的な非線形光学素子として働くことを示す。 非線形信号生成と全光スイッチングにおける単一光子感度について報告する。 本研究は, 集積フォトニック回路などの応用において, 極めて低電力で動作する分子の利用を促進する。

A single quantum emitter can possess a very strong intrinsic nonlinearity, but its overall promise for nonlinear effects is hampered by the challenge of efficient coupling to incident photons. Common nonlinear optical materials, on the other hand, are easy to couple to but are bulky, imposing a severe limitation on the miniaturization of photonic systems. In this work, we show that a single organic molecule acts as an extremely efficient nonlinear optical element in the strong coupling regime of cavity quantum electrodynamics. We report on single-photon sensitivity in nonlinear signal generation and all-optical switching. Our work promotes the use of molecules for applications such as integrated photonic circuits, operating at very low powers.
翻訳日:2023-04-01 07:58:04 公開日:2021-05-06
# 分子動力学を用いたハイブリッド量子古典系の有限温度アンサンブル平均の計算について

About the computation of finite temperatureensemble averages of hybrid quantum-classicalsystems with Molecular Dynamics ( http://arxiv.org/abs/2105.02538v1 )

ライセンス: Link先を確認
J. L. Alonso, C. Bouthelier, A. Castro, J. Clemente-Gallardo and J. A. Jover-Galtier(参考訳) 分子または凝縮物系は、しばしばハイブリッド量子古典モデルによってよく近似される:電子は量子特性を保持し、イオンは古典粒子と見なされる。 本稿では,分子動力学(md)を用いて,これらのハイブリッド量子古典系の可観測性に対する平衡アンサンブル平均の計算,すなわちサーモスタットの存在下でのダイナミクスの計算,軌道上の時間平均の計算など,様々な手法について論じる。 古典学やab initio mdでは、電子の温度は無視され、進化の間、それぞれのイオン配置によって与えられる瞬間的な基底状態に留まると仮定される。 しかし,本論文では,古典的サブシステムと量子的サブシステムの両方を有限温度標準平衡で考える一般的なケースについて論じる。 最近の量子古典的ハイブリッドの正準アンサンブルの形式的導出に触発されて、文献に見られる以前のアプローチを議論し、いくつかの新しい公式を提供する。

Molecular or condensed matter systems are often well approximated by hybrid quantum-classical models: the electrons retain their quantum character, whereas the ions are considered to be classical particles. We discuss various alternative approaches for the computation of equilibrium (canonical) ensemble averages for observables of these hybrid quantum-classical systems through the use of molecular dynamics (MD), i.e. by performing dynamics in the presence of a thermostat and computing time averages over the trajectories. Often, in classical or ab initio MD, the temperature of the electrons is ignored and they are assumed to remain at the instantaneous ground state given by each ionic configuration during the evolution. Here, however, we discuss the general case that considers both classical and quantum subsystems at finite temperature canonical equilibrium. Inspired by a recent formal derivation for the canonical ensemble for quantum classical hybrids, we discuss previous approaches found in the literature, and provide some new formulas.
翻訳日:2023-04-01 07:57:52 公開日:2021-05-06
# 広帯域二色変動測定

Broadband Dichromatic Variational Measurement ( http://arxiv.org/abs/2105.02532v1 )

ライセンス: Link先を確認
Sergey P. Vyatchanin and Albert I. Nazmiev and Andrey B. Matsko(参考訳) 古典的機械力検出の標準量子限界 (sql) は、力によって摂動するプローブ機械振動子の計器による量子バックアクションの結果である。 本稿では,光ミッチェルソン・サニャック干渉計(msi)のミラーの1つを支持する線形機械振動子に作用する共振信号力の計測を回避し,連続的な逆動作を行う手法を提案する。 可動ミラーとの干渉計は、多色プローブフィールドをサポート可能な光学機械式トランスデューサである。 この方法は、msiモードと共振し、メカニカル周波数に等しい周波数分離を有する二色光学プローブを含む。 機械系から反射する各プローブの高調波を別々に解析し,測定結果を後処理することにより,広帯域のバックアクションを排除し,SQLよりも感度よく測定できることを示す。

Standard Quantum Limit (SQL) of a classical mechanical force detection results from quantum back action impinged by the meter on a probe mechanical transducer perturbed by the force of interest. In this paper we introduce a technique of continuous \vy{broadband} back action avoiding measurements for the case of a resonant signal force acting on a linear mechanical oscillator supporting one of mirrors of an optical Michelson-Sagnac Interferometer (MSI). The interferometer with the movable mirror is an opto-mechanical transducer able to support polychromatic probe field. The method involves a dichromatic optical probe resonant with the MSI modes and having frequency separation equal to the mechanical frequency. We show that analyzing each of the harmonics of the probe reflected from the mechanical system separately and postprocessing the measurement results allows excluding the back action in a broad frequency band and measuring the force with sensitivity better than SQL.
翻訳日:2023-04-01 07:57:33 公開日:2021-05-06
# 2レベルシステムによる貯水池内のパラメータの高精度推定

High-precision estimation of the parameters in the reservoir via the two-level system ( http://arxiv.org/abs/2105.02518v1 )

ライセンス: Link先を確認
Mengmeng Luo (1), Wenxiao Liu (2), Yuetao Chen (1) and Shaoyan Gao (1) ((1) School of Physics, Xi'an Jiaotong University, P.R.China, (2) Department of Physics and Electronics, North China University of Water Resources and Electric Power, China)(参考訳) 2段階の原子系を用いて, システムおよび環境パラメータ, デチューニング, 温度, スクイーズ強度を高精度に推定する手法を提案した。 量子フィッシャー情報によるスクイーズ強度の推定は報告されていない。 量子フィッシャー情報と忠実度を計算し, 1量子ビットプローブを用いたパラメータ推定に, 絡み合い状態と最適重ね合わせ状態が有効であることを見出した。 また、原子の初期状態と最終状態の忠実度は、2量子プローブによって改善できる。 さらに、デチューニングや温度が推定されたときに量子フィッシャー情報を返す現象が発生する。 我々の研究は精度測定技術と量子情報処理の基礎を提供する。

A scheme is proposed to estimate the system and environmental parameter, the detuning, temperature and the squeezing strength with a high precision by the two-level atom system. It hasn't been reported that the squeezing strength estimation through quantum Fisher information. We find entangled state and optimal superposition state are beneficial for parameter estimation with one-qubit probe by calculating quantum Fisher information and fidelity. And the fidelity between initial and final states of the atom can be improved via the two-qubit probe. Moreover, the phenomenon of quantum Fisher information return occurs when the detuning or the temperature is estimated. Our work provides a basis for precision measurement technology and quantum information processing.
翻訳日:2023-04-01 07:57:06 公開日:2021-05-06
# 暗号通貨ウォレットの総合的プライバシーとユーザビリティ

Holistic Privacy and Usability of a Cryptocurrency Wallet ( http://arxiv.org/abs/2105.02793v1 )

ライセンス: Link先を確認
Harry Halpin(参考訳) 本研究では,ZCashなどの暗号通貨ウォレットのエンドユーザに対する利用性に関する問題点を概説する。 システムの一部で情報漏洩がシステムのさまざまな部分のプライバシの期待に反する可能性がある「全体的プライバシ」という概念が要求として紹介される。 この要件を現実世界のソフトウェアでテストするために,ZCashウォレットをインストールして,匿名のZCashトランザクションを送信および受信すると同時に,VPNとTorをインストールすることで,60人のタスクベースでZCashウォレットのユーザビリティを評価した。 最初のウォレットのインストールは困難でしたが、vpnやtorのようなネットワークレベルの保護にzcashウォレットを統合するのがさらに困難であることに気付きました。

In this study, we overview the problems associated with the usability of cryptocurrency wallets, such as those used by ZCash, for end-users. The concept of "holistic privacy," where information leaks in one part of a system can violate the privacy expectations of different parts of the system, is introduced as a requirement. To test this requirement with real-world software, we did a 60 person task-based evaluation of the usability of a ZCash cryptocurrency wallet by having users install and try to both send and receive anonymized ZCash transactions, as well as install a VPN and Tor. While the initial wallet installation was difficult, we found even a larger amount of difficulty integrating the ZCash wallet into network-level protection like VPNs or Tor, so only a quarter of users could complete a real-world purchase using the wallet.
翻訳日:2023-04-01 07:50:08 公開日:2021-05-06
# 多ビットポテンシャルを持つ量子ニューラルネットワーク

Quantum neural networks with multi-qubit potentials ( http://arxiv.org/abs/2105.02756v1 )

ライセンス: Link先を確認
Yue Ban, E. Torrontegui and J. Casanova(参考訳) 我々は、近似パワーを失うことなく、ネットワーク深さの低減につながるニューラルネットワークの多ビット相互作用を含む量子ニューラルネットワークを提案する。 量子パーセプトロンにおけるマルチキュービットポテンシャルの存在は、XORゲートの実装や素数探索などのより効率的な情報処理タスクを可能にし、また、CNOT、Toffoli、Fredkinのような異なる絡み合う量子ゲートを構築するための深さ低減も提供する。 このネットワークアーキテクチャの単純化は、接続性の問題に対処し、トレーニングを促進しながら量子ニューラルネットワークをスケールアップする道を開く。

We propose quantum neural networks that include multi-qubit interactions in the neural potential leading to a reduction of the network depth without losing approximative power. We show that the presence of multi-qubit potentials in the quantum perceptrons enables more efficient information processing tasks such as XOR gate implementation and prime numbers search, while it also provides a depth reduction to construct distinct entangling quantum gates like CNOT, Toffoli, and Fredkin. This simplification in the network architecture paves the way to address the connectivity challenge to scale up a quantum neural network while facilitates its training.
翻訳日:2023-04-01 07:49:51 公開日:2021-05-06
# 線形光学を用いた普遍的高次元量子計算法

A scheme for universal high-dimensional quantum computation with linear optics ( http://arxiv.org/abs/2105.02748v1 )

ライセンス: Link先を確認
Stefano Paesani, Jacob F. F. Bulmer, Alex E. Jones, Raffaele Santagati, Anthony Laing(参考訳) 光子は高次元量子情報の自然なキャリアであり、原理的には高い量子情報容量と雑音耐性の恩恵を受けることができる。 しかし、高次元量子コンピューティングに必要なリソースを生成するためのスキームは、これまで線形光学に欠けていた。 ここでは、フーリエ変換行列で記述された線形光回路を用いて、任意の次元と光子数でGHZ状態を生成する方法を示す。 結果と最近のqudit bell測定のスキームを組み合わせることで、任意の次元で普遍線形光学量子計算が可能となることを示した。

Photons are natural carriers of high-dimensional quantum information, and, in principle, can benefit from higher quantum information capacity and noise-resilience. However, schemes to generate the resources required for high-dimensional quantum computing have so far been lacking in linear optics. Here, we show how to generate GHZ states in arbitrary dimensions and numbers of photons using linear optical circuits described by Fourier transform matrices. Combining our results with recent schemes for qudit Bell measurements, we show that universal linear optical quantum computing can be performed in arbitrary dimensions.
翻訳日:2023-04-01 07:49:26 公開日:2021-05-06
# WallStreetBetsから投資アドバイスを受けるべきか? データ駆動アプローチ

Should You Take Investment Advice From WallStreetBets? A Data-Driven Approach ( http://arxiv.org/abs/2105.02728v1 )

ライセンス: Link先を確認
Tolga Buz, Gerard de Melo(参考訳) Reddit の WallStreetBets (WSB) コミュニティは,現在 Meme ストックと呼ばれているものの株価に影響を及ぼすという,その顕著な役割から,注目を浴びている。 しかし、wsbで広められている非常に投機的な投資アドバイスの信頼性についてはほとんど知られていない。 本稿では、2019年1月から2021年4月までのwsbデータを分析し、コミュニティの勧告に依拠した投資戦略がいかに成功したかを評価する。 私たちは、購入と販売のアドバイスを検出し、wsbポートフォリオを定義するコミュニティで最も人気のある株式を特定します。 私たちの評価は、このポートフォリオがおよそ増加したことを示している。 過去3年間で200%の減少が見られた。 S&P500は前年同期比で4.48%上回った。 対照的に、購入と販売の信号の平均的な短期的精度は、同じ時間枠内でランダムに、あるいは均等に分散された購入決定よりも著しく良いものではない。 しかし,本稿では,ポストが反応性に反する積極的かどうかを推定する手法を提案し,より有望な購買シグナルのサブセットに注目することで,トレーダーは広範市場よりも高いリターンを得る投資を行ったり,ポストされた購入シグナルを信頼する戦略を立案した。 最後に,2021年1月のゲームトップ・ハイプの効果を推測するために,特に2021年以前の期間についても分析を行い,結論を確認し,2021年のハイプは単に既存の特徴を増幅したものに過ぎないことを示唆した。

Reddit's WallStreetBets (WSB) community has come to prominence in light of its notable role in affecting the stock prices of what are now referred to as meme stocks. Yet very little is known about the reliability of the highly speculative investment advice disseminated on WSB. This paper analyses WSB data spanning from January 2019 to April 2021 in order to assess how successful an investment strategy relying on the community's recommendations could have been. We detect buy and sell advice and identify the community's most popular stocks, based on which we define a WSB portfolio. Our evaluation shows that this portfolio has grown approx. 200% over the last three years and approx. 480% over the last year, significantly outperforming the S&P500. The average short-term accuracy of buy and sell signals, in contrast, is not found to be significantly better than randomly or equally distributed buy decisions within the same time frame. However, we present a technique for estimating whether posts are proactive as opposed to reactive and show that by focusing on a subset of more promising buy signals, a trader could have made investments yielding higher returns than the broader market or the strategy of trusting all posted buy signals. Lastly, the analysis is also conducted specifically for the period before 2021 in order to factor out the effects of the GameStop hype of January 2021 - the results confirm the conclusions and suggest that the 2021 hype merely amplified pre-existing characteristics.
翻訳日:2023-04-01 07:49:03 公開日:2021-05-06
# 非可換系における幾何学的ラビ振動とランダウ・ツェナー遷移

Geometrical Rabi oscillations and Landau-Zener transitions in non-Abelian systems ( http://arxiv.org/abs/2105.02689v1 )

ライセンス: Link先を確認
Hannes Weisbrich, Gianluca Rastelli, Wolfgang Belzig(参考訳) 物質のトポロジカルな位相は多くの場合において量子系を分類する新しい標準となったが、トポロジカルな性質に関する局所的な情報を提供する量子幾何テンソルのような重要な量にはまだアクセスが難しい。 非アベリア系では、この幾何学的性質へのアクセシビリティは状態の退化によってさらに制限される。 非アベリア系における量子幾何学的性質を決定する普遍的プロトコルを提案する。 まず,局所パラメータの弱い共振駆動に対しては,コヒーレントラビ振動が量子幾何学テンソルと関連していることを示す。 第二に、ランダウ・ツェナー変換のような遷移において、避けられたエネルギー交差の最終確率は非アベリア量子幾何テンソルの要素に比例する。 我々のスキームは、非退化部分空間において困難である量子計量の固有状態を作成する方法を提案する。

Topological phases of matter became a new standard to classify quantum systems in many cases, yet key quantities like the quantum geometric tensor providing local information about topological properties are still experimentally hard to access. In non-Abelian systems this accessibility to geometric properties can be even more restrictive due to the degeneracy of the states. We propose universal protocols to determine quantum geometric properties in non-Abelian systems. First, we show that for a weak resonant driving of the local parameters the coherent Rabi oscillations are related to the quantum geometric tensor. Second, we derive that in a Landau-Zener like transition the final probability of an avoided energy crossing is proportional to elements of the non-Abelian quantum geometric tensor. Our schemes suggest a way to prepare eigenstates of the quantum metric, a task that is difficult otherwise in a degenerate subspace.
翻訳日:2023-04-01 07:48:18 公開日:2021-05-06
# 実時間経路積分の数値評価について:二重指数積分とマスロフ補正

On the numerical evaluation of real-time path integrals: Double exponential integration and the Maslov correction ( http://arxiv.org/abs/2105.02880v1 )

ライセンス: Link先を確認
R. Rosenfelder(参考訳) オラのフーリエ変換に対する二重指数積分公式は、実時間量子力学の経路積分記述で生じる振動積分に適用される。 暗黙正則化により、多次元ガウス・フレネル積分は高い精度で、関数呼び出しの質素な数で数値的に得られる。 さらに、高調波発振器のマスロフ補正をパス積分の時間スライス数の増加とともに数値的に評価することにより、粒子が焦点点を通過するたびに、リアルタイムプロパゲータが追加の位相$\pi/2$を得ることを示す。 しかし、これらの特異点の近くでは、全体的な小さな減衰係数が必要である。 実時間経路積分の直接数値評価による有限範囲ポテンシャルの散乱振幅評価の展望について述べる。

Ooura's double exponential integration formula for Fourier transforms is applied to the oscillatory integrals occuring in the path-integral description of real-time Quantum Mechanics. Due to an inherent, implicit regularization multi-dimensional Gauss-Fresnel integrals are obtained numerically with high precision but modest number of function calls. In addition, the Maslov correction for the harmonic oscillator is evaluated numerically with an increasing number of time slices in the path integral thereby clearly demonstrating that the real-time propagator acquires an additional phase $ - \pi/2 $ each time the particle passes through a focal point. However, in the vicinity of these singularities an overall small damping factor is required. Prospects of evaluating scattering amplitudes of finite-range potentials by direct numerical evaluation of a real-time path integral are discussed.
翻訳日:2023-04-01 07:40:21 公開日:2021-05-06
# デジタル経済活動が地域経済成長に及ぼす影響:2009年から2018年までのミナスジェライス北部を事例として

Impact of digital economic activity on regional economic growth: A Case study from northern Minas Gerais between 2009 To 2018 ( http://arxiv.org/abs/2105.02849v1 )

ライセンス: Link先を確認
Dr. Cesar R Salas-Guerra(参考訳) 現在、国家統計局の経済測定は、低品質や方法論の欠如によるデジタル経済活動の利点を定義したり捉えたりしていない。 現在、デジタル経済活動の生産性、経済成長、そしてイノベーションと知識を通じて幸福を生み出す能力について、関連する議論がある。 そこで本研究では,地域経済成長に影響を与える要因として,専門知識,人的居住,デジタル経済活動の特定・研究を行った。 その結果,情報技術に基づく新たなビジネスモデルが生み出す影響を測定した。 さらに、地域経済発展の地域極(PRDE)のような、経済的に繁栄する地域を取り巻く特定の現象を特定できるように、実証的な測定モデルを用いた。 また、経済成長度の高い自治体は、デジタル経済活動や専門知識の影響を受けていることを示した。 この発見は、現代の経済成長の主要な要因である技術進化を示唆する経済成長理論と一致している。 そこで,本研究は,経済成長と社会発展の不均衡を助長する資源と資本の集積という問題に直面し,近隣との経済発展地域における産業協力の解消を目的とした戦略を地方政府に展開させる上での有益な成果である。

At present, the economic measurement of the national statistical offices has not defined or captured the benefits of the digital economy activity due to the low quality or inexistence of methodologies. Currently, there is a relevant debate on the capacity of the digital economy activity to generate productivity, economic growth, and well-being through innovation and knowledge. For this reason, this research identified and studied specialized knowledge, human settlement, and digital economic activity as the factors that influence regional economic growth. As a result, the impact generated by a new business operating models based on information technology was measured. Furthermore, this research used an empirical measurement model that made it possible to identify certain phenomena such as regional poles of regional economic development (PRDE) that surround economically flourishing regions. In addition, it showed that municipalities with high degrees of economic growth were impacted by digital economic activity and specialized knowledge. This finding is consistent with economic growth theories that point to technological evolution as the main factor of modern economic growth. Consequently, this study contributed beneficial results to the local government to develop strategies framed in solving industrial cooperation of economically flourishing regions with their neighbors, facing the problem of agglomeration of resources and capital reflected in human settlement promote an imbalance in economic growth and social development.
翻訳日:2023-04-01 07:39:21 公開日:2021-05-06
# 持続可能性要件の再考:専門家の視点から見たドライバ,バリア,デジタル化の影響

Rethinking Sustainability Requirements: Drivers, Barriers and Impacts of Digitalisation from the Viewpoint of Experts ( http://arxiv.org/abs/2105.02848v1 )

ライセンス: Link先を確認
Alessio Ferrari, Manlio Bacco, Kirsten Moore, Andreas Jedlitschka, Steffen Hess, Jouni Kaipainen, Panagiota Koltsida, Eleni Toli, Gianluca Brunori(参考訳) 要件工学(RE)は、システム開発における持続可能性に関する懸念に対処するための重要な分野である。 システム設計の前に利害関係者からサステナビリティ要件を引き出すアプローチが提案されている。 しかし、既存の戦略は、新しい技術ソリューションの導入に伴う変革の社会的および長期的な影響に対処する適切なハイレベルな視点を欠いている。 本稿では,システム要件や利害関係者の目標という概念を超越して,システムの配置環境におけるドライバやバリア,影響といった概念に着目し,抽象化の度合いを高めることを提案する。 さらに,技術の効果は文脈依存であるため,一つの領域に視点を絞り込むことも提案する。 このビジョンを実践するために,田園部の代表領域における30の学際的専門家にインタビューを行い,共通テーマを特定するための書面の分析を行った。 その結果,農村部における新しい技術ソリューションの導入に伴うドライバ,バリア,肯定的あるいは否定的な影響が得られた。 この再関連する情報は、利害関係者が単一の特定のシステムを開発する前にインタビューされた場合、ほとんど特定できなかった。 本稿では,サステナビリティ要件に対する新たな視点と,専門家の意見に基づくドメイン固有フレームワークについて,文献に貢献する。 本分析から得られた概念的枠組みは,持続可能性に配慮する必要のある農村部における要件適用の基準基準として利用することができる。

Requirements engineering (RE) is a key area to address sustainability concerns in system development. Approaches have been proposed to elicit sustainability requirements from interested stakeholders before system design. However, existing strategies lack the proper high-level view to deal with the societal and long-term impacts of the transformation entailed by the introduction of a new technological solution. This paper proposes to go beyond the concept of system requirements and stakeholders' goals, and raise the degree of abstraction by focusing on the notions of drivers, barriers and impacts that a system can have on the environment in which it is deployed. Furthermore, we suggest to narrow the perspective to a single domain, as the effect of a technology is context-dependent. To put this vision into practice, we interview 30 cross-disciplinary experts in the representative domain of rural areas, and we analyse the transcripts to identify common themes. As a result, we provide drivers, barriers and positive or negative impacts associated to the introduction of novel technical solutions in rural areas. This RE-relevant information could hardly be identified if interested stakeholders were interviewed before the development of a single specific system. This paper contributes to the literature with a fresh perspective on sustainability requirements, and with a domain-specific framework grounded on experts' opinions. The conceptual framework resulting from our analysis can be used as a reference baseline for requirements elicitation endeavours in rural areas that need to account for sustainability concerns.
翻訳日:2023-04-01 07:38:58 公開日:2021-05-06
# 「Alexa, you know about the COVID-19 Vaccine」について -音声アシスタント利用者の大量免疫の認識-

"Hey Alexa, What do You Know About the COVID-19 Vaccine?" -- (Mis)perceptions of Mass Immunization Among Voice Assistant Users ( http://arxiv.org/abs/2105.07854v1 )

ライセンス: Link先を確認
Filipo Sharevski, Anna Slowinski, Peter Jachim, Emma Pieroni(参考訳) 本稿では、amazon alexaが発信した新型コロナウイルスのワクチン情報の正確性を分析した。 ソーシャルメディアとは異なり、amazon alexaは検証されていないコンテンツにソフトモデレーションを適用せず、サードパーティの悪意あるスキルを使って新型コロナウイルスのワクチン情報を任意に表現できる。 210人の参加者による研究の結果、第三者の悪意あるスキルが、ワクチンを最初に入手した人、ワクチン検査、ワクチンの副作用などの情報使用者の間での認識精度を低下させる可能性が示唆された。 また, ワクチンを投与した参加者は, 集団免疫の欠点に着目したAlexaの反応を悲観的に表現する。 誤解を誘発する、あるいは新型コロナウイルスの悪質な第三者スキルに対するソフトモデレーションのソリューションについて論じる。

In this paper, we analyzed the perceived accuracy of COVID-19 vaccine information spoken back by Amazon Alexa. Unlike social media, Amazon Alexa doesn't apply soft moderation to unverified content, allowing for use of third-party malicious skills to arbitrarily phrase COVID-19 vaccine information. The results from a 210-participant study suggest that a third-party malicious skill could successful reduce the perceived accuracy among the users of information as to who gets the vaccine first, vaccine testing, and the side effects of the vaccine. We also found that the vaccine-hesitant participants are drawn to pessimistically rephrased Alexa responses focused on the downsides of the mass immunization. We discuss solutions for soft moderation against misperception-inducing or altogether COVID-19 misinformation malicious third-party skills.
翻訳日:2023-04-01 07:32:39 公開日:2021-05-06
# 学部採用ネットワークのダイナミクス

The Dynamics of Faculty Hiring Networks ( http://arxiv.org/abs/2105.02949v1 )

ライセンス: Link先を確認
Eun Lee, Aaron Clauset, Daniel B. Larremore(参考訳) 学部の雇用ネットワークは、卒業生を学部外における急激な階層として雇用し、学界における社会的不平等と疫学的不平等を補強することができる。 これらのパターンを駆動するメカニズムを理解することは、アカデミーの多様化への取り組みを知らせ、科学的な発見を成すための雇用の役割に新たな光を当てることになる。 本稿では,経験的教員採用ネットワークで観測される階層構造やその他のネットワーク特性を構造的メカニズムがどの程度説明できるかを検討する。 階層内の制度的威信を5つの異なる方法で強化する適応的リウィーリングネットワークモデル群について検討した。 それぞれのメカニズムは、雇用ネットワークの既存の構造から推定される、その機関の威信スコアに基づいて、特定の機関から新規雇用が行われる確率を決定する。 実際の雇用ネットワークにおける構造的不平等と集中性パターンは、前回の雇用者数に比例して、特定の機関から新規採用者が引き出されるグローバル配置力のメカニズムによって最もよく再現される。 一方、偏りのある視認性のネットワーク対策は、その雇用機関に既に存在する前の雇用者数に比例して、特定の機関から新規雇用を引き出す地域配置力のメカニズムにより、よりよく認識される。 これらの対照的な結果から, 教員採用ネットワークにおける階層構造強化の基盤となる構造機構は, 組織的権威に対するグローバルとローカルの選好の混合であることが示唆された。 これらのダイナミクスの下では,より権威ある機関を圧倒的に好む動的競争によって,各機関の階層における地位が著しく安定していることが示される。

Faculty hiring networks-who hires whose graduates as faculty-exhibit steep hierarchies, which can reinforce both social and epistemic inequalities in academia. Understanding the mechanisms driving these patterns would inform efforts to diversify the academy and shed new light on the role of hiring in shaping which scientific discoveries are made. Here, we investigate the degree to which structural mechanisms can explain hierarchy and other network characteristics observed in empirical faculty hiring networks. We study a family of adaptive rewiring network models, which reinforce institutional prestige within the hierarchy in five distinct ways. Each mechanism determines the probability that a new hire comes from a particular institution according to that institution's prestige score, which is inferred from the hiring network's existing structure. We find that structural inequalities and centrality patterns in real hiring networks are best reproduced by a mechanism of global placement power, in which a new hire is drawn from a particular institution in proportion to the number of previously drawn hires anywhere. On the other hand, network measures of biased visibility are better recapitulated by a mechanism of local placement power, in which a new hire is drawn from a particular institution in proportion to the number of its previous hires already present at the hiring institution. These contrasting results suggest that the underlying structural mechanism reinforcing hierarchies in faculty hiring networks is a mixture of global and local preference for institutional prestige. Under these dynamics, we show that each institution's position in the hierarchy is remarkably stable, due to a dynamic competition that overwhelmingly favors more prestigious institutions.
翻訳日:2023-04-01 07:31:41 公開日:2021-05-06
# フィットネスデバイス利用のためのサイバーセキュリティガイド

A Cybersecurity Guide for Using Fitness Devices ( http://arxiv.org/abs/2105.02933v1 )

ライセンス: Link先を確認
Maria Bada and Basie von Solms(参考訳) ウェアラブルデバイスの人気は指数関数的に増加しており、消費者はさまざまなサービスに利用している。 フィットネスデバイスは、現在、非接触支払いを使って買い物や電車チケットの購入などの新しいサービスを提供している。 さらにフィットネスデバイスは、体温、脈拍、食習慣、体重、歩数旅行、カロリー消費、睡眠ステージなど、さまざまな個人情報を収集している。 これらのデバイスは消費者に利便性を提供することができるが、そのようなデバイスのサイバーセキュリティリスクを警告する報告がますます増えている。 無線通信によって、これらのデバイスは悪意のある攻撃に弱い可能性があるため、収集したデータを暴露することができる。 これらのデバイスの脆弱性は、認証の欠如、Bluetooth接続の欠点、位置追跡、およびサードパーティの脆弱性に起因する。 このようなデバイスを保護するためのガイドラインは存在するが、そのようなガイダンスのほとんどはデバイスメーカーやIoTプロバイダに向けられている。 本研究の目的は,フィットネスデバイスの使用時のリスク回避対策として,ユーザに対するサイバーセキュリティガイドラインを提供することである。

The popularity of wearable devices is growing exponentially, with consumers using these for a variety of services. Fitness devices are currently offering new services such as shopping or buying train tickets using contactless payment. In addition, fitness devices are collecting a number of personal information such as body temperature, pulse rate, food habits and body weight, steps-distance travelled, calories burned and sleep stage. Although these devices can offer convenience to consumers, more and more reports are warning of the cybersecurity risks of such devices, and the possibilities for such devices to be hacked and used as springboards to other systems. Due to their wireless transmissions, these devices can potentially be vulnerable to a malicious attack allowing the data collected to be exposed. The vulnerabilities of these devices stem from lack of authentication, disadvantages of Bluetooth connections, location tracking as well as third party vulnerabilities. Guidelines do exist for securing such devices, but most of such guidance is directed towards device manufacturers or IoT providers, while consumers are often unaware of potential risks. The aim of this paper is to provide cybersecurity guidelines for users in order to take measures to avoid risks when using fitness devices.
翻訳日:2023-04-01 07:30:34 公開日:2021-05-06
# シリコン中のリンドナー量子ビットにおけるフロッピングモード電気双極子スピン共鳴

Flopping-mode electric dipole spin resonance in phosphorus donor qubits in silicon ( http://arxiv.org/abs/2105.02906v1 )

ライセンス: Link先を確認
F. N. Krauth, S. K. Gorman, Y. He, M. T. Jones, P. Macha, S. Kocsis, C. Chua, B. Voisin, S. Rogge, R. Rahman, Y. Chung, and M. Y. Simmons(参考訳) シリコンのリン供与体に基づく単一スピン量子ビットは、大規模量子コンピュータにとって有望な候補である。 長いコヒーレンス時間にもかかわらず、ナノメートルスケールでの高周波磁場制御の課題のため、均一な磁気制御を達成することはスケールアップのハードルである。 本稿では,二重リン供与体量子ドットの電子状態と核スピン状態を組み合わせたフラップモード電気双極子スピン共鳴量子ビットの提案を行う。 ドナーベースのシステムを利用する主な利点は、各量子ドット内のドナー核の数を設計できることである。 反パラレル核スピン状態と多電子占有を持つマルチドナードットを作成することにより、デバイスに電荷ノイズを結合し、量子ビットを脱相することで知られる縦方向磁場勾配を最小化することができる。 量子ビットの動作を記述し、核スピンの超微細相互作用を最小化することにより、現実的なノイズモデルを用いて、$\pi/2-X$ゲート誤り率$\sim 10^{-4}を達成できることを示す。 これら全エピタキシャルリンドープシリコン量子ビットの低電荷環境は、長距離2量子ビット動作が可能な超伝導マイクロ波空洞への量子ビットの強い結合の実現を促進する。

Single spin qubits based on phosphorus donors in silicon are a promising candidate for a large-scale quantum computer. Despite long coherence times, achieving uniform magnetic control remains a hurdle for scale-up due to challenges in high-frequency magnetic field control at the nanometre-scale. Here, we present a proposal for a flopping-mode electric dipole spin resonance qubit based on the combined electron and nuclear spin states of a double phosphorus donor quantum dot. The key advantage of utilising a donor-based system is that we can engineer the number of donor nuclei in each quantum dot. By creating multi-donor dots with antiparallel nuclear spin states and multi-electron occupation we can minimise the longitudinal magnetic field gradient, known to couple charge noise into the device and dephase the qubit. We describe the operation of the qubit and show that by minimising the hyperfine interaction of the nuclear spins we can achieve $\pi/2-X$ gate error rates of $\sim 10^{-4}$ using realistic noise models. We highlight that the low charge noise environment in these all-epitaxial phosphorus-doped silicon qubits will facilitate the realisation of strong coupling of the qubit to superconducting microwave cavities allowing for long-distance two-qubit operations.
翻訳日:2023-04-01 07:29:53 公開日:2021-05-06
# 2プレイヤーゼロサムゲームの平均場解析

A mean-field analysis of two-player zero-sum games ( http://arxiv.org/abs/2002.06277v4 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Samy Jelassi, Arthur Mensch, Grant Rotskoff, Joan Bruna(参考訳) 2プレイヤのゼロサム連続ゲームにおけるナッシュ均衡の発見は、例えばGANとロバストモデルの両方をトレーニングする機械学習における中心的な問題である。 純粋なナッシュ平衡の存在は、実際には満たされない強い条件を必要とする。 混合ナッシュ平衡はより一般に存在し、ミラー降下を用いることができる。 しかし、このアプローチは高次元にスケールしない。 この制限に対処するために,粒子の位置と重みを勾配降下法を用いて更新する混合戦略を混合粒子の混合としてパラメトリライズする。 我々は、このダイナミクスを、ワッサーシュタイン・フィッシャー・ラオ計量に与えられた測度空間上の相互作用する勾配流として研究する。 我々は、関連するランゲヴィン勾配-指数力学の近似平衡に対する大域収束を確立する。 粒子動力学と平均場動力学を関連付ける大きな数の法則を証明する。 本手法は高次元の混合平衡を同定し, GANの混合の訓練に有効であることを示す。

Finding Nash equilibria in two-player zero-sum continuous games is a central problem in machine learning, e.g. for training both GANs and robust models. The existence of pure Nash equilibria requires strong conditions which are not typically met in practice. Mixed Nash equilibria exist in greater generality and may be found using mirror descent. Yet this approach does not scale to high dimensions. To address this limitation, we parametrize mixed strategies as mixtures of particles, whose positions and weights are updated using gradient descent-ascent. We study this dynamics as an interacting gradient flow over measure spaces endowed with the Wasserstein-Fisher-Rao metric. We establish global convergence to an approximate equilibrium for the related Langevin gradient-ascent dynamic. We prove a law of large numbers that relates particle dynamics to mean-field dynamics. Our method identifies mixed equilibria in high dimensions and is demonstrably effective for training mixtures of GANs.
翻訳日:2023-01-01 04:31:53 公開日:2021-05-06
# サービスロボットにおける生涯学習の現状:物体知覚と操作における現在のボツネック

The State of Lifelong Learning in Service Robots: Current Bottlenecks in Object Perception and Manipulation ( http://arxiv.org/abs/2003.08151v3 )

ライセンス: Link先を確認
S. Hamidreza Kasaei, Jorik Melsen, Floris van Beers, Christiaan Steenkist, and Klemen Voncina(参考訳) サービスロボットは私たちの日常生活にますます現れています。 サービスロボットの開発は、オブジェクト認識からオブジェクト操作まで、複数の研究分野を組み合わせる。 最先端技術は改善を続け、オブジェクトの知覚と操作を適切に結合する。 この結合は、サービスロボットが適切な時間内に様々なタスクを実行するだけでなく、新しい環境に継続的に適応し、非専門家のユーザーと安全に対話するためにも必要である。 現在、ロボットは様々な物体を認識でき、あらかじめ定義された設定で目標の物体をつかむために衝突のない軌道を迅速に計画することができる。 さらに、ほとんどのケースでは、大量のトレーニングデータに依存しています。 そのため、訓練段階の後にロボットの知識が固定され、環境の変化には人間の専門家による複雑で時間のかかる高価なロボット再プログラミングが必要である。 したがって、これらのアプローチは、環境のかなりの部分が未知であり、直接の認識や制御ができない非構造化環境での現実的な応用には厳密すぎる。 このような環境では、バッチ学習に使用するトレーニングデータがどれだけ広くても、ロボットは常に新しいオブジェクトに直面します。 したがって、バッチ学習とは別に、ロボットは新しい対象カテゴリーについて継続的に学び、ごく少数のトレーニング例から余裕を掴むことができるべきである。 さらに、ロボットの自己学習とは別に、非専門家のユーザは、新しい概念を教えるか、不十分あるいは誤った概念を修正することによって、経験獲得のプロセスをインタラクティブに導くことができる。 このようにして、ロボットは、再プログラミングを必要とせずに、より多くの経験を積んで、日々の作業で人間を助ける方法を常に学べる。

Service robots are appearing more and more in our daily life. The development of service robots combines multiple fields of research, from object perception to object manipulation. The state-of-the-art continues to improve to make a proper coupling between object perception and manipulation. This coupling is necessary for service robots not only to perform various tasks in a reasonable amount of time but also to continually adapt to new environments and safely interact with non-expert human users. Nowadays, robots are able to recognize various objects, and quickly plan a collision-free trajectory to grasp a target object in predefined settings. Besides, in most of the cases, there is a reliance on large amounts of training data. Therefore, the knowledge of such robots is fixed after the training phase, and any changes in the environment require complicated, time-consuming, and expensive robot re-programming by human experts. Therefore, these approaches are still too rigid for real-life applications in unstructured environments, where a significant portion of the environment is unknown and cannot be directly sensed or controlled. In such environments, no matter how extensive the training data used for batch learning, a robot will always face new objects. Therefore, apart from batch learning, the robot should be able to continually learn about new object categories and grasp affordances from very few training examples on-site. Moreover, apart from robot self-learning, non-expert users could interactively guide the process of experience acquisition by teaching new concepts, or by correcting insufficient or erroneous concepts. In this way, the robot will constantly learn how to help humans in everyday tasks by gaining more and more experiences without the need for re-programming.
翻訳日:2022-12-22 13:08:55 公開日:2021-05-06
# 条件付き生成逆数ネットワークを用いた宇宙質量マップのエミュレーション

Emulation of cosmological mass maps with conditional generative adversarial networks ( http://arxiv.org/abs/2004.08139v2 )

ライセンス: Link先を確認
Nathana\"el Perraudin, Sandro Marcon, Aurelien Lucchi, Tomasz Kacprzak(参考訳) 弱い重力レンズ質量マップは、宇宙の構造の進化と宇宙論的モデルを制約する我々の能力を理解する上で重要な役割を果たす。 これらの質量マップの予測は高価なNボディシミュレーションに基づいており、宇宙分析のための計算ボトルネックを生み出すことができる。 GAN(Generative Adversarial Networks)のような現代の深層生成モデルは、この目標を達成する可能性を示している。 ほとんどの既存のGANアプローチは、宇宙パラメータの固定値のシミュレーションを生成し、実用性を制限する。 我々は,物質密度$\omega_m$ と物質クラスタリング強度$\sigma_8$ の任意の対の質量マップを生成可能な条件付きganモデルを提案する。 我々の条件付きGANは、シミュレーション宇宙論の空間内で効率的に補間でき、この空間内の地図を視覚的精度の高い統計的精度で生成できることを示す。 画素ヒストグラム,ピーク数,パワースペクトル,bispectra,minkowski関数,パワースペクトルの相関行列,ms-ssim(multi-scale structure similarity index)および同値のfr\'echetインセプション距離(fid)を用いて,n体とgan生成マップの広範な定量的比較を行った。 典型的な違いは、シミュレーショングリッドの中心で5%、グリッドエッジでの宇宙論ではわずかに悪いものです。 bispectrumの合意は、20%のレベルでやや悪化している。 この貢献は、マスマップのエミュレータを直接構築し、宇宙論的信号とその変動性を捉えるための一歩である。 コードとデータを公開します。 https://renkulab.io/gitlab/nathanael.perraudin/darkmattergan

Weak gravitational lensing mass maps play a crucial role in understanding the evolution of structures in the universe and our ability to constrain cosmological models. The prediction of these mass maps is based on expensive N-body simulations, which can create a computational bottleneck for cosmological analyses. Modern deep generative models, such as Generative Adversarial Networks (GAN), have demonstrated their potential to achieve this goal. Most existing GAN approaches produce simulations for a fixed value of the cosmological parameters, which limits their practical applicability. We propose a novel conditional GAN model that is able to generate mass maps for any pair of matter density $\Omega_m$ and matter clustering strength $\sigma_8$, parameters which have the largest impact on the evolution of structures in the universe. Our results show that our conditional GAN can interpolate efficiently within the space of simulated cosmologies, and generate maps anywhere inside this space with good visual quality high statistical accuracy. We perform an extensive quantitative comparison of the N-body and GAN -generated maps using a range of metrics: the pixel histograms, peak counts, power spectra, bispectra, Minkowski functionals, correlation matrices of the power spectra, the Multi-Scale Structural Similarity Index (MS-SSIM) and our equivalent of the Fr\'echet Inception Distance (FID). We find a very good agreement on these metrics, with typical differences are <5% at the centre of the simulation grid, and slightly worse for cosmologies at the grid edges. The agreement for the bispectrum is slightly worse, on the <20% level. This contribution is a step towards building emulators of mass maps directly, capturing both the cosmological signal and its variability. We make the code and the data publicly available: https://renkulab.io/gitlab/nathanael.perraudin/darkmattergan
翻訳日:2022-12-12 13:52:25 公開日:2021-05-06
# 対物関係のコンフォーマル推論と個別処理効果

Conformal Inference of Counterfactuals and Individual Treatment Effects ( http://arxiv.org/abs/2006.06138v2 )

ライセンス: Link先を確認
Lihua Lei and Emmanuel J. Cand\`es(参考訳) 治療効果の評価は、治療決定を広く通知する。 現時点では、フレキシブルな機械学習アルゴリズムによる条件付き平均処理効果の推定に重点が置かれている。 これらの手法は一貫性と収束率の点で理論上は魅力的であるが、一般に不確かさの定量化の点では不十分である。 リスク評価は、センシティブで不確実な環境での信頼性の高い意思決定に不可欠であるため、これは厄介である。 そこで本研究では, 反事実と個々の治療効果に対する信頼性の高い区間推定を実現するための共形推論に基づく手法を提案する。 完全コンプライアンスを持つ完全ランダム化または成層ランダム化実験の場合、間隔は未知のデータ生成機構にかかわらず、有限サンプルの平均カバレッジを保証する。 強い無知の仮定に従うランダム化実験や一般的な観察研究では、区間は次の2つの頑健な性質を満たす: 平均カバレッジは、確率スコアまたは潜在的結果の条件量子のどちらかが正確に推定できる場合にほぼ制御される。 合成データと実データの両方に関する数値的研究は、既存の手法が単純なモデルでもかなりのカバレッジの欠陥を被っていることを実証的に示している。 対照的に,本手法は所望のカバレッジを比較的短い間隔で達成する。

Evaluating treatment effect heterogeneity widely informs treatment decision making. At the moment, much emphasis is placed on the estimation of the conditional average treatment effect via flexible machine learning algorithms. While these methods enjoy some theoretical appeal in terms of consistency and convergence rates, they generally perform poorly in terms of uncertainty quantification. This is troubling since assessing risk is crucial for reliable decision-making in sensitive and uncertain environments. In this work, we propose a conformal inference-based approach that can produce reliable interval estimates for counterfactuals and individual treatment effects under the potential outcome framework. For completely randomized or stratified randomized experiments with perfect compliance, the intervals have guaranteed average coverage in finite samples regardless of the unknown data generating mechanism. For randomized experiments with ignorable compliance and general observational studies obeying the strong ignorability assumption, the intervals satisfy a doubly robust property which states the following: the average coverage is approximately controlled if either the propensity score or the conditional quantiles of potential outcomes can be estimated accurately. Numerical studies on both synthetic and real datasets empirically demonstrate that existing methods suffer from a significant coverage deficit even in simple models. In contrast, our methods achieve the desired coverage with reasonably short intervals.
翻訳日:2022-11-22 14:24:18 公開日:2021-05-06
# 忘れた後の共通同値と大きさ

Common equivalence and size after forgetting ( http://arxiv.org/abs/2006.11152v2 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 命題式からの変数の取得は、そのサイズを増大させる。 新しい変数の導入は、それを短くする方法である。 どちらの演算も、同値の弱化バージョンである共通同値の観点から表現することができる。 逆に、共通の同値性は忘れるという観点で表現できる。 多項式空間における共通同値性を忘れるアルゴリズムは、ホーンケースに対して与えられ、それは単頭式の部分クラスに対する多項式時間である。 忘れた後の最小化は多項式時間であり、式が非巡回であり、変数を導入できない場合、NPハードである。

Forgetting variables from a propositional formula may increase its size. Introducing new variables is a way to shorten it. Both operations can be expressed in terms of common equivalence, a weakened version of equivalence. In turn, common equivalence can be expressed in terms of forgetting. An algorithm for forgetting and checking common equivalence in polynomial space is given for the Horn case; it is polynomial-time for the subclass of single-head formulae. Minimizing after forgetting is polynomial-time if the formula is also acyclic and variables cannot be introduced, NP-hard when they can.
翻訳日:2022-11-19 05:07:19 公開日:2021-05-06
# 距離に基づく分類器を用いた量子一クラス分類

Quantum One-class Classification With a Distance-based Classifier ( http://arxiv.org/abs/2007.16200v2 )

ライセンス: Link先を確認
Nicolas M. de Oliveira, Lucas P. de Albuquerque, Wilson R. de Oliveira, Teresa B. Ludermir, and Adenilton J. da Silva(参考訳) 量子コンピューティングにおける技術の進歩は、実際の量子デバイスでアルゴリズムを実行する可能性をもたらした。 しかし、現在の量子ハードウェアにおける既存のエラーと利用可能な量子ビットの数が少ないため、より少ない量子ビットと少ない演算を使用するソリューションを使う必要があり、そのような障害を軽減できる。 Hadamard Classifier (HC) はパターン認識のための距離ベース量子機械学習モデルである。 我々は、最小限の量子機械学習モデルと少ない演算と量子ビットからなるHCに基づく新しい分類器を提案し、それによって、NISQ(Noisy Intermediate-Scale Quantum)コンピュータからのエラーを軽減することができる。 提案した分類器を量子デバイス上で実行し,QOCCがHCよりも優れていることを示す実験結果を得た。

The advancement of technology in Quantum Computing has brought possibilities for the execution of algorithms in real quantum devices. However, the existing errors in the current quantum hardware and the low number of available qubits make it necessary to use solutions that use fewer qubits and fewer operations, mitigating such obstacles. Hadamard Classifier (HC) is a distance-based quantum machine learning model for pattern recognition. We present a new classifier based on HC named Quantum One-class Classifier (QOCC) that consists of a minimal quantum machine learning model with fewer operations and qubits, thus being able to mitigate errors from NISQ (Noisy Intermediate-Scale Quantum) computers. Experimental results were obtained by running the proposed classifier on a quantum device and show that QOCC has advantages over HC.
翻訳日:2022-11-04 07:14:12 公開日:2021-05-06
# TweepFake:ディープフェイクツイートの検出

TweepFake: about Detecting Deepfake Tweets ( http://arxiv.org/abs/2008.00036v2 )

ライセンス: Link先を確認
Tiziano Fagni, Fabrizio Falchi, Margherita Gambini, Antonio Martella, Maurizio Tesconi(参考訳) 言語モデリングの最近の進歩は、ディープニューラルネットワークモデルの生成能力を著しく改善した。2019年にOpenAIは、コヒーレントで非自明で人間に似たテキストサンプルを自律的に生成できる、事前訓練された言語モデルであるGPT-2をリリースした。 それ以来、より強力なテキスト生成モデルが開発されている。 敵は、こうした膨大な生成能力を生かして、社会的ボットを強化し、公衆の議論を汚染したいと願って、もっともらしいディープフェイクメッセージを書けるようになる。 これを防ぐためには、ディープフェイクなソーシャルメディアメッセージ検出システムの開発が不可欠である。 しかし、私たちの知る限りでは、TwitterやFacebookのようなソーシャルネットワーク上の機械生成テキストの検出には、誰も対応していません。 この検出分野の研究を支援するため、私たちは \real deepfake ツイートの最初のデータセットである tweepfake を収集しました。 それぞれのディープフェイクツイートが実際にTwitterに投稿されたという意味では事実だ。 われわれは合計23のボットからツイートを集め、17人のアカウントを模倣した。 ボットは、Markov Chains、RNN、RNN+Markov、LSTM、GPT-2といった様々な世代技術に基づいている。 また、ボットによって模倣された人間のツイートをランダムに選択し、合計25,572ツイートのバランスの取れたデータセット(約半分の人間と半分のボット)を作成した。 データセットはKaggleで公開されている。 最後に,13のdeepfakeテキスト検出手法(様々な最先端手法に基づく)を評価し,tweepfakeが持つ課題を実証し,検出手法の確固たるベースラインを構築した。 TweepFakeが、ソーシャルメディアメッセージのディープフェイク検出に取り組む機会を得られることを期待している。

The recent advances in language modeling significantly improved the generative capabilities of deep neural models: in 2019 OpenAI released GPT-2, a pre-trained language model that can autonomously generate coherent, non-trivial and human-like text samples. Since then, ever more powerful text generative models have been developed. Adversaries can exploit these tremendous generative capabilities to enhance social bots that will have the ability to write plausible deepfake messages, hoping to contaminate public debate. To prevent this, it is crucial to develop deepfake social media messages detection systems. However, to the best of our knowledge no one has ever addressed the detection of machine-generated texts on social networks like Twitter or Facebook. With the aim of helping the research in this detection field, we collected the first dataset of \real deepfake tweets, TweepFake. It is real in the sense that each deepfake tweet was actually posted on Twitter. We collected tweets from a total of 23 bots, imitating 17 human accounts. The bots are based on various generation techniques, i.e., Markov Chains, RNN, RNN+Markov, LSTM, GPT-2. We also randomly selected tweets from the humans imitated by the bots to have an overall balanced dataset of 25,572 tweets (half human and half bots generated). The dataset is publicly available on Kaggle. Lastly, we evaluated 13 deepfake text detection methods (based on various state-of-the-art approaches) to both demonstrate the challenges that Tweepfake poses and create a solid baseline of detection techniques. We hope that TweepFake can offer the opportunity to tackle the deepfake detection on social media messages as well.
翻訳日:2022-11-04 05:54:56 公開日:2021-05-06
# 不特定領域に基づく均一性向上による画像分割のための測地経路

Geodesic Paths for Image Segmentation with Implicit Region-based Homogeneity Enhancement ( http://arxiv.org/abs/2008.06909v4 )

ライセンス: Link先を確認
Da Chen, Jian Zhu, Xinxin Zhang, Minglei Shu and Laurent D. Cohen(参考訳) 最小経路は、その大域的最適性や高速マーチング法のような確立された数値解により、境界検出と画像分割のための強力かつ効率的なツールとみなされる。 本稿では、領域ベース均一性向上と合わせて、アイコン偏微分方程式(PDE)フレームワークに基づくフレキシブル・インタラクティブな画像分割モデルを提案する。 導入されたモデルの重要な要素は、異方性と非対称なエッジ特徴、暗黙の領域に基づく同質性特徴、曲率正規化を統合できる局所測地指標の構築である。 地域に基づく均質性の特徴をメトリクスに組み込むことは、これらの特徴の暗黙的な表現に依存している。 さらに, 2つの非連結開曲線の連結として, 単純閉輪郭を構築する方法も紹介する。 実験の結果,提案モデルが最先端の極小パスに基づく画像分割手法よりも優れていることがわかった。

Minimal paths are regarded as a powerful and efficient tool for boundary detection and image segmentation due to its global optimality and the well-established numerical solutions such as fast marching method. In this paper, we introduce a flexible interactive image segmentation model based on the Eikonal partial differential equation (PDE) framework in conjunction with region-based homogeneity enhancement. A key ingredient in the introduced model is the construction of local geodesic metrics, which are capable of integrating anisotropic and asymmetric edge features, implicit region-based homogeneity features and/or curvature regularization. The incorporation of the region-based homogeneity features into the metrics considered relies on an implicit representation of these features, which is one of the contributions of this work. Moreover, we also introduce a way to build simple closed contours as the concatenation of two disjoint open curves. Experimental results prove that the proposed model indeed outperforms state-of-the-art minimal paths-based image segmentation approaches.
翻訳日:2022-10-28 11:58:43 公開日:2021-05-06
# ゼロショット学習のための属性プロトタイプネットワーク

Attribute Prototype Network for Zero-Shot Learning ( http://arxiv.org/abs/2008.08290v4 )

ライセンス: Link先を確認
Wenjia Xu, Yongqin Xian, Jiuniu Wang, Bernt Schiele, Zeynep Akata(参考訳) ゼロショット学習研究の開始以来、視覚属性が重要な役割を果たすことが示されている。 属性に基づく知識を既知のクラスから未知のクラスに伝達するために,属性ローカライゼーション機能を統合した画像表現はゼロショット学習に有用である。 そこで本研究では,クラスレベルの属性のみを用いて,識別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。 ビジュアル・セマンティックな埋め込み層はグローバルな特徴を学習するが、局所的な特徴は属性のプロトタイプネットワークを通じて学習される。 局所性拡張画像表現は3つのゼロショット学習ベンチマークで新たな最先端を実現することを示す。 さらに,画像中の属性の視覚的証拠,例えばCUBデータセットについて,画像表現の属性ローカライゼーション能力の向上を確認した。

From the beginning of zero-shot learning research, visual attributes have been shown to play an important role. In order to better transfer attribute-based knowledge from known to unknown classes, we argue that an image representation with integrated attribute localization ability would be beneficial for zero-shot learning. To this end, we propose a novel zero-shot representation learning framework that jointly learns discriminative global and local features using only class-level attributes. While a visual-semantic embedding layer learns global features, local features are learned through an attribute prototype network that simultaneously regresses and decorrelates attributes from intermediate features. We show that our locality augmented image representations achieve a new state-of-the-art on three zero-shot learning benchmarks. As an additional benefit, our model points to the visual evidence of the attributes in an image, e.g. for the CUB dataset, confirming the improved attribute localization ability of our image representation.
翻訳日:2022-10-27 08:58:48 公開日:2021-05-06
# ディープネットワークと多重多様体問題

Deep Networks and the Multiple Manifold Problem ( http://arxiv.org/abs/2008.11245v2 )

ライセンス: Link先を確認
Sam Buchanan, Dar Gilboa, John Wright(参考訳) 本研究では,単位球面の2つの低次元部分多様体を分離する深層完全連結ニューラルネットワークを訓練した,機械視の応用に基づく2値分類課題であるmultiple manifold problemについて検討する。 1次元の場合の解析により、データのある幾何学的・統計的性質に対してネットワーク深さ$l$が大きければ、ネットワーク幅$n$は十分大きな多項式として$l$で成長し、多様体からのi.i.d.サンプルの数は$l$で多項式であり、ランダムに初期化された勾配降下は急速に学習し、2つの多様体を高い確率で完全分類する。 本分析は, モデル問題の文脈における深度と幅の具体的な利点を示すものである: 深度は, よりスムーズなネットワークに対応する, よりスムーズなネットワークとして機能し, 幅は統計資源として機能し, ランダムに初期化されたネットワークとその勾配の集中を可能にする。 The argument centers around the neural tangent kernel and its role in the nonasymptotic analysis of training overparameterized neural networks; to this literature, we contribute essentially optimal rates of concentration for the neural tangent kernel of deep fully-connected networks, requiring width $n \gtrsim L\,\mathrm{poly}(d_0)$ to achieve uniform concentration of the initial kernel over a $d_0$-dimensional submanifold of the unit sphere $\mathbb{S}^{n_0-1}$, and a nonasymptotic framework for establishing generalization of networks trained in the NTK regime with structured data. この証明はマルティンゲール濃度を多用し、初期ランダムネットワークの層にまたがる統計的依存関係を最適に扱う。 このアプローチは、他のネットワークアーキテクチャで同様の結果を得るのに役立ちます。

We study the multiple manifold problem, a binary classification task modeled on applications in machine vision, in which a deep fully-connected neural network is trained to separate two low-dimensional submanifolds of the unit sphere. We provide an analysis of the one-dimensional case, proving for a simple manifold configuration that when the network depth $L$ is large relative to certain geometric and statistical properties of the data, the network width $n$ grows as a sufficiently large polynomial in $L$, and the number of i.i.d. samples from the manifolds is polynomial in $L$, randomly-initialized gradient descent rapidly learns to classify the two manifolds perfectly with high probability. Our analysis demonstrates concrete benefits of depth and width in the context of a practically-motivated model problem: the depth acts as a fitting resource, with larger depths corresponding to smoother networks that can more readily separate the class manifolds, and the width acts as a statistical resource, enabling concentration of the randomly-initialized network and its gradients. The argument centers around the neural tangent kernel and its role in the nonasymptotic analysis of training overparameterized neural networks; to this literature, we contribute essentially optimal rates of concentration for the neural tangent kernel of deep fully-connected networks, requiring width $n \gtrsim L\,\mathrm{poly}(d_0)$ to achieve uniform concentration of the initial kernel over a $d_0$-dimensional submanifold of the unit sphere $\mathbb{S}^{n_0-1}$, and a nonasymptotic framework for establishing generalization of networks trained in the NTK regime with structured data. The proof makes heavy use of martingale concentration to optimally treat statistical dependencies across layers of the initial random network. This approach should be of use in establishing similar results for other network architectures.
翻訳日:2022-10-25 03:25:06 公開日:2021-05-06
# 大規模グラフに対する逆攻撃

Adversarial Attack on Large Scale Graph ( http://arxiv.org/abs/2009.03488v2 )

ライセンス: Link先を確認
Jintang Li, Tao Xie, Liang Chen, Fenfang Xie, Xiangnan He, Zibin Zheng(参考訳) 近年の研究では、グラフニューラルネットワーク(GNN)は堅牢性の欠如により摂動に弱いため、簡単に騙せることが示されている。 現在、GNN攻撃に関するほとんどの研究は、主に攻撃を誘導し、優れたパフォーマンスを達成するために勾配情報を使用している。 しかし、時間と空間の複雑さが高いため、大規模なグラフでは管理できなくなり、実用的利用を妨げる主要なボトルネックとなる。 主な理由は、攻撃にグラフ全体を使わなければならないため、データスケールが大きくなるにつれて、時間と空間の複雑さが増大するからです。 本研究では,このギャップを橋渡しするための簡便な勾配ベースアタック(sga)手法を提案する。 SGAは、GNNが特定のターゲットノードを多段階攻撃フレームワークによって誤って分類する可能性がある。 さらに,グラフデータに対する敵攻撃の影響を測定するために,DAC(Degree Assortativity Change)という実用的な指標を提案する。 我々は4つの実世界のグラフネットワークに対する攻撃手法を、よく使われるGNNを攻撃することによって評価する。 実験により,SGAは,最先端攻撃技術と比較して,競合攻撃性能を維持しつつ,時間とメモリ効率を著しく向上できることを示した。 コードはhttps://github.com/EdisonLeeeee/SGAttack.comから入手できる。

Recent studies have shown that graph neural networks (GNNs) are vulnerable against perturbations due to lack of robustness and can therefore be easily fooled. Currently, most works on attacking GNNs are mainly using gradient information to guide the attack and achieve outstanding performance. However, the high complexity of time and space makes them unmanageable for large scale graphs and becomes the major bottleneck that prevents the practical usage. We argue that the main reason is that they have to use the whole graph for attacks, resulting in the increasing time and space complexity as the data scale grows. In this work, we propose an efficient Simplified Gradient-based Attack (SGA) method to bridge this gap. SGA can cause the GNNs to misclassify specific target nodes through a multi-stage attack framework, which needs only a much smaller subgraph. In addition, we present a practical metric named Degree Assortativity Change (DAC) to measure the impacts of adversarial attacks on graph data. We evaluate our attack method on four real-world graph networks by attacking several commonly used GNNs. The experimental results demonstrate that SGA can achieve significant time and memory efficiency improvements while maintaining competitive attack performance compared to state-of-art attack techniques. Codes are available via: https://github.com/EdisonLeeeee/SGAttack.
翻訳日:2022-10-20 20:28:45 公開日:2021-05-06
# PCA還元ガウス混合モデルと超解像への応用

PCA Reduced Gaussian Mixture Models with Applications in Superresolution ( http://arxiv.org/abs/2009.07520v3 )

ライセンス: Link先を確認
Johannes Hertrich, Dang Phoung Lan Nguyen, Jean-Fancois Aujol, Dominique Bernard, Yannick Berthoumieu, Abdellatif Saadaldin, Gabriele Steidl(参考訳) 計算ハードウェアの急速な発展にもかかわらず、大規模かつ高次元のデータセットの処理は依然として困難な問題である。 本稿ではその話題に2倍の貢献をする。 まず,PCA-GMM(PCA-GMM)と呼ばれる主成分分析により,モデルの各成分におけるデータ次元の減少を伴うガウス混合モデルを提案する。 混合モデルの(低次元)パラメータを学習するために,Mステップが制約付き最適化問題の解を必要とするEMアルゴリズムを提案する。 幸いなことに、これらの制約された問題は、通常多くのサンプルに依存しず、(慣性)近位交互線形化最小化アルゴリズムによって効率的に解ける。 第2に,サンディープとヤコブのアプローチに基づく2次元および3次元材料の超解像にPCA-GMMを適用した。 数値計算により, 次元の減少が超解像全体に与える影響が確認された。

Despite the rapid development of computational hardware, the treatment of large and high dimensional data sets is still a challenging problem. This paper provides a twofold contribution to the topic. First, we propose a Gaussian Mixture Model in conjunction with a reduction of the dimensionality of the data in each component of the model by principal component analysis, called PCA-GMM. To learn the (low dimensional) parameters of the mixture model we propose an EM algorithm whose M-step requires the solution of constrained optimization problems. Fortunately, these constrained problems do not depend on the usually large number of samples and can be solved efficiently by an (inertial) proximal alternating linearized minimization algorithm. Second, we apply our PCA-GMM for the superresolution of 2D and 3D material images based on the approach of Sandeep and Jacob. Numerical results confirm the moderate influence of the dimensionality reduction on the overall superresolution result.
翻訳日:2022-10-17 23:46:09 公開日:2021-05-06
# 階層型ドメイン適応型特徴学習によるビデオサリエンシー予測

Hierarchical Domain-Adapted Feature Learning for Video Saliency Prediction ( http://arxiv.org/abs/2010.01220v4 )

ライセンス: Link先を確認
Giovanni Bellitto, Federica Proietto Salanitri, Simone Palazzo, Francesco Rundo, Daniela Giordano, Concetto Spampinato(参考訳) 本研究では,異なる抽象レベルから抽出した特徴を用いて生成する中間写像(conspicuity map)の階層的監督を用いる,ビデオ・サリエンシ予測のための3次元完全畳み込みアーキテクチャを提案する。 ドメイン適応とドメイン固有学習の2つの手法を用いて,基本階層学習機構を提供する。 前者に対しては,複数のスケールで逆勾配を用いて階層的汎用性を教師なしに学習し,トレーニング中にアノテーションが提供されないデータセットの一般化能力を高めることを推奨した。 ドメインの特殊化については、各データセットの学習機能を専門化してパフォーマンスを最大化することで、ドメイン固有の操作(前処理、スムーズ化、バッチ正規化)を採用する。 実験の結果,提案モデルが教師付き塩分予測に最先端の精度をもたらすことがわかった。 基本階層モデルがドメイン固有のモジュールで強化されると、パフォーマンスが向上し、DHF1Kベンチマークの5つの指標のうち3つで最先端モデルのパフォーマンスが向上し、他の2つでは2番目に高い結果が得られる。 代わりに、非教師付きドメイン適応環境でテストする場合、階層的勾配反転層を有効にすることで、教師付き最先端技術に匹敵する性能が得られる。

In this work, we propose a 3D fully convolutional architecture for video saliency prediction that employs hierarchical supervision on intermediate maps (referred to as conspicuity maps) generated using features extracted at different abstraction levels. We provide the base hierarchical learning mechanism with two techniques for domain adaptation and domain-specific learning. For the former, we encourage the model to unsupervisedly learn hierarchical general features using gradient reversal at multiple scales, to enhance generalization capabilities on datasets for which no annotations are provided during training. As for domain specialization, we employ domain-specific operations (namely, priors, smoothing and batch normalization) by specializing the learned features on individual datasets in order to maximize performance. The results of our experiments show that the proposed model yields state-of-the-art accuracy on supervised saliency prediction. When the base hierarchical model is empowered with domain-specific modules, performance improves, outperforming state-of-the-art models on three out of five metrics on the DHF1K benchmark and reaching the second-best results on the other two. When, instead, we test it in an unsupervised domain adaptation setting, by enabling hierarchical gradient reversal layers, we obtain performance comparable to supervised state-of-the-art.
翻訳日:2022-10-12 01:59:10 公開日:2021-05-06
# FOCAL:遠隔距離メトリック学習と行動規則化による完全オフラインメタ強化学習

FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization ( http://arxiv.org/abs/2010.01112v4 )

ライセンス: Link先を確認
Lanqing Li, Rui Yang, Dijun Luo(参考訳) 我々は,RLアルゴリズムが環境と相互作用することなく,未知のタスクに迅速に適応できるようにするパラダイムである,オフラインメタ強化学習(OMRL)問題について検討する。 この問題はまだ完全には理解されておらず、2つの大きな課題に対処する必要がある。 まず、オフラインrlは通常、分散状態のエラーをブートストラップし、値関数の相違を引き起こす。 第二に、メタRLは制御ポリシーとともに学習された効率的で堅牢なタスク推論を必要とする。 本研究では,オフラインrlへの一般的なアプローチとして学習ポリシーの動作規則化と,効率的なタスク推論のための決定論的コンテキストエンコーダを組み合わせる。 本稿では,Bellmanバックアップから勾配伝搬を分離した境界コンテキスト埋め込み空間上の新しい負パワー距離計量を提案する。 メタRLと距離距離メトリック学習を含む最近のアプローチよりも、いくつかの単純な設計選択が大幅に改善できることを示す分析と洞察を提供する。 我々の知る限り、我々の手法は、計算効率が良く、いくつかのメタRLベンチマークで先行アルゴリズムより優れていることを示す最初のモデルフリーでエンドツーエンドのOMRLアルゴリズムである。

We study the offline meta-reinforcement learning (OMRL) problem, a paradigm which enables reinforcement learning (RL) algorithms to quickly adapt to unseen tasks without any interactions with the environments, making RL truly practical in many real-world applications. This problem is still not fully understood, for which two major challenges need to be addressed. First, offline RL usually suffers from bootstrapping errors of out-of-distribution state-actions which leads to divergence of value functions. Second, meta-RL requires efficient and robust task inference learned jointly with control policy. In this work, we enforce behavior regularization on learned policy as a general approach to offline RL, combined with a deterministic context encoder for efficient task inference. We propose a novel negative-power distance metric on bounded context embedding space, whose gradients propagation is detached from the Bellman backup. We provide analysis and insight showing that some simple design choices can yield substantial improvements over recent approaches involving meta-RL and distance metric learning. To the best of our knowledge, our method is the first model-free and end-to-end OMRL algorithm, which is computationally efficient and demonstrated to outperform prior algorithms on several meta-RL benchmarks.
翻訳日:2022-10-12 00:48:47 公開日:2021-05-06
# SumGNN:効率的な知識グラフ要約によるマルチタイプ薬物相互作用予測

SumGNN: Multi-typed Drug Interaction Prediction via Efficient Knowledge Graph Summarization ( http://arxiv.org/abs/2010.01450v2 )

ライセンス: Link先を確認
Yue Yu, Kexin Huang, Chao Zhang, Lucas M. Glass, Jimeng Sun, and Cao Xiao(参考訳) 薬物と薬物の相互作用(DDI)データセットと大規模バイオメディカル知識グラフ(KG)の可用性の向上により、機械学習モデルによる有害なDDIの正確な検出が可能になった。 しかし、DDI検出に大規模でノイズの多いバイオメディカルKGを効果的に活用する方法は、ほとんど未解決の問題である。 KGsのサイズとノイズの量のため、KGsを他のより小さくて高品質なデータ(例えば実験データ)と直接統合するメリットは少ない。 既存のアプローチのほとんどは、kgsを完全に無視している。 グラフニューラルネットワークを通じて、KGを他のデータと直接統合する試みもある。 さらに、これまでのほとんどの研究はバイナリDDI予測に焦点を当てているが、マルチタイプDDI薬理効果予測はより有意義だが難しい作業である。 このギャップを埋めるために,KGからの関連部分グラフを効率的にアンカーするサブグラフ抽出モジュールと,そのサブグラフ内の推論経路を生成する自己アテンションに基づくサブグラフ要約スキームと,多種類のDDI予測を著しく改善する大規模外的バイオメディカル知識を利用するマルチチャネル知識とデータ統合モジュールとで実現可能な知識要約グラフニューラルネットワークのSumGNNを提案する。 SumGNNは最高ベースラインを5.54倍まで上回り、低データ関係のタイプでは特にパフォーマンスの向上が顕著である。 さらに、SumGNNは各予測に対して生成された推論経路を介して解釈可能な予測を提供する。

Thanks to the increasing availability of drug-drug interactions (DDI) datasets and large biomedical knowledge graphs (KGs), accurate detection of adverse DDI using machine learning models becomes possible. However, it remains largely an open problem how to effectively utilize large and noisy biomedical KG for DDI detection. Due to its sheer size and amount of noise in KGs, it is often less beneficial to directly integrate KGs with other smaller but higher quality data (e.g., experimental data). Most of the existing approaches ignore KGs altogether. Some try to directly integrate KGs with other data via graph neural networks with limited success. Furthermore, most previous works focus on binary DDI prediction whereas the multi-typed DDI pharmacological effect prediction is a more meaningful but harder task. To fill the gaps, we propose a new method SumGNN: knowledge summarization graph neural network, which is enabled by a subgraph extraction module that can efficiently anchor on relevant subgraphs from a KG, a self-attention based subgraph summarization scheme to generate a reasoning path within the subgraph, and a multi-channel knowledge and data integration module that utilizes massive external biomedical knowledge for significantly improved multi-typed DDI predictions. SumGNN outperforms the best baseline by up to 5.54\%, and the performance gain is particularly significant in low data relation types. In addition, SumGNN provides interpretable prediction via the generated reasoning paths for each prediction.
翻訳日:2022-10-11 03:24:03 公開日:2021-05-06
# SPA: 教師なしSNNのシステムバランスに対する確率確率調整

SPA: Stochastic Probability Adjustment for System Balance of Unsupervised SNNs ( http://arxiv.org/abs/2010.09690v2 )

ライセンス: Link先を確認
Xingyu Yang, Mingyuan Meng, Shanlin Xiao, and Zhiyi Yu(参考訳) スパイキングニューラルネットワーク(SNN)は、低消費電力のハードウェア特性と脳に似た信号応答機構のため、広く注目を集めているが、現在、SNNのパフォーマンスはArtificial Neural Networks(ANN)に遅れを取っている。 我々は、このギャップを減らすために、確率確率調整(SPA)システムという情報理論に着想を得たシステムを構築した。 SPAは、SNNのシナプスとニューロンを、ニューロンと全ての連結プレシナプスがクラスタによって表現される確率空間にマッピングする。 異なるクラスター間のシナプス伝達器の移動は、異なる燃焼相で伝達器分布が適応するブラウン様確率過程としてモデル化される。 既存のSNNアーキテクチャを幅広く実験し、一貫した性能向上を実現した。 分類精度の改善はMNISTデータセットとEMNISTデータセットでそれぞれ1.99%と6.29%に達した。

Spiking neural networks (SNNs) receive widespread attention because of their low-power hardware characteristic and brain-like signal response mechanism, but currently, the performance of SNNs is still behind Artificial Neural Networks (ANNs). We build an information theory-inspired system called Stochastic Probability Adjustment (SPA) system to reduce this gap. The SPA maps the synapses and neurons of SNNs into a probability space where a neuron and all connected pre-synapses are represented by a cluster. The movement of synaptic transmitter between different clusters is modeled as a Brownian-like stochastic process in which the transmitter distribution is adaptive at different firing phases. We experimented with a wide range of existing unsupervised SNN architectures and achieved consistent performance improvements. The improvements in classification accuracy have reached 1.99% and 6.29% on the MNIST and EMNIST datasets respectively.
翻訳日:2022-10-05 20:39:18 公開日:2021-05-06
# 方言の特徴を認識するための学習

Learning to Recognize Dialect Features ( http://arxiv.org/abs/2010.12707v3 )

ライセンス: Link先を確認
Dorottya Demszky, Devyani Sharma, Jonathan H. Clark, Vinodkumar Prabhakaran, Jacob Eisenstein(参考訳) 誰もが利用できるNLPシステムを構築するには、方言の違いを考慮する必要がある。 しかし、方言はモノリシックな実体ではなく、むしろ方言内の方言の区別は、"He {} run"におけるコプラの削除など、言語やテキストにおける数十の方言の特徴の存在、欠如、頻度によって捉えられる。 本稿では,方言の特徴検出の課題を紹介するとともに,事前学習型トランスフォーマーに基づく2つのマルチタスク学習手法を提案する。 ほとんどの方言では、これらの特徴に対する大規模な注釈付きコーパスは利用できないため、認識者の訓練が困難である。 言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小ペアでトレーニングします。 インド英語の22の方言特徴の試験セットの評価は、これらのモデルが多くの特徴を高い精度で認識し、少数の最小ペアが数千のラベル付き例と同じくらいの訓練に有効であることを示す。 また,方言特徴検出の下流適用性を,方言密度の尺度と方言分類器の尺度として示す。

Building NLP systems that serve everyone requires accounting for dialect differences. But dialects are not monolithic entities: rather, distinctions between and within dialects are captured by the presence, absence, and frequency of dozens of dialect features in speech and text, such as the deletion of the copula in "He {} running". In this paper, we introduce the task of dialect feature detection, and present two multitask learning approaches, both based on pretrained transformers. For most dialects, large-scale annotated corpora for these features are unavailable, making it difficult to train recognizers. We train our models on a small number of minimal pairs, building on how linguists typically define dialect features. Evaluation on a test set of 22 dialect features of Indian English demonstrates that these models learn to recognize many features with high accuracy, and that a few minimal pairs can be as effective for training as thousands of labeled examples. We also demonstrate the downstream applicability of dialect feature detection both as a measure of dialect density and as a dialect classifier.
翻訳日:2022-10-03 23:01:51 公開日:2021-05-06
# クラス増分学習:画像分類に関する調査と性能評価

Class-incremental learning: survey and performance evaluation on image classification ( http://arxiv.org/abs/2010.15277v2 )

ライセンス: Link先を確認
Marc Masana, Xialei Liu, Bartlomiej Twardowski, Mikel Menta, Andrew D. Bagdanov, Joost van de Weijer(参考訳) 将来的な学習システムにとって、インクリメンタルな学習が望ましいのは、新しいデータの到着時にスクラッチから再トレーニングする必要をなくすことによる効率的なリソース使用量、保存に必要なデータ量(プライバシの制限が課される場合)の防止または制限によるメモリ使用量の削減、より人間の学習によく似た学習などだ。 インクリメンタル学習の最大の課題は、新しいタスクを学習した後に、事前学習されたタスクのパフォーマンスが急落することを指す、破滅的な忘れ方である。 近年、深層ニューラルネットワークの漸進的な学習が爆発的な成長を遂げている。 最初の作業は、推論時にタスクIDが提供されるタスク増分学習に焦点を当てた。 近年,学習者がタスクIDを使わずに過去のタスクで見られた全てのクラス間の推論時間で識別しなければならないクラス増分学習へのシフトが見られた。 本稿では,既存の画像分類のためのクラスインクリメンタル学習手法の完全な調査を行い,特に13のクラスインクリメンタル学習法について広範な実験評価を行った。 本研究では,複数の大規模画像分類データセットにおけるクラスインクリメンタル手法の比較,小領域と大領域のシフトの調査,各種ネットワークアーキテクチャの比較など,新たな実験シナリオを検討する。

For future learning systems incremental learning is desirable, because it allows for: efficient resource usage by eliminating the need to retrain from scratch at the arrival of new data; reduced memory usage by preventing or limiting the amount of data required to be stored -- also important when privacy limitations are imposed; and learning that more closely resembles human learning. The main challenge for incremental learning is catastrophic forgetting, which refers to the precipitous drop in performance on previously learned tasks after learning a new one. Incremental learning of deep neural networks has seen explosive growth in recent years. Initial work focused on task-incremental learning, where a task-ID is provided at inference time. Recently, we have seen a shift towards class-incremental learning where the learner must discriminate at inference time between all classes seen in previous tasks without recourse to a task-ID. In this paper, we provide a complete survey of existing class-incremental learning methods for image classification, and in particular we perform an extensive experimental evaluation on thirteen class-incremental methods. We consider several new experimental scenarios, including a comparison of class-incremental methods on multiple large-scale image classification datasets, investigation into small and large domain shifts, and comparison of various network architectures.
翻訳日:2022-10-02 05:03:34 公開日:2021-05-06
# ダーシーの甘いウサギの穴:ハニーポットを使ってユニバーサルトリガーの敵の攻撃を検出する

A Sweet Rabbit Hole by DARCY: Using Honeypots to Detect Universal Trigger's Adversarial Attacks ( http://arxiv.org/abs/2011.10492v3 )

ライセンス: Link先を確認
Thai Le, Noseong Park, Dongwon Lee(参考訳) Universal Trigger (UniTrigger) は、最近提案された強力な敵対的テキスト攻撃手法である。 学習に基づくメカニズムを利用してunitriggerは、任意の良質な入力に追加されると、ターゲットクラスのテキストニューラルネットワーク(nn)モデルの予測精度をほぼゼロにする固定句を生成する。 そこで本稿では,サイバーセキュリティコミュニティから"honeypot"概念を借用し,unitriggerに対するハニーポットベースの防御フレームワークであるdarcyを提案する。 DARCYは、NNモデルに複数のトラップドアを大量に注入して、潜在的な攻撃を「ベイト・アンド・キャッチ」する。 4つの公開データセットにわたる総合的な実験により、DARCYは最大99%のTPRと2%未満のFPRでUniTriggerの敵攻撃を検出し、1%のマージンでクリーンな入力の予測精度(F1)を維持した。 また,複数のトラップドアを持つDARCYは,攻撃者の知識やスキルのレベルが異なる多様な攻撃シナリオに対して堅牢であることを示す。 この論文の受理によりソースコードが公開される。

The Universal Trigger (UniTrigger) is a recently-proposed powerful adversarial textual attack method. Utilizing a learning-based mechanism, UniTrigger generates a fixed phrase that, when added to any benign inputs, can drop the prediction accuracy of a textual neural network (NN) model to near zero on a target class. To defend against this attack that can cause significant harm, in this paper, we borrow the "honeypot" concept from the cybersecurity community and propose DARCY, a honeypot-based defense framework against UniTrigger. DARCY greedily searches and injects multiple trapdoors into an NN model to "bait and catch" potential attacks. Through comprehensive experiments across four public datasets, we show that DARCY detects UniTrigger's adversarial attacks with up to 99% TPR and less than 2% FPR in most cases, while maintaining the prediction accuracy (in F1) for clean inputs within a 1% margin. We also demonstrate that DARCY with multiple trapdoors is also robust to a diverse set of attack scenarios with attackers' varying levels of knowledge and skills. Source code will be released upon the acceptance of this paper.
翻訳日:2022-09-23 05:31:01 公開日:2021-05-06
# MonoRec: 単一移動カメラによる動的環境における半スーパービジョンDense再構成

MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving Camera ( http://arxiv.org/abs/2011.11814v3 )

ライセンス: Link先を確認
Felix Wimbauer, Nan Yang, Lukas von Stumberg, Niclas Zeller, Daniel Cremers(参考訳) 本稿では,動的環境下での単一移動カメラからの深度マップを予測する半教師付き単分子密度再構成アーキテクチャであるMonoRecを提案する。 MonoRecは、複数の連続するイメージの情報をコストボリュームでエンコードするマルチビューステレオ設定に基づいている。 現場の動的物体に対処するために,コストボリュームに符号化された光度不整合を利用して移動物体マスクを予測するMaskModuleを導入する。 他のマルチビューステレオメソッドとは異なり、MonoRecは予測されたマスクを利用して静的オブジェクトと移動オブジェクトの両方を再構築することができる。 さらに,LiDAR深度値を必要としない半教師付き損失定式化による新しい多段階学習手法を提案する。 我々は、KITTIデータセット上でMonoRecを慎重に評価し、マルチビューとシングルビューの両方と比較して最先端のパフォーマンスを実現することを示す。 KITTIでトレーニングされたモデルにより、MonoRecがOxford RobotCarデータセットと、ハンドヘルドカメラによって記録されるより困難なTUM-Monoデータセットの両方をうまく一般化できることをさらに実証する。 コードおよび関連資料はhttps://vision.in.tum.de/research/monorec.comで入手できる。

In this paper, we propose MonoRec, a semi-supervised monocular dense reconstruction architecture that predicts depth maps from a single moving camera in dynamic environments. MonoRec is based on a multi-view stereo setting which encodes the information of multiple consecutive images in a cost volume. To deal with dynamic objects in the scene, we introduce a MaskModule that predicts moving object masks by leveraging the photometric inconsistencies encoded in the cost volumes. Unlike other multi-view stereo methods, MonoRec is able to reconstruct both static and moving objects by leveraging the predicted masks. Furthermore, we present a novel multi-stage training scheme with a semi-supervised loss formulation that does not require LiDAR depth values. We carefully evaluate MonoRec on the KITTI dataset and show that it achieves state-of-the-art performance compared to both multi-view and single-view methods. With the model trained on KITTI, we further demonstrate that MonoRec is able to generalize well to both the Oxford RobotCar dataset and the more challenging TUM-Mono dataset recorded by a handheld camera. Code and related materials will be available at https://vision.in.tum.de/research/monorec.
翻訳日:2022-09-21 13:20:45 公開日:2021-05-06
# 混合自律型交通ネットワークにおける効率的な平衡のインセンティブ

Incentivizing Efficient Equilibria in Traffic Networks with Mixed Autonomy ( http://arxiv.org/abs/2106.04678v1 )

ライセンス: Link先を確認
Erdem B{\i}y{\i}k, Daniel A. Lazar, Ramtin Pedarsani, Dorsa Sadigh(参考訳) 交通渋滞は経済的、社会的コストが大きい。 自動運転車の導入は、車両小隊による道路容量の増加と、人々の経路選択に影響を与える道を作ることによって、この混雑を減少させる可能性がある。 交通手段が2つある並行道路のネットワークについて検討する: (i) 最短のルートを選択できる人間ドライバーと、(ii) 異なる価格の自動運転車の経路オプションを提供する配車サービス。 我々は、混合自律で車両の流れのモデルと、価格と遅延の異なるルート間で自律サービスユーザーがどのように選択するかのモデルを定式化する。 ユーザの嗜好を学習するアルゴリズムを開発し,社会的目的を最大化するために価格を選択する計画最適化を定式化する。 提案手法の利点は,提案手法を理論ベンチマークと比較し,効率よく計算できることを示す。

Traffic congestion has large economic and social costs. The introduction of autonomous vehicles can potentially reduce this congestion by increasing road capacity via vehicle platooning and by creating an avenue for influencing people's choice of routes. We consider a network of parallel roads with two modes of transportation: (i) human drivers, who will choose the quickest route available to them, and (ii) a ride hailing service, which provides an array of autonomous vehicle route options, each with different prices, to users. We formalize a model of vehicle flow in mixed autonomy and a model of how autonomous service users make choices between routes with different prices and latencies. Developing an algorithm to learn the preferences of the users, we formulate a planning optimization that chooses prices to maximize a social objective. We demonstrate the benefit of the proposed scheme by comparing the results to theoretical benchmarks which we show can be efficiently calculated.
翻訳日:2021-06-13 13:56:22 公開日:2021-05-06
# (参考訳) 機械教育のための分布マッチング

Distribution Matching for Machine Teaching ( http://arxiv.org/abs/2105.13809v1 )

ライセンス: CC BY 4.0
Xiaofeng Cao and Ivor W. Tsang(参考訳) 機械学習は、生徒の学習パラメータを既に知っている教師がターゲット仮説に向かって学習者を操ることを目的とした、機械学習の逆問題である。 従来の機械教育研究は、学生モデルに基づく最良の指導例を見つけるための教育リスクとコストのバランスに重点を置いていた。 この最適化解法は、学習者が学習パラメータの手がかりを開示しない場合、一般に非効率である。 このような教育シナリオを監督するために,分布整合型機械教育戦略を提案する。 特に、この戦略は、所望の授業セットを見つけるために、教育コストの半減操作を後方かつ反復的に行う。 技術的には、我々の戦略は、学生学習者のパラメータ分布をさらに探ることなく、最適指導例を見つけるためのコスト制御最適化プロセスとして表現できる。 そして、教育費が限られていると、トレーニングの例がクローズド形式になる。 理論的解析と実験の結果はこの戦略を示している。

Machine teaching is an inverse problem of machine learning that aims at steering the student learner towards its target hypothesis, in which the teacher has already known the student's learning parameters. Previous studies on machine teaching focused on balancing the teaching risk and cost to find those best teaching examples deriving the student model. This optimization solver is in general ineffective when the student learner does not disclose any cue of the learning parameters. To supervise such a teaching scenario, this paper presents a distribution matching-based machine teaching strategy. Specifically, this strategy backwardly and iteratively performs the halving operation on the teaching cost to find a desired teaching set. Technically, our strategy can be expressed as a cost-controlled optimization process that finds the optimal teaching examples without further exploring in the parameter distribution of the student learner. Then, given any a limited teaching cost, the training examples will be closed-form. Theoretical analysis and experiment results demonstrate this strategy.
翻訳日:2021-06-06 12:24:05 公開日:2021-05-06
# (参考訳) 畳み込みスパース符号化正規化によるテンソル完全化

Tensor Completion via Convolutional Sparse Coding Regularization ( http://arxiv.org/abs/2012.00944v2 )

ライセンス: CC BY 4.0
Zhebin Wu, Tianchi Liao, Chuan Chen, Cong Liu, Zibin Zheng, and Xiongjun Zhang(参考訳) テンソルデータは、複雑な高次元構造のため、しばしば値の欠落に悩まされる。 不足情報を補うために、多くの低ランクテンソル補完法(LRTC)が提案され、そのほとんどはテンソルデータの低ランク性に依存している。 このようにして、元のデータの低ランク成分を大まかに復元することができる。 しかし欠点は、核ノルム(SNN)やテンソル核ノルム(TNN)に基づく手法に拘わらず、詳細情報が完全に復元できないことである。 それとは逆に、信号処理の分野では、畳み込みスパース符号化(CSC)は画像の高周波成分の優れた表現を提供することができる。 しかし、cscは低周波成分をうまく処理できない。 そこで本研究では, LRTC と LRTC-CSC-I, LRTC-CSC-II の2つの新しい手法を提案する。 したがって、lrtc-csc法は欠落値問題を解決するだけでなく、詳細を復元することができる。 さらに、正規化器CSCは、空間特性のため、小さなサンプルで訓練することができる。 拡張実験はLRTC-CSC法の有効性を示し, 定量的評価により, モデルの性能が最先端手法よりも優れていることが示された。

Tensor data often suffer from missing value problem due to the complex high-dimensional structure while acquiring them. To complete the missing information, lots of Low-Rank Tensor Completion (LRTC) methods have been proposed, most of which depend on the low-rank property of tensor data. In this way, the low-rank component of the original data could be recovered roughly. However, the shortcoming is that the detail information can not be fully restored, no matter the Sum of the Nuclear Norm (SNN) nor the Tensor Nuclear Norm (TNN) based methods. On the contrary, in the field of signal processing, Convolutional Sparse Coding (CSC) can provide a good representation of the high-frequency component of the image, which is generally associated with the detail component of the data. Nevertheless, CSC can not handle the low-frequency component well. To this end, we propose two novel methods, LRTC-CSC-I and LRTC-CSC-II, which adopt CSC as a supplementary regularization for LRTC to capture the high-frequency components. Therefore, the LRTC-CSC methods can not only solve the missing value problem but also recover the details. Moreover, the regularizer CSC can be trained with small samples due to the sparsity characteristic. Extensive experiments show the effectiveness of LRTC-CSC methods, and quantitative evaluation indicates that the performance of our models are superior to state-of-the-art methods.
翻訳日:2021-05-30 16:43:59 公開日:2021-05-06
# メッシュ再構成のためのdlaunay表面要素の学習

Learning Delaunay Surface Elements for Mesh Reconstruction ( http://arxiv.org/abs/2012.01203v2 )

ライセンス: Link先を確認
Marie-Julie Rakotosaona, Paul Guerrero, Noam Aigerman, Niloy Mitra, Maks Ovsjanikov(参考訳) 本稿では,点雲から三角形メッシュを再構築する手法を提案する。 既存の学習に基づくメッシュ再構成手法は、主に個々の三角形を生成するため、多様体メッシュの作成が困難である。 2次元ドローネー三角測量の特性を利用して、多様体面要素からメッシュを構成する。 提案手法はまず各地点周辺の測地線地域を推定する。 次に、学習した対数マップを用いて、これらの地区の2次元投影を行う。 この2次元領域におけるデラウネー三角形は、デラウネー曲面要素と呼ばれる多様体パッチを生成することが保証される。 隣接要素の局所的な2次元投影を同期させ、再構成されたメッシュの多様体性を最大化する。 その結果、任意のトポロジーを持つメッシュを再構築する現在の手法よりも、再構成メッシュ全体の多様体性が向上した。 私たちのコード、データ、事前訓練されたモデルはオンラインで見つけることができます。

We present a method for reconstructing triangle meshes from point clouds. Existing learning-based methods for mesh reconstruction mostly generate triangles individually, making it hard to create manifold meshes. We leverage the properties of 2D Delaunay triangulations to construct a mesh from manifold surface elements. Our method first estimates local geodesic neighborhoods around each point. We then perform a 2D projection of these neighborhoods using a learned logarithmic map. A Delaunay triangulation in this 2D domain is guaranteed to produce a manifold patch, which we call a Delaunay surface element. We synchronize the local 2D projections of neighboring elements to maximize the manifoldness of the reconstructed mesh. Our results show that we achieve better overall manifoldness of our reconstructed meshes than current methods to reconstruct meshes with arbitrary topology. Our code, data and pretrained models can be found online: https://github.com/mrakotosaon/dse-meshing
翻訳日:2021-05-25 03:46:22 公開日:2021-05-06
# (参考訳) カラーファウンダス画像からの硬部押出音セグメンテーションのためのデュアルサンプリング変調サイスロスを用いたデュアルブランチネットワーク

Dual-Branch Network with Dual-Sampling Modulated Dice Loss for Hard Exudate Segmentation from Colour Fundus Images ( http://arxiv.org/abs/2012.01665v2 )

ライセンス: CC BY 4.0
Qing Liu, Haotian Liu, Yixiong Liang(参考訳) カラーファウンデーション画像における硬質押出物の自動分割は,極端なクラス不均衡と巨大なサイズ変動の問題から,課題となっている。 本稿では,これらの課題に対処し,デュアルサンプリング変調ダイス損失を持つデュアルブランチネットワークを提案する。 それは2つの枝から成っている: 大きな硬口述語学習枝と小さな硬口述語学習枝である。 2人はそれぞれ独自の義務を負っている。 さらに,提案するデュアルブランチネットワークは,異なるサイズでハードエクスキュートをセグメント化できるように,トレーニングのためのデュアルサンプリング変調ダイス損失を提案する。 詳しくは,第1分枝について,予測セグメンテーションマスクから一様な試料をサンプリングしてDiceの損失計算を行い,この分枝を自然にバイアスし,Diceの損失が小さな硬口径よりも大きな硬口径を誤同定するコストを発生させるので,大きな硬口径を優先する。 第2分枝では、再平衡サンプリング器を用いてハードエミッション画素をオーバーサンプリングし、背景画素をアンダーサンプリングして損失計算を行う。 このようにして、小さな硬口径の誤同定のコストが増大し、第二分枝のパラメータが小さい硬口径によく適合する。 そこで本研究では, 2つの枝の損失を適応的に調整することで, 難易度の高い難易度学習戦略を提案する。 提案手法を2つの公開データセット上で評価し,その性能を実証した。

Automated segmentation of hard exudates in colour fundus images is a challenge task due to issues of extreme class imbalance and enormous size variation. This paper aims to tackle these issues and proposes a dual-branch network with dual-sampling modulated Dice loss. It consists of two branches: large hard exudate biased learning branch and small hard exudate biased learning branch. Both of them are responsible for their own duty separately. Furthermore, we propose a dual-sampling modulated Dice loss for the training such that our proposed dual-branch network is able to segment hard exudates in different sizes. In detail, for the first branch, we use a uniform sampler to sample pixels from predicted segmentation mask for Dice loss calculation, which leads to this branch naturally be biased in favour of large hard exudates as Dice loss generates larger cost on misidentification of large hard exudates than small hard exudates. For the second branch, we use a re-balanced sampler to oversample hard exudate pixels and undersample background pixels for loss calculation. In this way, cost on misidentification of small hard exudates is enlarged, which enforces the parameters in the second branch fit small hard exudates well. Considering that large hard exudates are much easier to be correctly identified than small hard exudates, we propose an easy-to-difficult learning strategy by adaptively modulating the losses of two branches. We evaluate our proposed method on two public datasets and results demonstrate that ours achieves state-of-the-art performances.
翻訳日:2021-05-24 03:45:30 公開日:2021-05-06
# (参考訳) Saying No is an Art: 解決不可能な対話クエリに対するコンテキスト化されたフォールバック応答

Saying No is An Art: Contextualized Fallback Responses for Unanswerable Dialogue Queries ( http://arxiv.org/abs/2012.01873v3 )

ライセンス: CC BY 4.0
Ashish Shrivastava, Kaustubh Dhole, Abhinav Bhatt, Sharvani Raghunath(参考訳) タスク指向とチャットベースの対話システムでは、エンドツーエンドのニューラルネットワークが過去10年間で大きな進歩を遂げているが、ほとんどの対話システムは、ルールベース、検索、生成的なアプローチを組み合わせてランク付けされた応答を生成するハイブリッドアプローチに依存している。 このような対話システムは、ドメイン外またはダイアログシステムの範囲内で応答できない新しいユーザクエリに応答するフォールバック機構に頼る必要がある。 現在、ダイアログシステムは、静的で不自然な応答("その質問に対する答えを知らない"や"それについて知らない"など)に依存していますが、私たちは、ユーザクエリをコンテキスト的に認識し、ユーザにノーと言う応答を生成する、ニューラルアプローチを設計しています。 このようなカスタマイズされた応答は、パラフレージング機能とコンテキスト化を提供し、ユーザとのインタラクションを改善し、対話の単調性を低減する。 我々の単純なアプローチでは,係り受け解析のルールと,質問応答対の合成データを微調整したテキスト・テキスト・トランスフォーマーを用いて,多種多様な質問を生成する。 システムの有効性を実証するために,自動的および手作業による評価を行う。

Despite end-to-end neural systems making significant progress in the last decade for task-oriented as well as chit-chat based dialogue systems, most dialogue systems rely on hybrid approaches which use a combination of rule-based, retrieval and generative approaches for generating a set of ranked responses. Such dialogue systems need to rely on a fallback mechanism to respond to out-of-domain or novel user queries which are not answerable within the scope of the dialog system. While, dialog systems today rely on static and unnatural responses like "I don't know the answer to that question" or "I'm not sure about that", we design a neural approach which generates responses which are contextually aware with the user query as well as say no to the user. Such customized responses provide paraphrasing ability and contextualization as well as improve the interaction with the user and reduce dialogue monotonicity. Our simple approach makes use of rules over dependency parses and a text-to-text transformer fine-tuned on synthetic data of question-response pairs generating highly relevant, grammatical as well as diverse questions. We perform automatic and manual evaluations to demonstrate the efficacy of the system.
翻訳日:2021-05-23 22:15:27 公開日:2021-05-06
# ニューラルネットワークを正しく修復する

Towards Repairing Neural Networks Correctly ( http://arxiv.org/abs/2012.01872v2 )

ライセンス: Link先を確認
Guoliang Dong, Jun Sun, Jingyi Wang, Xinyu Wang, Ting Dai(参考訳) ニューラルネットワークは、安全クリティカルなアプリケーション(自動運転車、無人航空機、顔認識に基づく認証など)における意思決定を支援するために、ますます応用されている。 ニューラルネットワークの正当性問題に対処するために、多くの印象的な静的検証技術が提案されているが、現実のニューラルネットワークを扱うのに十分なスケーラビリティがない可能性はある。 本研究では,ニューラルネットワークの正確性を保証するランタイム検証手法を提案する。 ニューラルネットワークと望ましい安全性を前提として、戦略的位置を特定するために最先端の静的検証技術を採用し、実行時にニューラルネットワークの動作を“修正”する新たなゲートを導入します。 実験の結果,提案手法は,ほとんどの場合,元のニューラルネットワークと整合性を保ちながら,特性を満たすことが保証されるニューラルネットワークを効果的に生成することが示された。

Neural networks are increasingly applied to support decision making in safety-critical applications (like autonomous cars, unmanned aerial vehicles and face recognition based authentication). While many impressive static verification techniques have been proposed to tackle the correctness problem of neural networks, it is possible that static verification may never be sufficiently scalable to handle real-world neural networks. In this work, we propose a runtime verification method to ensure the correctness of neural networks. Given a neural network and a desirable safety property, we adopt state-of-the-art static verification techniques to identify strategically locations to introduce additional gates which "correct" neural network behaviors at runtime. Experiment results show that our approach effectively generates neural networks which are guaranteed to satisfy the properties, whilst being consistent with the original neural network most of the time.
翻訳日:2021-05-23 15:10:28 公開日:2021-05-06
# PLSM:意図しない動作検出のための並列液体状態マシン

PLSM: A Parallelized Liquid State Machine for Unintentional Action Detection ( http://arxiv.org/abs/2105.09909v1 )

ライセンス: Link先を確認
Dipayan Das, Saumik Bhattacharya, Umapada Pal, and Sukalpa Chanda(参考訳) Reservoir Computing(RC)は、ローエンドの組み込みシステムプラットフォームにAIアルゴリズムをデプロイする実行可能なオプションを提供する。 LSM(Liquid State Machine)は、大脳皮質のマイクロサーキットを模倣し、ニューロモルフィックハードウェアで直接実現可能なスパイキングニューラルネットワーク(SNN)を使用するバイオインスパイアされたRCモデルである。 本稿では,時空間の読み出し層とモデル出力のセマンティック制約を組み込んだ並列化LSM(PLSM)アーキテクチャを提案する。 我々の知る限りでは、そのような定式化は文学において初めて行われており、従来のディープラーニングモデルに代えて計算的に軽量である。 また、GPU互換の並列化可能なSNNとLSMの実装のための包括的アルゴリズムを提案する。 我々は,oopsデータセットを用いて意図しないビデオクリップを分類するplsmモデルを実装した。 ビデオ中の意図しない動作を検出する実験結果から,提案モデルが,自己教師付きモデルと従来のディープラーニングモデルに匹敵することがわかった。 実装済みのコードは、私たちのリポジトリ https://github.com/anonymoussentience 2020/Parallelized_LSM_for_Unintentional_Action_Recognitionで見ることができる。

Reservoir Computing (RC) offers a viable option to deploy AI algorithms on low-end embedded system platforms. Liquid State Machine (LSM) is a bio-inspired RC model that mimics the cortical microcircuits and uses spiking neural networks (SNN) that can be directly realized on neuromorphic hardware. In this paper, we present a novel Parallelized LSM (PLSM) architecture that incorporates spatio-temporal read-out layer and semantic constraints on model output. To the best of our knowledge, such a formulation has been done for the first time in literature, and it offers a computationally lighter alternative to traditional deep-learning models. Additionally, we also present a comprehensive algorithm for the implementation of parallelizable SNNs and LSMs that are GPU-compatible. We implement the PLSM model to classify unintentional/accidental video clips, using the Oops dataset. From the experimental results on detecting unintentional action in video, it can be observed that our proposed model outperforms a self-supervised model and a fully supervised traditional deep learning model. All the implemented codes can be found at our repository https://github.com/anonymoussentience2020/Parallelized_LSM_for_Unintentional_Action_Recognition.
翻訳日:2021-05-21 19:17:49 公開日:2021-05-06
# 金融ポートフォリオマネジメントのためのDeep Graph Convolutional Reinforcement Learning -- DeepPocket

Deep Graph Convolutional Reinforcement Learning for Financial Portfolio Management -- DeepPocket ( http://arxiv.org/abs/2105.08664v1 )

ライセンス: Link先を確認
Farzan Soleymani, Eric Paquet(参考訳) ポートフォリオマネジメントは、ポートフォリオを構成する資産を継続的に再配置することでリスクを最小限に抑えながら、投資リターンを最大化することを目指している。 これらの資産は独立ではないが、短期間に相関関係にある。 金融商品間の時間変動関係を活用し,deeppocketと呼ばれるグラフ畳み込み強化学習フレームワークを提案する。 これらの相互関係は、ノードが金融機器に対応するグラフで表され、エッジは資産間のペアワイズ相関関数に対応する。 DeepPocketは、機能抽出のための制限付きスタックされたオートエンコーダ、金融機器間で共有される基盤となるローカル情報を収集する畳み込みネットワーク、アクター・クリティカルな強化学習エージェントで構成されている。 アクタ-批判構造は、2つの畳み込みネットワークを含み、アクタは投資収益を最適化するために、様々なポートフォリオ資産を常に再配置することにより、最善の行動経路を決定するために、批評家によって評価される投資政策を学習し、実施する。 エージェントは当初オフラインでトレーニングされ、履歴データのオンライン確率的バッチ化が行われる。 新しいデータが利用可能になると、その分散の予期せぬ変化に対処するために受動的コンセプトドリフトアプローチでオンラインにトレーニングされる。 DeepPocketは、Covid-19危機時の3つの異なる投資期間における5つの実生活データセットに対して評価されている。

Portfolio management aims at maximizing the return on investment while minimizing risk by continuously reallocating the assets forming the portfolio. These assets are not independent but correlated during a short time period. A graph convolutional reinforcement learning framework called DeepPocket is proposed whose objective is to exploit the time-varying interrelations between financial instruments. These interrelations are represented by a graph whose nodes correspond to the financial instruments while the edges correspond to a pair-wise correlation function in between assets. DeepPocket consists of a restricted, stacked autoencoder for feature extraction, a convolutional network to collect underlying local information shared among financial instruments, and an actor-critic reinforcement learning agent. The actor-critic structure contains two convolutional networks in which the actor learns and enforces an investment policy which is, in turn, evaluated by the critic in order to determine the best course of action by constantly reallocating the various portfolio assets to optimize the expected return on investment. The agent is initially trained offline with online stochastic batching on historical data. As new data become available, it is trained online with a passive concept drift approach to handle unexpected changes in their distributions. DeepPocket is evaluated against five real-life datasets over three distinct investment periods, including during the Covid-19 crisis, and clearly outperformed market indexes.
翻訳日:2021-05-19 17:01:25 公開日:2021-05-06
# 自己アライメントによるストリーミングASRモデル遅延の低減

Reducing Streaming ASR Model Delay with Self Alignment ( http://arxiv.org/abs/2105.05005v1 )

ライセンス: Link先を確認
Jaeyoung Kim, Han Lu, Anshuman Tripathi, Qian Zhang and Hasim Sak(参考訳) パフォーマンスレグレッションを最小限に抑えたストリーミングエンドツーエンドのASRモデルの予測遅延を低減することは難しい問題である。 制約付きアライメントは、外部低遅延音響モデルを用いて予測された単語境界をペナライズする、よく知られたアプローチである。 それとは対照的に、最近提案されたFastEmitは、参照アライメントのないブランク上の語彙トークンを奨励するシーケンスレベルの遅延正規化スキームである。 これらすべてのスキームは遅延低減に成功しているが、これらの遅延制約スキームを適用した後、ASRワードエラーレート(WER)は著しく低下することが多い。 本稿では,自己アライメント(自己アライメント)という新しい遅延制約手法を提案する。 自己アライメントは外部アライメントモデルを必要としない。 代わりに、トレーニングされたモデルからviterbi強制調整を使用して、低いレイテンシアライメント方向を見つける。 librispeechの評価から、自己アライメントは、同様の単語誤り率でファシミットや制約付きアライメントよりも25%と56%低い既存のスキームよりも優れていた。 音声検索の評価では,ファシミットと制約付きアライメントと比較して12%,25%の遅延低減が達成され,2%以上の改善が得られた。

Reducing prediction delay for streaming end-to-end ASR models with minimal performance regression is a challenging problem. Constrained alignment is a well-known existing approach that penalizes predicted word boundaries using external low-latency acoustic models. On the contrary, recently proposed FastEmit is a sequence-level delay regularization scheme encouraging vocabulary tokens over blanks without any reference alignments. Although all these schemes are successful in reducing delay, ASR word error rate (WER) often severely degrades after applying these delay constraining schemes. In this paper, we propose a novel delay constraining method, named self alignment. Self alignment does not require external alignment models. Instead, it utilizes Viterbi forced-alignments from the trained model to find the lower latency alignment direction. From LibriSpeech evaluation, self alignment outperformed existing schemes: 25% and 56% less delay compared to FastEmit and constrained alignment at the similar word error rate. For Voice Search evaluation,12% and 25% delay reductions were achieved compared to FastEmit and constrained alignment with more than 2% WER improvements.
翻訳日:2021-05-13 12:38:23 公開日:2021-05-06
# (参考訳) RAR:モノクロ映像からアーチティックな形状復元を学習

LASR: Learning Articulated Shape Reconstruction from a Monocular Video ( http://arxiv.org/abs/2105.02976v1 )

ライセンス: CC BY 4.0
Gengshan Yang, Deqing Sun, Varun Jampani, Daniel Vlasic, Forrester Cole, Huiwen Chang, Deva Ramanan, William T. Freeman, Ce Liu(参考訳) ビデオや画像のコレクションから硬い構造物を3Dで再現することは、注目すべき進歩である。 しかし,rgb入力から非剛性構造を再構築することは,まだ困難である。 パラメトリック形状モデルのようなテンプレートベースのアプローチは、既知のオブジェクトカテゴリの「閉じた世界」をモデル化することに成功したが、新しいオブジェクトカテゴリの「オープンワールド」や、外れ値の形状をうまく扱えない。 本研究では,一つのビデオから3次元形状を学習するためのテンプレートレス手法を提案する。 これは、物体シルエット、光フロー、ピクセル値を前方に投影する分析合成戦略を採用し、カメラ、形状、運動パラメータを調整する勾配を生成するビデオ観測と比較する。 カテゴリ固有の形状テンプレートを使わずに,人間,動物,未知のクラスの物体の映像から非剛性3d構造を忠実に再構成する。 コードは lasr-google.github.io で入手できる。

Remarkable progress has been made in 3D reconstruction of rigid structures from a video or a collection of images. However, it is still challenging to reconstruct nonrigid structures from RGB inputs, due to its under-constrained nature. While template-based approaches, such as parametric shape models, have achieved great success in modeling the "closed world" of known object categories, they cannot well handle the "open-world" of novel object categories or outlier shapes. In this work, we introduce a template-free approach to learn 3D shapes from a single video. It adopts an analysis-by-synthesis strategy that forward-renders object silhouette, optical flow, and pixel values to compare with video observations, which generates gradients to adjust the camera, shape and motion parameters. Without using a category-specific shape template, our method faithfully reconstructs nonrigid 3D structures from videos of human, animals, and objects of unknown classes. Code will be available at lasr-google.github.io .
翻訳日:2021-05-10 23:43:30 公開日:2021-05-06
# (参考訳) Eコマース検索におけるグラフベース多言語製品検索

Graph-based Multilingual Product Retrieval in E-commerce Search ( http://arxiv.org/abs/2105.02978v1 )

ライセンス: CC BY 4.0
Hanqing Lu, Youna Hu, Tong Zhao, Tony Wu, Yiwei Song, Bing Yin(参考訳) 近年,多くのeコマースプラットフォームがグローバルビジネスを運営しており,多言語シナリオ下での商品検索にはeコマース検索システムが必要である。 さらに、国ごとの特定電子商取引検索システムと比べ、各国に普遍的なシステムを持つことにより、運用コストと計算コストをさらに削減し、新たな国への事業拡大を促進することができる。 本稿では,多言語多言語多言語検索システムについて紹介するとともに,eコマース検索における10億規模の製品検索を提供するシステムをトレーニングし,展開する際の学習と技術的詳細について述べる。 特に,トランスフォーマーに基づく多言語言語モデルとグラフニューラルネットワークアーキテクチャの最近の進歩を活用して,eコマース検索における検索クエリとアイテム間のインタラクションを捉える多言語グラフ注目検索ネットワークを提案する。 5か国のデータによるオフライン実験では、我々のアルゴリズムは平均で35%のリコールと25%のmAPで最先端のベースラインを上回っている。 さらに, オンラインA/B実験では, コンバージョン/レバレッジが著しく増加し, 複数の国で生産されている。

Nowadays, with many e-commerce platforms conducting global business, e-commerce search systems are required to handle product retrieval under multilingual scenarios. Moreover, comparing with maintaining per-country specific e-commerce search systems, having a universal system across countries can further reduce the operational and computational costs, and facilitate business expansion to new countries. In this paper, we introduce a universal end-to-end multilingual retrieval system, and discuss our learnings and technical details when training and deploying the system to serve billion-scale product retrieval for e-commerce search. In particular, we propose a multilingual graph attention based retrieval network by leveraging recent advances in transformer-based multilingual language models and graph neural network architectures to capture the interactions between search queries and items in e-commerce search. Offline experiments on five countries data show that our algorithm outperforms the state-of-the-art baselines by 35% recall and 25% mAP on average. Moreover, the proposed model shows significant increase of conversion/revenue in online A/B experiments and has been deployed in production for multiple countries.
翻訳日:2021-05-10 23:27:12 公開日:2021-05-06
# (参考訳) 言語モデルはテキストから典型判断を学ぶか?

Do language models learn typicality judgments from text? ( http://arxiv.org/abs/2105.02987v1 )

ライセンス: CC BY 4.0
Kanishka Misra and Allyson Ettinger and Julia Taylor Rayz(参考訳) 言語に含まれる統計による概念的・カテゴリー的知識獲得の可能性について論じる研究に基づいて,予測言語モデル (LM) を,認知科学において広く見られる現象である典型性に基づいて評価した。 言語処理と人体における堅牢な典型効果を示す実験から着想を得て, LMの2つの試験法を提案する。 最初の試験は、分類学的分類群を項目に割り当てることにおいて、典型性がLM確率を調節するかどうかを目標とする。 第2のテストでは,項目に関する新たな情報をカテゴリに拡張する場合,lmsの確率の典型性に対する感受性を調査した。 どちらのテストも、LMと人間との対応は控えめだが、完全に欠落しているわけではない。

Building on research arguing for the possibility of conceptual and categorical knowledge acquisition through statistics contained in language, we evaluate predictive language models (LMs) -- informed solely by textual input -- on a prevalent phenomenon in cognitive science: typicality. Inspired by experiments that involve language processing and show robust typicality effects in humans, we propose two tests for LMs. Our first test targets whether typicality modulates LM probabilities in assigning taxonomic category memberships to items. The second test investigates sensitivities to typicality in LMs' probabilities when extending new information about items to their categories. Both tests show modest -- but not completely absent -- correspondence between LMs and humans, suggesting that text-based exposure alone is insufficient to acquire typicality knowledge.
翻訳日:2021-05-10 23:16:18 公開日:2021-05-06
# K-Means++とK-Means$\|$の厳密な加速

Exact Acceleration of K-Means++ and K-Means$\|$ ( http://arxiv.org/abs/2105.02936v1 )

ライセンス: Link先を確認
Edward Raff(参考訳) K-Means++とその分散変種K-Means$\|$は、K-meansの初期種を選択するデファクトツールとなっている。 代替案が開発されているが、K-means++と$\|$メソッドの有効性、実装の容易性、理論的根拠は、全体論的観点からの「ベスト」を困難にしている。 種苗選択の限られた機会を考慮し,特殊な三角不等式刈り込み戦略と動的優先度キューを開発し,アルゴリズム的に等価なk-means++とk-means$\|$の最初の加速を示す。 どちらのアルゴリズムに対しても、距離計算を500\times$で削減できる。 K-means++の場合、これは実行時の17$\times$スピードアップとK-means$\|$の551$スピードアップとなる。 私たちは、このアプローチをこれらのアルゴリズムの既存の実装に容易に統合できるように、既知のテクニックをシンプルだが慎重に修正することで、これを達成します。

K-Means++ and its distributed variant K-Means$\|$ have become de facto tools for selecting the initial seeds of K-means. While alternatives have been developed, the effectiveness, ease of implementation, and theoretical grounding of the K-means++ and $\|$ methods have made them difficult to "best" from a holistic perspective. By considering the limited opportunities within seed selection to perform pruning, we develop specialized triangle inequality pruning strategies and a dynamic priority queue to show the first acceleration of K-Means++ and K-Means$\|$ that is faster in run-time while being algorithmicly equivalent. For both algorithms we are able to reduce distance computations by over $500\times$. For K-means++ this results in up to a 17$\times$ speedup in run-time and a $551\times$ speedup for K-means$\|$. We achieve this with simple, but carefully chosen, modifications to known techniques which makes it easy to integrate our approach into existing implementations of these algorithms.
翻訳日:2021-05-10 12:30:28 公開日:2021-05-06
# Jopara Sentiment Analysisの論理的困難と発見について

On the logistical difficulties and findings of Jopara Sentiment Analysis ( http://arxiv.org/abs/2105.02947v1 )

ライセンス: Link先を確認
Marvin M. Ag\"uero-Torales, David Vilares, Antonio G. L\'opez-Herrera(参考訳) 本稿では,グアラニ語とスペイン語のコードスイッチング言語であるJoparaの感情分析の問題に対処する。 まず,グアラニを主とするつぶやきのコーパスを収集し,感情分析など,比較的分かりやすいタスクの品質データを見つけることの難しさについて論じる。 そして、トレーニング済みの言語モデルを含む一連のニューラルモデルをトレーニングし、この低リソースのセットアップで従来の機械学習モデルよりもパフォーマンスが良いかを調査する。 トランスフォーマーアーキテクチャは、事前トレーニング中はグアラーニを考慮せず、最良の結果を得るが、従来の機械学習モデルは、問題の低リソース性のために近い性能を持つ。

This paper addresses the problem of sentiment analysis for Jopara, a code-switching language between Guarani and Spanish. We first collect a corpus of Guarani-dominant tweets and discuss on the difficulties of finding quality data for even relatively easy-to-annotate tasks, such as sentiment analysis. Then, we train a set of neural models, including pre-trained language models, and explore whether they perform better than traditional machine learning ones in this low-resource setup. Transformer architectures obtain the best results, despite not considering Guarani during pre-training, but traditional machine learning models perform close due to the low-resource nature of the problem.
翻訳日:2021-05-10 12:29:02 公開日:2021-05-06
# 制御可能なコンテンツジェネレータの学習

Learning Controllable Content Generators ( http://arxiv.org/abs/2105.02993v1 )

ライセンス: Link先を確認
Sam Earle, Maria Edwards, Ahmed Khalifa, Philip Bontrager and Julian Togelius(参考訳) 近年,ユーザ特定ヒューリスティック(ヒューリスティック,ヒューリスティック,ヒューリスティック)を用いて,高品質なゲームレベルを創出できるジェネレータの訓練に強化学習を用いることが示されている。 これらのジェネレータの出力が十分に多様であることを保証するため(つまり、単一の最適レベル構成の再現に相当しない)、生成プロセスは、初期シードがジェネレータの出力にある程度のばらつきをもたらすように制約される。 しかし、これによって生成されたコンテンツに対するコントロールが失われる。 本稿では,制御可能な多様な出力を生成できる発電機を「ゴールアウェア」として訓練することを提案する。 この目的のために、生成元がヒューリスティックにどの程度近いかを表す条件入力を追加し、その値を組み込むために報酬機構を変更します。 複数のドメインでテストした結果、レベルジェネレータは、ターゲットとした、制御可能な方法で可能なレベルの空間を探索でき、目標を意識していないものと同等の品質のレベルを生成できることを示しました。

It has recently been shown that reinforcement learning can be used to train generators capable of producing high-quality game levels, with quality defined in terms of some user-specified heuristic. To ensure that these generators' output is sufficiently diverse (that is, not amounting to the reproduction of a single optimal level configuration), the generation process is constrained such that the initial seed results in some variance in the generator's output. However, this results in a loss of control over the generated content for the human user. We propose to train generators capable of producing controllably diverse output, by making them "goal-aware." To this end, we add conditional inputs representing how close a generator is to some heuristic, and also modify the reward mechanism to incorporate that value. Testing on multiple domains, we show that the resulting level generators are capable of exploring the space of possible levels in a targeted, controllable manner, producing levels of comparable quality as their goal-unaware counterparts, that are diverse along designer-specified dimensions.
翻訳日:2021-05-10 12:28:22 公開日:2021-05-06
# 逆行訓練における破滅的オーバーフィッティングの理解

Understanding Catastrophic Overfitting in Adversarial Training ( http://arxiv.org/abs/2105.02942v1 )

ライセンス: Link先を確認
Peilin Kang, Seyed-Mohsen Moosavi-Dezfooli(参考訳) 近年、FGSM逆行訓練は、PGDが訓練したものに匹敵するが、桁違いに高速な頑健なモデルを訓練できることが判明した。 しかし、破滅的なオーバーフィッティング(CO)と呼ばれる障害モードがあり、訓練中に突然頑丈さを失い、単独では回復しにくい。 本稿では,co が fgsm に限定されるだけでなく,$\mbox{df}^{\infty}$-1 の対向訓練でも発生することを見出した。 次に、FGSM と $\mbox{DF}^{\infty}$-1 の幾何学的性質を分析し、CO の後に全く異なる決定境界を持つことを示した。 $\mbox{DF}^{\infty}$-1 の場合、摂動方向に沿って生成される新しい決定境界は存在しないが、代わりに$\mbox{DF}^{\infty}$-1 によって生成される摂動は CO の後に小さくなり、その結果その効果が失われる。 また,COの原因となる因子に関する3つの仮説を実験的に分析し,実験結果に基づいて,摂動を$l_\infty$ボールに投影しないことでRS-FGSMを修正した。 この小さな修正により、CIFAR10で47.56 \pm 0.37\%$ PGD-50-10の精度を$\epsilon=8/255$と、RS-FGSMで43.57 \pm 0.30\%の精度で達成でき、さらにCOなしでCIFAR10で$\epsilon$を8/255から11/255まで拡張できる。

Recently, FGSM adversarial training is found to be able to train a robust model which is comparable to the one trained by PGD but an order of magnitude faster. However, there is a failure mode called catastrophic overfitting (CO) that the classifier loses its robustness suddenly during the training and hardly recovers by itself. In this paper, we find CO is not only limited to FGSM, but also happens in $\mbox{DF}^{\infty}$-1 adversarial training. Then, we analyze the geometric properties for both FGSM and $\mbox{DF}^{\infty}$-1 and find they have totally different decision boundaries after CO. For FGSM, a new decision boundary is generated along the direction of perturbation and makes the small perturbation more effective than the large one. While for $\mbox{DF}^{\infty}$-1, there is no new decision boundary generated along the direction of perturbation, instead the perturbation generated by $\mbox{DF}^{\infty}$-1 becomes smaller after CO and thus loses its effectiveness. We also experimentally analyze three hypotheses on potential factors causing CO. And then based on the empirical analysis, we modify the RS-FGSM by not projecting perturbation back to the $l_\infty$ ball. By this small modification, we could achieve $47.56 \pm 0.37\% $ PGD-50-10 accuracy on CIFAR10 with $\epsilon=8/255$ in contrast to $43.57 \pm 0.30\% $ by RS-FGSM and also further extend the working range of $\epsilon$ from 8/255 to 11/255 on CIFAR10 without CO occurring.
翻訳日:2021-05-10 12:25:26 公開日:2021-05-06
# 記述的回答評価のためのテキスト類似性分析

Text similarity analysis for evaluation of descriptive answers ( http://arxiv.org/abs/2105.02935v1 )

ライセンス: Link先を確認
Vedant Bahel and Achamma Thomas(参考訳) 教育分野におけるインテリジェントなシステムの必要性を念頭に置いて,本研究では,テキスト分析に基づく自動評価手法を提案する。 特に,コンピュータ支援試験評価システムにおける自然言語処理とデータマイニングのインテリジェントな概念の利用に焦点を当てた。 本稿では,回答シートの公平な評価のためのアーキテクチャを提案する。 このアーキテクチャでは、検査者が与えられた質問に対するサンプル回答シートを作成する。 テキスト要約、テキスト意味論、キーワード要約という概念を用いて、各回答の最終スコアを算出する。 テキスト類似性モデルは、Siamese Manhattan LSTM (MaLSTM)に基づいている。 本研究の結果は,手作業による等級付けや既存システムと比較された。 このアプローチは、機関や大学で実施するために非常に効率的であることが判明した。

Keeping in mind the necessity of intelligent system in educational sector, this paper proposes a text analysis based automated approach for automatic evaluation of the descriptive answers in an examination. In particular, the research focuses on the use of intelligent concepts of Natural Language Processing and Data Mining for computer aided examination evaluation system. The paper present an architecture for fair evaluation of answer sheet. In this architecture, the examiner creates a sample answer sheet for given sets of question. By using the concept of text summarization, text semantics and keywords summarization, the final score for each answer is calculated. The text similarity model is based on Siamese Manhattan LSTM (MaLSTM). The results of this research were compared to manually graded assignments and other existing system. This approach was found to be very efficient in order to be implemented in an institution or in an university.
翻訳日:2021-05-10 12:23:57 公開日:2021-05-06
# SkyCam: スカイイメージのデータセットとその照度値

SkyCam: A Dataset of Sky Images and their Irradiance values ( http://arxiv.org/abs/2105.02922v1 )

ライセンス: Link先を確認
Evangelos Ntavelis and Jan Remund and Philipp Schmid(参考訳) コンピュータビジョンとディープラーニングの最近の進歩は、様々な分野や応用において驚くべき結果をもたらした。 この成功によって、SkyCam Datasetは画像ベースのDeep Learningソリューションにより、局所レベルでの太陽放射の短期的かつ正確な予測を可能にすることを目指している。 1年の間、スイスの3つの地理的に異なる場所で3つのカメラが10秒ごとに空の画像を取得している。 露光時間が異なる13の高解像度画像をキャプチャして、追加のHDR画像を作成する。 画像は高精度のピラノメーターから収集された高精度の照度値と対になる。

Recent advances in Computer Vision and Deep Learning have enabled astonishing results in a variety of fields and applications. Motivated by this success, the SkyCam Dataset aims to enable image-based Deep Learning solutions for short-term, precise prediction of solar radiation on a local level. For the span of a year, three different cameras in three topographically different locations in Switzerland are acquiring images of the sky every 10 seconds. Thirteen high resolution images with different exposure times are captured and used to create an additional HDR image. The images are paired with highly precise irradiance values gathered from a high-accuracy pyranometer.
翻訳日:2021-05-10 12:19:19 公開日:2021-05-06
# Hone as you Read: A Practical Type of Interactive Summarization

Hone as You Read: A Practical Type of Interactive Summarization ( http://arxiv.org/abs/2105.02923v1 )

ライセンス: Link先を確認
Tanner Bohn and Charles X. Ling(参考訳) 本稿では,通常の読み出しフローにおいて,文書要約を個人的関心事に最適化する新しいタスクであるHAREを提案する。 このタスクは、ユーザーが同じ文章を何度も読むことができる長いフィードバックステージに従ってパーソナライズされた要約が生成されるインタラクティブな要約に関連している。 しかし、このプロセスは読みの流れを著しく中断し、余暇に読み取るには実用的でない。 本稿では,読解プロセス中に最小限の侵襲的なフィードバックを収集し,ユーザの関心に適応し,文書をリアルタイムで拡張することを提案する。 教師なし要約評価の最近の進歩を生かして,本課題に適した指標を提案し,様々なアプローチを評価する。 私たちのアプローチは、単純なヒューリスティックから選好学習までさまざまで、分析によってこの重要なタスクに対する洞察が得られます。 人的評価もHAREの実践性を支持する。 この作業を再現するコードはhttps://github.com/tannerbohn/HoneAsYouRead.comで公開されている。

We present HARE, a new task where reader feedback is used to optimize document summaries for personal interest during the normal flow of reading. This task is related to interactive summarization, where personalized summaries are produced following a long feedback stage where users may read the same sentences many times. However, this process severely interrupts the flow of reading, making it impractical for leisurely reading. We propose to gather minimally-invasive feedback during the reading process to adapt to user interests and augment the document in real-time. Building off of recent advances in unsupervised summarization evaluation, we propose a suitable metric for this task and use it to evaluate a variety of approaches. Our approaches range from simple heuristics to preference-learning and their analysis provides insight into this important task. Human evaluation additionally supports the practicality of HARE. The code to reproduce this work is available at https://github.com/tannerbohn/HoneAsYouRead.
翻訳日:2021-05-10 12:14:35 公開日:2021-05-06
# 化学反応器の自律運転のための強化学習型経済モデル予測制御フレームワーク

A Reinforcement Learning-based Economic Model Predictive Control Framework for Autonomous Operation of Chemical Reactors ( http://arxiv.org/abs/2105.02656v1 )

ライセンス: Link先を確認
Khalid Alhazmi, Fahad Albalawi, and S. Mani Sarathy(参考訳) 経済モデル予測制御(Economic Model predictive Control, EMPC)は, 動的プロセスの最適運用のための有望な方法論である。 しかし,EMPCの性能はプロセスモデルの精度に大きく依存している。 モデルベース制御戦略の代替として、強化学習(RL)はモデルフリー制御手法として研究されてきたが、その安全性と安定性に関する問題は依然としてオープンな研究課題である。 本稿では,非線形システムのオンラインモデルパラメータ推定のためのempcとrlを統合するための新しい枠組みを提案する。 この枠組みでは、empcは閉ループ安定性と再帰可能性を維持しつつ閉ループシステムを最適に動作させる。 同時に、プロセスの最適化のために、RLエージェントはプロセスの測定状態とモデルの予測(最小状態)を連続的に比較し、それに応じてモデルパラメータを修正します。 最先端のRLアルゴリズムとEMPCスキームは最小限の変更で利用できる。 提案手法の性能は, 動的に挑戦し, 実用的意義を持つ反応ネットワーク上で示される。 このフレームワークは、制御、最適化、モデル修正をオンラインで連続的に行うことができ、自律型原子炉の動作をより達成できる。

Economic model predictive control (EMPC) is a promising methodology for optimal operation of dynamical processes that has been shown to improve process economics considerably. However, EMPC performance relies heavily on the accuracy of the process model used. As an alternative to model-based control strategies, reinforcement learning (RL) has been investigated as a model-free control methodology, but issues regarding its safety and stability remain an open research challenge. This work presents a novel framework for integrating EMPC and RL for online model parameter estimation of a class of nonlinear systems. In this framework, EMPC optimally operates the closed loop system while maintaining closed loop stability and recursive feasibility. At the same time, to optimize the process, the RL agent continuously compares the measured state of the process with the model's predictions (nominal states), and modifies model parameters accordingly. The major advantage of this framework is its simplicity; state-of-the-art RL algorithms and EMPC schemes can be employed with minimal modifications. The performance of the proposed framework is illustrated on a network of reactions with challenging dynamics and practical significance. This framework allows control, optimization, and model correction to be performed online and continuously, making autonomous reactor operation more attainable.
翻訳日:2021-05-10 12:07:20 公開日:2021-05-06
# (参考訳) ニューラルネットワークを用いた原発性副甲状腺機能亢進症の自動スクリーニング

Automated Primary Hyperparathyroidism Screening with Neural Networks ( http://arxiv.org/abs/2105.02386v1 )

ライセンス: CC BY 4.0
Noah Ziems, Shaoen Wu, Jim Norman(参考訳) 原発性副甲状腺機能亢進症(PHPT)は比較的一般的な疾患であり、成人1000人に1人程度に影響を及ぼす。 しかしphptのスクリーニングは困難であり、長期にわたって診断されないことが多い。 特定の血液検査の結果を独立して見ることは、患者がphptを持っているかどうかを示すのに役立つが、これらの結果レベルは、患者がphptを持っているにもかかわらず、それぞれが正常範囲内であることが多い。 本研究は,現実世界の診療データをベースとして,ニューラルネットワーク(NN)アーキテクチャを用いてPHPTをスクリーニングする手法を提案する。 さらに,入力として実験値を追加することにより,99 %以上の精度を達成する第2モデルを提案する。 さらに,従来のPHPTスクリーニング手法と比較して,NNモデルは従来のスクリーニング手法の偽陰性を99.5%削減できる。

Primary Hyperparathyroidism(PHPT) is a relatively common disease, affecting about one in every 1,000 adults. However, screening for PHPT can be difficult, meaning it often goes undiagnosed for long periods of time. While looking at specific blood test results independently can help indicate whether a patient has PHPT, often these blood result levels can all be within their respective normal ranges despite the patient having PHPT. Based on the clinic data from the real world, in this work, we propose a novel approach to screening PHPT with neural network (NN) architecture, achieving over 97\% accuracy with common blood values as inputs. Further, we propose a second model achieving over 99\% accuracy with additional lab test values as inputs. Moreover, compared to traditional PHPT screening methods, our NN models can reduce the false negatives of traditional screening methods by 99\%.
翻訳日:2021-05-08 00:46:32 公開日:2021-05-06
# (参考訳) ディープラーニング自然言語処理を用いたセキュリティ脆弱性検出

Security Vulnerability Detection Using Deep Learning Natural Language Processing ( http://arxiv.org/abs/2105.02388v1 )

ライセンス: CC BY 4.0
Noah Ziems, Shaoen Wu(参考訳) ソフトウェアが悪用される前にセキュリティ上の脆弱性を検出することは、何十年にもわたって難しい問題だった。 従来のコード解析手法は提案されているが、しばしば非効率で非効率である。 本研究では、ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化し、近年の高度なディープラーニングNLPモデルを用いて、テキストによる翻訳学習を補助する自動化ソフトウェアベネラビリティ検出に対処する。 トレーニングとテストのために、NIST NVD/SARDデータベースを前処理し、123種類の脆弱性を持つ$C$プログラミング言語で10,000以上のファイルのデータセットを構築しました。 広範な実験は、セキュリティ脆弱性の検出において、93\%以上の精度で最高のパフォーマンスを生み出す。

Detecting security vulnerabilities in software before they are exploited has been a challenging problem for decades. Traditional code analysis methods have been proposed, but are often ineffective and inefficient. In this work, we model software vulnerability detection as a natural language processing (NLP) problem with source code treated as texts, and address the automated software venerability detection with recent advanced deep learning NLP models assisted by transfer learning on written English. For training and testing, we have preprocessed the NIST NVD/SARD databases and built a dataset of over 100,000 files in $C$ programming language with 123 types of vulnerabilities. The extensive experiments generate the best performance of over 93\% accuracy in detecting security vulnerabilities.
翻訳日:2021-05-08 00:38:31 公開日:2021-05-06
# (参考訳) 危険地帯:Uネットワーク駆動型量子回帰は、汚染物質と衛星画像を通して高リスクSARS-CoV-2領域を予測できる

In the Danger Zone: U-Net Driven Quantile Regression can Predict High-risk SARS-CoV-2 Regions via Pollutant Particulate Matter and Satellite Imagery ( http://arxiv.org/abs/2105.02406v1 )

ライセンス: CC BY 4.0
Jacquelyn Shelton, Przemyslaw Polewski and Wei Yao(参考訳) 新型コロナウイルスの感染拡大以来、政策立案者は感染抑制のため薬学以外の介入に頼ってきた。 大気汚染が潜在的な伝達ベクトルとなると、介入戦略にそれを含める必要がある。 本稿では, 容易に取得可能な衛星画像に基づいて, PM_{2.5}$大気汚染を予測するためのU-net駆動量子レグレッションモデルを提案する。 提案手法は, 汚染データが利用できない場所であっても, 地中真実データに対する$PM_{2.5}$濃度を再構築し, 空間分布で妥当な$PM_{2.5}$値を予測できることを実証する。 こうしたPM_{2.5}$特性の予測は、新型コロナウイルスの感染と致死性を減らすための公共政策戦略を決定的に助言する可能性がある。

Since the outbreak of COVID-19 policy makers have been relying upon non-pharmacological interventions to control the outbreak. With air pollution as a potential transmission vector there is need to include it in intervention strategies. We propose a U-net driven quantile regression model to predict $PM_{2.5}$ air pollution based on easily obtainable satellite imagery. We demonstrate that our approach can reconstruct $PM_{2.5}$ concentrations on ground-truth data and predict reasonable $PM_{2.5}$ values with their spatial distribution, even for locations where pollution data is unavailable. Such predictions of $PM_{2.5}$ characteristics could crucially advise public policy strategies geared to reduce the transmission of and lethality of COVID-19.
翻訳日:2021-05-08 00:28:35 公開日:2021-05-06
# (参考訳) テキストクエリを用いたサーベイランスにおける人物検索 : レビュー

Person Retrieval in Surveillance Using Textual Query: A Review ( http://arxiv.org/abs/2105.02414v1 )

ライセンス: CC BY 4.0
Hiren Galiyawala, Mehul S Raval(参考訳) 近年のバイオメトリックス、コンピュータビジョン、自然言語処理の研究は、テキストクエリを用いた監視ビデオから人物を検索する機会を発見した。 監視システムの主な目的は、例えば、ピンクのTシャツと黒い財布を背負った白いスカートの短い女性のような説明を使って人物を見つけることである。 彼女は茶色の髪をしています。 このような記述には、性別、身長、衣服の種類、衣服の色、髪の色、アクセサリーなどの属性が含まれる。 このような属性は、正式にはソフトバイオメトリックス(Soft Biometrics)と呼ばれる。 テキストクエリには、人のソフトバイオメトリック属性が含まれているため、人間記述と機械間のセマンティックギャップを埋めるのに役立ちます。 また、特定の人物を回収するために大量の監視映像を手動で検索することは不可能である。 そのため,視覚と言語に基づくアルゴリズムを用いた自動人物検索が普及しつつある。 他の最先端のレビューと比較して、論文の貢献は以下のとおりである。 最も差別的な軟式バイオメトリックスを、特定困難条件に推奨する。 2. 客観的パフォーマンス評価のためのベンチマークデータセットと検索方法を統合する。 3. 特徴、分類器、ソフトバイオメトリック属性の数、ディープニューラルネットワークの種類、パフォーマンス指標に基づくテクニックの完全なスナップショット。 4. 手作りの特徴に基づく手法から,自然言語記述に基づくエンドツーエンドアプローチへの人物検索の包括的カバレッジ

Recent advancement of research in biometrics, computer vision, and natural language processing has discovered opportunities for person retrieval from surveillance videos using textual query. The prime objective of a surveillance system is to locate a person using a description, e.g., a short woman with a pink t-shirt and white skirt carrying a black purse. She has brown hair. Such a description contains attributes like gender, height, type of clothing, colour of clothing, hair colour, and accessories. Such attributes are formally known as soft biometrics. They help bridge the semantic gap between a human description and a machine as a textual query contains the person's soft biometric attributes. It is also not feasible to manually search through huge volumes of surveillance footage to retrieve a specific person. Hence, automatic person retrieval using vision and language-based algorithms is becoming popular. In comparison to other state-of-the-art reviews, the contribution of the paper is as follows: 1. Recommends most discriminative soft biometrics for specifiic challenging conditions. 2. Integrates benchmark datasets and retrieval methods for objective performance evaluation. 3. A complete snapshot of techniques based on features, classifiers, number of soft biometric attributes, type of the deep neural networks, and performance measures. 4. The comprehensive coverage of person retrieval from handcrafted features based methods to end-to-end approaches based on natural language description.
翻訳日:2021-05-08 00:20:12 公開日:2021-05-06
# (参考訳) ML強化DBMSのための統一転送可能モデル

A Unified Transferable Model for ML-Enhanced DBMS ( http://arxiv.org/abs/2105.02418v1 )

ライセンス: CC BY 4.0
Ziniu Wu, Peilun Yang, Pei Yu, Rong Zhu, Yuxing Han, Yaliang Li, Defu Lian, Kai Zeng, Jingren Zhou(参考訳) 最近、データベース管理システム(DBMS)コミュニティは、DBMSタスクのための機械学習(ML)ソリューションのパワーを目撃している。 有望なパフォーマンスにもかかわらず、これらの既存のソリューションはほとんど満足できない。 第一に、これらのDBMSのMLベースのメソッドは、各タスクに最適化されており、タスク間の固有の接続を探索、理解できないため、効果が十分ではない。 第二に、トレーニングプロセスは、新しいDBのためにモデル全体をスクラッチから再トレーニングする必要があるため、その実用性を阻害する重大な制限があります。 さらに、再トレーニング毎に過剰なトレーニングデータが必要であるため、新しいDBを取得するのに非常にコストがかかり、利用できない。 本稿では,これらの基本的な欠点に対処するため,タスク間およびDB間のMLメソッドの転送可能性について検討する。 本稿では,タスク間で伝達可能な知識を抽出するためのマルチタスクトレーニング手順と,DB間で伝達可能なメタ知識を蒸留するための事前訓練ファインチューン手順を用いた統一モデルTMLFを提案する。 このパラダイムはクラウドDBサービスに適しており、DBMSにおけるMLの使い方に革命をもたらす可能性があると考えています。 さらに,MTMLFの予測能力と生存可能性を示すために,クエリ最適化タスクの具体的かつ非常に有望なケーススタディを提供する。 最後に、この一連の作業に関して、いくつかの具体的な研究機会について論じる。

Recently, the database management system (DBMS) community has witnessed the power of machine learning (ML) solutions for DBMS tasks. Despite their promising performance, these existing solutions can hardly be considered satisfactory. First, these ML-based methods in DBMS are not effective enough because they are optimized on each specific task, and cannot explore or understand the intrinsic connections between tasks. Second, the training process has serious limitations that hinder their practicality, because they need to retrain the entire model from scratch for a new DB. Moreover, for each retraining, they require an excessive amount of training data, which is very expensive to acquire and unavailable for a new DB. We propose to explore the transferabilities of the ML methods both across tasks and across DBs to tackle these fundamental drawbacks. In this paper, we propose a unified model MTMLF that uses a multi-task training procedure to capture the transferable knowledge across tasks and a pretrain finetune procedure to distill the transferable meta knowledge across DBs. We believe this paradigm is more suitable for cloud DB service, and has the potential to revolutionize the way how ML is used in DBMS. Furthermore, to demonstrate the predicting power and viability of MTMLF, we provide a concrete and very promising case study on query optimization tasks. Last but not least, we discuss several concrete research opportunities along this line of work.
翻訳日:2021-05-08 00:17:54 公開日:2021-05-06
# (参考訳) Split and Connect:マルチオブジェクトトラッキングのためのユニバーサルトラックレットブースター

Split and Connect: A Universal Tracklet Booster for Multi-Object Tracking ( http://arxiv.org/abs/2105.02426v1 )

ライセンス: CC BY 4.0
Gaoang Wang, Yizhou Wang, Renshu Gu, Weijie Hu, Jenq-Neng Hwang(参考訳) マルチオブジェクト追跡(MOT)はコンピュータビジョン分野において重要な課題である。 近年のディープラーニング技術の急速な発展により、MOTは大きな進歩を遂げた。 しかし、オクルージョンに対する敏感性、異なる照明条件下での不安定性、変形可能な物体に対する非破壊性など、いくつかの課題が残っている。 既存のトラッカーのほとんどにおいて、このような一般的な課題に対処するために、本論文では、他のトラッカー上で構築できるトラックレットブースターアルゴリズムを提案する。 モチベーションは単純で単純で、潜在的なIDスイッチ位置でトラックレットを分割し、同じオブジェクトから複数のトラックレットを1つに接続する。 言い換えれば、トラックレットブースターはSplitterとConnectorの2つの部分で構成される。 まず,適応ガウス核を用いたラベル平滑化戦略による分割位置予測に,時間拡張畳み込みブロックを積み重ねたアーキテクチャを用いる。 次に、トラックレット埋め込みのためにマルチヘッドセルフアテンションベースのエンコーダが活用され、トラックレットをより大きなグループに接続するためにさらに使用される。 我々はMOT17とMOT20ベンチマークデータセットで十分な実験を行い、有望な結果を示す。 提案したトラックレットブースターと組み合わせることで,既存のトラッカーはIFF1スコアを大幅に改善し,提案手法の有効性を示す。

Multi-object tracking (MOT) is an essential task in the computer vision field. With the fast development of deep learning technology in recent years, MOT has achieved great improvement. However, some challenges still remain, such as sensitiveness to occlusion, instability under different lighting conditions, non-robustness to deformable objects, etc. To address such common challenges in most of the existing trackers, in this paper, a tracklet booster algorithm is proposed, which can be built upon any other tracker. The motivation is simple and straightforward: split tracklets on potential ID-switch positions and then connect multiple tracklets into one if they are from the same object. In other words, the tracklet booster consists of two parts, i.e., Splitter and Connector. First, an architecture with stacked temporal dilated convolution blocks is employed for the splitting position prediction via label smoothing strategy with adaptive Gaussian kernels. Then, a multi-head self-attention based encoder is exploited for the tracklet embedding, which is further used to connect tracklets into larger groups. We conduct sufficient experiments on MOT17 and MOT20 benchmark datasets, which demonstrates promising results. Combined with the proposed tracklet booster, existing trackers usually can achieve large improvements on the IDF1 score, which shows the effectiveness of the proposed method.
翻訳日:2021-05-07 23:58:26 公開日:2021-05-06
# (参考訳) ゲーム用高速かつロバストな視線追跡システムの開発

Development of a Fast and Robust Gaze Tracking System for Game Applications ( http://arxiv.org/abs/2105.02460v1 )

ライセンス: CC BY 4.0
Manh Duong Phung, Cong Hoang Quach and Quang Vinh Tran(参考訳) 本研究では,視覚カメラを用いた新しい視線追跡システムを開発し,人間の視線を抽出し,最新のゲームマシンで使用することで,新たな革新的なインタラクティブ体験をプレイヤーに提供する。 システムのコンポーネントの中心は、ロバストな虹彩中心および視線角検出アルゴリズムであり、それに基づいて視線を連続的かつ適応的に抽出する。 システムの精度を評価するために9人の被験者に評価試験を適用し, 水平方向は2.50度, 垂直方向は3.07度であった。

In this study, a novel eye tracking system using a visual camera is developed to extract human's gaze, and it can be used in modern game machines to bring new and innovative interactive experience to players. Central to the components of the system, is a robust iris-center and eye-corner detection algorithm basing on it the gaze is continuously and adaptively extracted. Evaluation tests were applied to nine people to evaluate the accuracy of the system and the results were 2.50 degrees (view angle) in horizontal direction and 3.07 degrees in vertical direction.
翻訳日:2021-05-07 23:36:36 公開日:2021-05-06
# (参考訳) ディープネットにおける微分同相写像に対する相対安定性は性能を示す

Relative stability toward diffeomorphisms in deep nets indicates performance ( http://arxiv.org/abs/2105.02468v1 )

ライセンス: CC BY 4.0
Leonardo Petrini, Alessandro Favero, Mario Geiger, Matthieu Wyart(参考訳) ディープネットが大きな次元でデータを分類できる理由を理解することは依然として困難である。 微分同相写像に安定になることによってそれらが成り立つことが提案されているが、既存の経験的測定はそうでないことが多いことを裏付けている。 我々は、与えられたノルムの典型的な微分同相を研究できる微分同相写像の最大エントロピー分布を定義することで、この問題を再考する。 微分同相性に対する安定性は、4つのベンチマークデータセットのパフォーマンスと強く相関しないことを確認した。 対照的に、一般変換に対する微分同相性に対する安定性は、テスト誤差$\epsilon_t$と著しく相関している。 初期化時に順序が統一されるが、最先端アーキテクチャのトレーニング中に数十年減少する。 CIFAR10と15の既知のアーキテクチャでは、$\epsilon_t\approx 0.2\sqrt{R_f}$が見つかる。 我々は、R_f$がトレーニングセットのサイズに依存するかを調べ、それを不変学習の単純なモデルと比較する。

Understanding why deep nets can classify data in large dimensions remains a challenge. It has been proposed that they do so by becoming stable to diffeomorphisms, yet existing empirical measurements support that it is often not the case. We revisit this question by defining a maximum-entropy distribution on diffeomorphisms, that allows to study typical diffeomorphisms of a given norm. We confirm that stability toward diffeomorphisms does not strongly correlate to performance on four benchmark data sets of images. By contrast, we find that the stability toward diffeomorphisms relative to that of generic transformations $R_f$ correlates remarkably with the test error $\epsilon_t$. It is of order unity at initialization but decreases by several decades during training for state-of-the-art architectures. For CIFAR10 and 15 known architectures, we find $\epsilon_t\approx 0.2\sqrt{R_f}$, suggesting that obtaining a small $R_f$ is important to achieve good performance. We study how $R_f$ depends on the size of the training set and compare it to a simple model of invariant learning.
翻訳日:2021-05-07 23:28:29 公開日:2021-05-06
# (参考訳) XeroAlign:ゼロショットクロスプラットフォームトランスフォーマーアライメント

XeroAlign: Zero-Shot Cross-lingual Transformer Alignment ( http://arxiv.org/abs/2105.02472v1 )

ライセンス: CC BY 4.0
Milan Gritta, Ignacio Iacobacci(参考訳) 事前訓練された言語モデルの導入は、多言語NLPタスクに決定的な改善をもたらした。 しかし、ラベル付きタスクデータの欠如は、高リソース言語とのギャップを埋めるための様々な方法を必要とする。 特にゼロショット法では、ソースとターゲット言語間のパフォーマンスギャップを埋める訓練信号として、翻訳されたタスクデータを使うことが多い。 XeroAlignは、XLM-Rのような言語間事前訓練されたトランスフォーマーのタスク固有のアライメントの簡単な方法である。 xeroaligned xlm-rはxlm-raと呼ばれ、3つの多言語自然言語理解タスクで最先端のゼロショット結果を達成するためのベースラインモデルよりも強力な改善を示している。 XLM-RAのテキスト分類精度はラベル付きデータで訓練されたXLM-Rよりも優れており、言語間対数パラフレーズタスクにおける最先端モデルと同等である。

The introduction of pretrained cross-lingual language models brought decisive improvements to multilingual NLP tasks. However, the lack of labelled task data necessitates a variety of methods aiming to close the gap to high-resource languages. Zero-shot methods in particular, often use translated task data as a training signal to bridge the performance gap between the source and target language(s). We introduce XeroAlign, a simple method for task-specific alignment of cross-lingual pretrained transformers such as XLM-R. XeroAlign uses translated task data to encourage the model to generate similar sentence embeddings for different languages. The XeroAligned XLM-R, called XLM-RA, shows strong improvements over the baseline models to achieve state-of-the-art zero-shot results on three multilingual natural language understanding tasks. XLM-RA's text classification accuracy exceeds that of XLM-R trained with labelled data and performs on par with state-of-the-art models on a cross-lingual adversarial paraphrasing task.
翻訳日:2021-05-07 23:03:50 公開日:2021-05-06
# (参考訳) 高相異なるフィンランド語のパラフレーズコーパスにおける代替翻訳の定量的評価

Quantitative Evaluation of Alternative Translations in a Corpus of Highly Dissimilar Finnish Paraphrases ( http://arxiv.org/abs/2105.02477v1 )

ライセンス: CC BY-SA 4.0
Li-Hsin Chang, Sampo Pyysalo, Jenna Kanerva, Filip Ginter(参考訳) 本稿では,最近リリースされたフィンランドのパラフローゼコーパスにおいて,翻訳の非自明な変動に着目した代替翻訳間の差異を定量的に評価する。 体系的な変動を検出する一連の自動ステップと手動分析を組み合わせることで、規則性を明らかにし、翻訳の違いのカテゴリを識別する。 パラフレーズコーパスは, 自動的アプローチによる認識が難しい, 非自明な翻訳変種を含む。

In this paper, we present a quantitative evaluation of differences between alternative translations in a large recently released Finnish paraphrase corpus focusing in particular on non-trivial variation in translation. We combine a series of automatic steps detecting systematic variation with manual analysis to reveal regularities and identify categories of translation differences. We find the paraphrase corpus to contain highly non-trivial translation variants difficult to recognize through automatic approaches.
翻訳日:2021-05-07 22:46:06 公開日:2021-05-06
# (参考訳) siamese視覚追跡における普遍的標的攻撃の単純かつ強固なベースライン

A Simple and Strong Baseline for Universal Targeted Attacks on Siamese Visual Tracking ( http://arxiv.org/abs/2105.02480v1 )

ライセンス: CC BY 4.0
Zhenbang Li, Yaya Shi, Jin Gao, Shaoru Wang, Bing Li, Pengpeng Liang, Weiming Hu(参考訳) siamese trackersは最近、敵の攻撃に弱いことが示されている。 しかし、既存の攻撃手法は各ビデオの摂動を独立して作っているため、計算コストは無視できる。 本稿では,対象とする攻撃を可能にする普遍的な摂動の存在について述べる。例えば,追跡者が特定のオフセットで地対地軌道を追従することを強制するなど,ネットワーク内ではビデオ非依存で推論を行なわない。 具体的には、テンプレート画像に普遍的知覚不能な摂動を加えて、予め定義された軌道に付着した検索画像に偽のターゲット、すなわち小さな普遍的敵パッチを付加することにより、トラッカーを攻撃し、実際のターゲットではなく偽のターゲットの位置とサイズを出力する。 当社のアプローチでは,新たなビデオの摂動を単なる追加操作以外の追加コストで行うことが可能で,勾配最適化やネットワーク推論は不要です。 いくつかのデータセットにおける実験結果は、我々のアプローチが標的攻撃方法でシャムの追跡者を効果的に騙すことを実証している。 提案する摂動はビデオに共通するだけでなく,様々なトラッカーにまたがって広く普及することを示す。 このような摂動は、データとネットワークアーキテクチャの両方に関して、二重に普遍的である。 私たちはコードを公開します。

Siamese trackers are shown to be vulnerable to adversarial attacks recently. However, the existing attack methods craft the perturbations for each video independently, which comes at a non-negligible computational cost. In this paper, we show the existence of universal perturbations that can enable the targeted attack, e.g., forcing a tracker to follow the ground-truth trajectory with specified offsets, to be video-agnostic and free from inference in a network. Specifically, we attack a tracker by adding a universal imperceptible perturbation to the template image and adding a fake target, i.e., a small universal adversarial patch, into the search images adhering to the predefined trajectory, so that the tracker outputs the location and size of the fake target instead of the real target. Our approach allows perturbing a novel video to come at no additional cost except the mere addition operations -- and not require gradient optimization or network inference. Experimental results on several datasets demonstrate that our approach can effectively fool the Siamese trackers in a targeted attack manner. We show that the proposed perturbations are not only universal across videos, but also generalize well across different trackers. Such perturbations are therefore doubly universal, both with respect to the data and the network architectures. We will make our code publicly available.
翻訳日:2021-05-07 22:36:58 公開日:2021-05-06
# (参考訳) より一般的な自然言語理解と推論のための生成的記号モデル

A Generative Symbolic Model for More General Natural Language Understanding and Reasoning ( http://arxiv.org/abs/2105.02486v1 )

ライセンス: CC BY 4.0
Abulhair Saparov, Tom M. Mitchell(参考訳) 我々は、よりドメインとタスクの一般的なNLUとAIに向けた研究プログラムの第1ステップとして、セマンティックパースと推論の完全な象徴的なベイズモデルを提案する。 人間は観察の内側の精神モデルを作り、様々な問題を理解し推論する能力を大幅に助けます。 我々はこれを、完全に解釈可能であり、ベイジアンが特に一般性を念頭に設計したモデルで捉えることを目指しており、その結果、将来の研究がその能力を拡張するための道筋が明確になる。 我々は推論アルゴリズムを導出し実装し、ドメイン外のProofWriter質問応答/推論タスクで評価し、実験条件に応じてゼロショット精度を100%と93.43%で達成し、概念実証としての価値を示す。

We present a new fully-symbolic Bayesian model of semantic parsing and reasoning which we hope to be the first step in a research program toward more domain- and task-general NLU and AI. Humans create internal mental models of their observations which greatly aid in their ability to understand and reason about a large variety of problems. We aim to capture this in our model, which is fully interpretable and Bayesian, designed specifically with generality in mind, and therefore provides a clearer path for future research to expand its capabilities. We derive and implement an inference algorithm, and evaluate it on an out-of-domain ProofWriter question-answering/reasoning task, achieving zero-shot accuracies of 100% and 93.43%, depending on the experimental setting, thereby demonstrating its value as a proof-of-concept.
翻訳日:2021-05-07 22:13:27 公開日:2021-05-06
# (参考訳) 近傍選択アプローチによる高次元機能グラフィカルモデル構造学習

High-dimensional Functional Graphical Model Structure Learning via Neighborhood Selection Approach ( http://arxiv.org/abs/2105.02487v1 )

ライセンス: CC BY 4.0
Boxin Zhao, Shengjun Zhai, Y. Samuel Wang, Mladen Kolar(参考訳) 非方向グラフィカルモデルは、高次元ランダムベクトルデータの条件独立構造を長年にわたってモデル化するために広く利用されている。 EEGやfMRIデータなどの現代の多くの応用において、観測はスカラーではなく多変量ランダム関数である。 この種のデータの条件付き独立性をモデル化するために,関数型グラフィカルモデルが提案され,近年注目されている。 本稿では,ガウス関数型グラフィカルモデルの推定のための近傍選択手法を提案する。 まず関数オンファンクショナル回帰を用いて全てのノードの近傍を推定し,その周辺情報に基づいてグラフ構造全体を復元する。 条件構造を直接推定することにより、一般に存在しない明確な精度演算子の必要性を回避することができる。 さらに、次元減少に対する関数基底の選択の効果をより深く探求することができる。 我々は,最高の関数基底を選択するための基準を与え,2つの実用的な選択を動機付ける。これは理論と実験の両方で正当化し,従来の文献のように各関数を独自のFPCA基底に拡張するよりも優れていることを示す。 さらに, 並列計算がより容易であるため, 近傍選択法はガラスよりも計算効率がよい。 提案手法の高次元設定における統計的整合性は理論と実験の両方で支持される。

Undirected graphical models have been widely used to model the conditional independence structure of high-dimensional random vector data for years. In many modern applications such as EEG and fMRI data, the observations are multivariate random functions rather than scalars. To model the conditional independence of this type of data, functional graphical models are proposed and have attracted an increasing attention in recent years. In this paper, we propose a neighborhood selection approach to estimate Gaussian functional graphical models. We first estimate the neighborhood of all nodes via function-on-function regression, and then we can recover the whole graph structure based on the neighborhood information. By estimating conditional structure directly, we can circumvent the need of a well-defined precision operator which generally does not exist. Besides, we can better explore the effect of the choice of function basis for dimension reduction. We give a criterion for choosing the best function basis and motivate two practically useful choices, which we justified by both theory and experiments and show that they are better than expanding each function onto its own FPCA basis as in previous literature. In addition, the neighborhood selection approach is computationally more efficient than fglasso as it is more easy to do parallel computing. The statistical consistency of our proposed methods in high-dimensional setting are supported by both theory and experiment.
翻訳日:2021-05-07 21:49:40 公開日:2021-05-06
# (参考訳) 大域的共分散プールにおける正方形根の正確なSVD性能

Why Approximate Matrix Square Root Outperforms Accurate SVD in Global Covariance Pooling? ( http://arxiv.org/abs/2105.02498v1 )

ライセンス: CC BY 4.0
Yue Song, Nicu Sebe, Wei Wang(参考訳) global covariance pooling (gcp) は畳み込み機能の2次統計を活用することを目的としている。 その効果は畳み込みニューラルネットワーク(cnns)の分類性能の向上に証明されている。 Singular Value Decomposition (SVD) は、GCPで行列平方根を計算するために使われる。 しかし、Newton-Schulz iteration \cite{li2018towards} を用いて計算された近似行列平方根は、SVD \cite{li2017second} によって計算された正確なルートよりも優れている。 データ精度と勾配の滑らかさの観点から,性能差の原因を実験的に分析した。 SVD勾配のスムーズな計算法について検討した。 そこで本研究では,SVDをベースとしたGCPメタ層に対して,Newton-Schulzイテレーションに対する競合性能を実現するためのハイブリッドトレーニングプロトコルを提案する。 さらに,前方通過におけるSVDと後方伝播におけるPad\'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。 提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。

Global covariance pooling (GCP) aims at exploiting the second-order statistics of the convolutional feature. Its effectiveness has been demonstrated in boosting the classification performance of Convolutional Neural Networks (CNNs). Singular Value Decomposition (SVD) is used in GCP to compute the matrix square root. However, the approximate matrix square root calculated using Newton-Schulz iteration \cite{li2018towards} outperforms the accurate one computed via SVD \cite{li2017second}. We empirically analyze the reason behind the performance gap from the perspectives of data precision and gradient smoothness. Various remedies for computing smooth SVD gradients are investigated. Based on our observation and analyses, a hybrid training protocol is proposed for SVD-based GCP meta-layers such that competitive performances can be achieved against Newton-Schulz iteration. Moreover, we propose a new GCP meta-layer that uses SVD in the forward pass, and Pad\'e Approximants in the backward propagation to compute the gradients. The proposed meta-layer has been integrated into different CNN models and achieves state-of-the-art performances on both large-scale and fine-grained datasets.
翻訳日:2021-05-07 21:48:03 公開日:2021-05-06
# (参考訳) 構文から学ぶ:豊富な構文知識によるペアワイズアスペクトと意見語抽出の改善

Learn from Syntax: Improving Pair-wise Aspect and Opinion Terms Extractionwith Rich Syntactic Knowledge ( http://arxiv.org/abs/2105.02520v1 )

ライセンス: CC BY 4.0
Shengqiong Wu and Hao Fei and Yafeng Ren and Donghong Ji and Jingye Li(参考訳) 本稿では,豊富な構文知識を取り入れることで,ペアワイズアスペクトと意見語抽出(paote)タスクを強化することを提案する。 まず,係り受けエッジやラベルを統一的にモデル化するlagcn( label-aware graph convolutional network)や,posタグを統一的にモデル化するローカルアテンションモジュールなど,構文特徴をエンコードする構文フュージョンエンコーダを構築した。 ペアリングでは、高次アスペクト-オピニオン項のペアリングにBiaffineとTriaffineスコアを採用し、一方、構文認識スコアにLAGCNの構文強化表現を修復する。 4つのベンチマークデータセットによる実験結果から、我々のモデルは現在の最先端のベースラインよりも優れており、同時に、構文知識による説明可能な予測が得られている。

In this paper, we propose to enhance the pair-wise aspect and opinion terms extraction (PAOTE) task by incorporating rich syntactic knowledge. We first build a syntax fusion encoder for encoding syntactic features, including a label-aware graph convolutional network (LAGCN) for modeling the dependency edges and labels, as well as the POS tags unifiedly, and a local-attention module encoding POS tags for better term boundary detection. During pairing, we then adopt Biaffine and Triaffine scoring for high-order aspect-opinion term pairing, in the meantime re-harnessing the syntax-enriched representations in LAGCN for syntactic-aware scoring. Experimental results on four benchmark datasets demonstrate that our model outperforms current state-of-the-art baselines, meanwhile yielding explainable predictions with syntactic knowledge.
翻訳日:2021-05-07 21:27:01 公開日:2021-05-06
# (参考訳) 不一致によるベイズアクティブラーニング:幾何学的視点

Bayesian Active Learning by Disagreements: A Geometric Perspective ( http://arxiv.org/abs/2105.02543v1 )

ライセンス: CC BY 4.0
Xiaofeng Cao and Ivor W. Tsang(参考訳) モデル不確実性推定と相互作用するコアセット構造上でBALDを実行するフレームワークである不一致による幾何学的ベイズアクティブラーニング(GBALD)を提案する。 技術的には、GBALDは楕円体にコアセットを構築するが、典型的な球ではない。 改善点は2つある: 1) 不正な事前処理を緩和し、2) 冗長な見積もりを減らす。 理論的には、楕円体による測地探索は、誤差のより低い境界を導き、球体よりもゼロ誤差を容易に達成することができる。 GBALDはノイズや繰り返しのサンプルに対してわずかに摂動があり、BALDやBatchBALDなど既存の深層学習アプローチよりも優れています。

We present geometric Bayesian active learning by disagreements (GBALD), a framework that performs BALD on its core-set construction interacting with model uncertainty estimation. Technically, GBALD constructs core-set on ellipsoid, not typical sphere, preventing low-representative elements from spherical boundaries. The improvements are twofold: 1) relieve uninformative prior and 2) reduce redundant estimations. Theoretically, geodesic search with ellipsoid can derive tighter lower bound on error and easier to achieve zero error than with sphere. Experiments show that GBALD has slight perturbations to noisy and repeated samples, and outperforms BALD, BatchBALD and other existing deep active learning approaches.
翻訳日:2021-05-07 21:14:05 公開日:2021-05-06
# (参考訳) SGG: キーワード生成のための選択、ガイド、生成の学習

SGG: Learning to Select, Guide, and Generate for Keyphrase Generation ( http://arxiv.org/abs/2105.02544v1 )

ライセンス: CC BY-SA 4.0
Jing Zhao, Junwei Bao, Yifan Wang, Youzheng Wu, Xiaodong He, Bowen Zhou(参考訳) 文書で議論される高レベルな話題を簡潔に要約するキーフレーズは、ソーステキストに明示的に現れる現在のキーフレーズと、連続したサブシーケンスと一致しないがソースと高度に意味的に関連しているキーフレーズに分類することができる。 既存のキーフレーズ生成の多くは、これらの2つのカテゴリを明確に区別することなく、現在および不在のキーフレーズを同期的に生成する。 本稿では,現在および不在キーフレーズ生成を異なる機構で別々に扱うために,sgg(select-guide-generate)アプローチを提案する。 具体的には、現在キーフレーズ生成に集中している低層におけるポインティングベースのセレクタと、欠キーフレーズ生成専用の高層における選択誘導ジェネレータと、セレクタからジェネレータへ情報を転送する中間のガイド装置とからなる階層型ニューラルネットワークである。 4つのキーフレーズ生成ベンチマークにおける実験結果から,本モデルの有効性が示された。 さらに,自然言語生成タスクにおける拡張性を示すタイトル生成タスクにsggを拡張する。

Keyphrases, that concisely summarize the high-level topics discussed in a document, can be categorized into present keyphrase which explicitly appears in the source text, and absent keyphrase which does not match any contiguous subsequence but is highly semantically related to the source. Most existing keyphrase generation approaches synchronously generate present and absent keyphrases without explicitly distinguishing these two categories. In this paper, a Select-Guide-Generate (SGG) approach is proposed to deal with present and absent keyphrase generation separately with different mechanisms. Specifically, SGG is a hierarchical neural network which consists of a pointing-based selector at low layer concentrated on present keyphrase generation, a selection-guided generator at high layer dedicated to absent keyphrase generation, and a guider in the middle to transfer information from selector to generator. Experimental results on four keyphrase generation benchmarks demonstrate the effectiveness of our model, which significantly outperforms the strong baselines for both present and absent keyphrases generation. Furthermore, we extend SGG to a title generation task which indicates its extensibility in natural language generation tasks.
翻訳日:2021-05-07 20:43:41 公開日:2021-05-06
# (参考訳) 構造化アンサンブル:アンサンブル法におけるメモリフットプリント削減の一手法

Structured Ensembles: an Approach to Reduce the Memory Footprint of Ensemble Methods ( http://arxiv.org/abs/2105.02551v1 )

ライセンス: CC BY 4.0
Jary Pomponi, Simone Scardapane, and Aurelio Uncini(参考訳) 本稿では,より深いニューラルネットワークのための新しいアンサンブル手法を提案する。 特に,本論文では,同一の訓練されていないニューラルネットワークから複数のサブネットワークを抽出し,元のアーキテクチャ上で微分可能なスケーリングを組み合わせたエンドツーエンド最適化タスクと,アンサンブルの多様性を指向した複数の正規化項を組み合わせることを提案する。 我々の提案はサブ構造の検出と抽出を目的としており、構造化アンサンブルと呼ぶ。 大規模な実験により,本手法は競合する手法よりも高い精度,あるいは同等の精度を達成できるが,ストレージは大幅に削減できることを示した。 さらに,予測キャリブレーションと不確実性の観点からのアンサンブルの評価を行い,最新技術との比較を行った。 最後に,連続学習文献とのリンクを描き,サブリニアなメモリコストでタスクの連続的なストリームを処理するためのフレームワークの修正を提案する。 我々は、破滅的な忘れを軽減し、平均的正確性と記憶の利点を強調するための、いくつかの代替戦略と比較する。

In this paper, we propose a novel ensembling technique for deep neural networks, which is able to drastically reduce the required memory compared to alternative approaches. In particular, we propose to extract multiple sub-networks from a single, untrained neural network by solving an end-to-end optimization task combining differentiable scaling over the original architecture, with multiple regularization terms favouring the diversity of the ensemble. Since our proposal aims to detect and extract sub-structures, we call it Structured Ensemble. On a large experimental evaluation, we show that our method can achieve higher or comparable accuracy to competing methods while requiring significantly less storage. In addition, we evaluate our ensembles in terms of predictive calibration and uncertainty, showing they compare favourably with the state-of-the-art. Finally, we draw a link with the continual learning literature, and we propose a modification of our framework to handle continuous streams of tasks with a sub-linear memory cost. We compare with a number of alternative strategies to mitigate catastrophic forgetting, highlighting advantages in terms of average accuracy and memory.
翻訳日:2021-05-07 20:31:34 公開日:2021-05-06
# (参考訳) 多言語社会の多様性を捉え

Capturing the diversity of multilingual societies ( http://arxiv.org/abs/2105.02570v1 )

ライセンス: CC BY 4.0
Thomas Louf, David Sanchez and Jose J. Ramasco(参考訳) 世界の言語にエンコードされる文化の多様性は危険にさらされており、グローバル化が進む中で、過去数十年で多くの言語が危険にさらされている。 この多様性を維持するためには、まず言語絶滅の要因と、どのメカニズムが共存を可能にするかを理解する必要がある。 本稿では,言語変化における作業プロセスについて,理論的およびデータ駆動的視点の結合を通して考察する。 twitterと国勢調査データを用いた多言語社会における言語空間パターンの大規模実証研究は、幅広い多様性をもたらす。 多言語話者を含むほぼ完全な言語話者の混合から、言語領域と主にその境界にある多言語話者とを巧みに分離した分離まで幅広い。 これらの異なる状態がどのように出現し、特に安定しているかを理解するために、他言語を習得し、両言語が絶滅危惧言語の使用を好む場合に言語共存が達成できるモデルを提案する。 メタポピュレーションフレームワークで実施したシミュレーションでは、混合状態の安定性や2つの言語領域の境界の存在を説明するために、人の移動から生じる空間的相互作用の重要性が強調されている。 言語間の関係を規定するパラメータの変化は、グローバルな遷移を行うシステムの不安定化を可能にする。 私たちのモデルによれば、移行を一度行えばシステムの進化は歴史に依存します。 ステータス quo を変更するのは簡単だが、以前の状態に戻るのは簡単でも、可能でもないかもしれない。

Cultural diversity encoded within languages of the world is at risk, as many languages have become endangered in the last decades in a context of growing globalization. To preserve this diversity, it is first necessary to understand what drives language extinction, and which mechanisms might enable coexistence. Here, we consider the processes at work in language shift through a conjunction of theoretical and data-driven perspectives. A large-scale empirical study of spatial patterns of languages in multilingual societies using Twitter and census data yields a wide diversity. It ranges from an almost complete mixing of language speakers, including multilinguals, to segregation with a neat separation of the linguistic domains and with multilinguals mainly at their boundaries. To understand how these different states can emerge and, especially, become stable, we propose a model in which coexistence of languages may be reached when learning the other language is facilitated and when bilinguals favor the use of the endangered language. Simulations carried out in a metapopulation framework highlight the importance of spatial interactions arising from people mobility to explain the stability of a mixed state or the presence of a boundary between two linguistic regions. Changes in the parameters regulating the relation between the languages can destabilize a system, which undergoes global transitions. According to our model, the evolution of the system once it undergoes a transition is highly history-dependent. It is easy to change the status quo but going back to a previous state may not be simple or even possible.
翻訳日:2021-05-07 20:08:00 公開日:2021-05-06
# (参考訳) グラフネットワークを用いたメッシュ領域における定常流れ場の直接予測

Direct Prediction of Steady-State Flow Fields in Meshed Domain with Graph Networks ( http://arxiv.org/abs/2105.02575v1 )

ライセンス: CC BY 4.0
Lukas Harsch, Stefan Riedelbauch(参考訳) 本研究では,所定の形状設定に対して定常流場を直接予測するモデルを提案する。 設定は、メッシュ領域としての流体の流れのオイラー表現である。 メッシュ空間シミュレーションをグラフとして処理するためのグラフネットワークアーキテクチャを導入する。 このモデルの利点は,局所的な構造を探索しながら,地球規模の物理システムを深く理解することにある。 これは直接予測に不可欠であり、既存の方法よりも優れている。

We propose a model to directly predict the steady-state flow field for a given geometry setup. The setup is an Eulerian representation of the fluid flow as a meshed domain. We introduce a graph network architecture to process the mesh-space simulation as a graph. The benefit of our model is a strong understanding of the global physical system, while being able to explore the local structure. This is essential to perform direct prediction and is thus superior to other existing methods.
翻訳日:2021-05-07 20:06:39 公開日:2021-05-06
# (参考訳) バンディットを基盤としたピアツーピア融資の双方向市場における集中マッチング

Bandit based centralized matching in two-sided markets for peer to peer lending ( http://arxiv.org/abs/2105.02589v1 )

ライセンス: CC BY 4.0
Soumajyoti Sarkar(参考訳) 両サイドのオンラインプラットフォームでの連続的な資金調達により、ピアツーピアの貸し出しが可能になり、それぞれの決定が市場の他のコントリビュータに影響を与える可能性がある。 しかし、ピア貸付のためのオンラインプラットフォームにおけるシーケンシャルコントリビューションのダイナミクスを理解することは、オープンエンドの研究課題である。 これらのプラットフォームにおける集中型投資メカニズムは、借り手がどの時点でも単一の貸し手から直面する暗黙の競争を理解するのを困難にしている。 マッチング市場(英: Matching market)とは、取引における双方のエージェントの選好によって市場を分散化することができる、ペアリングエージェントのモデルである。 我々は、投資家や貸し手も借り手の好みに基づいて投資の制限に直面している場合に、一致する市場を利用して、両面のプラットフォームにおける投資デザインを調査する。 この状況は、既存の借り手競争に加えて、特に市場における自己の立ち位置が不透明であり、投資が受け入れられる可能性や準備価格に達するプロジェクトに対する借り手融資の要求がある場合に、貸し手間で暗黙の競争を生じさせる。 我々は、時間とともに競争の不確実性のダイナミクスに基づいて、金融機関が選択を調整できるシーケンシャルな意思決定に基づく手法を考案する。 我々は,二面的市場マッチングを逐次決定の枠組みでシミュレートし,最適な借主・貸主マッチングと比較して,貸主の後悔のダイナミクスを示すとともに,貸主の後悔が意思決定ステップにおける学習に影響を与える可能性のある貸主の初期選好に依存することを明らかにする。

Sequential fundraising in two sided online platforms enable peer to peer lending by sequentially bringing potential contributors, each of whose decisions impact other contributors in the market. However, understanding the dynamics of sequential contributions in online platforms for peer lending has been an open ended research question. The centralized investment mechanism in these platforms makes it difficult to understand the implicit competition that borrowers face from a single lender at any point in time. Matching markets are a model of pairing agents where the preferences of agents from both sides in terms of their preferred pairing for transactions can allow to decentralize the market. We study investment designs in two sided platforms using matching markets when the investors or lenders also face restrictions on the investments based on borrower preferences. This situation creates an implicit competition among the lenders in addition to the existing borrower competition, especially when the lenders are uncertain about their standing in the market and thereby the probability of their investments being accepted or the borrower loan requests for projects reaching the reserve price. We devise a technique based on sequential decision making that allows the lenders to adjust their choices based on the dynamics of uncertainty from competition over time. We simulate two sided market matchings in a sequential decision framework and show the dynamics of the lender regret amassed compared to the optimal borrower-lender matching and find that the lender regret depends on the initial preferences set by the lenders which could affect their learning over decision making steps.
翻訳日:2021-05-07 19:56:42 公開日:2021-05-06
# (参考訳) ツリーアンサンブルのためのメモリ効率のよい形式検証ツールのスケールアップ

Scaling up Memory-Efficient Formal Verification Tools for Tree Ensembles ( http://arxiv.org/abs/2105.02595v1 )

ライセンス: CC BY-SA 4.0
John T\"ornblom and Simin Nadjm-Tehrani(参考訳) 機械学習モデルが正確であるだけでなく、堅牢である出力を出力することを保証するため、最近の研究では、機械学習モデルの堅牢性特性を正式に検証することを提案する。 実際の安全クリティカルシステムに適用するには,入力領域のばらつきによる組合せ爆発を管理し,汎用性やドメイン固有の要件から導かれる正確性特性を検証することが必要である。 本稿では,前述した投票アルゴリズムをツール記述として定式化し,そのツールセットを体系的スケーラビリティ研究のメカニズムで拡張する。 特に,a) コア検証エンジンからプロパティチェックを分離することで,多様な要件の検証が可能になること,b) 検証に要する時間とメモリ使用の両面でツールのスケーラビリティ,c) アルゴリズムが大規模並列化に適した魅力的な特性を持っていること,などが示されている。 本研究は,2つのケーススタディ,すなわち,デジタル認識と航空機衝突回避の2つのケーススタディにおいて,ツールの資源利用性を評価するための第1ケーススタディと,汎用的正当性検証能力を評価するための第2ケーススタディである。

To guarantee that machine learning models yield outputs that are not only accurate, but also robust, recent works propose formally verifying robustness properties of machine learning models. To be applicable to realistic safety-critical systems, the used verification algorithms need to manage the combinatorial explosion resulting from vast variations in the input domain, and be able to verify correctness properties derived from versatile and domain-specific requirements. In this paper, we formalise the VoTE algorithm presented earlier as a tool description, and extend the tool set with mechanisms for systematic scalability studies. In particular, we show a) how the separation of property checking from the core verification engine enables verification of versatile requirements, b) the scalability of the tool, both in terms of time taken for verification and use of memory, and c) that the algorithm has attractive properties that lend themselves well for massive parallelisation. We demonstrate the application of the tool in two case studies, namely digit recognition and aircraft collision avoidance, where the first case study serves to assess the resource utilisation of the tool, and the second to assess the ability to verify versatile correctness properties.
翻訳日:2021-05-07 19:34:24 公開日:2021-05-06
# (参考訳) GraphFormers: リンクされたテキスト表現のためのGNN対応言語モデル

GraphFormers: GNN-nested Language Models for Linked Text Representation ( http://arxiv.org/abs/2105.02605v1 )

ライセンス: CC BY 4.0
Junhan Yang, Zheng Liu, Shitao Xiao, Chaozhuo Li, Guangzhong Sun, and Xing Xie(参考訳) オンライン広告やレコメンダシステムなど、多くのインテリジェントwebアプリケーションでは、リンクされたテキスト表現が重要である。 事前学習された言語モデルとグラフニューラルネットワークに関する最近のブレークスルーは、対応する技術の開発を促進する。 しかし、既存の研究は主にカスケードモデル構造に依存しており、テキストは言語モデルによって独立に符号化され、テキスト埋め込みはグラフニューラルネットワークによってさらに集約される。 上記のプロセスでは,近隣の情報は不十分に利用されており,表現品質が制限されていると論じる。 本研究では,言語モデルの各トランスフォーマー層にグラフニューラルネットワークをネストするグラフフォーマーを提案する。 上記のアーキテクチャに加えて、リンクされたテキストは、自身のセマンティクスの強化のために近隣の情報を反復的に抽出する。 このような反復的なワークフローは、その表現品質に寄与する近隣情報のより効果的な利用をもたらす。 さらに,より効率的かつ両立可能な一方向グラフフォーマと呼ばれる適応法を導入し,学習効果を高めるために,近隣認識マスク型言語モデルと呼ばれる事前学習戦略を活用する。 提案手法の有効性を検証した3つの大規模リンクテキストデータセットを用いて実験を行った。

Linked text representation is critical for many intelligent web applications, such as online advertisement and recommender systems. Recent breakthroughs on pretrained language models and graph neural networks facilitate the development of corresponding techniques. However, the existing works mainly rely on cascaded model structures: the texts are independently encoded by language models at first, and the textual embeddings are further aggregated by graph neural networks. We argue that the neighbourhood information is insufficiently utilized within the above process, which restricts the representation quality. In this work, we propose GraphFormers, where graph neural networks are nested alongside each transformer layer of the language models. On top of the above architecture, the linked texts will iteratively extract neighbourhood information for the enhancement of their own semantics. Such an iterative workflow gives rise to more effective utilization of neighbourhood information, which contributes to the representation quality. We further introduce an adaptation called unidirectional GraphFormers, which is much more efficient and comparably effective; and we leverage a pretraining strategy called the neighbourhood-aware masked language modeling to enhance the training effect. We perform extensive experiment studies with three large-scale linked text datasets, whose results verify the effectiveness of our proposed methods.
翻訳日:2021-05-07 19:20:00 公開日:2021-05-06
# (参考訳) モバイルデバイスにディープラーニングモデルをデプロイする上での課題と障害

Challenges and Obstacles Towards Deploying Deep Learning Models on Mobile Devices ( http://arxiv.org/abs/2105.02613v1 )

ライセンス: CC0 1.0
Hamid Tabani, Ajay Balasubramaniam, Elahe Arani, Bahram Zonooz(参考訳) コンピュータビジョンや音声認識から自動運転車の予測軌道まで、ディープラーニングのアプローチは多くの分野の最前線にある。 ディープラーニングモデルは、高レベルで汎用的なフレームワークとライブラリを多用して開発されている。 これらのモデルをモバイルデバイス上で実行するには、ハードウェア対応の最適化が必要であり、多くの場合、モデルを他のフォーマットに変換するか、あるいはサードパーティのフレームワークを使用する。 実際、開発済みのモデルのほとんどは、変換、適応、そして場合によっては、ターゲットプラットフォームにモデルをデプロイするフレームワークの要求と機能に合致する完全なリトレーニングのプロセスを実行する必要があります。 ウェアラブルデバイスからハイパフォーマンスgpuクラスタに至るまで、異種コンピューティング要素を持つさまざまなハードウェアプラットフォームが、ディープラーニングモデルの実行に使用されている。 本稿では,モバイルデバイスにディープラーニングモデルをデプロイするための既存の課題,障害,実践的ソリューションについて述べる。

From computer vision and speech recognition to forecasting trajectories in autonomous vehicles, deep learning approaches are at the forefront of so many domains. Deep learning models are developed using plethora of high-level, generic frameworks and libraries. Running those models on the mobile devices require hardware-aware optimizations and in most cases converting the models to other formats or using a third-party framework. In reality, most of the developed models need to undergo a process of conversion, adaptation, and, in some cases, full retraining to match the requirements and features of the framework that is deploying the model on the target platform. Variety of hardware platforms with heterogeneous computing elements, from wearable devices to high-performance GPU clusters are used to run deep learning models. In this paper, we present the existing challenges, obstacles, and practical solutions towards deploying deep learning models on mobile devices.
翻訳日:2021-05-07 19:06:57 公開日:2021-05-06
# (参考訳) 画像分割のための新しいフォールディングボールアルゴリズム

A Novel Falling-Ball Algorithm for Image Segmentation ( http://arxiv.org/abs/2105.02615v1 )

ライセンス: CC BY 4.0
Asra Aslam, Ekram Khan, Mohammad Samar Ansari, M.M. Sufyan Beg(参考訳) 画像分割 (image segmentation) とは、背景からオブジェクトを分離することであり、デジタル画像処理の最も困難な側面の1つである。 実際、100%精度のセグメンテーションアルゴリズムを設計することは不可能であり、そのため、特定の制限のある文献で多くのセグメンテーション技術が提案されている。 本稿では,領域に基づくセグメンテーションアルゴリズムである新しいフォールディングボールアルゴリズムと,(ウォーターフォールモデルに基づく)流域変換に代わる手法を提案する。 提案アルゴリズムは,丘陵地帯から落下する球が捕集流域で停止すると仮定して,捕集流域を検出する。 ひとたびキャッチメント盆地が特定されると、マルチクリエーションファジィ論理を用いて、各画素とキャッチメント盆地の1つとの関係を求める。 エッジは、構成関数の助けを借りて、画像を異なるキャッチメント盆地に分割することで構成される。 最後に、閉輪郭アルゴリズムを用いて閉領域を見つけ、閉領域内の物体を強度情報を用いて分割する。 提案アルゴリズムの性能は客観的にも主観的にも評価される。 シミュレーションの結果,提案アルゴリズムは従来のソベルエッジ検出法や流域分割アルゴリズムよりも優れた性能を示した。 比較分析では,提案手法が既存のセグメンテーション法よりも優れていることを示すために,様々な比較手法が用いられている。

Image segmentation refers to the separation of objects from the background, and has been one of the most challenging aspects of digital image processing. Practically it is impossible to design a segmentation algorithm which has 100% accuracy, and therefore numerous segmentation techniques have been proposed in the literature, each with certain limitations. In this paper, a novel Falling-Ball algorithm is presented, which is a region-based segmentation algorithm, and an alternative to watershed transform (based on waterfall model). The proposed algorithm detects the catchment basins by assuming that a ball falling from hilly terrains will stop in a catchment basin. Once catchment basins are identified, the association of each pixel with one of the catchment basin is obtained using multi-criterion fuzzy logic. Edges are constructed by dividing image into different catchment basins with the help of a membership function. Finally closed contour algorithm is applied to find closed regions and objects within closed regions are segmented using intensity information. The performance of the proposed algorithm is evaluated both objectively as well as subjectively. Simulation results show that the proposed algorithms gives superior performance over conventional Sobel edge detection methods and the watershed segmentation algorithm. For comparative analysis, various comparison methods are used for demonstrating the superiority of proposed methods over existing segmentation methods.
翻訳日:2021-05-07 19:00:08 公開日:2021-05-06
# (参考訳) テキスト分類のためのタスク固有情報を用いた注意に基づく説明の忠実度向上

Improving the Faithfulness of Attention-based Explanations with Task-specific Information for Text Classification ( http://arxiv.org/abs/2105.02657v1 )

ライセンス: CC BY 4.0
George Chrysostomou and Nikolaos Aletras(参考訳) 自然言語処理におけるニューラルネットワークアーキテクチャは、しばしば注意機構を用いて入力トークン表現上の確率分布を生成する。 様々なタスクのパフォーマンスを改善するために実験的に注意が払われているが、モデル予測の説明として重みが広く使われている。 最近の研究(Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019)では、エンコーダとタスク間の忠実な説明(Jacovi and Goldberg, 2020)は一般的には考えられないことが示されている。 本稿では,テキスト分類における注意に基づく説明の忠実性の向上を目指す。 本研究では,タスク固有の非コンテクスト化情報を学習し,本来の注意重みを拡大するタスクスケーリング(TaSc)機構を提案する。 説明忠実度評価テストの結果,提案した3種類のTaScは,2つの注意機構,5つのエンコーダ,5つのテキスト分類データセット間で,予測性能を犠牲にすることなく,注意に基づく説明を改善することがわかった。 最後に,tascは,広く使われている3つの解釈手法と比較して,より忠実な注意に基づく説明を一貫して提供できることを実証する。

Neural network architectures in natural language processing often use attention mechanisms to produce probability distributions over input token representations. Attention has empirically been demonstrated to improve performance in various tasks, while its weights have been extensively used as explanations for model predictions. Recent studies (Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019) have showed that it cannot generally be considered as a faithful explanation (Jacovi and Goldberg, 2020) across encoders and tasks. In this paper, we seek to improve the faithfulness of attention-based explanations for text classification. We achieve this by proposing a new family of Task-Scaling (TaSc) mechanisms that learn task-specific non-contextualised information to scale the original attention weights. Evaluation tests for explanation faithfulness, show that the three proposed variants of TaSc improve attention-based explanations across two attention mechanisms, five encoders and five text classification datasets without sacrificing predictive performance. Finally, we demonstrate that TaSc consistently provides more faithful attention-based explanations compared to three widely-used interpretability techniques.
翻訳日:2021-05-07 18:47:08 公開日:2021-05-06
# (参考訳) 順序アンロケーション:ノイズと不完全距離測定による目標定位

Ordinal UNLOC: Target Localization with Noisy and Incomplete Distance Measures ( http://arxiv.org/abs/2105.02671v1 )

ライセンス: CC BY 4.0
Mahesh K. Banavar, Shandeepa Wickramasinghe, Monalisa Achalla, Jie Sun(参考訳) ターゲットローカライズにおける大きな課題は、信頼性の高い距離測定の欠如から生じる。 この問題は特に室内環境において、壁、床、家具、および人や商品の移動、温度の変化、気流などの動的に変化する条件の存在によって顕著である。 そこで我々は,信頼性のある距離測定を必要とせず,目標の位置を推定する新しい計算フレームワークを開発した。 順序アンロケーションと呼ぶこの手法は、既知の位置におけるアンカーペアからの信号強度を目標と比較して得られる順序データのみを使用する。 評価手法は,ランクアグリゲーション,関数学習,近接型展開最適化を利用する。 その結果、未知のパラメータを持つ共通伝達モデルの正確な目標定位と、実用的な設定を想起するノイズ観測が得られる。 本結果は数値シミュレーションとハードウェア実験で検証した。

A main challenge in target localization arises from the lack of reliable distance measures. This issue is especially pronounced in indoor settings due to the presence of walls, floors, furniture, and other dynamically changing conditions such as the movement of people and goods, varying temperature, and airflows. Here, we develop a new computational framework to estimate the location of a target without the need for reliable distance measures. The method, which we term Ordinal UNLOC, uses only ordinal data obtained from comparing the signal strength from anchor pairs at known locations to the target. Our estimation technique utilizes rank aggregation, function learning as well as proximity-based unfolding optimization. As a result, it yields accurate target localization for common transmission models with unknown parameters and noisy observations that are reminiscent of practical settings. Our results are validated by both numerical simulations and hardware experiments.
翻訳日:2021-05-07 18:23:36 公開日:2021-05-06
# (参考訳) ss-cada : 冠動脈分画に対する半教師付きクロス解剖ドメイン適応

SS-CADA: A Semi-Supervised Cross-Anatomy Domain Adaptation for Coronary Artery Segmentation ( http://arxiv.org/abs/2105.02674v1 )

ライセンス: CC BY 4.0
Jingyang Zhang, Ran Gu, Guotai Wang, Hongzhi Xie, Lixu Gu(参考訳) 畳み込みニューラルネットワークによる冠動脈のセグメンテーションは有望であるが、膨大な労力を要する手動アノテーションを必要とする。 fis(public labeled fundus images)における網膜血管からの知識の伝達は、共通の管状構造のため、x線血管造影法 (xas) における冠動脈分画の注釈要件を減少させる可能性がある。 しかし, 異種解剖学的領域における内在的に異なる血管性特性から, 解剖学的領域シフトが問題視されている。 そこで本研究では, xasの冠状動脈に限ったアノテーションのみを必要とする半教師付きクロス解剖ドメイン適応(ss-cada)を提案する。 少数のラベル付きXAと公開ラベル付きFIの監督により,解剖学的異なる血管性特性を考慮した特徴マップを個別に正規化するための,血管性特異的バッチ正規化(VSBN)を提案する。 さらに, アノテーションの効率をさらに向上させるために, 予測一貫性制約を課すことで, 豊富なラベルのないxasを活用すべく, 自己センシング平均教師 (semt) を用いる。 広範囲にわたる実験により,ss-cadaは難易度の高いクロス解剖学的領域シフトを解消し,少量のxasで冠状動脈の正確なセグメント化を実現することができた。

The segmentation of coronary arteries by convolutional neural network is promising yet requires a large amount of labor-intensive manual annotations. Transferring knowledge from retinal vessels in widely-available public labeled fundus images (FIs) has a potential to reduce the annotation requirement for coronary artery segmentation in X-ray angiograms (XAs) due to their common tubular structures. However, it is challenged by the cross-anatomy domain shift due to the intrinsically different vesselness characteristics in different anatomical regions under even different imaging protocols. To solve this problem, we propose a Semi-Supervised Cross-Anatomy Domain Adaptation (SS-CADA) which requires only limited annotations for coronary arteries in XAs. With the supervision from a small number of labeled XAs and publicly available labeled FIs, we propose a vesselness-specific batch normalization (VSBN) to individually normalize feature maps for them considering their different cross-anatomic vesselness characteristics. In addition, to further facilitate the annotation efficiency, we employ a self-ensembling mean-teacher (SEMT) to exploit abundant unlabeled XAs by imposing a prediction consistency constraint. Extensive experiments show that our SS-CADA is able to solve the challenging cross-anatomy domain shift, achieving accurate segmentation for coronary arteries given only a small number of labeled XAs.
翻訳日:2021-05-07 17:50:47 公開日:2021-05-06
# (参考訳) 2.5次元車両オドメトリーによる視覚計測

A 2.5D Vehicle Odometry Estimation for Vision Applications ( http://arxiv.org/abs/2105.02679v1 )

ライセンス: CC BY 4.0
Paul Moran, Leroy-Francisco Periera, Anbuchezhiyan Selvaraju, Tejash Prakash, Pantelis Ermilios, John McDonald, Jonathan Horgan, Ciar\'an Eising(参考訳) 本稿では、車両が世界中を移動する際に、車両に搭載されたセンサの姿勢を推定する方法を提案する。 一般的な車両用オドメトリーセンサーのセットに基づいており、出力は自動車の通信バス(例えば)で利用可能である。 canまたはflexray) 車輪センサに基づく平面オドメトリとリニアサスペンションセンサに基づくサスペンションモデルを組み合わせた一連のステップについて述べる。 目標は、カメラのポーズをより正確に推定することである。 可視化とコンピュータビジョンの両方への応用について概説する。

This paper proposes a method to estimate the pose of a sensor mounted on a vehicle as the vehicle moves through the world, an important topic for autonomous driving systems. Based on a set of commonly deployed vehicular odometric sensors, with outputs available on automotive communication buses (e.g. CAN or FlexRay), we describe a set of steps to combine a planar odometry based on wheel sensors with a suspension model based on linear suspension sensors. The aim is to determine a more accurate estimate of the camera pose. We outline its usage for applications in both visualisation and computer vision.
翻訳日:2021-05-07 17:41:01 公開日:2021-05-06
# (参考訳) テキスト表現のアンタングル学習のための相互情報の新しい推定法

A Novel Estimator of Mutual Information for Learning to Disentangle Textual Representations ( http://arxiv.org/abs/2105.02685v1 )

ライセンス: CC0 1.0
Pierre Colombo and Chloe Clavel and Pablo Piantanida(参考訳) テキストデータの不整合表現を学習することは、公平な分類、スタイル転送、文生成など、多くの自然言語タスクにとって不可欠である。 テキストデータの文脈における支配的なアプローチは、潜在コードから推論されにくい属性値を推論することを目的とした敵(判別器)のトレーニングに依存するか、潜在コードと値属性の間の相互情報の変動境界の最小化に頼っている。 【ただし、利用可能な方法は、絡み合いの度合い(または力)のきめ細かい制御を与えることができない。 対して {adversarial method} は極めて単純であるが、未望の属性に関するかなりの量の情報が残されているため、訓練期間中に完全に機能しているようである。 本稿では,エンコーダの属性と潜在コード間の相互情報に対する新しい変分上界を提案する。 我々の限界は、Renyiの発散による近似誤差の制御を目標とし、より良い非絡み合い表現と、特にテキストデータに提案される所望の非絡み合いの程度を正確に制御することである。 さらに、マルチクラスシナリオにおける他の損失の縮退に苦しむことはない。 本手法は,公平な分類とテキストスタイル転送タスクにおいて優れていることを示す。 さらに,文の異種表現と質を学習しようとする際に,スタイル転送における様々なトレードオフを示す新たな洞察を与える。

Learning disentangled representations of textual data is essential for many natural language tasks such as fair classification, style transfer and sentence generation, among others. The existent dominant approaches in the context of text data {either rely} on training an adversary (discriminator) that aims at making attribute values difficult to be inferred from the latent code {or rely on minimising variational bounds of the mutual information between latent code and the value attribute}. {However, the available methods suffer of the impossibility to provide a fine-grained control of the degree (or force) of disentanglement.} {In contrast to} {adversarial methods}, which are remarkably simple, although the adversary seems to be performing perfectly well during the training phase, after it is completed a fair amount of information about the undesired attribute still remains. This paper introduces a novel variational upper bound to the mutual information between an attribute and the latent code of an encoder. Our bound aims at controlling the approximation error via the Renyi's divergence, leading to both better disentangled representations and in particular, a precise control of the desirable degree of disentanglement {than state-of-the-art methods proposed for textual data}. Furthermore, it does not suffer from the degeneracy of other losses in multi-class scenarios. We show the superiority of this method on fair classification and on textual style transfer tasks. Additionally, we provide new insights illustrating various trade-offs in style transfer when attempting to learn disentangled representations and quality of the generated sentence.
翻訳日:2021-05-07 17:32:29 公開日:2021-05-06
# (参考訳) 分配外QAのための単語埋め込みの摂動学習

Learning to Perturb Word Embeddings for Out-of-distribution QA ( http://arxiv.org/abs/2105.02692v1 )

ライセンス: CC BY 4.0
Seanie Lee, Minki Kang, Juho Lee, Sung Ju Hwang(参考訳) QA models based on pretrained language mod-els have achieved remarkable performance onv arious benchmark datasets.However, QA models do not generalize well to unseen data that falls outside the training distribution, due to distributional shifts.Data augmentation(DA) techniques which drop/replace words have shown to be effective in regularizing the model from overfitting to the training data.Yet, they may adversely affect the QA tasks since they incur semantic changes that may lead to wrong answers for the QA task. この問題に対処するために,確率的雑音発生器をベースとした簡易かつ効果的なDA手法を提案する。 単語埋め込み摂動を1つのソース・データセットに埋め込んだQAモデルの性能を5つの異なるターゲット・ドメインで検証し,本手法がベースラインDA法を著しく上回ることを示す。 特に、トレーニングされたモデルは、240K以上の人工的に生成されたQAペアでトレーニングされたモデルよりも優れています。

QA models based on pretrained language mod-els have achieved remarkable performance onv arious benchmark datasets.However, QA models do not generalize well to unseen data that falls outside the training distribution, due to distributional shifts.Data augmentation(DA) techniques which drop/replace words have shown to be effective in regularizing the model from overfitting to the training data.Yet, they may adversely affect the QA tasks since they incur semantic changes that may lead to wrong answers for the QA task. To tackle this problem, we propose a simple yet effective DA method based on a stochastic noise generator, which learns to perturb the word embedding of the input questions and context without changing their semantics. We validate the performance of the QA models trained with our word embedding perturbation on a single source dataset, on five different target domains.The results show that our method significantly outperforms the baselineDA methods. Notably, the model trained with ours outperforms the model trained with more than 240K artificially generated QA pairs.
翻訳日:2021-05-07 17:06:52 公開日:2021-05-06
# (参考訳) 注意さえ必要か? imagenetではフィードフォワードレイヤーのスタックが驚くほどうまく機能する

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet ( http://arxiv.org/abs/2105.02723v1 )

ライセンス: CC BY 4.0
Luke Melas-Kyriazi(参考訳) 画像分類やその他の視覚タスクにおける視覚変換器の強い性能は、多面的注意層の設計に起因することが多い。 しかし、この強いパフォーマンスにどの程度の注意が払われるかは不明だ。 この短いレポートでは、注意層は必要か? 具体的には、視覚変換器の注意層をパッチ寸法に印加したフィードフォワード層に置き換える。 結果として生じるアーキテクチャは、単にパッチと機能次元を交互に適用した一連のフィードフォワード層である。 ImageNetの実験では、このアーキテクチャは驚くほどよく機能する: ViT/DeiTベースサイズのモデルでは、それぞれ77.9\%と79.9\%に対して、74.9\%のトップ-1の精度が得られる。 これらの結果は、例えばパッチの埋め込みのような注意以外の視覚トランスフォーマーの側面が、以前考えられていたよりも強いパフォーマンスに責任があることを示唆している。 これらの結果がコミュニティに、現在のモデルがこれほど効果的である理由を理解しようと、より多くの時間を費やすことを願っています。

The strong performance of vision transformers on image classification and other vision tasks is often attributed to the design of their multi-head attention layers. However, the extent to which attention is responsible for this strong performance remains unclear. In this short report, we ask: is the attention layer even necessary? Specifically, we replace the attention layer in a vision transformer with a feed-forward layer applied over the patch dimension. The resulting architecture is simply a series of feed-forward layers applied over the patch and feature dimensions in an alternating fashion. In experiments on ImageNet, this architecture performs surprisingly well: a ViT/DeiT-base-sized model obtains 74.9\% top-1 accuracy, compared to 77.9\% and 79.9\% for ViT and DeiT respectively. These results indicate that aspects of vision transformers other than attention, such as the patch embedding, may be more responsible for their strong performance than previously thought. We hope these results prompt the community to spend more time trying to understand why our current models are as effective as they are.
翻訳日:2021-05-07 16:52:44 公開日:2021-05-06
# (参考訳) CrossWalk: 公正性向上したノード表現学習

CrossWalk: Fairness-enhanced Node Representation Learning ( http://arxiv.org/abs/2105.02725v1 )

ライセンス: CC BY 4.0
Ahmad Khajehnejad, Moein Khajehnejad, Mahmoudreza Babaei, Krishna P. Gummadi, Adrian Weller, Baharan Mirzasoleiman(参考訳) 機械学習システムが社会的不平等と不公平を増幅する可能性は、大衆や学術的な注目を集めている。 最近の研究は、そのような不公平を評価、緩和するためのアルゴリズムツールの開発に焦点を当てている。 しかし、グラフアルゴリズムの公平性を高める作業はほとんどない。 本稿では,影響最大化,リンク予測,ノード分類など様々なグラフアルゴリズムの公平性を高める,単純で有効で汎用的な手法であるcrosswalkをノード埋め込みに適用する。 CrossWalkは、DeepWalkやNode2Vecなど、任意のランダムウォークベースのノード表現学習アルゴリズムに適用できる。 鍵となるアイデアは、(1)グループの周囲に近い、または(2)ネットワーク内の異なるグループを接続するエッジを重み付けすることで、ランダムなウォークをグループの境界を横切るようにバイアスすることである。 CrossWalkは、グラフから必要な構造情報を保存しながら、埋め込み空間内の他のグループから、グループの周辺にあるノードを隣人に向けて引き出す。 大規模な実験により,合成および実ネットワークにおける影響の最大化,リンク予測,ノード分類など,様々なグラフアルゴリズムの公平性を高めるアルゴリズムの有効性が示された。

The potential for machine learning systems to amplify social inequities and unfairness is receiving increasing popular and academic attention. Much recent work has focused on developing algorithmic tools to assess and mitigate such unfairness. However, there is little work on enhancing fairness in graph algorithms. Here, we develop a simple, effective and general method, CrossWalk, that enhances fairness of various graph algorithms, including influence maximization, link prediction and node classification, applied to node embeddings. CrossWalk is applicable to any random walk based node representation learning algorithm, such as DeepWalk and Node2Vec. The key idea is to bias random walks to cross group boundaries, by upweighting edges which (1) are closer to the groups' peripheries or (2) connect different groups in the network. CrossWalk pulls nodes that are near groups' peripheries towards their neighbors from other groups in the embedding space, while preserving the necessary structural information from the graph. Extensive experiments show the effectiveness of our algorithm to enhance fairness in various graph algorithms, including influence maximization, link prediction and node classification in synthetic and real networks, with only a very small decrease in performance.
翻訳日:2021-05-07 16:47:21 公開日:2021-05-06
# (参考訳) sparse convolutional context-aware multiple instance learning for whole slide image classification

Sparse convolutional context-aware multiple instance learning for whole slide image classification ( http://arxiv.org/abs/2105.02726v1 )

ライセンス: CC BY 4.0
Marvin Lerousseau and Maria Vakalopoulou and Nikos Paragios and Eric Deutsch(参考訳) スライドのスライド全体は、診断を導く組織と、多くの疾患に対する治療の選択に関する多くの手がかりを示している。 しかし、ギガピクセルにおけるその巨大なサイズはしばしば、従来のニューラルネットワークアーキテクチャの使用を妨げます。 この問題を解決するために、MIL(Multiple Case Learning)は、スライドイメージ全体ではなくパッチのバッグを分類する。 ほとんどのMIL戦略はパッチは独立しており、同じ分散であると考えている。 提案手法は,sparse-input convolutional-based mil戦略によるパッチの空間情報の統合によるパラダイムシフトを示す。 定式化されたフレームワークは汎用的で柔軟性があり、スケーラブルであり、パッチレベルでの意思決定間のコンテキスト依存を導入した最初のものである。 パンキャンサーのサブタイプ分類において最先端のパフォーマンスを達成した。 この作業のコードは利用可能になる。

Whole slide microscopic slides display many cues about the underlying tissue guiding diagnostic and the choice of therapy for many diseases. However, their enormous size often in gigapixels hampers the use of traditional neural network architectures. To tackle this issue, multiple instance learning (MIL) classifies bags of patches instead of whole slide images. Most MIL strategies consider that patches are independent and identically distributed. Our approach presents a paradigm shift through the integration of spatial information of patches with a sparse-input convolutional-based MIL strategy. The formulated framework is generic, flexible, scalable and is the first to introduce contextual dependencies between decisions taken at the patch level. It achieved state-of-the-art performance in pan-cancer subtype classification. The code of this work will be made available.
翻訳日:2021-05-07 16:31:26 公開日:2021-05-06
# (参考訳) Digital Voodoo Dolls

Digital Voodoo Dolls ( http://arxiv.org/abs/2105.02738v1 )

ライセンス: CC BY 4.0
Marija Slavkovik, Clemens Stachl, Caroline Pitman, Jonathan Askonas(参考訳) 政府、商業企業、サービスの組織である機関は、個人と直接やりとりすることができない。 代わりに、私たちを表現するモデルが作成されます。 我々は、デジタルブードゥー人形と呼ばれる新しい忠実度の高い人物モデルの存在を議論する。 我々はそれを概念化し、その特徴を既存の人のモデルと比較する。 デジタルブードゥー人形は、彼らが代表する人の影響力や支配をはるかに超える存在によって区別される。 このような説明責任の欠如による倫理的問題について議論し、これらの懸念を緩和する方法について論じる。

An institution, be it a body of government, commercial enterprise, or a service, cannot interact directly with a person. Instead, a model is created to represent us. We argue the existence of a new high-fidelity type of person model which we call a digital voodoo doll. We conceptualize it and compare its features with existing models of persons. Digital voodoo dolls are distinguished by existing completely beyond the influence and control of the person they represent. We discuss the ethical issues that such a lack of accountability creates and argue how these concerns can be mitigated.
翻訳日:2021-05-07 16:22:13 公開日:2021-05-06
# (参考訳) 動的ラムダを用いたPose-Guided Sign Language Video GAN

Pose-Guided Sign Language Video GAN with Dynamic Lambda ( http://arxiv.org/abs/2105.02742v1 )

ライセンス: CC BY-SA 4.0
Christopher Kissel, Christopher K\"ummel, Dennis Ritter, Kristian Hildebrand(参考訳) GANを用いた手話ビデオ合成のための新しい手法を提案する。 stoll と al の以前の作業を拡張します。 ソフトゲートウォーピングGANのヒューマンセマンティックパーサを使用して、地域レベルの空間レイアウトでガイドされたフォトリアリスティックビデオを生成する。 合成ターゲットポーズは、独立および対照的なシグナーのパフォーマンスを改善する。 そこで我々は,200以上のシグナを持つ高度に異種なMS-ASLデータセットを用いてシステム評価を行い,SSIMは0.893となった。 さらに, 周期的な重み付け手法を導入し, トレーニングを活性化し, 定量的に良好な結果をもたらす。

We propose a novel approach for the synthesis of sign language videos using GANs. We extend the previous work of Stoll et al. by using the human semantic parser of the Soft-Gated Warping-GAN from to produce photorealistic videos guided by region-level spatial layouts. Synthesizing target poses improves performance on independent and contrasting signers. Therefore, we have evaluated our system with the highly heterogeneous MS-ASL dataset with over 200 signers resulting in a SSIM of 0.893. Furthermore, we introduce a periodic weighting approach to the generator that reactivates the training and leads to quantitatively better results.
翻訳日:2021-05-07 16:00:27 公開日:2021-05-06
# (参考訳) バイオメディカルインフォマティクス学生のための情報検索の導入

Introducing Information Retrieval for Biomedical Informatics Students ( http://arxiv.org/abs/2105.02746v1 )

ライセンス: CC BY 4.0
Sanya B. Taneja, Richard D. Boyce, William T. Reynolds, Denis Newman-Griffis(参考訳) バイオメディカル・インフォマティクス(BMI)の学生を自然言語処理(NLP)に導入するには,実践的なノウハウと技術深度のバランスをとる必要がある。 我々は,初等BMI学生をNLPによる情報検索に導入し,TF-IDFからBERTまでの文書表現戦略と言語モデルについて紹介した。 これらの活動は、学生に共通のユースケースをターゲットとしたハンズオン体験を提供し、幅広いアプリケーションのためのNLPワークフローの基本コンポーネントを導入する。

Introducing biomedical informatics (BMI) students to natural language processing (NLP) requires balancing technical depth with practical know-how to address application-focused needs. We developed a set of three activities introducing introductory BMI students to information retrieval with NLP, covering document representation strategies and language models from TF-IDF to BERT. These activities provide students with hands-on experience targeted towards common use cases, and introduce fundamental components of NLP workflows for a wide variety of applications.
翻訳日:2021-05-07 15:52:18 公開日:2021-05-06
# (参考訳) 法文における自然言語処理の倫理的限界について

On the Ethical Limits of Natural Language Processing on Legal Text ( http://arxiv.org/abs/2105.02751v1 )

ライセンス: CC BY 4.0
Dimitrios Tsarapatsanis, Nikolaos Aletras(参考訳) 法的テキストを分析する自然言語処理(NLP)手法は、法学者や実践者が大規模に法律を実証的に分析できる様々なツールを提供する。 しかし、研究者は、法律とシステムの予測能力の両方に関する真の洞察を得るために自然言語処理(NLP)システムを使用する倫理的限界を特定することに苦慮しているようだ。 本稿では,このような問題を体系的に考える方法をいくつか紹介する。 A) 学術的自由の重要性、(b) 国内だけでなく、さらに国際的にも幅広い法的・倫理的規範の存在、および(c) 計算法に関連する研究における道徳主義の脅威。 これら3つのパラメータそれぞれについて、法的なnlpコミュニティのための具体的な推奨事項を提供します。 我々の議論は、NLP研究コミュニティにおける最近の議論のきっかけとなった現実シナリオの研究を中心に構成されている。

Natural language processing (NLP) methods for analyzing legal text offer legal scholars and practitioners a range of tools allowing to empirically analyze law on a large scale. However, researchers seem to struggle when it comes to identifying ethical limits to using natural language processing (NLP) systems for acquiring genuine insights both about the law and the systems' predictive capacity. In this paper we set out a number of ways in which to think systematically about such issues. We place emphasis on three crucial normative parameters which have, to the best of our knowledge, been underestimated by current debates: (a) the importance of academic freedom, (b) the existence of a wide diversity of legal and ethical norms domestically but even more so internationally and (c) the threat of moralism in research related to computational law. For each of these three parameters we provide specific recommendations for the legal NLP community. Our discussion is structured around the study of a real-life scenario that has prompted recent debate in the legal NLP research community.
翻訳日:2021-05-07 15:46:54 公開日:2021-05-06
# (参考訳) 術後乳房照射後の腫瘍床容積自動記述のための塩分誘導深層学習ネットワーク

Saliency-Guided Deep Learning Network for Automatic Tumor Bed Volume Delineation in Post-operative Breast Irradiation ( http://arxiv.org/abs/2105.02771v1 )

ライセンス: CC BY 4.0
Mahdieh Kazemimoghadam, Weicheng Chi, Asal Rahimi, Nathan Kim, Prasanna Alluri, Chika Nwachukwu, Weiguo Lu and Xuejun Gu(参考訳) 乳房放射線治療の効果的な計画において, 効率的, 信頼性, 再現性のある標的容積デライン化が重要なステップである。 しかし, 腫瘍床体積 (TBV) と正常乳腺組織との対比はCT画像では比較的低いため, 術後乳房ターゲットの脱線は困難である。 本研究では,手動目標記述におけるマーカー誘導手順を模倣する手法を提案する。 術後乳房照射における正確なTBVセグメンテーションのためのSDL-Segアルゴリズムを開発した。 SDL-Segアルゴリズムは、マーカーの位置情報をU-Netモデルに組み込む。 この設計は、高い塩分濃度と低い塩分濃度の領域を強調する位置関連特徴をモデルにエンコードさせる。 塩分濃度マップはCT画像上のマーカーを同定して生成した。 マーカーの位置はガウスフィルタと結合した距離変換を用いて確率写像に変換される。 その後、SDL-Segネットワークに対して、CT画像と対応するサリエンシマップがマルチチャネル入力を形成した。 対象は,ガンマポッドに5-fraction partial breast radiation (pbi)療法を施行した29例のprone ct画像145例であった。 提案手法の性能を基本U-Netと比較した。 DSC, HD95, ASDはそれぞれ76.4 %, 6.76 mm, 1.9 mmであり, 計算時間は1CT体積あたり11秒以下であった。 SDL-Segは,低計算コストを保ちながら,すべての評価指標に対して基本U-Netと比較して優れた性能を示した。 その結果, SDL-Seg は GammaPod ベースの PBI などの PBI のオンライン治療計画手法の効率化と精度向上に有効であることが示された。

Efficient, reliable and reproducible target volume delineation is a key step in the effective planning of breast radiotherapy. However, post-operative breast target delineation is challenging as the contrast between the tumor bed volume (TBV) and normal breast tissue is relatively low in CT images. In this study, we propose to mimic the marker-guidance procedure in manual target delineation. We developed a saliency-based deep learning segmentation (SDL-Seg) algorithm for accurate TBV segmentation in post-operative breast irradiation. The SDL-Seg algorithm incorporates saliency information in the form of markers' location cues into a U-Net model. The design forces the model to encode the location-related features, which underscores regions with high saliency levels and suppresses low saliency regions. The saliency maps were generated by identifying markers on CT images. Markers' locations were then converted to probability maps using a distance-transformation coupled with a Gaussian filter. Subsequently, the CT images and the corresponding saliency maps formed a multi-channel input for the SDL-Seg network. Our in-house dataset was comprised of 145 prone CT images from 29 post-operative breast cancer patients, who received 5-fraction partial breast irradiation (PBI) regimen on GammaPod. The performance of the proposed method was compared against basic U-Net. Our model achieved mean (standard deviation) of 76.4 %, 6.76 mm, and 1.9 mm for DSC, HD95, and ASD respectively on the test set with computation time of below 11 seconds per one CT volume. SDL-Seg showed superior performance relative to basic U-Net for all the evaluation metrics while preserving low computation cost. The findings demonstrate that SDL-Seg is a promising approach for improving the efficiency and accuracy of the on-line treatment planning procedure of PBI, such as GammaPod based PBI.
翻訳日:2021-05-07 15:34:31 公開日:2021-05-06
# (参考訳) 共同局所推定と大域的パラメータ推定によるリアルタイムビデオ超解法

Real-Time Video Super-Resolution by Joint Local Inference and Global Parameter Estimation ( http://arxiv.org/abs/2105.02794v1 )

ライセンス: CC BY 4.0
Noam Elron, Alex Itskovich, Shahar S. Yuval, Noam Levy(参考訳) state of the art in video super- resolution (sr)はディープラーニングに基づくテクニックだが、実世界のビデオではパフォーマンスが悪い(図1参照)。 その理由は、トレーニング用イメージパイアは、高解像度のイメージをダウンスケールして低解像度のイメージペアを生成することで、一般的に作成されるからです。 したがって、深層モデルはダウンスケールを解き放つように訓練され、現実世界の超解像には一般化されない。 近年のいくつかの出版物では、学習ベースSRの一般化を改善する技術が紹介されているが、全てリアルタイム応用には適していない。 本稿では,2つのデジタルカメラ撮像過程を異なるスケールでシミュレーションし,トレーニングデータの合成を行う新しい手法を提案する。 本手法は,両画像が自然画像の特性を有する画像対を生成する。 このデータを用いたSRモデルのトレーニングは、実世界の画像やビデオよりもはるかに優れた一般化をもたらす。 さらに、ディープビデオSRモデルは、高演算/ピクセル数で特徴付けられ、リアルタイムに使用を禁止している。 低消費電力エッジデバイスにビデオSRをリアルタイムに適用できる効率的なCNNアーキテクチャを提案する。 我々は、SRタスクを2つのサブタスクに分割した: 入力ビデオのグローバルな特性を推定し、実際の処理を行う処理-CNNの重みとバイアスを調整する制御フロー。 プロセスCNNは入力の統計値に合わせて調整されているため、その容量は効果を保ちながら低く保たれた。 また、ビデオ統計はゆっくりと進化するため、制御フローはビデオフレームレートよりもずっと低いレートで動作します。 これにより、全体の計算負荷を最大2桁削減できる。 画素処理からアルゴリズムの適応性を分離するこのフレームワークは、ビデオのデノイング、局所的なトーンマッピング、安定化など、リアルタイムビデオエンハンスメントアプリケーションの大きなファミリに適用することができる。

The state of the art in video super-resolution (SR) are techniques based on deep learning, but they perform poorly on real-world videos (see Figure 1). The reason is that training image-pairs are commonly created by downscaling a high-resolution image to produce a low-resolution counterpart. Deep models are therefore trained to undo downscaling and do not generalize to super-resolving real-world images. Several recent publications present techniques for improving the generalization of learning-based SR, but are all ill-suited for real-time application. We present a novel approach to synthesizing training data by simulating two digital-camera image-capture processes at different scales. Our method produces image-pairs in which both images have properties of natural images. Training an SR model using this data leads to far better generalization to real-world images and videos. In addition, deep video-SR models are characterized by a high operations-per-pixel count, which prohibits their application in real-time. We present an efficient CNN architecture, which enables real-time application of video SR on low-power edge-devices. We split the SR task into two sub-tasks: a control-flow which estimates global properties of the input video and adapts the weights and biases of a processing-CNN that performs the actual processing. Since the process-CNN is tailored to the statistics of the input, its capacity kept low, while retaining effectivity. Also, since video-statistics evolve slowly, the control-flow operates at a much lower rate than the video frame-rate. This reduces the overall computational load by as much as two orders of magnitude. This framework of decoupling the adaptivity of the algorithm from the pixel processing, can be applied in a large family of real-time video enhancement applications, e.g., video denoising, local tone-mapping, stabilization, etc.
翻訳日:2021-05-07 15:21:02 公開日:2021-05-06
# (参考訳) 共同視覚表現学習のための多視点LSTM

Multi-Perspective LSTM for Joint Visual Representation Learning ( http://arxiv.org/abs/2105.02802v1 )

ライセンス: CC BY 4.0
Alireza Sepas-Moghaddam, Fernando Pereira, Paulo Lobato Correia, Ali Etemad(参考訳) 複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。 われわれのアーキテクチャは、新たなゲートと記憶をセルレベルで活用する新しい連成学習戦略を採用している。 提案するセルを用いてネットワークを構築することで、より効果的でリッチな視覚的表現が認識タスクで学習できることを実証する。 提案するアーキテクチャの性能を,唇読取と顔認識という2つの多視点視覚認識課題の文脈で検証する。 3つの関連するデータセットが検討され、融合戦略、既存のマルチインプットLSTMアーキテクチャ、代替認識ソリューションと比較される。 この実験は,認識精度と複雑性の両面で,検討されたベンチマークよりも優れた性能を示す。 コードはhttps://github.com/arsm/MPLSTMで公開しています。

We present a novel LSTM cell architecture capable of learning both intra- and inter-perspective relationships available in visual sequences captured from multiple perspectives. Our architecture adopts a novel recurrent joint learning strategy that uses additional gates and memories at the cell level. We demonstrate that by using the proposed cell to create a network, more effective and richer visual representations are learned for recognition tasks. We validate the performance of our proposed architecture in the context of two multi-perspective visual recognition tasks namely lip reading and face recognition. Three relevant datasets are considered and the results are compared against fusion strategies, other existing multi-input LSTM architectures, and alternative recognition solutions. The experiments show the superior performance of our solution over the considered benchmarks, both in terms of recognition accuracy and complexity. We make our code publicly available at https://github.com/arsm/MPLSTM.
翻訳日:2021-05-07 15:15:41 公開日:2021-05-06
# (参考訳) ニューラルネットの層状l1損失景観は、局所ミニマ周辺でより複雑である

The layer-wise L1 Loss Landscape of Neural Nets is more complex around local minima ( http://arxiv.org/abs/2105.02831v1 )

ライセンス: CC BY 4.0
Peter Hinz(参考訳) 他の層の固定トレーニングデータとネットワークパラメータの場合、第1層のパラメータの関数としてのReLUニューラルネットワークのL1損失は、ピースワイズアフィン関数である。 我々はdeep relu simplexアルゴリズムを用いて隣接する頂点の損失を単調に最小化し、これらの頂点位置の軌跡を分析する。 まず,局所極小付近では,局所極小値の損失レベルから局所極小値の損失レベルを推定できるように,局所極小値の損失レベルが指数関数的に遅くなるように,局所極小値の損失レベルが局所極小値の損失レベルから推定されるように,局所極小値の損失レベルと局所極小値の近接に関する結論を導き出すように,異なる振る舞いをする。 これは、これらの事実を活用して収束率を改善する新しい勾配-descentアルゴリズムの設計に広範囲に及ぼす可能性がある。

For fixed training data and network parameters in the other layers the L1 loss of a ReLU neural network as a function of the first layer's parameters is a piece-wise affine function. We use the Deep ReLU Simplex algorithm to iteratively minimize the loss monotonically on adjacent vertices and analyze the trajectory of these vertex positions. We empirically observe that in a neighbourhood around a local minimum, the iterations behave differently such that conclusions on loss level and proximity of the local minimum can be made before it has been found: Firstly the loss seems to decay exponentially slow at iterated adjacent vertices such that the loss level at the local minimum can be estimated from the loss levels of subsequently iterated vertices, and secondly we observe a strong increase of the vertex density around local minima. This could have far-reaching consequences for the design of new gradient-descent algorithms that might improve convergence rate by exploiting these facts.
翻訳日:2021-05-07 14:58:51 公開日:2021-05-06
# (参考訳) 測度保存拡散の統一と正準記述

A Unifying and Canonical Description of Measure-Preserving Diffusions ( http://arxiv.org/abs/2105.02845v1 )

ライセンス: CC BY 4.0
Alessandro Barp, So Takao, Michael Betancourt, Alexis Arnaudon, Mark Girolami(参考訳) ユークリッド空間における測度保存拡散の完全なレシピは、最近、いくつかのMCMCアルゴリズムを単一のフレームワークに統合した。 本稿では、この構成を任意の多様体に改良し一般化する幾何学的理論を考案する。 これにより、完備性の結果は、基礎となる多様体の位相と対象測度 $p$ によって引き起こされる幾何学の直接的な結果であることが証明される; リーマン計量、局所座標、参照測度といった他の構造を導入する必要はない。 代わりに、我々のフレームワークは$P$の内在幾何学、特にその標準微分であるdeRham回転子に依存しており、ポテンシャルを用いて測度保存拡散のFokker-Planck電流をパラメトリズすることができる。 幾何形式論は簡単に制約や対称性を組み込むことができ、例えば、サンプル作成に適したランゲヴィン様の拡散の新しい完全なレシピのような、新しい重要な洞察を与えることができる。 また,拡散の可逆性と散逸性,測度空間上の関連する決定論的流れ,ランジュバン過程の幾何学についても解析した。 本論文は,様々な文献からのアイデアを結びつけ,その適切な数学的文脈における測度保存拡散の理論を枠組み化する。

A complete recipe of measure-preserving diffusions in Euclidean space was recently derived unifying several MCMC algorithms into a single framework. In this paper, we develop a geometric theory that improves and generalises this construction to any manifold. We thereby demonstrate that the completeness result is a direct consequence of the topology of the underlying manifold and the geometry induced by the target measure $P$; there is no need to introduce other structures such as a Riemannian metric, local coordinates, or a reference measure. Instead, our framework relies on the intrinsic geometry of $P$ and in particular its canonical derivative, the deRham rotationnel, which allows us to parametrise the Fokker--Planck currents of measure-preserving diffusions using potentials. The geometric formalism can easily incorporate constraints and symmetries, and deliver new important insights, for example, a new complete recipe of Langevin-like diffusions that are suited to the construction of samplers. We also analyse the reversibility and dissipative properties of the diffusions, the associated deterministic flow on the space of measures, and the geometry of Langevin processes. Our article connects ideas from various literature and frames the theory of measure-preserving diffusions in its appropriate mathematical context.
翻訳日:2021-05-07 14:53:26 公開日:2021-05-06
# (参考訳) アルゴリズム倫理:自律走行車の義務の形式化と検証

Algorithmic Ethics: Formalization and Verification of Autonomous Vehicle Obligations ( http://arxiv.org/abs/2105.02851v1 )

ライセンス: CC BY-SA 4.0
Colin Shea-Blymyer and Houssam Abbas(参考訳) 我々は,その社会的・倫理的義務を含む自律的サイバーフィジカルシステムの義務を自動推論するための形式的枠組みを開発した。 義務、許可、禁止はシステムのミッションとは別物であり、高度な適応型AI装備システムを特定するために必要な部分である。 義務を形式化するためには、厳格な義務論理が必要です。 既存のデオン論理の多くは、自動検証を可能にする対応するアルゴリズムやシステムモデルを欠いている。 自動運転車のような自律システムの義務を定式化するための出発点として,特定のデオン主義的論理優劣法(dau)がいかに適しているかを実証する。 我々は、DAUにおける責任感性安全(Responsibility-Sensitive Safety, RSS)のサブセットを形式化し、その有用性を実証する。 我々は、RSSの論理的な結果が望ましくないことを示し、提案をさらに洗練する必要があることを示す。 また、長期自治に必要な義務が、時間とともにどのように変化するかを示す。 次に,重み付き遷移系におけるdau公式のモデルチェックアルゴリズムを実演し,自走車制御装置のモデルチェック義務を文献から示す。

We develop a formal framework for automatic reasoning about the obligations of autonomous cyber-physical systems, including their social and ethical obligations. Obligations, permissions and prohibitions are distinct from a system's mission, and are a necessary part of specifying advanced, adaptive AI-equipped systems. They need a dedicated deontic logic of obligations to formalize them. Most existing deontic logics lack corresponding algorithms and system models that permit automatic verification. We demonstrate how a particular deontic logic, Dominance Act Utilitarianism (DAU), is a suitable starting point for formalizing the obligations of autonomous systems like self-driving cars. We demonstrate its usefulness by formalizing a subset of Responsibility-Sensitive Safety (RSS) in DAU; RSS is an industrial proposal for how self-driving cars should and should not behave in traffic. We show that certain logical consequences of RSS are undesirable, indicating a need to further refine the proposal. We also demonstrate how obligations can change over time, which is necessary for long-term autonomy. We then demonstrate a model-checking algorithm for DAU formulas on weighted transition systems, and illustrate it by model-checking obligations of a self-driving car controller from the literature.
翻訳日:2021-05-07 14:52:19 公開日:2021-05-06
# (参考訳) モノリンガルモデルに適応する: 言語類似度が高い場合、データはスカース化できる

Adapting Monolingual Models: Data can be Scarce when Language Similarity is High ( http://arxiv.org/abs/2105.02855v1 )

ライセンス: CC BY 4.0
Wietse de Vries, Martijn Bartelds, Malvina Nissim, Martijn Wieling(参考訳) 多くの(マイナーな)言語では、大規模モデルのトレーニングに必要なリソースは利用できない。 本研究では,ゼロショット変換学習の性能をできるだけ少ないデータで検証し,このプロセスにおける言語類似性の影響について検討する。 我々は,2つの低リソースターゲット言語からのデータを用いて,BERTベースの4つのモデルの語彙層を再学習する一方,トランスフォーマー層は,モデルソース言語のPOSタグタスクに対して独立に微調整される。 新しい語彙層と微調整トランスフォーマー層を組み合わせることで、両方の言語で高いタスク性能を実現する。 高言語的類似性により、10MBのデータは、実質的なモノリンガル転送性能を達成するのに十分である。 単言語BERTベースのモデルは、多言語BERTよりも語彙層をトレーニングした後、ターゲット言語が多言語モデルに含まれる場合であっても、一般的に下流タスクのパフォーマンスを向上させる。

For many (minority) languages, the resources needed to train large models are not available. We investigate the performance of zero-shot transfer learning with as little data as possible, and the influence of language similarity in this process. We retrain the lexical layers of four BERT-based models using data from two low-resource target language varieties, while the Transformer layers are independently fine-tuned on a POS-tagging task in the model's source language. By combining the new lexical layers and fine-tuned Transformer layers, we achieve high task performance for both target languages. With high language similarity, 10MB of data appears sufficient to achieve substantial monolingual transfer performance. Monolingual BERT-based models generally achieve higher downstream task performance after retraining the lexical layer than multilingual BERT, even when the target language is included in the multilingual model.
翻訳日:2021-05-07 14:19:27 公開日:2021-05-06
# (参考訳) ループ型ベイズ最適化による実験インクジェットハードウェアのオンラインプレコンディショニング

Online Preconditioning of Experimental Inkjet Hardware by Bayesian Optimization in Loop ( http://arxiv.org/abs/2105.02858v1 )

ライセンス: CC BY 4.0
Alexander E. Siemenn, Matthew Beveridge, Tonio Buonassisi, Iddo Drori(参考訳) ペロブスカイトのような高性能半導体光エレクトロニクスは、材料の性能特性を制御する高次元および広大な組成空間を有する。 これらの合成空間を効果的に探索するために,インクジェット堆積による離散液滴を高速に印刷する高スループット実験法を用いて,各液滴が半導体材料の特異な置換からなる。 しかし、インクジェットプリンタシステムは半導体材料上での高スループット実験に最適化されていない。 そこで本研究では,インクジェットプリンタから堆積した液滴構造を最適化するコンピュータビジョン駆動ベイズ最適化フレームワークを開発し,半導体材料の高スループット実験を行うように調整する。 このフレームワークの目標は、インクジェットプリンタのハードウェア条件を最短時間で調整することであり、最も少ないサンプル数を用いて、材料発見アプリケーションのためにシステムを設定するのに費やす時間とリソースを最小限に抑えることである。 コンピュータビジョンを用いた液滴構造のベイズ最適化により,10分間の最適インクジェットハードウェア条件の収束を実証する。 ベイズ最適化の結果を確率的勾配降下と比較する。

High-performance semiconductor optoelectronics such as perovskites have high-dimensional and vast composition spaces that govern the performance properties of the material. To cost-effectively search these composition spaces, we utilize a high-throughput experimentation method of rapidly printing discrete droplets via inkjet deposition, in which each droplet is comprised of a unique permutation of semiconductor materials. However, inkjet printer systems are not optimized to run high-throughput experimentation on semiconductor materials. Thus, in this work, we develop a computer vision-driven Bayesian optimization framework for optimizing the deposited droplet structures from an inkjet printer such that it is tuned to perform high-throughput experimentation on semiconductor materials. The goal of this framework is to tune to the hardware conditions of the inkjet printer in the shortest amount of time using the fewest number of droplet samples such that we minimize the time and resources spent on setting the system up for material discovery applications. We demonstrate convergence on optimum inkjet hardware conditions in 10 minutes using Bayesian optimization of computer vision-scored droplet structures. We compare our Bayesian optimization results with stochastic gradient descent.
翻訳日:2021-05-07 14:10:43 公開日:2021-05-06
# (参考訳) web設定におけるスパースデータを用いたコンテキストバンディット

Contextual Bandits with Sparse Data in Web setting ( http://arxiv.org/abs/2105.02873v1 )

ライセンス: CC BY-SA 4.0
Bj\"orn H Eriksson(参考訳) 本稿では,Web環境におけるスパースデータ処理における現在の手法を,コンテキスト的帯域幅で同定するスコーピング手法を提案する。 この領域は高度に流れており、工法の現状が特定されている。 2017-2020年を調査し、19の方法項目と2つのレビュー項目を同定した。 5つのカテゴリの手法が述べられており、特定の関心事の設定を変更できる手法を用いて、文脈的包帯を用いてスパースデータに対処する方法を簡単に選択できる。 さらに,各手法は今後の評価のために複数の手法を選択できる。 問題領域は各記事がカバーしていることにも言及されている。 Web設定におけるコンテキスト帯を用いたスパースデータ問題に対する総合的な理解が提供される。 特定された方法は、ポリシー評価(オフラインおよびオンライン)、ハイブリッドメソッド、モデル表現(クラスタとディープニューラルネットワーク)、次元減少、シミュレーションである。

This paper is a scoping study to identify current methods used in handling sparse data with contextual bandits in web settings. The area is highly current and state of the art methods are identified. The years 2017-2020 are investigated, and 19 method articles are identified, and two review articles. Five categories of methods are described, making it easy to choose how to address sparse data using contextual bandits with a method available for modification in the specific setting of concern. In addition, each method has multiple techniques to choose from for future evaluation. The problem areas are also mentioned that each article covers. An overall updated understanding of sparse data problems using contextual bandits in web settings is given. The identified methods are policy evaluation (off-line and on-line) , hybrid-method, model representation (clusters and deep neural networks), dimensionality reduction, and simulation.
翻訳日:2021-05-07 13:49:50 公開日:2021-05-06
# ニューラルアルゴリズムによる推論

Neural Algorithmic Reasoning ( http://arxiv.org/abs/2105.02761v1 )

ライセンス: Link先を確認
Petar Veli\v{c}kovi\'c, Charles Blundell(参考訳) アルゴリズムは近年のグローバルな技術進歩の基礎であり、特に、ある分野において急速に他の分野に応用される技術的進歩の基盤となっている。 我々は、アルゴリズムは深層学習法と根本的に異なる性質を有しており、深層学習法の方がアルゴリズムを模倣できるため、深層学習で見られる種類の一般化が可能になることを強く示唆している。 さらに、学習アルゴリズムの連続空間における要素を表現することによって、ニューラルネットワークは既知のアルゴリズムを現実世界の問題により密接に適応させることができる。 ここでは,アルゴリズム計算を実行できるニューラルネットワークを構築する技術であるニューラルアルゴリズム推論について述べるとともに,従来はアクセス不可能とされていた入力に対して,古典的アルゴリズムを実行するための変換可能性について考察する。

Algorithms have been fundamental to recent global technological advances and, in particular, they have been the cornerstone of technical advances in one field rapidly being applied to another. We argue that algorithms possess fundamentally different qualities to deep learning methods, and this strongly suggests that, were deep learning methods better able to mimic algorithms, generalisation of the sort seen with algorithms would become possible with deep learning -- something far out of the reach of current machine learning methods. Furthermore, by representing elements in a continuous space of learnt algorithms, neural networks are able to adapt known algorithms more closely to real-world problems, potentially finding more efficient and pragmatic solutions than those proposed by human computer scientists. Here we present neural algorithmic reasoning -- the art of building neural networks that are able to execute algorithmic computation -- and provide our opinion on its transformative potential for running classical algorithms on inputs previously considered inaccessible to them.
翻訳日:2021-05-07 13:40:56 公開日:2021-05-06
# 制約のない特徴を持つ神経崩壊の幾何学的解析

A Geometric Analysis of Neural Collapse with Unconstrained Features ( http://arxiv.org/abs/2105.02375v1 )

ライセンス: Link先を確認
Zhihui Zhu, Tianyu Ding, Jinxin Zhou, Xiao Li, Chong You, Jeremias Sulam, and Qing Qu(参考訳) 我々は、最後の層分類器で発生する興味深い経験的現象である$Neural\;Collapse$の最初のグローバルな最適化ランドスケープ分析と、トレーニングの最終フェーズにおけるニューラルネットワークの特徴を提供する。 papyanらによって最近報告されたように、この現象はクラス平均 (i$) とラストレイヤー分類器 (last-layer classifiers) がすべて、スケーリングまでの単純x等角タイトフレーム (etf) の頂点に崩壊し、ラストレイヤアクティベーションのクラス内変動のクロスサンプル (ii$) がゼロに崩壊することを意味する。 我々は,ニューラルネットワークの分類器から最上層を分離する単純化された$unconstrained\;feature\;model$に基づいて,この問題を研究する。 この文脈では、古典的クロスエントロピー損失は、唯一の大域最小化器がSimplex ETFであり、他のすべての臨界点は、ヘッセンが負の曲率方向を示す厳密なサドルであるという意味で、良質なグローバルランドスケープを持つことを示す。 従来の深層ニューラルネットワークのランドスケープ解析とは対照的に,単純化モデルの解析では,前層でどのような特徴が学習されているかを説明するだけでなく,実際の深層ネットワークアーキテクチャにおける経験的観測結果と一致して,単純化された設定で効率的に最適化できる理由を示す。 これらの発見は幅広い関心の最適化、一般化、堅牢性に大きな影響を与える可能性がある。 例えば、実験では、クラス数と同等の機能次元を設定し、ネットワークトレーニングのためのsimplex etfとしてラストレイヤ分類器を修正し、一般化性能を犠牲にすることなくresnet18のメモリコストを20ドル以上削減できることを示した。

We provide the first global optimization landscape analysis of $Neural\;Collapse$ -- an intriguing empirical phenomenon that arises in the last-layer classifiers and features of neural networks during the terminal phase of training. As recently reported by Papyan et al., this phenomenon implies that ($i$) the class means and the last-layer classifiers all collapse to the vertices of a Simplex Equiangular Tight Frame (ETF) up to scaling, and ($ii$) cross-example within-class variability of last-layer activations collapses to zero. We study the problem based on a simplified $unconstrained\;feature\;model$, which isolates the topmost layers from the classifier of the neural network. In this context, we show that the classical cross-entropy loss with weight decay has a benign global landscape, in the sense that the only global minimizers are the Simplex ETFs while all other critical points are strict saddles whose Hessian exhibit negative curvature directions. In contrast to existing landscape analysis for deep neural networks which is often disconnected from practice, our analysis of the simplified model not only does it explain what kind of features are learned in the last layer, but it also shows why they can be efficiently optimized in the simplified settings, matching the empirical observations in practical deep network architectures. These findings could have profound implications for optimization, generalization, and robustness of broad interests. For example, our experiments demonstrate that one may set the feature dimension equal to the number of classes and fix the last-layer classifier to be a Simplex ETF for network training, which reduces memory cost by over $20\%$ on ResNet18 without sacrificing the generalization performance.
翻訳日:2021-05-07 13:40:40 公開日:2021-05-06
# フェデレーション顔認識

Federated Face Recognition ( http://arxiv.org/abs/2105.02501v1 )

ライセンス: Link先を確認
Fan Bai, Jiaxiang Wu, Pengcheng Shen, Shaoxin Li and Shuigeng Zhou(参考訳) 近年、顔認識はコンピュータビジョンや人工知能のコミュニティで広く研究されている。 顔認識の重要な課題はデータのプライバシーである。 共通のプライバシ保存手法として,相互にデータを共有することなく協調的にモデルを訓練するために,連合学習が提案されている。 しかし、私たちの知る限りでは、顔認識にはうまく適用されていない。 本稿では,顔認識のためのフェデレーション学習を革新するフレームワークFedFaceを提案する。 具体的には、federated momentum(pfm)とfederated validation(fv)という2つの主要な革新的なアルゴリズムに依存している。 PFMは、中央の運動量-SGDを効率的に近似するために、推定される等価な大域運動量を適用する。 fvは、いくつかのプライベートバリデーションデータセット上で集約モデルをテストすることによって、より優れたフェデレーション集約を繰り返し検索し、モデルの一般化能力を向上させることができる。 アブレーション実験および広範囲な実験により,FedFace法の有効性が検証され,中央集権ベースラインに匹敵するか否かが示された。

Face recognition has been extensively studied in computer vision and artificial intelligence communities in recent years. An important issue of face recognition is data privacy, which receives more and more public concerns. As a common privacy-preserving technique, Federated Learning is proposed to train a model cooperatively without sharing data between parties. However, as far as we know, it has not been successfully applied in face recognition. This paper proposes a framework named FedFace to innovate federated learning for face recognition. Specifically, FedFace relies on two major innovative algorithms, Partially Federated Momentum (PFM) and Federated Validation (FV). PFM locally applies an estimated equivalent global momentum to approximating the centralized momentum-SGD efficiently. FV repeatedly searches for better federated aggregating weightings via testing the aggregated models on some private validation datasets, which can improve the model's generalization ability. The ablation study and extensive experiments validate the effectiveness of the FedFace method and show that it is comparable to or even better than the centralized baseline in performance.
翻訳日:2021-05-07 13:39:23 公開日:2021-05-06
# 都市監視インフラにおける積極的な歩行者事故防止システムのための予測衝突リスク領域推定法

A novel method of predictive collision risk area estimation for proactive pedestrian accident prevention system in urban surveillance infrastructure ( http://arxiv.org/abs/2105.02572v1 )

ライセンス: Link先を確認
Byeongjoon Noh and Hwasoo Yeo(参考訳) 道路交通事故、特に横断歩道での歩行者の衝突は、世界中で人命に深刻な脅威をもたらし、早死にの要因となっている。 このような脆弱な道路利用者を衝突から守るためには,事前の紛争認識と道路利用者への警告が必要である。 歩行者の衝突を積極的に防止するためのブレークスルーは、CCTVのような視覚センサーに基づいて歩行者の潜在的なリスクを認識することである。 本研究では,無信号横断歩道における衝突リスク領域推定システムを提案する。 提案システムは,前処理後の映像から車両と歩行者の軌跡を適用し,深層LSTMネットワークを用いてその軌跡を予測した。 予測軌道を用いることで、衝突リスク領域を統計的に推測することができ、さらに危険、警告、相対安全としてレベルが分割される。 提案システムの有効性と適用性を検証するため,韓国大山市における2つの未指定地点における潜在的なリスクの重症度を評価した。

Road traffic accidents, especially vehicle pedestrian collisions in crosswalk, globally pose a severe threat to human lives and have become a leading cause of premature deaths. In order to protect such vulnerable road users from collisions, it is necessary to recognize possible conflict in advance and warn to road users, not post facto. A breakthrough for proactively preventing pedestrian collisions is to recognize pedestrian's potential risks based on vision sensors such as CCTVs. In this study, we propose a predictive collision risk area estimation system at unsignalized crosswalks. The proposed system applied trajectories of vehicles and pedestrians from video footage after preprocessing, and then predicted their trajectories by using deep LSTM networks. With use of predicted trajectories, this system can infer collision risk areas statistically, further severity of levels is divided as danger, warning, and relative safe. In order to validate the feasibility and applicability of the proposed system, we applied it and assess the severity of potential risks in two unsignalized spots in Osan city, Korea.
翻訳日:2021-05-07 13:39:06 公開日:2021-05-06
# Deep Weighted Consensus:3次元形状登録のための高密度対応信頼マップ

Deep Weighted Consensus: Dense correspondence confidence maps for 3D shape registration ( http://arxiv.org/abs/2105.02714v1 )

ライセンス: Link先を確認
Dvir Ginzburg and Dan Raviv(参考訳) 本稿では,学習可能な重み付きコンセンサスに基づく点雲間の剛性アライメントのための新しいパラダイムを提案する。 現在のモデルは、学習可能あるいは公理的であり、制限された方向と限られたノイズレベル、通常はエンドツーエンドの学習者または反復的なスキームでうまく機能する。 しかし、現実世界のタスクでは、大きな回転だけでなく、異常値にも対処しなければなりませんし、既知のすべてのモデルは提供できません。 ここでは別の方向を示す。 我々は、濃密でソフトアライメントマップに由来する信頼度レベルに従って、サンプリングされた一致点から点雲をアライメントできると主張する。 パイプラインは微分可能であり、高いノイズレベルであってもSO(3)の全スペクトルにおいて大きな回転の下で収束する。 このネットワークを,最近発表されたdcp,pointnetlk,rpm-net,prnet,およびicpやgo-icpのような公理的手法と比較した。 ここでは、パフォーマンスの根本的な向上を報告します。

We present a new paradigm for rigid alignment between point clouds based on learnable weighted consensus which is robust to noise as well as the full spectrum of the rotation group. Current models, learnable or axiomatic, work well for constrained orientations and limited noise levels, usually by an end-to-end learner or an iterative scheme. However, real-world tasks require us to deal with large rotations as well as outliers and all known models fail to deliver. Here we present a different direction. We claim that we can align point clouds out of sampled matched points according to confidence level derived from a dense, soft alignment map. The pipeline is differentiable, and converges under large rotations in the full spectrum of SO(3), even with high noise levels. We compared the network to recently presented methods such as DCP, PointNetLK, RPM-Net, PRnet, and axiomatic methods such as ICP and Go-ICP. We report here a fundamental boost in performance.
翻訳日:2021-05-07 13:38:48 公開日:2021-05-06
# 自然言語処理システムの信頼性テスト

Reliability Testing for Natural Language Processing Systems ( http://arxiv.org/abs/2105.02590v1 )

ライセンス: Link先を確認
Samson Tan, Shafiq Joty, Kathy Baxter, Araz Taeihagh, Gregory A. Bennett, Min-Yen Kan(参考訳) NLPシステムを展開する前には、公平性、堅牢性、透明性に関する疑問が最重要である。 これらの懸念の中心は信頼性の問題である: NLPシステムは様々な人口動態を公平に扱い、多様でノイズの多い環境で正しく機能するか? これに対処するために、我々は信頼性テストの必要性を議論し、説明責任を改善する既存の作業の中でそれをコンテキスト化する。 我々は,この目的のために,信頼性テストを開発するためのフレームワークを通じて,敵の攻撃を再構築する方法を示す。 学際的なコラボレーションを重視した信頼性テストは、厳格で目標とするテストを可能にし、業界標準の施行と実施を支援するだろう、と私たちは主張する。

Questions of fairness, robustness, and transparency are paramount to address before deploying NLP systems. Central to these concerns is the question of reliability: Can NLP systems reliably treat different demographics fairly and function correctly in diverse and noisy environments? To address this, we argue for the need for reliability testing and contextualize it among existing work on improving accountability. We show how adversarial attacks can be reframed for this goal, via a framework for developing reliability tests. We argue that reliability testing -- with an emphasis on interdisciplinary collaboration -- will enable rigorous and targeted testing, and aid in the enactment and enforcement of industry standards.
翻訳日:2021-05-07 13:38:29 公開日:2021-05-06
# 部分解釈型推定器(PIE: Black-Box-Refined Interpretable Machine Learning)

Partially Interpretable Estimators (PIE): Black-Box-Refined Interpretable Machine Learning ( http://arxiv.org/abs/2105.02410v1 )

ライセンス: Link先を確認
Tong Wang, Jingyi Yang, Yunyi Li, Boxiang Wang(参考訳) 解釈可能性を維持しながら予測性能を向上させることを目的として,部分的解釈可能推定器(PIE)を提案し,PIE予測の(おそらく)小さな部分はブラックボックスモデルによる特徴の相互作用によるものである。 このように、解釈可能なモデルは特徴の主要な貢献を捉え、ブラックボックスモデルは特徴相互作用の「ニュアンス」を改良として捉えて解釈可能なピースを補完しようとする。 2種類のモデルを協調訓練するための反復学習アルゴリズムを設計する。 実験の結果,PIEはブラックボックスモデルに対して高い競争力を示し,解釈可能なベースラインよりも優れていた。 加えて、PIEの可解性は人間の評価によって検証される単純な線形モデルに匹敵する。

We propose Partially Interpretable Estimators (PIE) which attribute a prediction to individual features via an interpretable model, while a (possibly) small part of the PIE prediction is attributed to the interaction of features via a black-box model, with the goal to boost the predictive performance while maintaining interpretability. As such, the interpretable model captures the main contributions of features, and the black-box model attempts to complement the interpretable piece by capturing the "nuances" of feature interactions as a refinement. We design an iterative training algorithm to jointly train the two types of models. Experimental results show that PIE is highly competitive to black-box models while outperforming interpretable baselines. In addition, the understandability of PIE is comparable to simple linear models as validated via a human evaluation.
翻訳日:2021-05-07 13:38:20 公開日:2021-05-06
# FDNet: 降水開始のための2つの並列クロスコードパスを用いたディープラーニングアプローチ

FDNet: A Deep Learning Approach with Two Parallel Cross Encoding Pathways for Precipitation Nowcasting ( http://arxiv.org/abs/2105.02585v1 )

ライセンス: Link先を確認
Bi-Ying Yan and Chao Yang and Feng Chen and Kohei Takeda and Changjun Wang(参考訳) 比較的短期間で地域の将来の降雨強度を予測することを目的として、降水量は社会と経済に大きな影響を与える長い間科学的課題であった。 radar echo expolation approach for precipitation nowcasting takes radar echo images as input, aims to generate future radar echo images by learn from the historical images. レーダエコー法 レーダーエコーの複雑な非定常進化を効果的に処理するために, 光学的流れ場運動と形態学的変形への移動の分解を提案する。 このアイデアに続いて,2つの並列交差経路における流れと変形をモデル化するニューラルネットワークであるFDNetを紹介した。 フローエンコーダは連続した画像間の光流場運動を捕捉し、変形エンコーダは、形状の変化とレーダエコーの変換運動とを区別する。 提案するネットワークアーキテクチャを2つの実世界のレーダーエコーデータセット上で評価する。 本モデルは,最近の手法と比較して最先端の予測結果を得る。 我々の知る限り、これは降水流のレーダーエコーの進化をモデル化するフローと変形を分離した最初のネットワークアーキテクチャである。 この研究の一般的な考え方は、より効果的なアプローチを刺激するだけでなく、同様の時空間予測タスクにも適用できると考えている。

With the goal of predicting the future rainfall intensity in a local region over a relatively short period time, precipitation nowcasting has been a long-time scientific challenge with great social and economic impact. The radar echo extrapolation approaches for precipitation nowcasting take radar echo images as input, aiming to generate future radar echo images by learning from the historical images. To effectively handle complex and high non-stationary evolution of radar echoes, we propose to decompose the movement into optical flow field motion and morphologic deformation. Following this idea, we introduce Flow-Deformation Network (FDNet), a neural network that models flow and deformation in two parallel cross pathways. The flow encoder captures the optical flow field motion between consecutive images and the deformation encoder distinguishes the change of shape from the translational motion of radar echoes. We evaluate the proposed network architecture on two real-world radar echo datasets. Our model achieves state-of-the-art prediction results compared with recent approaches. To the best of our knowledge, this is the first network architecture with flow and deformation separation to model the evolution of radar echoes for precipitation nowcasting. We believe that the general idea of this work could not only inspire much more effective approaches but also be applied to other similar spatiotemporal prediction tasks
翻訳日:2021-05-07 13:38:06 公開日:2021-05-06
# 一般化マルチモーダルELBO

Generalized Multimodal ELBO ( http://arxiv.org/abs/2105.02470v1 )

ライセンス: Link先を確認
Thomas M. Sutter and Imant Daunhawer, Julia E. Vogt(参考訳) 複数のデータ型は、現実世界の現象を記述し、そこから学習する際に自然に共起する。 しかし、ELBOを近似する既存の自己教師付き生成モデルはマルチモーダルモデルの全ての要求を満たすことができない。 これらの制約を克服するマルチモーダルデータのための新しい一般化されたelbo定式法を提案する。 新しい目的は2つの手法を特別なケースとして包含し、妥協なしにそれらの利点を組み合わせている。 本研究では,自己教師付き生成学習タスクにおける最先端モデルと比較して,提案手法の利点を実証する。

Multiple data types naturally co-occur when describing real-world phenomena and learning from them is a long-standing goal in machine learning research. However, existing self-supervised generative models approximating an ELBO are not able to fulfill all desired requirements of multimodal models: their posterior approximation functions lead to a trade-off between the semantic coherence and the ability to learn the joint data distribution. We propose a new, generalized ELBO formulation for multimodal data that overcomes these limitations. The new objective encompasses two previous methods as special cases and combines their benefits without compromises. In extensive experiments, we demonstrate the advantage of the proposed method compared to state-of-the-art models in self-supervised, generative learning tasks.
翻訳日:2021-05-07 13:37:19 公開日:2021-05-06
# マルチモーダル・マルチグラフによる近所表現の学習:画像,テキスト,モビリティグラフなど

Learning Neighborhood Representation from Multi-Modal Multi-Graph: Image, Text, Mobility Graph and Beyond ( http://arxiv.org/abs/2105.02489v1 )

ライセンス: Link先を確認
Tianyuan Huang, Zhecheng Wang, Hao Sheng, Andrew Y. Ng, Ram Rajagopal(参考訳) 近年の都市化は、ストリートビューやPOI(point-of-interest)といったジオタグ付きデータの充実と一致している。 より豊かなデータモダリティによって強化された地域埋め込みにより、研究者や都市管理者は、構築された環境、社会経済、都市のダイナミクスをよりよく理解できるようになった。 マルチモーダル入力を同時に使用する取り組みも行われているが、同じ埋め込み空間に異なる「公理性」の尺度を組み込むことで、既存の方法を改善することができる - 地域を特徴付けるデータ(ストリートビュー、地元のビジネスパターンなど)だけでなく、地域間の関係(トリップ、ロードネットワークなど)を描写するデータを活用する。 そこで本研究では,周辺地域(タイル,国勢調査ブロック,ZIPコード領域など)との関係に基づき,マルチモーダルジオタグ入力をマルチグラフのノードやエッジの特徴として統合する手法を提案する。 次に,マルチグラフからコントラストサンプリングスキームに基づいて近傍表現を学習する。 具体的には、ストリートビュー画像とpoi特徴を用いて、近傍(ノード)を特徴付け、人間移動を用いて近隣(方向エッジ)間の関係を特徴付ける。 提案手法の有効性を示すとともに, 埋め込み空間の質的分析を行い, 単調データのみを地域入力として用いる手法よりも, 学習した埋め込みが優れていることを示した。

Recent urbanization has coincided with the enrichment of geotagged data, such as street view and point-of-interest (POI). Region embedding enhanced by the richer data modalities has enabled researchers and city administrators to understand the built environment, socioeconomics, and the dynamics of cities better. While some efforts have been made to simultaneously use multi-modal inputs, existing methods can be improved by incorporating different measures of 'proximity' in the same embedding space - leveraging not only the data that characterizes the regions (e.g., street view, local businesses pattern) but also those that depict the relationship between regions (e.g., trips, road network). To this end, we propose a novel approach to integrate multi-modal geotagged inputs as either node or edge features of a multi-graph based on their relations with the neighborhood region (e.g., tiles, census block, ZIP code region, etc.). We then learn the neighborhood representation based on a contrastive-sampling scheme from the multi-graph. Specifically, we use street view images and POI features to characterize neighborhoods (nodes) and use human mobility to characterize the relationship between neighborhoods (directed edges). We show the effectiveness of the proposed methods with quantitative downstream tasks as well as qualitative analysis of the embedding space: The embedding we trained outperforms the ones using only unimodal data as regional inputs.
翻訳日:2021-05-07 13:36:27 公開日:2021-05-06
# 言語としてのコンピュータ支援設計

Computer-Aided Design as Language ( http://arxiv.org/abs/2105.02769v1 )

ライセンス: Link先を確認
Yaroslav Ganin, Sergey Bartunov, Yujia Li, Ethan Keller, Stefano Saliceti(参考訳) computer-aided design (cad) のアプリケーションは、コーヒーマグカップからスポーツカーまであらゆるものをモデル化するために使われる。 これらのプログラムは複雑で、マスターするには何年ものトレーニングと経験が必要です。 特に難しいcadモデルの構成要素は、3d構築の核心にある高度に構造化された2dスケッチである。 本研究では,このようなスケッチを自動的に生成できる機械学習モデルを提案する。 これにより、エンジニアが少ない労力でより良いデザインを作るのに役立つインテリジェントなツールの開発方法が整いました。 本手法は,市販データシリアライズプロトコルと並行して汎用言語モデリング手法を組み合わせたものである。 提案手法は,領域の複雑さに対応するのに十分な柔軟性を有し,無条件合成と画像からスケッチへの変換の両方に有効であることを示す。

Computer-Aided Design (CAD) applications are used in manufacturing to model everything from coffee mugs to sports cars. These programs are complex and require years of training and experience to master. A component of all CAD models particularly difficult to make are the highly structured 2D sketches that lie at the heart of every 3D construction. In this work, we propose a machine learning model capable of automatically generating such sketches. Through this, we pave the way for developing intelligent tools that would help engineers create better designs with less effort. Our method is a combination of a general-purpose language modeling technique alongside an off-the-shelf data serialization protocol. We show that our approach has enough flexibility to accommodate the complexity of the domain and performs well for both unconditional synthesis and image-to-sketch translation.
翻訳日:2021-05-07 13:36:02 公開日:2021-05-06
# two4two: 解釈可能な機械学習の評価 - 制御実験のための合成データセット

Two4Two: Evaluating Interpretable Machine Learning - A Synthetic Dataset For Controlled Experiments ( http://arxiv.org/abs/2105.02825v1 )

ライセンス: Link先を確認
Martin Schuessler, Philipp Wei{\ss}, Leon Sixt(参考訳) 画像分類の説明を生成するためのアプローチが増えている。 しかしながら、これらのアプローチのほとんどが、自然画像データセットを用いた制御実験の設計が困難であり、研究者の制御から必須な要素を外すため、人為的な評価の対象となっていない。 このアプローチでは、研究者が所望のデータセットをほんの数パラメータで記述できる。 これらをもとに,2種類の3次元抽象動物の合成画像データを生成する。 結果として得られたデータは、人間のサブジェクト評価だけでなくアルゴリズムにも適合する。 ユーザ調査の結果から,本手法は分類器に十分なバイアスを発生させることができ,視覚的にデータを検査する秒ごとにのみ注意を喚起できる。 提案手法は人体評価の障壁を大幅に減らし,解釈可能な機械学習に関するより厳密な調査を容易にする。 ライブラリとデータセットについては、https://github.com/mschuessler/two4two/

A growing number of approaches exist to generate explanations for image classification. However, few of these approaches are subjected to human-subject evaluations, partly because it is challenging to design controlled experiments with natural image datasets, as they leave essential factors out of the researcher's control. With our approach, researchers can describe their desired dataset with only a few parameters. Based on these, our library generates synthetic image data of two 3D abstract animals. The resulting data is suitable for algorithmic as well as human-subject evaluations. Our user study results demonstrate that our method can create biases predictive enough for a classifier and subtle enough to be noticeable only to every second participant inspecting the data visually. Our approach significantly lowers the barrier for conducting human subject evaluations, thereby facilitating more rigorous investigations into interpretable machine learning. For our library and datasets see, https://github.com/mschuessler/two4two/
翻訳日:2021-05-07 13:35:50 公開日:2021-05-06
# ニューラルネットワークを用いた連続時間における機械因果発見の一貫性

Consistency of mechanistic causal discovery in continuous-time using Neural ODEs ( http://arxiv.org/abs/2105.02522v1 )

ライセンス: Link先を確認
Alexis Bellot, Kim Branson and Mihaela van der Schaar(参考訳) 時系列データから因果機構の発見は、複雑なシステムを扱う分野において重要な問題である。 ほとんどの識別可能性の結果と学習アルゴリズムは、基礎となる力学が時間的に離散的であると仮定する。 対照的に、観測のスケールとサンプリングの正則性とは独立に、時間の無限小区間における因果関係を明確に定義するものは少ない。 本稿では,力学系の研究のために,連続時間における因果発見を考察する。 ニューラルネットワークでパラメータ化されたベクトル場に対して、適応正則化スキームは常微分方程式(ODE)系の因果グラフを一貫して復元する。 この知見を用いて,不規則にサンプリングされた多変量時系列の一般的な設定に適用可能であることを示すペナル化ニューラルネットワークによる因果探索アルゴリズムを提案する。

The discovery of causal mechanisms from time series data is a key problem in fields working with complex systems. Most identifiability results and learning algorithms assume the underlying dynamics to be discrete in time. Comparatively few, in contrast, explicitly define causal associations in infinitesimal intervals of time, independently of the scale of observation and of the regularity of sampling. In this paper, we consider causal discovery in continuous-time for the study of dynamical systems. We prove that for vector fields parameterized in a large class of neural networks, adaptive regularization schemes consistently recover causal graphs in systems of ordinary differential equations (ODEs). Using this insight, we propose a causal discovery algorithm based on penalized Neural ODEs that we show to be applicable to the general setting of irregularly-sampled multivariate time series and to strongly outperform the state of the art.
翻訳日:2021-05-07 13:34:56 公開日:2021-05-06
# マシンコラボレーション

Machine Collaboration ( http://arxiv.org/abs/2105.02569v1 )

ライセンス: Link先を確認
Qingfeng Liu and Yang Feng(参考訳) 本稿では,予測タスクのためのベースマシンの集合に基づく,教師付き学習のための新しいアンサンブルフレームワークであるmacを提案する。 バッグング/スタック(並列で独立したフレームワーク)やブースト(シーケンシャルでトップダウンのフレームワーク)とは異なり、MaCは円形でインタラクティブな学習フレームワークの一種です。 円形かつインタラクティブな機能は、ベースマシンが情報を円形に転送し、それに応じて独自の構造とパラメータを更新するのに役立つ。 MaCに基づく推定器のリスクバウンドに関する理論的結果は、循環的かつインタラクティブな特徴は、MaCが擬似アンサンブルを介してリスクを減らすのに役立つことを示している。 シミュレーションデータと119個の実データ集合のベンチマーク実験を行った。 実験の結果、ほとんどの場合、MaCはCART、ニューラルネットワーク、積み重ね、強化など、最先端のいくつかの手法よりもはるかに優れた性能を示している。

We propose a new ensemble framework for supervised learning, named machine collaboration (MaC), based on a collection of base machines for prediction tasks. Different from bagging/stacking (a parallel & independent framework) and boosting (a sequential & top-down framework), MaC is a type of circular & interactive learning framework. The circular & interactive feature helps the base machines to transfer information circularly and update their own structures and parameters accordingly. The theoretical result on the risk bound of the estimator based on MaC shows that circular & interactive feature can help MaC reduce the risk via a parsimonious ensemble. We conduct extensive experiments on simulated data and 119 benchmark real data sets. The results of the experiments show that in most cases, MaC performs much better than several state-of-the-art methods, including CART, neural network, stacking, and boosting.
翻訳日:2021-05-07 13:34:42 公開日:2021-05-06
# mimii due: 運転状況および環境条件の変化による産業機械の故障調査およびドメインシフトによる検査のための音声データセット

MIMII DUE: Sound Dataset for Malfunctioning Industrial Machine Investigation and Inspection with Domain Shifts due to Changes in Operational and Environmental Conditions ( http://arxiv.org/abs/2105.02702v1 )

ライセンス: Link先を確認
Ryo Tanabe, Harsh Purohit, Kota Dohi, Takashi Endo, Yuki Nikaido, Toshiki Nakamura, and Yohei Kawaguchi(参考訳) 本稿では,産業機械の運転・環境条件の変化(mimii due)にともなう,業務機械の故障やドメインシフトによる検査のための新しいデータセットを提案する。 実世界の要因によって特徴の分布が訓練段階と運用段階(ドメインシフトと呼ばれる)に変化するため、従来の異常音検出手法では課題に直面している。 ドメインシフトに対する堅牢性をチェックするには、ドメインシフトを持つデータセットが必要ですが、そのようなデータセットは今のところ存在しません。 新しいデータセットは、通常/異常に依存しない2つの異なる運用/環境条件(ソースドメインとターゲットドメイン)下での5種類の産業機械の正常および異常な動作音と、2つのドメイン間でドメインシフトが発生する。 実験の結果、ソースドメインとターゲットドメインで有意な性能差があり、データセットにはドメインシフトが含まれている。 これらの結果は、データセットがドメインシフトに対する堅牢性をチェックするのに役立つことを示している。 このデータセットはDCASE 2021 Challenge Task 2のデータセットのサブセットであり、https://zenodo.org/record/4740355で無料でダウンロードできる。

In this paper, we introduce a new dataset for malfunctioning industrial machine investigation and inspection with domain shifts due to changes in operational and environmental conditions (MIMII DUE). Conventional methods for anomalous sound detection face challenges in practice because the distribution of features changes between the training and operational phases (called domain shift) due to some real-world factors. To check the robustness against domain shifts, we need a dataset with domain shifts, but such a dataset does not exist so far. The new dataset consists of normal and abnormal operating sounds of industrial machines of five different types under two different operational/environmental conditions (source domain and target domain) independent of normal/abnormal, with domain shifts occurring between the two domains. Experimental results show significant performance differences between the source and target domains, and the dataset contains the domain shifts. These results indicate that the dataset will be helpful to check the robustness against domain shifts. The dataset is a subset of the dataset for DCASE 2021 Challenge Task 2 and freely available for download at https://zenodo.org/record/4740355
翻訳日:2021-05-07 13:34:13 公開日:2021-05-06
# ガウス過程回帰の実用的かつ厳密な不確実性境界

Practical and Rigorous Uncertainty Bounds for Gaussian Process Regression ( http://arxiv.org/abs/2105.02796v1 )

ライセンス: Link先を確認
Christian Fiedler, Carsten W. Scherer, Sebastian Trimpe(参考訳) ガウス過程回帰(Gaussian Process Regression)は、ベイズ原理に基づく一般的な非パラメトリック回帰法であり、予測に対する不確実性推定を提供する。 しかしながら、これらの推定はベイズの性質であり、安全性を保証する学習ベース制御のような重要な応用には、頻繁な不確実性境界が必要である。 このような厳密な境界はガウス過程で利用できるが、それらはアプリケーションで役立つには保守的すぎる。 これはしばしば実践者がこれらの境界をヒューリスティックに置き換え、理論上の保証を全て破ることになる。 この問題に対処するために,厳密だが実用上有用である新たな不確実性境界を導入する。 特に、境界は明示的に評価され、芸術結果の状態よりも保守的ではない。 さらに,特定のモデル誤特定は優雅な劣化のみをもたらすことを示した。 数値例による学習ベース制御におけるこれらの利点と有用性を示す。

Gaussian Process Regression is a popular nonparametric regression method based on Bayesian principles that provides uncertainty estimates for its predictions. However, these estimates are of a Bayesian nature, whereas for some important applications, like learning-based control with safety guarantees, frequentist uncertainty bounds are required. Although such rigorous bounds are available for Gaussian Processes, they are too conservative to be useful in applications. This often leads practitioners to replacing these bounds by heuristics, thus breaking all theoretical guarantees. To address this problem, we introduce new uncertainty bounds that are rigorous, yet practically useful at the same time. In particular, the bounds can be explicitly evaluated and are much less conservative than state of the art results. Furthermore, we show that certain model misspecifications lead to only graceful degradation. We demonstrate these advantages and the usefulness of our results for learning-based control with numerical examples.
翻訳日:2021-05-07 13:33:51 公開日:2021-05-06
# ニューラルブレンド形状を用いた骨格構音の学習

Learning Skeletal Articulations with Neural Blend Shapes ( http://arxiv.org/abs/2105.02451v1 )

ライセンス: Link先を確認
Peizhuo Li, Kfir Aberman, Rana Hanocka, Libin Liu, Olga Sorkine-Hornung, Baoquan Chen(参考訳) モーションキャプチャ(mocap)データを用いた新たに設計されたキャラクタのアニメーション化は,コンピュータアニメーションにおける長期にわたる問題である。 重要な考慮事項は、利用可能なmocapデータに対応する骨格構造と、しばしば調整されたポーズ特有の細分化を必要とするジョイント領域の形状変形である。 本研究では,高品質なポーズ依存変形を発生させる骨格構造を包絡して3次元文字を調音するニューラル手法を開発した。 我々のフレームワークは、同じ調音構造(例えば、二足歩行や四足歩行)でリグとスキンキャラクタを学習し、望ましい骨格構造をネットワークアーキテクチャに組み込む。 さらに, 標準的なリギングやスキンニングから生じる悪名高い人工物に対処するため, 関節領域の変形品質を向上する修正的ポーズ依存形状のセットであるニューラルブレンド形状を提案する。 本システムでは,任意の接続性を有する入力メッシュのニューラルブレンド形状と,入力関節回転を条件とした重み付け係数を推定する。 近年の深層学習技術では,地表面の剛性やスキンのパラメータによってネットワークを監視されているが,本手法では,トレーニングデータに特定の変形モデルが存在するとは考えていない。 トレーニング中、ネットワークは変形した形状を観察し、間接的な監督によって対応するリグ、スキン、ブレンド形状を推測する。 推論中,我々は3dアーティストが構築したアンリグドキャラクタを含む任意のメッシュ接続を持つ未認識キャラクタにネットワークが一般化できることを実証する。 標準的な骨格アニメーションモデルに従うことで、標準的なアニメーションソフトウェアやゲームエンジンで直接プラグアンドプレイが可能になる。

Animating a newly designed character using motion capture (mocap) data is a long standing problem in computer animation. A key consideration is the skeletal structure that should correspond to the available mocap data, and the shape deformation in the joint regions, which often requires a tailored, pose-specific refinement. In this work, we develop a neural technique for articulating 3D characters using enveloping with a pre-defined skeletal structure which produces high quality pose dependent deformations. Our framework learns to rig and skin characters with the same articulation structure (e.g., bipeds or quadrupeds), and builds the desired skeleton hierarchy into the network architecture. Furthermore, we propose neural blend shapes--a set of corrective pose-dependent shapes which improve the deformation quality in the joint regions in order to address the notorious artifacts resulting from standard rigging and skinning. Our system estimates neural blend shapes for input meshes with arbitrary connectivity, as well as weighting coefficients which are conditioned on the input joint rotations. Unlike recent deep learning techniques which supervise the network with ground-truth rigging and skinning parameters, our approach does not assume that the training data has a specific underlying deformation model. Instead, during training, the network observes deformed shapes and learns to infer the corresponding rig, skin and blend shapes using indirect supervision. During inference, we demonstrate that our network generalizes to unseen characters with arbitrary mesh connectivity, including unrigged characters built by 3D artists. Conforming to standard skeletal animation models enables direct plug-and-play in standard animation software, as well as game engines.
翻訳日:2021-05-07 13:33:39 公開日:2021-05-06
# (ASNA) 視覚画像品質評価のためのサロゲートランクロス機能を有する注意に基づくシームズ差分ニューラルネットワーク

(ASNA) An Attention-based Siamese-Difference Neural Network with Surrogate Ranking Loss function for Perceptual Image Quality Assessment ( http://arxiv.org/abs/2105.02531v1 )

ライセンス: Link先を確認
Seyed Mehdi Ayyoubzadeh, Ali Royat(参考訳) 近年,画像復元・強調のための逆訓練フレームワークを活用した深層畳み込みニューラルネットワーク(dcnn)が,処理画像のシャープさを大幅に改善している。 意外なことに、これらのDCNNは視覚的に他の方法よりも鮮明な画像を生成するが、それらの評価に一般的な指標が用いられると、品質スコアが低下する可能性がある。 したがって、画像の知覚品質によく適合した、その性能を反映する定量的なメトリクスを開発する必要がある。 ピーク信号対雑音比(psnr)、構造類似度指標(ssim)、知覚指数(pi)などの有名な定量的指標は、画像の平均評価スコア(mos)、特に逆損失関数で訓練されたニューラルネットワークとよく相関しない。 本稿では,従来のシャムネットワークであるシャム・ディファレンスニューラルネットワークの拡張アーキテクチャを用いた畳み込みニューラルネットワークを提案する。 提案手法の性能向上のために,このアーキテクチャに空間的およびチャネル的注意機構を組み込んだ。 最後に,モデルの学習に補助的損失関数を用いた。 提案する追加コスト関数は、ニューラルネットワークパラメータに関して微分可能でありながら、スピアマンのランク相関係数を高めるためにランキング損失を推定する。 提案手法は, 知覚画像品質評価の課題である「textbf{\textit{NTIRE 2021 Perceptual Image Quality Assessment}} Challenge」において, 優れた性能を示した。 提案手法の実装は一般に公開されている。

Recently, deep convolutional neural networks (DCNN) that leverage the adversarial training framework for image restoration and enhancement have significantly improved the processed images' sharpness. Surprisingly, although these DCNNs produced crispier images than other methods visually, they may get a lower quality score when popular measures are employed for evaluating them. Therefore it is necessary to develop a quantitative metric to reflect their performances, which is well-aligned with the perceived quality of an image. Famous quantitative metrics such as Peak signal-to-noise ratio (PSNR), The structural similarity index measure (SSIM), and Perceptual Index (PI) are not well-correlated with the mean opinion score (MOS) for an image, especially for the neural networks trained with adversarial loss functions. This paper has proposed a convolutional neural network using an extension architecture of the traditional Siamese network so-called Siamese-Difference neural network. We have equipped this architecture with the spatial and channel-wise attention mechanism to increase our method's performance. Finally, we employed an auxiliary loss function to train our model. The suggested additional cost function surrogates ranking loss to increase Spearman's rank correlation coefficient while it is differentiable concerning the neural network parameters. Our method achieved superior performance in \textbf{\textit{NTIRE 2021 Perceptual Image Quality Assessment}} Challenge. The implementations of our proposed method are publicly available.
翻訳日:2021-05-07 13:33:11 公開日:2021-05-06
# 2つのu-netのカスケードによるcovid-19肺炎の肺病変の定量化 : 異なる注釈基準を用いた複数データセットの訓練と評価

Quantification of pulmonary involvement in COVID-19 pneumonia by means of a cascade oftwo U-nets: training and assessment on multipledatasets using different annotation criteria ( http://arxiv.org/abs/2105.02566v1 )

ライセンス: Link先を確認
Francesca Lizzi, Abramo Agosti, Francesca Brero, Raffaella Fiamma Cabini, Maria Evelina Fantacci, Silvia Figini, Alessandro Lascialfari, Francesco Laruina, Piernicola Oliva, Stefano Piffer, Ian Postuma, Lisa Rinaldi, Cinzia Talamonti, Alessandra Retico(参考訳) 新型コロナウイルス感染症患者のCTスキャンに重度スコアを自動割り当てることによって、放射線科の作業負荷が軽減される可能性がある。 本研究の目的は、新型コロナウイルスの肺病変の同定、分節化、定量化に人工知能(AI)を活用することである。 本研究は, 異種個体群とアノテート個体群を異なる基準で比較した。 2つのU-netのカスケードをベースとした自動解析パイプラインLungQuantシステムを開発した。 第1の1つ(U-net_1)は肺発作の同定に特化しており、第2の1つ(U-net_2)は、セグメント化された肺を囲む境界箱に作用し、COVID-19の病変によって影響を受ける領域を特定する。 u-netのトレーニングや、diceインデックスで定量化されたセグメンテーションパフォーマンスの評価に、さまざまな公開データセットが使用された。 LungQuantシステムにおけるCT-Severity Score(CT-SS)の精度も評価した。 diceと精度は、利用可能なデータサンプルのアノテーションの品質に依存することを示した。 独立で一般に入手可能なベンチマークデータセットでは、肺清算システムで予測されたマスクと基準マスクの間のサイス値は、それぞれ0.095$\pm$0.01と0.66$\pm$0.13であった。 このベンチマークデータセットにおけるCT-SSの同定精度は90%であった。 新型コロナウイルス肺炎におけるaiによる肺病変の定量化システムの訓練において,アノテーション基準の異なるデータサンプルを用いた場合の影響について検討した。 Dice indexの観点では、U-netセグメンテーションの品質は病変アノテーションの品質に強く依存する。 それでも、CT-SSは独立した検証セットで正確に予測することができ、LungQuantの十分な一般化能力を示す。

The automatic assignment of a severity score to the CT scans of patients affected by COVID-19 pneumonia could reduce the workload in radiology departments. This study aims at exploiting Artificial intelligence (AI) for the identification, segmentation and quantification of COVID-19 pulmonary lesions. We investigated the effects of using multiple datasets, heterogeneously populated and annotated according to different criteria. We developed an automated analysis pipeline, the LungQuant system, based on a cascade of two U-nets. The first one (U-net_1) is devoted to the identification of the lung parenchyma, the second one (U-net_2) acts on a bounding box enclosing the segmented lungs to identify the areas affected by COVID-19 lesions. Different public datasets were used to train the U-nets and to evaluate their segmentation performances, which have been quantified in terms of the Dice index. The accuracy in predicting the CT-Severity Score (CT-SS) of the LungQuant system has been also evaluated. Both Dice and accuracy showed a dependency on the quality of annotations of the available data samples. On an independent and publicly available benchmark dataset, the Dice values measured between the masks predicted by LungQuant system and the reference ones were 0.95$\pm$0.01 and 0.66$\pm$0.13 for the segmentation of lungs and COVID-19 lesions, respectively. The accuracy of 90% in the identification of the CT-SS on this benchmark dataset was achieved. We analysed the impact of using data samples with different annotation criteria in training an AI-based quantification system for pulmonary involvement in COVID-19 pneumonia. In terms of the Dice index, the U-net segmentation quality strongly depends on the quality of the lesion annotations. Nevertheless, the CT-SS can be accurately predicted on independent validation sets, demonstrating the satisfactory generalization ability of the LungQuant.
翻訳日:2021-05-07 13:32:48 公開日:2021-05-06
# ACORN: ニューラルシーン表現のための適応コーディネートネットワーク

ACORN: Adaptive Coordinate Networks for Neural Scene Representation ( http://arxiv.org/abs/2105.02788v1 )

ライセンス: Link先を確認
Julien N. P. Martel, David B. Lindell, Connor Z. Lin, Eric R. Chan, Marco Monteiro and Gordon Wetzstein(参考訳) ニューラルネットワーク表現は、レンダリング、イメージング、幾何モデリング、シミュレーションといった応用の新しいパラダイムとして登場した。 メッシュやポイントクラウド、ボリュームといった従来の表現と比較して、異なる学習ベースのパイプラインに柔軟に組み込むことができる。 ニューラル表現の最近の改良により、適度な解像度(画像や3D形状など)で詳細な信号の表現が可能になったが、大規模なシーンや複雑なシーンを適切に表現することは困難であることが証明されている。 現在のニューラル表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度の画像を正確に表現することができない。 本稿では,興味のある信号の局所的複雑性に基づいて,トレーニングや推論中にリソースを適応的に割り当てる,新たなハイブリッドネットワークアーキテクチャとトレーニング戦略を提案する。 我々のアプローチでは、トレーニング中に最適化されたクワッドツリーやoctreeに似た、マルチスケールのブロック座標分解を用いる。 ネットワークアーキテクチャは2段階で動作する: ネットワークパラメータの大部分を使用して、座標エンコーダは単一のフォワードパスで特徴グリッドを生成する。 次に、軽量な特徴デコーダを用いて、ブロック内の数百から数千のサンプルを効率的に評価することができる。 このハイブリッドネットワークアーキテクチャにより、ギガピクセル画像を40dbのピーク信号対雑音比に適合させる最初の実験を実証する。 特にこれは、以前実証された画像フィッティング実験の解像度と比べて1000倍以上のスケールの増加を示している。 さらに,従来の手法よりも大幅に高速で優れた3d形状を表現することが可能であり,トレーニング時間を数日から数時間に短縮し,メモリ要件を1桁以上削減する。

Neural representations have emerged as a new paradigm for applications in rendering, imaging, geometric modeling, and simulation. Compared to traditional representations such as meshes, point clouds, or volumes they can be flexibly incorporated into differentiable learning-based pipelines. While recent improvements to neural representations now make it possible to represent signals with fine details at moderate resolutions (e.g., for images and 3D shapes), adequately representing large-scale or complex scenes has proven a challenge. Current neural representations fail to accurately represent images at resolutions greater than a megapixel or 3D scenes with more than a few hundred thousand polygons. Here, we introduce a new hybrid implicit-explicit network architecture and training strategy that adaptively allocates resources during training and inference based on the local complexity of a signal of interest. Our approach uses a multiscale block-coordinate decomposition, similar to a quadtree or octree, that is optimized during training. The network architecture operates in two stages: using the bulk of the network parameters, a coordinate encoder generates a feature grid in a single forward pass. Then, hundreds or thousands of samples within each block can be efficiently evaluated using a lightweight feature decoder. With this hybrid implicit-explicit network architecture, we demonstrate the first experiments that fit gigapixel images to nearly 40 dB peak signal-to-noise ratio. Notably this represents an increase in scale of over 1000x compared to the resolution of previously demonstrated image-fitting experiments. Moreover, our approach is able to represent 3D shapes significantly faster and better than previous techniques; it reduces training times from days to hours or minutes and memory requirements by over an order of magnitude.
翻訳日:2021-05-07 13:32:15 公開日:2021-05-06
# 3次元形状の深部偏光イメージングとSVBRDF取得

Deep Polarization Imaging for 3D shape and SVBRDF Acquisition ( http://arxiv.org/abs/2105.02875v1 )

ライセンス: Link先を確認
Valentin Deschaintre, Yiming Lin and Abhijeet Ghosh(参考訳) 偏光キューを用いた3次元物体の形状と空間的反射率を効率よく取得する新しい手法を提案する。 偏光を利用した特定の制約下での物質や物体の出現を推定する従来の研究(形状や多視点取得)とは異なり、偏光イメージングとディープラーニングを組み合わせることで、前面フラッシュ照明下での単視点偏光イメージングを用いて3次元物体形状(表面正常および深さ)とsvbrdfの高品質な推定を実現する。 取得した偏光画像に加えて,正規化ストークスマップと拡散色の推定という形で,形状と反射率に関する強力な新しい手がかりを深層ネットワークに提供する。 さらに,ネットワークアーキテクチャの変更と,さらに質的な改善を提供するトレーニング損失についても述べる。 我々は,フラッシュ照明とともにディープラーニングを用いた最近の研究と比較して,優れた結果を得るためのアプローチを実証する。

We present a novel method for efficient acquisition of shape and spatially varying reflectance of 3D objects using polarization cues. Unlike previous works that have exploited polarization to estimate material or object appearance under certain constraints (known shape or multiview acquisition), we lift such restrictions by coupling polarization imaging with deep learning to achieve high quality estimate of 3D object shape (surface normals and depth) and SVBRDF using single-view polarization imaging under frontal flash illumination. In addition to acquired polarization images, we provide our deep network with strong novel cues related to shape and reflectance, in the form of a normalized Stokes map and an estimate of diffuse color. We additionally describe modifications to network architecture and training loss which provide further qualitative improvements. We demonstrate our approach to achieve superior results compared to recent works employing deep learning in conjunction with flash illumination.
翻訳日:2021-05-07 13:31:49 公開日:2021-05-06
# ネーターの学習ダイナミクス:深層学習における速度対称性の破れの役割

Noether's Learning Dynamics: The Role of Kinetic Symmetry Breaking in Deep Learning ( http://arxiv.org/abs/2105.02716v1 )

ライセンス: Link先を確認
Hidenori Tanaka, Daniel Kunin(参考訳) 自然界では、対称性は正則性を支配するが、対称性の破れはテクスチャをもたらす。 本稿では,機械学習における重要な課題である学習における効率性と安定性の背後にある対称性の新たな役割を明らかにする。 近年の実験では,損失関数の対称性が学習性能と密接に関連していることが示唆された。 これは根本的な疑問を引き起こす。 このような対称性は、学習の成功に有益か、有害か、無関係か? そこで本研究では, 損失関数に加えて学習規則の対称性も考慮し, 新たな設計原理として対称性の破れを提起する。 連続時間ラグランジアン定式化を用いて離散学習力学をモデル化し、学習規則は運動エネルギーに対応し、損失関数はポテンシャルエネルギーに対応している。 運動エネルギーは、損失関数の非物理的対称性と学習規則で使用される非ユークリッド計量を反映するポテンシャル(損失)関数としばしば同じ対称性を持たない、学習システムに特有の運動的非対称性を同定する。 物理学で知られているネーターの定理を一般化し、この運動的非対称性を明示的に考慮し、ネーター電荷の運動を導出する。 最後に,本理論を正規化層を持つ現代の深層ネットワークに適用し,速度対称性の破れによる暗黙的適応最適化のメカニズムを明らかにする。

In nature, symmetry governs regularities, while symmetry breaking brings texture. Here, we reveal a novel role of symmetry breaking behind efficiency and stability in learning, a critical issue in machine learning. Recent experiments suggest that the symmetry of the loss function is closely related to the learning performance. This raises a fundamental question. Is such symmetry beneficial, harmful, or irrelevant to the success of learning? Here, we demystify this question and pose symmetry breaking as a new design principle by considering the symmetry of the learning rule in addition to the loss function. We model the discrete learning dynamics using a continuous-time Lagrangian formulation, in which the learning rule corresponds to the kinetic energy and the loss function corresponds to the potential energy. We identify kinetic asymmetry unique to learning systems, where the kinetic energy often does not have the same symmetry as the potential (loss) function reflecting the non-physical symmetries of the loss function and the non-Euclidean metric used in learning rules. We generalize Noether's theorem known in physics to explicitly take into account this kinetic asymmetry and derive the resulting motion of the Noether charge. Finally, we apply our theory to modern deep networks with normalization layers and reveal a mechanism of implicit adaptive optimization induced by the kinetic symmetry breaking.
翻訳日:2021-05-07 13:31:31 公開日:2021-05-06
# 側情報を用いたコミュニティ検出のための半確定プログラミング

Semidefinite Programming for Community Detection with Side Information ( http://arxiv.org/abs/2105.02816v1 )

ライセンス: Link先を確認
Mohammad Esmaeili and Hussein Metwaly Saad and Aria Nosratinia(参考訳) 本稿では,非グラフデータを組み込んだコミュニティ検出のための,効率的な半有限計画法(SDP)を提案する。 SDPはグラフ上の標準コミュニティ検出のための効率的なソリューションである。 グラフデータと非グラフデータの両方を観測し,ノードラベルの最大度推定のための半定値緩和を定式化する。 この定式化は標準コミュニティ検出のsdpソリューションとは異なっているが、望ましい性質を維持している。 本稿では,3種類の非グラフ情報の正確な回復しきい値を計算し,これを側情報 (side information) と呼ぶ: 部分的なラベル, ノイズラベル, ノードごとの複数の観測(特徴) を任意だが有限な濃度で行う。 また, SDP は, サイド情報が存在する場合と, サイド情報が存在する場合と同程度の精度で回復できることがわかった。 このようにして開発された手法は計算効率が良く、また、サイド情報の存在下でのコミュニティ検出の解に対して漸近的に正確である。 シミュレーションにより,本論文の漸近的な結果は,小さめのグラフに対するsdpの性能にも光を当てることができた。

This paper produces an efficient Semidefinite Programming (SDP) solution for community detection that incorporates non-graph data, which in this context is known as side information. SDP is an efficient solution for standard community detection on graphs. We formulate a semi-definite relaxation for the maximum likelihood estimation of node labels, subject to observing both graph and non-graph data. This formulation is distinct from the SDP solution of standard community detection, but maintains its desirable properties. We calculate the exact recovery threshold for three types of non-graph information, which in this paper are called side information: partially revealed labels, noisy labels, as well as multiple observations (features) per node with arbitrary but finite cardinality. We find that SDP has the same exact recovery threshold in the presence of side information as maximum likelihood with side information. Thus, the methods developed herein are computationally efficient as well as asymptotically accurate for the solution of community detection in the presence of side information. Simulations show that the asymptotic results of this paper can also shed light on the performance of SDP for graphs of modest size.
翻訳日:2021-05-07 13:31:08 公開日:2021-05-06
# 会話型AIのための統合事前学習フレームワーク

A Unified Pre-training Framework for Conversational AI ( http://arxiv.org/abs/2105.02482v1 )

ライセンス: Link先を確認
Siqi Bao, Bingjin Chen, Huang He, Xin Tian, Han Zhou, Fan Wang, Hua Wu, Haifeng Wang, Wenquan Wu, Yingzhan Lin(参考訳) 本研究では,オープンドメイン会話,知識基盤対話,タスク指向会話など,様々な対話システムにおけるPLATO-2の適用について検討する。 PLATO-2は、2段階のカリキュラム学習を通じて訓練されたオープンドメインチャットボットとして設計されている。 第1段階では、単純化された1対1マッピング関係に適合する粗粒度応答生成モデルが学習される。 このモデルはタスク指向の会話に適用され、セマンティックマッピングはタスク完了において決定論的である傾向がある。 第2段階では、様々な応答生成とコヒーレンス推定のために、別のきめ細かい生成モデルと評価モデルがさらに学習される。 1対1のマッピングをキャプチャする優れた能力を持つこのモデルは、オープンドメインの会話と知識の接地された対話に適している。 plato-2の包括的評価には,オープンドメイン会話(track3-task2)の対話的評価,知識接地対話(track3-task1)の静的評価,エンドツーエンドタスク指向会話(track2-task1)など,dstc9の複数のタスクが参加した。 PLATO-2は3つのタスクで1位を獲得し、様々な対話システムのための統合フレームワークとしての有効性を検証する。

In this work, we explore the application of PLATO-2 on various dialogue systems, including open-domain conversation, knowledge grounded dialogue, and task-oriented conversation. PLATO-2 is initially designed as an open-domain chatbot, trained via two-stage curriculum learning. In the first stage, a coarse-grained response generation model is learned to fit the simplified one-to-one mapping relationship. This model is applied to the task-oriented conversation, given that the semantic mappings tend to be deterministic in task completion. In the second stage, another fine-grained generation model and an evaluation model are further learned for diverse response generation and coherence estimation, respectively. With superior capability on capturing one-to-many mapping, such models are suitable for the open-domain conversation and knowledge grounded dialogue. For the comprehensive evaluation of PLATO-2, we have participated in multiple tasks of DSTC9, including interactive evaluation of open-domain conversation (Track3-task2), static evaluation of knowledge grounded dialogue (Track3-task1), and end-to-end task-oriented conversation (Track2-task1). PLATO-2 has obtained the 1st place in all three tasks, verifying its effectiveness as a unified framework for various dialogue systems.
翻訳日:2021-05-07 13:30:52 公開日:2021-05-06
# 分布距離を用いた対話システムの評価

Assessing Dialogue Systems with Distribution Distances ( http://arxiv.org/abs/2105.02573v1 )

ライセンス: Link先を確認
Jiannan Xiang, Yahui Liu, Deng Cai, Huayang Li, Defu Lian and Lemao Liu(参考訳) 対話システムを開発する上で重要な側面は、異なるシステムの性能を評価し比較する方法である。 既存の自動評価指標はターンレベルの品質評価に基づいており、システムレベルの比較に平均スコアを使用する。 本稿では,対話システムの性能を,生成した会話と実世界の会話との距離を計算して測定することを提案する。 具体的には,FBD と PRD の2つの分布指標を開発し,評価した。 複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。

An important aspect of developing dialogue systems is how to evaluate and compare the performance of different systems. Existing automatic evaluation metrics are based on turn-level quality evaluation and use average scores for system-level comparison. In this paper, we propose to measure the performance of a dialogue system by computing the distribution-wise distance between its generated conversations and real-world conversations. Specifically, two distribution-wise metrics, FBD and PRD, are developed and evaluated. Experiments on several dialogue corpora show that our proposed metrics correlate better with human judgments than existing metrics.
翻訳日:2021-05-07 13:30:31 公開日:2021-05-06
# tabbie: 表データの事前学習表現

TABBIE: Pretrained Representations of Tabular Data ( http://arxiv.org/abs/2105.02584v1 )

ライセンス: Link先を確認
Hiroshi Iida, Dung Thai, Varun Manjunatha, Mohit Iyyer(参考訳) 表表表現学習における既存の研究は、BERTのような事前学習言語モデルから導かれる自己教師型目的関数を用いて表と関連テキストを共同でモデル化する。 この共同事前訓練は、ペア化されたテーブルとテキスト(例えば、テーブルに関する質問に答える)に関わるタスクを改善するが、関連するテキスト(例えば、欠落したセル)なしでテーブル上で操作するタスクでは、パフォーマンスが低いことを示す。 本稿では,表データからのみ学習し,テーブルベースの予測タスクスイートで最先端に到達可能な,単純な事前学習目標(コラプトセル検出)を考案する。 競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブ構造(セル、行、列)の埋め込みを提供します。 学習したセル,列,行の表現の質的分析により,複雑なテーブルの意味と数値的傾向が分かる。

Existing work on tabular representation learning jointly models tables and associated text using self-supervised objective functions derived from pretrained language models such as BERT. While this joint pretraining improves tasks involving paired tables and text (e.g., answering questions about tables), we show that it underperforms on tasks that operate over tables without any associated text (e.g., populating missing cells). We devise a simple pretraining objective (corrupt cell detection) that learns exclusively from tabular data and reaches the state-of-the-art on a suite of table based prediction tasks. Unlike competing approaches, our model (TABBIE) provides embeddings of all table substructures (cells, rows, and columns), and it also requires far less compute to train. A qualitative analysis of our model's learned cell, column, and row representations shows that it understands complex table semantics and numerical trends.
翻訳日:2021-05-07 13:30:22 公開日:2021-05-06
# bird's eye: 単純な情報理論による言語グラフ構造の探索

Bird's Eye: Probing for Linguistic Graph Structures with a Simple Information-Theoretic Approach ( http://arxiv.org/abs/2105.02629v1 )

ライセンス: Link先を確認
Yifan Hou and Mrinmaya Sachan(参考訳) NLPには、グラフの形での言語に対するこれまでの理解を表す、豊富な歴史がある。 文脈化されたテキスト表現の分析に関する最近の研究は、特定の言語現象をエンコードする程度や程度を理解するために手作りのプローブモデルに焦点を当てている。 しかし、様々な現象の相互依存性と訓練プローブモデルのランダム性により、これらの表現がこれらの言語グラフのリッチな情報をエンコードする方法を検出することは難しい問題である。 本稿では,これらの表現がこれらの言語グラフにどのように情報をエンコードしているかを,比較的単純なプローブ手法である鳥眼を提案する。 本研究は,分類器の性能を利用する代わりに,連続空間に埋め込まれた言語グラフと文脈化された単語表現との間の相互情報の探索と推定を行う。 さらに,摂動解析を用いて言語グラフの局所的言語情報を調べる手法を提案する。 この装置をワームの目と呼んでいます これらのプローブを用いて、bertモデルを用いて構文と意味グラフ構造をエンコードする能力を分析し、これらのモデルが構文と意味情報の両方をある程度エンコードしていることを見出した。

NLP has a rich history of representing our prior understanding of language in the form of graphs. Recent work on analyzing contextualized text representations has focused on hand-designed probe models to understand how and to what extent do these representations encode a particular linguistic phenomenon. However, due to the inter-dependence of various phenomena and randomness of training probe models, detecting how these representations encode the rich information in these linguistic graphs remains a challenging problem. In this paper, we propose a new information-theoretic probe, Bird's Eye, which is a fairly simple probe method for detecting if and how these representations encode the information in these linguistic graphs. Instead of using classifier performance, our probe takes an information-theoretic view of probing and estimates the mutual information between the linguistic graph embedded in a continuous space and the contextualized word representations. Furthermore, we also propose an approach to use our probe to investigate localized linguistic information in the linguistic graphs using perturbation analysis. We call this probing setup Worm's Eye. Using these probes, we analyze BERT models on their ability to encode a syntactic and a semantic graph structure, and find that these models encode to some degree both syntactic as well as semantic information; albeit syntactic information to a greater extent.
翻訳日:2021-05-07 13:30:03 公開日:2021-05-06
# 箱に何が入ってるの? コモンクロールコーパスにおける望ましくない内容の分析

What's in the Box? An Analysis of Undesirable Content in the Common Crawl Corpus ( http://arxiv.org/abs/2105.02732v1 )

ライセンス: Link先を確認
Alexandra (Sasha) Luccioni, Joseph D. Viviano(参考訳) 現在のニューラル言語モデルの成功の多くは、ますます大規模なトレーニングコーパスによって推進されているが、これらの膨大なテキストデータを分析するための研究は、比較的少ない。 この探索的分析では、言語モデルのトレーニングに広く使われている巨大なWebコーパスであるCommon Crawlを深く掘り下げる。 ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。 最後に、このコンテンツが言語モデルに与える影響について議論し、コーパスの収集と分析に対してより念入りなアプローチを求める。

Whereas much of the success of the current generation of neural language models has been driven by increasingly large training corpora, relatively little research has been dedicated to analyzing these massive sources of textual data. In this exploratory analysis, we delve deeper into the Common Crawl, a colossal web corpus that is extensively used for training language models. We find that it contains a significant amount of undesirable content, including hate speech and sexually explicit content, even after filtering procedures. We conclude with a discussion of the potential impacts of this content on language models and call for more mindful approach to corpus collection and analysis.
翻訳日:2021-05-07 13:29:41 公開日:2021-05-06
# 著者たち:深層テキスト分類における暗黙のバイアスの理解と緩和

The Authors Matter: Understanding and Mitigating Implicit Bias in Deep Text Classification ( http://arxiv.org/abs/2105.02778v1 )

ライセンス: Link先を確認
Haochen Liu, Wei Jin, Hamid Karimi, Zitao Liu and Jiliang Tang(参考訳) 人間のデータに基づいて訓練された深層テキスト分類モデルにバイアスがかかることは明らかである。 特に、特定の集団群のアイデンティティー項を明示的に含むテキストに対して偏りのある結果を生み出す。 この種のバイアスを明示的なバイアスと呼び、広く研究されている。 しかし、深層テキスト分類モデルは、特定の人口集団の著者によって書かれたテキストに対して偏りのある結果を生み出すこともある。 このようなバイアスを暗黙のバイアスと呼び、それに対する理解は限られています。 本稿では,まず,異なる分類群に対して,異なるテキスト分類タスクに暗黙的バイアスが存在することを実証する。 そして,暗黙のバイアスの知識を深めるために,学習に基づく解釈手法を構築する。 具体的には,著者の属性に関連づけられた言語特徴に基づいて,分類器が予測を行うように検証する。 次に,深層テキスト分類器を訓練し,適切な特徴量を予測するフレームワークdebiased-tcを提案する。 3つの実世界のデータセットについて広範な実験を行う。 その結果,提案手法で学習したテキスト分類モデルは,公平性の観点からも従来のモデルよりも優れており,分類性能も若干優れていた。

It is evident that deep text classification models trained on human data could be biased. In particular, they produce biased outcomes for texts that explicitly include identity terms of certain demographic groups. We refer to this type of bias as explicit bias, which has been extensively studied. However, deep text classification models can also produce biased outcomes for texts written by authors of certain demographic groups. We refer to such bias as implicit bias of which we still have a rather limited understanding. In this paper, we first demonstrate that implicit bias exists in different text classification tasks for different demographic groups. Then, we build a learning-based interpretation method to deepen our knowledge of implicit bias. Specifically, we verify that classifiers learn to make predictions based on language features that are related to the demographic attributes of the authors. Next, we propose a framework Debiased-TC to train deep text classifiers to make predictions on the right features and consequently mitigate implicit bias. We conduct extensive experiments on three real-world datasets. The results show that the text classification models trained under our proposed framework outperform traditional models significantly in terms of fairness, and also slightly in terms of classification performance.
翻訳日:2021-05-07 13:29:31 公開日:2021-05-06
# フランスの大統領演説のスタイル分析:マクロンは本当に違うのか?

Stylistic Analysis of the French Presidential Speeches: Is Macron really different? ( http://arxiv.org/abs/2105.02844v1 )

ライセンス: Link先を確認
Dominique Labb\'e, Jacques Savoy(参考訳) 大統領演説は、政府の意図と正当化を、説明と論争の間の独自のスタイルと修辞的な振動で支えていることを示している。 60年間にわたって、フランス第五共和国大統領(1958年-2018年)の様式的変化を観察できるだろうか。 本論文は,すべてのアロゲーションに関する公式な記録に基づき,スタイリスティックな進化を解説し,その基盤となる主要な傾向を提示する。 この研究は、ド・ゴールの修辞学が主に彼自身に捧げられているわけではなく、J. Chiracの2つの用語が完全には似ていないことを示している。 いくつかの全体的な様式的指標によれば、マクロンのスタイルは前任者(f. hollande や n. sarkozy)ほど複雑ではないものの、より慎重な分析によって彼の注目すべき新しいスタイルを明確に示している。 最近のアメリカ合衆国大統領と比較すると、フランス人はいくつかの類似点(例えば、平均文の長さ)と相違点(よりI-words、より少ないWe-words)を提示する。 この比較分析では、マクロンのスタイルは、アメリカと元フランス大統領の両方と明らかに異なる。 より抽象的な言説を推奨し、より少ない数を用いて、空間においてアンカーを減らし、E. Macron は長い文を使う傾向がある。 これらの様々な様式的・修辞的特徴は、彼がフランス国民によって誤解され、繰り返し低い評価を受けていることを説明できた。

Presidential speeches indicate the government's intentions and justifications supported by a dedicated style and rhetoric oscillating between explanation and controversy. Over a period of sixty years, can we observe stylistic variations by the different French presidents of the Fifth Republic (1958-2018)? Based on official transcripts of all their allocution, this paper illustrates the stylistic evolution and presents the underlying main trends. This study shows that de Gaulle's rhetoric is not mainly dedicated to his own person, or that the two terms of J. Chirac are not fully similar. According to several overall stylistic indicators, Macron's style does not appear as complex compared to his predecessors (F. Hollande or N. Sarkozy) but a more careful analysis clearly demonstrates his noticeable new style. Compared to the recent US presidents, the French ones present some similarities (e.g., similar mean sentence length) and dissimilarities (more I-words, less we-words). In this comparative analysis, Macron's style is also clearly distinctive from both the US and former French presidents. Opting for a more abstract discourse, less anchored in space, using less numbers, E. Macron tends to use long sentences. These various stylistic and rhetorical features could explain his being misunderstood by the French people and his recurrent low approval ratings.
翻訳日:2021-05-07 13:29:14 公開日:2021-05-06
# 説明可能な自律ロボット : 調査と展望

Explainable Autonomous Robots: A Survey and Perspective ( http://arxiv.org/abs/2105.02658v1 )

ライセンス: Link先を確認
Tatsuya Sakai and Takayuki Nagai(参考訳) 高度な通信プロトコルは、自律ロボットと人間との共存を可能にするために重要である。 したがって、説明能力の発達は、自律ロボットへの緊急な第一歩である。 この調査は、機械学習研究で議論された様々なタイプの「説明可能性」の概要を提供する。 そこで我々は,自律ロボット(説明可能な自律ロボット)の文脈における「説明可能性」の定義について,「説明とは何か?」という問いを解くことによって考察する。 また、この定義に基づく研究調査を行い、今後の研究に関するいくつかの話題を提示する。

Advanced communication protocols are critical to enable the coexistence of autonomous robots with humans. Thus, the development of explanatory capabilities is an urgent first step toward autonomous robots. This survey provides an overview of the various types of "explainability" discussed in machine learning research. Then, we discuss the definition of "explainability" in the context of autonomous robots (i.e., explainable autonomous robots) by exploring the question "what is an explanation?" We further conduct a research survey based on this definition and present some relevant topics for future research.
翻訳日:2021-05-07 13:28:30 公開日:2021-05-06
# 信頼できる自律ロボットのための説明生成の枠組み

A Framework of Explanation Generation toward Reliable Autonomous Robots ( http://arxiv.org/abs/2105.02670v1 )

ライセンス: Link先を確認
Tatsuya Sakai, Kazuki Miyazawa, Takato Horii and Takayuki Nagai(参考訳) 自律的な協調ロボットを実現するためには,ユーザの信頼を高めることが重要である。 本研究の目的は,マルコフ決定過程(MDP)において,現状から目標状態への遷移を説明する能力を有する自律エージェントを付与するアルゴリズムを提案することである。 認知科学では、人間に受け入れられる説明を生成するためには、出来事を十分に理解するために必要な最小限の情報を示すことが重要である。 この要件を満たすために,世界の予測モデルを用いて意思決定プロセスにおいて重要な要素を識別し,これらの要素に基づいて説明を生成する枠組みを提案する。 提案手法が説明文を生成する能力を検証するために,グリッド環境を用いた実験を行った。 シミュレーション実験の結果,提案手法を用いて生成した説明は,現在の状態から対象状態への遷移を理解する上で重要な最小要素で構成されていることがわかった。 さらに, 被験者実験の結果, 生成した説明は状態遷移の過程のよい要約であり, 行動理由の説明のために高い評価が得られた。

To realize autonomous collaborative robots, it is important to increase the trust that users have in them. Toward this goal, this paper proposes an algorithm which endows an autonomous agent with the ability to explain the transition from the current state to the target state in a Markov decision process (MDP). According to cognitive science, to generate an explanation that is acceptable to humans, it is important to present the minimum information necessary to sufficiently understand an event. To meet this requirement, this study proposes a framework for identifying important elements in the decision-making process using a prediction model for the world and generating explanations based on these elements. To verify the ability of the proposed method to generate explanations, we conducted an experiment using a grid environment. It was inferred from the result of a simulation experiment that the explanation generated using the proposed method was composed of the minimum elements important for understanding the transition from the current state to the target state. Furthermore, subject experiments showed that the generated explanation was a good summary of the process of state transition, and that a high evaluation was obtained for the explanation of the reason for an action.
翻訳日:2021-05-07 13:28:24 公開日:2021-05-06
# 多目的最適化問題に対するメタラーニングに基づく深層強化学習

Meta-Learning-based Deep Reinforcement Learning for Multiobjective Optimization Problems ( http://arxiv.org/abs/2105.02741v1 )

ライセンス: Link先を確認
Zizhen Zhang, Zhiyuan Wu, Jiahai Wang(参考訳) deep reinforcement learning (drl) は最近、複雑な組合せ最適化問題に取り組むことに成功している。 これらの問題を多目的に拡張すると、既存のDRLアプローチでは、目的物の重み分解によって決定される複数のサブプロブレムを柔軟かつ効率的に扱うことが困難になる。 本稿では,簡潔なメタラーニングに基づくDRL手法を提案する。 最初にメタモデルをメタラーニングで訓練する。 メタモデルは、対応するサブproblemのサブモデルを引き出すためのいくつかの更新ステップで微調整されている。 パレト・フロントはそれに従って建てられている。 多目的旅行セールスマン問題に対する計算実験は,本手法が学習ベースや反復型アプローチよりも優れていることを示す。

Deep reinforcement learning (DRL) has recently shown its success in tackling complex combinatorial optimization problems. When these problems are extended to multiobjective ones, it becomes difficult for the existing DRL approaches to flexibly and efficiently deal with multiple subproblems determined by weight decomposition of objectives. This paper proposes a concise meta-learning-based DRL approach. It first trains a meta-model by meta-learning. The meta-model is fine-tuned with a few update steps to derive submodels for the corresponding subproblems. The Pareto front is built accordingly. The computational experiments on multiobjective traveling salesman problems demonstrate the superiority of our method over most of learning-based and iteration-based approaches.
翻訳日:2021-05-07 13:28:08 公開日:2021-05-06
# 画像キャプションのための明示的・暗黙的視覚関係の探索

Exploring Explicit and Implicit Visual Relationships for Image Captioning ( http://arxiv.org/abs/2105.02391v1 )

ライセンス: Link先を確認
Zeliang Song, Xiaofei Zhou(参考訳) 画像キャプションは、画像のテキスト文を自動的に生成することを目的とした、AIで最も難しいタスクの1つである。 画像キャプションの最近の手法は、画像中の正常領域の配列を自然言語記述に変換するエンコーダ・デコーダ・フレームワークに従う。 しかし、これらのモデルは通常、オブジェクト間の様々な視覚関係に反映されたコンテキストインタラクションの包括的理解を欠いている。 本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。 具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。 特に,検出対象間のグローバルな相互作用を,余分なリレーショナルアノテーションを使わずにトランスフォーマ(Region BERT)から領域ベースの双方向エンコーダ表現を通じて描画する。 提案手法の有効性と優位性を評価するため,我々はMicrosoft COCOベンチマークで大規模な実験を行い,強力なベースラインと比較して顕著な改善を実現した。

Image captioning is one of the most challenging tasks in AI, which aims to automatically generate textual sentences for an image. Recent methods for image captioning follow encoder-decoder framework that transforms the sequence of salient regions in an image into natural language descriptions. However, these models usually lack the comprehensive understanding of the contextual interactions reflected on various visual relationships between objects. In this paper, we explore explicit and implicit visual relationships to enrich region-level representations for image captioning. Explicitly, we build semantic graph over object pairs and exploit gated graph convolutional networks (Gated GCN) to selectively aggregate local neighbors' information. Implicitly, we draw global interactions among the detected objects through region-based bidirectional encoder representations from transformers (Region BERT) without extra relational annotations. To evaluate the effectiveness and superiority of our proposed method, we conduct extensive experiments on Microsoft COCO benchmark and achieve remarkable improvements compared with strong baselines.
翻訳日:2021-05-07 13:27:39 公開日:2021-05-06
# siamese視覚追跡のための時空間マッチング

Spatio-Temporal Matching for Siamese Visual Tracking ( http://arxiv.org/abs/2105.02408v1 )

ライセンス: Link先を確認
Jinpu Zhang and Yuehuan Wang(参考訳) 類似性マッチングは、シームズトラッカーのコア操作である。 ほとんどのシームズトラッカーは、画像マッチング場に由来する相互相関による類似性学習を行う。 しかし、2次元画像マッチングとは異なり、オブジェクト追跡におけるマッチングネットワークは4次元情報(height, width, channel and time)を必要とする。 相関関係はチャネルや時間次元からの情報を無視し、あいまいなマッチングを生成する。 本稿では,空間(幅,チャネル)と時間における4次元マッチングの能力を徹底的に検討するための時空間マッチング手法を提案する。 空間的マッチングにおいて、各空間的位置のチャネルワイド特徴応答を補正するために、空間変動チャネル誘導相関(SVC-Corr)を導入する。 時間的マッチングにおいて、ターゲットと背景の時間領域コンテキスト関係を調査し、収差抑制モジュール(ARM)を開発する。 フレーム間応答マップの急激な変更を制限することで、ARMはアバレンスを明確に抑制し、より堅牢で正確なオブジェクト追跡を可能にします。 さらに,これらのイノベーションに対応するために,新たなアンカーフリートラッキングフレームワークが提案されている。 OTB100, VOT2018, VOT2020, GOT-10k, LaSOT などの挑戦的なベンチマーク実験では,提案手法の最先端性能が実証された。

Similarity matching is a core operation in Siamese trackers. Most Siamese trackers carry out similarity learning via cross correlation that originates from the image matching field. However, unlike 2-D image matching, the matching network in object tracking requires 4-D information (height, width, channel and time). Cross correlation neglects the information from channel and time dimensions, and thus produces ambiguous matching. This paper proposes a spatio-temporal matching process to thoroughly explore the capability of 4-D matching in space (height, width and channel) and time. In spatial matching, we introduce a space-variant channel-guided correlation (SVC-Corr) to recalibrate channel-wise feature responses for each spatial location, which can guide the generation of the target-aware matching features. In temporal matching, we investigate the time-domain context relations of the target and the background and develop an aberrance repressed module (ARM). By restricting the abrupt alteration in the interframe response maps, our ARM can clearly suppress aberrances and thus enables more robust and accurate object tracking. Furthermore, a novel anchor-free tracking framework is presented to accommodate these innovations. Experiments on challenging benchmarks including OTB100, VOT2018, VOT2020, GOT-10k, and LaSOT demonstrate the state-of-the-art performance of the proposed method.
翻訳日:2021-05-07 13:27:22 公開日:2021-05-06
# 双方向学習トランスフォーマによる手書き数式認識

Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer ( http://arxiv.org/abs/2105.02412v1 )

ライセンス: Link先を確認
Wenqi Zhao, Liangcai Gao, Zuoyu Yan, Shuai Peng, Lin Du, Ziyin Zhang(参考訳) エンコーダ・デコーダモデルは最近手書き数式認識に大きな進歩を遂げている。 しかし,既存の手法では画像特徴に正確に注意を向けることが課題である。 さらに、これらのエンコーダデコーダモデルは、通常、デコーダ部でRNNベースのモデルを採用するため、長い$\LaTeX{}$シーケンスを処理するのに非効率である。 本稿では、rnnベースのデコーダをトランスフォーマベースのデコーダで置き換えることにより、モデルアーキテクチャ全体を非常に簡潔にする。 さらに、双方向言語モデリングにおけるトランスフォーマーの可能性を完全に活用するために、新しいトレーニング戦略を導入する。 データ拡張を使用しないいくつかの手法と比較して、我々のモデルはCROHME 2014における現在の最先端手法のExpRateを2.23%改善することを示した。 同様に、CROHME 2016とCROHME 2019では、ExpRateをそれぞれ1.92%と2.28%改善しています。

Encoder-decoder models have made great progress on handwritten mathematical expression recognition recently. However, it is still a challenge for existing methods to assign attention to image features accurately. Moreover, those encoder-decoder models usually adopt RNN-based models in their decoder part, which makes them inefficient in processing long $\LaTeX{}$ sequences. In this paper, a transformer-based decoder is employed to replace RNN-based ones, which makes the whole model architecture very concise. Furthermore, a novel training strategy is introduced to fully exploit the potential of the transformer in bidirectional language modeling. Compared to several methods that do not use data augmentation, experiments demonstrate that our model improves the ExpRate of current state-of-the-art methods on CROHME 2014 by 2.23%. Similarly, on CROHME 2016 and CROHME 2019, we improve the ExpRate by 1.92% and 2.28% respectively.
翻訳日:2021-05-07 13:26:56 公開日:2021-05-06
# 顔再建のための逆生成型逆レンダラ

Inverting Generative Adversarial Renderer for Face Reconstruction ( http://arxiv.org/abs/2105.02431v1 )

ライセンス: Link先を確認
Jingtan Piao, Keqiang Sun, Kwanyee Lin, Hongshneg Li(参考訳) 入力として単眼の顔画像が与えられた3次元顔形状再構成は、対応する3次元顔メッシュを復元することを目的としている。 近年,最適化と学習に基づく顔再構成手法は,新たな微分可能レンダラーを活用し,有望な結果を示した。 しかし、主にグラフィックルールに基づく微分可能なレンダラーは、現実世界の照明、反射、および‘etc’の現実的なメカニズムを単純化し、現実的なイメージを生成できない。 これは最適化やトレーニングプロセスに多くのドメインシフトノイズをもたらします。 そこで本研究では,新しい生成型逆向きレンダラ(gar)を導入し,その逆バージョンを汎用フィッティングパイプラインに調整し,この問題に取り組むことを提案する。 具体的には、慎重に設計されたニューラルレンダラーは、顔の正規マップと他の要素を表す潜時符号を入力として取り、リアルな顔画像を表示する。 GARは複雑な実世界のイメージをモデル化することを学ぶが、グラフィックルールを単純化するのではなく、現実的なイメージを生成できるため、トレーニングや最適化においてドメインシフトノイズを本質的に抑制することができる。 より精巧なGARを用いて3次元顔パラメータを予測し,まずRenderer Invertingを用いて精密な初期パラメータを抽出し,勾配に基づくオプティマイザで改良する手法を提案する。 提案する生成逆数レンダラーと,新しい顔再構成フレームワークの有効性を実証するために,広範囲な実験を行った。 本手法は,複数の顔再構成データセットの最先端性能を実現する。

Given a monocular face image as input, 3D face geometry reconstruction aims to recover a corresponding 3D face mesh. Recently, both optimization-based and learning-based face reconstruction methods have taken advantage of the emerging differentiable renderer and shown promising results. However, the differentiable renderer, mainly based on graphics rules, simplifies the realistic mechanism of the illumination, reflection, \etc, of the real world, thus cannot produce realistic images. This brings a lot of domain-shift noise to the optimization or training process. In this work, we introduce a novel Generative Adversarial Renderer (GAR) and propose to tailor its inverted version to the general fitting pipeline, to tackle the above problem. Specifically, the carefully designed neural renderer takes a face normal map and a latent code representing other factors as inputs and renders a realistic face image. Since the GAR learns to model the complicated real-world image, instead of relying on the simplified graphics rules, it is capable of producing realistic images, which essentially inhibits the domain-shift noise in training and optimization. Equipped with the elaborated GAR, we further proposed a novel approach to predict 3D face parameters, in which we first obtain fine initial parameters via Renderer Inverting and then refine it with gradient-based optimizers. Extensive experiments have been conducted to demonstrate the effectiveness of the proposed generative adversarial renderer and the novel optimization-based face reconstruction framework. Our method achieves state-of-the-art performances on multiple face reconstruction datasets.
翻訳日:2021-05-07 13:26:41 公開日:2021-05-06
# オープンセットドメイン適応による新しいターゲット発見に向けて

Towards Novel Target Discovery Through Open-Set Domain Adaptation ( http://arxiv.org/abs/2105.02432v1 )

ライセンス: Link先を確認
Taotao Jing, Hong Liu, Zhengming Ding(参考訳) オープンセットドメイン適応(OSDA)は、対象ドメインが外部ソースドメインで観測されていない新しいカテゴリのサンプルを含んでいると考えている。 残念ながら、既存のOSDAメソッドは、目に見えないカテゴリの情報に対する要求を常に無視し、詳細を説明せずに単に「未知の」集合として認識する。 これにより、基盤となる構造を探索し、解釈可能なセマンティック属性を回復することで、未知のカテゴリをより具体的に理解する動機付けとなります。 本稿では,対象領域で見られるカテゴリを正確に識別し,未知のカテゴリのセマンティック属性を効果的に回収するフレームワークを提案する。 具体的には, 部分的アライメントを保持する構造を開発し, 出現するカテゴリをドメイン不変特徴学習によって認識する。 視覚的グラフ上の属性伝播は、視覚的な意味マッピングを通じて、目に見えるカテゴリから見えないカテゴリへ属性をスムーズに転送するように設計されている。 さらに,提案手法を評価するために,新たな2つのクロスメインベンチマークを構築した。 オープンセット認識とセマンティックリカバリの実験結果は,提案手法が他の比較ベースラインよりも優れていることを示す。

Open-set domain adaptation (OSDA) considers that the target domain contains samples from novel categories unobserved in external source domain. Unfortunately, existing OSDA methods always ignore the demand for the information of unseen categories and simply recognize them as "unknown" set without further explanation. This motivates us to understand the unknown categories more specifically by exploring the underlying structures and recovering their interpretable semantic attributes. In this paper, we propose a novel framework to accurately identify the seen categories in target domain, and effectively recover the semantic attributes for unseen categories. Specifically, structure preserving partial alignment is developed to recognize the seen categories through domain-invariant feature learning. Attribute propagation over visual graph is designed to smoothly transit attributes from seen to unseen categories via visual-semantic mapping. Moreover, two new cross-main benchmarks are constructed to evaluate the proposed framework in the novel and practical challenge. Experimental results on open-set recognition and semantic recovery demonstrate the superiority of the proposed method over other compared baselines.
翻訳日:2021-05-07 13:26:16 公開日:2021-05-06
# ビデオにおける弱教師付き行動選択学習

Weakly Supervised Action Selection Learning in Video ( http://arxiv.org/abs/2105.02439v1 )

ライセンス: Link先を確認
Junwei Ma, Satya Krishna Gorti, Maksims Volkovs, Guangwei Yu(参考訳) ビデオ内のアクションのローカライズは、コンピュータビジョンのコアタスクである。 弱教師付き時間的局所化問題は、このタスクがビデオレベルのラベルだけで適切に解決できるかどうかを調査し、必要となる高価でエラーの少ないアノテーションの量を著しく削減する。 一般的なアプローチは、高いクラス確率のフレームを選択してビデオレベルの予測を行うフレームレベル分類器の訓練である。 フレームレベルのアクティベーションは、ローカライゼーションに使用される。 しかし、フレームレベルのアノテーションがないため、分類器は各フレームにクラスバイアスを与える。 そこで本研究では,アクション選択学習(ASL)アプローチを提案する。 ASLでは、モデルはクラスに依存しない新しいタスクで訓練され、どのフレームが分類器によって選択されるかを予測する。 ASL は2つのベンチマーク THUMOS-14 と ActivityNet-1.2 において,それぞれ 10.3% と 5.7% の相対的な改善を達成している。 さらに, ASLの特性を解析し, 行動の重要性を実証する。 この作業の完全なコードは、https://github.com/layer6ai-labs/aslで入手できる。

Localizing actions in video is a core task in computer vision. The weakly supervised temporal localization problem investigates whether this task can be adequately solved with only video-level labels, significantly reducing the amount of expensive and error-prone annotation that is required. A common approach is to train a frame-level classifier where frames with the highest class probability are selected to make a video-level prediction. Frame level activations are then used for localization. However, the absence of frame-level annotations cause the classifier to impart class bias on every frame. To address this, we propose the Action Selection Learning (ASL) approach to capture the general concept of action, a property we refer to as "actionness". Under ASL, the model is trained with a novel class-agnostic task to predict which frames will be selected by the classifier. Empirically, we show that ASL outperforms leading baselines on two popular benchmarks THUMOS-14 and ActivityNet-1.2, with 10.3% and 5.7% relative improvement respectively. We further analyze the properties of ASL and demonstrate the importance of actionness. Full code for this work is available here: https://github.com/layer6ai-labs/ASL.
翻訳日:2021-05-07 13:25:57 公開日:2021-05-06
# 群衆のドローンを検知、追跡、カウントする:ベンチマーク

Detection, Tracking, and Counting Meets Drones in Crowds: A Benchmark ( http://arxiv.org/abs/2105.02440v1 )

ライセンス: Link先を確認
Longyin Wen, Dawei Du, Pengfei Zhu, Qinghua Hu, Qilong Wang, Liefeng Bo, Siwei Lyu(参考訳) ドローンで撮影されたビデオにおける物体検出,追跡,計数アルゴリズムの開発を促進するために,ドローンが収集した大規模データセットであるdronecrowdを,さまざまなシナリオで33,600のhdフレームを備えた112のビデオクリップで作成したベンチマークを構築した。 特に、20,800人のトラジェクトリに480万の頭といくつかのビデオレベルの属性を注釈付けしています。 一方,高密度群でオブジェクトの検出・追跡・カウントを行うための強力なベースラインとして,Space-Time Neighbor-Aware Network (STNNet) を設計する。 STNNetは特徴抽出モジュールによって形成され、次に密度マップ推定ヘッド、局所化および関連サブネットが続く。 隣接オブジェクトのコンテキスト情報を活用するために,隣接コンテキスト損失を設計し,関連サブネットトレーニングを誘導し,時間領域における近接オブジェクトの一貫性のある相対位置を強制する。 DroneCrowdデータセットの大規模な実験は、STNNetが最先端技術に対して良好に機能することを示した。

To promote the developments of object detection, tracking and counting algorithms in drone-captured videos, we construct a benchmark with a new drone-captured largescale dataset, named as DroneCrowd, formed by 112 video clips with 33,600 HD frames in various scenarios. Notably, we annotate 20,800 people trajectories with 4.8 million heads and several video-level attributes. Meanwhile, we design the Space-Time Neighbor-Aware Network (STNNet) as a strong baseline to solve object detection, tracking and counting jointly in dense crowds. STNNet is formed by the feature extraction module, followed by the density map estimation heads, and localization and association subnets. To exploit the context information of neighboring objects, we design the neighboring context loss to guide the association subnet training, which enforces consistent relative position of nearby objects in temporal domain. Extensive experiments on our DroneCrowd dataset demonstrate that STNNet performs favorably against the state-of-the-arts.
翻訳日:2021-05-07 13:25:36 公開日:2021-05-06
# mixed domain face anti-spoofingにおける一般化表現学習

Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing ( http://arxiv.org/abs/2105.02453v1 )

ライセンス: Link先を確認
Zhihong Chen, Taiping Yao, Kekai Sheng, Shouhong Ding, Ying Tai, Jilin Li, Feiyue Huang, Xinyu Jin(参考訳) ドメイン一般化(DG)に基づく対面的アンチ・スプーフィング(英語版)アプローチは、その頑健さが予測できないシナリオのために注目を集めている。 既存のDG手法では、do-mainラベルが知られていると仮定するが、現実のアプリケーションでは、そのデータセットは常に、ドメインラベルが未知の混合ドメインを含んでいる。 この場合、既存のmeth-odのほとんどは機能しないかもしれない。 さらに、既存のメソッドとしてdomainlabelを入手できたとしても、これは単にサブオプティマイズであると考えています。 この制限を克服するために,do-mainラベルを用いずにドメインdy-namic調整メタラーニング(d2am)を提案する。 具体的には、インスタンス正規化(IN)に基づいてドメイン機能を設計し、クラスタリングのための識別ドメイン特徴を抽出するドメイン表現学習モジュール(DRLM)を提案する。 さらに,クラスタ化性能に対する異常値の副作用を低減するため,サンプル特性の分布を事前分布に合わせるために最大平均dis-crepancy (mmd) を併用し,clus teringの信頼性を向上させる。 広範な実験により,提案手法は従来のdgベースのアンチスプーフィングmeth-odsを用いて,ドメインラベルを利用した手法を含むことを示す。 さらに、視認率による解釈可能性の緩和

Face anti-spoofing approach based on domain generalization(DG) has drawn growing attention due to its robustness forunseen scenarios. Existing DG methods assume that the do-main label is known.However, in real-world applications, thecollected dataset always contains mixture domains, where thedomain label is unknown. In this case, most of existing meth-ods may not work. Further, even if we can obtain the domainlabel as existing methods, we think this is just a sub-optimalpartition. To overcome the limitation, we propose domain dy-namic adjustment meta-learning (D2AM) without using do-main labels, which iteratively divides mixture domains viadiscriminative domain representation and trains a generaliz-able face anti-spoofing with meta-learning. Specifically, wedesign a domain feature based on Instance Normalization(IN) and propose a domain representation learning module(DRLM) to extract discriminative domain features for cluster-ing. Moreover, to reduce the side effect of outliers on cluster-ing performance, we additionally utilize maximum mean dis-crepancy (MMD) to align the distribution of sample featuresto a prior distribution, which improves the reliability of clus tering. Extensive experiments show that the proposed methodoutperforms conventional DG-based face anti-spoofing meth-ods, including those utilizing domain labels. Furthermore, weenhance the interpretability through visualizatio
翻訳日:2021-05-07 13:25:18 公開日:2021-05-06
# PoseAug: 人間の3次元視点推定のための微分可能なPose Augmentationフレームワーク

PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose Estimation ( http://arxiv.org/abs/2105.02465v1 )

ライセンス: Link先を確認
Kehong Gong, Jianfeng Zhang, Jiashi Feng(参考訳) 既存の3Dポーズ推定器は、トレーニングデータに2D-3Dポーズペアが限られているため、新しいデータセットに対する一般化性能が低い。 この問題に対処するため,我々は,利用可能なトレーニングステップをより多様なものに拡張し,トレーニング済みの2d-to-3dポーズ推定器の一般化を改善することを学ぶための,新たな自動学習フレームワークであるponsaugを提案する。 特に、PoseAugは、ポーズの様々な幾何学的要素(例えば、姿勢、体の大きさ、視点、位置)を異なる操作で調整することを学ぶ、新しいポーズ拡張器を導入している。 このような異なる容量で、3Dポーズ推定器と共同で最適化し、推定誤差をフィードバックとして、より多様で難しいポーズをオンライン的に生成することができる。 さらに、ポセイグは、局所的な関節角視認性を評価するために、新たな部分認識キネマティックチェーン空間を導入し、拡張ポーズの可視性を確保するために識別モジュールを開発する。 これらの精巧な設計により、PoseAug は既存のオフライン拡張法よりも多様だがもっともらしいポーズを生成し、ポーズ推定器をより一般化することができる。 PoseAugは汎用的で、様々な3Dポーズ推定器に適用しやすい。 広範な実験により、posaugがscenarioデータセットとcross-scenarioデータセットの両方に明確な改善をもたらすことが示されている。 特に、mpi-inf-3dhpで88.6%の3d pckをクロスデータセット評価で達成し、以前の最良のデータ拡張ベース手法を9.1%改善した。 コードは、https://github.com/jfzhang95/PoseAug.orgで参照できる。

Existing 3D human pose estimators suffer poor generalization performance to new datasets, largely due to the limited diversity of 2D-3D pose pairs in the training data. To address this problem, we present PoseAug, a new auto-augmentation framework that learns to augment the available training poses towards a greater diversity and thus improve generalization of the trained 2D-to-3D pose estimator. Specifically, PoseAug introduces a novel pose augmentor that learns to adjust various geometry factors (e.g., posture, body size, view point and position) of a pose through differentiable operations. With such differentiable capacity, the augmentor can be jointly optimized with the 3D pose estimator and take the estimation error as feedback to generate more diverse and harder poses in an online manner. Moreover, PoseAug introduces a novel part-aware Kinematic Chain Space for evaluating local joint-angle plausibility and develops a discriminative module accordingly to ensure the plausibility of the augmented poses. These elaborate designs enable PoseAug to generate more diverse yet plausible poses than existing offline augmentation methods, and thus yield better generalization of the pose estimator. PoseAug is generic and easy to be applied to various 3D pose estimators. Extensive experiments demonstrate that PoseAug brings clear improvements on both intra-scenario and cross-scenario datasets. Notably, it achieves 88.6% 3D PCK on MPI-INF-3DHP under cross-dataset evaluation setup, improving upon the previous best data augmentation based method by 9.1%. Code can be found at: https://github.com/jfzhang95/PoseAug.
翻訳日:2021-05-07 13:24:51 公開日:2021-05-06
# ポイントとしてのボディーメッシュ

Body Meshes as Points ( http://arxiv.org/abs/2105.02467v1 )

ライセンス: Link先を確認
Jianfeng Zhang, Dongdong Yu, Jun Hao Liew, Xuecheng Nie, Jiashi Feng(参考訳) 本稿では,多人数3次元ボディーメッシュ推定課題について考察する。 既存の手法は、パーソナライズのための2段階ベースのステージと、個々のボディメッシュ推定のためのステージに分かれており、計算コストが高く、複雑なシーン(例えば、オクルードされたパーソナライズインスタンス)のパフォーマンスが低下した冗長なパイプラインに繋がる。 本研究では,パイプラインを簡素化し,効率と性能の両立を図るために,単段モデルであるボディーメッシュ・アズ・ポイント(bmp)を提案する。 特に,BMPでは,各点が1つの体メッシュに関連付けられている空間深度空間の点として,複数の個人インスタンスを表す新しい手法を採用している。 このような表現をベースとして、BMPは、人物のインスタンスポイントを同時にローカライズし、対応するボディーメッシュを推定することにより、複数の人のボディメッシュを単一のステージで直接予測することができる。 BMPは、同一シーン内のすべての人物の深度順序についてより正確に推論するために、単純だが効果的なインスタンス間順序深度損失を設計し、深度コヒーレントなボディーメッシュ推定を得る。 BMPはまた、隠された人物のインスタンスに対するモデルロバスト性を高めるために、新しいキーポイント対応拡張を導入した。 Panoptic, MuPoTS-3D, 3DPW のベンチマークに関する総合的な実験により,BMP の多人体メッシュ推定における最先端の効率と精度が明らかに示された。 コードは、https://github.com/jfzhang95/BMPで参照できる。

We consider the challenging multi-person 3D body mesh estimation task in this work. Existing methods are mostly two-stage based--one stage for person localization and the other stage for individual body mesh estimation, leading to redundant pipelines with high computation cost and degraded performance for complex scenes (e.g., occluded person instances). In this work, we present a single-stage model, Body Meshes as Points (BMP), to simplify the pipeline and lift both efficiency and performance. In particular, BMP adopts a new method that represents multiple person instances as points in the spatial-depth space where each point is associated with one body mesh. Hinging on such representations, BMP can directly predict body meshes for multiple persons in a single stage by concurrently localizing person instance points and estimating the corresponding body meshes. To better reason about depth ordering of all the persons within the same scene, BMP designs a simple yet effective inter-instance ordinal depth loss to obtain depth-coherent body mesh estimation. BMP also introduces a novel keypoint-aware augmentation to enhance model robustness to occluded person instances. Comprehensive experiments on benchmarks Panoptic, MuPoTS-3D and 3DPW clearly demonstrate the state-of-the-art efficiency of BMP for multi-person body mesh estimation, together with outstanding accuracy. Code can be found at: https://github.com/jfzhang95/BMP.
翻訳日:2021-05-07 13:24:23 公開日:2021-05-06
# MAFER: 顔表情認識のためのマルチレゾリューションアプローチ

MAFER: a Multi-resolution Approach to Facial Expression Recognition ( http://arxiv.org/abs/2105.02481v1 )

ライセンス: Link先を確認
Fabio Valerio Massoli, Donato Cafarelli, Claudio Gennaro, Giuseppe Amato, Fabrizio Falchi(参考訳) 感情はすべての人の社会生活において中心的な役割を担い、その研究は多分野の主題であり、様々な研究分野を受け入れている。 特に後者については、人-コンピュータインタラクションアプリケーションとの関連性から、表情の分析は非常に活発な研究領域である。 このような状況下では、表情認識(FER)は人間の顔の表情を認識するタスクである。 通常、顔画像は出力解像度などの特性が本質的に異なるカメラによって取得される。 顔認識に適用されたディープラーニングモデルは、マルチレゾリューションシナリオに対してテストされた場合のパフォーマンスが低下することはすでに文献に示されている。 FERタスクは、異質なソースで取得可能な顔画像を分析し、異なる品質の画像を含むため、そのようなケースにおいても解像度が重要な役割を果たすと期待することは可能である。 このような仮説を起点として,表情認識に携わるモデルに対するマルチレゾリューショントレーニングの利点を実証する。 そこで本稿では,DCNNに対して,幅広い解像度で堅牢な予測を生成するための2段階学習手法であるMAFERを提案する。 MAFERの関連する特徴は、タスクに依存しない、すなわち他の客観的な手法と相補的に使用できることである。 提案手法の有効性を評価するため,公開データセットである \fer{}, \raf{}, \oulu{} について広範な実験を行った。 マルチレゾリューション・コンテキストにおいて、我々のアプローチでは、学習モデルは現在のSotAで改善され、修正解決コンテキストでは同等の結果が報告される。 最後に,我々のモデルの性能を分析し,それらから生成された深い特徴の識別能力の高まりを観察する。

Emotions play a central role in the social life of every human being, and their study, which represents a multidisciplinary subject, embraces a great variety of research fields. Especially concerning the latter, the analysis of facial expressions represents a very active research area due to its relevance to human-computer interaction applications. In such a context, Facial Expression Recognition (FER) is the task of recognizing expressions on human faces. Typically, face images are acquired by cameras that have, by nature, different characteristics, such as the output resolution. It has been already shown in the literature that Deep Learning models applied to face recognition experience a degradation in their performance when tested against multi-resolution scenarios. Since the FER task involves analyzing face images that can be acquired with heterogeneous sources, thus involving images with different quality, it is plausible to expect that resolution plays an important role in such a case too. Stemming from such a hypothesis, we prove the benefits of multi-resolution training for models tasked with recognizing facial expressions. Hence, we propose a two-step learning procedure, named MAFER, to train DCNNs to empower them to generate robust predictions across a wide range of resolutions. A relevant feature of MAFER is that it is task-agnostic, i.e., it can be used complementarily to other objective-related techniques. To assess the effectiveness of the proposed approach, we performed an extensive experimental campaign on publicly available datasets: \fer{}, \raf{}, and \oulu{}. For a multi-resolution context, we observe that with our approach, learning models improve upon the current SotA while reporting comparable results in fix-resolution contexts. Finally, we analyze the performance of our models and observe the higher discrimination power of deep features generated from them.
翻訳日:2021-05-07 13:23:56 公開日:2021-05-06
# 映像のパッチ追跡による教師なし視覚表現学習

Unsupervised Visual Representation Learning by Tracking Patches in Video ( http://arxiv.org/abs/2105.02545v1 )

ライセンス: Link先を確認
Guangting Wang, Yizhou Zhou, Chong Luo, Wenxuan Xie, Wenjun Zeng, and Zhiwei Xiong(参考訳) 人間の目が幼少期から中年期にかけて追跡能力の発達を続けていることに触発されて,コンピュータビジョンシステムにおいて,トラッキングを代用タスクとして利用して視覚表現を学習することを提案する。 子どもたちがプレイするキャッチゲームに基づいて、3d-cnnモデルのためのキャッチ・ザ・パッチ(ctp)ゲームをデザインし、ビデオ関連のタスクに役立つ視覚表現を学ぶ。 提案する事前学習フレームワークでは、所定のビデオから画像パッチをカットし、予め設定された軌道に従って拡大移動させる。 プロキシタスクは、第1フレームの目標バウンディングボックスのみを与えられたビデオフレームのシーケンスにおける画像パッチの位置とサイズを推定することである。 複数のイメージパッチを同時に使用すると、明らかなメリットが得られます。 我々は、ランダムにパッチを見えないものにすることで、ゲームの難しさをさらに高める。 メインストリームベンチマークに関する広範囲な実験は、ctpが他のビデオプリトレーニング法に対して優れた性能を示す。 さらに、CtPで事前訓練された機能は、教師付きアクション認識タスクによって訓練されたものよりもドメインギャップに敏感ではない。 Kinetics-400でトレーニングされた場合、CtPで事前訓練された表現が、Somethingデータセットの完全な教師付きデータセットよりもはるかに高い動作分類精度を達成できることに、私たちは喜んで驚きます。 コードはオンラインで入手できる: github.com/microsoft/CtP。

Inspired by the fact that human eyes continue to develop tracking ability in early and middle childhood, we propose to use tracking as a proxy task for a computer vision system to learn the visual representations. Modelled on the Catch game played by the children, we design a Catch-the-Patch (CtP) game for a 3D-CNN model to learn visual representations that would help with video-related tasks. In the proposed pretraining framework, we cut an image patch from a given video and let it scale and move according to a pre-set trajectory. The proxy task is to estimate the position and size of the image patch in a sequence of video frames, given only the target bounding box in the first frame. We discover that using multiple image patches simultaneously brings clear benefits. We further increase the difficulty of the game by randomly making patches invisible. Extensive experiments on mainstream benchmarks demonstrate the superior performance of CtP against other video pretraining methods. In addition, CtP-pretrained features are less sensitive to domain gaps than those trained by a supervised action recognition task. When both trained on Kinetics-400, we are pleasantly surprised to find that CtP-pretrained representation achieves much higher action classification accuracy than its fully supervised counterpart on Something-Something dataset. Code is available online: github.com/microsoft/CtP.
翻訳日:2021-05-07 13:23:29 公開日:2021-05-06
# 顔偽造検出のための局所関係学習

Local Relation Learning for Face Forgery Detection ( http://arxiv.org/abs/2105.02577v1 )

ライセンス: Link先を確認
Shen Chen, Taiping Yao, Yang Chen, Shouhong Ding, Jilin Li, Rongrong Ji(参考訳) 顔操作技術の急速な発展に伴い、顔偽造検出はセキュリティ上の懸念からデジタルメディアの鑑識においてかなりの注目を集めている。 既存の手法の多くは偽造検出を分類問題として定式化し、二項ラベルや操作された領域マスクを監督として利用する。 しかし、地域間の相関を考慮せずに、これらのグローバルな監督は、一般化された特徴を学習し、過度に適合しがちである。 そこで本研究では,局所関係学習による顔偽造検出の新たな視点を提案する。 具体的には、局所的な特徴間の類似度を測定し、堅牢で一般化された類似度パターンを形成するMPSM(Multi-scale Patch similarity Module)を提案する。 さらに、より包括的な局所特徴表現のために、RGBと周波数領域の情報を融合するRGB-Frequency Attention Module (RFAM)を提案する。 広範な実験により,提案手法は広く使用されているベンチマークにおいて,最先端の手法を一貫して上回っていることが示された。 さらに,本手法の堅牢性と解釈可能性について,詳細な可視化を行った。

With the rapid development of facial manipulation techniques, face forgery detection has received considerable attention in digital media forensics due to security concerns. Most existing methods formulate face forgery detection as a classification problem and utilize binary labels or manipulated region masks as supervision. However, without considering the correlation between local regions, these global supervisions are insufficient to learn a generalized feature and prone to overfitting. To address this issue, we propose a novel perspective of face forgery detection via local relation learning. Specifically, we propose a Multi-scale Patch Similarity Module (MPSM), which measures the similarity between features of local regions and forms a robust and generalized similarity pattern. Moreover, we propose an RGB-Frequency Attention Module (RFAM) to fuse information in both RGB and frequency domains for more comprehensive local feature representation, which further improves the reliability of the similarity pattern. Extensive experiments show that the proposed method consistently outperforms the state-of-the-arts on widely-used benchmarks. Furthermore, detailed visualization shows the robustness and interpretability of our method.
翻訳日:2021-05-07 13:23:08 公開日:2021-05-06
# スマートシティとセーフシティの自動行動特徴抽出に基づく視覚に基づく歩行者リスク分析

Vision based Pedestrian Potential Risk Analysis based on Automated Behavior Feature Extraction for Smart and Safe City ( http://arxiv.org/abs/2105.02582v1 )

ライセンス: Link先を確認
Byeongjoon Noh, Dongho Ka, David Lee, and Hwasoo Yeo(参考訳) 近年の車両安全技術の発展にもかかわらず、道路交通事故はいまだに人命に深刻な脅威を与えており、早死にの主な原因となっている。 特に横断歩道は歩行者にとって大きな脅威となるが、彼らが直面するリスクを調査するためには、密度の高い行動データが欠如している。 そこで本稿では,道路セキュリティカメラで収集した映像を用いて,歩行者の潜在的なリスクに関する包括的分析モデルを提案する。 提案システムは、車や歩行者を自動的に検知し、フレームによって軌跡を計算し、これらの物体間の潜在的危険シーンの可能性を左右する行動特徴を抽出する。 最後に,データウェアハウスに蓄積された大量の特徴を用いて,抽象化レベルでのリスクシーンの多次元解析を行うことで,データキューブモデルを設計する。 実験では,複数の横断歩道から様々な行動特徴を抽出し,それらの行動や関係をカメラで可視化し,解釈し,それらが潜在的なリスクにどのように寄与するかを示した。 韓国大山市の横断歩道で適用し,実現可能性と適用性を評価した。

Despite recent advances in vehicle safety technologies, road traffic accidents still pose a severe threat to human lives and have become a leading cause of premature deaths. In particular, crosswalks present a major threat to pedestrians, but we lack dense behavioral data to investigate the risks they face. Therefore, we propose a comprehensive analytical model for pedestrian potential risk using video footage gathered by road security cameras deployed at such crossings. The proposed system automatically detects vehicles and pedestrians, calculates trajectories by frames, and extracts behavioral features affecting the likelihood of potentially dangerous scenes between these objects. Finally, we design a data cube model by using the large amount of the extracted features accumulated in a data warehouse to perform multidimensional analysis for potential risk scenes with levels of abstraction, but this is beyond the scope of this paper, and will be detailed in a future study. In our experiment, we focused on extracting the various behavioral features from multiple crosswalks, and visualizing and interpreting their behaviors and relationships among them by camera location to show how they may or may not contribute to potential risk. We validated feasibility and applicability by applying it in multiple crosswalks in Osan city, Korea.
翻訳日:2021-05-07 13:22:52 公開日:2021-05-06
# 変形可能なグラフリファインメントを用いたカスケード画像マッチング

Cascade Image Matting with Deformable Graph Refinement ( http://arxiv.org/abs/2105.02646v1 )

ライセンス: Link先を確認
Zijian Yu, Xuhui Li, Huijuan Huang, Wen Zheng and Li Chen(参考訳) 画像マッチングとは、前景オブジェクトの不透明度を推定することを指す。 整合結果には正確な輪郭と前景の細部が必要である。 人間の画像のマット化タスクをよりよく達成するために,変形可能なグラフ修正によるカスケード画像マットリングネットワークを提案し,入力を必要とせず,人間の画像から正確なアルファマットを自動で予測する。 ネットワークカスケードアーキテクチャを用いて、粗大な最適化に対応する低解像度から高解像度までのマッチングを行う。 また、畳み込みニューラルネットワーク(CNN)の限界を克服するために、グラフニューラルネットワーク(GNN)に基づく変形可能なグラフリファインメント(DGR)モジュールも導入する。 DGRモジュールは、長距離関係を効果的に捉え、より大域的かつ局所的な情報を得て、より微細なアルファマットを生成する。 また,近傍を動的に予測し,高分解能特徴にdgrモジュールを適用することで,dgrモジュールの計算複雑性を低減する。 実験結果は,casdgrが合成データセットで最先端のパフォーマンスを達成し,実画像で良好な結果が得られることを示す。

Image matting refers to the estimation of the opacity of foreground objects. It requires correct contours and fine details of foreground objects for the matting results. To better accomplish human image matting tasks, we propose the Cascade Image Matting Network with Deformable Graph Refinement, which can automatically predict precise alpha mattes from single human images without any additional inputs. We adopt a network cascade architecture to perform matting from low-to-high resolution, which corresponds to coarse-to-fine optimization. We also introduce the Deformable Graph Refinement (DGR) module based on graph neural networks (GNNs) to overcome the limitations of convolutional neural networks (CNNs). The DGR module can effectively capture long-range relations and obtain more global and local information to help produce finer alpha mattes. We also reduce the computation complexity of the DGR module by dynamically predicting the neighbors and apply DGR module to higher--resolution features. Experimental results demonstrate the ability of our CasDGR to achieve state-of-the-art performance on synthetic datasets and produce good results on real human images.
翻訳日:2021-05-07 13:22:33 公開日:2021-05-06
# VideoLT: 大規模ロングテールビデオ認識

VideoLT: Large-scale Long-tailed Video Recognition ( http://arxiv.org/abs/2105.02668v1 )

ライセンス: Link先を確認
Xing Zhang, Zuxuan Wu, Zejia Weng, Huazhu Fu, Jingjing Chen, Yu-Gang Jiang, Larry Davis(参考訳) 実世界のラベル分布はしばしばロングテールで不均衡であり、支配的なラベルに偏ったモデルをもたらす。 ロングテール認識は画像分類タスクで広範囲に研究されてきたが、ビデオ領域では限定的な努力がなされている。 本稿では,大規模長編ビデオ認識データセットであるVideoLTについて,実世界のビデオ認識へのステップとして紹介する。 videoltには256,218本の未編集ビデオが含まれており、注釈付きで1,004のクラスに分類されている。 映像データに時間的次元が付加されるため,ロングテール画像認識における最先端の手法は映像領域ではうまく機能しないことを示す。 これにより、長いビデオ認識タスクのためのシンプルで効果的な方法であるFrameStackを提案することができる。 特に、framestackはクラス分布のバランスをとるためにフレームレベルでサンプリングを行い、トレーニング中にネットワークから得られた知識を用いてサンプリング比率を動的に決定する。 実験の結果, framestackは全体の精度を犠牲にすることなく, 分類性能を向上させることができた。

Label distributions in real-world are oftentimes long-tailed and imbalanced, resulting in biased models towards dominant labels. While long-tailed recognition has been extensively studied for image classification tasks, limited effort has been made for video domain. In this paper, we introduce VideoLT, a large-scale long-tailed video recognition dataset, as a step toward real-world video recognition. Our VideoLT contains 256,218 untrimmed videos, annotated into 1,004 classes with a long-tailed distribution. Through extensive studies, we demonstrate that state-of-the-art methods used for long-tailed image recognition do not perform well in the video domain due to the additional temporal dimension in video data. This motivates us to propose FrameStack, a simple yet effective method for long-tailed video recognition task. In particular, FrameStack performs sampling at the frame-level in order to balance class distributions, and the sampling ratio is dynamically determined using knowledge derived from the network during training. Experimental results demonstrate that FrameStack can improve classification performance without sacrificing overall accuracy.
翻訳日:2021-05-07 13:22:15 公開日:2021-05-06
# 人体モデリングのためのAnimatable Neural Radiance Fields

Animatable Neural Radiance Fields for Human Body Modeling ( http://arxiv.org/abs/2105.02872v1 )

ライセンス: Link先を確認
Sida Peng, Junting Dong, Qianqian Wang, Shangzhan Zhang, Qing Shuai, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,多視点映像から人間モデルを再構築する課題について述べる。 近年の研究では、ダイナミックシーンを正準神経放射場と、観測空間の点を正準空間にマッピングする一連の変形場に分解して、画像から動的シーンを学習する手法が提案されている。 しかし、これらは変形場を変換ベクトル場またはSE(3)場として表現し、最適化は過小制約される。 さらに、これらの表現は入力運動によって明示的に制御することはできない。 代わりに、変形場を生成するためにニューラルブレンド重量場を導入する。 スケルトン駆動の変形に基づいて、3次元人間の骨格とブレンドウエイトフィールドが使われ、観察-カノニカル-標準-観測対応を生成する。 3d人間の骨格はより観察しやすいため、変形場の学習を規則化することができる。 さらに、学習したブレンド重量場を入力骨格運動と組み合わせることで、新しい変形場を生成し、人間のモデルをアニメーション化することができる。 実験の結果,最近のヒト合成法を有意に上回っていることがわかった。 コードはhttps://zju3dv.github.io/animatable_nerf/で入手できる。

This paper addresses the challenge of reconstructing an animatable human model from a multi-view video. Some recent works have proposed to decompose a dynamic scene into a canonical neural radiance field and a set of deformation fields that map observation-space points to the canonical space, thereby enabling them to learn the dynamic scene from images. However, they represent the deformation field as translational vector field or SE(3) field, which makes the optimization highly under-constrained. Moreover, these representations cannot be explicitly controlled by input motions. Instead, we introduce neural blend weight fields to produce the deformation fields. Based on the skeleton-driven deformation, blend weight fields are used with 3D human skeletons to generate observation-to-canonical and canonical-to-observation correspondences. Since 3D human skeletons are more observable, they can regularize the learning of deformation fields. Moreover, the learned blend weight fields can be combined with input skeletal motions to generate new deformation fields to animate the human model. Experiments show that our approach significantly outperforms recent human synthesis methods. The code will be available at https://zju3dv.github.io/animatable_nerf/.
翻訳日:2021-05-07 13:22:00 公開日:2021-05-06
# 手話ビデオにおける字幕の調整

Aligning Subtitles in Sign Language Videos ( http://arxiv.org/abs/2105.02877v1 )

ライセンス: Link先を確認
Hannah Bull, Triantafyllos Afouras, G\"ul Varol, Samuel Albanie, Liliane Momeni, Andrew Zisserman(参考訳) この研究の目的は、手話ビデオの非同期字幕を時間的にアライメントすることである。 特に, (i) 連続署名の映像, (ii) 音声コンテンツに対応する字幕を含む, 手話通訳tv放送データに注目した。 このような弱い整列データを利用した従来の作業は,キーワードサイン対応の検索のみを考慮したものだった。 このタスクに適したTransformerアーキテクチャを提案し、ビデオ17.7時間にわたる15K字幕を手動でアライメントする。 bert字幕埋め込みとcnnビデオ表現を用いて2つの信号の符号化を行い,一連の注意層を介して対話する。 本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。 広範な評価を通じて,字幕テキスト埋め込みを学習に使用しない既存のアライメントベースラインよりも大幅に改善することを示す。 当社の自動アライメントモデルは,連続的同期ビデオテキストデータを提供することにより,手話の機械翻訳を前進させる可能性を開く。

The goal of this work is to temporally align asynchronous subtitles in sign language videos. In particular, we focus on sign-language interpreted TV broadcast data comprising (i) a video of continuous signing, and (ii) subtitles corresponding to the audio content. Previous work exploiting such weakly-aligned data only considered finding keyword-sign correspondences, whereas we aim to localise a complete subtitle text in continuous signing. We propose a Transformer architecture tailored for this task, which we train on manually annotated alignments covering over 15K subtitles that span 17.7 hours of video. We use BERT subtitle embeddings and CNN video representations learned for sign recognition to encode the two signals, which interact through a series of attention layers. Our model outputs frame-level predictions, i.e., for each video frame, whether it belongs to the queried subtitle or not. Through extensive evaluations, we show substantial improvements over existing alignment baselines that do not make use of subtitle text embeddings for learning. Our automatic alignment model opens up possibilities for advancing machine translation of sign languages via providing continuously synchronized video-text data.
翻訳日:2021-05-07 13:21:30 公開日:2021-05-06
# Q-Match: 量子アニーリングによる反復形状マッチング

Q-Match: Iterative Shape Matching via Quantum Annealing ( http://arxiv.org/abs/2105.02878v1 )

ライセンス: Link先を確認
Marcel Seelbach Benkner and Zorah L\"ahner and Vladislav Golyanik and Christof Wunderlich and Christian Theobalt and Michael Moeller(参考訳) 形状対応を見つけることは、サンプリング密度の高い形状では不可能となるNPハード二次代入問題(QAP)として定式化することができる。 有望な研究の方向は、量子アニーリングを持つ二項変数上のそのような二次最適化問題に取り組むことであり、理論的には、新しい計算パラダイムに依存するグローバル最適解を見つけることができる。 残念なことに、QAPの線形等式制約をペナルティによって強制することは、現在利用可能な量子ハードウェア上でそのような手法が成功する確率を著しく制限する。 この制限に対処するため、我々はQ-Match、すなわちα展開アルゴリズムにインスパイアされたQAPのための新しい反復量子法を提案し、これは現在の量子法よりも桁違いに大きい問題を解くことができる。 現在の見積を周期的に更新することで、QAP制約を暗黙的に強制することで機能する。 さらに、Q-Match は、実世界の問題にスケールできるような、長文対応のサブセットにおいて、反復的に形状マッチング問題に適用できる。 最新の量子アニール器であるD-Wave Advantageを用いて,提案手法をQAPLIBのサブセットおよびFAUSTデータセットからの等尺形状整合問題で評価した。

Finding shape correspondences can be formulated as an NP-hard quadratic assignment problem (QAP) that becomes infeasible for shapes with high sampling density. A promising research direction is to tackle such quadratic optimization problems over binary variables with quantum annealing, which, in theory, allows to find globally optimal solutions relying on a new computational paradigm. Unfortunately, enforcing the linear equality constraints in QAPs via a penalty significantly limits the success probability of such methods on currently available quantum hardware. To address this limitation, this paper proposes Q-Match, i.e., a new iterative quantum method for QAPs inspired by the alpha-expansion algorithm, which allows solving problems of an order of magnitude larger than current quantum methods. It works by implicitly enforcing the QAP constraints by updating the current estimates in a cyclic fashion. Further, Q-Match can be applied for shape matching problems iteratively, on a subset of well-chosen correspondences, allowing us to scale to real-world problems. Using the latest quantum annealer, the D-Wave Advantage, we evaluate the proposed method on a subset of QAPLIB as well as on isometric shape matching problems from the FAUST dataset.
翻訳日:2021-05-07 13:21:12 公開日:2021-05-06
# トポロジ対応逆グラフニューラルネットワークを用いた脳波の予測

Brain Multigraph Prediction using Topology-Aware Adversarial Graph Neural Network ( http://arxiv.org/abs/2105.02565v1 )

ライセンス: Link先を確認
Alaa Bessadok and Mohamed Ali Mahjoub and Islem Rekik(参考訳) 磁気共鳴画像(MRI)のような医療スキャンから構築された脳のグラフ(コネクトーム)は、人間の脳の異常な変化を特徴づける重要なツールになりつつある。 マルチモーダルMRIの取得コストと処理時間が高いため、GAN(Generative Adversarial Network)に基づく既存のディープラーニングフレームワークは、既存のいくつかのモダリティから欠落したマルチモーダル医療画像を予測することに重点を置いている。 脳のグラフは、特定の障害が脳の接続面をどのように変えるかを理解するのに役立つが、ターゲットの脳のマルチグラフ(つまり、複数の脳のグラフ)を単一のソースの脳のグラフから合成することは、著しく不足している。 さらに、既存のグラフ生成は、ターゲットドメインごとに1つのモデルを学び、複数のターゲットドメインを共同で予測するスケーラビリティを制限する。 さらに、グラフのグローバルトポロジースケール(グラフ接続構造)を考える一方で、ノードスケールの局所トポロジー(例えば、ノードがグラフにどれだけ中央にあるか)を見落とします。 これらの制約に対処するために,各対象グラフのトポロジ構造を維持しつつ,単一の脳グラフから複数の脳グラフを共同で予測するtopogan(topological-aware graph gan architecture)を導入する。 i) 単一のグラフから複数の脳グラフを予測する新しいグラフ対向オートエンコーダを設計し、(ii) GANのモード崩壊問題に対処するために符号化されたソースグラフをクラスタ化し、クラスタ固有のデコーダを提案し、(iii) トポロジ的損失を導入して、トポロジ的ターゲット脳グラフの予測を強制する。 5つの対象領域を用いた実験結果から,脳のマルチグラフ予測における本手法の有効性を,ベースラインアプローチと比較して実証した。

Brain graphs (i.e, connectomes) constructed from medical scans such as magnetic resonance imaging (MRI) have become increasingly important tools to characterize the abnormal changes in the human brain. Due to the high acquisition cost and processing time of multimodal MRI, existing deep learning frameworks based on Generative Adversarial Network (GAN) focused on predicting the missing multimodal medical images from a few existing modalities. While brain graphs help better understand how a particular disorder can change the connectional facets of the brain, synthesizing a target brain multigraph (i.e, multiple brain graphs) from a single source brain graph is strikingly lacking. Additionally, existing graph generation works mainly learn one model for each target domain which limits their scalability in jointly predicting multiple target domains. Besides, while they consider the global topological scale of a graph (i.e., graph connectivity structure), they overlook the local topology at the node scale (e.g., how central a node is in the graph). To address these limitations, we introduce topology-aware graph GAN architecture (topoGAN), which jointly predicts multiple brain graphs from a single brain graph while preserving the topological structure of each target graph. Its three key innovations are: (i) designing a novel graph adversarial auto-encoder for predicting multiple brain graphs from a single one, (ii) clustering the encoded source graphs in order to handle the mode collapse issue of GAN and proposing a cluster-specific decoder, (iii) introducing a topological loss to force the prediction of topologically sound target brain graphs. The experimental results using five target domains demonstrated the outperformance of our method in brain multigraph prediction from a single graph in comparison with baseline approaches.
翻訳日:2021-05-07 13:20:27 公開日:2021-05-06
# time-aware q-networks:深層強化学習のための時間的不規則性解消

Time-Aware Q-Networks: Resolving Temporal Irregularity for Deep Reinforcement Learning ( http://arxiv.org/abs/2105.02580v1 )

ライセンス: Link先を確認
Yeo Jin Kim and Min Chi(参考訳) 深層強化学習(DRL)は、多くの複雑なタスクにおいて期待される長期的なリターンを最大化する効果的なアクションポリシーを誘導する際、優れたパフォーマンスを示した。 DRLの作業の多くは、離散的な時間ステップを持つイベントのシーケンスに焦点を当てており、連続するイベント間の不規則な時間間隔を無視している。 多くの現実世界の領域において、データは不規則な時間間隔を持つ時間系列で構成されており、潜在的な状態の進行パターンを捉えるために時間イベント間の時間間隔を考慮することが重要である。 本稿では,深層rlフレームワークにおける物理時間間隔を考慮した時間認識型q-networks(tqn)という汎用的なrlフレームワークを提案する。 TQNは、1)過去の経過時間と、2)時間認識状態近似のための次の観測時間と、2)報酬の時間認識割引のための未来の行動時間ウィンドウの2つの側面から、時間不規則を扱う。 実験結果から,両面から時間不規則な配列の基底構造を捉えることにより,TQNは不規則な時間間隔を持つ4種類の文脈において,DQNを著しく上回ることがわかった。 より具体的には,CartPoleやMountainCar,Atariといった古典的RLの時間間隔をランダムに割ったベンチマークでは,原子炉運転や本態性時間間隔による懐疑的患者治療といった現実的なタスクでは,時間認識状態と時間認識割引の両方が重要となる。 さらに、エージェントの学習能力を向上させるために、二重ネットワーク、デューリングネットワーク、優先経験再生という3つのブースティング手法を探索し、実際の2つのタスクに対して、TQNと組み合わせた3つのブースティング手法が特に有効であることを示す。

Deep Reinforcement Learning (DRL) has shown outstanding performance on inducing effective action policies that maximize expected long-term return on many complex tasks. Much of DRL work has been focused on sequences of events with discrete time steps and ignores the irregular time intervals between consecutive events. Given that in many real-world domains, data often consists of temporal sequences with irregular time intervals, and it is important to consider the time intervals between temporal events to capture latent progressive patterns of states. In this work, we present a general Time-Aware RL framework: Time-aware Q-Networks (TQN), which takes into account physical time intervals within a deep RL framework. TQN deals with time irregularity from two aspects: 1) elapsed time in the past and an expected next observation time for time-aware state approximation, and 2) action time window for the future for time-aware discounting of rewards. Experimental results show that by capturing the underlying structures in the sequences with time irregularities from both aspects, TQNs significantly outperform DQN in four types of contexts with irregular time intervals. More specifically, our results show that in classic RL tasks such as CartPole and MountainCar and Atari benchmark with randomly segmented time intervals, time-aware discounting alone is more important while in the real-world tasks such as nuclear reactor operation and septic patient treatment with intrinsic time intervals, both time-aware state and time-aware discounting are crucial. Moreover, to improve the agent's learning capacity, we explored three boosting methods: Double networks, Dueling networks, and Prioritized Experience Replay, and our results show that for the two real-world tasks, combining all three boosting methods with TQN is especially effective.
翻訳日:2021-05-07 13:19:54 公開日:2021-05-06
# 残差エッジグラフアテンションニューラルネットワークによる経路問題の解法

Solve routing problems with a residual edge-graph attention neural network ( http://arxiv.org/abs/2105.02730v1 )

ライセンス: Link先を確認
Kun Lei, Peng Guo, Yi Wang, Xiao Wu, Wenchao Zhao(参考訳) np-ハードコンビネート最適化問題の場合、通常多項式時間で高品質な解を見つけることは困難である。 これらの問題に対する正確なアルゴリズムまたは近似アルゴリズムの設計は、しばしば非常に専門的な知識を必要とする。 近年,深層学習はそのような問題を解決する新しい方法を提供している。 本稿では,このような組合せ最適化問題を解決するために,エンドツーエンドの深層強化学習フレームワークを提案する。 このフレームワークは、入力のわずかな変更だけで異なる問題に適用できる(例えば、旅行セールスマン問題(TSP)では、入力はノードの2次元座標であり、キャパシティ制約付き車両ルーティング問題(CVRP)では、入力は2次元座標とノードの顧客要求を含む3次元ベクトルに単純に変換される。 提案するフレームワークは、ニューラルネットワークモデルとトレーニングアルゴリズムの観点から、リテラシーのモデルを改善することを目指している。 tsp と 100 ノードまでの cvrp のソリューション品質は,このフレームワークにより大幅に向上した。 具体的には、平均最適ギャップを、100ノードのtspでは4.53\%(ベスト・デコード)から3.67\%(ベスト・デコード戦略では7.34\%)から、100ノードのcvrpでは6.68\%に削減する。 さらに,既存の学習方法と比較して約1/3$\sim$3/4のトレーニングサンプルを用い,良好な結果を得た。 ランダムに生成されたインスタンスとtsplibとcvrplibのベンチマークインスタンスで行った結果から、テストフェーズ中の問題サイズ(ノード数)に対する線形実行時間が得られ、ランダムインスタンストレーニングから実世界のインスタンステストまで、優れた一般化性能が得られています。

For NP-hard combinatorial optimization problems, it is usually difficult to find high-quality solutions in polynomial time. The design of either an exact algorithm or an approximate algorithm for these problems often requires significantly specialized knowledge. Recently, deep learning methods provide new directions to solve such problems. In this paper, an end-to-end deep reinforcement learning framework is proposed to solve this type of combinatorial optimization problems. This framework can be applied to different problems with only slight changes of input (for example, for a traveling salesman problem (TSP), the input is the two-dimensional coordinates of nodes; while for a capacity-constrained vehicle routing problem (CVRP), the input is simply changed to three-dimensional vectors including the two-dimensional coordinates and the customer demands of nodes), masks and decoder context vectors. The proposed framework is aiming to improve the models in literacy in terms of the neural network model and the training algorithm. The solution quality of TSP and the CVRP up to 100 nodes are significantly improved via our framework. Specifically, the average optimality gap is reduced from 4.53\% (reported best \cite{R22}) to 3.67\% for TSP with 100 nodes and from 7.34\% (reported best \cite{R22}) to 6.68\% for CVRP with 100 nodes when using the greedy decoding strategy. Furthermore, our framework uses about 1/3$\sim$3/4 training samples compared with other existing learning methods while achieving better results. The results performed on randomly generated instances and the benchmark instances from TSPLIB and CVRPLIB confirm that our framework has a linear running time on the problem size (number of nodes) during the testing phase, and has a good generalization performance from random instance training to real-world instance testing.
翻訳日:2021-05-07 13:19:19 公開日:2021-05-06
# AIシステムテストにおける配当意識

Distribution Awareness for AI System Testing ( http://arxiv.org/abs/2105.02540v1 )

ライセンス: Link先を確認
David Berend(参考訳) ディープラーニング(DL)は多くの安全クリティカルなアプリケーションで継続的に採用されているため、その品質と信頼性が懸念を高め始めます。 従来のソフトウェア開発プロセスと同様、dlソフトウェアを早期にテストして欠陥を明らかにすることは、デプロイ後のリスクを減らす効果的な方法である。 近年,dlソフトウェアの新たなテスト手法の設計が進んでいるが,生成したテストデータの分布は考慮されていない。 したがって、識別されたエラーがDLアプリケーションにとって意味のあるエラーであるかどうかを判断することは困難である。 そこで我々は,基礎となるdlシステムタスクに関連する未知のテストケースを新たに生成することを目的としたoodガイドテスト手法を提案する。 以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。

As Deep Learning (DL) is continuously adopted in many safety critical applications, its quality and reliability start to raise concerns. Similar to the traditional software development process, testing the DL software to uncover its defects at an early stage is an effective way to reduce risks after deployment. Although recent progress has been made in designing novel testing techniques for DL software, the distribution of generated test data is not taken into consideration. It is therefore hard to judge whether the identified errors are indeed meaningful errors to the DL application. Therefore, we propose a new OOD-guided testing technique which aims to generate new unseen test cases relevant to the underlying DL system task. Our results show that this technique is able to filter up to 55.44% of error test case on CIFAR-10 and is 10.05% more effective in enhancing robustness.
翻訳日:2021-05-07 13:18:22 公開日:2021-05-06
# 分離型ポーリング注意とグローバル層正規化とPRELUによる音声強調

Speech Enhancement using Separable Polling Attention and Global Layer Normalization followed with PReLU ( http://arxiv.org/abs/2105.02509v1 )

ライセンス: Link先を確認
Dengfeng Ke, Jinsong Zhang, Yanlu Xie, Yanyan Xu, Binghuai Lin(参考訳) 単一チャンネル音声強調は音声コミュニティにおいて難しい課題である。 近年,様々なニューラルネットワークを用いた音声強調手法が提案されている。 これらのモデルのうち、PHASENとT-GSAはVoiceBank+DEMANDコーパスで最先端のパフォーマンスを達成した。 どちらのモデルもCOVLスコアは3.62である。 PHASENはCSIGスコアが4.21で、T-GSAはPESQスコアが3.06である。 しかし、この2つのモデルは非常に大きい。 モデルのパフォーマンスとモデルサイズとの矛盾は解消しにくいです。 本稿では,PHASENモデルの縮小と性能向上のための3種類の手法を提案する。 まず、PHASENの周波数変換ブロックを置き換えるために、分離可能なポーリングアテンションを提案する。 第2に、グローバル層正規化とPRELUを併用し、バッチ正規化をReLUに置き換える。 最後に、PHASENのBLSTMをConv2d操作に置き換え、位相ストリームを簡素化する。 これらの修正によりPHASENモデルのサイズは33Mパラメータから5Mパラメータに縮小され、VoiceBank+DEMANDのパフォーマンスはCSIGスコア4.30、PESQスコア3.07、COVLスコア3.73に改善された。

Single channel speech enhancement is a challenging task in speech community. Recently, various neural networks based methods have been applied to speech enhancement. Among these models, PHASEN and T-GSA achieve state-of-the-art performances on the publicly opened VoiceBank+DEMAND corpus. Both of the models reach the COVL score of 3.62. PHASEN achieves the highest CSIG score of 4.21 while T-GSA gets the highest PESQ score of 3.06. However, both of these two models are very large. The contradiction between the model performance and the model size is hard to reconcile. In this paper, we introduce three kinds of techniques to shrink the PHASEN model and improve the performance. Firstly, seperable polling attention is proposed to replace the frequency transformation blocks in PHASEN. Secondly, global layer normalization followed with PReLU is used to replace batch normalization followed with ReLU. Finally, BLSTM in PHASEN is replaced with Conv2d operation and the phase stream is simplified. With all these modifications, the size of the PHASEN model is shrunk from 33M parameters to 5M parameters, while the performance on VoiceBank+DEMAND is improved to the CSIG score of 4.30, the PESQ score of 3.07 and the COVL score of 3.73.
翻訳日:2021-05-07 13:18:04 公開日:2021-05-06
# SIPSA-Net:衛星画像のための移動物体アライメントによるシフト不変パンシャーニング

SIPSA-Net: Shift-Invariant Pan Sharpening with Moving Object Alignment for Satellite Imagery ( http://arxiv.org/abs/2105.02400v1 )

ライセンス: Link先を確認
Jaehyup Lee, Soomin Seo and Munchurl Kim(参考訳) パンシャーペン(英: Pan-sharpening)とは、高分解能(HR)パンクロマティック(PAN)画像とそれに対応する低分解能(LR)マルチスペクトル(MS)画像を融合して、HR-MSおよびパンシャーペン画像を生成する過程である。 しかし、センサーの位置、特性、取得時間が異なるため、PANとMSのイメージペアは様々な誤認識を持つことが多い。 このような不整合なパンms画像ペアでトレーニングされた従来のディープラーニングベースの方法は、結果のパンシャープ画像におけるダブルエッジやぼやけアーティファクトといった多様なアーティファクトに苦しむ。 本稿では,移動物体アライメント(sipsa-net)を用いたシフト不変パンシャープニング(shift-invariant pan-sharpening)と呼ばれる新しい枠組みを提案する。 SISPA-Netには機能アライメントモジュール(FAM)があり、2つのPANドメインとMSドメインの間でも、1つの機能を他の機能にアライメントするように調整することができる。 パンシャープ画像のアライメントを改善するため、シフト不変スペクトル損失を新たに設計し、元のMS入力の固有のミスアライメントを無視し、適切に整合したMS画像でスペクトル損失を最適化するのと同じ効果を有する。 広範な実験結果から,我々のsipsa-netは,最先端の手法と比較して,視覚的品質とアライメントの面で著しく改善したパンシャープ画像を生成することができた。

Pan-sharpening is a process of merging a high-resolution (HR) panchromatic (PAN) image and its corresponding low-resolution (LR) multi-spectral (MS) image to create an HR-MS and pan-sharpened image. However, due to the different sensors' locations, characteristics and acquisition time, PAN and MS image pairs often tend to have various amounts of misalignment. Conventional deep-learning-based methods that were trained with such misaligned PAN-MS image pairs suffer from diverse artifacts such as double-edge and blur artifacts in the resultant PAN-sharpened images. In this paper, we propose a novel framework called shift-invariant pan-sharpening with moving object alignment (SIPSA-Net) which is the first method to take into account such large misalignment of moving object regions for PAN sharpening. The SISPA-Net has a feature alignment module (FAM) that can adjust one feature to be aligned to another feature, even between the two different PAN and MS domains. For better alignment in pan-sharpened images, a shift-invariant spectral loss is newly designed, which ignores the inherent misalignment in the original MS input, thereby having the same effect as optimizing the spectral loss with a well-aligned MS image. Extensive experimental results show that our SIPSA-Net can generate pan-sharpened images with remarkable improvements in terms of visual quality and alignment, compared to the state-of-the-art methods.
翻訳日:2021-05-07 13:17:44 公開日:2021-05-06
# マルチモーダル非言語行動キューを用いたプレゼンテーション能力の推定

Estimating Presentation Competence using Multimodal Nonverbal Behavioral Cues ( http://arxiv.org/abs/2105.02636v1 )

ライセンス: Link先を確認
\"Omer S\"umer and Cigdem Beyan and Fabian Ruth and Olaf Kramer and Ulrich Trautwein and Enkelejda Kasneci(参考訳) 公的な講演やプレゼンテーションの能力は、教育、職業、日常生活における多くの社会的相互作用において重要な役割を担っている。 発話中の意図は、聴衆が実際に理解しているものと異なるため、メッセージを伝える能力は複雑なスキルを必要とする。 プレゼンテーション能力は小学校時代から育ち、時間とともに発展してきた。 プレゼンテーション能力の効率的な開発を促進する1つのアプローチは、視覚と音声の特徴と機械学習に基づく音声中の人間の行動の自動分析である。 さらに、この分析を用いて、プレゼンテーション能力に関連するスキルの改善と開発を提案することができる。 本研究では, 表情, ポーズベース, 音声関連機能など, さまざまな非言語行動手がかりの提示能力評価への寄与について検討する。 この分析は251人の学生のビデオで行われ、自動評価はt\"ubingen instrument for presentation competence (tip) による手動評価に基づいている。 分類結果は,同一データセット評価における早期融合(71.25%の精度)と,クロスデータセット評価における発話,顔,ポーズの後期融合(78.1%の精度)で最高の成績を収めた。 同様に、回帰結果は核融合戦略で最善を尽くした。

Public speaking and presentation competence plays an essential role in many areas of social interaction in our educational, professional, and everyday life. Since our intention during a speech can differ from what is actually understood by the audience, the ability to appropriately convey our message requires a complex set of skills. Presentation competence is cultivated in the early school years and continuously developed over time. One approach that can promote efficient development of presentation competence is the automated analysis of human behavior during a speech based on visual and audio features and machine learning. Furthermore, this analysis can be used to suggest improvements and the development of skills related to presentation competence. In this work, we investigate the contribution of different nonverbal behavioral cues, namely, facial, body pose-based, and audio-related features, to estimate presentation competence. The analyses were performed on videos of 251 students while the automated assessment is based on manual ratings according to the T\"ubingen Instrument for Presentation Competence (TIP). Our classification results reached the best performance with early fusion in the same dataset evaluation (accuracy of 71.25%) and late fusion of speech, face, and body pose features in the cross dataset evaluation (accuracy of 78.11%). Similarly, regression results performed the best with fusion strategies.
翻訳日:2021-05-07 13:17:15 公開日:2021-05-06
# アノテーションなしのオブジェクト中心ビデオ予測

Object-centric Video Prediction without Annotation ( http://arxiv.org/abs/2105.02799v1 )

ライセンス: Link先を確認
Karl Schmeckpeper, Georgios Georgakis, Kostas Daniilidis(参考訳) 世界と相互作用するために、エージェントは世界のダイナミクスの結果を予測できなければならない。 これらのダイナミクスを学ぶ自然なアプローチは、カメラがユビキタスで強力なセンサーであるため、ビデオ予測である。 ピクセル間直接の映像予測は困難であり、既知の事前処理を活用せず、学習したダイナミクスを利用するための簡単なインターフェースを提供していない。 オブジェクト中心のビデオ予測は、世界がオブジェクトで構成されているという単純な事前の利点を生かし、制御のためのより自然なインターフェースを提供することによって、これらの問題の解決策を提供する。 しかし、既存のオブジェクト中心のビデオ予測パイプラインは、ビデオシーケンスのトレーニングに密接なオブジェクトアノテーションを必要とする。 本稿では,強力なコンピュータビジョンモデルからの事前情報を利用した物体中心映像予測手法であるopa(object-centric prediction without annotation)を提案する。 本手法は,落下する重ね合わせ物体の映像列からなるデータセット上で検証し,エンド・ツー・エンドの映像予測トレーニングにより環境に知覚モデルを適用する方法を示す。

In order to interact with the world, agents must be able to predict the results of the world's dynamics. A natural approach to learn about these dynamics is through video prediction, as cameras are ubiquitous and powerful sensors. Direct pixel-to-pixel video prediction is difficult, does not take advantage of known priors, and does not provide an easy interface to utilize the learned dynamics. Object-centric video prediction offers a solution to these problems by taking advantage of the simple prior that the world is made of objects and by providing a more natural interface for control. However, existing object-centric video prediction pipelines require dense object annotations in training video sequences. In this work, we present Object-centric Prediction without Annotation (OPA), an object-centric video prediction method that takes advantage of priors from powerful computer vision models. We validate our method on a dataset comprised of video sequences of stacked objects falling, and demonstrate how to adapt a perception model in an environment through end-to-end video prediction training.
翻訳日:2021-05-07 13:16:56 公開日:2021-05-06
# 確率的アンサンブル平滑化モデルによるディープニューラルネットワークの逆ロバスト性に対する動的防御法

Dynamic Defense Approach for Adversarial Robustness in Deep Neural Networks via Stochastic Ensemble Smoothed Model ( http://arxiv.org/abs/2105.02803v1 )

ライセンス: Link先を確認
Ruoxi Qin, Linyuan Wang, Xingyuan Chen, Xuehui Du, Bin Yan(参考訳) ディープニューラルネットワークは、敵の攻撃下で重大な脆弱性を被っていることが示されている。 この現象は、サイバースペースセキュリティで採用されているものと類似した攻撃戦略と防衛戦略の作成を刺激した。 このような戦略を攻撃と防御のメカニズムに依存させることで、関連するアルゴリズムは相互に協調するプロセスとして現れる。 防衛戦略はこれらのプロセスにおいて特に受動的であり、このような戦略の強化は、この軍備競争から抜け出す効果的な方法である。 サイバースペースにおける動的防御手法に着想を得て,ランダムな平滑化とモデルアンサンブルに基づく確率的アンサンブル平滑化を構築した。 提案手法では,ネットワークアーキテクチャとパラメータの平滑化をアンサンブル属性とし,予測要求毎に属性に基づくアンサンブルモデルを動的に変更する。 提案手法は,ホワイトボックス攻撃下でのアンサンブルモデルの極端な伝達性と脆弱性を扱う。 ASR-vs歪曲線と異なる攻撃シナリオとの実験的比較により、攻撃能力が最も高い攻撃者でさえ、特に標的外攻撃下では、アンサンブルスムーズドモデルに関連する攻撃成功率を超え難いことが示されている。

Deep neural networks have been shown to suffer from critical vulnerabilities under adversarial attacks. This phenomenon stimulated the creation of different attack and defense strategies similar to those adopted in cyberspace security. The dependence of such strategies on attack and defense mechanisms makes the associated algorithms on both sides appear as closely reciprocating processes. The defense strategies are particularly passive in these processes, and enhancing initiative of such strategies can be an effective way to get out of this arms race. Inspired by the dynamic defense approach in cyberspace, this paper builds upon stochastic ensemble smoothing based on defense method of random smoothing and model ensemble. Proposed method employs network architecture and smoothing parameters as ensemble attributes, and dynamically change attribute-based ensemble model before every inference prediction request. The proposed method handles the extreme transferability and vulnerability of ensemble models under white-box attacks. Experimental comparison of ASR-vs-distortion curves with different attack scenarios shows that even the attacker with the highest attack capability cannot easily exceed the attack success rate associated with the ensemble smoothed model, especially under untargeted attacks.
翻訳日:2021-05-07 13:16:39 公開日:2021-05-06
# MRI画像合成のための特徴分散を用いた深層学習に基づくマルチモーダルコンピューティング

Deep Learning based Multi-modal Computing with Feature Disentanglement for MRI Image Synthesis ( http://arxiv.org/abs/2105.02835v1 )

ライセンス: Link先を確認
Yuchen Fei, Bo Zhan, Mei Hong, Xi Wu, Jiliu Zhou, Yan Wang(参考訳) 目的: 同一解剖学的構造の異なる磁気共鳴イメージング(mri)は, 診断に必要な物理レベルから異なる病理情報を提示するために必要である。 しかし, 時間消費や高コストといった制限により, フルシーケンスMRI画像の取得が困難である場合が多い。 本研究の目的は,mriシーケンス予測を高精度に行うアルゴリズムを開発し,臨床診断により多くの情報を提供することである。 方法: 特徴分散戦略を用いたMRI合成のための深層学習に基づくマルチモーダル計算モデルを提案する。 異なるモードで提供される補完情報をフル活用するために、マルチモーダルMRIシーケンスを入力として利用する。 特に,提案手法では,各入力モダリティを,共有情報と特定の情報を持つモダリティ固有空間に分解することにより,特徴を分離して抽出し,入力データを効果的に処理する。 その後、両者はデコーダの適応インスタンス正規化(adain)層を介して融合される。 また、試験相における目標モダリティの具体的情報の欠如に対処するため、局所適応融合(LAF)モジュールを採用し、基底真実に類似した具体的情報を持つモダリティのような擬似ターゲットを生成する。 結果: 合成性能を評価するため, 164被験者のBRATS2015データセットを用いて本手法を検証する。 実験により,本手法は定量化および定性化の両面で,ベンチマーク法や他の最先端の医用画像合成法よりも優れていた。 pix2pixGANs法と比較すると、PSNRは23.68から24.8に改善されている。 結論: 提案手法は, 対象MRI領域の予測に有効であり, 臨床診断や治療に有用であると考えられた。

Purpose: Different Magnetic resonance imaging (MRI) modalities of the same anatomical structure are required to present different pathological information from the physical level for diagnostic needs. However, it is often difficult to obtain full-sequence MRI images of patients owing to limitations such as time consumption and high cost. The purpose of this work is to develop an algorithm for target MRI sequences prediction with high accuracy, and provide more information for clinical diagnosis. Methods: We propose a deep learning based multi-modal computing model for MRI synthesis with feature disentanglement strategy. To take full advantage of the complementary information provided by different modalities, multi-modal MRI sequences are utilized as input. Notably, the proposed approach decomposes each input modality into modality-invariant space with shared information and modality-specific space with specific information, so that features are extracted separately to effectively process the input data. Subsequently, both of them are fused through the adaptive instance normalization (AdaIN) layer in the decoder. In addition, to address the lack of specific information of the target modality in the test phase, a local adaptive fusion (LAF) module is adopted to generate a modality-like pseudo-target with specific information similar to the ground truth. Results: To evaluate the synthesis performance, we verify our method on the BRATS2015 dataset of 164 subjects. The experimental results demonstrate our approach significantly outperforms the benchmark method and other state-of-the-art medical image synthesis methods in both quantitative and qualitative measures. Compared with the pix2pixGANs method, the PSNR improves from 23.68 to 24.8. Conclusion: The proposed method could be effective in prediction of target MRI sequences, and useful for clinical diagnosis and treatment.
翻訳日:2021-05-07 13:16:16 公開日:2021-05-06
# 単一軌道からの異常拡散のキャラクタリゼーションのためのエクストリーム・ラーニング・マシン

Extreme Learning Machine for the Characterization of Anomalous Diffusion from Single Trajectories ( http://arxiv.org/abs/2105.02597v1 )

ライセンス: Link先を確認
Carlo Manzo(参考訳) 自然系と人工系の力学の研究は、一般に異常拡散として定義されるブラウン挙動からの逸脱のいくつかの例を提供した。 これらの動力学の研究は、拡散する物体とその周囲の媒体をよりよく理解するが、個々の軌道からの定量的な特徴付けはしばしば困難である。 古典統計学と機械学習を用いた異常拡散検出の改善のための取り組みは、いくつかの新しい方法を生み出している。 最近では, 異常拡散指数の推定, 拡散モデルの分類, 軌道の分割という, 異常拡散の3つの側面に焦点をあてて, 共通のデータセット上でこれらのアプローチを客観的に評価するために, 異常拡散チャレンジ (AnDi, https://www.andi-challenge.org) が導入された。 本稿では、極端な学習機械と特徴工学(AnDi-ELM)を組み合わせることで、AnDiチャレンジの課題に取り組むための簡単なアプローチについて述べる。 本手法は,計算資源に制限のある簡単な実装と高速な訓練時間を提供しながら,良好な性能を達成する。

The study of the dynamics of natural and artificial systems has provided several examples of deviations from Brownian behavior, generally defined as anomalous diffusion. The investigation of these dynamics can provide a better understanding of diffusing objects and their surrounding media, but a quantitative characterization from individual trajectories is often challenging. Efforts devoted to improving anomalous diffusion detection using classical statistics and machine learning have produced several new methods. Recently, the anomalous diffusion challenge (AnDi, https://www.andi-challenge.org) was launched to objectively assess these approaches on a common dataset, focusing on three aspects of anomalous diffusion: the inference of the anomalous diffusion exponent; the classification of the diffusion model; and the segmentation of trajectories. In this article, I describe a simple approach to tackle the tasks of the AnDi challenge by combining extreme learning machine and feature engineering (AnDi-ELM). The method reaches satisfactory performance while offering a straightforward implementation and fast training time with limited computing resources, making a suitable tool for fast preliminary screening.
翻訳日:2021-05-07 13:15:47 公開日:2021-05-06
# コンテンツ提供者意識型レコメンデーションシステムに向けて--ユーザと提供者間の相互作用に関するシミュレーション研究

Towards Content Provider Aware Recommender Systems: A Simulation Study on the Interplay between User and Provider Utilities ( http://arxiv.org/abs/2105.02377v1 )

ライセンス: Link先を確認
Ruohan Zhan, Konstantina Christakopoulou, Ya Le, Jayden Ooi, Martin Mladenov, Alex Beutel, Craig Boutilier, Ed H. Chi, Minmin Chen(参考訳) 既存のリコメンデータシステムのほとんどは、主にユーザの満足度を最大化するコンテンツにユーザを合わせることに焦点を当てている。 しかし、コンテンツプロバイダーがコンテンツ作成を通じてユーザーの満足度に重大な影響を与えており、レコメンデーションで利用可能なコンテンツプールを決定することはますます明らかになっている。 ユーザとコンテンツプロバイダの両方の長期的な有用性を考慮して、レコメンダを設計することはできますか? そうすることで、長期的なユーザ満足のために、より多くのプロバイダとより多様なコンテンツプールを維持したいと考えています。 ユーザグループとプロバイダグループの両方に対するレコメンデーションの完全な影響を理解することは難しい。 本稿では,プロバイダを意識したレコメンデータの構築と,その影響をシミュレートした構成で評価するための1つのアプローチに関する調査を行う。 ユーザ・レcommender-providerの相互依存を特徴付けるために,プロバイダのダイナミクスを形式化し,ユーザ・モデリングを補完する。 結果として得られるジョイント力学システムは、レコメンデータアクションとプロバイダへのユーザフィードバックによって駆動される弱結合部分可観測マルコフ決定プロセスを引き起こす。 次に,ecoagentと呼ばれる強化レコメンダエージェントを構築し,ユーザユーティリティの目標と,推奨コンテンツに関連するプロバイダの反事実的ユーティリティリフトを最適化する。 提案手法を評価するために,ユーザ,プロバイダ,レコメンダ間の重要なインタラクションをキャプチャするシミュレーション環境を提案する。 私たちは、我々のアプローチの利点と限界の両方に光を当てるシミュレーション実験をいくつか提供します。 これらの結果は、プロバイダを意識したレコメンダエージェントが、マルチステイクホルダレコメンダシステムを構築する上で、どのように、いつ、どのように役立つかを理解するのに役立つ。

Most existing recommender systems focus primarily on matching users to content which maximizes user satisfaction on the platform. It is increasingly obvious, however, that content providers have a critical influence on user satisfaction through content creation, largely determining the content pool available for recommendation. A natural question thus arises: can we design recommenders taking into account the long-term utility of both users and content providers? By doing so, we hope to sustain more providers and a more diverse content pool for long-term user satisfaction. Understanding the full impact of recommendations on both user and provider groups is challenging. This paper aims to serve as a research investigation of one approach toward building a provider-aware recommender, and evaluating its impact in a simulated setup. To characterize the user-recommender-provider interdependence, we complement user modeling by formalizing provider dynamics as well. The resulting joint dynamical system gives rise to a weakly-coupled partially observable Markov decision process driven by recommender actions and user feedback to providers. We then build a REINFORCE recommender agent, coined EcoAgent, to optimize a joint objective of user utility and the counterfactual utility lift of the provider associated with the recommended content, which we show to be equivalent to maximizing overall user utility and the utilities of all providers on the platform under some mild assumptions. To evaluate our approach, we introduce a simulation environment capturing the key interactions among users, providers, and the recommender. We offer a number of simulated experiments that shed light on both the benefits and the limitations of our approach. These results help understand how and when a provider-aware recommender agent is of benefit in building multi-stakeholder recommender systems.
翻訳日:2021-05-07 13:14:55 公開日:2021-05-06
# mcmc-driven importance sampler

MCMC-driven importance samplers ( http://arxiv.org/abs/2105.02579v1 )

ライセンス: Link先を確認
F. Llorente, E. Curbelo, L. Martino, V. Elvira, D. Delgado(参考訳) モンテカルロ法は多次元ベイズ分布の複素積分を推定する標準的な方法である。 本研究では,マルコフ連鎖モンテカルロ (MCMC) アルゴリズムを基礎となる多重重要サンプリング (IS) スキームを駆動する適応型重要サンプリング器のクラスであるLAISに着目した。 上層層はMCMCアルゴリズムによって提案密度を推定し、下層は最終的な推定値を計算するために複数のISスキームを処理する。 LAISのモジュラー性は、上層と下層の異なる選択を可能にし、パフォーマンスと計算コストが異なる。 本研究では,上層と下層の両方において,効率の向上と計算コストの低減を図るために,異なる拡張を提案する。 異なる変種は、高度に集中した後続分布(大量のデータなど)など、現実世界のアプリケーションで発生する計算上の課題に対処するために必要不可欠である。 ハミルトン駆動の重要サンプルが提示され、テストされる。 さらに, 上層で生成した試料を, 下層で生成した最終推定器で再利用するなど, より安価なスキームを設計するための様々な戦略を導入する。 数値実験により提案手法の利点がLAISや他のベンチマーク手法のバニラバージョンと比較された。

Monte Carlo methods are the standard procedure for estimating complicated integrals of multidimensional Bayesian posterior distributions. In this work, we focus on LAIS, a class of adaptive importance samplers where Markov chain Monte Carlo (MCMC) algorithms are employed to drive an underlying multiple importance sampling (IS) scheme. Its power lies in the simplicity of the layered framework: the upper layer locates proposal densities by means of MCMC algorithms; while the lower layer handles the multiple IS scheme, in order to compute the final estimators. The modular nature of LAIS allows for different possible choices in the upper and lower layers, that will have different performance and computational costs. In this work, we propose different enhancements in order to increase the efficiency and reduce the computational cost, of both upper and lower layers. The different variants are essential if we aim to address computational challenges arising in real-world applications, such as highly concentrated posterior distributions (due to large amounts of data, etc.). Hamiltonian-driven importance samplers are presented and tested. Furthermore, we introduce different strategies for designing cheaper schemes, for instance, recycling samples generated in the upper layer and using them in the final estimators in the lower layer. Numerical experiments show the benefits of the proposed schemes as compared to the vanilla version of LAIS and other benchmark methods.
翻訳日:2021-05-07 13:14:24 公開日:2021-05-06
# 持続性ワーファリン線量予測における経時線量とinrデータの影響評価

Evaluating the Effect of Longitudinal Dose and INR Data on Maintenance Warfarin Dose Predictions ( http://arxiv.org/abs/2105.02625v1 )

ライセンス: Link先を確認
Anish Karpurapu, Adam Krekorian, Ye Tian, Leslie M. Collins, Ravi Karra, Aaron Franklin and Boyla O. Mainsah(参考訳) 血液凝固を予防するための一般的に処方される薬物であるウォーファリンは、非常に可変な個々の反応を持つ。 国際正規化比(inr)によって測定された治療用血液凝固時間を達成する維持用ワーファリン線量の決定は、合併症の予防に不可欠である。 ウォーファリン投与には機械学習アルゴリズムが用いられており、通常、初期投与量は臨床および遺伝子型因子で予測され、この服用量は以前の服用量と現在のinrに基づいて数日後に改訂される。 個々のワーファリン反応の変動を,事前線量列とinrがよりよく捉えるので,持続線量応答データが維持線量予測を改善すると仮定した。 この仮説を検証するため,臨床データ,ワーファリン服用量,INR測定量,INR治療時の維持用量を含むCOAG Warfarin用量研究のデータセットを分析した。 各種機械学習回帰モデルを用いて, 維持ワーファリン投与量の予測を行い, 臨床因子, 投薬履歴, INRデータを特徴として訓練した。 総じて、単線量とINRによる線量補正アルゴリズムは、基準線量修正アルゴリズムと同等の性能を達成した。 一方, 経時線量とINRデータを用いた線量補正アルゴリズムでは, 統計的に真の線量にかなり近い維持線量予測が可能であった。 最高の性能モデル(GB)に焦点を当てると、理想的な推定線量の割合、すなわち真の線量のうち、$\pm$20%以内と定義されるものは、ベースライン(54.92%)から1本(63.11%)と縦(75.41%)のGBモデルへと増加した。 経時的線量反応データによるより正確な維持用量予測は、治療のINRを早く達成し、薬物関連合併症を減らし、ワルファリン治療による患者結果を改善する可能性がある。

Warfarin, a commonly prescribed drug to prevent blood clots, has a highly variable individual response. Determining a maintenance warfarin dose that achieves a therapeutic blood clotting time, as measured by the international normalized ratio (INR), is crucial in preventing complications. Machine learning algorithms are increasingly being used for warfarin dosing; usually, an initial dose is predicted with clinical and genotype factors, and this dose is revised after a few days based on previous doses and current INR. Since a sequence of prior doses and INR better capture the variability in individual warfarin response, we hypothesized that longitudinal dose response data will improve maintenance dose predictions. To test this hypothesis, we analyzed a dataset from the COAG warfarin dosing study, which includes clinical data, warfarin doses and INR measurements over the study period, and maintenance dose when therapeutic INR was achieved. Various machine learning regression models to predict maintenance warfarin dose were trained with clinical factors and dosing history and INR data as features. Overall, dose revision algorithms with a single dose and INR achieved comparable performance as the baseline dose revision algorithm. In contrast, dose revision algorithms with longitudinal dose and INR data provided maintenance dose predictions that were statistically significantly much closer to the true maintenance dose. Focusing on the best performing model, gradient boosting (GB), the proportion of ideal estimated dose, i.e., defined as within $\pm$20% of the true dose, increased from the baseline (54.92%) to the GB model with the single (63.11%) and longitudinal (75.41%) INR. More accurate maintenance dose predictions with longitudinal dose response data can potentially achieve therapeutic INR faster, reduce drug-related complications and improve patient outcomes with warfarin therapy.
翻訳日:2021-05-07 13:14:03 公開日:2021-05-06
# 自然科学におけるデータセットバイアス--化学反応予測と合成設計の事例研究

Dataset Bias in the Natural Sciences: A Case Study in Chemical Reaction Prediction and Synthesis Design ( http://arxiv.org/abs/2105.02637v1 )

ライセンス: Link先を確認
Ryan-Rhys Griffiths, Philippe Schwaller, Alpha A. Lee(参考訳) 自然科学のデータセットは、科学的な理解を支援することを目的として、しばしばキュレーションされるため、機械学習の応用を促進する形式であるとは限らない。 本稿では,化学反応予測と合成設計の分野における方向変化を必要とする3つの傾向を明らかにする。 まず、反応データセットを反応物質と試薬に分解する方法は、非現実的な寛大な方法でテストモデルを奨励する。 第2に,誤記データの発生状況に注目し,データ適合性ではなく,異常除去に重点を置くべきであることを示唆する。 最後に, 反応予測に加えて試薬予測の問題についても議論し, 完全な合成設計問題を解決するために, 機械学習が解くものと実験室化学者が必要とするものとのミスマッチを浮き彫りにする。 我々の批判は、データセットがしばしばバイアスのある方法で分割される実験自然科学の進歩を加速するために機械学習を使うことの急成長分野にも関係しており、データから明らかでない文脈変数が実験結果に強く影響している。

Datasets in the Natural Sciences are often curated with the goal of aiding scientific understanding and hence may not always be in a form that facilitates the application of machine learning. In this paper, we identify three trends within the fields of chemical reaction prediction and synthesis design that require a change in direction. First, the manner in which reaction datasets are split into reactants and reagents encourages testing models in an unrealistically generous manner. Second, we highlight the prevalence of mislabelled data, and suggest that the focus should be on outlier removal rather than data fitting only. Lastly, we discuss the problem of reagent prediction, in addition to reactant prediction, in order to solve the full synthesis design problem, highlighting the mismatch between what machine learning solves and what a lab chemist would need. Our critiques are also relevant to the burgeoning field of using machine learning to accelerate progress in experimental Natural Sciences, where datasets are often split in a biased way, are highly noisy, and contextual variables that are not evident from the data strongly influence the outcome of experiments.
翻訳日:2021-05-07 13:13:27 公開日:2021-05-06
# 時空間畳み込み型ニューラルネットワークを用いたcovid-19の空間的進化のモデル化

Modeling the geospatial evolution of COVID-19 using spatio-temporal convolutional sequence-to-sequence neural networks ( http://arxiv.org/abs/2105.02752v1 )

ライセンス: Link先を確認
M\'ario Cardoso, Andr\'e Cavalheiro, Alexandre Borges, Ana F. Duarte, Am\'ilcar Soares, Maria Jo\~ao Pereira, Nuno J. Nunes, Leonardo Azevedo, Arlindo L. Oliveira(参考訳) 欧州は新型コロナウイルス(covid-19)のパンデミックで打撃を受け、ポルトガルは最初の12カ月で3つの波に見舞われた。 2021年1月19日から2月5日にかけてのポルトガルは、人口10万人あたり14日間の頻度で1000人を超える国であった。 新型コロナウイルスの地理的進化の正確な予測は依然として困難であり、既存の分析手法では、地域内の感染と感染した近隣地域からの感染拡大の両方に起因する複雑なダイナミクスを捉えることができない。 我々は,パンデミックの最初の12か月と比較して,ポルトガル保健総局(dgs)が以前に開発した方法論と公式自治体レベルデータを用いて,ポルトガル本土の各地域における入所率の推定を行う。 結果として得られた入射率マップはゴールド標準として用いられ、入射率の空間-時間変化の予測における異なるアプローチの有効性を検証した。 簡単なセルレベルの自己回帰移動平均 (ARMA) モデル, セルレベルのベクトル自己回帰 (VAR) モデル, 自治体ごとの包括的SIRDモデル, 直接ブロックシーケンシャルシミュレーション, STConvS2Sアーキテクチャに基づく畳み込みシーケンス列列ニューラルネットワークモデル, の4つの方法が試験された。 本研究は,畳み込みシーケンスからシーケンスへのニューラルネットワークが,利用可能な情報を用いて,中期的な入射率を予測する上で最善の手法であると結論づける。

Europe was hit hard by the COVID-19 pandemic and Portugal was one of the most affected countries, having suffered three waves in the first twelve months. Approximately between Jan 19th and Feb 5th 2021 Portugal was the country in the world with the largest incidence rate, with 14-days incidence rates per 100,000 inhabitants in excess of 1000. Despite its importance, accurate prediction of the geospatial evolution of COVID-19 remains a challenge, since existing analytical methods fail to capture the complex dynamics that result from both the contagion within a region and the spreading of the infection from infected neighboring regions. We use a previously developed methodology and official municipality level data from the Portuguese Directorate-General for Health (DGS), relative to the first twelve months of the pandemic, to compute an estimate of the incidence rate in each location of mainland Portugal. The resulting sequence of incidence rate maps was then used as a gold standard to test the effectiveness of different approaches in the prediction of the spatial-temporal evolution of the incidence rate. Four different methods were tested: a simple cell level autoregressive moving average (ARMA) model, a cell level vector autoregressive (VAR) model, a municipality-by-municipality compartmental SIRD model followed by direct block sequential simulation and a convolutional sequence-to-sequence neural network model based on the STConvS2S architecture. We conclude that the convolutional sequence-to-sequence neural network is the best performing method, when predicting the medium-term future incidence rate, using the available information.
翻訳日:2021-05-07 13:13:08 公開日:2021-05-06
# データ融合に基づく交通量再構成の確率モデル

A probabilistic model for missing traffic volume reconstruction based on data fusion ( http://arxiv.org/abs/2105.02777v1 )

ライセンス: Link先を確認
Xintao Yan, Yan Zhao, Henry X. Liu(参考訳) 交通量情報はインテリジェント交通システムにとって重要である。 交通計画、道路設計、交通信号制御のキーインプットとして機能している。 しかし、ループ検出器のような固定位置センサによって収集された交通量データは、しばしば欠落データ問題と低カバレッジ問題に悩まされる。 データ不足はハードウェアの故障によって引き起こされる可能性がある。 低カバレッジ問題は、交通ネットワークにおける固定位置センサのカバレッジが限られているため、ネットワークレベルでのトラフィックの理解が抑制されている。 そこで本研究では,固定位置センサデータとプローブ車両データを用いて,交通量再構成の確率モデルを提案する。 確率的主成分分析(PPCA)を用いて,交通量データの相関関係を抽出する。 この研究の革新的な貢献は、プローブ車両データをフレームワークに統合することで、上記の2つの問題の両方をモデルが解決できることです。 実世界の交通量データセットを用いて,提案手法が不足データ問題に対する最先端手法よりも優れていることを示す。 さらに,既存のほとんどの手法では処理できない低カバレッジ問題に対して,提案手法は高い精度を実現することができる。 実験により, 欠落率が80%に達する場合でも, 提案手法は, プローブ車両の浸透率を10%に抑えながら, 未知のトラフィック量を正確に推定できることを示した。 その結果,提案手法の有効性とロバスト性を検証し,実用化の可能性を示した。

Traffic volume information is critical for intelligent transportation systems. It serves as a key input to transportation planning, roadway design, and traffic signal control. However, the traffic volume data collected by fixed-location sensors, such as loop detectors, often suffer from the missing data problem and low coverage problem. The missing data problem could be caused by hardware malfunction. The low coverage problem is due to the limited coverage of fixed-location sensors in the transportation network, which restrains our understanding of the traffic at the network level. To tackle these problems, we propose a probabilistic model for traffic volume reconstruction by fusing fixed-location sensor data and probe vehicle data. We apply the probabilistic principal component analysis (PPCA) to capture the correlations in traffic volume data. An innovative contribution of this work is that we also integrate probe vehicle data into the framework, which allows the model to solve both of the above-mentioned two problems. Using a real-world traffic volume dataset, we show that the proposed method outperforms state-of-the-art methods for the extensively studied missing data problem. Moreover, for the low coverage problem, which cannot be handled by most existing methods, the proposed model can also achieve high accuracy. The experiments also show that even when the missing ratio reaches 80%, the proposed method can still give an accurate estimate of the unknown traffic volumes with only a 10% probe vehicle penetration rate. The results validate the effectiveness and robustness of the proposed model and demonstrate its potential for practical applications.
翻訳日:2021-05-07 13:12:40 公開日:2021-05-06
# KuraNet:同期を学習する結合振動子のシステム

KuraNet: Systems of Coupled Oscillators that Learn to Synchronize ( http://arxiv.org/abs/2105.02838v1 )

ライセンス: Link先を確認
Matthew Ricci, Minju Jung, Yuwei Zhang, Mathieu Chalvidal, Aneri Soni, Thomas Serre(参考訳) 結合振動子のネットワークは、力学系の理論において最も研究されている対象である。 現在注目されている2つの重要な分野は、高度に乱れたシステムにおける同期の研究と、適応的ネットワーク構造を持つシステムのモデリングである。 本稿では,これら2つの問題に対して,障害のあるネットワーク条件の分布にまたがって同期化を学習可能な結合発振器の深層学習システムであるKuraNetの形で単一のアプローチを提案する。 モデルの主な特徴は、異種振動子集団内の最適な相互作用を学習できるカップリング関数に従来の静的カップリングを置き換えることである。 提案手法を鞍本モデルに適用し,グローバルあるいはクラスタ同期を促進するデータ依存結合構造を学習する方法を実証する。 例えば, 不規則な自然周波数, 外部磁場強度, 相互作用遅延を有する解析的可視モデルにおいて, クラネットを用いて大域的同期の条件を経験的に検討する方法を示す。 クラスタ同期実験のシーケンスでは,コヒーレントなアセンブリに同期することで,kuranetがデータ分類器として機能することを示す。 いずれの場合も、鞍ネットが新しいデータと新しいネットワークスケールの両方に一般化できることを示し、小さなシステムで作業しやすく、熱力学の限界に関する仮説を形成する。 提案手法は,物理・システム生物学におけるモデリングと幅広い関係を持つ任意の力学系に適用可能である。

Networks of coupled oscillators are some of the most studied objects in the theory of dynamical systems. Two important areas of current interest are the study of synchrony in highly disordered systems and the modeling of systems with adaptive network structures. Here, we present a single approach to both of these problems in the form of "KuraNet", a deep-learning-based system of coupled oscillators that can learn to synchronize across a distribution of disordered network conditions. The key feature of the model is the replacement of the traditionally static couplings with a coupling function which can learn optimal interactions within heterogeneous oscillator populations. We apply our approach to the eponymous Kuramoto model and demonstrate how KuraNet can learn data-dependent coupling structures that promote either global or cluster synchrony. For example, we show how KuraNet can be used to empirically explore the conditions of global synchrony in analytically impenetrable models with disordered natural frequencies, external field strengths, and interaction delays. In a sequence of cluster synchrony experiments, we further show how KuraNet can function as a data classifier by synchronizing into coherent assemblies. In all cases, we show how KuraNet can generalize to both new data and new network scales, making it easy to work with small systems and form hypotheses about the thermodynamic limit. Our proposed learning-based approach is broadly applicable to arbitrary dynamical systems with wide-ranging relevance to modeling in physics and systems biology.
翻訳日:2021-05-07 13:12:02 公開日:2021-05-06
# DiffSinger:歌声合成のための拡散音響モデル

DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis ( http://arxiv.org/abs/2105.02446v1 )

ライセンス: Link先を確認
Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, Peng Liu, Zhou Zhao(参考訳) 歌声合成(SVS)システムは、高品質で表現力のある歌声を合成するために構築され、音響モデルが楽譜を与えられた音響特徴(例えば、メルスペクトル)を生成する。 従来の歌唱音響モデルでは、単純な損失(L1とL2)または生成的敵ネットワーク(GAN)を用いて音響特性を再構築するが、これらはそれぞれ過度に平滑で不安定な訓練問題に悩まされ、合成歌唱の自然性を損なう。 本研究では拡散確率モデルに基づくSVSの音響モデルDiffSingerを提案する。 ディフシンガー(DiffSinger)は、パラメータ化されたマルコフ連鎖であり、音楽スコアに条件付きメルスペクトルに繰り返し変換する。 変動境界を暗黙的に最適化することで、diffsingerは安定的に訓練され、現実的な出力を生成することができる。 音声の質をさらに向上するため,簡単な損失によって学習した事前知識をよりよく活用するための「textbf{shallow diffusion mechanism」を導入する。 特に、DiffSingerは、地上トルス・メル・スペクトログラムの拡散軌跡と単純なメル・スペクトログラムデコーダによって予測されるものとの交叉に従って、拡散ステップの総数よりも小さい浅いステップで生成を開始する。 また,境界予測ネットワークを訓練し,交差点を同定し,浅いステップを適応的に決定する。 中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVS作業より優れており、顕著なマージン(0.11 MOSゲイン)を達成していることを示している。 我々の拡張実験は、テキスト音声タスクにおけるDiffSingerの一般化も証明している。

Singing voice synthesis (SVS) system is built to synthesize high-quality and expressive singing voice, in which the acoustic model generates the acoustic features (e.g., mel-spectrogram) given a music score. Previous singing acoustic models adopt simple loss (e.g., L1 and L2) or generative adversarial network (GAN) to reconstruct the acoustic features, while they suffer from over-smoothing and unstable training issues respectively, which hinder the naturalness of synthesized singing. In this work, we propose DiffSinger, an acoustic model for SVS based on the diffusion probabilistic model. DiffSinger is a parameterized Markov chain which iteratively converts the noise into mel-spectrogram conditioned on the music score. By implicitly optimizing variational bound, DiffSinger can be stably trained and generates realistic outputs. To further improve the voice quality, we introduce a \textbf{shallow diffusion mechanism} to make better use of the prior knowledge learned by the simple loss. Specifically, DiffSinger starts generation at a shallow step smaller than the total number of diffusion steps, according to the intersection of the diffusion trajectories of the ground-truth mel-spectrogram and the one predicted by a simple mel-spectrogram decoder. Besides, we train a boundary prediction network to locate the intersection and determine the shallow step adaptively. The evaluations conducted on the Chinese singing dataset demonstrate that DiffSinger outperforms state-of-the-art SVS work with a notable margin (0.11 MOS gains). Our extensional experiments also prove the generalization of DiffSinger on text-to-speech task.
翻訳日:2021-05-07 13:11:10 公開日:2021-05-06
# ポイントクラウドオーディオ処理

Point Cloud Audio Processing ( http://arxiv.org/abs/2105.02469v1 )

ライセンス: Link先を確認
Krishna Subramani, Paris Smaragdis(参考訳) ほとんどのオーディオ処理パイプラインは、オーディオの固定次元入力表現に作用する変換を含む。 例えば、短い時間フーリエ変換(STFT)を使用する場合、DFTサイズは入力表現の固定次元を指定する。 その結果、ほとんどのオーディオ機械学習モデルは、サンプリングレートや代替表現の異なるオーディオ上での学習モデルの再利用をしばしば禁止する固定サイズのベクトル入力を処理するように設計されている。 しかし,音声信号に含まれる固有スペクトル情報は,入力表現の選択やサンプリング率に不変である。 そこで我々は,特徴空間内の点集合として扱うことで音声信号を処理する新しい手法を導入し,DFTサイズやサンプリングレートなどの表現パラメータの選択に不変性を与えるポイントクラウド機械学習モデルを提案する。 さらに、これらの手法がより小さなモデルをもたらすことを観察し、トレーニングされたモデル性能に最小限の効果で入力表現を著しくサブサンプル化することができる。

Most audio processing pipelines involve transformations that act on fixed-dimensional input representations of audio. For example, when using the Short Time Fourier Transform (STFT) the DFT size specifies a fixed dimension for the input representation. As a consequence, most audio machine learning models are designed to process fixed-size vector inputs which often prohibits the repurposing of learned models on audio with different sampling rates or alternative representations. We note, however, that the intrinsic spectral information in the audio signal is invariant to the choice of the input representation or the sampling rate. Motivated by this, we introduce a novel way of processing audio signals by treating them as a collection of points in feature space, and we use point cloud machine learning models that give us invariance to the choice of representation parameters, such as DFT size or the sampling rate. Additionally, we observe that these methods result in smaller models, and allow us to significantly subsample the input representation with minimal effects to a trained model performance.
翻訳日:2021-05-07 13:10:42 公開日:2021-05-06
# 線形力学系のリカレントニューラルネットワーク学習における計量エントロピー限界

Metric Entropy Limits on Recurrent Neural Network Learning of Linear Dynamical Systems ( http://arxiv.org/abs/2105.02556v1 )

ライセンス: Link先を確認
Clemens Hutter, Recep G\"ul, Helmut B\"olcskei(参考訳) ニューラルネットワーク理論における最も影響力のある結果の1つは普遍近似定理 [1, 2, 3] であり、連続関数は単層フィードフォワードニューラルネットワークによって任意の精度で近似することができる。 本論文の目的は,リカレントニューラルネットワーク(recurrent neural networks,rnns)による時間変動系を含む一般離散時間線形力学系の近似に関する結果の確立である。 線形時間不変系(LTI)のサブクラスについては、この文の定量的バージョンを考案する。 具体的には, [4] による計量エントロピーによるLTIシステムの複雑性を計測することにより, RNN がシステム理論で解析可能な LTI システムで最適に学習し,特定できることを示す。 入力-出力関係が差分方程式によって特徴づけられるlti系では、rnnはメトリック-エントロピー最適方法で入力-出力トレースから差分方程式を学習することができる。

One of the most influential results in neural network theory is the universal approximation theorem [1, 2, 3] which states that continuous functions can be approximated to within arbitrary accuracy by single-hidden-layer feedforward neural networks. The purpose of this paper is to establish a result in this spirit for the approximation of general discrete-time linear dynamical systems - including time-varying systems - by recurrent neural networks (RNNs). For the subclass of linear time-invariant (LTI) systems, we devise a quantitative version of this statement. Specifically, measuring the complexity of the considered class of LTI systems through metric entropy according to [4], we show that RNNs can optimally learn - or identify in system-theory parlance - stable LTI systems. For LTI systems whose input-output relation is characterized through a difference equation, this means that RNNs can learn the difference equation from input-output traces in a metric-entropy optimal manner.
翻訳日:2021-05-07 13:10:28 公開日:2021-05-06
# 体内光無線通信のためのパスロスモデリング

Pathloss modeling for in-body optical wireless communications ( http://arxiv.org/abs/2105.02829v1 )

ライセンス: Link先を確認
Stylianos E. Trevlakis, Alexandros-Apostolos A. Boulogeorgos, and Nestor D. Chatzidiamantis(参考訳) 光無線通信(OWC)は、次世代のナノスケールネットワークとインプラントの候補として認識されている。 異なる種類の組織の特徴を調節できる正確なチャネルモデルの開発は、そのような用途に最適化された通信プロトコルの設計を促進することが期待されている。 そこで本研究では,生体内OWCに対する一般的なパスロスモデルを提案する。 特に, 5つの組織構成, 酸素および脱酸素血液, 水, 脂肪, メラニンの吸収係数の解析式を抽出するために, 実験式を用いた。 これらの式に基づいて, 生体組織の吸収係数評価の一般式を導出した。 この式の有効性を検証するために, 複合組織の吸収係数を計算し, 独立研究で報告された各実験結果と比較する。 興味深いことに, 解析式は精度が高く, パスロスをモデル化できるため, 複雑な組織への浸透深さを推定できる。

Optical wireless communications (OWCs) have been recognized as a candidate enabler of next generation in-body nano-scale networks and implants. The development of an accurate channel model capable of accommodating the particularities of different type of tissues is expected to boost the design of optimized communication protocols for such applications. Motivated by this, this paper focuses on presenting a general pathloss model for in-body OWCs. In particular, we use experimental measurements in order to extract analytical expressions for the absorption coefficients of the five main tissues' constitutions, namely oxygenated and de-oxygenated blood, water, fat, and melanin. Building upon these expressions, we derive a general formula for the absorption coefficient evaluation of any biological tissue. To verify the validity of this formula, we compute the absorption coefficient of complex tissues and compare them against respective experimental results reported by independent research works. Interestingly, we observe that the analytical formula has high accuracy and is capable of modeling the pathloss and, therefore, the penetration depth in complex tissues.
翻訳日:2021-05-07 13:09:30 公開日:2021-05-06
# 神経画像のための深部回帰モデルにおけるメンバーシップ推論攻撃

Membership Inference Attacks on Deep Regression Models for Neuroimaging ( http://arxiv.org/abs/2105.02866v1 )

ライセンス: Link先を確認
Umang Gupta, Dmitris Stripelis, Pradeep K. Lam, Paul M. Thompson, Jos\'e Luis Ambite, Greg Ver Steeg(参考訳) 研究参加者のプライバシーを確保することは、医療環境においてさらに重要である。 ディープラーニングによるニューロイメージングへのアプローチは大規模なデータセットを必要とするため、プライバシの目的に反する複数のサイト間でデータを共有する必要があることが多い。 連合学習は、この問題に対する一般的な解決策である。 トレーニングプロセス中にパラメータを共有することで、データ共有の必要性を回避する。 しかし,データを直接共有していない場合でも,パラメータへのアクセスが個人情報を漏洩する可能性がある。 特に、モデル予測(ブラックボックス)とモデル自体(ホワイトボックス)と、トレーニングデータ分布から流出したサンプルへのアクセスのみを与えられたモデルトレーニングにサンプルが使用されたかどうかを推測することが可能である。 このような攻撃は一般的にメンバーシップ推論攻撃と呼ばれる。 我々は,3次元ニューロイメージングタスクのための訓練された深層学習モデルに対するリアルなメンバーシップ推論攻撃と,分散化されたセットアップを示す。 脳年齢予測モデル(脳MRIスキャンから人の年齢を予測する深層学習モデル)に対する実用的な攻撃を実証する。 モデルの複雑性やセキュリティの仮定によって,MRIスキャンが60%から80%以上の成功率でモデルトレーニングに使用されたかどうかを正確に確認した。

Ensuring the privacy of research participants is vital, even more so in healthcare environments. Deep learning approaches to neuroimaging require large datasets, and this often necessitates sharing data between multiple sites, which is antithetical to the privacy objectives. Federated learning is a commonly proposed solution to this problem. It circumvents the need for data sharing by sharing parameters during the training process. However, we demonstrate that allowing access to parameters may leak private information even if data is never directly shared. In particular, we show that it is possible to infer if a sample was used to train the model given only access to the model prediction (black-box) or access to the model itself (white-box) and some leaked samples from the training data distribution. Such attacks are commonly referred to as Membership Inference attacks. We show realistic Membership Inference attacks on deep learning models trained for 3D neuroimaging tasks in a centralized as well as decentralized setup. We demonstrate feasible attacks on brain age prediction models (deep learning models that predict a person's age from their brain MRI scan). We correctly identified whether an MRI scan was used in model training with a 60% to over 80% success rate depending on model complexity and security assumptions.
翻訳日:2021-05-07 13:09:13 公開日:2021-05-06
# 教師なしLSTMを用いたタスクダイナミクスによる再現可能な機能ネットワークの推定

Estimating Reproducible Functional Networks Associated with Task Dynamics using Unsupervised LSTMs ( http://arxiv.org/abs/2105.02869v1 )

ライセンス: Link先を確認
Nicha C. Dvornek, Pamela Ventola, and James S. Duncan(参考訳) 本稿では,長期記憶付きリカレントニューラルネットワーク(LSTM)を用いて,よりダイナミックなタスクアクティビティに強く関連する再現可能な機能ネットワークを推定する手法を提案する。 LSTMモデルは、興味のある領域における機能的磁気共鳴画像(fMRI)時系列データを生成するために、教師なしの方法で訓練される。 学習された機能的ネットワークは、例えば相関解析によってfMRIタスクパラダイムと強く結びついている機能的ネットワークを決定するなど、さらなる分析に使用できる。 本手法を検証し,生物学的動作知覚タスクを用いた2つの異なるデータセット上でのfMRI活動から機能的ネットワークを分解する他の手法と比較する。 LSTMモデルにより学習された機能的ネットワークは,他の手法と比較して,タスクのアクティビティやダイナミクスに強く関連していることを示す。 さらに、ネットワークアソシエーションのパターンは、同じデータセット内のサブジェクト間およびデータセット間でより密に複製される。 より再現可能な機能ネットワークは、ターゲットタスクの神経相関をよりよく特徴付けるために不可欠である。

We propose a method for estimating more reproducible functional networks that are more strongly associated with dynamic task activity by using recurrent neural networks with long short term memory (LSTMs). The LSTM model is trained in an unsupervised manner to learn to generate the functional magnetic resonance imaging (fMRI) time-series data in regions of interest. The learned functional networks can then be used for further analysis, e.g., correlation analysis to determine functional networks that are strongly associated with an fMRI task paradigm. We test our approach and compare to other methods for decomposing functional networks from fMRI activity on 2 related but separate datasets that employ a biological motion perception task. We demonstrate that the functional networks learned by the LSTM model are more strongly associated with the task activity and dynamics compared to other approaches. Furthermore, the patterns of network association are more closely replicated across subjects within the same dataset as well as across datasets. More reproducible functional networks are essential for better characterizing the neural correlates of a target task.
翻訳日:2021-05-07 13:08:55 公開日:2021-05-06
# 回帰分析のためのメタモデル構造:自閉症スペクトラム障害の予測への応用

A Metamodel Structure For Regression Analysis: Application To Prediction Of Autism Spectrum Disorder Severity ( http://arxiv.org/abs/2105.02874v1 )

ライセンス: Link先を確認
Shiyu Wang and Nicha C. Dvornek(参考訳) 従来の回帰モデルは、小さくてノイズの多いデータセットから学ぶとうまく一般化しない。 本稿では,回帰結果を改善するための新しいメタモデル構造を提案する。 メタモデルは、複数の分類ベースモデルと、ベースモデル上に構築された回帰モデルで構成されている。 本研究では,ADOS通信(ADOS COMM)スコアによる自閉症スペクトラム障害(ASD)の重症度予測について,様々なベースモデルを用いて実験を行った。 メタモデルは、真のスコアと予測されたスコアと安定性の間のピアソン相関係数によって測定される従来の回帰モデルを上回る。 さらに、メタモデルはより柔軟で、より一般化できることがわかった。

Traditional regression models do not generalize well when learning from small and noisy datasets. Here we propose a novel metamodel structure to improve the regression result. The metamodel is composed of multiple classification base models and a regression model built upon the base models. We test this structure on the prediction of autism spectrum disorder (ASD) severity as measured by the ADOS communication (ADOS COMM) score from resting-state fMRI data, using a variety of base models. The metamodel outperforms traditional regression models as measured by the Pearson correlation coefficient between true and predicted scores and stability. In addition, we found that the metamodel is more flexible and more generalizable.
翻訳日:2021-05-07 13:08:40 公開日:2021-05-06
# (参考訳) プロトタイプに基づく因果分類の反事実的説明

Prototype-based Counterfactual Explanation for Causal Classification ( http://arxiv.org/abs/2105.00703v2 )

ライセンス: CC BY 4.0
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 対実的説明は、モデルの本来の決定を変えるために摂動サンプルを生成する解釈可能な機械学習の一分野である。 生成されたサンプルは、エンドユーザが望ましい出力を達成するためのレコメンデーションとして機能する。 現在の反事実的説明のアプローチのほとんどは、連続変数を持つ微分可能損失関数のみを最適化できる勾配に基づく方法である。 その結果, 1 つの特徴間の因果関係は, 因果関係が典型的に無視され, 場合によっては意思決定者にとって非現実的なガイドラインが導かれる; 2) 反現実的サンプルの生成は禁断的に遅く, 異なる損失関数を組み合わせるために多くのパラメータチューニングが必要である。 本研究では,反事実の特徴に基づく因果関係を保つための因果構造モデルを提案する。 さらに,多目的遺伝的アルゴリズムに基づく,連続的およびカテゴリ的データの混合型に対する反事実的説明を生成する,新しい勾配なし最適化を考案する。 数値実験により,本手法は最先端手法と好適な比較を行い,任意の予測モデルに適用できることを示した。 すべてのソースコードとデータは \textit{\url{{https://github.com/tridungduong16/multiobj-scm-cf}}} で入手できる。

Counterfactual explanation is one branch of interpretable machine learning that produces a perturbation sample to change the model's original decision. The generated samples can act as a recommendation for end-users to achieve their desired outputs. Most of the current counterfactual explanation approaches are the gradient-based method, which can only optimize the differentiable loss functions with continuous variables. Accordingly, the gradient-free methods are proposed to handle the categorical variables, which however present several major limitations: 1) causal relationships among features are typically ignored when generating the counterfactuals, possibly resulting in impractical guidelines for decision-makers; 2) the generation of the counterfactual sample is prohibitively slow and requires lots of parameter tuning for combining different loss functions. In this work, we propose a causal structure model to preserve the causal relationship underlying the features of the counterfactual. In addition, we design a novel gradient-free optimization based on the multi-objective genetic algorithm that generates the counterfactual explanations for the mixed-type of continuous and categorical data. Numerical experiments demonstrate that our method compares favorably with state-of-the-art methods and therefore is applicable to any prediction model. All the source code and data are available at \textit{\url{{https://github.com/tridungduong16/multiobj-scm-cf}}}.
翻訳日:2021-05-07 10:48:45 公開日:2021-05-06
# (参考訳) ドリフト特性:vvvにおける自動rrls同定の文脈における検出と評価

Drifting Features: Detection and evaluation in the context of automatic RRLs identification in VVV ( http://arxiv.org/abs/2105.01714v2 )

ライセンス: CC BY 4.0
J. B. Cabral, M. Lares, S. Gurovich, D. Minniti, P. M. Granitto(参考訳) 現代の天文学的スカイサーベイのほとんどは、人間が分析できるよりも速くデータを生成するため、機械学習(ML)は天文学の中心的なツールとなっている。 現代のML法は、いくつかの実験的誤りに対して高い耐性を持つと特徴付けられる。 しかし,統計学的手法では容易に検出できない長距離データや長時間データの変化は,これらの手法に悪影響を及ぼす可能性がある。 我々は、これらの潜在的有害な特徴を特定するために、革新的な方法でmlメソッドを使用して、この問題に対処するための新しい戦略を開発した。 本稿では,データ特徴量で測定した特性の小さな変化に関連したドリフト特徴の概念について紹介し,考察する。 先行研究に基づいてvvvにおけるrrlの同定を行い,ドリフト特徴の検出手法を提案する。 提案手法では,多種多様なソース(主に「点源」)の起源のタイルを分類器に学習させ,ドリフト特徴の候補を見つけるタスクに関係のある特徴を選択する。 本手法は,原産地のタイルに関する有用な情報を含む特徴の少ない集合を効率的に同定できることを示す。 VVVでRRLを検出する特別な例として、ドリフト特徴が主に色指数に関係していることが分かる。 一方, この問題に明確なドリフト特徴があるとしても, RRLの識別にはほとんど敏感であることを示す。 ドリフト特徴はML手法で効率的に識別できる。 しかし,本例では,ドリフト特徴の除去はrrlの識別を改善しない。

As most of the modern astronomical sky surveys produce data faster than humans can analyze it, Machine Learning (ML) has become a central tool in Astronomy. Modern ML methods can be characterized as highly resistant to some experimental errors. However, small changes on the data over long distances or long periods of time, which cannot be easily detected by statistical methods, can be harmful to these methods. We develop a new strategy to cope with this problem, also using ML methods in an innovative way, to identify these potentially harmful features. We introduce and discuss the notion of Drifting Features, related with small changes in the properties as measured in the data features. We use the identification of RRLs in VVV based on an earlier work and introduce a method for detecting Drifting Features. Our method forces a classifier to learn the tile of origin of diverse sources (mostly stellar 'point sources'), and select the features more relevant to the task of finding candidates to Drifting Features. We show that this method can efficiently identify a reduced set of features that contains useful information about the tile of origin of the sources. For our particular example of detecting RRLs in VVV, we find that Drifting Features are mostly related to color indices. On the other hand, we show that, even if we have a clear set of Drifting Features in our problem, they are mostly insensitive to the identification of RRLs. Drifting Features can be efficiently identified using ML methods. However, in our example, removing Drifting Features does not improve the identification of RRLs.
翻訳日:2021-05-07 10:47:53 公開日:2021-05-06
# 自動意思決定における分散的正義と公平さの指標: オーバーラップはどの程度あるか?

Distributive Justice and Fairness Metrics in Automated Decision-making: How Much Overlap Is There? ( http://arxiv.org/abs/2105.01441v2 )

ライセンス: Link先を確認
Matthias Kuppler, Christoph Kern, Ruben L. Bach, Frauke Kreuter(参考訳) 強力な予測アルゴリズムの出現は、政府支出や福祉支援などの不足資源の配分に関する高い意思決定の自動化につながった。 この自動化は、脆弱で歴史的に不利なグループに対する望ましくない差別を継続するリスクを負う。 計算機科学やその他の分野におけるアルゴリズムの識別に関する研究は、差別的アルゴリズムを検出・修正するための公平度メトリクスを多用した。 分散的正義に関する強固な社会学的・哲学的言説を考察し,著明な公平度指標の限界と問題点を明らかにする。 機会の平等を実践する指標は、資源割り当てが保存性に基づいている場合にのみ適用されるが、アロケーションが平等主義、十分性、優先順位に関する懸念を反映すべきときに失敗することを示す。 予測タスクと意思決定タスクをきれいに区別することで、公平な機械学習の研究は分散的正義に関する豊かな文献をよりうまく活用できると論じている。

The advent of powerful prediction algorithms led to increased automation of high-stake decisions regarding the allocation of scarce resources such as government spending and welfare support. This automation bears the risk of perpetuating unwanted discrimination against vulnerable and historically disadvantaged groups. Research on algorithmic discrimination in computer science and other disciplines developed a plethora of fairness metrics to detect and correct discriminatory algorithms. Drawing on robust sociological and philosophical discourse on distributive justice, we identify the limitations and problematic implications of prominent fairness metrics. We show that metrics implementing equality of opportunity only apply when resource allocations are based on deservingness, but fail when allocations should reflect concerns about egalitarianism, sufficiency, and priority. We argue that by cleanly distinguishing between prediction tasks and decision tasks, research on fair machine learning could take better advantage of the rich literature on distributive justice.
翻訳日:2021-05-07 10:46:53 公開日:2021-05-06
# 逆ロバスト性を考慮した高精度校正解析

A Finer Calibration Analysis for Adversarial Robustness ( http://arxiv.org/abs/2105.01550v2 )

ライセンス: Link先を確認
Pranjal Awasthi, Anqi Mao, Mehryar Mohri, Yutao Zhong(参考訳) 本稿では,逆ロバスト分類のための$h$-calibrationのより一般的な解析を行う。 キャリブレーションのより細かい定義を採用することで、以前の研究で研究された制限された仮説セット以上の設定をカバーできる。 特に、私たちの結果は機械学習で使われる一般的な仮説セットに当てはまる。 我々は、以前の校正結果(Bao et al., 2020)を修正し、他の結果を一般化する(Awasthi et al., 2021)。 さらに, キャリブレーションの結果と, Awasthiらによる従来の研究とを合わせて検討した。 (2021) は、一般的な仮説集合をカバーするより一般的な$H$一貫性の結果をもたらす。

We present a more general analysis of $H$-calibration for adversarially robust classification. By adopting a finer definition of calibration, we can cover settings beyond the restricted hypothesis sets studied in previous work. In particular, our results hold for most common hypothesis sets used in machine learning. We both fix some previous calibration results (Bao et al., 2020) and generalize others (Awasthi et al., 2021). Moreover, our calibration results, combined with the previous study of consistency by Awasthi et al. (2021), also lead to more general $H$-consistency results covering common hypothesis sets.
翻訳日:2021-05-07 10:46:38 公開日:2021-05-06
# 深層ニューラルネットワークにおける長距離メモリ効果の理解

Understanding Long Range Memory Effects in Deep Neural Networks ( http://arxiv.org/abs/2105.02062v2 )

ライセンス: Link先を確認
Chengli Tan, Jiangshe Zhang, and Junmin Liu(参考訳) \textit{Stochastic gradient descent} (SGD) は、ディープラーニングにおいて基本的な重要性である。 その単純さにもかかわらず、その効果を解明することは依然として困難である。 従来, SGD の成功は, トレーニングプロセスで発生する textit{stochastic gradient noise} (SGN) に起因する。 この一般的なコンセンサスに基づいて、SGD はブラウンあるいはL\'evy の安定運動によって駆動される \textit{stochastic differential equation} (SDE) のオイラー・丸山離散化として頻繁に扱われ、解析される。 本研究では,SGNがガウス的でも安定的でもないことを論じる。 代わりに、SGN級数に現れる長期相関に着想を得て、SGD を \textit{fractional Brownian motion} (FBM) によって駆動される SDE の離散化と見なすことができる。 したがって、sgdダイナミクスの異なる収束挙動が十分に決定される。 さらに、FBMにより駆動されるSDEの第1通過時間はほぼ導出される。 これはより大きなハーストパラメータの脱出率が低いことを示し、したがってsgdは平坦なミニマムでより長く保たれる。 これは、SGDがよく一般化する平坦なミニマを好むよく知られた現象と一致する。 4つの実験グループを用いて予測を検証し,様々なモデルアーキテクチャ,データセット,トレーニング戦略において長期記憶効果が持続することが実証された。 我々の研究は新たな視点を開き、SGDのより深い理解に寄与するかもしれない。

\textit{Stochastic gradient descent} (SGD) is of fundamental importance in deep learning. Despite its simplicity, elucidating its efficacy remains challenging. Conventionally, the success of SGD is attributed to the \textit{stochastic gradient noise} (SGN) incurred in the training process. Based on this general consensus, SGD is frequently treated and analyzed as the Euler-Maruyama discretization of a \textit{stochastic differential equation} (SDE) driven by either Brownian or L\'evy stable motion. In this study, we argue that SGN is neither Gaussian nor stable. Instead, inspired by the long-time correlation emerging in SGN series, we propose that SGD can be viewed as a discretization of an SDE driven by \textit{fractional Brownian motion} (FBM). Accordingly, the different convergence behavior of SGD dynamics is well grounded. Moreover, the first passage time of an SDE driven by FBM is approximately derived. This indicates a lower escaping rate for a larger Hurst parameter, and thus SGD stays longer in flat minima. This happens to coincide with the well-known phenomenon that SGD favors flat minima that generalize well. Four groups of experiments are conducted to validate our conjecture, and it is demonstrated that long-range memory effects persist across various model architectures, datasets, and training strategies. Our study opens up a new perspective and may contribute to a better understanding of SGD.
翻訳日:2021-05-07 10:46:30 公開日:2021-05-06
# XAI-KG:製造におけるXAIと意思決定を支援する知識グラフ

XAI-KG: knowledge graph to support XAI and decision-making in manufacturing ( http://arxiv.org/abs/2105.01929v2 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Patrik Zajec, Klemen Kenda, Inna Novalija, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 人工知能の採用の増加は、その予測の背後にある人工知能モデルの推論を理解するための正確な予測と手段を必要とする。 説明可能な人工知能(XAI)は、モデルが特定の予測を発行した理由の手がかりを提供することを目的としている。 このような手がかりは、特定の予測に影響を及ぼす機能に関する洞察を提供し、予測が信頼できるかどうかをユーザーに判断させることから、意思決定において最も重要である。 ブラックボックスモデルを説明するために多くの技術が開発されたが、これらの説明の質とその意思決定への影響を評価する研究はほとんど行われなかった。 本稿では,予測,予測説明,推奨意思決定オプション,ユーザ行動に関するフィードバック収集を支援するオントロジーと知識グラフを提案する。 このように、予測モデル、説明、意思決定オプションの推奨を改善する手段を提供する。 我々は、需要予測領域の知識グラフを調整し、実世界のデータに基づいて検証する。

The increasing adoption of artificial intelligence requires accurate forecasts and means to understand the reasoning of artificial intelligence models behind such a forecast. Explainable Artificial Intelligence (XAI) aims to provide cues for why a model issued a certain prediction. Such cues are of utmost importance to decision-making since they provide insights on the features that influenced most certain forecasts and let the user decide if the forecast can be trusted. Though many techniques were developed to explain black-box models, little research was done on assessing the quality of those explanations and their influence on decision-making. We propose an ontology and knowledge graph to support collecting feedback regarding forecasts, forecast explanations, recommended decision-making options, and user actions. This way, we provide means to improve forecasting models, explanations, and recommendations of decision-making options. We tailor the knowledge graph for the domain of demand forecasting and validate it on real-world data.
翻訳日:2021-05-07 10:46:08 公開日:2021-05-06
# ISTR: トランスフォーマーによるエンドツーエンドインスタンスセグメンテーション

ISTR: End-to-End Instance Segmentation with Transformers ( http://arxiv.org/abs/2105.00637v2 )

ライセンス: Link先を確認
Jie Hu, Liujuan Cao, Yao Lu, ShengChuan Zhang, Yan Wang, Ke Li, Feiyue Huang, Ling Shao, Rongrong Ji(参考訳) エンドツーエンドのパラダイムは、様々なディープラーニングベースのコンピュータビジョンモデルの精度を大幅に向上させる。 この目的のために、オブジェクト検出のようなタスクは、二部マッチングに基づくセット損失によるトレーニングによる非最大抑制を取り除くなど、非エンドツーエンドコンポーネントを置き換えることでアップグレードされている。 しかし、このようなアップグレードは、オブジェクト検出に比べて出力次元がかなり大きいため、インスタンスセグメンテーションには適用できない。 本稿では,この方式の最初のエンドツーエンドフレームワークである ISTR と呼ばれるインスタンス分割変換器を提案する。 ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。 さらに、istrは、既存のトップダウンおよびボトムアップフレームワークと比較して、インスタンスセグメンテーションを達成する新しい方法を提供する、反復的なリファインメント戦略で、検出とセグメンテーションを同時に実施する。 ISTRは、提案したエンドツーエンドメカニズムから、近似に基づく準最適埋め込みであっても、最先端の性能を示す。 具体的には、ResNet50-FPNを用いて46.8/38.6ボックス/マスクAP、MS COCOデータセット上でResNet101-FPNを用いて48.1/39.9ボックス/マスクAPを得る。 定量的および定性的な結果は、インスタンスレベルの認識のための固体ベースラインとしてのISTRの有望な可能性を明らかにする。 コードは、https://github.com/hujiecpp/ISTR.comで公開されている。

End-to-end paradigms significantly improve the accuracy of various deep-learning-based computer vision models. To this end, tasks like object detection have been upgraded by replacing non-end-to-end components, such as removing non-maximum suppression by training with a set loss based on bipartite matching. However, such an upgrade is not applicable to instance segmentation, due to its significantly higher output dimensions compared to object detection. In this paper, we propose an instance segmentation Transformer, termed ISTR, which is the first end-to-end framework of its kind. ISTR predicts low-dimensional mask embeddings, and matches them with ground truth mask embeddings for the set loss. Besides, ISTR concurrently conducts detection and segmentation with a recurrent refinement strategy, which provides a new way to achieve instance segmentation compared to the existing top-down and bottom-up frameworks. Benefiting from the proposed end-to-end mechanism, ISTR demonstrates state-of-the-art performance even with approximation-based suboptimal embeddings. Specifically, ISTR obtains a 46.8/38.6 box/mask AP using ResNet50-FPN, and a 48.1/39.9 box/mask AP using ResNet101-FPN, on the MS COCO dataset. Quantitative and qualitative results reveal the promising potential of ISTR as a solid baseline for instance-level recognition. Code has been made available at: https://github.com/hujiecpp/ISTR.
翻訳日:2021-05-07 10:45:53 公開日:2021-05-06
# function4d: ごく少ないrgbdセンサーから人間の体積をリアルタイムに捉える

Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors ( http://arxiv.org/abs/2105.01859v2 )

ライセンス: Link先を確認
Tao Yu, Zerong Zheng, Kaiwen Guo, Pengpeng Liu, Qionghai Dai, Yebin Liu(参考訳) 人間のボリュームキャプチャは、コンピュータビジョンとコンピュータグラフィックスにおける長年のトピックである。 高度なオフラインシステムによって高品質な結果が得られるが、複雑なシナリオ、特に軽量なセットアップを使ったリアルタイムな人間のボリュームキャプチャは依然として困難である。 本稿では,時間的体積融合と深部暗黙関数を組み合わせた人間の体積キャプチャー手法を提案する。 高品質かつ時間的連続的な再構成を実現するために,近接深度観測と位相的一貫性を融合する動的すべり融合を提案する。 さらに, 詳細かつ完全な表面生成のために, 深度入力の幾何学的詳細を保存できるだけでなく, より妥当なテクスチャ結果を生成するRGBD入力の奥深い暗黙関数を提案する。 その結果,提案手法は,ビューの疎度,一般化能力,再構築品質,実行時の効率において,既存手法よりも優れていた。

Human volumetric capture is a long-standing topic in computer vision and computer graphics. Although high-quality results can be achieved using sophisticated off-line systems, real-time human volumetric capture of complex scenarios, especially using light-weight setups, remains challenging. In this paper, we propose a human volumetric capture method that combines temporal volumetric fusion and deep implicit functions. To achieve high-quality and temporal-continuous reconstruction, we propose dynamic sliding fusion to fuse neighboring depth observations together with topology consistency. Moreover, for detailed and complete surface generation, we propose detail-preserving deep implicit functions for RGBD input which can not only preserve the geometric details on the depth inputs but also generate more plausible texturing results. Results and experiments show that our method outperforms existing methods in terms of view sparsity, generalization capacity, reconstruction quality, and run-time efficiency.
翻訳日:2021-05-07 10:45:28 公開日:2021-05-06
# 非構造的再帰を伴う多項式グラフ解析

Polynomial Graph Parsing with Non-Structural Reentrancies ( http://arxiv.org/abs/2105.02033v2 )

ライセンス: Link先を確認
Johanna Bj\"orklund, Frank Drewes, and Anna Jonsson(参考訳) グラフに基づく意味表現は自然言語処理において有用であり、言語概念をノードとして表現することは単純で効果的であることが多い。 セマンティックグラフの言語を表現できるほど強力で効率的な解析が可能な生成デバイスを見つけるために、いくつかの試みがなされている。 グラフ拡張文法(graph extension grammar)は、グラフ上の代数と、その代数の演算上で式を生成する正規木文法からなる。 操作の設計により、これらの文法は非構造的な相互関係を持つグラフを生成することができ、抽象的意味表現のような形式的手法では過剰に一般的であるが、既存の装置がほとんどサポートしていないノード共有の一種である。 グラフ拡張文法の構文解析アルゴリズムを提案し、多項式時間で正しいことが証明された。

Graph-based semantic representations are valuable in natural language processing, where it is often simple and effective to represent linguistic concepts as nodes, and relations as edges between them. Several attempts has been made to find a generative device that is sufficiently powerful to represent languages of semantic graphs, while at the same allowing efficient parsing. We add to this line of work by introducing graph extension grammar, which consists of an algebra over graphs together with a regular tree grammar that generates expressions over the operations of the algebra. Due to the design of the operations, these grammars can generate graphs with non-structural reentrancies; a type of node-sharing that is excessively common in formalisms such as abstract meaning representation, but for which existing devices offer little support. We provide a parsing algorithm for graph extension grammars, which is proved to be correct and run in polynomial time.
翻訳日:2021-05-07 10:45:13 公開日:2021-05-06
# 指紋による局所化の精度を高めるための合成データの利用-深層学習アプローチ

Using Synthetic Data to Enhance the Accuracy of Fingerprint-Based Localization: A Deep Learning Approach ( http://arxiv.org/abs/2105.01903v2 )

ライセンス: Link先を確認
Mohammad Nabati, Hojjat Navidan, Reza Shahbazian, Seyed Ali Ghorashi and David Windridge(参考訳) 人間中心のデータ収集は一般的にコストがかかり、プライバシーの問題を引き起こす。 クラウドソースデータ収集や半教師付きアルゴリズムの使用など,このコスト削減のためのさまざまなソリューションが文献で提案されている。 しかし、半教師付きアルゴリズムはラベルのないデータのソースを必要とし、クラウドソーシング手法はアクティブな参加者の数を必要とする。 もう一つの受動的データ収集モダリティは指紋ベースのローカライゼーションである。 このような方法は、無線センサネットワークにおける受信信号強度(RSS)またはチャネル状態情報(CSI)を用いて、利用者を屋内/屋外環境にローカライズする。 本稿では,指紋による位置推定におけるトレーニングデータ収集コストを,合成データを用いて削減する手法を提案する。 GAN(Generative Adversarial Network)は、収集されたデータの限られたサンプルの分布を学習するために使用され、それに続いて、実際の収集データを増大させ、全体の位置決め精度を高めるために使用できる合成データを生成する。 ベンチマークデータセットにおける実験結果から,提案手法を適用し,10%の収集データと90%の合成データの組み合わせを用いることで,収集した全データを用いて得られる測位精度と本質的に類似した測位精度が得られることがわかった。 つまり、GAN生成合成データを使用することで、90%少ない実データを使用することで、許容精度を達成しつつ、データ収集コストを削減できる。

Human-centered data collection is typically costly and implicates issues of privacy. Various solutions have been proposed in the literature to reduce this cost, such as crowdsourced data collection, or the use of semi-supervised algorithms. However, semi-supervised algorithms require a source of unlabeled data, and crowd-sourcing methods require numbers of active participants. An alternative passive data collection modality is fingerprint-based localization. Such methods use received signal strength (RSS) or channel state information (CSI) in wireless sensor networks to localize users in indoor/outdoor environments. In this paper, we introduce a novel approach to reduce training data collection costs in fingerprint-based localization by using synthetic data. Generative adversarial networks (GANs) are used to learn the distribution of a limited sample of collected data and, following this, to produce synthetic data that can be used to augment the real collected data in order to increase overall positioning accuracy. Experimental results on a benchmark dataset show that by applying the proposed method and using a combination of 10% collected data and 90% synthetic data, we can obtain essentially similar positioning accuracy to that which would be obtained by using the full set of collected data. This means that by employing GAN-generated synthetic data, we can use 90% less real data, thereby reduce data-collection costs while achieving acceptable accuracy.
翻訳日:2021-05-07 10:44:59 公開日:2021-05-06