このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210519となっている論文です。

PDF登録状況(公開日: 20210519)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子誤り訂正符号における論理ノイズの効率的な計算

Efficiently computing logical noise in quantum error correcting codes ( http://arxiv.org/abs/2003.10511v3 )

ライセンス: Link先を確認
Stefanie J. Beale and Joel J. Wallman(参考訳) 量子システム固有のノイズに対する高い感度を相殺するために量子誤差補正プロトコルが開発された。 しかし、一般騒音下での量子誤り訂正符号の振る舞いについては、いまだに多くのことが分かっていない。 この知識の欠如は、非自明なエンコーディングを行うのに十分な大きさの量子システムをシミュレートする計算コストが原因である。 本稿では,量子誤り訂正符号のシミュレーションにノイズ測定処理を組み込む一般的な手法を考案し,読み出し量子ビットの計測誤差を論理雑音の再正規化として示す。 また,実効的な論理ノイズを数桁の桁数で計算する計算量を削減する一般的な方法も導出する。 この低減は、異なるリカバリ操作が等価な論理ノイズを発生させるタイミングを決定することで達成される。 これらの手法は、連結符号のソフトデコードスキームの改善や、量子誤り訂正符号の実装における誤り訂正ステップを高速化するためにルックアップテーブルのサイズの削減にも利用できる。 本稿では, 3量子, 5量子, Steane, 連結, トーリック符号の削減例を示す。

Quantum error correction protocols have been developed to offset the high sensitivity to noise inherent in quantum systems. However, much is still unknown about the behaviour of a quantum error-correcting code under general noise, including noisy measurements. This lack of knowledge is largely due to the computational cost of simulating quantum systems large enough to perform nontrivial encodings. In this paper, we develop general methods for incorporating noisy measurement operations into simulations of quantum error-correcting codes and show that measurement errors on readout qubits manifest as a renormalization on the effective logical noise. We also derive general methods for reducing the computational complexity of calculating the exact effective logical noise by many orders of magnitude. This reduction is achieved by determining when different recovery operations produce equivalent logical noise. These methods could also be used to better approximate soft decoding schemes for concatenated codes or to reduce the size of a lookup table to speed up the error correction step in implementations of quantum error-correcting codes. We give examples of such reductions for the three-qubit, five-qubit, Steane, concatenated, and toric codes.
翻訳日:2023-05-28 07:27:16 公開日:2021-05-19
# ランダム鍵基底を用いたデバイス独立量子鍵分布

Device-Independent Quantum Key Distribution with Random Key Basis ( http://arxiv.org/abs/2005.02691v2 )

ライセンス: Link先を確認
Rene Schwonnek, Koon Tong Goh, Ignatius W. Primaatmaja, Ernest Y.-Z. Tan, Ramona Wolf, Valerio Scarani, and Charles C.-W. Lim(参考訳) デバイス非依存の量子キー分散(DIQKD)は、信頼できないデバイスを使用して秘密鍵をセキュアなネットワークで配布する技術である。 これにより、チャネル攻撃に対する情報理論的なセキュリティを提供するだけでなく、実装の抜け穴を悪用する攻撃も提供する。 近年、最初のdiqkd実験を実現するために多くの進歩がなされているが、現在の提案は、今日の抜け穴のないベル実験から外れている。 ここでは、diqkdの理論と実践のギャップを、有名なクロージャ・ホーン・シモニー・ホルト(chsh)ベルの不等式に基づく元のプロトコルの単純な変種で著しく狭める。 ランダムに選択された2つの鍵生成ベースを用いることで、本プロトコルは元のDIQKDプロトコルよりも大幅に改善され、初めて高雑音状態における正の鍵が可能であることを示す。 また, 一般攻撃に対するプロトコルの有限鍵セキュリティを計算し, 現状実験パラメータを用いて正の値を得るためには, 約1E8から1E10の計測ラウンドが必要であることを示した。 そこで提案したDIQKDプロトコルは,DIQKDの最初の実現に向けて,非常に有望な経路を示す。

Device-independent quantum key distribution (DIQKD) is the art of using untrusted devices to distribute secret keys in an insecure network. It thus represents the ultimate form of cryptography, offering not only information-theoretic security against channel attacks, but also against attacks exploiting implementation loopholes. In recent years, much progress has been made towards realising the first DIQKD experiments, but current proposals are just out of reach of today's loophole-free Bell experiments. Here, we significantly narrow the gap between the theory and practice of DIQKD with a simple variant of the original protocol based on the celebrated Clauser-Horne-Shimony-Holt (CHSH) Bell inequality. By using two randomly chosen key generating bases instead of one, we show that our protocol significantly improves over the original DIQKD protocol, enabling positive keys in the high noise regime for the first time. We also compute the finite-key security of the protocol for general attacks, showing that approximately 1E8 to 1E10 measurement rounds are needed to achieve positive rates using state-of-the-art experimental parameters. Our proposed DIQKD protocol thus represents a highly promising path towards the first realisation of DIQKD in practice.
翻訳日:2023-05-21 00:48:18 公開日:2021-05-19
# 新しい単位量子チャネルのクラスにおける極点と分解性

Extreme Points and Factorizability for New Classes of Unital Quantum Channels ( http://arxiv.org/abs/2006.03414v4 )

ライセンス: Link先を確認
Uffe Haagerup, Magdalena Musat, Mary Beth Ruskai(参考訳) 我々は、単位量子チャネルの2つの新しいクラスを紹介し、研究する。 最初のクラスでは、完全正(CP)写像$M_3({\bf C}) \mapsto M_3({\bf C})$で与えられるチャネルの2パラメータの族を記述する。 この族のほとんど全てのメンバーは、ユニタリかつトレース保存の両方であるCP写像の集合において分解可能で極端であるが、ユニタリCP写像の集合やトレース保存CP写像の集合では極端ではない。 また、werner-holevo チャネルを $d = 3$ で一般化する大きなクラスを、ランク $d-1$ の部分等長で定義するという意味で研究した。 さらに、クラス作用素が $t |e_j \rangle \langle e_j | \oplus V $ with $V \in M_{d-1} ({\bf C}) $ unitary and $t \in (-1,1)$ であるような写像にも拡張する。 このクラスのほぼ全ての写像は、単位CP写像の集合とトレース保存CP写像の集合の両方において極端であることを示す。 我々は、$t = -1/(d-1)$ でない限り、特に興味深い部分クラスを詳細に分析する。 d = 3$ に対して、これは m_3({\bf c}) \otimes m_3({\bf c})$ で同じユニタリ共役を用いて、異なる部分空間上で部分的トレースを取ることで得られるという意味で双対分解を持つ一対のチャネルを含む。

We introduce and study two new classes of unital quantum channels. The first class describes a 2-parameter family of channels given by completely positive (CP) maps $M_3({\bf C}) \mapsto M_3({\bf C})$ which are both unital and trace-preserving. Almost every member of this family is factorizable and extreme in the set of CP maps which are both unital and trace-preserving, but is not extreme in either the set of unital CP maps or the set of trace-preserving CP maps. We also study a large class of maps which generalize the Werner-Holevo channel for $d = 3$ in the sense that they are defined in terms of partial isometries of rank $d-1$. Moreover, we extend this to maps whose Kraus operators have the form $t |e_j \rangle \langle e_j | \oplus V $ with $V \in M_{d-1} ({\bf C}) $ unitary and $t \in (-1,1)$. We show that almost every map in this class is extreme in both the set of unital CP maps and the set of trace-preserving CP maps. We analyze in detail a particularly interesting subclass which is extreme unless $t = -1/(d-1)$. For $d = 3$, this includes a pair of channels which have a dual factorization in the sense that they can be obtained by taking the partial trace over different subspaces after using the same unitary conjugation in $M_3({\bf C}) \otimes M_3({\bf C})$.
翻訳日:2023-05-17 02:10:21 公開日:2021-05-19
# 時空のビリヤード・ボール時計:量子モデル

Time-travelling billiard-ball clocks: a quantum model ( http://arxiv.org/abs/2007.12677v3 )

ライセンス: Link先を確認
Lachlan G. Bishop, Fabio Costa and Timothy C. Ralph(参考訳) 一般相対性理論は閉時間曲線(CTC)の存在を予測し、そこで物体は自身の過去へ移動することができる。 ctcsの結果は、古典的なシステムでさえ決定論の失敗である: 1つの初期条件は複数の進化をもたらす可能性がある。 ここでは、ビリヤード球が2つの可能な軌道(1つは摂動しない、もう1つはctcに沿って移動し、過去の自己と衝突する、古典的な例の新しい量子定式化を紹介する。 我々のモデルには真空状態があり、各軌跡にボールが存在または欠落している状態と、軌跡を識別する操作方法を提供する時計が含まれている。 本モデルでは,Deutschモデル (D-CTCs) とポストセレクトテレポーテーション (P-CTCs) の2つの主要な量子理論を適用した。 D-CTCは混合状態の形で古典解乗法を再現し、P-CTCは2つの軌道の等しい重ね合わせを予測し、フリードマンらによる予想を支持する。 (第42巻、1915年(1990年))

General relativity predicts the existence of closed timelike curves (CTCs), along which an object could travel to its own past. A consequence of CTCs is the failure of determinism, even for classical systems: one initial condition can result in multiple evolutions. Here we introduce a new quantum formulation of a classic example, where a billiard ball can travel along two possible trajectories: one unperturbed and one, along a CTC, where it collides with its past self. Our model includes a vacuum state, allowing the ball to be present or absent on each trajectory, and a clock, which provides an operational way to distinguish the trajectories. We apply the two foremost quantum theories of CTCs to our model: Deutsch's model (D-CTCs) and postselected teleportation (P-CTCs). We find that D-CTCs reproduce the classical solution multiplicity in the form of a mixed state, while P-CTCs predict an equal superposition of the two trajectories, supporting a conjecture by Friedman et al. [Phys. Rev. D 42, 1915 (1990)].
翻訳日:2023-05-08 08:31:40 公開日:2021-05-19
# 非エルミート量子ウォークにおける位相相の持続性

Persistence of Topological Phases in Non-Hermitian Quantum Walks ( http://arxiv.org/abs/2007.15500v2 )

ライセンス: Link先を確認
Vikash Mittal, Aswathy Raj, Sanjib Dey, Sandeep K. Goyal(参考訳) 離散時間量子ウォークは、エキゾチックな位相状態と位相を示すことが知られている。 ノイズの多い環境での量子ウォークの物理的実現は、これらの位相を破壊する可能性がある。 損失環境下での量子ウォークにおける位相状態の挙動について検討する。 量子ウォークダイナミクスにおける環境効果は、非エルミートハミルトンのアプローチによって解決される。 量子ウォークの位相相は中程度の損失に対して頑健であることを示す。 一次元分割ステップの量子ウォークの位相的順序は、ハミルトニアンが$\mathcal{PT}$-対称である限り持続する。 トポロジカルな性質は二次元量子ウォークでも持続するが、$\mathcal{PT}$-対称性はそこで作用する役割を持たない。 さらに,二次元量子ウォークにおける雑音誘起位相相転移を観察する。

Discrete-time quantum walks are known to exhibit exotic topological states and phases. Physical realization of quantum walks in a noisy environment may destroy these phases. We investigate the behavior of topological states in quantum walks in the presence of a lossy environment. The environmental effects in the quantum walk dynamics are addressed using the non-Hermitian Hamiltonian approach. We show that the topological phases of the quantum walks are robust against moderate losses. The topological order in one-dimensional split-step quantum walk persists as long as the Hamiltonian is $\mathcal{PT}$-symmetric. Although the topological nature persists in two-dimensional quantum walks as well, the $\mathcal{PT}$-symmetry has no role to play there. Furthermore, we observe the noise-induced topological phase transition in two-dimensional quantum walks.
翻訳日:2023-05-07 18:31:16 公開日:2021-05-19
# 干渉縞を用いた古典的絡み合いの測定

Measurement of classical entanglement using interference fringes ( http://arxiv.org/abs/2008.12475v3 )

ライセンス: Link先を確認
Ziyang You, Zikang Tang, Hou Ian(参考訳) 古典的絡み合いとは、光場の偏光方向と偏光振幅との分離不能な相関を指す。 絡み合いの度合いはシュミット数によって定量化され、分離可能な状態のユニティと最大絡み合い状態の2つの値を取る。 そこで本研究では,検出対象の未知レーザ光からの4つの光源間の干渉パターンを識別し,この数を決定する方法を提案する。 第1の修正である第2の方法は、絡み合った状態と一意に関連づけられた識別可能な角度を形成する干渉縞を有する。 最大絡み合った状態は、対角軸について45{\deg} または 135{\deg} の方向で対称な縁に対応し、分離可能な状態は、Xor Y軸について対称な縁に対応する。 ユニティと2の間のシュミット数を持つ状態は、2つの極限の間の対称角の縁を持つ。 検出方法は、古典的に絡み合った状態に含まれる情報の伝送チャネルを構築するのに有用である。

Classical entanglement refers to non-separable correlations between the polarization direction and the polarization amplitude of a light field. The degree of entanglement is quantified by the Schmidt number, taking the value of unity for a separable state and two for a maximally entangled state. We propose two detection methods to determine this number based on the distinguishable patterns of interference between four light sources derived from the unknown laser beam to be detected. The second method being a modification of the first one has the interference fringes form discernable angles uniquely related to the entangled state. The maximally entangled state corresponds to fringes symmetric about the diagonal axis at either 45{\deg} or 135{\deg} direction while the separable state corresponds to fringes symmetric either about the X- or Y-axis or both simultaneously. States with Schmidt number between unity and two have fringes of symmetric angles between these two extremes. The detection methods would be beneficial to constructing transmission channels of information contained in the classically entangled states.
翻訳日:2023-05-04 11:49:29 公開日:2021-05-19
# 因果推論のオメレットを解き放つ:因果推論理論の枠組み

Unscrambling the omelette of causation and inference: The framework of causal-inferential theories ( http://arxiv.org/abs/2009.03297v3 )

ライセンス: Link先を確認
David Schmid, John H. Selby, Robert W. Spekkens(参考訳) プロセス理論の形式主義を用いて、因果推論理論の概念、因果影響の理論、推論の理論(ブール多様体とベイズ多様体の両方)、そしてそれらがどのように相互作用するかの仕様を導入する。 この型で運用理論と現実主義理論の考え方をリキャストすることで、実験の現実主義的説明が操作的説明を超えたものを提供するものを明らかにする。 これはまた、操作量子論の現実主義的な表現、すなわちベルの局所性の概念と一般化された非文脈性に基づくものに対する標準ノルゴ定理の仮定と含意の新たな特徴を与える。 さらに、一般化された非文脈性に関する過程論的特徴付けは、我々がライプニジアン性と呼ぶさらに自然な原理によって示唆されている。 最も印象的なことに、私たちのフレームワークは、これらのノーゴーの結果を回避しようとする研究プログラムにおいて前進する手段を提供します。 具体的には、因果関係と推論の概念が従来の(古典的な)解釈と異なるような現実主義因果関係論の公理を識別できるならば、現実主義の本質的な量子概念を定義する手段を持ち、したがって局所性や非文脈性の精神を救い出す操作的量子論の現実主義的な表現であると主張する。

Using a process-theoretic formalism, we introduce the notion of a causal-inferential theory: a triple consisting of a theory of causal influences, a theory of inferences (of both the Boolean and Bayesian varieties), and a specification of how these interact. Recasting the notions of operational and realist theories in this mold clarifies what a realist account of an experiment offers beyond an operational account. It also yields a novel characterization of the assumptions and implications of standard no-go theorems for realist representations of operational quantum theory, namely, those based on Bell's notion of locality and those based on generalized noncontextuality. Moreover, our process-theoretic characterization of generalised noncontextuality is shown to be implied by an even more natural principle which we term Leibnizianity. Most strikingly, our framework offers a way forward in a research program that seeks to circumvent these no-go results. Specifically, we argue that if one can identify axioms for a realist causal-inferential theory such that the notions of causation and inference can differ from their conventional (classical) interpretations, then one has the means of defining an intrinsically quantum notion of realism, and thereby a realist representation of operational quantum theory that salvages the spirit of locality and of noncontextuality.
翻訳日:2023-05-03 07:14:05 公開日:2021-05-19
# Kitaev (複数形 Kitaevs)

Gauging the Kitaev chain ( http://arxiv.org/abs/2010.00607v3 )

ライセンス: Link先を確認
Umberto Borla, Ruben Verresen, Jeet Shah and Sergej Moroz(参考訳) 我々は、キタエフ連鎖のフェルミオンパリティ対称性を測定する。 モデルの大部分が傾斜した場のゲージ不変スピンのイジング連鎖となるが、境界付近では大域フェルミオンパリティ対称性がゲージ化され、局所ゲージ不変マヨラナ作用素となる。 渦がない状態では、ヒッグス相は、北エフ鎖とは異なるフェルミオン対称性保護トポロジー(SPT)秩序を示す。 さらに、脱圧相は渦の存在下でも安定することができる。 また、通常のキタエフ鎖とゲージされたキタエフ鎖の間を補間する緩やかに測定されたモデルの包括的研究も行う。 これは豊富な量子臨界性を示し、ヒッグス相の位相的性質を照らす。 超伝導項が欠如している場合でも、ゲージングは突然の異常により本質的に隙間のないSPT相をもたらす。

We gauge the fermion parity symmetry of the Kitaev chain. While the bulk of the model becomes an Ising chain of gauge-invariant spins in a tilted field, near the boundaries the global fermion parity symmetry survives gauging, leading to local gauge-invariant Majorana operators. In the absence of vortices, the Higgs phase exhibits fermionic symmetry-protected topological (SPT) order distinct from the Kitaev chain. Moreover, the deconfined phase can be stable even in the presence of vortices. We also undertake a comprehensive study of a gently gauged model which interpolates between the ordinary and gauged Kitaev chains. This showcases rich quantum criticality and illuminates the topological nature of the Higgs phase. Even in the absence of superconducting terms, gauging leads to an SPT phase which is intrinsically gapless due to an emergent anomaly.
翻訳日:2023-04-30 11:59:45 公開日:2021-05-19
# K\"アラー構造からのボソニックおよびフェルミオンガウス状態

Bosonic and fermionic Gaussian states from K\"ahler structures ( http://arxiv.org/abs/2010.15518v3 )

ライセンス: Link先を確認
Lucas Hackl, Eugenio Bianchi(参考訳) ボソニックおよびフェルミオンガウス状態("squeezed coherent states"としても知られる)は、古典位相空間上の線型写像である線型複素構造 $j$ によって一意的に特徴づけられる。 これは共分散行列に基づく従来のガウス法を拡張し、ボソンとフェルミオンを同時に扱う統一的な枠組みを提供する。 純粋なガウス状態は、3重の$(G,\Omega,J)$と互換性のあるK\"ahler構造と同一視でき、正の定値計量$G$、シンプレクティック形式$\Omega$、および$J^2=-1\! \! 1$. 混合ガウス状態もそのような三重項と同一視できるが、$J^2\neq -1\! \! 1$. これらの手法を応用して、ガウス状態を含む計算をこれらの対象の代数的操作に還元する方法を示し、多くの既知の未知の同一性をもたらす。 これらの手法を, (a) 絡み合いと複雑性, (b) 安定系のダイナミクス, (c) 駆動系のダイナミクスの研究に適用する。 この結果から、ボソニック状態とフェルミオンガウス状態を並べて比較するために、数学的構造と公式の包括的リストをコンパイルする。

We show that bosonic and fermionic Gaussian states (also known as "squeezed coherent states") can be uniquely characterized by their linear complex structure $J$ which is a linear map on the classical phase space. This extends conventional Gaussian methods based on covariance matrices and provides a unified framework to treat bosons and fermions simultaneously. Pure Gaussian states can be identified with the triple $(G,\Omega,J)$ of compatible K\"ahler structures, consisting of a positive definite metric $G$, a symplectic form $\Omega$ and a linear complex structure $J$ with $J^2=-1\!\!1$. Mixed Gaussian states can also be identified with such a triple, but with $J^2\neq -1\!\!1$. We apply these methods to show how computations involving Gaussian states can be reduced to algebraic operations of these objects, leading to many known and some unknown identities. We apply these methods to the study of (A) entanglement and complexity, (B) dynamics of stable systems, (C) dynamics of driven systems. From this, we compile a comprehensive list of mathematical structures and formulas to compare bosonic and fermionic Gaussian states side-by-side.
翻訳日:2023-04-27 00:58:54 公開日:2021-05-19
# ランダム量子チャネルの生成

Generating random quantum channels ( http://arxiv.org/abs/2011.02994v3 )

ライセンス: Link先を確認
Ryszard Kukulski, Ion Nechita, {\L}ukasz Pawela, Zbigniew Pucha{\l}a, Karol \.Zyczkowski(参考訳) $d$次元量子状態の集合に作用するランダムな量子チャネルを生成するいくつかの技術について検討した。 量子チャネルのサンプリング問題に対する3つのアプローチを提案し、どの条件が数学的に等価になるかを示し、量子演算の凸集合上の均一なルベーグ測度へと導く。 それらの利点と計算の複雑さを比較し,そのどれが数値調査に特に適しているかを示す。 さらなる結果は、ランダム量子チャネルとその不変状態のスペクトルギャップとその他のスペクトル特性に焦点を当てている。 我々は、与えられた量子チャネルを特徴づける数量の平均値を計算し、そのユニタリティー、平均出力純度、チャネルの2ドルのノルムコヒーレンスを含む、一様測度に対する量子チャネル全体の平均値を計算する。 ランダム量子確率写像の超デコヒーレンスによって得られる古典確率行列のアンサンブルを解析し、それらのスペクトル特性を古典確率ベクトルのブロッホ表現を用いて研究する。

Several techniques of generating random quantum channels, which act on the set of $d$-dimensional quantum states, are investigated. We present three approaches to the problem of sampling of quantum channels and show under which conditions they become mathematically equivalent, and lead to the uniform, Lebesgue measure on the convex set of quantum operations. We compare their advantages and computational complexity and demonstrate which of them is particularly suitable for numerical investigations. Additional results focus on the spectral gap and other spectral properties of random quantum channels and their invariant states. We compute mean values of several quantities characterizing a given quantum channel, including its unitarity, the average output purity and the $2$-norm coherence of a channel, averaged over the entire set of the quantum channels with respect to the uniform measure. An ensemble of classical stochastic matrices obtained due to super-decoherence of random quantum stochastic maps is analyzed and their spectral properties are studied using the Bloch representation of a classical probability vector.
翻訳日:2023-04-25 05:17:44 公開日:2021-05-19
# 量子複雑性の幾何学

Geometry of quantum complexity ( http://arxiv.org/abs/2011.07601v3 )

ライセンス: Link先を確認
Roberto Auzzi, Stefano Baiguera, G. Bruno De Luca, Andrea Legramandi, Giuseppe Nardelli and Nicol\`o Zenoni(参考訳) 計算複雑性(Computational complexity)は、ホログラフィーやブラックホール内部の物理学の理解において重要な役割を果たす新しい量子情報の概念である。 Nielsenの幾何学的アプローチを用いて、$n$ qubitsの量子計算複雑性を考える。 従来の定義と比較して、与えられた操作によって同時に絡み合うキュービット数とより進歩的な方法で増加するペナルティの選択について検討する。 この選択は特異点から自由であることが判明した。 また, 演算子と状態複雑度の関係を解析し, リーマン沈み込みの言語との議論を考察した。 これにより、ユニタリ空間と状態空間における測地線と曲率の直接的な関係が得られ、また作用素に対する距離の閉形式表現も利用することができる。 最後に,ユニタリ空間内の多数の量子ビットに対する共役点の研究を行い,ペナルティ空間の特定のレジームにおける量子ビット数に対して最大複雑性が指数関数的にスケールすることを示す。

Computational complexity is a new quantum information concept that may play an important role in holography and in understanding the physics of the black hole interior. We consider quantum computational complexity for $n$ qubits using Nielsen's geometrical approach. We investigate a choice of penalties which, compared to previous definitions, increases in a more progressive way with the number of qubits simultaneously entangled by a given operation. This choice turns out to be free from singularities. We also analyze the relation between operator and state complexities, framing the discussion with the language of Riemannian submersions. This provides a direct relation between geodesics and curvatures in the unitaries and the states spaces, which we also exploit to give a closed-form expression for the metric on the states in terms of the one for the operators. Finally, we study conjugate points for a large number of qubits in the unitary space and we provide a strong indication that maximal complexity scales exponentially with the number of qubits in a certain regime of the penalties space.
翻訳日:2023-04-24 01:41:16 公開日:2021-05-19
# 量子貯留層工学による機械共振器の地上冷却

Ground-state cooling of mechanical resonators by quantum reservoir engineering ( http://arxiv.org/abs/2011.09518v2 )

ライセンス: Link先を確認
M. Tahir Naseem, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 本研究では, 作動流体と相互作用する量子基底状態に対して, 機械的共振器を冷却する方式を提案する。 共振器の動作を基底状態にレンダリングする標準的なレーザー冷却方式とは対照的に,同じ目的を達成するための非コヒーレント熱源を考える。 2つの縮退またはほぼ縮退したメカニカル共振器の同時冷却が可能であり、それ以外は達成が困難な目標である。 この方法の複数の共振器の同時冷却への一般化は簡単である。 冷却剤と浴槽とのカップリングのスペクトルフィルタリングは,本方式で冷却を実現するための鍵となる。 冷却の基盤となる物理的メカニズムは、レーザーサイドバンド冷却と冷却による冷却の直接接続を標準の光学的条件で調べることによって説明される。 量子貯留層工学によって実現される冷却の利点は, 冷却剤とターゲットシステムのパラメトリック結合を用いて, 様々な構成で実現可能である。 また, 超高温熱浴をシミュレートする非熱浴についても検討した。

We propose a scheme to cool down a mechanical resonator to its quantum ground-state, which is interacting with a working fluid via an optomechanical-like coupling. As opposed to standard laser cooling schemes where coherence renders the motion of a resonator to its ground-state, we consider an incoherent thermal source to achieve the same aim. We show that simultaneous cooling of two degenerate or near-degenerate mechanical resonators is possible, which is otherwise a challenging goal to achieve. The generalization of this method to the simultaneous cooling of multiple resonators is straightforward. Spectral filtering of the coupling between the cooling agent and the baths is a key to realize cooling in our scheme. The underlying physical mechanism of cooling is explained by investigating a direct connection between the laser sideband cooling and cooling by heating in a standard optomechanical setting. Our advantageous scheme of cooling enabled by quantum reservoir engineering can be realized in various setups, employing parametric coupling of a cooling agent with the target systems. We also discuss using non-thermal baths to simulate ultra-high temperature thermal baths for cooling.
翻訳日:2023-04-23 19:09:27 公開日:2021-05-19
# 衛星量子通信の基本限界と実用的セキュリティ

Satellite Quantum Communications: Fundamental Bounds and Practical Security ( http://arxiv.org/abs/2012.01725v4 )

ライセンス: Link先を確認
Stefano Pirandola(参考訳) 量子技術のパノラマの中に衛星量子通信が出現し、完全セキュアな鍵を極端に遠くに分散するより効果的な戦略として、大規模な量子ネットワークのアーキテクチャにおいて重要な役割を担っている。 本研究では,自由空間量子通信における最近の結果を適用し,衛星を介して秘密(および絡み合い)ビットを分配できる究極の限界を決定する。 本研究は、ダウンリンクとアップリンクの両方の構成を包含し、衛星の高度と方位角の異なる様々なシナリオを包含する。 回折、消滅、背景ノイズ、フェーディングの影響は、ポインティングエラーと大気乱流(傾斜距離のために適切に開発された)によるものである。 上界の同定に加えて、下界、すなわち鍵生成および絡み合い分布の達成可能な速度についても論じる。 特に,ダウンリンクとアップリンクの両方に対して,連続変数量子鍵分布のプロトコルによって実現可能な構成可能な有限サイズの秘密鍵レートについて検討し,この手法がすべての構成に対して実現可能であることを示す。 最後に、太陽同期衛星を用いた研究を行い、その鍵分布速度が理想的な量子リピータの基底鎖を上回ることを示した。

Satellite quantum communications are emerging within the panorama of quantum technologies as a more effective strategy to distribute completely-secure keys at very long distances, therefore playing an important role in the architecture of a large-scale quantum network. In this work, we apply and extend recent results in free-space quantum communications to determine the ultimate limits at which secret (and entanglement) bits can be distributed via satellites. Our study is comprehensive of the various practical scenarios, encompassing both downlink and uplink configurations, with satellites at different altitudes and zenith angles. It includes effects of diffraction, extinction, background noise and fading, due to pointing errors and atmospheric turbulence (appropriately developed for slant distances). Besides identifying upper bounds, we also discuss lower bounds, i.e., achievable rates for key generation and entanglement distribution. In particular, we study the composable finite-size secret key rates that are achievable by protocols of continuous variable quantum key distribution, for both downlink and uplink, showing the feasibility of this approach for all configurations. Finally, we present a study with a sun-synchronous satellite, showing that its key distribution rate is able to outperform a ground chain of ideal quantum repeaters.
翻訳日:2023-04-22 05:45:05 公開日:2021-05-19
# 1+1)-次元大スカラー場における絡み合いのログ対ログクロスオーバー

Log to log-log crossover of entanglement in $(1+1)-$ dimensional massive scalar field ( http://arxiv.org/abs/2103.01772v2 )

ライセンス: Link先を確認
Parul Jain, S. Mahesh Chandran, S. Shankaranarayanan (IIT Bombay)(参考訳) 平面時空における(1+1)次元の大スカラー場に対する3つの異なる量子相関(絡み合いスペクトル、絡み合いエントロピー、対数的負性)について検討する。 基底状態における離散スカラー場のエンタングルメントスペクトルは、ゼロモードレジームのクロスオーバーを示し、エンタングルメントエントロピーと対数ネガティビティの両方の分析処理によりさらに証明される。 この交叉の正確な性質は、使われる境界条件に依存する - 先頭の順序項は周期的境界条件とノイマン境界条件の振る舞いを$\log$から$\log-\log$に切り替える。 対照的に、dirichletでは、スイッチされる先頭の$\log-\log$項内のパラメータである。 この交叉は,0モード限界に近い絡み合いエントロピーと対数的負性率の先頭次発散項の挙動の変化として現れる。 したがって,2つの体制は基本的に異なる情報内容を持つことを示す。 さらに、基底状態の忠実度の解析により、臨界点$\Lambda=0$ と交差点の間の領域はゼロモード効果に支配されており、システムのIR遮断に明示的に依存していることが分かる。 単一発振器の減少状態に対して、この交叉は領域 $Nam_f\sim \mathscr{O}(1)$ で発生することを示す。

We study three different measures of quantum correlations -- entanglement spectrum, entanglement entropy, and logarithmic negativity -- for (1+1)-dimensional massive scalar field in flat spacetime. The entanglement spectrum for the discretized scalar field in the ground state indicates a cross-over in the zero-mode regime, which is further substantiated by an analytical treatment of both entanglement entropy and logarithmic negativity. The exact nature of this cross-over depends on the boundary conditions used -- the leading order term switches from a $\log$ to $\log-\log$ behavior for the Periodic and Neumann boundary conditions. In contrast, for Dirichlet, it is the parameters within the leading $\log-\log$ term that are switched. We show that this cross-over manifests as a change in the behavior of the leading order divergent term for entanglement entropy and logarithmic negativity close to the zero-mode limit. We thus show that the two regimes have fundamentally different information content. Furthermore, an analysis of the ground state fidelity shows us that the region between critical point $\Lambda=0$ and the crossover point is dominated by zero-mode effects, featuring an explicit dependence on the IR cutoff of the system. For the reduced state of a single oscillator, we show that this cross-over occurs in the region $Nam_f\sim \mathscr{O}(1)$.
翻訳日:2023-04-09 12:13:12 公開日:2021-05-19
# 自己ホモダイン検出による双極子散乱器の位置測定

Position measurement of a dipolar scatterer via self-homodyne detection ( http://arxiv.org/abs/2103.08322v2 )

ライセンス: Link先を確認
G. Cerchiari, L. Dania, D. S. Bykov, R. Blatt and T. Northup(参考訳) 本稿では,散乱光の自己ホモダイン検出に基づく双極子散乱器の位置測定手法について述べる。 この方法は理論的にハイゼンベルク限界に達することができ、その位置に関する情報は散乱光のバックアクションによってのみ制限される。 この技術は、浮遊光力学と閉じ込められたイオンの分野に応用され、一般的に閉じ込められた光散乱体の位置決定に適用できる。

We describe a technique to measure the position of a dipolar scatterer based on self-homodyne detection of the scattered light. The method can theoretically reach the Heisenberg limit, at which information gained about the position is constrained only by the back-action of the scattered light. The technique has applications in the fields of levitated optomechanics and trapped ions and is generally applicable to the position determination of confined light scatterers.
翻訳日:2023-04-08 02:18:18 公開日:2021-05-19
# 2光子駆動と臨界点近傍の非線形散逸を持つ系の散逸相転移

Dissipative phase transition in systems with two-photon drive and nonlinear dissipation near the critical point ( http://arxiv.org/abs/2104.11669v2 )

ライセンス: Link先を確認
V.Yu. Mylnikov, S.O. Potashin, G.S. Sokolovskii, and N.S. Averkiev(参考訳) 2光子駆動系と非線形散逸系における臨界点近傍の散逸相転移について検討した。 提案する平均場理論は、量子揺らぎを明示的に考慮し、システムの進化ダイナミクスを適切に記述し、定常状態における新しい効果を実証することを可能にした。 量子揺らぎの存在は、臨界指数が関連する相転移点における異常平均のパワーロー依存性をもたらすことを示す。 また、臨界点再正規化に対する量子揺らぎの影響について検討し、2光子ポンプ閾値の存在を実証する。 得られた結果が数値シミュレーションとよく一致していることは注目に値する。

We study dissipative phase transition near the critical point for a system with two-photon driving and nonlinear dissipation. The proposed mean-field theory, which explicitly takes into account quantum fluctuations, allowed us to describe properly the evolution dynamics of the system and to demonstrate the new effects in the steady-state. We show that the presence of quantum fluctuations leads to a power-law dependence of the anomalous average at the phase transition point, with which the critical exponent is associated. Also, we investigate the effect of the quantum fluctuations on the critical point renormalization and demonstrate the existence of a two-photon pump threshold. It is noteworthy that the obtained results are in a good agreement with the numerical simulations.
翻訳日:2023-04-02 14:59:44 公開日:2021-05-19
# 超放射能クロスオーバーレーザーのスペクトルにおけるキャビティ免疫特性

Cavity-immune features in the spectra of superradiant crossover laser pulses ( http://arxiv.org/abs/2104.13305v2 )

ライセンス: Link先を確認
Mikkel Tang (1), Stefan A. Sch\"affer (2), Asbj{\o}rn A. J{\o}rgensen (1), Martin R. Henriksen (1), Bjarke T. R. Christensen (1), J\"org H. M\"uller (1) and Jan W. Thomsen (1) ((1) Niels Bohr Institute, Copenhagen, Denmark, (2) Van der Waals-Zeeman Institute, Amsterdam, The Netherlands)(参考訳) キャビティノイズに対する感度の低下により、キャビティ状態の悪化は精度のメソロジーに有望な応用が期待できる。 ここでは、mk熱アンサンブルにおける$^1$s$_0^3$p$_1$ライン上のパルス発振のスペクトル特性と位相挙動について、arxiv:1903.12593で最初に記述した。 このシステムはドップラー拡散された原子遷移線幅が空洞の線幅の何倍も大きい状態で動作する。 その結果, キャビティ共鳴を減衰させることで, キャビティノイズがピーク発振周波数に与える影響を, システムに悪影響を及ぼさないにもかかわらず一階まで除去できることがわかった。 実験結果はTavis-Cummings Hamiltonianに基づくモデルと比較され, キャビティノイズ低減の基礎メカニズムとして, 異なる熱流速クラス間の相互作用を調べることができる。 これらの速度依存性のダイナミクスは、パルスラシングや超ラジアント交叉系におけるレーザーの旋回動作中に起こる。

Lasing in the bad cavity regime has promising applications in precision metrology due to the reduced sensitivity to cavity noise. Here we investigate the spectral properties and phase behavior of pulsed lasing on the $^1$S$_0 - ^3$P$_1$ line of $^{88}$Sr in a mK thermal ensemble, as first described in arxiv:1903.12593. The system operates in a regime where the Doppler-broadened atomic transition linewidth is several times larger than the cavity linewidth. We find that by detuning the cavity resonance, the influence of the cavity noise on the peak lasing frequency can be eliminated to first order despite the system not being deep in the bad cavity regime. Experimental results are compared to a model based on a Tavis-Cummings Hamiltonian, which enables us to investigate the interplay between different thermal velocity classes as the underlying mechanism for the reduction in cavity noise. These velocity-dependent dynamics can occur in pulsed lasing and during the turn-on behavior of lasers in the superradiant crossover regime.
翻訳日:2023-04-02 06:38:52 公開日:2021-05-19
# ソーシャルメディア上での偽ニュース対策の3つの予防的介入

Three prophylactic interventions to counter fake news on social media ( http://arxiv.org/abs/2105.08929v1 )

ライセンス: Link先を確認
David A. Eccles, Tilman Dingler(参考訳) ソーシャルメディアに関するフェイクニュースは、民主的な組織やプロセスを損なう。 特に2016年以降、多くの分野の研究者がこの現象に対処する方法に焦点を当てている。 これまでの研究の多くは、ソーシャルネットワークにおける現象の性質と、より反応性のある性質の同定と理解に重点を置いてきた。 本稿では,個人のユーザエンパワーメントに焦点を当てた介入と,偽ニュースに晒される人口を減らすことを目的とした治療(ポストエクスポージャー)ではなく,予防的(プレエクスポージャー)なソーシャルメディア構造変化を提案する。 フェイクニュースに晒す前に、よりユーザーエブリベーション(認知的努力)をもたらす介入について検討する。 3つの介入を提案します i) 心理的接種 二 デジタル及びメディアリテラシーの育成及び 三 ユーザ取引費用の納付 各介入は、メッセージ評価におけるより大きな認知的努力を不正にし、「フェイクニュース」を作成し、共有し、好んで、消費する可能性を減らすことを約束する。

Fake news on Social Media undermines democratic institutions and processes. Especially since 2016, researchers from many disciplines have focussed on ways to address the phenomenon. Much of the research focus to date has been on identification and understanding the nature of the phenomenon in and between social networks and of a rather reactive nature. We propose interventions that focus on individual user empowerment, and social media structural change that is prophylactic (pre exposure), rather than therapeutic (post exposure) with the goal of reducing the population exposed to fake news. We investigate interventions that result in greater user elaboration (cognitive effort) before exposure to fake news. We propose three interventions i) psychological inoculation, ii) fostering digital and media literacy and iii) imposition of user transaction costs. Each intervention promises to illicit greater cognitive effort in message evaluation and reduce the likelihood of creating, sharing, liking and consuming 'fake news'.
翻訳日:2023-03-30 11:47:57 公開日:2021-05-19
# 仮想学習環境における教育者のデジタル能力:構造方程式モデリング解析

Digital competency of educators in the virtual learning environment: a structural equation modeling analysis ( http://arxiv.org/abs/2105.08927v1 )

ライセンス: Link先を確認
S. M. Hizam, H. Akter, I. Sentosa, W. Ahmed(参考訳) 本研究は,タスク・テクノロジー・フィット(TTF)理論の個々の特徴的構成として教育者デジタル能力(DC)を統合し,Moodleの使用と教示課題の適合性について検討し,Moodlesの利用とタスク性能に与える影響について検討する。 提案した仮説を評価するため,マレーシアの異なる大学の教員238名を対象にオンライン調査を行った。 構造方程式モデリング (Structure Equation Modelling, SEM) を用いて, デジタル能力のすべてのコンポーネント(技術リテラシー, 知識の深化, プレゼンテーションスキル, プロフェッショナルスキル)が, TTFに大きく影響したことを明らかにした。 タスク・テクノロジー・フィットは、Moodlesの利用率と教師のタスクパフォーマンスの両方に肯定的かつ有意な影響を与えている。 さらに、Moodlesの利用は、パフォーマンスへの影響のかなりの決定要因であることが確認された。 最後に,デジタル能力の特定の構成要素がTTFに与える影響を評価・理解するために,研究の貢献が研究者や実践者に対してどのように役立つかに基づいて,限界と今後の方向性を考察した。

This study integrates the educators digital competency (DC), as an individual characteristic construct of the task-technology fit (TTF) theory, to examine a better fit between Moodle using and teaching task, and to investigate its effect on both Moodles utilization and their task performance. For assessing our proposed hypotheses, an online survey was conducted with 238 teaching staff from different departments of universities in Malaysia. Using Structural Equation Modelling (SEM), our analysis revealed that all the proposed components (i.e., technology literacy, knowledge deepening, presentation skills, and professional skills) of digital competency significantly influenced the TTF. The Task-Technology Fit was also found as an influential construct, which positively and significantly affected both Moodles utilization and teachers task performance. Besides, Moodles utilization was confirmed to be a substantial determinant of the performance impact. In the end, this study included limitations and future directions based on how the study's contribution can support academics and practitioners for assessing and understanding what particular components of digital competency impact TTF, which in turn may influence the systems utilization and performance impact.
翻訳日:2023-03-30 11:47:41 公開日:2021-05-19
# モビリティ実践における通勤者の学習行動意図の評価

Assessing the Learning Behavioral Intention of Commuters in Mobility Practices ( http://arxiv.org/abs/2105.08915v1 )

ライセンス: Link先を確認
Waqas Ahmed, Habiba Akter, Sheikh M. Hizam, Ilham Sentosa and Syeliya Md. Zaini(参考訳) 学習行動のメカニズムは、形式的なシラバスを通じて管理された環境で広く予測されている。 しかし, 都市交通を通した日常的なモビリティ実践が, 学習科学の新たな特徴である。 大クアラルンプールにおける通勤者の学習行動意図(LBI)を評価するため、計画行動理論(TPB)、技術受容モデル(TAM)、輸送のサービス品質を概念化した。 日中通勤時の非公式学習に利用した117人の旅行者のLBIを理解するために,オンライン調査を行った。 その結果,モデル変数,すなわち使いやすさ,有用性,サービス品質,主観的規範はlbiの重要な予測因子であることがわかった。 旅行や交通サービス品質における学習の有用性は,LBIに活力を与えている。 本研究は,通勤者の視点からの非公式学習メカニズムを支援する。 本研究は, 都市モビリティ研究の新たな展望と, 個人的学習・開発への意味を開放する, 輸送・学習文学への新たな貢献である。

Learning behavior mechanism is widely anticipated in managed settings through the formal syllabus. However, heading for learning stimulus whilst daily mobility practices through urban transit is the novel feature in learning sciences. Theory of planned behavior (TPB), technology acceptance model (TAM), and service quality of transit are conceptualized to assess the learning behavioral intention (LBI) of commuters in Greater Kuala Lumpur. An online survey was conducted to understand the LBI of 117 travelers who use the technology to engage in the informal learning process during daily commuting. The results explored that all the model variables i.e., perceived ease of use, perceived usefulness, service quality, and subjective norms are significant predictors of LBI. The perceived usefulness of learning during traveling and transit service quality has a vibrant impact on LBI. The research will support the informal learning mechanism from commuters point of view. The study is a novel contribution to transport and learning literature that will open the new prospect of research in urban mobility and its connotation with personal learning and development.
翻訳日:2023-03-30 11:47:19 公開日:2021-05-19
# 量子断熱アルゴリズムによるab initio原子核構造

Ab initio nuclear structure via quantum adiabatic algorithm ( http://arxiv.org/abs/2105.08910v1 )

ライセンス: Link先を確認
Weijie Du, James P. Vary, Xingbo Zhao, and Wei Zuo(参考訳) 背景: ab initioアプローチによる核多体問題を解くことは、計算上困難な問題として広く認識されている。 量子コンピュータはこの課題に対処するための有望な道を提供する。 この目的のために量子アルゴリズムを開発する必要がある。 目的: 本研究では, ab initio 核構造理論における量子位相推定を伴う断熱状態生成の量子アルゴリズムの適用について検討する。 我々は、単純な核系の低層スペクトル(基底状態と励起状態の両方を含む)の解決に注力する。 アイデア: このアルゴリズムの効率性は、断熱的な進化の間に小さなエネルギーギャップ(レベル交差)が出現することを妨げる。 効率を向上させるために, 踏切を避ける手法を導入する。 1) 基準ハミルトンの適切な設計による。 2) 閉鎖経路を変更するための摂動条件の挿入による。 結果: このアルゴリズムは, IBM Qiskit 量子シミュレータを実装した高調波発振器トラップに束縛された重陽子基底エネルギーと重陽子スペクトルを解くことで説明する。 量子結果は行列対角化によって得られる古典的結果とよく一致する。 展望:我々の効率の改善により、このアルゴリズムは将来の量子コンピュータにおける複雑な核の低層スペクトルを調査するための有望なツールを提供する。

Background: Solving nuclear many-body problems with an ab initio approach is widely recognized as a computationally challenging problem. Quantum computers offer a promising path to address this challenge. There are urgent needs to develop quantum algorithms for this purpose. Objective: In this work, we explore the application of the quantum algorithm of adiabatic state preparation with quantum phase estimation in ab initio nuclear structure theory. We focus on solving the low-lying spectra (including both the ground and excited states) of simple nuclear systems. Ideas: The efficiency of this algorithm is hindered by the emergence of small energy gaps (level crossings) during the adiabatic evolution. In order to improve the efficiency, we introduce techniques to avoid level crossings: 1) by suitable design of the reference Hamiltonian; 2) by insertions of perturbation terms to modify the adiabatic path. Results: We illustrate this algorithm by solving the deuteron ground state energy and the spectrum of the deuteron bounded in a harmonic oscillator trap implementing the IBM Qiskit quantum simulator. The quantum results agree well the classical results obtained by matrix diagonalization. Outlook: With our improvements to the efficiency, this algorithm provides a promising tool for investigating the low-lying spectra of complex nuclei on future quantum computers.
翻訳日:2023-03-30 11:46:58 公開日:2021-05-19
# パルス形状符号化光量子ビットを用いた量子セキュアデータ転送

Quantum secure data transfer with pulse shape encoded optical qubits ( http://arxiv.org/abs/2105.09205v1 )

ライセンス: Link先を確認
Rui-Xia Wang(参考訳) 量子セキュアなデータ転送は、量子サイバーセキュリティの重要なトピックである。 本稿では,量子セキュアダイレクト通信(QSDC)に基づいて,量子セキュアデータ転送を実現する手法を提案する。 本提案では、送信側が所有する閉じ込められた原子から放出され、受信側が他の閉じ込められた原子で受信する単一の光量子ビットのパルス形状に送信データを符号化する。 捕捉された原子上の時間依存駆動パルスを制御し、発光された光子のターゲットパルス形状に応じてラビ周波数を操作することにより、符号化処理を高忠実に行うことができる。 受信過程では、適切な駆動パルスを選択することで、単一光子を任意の確率で吸収できることを示す。 また、QSDCプロトコルに基づいて、データ転送プロセスは個々の攻撃に対して無害であることを示す。

Quantum secure data transfer is an important topic for quantum cyber security. We propose a scheme to realize quantum secure data transfer in the basis of quantum secure direct communication (QSDC). In this proposal, the transmitted data is encoded in the pulse shape of a single optical qubit, which is emitted from a trapped atom owned by the sender and received by the receiver with another trapped atom. The encoding process can be implemented with high fidelity by controlling the time-dependent driving pulse on the trapped atom to manipulate the Rabi frequency in accordance with the target pulse shape of the emitted photons. In the receiving process, we prove that, the single photon can be absorbed with arbitrary probability by selecting appropriate driving pulse. We also show that, based on the QSDC protocol, the data transfer process is immune to the individual attacks.
翻訳日:2023-03-30 11:41:41 公開日:2021-05-19
# 焼鈍後のアイズリングフェロマグネット中のキクの分布と一般化されたキブル・ズーク機構

Distribution of Kinks in an Ising Ferromagnet After Annealing and the Generalized Kibble-Zurek Mechanism ( http://arxiv.org/abs/2105.09138v1 )

ライセンス: Link先を確認
Jack J. Mayo, Zhijie Fan, Gia-Wei Chern, Adolfo del Campo(参考訳) 温度クエンチによって誘起される一次元イジング強磁性体の有限時間アニーリングダイナミクスについて考察する。 スロー冷却の限界では、漸近的な2点コリレータはグラウバー力学の下で解析的に発見され、最終状態におけるキンク数の分布はポアソニアン分布と一致することが示されている。 平均キンク数、分散、および第3中心モーメントは同じ値をとり、温度が変化するクエンチ時間とともに普遍的なパワーロースケーリングに従う。 累積の普遍的パワーロースケーリングは、漸近極限から適度な冷却時間に対するグラウバー力学に基づく数値シミュレーションによって裏付けられ、キンク数分布が二項形式を取る。 臨界力学におけるkibble-zurek機構を超える物理との関係をキンク数分布を用いて解析し,断熱性とその崩壊性について検討した。 我々は, 線形, 非線形, 指数的な冷却スケジュールを考慮し, 後者は所定のクエンチ時間で冷却する最も効率的なショートカットを提供する。 最終状態の非熱的挙動は、標準ギブス状態へのトレースノルム距離を考慮して確立される。

We consider the annealing dynamics of a one-dimensional Ising ferromagnet induced by a temperature quench in finite time. In the limit of slow cooling, the asymptotic two-point correlator is analytically found under Glauber dynamics, and the distribution of the number of kinks in the final state is shown to be consistent with a Poissonian distribution. The mean kink number, the variance, and the third centered moment take the same value and obey a universal power-law scaling with the quench time in which the temperature is varied. The universal power-law scaling of cumulants is corroborated by numerical simulations based on Glauber dynamics for moderate cooling times away from the asymptotic limit, when the kink-number distribution takes a binomial form. We analyze the relation of these results to physics beyond the Kibble-Zurek mechanism for critical dynamics, using the kink number distribution to assess adiabaticity and its breakdown. We consider linear, nonlinear, and exponential cooling schedules, among which the latter provides the most efficient shortcuts to cooling in a given quench time. The non-thermal behavior of the final state is established by considering the trace norm distance to a canonical Gibbs state.
翻訳日:2023-03-30 11:41:28 公開日:2021-05-19
# 高スピン環境におけるデコヒーレンスと客観性

Decoherence and objectivity in higher spin environments ( http://arxiv.org/abs/2105.09093v1 )

ライセンス: Link先を確認
Mateusz Kici\'nski and Jaros{\l}aw K. Korbicz(参考訳) 任意のスピンに対するスピンスピンモデルにおけるデコヒーレンスおよび客観化過程を解析する。 まず、測定限界におけるデコヒーレンス係数の最も一般的な解析形式を導出し、そこではハミルトニアンが残りの部分を支配する。 次に、熱環境を解析し、相互作用後の環境状態のデコヒーレンス係数と状態忠実度の両方の正確な解析式を導出する。 これにより、相互作用中の中心スピンの状態の客観化過程を分析することができる。 我々はスペクトル放送構造 (Spectrum Broadcast Structures, SBS) と呼ばれる、特定の演算の客観性の概念を符号化する多部量子状態を用いる。 スピンがデコヒーレンスおよび客観化過程の効率にどの程度影響するかを解析的に(短時間)分析する。 予想されるほど、環境のスピンが高くなるほど、より効率的なデコヒーレンスと客観化が進む。 この研究は、スピン=1/2$のシステムに限られる以前の研究の一般化であり、将来の客観性実験で役立つことを願っている。

We analyze decoherence and objectivization processes in spin-spin models for arbitrary spins. We first derive the most general analytic form of the decoherence factor in the measurement limit, where the interaction Hamiltonian dominates the rest. We then analyze thermal environments and derive exact, analytic formulas for both the decoherence factor and the state fidelity of post-interaction environment states. This allows to analyze the objectivization process of the state of the central spin during the interaction. We do so using, so called, Spectrum Broadcast Structures (SBS), which are specific multipartite quantum states encoding a certain operation notion of objectivity. We analyze analytically (for short times) and numerically how higher spin influences the efficiency of decoherence and objectivization processes. As expected, the higher the spin of the environment, the more efficient decoherence and objectivization become. This work is a generalization of previous studies, limited to spin-$1/2$ systems only, and we hope will be useful in future objectivity experiments.
翻訳日:2023-03-30 11:40:53 公開日:2021-05-19
# ベル実験における局所性の違反と自由選択は等価資源である

Violations of locality and free choice are equivalent resources in Bell experiments ( http://arxiv.org/abs/2105.09037v1 )

ライセンス: Link先を確認
Pawel Blasiak, Emmanuel M. Pothos, James M. Yearsley, Christoph Gallus, Ewa Borsuk(参考訳) ベルの不等式は、リアリズム、局所性、自由選択という3つの基本的な仮定に依拠し、非常に単純な実験において相関に非自明な制約をもたらす。 もし我々が現実主義を維持しているなら、不等式に違反することは、残りの2つの仮定のうち少なくとも1つが失敗しなければならないことを意味する。 我々は,ベルの不等式に反する相関性を記述する場合であっても,全ての試験において違反は発生しないという観察に基づいて,他の仮定があらゆるコストで保たなければならない範囲について検討する。 どの程度の頻度で、観察された実験行動における局所性または自由選択の程度を決定する必要がある。 異なる性格にもかかわらず、どちらの仮定も等しくコストがかかることを示す。 すなわち、実験統計(いずれかの因果介入頻度によって測定される)を説明するために必要なリソースは、まったく同じである。 さらに,ベル実験における任意の非符号統計量の局所性および自由選択度を2値設定で算出し,いわゆるクレーター・ホーネ・シモニー・ホルト不等式に対する違反量に直接関連していることを示す。 この結果は、実験統計を直接参照する理論とは独立である。 さらに、無限個の設定を持つ量子力学フレームワークの局所分数結果が、我々が導入する自由選択の尺度に対する類似のステートメントにどのように変換されるかを示す。 したがって、統計に関して、局所性または自由選択違反を考慮に入れた因果説明は、完全に交換可能である。

Bell inequalities rest on three fundamental assumptions: realism, locality, and free choice, which lead to nontrivial constraints on correlations in very simple experiments. If we retain realism, then violation of the inequalities implies that at least one of the remaining two assumptions must fail, which can have profound consequences for the causal explanation of the experiment. We investigate the extent to which a given assumption needs to be relaxed for the other to hold at all costs, based on the observation that a violation need not occur on every experimental trial, even when describing correlations violating Bell inequalities. How often this needs to be the case determines the degree of, respectively, locality or free choice in the observed experimental behavior. Despite their disparate character, we show that both assumptions are equally costly. Namely, the resources required to explain the experimental statistics (measured by the frequency of causal interventions of either sort) are exactly the same. Furthermore, we compute such defined measures of locality and free choice for any nonsignaling statistics in a Bell experiment with binary settings, showing that it is directly related to the amount of violation of the so-called Clauser-Horne-Shimony-Holt inequalities. This result is theory independent as it refers directly to the experimental statistics. Additionally, we show how the local fraction results for quantum-mechanical frameworks with infinite number of settings translate into analogous statements for the measure of free choice we introduce. Thus, concerning statistics, causal explanations resorting to either locality or free choice violations are fully interchangeable.
翻訳日:2023-03-30 11:40:14 公開日:2021-05-19
# ITの曖昧さと患者のアジリティ--デジタルダイナミック能力の仲介的役割

IT ambidexterity and patient agility: the mediating role of digital dynamic capability ( http://arxiv.org/abs/2105.09013v1 )

ライセンス: Link先を確認
Rogier van de Wetering(参考訳) 医療研究において情報技術(IT)による変革に多くの注意が向けられているが、患者のニーズやニーズに適切に対応するための特定の組織能力を開発する上でのITの役割には、限られた注意が向けられている。 本稿では,医療部門がIT資源・実践,すなわちITアンビデクスタリティを探索・活用し,患者のニーズやニーズ,すなわち患者のアジリティを適切に把握し,対応することができるかを検討する。 本研究は, オランダの107の病院部門から得られたデータを用いて, オンライン調査により, ダイナミック機能の観点から研究モデルを開発し, 評価した。 仮説関係は構造方程式モデリング(SEM)を用いて検証される。 これらの結果は、患者のアジリティに肯定的な影響を与えるデジタルダイナミックな能力を開発する上で、ITの曖昧さの重要性を示しています。 研究成果は、臨床実践を変革し、現在のis知識ベースに貢献するために利用することができる。

Despite a wealth of attention for information technology (IT)-enabled transformation in healthcare research, limited attention has been given to ITs role in developing specific organizational capabilities to respond to patients their needs and wishes adequately. This paper investigates how hospital departments can leverage the equivocal capacity to explore and exploit IT resources and practices, i.e., IT ambidexterity, to adequately sense and respond to patients their needs and demands, i.e., patient agility. Following the dynamic capabilities view, this research develops a research model and tests it accordingly using data obtained from 107 clinical hospital departments from the Netherlands through an online survey. The hypothesized relationships are tested using structural equation modeling (SEM). The outcomes demonstrate the significance of IT ambidexterity in developing a digital dynamic capability that, in turn, positively influences patient agility. The study outcomes can be used to transform clinical practice and contribute to the current IS knowledge base.
翻訳日:2023-03-30 11:39:49 公開日:2021-05-19
# 単一イオンと超低温原子間のfeshbach共鳴の観測

Observation of Feshbach resonances between a single ion and ultracold atoms ( http://arxiv.org/abs/2105.09382v1 )

ライセンス: Link先を確認
Pascal Weckesser, Fabian Thielemann, Dariusz Wiater, Agata Wojciechowska, Leon Karpa, Krzysztof Jachymski, Micha{\l} Tomza, Thomas Walker, Tobias Schaetz(参考訳) 個々の量子化レベルにおける物理系とその力学の制御は、基礎科学と量子技術の両方を推進している。 捕獲された原子系と分子系、中性および荷電系は量子科学の最前線にある。 その並外れたレベルの制御は、量子情報処理や量子メトロロジーにおける多くの応用によって証明されている。 ハイブリッド原子イオントラップでこれらの系間の長距離相互作用を研究することは、目覚ましい結果をもたらす。 しかし、量子力学が相互作用を支配している超低温状態(例えば、制御可能な散乱共鳴へのアクセスを与える)は、これまで解明されてきた。 ここでは, イオンと原子の間のfeshbach共鳴を, 磁気チューナブルな相互作用として, $^{138}$ba$^{+}$ イオンと$^{6}$li原子を用いて実演する。 まず、共鳴を識別するために3体反応と関連する損失を増強し、続いて超低温原子浴におけるイオンの交感神経冷却を調べるために2体相互作用を支配的にする。 この結果は原子-イオン相互作用の深い洞察を与え、複雑な多体系と実験量子シミュレーションへの応用をもたらす。

Controlling physical systems and their dynamics on the level of individual quanta propels both fundamental science and quantum technologies. Trapped atomic and molecular systems, neutral and charged, are at the forefront of quantum science. Their extraordinary level of control is evidenced by numerous applications in quantum information processing and quantum metrology. Studying the long-range interactions between these systems when combined in a hybrid atom-ion trap has lead to landmark results. Reaching the ultracold regime, however, where quantum mechanics dominates the interaction, e.g., giving access to controllable scattering resonances, has been elusive so far. Here we demonstrate Feshbach resonances between ions and atoms, using magnetically tunable interactions between $^{138}$Ba$^{+}$ ions and $^{6}$Li atoms. We tune the experimental parameters to probe different interaction processes - first, enhancing three-body reactions and the related losses to identify the resonances, then making two-body interactions dominant to investigate the ion's sympathetic cooling in the ultracold atomic bath. Our results provide deeper insights into atom-ion interactions, giving access to complex many-body systems and applications in experimental quantum simulation.
翻訳日:2023-03-30 11:32:39 公開日:2021-05-19
# 閉じ込められたイオン量子コンピュータによるホログラフィックダイナミクスシミュレーション

Holographic dynamics simulations with a trapped ion quantum computer ( http://arxiv.org/abs/2105.09324v1 )

ライセンス: Link先を確認
Eli Chertkov, Justin Bohnet, David Francois, John Gaebler, Dan Gresh, Aaron Hankin, Kenny Lee, Ra'anan Tobey, David Hayes, Brian Neyenhuis, Russell Stutz, Andrew C. Potter, Michael Foss-Feig(参考訳) 量子コンピュータは、多くの相互作用する量子粒子のダイナミクスを効率的にシミュレートする能力を持っている。 しかし、既存のハードウェアの精度とメモリ制限は、従来の手法でシミュレートできるモデルのサイズと複雑さを著しく制限する。 ここでは、量子テンソルネットワークが持つ効率的な量子データ圧縮と、機会論的中間回路計測と量子ビット再利用を用いて、利用可能な量子ビット数よりもはるかに自由度の高い物理系をシミュレートする、新しいスケーラブルな量子シミュレーションパラダイムであるホログラフィック量子力学シミュレーションを実証し、ベンチマークする。 ハネウェルトラップイオン量子プロセッサを用いて、最大9ドルの捕捉イオン量子ビットを用いて32ドルスピンの絡み合った状態から始まり、最近開発された正確な解析技術により熱力学的限界で直接計算されたダイナミクスに対するベンチマークにおいて優れた定量的一致を得る自己双発蹴りイジングモデルの非可積分(カオス)ダイナミクスをシミュレートする。 これらの結果は、量子テンソルネットワークの手法が最先端の量子プロセッサ機能とともに、近い将来に実用的な量子優位への道を開くことを示唆している。

Quantum computers have the potential to efficiently simulate the dynamics of many interacting quantum particles, a classically intractable task of central importance to fields ranging from chemistry to high-energy physics. However, precision and memory limitations of existing hardware severely limit the size and complexity of models that can be simulated with conventional methods. Here, we demonstrate and benchmark a new scalable quantum simulation paradigm--holographic quantum dynamics simulation--which uses efficient quantum data compression afforded by quantum tensor networks along with opportunistic mid-circuit measurement and qubit reuse to simulate physical systems that have far more quantum degrees of freedom than can be captured by the available number of qubits. Using a Honeywell trapped ion quantum processor, we simulate the non-integrable (chaotic) dynamics of the self-dual kicked Ising model starting from an entangled state of $32$ spins using at most $9$ trapped ion qubits, obtaining excellent quantitative agreement when benchmarking against dynamics computed directly in the thermodynamic limit via recently developed exact analytical techniques. These results suggest that quantum tensor network methods, together with state-of-the-art quantum processor capabilities, enable a viable path to practical quantum advantage in the near term.
翻訳日:2023-03-30 11:30:17 公開日:2021-05-19
# 生体細胞の量子強化マイクロレオロジー

Quantum Enhanced Microrheology of a Living Cell ( http://arxiv.org/abs/2105.09478v1 )

ライセンス: Link先を確認
Michael A. Taylor, Jiri Janousek, Vincent Daria, Joachim Knittel, Boris Hage, Hans-A. Bachor, Warwick P. Bowen(参考訳) 我々は、量子ノイズ限界を超える精度で最初の生物学的測定を実演する。 生きた酵母細胞内の脂質粒子をサブショットノイズ感度で追跡し、細胞質の生物学的ダイナミクスを明らかにする。

We demonstrate the first biological measurement with precision surpassing the quantum noise limit. Lipid particles within a living yeast cell are tracked with sub-shot noise sensitivity, thereby revealing the biological dynamics of the cellular cytoplasm.
翻訳日:2023-03-30 11:21:16 公開日:2021-05-19
# コメントは「境界状態と潜在的なパラメータスペクトル」である。 j. 数学。 Phys \textbf{67}, 062103 (2020)

Comment on: "Bound states and the potential parameter spectrum". J. Math. Phys. \textbf{67}, 062103 (2020) ( http://arxiv.org/abs/2105.10359v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 本稿では,単純な,正確に解くことができる量子力学的モデルに対するschr\"{o}dinger方程式への"三角表現アプローチ" (tra) の適用について解析する。 クラッツァー-フースポテンシャルの場合には、数学的推論は結果を無効にする深刻な欠陥を示し、エネルギーの表現は正しくないように見える。 また、TRAに類似したよく知られたフロベニウス法は、正しい結果を与えるのに加えて、はるかに単純で明確でエレガントであることを示す。

We analyze the application of the "tridiagonal representation approach" (TRA) to the Schr\"{o}dinger equation for some simple, exactly-solvable, quantum-mechanical models. In the case of the Kratzer-Fues potential the mathematical reasoning appears to exhibit a serious flaw that invalidates the result and the expression for the energy does not appear to be correct. We also show that the well known Frobenius method, which resembles the TRA, is far simpler, clearer and more elegant; in addition to give the correct result.
翻訳日:2023-03-30 11:15:24 公開日:2021-05-19
# 神経教育アプローチによるプログラミングスキルの向上とプログラミング知識の変容

Enhancement Programming Skills and Transforming Knowledge of Programming through Neuroeducation Approaches ( http://arxiv.org/abs/2105.09779v1 )

ライセンス: Link先を確認
Spyridon Doukakis, Panagiotis Vlamos(参考訳) デジタル機器のプログラミングとソフトウェア開発は、雇用機会に寄与する重要な専門家資格である。 この事実にもかかわらず、適切な人材が不足している。 この文脈での研究は、プログラマのスキルの強化と最適化を目的とした、プログラミングの実践、教育モデル、プログラミングパラダイムの問題に焦点を当てている。 脳波や機能的磁気共鳴イメージングなどの脳イメージング技術の最近の進歩は、神経科学者が人間の脳の機能的構造を探求する機会を与えている。 これらの手法を用いて,本研究は,コンピュータプログラミングの学習と教育の分野での学習を支援するアプローチである。 一方、理論神経科学と認知科学をつなぐ試みがあり、一方、得られた研究データは形式的・非公式なプログラミング教育に適用できる実践の特定に寄与する。

Programming digital devices and developing software is an important professional qualification, which contributes to employment opportunities. Despite this fact, there is a remarkable shortage in suitable human resources. In this context, research studies focus on issues of programming didactic, teaching models, programming paradigms, which are meant to enhance and optimize programmers' skills. Recent development of brain imaging techniques such as electroencephalography and the functional magnetic resonance imaging, have provided additional opportunity for neuroscientists to explore the functional organization of the human brain. With the use of these techniques, this research is an approach to supporting learning in the field of learning and teaching computer programming. On one hand, there is an attempt to connect theoretical neurosciences with cognitive science; on the other hand, the obtained research data will contribute to the identification of practices that can be applied to formal and informal programming education.
翻訳日:2023-03-30 11:15:12 公開日:2021-05-19
# サラウンドビューカメラにおけるビジュアルスラムを用いた軌道訓練型自動駐車システム

Trained Trajectory based Automated Parking System using Visual SLAM on Surround View Cameras ( http://arxiv.org/abs/2001.02161v3 )

ライセンス: Link先を確認
Nivedita Tripathi and Senthil Yogamani(参考訳) 自動駐車は現代の車両の標準機能になりつつある。 既存の駐車システムは、検出されたスロットへの操作を計画できるローカルマップを構築する。 次世代の駐車システムは、例えばホームパーキングやオフィスパーキングのように、車が頻繁に駐車される環境の永続的なマップを構築するユースケースを持つ。 事前構築されたマップは、次の駐車時に車両を再配置するのに役立つ。 これは、視覚的SLAMパイプラインで駐車場システムを強化することで実現され、自動車産業において訓練された軌道駐車と呼ばれる。 本稿では,訓練された軌道自動駐車システムの使用事例,設計,実装について論じる。 提案するシステムは商用車両にデプロイされ、コンシューマアプリケーションは \url{https://youtu.be/nrwf5khyjzu} で示される。 本論文の焦点はアプリケーションであり,ビジョンアルゴリズムの詳細は高レベルに保たれている。

Automated Parking is becoming a standard feature in modern vehicles. Existing parking systems build a local map to be able to plan for maneuvering towards a detected slot. Next generation parking systems have an use case where they build a persistent map of the environment where the car is frequently parked, say for example, home parking or office parking. The pre-built map helps in re-localizing the vehicle better when its trying to park the next time. This is achieved by augmenting the parking system with a Visual SLAM pipeline and the feature is called trained trajectory parking in the automotive industry. In this paper, we discuss the use cases, design and implementation of a trained trajectory automated parking system. The proposed system is deployed on commercial vehicles and the consumer application is illustrated in \url{https://youtu.be/nRWF5KhyJZU}. The focus of this paper is on the application and the details of vision algorithms are kept at high level.
翻訳日:2023-01-13 21:10:39 公開日:2021-05-19
# コンテキスト認識レコメンダシステムのためのグラフ畳み込み機

Graph Convolution Machine for Context-aware Recommender System ( http://arxiv.org/abs/2001.11402v3 )

ライセンス: Link先を確認
Jiancan Wu, Xiangnan He, Xiang Wang, Qifan Wang, Weijian Chen, Jianxun Lian, Xing Xie(参考訳) 最新のレコメンデーションの進歩は、ユーザとイテムの相互作用グラフ上のグラフ畳み込みを実行することによって、より良いユーザとアイテムの表現を学ぶことができることを示している。 しかしながら、このような発見は主に、インタラクションコンテキストが利用できないコラボレーティブフィルタリング(CF)シナリオに制限されている。 本研究では,グラフ畳み込みの利点を,様々な側面情報を扱える汎用モデルである文脈認識推薦システム(CARS)に拡張する。 本稿では,エンコーダ,グラフ畳み込み(gc)層,デコーダの3つのコンポーネントからなるエンドツーエンドフレームワークである \textit{graph convolution machine} (gcm) を提案する。 エンコーダは、ユーザ、アイテム、コンテキストを埋め込みベクターにプロジェクションし、それをgc層に渡して、ユーザとアイテムの埋め込みを、ユーザ・イテムグラフ上のコンテキスト認識グラフ畳み込みで洗練する。 デコーダは、洗練された埋め込みを消化して、ユーザ、アイテム、コンテキスト埋め込み間の相互作用を考慮して予測スコアを出力する。 我々はYelpとAmazonの3つの実世界のデータセットで実験を行い、GCMの有効性とCARSのためのグラフ畳み込みの利点を検証する。 我々の実装は \url{https://github.com/wujcan/GCM} で利用可能です。

The latest advance in recommendation shows that better user and item representations can be learned via performing graph convolutions on the user-item interaction graph. However, such finding is mostly restricted to the collaborative filtering (CF) scenario, where the interaction contexts are not available. In this work, we extend the advantages of graph convolutions to context-aware recommender system (CARS, which represents a generic type of models that can handle various side information). We propose \textit{Graph Convolution Machine} (GCM), an end-to-end framework that consists of three components: an encoder, graph convolution (GC) layers, and a decoder. The encoder projects users, items, and contexts into embedding vectors, which are passed to the GC layers that refine user and item embeddings with context-aware graph convolutions on user-item graph. The decoder digests the refined embeddings to output the prediction score by considering the interactions among user, item, and context embeddings. We conduct experiments on three real-world datasets from Yelp and Amazon, validating the effectiveness of GCM and the benefits of performing graph convolutions for CARS. Our implementations are available at \url{https://github.com/wujcan/GCM}.
翻訳日:2023-01-05 12:37:39 公開日:2021-05-19
# 初期化時のロバストプルーニング

Robust Pruning at Initialization ( http://arxiv.org/abs/2002.08797v5 )

ライセンス: Link先を確認
Soufiane Hayou, Jean-Francois Ton, Arnaud Doucet, Yee Whye Teh(参考訳) Overparameterized Neural Networks (NN) は最先端の性能を示す。 しかし、計算資源が限られているデバイス上で機械学習アプリケーションを使用することができる、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。 一般的なアプローチはプルーニング技術の使用である。 これらの技術は、伝統的に訓練済みのNN (LeCun et al., 1990; Hassibi et al., 1993) を刈り取ることに重点を置いているが、Lee et al. (2018) による最近の研究は、初期化時に刈り取る際に有望な結果を示している。 しかし、深層nnでは、生成したprunedネットワークはトレーニングが難しく、例えば、1つの層が完全にprunされるのを防ぐことができないため、そのような手順は不十分である。 本稿では,スパースアーキテクチャの初期化と訓練におけるマグニチュードとグラディエントに基づくプルーニングの包括的理論的解析を行う。 これにより、様々なnnアーキテクチャで実験的に検証する新しい原則付きアプローチを提案することができる。

Overparameterized Neural Networks (NN) display state-of-the-art performance. However, there is a growing need for smaller, energy-efficient, neural networks tobe able to use machine learning applications on devices with limited computational resources. A popular approach consists of using pruning techniques. While these techniques have traditionally focused on pruning pre-trained NN (LeCun et al.,1990; Hassibi et al., 1993), recent work by Lee et al. (2018) has shown promising results when pruning at initialization. However, for Deep NNs, such procedures remain unsatisfactory as the resulting pruned networks can be difficult to train and, for instance, they do not prevent one layer from being fully pruned. In this paper, we provide a comprehensive theoretical analysis of Magnitude and Gradient based pruning at initialization and training of sparse architectures. This allows us to propose novel principled approaches which we validate experimentally on a variety of NN architectures.
翻訳日:2022-12-30 12:49:50 公開日:2021-05-19
# グラフ、畳み込み、ニューラルネットワーク:グラフフィルタからグラフニューラルネットワークへ

Graphs, Convolutions, and Neural Networks: From Graph Filters to Graph Neural Networks ( http://arxiv.org/abs/2003.03777v5 )

ライセンス: Link先を確認
Fernando Gama, Elvin Isufi, Geert Leus, Alejandro Ribeiro(参考訳) ネットワークデータはグラフ信号として便利にモデル化され、基礎となるネットワークトポロジを記述するグラフのノードにデータ値が割り当てられる。 ネットワークデータからの学習は、このグラフ構造を効果的に活用する手法に基づいている。 本研究では,グラフ信号処理を利用してグラフニューラルネットワーク(GNN)の表現空間を特徴付ける。 GNNにおけるグラフ畳み込みフィルタの役割について議論し、そのようなフィルタで構築されたアーキテクチャは、置換同値の基本的な性質と位相変化に対する安定性を持つことを示す。 これらの2つの特性は、GNNの動作に関する洞察を与え、そのスケーラビリティと転送可能性の特性を説明するのに役立つ。 また、エッジ可変および自己回帰移動平均グラフフィルタを用いてGNN拡張を導入し、それらの特性について議論する。 最後に,ロボット群に対するリコメンデータシステムと分散型コントローラの学習におけるGNNの利用について検討する。

Network data can be conveniently modeled as a graph signal, where data values are assigned to nodes of a graph that describes the underlying network topology. Successful learning from network data is built upon methods that effectively exploit this graph structure. In this work, we leverage graph signal processing to characterize the representation space of graph neural networks (GNNs). We discuss the role of graph convolutional filters in GNNs and show that any architecture built with such filters has the fundamental properties of permutation equivariance and stability to changes in the topology. These two properties offer insight about the workings of GNNs and help explain their scalability and transferability properties which, coupled with their local and distributed nature, make GNNs powerful tools for learning in physical networks. We also introduce GNN extensions using edge-varying and autoregressive moving average graph filters and discuss their properties. Finally, we study the use of GNNs in recommender systems and learning decentralized controllers for robot swarms.
翻訳日:2022-12-25 14:05:52 公開日:2021-05-19
# 談話レトリック構造のテキストレベルパーシングに向けたトップダウンニューラルアーキテクチャ

A Top-Down Neural Architecture towards Text-Level Parsing of Discourse Rhetorical Structure ( http://arxiv.org/abs/2005.02680v4 )

ライセンス: Link先を確認
Longyin Zhang, Yuqing Xing, Fang Kong, Peifeng Li, Guodong Zhou(参考訳) 深層自然言語理解と様々なダウンストリーム応用において非常に重要であることから,近年,言論レトリック構造(DRS)のテキストレベルの解析が注目されている。 しかし、テキストレベルの談話解析に関するこれまでの研究はボトムアップアプローチを採用しており、地域情報に関するdrsの決定をかなり制限しており、全体の談話のグローバル情報から利益を得ることができない。 本稿では,トップダウンアーキテクチャがテキストレベルのdrs解析に適していることを,計算と知覚の両方から正当化する。 そこで本研究では,テキストレベルのDRS解析に向けたトップダウンニューラルアーキテクチャを提案する。 特に、分割点をランクに応じて異なるレベルに分類し、それに関連する初等談話単位(edus)を対応付けて再帰的分割点ランキングタスクとして談話解析を行う。 このようにして、内部スタックを持つエンコーダデコーダを用いて、完全なDSSを階層木構造として決定することができる。 英語rst-dtコーパスと中国語cdtbコーパスの両方の実験により,テキストレベルのdrm解析に対するトップダウンアプローチの有効性が示された。

Due to its great importance in deep natural language understanding and various down-stream applications, text-level parsing of discourse rhetorical structure (DRS) has been drawing more and more attention in recent years. However, all the previous studies on text-level discourse parsing adopt bottom-up approaches, which much limit the DRS determination on local information and fail to well benefit from global information of the overall discourse. In this paper, we justify from both computational and perceptive points-of-view that the top-down architecture is more suitable for text-level DRS parsing. On the basis, we propose a top-down neural architecture toward text-level DRS parsing. In particular, we cast discourse parsing as a recursive split point ranking task, where a split point is classified to different levels according to its rank and the elementary discourse units (EDUs) associated with it are arranged accordingly. In this way, we can determine the complete DRS as a hierarchical tree structure via an encoder-decoder with an internal stack. Experimentation on both the English RST-DT corpus and the Chinese CDTB corpus shows the great effectiveness of our proposed top-down approach towards text-level DRS parsing.
翻訳日:2022-12-06 05:34:15 公開日:2021-05-19
# AdaSwarm: ディープラーニングにおけるグラディエントベースの最適化をSwarm Intelligenceで強化

AdaSwarm: Augmenting Gradient-Based optimizers in Deep Learning with Swarm Intelligence ( http://arxiv.org/abs/2006.09875v5 )

ライセンス: Link先を確認
Rohan Mohapatra, Snehanshu Saha, Carlos A. Coello Coello, Anwesh Bhattacharya, Soma S. Dhavala and Sriparna Saha(参考訳) 本稿では,ニューラルネットワークで採用されているadamオプティマイザと同等あるいはそれ以上の性能を持つ,新しい勾配フリーオプティマイザであるadaswarmについて述べる。 提案するAdaSwarmを支援するために, 指数重み付き粒子群最適化器 (EMPSO) を提案する。 AdaSwarmが最適化問題に取り組む能力は、優れた勾配近似を行う能力に起因している。 本研究では, EMPSOのパラメータを用いて, 微分可能か否かに関わらず, 任意の関数の勾配を近似できることを示す。 これは数値法と群知能の境界に位置するgdをシミュレートする新しい手法である。 生成する勾配近似の数学的証明も提供される。 AdaSwarmはいくつかの最先端(SOTA)オプティマイザと密接に競合する。 また、AdaSwarmは、最大絶対誤差(MAE)を含む、バックプロパゲーション中に様々な損失関数を処理可能であることを示す。

This paper introduces AdaSwarm, a novel gradient-free optimizer which has similar or even better performance than the Adam optimizer adopted in neural networks. In order to support our proposed AdaSwarm, a novel Exponentially weighted Momentum Particle Swarm Optimizer (EMPSO), is proposed. The ability of AdaSwarm to tackle optimization problems is attributed to its capability to perform good gradient approximations. We show that, the gradient of any function, differentiable or not, can be approximated by using the parameters of EMPSO. This is a novel technique to simulate GD which lies at the boundary between numerical methods and swarm intelligence. Mathematical proofs of the gradient approximation produced are also provided. AdaSwarm competes closely with several state-of-the-art (SOTA) optimizers. We also show that AdaSwarm is able to handle a variety of loss functions during backpropagation, including the maximum absolute error (MAE).
翻訳日:2022-12-01 12:54:47 公開日:2021-05-19
# リーマン確率近似スキームの収束解析

Convergence Analysis of Riemannian Stochastic Approximation Schemes ( http://arxiv.org/abs/2005.13284v3 )

ライセンス: Link先を確認
Alain Durmus, Pablo Jim\'enez, \'Eric Moulines, Salem Said, Hoi-To Wai(参考訳) 本稿では、確率最適化問題に取り組むためのリーマン確率近似(sa)スキームの大規模クラスに対する収束解析を行う。 特に、我々が研究する再帰は、検討された多様体(測地スキーム)の指数写像または指数写像の代用として使われるより一般的な退化関数(退化スキーム)を使用する。 このような近似は測地学的なスキームに代わる複雑さの低いものであるので、非常に興味深い。 SA の平均場が滑らかなリャプノフ函数の勾配(おそらくは非凸)と相関しているという仮定の下で、上記のリーマン SA スキームが ${\mathcal{O}}(b_\infty + \log n / \sqrt{n})$-定常点(予想)を${\mathcal{O}}(n)$イテレーション内で見つけることを示し、$b_\infty \geq 0$ は漸近バイアスである。 以前の作品と比較して、私たちが引き起こす条件はかなり緩やかです。 まず、イテレートをa-プリオリ境界と仮定しないので、すべての解析はグローバルです。 次に、偏りのあるSAスキームについて検討する。 より具体的には、平均場関数が小さなバイアスまでしか推定できない場合と、そのサンプルが制御されたマルコフ連鎖から引き出される場合を考える。 第三に、関連するSAスキームの収束を保証するのに必要なリトラクション条件は弱く、よく知られた例では保たれる。 我々は3つの機械学習問題について結果を説明する。

This paper analyzes the convergence for a large class of Riemannian stochastic approximation (SA) schemes, which aim at tackling stochastic optimization problems. In particular, the recursions we study use either the exponential map of the considered manifold (geodesic schemes) or more general retraction functions (retraction schemes) used as a proxy for the exponential map. Such approximations are of great interest since they are low complexity alternatives to geodesic schemes. Under the assumption that the mean field of the SA is correlated with the gradient of a smooth Lyapunov function (possibly non-convex), we show that the above Riemannian SA schemes find an ${\mathcal{O}}(b_\infty + \log n / \sqrt{n})$-stationary point (in expectation) within ${\mathcal{O}}(n)$ iterations, where $b_\infty \geq 0$ is the asymptotic bias. Compared to previous works, the conditions we derive are considerably milder. First, all our analysis are global as we do not assume iterates to be a-priori bounded. Second, we study biased SA schemes. To be more specific, we consider the case where the mean-field function can only be estimated up to a small bias, and/or the case in which the samples are drawn from a controlled Markov chain. Third, the conditions on retractions required to ensure convergence of the related SA schemes are weak and hold for well-known examples. We illustrate our results on three machine learning problems.
翻訳日:2022-11-28 08:29:37 公開日:2021-05-19
# 創発的節間ビアーゼの検出:ヒト様ビアーゼの分布を含む文脈的単語埋め込み

Detecting Emergent Intersectional Biases: Contextualized Word Embeddings Contain a Distribution of Human-like Biases ( http://arxiv.org/abs/2006.03955v5 )

ライセンス: Link先を確認
Wei Guo and Aylin Caliskan(参考訳) 単語の統計的規則性に暗黙の人間のバイアスが反映される点から、英語の静的単語埋め込みにおけるバイアスを測定することができる。 最先端のニューラルネットワークモデルは、単語が現れるコンテキストに依存する動的単語埋め込みを生成する。 現在の方法は、文テンプレートによって定義された特定の文脈に現れる、事前に定義された社会的および交叉バイアスを測定する。 テンプレートに代えて、ランダム・エフェクト・モデルを導入することで、ニューラルネットワークモデルにおける全体的なバイアスの大きさを要約できるコンテキスト適応型埋め込みアソシエーションテスト(CEAT)を導入する。 社会的および交叉バイアスの実験は、CEATが全てのテストされたバイアスの証拠を見つけ、異なる文脈における同じバイアスの効果の大きさの分散に関する包括的な情報を提供することを示している。 私たちが研究する英語コーパスで訓練されたすべてのモデルは、偏りのある表現を含んでいる。 さらに、静的な単語埋め込みから交叉バイアスと創発的交叉バイアスを自動的に識別し、文脈化された単語埋め込みで測定する2つの方法、IBD(Intersectional Bias Detection)とEmergent Intersectional Bias Detection(EIBD)を開発した。 本研究は, 交差するグループメンバーが, マイノリティのバイアスと重複しない, 独特な創発的バイアスとどのように強く結びついているかについて, アルゴリズムによる最初のバイアス検出結果を示す。 IBDとEIBDは、アフリカ系アメリカ人とメキシコ系アメリカ人の交叉バイアスと緊急バイアスを検出する際に高い精度を達成する。 以上の結果から,アフリカ系アメリカ人女性やメキシコ系アメリカ人女性など,複数のマイノリティグループに属する人種と性別の交点におけるバイアスは,すべてのニューラルランゲージモデルにおいて最大級であることが示唆された。

With the starting point that implicit human biases are reflected in the statistical regularities of language, it is possible to measure biases in English static word embeddings. State-of-the-art neural language models generate dynamic word embeddings dependent on the context in which the word appears. Current methods measure pre-defined social and intersectional biases that appear in particular contexts defined by sentence templates. Dispensing with templates, we introduce the Contextualized Embedding Association Test (CEAT), that can summarize the magnitude of overall bias in neural language models by incorporating a random-effects model. Experiments on social and intersectional biases show that CEAT finds evidence of all tested biases and provides comprehensive information on the variance of effect magnitudes of the same bias in different contexts. All the models trained on English corpora that we study contain biased representations. Furthermore, we develop two methods, Intersectional Bias Detection (IBD) and Emergent Intersectional Bias Detection (EIBD), to automatically identify the intersectional biases and emergent intersectional biases from static word embeddings in addition to measuring them in contextualized word embeddings. We present the first algorithmic bias detection findings on how intersectional group members are strongly associated with unique emergent biases that do not overlap with the biases of their constituent minority identities. IBD and EIBD achieve high accuracy when detecting the intersectional and emergent biases of African American females and Mexican American females. Our results indicate that biases at the intersection of race and gender associated with members of multiple minority groups, such as African American females and Mexican American females, have the highest magnitude across all neural language models.
翻訳日:2022-11-24 20:57:18 公開日:2021-05-19
# マルチエージェント強化学習のための共有体験アクタクリティカル

Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2006.07169v4 )

ライセンス: Link先を確認
Filippos Christianos, Lukas Sch\"afer, Stefano V. Albrecht(参考訳) マルチエージェント強化学習における探索は、特にスパース報酬のある環境では難しい問題である。 本稿では,エージェント間の経験共有による効率的な探索法を提案する。 提案アルゴリズムはSEAC(Shared Experience Actor-Critic)と呼ばれ,アクター・クリティカルな枠組みで経験を共有する。 スパース逆マルチエージェント環境の集合においてSEACを評価し、より少ないステップで学習し、より高いリターンに収束することで、2つのベースラインと2つの最先端アルゴリズムを一貫して上回ります。 難しい環境では、経験を共有することは、タスクを解決するための学習と、まったく学習しないことの違いをもたらす。

Exploration in multi-agent reinforcement learning is a challenging problem, especially in environments with sparse rewards. We propose a general method for efficient exploration by sharing experience amongst agents. Our proposed algorithm, called Shared Experience Actor-Critic (SEAC), applies experience sharing in an actor-critic framework. We evaluate SEAC in a collection of sparse-reward multi-agent environments and find that it consistently outperforms two baselines and two state-of-the-art algorithms by learning in fewer steps and converging to higher returns. In some harder environments, experience sharing makes the difference between learning to solve the task and not learning at all.
翻訳日:2022-11-22 04:45:09 公開日:2021-05-19
# 知識蒸留による多元性ニューラルアーキテクチャ探索

Multi-fidelity Neural Architecture Search with Knowledge Distillation ( http://arxiv.org/abs/2006.08341v2 )

ライセンス: Link先を確認
Ilya Trofimov, Nikita Klyuchnikov, Mikhail Salnikov, Alexander Filippov, Evgeny Burnaev(参考訳) neural architecture search (nas) は、問題や問題群に対するニューラルネットワークの最適なアーキテクチャを見つけることを目的としている。 ニューラルネットワークの評価は非常に時間がかかる。 この問題を軽減する方法の1つは、データセットの一部でのトレーニング、エポックの削減、チャンネルの削減など、低忠実度評価を使用することだ。 本稿では,ニューラルアーキテクチャ探索のためのベイズ的多重忠実度法 MF-KD を提案する。 この手法は、知識蒸留を用いたいくつかのエポックのトレーニングにより、ニューラルネットワークの低忠実度評価への新しいアプローチに依存している。 知識蒸留は、教師ネットワークを模倣するネットワークを強制する用語の損失関数に追加する。 CIFAR-10, CIFAR-100, ImageNet-16-120について実験を行った。 このような変化した損失関数を持ついくつかのエポックに対するトレーニングは、ロジスティックな損失を持ついくつかのエポックに対するトレーニングよりも、より優れたニューラルアーキテクチャの選択につながることを示す。 提案手法は,最先端のベースラインを上回っている。

Neural architecture search (NAS) targets at finding the optimal architecture of a neural network for a problem or a family of problems. Evaluations of neural architectures are very time-consuming. One of the possible ways to mitigate this issue is to use low-fidelity evaluations, namely training on a part of a dataset, fewer epochs, with fewer channels, etc. In this paper, we propose a bayesian multi-fidelity method for neural architecture search: MF-KD. The method relies on a new approach to low-fidelity evaluations of neural architectures by training for a few epochs using a knowledge distillation. Knowledge distillation adds to a loss function a term forcing a network to mimic some teacher network. We carry out experiments on CIFAR-10, CIFAR-100, and ImageNet-16-120. We show that training for a few epochs with such a modified loss function leads to a better selection of neural architectures than training for a few epochs with a logistic loss. The proposed method outperforms several state-of-the-art baselines.
翻訳日:2022-11-21 03:05:49 公開日:2021-05-19
# 最大ローミングマルチタスク学習

Maximum Roaming Multi-Task Learning ( http://arxiv.org/abs/2006.09762v4 )

ライセンス: Link先を確認
Lucas Pascal and Pietro Michiardi and Xavier Bost and Benoit Huet and Maria A. Zuluaga(参考訳) マルチタスク学習は、リソースの利用とパフォーマンスに関する利点によって人気を集めている。 それでも、複数のタスクに対するパラメータの協調最適化は、現在も活発な研究トピックである。 異なるタスク間のパラメータをサブパーティショニングすることは、共有重み付けに対する最適化の制約を緩和する効率的な方法であることが証明されている。 しかし、このアプローチの欠点の1つは、共同作業最適化によって概して設定される帰納バイアスを弱めることができることである。 本研究では,帰納バイアスを弱めることなくパラメータ空間を分割する方法を提案する。 具体的には,パラメータ分割をランダムに変更するドロップアウトにインスパイアされた手法であるmaximum roamingを提案する。 様々な視覚的マルチタスクデータセットの実験を通して,本手法の特性について検討する。 実験結果から,ローミングによる正規化が通常の分割最適化戦略よりも性能に与える影響が示唆された。 全体的な手法は柔軟で、容易に適用でき、優れた正規化を提供し、最近のマルチタスク学習の定式化と比べて一貫してパフォーマンスが向上している。

Multi-task learning has gained popularity due to the advantages it provides with respect to resource usage and performance. Nonetheless, the joint optimization of parameters with respect to multiple tasks remains an active research topic. Sub-partitioning the parameters between different tasks has proven to be an efficient way to relax the optimization constraints over the shared weights, may the partitions be disjoint or overlapping. However, one drawback of this approach is that it can weaken the inductive bias generally set up by the joint task optimization. In this work, we present a novel way to partition the parameter space without weakening the inductive bias. Specifically, we propose Maximum Roaming, a method inspired by dropout that randomly varies the parameter partitioning, while forcing them to visit as many tasks as possible at a regulated frequency, so that the network fully adapts to each update. We study the properties of our method through experiments on a variety of visual multi-task data sets. Experimental results suggest that the regularization brought by roaming has more impact on performance than usual partitioning optimization strategies. The overall method is flexible, easily applicable, provides superior regularization and consistently achieves improved performances compared to recent multi-task learning formulations.
翻訳日:2022-11-19 19:06:48 公開日:2021-05-19
# 大分散はよりレジリエンスを増す: 線形回帰モデルに対する効果的な攻撃と防御

With Great Dispersion Comes Greater Resilience: Efficient Poisoning Attacks and Defenses for Linear Regression Models ( http://arxiv.org/abs/2006.11928v5 )

ライセンス: Link先を確認
Jialin Wen, Benjamin Zi Hao Zhao, Minhui Xue, Alina Oprea and Haifeng Qian(参考訳) マシンラーニングパイプラインにおけるサードパーティの台頭、"Machine Learning as a Service"(MLaaS)のサービスプロバイダ、あるいはオンライン学習における外部データコントリビュータ、あるいは既存モデルのトレーニングなどにより、結果として発生する機械学習モデルのセキュリティがますます重要になっている。 セキュリティコミュニティは、データと結果のモデルの透明性がなければ、多くの潜在的なセキュリティリスクが存在し、新たなリスクが常に発見されることを示した。 本稿では,これらのセキュリティリスク - 毒殺攻撃の1つに焦点を当てる。 具体的には,学習データセットを汚染することにより,攻撃者が回帰学習の結果にどう干渉するかを分析する。 そこで本研究では,新たな毒素攻撃アルゴリズムを解析・開発する。 我々の攻撃はNoptと呼ばれ、従来の中毒攻撃アルゴリズムとは対照的に、より大きなエラーを発生させることができる。 さらに、クリーンなデータポイントの確率推定の概念をアルゴリズムに取り入れることで、Jagielskらによって提案された最先端の防衛アルゴリズムであるTRIM(IEEE S&P 2018)を大幅に改善する。 prodaと呼ばれる新しい防御アルゴリズムは,アサンブルモデルを最適化することで,中毒データセットから発生するエラーを減らす効果が高まることを実証する。 TRIMの時間複雑性は推定されていないが、TRIMが最悪のシナリオにおいて、Prodaの対数時間を超える指数時間複雑性を取ることができるという彼らの研究から推測する。 提案する攻撃アルゴリズムと防御アルゴリズムの性能は,住宅価格,ローン,医療,自転車シェアリングの4つの実世界のデータセット上で広範囲に評価されている。 私たちの研究が将来の研究に刺激を与え、より堅牢な学習アルゴリズムを開発することを期待しています。

With the rise of third parties in the machine learning pipeline, the service provider in "Machine Learning as a Service" (MLaaS), or external data contributors in online learning, or the retraining of existing models, the need to ensure the security of the resulting machine learning models has become an increasingly important topic. The security community has demonstrated that without transparency of the data and the resulting model, there exist many potential security risks, with new risks constantly being discovered. In this paper, we focus on one of these security risks -- poisoning attacks. Specifically, we analyze how attackers may interfere with the results of regression learning by poisoning the training datasets. To this end, we analyze and develop a new poisoning attack algorithm. Our attack, termed Nopt, in contrast with previous poisoning attack algorithms, can produce larger errors with the same proportion of poisoning data-points. Furthermore, we also significantly improve the state-of-the-art defense algorithm, termed TRIM, proposed by Jagielsk et al. (IEEE S&P 2018), by incorporating the concept of probability estimation of clean data-points into the algorithm. Our new defense algorithm, termed Proda, demonstrates an increased effectiveness in reducing errors arising from the poisoning dataset through optimizing ensemble models. We highlight that the time complexity of TRIM had not been estimated; however, we deduce from their work that TRIM can take exponential time complexity in the worst-case scenario, in excess of Proda's logarithmic time. The performance of both our proposed attack and defense algorithms is extensively evaluated on four real-world datasets of housing prices, loans, health care, and bike sharing services. We hope that our work will inspire future research to develop more robust learning algorithms immune to poisoning attacks.
翻訳日:2022-11-18 12:42:15 公開日:2021-05-19
# ツリーテンソルネットワークによる学習:複雑性推定とモデル選択

Learning with tree tensor networks: complexity estimates and model selection ( http://arxiv.org/abs/2007.01165v3 )

ライセンス: Link先を確認
Bertrand Michel and Anthony Nouy(参考訳) ツリーテンソルネットワーク(ツリーテンソルネットワーク、tree tensor network)は、計算とデータ科学における高次元関数の近似のモデルクラスである。 これらは、次元木とテンソルランクのタプルによって与えられる幅に関連付けられた疎結合の和積ニューラルネットワークに対応する。 これらのモデルの近似力は古典的滑らか度クラスに最適であることが証明されている。 しかし、観測回数が少ない経験的リスク最小化フレームワークでは、推定と近似誤差のバランスをとるために、次元木とランクを慎重に選択する必要がある。 経験的リスク最小化フレームワークを用いて,木テンソルネットワークの複雑性に基づくモデル選択手法を提案し,解析し,その性能を幅広いスムーズなクラスで解析する。 異なる木、ランク、テンソル積特徴空間、スパーステンソルネットワークのスパース性パターンに関連するモデルクラスのファミリーが与えられたとき、ペナルティ化された経験的リスクを最小化し、モデルクラスの複雑さに応じてペナルティを課し、ツリーテンソルネットワークの計量エントロピーの推定からモデルを選択する(\`a la barron, birg\'e, massart)。 このペナルティの選択は、選択された予測者に拘束されるリスクをもたらす。 低二乗の設定では、リスクの収束率を高速に導出した後、ソボレフ空間やベッソフ空間(等方性、異方性、または混合ドーピング滑らか性を含む)や解析関数を含む幅広い滑らか性クラスに適応する戦略が(ほぼ)ミニマックスであることを示す。 いくつかの制度において最適な性能を得るために,テンソルネットワークのスパーシティが果たす役割について論じる。 実際には、ペナルティの振幅は傾斜ヒューリスティックス法で校正される。 最小二乗回帰設定における数値実験は、戦略の性能を示す。

Tree tensor networks, or tree-based tensor formats, are prominent model classes for the approximation of high-dimensional functions in computational and data science. They correspond to sum-product neural networks with a sparse connectivity associated with a dimension tree and widths given by a tuple of tensor ranks. The approximation power of these models has been proved to be (near to) optimal for classical smoothness classes. However, in an empirical risk minimization framework with a limited number of observations, the dimension tree and ranks should be selected carefully to balance estimation and approximation errors. We propose and analyze a complexity-based model selection method for tree tensor networks in an empirical risk minimization framework and we analyze its performance over a wide range of smoothness classes. Given a family of model classes associated with different trees, ranks, tensor product feature spaces and sparsity patterns for sparse tensor networks, a model is selected (\`a la Barron, Birg\'e, Massart) by minimizing a penalized empirical risk, with a penalty depending on the complexity of the model class and derived from estimates of the metric entropy of tree tensor networks. This choice of penalty yields a risk bound for the selected predictor. In a least-squares setting, after deriving fast rates of convergence of the risk, we show that our strategy is (near to) minimax adaptive to a wide range of smoothness classes including Sobolev or Besov spaces (with isotropic, anisotropic or mixed dominating smoothness) and analytic functions. We discuss the role of sparsity of the tensor network for obtaining optimal performance in several regimes. In practice, the amplitude of the penalty is calibrated with a slope heuristics method. Numerical experiments in a least-squares regression setting illustrate the performance of the strategy.
翻訳日:2022-11-14 14:44:50 公開日:2021-05-19
# 分類結果の可視化のためのクラスマップ

Class maps for visualizing classification results ( http://arxiv.org/abs/2007.14495v3 )

ライセンス: Link先を確認
Jakob Raymaekers, Peter J. Rousseeuw, Mia Hubert(参考訳) 分類は統計と機械学習の主要なツールである。 分類メソッドはまず、与えられたクラス(ラベル)を持つオブジェクトのトレーニングセットを処理し、その後、これらのクラスに新しいオブジェクトを割り当てる。 トレーニングデータまたはテストデータ上で結果の予測方法を実行すると、与えられたラベルとは異なるクラスにオブジェクトが配置されていると予測される可能性がある。 これはしばしばラベルバイアスと呼ばれ、オブジェクトがラベル付けされたかどうかという疑問を提起する。 提案されたクラスマップは、あるオブジェクトが別のクラスに属する確率、与えられたクラス内の他のオブジェクトからの距離、そしてあるオブジェクトがすべてのクラスから遠く離れているかどうかを反映している。 目標は、分類結果の側面を視覚化して、データの洞察を得ることです。 ディスプレイは、識別分析、k-アレスト近傍分類器、支持ベクトルマシン、ロジスティック回帰、結合対分類のために構成される。 画像やテキストを含むいくつかのベンチマークデータセットで示されている。

Classification is a major tool of statistics and machine learning. A classification method first processes a training set of objects with given classes (labels), with the goal of afterward assigning new objects to one of these classes. When running the resulting prediction method on the training data or on test data, it can happen that an object is predicted to lie in a class that differs from its given label. This is sometimes called label bias, and raises the question whether the object was mislabeled. The proposed class map reflects the probability that an object belongs to an alternative class, how far it is from the other objects in its given class, and whether some objects lie far from all classes. The goal is to visualize aspects of the classification results to obtain insight in the data. The display is constructed for discriminant analysis, the k-nearest neighbor classifier, support vector machines, logistic regression, and coupling pairwise classifications. It is illustrated on several benchmark datasets, including some about images and texts.
翻訳日:2022-11-06 02:02:15 公開日:2021-05-19
# I-AID:災害関連ツイートから実行可能な情報を識別する

I-AID: Identifying Actionable Information from Disaster-related Tweets ( http://arxiv.org/abs/2008.13544v2 )

ライセンス: Link先を確認
Hamada M. Zahera, Rricha Jalota, Mohamed A. Sherif, Axel N. Ngomo(参考訳) 災害管理においてソーシャルメディアは、影響を受けた人々、寄付、支援要請に関する貴重なデータを提供することで重要な役割を担っている。 最近の研究では、ソーシャルメディアの情報をきめ細かいコンテンツラベルにフィルターする必要性が強調されている。 しかし、危機時の大量のソーシャルメディア投稿から有用な情報を識別することは難しい課題である。 本稿では,ツイートを自動的にマルチラベル情報タイプに分類し,膨大なソーシャルメディアデータから重要な情報をフィルタリングするマルチモデル手法であるI-AIDを提案する。 I-AIDには3つの主要コンポーネントが含まれている。 一 つぶやきの意味を捉え、低次元ベクトルとして表すBERTベースのエンコーダ 二 ツイートの言葉・内容と対応する情報型との相関関係を理解するグラフ注意ネットワーク(gat) 三 ツイートと対応する情報の種類との類似性を教師付き方法で計算する学習可能な距離計量としての関係ネットワーク 実際に利用可能な2つのデータセットについていくつかの実験を行った。 以上の結果から,I-AIDはTREC-ISデータセットおよびCOVID-19 Tweetsにおいて,平均F1得点の6%,+4%において最先端のアプローチよりも優れていた。

Social media plays a significant role in disaster management by providing valuable data about affected people, donations and help requests. Recent studies highlight the need to filter information on social media into fine-grained content labels. However, identifying useful information from massive amounts of social media posts during a crisis is a challenging task. In this paper, we propose I-AID, a multimodel approach to automatically categorize tweets into multi-label information types and filter critical information from the enormous volume of social media data. I-AID incorporates three main components: i) a BERT-based encoder to capture the semantics of a tweet and represent as a low-dimensional vector, ii) a graph attention network (GAT) to apprehend correlations between tweets' words/entities and the corresponding information types, and iii) a Relation Network as a learnable distance metric to compute the similarity between tweets and their corresponding information types in a supervised way. We conducted several experiments on two real publicly-available datasets. Our results indicate that I-AID outperforms state-of-the-art approaches in terms of weighted average F1 score by +6% and +4% on the TREC-IS dataset and COVID-19 Tweets, respectively.
翻訳日:2022-11-02 23:13:01 公開日:2021-05-19
# 機械学習を用いた観測データにおける不均一生存治療効果の推定

Estimating heterogeneous survival treatment effect in observational data using machine learning ( http://arxiv.org/abs/2008.07044v4 )

ライセンス: Link先を確認
Liangyuan Hu, Jiayi Ji, Fan Li(参考訳) 観察データにおける不均一な治療効果を推定する方法は、主に連続的または二分的な結果に焦点を合わせており、生存結果に対する検証は比較的少ない。 対物的フレームワークで柔軟な機械学習手法を使用することは、複雑な個々の特性による課題に対処する上で有望なアプローチである。 治療効果の不均一性評価のための最近の生存機械学習手法の動作特性を評価するため, 統合された不均一な生存治療効果と各種の共変量重なりを記述した広範囲な設定について, 総合的なシミュレーション研究を行った。 以上の結果から,AFT-BART-NPのフレームワーク内の非パラメトリックベイズ付加回帰木は,バイアス,精度,期待される後悔の点において,常に最高の性能が得られることが示唆された。 さらに、AFT-BART-NPの信頼区間推定器は、共変量重なりが少なくとも適度である場合に、個々の生存治療効果に対して、名目上の頻繁なカバレッジを提供する。 AFT-BART-NPモデルの定式化では、非パラメトリック推定確率スコアを追加の固定共変量として含めることで、その効率と頻繁なカバレッジをさらに向上させることができる。 最後に, 局所性高リスク前立腺癌に対する2種類の放射線療法の生存効果を総合的に検討し, 柔軟な因果機械学習推定装置の適用を実証した。

Methods for estimating heterogeneous treatment effect in observational data have largely focused on continuous or binary outcomes, and have been relatively less vetted with survival outcomes. Using flexible machine learning methods in the counterfactual framework is a promising approach to address challenges due to complex individual characteristics, to which treatments need to be tailored. To evaluate the operating characteristics of recent survival machine learning methods for the estimation of treatment effect heterogeneity and inform better practice, we carry out a comprehensive simulation study presenting a wide range of settings describing confounded heterogeneous survival treatment effects and varying degrees of covariate overlap. Our results suggest that the nonparametric Bayesian Additive Regression Trees within the framework of accelerated failure time model (AFT-BART-NP) consistently yields the best performance, in terms of bias, precision and expected regret. Moreover, the credible interval estimators from AFT-BART-NP provide close to nominal frequentist coverage for the individual survival treatment effect when the covariate overlap is at least moderate. Including a non-parametrically estimated propensity score as an additional fixed covariate in the AFT-BART-NP model formulation can further improve its efficiency and frequentist coverage. Finally, we demonstrate the application of flexible causal machine learning estimators through a comprehensive case study examining the heterogeneous survival effects of two radiotherapy approaches for localized high-risk prostate cancer.
翻訳日:2022-10-28 04:09:24 公開日:2021-05-19
# マルチスケールシステムの説明可能な深層学習のための相互情報

Mutual Information for Explainable Deep Learning of Multiscale Systems ( http://arxiv.org/abs/2009.04570v2 )

ライセンス: Link先を確認
S{\o}ren Taverniers and Eric J. Hall and Markos A. Katsoulakis and Daniel M. Tartakovsky(参考訳) コンシューマエレクトロニクスから超音速車まで、複雑なシステムの設計サイクルのタイムリーな完了は、高速なシミュレーションベースのプロトタイピングに依存している。 後者は典型的には、相関制御変数 (CV) の高次元空間と、非ガウス分布および多様分布の興味量 (QoIs) を含む。 我々は,QoIに対するCVの影響をランク付けするために,差分相互情報に依存するモデルに依存しない,モーメント非依存なグローバル感度解析(GSA)を開発した。 この情報理論アプローチのGSAに対するデータ要求は、物理ベースのモデルの計算集約的なコンポーネントをディープニューラルネットワークサロゲートに置き換えることで満たされる。 その後、GSAはネットワーク予測を説明するために使用され、サロゲートは設計ループを閉じるためにデプロイされる。 このフレームワークはサロゲートを問う不確実な定量化手法として見なされ、多様なブラックボックスモデルと互換性がある。 サーロゲート駆動の相互情報gsaは,エネルギー貯蔵分野における2つの応用において有用かつ識別可能なランキングを提供する。 その結果、情報理論GSAは、最も感度の低い入力方向を識別し、パラメータ部分空間を適切に削減し、その後の最適化を行うことにより、製品設計を加速するための「外部ループ」を提供する。

Timely completion of design cycles for complex systems ranging from consumer electronics to hypersonic vehicles relies on rapid simulation-based prototyping. The latter typically involves high-dimensional spaces of possibly correlated control variables (CVs) and quantities of interest (QoIs) with non-Gaussian and possibly multimodal distributions. We develop a model-agnostic, moment-independent global sensitivity analysis (GSA) that relies on differential mutual information to rank the effects of CVs on QoIs. The data requirements of this information-theoretic approach to GSA are met by replacing computationally intensive components of the physics-based model with a deep neural network surrogate. Subsequently, the GSA is used to explain the network predictions, and the surrogate is deployed to close design loops. Viewed as an uncertainty quantification method for interrogating the surrogate, this framework is compatible with a wide variety of black-box models. We demonstrate that the surrogate-driven mutual information GSA provides useful and distinguishable rankings on two applications of interest in energy storage. Consequently, our information-theoretic GSA provides an "outer loop" for accelerated product design by identifying the most and least sensitive input directions and performing subsequent optimization over appropriately reduced parameter subspaces.
翻訳日:2022-10-21 02:48:52 公開日:2021-05-19
# 遅延フィードバックと減衰コストを伴うmabとしてのキャッシュ置換

Cache Replacement as a MAB with Delayed Feedback and Decaying Costs ( http://arxiv.org/abs/2009.11330v4 )

ライセンス: Link先を確認
Farzana Beente Yusuf, Vitalii Stebliankin, Giuseppe Vietri, Giri Narasimhan(参考訳) キャッシュ置換問題に触発されて,よく知られたマルチアーム付きバンディット (mab) の新しい変種を提案,解決し,既存のキャッシュ管理手法を改善するためのソリューションを提供する。 各arm(またはエキスパート)は、異なるキャッシュ置換ポリシーを示し、必要に応じてページ上でキャッシュから退避するようにアドバイスする。 退行に対するフィードバックは「ミス」という形で来るが、アクションが取られた後に不確定なタイミングで行われ、退行のコストは応答時間に逆比例するように設定される。 フィードバックが遅延のしきい値の後にくると無視されるので、ページの省略履歴のサイズに等しいと仮定する。 したがって、しきい値を超える遅延の場合、そのコストはゼロと仮定される。 その結果,フィードバックの遅れやコストの低下が問題となっている。 本稿では,この問題に対する解決策を提供する適応強化学習アルゴリズムexp4-dfdcを提案する。 探索と利用のバランスを定義したEXP4-DFDCの最適学習率を導出し,提案アルゴリズムの期待された後悔は時間の関数としての消滅量であることを理論的に証明する。 アプリケーションとして,最近のキャッシュ置換のためのトップパフォーマンス機械学習アルゴリズムであるlecarが,提案手法を用いた適応学習により拡張可能であることを示す。 本稿では,EXP4-DFDCの後悔を最小限に抑えるため,理論的導出によって決定される学習率を,OLeCaRと呼ばれる改良された適応型LeCaRを提案する。 その後、LeCaRとOLeCaRは理論上、時間の経過とともに後悔が消えることが保証されている。

Inspired by the cache replacement problem, we propose and solve a new variant of the well-known multi-armed bandit (MAB), thus providing a solution for improving existing state-of-the-art cache management methods. Each arm (or expert) represents a distinct cache replacement policy, which advises on the page to evict from the cache when needed. Feedback on the eviction comes in the form of a "miss", but at an indeterminate time after the action is taken, and the cost of the eviction is set to be inversely proportional to the response time. The feedback is ignored if it comes after a threshold value for the delay, which we set to be equal to the size of the page eviction history. Thus, for delays beyond the threshold, its cost is assumed to be zero. Consequently, we call this problem with delayed feedback and decaying costs. We introduce an adaptive reinforcement learning algorithm EXP4-DFDC that provides a solution to the problem. We derive an optimal learning rate for EXP4-DFDC that defines the balance between exploration and exploitation and proves theoretically that the expected regret of our algorithm is a vanishing quantity as a function of time. As an application, we show that LeCaR, a recent top-performing machine learning algorithm for cache replacement, can be enhanced with adaptive learning using our formulations. We present an improved adaptive version of LeCaR, called OLeCaR, with the learning rate set as determined by the theoretical derivation presented here to minimize regret for EXP4-DFDC. It then follows that LeCaR and OLeCaR are theoretically guaranteed to have vanishing regret over time.
翻訳日:2022-10-15 15:35:07 公開日:2021-05-19
# オンライン乱用の自動検出におけるクロスデータセット一般化について

On Cross-Dataset Generalization in Automatic Detection of Online Abuse ( http://arxiv.org/abs/2010.07414v3 )

ライセンス: Link先を確認
Isar Nejadgholi and Svetlana Kiritchenko(参考訳) NLP研究は、教師付き分類タスクとして、虐待的言語検出において高いパフォーマンスを達成した。 研究環境では、トレーニングデータセットとテストデータセットは、通常同様のデータサンプルから得られるが、実際には、トピックやクラス分布のトレーニングセットとは異なるデータに適用されることが多い。 また、このタスクで継承されるクラス定義の曖昧さは、ソースとターゲットデータセットの相違を悪化させる。 クロスデータセット一般化におけるトピックバイアスとタスク定式バイアスについて検討する。 Wikipedia Detoxデータセットの良質な例は、プラットフォーム固有のトピックに偏っていることを示す。 教師なしトピックモデリングとトピックキーワードの手動検査を用いて,これらの例を同定する。 これらのトピックの削除は、ドメイン内の分類性能を低下させることなく、データセット間の一般化を促進する。 頑健なデータセット設計のために,クラスラベルを手動で注釈付けする前に,安価な教師なし手法を用いて収集したデータを検査し,一般化不可能なコンテンツを縮小することを提案する。

NLP research has attained high performances in abusive language detection as a supervised classification task. While in research settings, training and test datasets are usually obtained from similar data samples, in practice systems are often applied on data that are different from the training set in topic and class distributions. Also, the ambiguity in class definitions inherited in this task aggravates the discrepancies between source and target datasets. We explore the topic bias and the task formulation bias in cross-dataset generalization. We show that the benign examples in the Wikipedia Detox dataset are biased towards platform-specific topics. We identify these examples using unsupervised topic modeling and manual inspection of topics' keywords. Removing these topics increases cross-dataset generalization, without reducing in-domain classification performance. For a robust dataset design, we suggest applying inexpensive unsupervised methods to inspect the collected data and downsize the non-generalizable content before manually annotating for class labels.
翻訳日:2022-10-07 12:36:53 公開日:2021-05-19
# AutoMLの日程と日程 - 課題と機会

AutoML to Date and Beyond: Challenges and Opportunities ( http://arxiv.org/abs/2010.10777v4 )

ライセンス: Link先を確認
Shubhra Kanti Karmaker Santu, Md. Mahadi Hassan, Micah J. Smith, Lei Xu, ChengXiang Zhai, Kalyan Veeramachaneni(参考訳) ビッグデータがドメイン全体に広まり、より多くの利害関係者が自分たちのデータを最大限に活用しようとしている中、機械学習ツールの需要が、研究者たちに自動機械学習(AutoML)の可能性を探らせた。 AutoMLツールは、非機械学習専門家(ドメインエキスパート)が機械学習にアクセスできるようにすること、機械学習の効率を改善すること、機械学習の研究を加速することを目的としている。 しかし、自動化と効率性はAutoMLの主要なセールスポイントであるが、このプロセスは、ドメイン固有のデータの属性の理解、予測問題の定義、適切なトレーニングデータセットの作成、有望な機械学習テクニックの選択など、多くの重要なステップで人間の関与を必要とする。 これらのステップでは、ドメインの専門家やデータサイエンティストがこのプロセスを非効率にし、いわゆるAutoMLシステムが真に自動化されないようにする。 本稿では,7層スキーマを用いて,自律性レベルに基づいてシステムを識別する,automlシステムの新しい分類システムを提案する。 まず、エンドツーエンドの機械学習パイプラインが実際にどのようなもので、機械学習パイプラインのどのサブタスクが自動化されているのかを説明します。 一般的にデータ科学者が手作業で行うサブタスクを強調し、これがドメインの専門家による機械学習へのアクセスを制限する方法を説明する。 次に,新しいオートmlシステムのためのレベルベース分類法を導入し,提供される自動化サポートの範囲に応じて各レベルを定義する。 最後に、将来的にのロードマップを示し、エンドツーエンドの機械学習パイプラインをさらに自動化するために必要な研究と、この野心的な目標に向かっている重要な課題について議論します。

As big data becomes ubiquitous across domains, and more and more stakeholders aspire to make the most of their data, demand for machine learning tools has spurred researchers to explore the possibilities of automated machine learning (AutoML). AutoML tools aim to make machine learning accessible for non-machine learning experts (domain experts), to improve the efficiency of machine learning, and to accelerate machine learning research. But although automation and efficiency are among AutoML's main selling points, the process still requires human involvement at a number of vital steps, including understanding the attributes of domain-specific data, defining prediction problems, creating a suitable training data set, and selecting a promising machine learning technique. These steps often require a prolonged back-and-forth that makes this process inefficient for domain experts and data scientists alike, and keeps so-called AutoML systems from being truly automatic. In this review article, we introduce a new classification system for AutoML systems, using a seven-tiered schematic to distinguish these systems based on their level of autonomy. We begin by describing what an end-to-end machine learning pipeline actually looks like, and which subtasks of the machine learning pipeline have been automated so far. We highlight those subtasks which are still done manually - generally by a data scientist - and explain how this limits domain experts' access to machine learning. Next, we introduce our novel level-based taxonomy for AutoML systems and define each level according to the scope of automation support provided. Finally, we lay out a roadmap for the future, pinpointing the research required to further automate the end-to-end machine learning pipeline and discussing important challenges that stand in the way of this ambitious goal.
翻訳日:2022-10-04 22:56:57 公開日:2021-05-19
# 脳活性化マップのマイトショットデコード

Few-shot Decoding of Brain Activation Maps ( http://arxiv.org/abs/2010.12500v3 )

ライセンス: Link先を確認
Myriam Bontonou, Giulia Lioi, Nicolas Farrugia, Vincent Gripon(参考訳) わずかなショット学習は、限られた数のトレーニング例が利用可能である問題に対処する。 これまでのところ、この分野は主にコンピュータビジョンの応用によって推進されている。 ここでは,最近導入された,有望な応用分野であるニューロイメージングデータを扱う問題を解決するための,少数ショット法の適用に関心を寄せる。 この目的のために,数ショット学習のためのニューロイメージングベンチマークデータセットを作成し,メタラーニングを含む複数の学習パラダイムと,さまざまなバックボーンネットワークを比較した。 脳のスキャンからバイオマーカーを同定したり、幅広い認知タスクにおける脳の表現の一般化を理解するなど、臨床および認知神経科学における多くの応用の道を開く数少ない例を用いて、脳信号を効率的に復号することができることを示す。

Few-shot learning addresses problems for which a limited number of training examples are available. So far, the field has been mostly driven by applications in computer vision. Here, we are interested in adapting recently introduced few-shot methods to solve problems dealing with neuroimaging data, a promising application field. To this end, we create a neuroimaging benchmark dataset for few-shot learning and compare multiple learning paradigms, including meta-learning, as well as various backbone networks. Our experiments show that few-shot methods are able to efficiently decode brain signals using few examples, which paves the way for a number of applications in clinical and cognitive neuroscience, such as identifying biomarkers from brain scans or understanding the generalization of brain representations across a wide range of cognitive tasks.
翻訳日:2022-10-03 23:36:09 公開日:2021-05-19
# 競技の重要なパターンを特定するためのスポーツにおけるイベントシーケンスの教師付き逐次パターンマイニング:ラグビーユニオンへの適用

Supervised sequential pattern mining of event sequences in sport to identify important patterns of play: an application to rugby union ( http://arxiv.org/abs/2010.15377v4 )

ライセンス: Link先を確認
Rory Bunker, Keisuke Fujii, Hiroyuki Hanada, Ichiro Takeuchi(参考訳) 時系列パターンマイニングは、時間順のイベントからなる一連のシーケンスが与えられると、異なるシーケンスまたは同じシーケンス内の頻繁なサブシーケンスを特定するのに有用である。 しかし、スポーツにおいては、これらのテクニックは、良い結果や悪い結果に対する特定の遊びのパターンの重要性を判断できないため、コーチやパフォーマンスアナリストにとって大きな関心事となることが多い。 そこで本研究では,2018年トップリーグのラグビーチームの試合のパスを表す490のラベル付きイベントシーケンスに対して,安全パターンプルーニング(SPP)と呼ばれる教師付きシーケンシャルなパターンマイニングアルゴリズムを適用した。 スコアと非スケーシングの結果をチームと反対チームの両方の観点から最も区別するsppに拘束されたパターンと、ラベル上で分割されたオリジナルのデータセットのサブセットに適用される際に、よく知られた教師なしの逐次パターンマイニングアルゴリズムで得られる最も頻繁なパターンを比較した。 その結果、ラインブレイク、ラインアウト成功、キックの復活、フェイズブレイクダウンを繰り返したプレー、対戦チームによる離脱プレーの失敗は、チーム得点と得点の差を最も区別するパターンであると判明した。 反対チームのラインブレーク、チームによるエラー、反対チームのラインアウト、反対チームによる繰り返しのフェーズブレークダウンプレイは、対戦チームの得点と得点を区別するパターンとして識別された。 また、監督された性質と刈り取りや安全遮蔽性のおかげで、sppは監督されていないモデルよりもより洗練されたパターンを多種多様に獲得し、コーチやパフォーマンスアナリストにとって有用である可能性が示唆された。

Given a set of sequences comprised of time-ordered events, sequential pattern mining is useful to identify frequent subsequences from different sequences or within the same sequence. However, in sport, these techniques cannot determine the importance of particular patterns of play to good or bad outcomes, which is often of greater interest to coaches and performance analysts. In this study, we apply a recently proposed supervised sequential pattern mining algorithm called safe pattern pruning (SPP) to 490 labelled event sequences representing passages of play from one rugby team's matches from the 2018 Japan Top League. We compare the SPP-obtained patterns that are the most discriminative between scoring and non-scoring outcomes from both the team's and opposition teams' perspectives, with the most frequent patterns obtained with well-known unsupervised sequential pattern mining algorithms when applied to subsets of the original dataset, split on the label. Our obtained results found that linebreaks, successful lineouts, regained kicks in play, repeated phase-breakdown play, and failed exit plays by the opposition team were identified as as the patterns that discriminated most between the team scoring and not scoring. Opposition team linebreaks, errors made by the team, opposition team lineouts, and repeated phase-breakdown play by the opposition team were identified as the patterns that discriminated most between the opposition team scoring and not scoring. It was also found that, by virtue of its supervised nature as well as its pruning and safe-screening properties, SPP obtained a greater variety of generally more sophisticated patterns than the unsupervised models, which are likely to be of more utility to coaches and performance analysts.
翻訳日:2022-10-01 23:21:20 公開日:2021-05-19
# Tonic: 高速プロトタイピングとベンチマークのための深層強化学習ライブラリ

Tonic: A Deep Reinforcement Learning Library for Fast Prototyping and Benchmarking ( http://arxiv.org/abs/2011.07537v2 )

ライセンス: Link先を確認
Fabio Pardo(参考訳) 深層強化学習は、過去数年間で最も急速に成長している機械学習分野の1つであり、研究を支援するために多くのライブラリがオープンソースとして公開されている。 しかし、ほとんどのコードベースは急勾配の学習曲線や限られた柔軟性を持ち、基礎研究において高速なプロトタイピングの必要性を満たさない。 本稿では,新たなアイデアを迅速に実装し,その重要性を測定するためのpythonライブラリであるtonicを紹介する。 1)汎用構成可能モジュール 2)いくつかのベースラインエージェント(a2c,trpo,ppo,mpo,ddpg,d4pg,td3,sac) 3)TensorFlow 2とPyTorchのサポート 4) OpenAI Gym、DeepMind Control Suite、PyBulletからの継続的制御環境のサポート 5)再現可能な方法で実験するためのスクリプト、プロット結果、訓練されたエージェントとの遊び 6)70の連続制御タスクに対する提供エージェントのベンチマーク。 非終端タイムアウトや観察正規化といった一般的な改善点を共有しながら、同一種、トレーニング、テストループで公正な条件で評価を行う。 最後に、Tonicが実験をいかに単純化するかを示すために、TD4と呼ばれる新しいエージェントを実装し、評価する。

Deep reinforcement learning has been one of the fastest growing fields of machine learning over the past years and numerous libraries have been open sourced to support research. However, most codebases have a steep learning curve or limited flexibility that do not satisfy a need for fast prototyping in fundamental research. This paper introduces Tonic, a Python library allowing researchers to quickly implement new ideas and measure their importance by providing: 1) general-purpose configurable modules 2) several baseline agents: A2C, TRPO, PPO, MPO, DDPG, D4PG, TD3 and SAC built with these modules 3) support for TensorFlow 2 and PyTorch 4) support for continuous-control environments from OpenAI Gym, DeepMind Control Suite and PyBullet 5) scripts to experiment in a reproducible way, plot results, and play with trained agents 6) a benchmark of the provided agents on 70 continuous-control tasks. Evaluation is performed in fair conditions with identical seeds, training and testing loops, while sharing general improvements such as non-terminal timeouts and observation normalization. Finally, to demonstrate how Tonic simplifies experimentation, a novel agent called TD4 is implemented and evaluated.
翻訳日:2022-09-25 07:31:37 公開日:2021-05-19
# 臨床物語における薬物変化事象の臨床的文脈の理解に向けて

Toward Understanding Clinical Context of Medication Change Events in Clinical Narratives ( http://arxiv.org/abs/2011.08835v2 )

ライセンス: Link先を確認
Diwakar Mahajan, Jennifer J Liang, Ching-Huei Tsou(参考訳) 臨床物語における薬物イベントの理解は、患者の薬歴を完全に把握するために不可欠である。 以前の研究は臨床ノートから医薬品の変化の分類を検討したが、これまでの研究は、薬のタイムライン生成や医薬品の和解など、現実世界での使用に必要な臨床コンテキストを考慮していない。 本稿では,臨床記録に記録された薬物変化の関連状況を把握するためのデータセットであるCMED(Contextualized Medication Event Dataset)について,臨床事象のコンテキストを様々な直交次元に整理する新しい概念的枠組みを用いて検討した。 この過程において,医薬品変更イベントに関連する特定の文脈的側面を定義し,データセットを特徴付け,予備実験の結果を報告する。 CMEDは、500以上の臨床ノートに注記された9,013の医薬品から成り、2021年に共有タスクとしてコミュニティに解放される。

Understanding medication events in clinical narratives is essential to achieving a complete picture of a patient's medication history. While prior research has explored classification of medication changes from clinical notes, studies to date have not considered the necessary clinical context needed for their use in real-world applications, such as medication timeline generation and medication reconciliation. In this paper, we present the Contextualized Medication Event Dataset (CMED), a dataset for capturing relevant context of medication changes documented in clinical notes, which was developed using a novel conceptual framework that organizes context for clinical events into various orthogonal dimensions. In this process, we define specific contextual aspects pertinent to medication change events, characterize the dataset, and report the results of preliminary experiments. CMED consists of 9,013 medication mentions annotated over 500 clinical notes, and will be released to the community as a shared task in 2021.
翻訳日:2022-09-24 16:39:13 公開日:2021-05-19
# FLAT: 高速で軽量で高精度な心電図推定法

FLAT: Fast, Lightweight and Accurate Method for Cardinality Estimation ( http://arxiv.org/abs/2011.09022v5 )

ライセンス: Link先を確認
Rong Zhu, Ziniu Wu, Yuxing Han, Kai Zeng, Andreas Pfadler, Zhengping Qian, Jingren Zhou, Bin Cui(参考訳) クエリオプティマイザは、優れた実行計画を生成するために正確な濃度推定(CardEst)に依存します。 CardEstの中核的な問題は、属性のリッチな結合分布を正確かつコンパクトにモデル化する方法である。 何十年にもわたっての研究にもかかわらず、既存の手法は、不正確な推定につながる独立因数分解のみを使用してモデルを単純化しすぎているか、あるいは確率計算を遅くする独立した仮定を伴わない無条件因数分解によってそれらを過度に複雑化する。 本稿では,確率計算において同時に高速で,モデルサイズが軽量で,推定品質が正確であるCardEst法であるFLATを提案する。 FLATのキーとなるアイデアは、FSPNと呼ばれる新しい教師なしグラフィカルモデルである。 属性相関の異なるレベルを適応的にモデル化するために、独立分解と条件分解の両方を利用し、その利点を補う。 FLATは、基礎となるFSPNモデルにほぼ線形時間で効率的なオンライン確率計算をサポートし、効果的なオフラインモデル構築を提供し、インクリメンタルモデル更新を可能にする。 単一のテーブルクエリとマルチテーブルジョインクエリの両方の濃度を見積もることができる。 flatは1桁から5桁の精度が向上し、1桁から3桁の確率計算速度が向上し、1桁から2桁のストレージコストが低下する。 また、FLATをPostgresに統合してエンドツーエンドのテストを行います。 クエリの実行時間をベンチマークのワークロードで12.9%改善し、真の濃度を使って14.2%の最適結果に非常に近い。

Query optimizers rely on accurate cardinality estimation (CardEst) to produce good execution plans. The core problem of CardEst is how to model the rich joint distribution of attributes in an accurate and compact manner. Despite decades of research, existing methods either over simplify the models only using independent factorization which leads to inaccurate estimates, or over complicate them by lossless conditional factorization without any independent assumption which results in slow probability computation. In this paper, we propose FLAT, a CardEst method that is simultaneously fast in probability computation, lightweight in model size and accurate in estimation quality. The key idea of FLAT is a novel unsupervised graphical model, called FSPN. It utilizes both independent and conditional factorization to adaptively model different levels of attributes correlations, and thus dovetails their advantages. FLAT supports efficient online probability computation in near liner time on the underlying FSPN model, provides effective offline model construction and enables incremental model updates. It can estimate cardinality for both single table queries and multi table join queries. Extensive experimental study demonstrates the superiority of FLAT over existing CardEst methods on well known IMDB benchmarks: FLAT achieves 1 to 5 orders of magnitude better accuracy, 1 to 3 orders of magnitude faster probability computation speed and 1 to 2 orders of magnitude lower storage cost. We also integrate FLAT into Postgres to perform an end to end test. It improves the query execution time by 12.9% on the benchmark workload, which is very close to the optimal result 14.2% using the true cardinality.
翻訳日:2022-09-24 04:47:55 公開日:2021-05-19
# 事前学習言語モデルのための自己学習

Self-training For Pre-training Language Models ( http://arxiv.org/abs/2011.09031v3 )

ライセンス: Link先を確認
Tong Guo(参考訳) 言語モデルの事前学習は多くの言語理解タスクで有用であることが証明されている。 本稿では,事前学習段階と微調整段階に自己学習法を加えることがまだ有用かどうかを検討する。 この目的に向けて,低リソースかつ高リソースのラベル付きデータセット上で,ラベルなしデータを最大限に活用する学習フレームワークを提案する。 業界におけるNLPアプリケーションでは、ユーザや顧客が生成する大量のデータがあります。 私たちの学習フレームワークは、この膨大な未ラベルデータに基づいています。 まず、手動ラベル付きデータセットに微調整されたモデルを用いて、ユーザ生成した未ラベルデータの擬似ラベルを予測する。 次に、擬似ラベルを用いて、大量のユーザ生成データに基づいてタスク固有のトレーニングを監督する。 擬似ラベルを用いたタスク固有のトレーニングステップを,次の微調整ステップの事前学習ステップとみなす。 最後に、事前学習したモデル上に手動ラベル付きデータセットを微調整します。 本研究では,手動でラベル付けした微調整データセットが比較的小さい場合に,本手法が性能を3.6%向上できることを示す。 また,手動でラベル付けした微調整データセットが比較的大きい場合に,その性能を0.2%向上させることができることを示す。 本手法は,事前学習と自己学習のどちらよりも優れている非ラベルデータを最大限に活用すると主張している。

Language model pre-training has proven to be useful in many language understanding tasks. In this paper, we investigate whether it is still helpful to add the self-training method in the pre-training step and the fine-tuning step. Towards this goal, we propose a learning framework that making best use of the unlabel data on the low-resource and high-resource labeled dataset. In industry NLP applications, we have large amounts of data produced by users or customers. Our learning framework is based on this large amounts of unlabel data. First, We use the model fine-tuned on manually labeled dataset to predict pseudo labels for the user-generated unlabeled data. Then we use the pseudo labels to supervise the task-specific training on the large amounts of user-generated data. We consider this task-specific training step on pseudo labels as a pre-training step for the next fine-tuning step. At last, we fine-tune on the manually labeled dataset upon the pre-trained model. In this work, we first empirically show that our method is able to solidly improve the performance by 3.6%, when the manually labeled fine-tuning dataset is relatively small. Then we also show that our method still is able to improve the performance further by 0.2%, when the manually labeled fine-tuning dataset is relatively large enough. We argue that our method make the best use of the unlabel data, which is superior to either pre-training or self-training alone.
翻訳日:2022-09-24 03:53:59 公開日:2021-05-19
# 高制約産業制御システムのための距離ベースインセンティブ・ペナルティ(DIP)更新による強化学習

Reinforcement learning with distance-based incentive/penalty (DIP) updates for highly constrained industrial control systems ( http://arxiv.org/abs/2011.10897v2 )

ライセンス: Link先を確認
Hyungjun Park, Daiki Min, Jong-hyun Ryu, Dong Gu Choi(参考訳) 典型的な強化学習(RL)法は,産業システムは様々な制約を伴い,同時に連続的かつ離散的な制御を必要とするため,実世界の産業制御問題に対して限定的な適用性を示す。 これらの課題を克服するために,エージェントが高度に制約された動作空間を処理できる新しいrlアルゴリズムを考案する。 このアルゴリズムには2つの主な特徴がある。 まず,距離に基づく2つのQ値更新方式,インセンティブ更新とペナルティ更新を遠隔ベースのインセンティブ・ペナルティ更新手法により考案し,エージェントが実行可能な領域における離散的かつ連続的な行動を決定し,これらの行動の値を更新できるようにする。 第2に,ペナルティコストをシャドープライス重み付けペナルティとして定義する方法を提案する。 このアプローチは、エージェントが実行不可能なアクションを選択しないように効率的に誘導する以前の方法に比べて2つの利点がある。 本アルゴリズムを産業制御問題,マイクログリッドシステム操作に適用し,その優位性を示す実験結果を得た。

Typical reinforcement learning (RL) methods show limited applicability for real-world industrial control problems because industrial systems involve various constraints and simultaneously require continuous and discrete control. To overcome these challenges, we devise a novel RL algorithm that enables an agent to handle a highly constrained action space. This algorithm has two main features. First, we devise two distance-based Q-value update schemes, incentive update and penalty update, in a distance-based incentive/penalty update technique to enable the agent to decide discrete and continuous actions in the feasible region and to update the value of these types of actions. Second, we propose a method for defining the penalty cost as a shadow price-weighted penalty. This approach affords two advantages compared to previous methods to efficiently induce the agent to not select an infeasible action. We apply our algorithm to an industrial control problem, microgrid system operation, and the experimental results demonstrate its superiority.
翻訳日:2022-09-22 12:06:55 公開日:2021-05-19
# 複数文書要約の説明性向上のためのグラフサムの注意重みの分析

Analysis of GraphSum's Attention Weights to Improve the Explainability of Multi-Document Summarization ( http://arxiv.org/abs/2105.11908v1 )

ライセンス: Link先を確認
M. Lautaro Hickmann and Fabian Wurzberger and Megi Hoxhalli and Arne Lochner and Jessica T\"ollich and Ansgar Scherp(参考訳) 現代のマルチドキュメント要約(MDS)手法はトランスフォーマーアーキテクチャに基づいている。 アートサマリーの状態を生成できるが、説明不可能である。 近年普及しているMDS用のグラフベースのトランスフォーマーモデルに注目した。 本研究の目的は,グラフベースMDSの注意重み分析による説明可能性の向上である。 GraphSumのようなグラフベースのMDSでは、頂点はテキスト単位を表し、エッジはユニット上の類似性グラフを形成する。 WikiSumとMultiNewsという2つのニュースベンチマークデータセット上で,文と段落の異なるテキスト単位を用いたグラフサムの性能を比較した。 実験では,段落レベルの表現が最良要約性能を示している。 そこで本研究では, トランスフォーマーmdsモデルの説明性を向上させるため, グラフサムのマルチヘッドおよびデコード層の段落レベルの注意重み分析に焦点をあてた。 基準指標として、入力された段落と生成された要約文の各文間のROUGEスコアを計算し、テキストの類似性を通じて原点情報を示す。 特にトランスフォーマーアーキテクチャの後のデコード層において,注意重みとこの基準計量との間に高い相関関係が観察された。 最後に, 生成した要約は, それぞれの要約に対して最も情報を提供する段落を抽出することにより, 位置バイアスのパターンに従うかを検討する。 以上の結果から,サマリの位置と原産地との間に高い相関関係が示された。

Modern multi-document summarization (MDS) methods are based on transformer architectures. They generate state of the art summaries, but lack explainability. We focus on graph-based transformer models for MDS as they gained recent popularity. We aim to improve the explainability of the graph-based MDS by analyzing their attention weights. In a graph-based MDS such as GraphSum, vertices represent the textual units, while the edges form some similarity graph over the units. We compare GraphSum's performance utilizing different textual units, i. e., sentences versus paragraphs, on two news benchmark datasets, namely WikiSum and MultiNews. Our experiments show that paragraph-level representations provide the best summarization performance. Thus, we subsequently focus oAnalysisn analyzing the paragraph-level attention weights of GraphSum's multi-heads and decoding layers in order to improve the explainability of a transformer-based MDS model. As a reference metric, we calculate the ROUGE scores between the input paragraphs and each sentence in the generated summary, which indicate source origin information via text similarity. We observe a high correlation between the attention weights and this reference metric, especially on the the later decoding layers of the transformer architecture. Finally, we investigate if the generated summaries follow a pattern of positional bias by extracting which paragraph provided the most information for each generated summary. Our results show that there is a high correlation between the position in the summary and the source origin.
翻訳日:2021-06-06 08:53:47 公開日:2021-05-19
# 緑内障自動スクリーニングにおける意味セグメンテーションのための動的領域提案ネットワーク

Dynamic region proposal networks for semantic segmentation in automated glaucoma screening ( http://arxiv.org/abs/2105.11364v1 )

ライセンス: Link先を確認
Shivam Shah, Nikhil Kasukurthi, Harshit Pande(参考訳) 眼底画像による緑内障診断のスクリーニングは、カップとディスク領域のセグメンテーションを必要とする視神経カップ対円板径比(cdr)によって決定することができる。 本稿では,パラメータ共有分岐ネットワーク (PSBN) と関心モデルベースセグメンテーション (WRoIM) のWeak Region of Interest Model-based segmentation (WRoIM) という2つの新しい手法を提案する。 従来のアプローチとは異なり、提案手法は単一のニューラルネットワークアーキテクチャを通じてエンドツーエンドでトレーニングされ、手動や従来のコンピュータビジョンベースの収穫ではなく動的収穫を使用する。 ネットワークパラメータの数が少なく、最先端のアプローチと同じようなパフォーマンスを実現できます。 実験では,drishti-gs1とrim-one v3データセットの異なる既知の手法との比較を行った。 7.8 \times 10^6$パラメータではDiceスコアが0.96/0.89でDrishti-GS1データのディスク/カップセグメンテーションが達成され、既存の最先端のアプローチでは19.8\times 10^6$パラメータが0.97/0.89である。

Screening for the diagnosis of glaucoma through a fundus image can be determined by the optic cup to disc diameter ratio (CDR), which requires the segmentation of the cup and disc regions. In this paper, we propose two novel approaches, namely Parameter-Shared Branched Network (PSBN) andWeak Region of Interest Model-based segmentation (WRoIM) to identify disc and cup boundaries. Unlike the previous approaches, the proposed methods are trained end-to-end through a single neural network architecture and use dynamic cropping instead of manual or traditional computer vision-based cropping. We are able to achieve similar performance as that of state-of-the-art approaches with less number of network parameters. Our experiments include comparison with different best known methods on publicly available Drishti-GS1 and RIM-ONE v3 datasets. With $7.8 \times 10^6$ parameters our approach achieves a Dice score of 0.96/0.89 for disc/cup segmentation on Drishti-GS1 data whereas the existing state-of-the-art approach uses $19.8\times 10^6$ parameters to achieve a dice score of 0.97/0.89.
翻訳日:2021-06-06 08:53:25 公開日:2021-05-19
# 大規模画像分類における相関入力依存ラベルノイズ

Correlated Input-Dependent Label Noise in Large-Scale Image Classification ( http://arxiv.org/abs/2105.10305v1 )

ライセンス: Link先を確認
Mark Collier, Basil Mustafa, Efi Kokiopoulou, Rodolphe Jenatton and Jesse Berent(参考訳) 大規模な画像分類データセットは、しばしばノイズラベルを含む。 これらのデータセットにおいて、入力依存(ヘテロシドスティック)、ラベルノイズ(ラベルノイズ)のモデル化には、原理的確率論的アプローチを採用する。 ニューラルネットワーク分類器の最終的な隠蔽層上に,多変量正規分布潜時変数を配置する。 この潜伏変数の共分散行列はラベルノイズによるアレタリック不確かさをモデル化する。 学習された共分散構造は、意味的に類似したクラスと共起クラスの間のラベルノイズの既知のソースをキャプチャする。 標準のニューラルネットワークトレーニングや他のベースラインと比較して、Imagenet ILSVRC 2012 79.3%(+2.6%)、Imagenet-21k 47.0%(+1.1%)、JFT 64.7%(+1.6%)の精度が大幅に向上した。 We set a new-of-the-art results on WebVision 1.0 with 76.6% top-1 accuracy。 これらのデータセットは、1m以上から300m以上のトレーニング例、1kクラスから21kクラスに及ぶ。 提案手法は, 使用が簡単であり, 深層分類器における最終完全接続層をドロップインで置き換える実装を提供する。

Large scale image classification datasets often contain noisy labels. We take a principled probabilistic approach to modelling input-dependent, also known as heteroscedastic, label noise in these datasets. We place a multivariate Normal distributed latent variable on the final hidden layer of a neural network classifier. The covariance matrix of this latent variable, models the aleatoric uncertainty due to label noise. We demonstrate that the learned covariance structure captures known sources of label noise between semantically similar and co-occurring classes. Compared to standard neural network training and other baselines, we show significantly improved accuracy on Imagenet ILSVRC 2012 79.3% (+2.6%), Imagenet-21k 47.0% (+1.1%) and JFT 64.7% (+1.6%). We set a new state-of-the-art result on WebVision 1.0 with 76.6% top-1 accuracy. These datasets range from over 1M to over 300M training examples and from 1k classes to more than 21k classes. Our method is simple to use, and we provide an implementation that is a drop-in replacement for the final fully-connected layer in a deep classifier.
翻訳日:2021-05-25 03:36:42 公開日:2021-05-19
# (参考訳) 肺癌予後関連データを用いたAI-Decision Support System Interface

AI-Decision Support System Interface Using Cancer Related Data for Lung Cancer Prognosis ( http://arxiv.org/abs/2105.09471v1 )

ライセンス: CC0 1.0
Asim Leblebici, Omer Gesoglu, Yasemin Basbinar(参考訳) 2021年の初めまで、肺がんは世界で最も一般的ながんとして知られている。 この病気は、職業曝露、喫煙、環境汚染などの要因により一般的である。 疾患の早期診断と治療は、疾患の原因となる原因の予防だけでなく、非常に重要である。 この研究は、GDCデータポータルで肺がんの臨床と遺伝子発現を使用して予後を予測するための機械学習アルゴリズムと連携したWebインターフェースを作成することを計画された。

Until the beginning of 2021, lung cancer is known to be the most common cancer in the world. The disease is common due to factors such as occupational exposure, smoking and environmental pollution. The early diagnosis and treatment of the disease is of great importance as well as the prevention of the causes that cause the disease. The study was planned to create a web interface that works with machine learning algorithms to predict prognosis using lung cancer clinical and gene expression in the GDC data portal.
翻訳日:2021-05-22 01:40:37 公開日:2021-05-19
# (参考訳) DeepDebug: スタックトレース、バックトランスレーション、コードスケルトンを使用したPythonバグの修正

DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons ( http://arxiv.org/abs/2105.09352v1 )

ライセンス: CC BY 4.0
Dawn Drain, Colin B. Clement, Guillermo Serrato, and Neel Sundaresan(参考訳) バグのローカライゼーションとプログラムの修復という共同作業は、ソフトウェア開発プロセスの不可欠な部分です。 この作業では、大規模な事前トレーニングされたトランスフォーマーを使用した自動デバッグのアプローチであるDeepDebugを紹介します。 まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングする。 これらの合成バグを両端に適用する。 まず、200Kリポジトリからすべての関数のバックトランスレーションモデルをトレーニングする。 次に、テストの実行が可能な10kリポジトリに注目し、テストの通過によってカバーされるリポジトリ内のすべての関数のバギーバージョンを作成します。 これにより、スタックトレースやプリントステートメントといったリッチなデバッグ情報が得られます。 最後に、バギー関数自体を越えてコンテキストウィンドウを拡張し、その関数の親クラス、インポート、シグネチャ、docstring、メソッドボディからなるスケルトンを優先順に追加することで、すべてのモデルを強化します。 QuixBugsベンチマークでは、50%以上の修正数を増やしながら、偽陽性率を35%から5%に下げ、タイムアウトを6時間から1分に短縮しています。 実行可能なテストのベンチマークでは、トレースを使わずに最初の試行ですべてのバグの68%を修正し、トレースを追加した後、最初の試行で75%を修正しました。 実行可能なテストを評価するためのフレームワークと検証セットをオープンソースにします。

The joint task of bug localization and program repair is an integral part of the software development process. In this work we present DeepDebug, an approach to automated debugging using large, pretrained transformers. We begin by training a bug-creation model on reversed commit data for the purpose of generating synthetic bugs. We apply these synthetic bugs toward two ends. First, we directly train a backtranslation model on all functions from 200K repositories. Next, we focus on 10K repositories for which we can execute tests, and create buggy versions of all functions in those repositories that are covered by passing tests. This provides us with rich debugging information such as stack traces and print statements, which we use to finetune our model which was pretrained on raw source code. Finally, we strengthen all our models by expanding the context window beyond the buggy function itself, and adding a skeleton consisting of that function's parent class, imports, signatures, docstrings, and method bodies, in order of priority. On the QuixBugs benchmark, we increase the total number of fixes found by over 50%, while also decreasing the false positive rate from 35% to 5% and decreasing the timeout from six hours to one minute. On our own benchmark of executable tests, our model fixes 68% of all bugs on its first attempt without using traces, and after adding traces it fixes 75% on first attempt. We will open-source our framework and validation set for evaluating on executable tests.
翻訳日:2021-05-22 01:37:38 公開日:2021-05-19
# (参考訳) 網膜血管セグメンテーションのためのデータ拡張の限界を探る

Exploring The Limits Of Data Augmentation For Retinal Vessel Segmentation ( http://arxiv.org/abs/2105.09365v1 )

ライセンス: CC BY 4.0
Enes Sadi Uysal, M.\c{S}afak Bilici, B. Selin Zaza, M. Yi\u{g}it \"Ozgen\c{c}, Onur Boyar(参考訳) 網膜血管剥離は各種疾患の診断に重要である。 網膜血管セグメンテーションの研究は、通常u-netアーキテクチャに基づくセグメンテーションモデルの改善に焦点を当てている。 本稿では、U-Netアーキテクチャを使用し、パフォーマンス向上のために重データ拡張に依存しています。 データ拡張の成功は、入力画像の問題にうまく対処することに依存する。 入力画像を分析して拡張を行うことにより,U-Netモデルの性能を劇的に向上させることができることを示す。 結果は最も広く使われている網膜データセットDRIVEを用いて報告される。

Retinal Vessel Segmentation is important for diagnosis of various diseases. The research on retinal vessel segmentation focuses mainly on improvement of the segmentation model which is usually based on U-Net architecture. In our study we use the U-Net architecture and we rely on heavy data augmentation in order to achieve better performance. The success of the data augmentation relies on successfully addressing the problem of input images. By analyzing input images and performing the augmentation accordingly we show that the performance of the U-Net model can be increased dramatically. Results are reported using the most widely used retina dataset, DRIVE.
翻訳日:2021-05-22 01:20:18 公開日:2021-05-19
# (参考訳) voila: 視覚観察のみの模倣学習による自律ナビゲーション

VOILA: Visual-Observation-Only Imitation Learning for Autonomous Navigation ( http://arxiv.org/abs/2105.09371v1 )

ライセンス: CC BY 4.0
Haresh Karnan, Garrett Warnell, Xuesu Xiao, Peter Stone(参考訳) 視覚ベースの自律移動ロボットナビゲーションのための模倣学習は最近、研究コミュニティで多くの注目を集めているが、既存のアプローチでは、デプロイプラットフォームを使って収集された状態動作のデモを必要とする。 しかし、これらのデモ信号を記録するためにプラットフォームを簡単に設定できない場合や、デモ参加者がプラットフォームにアクセスできない場合はどうでしょう? このようなシナリオにおいて、視覚ベースの自律ナビゲーションのための模倣学習は可能か? 本稿では,この答えがイエスであり,近年の観察(ifo)文学の模倣から得られたアイデアは,ロボットが視点ミスマッチの存在下においても,デモンストレータが収集したエゴセントリックビデオのみを使用してナビゲートを学べるようにすることができると仮定する。 そこで本研究では,視覚観察のみの自律ナビゲーション学習(VOILA)という新しいアルゴリズムを導入し,物理的に異なるエージェントから収集した単一のビデオデモからナビゲーションポリシーを学習する。 我々は,フォトリアリスティックなAirSimシミュレータでVOILAを評価し,VOILAが専門家を模倣するだけでなく,新しい環境に一般化可能なナビゲーションポリシーも学習していることを示す。 さらに,実環境におけるvoilaの有効性を実証するために,携帯電話カメラを用いて記録した映像を用いて,車輪付きジャッキールロボットが人間の環境歩行を模倣できることを示す。

While imitation learning for vision based autonomous mobile robot navigation has recently received a great deal of attention in the research community, existing approaches typically require state action demonstrations that were gathered using the deployment platform. However, what if one cannot easily outfit their platform to record these demonstration signals or worse yet the demonstrator does not have access to the platform at all? Is imitation learning for vision based autonomous navigation even possible in such scenarios? In this work, we hypothesize that the answer is yes and that recent ideas from the Imitation from Observation (IfO) literature can be brought to bear such that a robot can learn to navigate using only ego centric video collected by a demonstrator, even in the presence of viewpoint mismatch. To this end, we introduce a new algorithm, Visual Observation only Imitation Learning for Autonomous navigation (VOILA), that can successfully learn navigation policies from a single video demonstration collected from a physically different agent. We evaluate VOILA in the photorealistic AirSim simulator and show that VOILA not only successfully imitates the expert, but that it also learns navigation policies that can generalize to novel environments. Further, we demonstrate the effectiveness of VOILA in a real world setting by showing that it allows a wheeled Jackal robot to successfully imitate a human walking in an environment using a video recorded using a mobile phone camera.
翻訳日:2021-05-22 01:15:22 公開日:2021-05-19
# (参考訳) マキシミン株の保証:一部のエージェントが残した

Guaranteeing Maximin Shares: Some Agents Left Behind ( http://arxiv.org/abs/2105.09383v1 )

ライセンス: CC BY 4.0
Hadi Hosseini and Andrew Searns(参考訳) マクシミンシェア(mms)保証は、不可分な商品を割り当てるための望ましい公正概念である。 MMSアロケーションは常に存在するわけではないが、全てのエージェントがその最大シェアのごく一部を受け取ることを保証するためにいくつかの近似技術が開発されている。 我々は,少数のエージェントに対してMSを保証しようとするエージェントの集団に基づく,別の近似概念に焦点をあてる。 最適近似アルゴリズムは定数以上のエージェントを満足できないことを示し, 1つのエージェントを除くすべてのエージェントに対するmmsの存在と計算と近似mms保証との関係について論じる。 次に、$\frac{2}{3}$のエージェントに対するMMSを保証するアロケーションの存在を証明し、最大9個のエージェントに対してこの境界を達成する多項式時間アルゴリズムを考案する。 この結果の鍵となる意味は、$\text{mms}^{\lceil{3n/2}\rceil}$、すなわち、商品を$\lceil{\frac{3}{2}n}\rceil$バンドルに分割することによってエージェントが受け取る値、$\text{mms}^{2n-2}$の最もよく知られた保証を改善する割り当ての存在である。 最後に,合成データを用いた実験を行う。

The maximin share (MMS) guarantee is a desirable fairness notion for allocating indivisible goods. While MMS allocations do not always exist, several approximation techniques have been developed to ensure that all agents receive a fraction of their maximin share. We focus on an alternative approximation notion, based on the population of agents, that seeks to guarantee MMS for a fraction of agents. We show that no optimal approximation algorithm can satisfy more than a constant number of agents, and discuss the existence and computation of MMS for all but one agent and its relation to approximate MMS guarantees. We then prove the existence of allocations that guarantee MMS for $\frac{2}{3}$ of agents, and devise a polynomial time algorithm that achieves this bound for up to nine agents. A key implication of our result is the existence of allocations that guarantee $\text{MMS}^{\lceil{3n/2}\rceil}$, i.e., the value that agents receive by partitioning the goods into $\lceil{\frac{3}{2}n}\rceil$ bundles, improving the best known guarantee of $\text{MMS}^{2n-2}$. Finally, we provide empirical experiments using synthetic data.
翻訳日:2021-05-22 01:03:24 公開日:2021-05-19
# (参考訳) 意外と人気投票がランキングを回復!

Surprisingly Popular Voting Recovers Rankings, Surprisingly! ( http://arxiv.org/abs/2105.09386v1 )

ライセンス: CC BY 4.0
Hadi Hosseini, Debmalya Mandal, Nisarg Shah, and Kevin Shi(参考訳) 群衆の知恵は、根底にある真実を予測するために個人や専門家から情報を引き出すための事実上のアプローチになっている。 しかしながら、個人を集約する古典的な民主的アプローチは、群衆の大多数の意見が比較的正確である場合にのみ有効である。 賢明な最近のアプローチである \emph{surprisingly popular voting} は、個人からの追加情報、すなわち他の個人の投票の \emph{prediction} を導き出し、専門家が少数派であっても根拠となる真実を確実に回復する。 このアプローチは、小さなリストから正しい選択肢を選択することを目標とする場合はうまく機能するが、選択肢の真のランキングを回復することが目標である場合には、アプローチの直接的な適用には、過剰な情報を引き出す必要がある。 本稿では,このアルゴリズムを部分的に投票と予測によってランク付けし,ロバストなアグリゲーションルールを設計するための実践的手法を検討する。 予測情報さえも、驚くほど人気の高い古典的アプローチの投票に役立つことを実験的に実証した。

The wisdom of the crowd has long become the de facto approach for eliciting information from individuals or experts in order to predict the ground truth. However, classical democratic approaches for aggregating individual \emph{votes} only work when the opinion of the majority of the crowd is relatively accurate. A clever recent approach, \emph{surprisingly popular voting}, elicits additional information from the individuals, namely their \emph{prediction} of other individuals' votes, and provably recovers the ground truth even when experts are in minority. This approach works well when the goal is to pick the correct option from a small list, but when the goal is to recover a true ranking of the alternatives, a direct application of the approach requires eliciting too much information. We explore practical techniques for extending the surprisingly popular algorithm to ranked voting by partial votes and predictions and designing robust aggregation rules. We experimentally demonstrate that even a little prediction information helps surprisingly popular voting outperform classical approaches.
翻訳日:2021-05-22 01:02:17 公開日:2021-05-19
# (参考訳) 地理質問応答 : 挑戦,特異性,分類,今後の方向性

Geographic Question Answering: Challenges, Uniqueness, Classification, and Future Directions ( http://arxiv.org/abs/2105.09392v1 )

ライセンス: CC BY 4.0
Gengchen Mai, Krzysztof Janowicz, Rui Zhu, Ling Cai, and Ni Lao(参考訳) 人工知能(AI)の重要な部分として、質問回答(QA)は自然言語で表現された質問に対する回答を生成することを目的としている。 オープンドメインの質問応答にはかなりの進歩があったが、QAシステムは地理的実体や概念、空間的な操作を必要とする疑問に答えようと苦戦している。 本稿では,地理質問応答(GeoQA)の問題について議論する。 まず,地理的質問の課題を分析して,地理的質問の答えが難しい理由を検討する。 地理的質問の独特性を一般のQAと比較する。 次に、GeoQAに関する既存の研究をレビューし、それらに対処できる質問の種類によって分類する。 本調査に基づき,地理的質問に対する一般的な分類フレームワークを提供する。 最後に,GeoQAの今後の独自の研究方向性を指摘することで,研究を締めくくっている。

As an important part of Artificial Intelligence (AI), Question Answering (QA) aims at generating answers to questions phrased in natural language. While there has been substantial progress in open-domain question answering, QA systems are still struggling to answer questions which involve geographic entities or concepts and that require spatial operations. In this paper, we discuss the problem of geographic question answering (GeoQA). We first investigate the reasons why geographic questions are difficult to answer by analyzing challenges of geographic questions. We discuss the uniqueness of geographic questions compared to general QA. Then we review existing work on GeoQA and classify them by the types of questions they can address. Based on this survey, we provide a generic classification framework for geographic questions. Finally, we conclude our work by pointing out unique future research directions for GeoQA.
翻訳日:2021-05-22 00:46:10 公開日:2021-05-19
# (参考訳) 特徴コントラスト学習によるロバスト性と感度のバランス

Balancing Robustness and Sensitivity using Feature Contrastive Learning ( http://arxiv.org/abs/2105.09394v1 )

ライセンス: CC BY 4.0
Seungyeon Kim, Daniel Glasner, Srikumar Ramalingam, Cho-Jui Hsieh, Kishore Papineni, Sanjiv Kumar(参考訳) 一般に、非常に大きなネットワークの堅牢なトレーニングは、実世界のアプリケーションでの成功に不可欠であると考えられている。 しかし、極端に考えると、ロバスト性を促進する手法は、稀なパターンや過小表現パターンに対するモデルの感度を損なう可能性がある。 本稿では、文脈的特徴ユーティリティと文脈的特徴感度という2つの概念を導入することにより、自然(非敵対的)摂動に対する感度と頑健さのトレードオフについて論じる。 本稿では,コンテクストユーティリティの高い機能に対して,モデルがより敏感になるよう促す機能コントラスト学習(fcl)を提案する。 実験により、FCLで訓練されたモデルは、堅牢性と感度のバランスが良くなり、視覚とNLPデータセットの両方にノイズが存在することが一般化された。

It is generally believed that robust training of extremely large networks is critical to their success in real-world applications. However, when taken to the extreme, methods that promote robustness can hurt the model's sensitivity to rare or underrepresented patterns. In this paper, we discuss this trade-off between sensitivity and robustness to natural (non-adversarial) perturbations by introducing two notions: contextual feature utility and contextual feature sensitivity. We propose Feature Contrastive Learning (FCL) that encourages a model to be more sensitive to the features that have higher contextual utility. Empirical results demonstrate that models trained with FCL achieve a better balance of robustness and sensitivity, leading to improved generalization in the presence of noise on both vision and NLP datasets.
翻訳日:2021-05-22 00:16:38 公開日:2021-05-19
# (参考訳) 粗いパターンの識別によるテキスト行分割の教師なし学習

Unsupervised learning of text line segmentationby differentiating coarse patterns ( http://arxiv.org/abs/2105.09405v1 )

ライセンス: CC BY 4.0
Berat Kurar Barakat, Ahmad Droby, Raid Saabni, and Jihad El-Sana(参考訳) 近年,テキスト行セグメンテーションにおける教師なし深層学習の分野が進歩しているにもかかわらず,教師なし深層学習ソリューションが人気を集め始めている。 本稿では,距離が粗いテキスト行パターンの類似性に対応するコンパクトなユークリッド空間に,文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。 この空間が生成されると、テキスト行のセグメンテーションは埋め込み特徴ベクトルを使って標準技術で容易に実装できる。 モデルのトレーニングには,テキスト行の粗い傾向を隣接パッチが含んでいると仮定したランダムな文書画像パッチを抽出するが,一方が回転している場合には,テキスト行の粗い傾向が異なる。 このタスクをうまくこなすには、モデルがテキスト行とその突出部を認識することを学ぶ必要がある。 このアプローチの利点は、手動ラベリングの労力をゼロにすることです。 本手法は,テキストラインセグメンテーションデータセットのいくつかの変種について定性的かつ定量的に評価し,その効果を示す。

Despite recent advances in the field of supervised deep learning for text line segmentation, unsupervised deep learning solutions are beginning to gain popularity. In this paper, we present an unsupervised deep learning method that embeds document image patches to a compact Euclidean space where distances correspond to a coarse text line pattern similarity. Once this space has been produced, text line segmentation can be easily implemented using standard techniques with the embedded feature vectors. To train the model, we extract random pairs of document image patches with the assumption that neighbour patches contain a similar coarse trend of text lines, whereas if one of them is rotated, they contain different coarse trends of text lines. Doing well on this task requires the model to learn to recognize the text lines and their salient parts. The benefit of our approach is zero manual labelling effort. We evaluate the method qualitatively and quantitatively on several variants of text line segmentation datasets to demonstrate its effectivity.
翻訳日:2021-05-21 23:41:04 公開日:2021-05-19
# (参考訳) 多層パーセプトロンと標準ベクトルマシンを用いた音声と歌の感情認識

Speech & Song Emotion Recognition Using Multilayer Perceptron and Standard Vector Machine ( http://arxiv.org/abs/2105.09406v1 )

ライセンス: CC BY 4.0
Behzad Javaheri(参考訳) 本稿では、RAVDESSデータセットの音声と歌のチャンネルを用いた感情認識におけるSVMとMLPの性能を比較した。 我々は、様々なオーディオ特徴を抽出し、最適なスケーリング戦略とハイパーパラメータを同定する旅をしてきた。 サンプルサイズを増やすため,SMOTEを用いて音声データ拡張とアドレスデータ不均衡を行った。 以上の結果から,最適化SVMはMLPの精度を75%と比較すると,82。 データ拡張後、両方のアルゴリズムのパフォーマンスは ~79% で同じであったが、SVM には過度な適合性があることは明らかであった。 最終調査の結果,svmとmlpの性能はともに,songチャネルに比べて音声チャネルの精度が低かった。 以上の結果から,SVM と MLP は声質に依存した感情認識のための強力な分類法であることが示唆された。

Herein, we have compared the performance of SVM and MLP in emotion recognition using speech and song channels of the RAVDESS dataset. We have undertaken a journey to extract various audio features, identify optimal scaling strategy and hyperparameter for our models. To increase sample size, we have performed audio data augmentation and addressed data imbalance using SMOTE. Our data indicate that optimised SVM outperforms MLP with an accuracy of 82 compared to 75%. Following data augmentation, the performance of both algorithms was identical at ~79%, however, overfitting was evident for the SVM. Our final exploration indicated that the performance of both SVM and MLP were similar in which both resulted in lower accuracy for the speech channel compared to the song channel. Our findings suggest that both SVM and MLP are powerful classifiers for emotion recognition in a vocal-dependent manner.
翻訳日:2021-05-21 23:27:36 公開日:2021-05-19
# (参考訳) iTelos-再利用可能な知識グラフの構築

iTelos- Building reusable knowledge graphs ( http://arxiv.org/abs/2105.09418v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia, Simone Bocca, Mattia Fumagalli, Mayukh Bagchi and Alessio Zamboni(参考訳) 新しいアプリケーションを開発するとき、既存のデータセットを再利用することは事実上不可能であるという事実である。 この難しさは追加コストの原因であり、その結果のアプリケーションが再び再利用されなくなるというさらなる欠点がある。 これは否定的なループであり、一貫して自身を補強し、そこから抜け出す方法がないように思われる。 iTelosは、このループを壊すように設計された汎用の方法論である。 その主な目標は、既存のデータを可能な限り再利用する再利用可能な知識グラフ(KG)を生成することである。 キーとなる仮定は、KGの設計は、開発の全段階において、設計が考慮すべきであることを意味している: (i) 提供すべき目的、そして、機能的なクエリのセットとして形式化されていること、 (ii) 既存のKGから抽出される可能性のある既存のデータセットのセット、 (iii) 既存の参照スキーマのセット。 我々は、これらの参照スキーマ、テレロジーをオントロジーとは別物と呼ぶ。つまり、同様の目的を持つ一方で、容易に適応するように設計されており、イテロの重要な実現者となることを意味する。

It is a fact that, when developing a new application, it is virtually impossible to reuse, as-is, existing datasets. This difficulty is the cause of additional costs, with the further drawback that the resulting application will again be hardly reusable. It is a negative loop which consistently reinforces itself and for which there seems to be no way out. iTelos is a general purpose methodology designed to break this loop. Its main goal is to generate reusable Knowledge Graphs (KGs), built reusing, as much as possible, already existing data. The key assumption is that the design of a KG should be done middle-out meaning by this that the design should take into consideration, in all phases of the development: (i) the purpose to be served, that we formalize as a set of competency queries, (ii) a set of pre-existing datasets, possibly extracted from existing KGs, and (iii) a set of pre-existing reference schemas, whose goal is to facilitate sharability. We call these reference schemas, teleologies, as distinct from ontologies, meaning by this that, while having a similar purpose, they are designed to be easily adapted, thus becoming a key enabler of itelos.
翻訳日:2021-05-21 23:17:14 公開日:2021-05-19
# (参考訳) 視覚特性による概念の分類

Classifying concepts via visual properties ( http://arxiv.org/abs/2105.09422v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia and Mayukh Bagchi(参考訳) 我々は、世界の物質は2種類の概念、すなわち物質概念と分類概念、前者は(視覚)知覚の道具、後者は(言語に基づく)分類によって表現されていると仮定する。 本稿では,物質概念を抽出した映像や写真などのメディアにノードを注釈付けし,それに対応する分類概念に関連付ける,物質概念の語彙的階層を構築するための一般的な手法を紹介する。 この方法論は、物質の概念を分類する問題を文脈化したランガナサンのオリジナルのアプローチに基づいている。 重要な特徴は、階層構造が物質概念の視覚的な性質を生かして構築されていることであるが、分類概念の言語的に定義された性質は物質概念を記述するためにのみ用いられる。 このアプローチの妥当性は、大規模マルチメディア多言語概念階層の構築を目標とする進行中のプロジェクトのハイライトを提供することで示される。

We assume that substances in the world are represented by two types of concepts, namely substance concepts and classification concepts, the former instrumental to (visual) perception, the latter to (language based) classification. Based on this distinction, we introduce a general methodology for building lexico-semantic hierarchies of substance concepts, where nodes are annotated with the media, e.g.,videos or photos, from which substance concepts are extracted, and are associated with the corresponding classification concepts. The methodology is based on Ranganathan's original faceted approach, contextualized to the problem of classifying substance concepts. The key novelty is that the hierarchy is built exploiting the visual properties of substance concepts, while the linguistically defined properties of classification concepts are only used to describe substance concepts. The validity of the approach is exemplified by providing some highlights of an ongoing project whose goal is to build a large scale multimedia multilingual concept hierarchy.
翻訳日:2021-05-21 23:05:54 公開日:2021-05-19
# (参考訳) 階層データ統合

Stratified Data Integration ( http://arxiv.org/abs/2105.09432v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia, Alessio Zamboni, Mayukh Bagchi and Simone Bocca(参考訳) We propose a novel approach to the problem of semantic heterogeneity where data are organized into a set of stratified and independent representation layers, namely: conceptual(where a set of unique alinguistic identifiers are connected inside a graph codifying their meaning), language(where sets of synonyms, possibly from multiple languages, annotate concepts), knowledge(in the form of a graph where nodes are entity types and links are properties), and data(in the form of a graph of entities populating the previous knowledge graph). これにより、意味的不均一性(semantic heterogeneity)の問題を表現多様性(Representation Diversity)の問題として記述することができる。 概念、言語、知識、データは、他のものと独立して、各レイヤ内で一様に処理されます。 本稿では,提案した階層化されたデータ表現と,まずデータを対象の表現に変換し,それを適切に統合し,最後にユーザの好みのフォーマットで提示するプロセスについて述べる。 提案フレームワークは様々なパイロットケーススタディやいくつかの産業データ統合問題で評価されている。

We propose a novel approach to the problem of semantic heterogeneity where data are organized into a set of stratified and independent representation layers, namely: conceptual(where a set of unique alinguistic identifiers are connected inside a graph codifying their meaning), language(where sets of synonyms, possibly from multiple languages, annotate concepts), knowledge(in the form of a graph where nodes are entity types and links are properties), and data(in the form of a graph of entities populating the previous knowledge graph). This allows us to state the problem of semantic heterogeneity as a problem of Representation Diversity where the different types of heterogeneity, viz. Conceptual, Language, Knowledge, and Data, are uniformly dealt within each single layer, independently from the others. In this paper we describe the proposed stratified representation of data and the process by which data are first transformed into the target representation, then suitably integrated and then, finally, presented to the user in her preferred format. The proposed framework has been evaluated in various pilot case studies and in a number of industrial data integration problems.
翻訳日:2021-05-21 22:51:33 公開日:2021-05-19
# (参考訳) Lewis WeightsサブサンプリングによるL1回帰

L1 Regression with Lewis Weights Subsampling ( http://arxiv.org/abs/2105.09433v1 )

ライセンス: CC BY 4.0
Aditya Parulekar, Advait Parulekar, Eric Price(参考訳) 我々は,少数のラベルのみを観測しながら,$\ell_1$回帰の近似解を求める問題を考察する。 n \times d$ unlabeled data matrix $x$ が与えられると、ラベルを観察するために m \ll n$ の小さなセットを選択し、元の問題に対するエラーが 1 + \varepsilon$ factor の範囲内にある推定 $\widehat{\beta}$ を出力する必要があります。 ルイス重みによる$X$からのサンプリングと経験的最小値の出力は確率1-\delta$ for $m > O(\frac{1}{\varepsilon^2} d \log \frac{d}{\varepsilon \delta})$で成功することを示す。 これは、$\ell_2$回帰のレバレッジスコアによるサンプリングのパフォーマンスに似ているが、$\delta$への指数的に優れた依存を持つ。 また、対応する下限の$\Omega(\frac{d}{\varepsilon^2} + (d + \frac{1}{\varepsilon^2}) \log\frac{1}{\delta})$を与える。

We consider the problem of finding an approximate solution to $\ell_1$ regression while only observing a small number of labels. Given an $n \times d$ unlabeled data matrix $X$, we must choose a small set of $m \ll n$ rows to observe the labels of, then output an estimate $\widehat{\beta}$ whose error on the original problem is within a $1 + \varepsilon$ factor of optimal. We show that sampling from $X$ according to its Lewis weights and outputting the empirical minimizer succeeds with probability $1-\delta$ for $m > O(\frac{1}{\varepsilon^2} d \log \frac{d}{\varepsilon \delta})$. This is analogous to the performance of sampling according to leverage scores for $\ell_2$ regression, but with exponentially better dependence on $\delta$. We also give a corresponding lower bound of $\Omega(\frac{d}{\varepsilon^2} + (d + \frac{1}{\varepsilon^2}) \log\frac{1}{\delta})$.
翻訳日:2021-05-21 22:40:00 公開日:2021-05-19
# トランスベースメディケアクレームエンコーダを用いた説明可能な健康リスク予測装置

Explainable Health Risk Predictor with Transformer-based Medicare Claim Encoder ( http://arxiv.org/abs/2105.09428v1 )

ライセンス: Link先を確認
Chuhong Lahlou, Ancil Crayton, Caroline Trier, Evan Willett(参考訳) 2019年、メディケア・メディケイドサービスセンター(CMS)は、CMSイノベーションセンターの支払いおよびサービス提供モデルに組み込まれる価値ベースのケアのリスクを予測するソリューションを模索する人工知能(AI)ヘルスアウトカムチャレンジ(Health Outcomes Challenge)を立ち上げた。 近年、現代言語モデルは、多くの健康関連タスクにおいて重要な役割を果たしている。 本稿では,患者の寛解予測に対するこれらのモデルの最初の応用について述べる。 そこで我々は,cmsが発行する限定データセット (lds) から得られた120万の医療履歴サンプルのデータセットを作成する。 さらに,このデータのための深層学習フレームワークに着目した総合的なモデリングソリューションを提案する。 この枠組みを実証するために,注意に基づくトランスフォーマーを訓練し,下流予測タスクの実行支援としてメディケアセマンティクスを学習し,読み出し分類において 0.91 auc と 0.91 のリコールを実現する。 また,新しいデータ前処理パイプラインを導入し,モデル説明可能性とバイアスを取り巻く関連するデプロイメントに関する考察を行う。

In 2019, The Centers for Medicare and Medicaid Services (CMS) launched an Artificial Intelligence (AI) Health Outcomes Challenge seeking solutions to predict risk in value-based care for incorporation into CMS Innovation Center payment and service delivery models. Recently, modern language models have played key roles in a number of health related tasks. This paper presents, to the best of our knowledge, the first application of these models to patient readmission prediction. To facilitate this, we create a dataset of 1.2 million medical history samples derived from the Limited Dataset (LDS) issued by CMS. Moreover, we propose a comprehensive modeling solution centered on a deep learning framework for this data. To demonstrate the framework, we train an attention-based Transformer to learn Medicare semantics in support of performing downstream prediction tasks thereby achieving 0.91 AUC and 0.91 recall on readmission classification. We also introduce a novel data pre-processing pipeline and discuss pertinent deployment considerations surrounding model explainability and bias.
翻訳日:2021-05-21 13:50:03 公開日:2021-05-19
# 生成型adversarial neural architecture search

Generative Adversarial Neural Architecture Search ( http://arxiv.org/abs/2105.09356v1 )

ライセンス: Link先を確認
Seyed Saeed Changiz Rezaei, Fred X. Han, Di Niu, Mohammad Salameh, Keith Mills, Shuo Lian, Wei Lu, and Shangling Jui(参考訳) ディープラーニングアプリケーションにおけるニューラルネットワーク探索(NAS)の実証的な成功にもかかわらず、NASスキームの最適性、再現性、コストは評価が難しいままである。 本稿では、理論的に証明可能な収束保証を持ち、ニューラルネットワーク探索における安定性と再現性を促進するジェネレーティブ・コンバーサリーnas(ga-nas)を提案する。 GA-NASは重要サンプリングにインスパイアされ、以前に発見されたトップアーキテクチャに反復的にジェネレータを適合させる。 さらに,判別器による報奨に基づく強化学習によってジェネレータを学習し,多数のアーキテクチャを評価せずに探索空間を探索できる効率的な対角学習手法を提案する。 大規模な実験により、GA-NASは3つのNASベンチマークでいくつかのケースで最高の結果を公表した。 一方、GA-NASはアドホックな検索制約や検索スペースを処理できる。 GA-NASは、画像ネットの精度やパラメータ数の観点から、EfficientNetやProxylessNASなど他のNAS手法で既に最適化されているベースラインの改善に利用できることを示す。

Despite the empirical success of neural architecture search (NAS) in deep learning applications, the optimality, reproducibility and cost of NAS schemes remain hard to assess. In this paper, we propose Generative Adversarial NAS (GA-NAS) with theoretically provable convergence guarantees, promoting stability and reproducibility in neural architecture search. Inspired by importance sampling, GA-NAS iteratively fits a generator to previously discovered top architectures, thus increasingly focusing on important parts of a large search space. Furthermore, we propose an efficient adversarial learning approach, where the generator is trained by reinforcement learning based on rewards provided by a discriminator, thus being able to explore the search space without evaluating a large number of architectures. Extensive experiments show that GA-NAS beats the best published results under several cases on three public NAS benchmarks. In the meantime, GA-NAS can handle ad-hoc search constraints and search spaces. We show that GA-NAS can be used to improve already optimized baselines found by other NAS methods, including EfficientNet and ProxylessNAS, in terms of ImageNet accuracy or the number of parameters, in their original search space.
翻訳日:2021-05-21 13:44:20 公開日:2021-05-19
# 不均一コントラスト学習

Heterogeneous Contrastive Learning ( http://arxiv.org/abs/2105.09401v1 )

ライセンス: Link先を確認
Lecheng Zheng, Yada Zhu, Jingrui He, and Jinjun Xiong(参考訳) 複数のハイインパクトアプリケーションにまたがるビッグデータの出現により、複雑な異質性という課題に直面していることが多い。 新たに収集されたデータは、通常、複数のモダリティで構成され、複数のラベルで特徴付けられるため、複数の種類の異質性の共存を示す。 最先端技術は、十分なラベル情報で複雑な不均一性をモデル化するのに長けているが、そのようなラベル情報は実際のアプリケーションで取得するのに非常に高価であり、これらの技術を用いた準最適性能をもたらす。 本稿では,リッチな非ラベルデータを活用したコントラスト学習の能力に着想を得て,重み付き非教師付きコントラスト損失と重み付き教師付きコントラスト損失とを組み合わせ,複数種類の不均質性をモデル化する統合型不均質学習フレームワークを提案する。 また,提案する重み付き教師付きコントラスト損失は同一クラスからの2つのサンプルの相互情報の下限であり,重み付き教師なしコントラスト損失は同一サンプルの2つのビューの隠れた表現間の相互情報の下限であることを示す理論的解析を行った。 実世界のデータセットにおける実験結果は,複数種類の不均一性をモデル化する提案手法の有効性と効率を示す。

With the advent of big data across multiple high-impact applications, we are often facing the challenge of complex heterogeneity. The newly collected data usually consist of multiple modalities and characterized with multiple labels, thus exhibiting the co-existence of multiple types of heterogeneity. Although state-of-the-art techniques are good at modeling the complex heterogeneity with sufficient label information, such label information can be quite expensive to obtain in real applications, leading to sub-optimal performance using these techniques. Inspired by the capability of contrastive learning to utilize rich unlabeled data for improving performance, in this paper, we propose a unified heterogeneous learning framework, which combines both weighted unsupervised contrastive loss and weighted supervised contrastive loss to model multiple types of heterogeneity. We also provide theoretical analyses showing that the proposed weighted supervised contrastive loss is the lower bound of the mutual information of two samples from the same class and the weighted unsupervised contrastive loss is the lower bound of the mutual information between the hidden representation of two views of the same sample. Experimental results on real-world data sets demonstrate the effectiveness and the efficiency of the proposed method modeling multiple types of heterogeneity.
翻訳日:2021-05-21 13:43:58 公開日:2021-05-19
# ニューラルネットワークを用いた計算形態学

Computational Morphology with Neural Network Approaches ( http://arxiv.org/abs/2105.09404v1 )

ライセンス: Link先を確認
Ling Liu(参考訳) ニューラルネットワークアプローチは計算形態学に多大な成功を収め、ほとんどのタスクのパフォーマンスを大きなマージンで改善し、モデリングの新しい視点を提供する。 本稿では,計算形態学を概説し,ニューラルネットワークを用いた計算形態学の最近の研究を概観し,その領域の概観について述べる。 最後に、計算形態学へのニューラルネットワークアプローチの利点と課題を分析し、今後の研究と研究で検討すべきいくつかの方向を指摘する。

Neural network approaches have been applied to computational morphology with great success, improving the performance of most tasks by a large margin and providing new perspectives for modeling. This paper starts with a brief introduction to computational morphology, followed by a review of recent work on computational morphology with neural network approaches, to provide an overview of the area. In the end, we will analyze the advantages and problems of neural network approaches to computational morphology, and point out some directions to be explored by future research and study.
翻訳日:2021-05-21 13:39:16 公開日:2021-05-19
# 無限ループ:静止画像における周期パターンの検出とアニメーション

Endless Loops: Detecting and Animating Periodic Patterns in Still Images ( http://arxiv.org/abs/2105.09374v1 )

ライセンス: Link先を確認
Tavi Halperin, Hanit Hakim, Orestis Vantzos, Gershon Hochman, Netai Benaim, Lior Sassy, Michael Kupchik, Ofir Bibi, Ohad Fried(参考訳) 本稿では,単一の画像からシームレスなアニメーションループを生成するアルゴリズムを提案する。 アルゴリズムは、建物の窓や階段の階段などの周期的な構造を検出し、その構造の各セグメントをユーザまたは自動選択された動き方向に沿って隣接するセグメントにマッピングする非自明な変位ベクトル場を生成する。 この変位場は、時間的および空間的平滑化と共に画像をワープし、連続したアニメーションループのフレームを生成する。 私たちのシネマグラフは、モバイルデバイス上で1秒で作成されます。 14万以上のユーザーがこのアプリをダウンロードし、35万本の映画を輸出した。 さらに,従来の手法に比べて,より手作業によるアプローチよりも,超現実的で構造化されたシネマグラフを作成する方法が好まれることを示す2つのユーザ研究を行った。

We present an algorithm for producing a seamless animated loop from a single image. The algorithm detects periodic structures, such as the windows of a building or the steps of a staircase, and generates a non-trivial displacement vector field that maps each segment of the structure onto a neighboring segment along a user- or auto-selected main direction of motion. This displacement field is used, together with suitable temporal and spatial smoothing, to warp the image and produce the frames of a continuous animation loop. Our cinemagraphs are created in under a second on a mobile device. Over 140,000 users downloaded our app and exported over 350,000 cinemagraphs. Moreover, we conducted two user studies that show that users prefer our method for creating surreal and structured cinemagraphs compared to more manual approaches and compared to previous methods.
翻訳日:2021-05-21 13:36:37 公開日:2021-05-19
# 鳥の羽:画像から鳥の形状モデルをキャプチャする

Birds of a Feather: Capturing Avian Shape Models from Images ( http://arxiv.org/abs/2105.09396v1 )

ライセンス: Link先を確認
Yufu Wang, Nikos Kolotouros, Kostas Daniilidis, Marc Badger(参考訳) 動物は形状が多様であるが、3Dデータがないため、新しい種のための変形可能な形状モデルを構築することは必ずしも不可能である。 そこで本研究では,そのテンプレートと画像を用いて新種を捕獲する手法を提案する。 本研究は主に鳥類に焦点を当てている。 鳥類は哺乳類のほぼ2倍の種を表すが、正確な形状モデルはない。 新たな種を捕獲するために、まず各トレーニングサンプルにarticulated templateを適合させる。 ポーズと形状を遠ざけることで、画像証拠から種間と種内の両方の変化を捉えた形状空間を学習する。 cubデータセットから複数の種のモデルを学び、下流の復元タスクに有用な新しい種特異的および多種多種形状モデルに寄与する。 低次元の埋め込みを用いて,我々は学習した3次元形状空間が,知覚的特徴よりも鳥類間の系統関係を反映することを示す。

Animals are diverse in shape, but building a deformable shape model for a new species is not always possible due to the lack of 3D data. We present a method to capture new species using an articulated template and images of that species. In this work, we focus mainly on birds. Although birds represent almost twice the number of species as mammals, no accurate shape model is available. To capture a novel species, we first fit the articulated template to each training sample. By disentangling pose and shape, we learn a shape space that captures variation both among species and within each species from image evidence. We learn models of multiple species from the CUB dataset, and contribute new species-specific and multi-species shape models that are useful for downstream reconstruction tasks. Using a low-dimensional embedding, we show that our learned 3D shape space better reflects the phylogenetic relationships among birds than learned perceptual features.
翻訳日:2021-05-21 13:36:25 公開日:2021-05-19
# エンド・ツー・エンドの教師なし文書画像ブラインド

End-to-End Unsupervised Document Image Blind Denoising ( http://arxiv.org/abs/2105.09437v1 )

ライセンス: Link先を確認
Mehrdad J Gangeh, Marcin Plata, Hamid Motahari, Nigel P Duffy(参考訳) スキャンされたページからノイズを取り除くことは、光学文字認識(OCR)システムに申請する前に重要なステップである。 ほとんどの利用可能な画像デノイジング手法は、ノイズ/クリーンページのペアが必要な場所で監督される。 しかし、この仮定は実際の設定では滅多に当てはまらない。 さらに、ドキュメントから様々なノイズタイプを削除できる単一のモデルは存在しない。 そこで本研究では,塩とペッパーのノイズ,ぼやけたテキスト,あるいは失明したテキストなど,さまざまな強度の文書からの透かしなど,複数の種類のノイズを効果的に除去できる,エンドツーエンドの非教師なし深層学習モデルを提案する。 提案手法は,複数のテストデータセットにおいて,スキャン画像の品質とページのocrを著しく改善することを示す。

Removing noise from scanned pages is a vital step before their submission to optical character recognition (OCR) system. Most available image denoising methods are supervised where the pairs of noisy/clean pages are required. However, this assumption is rarely met in real settings. Besides, there is no single model that can remove various noise types from documents. Here, we propose a unified end-to-end unsupervised deep learning model, for the first time, that can effectively remove multiple types of noise, including salt \& pepper noise, blurred and/or faded text, as well as watermarks from documents at various levels of intensity. We demonstrate that the proposed model significantly improves the quality of scanned images and the OCR of the pages on several test datasets.
翻訳日:2021-05-21 13:36:08 公開日:2021-05-19
# 機械学習による糖尿病および未診断糖尿病の危険因子の同定

Using Machine Learning Techniques to Identify Key Risk Factors for Diabetes and Undiagnosed Diabetes ( http://arxiv.org/abs/2105.09379v1 )

ライセンス: Link先を確認
Avraham Adler(参考訳) 本稿では、全国健康栄養検査調査(nhanes)の8年間のデータを用いて、糖尿病の有無と未診断糖尿病の有無の両方を予測するための機械学習モデルについて概説する。 モデルは調整され、ブライヤスコアで比較される。 次に、最高のパフォーマンスモデルの最も重要な変数を比較します。 リニアカーネルを備えたサポートベクターマシンは、糖尿病の予測に最も適しており、試験セット上でブライアスコア 0.0654 と auroc を 0.9235 で返す。 測定値が0.0294, AUROCが0.9439, 未診断糖尿病の予測に最適であった。 類似した特徴は、両方のモデルのモデルに顕著に現れる。 血液浸透圧、家族歴、様々な化合物の有病率、高血圧は全ての糖尿病リスクの指標である。 特に未診断の糖尿病には、強い相関関係として生じる民族性や遺伝的要素がある。

This paper reviews a wide selection of machine learning models built to predict both the presence of diabetes and the presence of undiagnosed diabetes using eight years of National Health and Nutrition Examination Survey (NHANES) data. Models are tuned and compared via their Brier Scores. The most relevant variables of the best performing models are then compared. A Support Vector Machine with a linear kernel performed best for predicting diabetes, returning a Brier score of 0.0654 and an AUROC of 0.9235 on the test set. An elastic net regression performed best for predicting undiagnosed diabetes with a Brier score of 0.0294 and an AUROC of 0.9439 on the test set. Similar features appear prominently in the models for both sets of models. Blood osmolality, family history, the prevalance of various compounds, and hypertension are key indicators for all diabetes risk. For undiagnosed diabetes in particular, there are ethnicity or genetic components which arise as strong correlates as well.
翻訳日:2021-05-21 13:31:42 公開日:2021-05-19
# グラフ衛生とノード分類への応用

Graph Sanitation with Application to Node Classification ( http://arxiv.org/abs/2105.09384v1 )

ライセンス: Link先を確認
Zhe Xu and Hanghang Tong(参考訳) 過去数十年間、グラフマイニングが繁栄し、ランキング、分類、クラスタリング、異常検出など、さまざまなマイニングタスク用に設計された洗練されたモデルやアルゴリズムが数多く登場してきた。 一般的に言えば、既存の作品の大部分は以下の質問に答えることを目的としています。 本稿では,直交質問への回答として,グラフ衛生問題を提案する。 つまり、マイニングタスクと初期グラフを考えると、最初に提供されたグラフを改善する最善の方法は何か? マイニングモデルの入力の一部として、より良いグラフを学習することで、デノイング、インキュベーション、ディフェンスなど、さまざまな環境でグラフマイニングの恩恵を受けることが期待されている。 グラフ衛生問題を二段階最適化問題として定式化し、さらに半教師付きノード分類により、GaSoliNeという効果的な解法とともにインスタンス化する。 その結果,提案手法は,(1)異なるグラフニューラルネットワークモデルと柔軟なグラフ修正戦略に対して広く適用可能であること,(2)様々な摂動シナリオにおける元のグラフと汚染されたグラフのノード分類精度の向上に有効であることを示した。 特に、既存の堅牢なグラフニューラルネットワークメソッドに対して、25%のパフォーマンス向上をもたらす。

The past decades have witnessed the prosperity of graph mining, with a multitude of sophisticated models and algorithms designed for various mining tasks, such as ranking, classification, clustering and anomaly detection. Generally speaking, the vast majority of the existing works aim to answer the following question, that is, given a graph, what is the best way to mine it? In this paper, we introduce the graph sanitation problem, to answer an orthogonal question. That is, given a mining task and an initial graph, what is the best way to improve the initially provided graph? By learning a better graph as part of the input of the mining model, it is expected to benefit graph mining in a variety of settings, ranging from denoising, imputation to defense. We formulate the graph sanitation problem as a bilevel optimization problem, and further instantiate it by semi-supervised node classification, together with an effective solver named GaSoliNe. Extensive experimental results demonstrate that the proposed method is (1) broadly applicable with respect to different graph neural network models and flexible graph modification strategies, (2) effective in improving the node classification accuracy on both the original and contaminated graphs in various perturbation scenarios. In particular, it brings up to 25% performance improvement over the existing robust graph neural network methods.
翻訳日:2021-05-21 13:31:27 公開日:2021-05-19
# disttune: 交通ネットワーク拡大のための分散細粒度適応交通速度予測

DistTune: Distributed Fine-Grained Adaptive Traffic Speed Prediction for Growing Transportation Networks ( http://arxiv.org/abs/2105.09421v1 )

ライセンス: Link先を確認
Ming-Chang Lee, Jia-Chun Lin, and Ernst Gunnar Gran(参考訳) 過去10年間、交通速度予測に多くのアプローチが導入された。 しかし,ネットワーク規模が拡大し,新たなトラヒック検出装置が常に配備されている交通ネットワークに対して,細かな粒度,精度,時間効率,適応的なトラヒック速度予測を提供することは十分に研究されていない。 本稿では,Long Short-Term Memory(LSTM)とNelder-Mead法に基づくDistTuneを提案する。 未処理の検出器に遭遇するたびに、DistTuneはこの検出器のLSTMモデルを正常化された速度パターンで他の処理された検出器と比較することによってカスタマイズするかどうかを決定する。 類似性が見つかれば、DistTuneはこの検出器と既存のLSTMモデルを直接共有し、時間効率な処理を実現する。 そうでなければ、DistTuneは検出器のLSTMモデルをカスタマイズして、きめ細かい予測を行う。 DistTuneをさらに時間効率よくするために、DistTuneは並列に計算ノードのクラスタ上で機能する。 適応的な交通速度予測を実現するために、DistTuneは、例えば交通速度パターンの変化による不満足な予測精度に苦しむ検出器のLSTM再最適化も提供する。 カリフォルニア州の高速道路I5-Nから収集した交通データに基づく大規模実験を行い,DistTuneの性能評価を行った。 その結果,disttuneは交通網の拡大に対して,細粒度,精度,時間効率,適応的な交通速度予測を提供することがわかった。

Over the past decade, many approaches have been introduced for traffic speed prediction. However, providing fine-grained, accurate, time-efficient, and adaptive traffic speed prediction for a growing transportation network where the size of the network keeps increasing and new traffic detectors are constantly deployed has not been well studied. To address this issue, this paper presents DistTune based on Long Short-Term Memory (LSTM) and the Nelder-Mead method. Whenever encountering an unprocessed detector, DistTune decides if it should customize an LSTM model for this detector by comparing the detector with other processed detectors in terms of the normalized traffic speed patterns they have observed. If similarity is found, DistTune directly shares an existing LSTM model with this detector to achieve time-efficient processing. Otherwise, DistTune customizes an LSTM model for the detector to achieve fine-grained prediction. To make DistTune even more time-efficient, DistTune performs on a cluster of computing nodes in parallel. To achieve adaptive traffic speed prediction, DistTune also provides LSTM re-customization for detectors that suffer from unsatisfactory prediction accuracy due to for instance traffic speed pattern change. Extensive experiments based on traffic data collected from freeway I5-N in California are conducted to evaluate the performance of DistTune. The results demonstrate that DistTune provides fine-grained, accurate, time-efficient, and adaptive traffic speed prediction for a growing transportation network.
翻訳日:2021-05-21 13:31:07 公開日:2021-05-19
# 単調作用素理論を用いた三値および多値最適化

Trilevel and Multilevel Optimization using Monotone Operator Theory ( http://arxiv.org/abs/2105.09407v1 )

ライセンス: Link先を確認
Allahkaram Shafiei and Vyacheslav Kungurtsev and Jakub Marecek(参考訳) 我々はむしろ、凸目的関数を最小化し、ネスト凸最適化問題のオプティマに制約を課す多レベル最適化問題の一般的なクラスであると考える。 特殊な場合として, 2つの下層層の目的が滑らかな項と非スムース項の和からなる三次最適化問題を考える。 固定点理論と関連する議論に基づき、自然一階アルゴリズムを示し、その収束率と収束率をパラメータのいくつかのレジームで解析する。

We consider rather a general class of multi-level optimization problems, where a convex objective function is to be minimized, subject to constraints to optima of a nested convex optimization problem. As a special case, we consider a trilevel optimization problem, where the objective of the two lower layers consists of a sum of a smooth and a non-smooth term. Based on fixed-point theory and related arguments, we present a natural first-order algorithm and analyze its convergence and rates of convergence in several regimes of parameters.
翻訳日:2021-05-21 13:30:20 公開日:2021-05-19
# kemenyランクアグリゲーションの多様性:パラメータ化アプローチ

Diversity in Kemeny Rank Aggregation: A Parameterized Approach ( http://arxiv.org/abs/2105.09413v1 )

ライセンス: Link先を確認
Emmanuel Arrighi, Henning Fernau, Daniel Lokshtanov, Mateus de Oliveira Oliveira, Petra Wolf(参考訳) 最も伝統的な設定では、最適化理論の主な関心事は、与えられた計算問題のインスタンスに対する最適解の探索である。 ソリューション多様性と呼ばれる最近の人工知能研究のトレンドは、主観性が不可欠である設定においてより適切な最適性の概念の開発に焦点を当てている。 目的は、一つの最適解を出力するアルゴリズムの開発ではなく、互いに十分に多様な十分良い解の小さなセットを出力するアルゴリズムを調査することである。 このようにして、ユーザは、目の前のコンテキストに最も適したソリューションを選択することができる。 また、解空間の豊かさも示している。 パラメタライズド複雑性理論の手法と組み合わせると、ソリューションの多様性のパラダイムは、実用的な妥当性の問題に対処する強力なアルゴリズムフレームワークを提供する。 本研究では,この組み合わせが,秩序論と社会的選択論の交叉や秩序論自体の分野においてもよく研究されている問題であるケメニー・ランク・アグリゲーションの分野に与える影響を考察する。 特に、ケメニ・ランク・アグリゲーション問題は、多様性の概念と十分良い解の概念の自然な定式化を提供する自然なパラメータに関して、一定のパラメータを抽出可能であることを示す。 我々の主な成果は、線形に順序付けられた投票よりも伝統的な集計の設定を考えるときと、部分的に投票が順序付けられたより一般的な場合の両方に当てはまる。

In its most traditional setting, the main concern of optimization theory is the search for optimal solutions for instances of a given computational problem. A recent trend of research in artificial intelligence, called solution diversity, has focused on the development of notions of optimality that may be more appropriate in settings where subjectivity is essential. The idea is that instead of aiming at the development of algorithms that output a single optimal solution, the goal is to investigate algorithms that output a small set of sufficiently good solutions that are sufficiently diverse from one another. In this way, the user has the opportunity to choose the solution that is most appropriate to the context at hand. It also displays the richness of the solution space. When combined with techniques from parameterized complexity theory, the paradigm of diversity of solutions offers a powerful algorithmic framework to address problems of practical relevance. In this work, we investigate the impact of this combination in the field of Kemeny Rank Aggregation, a well-studied class of problems lying in the intersection of order theory and social choice theory and also in the field of order theory itself. In particular, we show that the Kemeny Rank Aggregation problem is fixed-parameter tractable with respect to natural parameters providing natural formalizations of the notions of diversity and of the notion of a sufficiently good solution. Our main results work both when considering the traditional setting of aggregation over linearly ordered votes, and in the more general setting where votes are partially ordered.
翻訳日:2021-05-21 13:30:10 公開日:2021-05-19
# リカレント畳み込みニューラルネットワークを用いた拡散強調画像のロバスト部分フーリエ再構成

Robust partial Fourier reconstruction for diffusion-weighted imaging using a recurrent convolutional neural network ( http://arxiv.org/abs/2105.09378v1 )

ライセンス: Link先を確認
Fasil Gadjimuradov, Thomas Benkert, Marcel Dominik Nickel, Andreas Maier(参考訳) 目的: 非滑らかな位相変化を有する拡散重み付き(DW)画像に適用可能なロバスト部分フーリエ再構成アルゴリズムを開発すること。 手法: 非線形近位分割アルゴリズムに基づいて、繰り返し畳み込みによって実装されるデータ一貫性演算と正規化を交互に行うニューラルネットワークアーキテクチャを導出する。 相関を利用するために、置換同分散を考慮した同一スライスの複数の繰り返しを共同で再構成する。 提案手法は,60名のボランティアのdw肝データに基づいて訓練し,様々な解剖学的および解像度の遡及的および予測的サブサンプリングデータを用いて評価した。 また、他のロールング戦略よりもリカレントネットワークを利用するメリットについても検討した。 結果: 従来のPF技術は, 定量的測定や知覚的画質において, 著しく優れていた。 提案手法は,学習セットに存在しないコントラストと解像度を用いて,脳データによく一般化することができる。 pfサンプリングに伴うエコー時間(te)の低減は、より高い信号によるdwイメージングを可能にする。 また、高解像度の買収のTE増加を補うことができる。 重み付きネットワークやネットワークのカスケードよりも,再帰的ネットワークによるロールアウトの方が良好な結果が得られたことを示すことができる。 結論: 本研究はDWデータの堅牢なPF再構成が, 位相変化の激しいアプリケーションにおいて, 強いPF因子でも実現可能であることを示す。 提案手法は相の滑らかさを優先するものではなく,学習再帰畳み込みを用いるため,従来のpf法のアーチファクトを回避できる。

Purpose: To develop an algorithm for robust partial Fourier (PF) reconstruction applicable to diffusion-weighted (DW) images with non-smooth phase variations. Methods: Based on an unrolled proximal splitting algorithm, a neural network architecture is derived which alternates between data consistency operations and regularization implemented by recurrent convolutions. In order to exploit correlations, multiple repetitions of the same slice are jointly reconstructed under consideration of permutation-equivariance. The proposed method is trained on DW liver data of 60 volunteers and evaluated on retrospectively and prospectively sub-sampled data of different anatomies and resolutions. In addition, the benefits of using a recurrent network over other unrolling strategies is investigated. Results: Conventional PF techniques can be significantly outperformed in terms of quantitative measures as well as perceptual image quality. The proposed method is able to generalize well to brain data with contrasts and resolution not present in the training set. The reduction in echo time (TE) associated with prospective PF-sampling enables DW imaging with higher signal. Also, the TE increase in acquisitions with higher resolution can be compensated for. It can be shown that unrolling by means of a recurrent network produced better results than using a weight-shared network or a cascade of networks. Conclusion: This work demonstrates that robust PF reconstruction of DW data is feasible even at strong PF factors in applications with severe phase variations. Since the proposed method does not rely on smoothness priors of the phase but uses learned recurrent convolutions instead, artifacts of conventional PF methods can be avoided.
翻訳日:2021-05-21 13:28:44 公開日:2021-05-19
# フェデレーション学習における勾配からのユーザラベル漏洩

User Label Leakage from Gradients in Federated Learning ( http://arxiv.org/abs/2105.09369v1 )

ライセンス: Link先を確認
Aidmar Wainakh and Fabrizio Ventola and Till M\"u{\ss}ig and Jens Keim and Carlos Garcia Cordero and Ephraim Zimmer and Tim Grube and Kristian Kersting and Max M\"uhlh\"auser(参考訳) フェデレーション学習(federated learning)は、複数のユーザがモデル更新(gradients)を共有することによって、ジョイントモデルを構築することができる。 これはプライバシーの利点をもたらすという一般的な信念とは対照的に、勾配を共有する際のプライバシーリスクに関する最近の結果に追加します。 具体的には,Gradients (LLG) のラベル漏洩を,共有勾配からユーザのトレーニングデータのラベルを抽出する新たな攻撃として提案する。 この攻撃は、ラベルの有無を決定するために勾配の方向と大きさを利用する。 LLGは単純だが有効であり、ラベルで表される潜在的な機密情報をリークし、任意のバッチサイズや複数のクラスにスケールできる。 我々は,異なる環境下での攻撃の有効性を経験的,数学的に実証する。 さらに, 実験結果から, LLGはモデルトレーニングの初期段階において, 高い精度でラベルを抽出することに成功した。 また,このような漏洩に対する防御機構についても論じる。 以上の結果から,傾斜圧縮は攻撃防止のための実用的な手法であることが示唆された。

Federated learning enables multiple users to build a joint model by sharing their model updates (gradients), while their raw data remains local on their devices. In contrast to the common belief that this provides privacy benefits, we here add to the very recent results on privacy risks when sharing gradients. Specifically, we propose Label Leakage from Gradients (LLG), a novel attack to extract the labels of the users' training data from their shared gradients. The attack exploits the direction and magnitude of gradients to determine the presence or absence of any label. LLG is simple yet effective, capable of leaking potential sensitive information represented by labels, and scales well to arbitrary batch sizes and multiple classes. We empirically and mathematically demonstrate the validity of our attack under different settings. Moreover, empirical results show that LLG successfully extracts labels with high accuracy at the early stages of model training. We also discuss different defense mechanisms against such leakage. Our findings suggest that gradient compression is a practical technique to prevent our attack.
翻訳日:2021-05-21 13:26:02 公開日:2021-05-19
# 連合学習におけるパワーの分離

Separation of Powers in Federated Learning ( http://arxiv.org/abs/2105.09400v1 )

ライセンス: Link先を確認
Pau-Chen Cheng, Kevin Eykholt, Zhongshu Gu, Hani Jamjoom, K. R. Jayaram, Enriquillo Valdez, Ashish Verma(参考訳) フェデレートラーニング(FL)は、相互不信者間の協調的なトレーニングを可能にする。 モデルの更新は、トレーニングデータではなく、中央アグリゲーションサーバに集中し、融合する。 FLの重要なセキュリティ上の課題は、信頼できないあるいは妥協された集約プロセスが、予期せぬ情報漏洩を引き起こす可能性があることである。 モデル更新から大量のトレーニングデータを再構築した最近実証された攻撃のため、この課題は特に深刻である。 本稿では,信頼性の高い分散集約アーキテクチャを用いて,単一アグリゲータに関する情報集中を分解する新しいクロスサイロFLシステムであるTRUDAを紹介する。 モデル融合アルゴリズムのユニークな計算特性に基づき、TRUDAのすべての交換モデル更新はパラメータ粒度で分解され、複数のTEE保護アグリゲータに指定されたランダムパーティションに再設定される。 したがって、各アグリゲータはモデル更新の断片的でシャッフルされたビューしか持たず、モデルアーキテクチャに従わない。 新たなセキュリティメカニズムは、トレーニングモデルの最終精度を維持しつつ、パフォーマンスオーバーヘッドを低く保ちながら、トレーニング再構築攻撃を根本的に軽減することができる。

Federated Learning (FL) enables collaborative training among mutually distrusting parties. Model updates, rather than training data, are concentrated and fused in a central aggregation server. A key security challenge in FL is that an untrustworthy or compromised aggregation process might lead to unforeseeable information leakage. This challenge is especially acute due to recently demonstrated attacks that have reconstructed large fractions of training data from ostensibly "sanitized" model updates. In this paper, we introduce TRUDA, a new cross-silo FL system, employing a trustworthy and decentralized aggregation architecture to break down information concentration with regard to a single aggregator. Based on the unique computational properties of model-fusion algorithms, all exchanged model updates in TRUDA are disassembled at the parameter-granularity and re-stitched to random partitions designated for multiple TEE-protected aggregators. Thus, each aggregator only has a fragmentary and shuffled view of model updates and is oblivious to the model architecture. Our new security mechanisms can fundamentally mitigate training reconstruction attacks, while still preserving the final accuracy of trained models and keeping performance overheads low.
翻訳日:2021-05-21 13:25:46 公開日:2021-05-19
# (参考訳) 局在、凸性、星の凝集

Localization, Convexity, and Star Aggregation ( http://arxiv.org/abs/2105.08866v1 )

ライセンス: CC BY 4.0
Suhas Vijaykumar(参考訳) オフセットラデマッハの複雑性は、不適切な統計学習やオンライン学習を含む幅広い種類の問題において、正方形損失に対するデータ依存の上界を鋭く示すことが示されている。 統計的設定では、オフセット複雑性上界は、ある一様凸条件を満たす任意の損失に一般化可能であることを示す。 驚くべきことに、この状態は指数的凹凸と自己一致を捉え、明らかに異なる結果のいくつかをまとめている。 統一的な幾何学的引数により、これらの境界はアウディベルトの「スターアルゴリズム」を用いて非凸クラスにおける不適切な学習に直接変換される。 応用として、$p$-loss, $1 < p < \infty$, ギャップを$p > 2$で閉ざし、経験的リスク最小化の不適切な変種がロジスティック回帰やその他の一般化線形モデルに対して高速な速度が得られることを示す。

Offset Rademacher complexities have been shown to imply sharp, data-dependent upper bounds for the square loss in a broad class of problems including improper statistical learning and online learning. We show that in the statistical setting, the offset complexity upper bound can be generalized to any loss satisfying a certain uniform convexity condition. Amazingly, this condition is shown to also capture exponential concavity and self-concordance, uniting several apparently disparate results. By a unified geometric argument, these bounds translate directly to improper learning in a non-convex class using Audibert's "star algorithm." As applications, we recover the optimal rates for proper and improper learning with the $p$-loss, $1 < p < \infty$, closing the gap for $p > 2$, and show that improper variants of empirical risk minimization can attain fast rates for logistic regression and other generalized linear models.
翻訳日:2021-05-20 22:08:07 公開日:2021-05-19
# (参考訳) AIと倫理 - 責任あるAIを運用する

AI and Ethics -- Operationalising Responsible AI ( http://arxiv.org/abs/2105.08867v1 )

ライセンス: CC BY-SA 4.0
Liming Zhu, Xiwei Xu, Qinghua Lu, Guido Governatori, Jon Whittle(参考訳) ここ数年、AIは社会に肯定的な影響を示す一方で、倫理的に疑わしい結果をもたらすこともある。 aiに対する公共の信頼の構築と維持は、成功し持続可能なイノベーションの鍵と認識されている。 この章では、倫理的AI原則の運用に関する課題について論じ、高レベルの倫理的AI原則、信頼/信頼の一般的な概念、責任あるAIの文脈における製品/プロセスのサポートをカバーし、より広範な利害関係者に対するAIの信頼と信頼の両面の改善を支援する、統合された見解を提示します。

In the last few years, AI continues demonstrating its positive impact on society while sometimes with ethically questionable consequences. Building and maintaining public trust in AI has been identified as the key to successful and sustainable innovation. This chapter discusses the challenges related to operationalizing ethical AI principles and presents an integrated view that covers high-level ethical AI principles, the general notion of trust/trustworthiness, and product/process support in the context of responsible AI, which helps improve both trust and trustworthiness of AI for a wider set of stakeholders.
翻訳日:2021-05-20 21:38:44 公開日:2021-05-19
# (参考訳) Nystr\"om Kernel PCAの統計的最適性と計算効率

Statistical Optimality and Computational Efficiency of Nystr\"om Kernel PCA ( http://arxiv.org/abs/2105.08875v1 )

ライセンス: CC BY 4.0
Nicholas Sterge, Bharath Sriperumbudur(参考訳) カーネル法は、単純な線形手法から非線形学習アルゴリズムを開発するためのエレガントなフレームワークを提供する。 これらの手法は複数の実データアプリケーションにおいて優れた経験的性能を有するが、大規模なサンプル状況で発生する計算負荷によってその有用性は阻害される。 これらの計算問題を緩和するために様々な近似スキームが文献に提案されており、近似カーネルマシンは経験的性能を維持することが示されている。 しかし、これらの近似カーネルマシンの理論的性質はよく理解されていない。 本研究では,nystr\"om 近似核主成分分析 (kpca) における計算複雑性と統計精度のトレードオフを理論的に検討し,nystr\"om 近似 kpca が計算上有益でありながら (非近似) kpca の統計性能と一致することを示す。 さらに、Nystr\"om almost KPCA"は、KPCAに適用した場合に、他の一般的な近似手法であるランダム特徴近似の統計的挙動よりも優れていることを示す。

Kernel methods provide an elegant framework for developing nonlinear learning algorithms from simple linear methods. Though these methods have superior empirical performance in several real data applications, their usefulness is inhibited by the significant computational burden incurred in large sample situations. Various approximation schemes have been proposed in the literature to alleviate these computational issues, and the approximate kernel machines are shown to retain the empirical performance. However, the theoretical properties of these approximate kernel machines are less well understood. In this work, we theoretically study the trade-off between computational complexity and statistical accuracy in Nystr\"om approximate kernel principal component analysis (KPCA), wherein we show that the Nystr\"om approximate KPCA matches the statistical performance of (non-approximate) KPCA while remaining computationally beneficial. Additionally, we show that Nystr\"om approximate KPCA outperforms the statistical behavior of another popular approximation scheme, the random feature approximation, when applied to KPCA.
翻訳日:2021-05-20 21:25:01 公開日:2021-05-19
# (参考訳) エネルギー最適化のための微分射影による政策可能性制約の実施

Enforcing Policy Feasibility Constraints through Differentiable Projection for Energy Optimization ( http://arxiv.org/abs/2105.08881v1 )

ライセンス: CC BY 4.0
Bingqing Chen, Priya Donti, Kyri Baker, J. Zico Kolter, Mario Berges(参考訳) 強化学習(RL)はエネルギーシステム制御において人気が高まりつつあるが、その実世界の応用は、学習方針からのアクションが機能要件を満たしていないり、基礎となる物理システムに対して実現可能であるため限られている。 本研究では,ニューラルポリシー内での凸操作制約を強制する方法であるProjected Feasibility (PROF)を提案する。 具体的には、ニューラルネットワークベースのポリシに微分可能な投影層を組み込んで、すべての学習アクションが実現可能であることを強制します。 次に、この微分可能な投影層を通して勾配を伝播することで、ポリシーをエンドツーエンドに更新し、ポリシーを運用上の制約を認識します。 本手法は,エネルギー効率の高い建築操作とインバータ制御の2つの応用について実証する。 建築作業環境において,PROFは熱的快適性を保ちながら,最先端手法よりもエネルギー効率を4%向上することを示した。 インバータ制御設定では、PRFはIEEE 37バス供給システムの電圧制約を完全に満たし、安全セット内で可能な限り再生可能エネルギーを削減できるように学習する。

While reinforcement learning (RL) is gaining popularity in energy systems control, its real-world applications are limited due to the fact that the actions from learned policies may not satisfy functional requirements or be feasible for the underlying physical system. In this work, we propose PROjected Feasibility (PROF), a method to enforce convex operational constraints within neural policies. Specifically, we incorporate a differentiable projection layer within a neural network-based policy to enforce that all learned actions are feasible. We then update the policy end-to-end by propagating gradients through this differentiable projection layer, making the policy cognizant of the operational constraints. We demonstrate our method on two applications: energy-efficient building operation and inverter control. In the building operation setting, we show that PROF maintains thermal comfort requirements while improving energy efficiency by 4% over state-of-the-art methods. In the inverter control setting, PROF perfectly satisfies voltage constraints on the IEEE 37-bus feeder system, as it learns to curtail as little renewable energy as possible within its safety set.
翻訳日:2021-05-20 20:38:04 公開日:2021-05-19
# (参考訳) クリックスルーレート予測におけるコールドスタート広告のためのグラフメタ埋め込み学習

Learning Graph Meta Embeddings for Cold-Start Ads in Click-Through Rate Prediction ( http://arxiv.org/abs/2105.08909v1 )

ライセンス: CC BY 4.0
Wentao Ouyang, Xiuwu Zhang, Shukui Ren, Li Li, Kun Zhang, Jinmei Luo, Zhaojie Liu, Yanlong Du(参考訳) クリックスルー率(CTR)予測は、オンライン広告システムにおいて最も重要なタスクの1つである。 特徴埋め込みと高次データの非線形性を利用した最近のディープラーニングモデルでは、CTR予測が劇的に成功した。 しかし、これらのモデルは新しいIDを使ったコールドスタート広告ではうまく機能しない。 本稿では,グラフニューラルネットワークとメタ学習に基づいて,新しい広告IDに最適な初期埋め込みを生成する方法を高速に学習できるグラフメタ埋め込み(GME)モデルを提案する。 これまでの作業は、この新しい広告そのものからこの問題に対処するが、既存の古い広告に含まれる有用な情報を無視する。 対照的に、GMEは2つの情報ソース(新しい広告と既存の古い広告)を同時に検討している。 新しい広告では、GMEは関連する属性を利用する。 既存の古い広告のために、GMEはまずグラフを作り、それらを新しい広告に結びつける。 異なる視点から3つの特定のGMEを提案し、どのような情報を使用するか、どのように情報を蒸留するかを探索する。 特に、GME-Pは事前訓練された隣接ID埋め込み、GME-Gは生成された隣接ID埋め込み、GME-Aは隣接属性を使用する。 3つの実世界のデータセットにおける実験結果は、gmesが5つの主要なディープラーニングベースのctr予測モデルに対して、コールドスタート(トレーニングデータがない)とウォームアップ(少数のトレーニングサンプルが収集される)の両方のシナリオにおいて、予測性能を大幅に改善できることを示しています。 GMEは変換率(CVR)予測にも適用できる。

Click-through rate (CTR) prediction is one of the most central tasks in online advertising systems. Recent deep learning-based models that exploit feature embedding and high-order data nonlinearity have shown dramatic successes in CTR prediction. However, these models work poorly on cold-start ads with new IDs, whose embeddings are not well learned yet. In this paper, we propose Graph Meta Embedding (GME) models that can rapidly learn how to generate desirable initial embeddings for new ad IDs based on graph neural networks and meta learning. Previous works address this problem from the new ad itself, but ignore possibly useful information contained in existing old ads. In contrast, GMEs simultaneously consider two information sources: the new ad and existing old ads. For the new ad, GMEs exploit its associated attributes. For existing old ads, GMEs first build a graph to connect them with new ads, and then adaptively distill useful information. We propose three specific GMEs from different perspectives to explore what kind of information to use and how to distill information. In particular, GME-P uses Pre-trained neighbor ID embeddings, GME-G uses Generated neighbor ID embeddings and GME-A uses neighbor Attributes. Experimental results on three real-world datasets show that GMEs can significantly improve the prediction performance in both cold-start (i.e., no training data is available) and warm-up (i.e., a small number of training samples are collected) scenarios over five major deep learning-based CTR prediction models. GMEs can be applied to conversion rate (CVR) prediction as well.
翻訳日:2021-05-20 20:16:34 公開日:2021-05-19
# (参考訳) 集中治療中のcovid-19患者に対する強化学習支援酸素療法

Reinforcement Learning Assisted Oxygen Therapy for COVID-19 Patients Under Intensive Care ( http://arxiv.org/abs/2105.08923v1 )

ライセンス: CC BY 4.0
Hua Zheng, Jiahao Zhu, Wei Xie, Judy Zhong(参考訳) 重篤なコロナウイルス19(COVID-19)患者は、通常、必須治療として補充酸素を必要とする。 本研究では,集中治療中の重篤者に対する酸素流量の継続的な管理を目的とした深層強化学習(RL)に基づく機械学習アルゴリズムを開発した。 基本的には、新型コロナウイルス患者とその健康状態の酸素流量軌跡をマルコフ決定プロセスとしてモデル化した。 個別の患者特性と健康状態に基づいて、強化学習に基づく酸素管理ポリシーを学習し、死亡率を減らすために酸素流量をリアルタイムに推奨する。 本研究は,2020年4月から2021年1月までに,ニューヨーク大学ラングーン保健センターの重症心身障害患者1,372名を対象に,電子カルテを用いた相互検証を行い,提案手法の有効性を検証した。 RLアルゴリズムの平均死亡率は2.57%(95% CI: 2.08-3.06)の減少率(P<0.001)から、我々のアルゴリズムでは7.94%から5.37%に低下し、推奨酸素流量は、実際に患者に届けられた率よりも1.28L/min(95% CI: 1.14-1.42)低い。 したがって、rlアルゴリズムは、酸素不足の資源を節約しながら、死亡率を低減できるより集中治療に繋がる可能性がある。 新型コロナウイルス(COVID-19)のパンデミックで酸素不足の問題を減らし、公衆衛生を改善できる。

Patients with severe Coronavirus disease 19 (COVID-19) typically require supplemental oxygen as an essential treatment. We developed a machine learning algorithm, based on a deep Reinforcement Learning (RL), for continuous management of oxygen flow rate for critical ill patients under intensive care, which can identify the optimal personalized oxygen flow rate with strong potentials to reduce mortality rate relative to the current clinical practice. Basically, we modeled the oxygen flow trajectory of COVID-19 patients and their health outcomes as a Markov decision process. Based on individual patient characteristics and health status, a reinforcement learning based oxygen control policy is learned and real-time recommends the oxygen flow rate to reduce the mortality rate. We assessed the performance of proposed methods through cross validation by using a retrospective cohort of 1,372 critically ill patients with COVID-19 from New York University Langone Health ambulatory care with electronic health records from April 2020 to January 2021. The mean mortality rate under the RL algorithm is lower than standard of care by 2.57% (95% CI: 2.08- 3.06) reduction (P<0.001) from 7.94% under the standard of care to 5.37 % under our algorithm and the averaged recommended oxygen flow rate is 1.28 L/min (95% CI: 1.14-1.42) lower than the rate actually delivered to patients. Thus, the RL algorithm could potentially lead to better intensive care treatment that can reduce mortality rate, while saving the oxygen scarce resources. It can reduce the oxygen shortage issue and improve public health during the COVID-19 pandemic.
翻訳日:2021-05-20 19:57:20 公開日:2021-05-19
# (参考訳) 関係推論のための補足構造学習ニューラルネットワーク

Complementary Structure-Learning Neural Networks for Relational Reasoning ( http://arxiv.org/abs/2105.08944v1 )

ライセンス: CC BY 4.0
Jacob Russin, Maryam Zolfaghar, Seongmin A. Park, Erie Boorman, Randall C. O'Reilly(参考訳) フレキシブルリレーショナル推論をサポートする神経機構は、特に新しい状況において、現在の研究の大きな焦点となっている。 補足的な学習システムフレームワークでは、海馬におけるパターン分離は、新しい環境での迅速な学習を可能にするが、新皮質での学習の遅さは小さな変化を蓄積し、よく学習された環境から体系的な構造を抽出する。 本研究では,この枠組みを,暗黙的関係構造に従って新しい推移的推論を行なわなければならない最近のfMRI実験の課題に適用する。 これら2つのシステムの基本的な認知特性を捉えた計算モデルは,慣れ親しんだ環境と新しい環境の両方における関係推移的推論を説明でき,fmri実験で観測された重要な現象を再現できる。

The neural mechanisms supporting flexible relational inferences, especially in novel situations, are a major focus of current research. In the complementary learning systems framework, pattern separation in the hippocampus allows rapid learning in novel environments, while slower learning in neocortex accumulates small weight changes to extract systematic structure from well-learned environments. In this work, we adapt this framework to a task from a recent fMRI experiment where novel transitive inferences must be made according to implicit relational structure. We show that computational models capturing the basic cognitive properties of these two systems can explain relational transitive inferences in both familiar and novel environments, and reproduce key phenomena observed in the fMRI experiment.
翻訳日:2021-05-20 19:44:38 公開日:2021-05-19
# (参考訳) 多段階統合ネットワークによるマルチコントラストMRI超解像

Multi-Contrast MRI Super-Resolution via a Multi-Stage Integration Network ( http://arxiv.org/abs/2105.08949v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng, Huazhu Fu, Shuhao Yuan, and Yong Xu(参考訳) 超分解能(sr)は磁気共鳴イメージング(mri)の画質向上に重要な役割を果たしている。 MRIはマルチコントラスト画像を生成し、軟部組織の明瞭な表示を提供する。 しかし、現在の超解像法は単一のコントラストのみを用いるか、あるいは単純なマルチコントラスト融合機構を用いて、SRを改善するのに有用な異なるコントラスト間のリッチな関係を無視している。 本研究では,マルチコントラスト画像間の依存関係をモデル化し,画像srを導出するマルチコントラストmri用マルチステージ統合ネットワーク(すなわちminant)を提案する。 特に,我々はまず,異なるコントラスト画像の複数の畳み込み段階から階層的な特徴表現を学習する。 次に,マルチコントラスト画像の表現間の包括的関係をマイニングするために,多段階統合モジュールを導入する。 具体的には、モジュールは各表現を他のすべての特徴と一致させ、その類似性の観点から統合してリッチな表現を得る。 高速MRIおよび実世界の臨床データセットに関する大規模な実験により、1)MINetは、様々な指標で最先端のマルチコントラストSR法より優れており、2)マルチステージ統合モジュールは、異なる段階におけるマルチコントラスト特徴間の複雑な相互作用を発掘することができ、目標画像の品質が向上することを示した。

Super-resolution (SR) plays a crucial role in improving the image quality of magnetic resonance imaging (MRI). MRI produces multi-contrast images and can provide a clear display of soft tissues. However, current super-resolution methods only employ a single contrast, or use a simple multi-contrast fusion mechanism, ignoring the rich relations among different contrasts, which are valuable for improving SR. In this work, we propose a multi-stage integration network (i.e., MINet) for multi-contrast MRI SR, which explicitly models the dependencies between multi-contrast images at different stages to guide image SR. In particular, our MINet first learns a hierarchical feature representation from multiple convolutional stages for each of different-contrast image. Subsequently, we introduce a multi-stage integration module to mine the comprehensive relations between the representations of the multi-contrast images. Specifically, the module matches each representation with all other features, which are integrated in terms of their similarities to obtain an enriched representation. Extensive experiments on fastMRI and real-world clinical datasets demonstrate that 1) our MINet outperforms state-of-the-art multi-contrast SR methods in terms of various metrics and 2) our multi-stage integration module is able to excavate complex interactions among multi-contrast features at different stages, leading to improved target-image quality.
翻訳日:2021-05-20 19:32:47 公開日:2021-05-19
# (参考訳) 他の文脈に類似した製品からの質問を活用して商品質問に答える

Answering Product-Questions by Utilizing Questions from Other Contextually Similar Products ( http://arxiv.org/abs/2105.08956v1 )

ライセンス: CC BY 4.0
Ohad Rozen, David Carmel, Avihai Mejer, Vitaly Mirkis, and Yftah Ziser(参考訳) プロダクト関連の質問に対する回答を予測することは、最近多くの注目を集めた研究分野の新興だ。 主観的および意見に基づく質問への回答は、顧客生成コンテンツに依存するため、最も難しい。 これまでの研究は主に、レビュー対応の回答予測に重点を置いていたが、これらのアプローチは、新しい製品や不人気な製品では失敗し、レビューが手元にない(あるいはほんの数回)。 本研究では,同様の質問に対する回答に基づいて,質問に対する回答を予測するための新しい,補完的な手法を提案する。 同じ質問に対する回答に基づいて、製品間のコンテキスト的類似度を測定します。 mix-of-expertフレームワークは、コンテキスト的に類似した製品から回答を集約することで、回答を予測するために使用される。 実験結果から,我々のモデルは,コーパスに約10以上の類似した解答を持つ質問に対して,強いベースラインを達成できた。 この作業で使用される2つの大規模なデータセットも公開しています。1つは製品質問ペアで、もう1つは製品質問-回答ペアです。

Predicting the answer to a product-related question is an emerging field of research that recently attracted a lot of attention. Answering subjective and opinion-based questions is most challenging due to the dependency on customer-generated content. Previous works mostly focused on review-aware answer prediction; however, these approaches fail for new or unpopular products, having no (or only a few) reviews at hand. In this work, we propose a novel and complementary approach for predicting the answer for such questions, based on the answers for similar questions asked on similar products. We measure the contextual similarity between products based on the answers they provide for the same question. A mixture-of-expert framework is used to predict the answer by aggregating the answers from contextually similar products. Empirical results demonstrate that our model outperforms strong baselines on some segments of questions, namely those that have roughly ten or more similar resolved questions in the corpus. We additionally publish two large-scale datasets used in this work, one is of similar product question pairs, and the second is of product question-answer pairs.
翻訳日:2021-05-20 19:22:55 公開日:2021-05-19
# (参考訳) VSGM --ビジュアルセマンティックグラフによるロボットタスク理解機能強化

VSGM -- Enhance robot task understanding ability through visual semantic graph ( http://arxiv.org/abs/2105.08959v1 )

ライセンス: CC BY 4.0
Cheng Yu Tsai and Mu-Chun Su(参考訳) 近年,ロボット工学のためのai開発が注目されている。 ロボットの視覚と言語との相互作用は特に難しい。 視覚意味論と言語意味論をロボットに理解させると推論能力が向上すると考える。 本稿では,このセマンティックグラフを用いて,より優れた視覚的特徴を抽出し,ロボットの視覚的理解能力を向上させる手法であるVSGM(Visual Semantic Graph Memory)を提案する。 ロボットの事前の知識を提供し、画像中のオブジェクトを検出することにより、オブジェクトとオブジェクトの属性の相関を予測し、それらをグラフベースの表現に変換し、画像内のオブジェクトをトップダウンのエゴセントリックマップにマッピングする。 最後に、現在のタスクの重要なオブジェクトの特徴をグラフニューラルネットワークによって抽出する。 本稿では,alfred(action learning from real environment and directives)データセットを用いて,本手法の有効性を検証する。 このデータセットでは、ロボットは必要な言語指示に従って日々の家庭内タスクを実行する必要がある。 モデルがvsgmに追加されると、タスク成功率は6~10%向上する。

In recent years, developing AI for robotics has raised much attention. The interaction of vision and language of robots is particularly difficult. We consider that giving robots an understanding of visual semantics and language semantics will improve inference ability. In this paper, we propose a novel method-VSGM (Visual Semantic Graph Memory), which uses the semantic graph to obtain better visual image features, improve the robot's visual understanding ability. By providing prior knowledge of the robot and detecting the objects in the image, it predicts the correlation between the attributes of the object and the objects and converts them into a graph-based representation; and mapping the object in the image to be a top-down egocentric map. Finally, the important object features of the current task are extracted by Graph Neural Networks. The method proposed in this paper is verified in the ALFRED (Action Learning From Realistic Environments and Directives) dataset. In this dataset, the robot needs to perform daily indoor household tasks following the required language instructions. After the model is added to the VSGM, the task success rate can be improved by 6~10%.
翻訳日:2021-05-20 19:08:33 公開日:2021-05-19
# (参考訳) 高エネルギー物理シミュレーションを高速化する新しい畳み込み2次元アーキテクチャの物理検証

Physics Validation of Novel Convolutional 2D Architectures for Speeding Up High Energy Physics Simulations ( http://arxiv.org/abs/2105.08960v1 )

ライセンス: CC BY 4.0
Florian Rehm, Sofia Vallecorsa, Kerstin Borras, Dirk Kr\"ucker(参考訳) 検出器による粒子輸送の正確なシミュレーションは、高エネルギー物理学結果の解釈に成功するための重要な要素である。 しかし、モンテカルロのシミュレーションは計算資源の面で非常に要求されている。 この課題は、モンテカルロの標準的なアプローチを置き換えるためのより高速で代替的なアプローチの調査を動機付けている。 本稿では,GAN(Generative Adversarial Networks, GAN)を用いて, 温度計検出器のシミュレーションを置き換え, シミュレーション時間を桁違いに高速化する。 我々は,3次元畳み込みニューラルネットワークを用いて,同じ3次元画像生成問題を高速に解くための新しい2次元畳み込みネットワークを開発した。 さらに,パラメータ数とニューラルネットワーク表現力を増加させ,高い精度を得ることができた。 我々は、最も優れた畳み込み2Dニューラルネットワークアーキテクチャを比較し、以前の3DアーキテクチャとGeant4データと比較した。 その結果,物理精度が向上し,高速検出器シミュレーションにおけるGANの利用がさらに強化された。

The precise simulation of particle transport through detectors remains a key element for the successful interpretation of high energy physics results. However, Monte Carlo based simulation is extremely demanding in terms of computing resources. This challenge motivates investigations of faster, alternative approaches for replacing the standard Monte Carlo approach. We apply Generative Adversarial Networks (GANs), a deep learning technique, to replace the calorimeter detector simulations and speeding up the simulation time by orders of magnitude. We follow a previous approach which used three-dimensional convolutional neural networks and develop new two-dimensional convolutional networks to solve the same 3D image generation problem faster. Additionally, we increased the number of parameters and the neural networks representational power, obtaining a higher accuracy. We compare our best convolutional 2D neural network architecture and evaluate it versus the previous 3D architecture and Geant4 data. Our results demonstrate a high physics accuracy and further consolidate the use of GANs for fast detector simulations.
翻訳日:2021-05-20 18:54:05 公開日:2021-05-19
# (参考訳) 計算問題を解決するニューラルネットワークに合成処理が出現

Compositional Processing Emerges in Neural Networks Solving Math Problems ( http://arxiv.org/abs/2105.08961v1 )

ライセンス: CC BY 4.0
Jacob Russin, Roland Fernandez, Hamid Palangi, Eric Rosen, Nebojsa Jojic, Paul Smolensky, Jianfeng Gao(参考訳) 認知科学における長年の疑問は、人間の認知における構成性の基礎となる学習メカニズムに関するものである。 人間は、知覚的観察(聴覚音声など)において暗黙的に構造化された関係(文法規則など)を推論し、この知識を使って単純な意味の合成を複雑な全体へと導くことができる。 ニューラルネットワークの最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、その表現に文法構造が現れることを示している。 ここでは、意味(例えば、数字に対応する量)がどのように構造化された規則(例えば、演算の順序)に基づいて構成されるべきかについて、正確な仮説を定式化することができる。 私たちの研究は、ニューラルネットワークがトレーニングデータに隠された構造化された関係について何かを推測できるだけでなく、個々の意味の合成を複合的な全体へと導くためにこの知識を展開できることを示しています。

A longstanding question in cognitive science concerns the learning mechanisms underlying compositionality in human cognition. Humans can infer the structured relationships (e.g., grammatical rules) implicit in their sensory observations (e.g., auditory speech), and use this knowledge to guide the composition of simpler meanings into complex wholes. Recent progress in artificial neural networks has shown that when large models are trained on enough linguistic data, grammatical structure emerges in their representations. We extend this work to the domain of mathematical reasoning, where it is possible to formulate precise hypotheses about how meanings (e.g., the quantities corresponding to numerals) should be composed according to structured rules (e.g., order of operations). Our work shows that neural networks are not only able to infer something about the structured relationships implicit in their training data, but can also deploy this knowledge to guide the composition of individual meanings into composite wholes.
翻訳日:2021-05-20 18:45:17 公開日:2021-05-19
# (参考訳) 深層学習を用いた音楽生成

Music Generation using Deep Learning ( http://arxiv.org/abs/2105.09046v1 )

ライセンス: CC BY-SA 4.0
Vaishali Ingale, Anush Mohan, Divit Adlakha, Krishna Kumar and Mohit Gupta(参考訳) 本稿では,Long Short-Term Memory Neural Network (LSTMNN) を用いたABC表記における音楽系列の生成について検討する。 提案されたアプローチは、nottinghamデータセットからabc記法を取り、それをニューラルネットワークの入力としてエンコードする。 第一の目的は、ニューラルネットワークを任意の音符で入力し、ネットワークに処理させ、良質な音楽が生成されるまで音符に基づくシーケンスを増強することである。 最適生成のために、ネットワークのパラメータを修正するために複数のチューニングが行われた。 出力は、リズム、調和、文法の正確さに基づいて評価される。

This paper explores the idea of utilising Long Short-Term Memory neural networks (LSTMNN) for the generation of musical sequences in ABC notation. The proposed approach takes ABC notations from the Nottingham dataset and encodes it to beefed as input for the neural networks. The primary objective is to input the neural networks with an arbitrary note, let the network process and augment a sequence based on the note until a good piece of music is produced. Multiple tunings have been done to amend the parameters of the network for optimal generation. The output is assessed on the basis of rhythm, harmony, and grammar accuracy.
翻訳日:2021-05-20 18:34:47 公開日:2021-05-19
# (参考訳) 投影による障害物分類

Obstructing Classification via Projection ( http://arxiv.org/abs/2105.09047v1 )

ライセンス: CC BY 4.0
Pantea Haghighatkhah, Wouter Meulemans, Bettina Speckman, J\'er\^ome Urhausen, Kevin Verbeek(参考訳) 機械学習とデータマイニングは、大量のデータを分類するための効果的なツールである。 しかし、例えば性別や人種に関して、データに固有のバイアスは残されがちです。 このようなバイアスをデータや学習した表現から取り除くことは、非常に難しい。 本稿では,バイアス除去のアプローチをモデル化する幾何問題について考察する。 入力はユークリッド空間 r^d における点 p の集合であり、各点には k 個の二値特性がラベル付けされる。 優先事項では、各プロパティに従ってデータを分類するのは「簡単」であると仮定する。 本研究の目的は,低次元ユークリッド空間 r^m (m < d) に対する適切な射影による一つの性質による分類を阻害することであり,他のすべての性質による分類は依然として容易である。 分類が容易であることの意味は、使用する分類モデルに依存する。 まず,線形分離性による分類をサポートベクタマシンで採用する。 キルヒベルガーの定理を用いて、ある条件下では、r^(d-1) への単純な射影が、他の性質の線形分離性を保ちながら、その特性の1つの線形分離性を排除できることを示した。 また,選択した特性の線形「分離性」を最大化する問題についても検討する。 第二に,より複雑な分離可能性について考察し,分類を阻害するために必要な射影数とそれらの分離性のヘリー型特性との関係を証明した。

Machine learning and data mining techniques are effective tools to classify large amounts of data. But they tend to preserve any inherent bias in the data, for example, with regards to gender or race. Removing such bias from data or the learned representations is quite challenging. In this paper we study a geometric problem which models a possible approach for bias removal. Our input is a set of points P in Euclidean space R^d and each point is labeled with k binary-valued properties. A priori we assume that it is "easy" to classify the data according to each property. Our goal is to obstruct the classification according to one property by a suitable projection to a lower-dimensional Euclidean space R^m (m < d), while classification according to all other properties remains easy. What it means for classification to be easy depends on the classification model used. We first consider classification by linear separability as employed by support vector machines. We use Kirchberger's Theorem to show that, under certain conditions, a simple projection to R^(d-1) suffices to eliminate the linear separability of one of the properties whilst maintaining the linear separability of the other properties. We also study the problem of maximizing the linear "inseparability" of the chosen property. Second, we consider more complex forms of separability and prove a connection between the number of projections required to obstruct classification and the Helly-type properties of such separabilities.
翻訳日:2021-05-20 18:29:12 公開日:2021-05-19
# (参考訳) ロシア語用テキストの解毒方法

Methods for Detoxification of Texts for the Russian Language ( http://arxiv.org/abs/2105.09052v1 )

ライセンス: CC BY 4.0
Daryna Dementieva, Daniil Moskovskiy, Varvara Logacheva, David Dale, Olga Kozlova, Nikita Semenov, and Alexander Panchenko(参考訳) 攻撃的言語と戦うために,ロシア語テキストの自動解毒に関する最初の研究を紹介する。 この種のテキストスタイルの転送は、例えばソーシャルメディアで有害なコンテンツを処理するために使用することができる。 この分野の英語については多くの研究がなされているが、ロシア語ではまだ解決されていない。 我々は,事前学習された言語 gpt-2 モデルに基づく局所的補正と教師付きアプローチを行う bert アーキテクチャに基づく教師なしアプローチと,いくつかのベースラインと比較する。 さらに,自動評価のためのトレーニングデータセットとメトリクスを提供する評価設定について述べる。 以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。

We introduce the first study of automatic detoxification of Russian texts to combat offensive language. Such a kind of textual style transfer can be used, for instance, for processing toxic content in social media. While much work has been done for the English language in this field, it has never been solved for the Russian language yet. We test two types of models - unsupervised approach based on BERT architecture that performs local corrections and supervised approach based on pretrained language GPT-2 model - and compare them with several baselines. In addition, we describe evaluation setup providing training datasets and metrics for automatic evaluation. The results show that the tested approaches can be successfully used for detoxification, although there is room for improvement.
翻訳日:2021-05-20 18:03:55 公開日:2021-05-19
# (参考訳) The State of AI Ethics Report (2021年1月)

The State of AI Ethics Report (January 2021) ( http://arxiv.org/abs/2105.09059v1 )

ライセンス: CC BY 4.0
Abhishek Gupta ((1) and (2)), Alexandrine Royer ((1) and (3)), Connor Wright ((1) and (4)), Falaah Arif Khan (1), Victoria Heath (1), Erick Galinkin ((1) and (5)), Ryan Khurana (1), Marianna Bergamaschi Ganapini ((1) and (6)), Muriam Fancy ((1), (7), and (8)), Masa Sweidan ((1) and (9)), Mo Akif (1), and Renjie Butalid (1) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) University of Oxford, (4) University of Exeter, (5) Rapid7, (6) Union College, (7) University of Toronto, (8) University of Ottawa, (9) McGill University)(参考訳) モントリオールAI倫理研究所のThe State of AI Ethicsの第3版は、2020年10月以来のAI倫理の最も重要な発展を捉えている。 機械学習の専門家から人権活動家や政策立案者まで、あらゆる人がこの分野の変化する発展を素早く理解し理解することを目指している。 研究と記事の要約と専門家のコメントを通じて、このレポートは、アルゴリズム上の不正、差別、倫理的AI、労働影響、誤情報、プライバシ、リスクとセキュリティ、ソーシャルメディアなど、AIの倫理に関するさまざまな領域に関する研究と報告を精査する。 さらに、The State of AI Ethicsには、大学、研究機関、コンサルティング会社、政府からの世界クラスのAI倫理専門家によって書かれた排他的コンテンツが含まれている。 このレポートの特筆すべき点は、Katlyn Tuner博士 (Research Scientist, Space Enabled Research Group, MIT)、Danielle Wood博士 (Assistant Professor, Program in Media Arts and Sciences; Assistant Professor, Aeronautics and Astronautics; Lead, Space Enabled Research Group, MIT)、Catherine D'Ignazio博士 (Assistant Professor, Urban Science and Planning; Director, Data + Feminism Lab, MIT)によって書かれた『The Abuse and Misogynoir Playbook』である。 この作品(およびそれに付随するインフォグラフィック)は、黒人女性の知識と奨学金への貢献の歴史的かつ体系的なサイレンシング、消去、および修正を深く掘り下げたものである。 このPlaybookの公開と対策は、AI倫理の専門家であるTimnit Gebru博士(およびその支持者)がGoogleで解雇された後、ますます重要になっている。 このレポートは、AI倫理の分野における最新の思考に関する参照と洞察のポイントとしてだけでなく、AIが世界に与える影響に関するより曖昧な会話を促進するために、イントロスペクションのツールとしても使われるべきです。

The 3rd edition of the Montreal AI Ethics Institute's The State of AI Ethics captures the most relevant developments in AI Ethics since October 2020. It aims to help anyone, from machine learning experts to human rights activists and policymakers, quickly digest and understand the field's ever-changing developments. Through research and article summaries, as well as expert commentary, this report distills the research and reporting surrounding various domains related to the ethics of AI, including: algorithmic injustice, discrimination, ethical AI, labor impacts, misinformation, privacy, risk and security, social media, and more. In addition, The State of AI Ethics includes exclusive content written by world-class AI Ethics experts from universities, research institutes, consulting firms, and governments. Unique to this report is "The Abuse and Misogynoir Playbook," written by Dr. Katlyn Tuner (Research Scientist, Space Enabled Research Group, MIT), Dr. Danielle Wood (Assistant Professor, Program in Media Arts and Sciences; Assistant Professor, Aeronautics and Astronautics; Lead, Space Enabled Research Group, MIT) and Dr. Catherine D'Ignazio (Assistant Professor, Urban Science and Planning; Director, Data + Feminism Lab, MIT). The piece (and accompanying infographic), is a deep-dive into the historical and systematic silencing, erasure, and revision of Black women's contributions to knowledge and scholarship in the United Stations, and globally. Exposing and countering this Playbook has become increasingly important following the firing of AI Ethics expert Dr. Timnit Gebru (and several of her supporters) at Google. This report should be used not only as a point of reference and insight on the latest thinking in the field of AI Ethics, but should also be used as a tool for introspection as we aim to foster a more nuanced conversation regarding the impacts of AI on the world.
翻訳日:2021-05-20 17:47:48 公開日:2021-05-19
# (参考訳) The State of AI Ethics Report (Volume 4)

The State of AI Ethics Report (Volume 4) ( http://arxiv.org/abs/2105.09060v1 )

ライセンス: CC BY 4.0
Abhishek Gupta ((1) and (2)), Alexandrine Royer ((1) and (3)), Connor Wright ((1) and (4)), Victoria Heath (1), Muriam Fancy ((1) and (5)), Marianna Bergamaschi Ganapini ((1) and (6)), Shannon Egan ((1) and (7)), Masa Sweidan ((1) and (8)), Mo Akif (1), and Renjie Butalid (1) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) University of Oxford, (4) University of Exeter, (5) University of Toronto, (6) Union College, (7) University of British Columbia, (8) McGill University)(参考訳) モントリオールAI倫理研究所のThe State of AI Ethicsの第4版は、2021年1月以来のAI倫理分野における最も重要な発展を捉えている。 このレポートは、機械学習の専門家から人権活動家や政策立案者まで、あらゆる人が、この分野の絶えず変化する発展を素早く理解し理解することを目指している。 研究と記事の要約と専門家のコメントを通じて、このレポートは、倫理的AI、公正と正義、人間と技術、プライバシの4つの主要なテーマに焦点を当て、AIの倫理に関するさまざまな領域に関する研究と報告を精査する。 さらに、The State of AI Ethicsには、大学、研究機関、コンサルティング会社、政府からの世界クラスのAI倫理専門家によって書かれた排他的コンテンツが含まれている。 報告書のオープニングはエドワード・ヒッグス(エセックス大学歴史学教授)による長編の「AI and the Face: A Historian's View」である。 その中でHigs氏は、顔分析の非科学的歴史と、AIが大規模な失敗をいかに繰り返しているかを調べている。 報告書にはAlexa Hagerty氏(ケンブリッジ大学解剖学者)、Marianna Ganapini氏(モントリオールAI倫理研究所ファクトリーディレクター)、Deborah G. Johnson氏(バージニア大学エンジニアリング・アンド・ソサエティ教授)、Soraj Hongladarom氏(哲学教授兼ディレクタ、バンコクのChulalongkorn大学科学・技術・社会センター)の章も紹介されている。 このレポートは、AI倫理の分野における最新の思考に関する参照と洞察のポイントとしてだけでなく、AIが世界に与える影響に関するより曖昧な会話を促進するために、イントロスペクションのツールとしても使われるべきです。

The 4th edition of the Montreal AI Ethics Institute's The State of AI Ethics captures the most relevant developments in the field of AI Ethics since January 2021. This report aims to help anyone, from machine learning experts to human rights activists and policymakers, quickly digest and understand the ever-changing developments in the field. Through research and article summaries, as well as expert commentary, this report distills the research and reporting surrounding various domains related to the ethics of AI, with a particular focus on four key themes: Ethical AI, Fairness & Justice, Humans & Tech, and Privacy. In addition, The State of AI Ethics includes exclusive content written by world-class AI Ethics experts from universities, research institutes, consulting firms, and governments. Opening the report is a long-form piece by Edward Higgs (Professor of History, University of Essex) titled "AI and the Face: A Historian's View." In it, Higgs examines the unscientific history of facial analysis and how AI might be repeating some of those mistakes at scale. The report also features chapter introductions by Alexa Hagerty (Anthropologist, University of Cambridge), Marianna Ganapini (Faculty Director, Montreal AI Ethics Institute), Deborah G. Johnson (Emeritus Professor, Engineering and Society, University of Virginia), and Soraj Hongladarom (Professor of Philosophy and Director, Center for Science, Technology and Society, Chulalongkorn University in Bangkok). This report should be used not only as a point of reference and insight on the latest thinking in the field of AI Ethics, but should also be used as a tool for introspection as we aim to foster a more nuanced conversation regarding the impacts of AI on the world.
翻訳日:2021-05-20 16:50:13 公開日:2021-05-19
# (参考訳) ロボットマニピュレーションのための変形可能な物体上のユーザ決定点の位置と追跡

Localization and Tracking of User-Defined Points on Deformable Objects for Robotic Manipulation ( http://arxiv.org/abs/2105.09067v1 )

ライセンス: CC BY 4.0
Sven Dittus, Benjamin Alt, Andreas Hermann, Darko Katic, Rainer J\"akel, J\"urgen Fleischer(参考訳) 本稿では,変形可能な物体の表面にユーザ定義点を配置し,その位置を時間とともに3次元空間で追跡する効率的な手法を提案する。 変形可能なオブジェクトの無限個のDOFに対応するために,複数ステップの非線形ソルバパイプラインを用いて実行時に推定される離散化変形場を提案する。 結果として生じる高次元エネルギー最小化問題は、オフライン定義参照モデルと事前処理されたカメラ画像とのずれを記述している。 さらなる正規化項は、対象の隠れた領域に関する仮定を可能にし、ソルバの数値安定性を高める。 本手法は, 産業生産プロセスにおける非剛体物体の認識に最適であるように, データ並列方式でオンラインのローカライズ問題を解くことができる。

This paper introduces an efficient procedure to localize user-defined points on the surface of deformable objects and track their positions in 3D space over time. To cope with a deformable object's infinite number of DOF, we propose a discretized deformation field, which is estimated during runtime using a multi-step non-linear solver pipeline. The resulting high-dimensional energy minimization problem describes the deviation between an offline-defined reference model and a pre-processed camera image. An additional regularization term allows for assumptions about the object's hidden areas and increases the solver's numerical stability. Our approach is capable of solving the localization problem online in a data-parallel manner, making it ideally suitable for the perception of non-rigid objects in industrial manufacturing processes.
翻訳日:2021-05-20 16:48:33 公開日:2021-05-19
# (参考訳) Essay-BR:ブラジルのEssaysコーパス

Essay-BR: a Brazilian Corpus of Essays ( http://arxiv.org/abs/2105.09081v1 )

ライセンス: CC BY 4.0
Jeziel C. Marinho, Rafael T. Anchieta, and Raimundo S. Moura(参考訳) 自動エッセイスコアリング(automatic essay scoring, aes)とは、エッセイの評価とスコア付けを行うコンピュータ技術である。 様々な言語でいくつかのAES研究があるが、ポルトガル語に焦点を当てているものはほとんどない。 主な理由は、手書きのエッセイによるコーパスの欠如である。 このギャップを埋めるために,ブラジルの高校生がオンラインプラットフォーム上で書いたエッセイを,大規模なコーパスとして作成する。 エッセイはすべて議論的であり、専門家によって5つの能力で得点された。 さらに,作成したコーパスについて実験を行い,ポルトガル語による課題を示した。 私たちのコーパスはhttps://github.com/rafaelanchieta/essayで公開されている。

Automatic Essay Scoring (AES) is defined as the computer technology that evaluates and scores the written essays, aiming to provide computational models to grade essays either automatically or with minimal human involvement. While there are several AES studies in a variety of languages, few of them are focused on the Portuguese language. The main reason is the lack of a corpus with manually graded essays. In order to bridge this gap, we create a large corpus with several essays written by Brazilian high school students on an online platform. All of the essays are argumentative and were scored across five competencies by experts. Moreover, we conducted an experiment on the created corpus and showed challenges posed by the Portuguese language. Our corpus is publicly available at https://github.com/rafaelanchieta/essay.
翻訳日:2021-05-20 16:39:32 公開日:2021-05-19
# (参考訳) ディープラーニングにおけるエラーイン変数--アレエータ的不確実性再考

Errors-in-Variables for deep learning: rethinking aleatoric uncertainty ( http://arxiv.org/abs/2105.09095v1 )

ライセンス: CC BY 4.0
J\"org Martin and Clemens Elster(参考訳) 本稿では,ニューラルネットワークへの入力の不確実性を考慮したエラーイン変数モデルを用いて,深い回帰に対するベイズ法を提案する。 この処理を,変分推論に基づく不確実性定量化のための既存のアプローチとどのように組み合わせることができるかを示す。 我々のアプローチは、予測の不確実性の分解を、より完全で、多くの場合、統計的観点からより一貫した、動脈とてんかんの部分へと導く。 様々な玩具や実世界の例でそのアプローチを説明し,議論する。

We present a Bayesian treatment for deep regression using an Errors-in-Variables model which accounts for the uncertainty associated with the input to the employed neural network. It is shown how the treatment can be combined with already existing approaches for uncertainty quantification that are based on variational inference. Our approach yields a decomposition of the predictive uncertainty into an aleatoric and epistemic part that is more complete and, in many cases, more consistent from a statistical perspective. We illustrate and discuss the approach along various toy and real world examples.
翻訳日:2021-05-20 16:30:53 公開日:2021-05-19
# (参考訳) 大規模戦術計画のための定期的な貨物需要予測

Periodic Freight Demand Forecasting for Large-scale Tactical Planning ( http://arxiv.org/abs/2105.09136v1 )

ライセンス: CC BY 4.0
Greta Laage and Emma Frejinger and Gilles Savard(参考訳) 貨物輸送にとって重要なのが、サービスネットワークの戦術計画である。 目的は、予測された需要を最小限のコストで満たす、所定の戦術計画地平上の循環計画を得ることである。 計画プロセスへの中心的な入力は、定期的な需要、すなわち計画の地平線における各周期で繰り返されると予想される需要である。 計算トラクタビリティに関する決定論的モデルを必要とする大規模戦術計画問題に焦点を当てる。 実際に広く存在しているこの設定における周期的な需要を推定する問題は文献では見過ごされている。 第1ステップで得られた時系列予測に基づいて、我々は第2ステップで、固定コストを最小化する周期的需要推定法と、戦術計画を運用レベルで適用することで生じる変動コストを最小化する多段階の数学的プログラミングの定式化を提案する。 本報告では,カナダ国鉄の大規模適用に関する広範な実証研究の結果について報告する。 本稿では, 時系列予測の平均値を用いて, 周期的需要予測を, 実例でよく用いられる手法と比較する。 その結果,周期的需要推定問題の重要性が明らかとなった。 実際、計画コストは、異なる定期的な需要予測に対して重要な変動を示し、平均予測とは異なる見積もりを使用することで、大幅なコスト削減につながる可能性がある。 例えば、予測に基づく周期的需要予測に関連するコストは、実際の需要の平均を用いて得られたコストと同等、あるいはそれ以上であった。

Crucial to freight carriers is the tactical planning of the service network. The aim is to obtain a cyclic plan over a given tactical planning horizon that satisfies predicted demand at a minimum cost. A central input to the planning process is the periodic demand, that is, the demand expected to repeat in every period in the planning horizon. We focus on large-scale tactical planning problems that require deterministic models for computational tractability. The problem of estimating periodic demand in this setting broadly present in practice has hitherto been overlooked in the literature. We address this gap by formally introducing the periodic demand estimation problem and propose a two-step methodology: Based on time series forecasts obtained in the first step, we propose, in the second step, to solve a multilevel mathematical programming formulation whose solution is a periodic demand estimate that minimizes fixed costs, and variable costs incurred by adapting the tactical plan at an operational level. We report results in an extensive empirical study of a real large-scale application from the Canadian National Railway Company. We compare our periodic demand estimates to the approach commonly used in practice which simply consists in using the mean of the time series forecasts. The results clearly show the importance of the periodic demand estimation problem. Indeed, the planning costs exhibit an important variation over different periodic demand estimates, and using an estimate different from the mean forecast can lead to substantial cost reductions. For example, the costs associated with the period demand estimates based on forecasts were comparable to, or even better than those obtained using the mean of actual demand.
翻訳日:2021-05-20 16:15:29 公開日:2021-05-19
# (参考訳) TableZa - タブラル抽出のための古典的コンピュータビジョンアプローチ

TableZa -- A classical Computer Vision approach to Tabular Extraction ( http://arxiv.org/abs/2105.09137v1 )

ライセンス: CC BY 4.0
Saumya Banthia, Anantha Sharma, Ravi Mangipudi(参考訳) コンピュータ支援の表データ抽出は、データのスペクトルと空間的健全性の両方を必要とするため、常に非常に困難で誤りやすいタスクである。 本稿では,文書理解の領域における語彙データ抽出のアプローチについて論じる。 様々な文書でよく見られる多種多様なタブラル形式を考慮し,画像やベクトルpdf(s)から画像に変換された表データの抽出にComputer Visionを用いた新しいアプローチについて論じる。

Computer aided Tabular Data Extraction has always been a very challenging and error prone task because it demands both Spectral and Spatial Sanity of data. In this paper we discuss an approach for Tabular Data Extraction in the realm of document comprehension. Given the different kinds of the Tabular formats that are often found across various documents, we discuss a novel approach using Computer Vision for extraction of tabular data from images or vector pdf(s) converted to image(s).
翻訳日:2021-05-20 15:57:23 公開日:2021-05-19
# (参考訳) 推論とノイズ制御のための物理的制約埋め込みニューラルネットワーク

Physical Constraint Embedded Neural Networks for inference and noise regulation ( http://arxiv.org/abs/2105.09146v1 )

ライセンス: CC BY 4.0
Gregory Barber, Mulugeta A. Haile, Tzikang Chen(参考訳) ニューラルネットワークはしばしば、一般化するために大量のデータを必要とし、小さくてノイズの多い実験データセットのモデリングには不向きである。 希少でノイズの多いデータに基づいてトレーニングされた標準的なネットワークアーキテクチャは、基礎となる物理学に反する予測を返す。 本稿では,ニューラルネットワークに偶数ノードの対称性と保存則を埋め込む手法を提案し,新しい拡張法と物理制約組み込みニューラルネットワークのユースケースを提案する。 ニューラルネットワークのパラメータ化関数を偶数成分と奇数成分に分解する偶数分解アーキテクチャを設計し、事前の知識なしに対称性を正確に推測できることを実証する。 本稿では,物理制約組込みニューラルネットワークの雑音回復特性に注目し,物理拘束型ノイズレギュレータとしての有用性を示す。 ここでは, エネルギー制約組込みネットワークを, 物理に変形したノイズレギュレータとして, シンボル回帰タスクに用いた。 提案手法は,ベースラインのシンボリック回帰アプローチを上回りながら,基礎となる物理によく適合するニューラルネットワークのパラメータ化関数のシンボル表現を返すことを示した。

Neural networks often require large amounts of data to generalize and can be ill-suited for modeling small and noisy experimental datasets. Standard network architectures trained on scarce and noisy data will return predictions that violate the underlying physics. In this paper, we present methods for embedding even--odd symmetries and conservation laws in neural networks and propose novel extensions and use cases for physical constraint embedded neural networks. We design an even--odd decomposition architecture for disentangling a neural network parameterized function into its even and odd components and demonstrate that it can accurately infer symmetries without prior knowledge. We highlight the noise resilient properties of physical constraint embedded neural networks and demonstrate their utility as physics-informed noise regulators. Here we employed a conservation of energy constraint embedded network as a physics-informed noise regulator for a symbolic regression task. We showed that our approach returns a symbolic representation of the neural network parameterized function that aligns well with the underlying physics while outperforming a baseline symbolic regression approach.
翻訳日:2021-05-20 15:51:09 公開日:2021-05-19
# (参考訳) 局所適応ステップサイズを用いた変分推論の促進

Boosting Variational Inference With Locally Adaptive Step-Sizes ( http://arxiv.org/abs/2105.09240v1 )

ライセンス: CC BY 4.0
Gideon Dresdner, Saurav Shekhar, Fabian Pedregosa, Francesco Locatello, Gunnar R\"atsch(参考訳) 変分推論は、変分系列の容量と近似した後続分布を求めるトラクタビリティとの間のトレードオフを行う。 代わりに、Boosting Variational Inferenceは、より多くの計算に費やすことで、実践者がより優れた後部近似を得られるようにする。 Boosting Variational Inferenceが広く採用される主な障害は、強力な変動推論ベースラインよりも改善に必要なリソースの量である。 我々の研究では、この制限はKL-発散のグローバルな曲率に遡る。 我々は,グローバルな曲率が時間とメモリ消費に与える影響を特徴付け,局所曲率の概念を用いてこの問題に対処し,局所曲率を推定するための新しい近似バックトラックアルゴリズムを提供する。 アルゴリズムに新しい理論収束率を与え,合成および実世界のデータセットについて実験的検証を行う。

Variational Inference makes a trade-off between the capacity of the variational family and the tractability of finding an approximate posterior distribution. Instead, Boosting Variational Inference allows practitioners to obtain increasingly good posterior approximations by spending more compute. The main obstacle to widespread adoption of Boosting Variational Inference is the amount of resources necessary to improve over a strong Variational Inference baseline. In our work, we trace this limitation back to the global curvature of the KL-divergence. We characterize how the global curvature impacts time and memory consumption, address the problem with the notion of local curvature, and provide a novel approximate backtracking algorithm for estimating local curvature. We give new theoretical convergence rates for our algorithms and provide experimental validation on synthetic and real-world datasets.
翻訳日:2021-05-20 15:35:49 公開日:2021-05-19
# (参考訳) 連続治療による多元的因果調停分析

Multiply Robust Causal Mediation Analysis with Continuous Treatments ( http://arxiv.org/abs/2105.09254v1 )

ライセンス: CC BY 4.0
AmirEmad Ghassami, Numair Sani, Yizhen Xu, Ilya Shpitser(参考訳) 多くの応用において、研究者は関心の結果に対する介入の直接的および間接的因果効果に興味を持っている。 メディエーション分析は、そのような因果量の同定と推定のための厳密な枠組みを提供する。 二項処理の場合、直接的および間接的効果の効率的な推定は、Tchetgen Tchetgen and Shpitser (2012) によって導かれる。 これらの推定子は影響関数に基づいており、望ましい多重ロバスト性を持つ。 しかし、治療が継続している場合には簡単には適用できないため、医薬品の服用などいくつかの場面で用いられる。 本研究では,tchetgen tchetgen と shpitser (2012) の影響関数に基づく推定器を拡張し,カーネル平滑化アプローチを用いて連続処理を行う。 まず,提案する推定器は,tchetgen tchetgen and shpitser (2012) における推定器の多重ロバスト性を維持していることを示す。 そして、一定の穏やかな正規性条件下では、推定器は漸近的に正常であることを示す。 提案手法では,対象パラメータよりも遅い速度で推定できる高次元ニュアンスパラメータが可能である。 さらに, ニュアサンス関数に対するスムース性要件の弱化を可能にするクロスフィッティングを利用する。

In many applications, researchers are interested in the direct and indirect causal effects of an intervention on an outcome of interest. Mediation analysis offers a rigorous framework for the identification and estimation of such causal quantities. In the case of binary treatment, efficient estimators for the direct and indirect effects are derived by Tchetgen Tchetgen and Shpitser (2012). These estimators are based on influence functions and possess desirable multiple robustness properties. However, they are not readily applicable when treatments are continuous, which is the case in several settings, such as drug dosage in medical applications. In this work, we extend the influence function-based estimator of Tchetgen Tchetgen and Shpitser (2012) to deal with continuous treatments by utilizing a kernel smoothing approach. We first demonstrate that our proposed estimator preserves the multiple robustness property of the estimator in Tchetgen Tchetgen and Shpitser (2012). Then we show that under certain mild regularity conditions, our estimator is asymptotically normal. Our estimation scheme allows for high-dimensional nuisance parameters that can be estimated at slower rates than the target parameter. Additionally, we utilize cross-fitting, which allows for weaker smoothness requirements for the nuisance functions.
翻訳日:2021-05-20 15:17:12 公開日:2021-05-19
# (参考訳) パセルから大陸規模へ -Sentinel-1とLUCAS Copernicusのその場観測に基づくヨーロッパ初の作物型地図-

From parcel to continental scale -- A first European crop type map based on Sentinel-1 and LUCAS Copernicus in-situ observations ( http://arxiv.org/abs/2105.09261v1 )

ライセンス: CC BY 4.0
Rapha\"el, d'Andrimont and Astrid, Verhegghen and Guido, Lemoine and Pieter, Kempeneers and Michele, Meroni and Marijn, van der Velde(参考訳) 欧州連合(eu)の農業政策の評価には、詳細なパーセルレベルの作物タイプマッピングが必要である。 コペルニクス計画、特にセンチネル-1(s1)は、大陸規模の農地をタイムリーに監視する機会を提供する。 しかし、これまでのところ、S1のポテンシャルはそのような規模では研究されていない。 LUCAS 2018 Copernicus in-situサーベイにより、2018年のS1AとS1Bの合成開口レーダー観測に基づいて、EUの空間分解度10mで最初の大陸型作物マップを提示する。 ランダム森林分類アルゴリズムは19種類の作物を検知するために調整される。 このEUの作物マップの精度を3つのアプローチで評価する。 まず、大陸上空のルーカスコアの独立観測によって精度を評価する。 第2に、EU加盟国6か国または合計3Mパーセル8.21Mhaの地域からの農作物の主作物種別について、精度評価を行う。 最後に、分類によって引き起こされる作物の面積を、ユーロスタットが報告した亜国(NUTS2)地域統計と比較する。 この地図の全体的な精度は、主作物種別で80.3%、19作物種別別で76%と報告されている。 利用者によるレイプやカブレイプには高い精度が得られ、96%以上のアキュラシーが生成される。 リモートセンシングされた推定値とユーロスタットの相関は0.93(ポテト)から0.99(レイプとカブレイプ)まで様々である。 最後に,本論文で提示したフレームワークが,シーズン内高分解能作物マッピングの運用の基盤となる方法について論じる。

Detailed parcel-level crop type mapping for the whole European Union (EU) is necessary for the evaluation of agricultural policies. The Copernicus program, and Sentinel-1 (S1) in particular, offers the opportunity to monitor agricultural land at a continental scale and in a timely manner. However, so far the potential of S1 has not been explored at such a scale. Capitalizing on the unique LUCAS 2018 Copernicus in-situ survey, we present the first continental crop type map at 10-m spatial resolution for the EU based on S1A and S1B Synthetic Aperture Radar observations for the year 2018. Random forest classification algorithms are tuned to detect 19 different crop types. We assess the accuracy of this EU crop map with three approaches. First, the accuracy is assessed with independent LUCAS core in-situ observations over the continent. Second, an accuracy assessment is done specifically for main crop types from farmers declarations from 6 EU member countries or regions totaling >3M parcels and 8.21 Mha. Finally, the crop areas derived by classification are compared to the subnational (NUTS 2) area statistics reported by Eurostat. The overall accuracy for the map is reported as 80.3% when grouping main crop classes and 76% when considering all 19 crop type classes separately. Highest accuracies are obtained for rape and turnip rape with user and produced accuracies higher than 96%. The correlation between the remotely sensed estimated and Eurostat reported crop area ranges from 0.93 (potatoes) to 0.99 (rape and turnip rape). Finally, we discuss how the framework presented here can underpin the operational delivery of in-season high-resolution based crop mapping.
翻訳日:2021-05-20 15:16:17 公開日:2021-05-19
# (参考訳) クラウド上のオンラインマルウェア検出のための機械学習アプローチの解析

Analyzing Machine Learning Approaches for Online Malware Detection in Cloud ( http://arxiv.org/abs/2105.09268v1 )

ライセンス: CC BY 4.0
Jeffrey C Kimmell, Mahmoud Abdelsalam, Maanak Gupta(参考訳) さまざまなクラウドサービスプロバイダ(CSP)が提供するさまざまなサービスや機能が最近爆発的に増えている。 このようなサービスを利用することで、企業のインフラがクラウドベースになる多くの機会が生まれ、その結果、企業が容易に柔軟にサービスを顧客に提供できるようになった。 コンピューティングとストレージ目的でサーバへのアクセスをクライアントにレンタルするプラクティスは、IaaS(Infrastructure as a Service)として知られている。 IaaSの人気は、サイバーセキュリティとプライバシに関して、深刻で重要な懸念を引き起こしている。 特に、マルウェアはクラウドサービスに対して悪意のあるエンティティによって利用され、機密データを侵害したり、機能を妨げる。 この脅威に応えて、クラウド環境のマルウェア検出が広く研究され、多くの方法が提案され、デプロイされている。 本稿では,プロセスレベルのパフォーマンス指標に基づくオンラインマルウェア検出を行い,サポートベクター分類器(svc),ランダムフォレスト分類器(rfc),knearest neighbor(knn),gradient boosted classifier(gbc),gaussian naive bayes(gnb),convolutional neural networks(cnn)などのベースライン機械学習モデルの有効性を分析する。 分析の結果、ニューラルネットワークモデルは、マルウェアがクラウド上の仮想マシンのプロセスレベルの機能に与える影響を最も正確に検出できるため、それらを検出するのに最も適していると結論づけた。 私たちのモデルは、40,680の悪意のあるサンプルと良質なサンプルのデータセットを使用して、トレーニング、検証、テストされました。 データセットは、生きたクラウド環境でさまざまな種類のマルウェア(virustotalから収集)を実行し、プロセスレベルの機能を収集することで補完された。

The variety of services and functionality offered by various cloud service providers (CSP) have exploded lately. Utilizing such services has created numerous opportunities for enterprises infrastructure to become cloud-based and, in turn, assisted the enterprises to easily and flexibly offer services to their customers. The practice of renting out access to servers to clients for computing and storage purposes is known as Infrastructure as a Service (IaaS). The popularity of IaaS has led to serious and critical concerns with respect to the cyber security and privacy. In particular, malware is often leveraged by malicious entities against cloud services to compromise sensitive data or to obstruct their functionality. In response to this growing menace, malware detection for cloud environments has become a widely researched topic with numerous methods being proposed and deployed. In this paper, we present online malware detection based on process level performance metrics, and analyze the effectiveness of different baseline machine learning models including, Support Vector Classifier (SVC), Random Forest Classifier (RFC), KNearest Neighbor (KNN), Gradient Boosted Classifier (GBC), Gaussian Naive Bayes (GNB) and Convolutional Neural Networks (CNN). Our analysis conclude that neural network models can most accurately detect the impact malware have on the process level features of virtual machines in the cloud, and therefore are best suited to detect them. Our models were trained, validated, and tested by using a dataset of 40,680 malicious and benign samples. The dataset was complied by running different families of malware (collected from VirusTotal) in a live cloud environment and collecting the process level features.
翻訳日:2021-05-20 15:14:35 公開日:2021-05-19
# (参考訳) DumbleDR: 次元減少予測品質のユーザ予測

DumbleDR: Predicting User Preferences of Dimensionality Reduction Projection Quality ( http://arxiv.org/abs/2105.09275v1 )

ライセンス: CC BY 4.0
Cristina Morariu, Adrien Bibal, Rene Cutura, Beno\^it Fr\'enay and Michael Sedlmair(参考訳) 過去数十年間、多くの次元的縮小技術が登場し、研究者やアナリストはデータを減らすためのさまざまな選択肢を持っている。 t-SNE, UMAPなど)。 最近の研究では、その方法自体が保存する特定の性質に関わらず、人々はしばしばブラックボックスとして次元の縮小を用いる。 したがって、2次元投影の評価と比較は通常、投影を並べて設定し、人間の判断でどの投影が最良かを判断することによって定性的に決定される。 そこで本研究では,人間の知覚を中央に配置し,投影を定量的に評価する方法を提案する。 比較研究を行い、画像データセットの低レベルのプロジェクションの散在するプロジェクション間で、人々が通常、プロジェクションを選択する方法をシミュレートする'良い'と'誤解する'ビューを選択するように求めます。 プロジェクションを決定する際に、人々が正確に何を探しているかを発見し、定量化することを目的とした、一連の品質指標のラベルとして研究データを使用します。 このヒューマン判断のプロキシを用いて、新しいデータセットの投影をランク付けし、それらがなぜ関連しているかを説明し、選択された投影における主観性の度合いを定量化する。

A plethora of dimensionality reduction techniques have emerged over the past decades, leaving researchers and analysts with a wide variety of choices for reducing their data, all the more so given some techniques come with additional parametrization (e.g. t-SNE, UMAP, etc.). Recent studies are showing that people often use dimensionality reduction as a black-box regardless of the specific properties the method itself preserves. Hence, evaluating and comparing 2D projections is usually qualitatively decided, by setting projections side-by-side and letting human judgment decide which projection is the best. In this work, we propose a quantitative way of evaluating projections, that nonetheless places human perception at the center. We run a comparative study, where we ask people to select 'good' and 'misleading' views between scatterplots of low-level projections of image datasets, simulating the way people usually select projections. We use the study data as labels for a set of quality metrics whose purpose is to discover and quantify what exactly people are looking for when deciding between projections. With this proxy for human judgments, we use it to rank projections on new datasets, explain why they are relevant, and quantify the degree of subjectivity in projections selected.
翻訳日:2021-05-20 15:02:04 公開日:2021-05-19
# (参考訳) 多様な委員会のオンライン選択

Online Selection of Diverse Committees ( http://arxiv.org/abs/2105.09295v1 )

ライセンス: CC BY 4.0
Virginie Do, Jamal Atif, J\'er\^ome Lang and Nicolas Usunier(参考訳) 市民のアセンブリは、一般人口の比率に応じてサブ人口を表す必要がある。 これらの大きな委員会は、しばしば、人々と接触し、ボランティアの人口特性を求め、それらを含めるかどうかを決めることによって、オンラインで構築される。 これにより、接触した人(および出費)の数と委員会の代表性との間のトレードオフが生じる。 理論的,実験的に,比例性に反しない限りボランティアを含む欲求アルゴリズム,ボランティアプールにおける共同特徴分布が知られていると仮定して,その特徴にのみ依存する確率を持つボランティアを含む非適応的手法,この分布が先駆的ではなくオンラインで学習する場合の強化学習に基づくアプローチ,の3つの手法を検討した。

Citizens' assemblies need to represent subpopulations according to their proportions in the general population. These large committees are often constructed in an online fashion by contacting people, asking for the demographic features of the volunteers, and deciding to include them or not. This raises a trade-off between the number of people contacted (and the incurring cost) and the representativeness of the committee. We study three methods, theoretically and experimentally: a greedy algorithm that includes volunteers as long as proportionality is not violated; a non-adaptive method that includes a volunteer with a probability depending only on their features, assuming that the joint feature distribution in the volunteer pool is known; and a reinforcement learning based approach when this distribution is not known a priori but learnt online.
翻訳日:2021-05-20 14:29:29 公開日:2021-05-19
# 信頼性スコア評価による偽ニュース検出のための説明可能なTsetlin Machineフレームワーク

Explainable Tsetlin Machine framework for fake news detection with credibility score assessment ( http://arxiv.org/abs/2105.09114v1 )

ライセンス: Link先を確認
Bimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao(参考訳) 偽ニュースの拡散、すなわち故意に誤った情報のために広まるニュースは、個人や社会にとって脅威となる。 PolitiFactのような様々なファクトチェックサイトにもかかわらず、フェイクニュースの増加に対処するためには堅牢な検出技術が必要である。 いくつかのディープラーニングモデルは、偽ニュース分類に有望な結果を示すが、そのブラックボックスの性質は、それらの分類決定と品質保証モデルの説明を困難にしている。 本稿では,最近導入されたTsetlin Machine (TM) に基づく,新たな解釈可能な偽ニュース検出フレームワークを提案する。 要約すると、tmの結合節を用いて、真と偽のニューステキストの語彙的および意味的性質をキャプチャする。 さらに、この節のアンサンブルを用いて偽ニュースの信頼性を算出する。 評価のために、PolitiFactとGossipCopという2つの公開データセットで実験を行い、TMフレームワークが、解釈可能な論理ベースの表現の利点を付加して、これまで公開されたベースラインを少なくとも5\%以上上回っていることを示す。 さらに,本手法はBERTやXLNetよりもF1スコアが高いが,精度は若干低い。 最後に,モデルの説明可能性に関するケーススタディを行い,意味のある単語とその否定に分解する方法を示す。

The proliferation of fake news, i.e., news intentionally spread for misinformation, poses a threat to individuals and society. Despite various fact-checking websites such as PolitiFact, robust detection techniques are required to deal with the increase in fake news. Several deep learning models show promising results for fake news classification, however, their black-box nature makes it difficult to explain their classification decisions and quality-assure the models. We here address this problem by proposing a novel interpretable fake news detection framework based on the recently introduced Tsetlin Machine (TM). In brief, we utilize the conjunctive clauses of the TM to capture lexical and semantic properties of both true and fake news text. Further, we use the clause ensembles to calculate the credibility of fake news. For evaluation, we conduct experiments on two publicly available datasets, PolitiFact and GossipCop, and demonstrate that the TM framework significantly outperforms previously published baselines by at least $5\%$ in terms of accuracy, with the added benefit of an interpretable logic-based representation. Further, our approach provides higher F1-score than BERT and XLNet, however, we obtain slightly lower accuracy. We finally present a case study on our model's explainability, demonstrating how it decomposes into meaningful words and their negations.
翻訳日:2021-05-20 14:03:39 公開日:2021-05-19
# 医用画像における複数解剖学的ランドマーク検出のための細粒度適応損失の学習

Learn Fine-grained Adaptive Loss for Multiple Anatomical Landmark Detection in Medical Images ( http://arxiv.org/abs/2105.09124v1 )

ライセンス: Link先を確認
Guang-Quan Zhou, Juzheng Miao, Xin Yang, Rui Li, En-Ze Huo, Wenlong Shi, Yuhao Huang, Jikuan Qian, Chaoyu Chen, Dong Ni(参考訳) 解剖学的ランドマークの自動的かつ正確な検出は、様々な応用で医療画像解析に不可欠である。 近年の深層学習法では, 捕獲した解剖学の出現を度数マップ(すなわちヒートマップ)で直接エンコードすることで, 結果が向上している。 しかし、現在のほとんどの解は熱マップ回帰の別の本質を見落としており、対象の熱マップを回帰し、目標の精度を設定するために手作りのヒューリスティックに頼っている。 本稿では,ニューラルネットワークと目標精度を同時に最適化するランドマーク検出のための学習学習フレームワークを提案する。 この研究の要点は、強化学習(RL)フレームワークを利用して、トレーニングプロセス中に複数のヒートマップを動的に回帰するための客観的なメトリクスを探索し、問題固有の目標精度の設定を避けることである。 また,RLエージェントの相互作用のアクティブ終了のための早期停止戦略を導入し,探索・探索トレードオフを考慮した個別目標に対する最適精度を適応させる。 このアプローチでは、トレーニングの安定性が向上し、推論のローカライゼーション精度が向上する。 1) 当施設における出生前超音波(US)データセットと,2) 頭蓋X線ランドマーク検出の公開データセットの2つの異なる応用に関する大規模な実験結果から,提案手法の有効性が示された。 提案手法は汎用的であり,解剖学的ランドマーク検出の効率向上の可能性を示す。

Automatic and accurate detection of anatomical landmarks is an essential operation in medical image analysis with a multitude of applications. Recent deep learning methods have improved results by directly encoding the appearance of the captured anatomy with the likelihood maps (i.e., heatmaps). However, most current solutions overlook another essence of heatmap regression, the objective metric for regressing target heatmaps and rely on hand-crafted heuristics to set the target precision, thus being usually cumbersome and task-specific. In this paper, we propose a novel learning-to-learn framework for landmark detection to optimize the neural network and the target precision simultaneously. The pivot of this work is to leverage the reinforcement learning (RL) framework to search objective metrics for regressing multiple heatmaps dynamically during the training process, thus avoiding setting problem-specific target precision. We also introduce an early-stop strategy for active termination of the RL agent's interaction that adapts the optimal precision for separate targets considering exploration-exploitation tradeoffs. This approach shows better stability in training and improved localization accuracy in inference. Extensive experimental results on two different applications of landmark localization: 1) our in-house prenatal ultrasound (US) dataset and 2) the publicly available dataset of cephalometric X-Ray landmark detection, demonstrate the effectiveness of our proposed method. Our proposed framework is general and shows the potential to improve the efficiency of anatomical landmark detection.
翻訳日:2021-05-20 14:03:14 公開日:2021-05-19
# 潜在ガウスモデルブースティング

Latent Gaussian Model Boosting ( http://arxiv.org/abs/2105.08966v1 )

ライセンス: Link先を確認
Fabio Sigrist(参考訳) 潜在ガウスモデルとブースティングは機械学習技術として広く使われている。 ツリーブースティングは多くのデータセットにおいて優れた予測精度を示すが、潜在的な欠点は、サンプルの条件付き独立性を仮定し、不連続な予測を発生させ、高心性カテゴリー変数では困難であることである。 ガウス過程や群ランダム効果モデルのような潜在ガウスモデルは、確率的予測を可能にする柔軟な事前モデルである。 しかし、既存の潜在ガウスモデルは通常、0 あるいは線型事前平均関数のいずれかを仮定する。 本稿では,上記の欠点を解消し,両手法の利点を活かすために,ブースティングモデルと潜時ガウスモデルを組み合わせた新しいアプローチを紹介する。 シミュレーションおよび実世界のデータ実験における既存手法と比較して予測精度が向上した。

Latent Gaussian models and boosting are widely used machine learning techniques. Tree-boosting shows excellent predictive accuracy on many data sets, but potential drawbacks are that it assumes conditional independence of samples, produces discontinuous predictions for, and it can have difficulty with high-cardinality categorical variables. Latent Gaussian models, such as Gaussian process and grouped random effects models, are flexible prior models that allow for making probabilistic predictions. However, existing latent Gaussian models usually assume either a zero or a linear prior mean function. This article introduces a novel approach that combines boosting and latent Gaussian models to remedy the above-mentioned drawbacks and to leverage the advantages of both techniques. We obtain increased predictive accuracy compared to existing approaches in both simulated and real-world data experiments.
翻訳日:2021-05-20 14:02:49 公開日:2021-05-19
# 事前学習型多言語言語モデルを用いた数学語問題の検討

Investigating Math Word Problems using Pretrained Multilingual Language Models ( http://arxiv.org/abs/2105.08928v1 )

ライセンス: Link先を確認
Minghuan Tan and Lei Wang and Lingxiao Jiang and Jing Jiang(参考訳) 本稿では,多言語・多言語の観点から,数学用語の問題~(MWP)を再考する。 コピー機構を持つシークエンス・ツー・シーケンス・モデルを用いて,事前学習した多言語モデル上でMWPソルバを構築する。 MWPソルバの言語横断シナリオと多言語シナリオにおける性能の比較を行った。 言語間性能の比較を容易にするために,我々はまず,大規模な英語データセットMathQAを中国語データセットMath23Kに適合させる。 次に、機械翻訳と人間のアノテーションにより、複数の英語データセットをバイリンガルデータセットに拡張する。 実験の結果,対象表現が同じ演算子セットと定数を持つ場合でも,MWPソルバは別の言語に変換されないことがわかった。 しかし、言語横断と多言語の両方の場合、ソース言語とターゲット言語の両方に問題型が存在する場合、より一般化することができる。

In this paper, we revisit math word problems~(MWPs) from the cross-lingual and multilingual perspective. We construct our MWP solvers over pretrained multilingual language models using sequence-to-sequence model with copy mechanism. We compare how the MWP solvers perform in cross-lingual and multilingual scenarios. To facilitate the comparison of cross-lingual performance, we first adapt the large-scale English dataset MathQA as a counterpart of the Chinese dataset Math23K. Then we extend several English datasets to bilingual datasets through machine translation plus human annotation. Our experiments show that the MWP solvers may not be transferred to a different language even if the target expressions have the same operator set and constants. But for both cross-lingual and multilingual cases, it can be better generalized if problem types exist on both source language and target language.
翻訳日:2021-05-20 14:02:37 公開日:2021-05-19
# 近接ドメインダイアログ生成のための検索型transformer-xl

Retrieval-Augmented Transformer-XL for Close-Domain Dialog Generation ( http://arxiv.org/abs/2105.09235v1 )

ライセンス: Link先を確認
Giovanni Bonetta, Rossella Cancelliere, Ding Liu, Paul Vozila(参考訳) トランスフォーマーベースのモデルは、自然言語生成におけるパターンや構造をキャプチャする優れた能力を示し、多くのタスクで最先端の結果を達成した。 本稿では,マルチターン対話応答生成のためのトランスモデルを提案する。 提案手法は,k-Nearest Neighborサーチによる学習データ中の記憶情報を利用した,トランスフォーマーに基づく生成モデルに新たな検索機構を付加したハイブリッド手法に基づいている。 googleがリリースしたtaskmaster-1は、高品質で目標指向の会話データと、実際のカスタマーサービスコールセンターから収集されたプロプライエタリなデータセットを持っている。 どちらも強いベースラインよりも優れたBLEUスコアを達成する。

Transformer-based models have demonstrated excellent capabilities of capturing patterns and structures in natural language generation and achieved state-of-the-art results in many tasks. In this paper we present a transformer-based model for multi-turn dialog response generation. Our solution is based on a hybrid approach which augments a transformer-based generative model with a novel retrieval mechanism, which leverages the memorized information in the training data via k-Nearest Neighbor search. Our system is evaluated on two datasets made by customer/assistant dialogs: the Taskmaster-1, released by Google and holding high quality, goal-oriented conversational data and a proprietary dataset collected from a real customer service call center. Both achieve better BLEU scores over strong baselines.
翻訳日:2021-05-20 14:02:25 公開日:2021-05-19
# 新しい軽量畳み込みニューラルネットワークExquisiteNetV2

A Novel lightweight Convolutional Neural Network, ExquisiteNetV2 ( http://arxiv.org/abs/2105.09008v1 )

ライセンス: Link先を確認
Shyh Yaw Jou and Chung Yen Su(参考訳) ExquisiteNetV1の論文では、ExquisiteNetV1の分類能力はDenseNetよりも悪い。 本稿では,より高速で優れたモデルexquisitenetv2を提案する。 我々はその性能を評価するために多くの実験を行う。 同じ条件下で15の信頼できるデータセット上で、ExquisiteNetV2、ExquisiteNetV1および他の9つのよく知られたモデルをテストする。 実験結果によると、exquisitenetv2はデータセットの半分以上の分類精度が最も高い。 重要なのは、ExquisiteNetV2にはパラメータがほとんどないことだ。 さらに、ほとんどの場合、ExquisiteNetV2は高速な計算速度を持つ。

In the paper of ExquisiteNetV1, the ability of classification of ExquisiteNetV1 is worse than DenseNet. In this article, we propose a faster and better model ExquisiteNetV2. We conduct many experiments to evaluate its performance. We test ExquisiteNetV2, ExquisiteNetV1 and other 9 well-known models on 15 credible datasets under the same condition. According to the experimental results, ExquisiteNetV2 gets the highest classification accuracy over half of the datasets. Important of all, ExquisiteNetV2 has fewest amounts of parameters. Besides, in most instances, ExquisiteNetV2 has fastest computing speed.
翻訳日:2021-05-20 14:02:13 公開日:2021-05-19
# 3dポイントクラウド上のローカルな攻撃的攻撃

Local Aggressive Adversarial Attacks on 3D Point Cloud ( http://arxiv.org/abs/2105.09090v1 )

ライセンス: Link先を確認
Yiming Sun, Feng Chen, Zhiyu Chen, Mingjie Wang, Ruonan Li(参考訳) ディープニューラルネットワークは、モデルを意図的に騙してミスを犯すような敵の例に傾向がある。 近年,グローバルポイントクラウド最適化により,このタスクを2次元イメージから3次元ポイントクラウドに拡張する作業がいくつか行われている。 しかし,グローバルポイントの摂動は被害者モデルの誤解に有効ではない。 まず、すべての点がミスリードに対する最適化において重要であるわけではない。 豊富なポイントはかなりの歪曲予算を負うが、攻撃に自明に寄与する。 第二に、マルチラベルの最適化は、複数のラベルの犠牲者モデル崩壊を見つける際に余分なエネルギーを消費し、特定のインスタンスと異なるインスタンス変換を引き起こすため、逆攻撃に最適である。 第3に、独立した敵意と知覚力の損失、誤分類と不一致を別々に考慮し、焦点を合わせることなく各点の更新を平等に扱う。 したがって、知覚損失が予算しきい値に近づくと、すべてのポイントは超球面にストックされ、攻撃は局所的最適性にロックされる。 そこで本稿では,上記の課題を解決するために,攻撃的攻撃攻撃(L3A)を提案する。 技術的には、勾配に応じて点雲の高スコア部分集合である一連の正解点を摂動に選択する。 次に, 攻撃的最適化戦略のフローを構築し, 被害者モデルに対する非知覚的な敵例の生成を強化する。 PointNet, PointNet++, DGCNN での大規模な実験により, 既存の攻撃手法に対する手法の最先端性能が実証された。

Deep neural networks are found to be prone to adversarial examples which could deliberately fool the model to make mistakes. Recently, a few of works expand this task from 2D image to 3D point cloud by using global point cloud optimization. However, the perturbations of global point are not effective for misleading the victim model. First, not all points are important in optimization toward misleading. Abundant points account considerable distortion budget but contribute trivially to attack. Second, the multi-label optimization is suboptimal for adversarial attack, since it consumes extra energy in finding multi-label victim model collapse and causes instance transformation to be dissimilar to any particular instance. Third, the independent adversarial and perceptibility losses, caring misclassification and dissimilarity separately, treat the updating of each point equally without a focus. Therefore, once perceptibility loss approaches its budget threshold, all points would be stock in the surface of hypersphere and attack would be locked in local optimality. Therefore, we propose a local aggressive adversarial attacks (L3A) to solve above issues. Technically, we select a bunch of salient points, the high-score subset of point cloud according to gradient, to perturb. Then a flow of aggressive optimization strategies are developed to reinforce the unperceptive generation of adversarial examples toward misleading victim models. Extensive experiments on PointNet, PointNet++ and DGCNN demonstrate the state-of-the-art performance of our method against existing adversarial attack methods.
翻訳日:2021-05-20 14:02:05 公開日:2021-05-19
# テキスト型の違いによるSpanBERTによる薬物イベント抽出の改善

Improving Adverse Drug Event Extraction with SpanBERT on Different Text Typologies ( http://arxiv.org/abs/2105.08882v1 )

ライセンス: Link先を確認
Beatrice Portelli, Daniele Passab\`i, Edoardo Lenzi, Giuseppe Serra, Enrico Santus and Emmanuele Chersoni(参考訳) 近年、インターネット利用者は、ソーシャルメディア、ブログ、健康フォーラムで有害薬物事件(ade)を報告している。 大量の報告のため、薬局はこれらのアウトレットを監視するためにNLPを活用しようとしている。 本稿では,ADE抽出のタスクにSpanBERTアーキテクチャを初めて使用することを提案する。 我々は2つのデータセット(SMM4HとCADEC)で異なるテキスト型(つぶやきとブログ投稿)で実験を行い、SpanBERTとCRFを組み合わせることにより、両者の競合よりも優れた結果が得られた。

In recent years, Internet users are reporting Adverse Drug Events (ADE) on social media, blogs and health forums. Because of the large volume of reports, pharmacovigilance is seeking to resort to NLP to monitor these outlets. We propose for the first time the use of the SpanBERT architecture for the task of ADE extraction: this new version of the popular BERT transformer showed improved capabilities with multi-token text spans. We validate our hypothesis with experiments on two datasets (SMM4H and CADEC) with different text typologies (tweets and blog posts), finding that SpanBERT combined with a CRF outperforms all the competitors on both of them.
翻訳日:2021-05-20 14:01:43 公開日:2021-05-19
# 因果干渉に対する決定規則のロバスト性に関する潜在的保証

Provable Guarantees on the Robustness of Decision Rules to Causal Interventions ( http://arxiv.org/abs/2105.09108v1 )

ライセンス: Link先を確認
Benjie Wang, Clare Lyle, Marta Kwiatkowska(参考訳) データ生成プロセスの変化に対する決定ルールのロバストさは、意思決定システムのデプロイの成功に不可欠である。 このようなシフトは因果グラフ上の介入と見なすことができ、自然の理由や逆境の作用によっても、データ生成プロセスの変化(おそらくは仮説上)を捉えることができる。 我々は因果ベイズ的ネットワークを考察し、パラメータや因果的影響の変化を示す介入の集合に関して最悪のケース性能を測定する決定関数に対する厳密性というモデルに基づく新しいロバスト性の概念である介入堅牢性問題を正式に定義する。 ベイズネットワークの扱いやすい表現を算術回路として依存することにより,介入的ロバスト性確率の上限値と下限値が保証される計算のための効率的なアルゴリズムを提供する。 実験により,提案手法は実用的ネットワークにおいて有用かつ解釈可能な境界を導出し,因果的に堅牢な意思決定システムへの道を開いた。

Robustness of decision rules to shifts in the data-generating process is crucial to the successful deployment of decision-making systems. Such shifts can be viewed as interventions on a causal graph, which capture (possibly hypothetical) changes in the data-generating process, whether due to natural reasons or by the action of an adversary. We consider causal Bayesian networks and formally define the interventional robustness problem, a novel model-based notion of robustness for decision functions that measures worst-case performance with respect to a set of interventions that denote changes to parameters and/or causal influences. By relying on a tractable representation of Bayesian networks as arithmetic circuits, we provide efficient algorithms for computing guaranteed upper and lower bounds on the interventional robustness probabilities. Experimental results demonstrate that the methods yield useful and interpretable bounds for a range of practical networks, paving the way towards provably causally robust decision-making systems.
翻訳日:2021-05-20 14:01:07 公開日:2021-05-19
# 自己強化型ユーザ嗜好による帯域学習のインセンティブ

Incentivized Bandit Learning with Self-Reinforcing User Preferences ( http://arxiv.org/abs/2105.08869v1 )

ライセンス: Link先を確認
Tianchen Zhou, Jia Liu, Chaosheng Dong, Jingyuan Deng(参考訳) 本稿では,多くの推薦システムにおいて実世界の現象を考慮した新しいマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する: (i)学習エージェントは単独では腕を引っ張ることができず,また,間接的に腕の推進を動機付ける報酬を与える必要がある; (ii)特定の腕の好みを持つユーザに対して報奨が得られれば,類似の腕の好みを持つユーザを引き付けるという意味で,自己強化効果を誘導する。 探索と搾取のトレードオフに対処するだけでなく、新たなMABモデルのもう一つの重要な特徴は報酬のバランスと支払いのインセンティブを得ることである。 エージェントの目標は、固定時間軸$t$に対して総報酬を最大化し、総支払額を低くすることである。 i) ユーザの自己申告嗜好とインセンティブの関係を考慮したランダムアーム選択による新しいmabモデルを提案し, (ii) 非線形フィードバックモデルを用いた多色ポリa urnの特性を利用して, "at-least-$n$explore-then-commit" と "ucb-list" の2つのmabポリシーを提案する。 両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。 我々は,これらの2つのポリシーの性能を実証し検証するために数値シミュレーションを行い,その頑健性について様々な条件下で検討する。

In this paper, we investigate a new multi-armed bandit (MAB) online learning model that considers real-world phenomena in many recommender systems: (i) the learning agent cannot pull the arms by itself and thus has to offer rewards to users to incentivize arm-pulling indirectly; and (ii) if users with specific arm preferences are well rewarded, they induce a "self-reinforcing" effect in the sense that they will attract more users of similar arm preferences. Besides addressing the tradeoff of exploration and exploitation, another key feature of this new MAB model is to balance reward and incentivizing payment. The goal of the agent is to maximize the total reward over a fixed time horizon $T$ with a low total payment. Our contributions in this paper are two-fold: (i) We propose a new MAB model with random arm selection that considers the relationship of users' self-reinforcing preferences and incentives; and (ii) We leverage the properties of a multi-color Polya urn with nonlinear feedback model to propose two MAB policies termed "At-Least-$n$ Explore-Then-Commit" and "UCB-List". We prove that both policies achieve $O(log T)$ expected regret with $O(log T)$ expected payment over a time horizon $T$. We conduct numerical simulations to demonstrate and verify the performances of these two policies and study their robustness under various settings.
翻訳日:2021-05-20 14:00:48 公開日:2021-05-19
# 画像にフィットするフォントスタイル-画像コンテキストに基づくフォント生成

Font Style that Fits an Image -- Font Generation Based on Image Context ( http://arxiv.org/abs/2105.08879v1 )

ライセンス: Link先を確認
Taiga Miyazono, Brian Kenji Iwana, Daichi Haraguchi, Seiichi Uchida(参考訳) フォントを文書に使用する場合、意図的にデザイナーによって選択される。 例えば、本のカバーを設計するとき、テキストのタイポグラフィーは本の全体的な感覚において重要な要素である。 さらに、本カバーの残りの部分に適したフォントである必要がある。 そこで本研究では,書籍の表紙内のコンテキストに基づいてタイトル画像を生成する手法を提案する。 本稿では,書籍カバー,ターゲット位置マスク,所望の書籍タイトルを入力し,そのカバーに適したスタイル化されたテキストを出力するエンドツーエンドニューラルネットワークを提案する。 提案ネットワークは,マルチインプットエンコーダデコーダ,テキストスケルトン予測ネットワーク,知覚ネットワーク,および逆微分器の組み合わせを用いている。 提案手法は,定量的かつ定性的な結果によって,本文を効果的に生成できることを実証する。

When fonts are used on documents, they are intentionally selected by designers. For example, when designing a book cover, the typography of the text is an important factor in the overall feel of the book. In addition, it needs to be an appropriate font for the rest of the book cover. Thus, we propose a method of generating a book title image based on its context within a book cover. We propose an end-to-end neural network that inputs the book cover, a target location mask, and a desired book title and outputs stylized text suitable for the cover. The proposed network uses a combination of a multi-input encoder-decoder, a text skeleton prediction network, a perception network, and an adversarial discriminator. We demonstrate that the proposed method can effectively produce desirable and appropriate book cover text through quantitative and qualitative results.
翻訳日:2021-05-20 13:59:35 公開日:2021-05-19
# Kullback-Leiblerの多様性と平均二乗誤差の知識蒸留における比較

Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation ( http://arxiv.org/abs/2105.08919v1 )

ライセンス: Link先を確認
Taehyeon Kim, Jaehoon Oh, NakYil Kim, Sangwook Cho, Se-Young Yun(参考訳) 難解な教師モデルから軽量な学生モデルに知識を移す知識蒸留(kd)は、効率的な神経アーキテクチャを設計するために研究されている。 一般に、kd の目的関数は、教師モデルの軟化確率分布と、温度スケーリングハイパーパラメータ tau を用いた生徒モデルとの間のkullback-leibler (kl) 分岐損失である。 広く使われているにもかかわらず、そのような軟化が一般化に与える影響を論じる研究はほとんどない。 ここでは,KL分散損失は,タウ増加時のロジットマッチングと,タウ0のラベルマッチングに着目し,ロジットマッチングが一般に性能改善と正の相関があることを実証的に示す。 そこで本研究では,教師モデルのロジットを直接学習できるように,ロジットベクトル間の平均二乗誤差(MSE)である直感的なKD損失関数を考察する。 mse損失はkl分岐損失よりも優れており、この2つの損失間のペナルティメート層表現の違いが説明されている。 また,kl分岐損失を小さいtauで使用する場合,ラベルノイズを低減させるため,連続蒸留により性能が向上し,特にkdが向上することを示した。 実験を再現するコードはhttps://github.com/jhoon-oh/kd_data/で公開されている。

Knowledge distillation (KD), transferring knowledge from a cumbersome teacher model to a lightweight student model, has been investigated to design efficient neural architectures. Generally, the objective function of KD is the Kullback-Leibler (KL) divergence loss between the softened probability distributions of the teacher model and the student model with the temperature scaling hyperparameter tau. Despite its widespread use, few studies have discussed the influence of such softening on generalization. Here, we theoretically show that the KL divergence loss focuses on the logit matching when tau increases and the label matching when tau goes to 0 and empirically show that the logit matching is positively correlated to performance improvement in general. From this observation, we consider an intuitive KD loss function, the mean squared error (MSE) between the logit vectors, so that the student model can directly learn the logit of the teacher model. The MSE loss outperforms the KL divergence loss, explained by the difference in the penultimate layer representations between the two losses. Furthermore, we show that sequential distillation can improve performance and that KD, particularly when using the KL divergence loss with small tau, mitigates the label noise. The code to reproduce the experiments is publicly available online at https://github.com/jhoon-oh/kd_data/.
翻訳日:2021-05-20 13:59:23 公開日:2021-05-19
# BatchQuant:ロバスト量子化器による全アーキテクチャ検索

BatchQuant: Quantized-for-all Architecture Search with Robust Quantizer ( http://arxiv.org/abs/2105.08952v1 )

ライセンス: Link先を確認
Haoping Bai, Meng Cao, Ping Huang, Jiulong Shan(参考訳) エッジデバイスへのディープラーニングモデルの適用が加速するにつれて、リソース制約の異なるさまざまなシナリオへの迅速な適応が、モデルデプロイメントの重要な側面となっている。 その結果,適応型構成によるモデル最適化戦略がますます普及している。 シングルショット量子化ニューラルネットワークの検索は、モデルアーキテクチャと量子化ポリシーの両方において柔軟性を享受しているが、複合検索空間には、重み共有スーパーネットのトレーニングにおける不安定性や、指数的に増加する検索空間のナビゲートの難しさなど、多くの課題がある。 既存の手法では、アーキテクチャ検索スペースを少数のオプションに制限するか、量子化ポリシー検索スペースを固定精度ポリシーに制限する傾向にある。 そこで本研究では,コンパクトで単発,混合精度,重み共有型スーパーネットの高速かつ安定なトレーニングを実現する,ロバストな量子化公式である batchquant を提案する。 我々はBatchQuantを使って、従来の方法よりもGPU時間が少なくて、コンパクトなスーパーネット(量子化サブネット10〜76ドル以上)をトレーニングしています。 私たちのアプローチであるquantized-for-all(qfa)は、ワンショットの重量共有nasスーパーネットをシームレスに拡張し、任意の超低ビット幅混合精度量子化ポリシーでサブネットをサポートする最初の方法です。 QFAは、ハードウェアを意識したニューラルアーキテクチャ検索と量子化の新たな可能性を開く。 本手法の有効性をImageNet上で実証し,低複雑性制約(<20$MFLOPs)下でSOTA Top-1精度を実現する。 コードとモデルはhttps://github.com/bhpfelix/QFA.comで公開される。

As the applications of deep learning models on edge devices increase at an accelerating pace, fast adaptation to various scenarios with varying resource constraints has become a crucial aspect of model deployment. As a result, model optimization strategies with adaptive configuration are becoming increasingly popular. While single-shot quantized neural architecture search enjoys flexibility in both model architecture and quantization policy, the combined search space comes with many challenges, including instability when training the weight-sharing supernet and difficulty in navigating the exponentially growing search space. Existing methods tend to either limit the architecture search space to a small set of options or limit the quantization policy search space to fixed precision policies. To this end, we propose BatchQuant, a robust quantizer formulation that allows fast and stable training of a compact, single-shot, mixed-precision, weight-sharing supernet. We employ BatchQuant to train a compact supernet (offering over $10^{76}$ quantized subnets) within substantially fewer GPU hours than previous methods. Our approach, Quantized-for-all (QFA), is the first to seamlessly extend one-shot weight-sharing NAS supernet to support subnets with arbitrary ultra-low bitwidth mixed-precision quantization policies without retraining. QFA opens up new possibilities in joint hardware-aware neural architecture search and quantization. We demonstrate the effectiveness of our method on ImageNet and achieve SOTA Top-1 accuracy under a low complexity constraint ($<20$ MFLOPs). The code and models will be made publicly available at https://github.com/bhpfelix/QFA.
翻訳日:2021-05-20 13:59:00 公開日:2021-05-19
# 視覚特徴表現のプロトタイプ指導型フェデレーション学習

Prototype Guided Federated Learning of Visual Feature Representations ( http://arxiv.org/abs/2105.08982v1 )

ライセンス: Link先を確認
Umberto Michieli and Mete Ozay(参考訳) フェデレーション学習(federated learning、fl)は、分散トレーニングデータの大規模なコーパスを使用して、分散モデルのトレーニングを可能にするフレームワークである。 既存の手法では、内部表現を無視したモデルを集約する。 システムと統計的不均一性(例えば、高度不均衡と非i.d.) データ) さらに モデルトレーニングを害します この目的のために,FedProtoと呼ばれる手法を導入し,分散データ上で学習したプロトタイプ表現のマージンを用いてクライアントの偏差を計算し,アテンション機構によるフェデレーション最適化に応用する。 さらに,flで学習した特徴表現の統計的性質を解析し,flモデルの精度,マージン,特徴差の関係を明らかにするための3つの手法を提案する。 FedProtoは、FLモデルの最大マージントレーニングを可能にすることにより、画像分類とセマンティックセグメンテーションベンチマーク間の最先端の精度と収束率を示す。 さらに、FedProtoはベースラインと比較してFLモデルの予測の不確実性を低減する。 我々の知る限り、セマンティックセグメンテーションのような密集予測タスクにおけるFLモデルの評価はこれが初めてである。

Federated Learning (FL) is a framework which enables distributed model training using a large corpus of decentralized training data. Existing methods aggregate models disregarding their internal representations, which are crucial for training models in vision tasks. System and statistical heterogeneity (e.g., highly imbalanced and non-i.i.d. data) further harm model training. To this end, we introduce a method, called FedProto, which computes client deviations using margins of prototypical representations learned on distributed data, and applies them to drive federated optimization via an attention mechanism. In addition, we propose three methods to analyse statistical properties of feature representations learned in FL, in order to elucidate the relationship between accuracy, margins and feature discrepancy of FL models. In experimental analyses, FedProto demonstrates state-of-the-art accuracy and convergence rate across image classification and semantic segmentation benchmarks by enabling maximum margin training of FL models. Moreover, FedProto reduces uncertainty of predictions of FL models compared to the baseline. To our knowledge, this is the first work evaluating FL models in dense prediction tasks, such as semantic segmentation.
翻訳日:2021-05-20 13:58:31 公開日:2021-05-19
# 深層分類器が同意する:学習順序と画像統計の相関分析

When Deep Classifiers Agree: Analyzing Correlations between Learning Order and Image Statistics ( http://arxiv.org/abs/2105.08997v1 )

ライセンス: Link先を確認
Iuliia Pliushch, Martin Mundt, Nicolas Lupp, Visvanathan Ramesh(参考訳) 深層分類のための多くの建築的変種が時間をかけて導入されたが、近年の研究では、その訓練過程における類似性に対する実証的な証拠が見つかっている。 ニューラルネットワークが類似した表現に収束するだけでなく、データインスタンスが最初に学習される経験的合意の概念を示すと仮定されている。 後者の著作物$'$の足跡に続いて、このような分類合意の関係を経時的に定量化するためのメトリクスを定義し、調査されたデータセットのコア統計にアグリーメント現象をマッピングできると仮定する。 我々は、CIFAR10、Pascal、ImageNet、KTH-TIPS2データセットでこの仮説を実証的に裏付ける。 以上の結果から,コンセンサスは特定のアーキテクチャやハイパーパラメータ,ラベルに依存しないと考えられるが,画像統計では順序に従う。

Although a plethora of architectural variants for deep classification has been introduced over time, recent works have found empirical evidence towards similarities in their training process. It has been hypothesized that neural networks converge not only to similar representations, but also exhibit a notion of empirical agreement on which data instances are learned first. Following in the latter works$'$ footsteps, we define a metric to quantify the relationship between such classification agreement over time, and posit that the agreement phenomenon can be mapped to core statistics of the investigated dataset. We empirically corroborate this hypothesis across the CIFAR10, Pascal, ImageNet and KTH-TIPS2 datasets. Our findings indicate that agreement seems to be independent of specific architectures, training hyper-parameters or labels, albeit follows an ordering according to image statistics.
翻訳日:2021-05-20 13:58:12 公開日:2021-05-19
# オーバーヘッドの少ないより正確な早期出力用単層視覚変換器

Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead ( http://arxiv.org/abs/2105.09121v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis(参考訳) エッジコンピューティングシステムやiotネットワークなど、限られた計算リソースを持つ時間クリティカルなアプリケーションにディープラーニングモデルをデプロイすることは、早期のイグジットのような動的推論メソッドにしばしば依存する、困難なタスクである。 本稿では,視覚トランスフォーマーアーキテクチャに基づく早期退出のための新しいアーキテクチャを提案するとともに,従来のアプローチに比べて早期退出ブランチの精度を著しく向上させながら,オーバーヘッドを低減した微調整戦略を提案する。 画像と音声の分類と音響視覚的群集の計数に関する広範な実験を通じて,本手法は分類と回帰の両問題,および単一・複数モードの設定において有効であることを示す。 さらに、オーディオ視覚データ解析において、早期出口における音声と視覚のモダリティを統合する新しい手法を導入し、よりきめ細かな動的推論を実現する。

Deploying deep learning models in time-critical applications with limited computational resources, for instance in edge computing systems and IoT networks, is a challenging task that often relies on dynamic inference methods such as early exiting. In this paper, we introduce a novel architecture for early exiting based on the vision transformer architecture, as well as a fine-tuning strategy that significantly increase the accuracy of early exit branches compared to conventional approaches while introducing less overhead. Through extensive experiments on image and audio classification as well as audiovisual crowd counting, we show that our method works for both classification and regression problems, and in both single- and multi-modal settings. Additionally, we introduce a novel method for integrating audio and visual modalities within early exits in audiovisual data analysis, that can lead to a more fine-grained dynamic inference.
翻訳日:2021-05-20 13:57:58 公開日:2021-05-19
# 外乱検出のためのドメイン内データから表現を学ぶ必要があるか?

Do We Really Need to Learn Representations from In-domain Data for Outlier Detection? ( http://arxiv.org/abs/2105.09270v1 )

ライセンス: Link先を確認
Zhisheng Xiao, Qing Yan, Yali Amit(参考訳) 教師なしの異常値検出(unsupervised outlier detection)は、テストサンプルが異常値であるかどうかを予測し、不正な不利値データからの情報のみを使用する。 近年,この2段階フレームワークに基づく手法が最先端のパフォーマンスを実現している。 このフレームワークは、自己教師付き表現学習アルゴリズムを利用して、異常データに特徴抽出器をトレーニングし、特徴空間に単純な外れ値検出器を適用する。 本稿では,外乱検出タスク毎に異なる表現をトレーニングするコストを高いコストで回避し,その代わりに,ドメイン内のデータソースに関わらず,単一の事前学習ネットワークをユニバーサルな特徴抽出器として使用する可能性を検討する。 特に、imagenetで事前トレーニングされた1つのネットワークでタスク固有の特徴抽出器を、自己教師付き損失に置き換える。 実験では,従来の2段階法と比較して,様々な外乱検出ベンチマークの競合性や性能を実証し,外乱検出にはドメイン内データからの学習表現が不要である可能性が示唆された。

Unsupervised outlier detection, which predicts if a test sample is an outlier or not using only the information from unlabelled inlier data, is an important but challenging task. Recently, methods based on the two-stage framework achieve state-of-the-art performance on this task. The framework leverages self-supervised representation learning algorithms to train a feature extractor on inlier data, and applies a simple outlier detector in the feature space. In this paper, we explore the possibility of avoiding the high cost of training a distinct representation for each outlier detection task, and instead using a single pre-trained network as the universal feature extractor regardless of the source of in-domain data. In particular, we replace the task-specific feature extractor by one network pre-trained on ImageNet with a self-supervised loss. In experiments, we demonstrate competitive or better performance on a variety of outlier detection benchmarks compared with previous two-stage methods, suggesting that learning representations from in-domain data may be unnecessary for outlier detection.
翻訳日:2021-05-20 13:57:44 公開日:2021-05-19
# MedSensor: スマートウォッチ加速度センサデータを用いたニューラルネットワークを用いたメディケイトアドヒアランスモニタリング

MedSensor: Medication Adherence Monitoring Using Neural Networks on Smartwatch Accelerometer Sensor Data ( http://arxiv.org/abs/2105.08907v1 )

ライセンス: Link先を確認
Chrisogonas Odhiambo (1 and 3), Pamela Wright (2 and 3), Cindy Corbett (2 and 3), Homayoun Valafar (1 and 3) ((1) Computer Science and Engineering Department, (2) College of Nursing, (3) University of South Carolina)(参考訳) 治療効果の低下、合併症、何十億ドルもの無駄な医療や処置の損失など深刻な経済的・健康的な問題を引き起こす。 この問題に対処するために様々な介入が提案されているが、医薬品の使用と定着を改善するためのユーザーツールを開発するために、スマートウォッチのような軽量でスマートで最小限の難読化技術を活用する必要がある。 本研究は,薬物摂取に関するいくつかの実験を行い,スマートウォッチから加速度計の手の動きデータを収集するアンドロイドアプリケーションを開発し,収集したデータを中央クラウドデータベースに転送した。 ニューラルネットワークを開発し、センサーデータのネットワークを訓練し、薬品や非薬効のジェスチャーを認識する。 提案する機械学習アルゴリズムアプローチにより,提案手法を用いたジェスチャーデータでは平均精度スコア97%,自然なジェスチャーデータでは95%を達成した。

Poor medication adherence presents serious economic and health problems including compromised treatment effectiveness, medical complications, and loss of billions of dollars in wasted medicine or procedures. Though various interventions have been proposed to address this problem, there is an urgent need to leverage light, smart, and minimally obtrusive technology such as smartwatches to develop user tools to improve medication use and adherence. In this study, we conducted several experiments on medication-taking activities, developed a smartwatch android application to collect the accelerometer hand gesture data from the smartwatch, and conveyed the data collected to a central cloud database. We developed neural networks, then trained the networks on the sensor data to recognize medication and non-medication gestures. With the proposed machine learning algorithm approach, this study was able to achieve average accuracy scores of 97% on the protocol-guided gesture data, and 95% on natural gesture data.
翻訳日:2021-05-20 13:57:26 公開日:2021-05-19
# 時空間軌道畳み込みネットワークと空港状況認識マップによる飛行遅延予測

Predicting Flight Delay with Spatio-Temporal Trajectory Convolutional Network and Airport Situational Awareness Map ( http://arxiv.org/abs/2105.08969v1 )

ライセンス: Link先を確認
Wei Shao, Arian Prabowo, Sichen Zhao, Piotr Koniusz, Flora D. Salim(参考訳) 飛行遅延を正確にモデル化し,予測するためには,空港のターマックエリアにおける様々な車両軌道およびコンテキストセンサデータを活用することが重要である。 これらの異種センサデータは、正しくモデル化された場合、状況認識マップを生成するために使用できる。 既存の手法では、従来の教師付き学習手法を歴史データ、状況情報、空港間の経路情報に適用し、フライト遅延の予測は不正確であり、到着遅延は予測するが、出発遅延は予測しない。 本稿では,空港に適用可能な高い予測精度を実現するためのビジョンベースソリューションを提案する。 提案手法では,空港状況認識マップのスナップショットを活用し,航空機の様々な軌跡や,気象や航空会社のスケジュールなどの状況情報を含む。 本稿では,状況認識マップから空間情報と時間情報の両方を取り込む,エンドツーエンドのディープラーニングアーキテクチャであるtrajcnnを提案する。 さらに,空港の状況認識マップは,発車遅延の推定に重要な影響を与えることを明らかにした。 提案手法は,ロサンゼルス国際空港の出発遅延を予測するためのよい結果(約18分誤差)を得た。

To model and forecast flight delays accurately, it is crucial to harness various vehicle trajectory and contextual sensor data on airport tarmac areas. These heterogeneous sensor data, if modelled correctly, can be used to generate a situational awareness map. Existing techniques apply traditional supervised learning methods onto historical data, contextual features and route information among different airports to predict flight delay are inaccurate and only predict arrival delay but not departure delay, which is essential to airlines. In this paper, we propose a vision-based solution to achieve a high forecasting accuracy, applicable to the airport. Our solution leverages a snapshot of the airport situational awareness map, which contains various trajectories of aircraft and contextual features such as weather and airline schedules. We propose an end-to-end deep learning architecture, TrajCNN, which captures both the spatial and temporal information from the situational awareness map. Additionally, we reveal that the situational awareness map of the airport has a vital impact on estimating flight departure delay. Our proposed framework obtained a good result (around 18 minutes error) for predicting flight departure delay at Los Angeles International Airport.
翻訳日:2021-05-20 13:57:11 公開日:2021-05-19
# 生成的深層学習における著作権

Copyright in Generative Deep Learning ( http://arxiv.org/abs/2105.09266v1 )

ライセンス: Link先を確認
Giorgio Franceschelli and Mirco Musolesi(参考訳) 機械によるアートシーンは現代美術シーンの一部であり、大きな投資を集めており、人間アーティストが制作した作品とともに展示会で展示されている。 これらのアートワークは主に生成的深層学習技術に基づいている。 また、その成功を踏まえると、これらの技術を扱う際にいくつかの法的問題が発生する。 本稿では,芸術における生成的深層学習の分野における重要な課題について考察する。 生成モデルのトレーニングセットとして著作権作品を使用することは可能か? トレーニングプロセスを実行するために、コピーを法的にどのように保存するか? そして、誰が(誰かが)生成したデータの著作権を所有するのか? 私たちは、米国とeuの両方で施行される法律と将来の代替案を考慮したこれらの質問に答え、ディープラーニング生成アートに取り組んでいるアーティストと開発者のためのガイドラインを定義しようとしています。

Machine-generated artworks are now part of the contemporary art scene: they are attracting significant investments and they are presented in exhibitions together with those created by human artists. These artworks are mainly based on generative deep learning techniques. Also given their success, several legal problems arise when working with these techniques. In this article we consider a set of key questions in the area of generative deep learning for the arts. Is it possible to use copyrighted works as training set for generative models? How do we legally store their copies in order to perform the training process? And then, who (if someone) will own the copyright on the generated data? We try to answer these questions considering the law in force in both US and EU and the future alternatives, trying to define a set of guidelines for artists and developers working on deep learning generated art.
翻訳日:2021-05-20 13:56:52 公開日:2021-05-19
# 3次元における分子生成のためのE(n)同変正規化流れ

E(n) Equivariant Normalizing Flows for Molecule Generation in 3D ( http://arxiv.org/abs/2105.09016v1 )

ライセンス: Link先を確認
Victor Garcia Satorras, Emiel Hoogeboom, Fabian B. Fuchs, Ingmar Posner, Max Welling(参考訳) 本稿ではユークリッド対称性に同値な生成モデルを提案する: E(n) 等変正規化フロー(E-NFs)。 E-NFsを構築するために、識別可能なE(n)グラフニューラルネットワークを微分方程式として統合し、可逆同変関数:連続時間正規化フローを得る。 E-NFsはDW4やLJ13などの粒子系、およびQM9の分子のログライクな構造において、ベースラインや既存手法よりもかなり優れていた。 私たちの知る限りでは、これは3Dで分子を生成する可能性に基づく最初の深層生成モデルである。

This paper introduces a generative model equivariant to Euclidean symmetries: E(n) Equivariant Normalizing Flows (E-NFs). To construct E-NFs, we take the discriminative E(n) graph neural networks and integrate them as a differential equation to obtain an invertible equivariant function: a continuous-time normalizing flow. We demonstrate that E-NFs considerably outperform baselines and existing methods from the literature on particle systems such as DW4 and LJ13, and on molecules from QM9 in terms of log-likelihood. To the best of our knowledge, this is the first likelihood-based deep generative model that generates molecules in 3D.
翻訳日:2021-05-20 13:56:42 公開日:2021-05-19
# Mill.jlとJsonGrinder.jl:生のJSONデータから学習するための自動微分可能な特徴抽出

Mill.jl and JsonGrinder.jl: automated differentiable feature extraction for learning from raw JSON data ( http://arxiv.org/abs/2105.09107v1 )

ライセンス: Link先を確認
Simon Mandlik, Matej Racinsky, Viliam Lisy, Tomas Pevny(参考訳) 生のデータ入力から学ぶことは、手作業の機能エンジニアリングの必要性を制限し、機械学習手法の多くの成功例の重要な要素の1つである。 機械学習の問題は、分類器に適したベクトル表現に自然に変換されるデータに定式化されることが多いが、例えばサイバーセキュリティでは、XML、JSON、Protocol Buffersのような統一階層構造を持つ様々なファイルで自然に表現されるデータソースが存在する。 このデータをベクトル(テンソル)表現に変換するのは、一般的に手動の機能エンジニアリングによって行われます。 MillとJsonGrinderはライブラリのタンデムであり、変換を完全に自動化している。 任意のJSONサンプルセットから始めて、生の形式でさらなるJSONサンプルから推論可能な、微分可能な機械学習モデルを生成する。

Learning from raw data input, thus limiting the need for manual feature engineering, is one of the key components of many successful applications of machine learning methods. While machine learning problems are often formulated on data that naturally translate into a vector representation suitable for classifiers, there are data sources, for example in cybersecurity, that are naturally represented in diverse files with a unifying hierarchical structure, such as XML, JSON, and Protocol Buffers. Converting this data to vector (tensor) representation is generally done by manual feature engineering, which is laborious, lossy, and prone to human bias about the importance of particular features. Mill and JsonGrinder is a tandem of libraries, which fully automates the conversion. Starting with an arbitrary set of JSON samples, they create a differentiable machine learning model capable of infer from further JSON samples in their raw form.
翻訳日:2021-05-20 13:56:32 公開日:2021-05-19
# XCyclesバックプロジェクション超解法

XCycles Backprojection Acoustic Super-Resolution ( http://arxiv.org/abs/2105.09128v1 )

ライセンス: Link先を確認
Feras Almasri, Jurgen Vandendriessche, Laurent Segers, Bruno da Silva, An Braeken, Kris Steenhaut, Abdellah Touhafi and Olivier Debeir(参考訳) コンピュータビジョンコミュニティは、ディープニューラルネットワーク(DNN)を用いた可視像超解像(SR)の開発に多くの注意を払っており、素晴らしい成果を上げている。 可視光スペクトルを超える音波の強度を可視化できるため、音響撮像センサなどの非可視光センサの進歩は多くの注目を集めている。 しかし, 音響データの取得に制限が課されているため, 音響画像の解像度を改善するための新しい手法が必要である。 この時点で、SR問題のために設計された音響画像データセットは存在しない。 本研究は,音響地図画像VUB-ULBデータセット(AMIVU)とともに,音響画像超解像問題のための新しいバックプロジェクションモデルアーキテクチャを提案する。 データセットは、異なる解像度で、大きなシミュレーションと実際のキャプチャー画像を提供する。 提案するxcycles backprojection model (xcbp) はfeedforwardモデルと対照的に,各サイクルにおける反復補正法を十分に活用し,低解像度および高分解能空間における符号化特徴の残差誤差補正を再構成する。 提案手法は,従来の補間演算子や最近のフィードフォワード・オブ・ザ・アーティファクトモデルと比較して高い性能を示した。 また、データ取得中に発生するサブサンプリングエラーを大幅に削減した。

The computer vision community has paid much attention to the development of visible image super-resolution (SR) using deep neural networks (DNNs) and has achieved impressive results. The advancement of non-visible light sensors, such as acoustic imaging sensors, has attracted much attention, as they allow people to visualize the intensity of sound waves beyond the visible spectrum. However, because of the limitations imposed on acquiring acoustic data, new methods for improving the resolution of the acoustic images are necessary. At this time, there is no acoustic imaging dataset designed for the SR problem. This work proposed a novel backprojection model architecture for the acoustic image super-resolution problem, together with Acoustic Map Imaging VUB-ULB Dataset (AMIVU). The dataset provides large simulated and real captured images at different resolutions. The proposed XCycles BackProjection model (XCBP), in contrast to the feedforward model approach, fully uses the iterative correction procedure in each cycle to reconstruct the residual error correction for the encoded features in both low- and high-resolution space. The proposed approach was evaluated on the dataset and showed high outperformance compared to the classical interpolation operators and to the recent feedforward state-of-the-art models. It also contributed to a drastically reduced sub-sampling error produced during the data acquisition.
翻訳日:2021-05-20 13:55:45 公開日:2021-05-19
# 事前学習された知覚指標を用いたスタイル伝達効果のツールおよびドメイン非依存パラメータ化

Tool- and Domain-Agnostic Parameterization of Style Transfer Effects Leveraging Pretrained Perceptual Metrics ( http://arxiv.org/abs/2105.09207v1 )

ライセンス: Link先を確認
Hiromu Yakura, Yuki Koyama, Masataka Goto(参考訳) スタイル転送のための現在のディープラーニング技術は、"ワンショット"転送が探索設計プロセスに適合しないため、設計支援に最適ではない。 このギャップを克服するために,既存のコンテンツ編集ツールで利用可能な特定の変換のパラメータ値にエンドツーエンドスタイル転送効果を転写するパラメトリック転写を提案する。 このアプローチにより、ユーザは慣れ親しんだツールで参照サンプルのスタイルを模倣することができ、パラメータを操作することで、さらなる探索を継続することができる。 これを実現するために,既存の事前学習モデルを用いて参照サンプルに対する知覚的スタイル距離を計算するフレームワークを導入し,ブラックボックス最適化を用いて,この距離を最小化するパラメータを求める。 InstagramやBlenderなど,さまざまなサードパーティツールによる実験から,私たちのフレームワークは,ディープラーニング技術を効果的に活用して計算設計をサポートできることが分かりました。

Current deep learning techniques for style transfer would not be optimal for design support since their "one-shot" transfer does not fit exploratory design processes. To overcome this gap, we propose parametric transcription, which transcribes an end-to-end style transfer effect into parameter values of specific transformations available in an existing content editing tool. With this approach, users can imitate the style of a reference sample in the tool that they are familiar with and thus can easily continue further exploration by manipulating the parameters. To enable this, we introduce a framework that utilizes an existing pretrained model for style transfer to calculate a perceptual style distance to the reference sample and uses black-box optimization to find the parameters that minimize this distance. Our experiments with various third-party tools, such as Instagram and Blender, show that our framework can effectively leverage deep learning techniques for computational design support.
翻訳日:2021-05-20 13:55:22 公開日:2021-05-19
# 並列MRIの無作為化と分割

Joint Calibrationless Reconstruction and Segmentation of Parallel MRI ( http://arxiv.org/abs/2105.09220v1 )

ライセンス: Link先を確認
Aniket Pramanik, Xiaodong Wu, Mathews Jacob(参考訳) MRIデータからの脳領域の体積推定は、高空間解像度のデータ取得が望ましい多くの臨床応用において重要な問題である。 並列MRIと制約画像再構成アルゴリズムはスキャンを高速化するが、画像再構成アーティファクトは特に高い加速係数で避けられない。 画像品質の向上と,加速度による画像アーティファクトに対する現在のセグメンテーションアルゴリズムの脆弱性の低減を目的として,キャリブレーションレス並列MRI再構成のための新しい画像領域深層学習フレームワークを提案する。 提案した画像領域の深いキャリブレーションレスアプローチとセグメンテーションアルゴリズムの組み合わせは、セグメンテーションの精度を高めつつ、画像品質を向上させる。 リコンストラクションとセグメンテーションタスク間で共有されるエンコーダを備えた新しいアーキテクチャは、セグメント化されたトレーニングデータセットの必要性を減少させる。 特に、提案されている数発のトレーニング戦略では、パフォーマンス向上のためにセグメント化されたデータセットの10%しか必要としない。

The volume estimation of brain regions from MRI data is a key problem in many clinical applications, where the acquisition of data at high spatial resolution is desirable. While parallel MRI and constrained image reconstruction algorithms can accelerate the scans, image reconstruction artifacts are inevitable, especially at high acceleration factors. We introduce a novel image domain deep-learning framework for calibrationless parallel MRI reconstruction, coupled with a segmentation network to improve image quality and to reduce the vulnerability of current segmentation algorithms to image artifacts resulting from acceleration. The combination of the proposed image domain deep calibrationless approach with the segmentation algorithm offers improved image quality, while increasing the accuracy of the segmentations. The novel architecture with an encoder shared between the reconstruction and segmentation tasks is seen to reduce the need for segmented training datasets. In particular, the proposed few-shot training strategy requires only 10% of segmented datasets to offer good performance.
翻訳日:2021-05-20 13:55:06 公開日:2021-05-19
# 画像から画像への変換 : 衛星画像からの地図生成

Image to Image Translation : Generating maps from satellite images ( http://arxiv.org/abs/2105.09253v1 )

ライセンス: Link先を確認
Vaishali Ingale, Rishabh Singh, Pragati Patwal(参考訳) 衛星画像からの地図生成は、従来は様々なツールで行われている。 地図は、衛星画像からの変換が少々高価になるが、生成モデルは、この課題に直面する可能性がある。 これらのモデルは、入力画像と出力画像の間のパターンを見つけることを目的としている。 衛星画像を対応する地図に変換するために画像から画像への変換を用いる。 生成逆数ネットワーク、条件付き逆数ネットワーク、共変量オートエンコーダなどの画像から画像への変換のための異なる技術を用いて、その領域の対応する可読マップを生成し、その入力として衛星画像を所定のズームレベルで取得する。 我々は,偽画像を生成する生成モデルと,画像の識別者が本物か偽かのどちらかを分類しようとするかからなる条件付き生成敵ネットワーク上でモデルを訓練し,両者が互いに騙し合い,その結果,モデル性能の向上を図っている。

Generation of maps from satellite images is conventionally done by a range of tools. Maps became an important part of life whose conversion from satellite images may be a bit expensive but Generative models can pander to this challenge. These models aims at finding the patterns between the input and output image. Image to image translation is employed to convert satellite image to corresponding map. Different techniques for image to image translations like Generative adversarial network, Conditional adversarial networks and Co-Variational Auto encoders are used to generate the corresponding human-readable maps for that region, which takes a satellite image at a given zoom level as its input. We are training our model on Conditional Generative Adversarial Network which comprises of Generator model which which generates fake images while the discriminator tries to classify the image as real or fake and both these models are trained synchronously in adversarial manner where both try to fool each other and result in enhancing model performance.
翻訳日:2021-05-20 13:54:48 公開日:2021-05-19
# ネスト付き名前付きエンティティ認識のためのシーケンス・ツー・セットネットワーク

A Sequence-to-Set Network for Nested Named Entity Recognition ( http://arxiv.org/abs/2105.08901v1 )

ライセンス: Link先を確認
Zeqi Tan, Yongliang Shen, Shuai Zhang, Weiming Lu, Yueting Zhuang(参考訳) 名前付き実体認識(NER)は自然言語処理において広く研究されている課題である。 近年、ネストされたNERに焦点をあてる研究が増えている。 スパンベースの手法は、エンティティ認識をスパン分類タスクとして考慮し、ネストされたエンティティを自然に扱うことができる。 しかし、彼らは巨大な検索スペースとエンティティ間の相互作用の欠如に悩まされている。 そこで本研究では,ネストナーのための新しいシーケンス・ツー・セットニューラルネットワークを提案する。 候補スパンを事前に指定するのではなく、有用なスパンのパターンを学ぶための学習可能なベクトルの固定セットを提供する。 我々は、非自己回帰デコーダを使用して、エンティティ間の依存関係をキャプチャできる1つのパスにおけるエンティティの最終セットを予測する。 シーケンス・ツー・シーケンス法と比較すると,本モデルはラベル順に敏感な非順序認識タスクに適している。 さらに,両部マッチングに基づく損失関数を用いて,総合的なトレーニング損失を算出する。 実験結果から,NERコーパス3個(ACE 2004,ACE 2005,KBP 2017)について,本モデルの有効性が示唆された。

Named entity recognition (NER) is a widely studied task in natural language processing. Recently, a growing number of studies have focused on the nested NER. The span-based methods, considering the entity recognition as a span classification task, can deal with nested entities naturally. But they suffer from the huge search space and the lack of interactions between entities. To address these issues, we propose a novel sequence-to-set neural network for nested NER. Instead of specifying candidate spans in advance, we provide a fixed set of learnable vectors to learn the patterns of the valuable spans. We utilize a non-autoregressive decoder to predict the final set of entities in one pass, in which we are able to capture dependencies between entities. Compared with the sequence-to-sequence method, our model is more suitable for such unordered recognition task as it is insensitive to the label order. In addition, we utilize the loss function based on bipartite matching to compute the overall training loss. Experimental results show that our proposed model achieves state-of-the-art on three nested NER corpora: ACE 2004, ACE 2005 and KBP 2017.
翻訳日:2021-05-20 13:53:52 公開日:2021-05-19
# openmeva: オープンエンドのストーリー生成メトリクスを評価するベンチマーク

OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics ( http://arxiv.org/abs/2105.08920v1 )

ライセンス: Link先を確認
Jian Guan, Zhexin Zhang, Zhuoer Feng, Zitao Liu, Wenbiao Ding, Xiaoxi Mao, Changjie Fan, Minlie Huang(参考訳) 自動メトリクスは、自然言語生成(NLG)モデル、特にストーリー生成のようなオープンな言語生成タスクの開発に不可欠である。 しかし、既存の自動測定基準は人間の評価と相関が低い。 ベンチマークデータセットが標準化されていないため、メトリクスの能力を完全に評価し、異なるメトリクスを比較的比較することは困難である。 そこで我々はオープンエンドのストーリー生成指標を評価するベンチマークOpenMEVAを提案する。 OpenMEVAは、(a)人間の判断との相関、(b)異なるモデル出力とデータセットへの一般化、(c)ストーリーコヒーレンスを判断する能力、(d)摂動に対する堅牢性など、メトリクスの能力を評価するための包括的なテストスイートを提供する。 この目的のために、OpenMEVAは手動で注釈付けされたストーリーと自動構築されたテスト例の両方を含んでいる。 我々は、OpenMEVA上の既存の指標を評価し、人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識(イベント間の因果順序など)、一般化能力、堅牢性を欠いていることを観察する。 本研究は,nlgモデルとメトリクスの開発に関する知見を提供する。

Automatic metrics are essential for developing natural language generation (NLG) models, particularly for open-ended language generation tasks such as story generation. However, existing automatic metrics are observed to correlate poorly with human evaluation. The lack of standardized benchmark datasets makes it difficult to fully evaluate the capabilities of a metric and fairly compare different metrics. Therefore, we propose OpenMEVA, a benchmark for evaluating open-ended story generation metrics. OpenMEVA provides a comprehensive test suite to assess the capabilities of metrics, including (a) the correlation with human judgments, (b) the generalization to different model outputs and datasets, (c) the ability to judge story coherence, and (d) the robustness to perturbations. To this end, OpenMEVA includes both manually annotated stories and auto-constructed test examples. We evaluate existing metrics on OpenMEVA and observe that they have poor correlation with human judgments, fail to recognize discourse-level incoherence, and lack inferential knowledge (e.g., causal order between events), the generalization ability and robustness. Our study presents insights for developing NLG models and metrics in further research.
翻訳日:2021-05-20 13:53:38 公開日:2021-05-19
# 文レベルと談話レベルコヒーレンスをモデル化した長文生成

Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence ( http://arxiv.org/abs/2105.08963v1 )

ライセンス: Link先を確認
Jian Guan, Xiaoxi Mao, Changjie Fan, Zitao Liu, Wenbiao Ding, Minlie Huang(参考訳) 長く一貫性のあるテキストを生成することは重要なタスクであるが、特にストーリー生成のようなオープンな言語生成タスクでは難しい課題である。 文内コヒーレンスをモデル化することに成功したにもかかわらず、既存の世代モデル(例えばBART)は生成したテキスト全体を通してコヒーレントなイベントシーケンスを維持するのに苦戦している。 これは、デコーダがトークンレベルの共起を超えてコンテキスト内の高レベルセマンティクスと談話構造を捉えることが難しいためであると推測する。 本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。 そこで本研究では,文間のセマンティックな類似性を予測し,正規文とシャッフル文の順序を区別することにより,表現を学習するための2つの事前学習目標を提案する。 広範な実験により,本モデルは最先端のベースラインよりもコヒーレントなテキストを生成することができることが示された。

Generating long and coherent text is an important but challenging task, particularly for open-ended language generation tasks such as story generation. Despite the success in modeling intra-sentence coherence, existing generation models (e.g., BART) still struggle to maintain a coherent event sequence throughout the generated text. We conjecture that this is because of the difficulty for the decoder to capture the high-level semantics and discourse structures in the context beyond token-level co-occurrence. In this paper, we propose a long text generation model, which can represent the prefix sentences at sentence level and discourse level in the decoding process. To this end, we propose two pretraining objectives to learn the representations by predicting inter-sentence semantic similarity and distinguishing between normal and shuffled sentence orders. Extensive experiments show that our model can generate more coherent texts than state-of-the-art baselines.
翻訳日:2021-05-20 13:53:19 公開日:2021-05-19
# QuatDE:知識グラフ補完のための動的四元数埋め込み

QuatDE: Dynamic Quaternion Embedding for Knowledge Graph Completion ( http://arxiv.org/abs/2105.09002v1 )

ライセンス: Link先を確認
Haipeng Gao, Kun Yang, Yuxue Yang, Rufai Yusuf Zakari, Jim Wilson Owusu, Ke Qin(参考訳) 近年,知識グラフ補完法が広範に研究され,グラフ埋め込み手法は実体と関係性の低次元表現を学習し,行方不明な事実を予測する。 これらのモデルは通常、関係ベクトルを実体対間の変換(TransE)または回転(rotatEとQuatE)とみなし、単純さと効率の利点を享受する。 しかし、クエートには2つの主要な問題がある: 1) 実体と関係の間の表現と特徴の相互作用の能力を捉えるモデルは、3つの埋め込みベクトルの厳密な計算のみに依存するため比較的弱い; 2) モデルは対称性、反対称性、反転、合成といった様々な関係パターンを扱うことができるが、一対一、多対一、多対多といった関係のマッピング特性は考慮されない。 本稿では,様々な関係パターンを明示的に捉え,三重項の要素間の特徴相互作用能力を向上するための動的マッピング手法であるQuatDEを提案する。 我々のモデルは、対象移動ベクトル、対象移動ベクトル、関係移動ベクトルの3つの余剰ベクトルに依存している。 マッピング戦略は、ハミルトン積を介して四元空間内の実体埋め込みベクトルの点位置を調整するために使用される各三重項に関連付けられた遷移ベクトルを動的に選択する。 実験結果から,QuatDEは3つの確立された知識グラフ補完ベンチマークで最先端の性能を達成できた。 特に、MR評価はWN18では26%、WN18RRでは15%増加しており、QuatDEの一般化が証明されている。

In recent years, knowledge graph completion methods have been extensively studied, in which graph embedding approaches learn low dimensional representations of entities and relations to predict missing facts. Those models usually view the relation vector as a translation (TransE) or rotation (rotatE and QuatE) between entity pairs, enjoying the advantage of simplicity and efficiency. However, QuatE has two main problems: 1) The model to capture the ability of representation and feature interaction between entities and relations are relatively weak because it only relies on the rigorous calculation of three embedding vectors; 2) Although the model can handle various relation patterns including symmetry, anti-symmetry, inversion and composition, but mapping properties of relations are not to be considered, such as one-to-many, many-to-one, and many-to-many. In this paper, we propose a novel model, QuatDE, with a dynamic mapping strategy to explicitly capture a variety of relational patterns, enhancing the feature interaction capability between elements of the triplet. Our model relies on three extra vectors donated as subject transfer vector, object transfer vector and relation transfer vector. The mapping strategy dynamically selects the transition vectors associated with each triplet, used to adjust the point position of the entity embedding vectors in the quaternion space via Hamilton product. Experiment results show QuatDE achieves state-of-the-art performance on three well-established knowledge graph completion benchmarks. In particular, the MR evaluation has relatively increased by 26% on WN18 and 15% on WN18RR, which proves the generalization of QuatDE.
翻訳日:2021-05-20 13:53:03 公開日:2021-05-19
# ベトナム語の文抽出に基づく機械読解

Sentence Extraction-Based Machine Reading Comprehension for Vietnamese ( http://arxiv.org/abs/2105.09043v1 )

ライセンス: Link先を確認
Phong Nguyen-Thuan Do, Nhat Duy Nguyen, Tin Van Huynh, Kiet Van Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen(参考訳) ベトナム語処理の一般化、特に機械読解の進展は、研究コミュニティの大きな注目を集めている。 近年、ベトナムではUIT-ViQuADやUIT-ViNewsQAのような大規模な機械読解タスクのためのデータセットがいくつか存在する。 しかし、この研究に答えるデータセットは多様ではない。 本稿では,ベトナム語で文抽出に基づく機械読解を評価する最初のデータセットである uit-viwikiqa を紹介する。 UIT-ViWikiQAデータセットはUIT-ViQuADデータセットから変換され、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。 本研究では,文抽出に基づく機械読解のためのデータセットを作成するための変換アルゴリズムと,ベトナム語の文章抽出に基づく機械読解に関する3種類のアプローチを提案する。 我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。 また,ベトナム語の質問型と文脈がmrcモデルの性能に与える影響について実験結果を分析し,自然言語処理コミュニティに提案するuit-viwikiqaデータセットからの課題を示す。

The development of Vietnamese language processing in general and machine reading comprehension in particular has attracted the great attention of the research community. In recent years, there are a few datasets for machine reading comprehension tasks in Vietnamese with large sizes, such as UIT-ViQuAD and UIT-ViNewsQA. However, the datasets are not diverse in answer to serve the research. In this paper, we introduce the UIT-ViWikiQA, the first dataset for evaluating sentence extraction-based machine reading comprehension in the Vietnamese language. The UIT-ViWikiQA dataset is converted from the UIT-ViQuAD dataset, consisting of comprises 23.074 question-answers based on 5.109 passages of 174 Vietnamese articles from Wikipedia. We propose a conversion algorithm to create the dataset for sentence extraction-based machine reading comprehension and three types of approaches on the sentence extraction-based machine reading comprehension for Vietnamese. Our experiments show that the best machine model is XLM-R$_Large, which achieves an exact match (EM) score of 85.97% and an F1-score of 88.77% on our dataset. Besides, we analyze experimental results in terms of the question type in Vietnamese and the effect of context on the performance of the MRC models, thereby showing the challenges from the UIT-ViWikiQA dataset that we propose to the natural language processing community.
翻訳日:2021-05-20 13:52:34 公開日:2021-05-19
# モデルは関係の方向性を学ぶか? 新しい評価課題:関係方向認識

Do Models Learn the Directionality of Relations? A New Evaluation Task: Relation Direction Recognition ( http://arxiv.org/abs/2105.09045v1 )

ライセンス: Link先を確認
Shengfei Lyu, Xingyu Wu, Jinlong Li, Qiuju Chen, and Huanhuan Chen(参考訳) BERTのようなディープニューラルネットワークは関係分類に大きな進歩をもたらした。 優れたパフォーマンスを実現することは可能だが、これらのモデルが関係の方向性を認識するかどうか、特に解釈可能性に欠ける場合は問題である。 そこで本研究では,関係方向認識(Relation Direction Recognition, RDR)と呼ばれる新たな評価課題を提案する。 rdrの3つの指標を導入し、モデルが関係の方向性を認識する度合を測定する。 いくつかの最先端モデルがRDR上で評価されている。 実世界のデータセットにおける実験結果から、これらのモデルが従来のメトリクス(例えば、)で同様の性能を得るにもかかわらず、関係の方向性を認識する際には明確なギャップがあることが示されている。 マクロF1。 最後に、モデル設計やトレーニングの観点から関係の方向性を認識するためにモデルを強化することを提案する。

Deep neural networks such as BERT have made great progress in relation classification. Although they can achieve good performance, it is still a question of concern whether these models recognize the directionality of relations, especially when they may lack interpretability. To explore the question, a novel evaluation task, called Relation Direction Recognition (RDR), is proposed to explore whether models learn the directionality of relations. Three metrics for RDR are introduced to measure the degree to which models recognize the directionality of relations. Several state-of-the-art models are evaluated on RDR. Experimental results on a real-world dataset indicate that there are clear gaps among them in recognizing the directionality of relations, even though these models obtain similar performance in the traditional metric (e.g. Macro-F1). Finally, some suggestions are discussed to enhance models to recognize the directionality of relations from the perspective of model design or training.
翻訳日:2021-05-20 13:52:14 公開日:2021-05-19
# パートナー! 検索型チャットボットにおけるパーソナライズされた応答選択のためのペルソナの活用に関する実証的研究

Partner Matters! An Empirical Study on Fusing Personas for Personalized Response Selection in Retrieval-Based Chatbots ( http://arxiv.org/abs/2105.09050v1 )

ライセンス: Link先を確認
Jia-Chen Gu, Hui Liu, Zhen-Hua Ling, Quan Liu, Zhigang Chen, Xiaodan Zhu(参考訳) ペルソナは対話システムの一貫性を維持するための事前知識として機能する。 過去の研究の多くは、ある候補から選択されるか直接生成されるであろう対話において自己ペルソナを採用したが、対話におけるパートナーの役割に気付いていない。 本稿では,検索型チャットボットにおける自己とパートナーの話者を記述したペルソナの利用が応答選択課題に与える影響を徹底的に検討する。 4つのペルソナ融合戦略が設計されており、ペルソナが異なる方法でコンテキストや応答と相互作用することを想定している。 これらの戦略は,HRE(Hierarchical Recurrent Encoder),IMN(Interactive Matching Network),BERT(Bidirectional Encoder Representations from Transformer)の3つの代表的なモデルに実装されている。 Persona-Chatデータセットに関する実証研究は、過去の研究で無視されたパートナーペルソナがIMNモデルとBERTモデルにおける応答選択の精度を向上させることを示した。 さらに,従来の手法よりも2.7%以上のマージン,4.6%のパーソナをヒストル@1(トップ-1精度)で改善し,ペルソナ-チャットデータセット上での新たな最先端性能を実現した。

Persona can function as the prior knowledge for maintaining the consistency of dialogue systems. Most of previous studies adopted the self persona in dialogue whose response was about to be selected from a set of candidates or directly generated, but few have noticed the role of partner in dialogue. This paper makes an attempt to thoroughly explore the impact of utilizing personas that describe either self or partner speakers on the task of response selection in retrieval-based chatbots. Four persona fusion strategies are designed, which assume personas interact with contexts or responses in different ways. These strategies are implemented into three representative models for response selection, which are based on the Hierarchical Recurrent Encoder (HRE), Interactive Matching Network (IMN) and Bidirectional Encoder Representations from Transformers (BERT) respectively. Empirical studies on the Persona-Chat dataset show that the partner personas neglected in previous studies can improve the accuracy of response selection in the IMN- and BERT-based models. Besides, our BERT-based model implemented with the context-response-aware persona fusion strategy outperforms previous methods by margins larger than 2.7% on original personas and 4.6% on revised personas in terms of hits@1 (top-1 accuracy), achieving a new state-of-the-art performance on the Persona-Chat dataset.
翻訳日:2021-05-20 13:52:00 公開日:2021-05-19
# 中国語文法誤り検出のためのGCNと変換器の組み合わせ

Combining GCN and Transformer for Chinese Grammatical Error Detection ( http://arxiv.org/abs/2105.09085v1 )

ライセンス: Link先を確認
Jinhong Zhang(参考訳) 本稿では,NLPTEA-2020 Task: Chinese Grammatical Error Diagnosis (CGED)で紹介する。 CGEDは,失語(M),冗長語(R),悪語選択(S),不規則語(W)の4種類の文法的誤りを診断することを目的としている。 自動ccdシステムは,誤り検出と誤り訂正の2つの部分を含み,誤り検出問題を解決するために設計されている。 本システムは,1)構文情報を利用したBERTモデル,2)コンテキスト埋め込みを利用したBERTモデル,3)辞書ベースのグラフニューラルネットワークの3つのモデルに基づいて構築されている。 また,単一モデルの性能向上のためのアンサンブル機構も設計した。 最後に, CGED 2020タスクに参加する全チームの中で, 検出レベルと識別レベルが最も高いF1スコアを得た。

This paper introduces our system at NLPTEA-2020 Task: Chinese Grammatical Error Diagnosis (CGED). CGED aims to diagnose four types of grammatical errors which are missing words (M), redundant words (R), bad word selection (S) and disordered words (W). The automatic CGED system contains two parts including error detection and error correction and our system is designed to solve the error detection problem. Our system is built on three models: 1) a BERT-based model leveraging syntactic information; 2) a BERT-based model leveraging contextual embeddings; 3) a lexicon-based graph neural network. We also design an ensemble mechanism to improve the performance of the single model. Finally, our system obtains the highest F1 scores at detection level and identification level among all teams participating in the CGED 2020 task.
翻訳日:2021-05-20 13:51:33 公開日:2021-05-19
# 頭が笑える? トランスフォーマーが意味を発見できるのか?

Laughing Heads: Can Transformers Detect What Makes a Sentence Funny? ( http://arxiv.org/abs/2105.09142v1 )

ライセンス: Link先を確認
Maxime Peyrard, Beatriz Borges, Kristina Gligori\'c and Robert West(参考訳) ユーモアの自動検出は自然言語処理において大きな課題となる。 トランスフォーマーベースのシステムは、最近このタスクで驚くべき結果を得たが、通常は(1)真面目なテキストとユーモラスなテキストが全く異なるソースからもたらされた設定で評価され、(2)モデルの動作に関する洞察を提供することなく、ベンチマークのパフォーマンスにフォーカスしている。 本研究は,変圧器をベースとしたユーモア認識モデルを用いて,最小対の一致文からなる最近導入されたデータセットをトレーニングし,解析することにより,両面で進展する。 一致したデータセットは以前のデータセットよりもはるかに難しいが、トランスフォーマーベースのモデルは、高精度(78%)の一致したペアでユーモラスな文を認識する。 注意深いエラー解析では、簡単なインスタンスと難しいインスタンスを特徴付ける。 最後に,注意重みの分析により,トランスフォーマーがユーモアを認識するメカニズムに関する重要な知見を得る。 最も顕著なのは、訓練時にこの情報にアクセスしなくても、一つの注意頭がテスト文をユーモラスにする単語を認識することを学ぶという明確な証拠である。

The automatic detection of humor poses a grand challenge for natural language processing. Transformer-based systems have recently achieved remarkable results on this task, but they usually (1)~were evaluated in setups where serious vs humorous texts came from entirely different sources, and (2)~focused on benchmarking performance without providing insights into how the models work. We make progress in both respects by training and analyzing transformer-based humor recognition models on a recently introduced dataset consisting of minimal pairs of aligned sentences, one serious, the other humorous. We find that, although our aligned dataset is much harder than previous datasets, transformer-based models recognize the humorous sentence in an aligned pair with high accuracy (78%). In a careful error analysis, we characterize easy vs hard instances. Finally, by analyzing attention weights, we obtain important insights into the mechanisms by which transformers recognize humor. Most remarkably, we find clear evidence that one single attention head learns to recognize the words that make a test sentence humorous, even without access to this information at training time.
翻訳日:2021-05-20 13:51:22 公開日:2021-05-19
# 自動アノテーションとフェデレーション学習による個人情報抽出のためのプライバシ保護手法

A Privacy-Preserving Approach to Extraction of Personal Information through Automatic Annotation and Federated Learning ( http://arxiv.org/abs/2105.09198v1 )

ライセンス: Link先を確認
Rajitha Hathurusinghe, Isar Nejadgholi, Miodrag Bolic(参考訳) 我々はウィキペディアの伝記ページからなる自動ラベル付きデータセットであるWikiPIIを、個人情報抽出のために注釈付けした。 自動アノテーションは高いラベルノイズを引き起こす可能性があるが、安価なプロセスであり、大量の注釈付き文書を生成することができる。 bertベースのnerモデルをwikipiiでトレーニングし,適切な大規模トレーニングデータセットを用いて,ラベルノイズのレベルが高いにも関わらず,手動情報抽出のコストを大幅に削減できることを示した。 同様のアプローチで、組織はテキストマイニング技術を利用して、人間のアノテーションの生データを共有することなく、履歴データからカスタマイズされた注釈付きデータセットを作成することができる。 また,アノテーションがうるさいときのフェデレーション学習を通じて,NERモデルの協調学習についても検討する。 この結果から,MLオペレータへの信頼度や利用可能なデータ量に応じて,分散トレーニングは,個人情報識別子をプライバシ保護された方法でトレーニングする上で有効な方法であることが示唆された。 研究資料はhttps://github.com/ratmcu/wikipiifedで入手できる。

We curated WikiPII, an automatically labeled dataset composed of Wikipedia biography pages, annotated for personal information extraction. Although automatic annotation can lead to a high degree of label noise, it is an inexpensive process and can generate large volumes of annotated documents. We trained a BERT-based NER model with WikiPII and showed that with an adequately large training dataset, the model can significantly decrease the cost of manual information extraction, despite the high level of label noise. In a similar approach, organizations can leverage text mining techniques to create customized annotated datasets from their historical data without sharing the raw data for human annotation. Also, we explore collaborative training of NER models through federated learning when the annotation is noisy. Our results suggest that depending on the level of trust to the ML operator and the volume of the available data, distributed training can be an effective way of training a personal information identifier in a privacy-preserved manner. Research material is available at https://github.com/ratmcu/wikipiifed.
翻訳日:2021-05-20 13:51:02 公開日:2021-05-19
# ヒンディー語と英語の混合テキストデータの感情検出

Detection of Emotions in Hindi-English Code Mixed Text Data ( http://arxiv.org/abs/2105.09226v1 )

ライセンス: Link先を確認
Divyansh Singh(参考訳) 近年,ソーシャルネットワークやスマートフォン上でのコミュニケーションにテキストチャットの利用が増加している。 これは特に、英語の語彙で認識されていない単語を含むヒンディー語と英語の混成テキストを使用する。 私たちはこれらの混合データから感情を検出し、怒り、恐怖、幸福、悲しみの感情で文章を分類しました。 我々は, 自然言語処理モデルの現状を利用して, この混合データ中の文からなるデータセットの性能を比較した。 データセットはソースから収集され、アノテートされ、モデルのトレーニングに使用される。

In recent times, we have seen an increased use of text chat for communication on social networks and smartphones. This particularly involves the use of Hindi-English code-mixed text which contains words which are not recognized in English vocabulary. We have worked on detecting emotions in these mixed data and classify the sentences in human emotions which are angry, fear, happy or sad. We have used state of the art natural language processing models and compared their performance on the dataset comprising sentences in this mixed data. The dataset was collected and annotated from sources and then used to train the models.
翻訳日:2021-05-20 13:50:45 公開日:2021-05-19
# 多言語機械翻訳のための学習言語固有サブネットワーク

Learning Language Specific Sub-network for Multilingual Machine Translation ( http://arxiv.org/abs/2105.09259v1 )

ライセンス: Link先を確認
Zehui Lin, Liwei Wu, Mingxuan Wang, Lei Li(参考訳) 多言語ニューラルマシン翻訳は、複数の言語のための単一の翻訳モデルを学ぶことを目的としている。 これらの共同学習モデルはしばしばリッチリソース言語ペアのパフォーマンス低下に苦しむ。 我々はこの変性をパラメータ干渉とみなす。 本稿では,単一統一多言語MTモデルを共同で学習するためのLaSSを提案する。 LaSSは言語固有のサブネットワーク(LaSS)を学習し、パラメータ干渉に対処する。 様々なTransformerアーキテクチャによるIWSLTとWMTデータセットの総合的な実験により、LaSSは最大1.2BLEUで36言語対のゲインを得ることが示された。 さらに、LaSSは、新しい言語ペアへの容易な拡張とゼロショット翻訳で強力な一般化性能を示し、30言語ペアで平均8.3BLEUでゼロショット翻訳を促進する。 コードとトレーニングされたモデルはhttps://github.com/NLP-Playground/LaSSで公開されている。

Multilingual neural machine translation aims at learning a single translation model for multiple languages. These jointly trained models often suffer from performance degradation on rich-resource language pairs. We attribute this degeneration to parameter interference. In this paper, we propose LaSS to jointly train a single unified multilingual MT model. LaSS learns Language Specific Sub-network (LaSS) for each language pair to counter parameter interference. Comprehensive experiments on IWSLT and WMT datasets with various Transformer architectures show that LaSS obtains gains on 36 language pairs by up to 1.2 BLEU. Besides, LaSS shows its strong generalization performance at easy extension to new language pairs and zero-shot translation.LaSS boosts zero-shot translation with an average of 8.3 BLEU on 30 language pairs. Codes and trained models are available at https://github.com/NLP-Playground/LaSS.
翻訳日:2021-05-20 13:50:38 公開日:2021-05-19
# 金融工学における最適停止のための深層強化学習

Deep Reinforcement Learning for Optimal Stopping with Application in Financial Engineering ( http://arxiv.org/abs/2105.08877v1 )

ライセンス: Link先を確認
Abderrahim Fathan and Erick Delage(参考訳) 最適停止は、期待される報酬を最大化するために、確率的なシステムにおいて特定の行動を取る適切な時間を決定する問題である。 金融、医療、統計など多くの分野に応用されている。 本稿では,2つの金融工学アプリケーション(オプション価格,最適オプションエクササイズ)における最適停止ポリシーを学習するために,深層強化学習(RL)を用いる。 本稿では,Double Deep Q-learning (DDQN), Catgorical Distributional RL (C51), Implicit Quantile Networks (IQN) という,最先端RLアルゴリズムの3つの状態によって識別される最適停止ポリシーの品質を総合的に評価した。 オプション価格の場合,理論的なブラックショル環境において,iqnは最適価格の特定に成功していることが示唆された。 一方、S&P500指数の資産を含むオプションエクササイズ問題において、実際の株価データの動きに直面した場合、C51では若干上回っている。 さらに重要なことに、C51アルゴリズムは、4つの自然なベンチマークポリシーのベストよりも8%多くサンプル外リターンを達成する最適な停止ポリシーを特定できる。 本研究は,今後の研究の道筋をたどるであろう研究成果の議論から締めくくっている。

Optimal stopping is the problem of deciding the right time at which to take a particular action in a stochastic system, in order to maximize an expected reward. It has many applications in areas such as finance, healthcare, and statistics. In this paper, we employ deep Reinforcement Learning (RL) to learn optimal stopping policies in two financial engineering applications: namely option pricing, and optimal option exercise. We present for the first time a comprehensive empirical evaluation of the quality of optimal stopping policies identified by three state of the art deep RL algorithms: double deep Q-learning (DDQN), categorical distributional RL (C51), and Implicit Quantile Networks (IQN). In the case of option pricing, our findings indicate that in a theoretical Black-Schole environment, IQN successfully identifies nearly optimal prices. On the other hand, it is slightly outperformed by C51 when confronted to real stock data movements in a put option exercise problem that involves assets from the S&P500 index. More importantly, the C51 algorithm is able to identify an optimal stopping policy that achieves 8% more out-of-sample returns than the best of four natural benchmark policies. We conclude with a discussion of our findings which should pave the way for relevant future research.
翻訳日:2021-05-20 13:50:26 公開日:2021-05-19
# 畳み込みオートエンコーダを用いたクラス固有部分空間表現の最適分離学習

Learning optimally separated class-specific subspace representations using convolutional autoencoder ( http://arxiv.org/abs/2105.08865v1 )

ライセンス: Link先を確認
Krishan Sharma (1), Shikha Gupta (1), Renu Rameshan (2) ((1) Vehant Technologies Pvt. Ltd., (2) Indian Institute of Technology Mandi, India)(参考訳) 本稿では,分類タスクに最適な部分空間固有の特徴表現を生成するための,新しい畳み込み型オートエンコーダアーキテクチャを提案する。 クラス固有のデータは、低次元の線形部分空間に存在し、ノイズがあり、分離が不十分である、すなわち、2つのクラス間の部分空間距離(主角)は非常に低い、と仮定される。 提案ネットワークは,エンコーダとデコーダネットワークの間に挟まれた新しいクラス固有自己表現層(CSSE)を用いて,適切に分離されたクラスワイド部分空間表現を生成する。 エンコーダ/デコーダと共にCSSE層は、入力空間よりも最小の主角を持つ特徴空間のサブスペースにデータが配置されるように訓練される。 提案手法の有効性を実証するため,最先端機械学習データセットについていくつかの実験を行い,既存の部分空間に基づく変換学習法に対して,分類性能の大幅な改善が見られた。

In this work, we propose a novel convolutional autoencoder based architecture to generate subspace specific feature representations that are best suited for classification task. The class-specific data is assumed to lie in low dimensional linear subspaces, which could be noisy and not well separated, i.e., subspace distance (principal angle) between two classes is very low. The proposed network uses a novel class-specific self expressiveness (CSSE) layer sandwiched between encoder and decoder networks to generate class-wise subspace representations which are well separated. The CSSE layer along with encoder/ decoder are trained in such a way that data still lies in subspaces in the feature space with minimum principal angle much higher than that of the input space. To demonstrate the effectiveness of the proposed approach, several experiments have been carried out on state-of-the-art machine learning datasets and a significant improvement in classification performance is observed over existing subspace based transformation learning methods.
翻訳日:2021-05-20 13:49:36 公開日:2021-05-19
# 医用視覚質問応答のためのマルチメタモデル定量化

Multiple Meta-model Quantifying for Medical Visual Question Answering ( http://arxiv.org/abs/2105.08913v1 )

ライセンス: Link先を確認
Tuong Do, Binh X. Nguyen, Erman Tjiputra, Minh Tran, Quang D. Tran, Anh Nguyen(参考訳) 伝達学習は、重要な特徴を抽出し、医療用視覚質問応答(VQA)タスクにおけるデータ制限を克服する重要なステップである。 しかし、既存の医療用VQA手法のほとんどは、データ転送学習のための外部データに依存しているが、データセット内のメタデータは完全には利用されていない。 本稿では,メタアノテーションを効果的に学習し,医用vqaタスクに有意義な機能を活用した,新しい多重メタモデル定量化手法を提案する。 提案手法は, 自動アノテーションによるメタデータ向上, ノイズラベルの扱い, 医療用VQAタスクにロバストな機能を提供するメタモデルを生成する。 2つの公開医療用VQAデータセットの大規模な実験結果から,本手法は他の最先端手法と比較して精度が良く,メタモデルのトレーニングには外部データを必要としないことがわかった。

Transfer learning is an important step to extract meaningful features and overcome the data limitation in the medical Visual Question Answering (VQA) task. However, most of the existing medical VQA methods rely on external data for transfer learning, while the meta-data within the dataset is not fully utilized. In this paper, we present a new multiple meta-model quantifying method that effectively learns meta-annotation and leverages meaningful features to the medical VQA task. Our proposed method is designed to increase meta-data by auto-annotation, deal with noisy labels, and output meta-models which provide robust features for medical VQA tasks. Extensively experimental results on two public medical VQA datasets show that our approach achieves superior accuracy in comparison with other state-of-the-art methods, while does not require external data to train meta-models.
翻訳日:2021-05-20 13:49:23 公開日:2021-05-19
# 集合屋内空間における大規模局所化データセット

Large-scale Localization Datasets in Crowded Indoor Spaces ( http://arxiv.org/abs/2105.08941v1 )

ライセンス: Link先を確認
Donghwan Lee, Soohyun Ryu, Suyong Yeon, Yonghan Lee, Deokhwa Kim, Cheolho Han, Yohann Cabon, Philippe Weinzaepfel, Nicolas Gu\'erin, Gabriela Csurka, and Martin Humenberger(参考訳) 視覚的ローカライゼーションを用いてカメラの正確な位置を推定することで、拡張現実やロボットナビゲーションといった興味深い応用が可能になる。 これは、GNSSのような他のローカライゼーション技術が失敗する屋内環境で特に有用である。 室内空間は、人による隠蔽、テクスチャのない表面、大きな視点の変化、低い光、反復的なテクスチャなど、視覚的ローカライゼーションアルゴリズムに興味深い課題を課している。 既存の屋内データセットは、比較できる限り小さいか、または上記の課題のサブセットのみをカバーする。 本稿では,現実環境における視覚的位置決めのための5つの新しい屋内データセットを提案する。 韓国ソウルにある大型ショッピングモールと大都市圏の駅で、カメラ10台とレーザースキャナー2台からなる専用のマッピングプラットフォームを使用して撮影された。 そこで我々は,実写カメラの正確なポーズを得るために,新しい構造に基づく最適化手法を用いて,初期ポーズを提供する頑健なLiDAR SLAMを開発した。 本稿では,ロバストな画像特徴を用いた構造ベース手法の優れた性能を示す,これらの課題データに対する現代的ビジュアルローカライゼーションアルゴリズムのベンチマークを示す。 データセットは、https://naverlabs.com/datasetsで利用可能である。

Estimating the precise location of a camera using visual localization enables interesting applications such as augmented reality or robot navigation. This is particularly useful in indoor environments where other localization technologies, such as GNSS, fail. Indoor spaces impose interesting challenges on visual localization algorithms: occlusions due to people, textureless surfaces, large viewpoint changes, low light, repetitive textures, etc. Existing indoor datasets are either comparably small or do only cover a subset of the mentioned challenges. In this paper, we introduce 5 new indoor datasets for visual localization in challenging real-world environments. They were captured in a large shopping mall and a large metro station in Seoul, South Korea, using a dedicated mapping platform consisting of 10 cameras and 2 laser scanners. In order to obtain accurate ground truth camera poses, we developed a robust LiDAR SLAM which provides initial poses that are then refined using a novel structure-from-motion based optimization. We present a benchmark of modern visual localization algorithms on these challenging datasets showing superior performance of structure-based methods using robust image features. The datasets are available at: https://naverlabs.com/datasets
翻訳日:2021-05-20 13:49:06 公開日:2021-05-19
# 鉄道は電車ではない:弱監督セマンティックセグメンテーションのための擬似ピクセルスーパービジョンとしての正当性

Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2105.08965v1 )

ライセンス: Link先を確認
Seungho Lee, Minhyun Lee, Jongwuk Lee and Hyunjung Shim(参考訳) 画像レベルの弱い監視を用いた弱教師付きセマンティックセグメンテーション(WSSS)の研究には、スパースオブジェクトカバレッジ、不正確なオブジェクト境界、非ターゲットオブジェクトからの共起ピクセルなど、いくつかの制限がある。 これらの課題を克服するために,画像レベルラベルは,2つの弱い監督を組み合わせて画素レベルのフィードバックから学習する,EPS(Explicit Pseudo-Pixel Supervision)という新しいフレームワークを提案する。 両情報間の補完関係を完全に活用するための共同学習戦略を考案する。 本手法は, 被写体境界を精度良く取得し, 共起画素を破棄し, 擬似マスクの品質を大幅に向上させる。 実験の結果,提案手法はWSSSの重要な課題を解決し,PASCAL VOC 2012およびMS COCO 2014データセット上での新たな最先端性能を実現することにより,既存の手法よりも著しく優れていた。

Existing studies in weakly-supervised semantic segmentation (WSSS) using image-level weak supervision have several limitations: sparse object coverage, inaccurate object boundaries, and co-occurring pixels from non-target objects. To overcome these challenges, we propose a novel framework, namely Explicit Pseudo-pixel Supervision (EPS), which learns from pixel-level feedback by combining two weak supervisions; the image-level label provides the object identity via the localization map and the saliency map from the off-the-shelf saliency detection model offers rich boundaries. We devise a joint training strategy to fully utilize the complementary relationship between both information. Our method can obtain accurate object boundaries and discard co-occurring pixels, thereby significantly improving the quality of pseudo-masks. Experimental results show that the proposed method remarkably outperforms existing methods by resolving key challenges of WSSS and achieves the new state-of-the-art performance on both PASCAL VOC 2012 and MS COCO 2014 datasets.
翻訳日:2021-05-20 13:48:45 公開日:2021-05-19
# ネットワークアーキテクチャと重みの協調適応による効率的な転送学習

Efficient Transfer Learning via Joint Adaptation of Network Architecture and Weight ( http://arxiv.org/abs/2105.08994v1 )

ライセンス: Link先を確認
Ming Sun, Haoxuan Dou, Junjie Yan(参考訳) 転送学習は、ソースドメインの知識を活用することで、ターゲットタスクのパフォーマンスを高めることができる。 最近のワークイン型ニューラルネットワーク探索(NAS)、特にワンショットNASは、十分なネットワーク検索空間を確立することで、学習を支援することができる。 既存のnasメソッドは、複数のサブパスを持つ巨大なスーパーネットワークを構築して巨大な検索空間を近似する傾向にあり、子構造が見つかった後にスーパーネットワークの重みを破棄する。 既存のアプローチの両方の特性は、転送学習における繰り返しネットワークトレーニングソースタスクを引き起こす。 上記の問題を補うため、より広い検索空間を埋め込んだまま、ネットワークブロック間の接続をランダムに落とし、スーパーネットワークサイズを再現する。 さらに、アーキテクチャ転送のためのneural architecturesearchモジュールと、ウェイト転送のためのneural weight searchmoduleという2つのモジュールからなる新しいフレームワークを提案することで、冗長なトレーニングを避けるためにwasuse super-network weightsを使用する。 これら2つのモジュールは、減らされたスーパーネットワークに基づいてターゲットタスクを探索するので、ソースタスクのみを訓練する必要がある。 我々は,MS-COCOとCUB-200の2つのフレームワークを用いて,オブジェクト検出およびきめ細かい画像分類タスクを実験し, onlyO(CN)super-networkの複雑さによる有望な改善を示す。

Transfer learning can boost the performance on the targettask by leveraging the knowledge of the source domain. Recent worksin neural architecture search (NAS), especially one-shot NAS, can aidtransfer learning by establishing sufficient network search space. How-ever, existing NAS methods tend to approximate huge search spaces byexplicitly building giant super-networks with multiple sub-paths, anddiscard super-network weights after a child structure is found. Both thecharacteristics of existing approaches causes repetitive network trainingon source tasks in transfer learning. To remedy the above issues, we re-duce the super-network size by randomly dropping connection betweennetwork blocks while embedding a larger search space. Moreover, wereuse super-network weights to avoid redundant training by proposinga novel framework consisting of two modules, the neural architecturesearch module for architecture transfer and the neural weight searchmodule for weight transfer. These two modules conduct search on thetarget task based on a reduced super-networks, so we only need to trainonce on the source task. We experiment our framework on both MS-COCO and CUB-200 for the object detection and fine-grained imageclassification tasks, and show promising improvements with onlyO(CN)super-network complexity.
翻訳日:2021-05-20 13:48:23 公開日:2021-05-19
# 知覚損失を用いた軽量文書画像のクリーンアップ

Light-weight Document Image Cleanup using Perceptual Loss ( http://arxiv.org/abs/2105.09076v1 )

ライセンス: Link先を確認
Soumyadeep Dey, Pratik Jawanpuria(参考訳) スマートフォンは、デジタル形式で文書を記録・共有できる。 しかし、これらの文書は、影や一様でない照明などの捕獲環境の老朽化、汚れ、欠点などにより、様々な種類の劣化を招き、文書画像の理解性を低下させる。 本研究では,スマートフォンアプリケーションなどの組み込みアプリケーションにおいて,デバイスおよび/または最高のユーザエクスペリエンスのためにメモリ,エネルギ,レイテンシの制限のある画像クリーンアップを文書化する問題を考察する。 文書画像からノイズ要素を取り除くために,軽量エンコーダデコーダを用いた畳み込みニューラルネットワークアーキテクチャを提案する。 ネットワーク能力の低い一般化性能を補うため,事前学習した深層CNNネットワークからの知識伝達における知覚的損失を損失関数に組み込む。 パラメータ数と製品単位演算に関しては,65~1030倍と3~27倍であり,従来の文書拡張モデルよりも小さい。 全体として、提案モデルが好適なリソース対精度トレードオフを提供し、実世界のベンチマークデータセットに対するアプローチの有効性を実証的に説明します。

Smartphones have enabled effortless capturing and sharing of documents in digital form. The documents, however, often undergo various types of degradation due to aging, stains, or shortcoming of capturing environment such as shadow, non-uniform lighting, etc., which reduces the comprehensibility of the document images. In this work, we consider the problem of document image cleanup on embedded applications such as smartphone apps, which usually have memory, energy, and latency limitations due to the device and/or for best human user experience. We propose a light-weight encoder decoder based convolutional neural network architecture for removing the noisy elements from document images. To compensate for generalization performance with a low network capacity, we incorporate the perceptual loss for knowledge transfer from pre-trained deep CNN network in our loss function. In terms of the number of parameters and product-sum operations, our models are 65-1030 and 3-27 times, respectively, smaller than existing state-of-the-art document enhancement models. Overall, the proposed models offer a favorable resource versus accuracy trade-off and we empirically illustrate the efficacy of our approach on several real-world benchmark datasets.
翻訳日:2021-05-20 13:48:01 公開日:2021-05-19
# Recursive-NeRF: 効率的で動的に成長するNeRF

Recursive-NeRF: An Efficient and Dynamically Growing NeRF ( http://arxiv.org/abs/2105.09103v1 )

ライセンス: Link先を確認
Guo-Wei Yang, Wen-Yang Zhou, Hao-Yang Peng, Dun Liang, Tai-Jiang Mu, Shi-Min Hu(参考訳) neural radiance field (nerf) 法のような一連の画像から学習した暗黙的な連続的な形状表現を用いたビュー合成手法は、その高品質な画像と高精細化への拡張性によって注目を集めている。 しかし、そのボリュームアプローチで必要とされる重い計算は、NeRFが実際に有用になるのを防ぎ、数メガピクセルの画像をレンダリングするのに数分かかる。 これにより、シーンの複雑な領域は大きなニューラルネットワークで表現されるべきであり、小さなニューラルネットワークは単純な領域をエンコードでき、効率と品質のバランスを両立させることができる。 Recursive-NeRFはこのアイデアの具体化であり、NeRFの効率よく適応的なレンダリングとトレーニングのアプローチを提供する。 Recursive-NeRFのコアは、予測色の品質と各レベルのボリューム強度を表す、クエリ座標の不確かさを学習する。 高い不確実性を持つクエリ座標のみが、より強力な表現能力を持つより大きなニューラルネットワークに次のレベルへ転送される。 最後のレンダリング画像は、すべてのレベルのニューラルネットワークによる結果の合成である。 3つの公開データセットについて評価したところ, 再帰型NeRFは, 最先端の品質を提供しながら, NeRFよりも効率的であることがわかった。 コードはhttps://github.com/Gword/Recursive-NeRFで入手できる。

View synthesis methods using implicit continuous shape representations learned from a set of images, such as the Neural Radiance Field (NeRF) method, have gained increasing attention due to their high quality imagery and scalability to high resolution. However, the heavy computation required by its volumetric approach prevents NeRF from being useful in practice; minutes are taken to render a single image of a few megapixels. Now, an image of a scene can be rendered in a level-of-detail manner, so we posit that a complicated region of the scene should be represented by a large neural network while a small neural network is capable of encoding a simple region, enabling a balance between efficiency and quality. Recursive-NeRF is our embodiment of this idea, providing an efficient and adaptive rendering and training approach for NeRF. The core of Recursive-NeRF learns uncertainties for query coordinates, representing the quality of the predicted color and volumetric intensity at each level. Only query coordinates with high uncertainties are forwarded to the next level to a bigger neural network with a more powerful representational capability. The final rendered image is a composition of results from neural networks of all levels. Our evaluation on three public datasets shows that Recursive-NeRF is more efficient than NeRF while providing state-of-the-art quality. The code will be available at https://github.com/Gword/Recursive-NeRF.
翻訳日:2021-05-20 13:47:43 公開日:2021-05-19
# ニューラルネットワークの対向ロバスト性向上のための直交分類器

An Orthogonal Classifier for Improving the Adversarial Robustness of Neural Networks ( http://arxiv.org/abs/2105.09109v1 )

ライセンス: Link先を確認
Cong Xu, Xiang Li and Min Yang(参考訳) ニューラルネットワークは、人工的に設計された敵対的摂動に影響を受けやすい。 近年、分類層に一定の修正を加えることで、ニューラルネットワークのロバスト性が向上することが示されている。 本稿では,成分が同じ大きさの高密度直交重み行列を明示的に構築し,新しいロバストな分類法を提案する。 提案した分類器は,従来の研究で望ましくない構造的冗長性の問題を回避する。 この分類器をクリーンデータに関する標準的なトレーニングに適用することは、モデルの精度と堅牢性を保証するのに十分である。 さらに、追加の対向サンプルを使用すると、特別の最悪の損失の助けを借りて、より優れた堅牢性が得られる。 実験の結果,本手法は最先端の防御手法と効率的かつ競争力があることがわかった。 私たちのコードは \url{https://github.com/MTandHJ/roboc} で利用可能です。

Neural networks are susceptible to artificially designed adversarial perturbations. Recent efforts have shown that imposing certain modifications on classification layer can improve the robustness of the neural networks. In this paper, we explicitly construct a dense orthogonal weight matrix whose entries have the same magnitude, thereby leading to a novel robust classifier. The proposed classifier avoids the undesired structural redundancy issue in previous work. Applying this classifier in standard training on clean data is sufficient to ensure the high accuracy and good robustness of the model. Moreover, when extra adversarial samples are used, better robustness can be further obtained with the help of a special worst-case loss. Experimental results show that our method is efficient and competitive to many state-of-the-art defensive approaches. Our code is available at \url{https://github.com/MTandHJ/roboc}.
翻訳日:2021-05-20 13:47:18 公開日:2021-05-19
# 専門家の関連性を考慮した総合的人物識別

Generalizable Person Re-identification with Relevance-aware Mixture of Experts ( http://arxiv.org/abs/2105.09156v1 )

ライセンス: Link先を確認
Yongxing Dai, Xiaotong Li, Jun Liu, Zekun Tong, Ling-Yu Duan(参考訳) ドメイン一般化可能(DG) 個人再識別(ReID)は、トレーニング中に未確認のターゲットドメインデータにアクセスできないため、難しい問題である。 既存のDG ReIDメソッドのほとんどすべてが同じパイプラインに従っており、トレーニングのために複数のソースドメインからハイブリッドデータセットを使用して、トレーニングされたモデルを未確認のターゲットドメインに直接適用してテストする。 これらの手法はしばしば個々のソースドメインの識別特性とその関連を無視する。 未確認のターゲットドメインですが、どちらもモデルの一般化に役立ちます。 上記の2つの問題に対処するため,提案手法はRaMoE(Relevance-Aware Mixed of Expert)と呼ばれる,効率的な投票に基づく混合機構を用いて,ソースドメインの多様な特性を動的に活用し,モデルの一般化を改善する手法を提案する。 具体的には、ソースドメインネットワーク(専門家)が個々のドメインの特性の多様性と識別性を維持するための相関損失を提案する。 さらに,すべての専門家の機能を,より一般化可能な集約機能に適応的に統合する投票ネットワークを設計する。 対象ドメインの学習時の視認性を考慮し,新たな学習学習アルゴリズムと関係アライメント損失を組み合わせた投票ネットワークの更新を提案する。 広範な実験により,提案手法が最先端手法よりも優れていることを示した。

Domain generalizable (DG) person re-identification (ReID) is a challenging problem because we cannot access any unseen target domain data during training. Almost all the existing DG ReID methods follow the same pipeline where they use a hybrid dataset from multiple source domains for training, and then directly apply the trained model to the unseen target domains for testing. These methods often neglect individual source domains' discriminative characteristics and their relevances w.r.t. the unseen target domains, though both of which can be leveraged to help the model's generalization. To handle the above two issues, we propose a novel method called the relevance-aware mixture of experts (RaMoE), using an effective voting-based mixture mechanism to dynamically leverage source domains' diverse characteristics to improve the model's generalization. Specifically, we propose a decorrelation loss to make the source domain networks (experts) keep the diversity and discriminability of individual domains' characteristics. Besides, we design a voting network to adaptively integrate all the experts' features into the more generalizable aggregated features with domain relevance. Considering the target domains' invisibility during training, we propose a novel learning-to-learn algorithm combined with our relation alignment loss to update the voting network. Extensive experiments demonstrate that our proposed RaMoE outperforms the state-of-the-art methods.
翻訳日:2021-05-20 13:47:05 公開日:2021-05-19
# PPR10K:人力マスクとグループレベル一貫性を備えた大規模ポートレート写真リタッチデータセット

PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency ( http://arxiv.org/abs/2105.09180v1 )

ライセンス: Link先を確認
Jie Liang, Hui Zeng, Miaomiao Cui, Xuansong Xie, Lei Zhang(参考訳) 一般的な写真リタッチタスクと異なり、フラットな肖像画コレクションの視覚的品質向上を目的としたポートレート写真リタッチ(PPR)は、人間領域優先(HRP)やグループレベル整合(GLC)といった特殊かつ実践的な要件がある。 HRPは人間の領域により多くの注意を払わなければならないが、GLCはポートレート写真群を一貫したトーンに修正する必要がある。 しかし、既存の一般的なフォトリタッチデータセットでトレーニングされたモデルは、pprのこれらの要件をほとんど満たせない。 この高頻度タスクの研究を容易にするために,我々はPPR10Kという大規模PPRデータセットを構築した。 PPR10Kには、1,681ドルのグループと、11,161ドルの高品質の原像写真が含まれている。 ヒト領域の高分解能セグメンテーションマスクを提供する。 それぞれの写真は3人の専門家によって手直しされ、それぞれの写真群が一貫したトーンを持つように精巧に調整される。 我々は,PPRの性能を評価するための客観的尺度のセットを定義し,優れたHRPとGLC性能を持つPPRモデルを学習するための戦略を提案する。 構築されたPPR10Kデータセットは、自動PPR手法を研究するための優れたベンチマークを提供し、提案した学習戦略が修正性能を改善するのに有効であることを示す実験である。 データセットとコードは、https://github.com/csjliang/ppr10k。

Different from general photo retouching tasks, portrait photo retouching (PPR), which aims to enhance the visual quality of a collection of flat-looking portrait photos, has its special and practical requirements such as human-region priority (HRP) and group-level consistency (GLC). HRP requires that more attention should be paid to human regions, while GLC requires that a group of portrait photos should be retouched to a consistent tone. Models trained on existing general photo retouching datasets, however, can hardly meet these requirements of PPR. To facilitate the research on this high-frequency task, we construct a large-scale PPR dataset, namely PPR10K, which is the first of its kind to our best knowledge. PPR10K contains $1, 681$ groups and $11, 161$ high-quality raw portrait photos in total. High-resolution segmentation masks of human regions are provided. Each raw photo is retouched by three experts, while they elaborately adjust each group of photos to have consistent tones. We define a set of objective measures to evaluate the performance of PPR and propose strategies to learn PPR models with good HRP and GLC performance. The constructed PPR10K dataset provides a good benchmark for studying automatic PPR methods, and experiments demonstrate that the proposed learning strategies are effective to improve the retouching performance. Datasets and codes are available: https://github.com/csjliang/PPR10K.
翻訳日:2021-05-20 13:46:43 公開日:2021-05-19
# リアルタイムの高分解能フォトリアリスティック画像翻訳:ラプラシアピラミッド翻訳ネットワーク

High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network ( http://arxiv.org/abs/2105.09188v1 )

ライセンス: Link先を確認
Jie Liang, Hui Zeng, Lei Zhang(参考訳) 既存の画像から画像への変換法(i2it)は、高分解能特徴マップの畳み込みに計算の重荷がかかるため、低解像度画像や長い推論時間に制限されている。 本稿では, 閉形式ラプラシアンピラミッドの分解と再構成に基づく高分解能フォトリアリスティックI2ITタスクの高速化に着目する。 具体的には, 照明や色操作などの属性変換が低周波成分とより関連し, コンテンツの詳細は高周波成分で適応的に洗練できることを明らかにした。 そこで我々は,この2つのタスクを同時に行うためのラプラシアンピラミッド翻訳ネットワーク (LPTN) を提案し,低周波成分を分解能を低減して翻訳するための軽量ネットワークと,高周波成分を効率よく洗練するためのプログレッシブマスキング戦略を設計した。 本モデルでは,高分解能特徴マップの処理で消費される計算量のほとんどを回避し,画像詳細を忠実に保存する。 各種タスクに対する大規模な実験結果から,提案手法は1つの通常のGPUを用いて4K画像をリアルタイムに変換し,既存の手法と同等な変換性能を実現する。 データセットとコードは、https://github.com/csjliang/lptn。

Existing image-to-image translation (I2IT) methods are either constrained to low-resolution images or long inference time due to their heavy computational burden on the convolution of high-resolution feature maps. In this paper, we focus on speeding-up the high-resolution photorealistic I2IT tasks based on closed-form Laplacian pyramid decomposition and reconstruction. Specifically, we reveal that the attribute transformations, such as illumination and color manipulation, relate more to the low-frequency component, while the content details can be adaptively refined on high-frequency components. We consequently propose a Laplacian Pyramid Translation Network (LPTN) to simultaneously perform these two tasks, where we design a lightweight network for translating the low-frequency component with reduced resolution and a progressive masking strategy to efficiently refine the high-frequency ones. Our model avoids most of the heavy computation consumed by processing high-resolution feature maps and faithfully preserves the image details. Extensive experimental results on various tasks demonstrate that the proposed method can translate 4K images in real-time using one normal GPU while achieving comparable transformation performance against existing methods. Datasets and codes are available: https://github.com/csjliang/LPTN.
翻訳日:2021-05-20 13:46:20 公開日:2021-05-19
# ニューラルネットワークの可変性

Variability of Artificial Neural Networks ( http://arxiv.org/abs/2105.08911v1 )

ライセンス: Link先を確認
Yin Zhang and Yueyao Yu(参考訳) 人工ニューラルネットワークをトレーニングしやすくし、他の同等のネットワークよりも望ましいソリューションを生み出しやすい理由は何だろうか? 本稿では,モデルパラメータの固定数の設定の下で,このような問題を研究するための新しい角度を提供する。 可変性の概念を導入し、これは活性化比と負の相関関係を示し、その相関は {Collapse to Constants} (または C2C) と呼ばれる現象と相関する。 スタイル付きモデル問題の実験では、変数が完全に接続されたニューラルネットワークの重要なパフォーマンス指標であることを実証的に検証している。 この可変性の研究から得られた洞察は、新しい効果的なニューラルネットワークアーキテクチャの設計に役立つだろう。

What makes an artificial neural network easier to train and more likely to produce desirable solutions than other comparable networks? In this paper, we provide a new angle to study such issues under the setting of a fixed number of model parameters which in general is the most dominant cost factor. We introduce a notion of variability and show that it correlates positively to the activation ratio and negatively to a phenomenon called {Collapse to Constants} (or C2C), which is closely related but not identical to the phenomenon commonly known as vanishing gradient. Experiments on a styled model problem empirically verify that variability is indeed a key performance indicator for fully connected neural networks. The insights gained from this variability study will help the design of new and effective neural network architectures.
翻訳日:2021-05-20 13:45:26 公開日:2021-05-19
# 協調学習を用いた自己教師付き不均一グラフニューラルネットワーク

Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning ( http://arxiv.org/abs/2105.09111v1 )

ライセンス: Link先を確認
Xiao Wang, Nian Liu, Hui Han, Chuan Shi(参考訳) 新興技術としてのヘテロジニアスグラフニューラルネットワーク(hgnn)は、ヘテロジニアス情報ネットワーク(hin)を扱う能力が優れていることを示している。 しかし、ほとんどのhgnnは半教師あり学習法に従っており、ラベルは通常実際のアプリケーションでは使用できないため、現実の広い使用範囲を制限している。 近年,自己指導型学習は最もエキサイティングな学習パラダイムの1つとなり,ラベルがない場合に大きな可能性を示す。 本稿では,自己教師型HGNNの問題点を考察し,HGNNのための新しいコントラスト学習機構であるHeCoを提案する。 正と負のサンプルの対比のみに焦点を当てた従来のコントラスト学習とは異なり、HeCoはクロスビューコントラスト機構を採用している。 具体的には、ノード埋め込みを学習するために、HIN(ネットワークスキーマとメタパスビュー)の2つのビューを提案し、局所構造と高次構造の両方を同時にキャプチャする。 そこで,2つの視点から肯定的,否定的な埋め込みを抽出できる,クロスビューコントラスト学習とビューマスク機構を提案する。 これにより、2つのビューが相互に監督し、最終的にハイレベルなノード埋め込みを学ぶことができる。 さらに、HeCoの2つの拡張は、高い品質の強い負のサンプルを生成するように設計されており、HeCoの性能をさらに向上させる。 様々な実世界のネットワーク上で行われた大規模な実験は、提案手法が最先端技術よりも優れた性能を示す。

Heterogeneous graph neural networks (HGNNs) as an emerging technique have shown superior capacity of dealing with heterogeneous information network (HIN). However, most HGNNs follow a semi-supervised learning manner, which notably limits their wide use in reality since labels are usually scarce in real applications. Recently, contrastive learning, a self-supervised method, becomes one of the most exciting learning paradigms and shows great potential when there are no labels. In this paper, we study the problem of self-supervised HGNNs and propose a novel co-contrastive learning mechanism for HGNNs, named HeCo. Different from traditional contrastive learning which only focuses on contrasting positive and negative samples, HeCo employs cross-viewcontrastive mechanism. Specifically, two views of a HIN (network schema and meta-path views) are proposed to learn node embeddings, so as to capture both of local and high-order structures simultaneously. Then the cross-view contrastive learning, as well as a view mask mechanism, is proposed, which is able to extract the positive and negative embeddings from two views. This enables the two views to collaboratively supervise each other and finally learn high-level node embeddings. Moreover, two extensions of HeCo are designed to generate harder negative samples with high quality, which further boosts the performance of HeCo. Extensive experiments conducted on a variety of real-world networks show the superior performance of the proposed methods over the state-of-the-arts.
翻訳日:2021-05-20 13:45:16 公開日:2021-05-19
# 依存量式モジュロ理論としてのプログラム合成

Program Synthesis as Dependency Quantified Formula Modulo Theory ( http://arxiv.org/abs/2105.09221v1 )

ライセンス: Link先を確認
Priyanka Golia, Subhajit Roy, and Kuldeep S. Meel(参考訳) x$ と出力 $y$ の入力に対して $\varphi(x,y)$ が与えられると、プログラム合成の問題は、$y=f(x)$ が$\varphi$ を満たすようなプログラム $f$ を設計することである。 過去10年間で、構文誘導合成(sygus)はプログラム合成の主要な手法として登場し、$\varphi$の仕様に加えて、エンドユーザーは基礎となる合成エンジンを支援するために$l$という文法も指定している。 本稿では,$\mathbb{t}$-constrained synthesisというサブクラスである文法を含まない合成手法の実現可能性について検討する。 DQF($\mathbb{T}$)、すなわち、依存量化フォーミュラ・モデュロ理論の証人を見つける問題に対して、$\mathbb{T}$-constrained synthesis は DQF($\mathbb{T}$) に還元できることを示す。 基本理論がビットベクトルの理論であるとき、対応するDQF(BV)問題は、さらに依存量化ブール式(DQBF)に還元することができる。 ドメイン固有のプログラム合成技術より優れたDQBFベースのシンセサイザーを設計し、DQBFをプログラム合成のコア表現言語として位置づけることに、DQBFの進歩を頼っている。 我々の経験的分析は、$\mathbb{T}$-constrained synthesisは構文誘導型アプローチよりもはるかに優れた性能が得られることを示している。 さらに、汎用DQBFソルバはドメイン固有の合成技術と同等に動作する。

Given a specification $\varphi(X,Y)$ over inputs $X$ and output $Y$, defined over a background theory $\mathbb{T}$, the problem of program synthesis is to design a program $f$ such that $Y=f(X)$ satisfies the specification $\varphi$. Over the past decade, syntax-guided synthesis (SyGuS) has emerged as a dominant approach for program synthesis where in addition to the specification $\varphi$, the end-user also specifies a grammar $L$ to aid the underlying synthesis engine. This paper investigates the feasibility of synthesis techniques without grammar, a sub-class defined as $\mathbb{T}$-constrained synthesis. We show that $\mathbb{T}$-constrained synthesis can be reduced to DQF($\mathbb{T}$), i.e., to the problem of finding a witness of a Dependency Quantified Formula Modulo Theory. When the underlying theory is the theory of bitvectors, the corresponding DQF(BV) problem can be further reduced to Dependency Quantified Boolean Formulas (DQBF). We rely on the progress in DQBF solving to design DQBF-based synthesizers that outperform the domain-specific program synthesis techniques, thereby positioning DQBF as a core representation language for program synthesis. Our empirical analysis shows that $\mathbb{T}$-constrained synthesis can achieve significantly better performance than syntax-guided approaches. Furthermore, the general-purpose DQBF solvers perform on par with domain-specific synthesis techniques.
翻訳日:2021-05-20 13:44:54 公開日:2021-05-19
# より類似した価値、より信頼? --人間-エージェント間相互作用における価値類似性が信頼に及ぼす影響

More Similar Values, More Trust? -- the Effect of Value Similarity on Trust in Human-Agent Interaction ( http://arxiv.org/abs/2105.09222v1 )

ライセンス: Link先を確認
Siddharth Mehrotra, Catholijn M. Jonker, Myrthe L. Tielman(参考訳) AIシステムは意思決定にますます関与しているため、ユーザから適切なレベルの信頼を得ることも重要だ。 これを実現するためには、AIの信頼に影響を与える要因を理解することがまず重要である。 aiへの信頼における個人的価値の役割に関して、研究のギャップが存在することを明らかにする。 そこで本稿では,人間とエージェントの価値類似性(vs)が,そのエージェントに対する人間の信頼に与える影響について検討する。 これを調べるために、89人の参加者が5つの異なるエージェントと組んだ。 シナリオに基づく実験では、エージェントは人質を救うために建物に入る際に何をすべきかを示唆した。 主観的価値の類似性,信頼,質的データに関するエージェントのスコアを分析した。 その結果,より類似した値を持つエージェントも信頼度が高く,両者間の肯定的な効果を示した。 これにより、価値相似性の役割に関する洞察を提供することで、既存の人間-エージェント信頼の理解を深める。

As AI systems are increasingly involved in decision making, it also becomes important that they elicit appropriate levels of trust from their users. To achieve this, it is first important to understand which factors influence trust in AI. We identify that a research gap exists regarding the role of personal values in trust in AI. Therefore, this paper studies how human and agent Value Similarity (VS) influences a human's trust in that agent. To explore this, 89 participants teamed up with five different agents, which were designed with varying levels of value similarity to that of the participants. In a within-subjects, scenario-based experiment, agents gave suggestions on what to do when entering the building to save a hostage. We analyzed the agent's scores on subjective value similarity, trust and qualitative data from open-ended questions. Our results show that agents rated as having more similar values also scored higher on trust, indicating a positive effect between the two. With this result, we add to the existing understanding of human-agent trust by providing insight into the role of value-similarity.
翻訳日:2021-05-20 13:44:25 公開日:2021-05-19
# 企業内ネットワークのロバスト性と安定性:モデレーターの影響

Robustness and stability of enterprise intranet social networks: The impact of moderators ( http://arxiv.org/abs/2105.09127v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon and F. Vagaggini(参考訳) 本研究では,大手3社のイントラネットプラットフォームに含まれるオンラインフォーラムから抽出した3つの通信ネットワークのロバスト性を検証した。 各企業について,ネットワーク構造とコンテンツ(使用する言語)の両面で,従業員間のコミュニケーションを分析した。 8ヶ月間にわたり、約12,000人の従業員が投稿した52,000以上のメッセージを分析した。 具体的には、いくつかの異なるノード除去戦略を適用しながら、ネットワークのロバスト性と構造的および意味的メトリクスの安定性をテストした。 フォーラムモデレーター,スパマー,過度に接続されたノード,ネットワーク周辺にあるノードを除去し,これらの選択の異なる組み合わせをテストした。 以上の結果から,スパマーや周辺ノードの除去は,これらのソーシャルアクターが生み出すノイズの浄化や,解析の計算複雑性の低減に有効である可能性が示唆された。 一方でモデレーターの削除は、ネットワーク接続や共有コンテンツに大きな影響を与えているようだ。 最も影響を受ける変数は、密集度中心性と寄与指数である。 また、過度に接続されたノードの削除はネットワーク構造を著しく変更できることがわかった。 最後に,モデレーターの挙動を他のユーザと比較し,リストが不明な場合にモデレーターを識別できる特徴を見出した。 この知見は,ネットワーク内フォーラムにおけるモデレーターの役割を理解する上で有効であり,グラフ単純化手法の効果を評価することに関心のあるソーシャルネットワークアナリストにとって有用である。

In this study, we tested the robustness of three communication networks extracted from the online forums included in the intranet platforms of three large companies. For each company we analyzed the communication among employees both in terms of network structure and content (language used). Over a period of eight months, we analyzed more than 52,000 messages posted by approximately 12,000 employees. Specifically, we tested the network robustness and the stability of a set of structural and semantic metrics, while applying several different node removal strategies. We removed the forum moderators, the spammers, the overly connected nodes and the nodes lying at the network periphery, also testing different combinations of these selections. Results indicate that removing spammers and very peripheral nodes can be a relatively low impact strategy in this context; accordingly, it could be used to clean the noise generated by these types of social actor and to reduce the computation complexity of the analysis. On the other hand, the removal of moderators seems to have a significant impact on the network connectivity and the shared content. The most affected variables are closeness centrality and contribution index. We also found that the removal of overly connected nodes can significantly change the network structure. Lastly, we compared the behavior of moderators with the other users, finding distinctive characteristics by which moderators can be identified when their list is unknown. Our findings can help online community managers to understand the role of moderators within intranet forums and can be useful for social network analysts who are interested in evaluating the effects of graph simplification techniques.
翻訳日:2021-05-20 13:44:09 公開日:2021-05-19
# 4つの異なるオンラインメディアソースを使って 原油価格を予測し

Using four different online media sources to forecast the crude oil price ( http://arxiv.org/abs/2105.09154v1 )

ライセンス: Link先を確認
M. Elshendy, A. Fronzetti Colladon, E. Battistoni, P. A. Gloor(参考訳) 本研究は,オンラインソーシャルメディア上での経済意識のシグナルを探り,その経済予測における意義を検証した。 調査は2年間にわたって、西テキサス中間原油価格とTwitter、Google Trends、Wikipedia、およびGDELT(Global Data on Events、Language、Tone database)から抽出された複数の予測器の関係を分析した。 意味分析は、使用する言語の感情、感情、複雑さを研究するために用いられる。 説明変数を用いた自己回帰統合移動平均(ARIMAX)モデルを用いて、予測を行い、研究変数の価値を確認する。 その結果,4つのメディアプラットフォームの統合分析は,財務予測において貴重な情報をもたらすことがわかった。 Twitter言語の複雑さ、GDELTの項目数、ウィキペディアページの読み込みが最も予測力が高い。 この研究はまた、プラットフォームが価格の動きを何日前に予測できるかという点で、各プラットフォームで異なる先見能力を比較することを可能にする。 先行研究と比較して, メディアソースの増大と, 使用言語との相互作用の次元の増大を, 共同分析で組み合わせる。

This study looks for signals of economic awareness on online social media and tests their significance in economic predictions. The study analyses, over a period of two years, the relationship between the West Texas Intermediate daily crude oil price and multiple predictors extracted from Twitter, Google Trends, Wikipedia, and the Global Data on Events, Language, and Tone database (GDELT). Semantic analysis is applied to study the sentiment, emotionality and complexity of the language used. Autoregressive Integrated Moving Average with Explanatory Variable (ARIMAX) models are used to make predictions and to confirm the value of the study variables. Results show that the combined analysis of the four media platforms carries valuable information in making financial forecasting. Twitter language complexity, GDELT number of articles and Wikipedia page reads have the highest predictive power. This study also allows a comparison of the different fore-sighting abilities of each platform, in terms of how many days ahead a platform can predict a price movement before it happens. In comparison with previous work, more media sources and more dimensions of the interaction and of the language used are combined in a joint analysis.
翻訳日:2021-05-20 13:43:45 公開日:2021-05-19
# 電子メールを用いたソーシャルネットワーク分析による管理者の転職予測

Forecasting managerial turnover through e-mail based social network analysis ( http://arxiv.org/abs/2105.09208v1 )

ライセンス: Link先を確認
P. A. Gloor, A. Fronzetti Colladon, F. Grippa, G. Giacomelli(参考訳) 本研究では,職を自発的に辞めるマネージャと留まることを決めたマネージャのコミュニケーション行動を比較するために,電子メールのソーシャルネットワーク分析に基づく手法を提案する。 18ヶ月の電子メールを収集し,866人のマネージャのコミュニケーション行動を分析し,そのうち111人が大手グローバルサービス会社を去りました。 コミュニケーションパターンの差異を,ソーシャル・ネットワークの指標,すなわち,親密性中心性と親密性,および,使用する言語の感情性や複雑さといった内容分析指標の計算によって比較した。 経営陣の離職の出現を調査するため,調査対象の電子メールデータに基づいて区別を行った。 マネージャが去る5ヶ月から4ヶ月の間、コミュニケーションを観察し、ネットワーク構造と言語の使用の両方において大きな変化を見出した。 結果, 退社した平均管理職は, 集中度が低く, 会話の関与度も低かった。 さらに、退社を選択したマネージャは、その程度と近さの中心性、言語が複雑になるとともに、相互中心性における振動や、答えを得る前に仲間に送らなければならない「ナッジ」の数も増えることで、退社前の5ヶ月からコミュニケーション行動を変える傾向にあった。

In this study we propose a method based on e-mail social network analysis to compare the communication behavior of managers who voluntarily quit their job and managers who decide to stay. Collecting 18 months of e-mail, we analyzed the communication behavior of 866 managers, out of which 111 left a large global service company. We compared differences in communication patterns by computing social network metrics, such as betweenness and closeness centrality, and content analysis indicators, such as emotionality and complexity of the language used. To study the emergence of managers' disengagement, we made a distinction based on the period of e-mail data examined. We observed communications during months 5 and 4 before managers left, and found significant variations in both their network structure and use of language. Results indicate that on average managers who quit had lower closeness centrality and less engaged conversations. In addition, managers who chose to quit tended to shift their communication behavior starting from 5 months before leaving, by increasing their degree and closeness centrality, the complexity of their language, as well as their oscillations in betweenness centrality and the number of "nudges" they need to send to peers before getting an answer.
翻訳日:2021-05-20 13:43:27 公開日:2021-05-19
# universal adversarial perturbation を用いた実用的な話者照合システムへの攻撃

Attack on practical speaker verification system using universal adversarial perturbations ( http://arxiv.org/abs/2105.09022v1 )

ライセンス: Link先を確認
Weiyi Zhang, Shuning Zhao, Le Liu, Jianmin Li, Xingliang Cheng, Thomas Fang Zheng, Xiaolin Hu(参考訳) 認証シナリオでは、実際の話者認証システムの応用は通常、動的な認証テキストを読む必要がある。 以前の研究では、物理的攻撃を行うためのデジタル信号として音声対向的な例があり、オーディオ再生検出モジュールによって容易に拒否される。 本研究は, 相手が話しているときに, 相手を別個の音源として演奏することで, 相手をターゲットとする話者として誤判断することを示す。 2段階のアルゴリズムにより,テキスト非依存な普遍的逆摂動を最適化し,認証テキスト認識にはほとんど影響を与えない。 また,このアルゴリズムでは室内インパルス応答(rir)を推定し,空気中での摂動を効果的に行うことができた。 物理実験では,100%の成功率で標的攻撃を達成し,音声認識における単語誤り率(WER)は3.55%向上した。 そして録音された音声は、ライブの人のリプレイ検出をパスする。

In authentication scenarios, applications of practical speaker verification systems usually require a person to read a dynamic authentication text. Previous studies played an audio adversarial example as a digital signal to perform physical attacks, which would be easily rejected by audio replay detection modules. This work shows that by playing our crafted adversarial perturbation as a separate source when the adversary is speaking, the practical speaker verification system will misjudge the adversary as a target speaker. A two-step algorithm is proposed to optimize the universal adversarial perturbation to be text-independent and has little effect on the authentication text recognition. We also estimated room impulse response (RIR) in the algorithm which allowed the perturbation to be effective after being played over the air. In the physical experiment, we achieved targeted attacks with success rate of 100%, while the word error rate (WER) on speech recognition was only increased by 3.55%. And recorded audios could pass replay detection for the live person speaking.
翻訳日:2021-05-20 13:42:15 公開日:2021-05-19
# ディープラーニングにおける画像分類のためのラベルベース画素ブロック混合を用いた軽量プライバシー保護方式

A Lightweight Privacy-Preserving Scheme Using Label-based Pixel Block Mixing for Image Classification in Deep Learning ( http://arxiv.org/abs/2105.08876v1 )

ライセンス: Link先を確認
Yuexin Xiang, Tiantian Li, Wei Ren, Tianqing Zhu, Kim-Kwang Raymond Choo(参考訳) ディープラーニングモデルのトレーニングで使用される機密データのプライバシを確保するため、研究コミュニティによって多くのプライバシ保護手法が設計されている。 しかし、既存のスキームは一般的にテキストデータを扱うように設計されており、訓練に大量の画像を使用する場合、効率が良くない。 そこで本稿では,トレーニングセットの可用性を維持しつつ,画像のプライバシーを維持するための軽量かつ効率的なアプローチを提案する。 具体的には、ディープラーニングにおける画像分類プライバシー保護のための画素ブロック混合アルゴリズムを設計する。 その有用性を評価するために、混合トレーニングセットを使用して、WIKIデータセットとCNBCフェイスデータセット上でResNet50、VGG16、InceptionV3、DenseNet121モデルをトレーニングする。 実験結果から,本手法は深層学習モデルにおけるトレーニングセットの可用性を維持しつつ,画像のプライバシを保ったまま維持することを示す。 さらに,ウィキデータセットのvgg16モデルとcnbcデータセットのresnet50とdrknet121の両方において,優れた性能が得られることを示す実験結果を得た。 画素ブロックアルゴリズムは画像の混合においてかなり高い効率を実現しており、攻撃者が元のトレーニングセットに混合トレーニングセットを復元することは計算的に困難である。 さらに、データ拡張を混合トレーニングセットに適用することで、トレーニングの有効性を向上させることができる。

To ensure the privacy of sensitive data used in the training of deep learning models, a number of privacy-preserving methods have been designed by the research community. However, existing schemes are generally designed to work with textual data, or are not efficient when a large number of images is used for training. Hence, in this paper we propose a lightweight and efficient approach to preserve image privacy while maintaining the availability of the training set. Specifically, we design the pixel block mixing algorithm for image classification privacy preservation in deep learning. To evaluate its utility, we use the mixed training set to train the ResNet50, VGG16, InceptionV3 and DenseNet121 models on the WIKI dataset and the CNBC face dataset. Experimental findings on the testing set show that our scheme preserves image privacy while maintaining the availability of the training set in the deep learning models. Additionally, the experimental results demonstrate that we achieve good performance for the VGG16 model on the WIKI dataset and both ResNet50 and DenseNet121 on the CNBC dataset. The pixel block algorithm achieves fairly high efficiency in the mixing of the images, and it is computationally challenging for the attackers to restore the mixed training set to the original training set. Moreover, data augmentation can be applied to the mixed training set to improve the training's effectiveness.
翻訳日:2021-05-20 13:41:34 公開日:2021-05-19
# TarGAN:マルチモーダル医用画像翻訳のためのターゲット対応汎用ネットワーク

TarGAN: Target-Aware Generative Adversarial Networks for Multi-modality Medical Image Translation ( http://arxiv.org/abs/2105.08993v1 )

ライセンス: Link先を確認
Junxiao Chen, Jia Wei, and Rui Li(参考訳) 多重モダリティの医療画像は、医師が単一モダリティの医療画像よりも合理的な決定を下すのに役立つ補完的な情報を提供する。 しかし、それらは様々な要因(例えば、時間、コスト、放射線量)によって生成することが困難である。 これらの問題に対処するため、近年、マルチモーダルな医療画像翻訳が研究の関心を高めている。 しかし、既存の研究は主に、重要な対象領域や関心領域(ROI)、例えば臓器などではなく、全体像の翻訳効果に焦点を当てている。 これにより、局所化された対象領域の低品質な翻訳が、ぼやけたり、変形したり、あるいは余分な不合理なテクスチャになってしまう。 本稿では,2つのデータに頼らずに,(1)マルチモーダルな医用画像翻訳を学習できる汎用的マルチモーダル医療用画像翻訳モデルであるTarGANを提案する。 TarGANのジェネレータは、画像変換マッピングとターゲット領域変換マッピングの2つのレベルを同時に学習する。 これら2つの写像は交差損失によって相互に関連付けられる。 定量的測定と定性的評価の両方に関する実験は、TarGANがあらゆるケースにおいて最先端の手法よりも優れていることを示した。 その後のセグメンテーションタスクにより,TarGANが生成した合成画像の有効性を実世界のアプリケーションで実証する。 我々のコードはhttps://github.com/2165998/TarGAN.comで入手できる。

Paired multi-modality medical images, can provide complementary information to help physicians make more reasonable decisions than single modality medical images. But they are difficult to generate due to multiple factors in practice (e.g., time, cost, radiation dose). To address these problems, multi-modality medical image translation has aroused increasing research interest recently. However, the existing works mainly focus on translation effect of a whole image instead of a critical target area or Region of Interest (ROI), e.g., organ and so on. This leads to poor-quality translation of the localized target area which becomes blurry, deformed or even with extra unreasonable textures. In this paper, we propose a novel target-aware generative adversarial network called TarGAN, which is a generic multi-modality medical image translation model capable of (1) learning multi-modality medical image translation without relying on paired data, (2) enhancing quality of target area generation with the help of target area labels. The generator of TarGAN jointly learns mapping at two levels simultaneously - whole image translation mapping and target area translation mapping. These two mappings are interrelated through a proposed crossing loss. The experiments on both quantitative measures and qualitative evaluations demonstrate that TarGAN outperforms the state-of-the-art methods in all cases. Subsequent segmentation task is conducted to demonstrate effectiveness of synthetic images generated by TarGAN in a real-world application. Our code is available at https://github.com/2165998/TarGAN.
翻訳日:2021-05-20 13:41:10 公開日:2021-05-19
# 顔面皮膚色補正ガイド

Guided Facial Skin Color Correction ( http://arxiv.org/abs/2105.09034v1 )

ライセンス: Link先を確認
Keiichiro Shirai, Tatsuya Baba, Shunsuke Ono, Masahiro Okuda, Yusuke Tatesumi, and Paul Perrotin(参考訳) 本稿では、背景色による肌色変化を抑制し、顔の肌の色相の整合性を促進するポートレート写真の自動補正手法を提案する。 ポートレート写真では、照明環境(例えば、色の背景壁から反射した光やカメラストローブによる露出過多)により肌色が歪むことが多く、写真が人工的に他の背景色と組み合わせられた場合、この色の変化が強調され、不自然に合成される結果となる。 本フレームワークでは,顔領域を大まかに抽出し,色空間における肌の色分布を補正した後,原画像の顔の周囲の色と明るさの補正を行い,輝度や背景色の影響を受けない顔画像の適切な色バランスを実現する。 従来の色補正アルゴリズムとは異なり,最終結果はガイド画像を用いた色補正処理によって達成される。 特に,色補正のためのガイド画像フィルタリングは,heらによって提案されたガイド画像フィルタリング法において,完全に整列したガイド画像を必要としない。 実験の結果,本手法は従来の頭部写真だけでなく,自然シーン写真よりも自然な結果が得られることがわかった。 また、別のアプリケーションとして、自動年鑑スタイルの写真生成を示す。

This paper proposes an automatic image correction method for portrait photographs, which promotes consistency of facial skin color by suppressing skin color changes due to background colors. In portrait photographs, skin color is often distorted due to the lighting environment (e.g., light reflected from a colored background wall and over-exposure by a camera strobe), and if the photo is artificially combined with another background color, this color change is emphasized, resulting in an unnatural synthesized result. In our framework, after roughly extracting the face region and rectifying the skin color distribution in a color space, we perform color and brightness correction around the face in the original image to achieve a proper color balance of the facial image, which is not affected by luminance and background colors. Unlike conventional algorithms for color correction, our final result is attained by a color correction process with a guide image. In particular, our guided image filtering for the color correction does not require a perfectly-aligned guide image required in the original guide image filtering method proposed by He et al. Experimental results show that our method generates more natural results than conventional methods on not only headshot photographs but also natural scene photographs. We also show automatic yearbook style photo generation as an another application.
翻訳日:2021-05-20 13:40:42 公開日:2021-05-19
# ハイブリッド画像を用いた深層学習電波信号分類

Deep Learning Radio Frequency Signal Classification with Hybrid Images ( http://arxiv.org/abs/2105.09063v1 )

ライセンス: Link先を確認
Hilal Elyousseph, Majid L Altamimi(参考訳) 近年,無線周波数(rf)信号の検出と分類にディープラーニング(dl)が応用されている。 dlアプローチは、完全なプロトコル情報を必要としない信号の存在を識別し、レーダー信号などの非通信波形を検出・分類することができるため、特に有用である。 本研究では,入力訓練データに使用できるさまざまな前処理ステップに注目し,固定dlアーキテクチャ上で結果をテストする。 これまでは主に時間領域と周波数領域の両方に焦点をあててきたが、時間領域情報と周波数領域情報の両方を活用するハイブリッド画像を提案し、コンピュータビジョン問題として分類する。 最初の結果は、古典的な前処理アプローチの限界を指摘しながら、複数の信号表現の長所を活用できる分類器を構築可能であることも示しています。

In recent years, Deep Learning (DL) has been successfully applied to detect and classify Radio Frequency (RF) Signals. A DL approach is especially useful since it identifies the presence of a signal without needing full protocol information, and can also detect and/or classify non-communication waveforms, such as radar signals. In this work, we focus on the different pre-processing steps that can be used on the input training data, and test the results on a fixed DL architecture. While previous works have mostly focused exclusively on either time-domain or frequency domain approaches, we propose a hybrid image that takes advantage of both time and frequency domain information, and tackles the classification as a Computer Vision problem. Our initial results point out limitations to classical pre-processing approaches while also showing that it's possible to build a classifier that can leverage the strengths of multiple signal representations.
翻訳日:2021-05-20 13:40:22 公開日:2021-05-19
# 非参照360度画像品質評価のための適応ハイパーグラフ畳み込みネットワーク

Adaptive Hypergraph Convolutional Network for No-Reference 360-degree Image Quality Assessment ( http://arxiv.org/abs/2105.09143v1 )

ライセンス: Link先を確認
Jun Fu, Chen Hou, Wei Zhou, Jiahua Xu, Zhibo Chen(参考訳) no-reference 360-degree Image Quality Assessment (NR 360IQA)では、グラフを通してビューポート間の相互作用をモデル化するグラフ畳み込みネットワーク (GCN) が目覚ましい性能を達成した。 しかし、一般的なGCNベースのNR 360IQA法は、主に3つの制限がある。 まず、歪みした画像の高レベルな特徴のみを用いて品質スコアを抑える一方で、人間の視覚システム(HVS)は階層的な特徴に基づいて画像を評価する。 第二に、ビューポート間の複雑な高次相互作用をグラフを通してペアで単純化する。 第3に、グラフ構築では、ビューポートの空間的位置のみを考慮し、そのコンテンツ特性を無視している。 そこで本研究では, NR 360IQA のための適応型ハイパーグラフ畳み込みネットワーク AHGCN を提案する。 具体的には,まずビューポートから階層表現を抽出するマルチレベルビューポート記述子を設計する。 次に、ハイパーグラフを通してビューポート間の相互作用をモデル化し、各ハイパーエッジが2つ以上のビューポートを接続する。 ハイパーグラフ構築では,各ビューポートに対して位置ベースハイパーエッジとコンテンツベースハイパーエッジを構築する。 2つのパブリックな360IQAデータベースの実験結果から,提案手法は最先端の完全参照モデルと非参照IQAモデルに対して明らかな優位性を示す。

In no-reference 360-degree image quality assessment (NR 360IQA), graph convolutional networks (GCNs), which model interactions between viewports through graphs, have achieved impressive performance. However, prevailing GCN-based NR 360IQA methods suffer from three main limitations. First, they only use high-level features of the distorted image to regress the quality score, while the human visual system (HVS) scores the image based on hierarchical features. Second, they simplify complex high-order interactions between viewports in a pairwise fashion through graphs. Third, in the graph construction, they only consider spatial locations of viewports, ignoring its content characteristics. Accordingly, to address these issues, we propose an adaptive hypergraph convolutional network for NR 360IQA, denoted as AHGCN. Specifically, we first design a multi-level viewport descriptor for extracting hierarchical representations from viewports. Then, we model interactions between viewports through hypergraphs, where each hyperedge connects two or more viewports. In the hypergraph construction, we build a location-based hyperedge and a content-based hyperedge for each viewport. Experimental results on two public 360IQA databases demonstrate that our proposed approach has a clear advantage over state-of-the-art full-reference and no-reference IQA models.
翻訳日:2021-05-20 13:40:09 公開日:2021-05-19
# 埋め込みスペースはどこにありますか? Recommender システムにおけるネットワーク埋め込み手法に関する総合的分析

Where are we in embedding spaces? A Comprehensive Analysis on Network Embedding Approaches for Recommender Systems ( http://arxiv.org/abs/2105.08908v1 )

ライセンス: Link先を確認
Sixiao Zhang, Hongxu Chen, Xiao Ming, Lizhen Cui, Hongzhi Yin, Guandong Xu(参考訳) 双曲空間と双曲埋め込みはレコメンダシステムのための人気のある研究分野となっている。 しかし、どのような状況で双曲空間を考えるべきかは明らかではない。 このギャップを埋めるために、本論文は、レコメンダシステムにおいて双曲空間と双曲埋め込みを使うタイミングと場所に関する理論的解析と実証結果を提供する。 具体的には、どのタイプのモデルとデータセットが双曲空間にもっと適しているか、どの潜在サイズを選ぶべきか、という疑問に答える。 一般項目推薦ドメインとソーシャルレコメンデーションドメインのいずれにおいても,ユークリッド空間と双曲空間のパフォーマンスを,広く使用されている6つのデータセットと異なる潜在サイズで比較して評価した。 さらに,SCML とハイパーボリックバージョン HSCML という,メトリクス学習に基づく新しいレコメンデーション手法を提案する。 SCMLにおける双曲空間に関する結論を評価し,HSCMLと他のベースライン法との比較により,双曲空間の最先端性能を示す。

Hyperbolic space and hyperbolic embeddings are becoming a popular research field for recommender systems. However, it is not clear under what circumstances the hyperbolic space should be considered. To fill this gap, This paper provides theoretical analysis and empirical results on when and where to use hyperbolic space and hyperbolic embeddings in recommender systems. Specifically, we answer the questions that which type of models and datasets are more suited for hyperbolic space, as well as which latent size to choose. We evaluate our answers by comparing the performance of Euclidean space and hyperbolic space on different latent space models in both general item recommendation domain and social recommendation domain, with 6 widely used datasets and different latent sizes. Additionally, we propose a new metric learning based recommendation method called SCML and its hyperbolic version HSCML. We evaluate our conclusions regarding hyperbolic space on SCML and show the state-of-the-art performance of hyperbolic space by comparing HSCML with other baseline methods.
翻訳日:2021-05-20 13:39:47 公開日:2021-05-19
# 周期的グローバル平均化によるゴシップsgdの加速

Accelerating Gossip SGD with Periodic Global Averaging ( http://arxiv.org/abs/2105.09080v1 )

ライセンス: Link先を確認
Yiming Chen, Kun Yuan, Yingya Zhang, Pan Pan, Yinghui Xu, Wotao Yin(参考訳) 通信オーバーヘッドは、大規模分散トレーニングのスケーラビリティを妨げる。 Gossip SGDは、各ノードが隣り合うだけで平均となるが、従来の並列SGDよりも通信効率が高い。 しかし、その収束率は、ネットワーク接続度を測定する1-\beta$に逆比例する。 1-\beta \to 0$の大規模でスパースなネットワークでは、Gossip SGDはもっと多くのイテレーションを収束させ、通信の利点を相殺する。 本稿では,Gossip SGDに周期的グローバル平均化を加えたGossip-PGAを紹介する。 その過渡段階、すなわち漸近線形スピードアップ段階に到達するために必要な反復は、非凸問題に対して$\Omega(\beta^4 n^3/(1-\beta)^4)$から$\Omega(\beta^4 n^3 H^4)$に改善される。 Gossip-PGAにおけるネットワークトポロジの影響は平均化期間$H$で制御できる。 過渡段階の複雑性は、位数$\Omega(n^3 H^4)$の局所SGDよりも優れている。 画像分類 (ResNet50) と言語モデリング (BERT) に関する大規模トレーニングの実証結果から, 理論的知見が得られた。

Communication overhead hinders the scalability of large-scale distributed training. Gossip SGD, where each node averages only with its neighbors, is more communication-efficient than the prevalent parallel SGD. However, its convergence rate is reversely proportional to quantity $1-\beta$ which measures the network connectivity. On large and sparse networks where $1-\beta \to 0$, Gossip SGD requires more iterations to converge, which offsets against its communication benefit. This paper introduces Gossip-PGA, which adds Periodic Global Averaging into Gossip SGD. Its transient stage, i.e., the iterations required to reach asymptotic linear speedup stage, improves from $\Omega(\beta^4 n^3/(1-\beta)^4)$ to $\Omega(\beta^4 n^3 H^4)$ for non-convex problems. The influence of network topology in Gossip-PGA can be controlled by the averaging period $H$. Its transient-stage complexity is also superior to Local SGD which has order $\Omega(n^3 H^4)$. Empirical results of large-scale training on image classification (ResNet50) and language modeling (BERT) validate our theoretical findings.
翻訳日:2021-05-20 13:39:29 公開日:2021-05-19
# 負サンプリングを用いた一般化スキップグラムによる自由エネルギーノード埋め込み

Free Energy Node Embedding via Generalized Skip-gram with Negative Sampling ( http://arxiv.org/abs/2105.09182v1 )

ライセンス: Link先を確認
Yu Zhu, Ananthram Swami, Santiago Segarra(参考訳) 教師なしノード埋め込み法の広く確立された集合は、2つの異なるステップからなると解釈できる: i) 関心グラフに基づく類似性行列の定義、ii) そのような行列の明示的または暗黙的な分解。 この観点から,フレームワークの両ステップの改善を提案する。 一方,最短経路と可換時間距離を補間する自由エネルギー距離に基づいてノードの類似性を符号化し,柔軟性を高めることを提案する。 一方,任意の類似度行列に対して負のサンプリングを施したスキップグラムモデルを一般化した損失関数に基づく行列分解法を提案する。 広く使われている$\ell_2$損失に基づく因子分解と比較すると,提案手法は高い類似度スコアに関連するノードペアをよりよく保存することができる。 さらに、高度な自動微分ツールキットを使用して容易に実装でき、GPUリソースを活用して効率的に計算できる。 実世界のデータセットにおけるノードクラスタリング、ノード分類、リンク予測実験は、フリーエネルギベースの類似性と、提案されたマトリックス因子化を最先端の代替品と比較した効果を示している。

A widely established set of unsupervised node embedding methods can be interpreted as consisting of two distinctive steps: i) the definition of a similarity matrix based on the graph of interest followed by ii) an explicit or implicit factorization of such matrix. Inspired by this viewpoint, we propose improvements in both steps of the framework. On the one hand, we propose to encode node similarities based on the free energy distance, which interpolates between the shortest path and the commute time distances, thus, providing an additional degree of flexibility. On the other hand, we propose a matrix factorization method based on a loss function that generalizes that of the skip-gram model with negative sampling to arbitrary similarity matrices. Compared with factorizations based on the widely used $\ell_2$ loss, the proposed method can better preserve node pairs associated with higher similarity scores. Moreover, it can be easily implemented using advanced automatic differentiation toolkits and computed efficiently by leveraging GPU resources. Node clustering, node classification, and link prediction experiments on real-world datasets demonstrate the effectiveness of incorporating free-energy-based similarities as well as the proposed matrix factorization compared with state-of-the-art alternatives.
翻訳日:2021-05-20 13:39:06 公開日:2021-05-19
# 音声イベント分類のための教師なし識別学習

Unsupervised Discriminative Learning of Sounds for Audio Event Classification ( http://arxiv.org/abs/2105.09279v1 )

ライセンス: Link先を確認
Sascha Hornauer, Ke Li, Stella X. Yu, Shabnam Ghaffarzadegan, Liu Ren(参考訳) ネットワークベースの音声イベント分類の最近の進歩は、ImageNetのようなビジュアルデータに対する事前学習モデルの利点を示している。 このプロセスは、異なるドメイン間での知識伝達を可能にするが、大規模なビジュアルデータセット上でモデルをトレーニングするのは時間を要する。 いくつかのオーディオイベント分類ベンチマークでは、教師なしのモデルを事前訓練する高速で効果的な代替手段が示され、これは音声データにのみ依存するが、ImageNetの事前訓練でオンパーのパフォーマンスを提供する。 さらに、我々の識別学習は、音声データセット間で知識を伝達し、オプションでImageNet事前学習を組み込むことができることを示す。

Recent progress in network-based audio event classification has shown the benefit of pre-training models on visual data such as ImageNet. While this process allows knowledge transfer across different domains, training a model on large-scale visual datasets is time consuming. On several audio event classification benchmarks, we show a fast and effective alternative that pre-trains the model unsupervised, only on audio data and yet delivers on-par performance with ImageNet pre-training. Furthermore, we show that our discriminative audio learning can be used to transfer knowledge across audio datasets and optionally include ImageNet pre-training.
翻訳日:2021-05-20 13:38:49 公開日:2021-05-19
# 変分オートエンコーダのアンサングル学習による音声・映像音声強調

Disentanglement Learning for Variational Autoencoders Applied to Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2105.08970v1 )

ライセンス: Link先を確認
Guillaume Carbajal, Julius Richter, Timo Gerkmann(参考訳) 近年、標準変分オートエンコーダは、音声信号よりも先に確率的に学習し、音声強調を行うのに使われている。 変分オートエンコーダは、ハイレベルな音声属性(例えば、)を示すラベルで条件付けされる。 音声活動) 音声生成をより明示的な制御を可能にする。 しかし、ラベルが他の潜在変数から切り離されることは保証されておらず、標準の変分オートエンコーダに比べて性能が大幅に向上する。 本研究では,可変オートエンコーダに対して,ラベルを他の潜在変数から切り離すための逆訓練方式を提案する。 トレーニングでは、変分オートエンコーダのエンコーダと競合する判別器を使用します。 同時に、変分オートエンコーダのデコーダのラベルを推定する追加のエンコーダも使用しています。 視覚データから推定した音声活動ラベルを音声強調に用いた場合,提案する不等角化学習の利点を示す。

Recently, the standard variational autoencoder has been successfully used to learn a probabilistic prior over speech signals, which is then used to perform speech enhancement. Variational autoencoders have then been conditioned on a label describing a high-level speech attribute (e.g. speech activity) that allows for a more explicit control of speech generation. However, the label is not guaranteed to be disentangled from the other latent variables, which results in limited performance improvements compared to the standard variational autoencoder. In this work, we propose to use an adversarial training scheme for variational autoencoders to disentangle the label from the other latent variables. At training, we use a discriminator that competes with the encoder of the variational autoencoder. Simultaneously, we also use an additional encoder that estimates the label for the decoder of the variational autoencoder, which proves to be crucial to learn disentanglement. We show the benefit of the proposed disentanglement learning when a voice activity label, estimated from visual data, is used for speech enhancement.
翻訳日:2021-05-20 13:37:59 公開日:2021-05-19
# 強化学習におけるカーネル密度推定に基づく状態空間カバレッジ加速による探索開始の改善

Improved Exploring Starts by Kernel Density Estimation-Based State-Space Coverage Acceleration in Reinforcement Learning ( http://arxiv.org/abs/2105.08990v1 )

ライセンス: Link先を確認
Maximilian Schenke and Oliver Wallscheid(参考訳) 強化学習(rl)は現在、制御工学における一般的な研究テーマであり、産業および商業アプリケーションへの道を開く可能性がある。 対応するRLコントローラは、制御されたシステムと直接対話することで、データ駆動およびパフォーマンス指向のソリューションをレンダリングする。 開始(es)を探索するベストプラクティスは、ランダムに選択された初期状態を通じて学習プロセスをサポートするためにデフォルトで使用される。 しかし、システムの動的および制約が状態空間における好ましくないサンプル分布(例えば、特定の状態空間領域における凝縮されたサンプル蓄積)に繋がる場合、この方法は強いバイアスを与える。 この問題を解決するために,カーネル密度推定に基づく状態空間カバレッジ加速(DESSCA)を提案する。 検討されたテストシナリオは、マウンテンカー、カートポール、電動モーター制御環境である。 DQNとDDPGを例示的RLアルゴリズムとして使用することにより、DESSCAは確立されたESアプローチに対する単純かつ効果的なアルゴリズム拡張であることを示すことができる。

Reinforcement learning (RL) is currently a popular research topic in control engineering and has the potential to make its way to industrial and commercial applications. Corresponding RL controllers are trained in direct interaction with the controlled system, rendering them data-driven and performance-oriented solutions. The best practice of exploring starts (ES) is used by default to support the learning process via randomly picked initial states. However, this method might deliver strongly biased results if the system's dynamic and constraints lead to unfavorable sample distributions in the state space (e.g., condensed sample accumulation in certain state-space areas). To overcome this issue, a kernel density estimation-based state-space coverage acceleration (DESSCA) is proposed, which improves the ES concept by prioritizing infrequently visited states for a more balanced coverage of the state space during training. Considered test scenarios are mountain car, cartpole and electric motor control environments. Using DQN and DDPG as exemplary RL algorithms, it can be shown that DESSCA is a simple yet effective algorithmic extension to the established ES approach.
翻訳日:2021-05-20 13:37:43 公開日:2021-05-19
# トンプソンサンプリングのための拡散近似

Diffusion Approximations for Thompson Sampling ( http://arxiv.org/abs/2105.09232v1 )

ライセンス: Link先を確認
Lin Fan, Peter W. Glynn(参考訳) 我々は弱い収束の観点からトンプソンサンプリングの挙動を研究する。 アーム間のギャップが1/\sqrt{n}$と時間的地平線$n$となる状態において、トンプソンサンプリングのダイナミクスはSDEとランダムODEの離散バージョンに従って進化することを示す。 n \to \infty$ として、力学は対応する SDE およびランダムODE の解に弱収束することを示す。 (近年、WagerとXu(arXiv:2101.09855)は独立してこの体制を提唱し、SDEとランダムODE近似を開発した。) 我々の弱い収束理論は、古典的マルチアームと線形バンディットの設定の両方をカバーしており、例えば、アーム間での情報共有がある場合の後悔分布の特性や、分散推定、モデルミス特定、およびバンドディット学習におけるバッチ更新の影響の洞察を得るのに利用できる。 この理論は第一原理から開発され、他のサンプリングベースのバンディットアルゴリズムの解析にも応用できる。

We study the behavior of Thompson sampling from the perspective of weak convergence. In the regime where the gaps between arm means scale as $1/\sqrt{n}$ with the time horizon $n$, we show that the dynamics of Thompson sampling evolve according to discrete versions of SDEs and random ODEs. As $n \to \infty$, we show that the dynamics converge weakly to solutions of the corresponding SDEs and random ODEs. (Recently, Wager and Xu (arXiv:2101.09855) independently proposed this regime and developed similar SDE and random ODE approximations.) Our weak convergence theory covers both the classical multi-armed and linear bandit settings, and can be used, for instance, to obtain insight about the characteristics of the regret distribution when there is information sharing among arms, as well as the effects of variance estimation, model mis-specification and batched updates in bandit learning. Our theory is developed from first-principles and can also be adapted to analyze other sampling-based bandit algorithms.
翻訳日:2021-05-20 13:37:22 公開日:2021-05-19
# Robo-Advising: 逆最適化と深層強化学習による投資促進

Robo-Advising: Enhancing Investment with Inverse Optimization and Deep Reinforcement Learning ( http://arxiv.org/abs/2105.09264v1 )

ライセンス: Link先を確認
Haoran Wang, Shi Yu(参考訳) 機械学習(ML)は金融業界において強力なツールとして受け入れられており、投資管理を含む様々な分野に顕著な応用が広がっている。 本研究では,2つのmlエージェントからなるフルサイクルデータ駆動型投資ロボアドバイザリングフレームワークを提案する。 逆ポートフォリオ最適化エージェントである第1エージェントは、オンライン逆最適化を用いて、履歴アロケーションデータから直接、投資家のリスク選択と期待リターンを推測する。 第2のエージェントである深部強化学習(RL)エージェントは、予測されるリターンの推論シーケンスを集約し、深部RLアプローチを用いて解決可能な、新しい多周期平均分散ポートフォリオ最適化問題を定式化する。 提案された投資パイプラインは、2016年4月1日から2021年2月1日までの実際の市場データに適用され、市場最適配分を表すS&P500ベンチマークポートフォリオを一貫して上回っている。 アウトパフォーマンスは、多周期計画(単周期計画)とデータ駆動rlアプローチ(古典的推定アプローチ)に起因している可能性がある。

Machine Learning (ML) has been embraced as a powerful tool by the financial industry, with notable applications spreading in various domains including investment management. In this work, we propose a full-cycle data-driven investment robo-advising framework, consisting of two ML agents. The first agent, an inverse portfolio optimization agent, infers an investor's risk preference and expected return directly from historical allocation data using online inverse optimization. The second agent, a deep reinforcement learning (RL) agent, aggregates the inferred sequence of expected returns to formulate a new multi-period mean-variance portfolio optimization problem that can be solved using deep RL approaches. The proposed investment pipeline is applied on real market data from April 1, 2016 to February 1, 2021 and has shown to consistently outperform the S&P 500 benchmark portfolio that represents the aggregate market optimal allocation. The outperformance may be attributed to the the multi-period planning (versus single-period planning) and the data-driven RL approach (versus classical estimation approach).
翻訳日:2021-05-20 13:37:03 公開日:2021-05-19
# (参考訳) 微分可能SLAM-net:ビジュアルナビゲーションのための粒子SLAMの学習

Differentiable SLAM-net: Learning Particle SLAM for Visual Navigation ( http://arxiv.org/abs/2105.07593v2 )

ライセンス: CC BY 4.0
Peter Karkus, Shaojun Cai, David Hsu(参考訳) ローカライゼーションとマッピング(SLAM)は、高速な回転、特徴のない壁、カメラ品質の低下など、視覚ロボットナビゲーションなど、多くの下流アプリケーションにとって依然として困難である。 本稿では,これまで見つからなかった屋内環境における平面ロボットナビゲーションを実現するために,SLAMネットワークとナビゲーションアーキテクチャを導入する。 SLAM-netは、パーティクルフィルタに基づくSLAMアルゴリズムを微分可能な計算グラフにエンコードし、SLAMアルゴリズムを通じてバックプロパゲートすることでタスク指向のニューラルネットワークコンポーネントを学習する。 最終目的のためにすべてのモデルコンポーネントを一緒に最適化できるため、slam-netは困難な条件下で堅牢であることを学びます。 私たちは、実世界のRGBとRGB-Dデータセットの異なるHabitatプラットフォームで実験を行います。 SLAM-netは雑音条件下で広く適応したORB-SLAMよりも著しく優れていた。 当社のslam-netによるナビゲーションアーキテクチャは,habitat challenge 2020 pointnavタスクの最先端を,大きなマージン(37%から64%の成功)で改善しています。 プロジェクトウェブサイト: http://sites.google.com/view/slamnet

Simultaneous localization and mapping (SLAM) remains challenging for a number of downstream applications, such as visual robot navigation, because of rapid turns, featureless walls, and poor camera quality. We introduce the Differentiable SLAM Network (SLAM-net) along with a navigation architecture to enable planar robot navigation in previously unseen indoor environments. SLAM-net encodes a particle filter based SLAM algorithm in a differentiable computation graph, and learns task-oriented neural network components by backpropagating through the SLAM algorithm. Because it can optimize all model components jointly for the end-objective, SLAM-net learns to be robust in challenging conditions. We run experiments in the Habitat platform with different real-world RGB and RGB-D datasets. SLAM-net significantly outperforms the widely adapted ORB-SLAM in noisy conditions. Our navigation architecture with SLAM-net improves the state-of-the-art for the Habitat Challenge 2020 PointNav task by a large margin (37% to 64% success). Project website: http://sites.google.com/view/slamnet
翻訳日:2021-05-20 13:29:38 公開日:2021-05-19
# (参考訳) ELrオントロジーに基づくアクティブラーニングの概念と接続型クエリ

Actively Learning Concepts and Conjunctive Queries under ELr-Ontologies ( http://arxiv.org/abs/2105.08326v2 )

ライセンス: CC BY 4.0
Maurice Funk, Jean Christoph Jung, Carsten Lutz(参考訳) 本稿では, 論理ELrで定式化されたオントロジーの存在下で, 概念や問合せを学習する上での問題点を, 学習アルゴリズムがオラクル(ドメインエキスパートなど)を対話的にクエリすることのできる, 活発な学習のフレームワークであるAngluinを用いて検討する。 1) el-concepts, (2) symmetry-free eli-concepts, (3) chordal, symmetry-free, そしてbounded arityである結合クエリ(cqs)である。 いずれの場合も、学習者は、ABoxesと同値クエリに基づいて、そのクラスから与えられた概念/クエリがターゲットと同等であるかどうかを問うオラクルメンバーシップクエリにポーズすることができる。 (3) における有界アリティに対する制限は、同値クエリで非制限な CQ が認められると取り除かれる。 また,EL-concepts は ELI-ontology の存在下で学習可能な多項式クエリではないことを示す。

We consider the problem to learn a concept or a query in the presence of an ontology formulated in the description logic ELr, in Angluin's framework of active learning that allows the learning algorithm to interactively query an oracle (such as a domain expert). We show that the following can be learned in polynomial time: (1) EL-concepts, (2) symmetry-free ELI-concepts, and (3) conjunctive queries (CQs) that are chordal, symmetry-free, and of bounded arity. In all cases, the learner can pose to the oracle membership queries based on ABoxes and equivalence queries that ask whether a given concept/query from the considered class is equivalent to the target. The restriction to bounded arity in (3) can be removed when we admit unrestricted CQs in equivalence queries. We also show that EL-concepts are not polynomial query learnable in the presence of ELI-ontologies.
翻訳日:2021-05-20 13:10:00 公開日:2021-05-19
# Few-NERD: エンティティ認識データセット

Few-NERD: A Few-Shot Named Entity Recognition Dataset ( http://arxiv.org/abs/2105.07464v2 )

ライセンス: Link先を確認
Ning Ding, Guangwei Xu, Yulin Chen, Xiaobin Wang, Xu Han, Pengjun Xie, Hai-Tao Zheng, Zhiyuan Liu(参考訳) 近年,エンティティ認識(ner)のテーマを中心に多くの文献が登場しているが,実用的かつ難解な課題に注目したベンチマークデータはほとんど公開されていない。 現在のアプローチでは、既存の教師付きNERデータセットを収集し、経験的研究のために数ショット設定に再編成している。 これらの戦略は、通常、大まかなエンティティタイプを少数の例で認識することを目的としている。 本稿では,大まかな粒度と細粒度66の階層構造を持つ大規模人手用少数ショットNERデータセットであるFew-NERDを提案する。 Few-NERDはウィキペディアの188,238文で構成され、4,601,160語が含まれ、それぞれが文脈または2段階のエンティティタイプの一部として注釈付けされている。 私たちの知る限りでは、これが最初の数発のNERデータセットであり、人造NERデータセットとしては最大です。 我々は,モデルの一般化能力を包括的に評価するために,異なる段階のベンチマークタスクを構築した。 大規模な実験結果と分析により、Few-NERDは困難であり、さらなる研究が必要であることが示された。 Few-NERDはhttps://ningding97.github.io/fewnerd/で公開しています。

Recently, considerable literature has grown up around the theme of few-shot named entity recognition (NER), but little published benchmark data specifically focused on the practical and challenging task. Current approaches collect existing supervised NER datasets and re-organize them to the few-shot setting for empirical study. These strategies conventionally aim to recognize coarse-grained entity types with few examples, while in practice, most unseen entity types are fine-grained. In this paper, we present Few-NERD, a large-scale human-annotated few-shot NER dataset with a hierarchy of 8 coarse-grained and 66 fine-grained entity types. Few-NERD consists of 188,238 sentences from Wikipedia, 4,601,160 words are included and each is annotated as context or a part of a two-level entity type. To the best of our knowledge, this is the first few-shot NER dataset and the largest human-crafted NER dataset. We construct benchmark tasks with different emphases to comprehensively assess the generalization capability of models. Extensive empirical results and analysis show that Few-NERD is challenging and the problem requires further research. We make Few-NERD public at https://ningding97.github.io/fewnerd/.
翻訳日:2021-05-20 11:28:47 公開日:2021-05-19
# スタイル誘導型プランニングによるスタイリズドストーリー生成

Stylized Story Generation with Style-Guided Planning ( http://arxiv.org/abs/2105.08625v2 )

ライセンス: Link先を確認
Xiangzhe Kong, Jialiang Huang, Ziquan Tung, Jian Guan and Minlie Huang(参考訳) 現在のストーリーテリングシステムは、ナレーションスタイルを考慮せずにコヒーレントなプロットでストーリーを生成することに焦点を当てている。 そこで,本稿では,先進的な文脈を与えられたスペクティブスタイルで物語を生成する新しいタスク,スタイル化されたストーリージェネレーションを提案する。 この問題に対処するために,まず文体化されたキーワードを計画し,そのキーワードの誘導で全ストーリーを生成する新しい生成モデルを提案する。 さらに、生成したストーリーと特定スタイルの整合性を評価するために、2つの自動メトリクスを提案する。 実験では、ROCStoriesデータセット(Mostafazadeh et al., 2016)に基づいて、当社のモデルが制御可能であることを実証した。 本研究は,今後の研究におけるスタイリズドストーリー生成の展望を示す。

Current storytelling systems focus more ongenerating stories with coherent plots regard-less of the narration style, which is impor-tant for controllable text generation. There-fore, we propose a new task, stylized story gen-eration, namely generating stories with speci-fied style given a leading context. To tacklethe problem, we propose a novel generationmodel that first plans the stylized keywordsand then generates the whole story with theguidance of the keywords. Besides, we pro-pose two automatic metrics to evaluate theconsistency between the generated story andthe specified style. Experiments demonstratesthat our model can controllably generateemo-tion-driven orevent-driven stories based onthe ROCStories dataset (Mostafazadeh et al.,2016). Our study presents insights for stylizedstory generation in further research.
翻訳日:2021-05-20 11:28:26 公開日:2021-05-19
# スパースアクションタスクのためのsparsity prior regularized q-learning

Sparsity Prior Regularized Q-learning for Sparse Action Tasks ( http://arxiv.org/abs/2105.08666v2 )

ライセンス: Link先を確認
Jing-Cheng Pang, Tian Xu, Sheng-Yi Jiang, Yu-Ren Liu, Yang Yu(参考訳) 多くの意思決定タスクにおいて、特定のアクションは、銃術の「火」や株式取引の「買い」など、その頻度や総量によって制限される。 我々はそのような行動を「スパースアクション」と呼ぶ。 スパースアクションは、しばしば優れたパフォーマンスを達成する上で重要な役割を果たす。 しかしながら、emph{classical bellman update} によって推定されるそれらのq値は、通常、標本のスパース性のため、大きな推定誤差を被る。 emph{greedy} のポリシーは、バイアス付き Q-函数によって大きく誤解される可能性があり、スパース作用を積極的に行い、大きな準最適をもたらす。 本稿では,sparseアクションに低い確率を割り当てる参照分布を構築し,その参照分布に明示的な制約を持つ正規化対象を提案する。 さらに、正規化ベルマン演算子と正規化最適ポリシーを導出し、エラーの伝播を遅くし、エージェントがよりスパースアクションを取るよう誘導する。 実験の結果,本手法は,典型的なスパース動作タスクにおける最先端性能を実現する。

In many decision-making tasks, some specific actions are limited in their frequency or total amounts, such as "fire" in the gunfight game and "buy/sell" in the stock trading. We name such actions as "sparse action". Sparse action often plays a crucial role in achieving good performance. However, their Q-values, estimated by \emph{classical Bellman update}, usually suffer from a large estimation error due to the sparsity of their samples. The \emph{greedy} policy could be greatly misled by the biased Q-function and takes sparse action aggressively, which leads to a huge sub-optimality. This paper constructs a reference distribution that assigns a low probability to sparse action and proposes a regularized objective with an explicit constraint to the reference distribution. Furthermore, we derive a regularized Bellman operator and a regularized optimal policy that can slow down the propagation of error and guide the agent to take sparse action more carefully. The experiment results demonstrate that our method achieves state-of-the-art performance on typical sparse action tasks.
翻訳日:2021-05-20 11:28:12 公開日:2021-05-19
# 逐次独立メカニズムの高速・低速学習

Fast and Slow Learning of Recurrent Independent Mechanisms ( http://arxiv.org/abs/2105.08710v2 )

ライセンス: Link先を確認
Kanika Madan, Nan Rosemary Ke, Anirudh Goyal, Bernhard Sch\"olkopf, Yoshua Bengio(参考訳) 知識を交換可能な部品に分解することは、分布の変化がある場合に一般化の利点を約束する。 環境と相互作用する学習エージェントは、既存の知識の新たな組み合わせを必要とする状況に直面しやすい。 このような知識の分解は、分布外変化を体系的に一般化できる上で特に重要であると仮定する。 そこで本研究では,エージェントが必要とする知識の一部と報酬関数が定常的であり,タスク間で再利用可能な,特定のトレーニングフレームワークを提案する。 注意機構は、どのモジュールを現在のタスクに適応できるかを動的に選択し、選択したモジュールのパラメータは、学習者が経験する変化に直面すると迅速に変更でき、一方で注意機構のパラメータは安定してゆっくりと変化するメタパラメータとして動作する。 我々は,注意のボトルネックを通じて相互に疎通するモジュール群が捉えた知識の断片に着目した。 画像レベルの入力を伴う部分的に観測されたグリッドの世界におけるナビゲーションを含む強化学習装置において,提案方式のモジュール的側面をメタラーニングすることで,より高速な適応を実現することができる。 また,パラメータとメタパラメータの役割を逆転させることは,動的に選択されたモジュールを高速に適応するための特別な役割を示唆する。

Decomposing knowledge into interchangeable pieces promises a generalization advantage when there are changes in distribution. A learning agent interacting with its environment is likely to be faced with situations requiring novel combinations of existing pieces of knowledge. We hypothesize that such a decomposition of knowledge is particularly relevant for being able to generalize in a systematic manner to out-of-distribution changes. To study these ideas, we propose a particular training framework in which we assume that the pieces of knowledge an agent needs and its reward function are stationary and can be re-used across tasks. An attention mechanism dynamically selects which modules can be adapted to the current task, and the parameters of the selected modules are allowed to change quickly as the learner is confronted with variations in what it experiences, while the parameters of the attention mechanisms act as stable, slowly changing, meta-parameters. We focus on pieces of knowledge captured by an ensemble of modules sparsely communicating with each other via a bottleneck of attention. We find that meta-learning the modular aspects of the proposed system greatly helps in achieving faster adaptation in a reinforcement learning setup involving navigation in a partially observed grid world with image-level input. We also find that reversing the role of parameters and meta-parameters does not work nearly as well, suggesting a particular role for fast adaptation of the dynamically selected modules.
翻訳日:2021-05-20 11:27:51 公開日:2021-05-19
# E-Commerce Fresh Retailのマークダウン: 対実予測と多機能最適化アプローチ

Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and Multi-Period Optimization Approach ( http://arxiv.org/abs/2105.08313v2 )

ライセンス: Link先を確認
Junhao Hua, Ling Yan, Huan Xu, Cheng Yang(参考訳) 本稿では,大量の観測トランザクションデータを活用することで,非現実的予測と多周期価格最適化からなる,マークダウンのための新しいデータ駆動型かつ解釈可能な価格設定手法を提案する。 まず, 準パラメトリック構造モデルを構築し, 個々の価格弾性を学習し, 反事実需要を予測する。 この半パラメトリックモデルは、非パラメトリック機械学習モデルの予測可能性と経済モデルの解釈可能性の両方を活用する。 第2に,有限販売地平線上での消耗品全体の利益を最大化する多周期動的価格アルゴリズムを提案する。 決定論的需要を用いる従来のアプローチとは異なり、予測プロセスに必然的にランダム性を持つため、反事実的需要の不確かさをモデル化する。 確率モデルに基づいてマルコフ決定プロセスによる逐次価格戦略を導出し,それを解決するための2段階のアルゴリズムを設計する。 提案アルゴリズムは非常に効率的である。 指数関数から多項式への時間の複雑さを減少させる。 実験の結果,我々の価格アルゴリズムの利点が示され,提案したフレームワークは有名なeコマースの新鮮小売シナリオであるFreshippoにうまく展開されている。

In this paper, by leveraging abundant observational transaction data, we propose a novel data-driven and interpretable pricing approach for markdowns, consisting of counterfactual prediction and multi-period price optimization. Firstly, we build a semi-parametric structural model to learn individual price elasticity and predict counterfactual demand. This semi-parametric model takes advantage of both the predictability of nonparametric machine learning model and the interpretability of economic model. Secondly, we propose a multi-period dynamic pricing algorithm to maximize the overall profit of a perishable product over its finite selling horizon. Different with the traditional approaches that use the deterministic demand, we model the uncertainty of counterfactual demand since it inevitably has randomness in the prediction process. Based on the stochastic model, we derive a sequential pricing strategy by Markov decision process, and design a two-stage algorithm to solve it. The proposed algorithm is very efficient. It reduces the time complexity from exponential to polynomial. Experimental results show the advantages of our pricing algorithm, and the proposed framework has been successfully deployed to the well-known e-commerce fresh retail scenario - Freshippo.
翻訳日:2021-05-20 11:27:15 公開日:2021-05-19
# Exemplar-based Open-Set Panoptic Segmentation Network

Exemplar-Based Open-Set Panoptic Segmentation Network ( http://arxiv.org/abs/2105.08336v2 )

ライセンス: Link先を確認
Jaedong Hwang, Seoung Wug Oh, Joon-Young Lee, Bohyung Han(参考訳) 我々は、panoptic segmentationをopen-worldに拡張し、open-set panoptic segmentation (ops)タスクを導入する。 このタスクは、既知のクラスだけでなく、トレーニング中に認識されていない未知のクラスに対しても、単眼セグメンテーションを実行する必要がある。 タスクの実践的課題を調査し,既存のデータセットであるCOCO上にベンチマークを構築する。 さらに,実証理論に触発された新しいオープン・セット・パノプティクス・セグメンテーション・ネットワーク(EOPSN)を提案する。 提案手法は,クラスタ化によって識別され,疑似グラウンドルーツとして使用されるexemplarsに基づく新しいクラスを識別する。 各クラスのサイズは、クラスに関連する既存のクラスと類似性に基づいて、新しい例をマイニングすることによって増加する。 提案するベンチマークでeopsnを評価し,提案の有効性を実証する。 私たちの仕事の第一の目的は、オープンワールドのシナリオにおける認識にコミュニティの注意を引き付けることです。 我々のアルゴリズムの実装は、プロジェクトのWebページで利用可能である。

We extend panoptic segmentation to the open-world and introduce an open-set panoptic segmentation (OPS) task. This task requires performing panoptic segmentation for not only known classes but also unknown ones that have not been acknowledged during training. We investigate the practical challenges of the task and construct a benchmark on top of an existing dataset, COCO. In addition, we propose a novel exemplar-based open-set panoptic segmentation network (EOPSN) inspired by exemplar theory. Our approach identifies a new class based on exemplars, which are identified by clustering and employed as pseudo-ground-truths. The size of each class increases by mining new exemplars based on the similarities to the existing ones associated with the class. We evaluate EOPSN on the proposed benchmark and demonstrate the effectiveness of our proposals. The primary goal of our work is to draw the attention of the community to the recognition in the open-world scenarios. The implementation of our algorithm is available on the project webpage: https://cv.snu.ac.kr/research/EOPSN.
翻訳日:2021-05-20 11:26:57 公開日:2021-05-19
# CCGベースのDisCoCatフレームワーク

A CCG-Based Version of the DisCoCat Framework ( http://arxiv.org/abs/2105.07720v2 )

ライセンス: Link先を確認
Richie Yeung, Dimitri Kartsaklis(参考訳) DisCoCatモデル(Coecke et al., 2010)は意味論のレベルで言語の構成的側面を研究する上で有用なツールであることが証明されているが、前グループ文法への強い依存は重要な制約を生じている。 本稿では,DisCoCat を Combinatory Categorial Grammar (CCG) から意味論のカテゴリへ変換することで,これらの問題を解決する。 まず、標準分類文法を二閉圏として表現し、すべての規則がカリーリング/アンカーリングとして出現し、その後、単語の意味をエンコードするコンパクト閉圏の対称性を利用して、置換誘導規則をモデル化する。 我々は,「不思議の国のアリス」を,コミュニティで利用できるコーパスであるDisCoCat形式に変換する手法の概念実証を行う。

While the DisCoCat model (Coecke et al., 2010) has been proved a valuable tool for studying compositional aspects of language at the level of semantics, its strong dependency on pregroup grammars poses important restrictions: first, it prevents large-scale experimentation due to the absence of a pregroup parser; and second, it limits the expressibility of the model to context-free grammars. In this paper we solve these problems by reformulating DisCoCat as a passage from Combinatory Categorial Grammar (CCG) to a category of semantics. We start by showing that standard categorial grammars can be expressed as a biclosed category, where all rules emerge as currying/uncurrying the identity; we then proceed to model permutation-inducing rules by exploiting the symmetry of the compact closed category encoding the word meaning. We provide a proof of concept for our method, converting "Alice in Wonderland" into DisCoCat form, a corpus that we make available to the community.
翻訳日:2021-05-20 11:26:43 公開日:2021-05-19
# DID-eFed: 分散IDサービスとしてのフェデレーション学習の実現

DID-eFed: Facilitating Federated Learning as a Service with Decentralized Identities ( http://arxiv.org/abs/2105.08671v2 )

ライセンス: Link先を確認
Jiahui Geng, Neel Kanwal, Martin Gilje Jaatun, Chunming Rong(参考訳) 私たちはビッグデータの時代に入り、人工知能応用の繁栄の「燃料」と考えられている。 eu一般データ保護規則(gdpr)の制定は、ビッグデータにおける個人のプライバシーに関する懸念を引き起こす。 フェデレートラーニング(FL)は、ユーザプライバシとデータの機密性要件に準拠したまま、複数のパーティ間で共有される高性能モデルを構築するのに役立つ機能的なソリューションとして現れます。 FLは、実アプリケーションで集中的に研究され、使用されているが、関心のあるサードパーティへのFLaaS(Federated Learning as a Service)としての展望と応用に関する研究は、まだ限られている。 本稿では,分散ID(DID)とスマートコントラクトによってFLが促進されるFLaaSシステム,DID-eFedを提案する。 didは当社のシステムにおいて、より柔軟で信頼性の高い分散アクセス管理を可能にします。 DID-eFedが病院や研究機関のFLaaSを可能にするシナリオについて述べる。

We have entered the era of big data, and it is considered to be the "fuel" for the flourishing of artificial intelligence applications. The enactment of the EU General Data Protection Regulation (GDPR) raises concerns about individuals' privacy in big data. Federated learning (FL) emerges as a functional solution that can help build high-performance models shared among multiple parties while still complying with user privacy and data confidentiality requirements. Although FL has been intensively studied and used in real applications, there is still limited research related to its prospects and applications as a FLaaS (Federated Learning as a Service) to interested 3rd parties. In this paper, we present a FLaaS system: DID-eFed, where FL is facilitated by decentralized identities (DID) and a smart contract. DID enables a more flexible and credible decentralized access management in our system, while the smart contract offers a frictionless and less error-prone process. We describe particularly the scenario where our DID-eFed enables the FLaaS among hospitals and research institutions.
翻訳日:2021-05-20 11:26:26 公開日:2021-05-19