このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200709となっている論文です。

PDF登録状況(公開日: 20200709)

TitleAuthorsAbstract論文公表日・翻訳日
# 3モード自発パラメトリックダウンコンバージョンにおける三成分系非ガウスエンタングルメント

Tripartite Genuine Non-Gaussian Entanglement in Three-Mode Spontaneous Parametric Downconversion ( http://arxiv.org/abs/2001.07050v2 )

ライセンス: Link先を確認
Andr\'es Agust\'i, C.W. Sandbo Chang, Fernando Quijandr\'ia, G\"oran Johansson, Christopher M. Wilson and Carlos Sab\'in(参考訳) 3モード自然パラメトリックダウンコンバージョン(SPDC)相互作用によって生成された状態は、2モードSPDC相互作用の組み合わせによって生成された他のパラダイム的3モードエンタングルド状態と異なる性質のトリパーティライトエンタングルを有することを示す。 2モードのSPDCは、2モードの量子相関に基づく標準基準で特徴付けられるガウス状態を生成するが、これらの基準は3モードのSPDCによって生成される絡みを捉えない。 3モード相関関数から構築した基準を用いて、3モードspdcの超伝導回路実装で最近生成された状態のクラスが、最近の文献の主張とは対照的に理想的に3成分の絡み合いを持つことを示す。 これらの基準は三重SPDCに適しているが、三重連続変数系における三重項絡みの基本的な2つの概念の存在を示す他の状態における三重項絡みの検出に失敗していることを示す。

We show that the states generated by a three-mode spontaneous parametric downconversion (SPDC) interaction Hamiltonian possess tripartite entanglement of a different nature to other paradigmatic three-mode entangled states generated by the combination of two-mode SPDCs interactions. While two-mode SPDC generates gaussian states whose entanglement can be characterized by standard criteria based on two-mode quantum correlations, these criteria fail to capture the entanglement generated by three-mode SPDC. We use criteria built from three-mode correlation functions to show that the class of states recently generated in a superconducting-circuit implementation of three-mode SPDC ideally have tripartite entanglement, contrary to recent claims in the literature. These criteria are suitable for triple SPDC but we show that they fail to detect tripartite entanglement in other states which are known to possess it, which illustrates the existence of two fundamentally different notions of tripartite entanglement in three-mode continuous variable systems.
翻訳日:2023-06-07 06:31:56 公開日:2020-07-09
# 非正規性によって保護されるエルミート零モード: pseudospectra の適用

Hermitian zero modes protected by nonnormality: Application of pseudospectra ( http://arxiv.org/abs/2005.01704v2 )

ライセンス: Link先を確認
Nobuyuki Okuma and Masatoshi Sato(参考訳) 近年,非エルミート的皮膚効果,非エルミート的ハミルトニアンの境界条件に対するスペクトルの強い依存,およびエルミート位相的絶縁体の境界零モードの間に直接関係があることが判明した。 一方、スペクトル理論の観点では、皮膚効果は非正規(非エルミート的)ハミルトニアンのスペクトルの不安定性とも解釈できる。 後者の解釈を以前の関係に適用し、一般エルミート格子系に対する量子異常を伴うゼロモードの理論を開発する。 我々の理論は、マヨラナ連鎖、非周期格子、長距離ホッピングシステムなど、幅広いシステムに適用できる。 エルミート系の完全なゼロモードと準ゼロモードを、非エルミート系のスペクトルと擬似スペクトルにそれぞれ関連付ける。 これらの零モードと準零モードは位相的保護がなくても摂動のクラスに対して頑健である。 このロバスト性は対応する非エルミート系の非正規性によって測定される。 また,そのようなゼロモードを格子系の図式表現を用いて明示的に構成する。 この理論は、非正規性保護零モードの存在と、トポロジカルおよび/または非エルミート物理学の道具としての非正規性および疑似スペクトルの有用性を明らかにする。

Recently, it was established that there exists a direct relation between the non-Hermitian skin effects, -strong dependence of spectra on boundary conditions for non-Hermitian Hamiltonians-, and boundary zero modes for Hermitian topological insulators. On the other hand, in terms of the spectral theory, the skin effects can also be interpreted as instability of spectra for nonnormal (non-Hermitian) Hamiltonians. Applying the latter interpretation to the former relation, we develop a theory of zero modes with quantum anomaly for general Hermitian lattice systems. Our theory is applicable to a wide range of systems: Majorana chains, non-periodic lattices, and long-range hopping systems. We relate exact zero modes and quasi-zero modes of a Hermitian system to spectra and pseudospectra of a non-Hermitian system, respectively. These zero and quasi-zero modes of a Hermitian system are robust against a class of perturbations even if there is no topological protection. The robustness is measured by nonnormality of the corresponding non-Hermitian system. We also present explicit construction of such zero modes by using a graphical representation of lattice systems. Our theory reveals the presence of nonnormality-protected zero modes, as well as the usefulness of the nonnormality and pseudospectra as tools for topological and/or non-Hermitian physics.
翻訳日:2023-05-21 05:03:32 公開日:2020-07-09
# 時間反転不変トポロジカル超伝導体における分数ジョセフソン効果の生存

Survival of the fractional Josephson effect in time-reversal-invariant topological superconductors ( http://arxiv.org/abs/2006.10772v2 )

ライセンス: Link先を確認
Christina Knapp, Aaron Chew, Jason Alicea(参考訳) 時間反転不変のトポロジカル超伝導体 (TRITOPS) ワイヤは、超伝導相差の周期性4\pi$でジョセフソン効果を媒介すると予測されたマヨラナ・クラマーズ対をホストしている。 時間-反転対称性を瞬時に保存する時間依存型「局所混合」摂動の存在下で三面体分数ジョセフソン効果を探索する。 具体的には、そのようなカップリングによってマヨルダナ・クラマーズ対が非普遍的にブレイディングされるように、ジョセフソン電流は、位相差が十分にスウィープされない限り、非周期的または2ドルの周期的になる(量子化する条件に依存する)。 さらに, トポロジカル超伝導体を$\mathcal{T}^2 = +1$時間反転対称性で解析し, ナノワイヤアレイで実験的に探ることのできる相互作用と局所混合との豊富な相互作用を明らかにする。

Time-reversal-invariant topological superconductor (TRITOPS) wires host Majorana Kramers pairs that have been predicted to mediate a fractional Josephson effect with $4\pi$ periodicity in the superconducting phase difference. We explore the TRITOPS fractional Josephson effect in the presence of time-dependent `local mixing' perturbations that instantaneously preserve time-reversal symmetry. Specifically, we show that just as such couplings render braiding of Majorana Kramers pairs non-universal, the Josephson current becomes either aperiodic or $2\pi$-periodic (depending on conditions that we quantify) unless the phase difference is swept sufficiently quickly. We further analyze topological superconductors with $\mathcal{T}^2 = +1$ time-reversal symmetry and reveal a rich interplay between interactions and local mixing that can be experimentally probed in nanowire arrays.
翻訳日:2023-05-13 13:25:01 公開日:2020-07-09
# 中間体を分極する:ボソン間のフェルミオン媒介相互作用

Polarizing the Medium: Fermion-Mediated Interactions between Bosons ( http://arxiv.org/abs/2007.00409v2 )

ライセンス: Link先を確認
Dong-Chen Zheng, Lin Wen, Chun-Rong Ye, and Renyuan Liao(参考訳) ボソンと偏光フェルミオンの均質な混合物を考える。 長い範囲と魅力的なフェルミオンを介するボソン間の相互作用はボソンの性質に劇的な影響を及ぼすことがわかった。 ボソンフェルミオン質量比とボソンフェルミオン散乱パラメータで表される位相図を構築した。 安定な混合領域と、相分離に向かう不安定領域からなる。 安定混合相では、集合長波長励起は無限の寿命で良好に振る舞うか、ランダウ減衰により寿命が有限になる。 弱相互作用したボソンの性質に対する誘導相互作用の影響について検討する。 誘起相互作用は、崩壊に対するボソン間の反発を増大させるだけでなく、量子枯渇を抑制することによって超流動状態の安定性を高めることが判明した。

We consider a homogeneous mixture of bosons and polarized fermions. We find that long-range and attractive fermion-mediated interactions between bosons have dramatic effects on the properties of the bosons. We construct the phase diagram spanned by boson-fermion mass ratio and boson-fermion scattering parameter. It consists of stable region of mixing and unstable region toward phase separation. In stable mixing phase, the collective long-wavelength excitations can either be well-behaved with infinite lifetime or be finite in lifetime suffered from the Landau damping. We examine the effects of the induced interaction on the properties of weakly interacting bosons. It turns out that the induced interaction not only enhances the repulsion between the bosons against collapse but also enhances the stability of the superfluid state by suppressing quantum depletion.
翻訳日:2023-05-11 23:09:49 公開日:2020-07-09
# 2d-gridとdyck言語の量子下界と上界

Quantum Lower and Upper Bounds for 2D-Grid and Dyck Language ( http://arxiv.org/abs/2007.03402v2 )

ライセンス: Link先を確認
Andris Ambainis, Kaspars Balodis, J\=anis Iraids, Kamil Khadiev, Vladislavs K\c{l}evickis, Kri\v{s}j\=anis Pr\=usis, Yixin Shen, Juris Smotrovs, Jevg\=enijs Vihrovs(参考訳) 2つの問題の量子クエリ複雑性について検討する。 まず、括弧列が適切にバランスのとれたもの(ダイク語)であり、深さが少なくとも$k$であるかどうかを決定する問題を考える。 これを$Dyck_{k,n}$ problemと呼ぶ。 我々は$\Omega(c^k \sqrt{n})$の低い境界を証明し、この問題の複雑さが指数関数的に$k$で増加することを示す。 ここで$n$は単語の長さです。 k$ が定数である場合、これはスターフリー言語の典型的な例として興味深いが、これはarronsonらによって最近構築された驚くべき $\tilde{o}(\sqrt{n})$ クエリ量子アルゴリズムである。 それらの証明は一般的なアルゴリズムを生み出しない。 k$ が定数でないとき、$Dyck_{k,n}$ は文脈自由ではない。 我々は、$O\left(\sqrt{n}(\log{n})^{0.5k}\right)$Dyck_{k,n}$ for all $k$というアルゴリズムを与える。 これは三項上界$n$ for $k=o\left(\frac{\log(n)}{\log\log n}\right)$よりもよい。 第二に、グリッドのエッジのいくつかが欠落している場合、グリッドグラフ上の2次元の接続問題を考える。 平衡括弧」問題をグリッドに埋め込むことで、有向2Dグリッドに対して$\Omega(n^{1.5-\epsilon})$、無向2Dグリッドに対して$\Omega(n^{2-\epsilon})$の低い境界を示す。 有向問題は、よく知られた編集距離問題に通常使用されるものを含む古典的動的プログラミング戦略のクラスのためのブラックボックスモデルとして興味深い。 また、この結果の2次元以上への一般化も示している。

We study the quantum query complexity of two problems. First, we consider the problem of determining if a sequence of parentheses is a properly balanced one (a Dyck word), with a depth of at most $k$. We call this the $Dyck_{k,n}$ problem. We prove a lower bound of $\Omega(c^k \sqrt{n})$, showing that the complexity of this problem increases exponentially in $k$. Here $n$ is the length of the word. When $k$ is a constant, this is interesting as a representative example of star-free languages for which a surprising $\tilde{O}(\sqrt{n})$ query quantum algorithm was recently constructed by Aaronson et al. Their proof does not give rise to a general algorithm. When $k$ is not a constant, $Dyck_{k,n}$ is not context-free. We give an algorithm with $O\left(\sqrt{n}(\log{n})^{0.5k}\right)$ quantum queries for $Dyck_{k,n}$ for all $k$. This is better than the trival upper bound $n$ for $k=o\left(\frac{\log(n)}{\log\log n}\right)$. Second, we consider connectivity problems on grid graphs in 2 dimensions, if some of the edges of the grid may be missing. By embedding the "balanced parentheses" problem into the grid, we show a lower bound of $\Omega(n^{1.5-\epsilon})$ for the directed 2D grid and $\Omega(n^{2-\epsilon})$ for the undirected 2D grid. The directed problem is interesting as a black-box model for a class of classical dynamic programming strategies including the one that is usually used for the well-known edit distance problem. We also show a generalization of this result to more than 2 dimensions.
翻訳日:2023-05-11 03:53:04 公開日:2020-07-09
# 相対論的多体系における量子相転移の古典的、半古典的、量子的シグネチャ

Classical, semiclassical and quantum signatures of quantum phase transitions in a (pseudo) relativistic many-body system ( http://arxiv.org/abs/2007.04650v1 )

ライセンス: Link先を確認
Maximilian Nitsch, Benjamin Geiger, Klaus Richter, Juan Diego Urbina(参考訳) 我々は、魅力的な1次元ボソニックガス中の明るいソリトンの形成によって引き起こされる有名な量子相転移の(擬)相対論的スピン依存アナログを同定する。 この新たなシナリオでは、線形分散と系のボソニックな性質が同時に存在するため、遷移が起こるエネルギー領域の選択に特別な注意を払わなければならない。 それでも、スケールの重要な断熱分離と広範な数値対角化によって同定され、遷移を記述する適切な有効モデルが見つかる。 この有効モデルに基づく対応する平均場解析は、広範囲な数値シミュレーションと比較して量子相転移の位置を正確に予測する。 さらに、有限サイズの前駆体から熱力学限界における鋭い量子相転移へのアプローチを特徴付ける動的指数を数値的に検討する。

We identify a (pseudo) relativistic spin-dependent analogue of the celebrated quantum phase transition driven by the formation of a bright soliton in attractive one-dimensional bosonic gases. In this new scenario, due to the simultaneous existence of the linear dispersion and the bosonic nature of the system, special care must be taken with the choice of energy region where the transition takes place. Still, due to a crucial adiabatic separation of scales, and identified through extensive numerical diagonalization, a suitable effective model describing the transition is found. The corresponding mean-field analysis based on this effective model provides accurate predictions for the location of the quantum phase transition when compared against extensive numerical simulations. Furthermore, we numerically investigate the dynamical exponents characterizing the approach from its finite-size precursors to the sharp quantum phase transition in the thermodynamic limit.
翻訳日:2023-05-10 21:35:39 公開日:2020-07-09
# 放物型および超放物型$\mathcal{pt}$-symmetric non-hermitianシステムにおける非断熱遷移

Non-adiabatic transitions in parabolic and super-parabolic $\mathcal{PT}$-symmetric non-Hermitian systems ( http://arxiv.org/abs/2007.04591v1 )

ライセンス: Link先を確認
Chon-Fai Kam and Yang Chen(参考訳) 複素パラメータ空間のスペクトル縮退点である例外点は、非エルミート量子系の基本である。 例外点の存在下での非エルミート系の力学は、エルミート系とは大きく異なる。 ここでは非エルミート系 $\mathcal{p}\mathcal{t}$-symmetric における非断熱遷移について検討する。 我々は,例外点によって分離された伝送動力学を同一視し,非断熱伝達確率の解析近似式を導出する。 我々は、$\mathcal{P}\mathcal{T}$-symmetric non-Hermitian one-dimensional tight-binding optical waveguide latticeを用いて実験的実現の可能性について議論する。

Exceptional points, the spectral degeneracy points in the complex parameter space, are fundamental to non-Hermitian quantum systems. The dynamics of non-Hermitian systems in the presence of exceptional points differ significantly from those of Hermitian ones. Here we investigate non-adiabatic transitions in non-Hermitian $\mathcal{P}\mathcal{T}$-symmetric systems, in which the exceptional points are driven through at finite speed which are quadratic or cubic functions of time. We identity different transmission dynamics separated by exceptional points, and derive analytical approximate formulas for the non-adiabatic transmission probabilities. We discuss possible experimental realizations with a $\mathcal{P}\mathcal{T}$-symmetric non-Hermitian one-dimensional tight-binding optical waveguide lattice.
翻訳日:2023-05-10 21:35:08 公開日:2020-07-09
# 機械学習アルゴリズムを用いた1次元離散時間量子ウォークパラメータの推定

Estimation of one-dimensional discrete-time quantum walk parameters by using machine learning algorithms ( http://arxiv.org/abs/2007.04572v1 )

ライセンス: Link先を確認
Parth Rajauria, Prateek Chawla, C. M. Chandrashekar(参考訳) コインパラメータの推定は、量子ウォークを用いた量子シミュレーションのためのより堅牢なスキームを実装する問題において重要な部分である。 本稿では,1次元離散時間量子ウォーク進化に使用される量子コインパラメータを,確率分布の機械学習アルゴリズムを用いて推定する。 私たちが実装したモデルでは、これらの進化パラメータを高い精度で推定できることを示す。 同時に複数のパラメータを予測できるディープラーニングモデルも実装しています。 離散時間量子ウォークは量子シミュレータとして使用できるため、シミュレーション中の量子システムの確率分布から量子ウォークパラメータを外挿する場合、これらのモデルは重要となる。

Estimation of the coin parameter(s) is an important part of the problem of implementing more robust schemes for quantum simulation using quantum walks. We present the estimation of the quantum coin parameter used for one-dimensional discrete-time quantum walk evolution using machine learning algorithms on their probability distributions. We show that the models we have implemented are able to estimate these evolution parameters to a good accuracy level. We also implement a deep learning model that is able to predict multiple parameters simultaneously. Since discrete-time quantum walks can be used as quantum simulators, these models become important when extrapolating the quantum walk parameters from the probability distributions of the quantum system that is being simulated.
翻訳日:2023-05-10 21:34:37 公開日:2020-07-09
# 中性一元論、パースペクティビズム、量子双対論:エッセイ

Neutral monism, perspectivism and the quantum dualism: An essay ( http://arxiv.org/abs/2007.04489v1 )

ライセンス: Link先を確認
Badis Ydri(参考訳) wigner-von neumann 解釈における量子力学について述べる。 これは特徴的である 1)情報的中立的一元論に統一された物質と意識の量子双対論 2)コペンハーゲン解釈と多世界形式論の相補性に拡張された量子パースペクティビズム。 3)ライプニッツ並列主義と類似する心理物理学的因果閉鎖 4)量子ソリプシズム、すなわち、意識的な観察が行われるまで古典状態が潜在的に存在しうる現実。

Quantum mechanics in the Wigner-von Neumann interpretation is presented. This is characterized by 1) a quantum dualism between matter and consciousness unified within an informational neutral monism, 2) a quantum perspectivism which is extended to a complementarity between the Copenhagen interpretation and the many-worlds formalism, 3) a psychophysical causal closure akin to Leibniz parallelism and 4) a quantum solipsism, i.e. a reality in which classical states are only potentially-existing until a conscious observation is made.
翻訳日:2023-05-10 21:33:55 公開日:2020-07-09
# コヒーレンス・ド・ブロイ波の観測

Observations of coherence de Broglie waves ( http://arxiv.org/abs/2007.04738v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) ビームスプリッター上の2モードの光子対相互作用によるフォトニック・デ・ブロイ波(PBW)は、古典的な手段1-4では得られない純粋量子特性を示す。 過去数十年間、PBWは量子メトロジー5-13と量子センシング14-25のために集中的に研究されてきたが、その実装は高次NOON状態生成の困難のために限られている。 近年、pbwsのコヒーレンスバージョン、いわゆるコヒーレンス・ド・ブロイ波(cbws)が、非対称結合マッハ・ツェンダー干渉計(mzi)26の純粋古典的構造において提案されている。 PBWとは異なり、CBWの量子性は結合されたMZIのカスケード量子重ね合わせに由来する。 ここでは、CBWsの最初の観測は、純粋な古典的な形態で示され、高次エンタングルド光子によって制限された従来のPBWを克服するコヒーレンス量子メートル法における潜在的な応用について論じられる。 CBWの量子重ね合わせに基づく非古典的特徴を理解するために,不斉位相結合がCBWの鍵パラメータとなる様々な違反試験を行う。

Photonic de Broglie waves (PBWs) via two-mode entangled photon pair interactions on a beam splitter show a pure quantum feature which cannot be obtained by classical means1-4. Although PBWs have been intensively studied for quantum metrology5-13 and quantum sensing14-25 over the last several decades, their implementation has been limited due to difficulties of high-order NOON state generation4. Recently a coherence version of PBWs, the so-called coherence de Broglie waves (CBWs), has been proposed in a pure classical regime of an asymmetrically coupled Mach-Zehnder interferometer (MZI)26. Unlike PBWs, the quantumness of CBWs originates from the cascaded quantum superposition of the coupled MZI. Here, the first CBWs observation is presented in a pure classical regime and discussed for its potential applications in coherence quantum metrology to overcome conventional PBWs limited by higher-order entangled photons. To understand the quantum superposition-based nonclassical features in CBWs, various violation tests are also performed, where asymmetrical phase coupling is the key parameter for CBWs.
翻訳日:2023-05-10 21:25:39 公開日:2020-07-09
# 並列結合二重量子ドットによる熱整流と負差熱伝導率

Thermal rectification and negative differential thermal conductivity based on a parallel-coupled double quantum-dot ( http://arxiv.org/abs/2007.04729v1 )

ライセンス: Link先を確認
Yanchao Zhang and Shanhe Su(参考訳) クーロン封鎖状態における2つの貯水池に接続された並列結合二重量子ドット系の熱流輸送特性について検討した。 本システムでは, 温度補正と負差熱コンダクタンス(NDTC)の影響を実証し, 温度補正とNDTCに及ぼすエネルギーレベル差とクーロン相互作用の影響を解析した。 このシステムは,非対称性係数が高められた場合,高い熱改質率とNDTCが得られることがわかった。

We investigate the heat flow transport properties of a parallel-coupled double quantum-dot system connected to two reservoirs with a temperature bias in the Coulomb blockade regime. We demonstrate that the effects of thermal rectification and negative differential thermal conductance (NDTC) exist in this system and analyze the influences of energy level difference and Coulomb interaction on the thermal rectification and NDTC. We find that this system can achieve a high thermal rectification ratio and NDTC when the asymmetry factor of the system is enhanced.
翻訳日:2023-05-10 21:25:15 公開日:2020-07-09
# LEAN原則のビジネスプロセス改善への応用--ラトビアIT企業を事例として

Application of LEAN Principles to Improve Business Processes: a Case Study in Latvian IT Company ( http://arxiv.org/abs/2007.04696v1 )

ライセンス: Link先を確認
Anastasija Nikiforova, Zane Bicevska(参考訳) この研究は、典型的なIT企業のビジネスプロセスにLEAN原則を適用します。 この記事では、LEANの原則がアプリケーションの利点と欠点を増幅していることを論じる。 著者らは、LeAN原則をIT企業のビジネスプロセスとワークフロー効率の改善可能性を特定するツールとして使うことを提案している。 ケーススタディでは、特定のラトビアIT企業のビジネスプロセスでLEAN原則の実装が実証されています。 得られた結果と結論は、他のIT企業のプロジェクトにおけるLEAN原則とメソッドの有意義で成功した応用に利用できる。

The research deals with application of the LEAN principles to business processes of a typical IT company. The paper discusses LEAN principles amplifying advantages and shortcomings of their application. The authors suggest use of the LEAN principles as a tool to identify improvement potential for IT company's business processes and work-flow efficiency. During a case study the implementation of LEAN principles has been exemplified in business processes of a particular Latvian IT company. The obtained results and conclusions can be used for meaningful and successful application of LEAN principles and methods in projects of other IT companies.
翻訳日:2023-05-10 21:24:29 公開日:2020-07-09
# 漏れ除去演算子の実験的実装

Experimental implementation of leakage elimination operators ( http://arxiv.org/abs/2007.04694v1 )

ライセンス: Link先を確認
Beatriz Garcia Markaida, Lian-Ao Wu(参考訳) デコヒーレンスによって引き起こされるリークエラーは、物理的または論理的キュービットを他のシステムレベルに結合することで損傷する可能性がある。 本稿では、このアンダーマイニングを減らすことを目的としたLeakage Elimination Operators (LEOs) の初の実験的実装について報告する。 ibmのクラウド量子コンピュータを用いて、2量子および3量子ビットヒルベルト空間における部分空間の3つの応用可能な例を研究し、leosがリークを著しく抑制していることを発見した。

Decoherence-induced leakage errors can potentially damage physical or logical qubits by coupling them to other system levels. Here we report the first experimental implementation of Leakage Elimination Operators (LEOs) that aims to reduce this undermining, and that can be applied alongside universal quantum computing. Using IBM's cloud quantum computer, we have studied three potentially applicable examples of subspaces in two- and three-qubit Hilbert spaces and found that the LEOs significantly suppress leakage.
翻訳日:2023-05-10 21:24:21 公開日:2020-07-09
# 崩壊点における2光子ラビ模型の境界状態

Bound states of two-photon Rabi model at the collapse point ( http://arxiv.org/abs/2007.04664v1 )

ライセンス: Link先を確認
Chan Ching Kwan(参考訳) 本稿では、2光子量子ラビ模型の崩壊点における新しい境界状態の存在の証明を示す。 2光子ラビモデルは、非線形光-物質相互作用における重要な役割だけでなく、「スペクトル崩壊」と呼ばれる多くのエネルギーレベルの縮退過程の展示にも興味深い。 2光子消滅と生成作用素のスクイーズ特性は、エネルギー分割項$\omega_0$を使わずによく研究されるこの現象の起源である。 しかしながら、多くの数値的な研究は、$\omega_0$の存在により、いくつかの低レベルの孤立状態が存在する一方で、他の高エネルギー状態は$E=-\frac{\omega}{2}$に崩壊し、不完全崩壊として知られる。 実空間における固有値方程式から、シュロディンガー方程式に類似した二階微分方程式の対が崩壊点で導かれる。 これらの微分方程式は、スピンスリッティング $\omega_0$ と、それらの境界状態を生成するより良い数値的方法の存在により、{e=-\frac{\omega}{2}$ 以下の孤立境界状態の存在を説明する。

This paper presents a proof of the existence of novel bound states of the two-photon quantum Rabi model at the collapse point. The two-photon Rabi model is interesting not only for its important role on non-linear light-matter interaction, but also for the exhibition of many-energy-levels degenerating process called the "spectral collapse". The squeezing property of the two-photon annihilation and creation operators is the origin for this phenomenon which is well studied without the energy-slitting term $\omega_0$. However, many numerical studies have pointed out that with the presence of $\omega_0$ , some low-level isolated states exist while other high energy states collapse to $E=-\frac{\omega}{2}$, which known as incomplete spectral collapse. From the eigenvalue equation in real space, pair of second order differential equations, which are similarly to the Schrodinger equation, are derived at the collapse point. These differential equations provide explanation to the existence of isolated bound states below $E=-\frac{\omega}{2}$ with the presence of the spin slitting $\omega_0$ and better numerical method to generate those bound states.
翻訳日:2023-05-10 21:24:12 公開日:2020-07-09
# 精密原子干渉計のための相互作用量子混合物

Interacting quantum mixtures for precision atom interferometry ( http://arxiv.org/abs/2007.05007v1 )

ライセンス: Link先を確認
Robin Corgier (1 and 2), Sina Loriani (1), Holger Ahlers (1), Katerine Posso-Trujillo (1), Christian Schubert (1), Ernst M. Rasel (1), Eric Charron (2), Naceur Gaaloul (1) ((1) Institut fur Quantenoptik, Leibniz Universitat Hannover, Germany, (2) Universit\'e Paris-Saclay, CNRS, Institut des Sciences Mol\'eculaires d'Orsay, Paris)(参考訳) 本稿では,数秒のドリフト時間を持つ差分原子干渉計の入力に適した二元量子混合物のソースエンジニアリング概念を提案する。 混合系の非線形力学を解くため、一連のスケーリングアプローチ方程式を開発し、グロス=ピタエフスキー方程式を結合した系の1つと対比する妥当性を検証する。 このスケーリングアプローチは、単一の種に一般的に使用される標準的なアプローチの一般化である。 その有効範囲は種内および種間相互作用レジームに関して議論されている。 15pk以下の超低速運動膨張エネルギーを持つ2重アンサンブルを同時に作成する多段非線形原子レンズ配列を提案する。 本手法は、高精度原子干渉法において系統的な効果である波面収差を緩和する利点を有する。

We present a source engineering concept for a binary quantum mixture suitable as input for differential, precision atom interferometry with drift times of several seconds. To solve the non-linear dynamics of the mixture, we develop a set of scaling approach equations and verify their validity contrasting it to the one of a system of coupled Gross-Pitaevskii equations. This scaling approach is a generalization of the standard approach commonly used for single species. Its validity range is discussed with respect to intra- and inter-species interaction regimes. We propose a multi-stage, non-linear atomic lens sequence to simultaneously create dual ensembles with ultra-slow kinetic expansion energies, below 15 pK. Our scheme has the advantage of mitigating wave front aberrations, a leading systematic effect in precision atom interferometry.
翻訳日:2023-05-10 21:17:12 公開日:2020-07-09
# サファイア上のニオブ酸リチウム薄膜上のギガヘルツ音波集積回路

Gigahertz phononic integrated circuits on thin-film lithium niobate on sapphire ( http://arxiv.org/abs/2007.04961v1 )

ライセンス: Link先を確認
Felix M. Mayor, Wentao Jiang, Christopher J. Sarabalis, Timothy P. McKenna, Jeremy D. Witmer, Amir H. Safavi-Naeini(参考訳) 音響装置は古典的情報処理において重要な役割を果たす。 機械波の速度と損失の減少により、無線およびマイクロ波周波数での電気信号の遅延、フィルタリング、保存のためのコンパクトで効率的な要素が実現される。 チップ上のフォノンの伝搬をより良く制御する方法を見つけることは、より大規模なフォノン回路やシステムを実現するための重要なステップである。 我々は, サファイア上のニオブ酸リチウム薄膜における強い圧電効果を利用して, インデックス誘導のフォノニックアナログによるバルクへの漏洩を免れる導波路を励起する, 集積光工学の数十年にわたる進歩に触発されたプラットフォームを提案する。 我々は、50オームの効率の良いトランスデューサを示し、1ミクロン幅の機械導波路をこのプラットフォームのキービルディングブロックとして案内する。 これらの部品を組み合わせることで,音波遅延線路,レーストラック共振器,蛇行導波路を実現する。 新興量子技術に対するこのプラットフォームの将来性を評価するため、低温での損失を特徴付け、4ケルビンで50,000のオーダーで品質要因を測定する。 最後に、これらの回路における音波4波混合を実演し、非線形係数を測定し、関連するパラメトリックプロセスに必要な電力の推定を行う。

Acoustic devices play an important role in classical information processing. The slower speed and lower losses of mechanical waves enable compact and efficient elements for delaying, filtering, and storing of electric signals at radio and microwave frequencies. Discovering ways of better controlling the propagation of phonons on a chip is an important step towards enabling larger scale phononic circuits and systems. We present a platform, inspired by decades of advances in integrated photonics, that utilizes the strong piezoelectric effect in a thin film of lithium niobate on sapphire to excite guided acoustic waves immune from leakage into the bulk due to the phononic analogue of index-guiding. We demonstrate an efficient transducer matched to 50 ohm and guiding within a 1-micron wide mechanical waveguide as key building blocks of this platform. Putting these components together, we realize acoustic delay lines, racetrack resonators, and meander line waveguides for sensing applications. To evaluate the promise of this platform for emerging quantum technologies, we characterize losses at low temperature and measure quality factors on the order of 50,000 at 4 kelvin. Finally, we demonstrate phononic four-wave mixing in these circuits and measure the nonlinear coefficients to provide estimates of the power needed for relevant parametric processes.
翻訳日:2023-05-10 21:16:34 公開日:2020-07-09
# 次元ボース・アインシュタイン凝縮体におけるボース・ポーラロンの量子力学

Quantum dynamics of Bose-polaron in a $d$-dimensional Bose Einstein condensate ( http://arxiv.org/abs/2007.04925v1 )

ライセンス: Link先を確認
M. Miskeen Khan, H. Ter\c{c}as, J. T. Mendon\c{c}a, J. Wehr, C. Charalambous, M. Lewenstein, M. A. Garcia-March(参考訳) ボース・アインシュタイン凝縮体に没入した不純物原子の量子運動を任意の次元で研究する。 ボース・アインシュタイン凝縮体のボゴリューボフ励起は、不純物のボソニック浴として働く。 我々は、系の量子力学を記述する$d$-dimensional langevin方程式と、全一般性におけるスペクトル密度を記述する関連する一般化テンソルの詳細な導出を示す。 不純物が捕捉されない場合、平均平方変位を計算し、運動が超拡散的であることを示す。 また, 温度制限値の超拡散係数についても明らかにした。 後者の場合、この係数の最大値はすべての次元において同じである。 また、平均エネルギーの挙動を研究し、その結果を様々な次元で比較する。 閉じ込められた場合, スクイージングを調べた結果, より強い位置スクイージングが低次元で得られることがわかった。 粒子の運動の非マルコビアン性は定量化され、次元によって増加する。

We study the quantum motion of an impurity atom immersed in a Bose Einstein condensate in arbitrary dimension. The Bogoliubov excitations of the Bose Einstein condensate act as a bosonic bath for the impurity. We present a detailed derivation of the $d$-dimensional Langevin equations that describe the quantum dynamics of the system, and of the associated generalized tensor that describes the spectral density in the full generality. When the impurity is not trapped, we calculate the mean square displacement, showing that the motion is super diffusive. We obtain also explicit expressions for the super diffusive coefficient in the small and large temperature limits. We find that, in the latter case, the maximal value of this coefficient is the same in all dimensions. We study also the behaviour of the average energy and compare the results for various dimensions. In the trapped case, we study squeezing and find that the stronger position squeezing can be obtained in lower dimensions. We quantify the non-Markovianity of the particle's motion, and find that it increases with dimensionality.
翻訳日:2023-05-10 21:16:12 公開日:2020-07-09
# 混合学習システムのためのGUIDE

GUIDE for a blended learning system ( http://arxiv.org/abs/2007.04912v1 )

ライセンス: Link先を確認
Mokhtar Ben Henda(参考訳) このガイドは、学士号、修士号、博士号の混合学習システムを構築するプロジェクトにおいて、CONFRASIE会員大学(太平洋アジアにおけるAUF会員会議)の運用手段として提案されている。 実装戦略の定義から結果の評価に至るまで、ブレンド学習システムを運用する完全なプロセスに対応する部分で構成されている。 このガイドは、遠隔学習の概念的および理論的基礎だけでなく、既存の対面カリキュラムでブレンド学習をどのように実装するかに関する方法論的および手続き的ヒントや推奨もカバーしている。 混合学習カリキュラムの開発、監視、評価のための教育的、技術的、方法論的な決定を行うためのガイダンス文書として、ICTベースのプロジェクトのリーダーに役立てることができる。 このガイドは、教育スキルans=dサービスに関するさらなる教材とガイドラインを提供する他の標準、ツール、ソフトウェアマニュアルによって拡張することができる。

This guide is proposed as an operational instrument for CONFRASIE member universities (Regional Rectors' Conference of AUF member institutions in Pacific-Asia) in their projects to set up a blended learning system for bachelor's, Master's and Doctorate degrees. It is structured in sections corresponding to a complete process of operationalizing a blended learning system, from the definition of an implementation strategy to the assessment of results. This guide covers also conceptual and theoretical fundamentals of distance learning as well as methodological and procedural tips and recommendations on how to implement blended learning in an existing face-to-face curriculum. It can serve for leaders of educational ICT-based projects as a guidance document to take pedagogical, technological and methodological decisions for the development, monitoring and assessment of a blended learning curricula. This guide can be augmented by other standards, tool and software manuals offering further training materials and guidelines on educational skills ans=d services.
翻訳日:2023-05-10 21:15:56 公開日:2020-07-09
# 光機械加速度計によるベクトル暗黒物質の探索

Searching for vector dark matter with an optomechanical accelerometer ( http://arxiv.org/abs/2007.04899v1 )

ライセンス: Link先を確認
Jack Manley, Mitul Dey Chowdhury, Daniel Grin, Swati Singh, and Dalziel J. Wilson(参考訳) 超軽量ダークマターの共振検出器として光機械加速度計の利用を検討する。 具体的な例として、ベリリウムミラーに固定された窒化ケイ素膜に基づいて光学キャビティを形成する検出器について述べる。 異なる材料を使用すると、バリオン(B)とレプトン(L)の電荷に比例する力にアクセスでき、これはベクトルダークマター粒子(ダーク光子)の結合チャネルであると考えられている。 一方、空洞は量子制限変位測定へのアクセスを提供する。 10mKに事前冷却されたセンチメートルスケールの膜の場合、ベクトルB-Lダークマターに対する感度は、E\"{o}t-Wash実験の10kHz付近の分帯域幅$\sim 0.1\%$(粒子質量10^{-10}$eV/c$^2$)を超えることができる。 我々の分析は、浮遊粒子などの代替システムに変換でき、新しいテーブルトップ実験の可能性も示唆されている。

We consider using optomechanical accelerometers as resonant detectors for ultralight dark matter. As a concrete example, we describe a detector based on a silicon nitride membrane fixed to a beryllium mirror, forming an optical cavity. The use of different materials gives access to forces proportional to baryon (B) and lepton (L) charge, which are believed to be coupling channels for vector dark matter particles ("dark photons"). The cavity meanwhile provides access to quantum-limited displacement measurements. For a centimeter-scale membrane pre-cooled to 10 mK, we argue that sensitivity to vector B-L dark matter can exceed that of the E\"{o}t-Wash experiment in integration times of minutes, over a fractional bandwidth of $\sim 0.1\%$ near 10 kHz (corresponding to a particle mass of $10^{-10}$eV/c$^2$). Our analysis can be translated to alternative systems such as levitated particles, and suggests the possibility of a new generation of table-top experiments.
翻訳日:2023-05-10 21:15:24 公開日:2020-07-09
# 偏光光学のみを用いたsagnac型エンタングル光子源

Sagnac-type entangled photon source using only conventional polarization optics ( http://arxiv.org/abs/2007.05095v1 )

ライセンス: Link先を確認
Youn Seok Lee (1), Mengyu Xie (1 and 2), Ramy Tannous (1) and Thomas Jennewein (1) ((1) Institute for quantum computing, University of Waterloo, (2) State Key Laboratory of Low-Dimensional Quantum Physics, Tsinghua University)(参考訳) サニャック干渉計とマッハツェンダー干渉計を組み合わせた偏光子源の設計と実装を行った。 新しい多波長偏光光学は必要としないが、広い波長範囲で優れた偏光品質と位相安定性を有する。 偏光維持ファイバの4波混合による764nmと1221nmの波長での偏光エンタングル光子パイアのパルス発生を実験的に実現するために,標準商用光学のみを用いた干渉計を実証した。 偏光エンタングルメントは、生の一致数から95.5%の可視性を持つ偏光相関測定と、s=2.70\pm0.04$のchsh不等式違反によって検証された。 長期の相安定性は, 活性相安定性のない約1時間の積分時間に対して8$^\circ$の偏差が特徴である。

We designed and implemented a novel combination of a Sagnac-interferometer with a Mach-Zehnder interferometer for a source of polarization-entangled photons. The new versatile configuration does not require multi-wavelength polarization optics, yet it performs with a good polarization quality and phase-stability over a wide wavelength range. We demonstrate the interferometer using only standard commercial optics to experimentally realize the pulsed generation of polarization-entangled photon-pairs at wavelengths of 764nm and 1221nm via type-I spontaneous four-wave mixing in a polarization-maintaining fiber. Polarization entanglement was verified by a polarization-correlation measurement with a visibility of 95.5% from raw coincidence counts and the violation of the Clauser-Horne-Shimony-Holt (CHSH) inequality with $S=2.70\pm0.04$. The long-term phase-stability was characterized by an Allan deviation of 8$^\circ$ over an integration time of about 1 hour with no active phase-stabilization.
翻訳日:2023-05-10 21:07:48 公開日:2020-07-09
# 再利用可能な学習オブジェクト: アジャイルアプローチ

Reusable Learning Objects: An Agile Approach ( http://arxiv.org/abs/2007.05075v1 )

ライセンス: Link先を確認
R. Pito Salas(参考訳) 本稿では,再利用可能な学習オブジェクト (rlos) について述べる。 再利用可能な学習オブジェクトは、過去20年間、文献で議論されてきたが、学習と教材の大規模な共有は、比較的稀で難しいままである。 本稿では,現在使用されている学習対象の粒度が真の再利用に結びつくものではないことを理由の一つとして論じる。 もちろんPowerPointのスライドデッキとワードドキュメントは個々のファイルやフォルダに格納される。 それは理想的な状況ではない。 結果として、教育者、教師、コースデザイナーは、常に車輪を再発明したり、優れた課題、説明、定義が最後に見られた場所を探したりして、それをコピーできるようにしています。 本稿では,学習オブジェクトの効果的な再利用を実現するためには,より小さく,より細かい(ミクロ)学習オブジェクト,より大きなプレゼンテーション製品に統合する手段,最新のリビジョンとバージョン管理が必要であることを論じる。 この記事では,アジャイル方法論,バージョン管理と管理,マークアップ言語,アジャイルパブリッシングなど,ソフトウェアエンジニアリングコミュニティを起源とするアプローチを適用することを提案する。 そこで本研究では,再利用可能なコースコンテンツの作成,共有,再利用,公開を目的としたオープンソースソフトウェアプラットフォームであるCourseGenについて検討する。 CourseGenは、$link toや$includeトピックといったCourseGen固有のディレクティブによって拡張されたマークダウンフォーマットを使用している。 CourseGenコンパイラはCourseGenファイルのコレクションをWebサイトやPowerPointのような最終フォーマットに変換する。 CourseGenはブランダイス大学のコンピュータサイエンスコースで過去3年間に設計、使用、洗練されてきた。

This paper discusses Reusable Learning Objects (RLOs) and to what extent they have lived up to the promise, particularly of reusability. Reusable Learning Objects have actually been discussed in the literature for the last 20 years and yet true large scale sharing of learning and teaching materials remains relatively rare and challenging. This paper argues that part of the reason is that the granularity of the learning objects that are in use today is not conducive to true reuse. Certainly whole PowerPoint slide decks and word documents are kept in individual files and folders. It is not an ideal situation. As a result, educators, teachers, course designers, are constantly reinventing the wheel, or searching for where that one excellent assignment, explanation, definition was last seen so it can be copied forward. This paper argues that to achieve effective reuse of Learning Objects, the following are required: smaller, more granular (micro) learning objects; means to combine them into larger presentation products; and modern revision and version control. The paper proposes applying approaches originating in the software engineering community, such as agile methodology, version control and management, markup languages, and agile publishing, which together form the Agile Approach of the title of the paper. With that foundation laid, the paper examines CourseGen, an open source software platform designed for creating, sharing, reusing and publishing reusable course content. CourseGen uses a modified markdown format augmented by CourseGen specific directives, such as $link to and $include topic. The CourseGen compiler converts a collection of CourseGen files into the final format such as a web site or a PowerPoint. CourseGen was designed, used and refined over the last three years in several Computer Science Courses at Brandeis University.
翻訳日:2023-05-10 21:07:30 公開日:2020-07-09
# ハバードモデルにおける相互作用クエンチに対する系統的大規模フレーバーfTWAアプローチ

Systematic large flavor fTWA approach to interaction quenches in the Hubbard model ( http://arxiv.org/abs/2007.05063v1 )

ライセンス: Link先を確認
Alexander Osterkorn and Stefan Kehrein(参考訳) 半古典的拡張パラメータとしてフェルミオン縮退値n$と組み合わせた最近導入されたフェルミオン切断ウィグナー近似のベンチマーク結果を示す。 この手法は,非相互作用性フェルミ海から始まる2次元ハバードモデルにおける相互作用クエンチ後の時間進化を計算するために用いられる。 数値的および摂動的アプローチの両方を用いて、半古典力学は少なくとも予熱状態まで有効であることを示す。

We present benchmark results for the recently introduced fermionic truncated Wigner approximation that we combine with the fermion degeneracy $N$ as a semiclassical expansion parameter. The method is used to compute the time-evolution after an interaction quench in the two-dimensional Hubbard model starting from the noninteracting Fermi sea. Using both a numerical and a perturbative approach we show that the semiclassical dynamics is valid at least up to the prethermalization regime.
翻訳日:2023-05-10 21:06:44 公開日:2020-07-09
# 量子因果構造による古典的コミュニケーション

Classical communication through quantum causal structures ( http://arxiv.org/abs/2007.05051v1 )

ライセンス: Link先を確認
Kaumudibikash Goswami and Fabio Costa(参考訳) 量子力学は、演算が無期限因果順序にあることを許す。 近年,エキゾチックな因果構造によるコミュニケーション戦略の強化に関する議論が活発に行われている。 これを踏まえて、プロセス行列形式論を通じて、二成分量子過程の異なる古典容量を定式化する。 任意のプロセスを通じての一方通行の通信プロトコルは、因果的に分離可能なプロセス、すなわち、キュービットあたりの最大1ビットを送信できるプロセスを上回ることができないことが分かる。 次に,因果分離プロセスを通じて双方向コミュニケーションを研究する。 その結果,双方向プロトコルは一方向通信プロトコルの限界を超えないことがわかった。 最後に、この結果を定順序化プロセスを通じてマルチパーティ放送通信プロトコルに一般化する。

Quantum mechanics allows operations to be in indefinite causal order. Recently there have been active discussions on enhanced communication strategies through exotic causal structures. In light of this, through the process matrix formalism, we formulate different classical capacities for a bi-partite quantum process. We find that a one-way communication protocol through an arbitrary process cannot outperform a causally separable process, i.e., we can send at most one bit per qubit. Next, we study bi-directional communication through a causally separable process. Our result shows, a bi-directional protocol cannot exceed the limit of one way communication protocol. Finally, we generalise this result to multi-party broadcast communication protocol through a definite ordered process.
翻訳日:2023-05-10 21:05:58 公開日:2020-07-09
# Web検索オートサジェクション・モデレーションの社会的・技術的課題について

On the Social and Technical Challenges of Web Search Autosuggestion Moderation ( http://arxiv.org/abs/2007.05039v1 )

ライセンス: Link先を確認
Timothy J. Hazen and Alexandra Olteanu and Gabriella Kazai and Fernando Diaz and Michael Golebiewski(参考訳) 過去の研究では、ユーザは書き込みや探索タスクでそれをサポートするシステムから恩恵を受けている。 web 検索エンジンのautosuggestion 機能は,このようなシステムの例だ。ユーザが入力する提案のリストを提供することで,クエリの定式化を支援するものだ。 自動提案は通常、検索ログと文書表現のコーパスに基づいてトレーニングされた機械学習(ML)システムによって生成される。 このような自動化手法は、偏見、人種差別、セクシスト、その他の方法で不適切である問題を引き起こす。 現在の検索エンジンは、このような問題のある提案を抑えるのに、ますます熟練している。 本稿では,問題のある自己提案を識別し,検出し,対処する原型パイプラインに沿って探索されたソリューションを網羅することによって,過去の取り組みと,ある問題がまだ行き詰まる理由を考察する。 その複雑さを示すために、問題のある提案のいくつかの次元、パイプラインに沿った難しい問題、および同様のテキストの提案機能を実装するweb検索以外のアプリケーションの増加に、なぜ私たちの議論が適用されるのかを議論する。 ウェブ検索をモデレートする上での社会的・技術的な課題を概説することにより、新たな行動を呼び起こす。

Past research shows that users benefit from systems that support them in their writing and exploration tasks. The autosuggestion feature of Web search engines is an example of such a system: It helps users in formulating their queries by offering a list of suggestions as they type. Autosuggestions are typically generated by machine learning (ML) systems trained on a corpus of search logs and document representations. Such automated methods can become prone to issues that result in problematic suggestions that are biased, racist, sexist or in other ways inappropriate. While current search engines have become increasingly proficient at suppressing such problematic suggestions, there are still persistent issues that remain. In this paper, we reflect on past efforts and on why certain issues still linger by covering explored solutions along a prototypical pipeline for identifying, detecting, and addressing problematic autosuggestions. To showcase their complexity, we discuss several dimensions of problematic suggestions, difficult issues along the pipeline, and why our discussion applies to the increasing number of applications beyond web search that implement similar textual suggestion features. By outlining persistent social and technical challenges in moderating web search suggestions, we provide a renewed call for action.
翻訳日:2023-05-10 21:05:13 公開日:2020-07-09
# adiabaticからdispersive readout of quantum circuitsへ

From adiabatic to dispersive readout of quantum circuits ( http://arxiv.org/abs/2007.05030v1 )

ライセンス: Link先を確認
Sunghun Park, C. Metzger, L. Tosi, M. F. Goffman, C. Urbina, H. Pothier and A. Levy Yeyati(参考訳) マイクロ波共振器に結合した共振周波数シフトを監視することにより、量子回路のスペクトル特性を効率的に読み出す。 2つの系が強く変形すると、理論は量子回路状態に依存する効果的な共振器容量やインダクタンスへのシフトを特徴付ける。 小さなデチューニングにおいて、このシフトはJaynes-Cummingsモデルによって記述された仮想光子の交換から生じる。 ここでは、これらの2つの極限をブリッジし、量子回路の読み出しの一般的な記述に必要ないくつかの例を示す。

Spectral properties of a quantum circuit are efficiently read out by monitoring the resonance frequency shift it induces in a microwave resonator coupled to it. When the two systems are strongly detuned, theory attributes the shift to an effective resonator capacitance or inductance that depends on the quantum circuit state. At small detuning, the shift arises from the exchange of virtual photons, as described by the Jaynes-Cummings model. Here we present a theory bridging these two limits and illustrate, with several examples, its necessity for a general description of quantum circuits readout.
翻訳日:2023-05-10 21:04:52 公開日:2020-07-09
# 自律型ロボットシステムにおける安全と安全の規制

Regulating Safety and Security in Autonomous Robotic Systems ( http://arxiv.org/abs/2007.08006v1 )

ライセンス: Link先を確認
Matt Luckcuck and Marie Farrell(参考訳) 自律ロボットシステムは本質的に安全クリティカルであり、考慮すべき複雑な安全性問題(例えば、安全障害は安全障害につながる可能性がある)がある。 それらがデプロイされる前に、これらのシステムは、安全とセキュリティに関する規制が定義した一連の規則に準拠する証拠を示さなければならない。 形式的手法は、システムが与えられた規則に従うことを証明するための堅牢なアプローチを提供するが、(通常自然言語)規則の形式化は困難である。 自律システムに特化した規制はまだ開発されているが、人間のオペレーターの安全ルールは、自律システムが安全であることを示すための出発点である。 自動運転車やパイロットレス航空機などの自律システムの応用には、人間のオペレーターには明確なルールがある。 しかし、宇宙や原子力分野の応用は、より異なる傾向にあるため、一般的な安全原則が開発されている。 これにより、新しいアプリケーションはその安全性を評価できるが、形式化が難しい。 この状況を改善するため、我々は宇宙や原子力分野の規制当局やコミュニティと協力して、堅牢な(形式的な)検証に適した自律型およびロボットシステムのガイドラインを作成しています。 これらの活動は、宇宙と核コミュニティとアカデミアの両方における知識のギャップを埋める利点もある。

Autonomous Robotics Systems are inherently safety-critical and have complex safety issues to consider (for example, a safety failure can lead to a safety failure). Before they are deployed, these systems of have to show evidence that they adhere to a set of regulator-defined rules for safety and security. Formal methods provide robust approaches to proving a system obeys given rules, but formalising (usually natural language) rules can prove difficult. Regulations specifically for autonomous systems are still being developed, but the safety rules for a human operator are a good starting point when trying to show that an autonomous system is safe. For applications of autonomous systems like driverless cars and pilotless aircraft, there are clear rules for human operators, which have been formalised and used to prove that an autonomous system obeys some or all of these rules. However, in the space and nuclear sectors applications are more likely to differ, so a set of general safety principles has developed. This allows novel applications to be assessed for their safety, but are difficult to formalise. To improve this situation, we are collaborating with regulators and the community in the space and nuclear sectors to develop guidelines for autonomous and robotic systems that are amenable to robust (formal) verification. These activities also have the benefit of bridging the gaps in knowledge within both the space or nuclear communities and academia.
翻訳日:2023-05-10 20:56:28 公開日:2020-07-09
# 量子制御のためのソフトウェアツール:ノイズとエラー抑制による量子コンピュータの性能向上

Software tools for quantum control: Improving quantum computer performance through noise and error suppression ( http://arxiv.org/abs/2001.04060v2 )

ライセンス: Link先を確認
Harrison Ball, Michael J. Biercuk, Andre Carvalho, Jiayin Chen, Michael Hush, Leonardo A. De Castro, Li Li, Per J. Liebermann, and Harry J. Slatyer, Claire Edmunds, Virginia Frey, Cornelius Hempel and Alistair Milne(参考訳) 不完全なデバイスや制御システムの存在下で量子コンピューティングハードウェアを操作することは、有用な量子コンピュータを実現する上で重要な課題である。 ノイズに対する感受性は、ノイズの多い中間スケール量子(NISQ)デバイスと将来の量子コンピューティング技術の性能と能力を制限する。 幸いなことに量子制御は、複雑な論理エンコーディングを必要とせずに、エラーに対する堅牢性を組み込んだ量子論理演算とアルゴリズムの効率的な実行を可能にする。 本稿では、量子コンピューティング研究における量子制御の応用と統合のためのソフトウェアツールを紹介し、ハードウェアR&Dチーム、アルゴリズム開発者、エンドユーザーのニーズに応える。 量子コンピューティングソフトウェアスタックのさまざまなレイヤに最適化された量子制御ソリューションを作成し、デプロイするための、pythonベースのクラシックソフトウェアツールセットの概要を提供する。 我々は、高性能分散クラウド計算とハードウェアシステムへのローカルカスタム統合の両方を活用したソフトウェアアーキテクチャを説明し、キー機能を他のソフトウェアパッケージや量子プログラミング言語とどのように統合するかを説明する。 本発表では, フレキシブルな最適化アルゴリズム, 高次元ヒルベルト空間における雑音感受性解析のためのフィルタ関数, ノイズおよびハードウェア特性の新たなアプローチなど, 製品の中心的特徴の数学的概要について述べる。 Pseudocodeはこれらのタスクの共通プログラミングワークフローを解明するために提示され、数値的なタスクのパフォーマンスベンチマークが報告され、選択したクラウド計算アーキテクチャの利点が強調される。 最後に, トラップイオンおよび超伝導量子コンピュータハードウェアの実際の実験環境において, これらのツールを用いた量子制御ソリューションの適用例を示す。

Manipulating quantum computing hardware in the presence of imperfect devices and control systems is a central challenge in realizing useful quantum computers. Susceptibility to noise limits the performance and capabilities of noisy intermediate-scale quantum (NISQ) devices, as well as any future quantum computing technologies. Fortunately quantum control enables efficient execution of quantum logic operations and algorithms with built-in robustness to errors, without the need for complex logical encoding. In this manuscript we introduce software tools for the application and integration of quantum control in quantum computing research, serving the needs of hardware R&D teams, algorithm developers, and end users. We provide an overview of a set of python-based classical software tools for creating and deploying optimized quantum control solutions at various layers of the quantum computing software stack. We describe a software architecture leveraging both high-performance distributed cloud computation and local custom integration into hardware systems, and explain how key functionality is integrable with other software packages and quantum programming languages. Our presentation includes a detailed mathematical overview of central product features including a flexible optimization toolkit, filter functions for analyzing noise susceptibility in high-dimensional Hilbert spaces, and new approaches to noise and hardware characterization. Pseudocode is presented in order to elucidate common programming workflows for these tasks, and performance benchmarking is reported for numerically intensive tasks, highlighting the benefits of the selected cloud-compute architecture. Finally, we present a series of case studies demonstrating the application of quantum control solutions using these tools in real experimental settings for both trapped-ion and superconducting quantum computer hardware.
翻訳日:2023-01-11 23:33:56 公開日:2020-07-09
# 競合強化学習のための確率的セルフプレイアルゴリズム

Provable Self-Play Algorithms for Competitive Reinforcement Learning ( http://arxiv.org/abs/2002.04017v3 )

ライセンス: Link先を確認
Yu Bai, Chi Jin(参考訳) アルゴリズムが直接の監督なしに自分自身と対戦することで学習するセルフプレイは、実際に超人的なパフォーマンスを達成するための現代強化学習(rl)の新たな武器となった。 しかし、強化学習における解脱理論の大多数は、エージェントが一定の環境に対して作用する環境にのみ適用され、特に探索/探索のトレードオフを管理する必要がある場合には、自己再生アルゴリズムが有効であるかどうかについては、大半がオープンである。 マルコフ決定過程の一般化であるマルコフゲームの設定下で,競争強化学習における自己遊びについて検討した。 本稿では,上/下信頼境界(VI-ULCB)を用いた自己再生アルゴリズムを導入し,エージェントの戦略を活用できる「emph{fully adversarial}」相手に対して,エージェントのパフォーマンスを指標として,ゲーム中のT$ステップをプレイした後で,後悔する$\tilde{\mathcal{O}}(\sqrt{T})$を達成することを示す。 このアルゴリズムは$\tilde{\mathcal{O}}(T^{2/3})$をわずかに後悔するが、最悪の場合であっても多項式時間で実行することが保証されている。 我々の知識を最大限に活用するため、本研究は競争強化学習のためのサンプル効率の良い自己再生アルゴリズムの最初のラインを提示している。

Self-play, where the algorithm learns by playing against itself without requiring any direct supervision, has become the new weapon in modern Reinforcement Learning (RL) for achieving superhuman performance in practice. However, the majority of exisiting theory in reinforcement learning only applies to the setting where the agent plays against a fixed environment; it remains largely open whether self-play algorithms can be provably effective, especially when it is necessary to manage the exploration/exploitation tradeoff. We study self-play in competitive reinforcement learning under the setting of Markov games, a generalization of Markov decision processes to the two-player case. We introduce a self-play algorithm---Value Iteration with Upper/Lower Confidence Bound (VI-ULCB)---and show that it achieves regret $\tilde{\mathcal{O}}(\sqrt{T})$ after playing $T$ steps of the game, where the regret is measured by the agent's performance against a \emph{fully adversarial} opponent who can exploit the agent's strategy at \emph{any} step. We also introduce an explore-then-exploit style algorithm, which achieves a slightly worse regret of $\tilde{\mathcal{O}}(T^{2/3})$, but is guaranteed to run in polynomial time even in the worst case. To the best of our knowledge, our work presents the first line of provably sample-efficient self-play algorithms for competitive reinforcement learning.
翻訳日:2023-01-02 07:22:40 公開日:2020-07-09
# AIの安全性: 定量レンズによるフィールドの状態

AI safety: state of the field through quantitative lens ( http://arxiv.org/abs/2002.05671v2 )

ライセンス: Link先を確認
Mislav Juric, Agneza Sandic, Mario Brcic(参考訳) この10年、人工知能の性能が大幅に改善され、幅広い応用が推進された。 このような大量適応の予期せぬ影響は、AIの安全性という概念を公衆の目に当てはめた。 AIの安全性は、人間にとって有益なAIを構築する技術に焦点を当てた比較的新しい研究分野である。 AIの安全性に関する調査論文は存在するが、現在行われている研究を定量的に見ることはできない。 定量的側面は、今後の研究の新たなトレンド、知識ギャップ、潜在的な領域に関するデータ駆動的な洞察を与える。 本稿では,文献の書誌分析により,2015年以降,研究活動の著しい増加が確認された。 また、この分野は極めて新しいので、その長期的なユーティリティとの説明可能性や、私たちが最も重要な長期的な研究トピックとして特定した価値アライメントなど、ほとんどの技術的な問題がオープンになっている。 同様に、AIに関する具体的な政策に関する研究が著しく欠落している。 AIが社会の変化の主要な推進力の1つになることを期待しているように、AIの安全性は人類の未来を決定づけるために必要な分野である。

Last decade has seen major improvements in the performance of artificial intelligence which has driven wide-spread applications. Unforeseen effects of such mass-adoption has put the notion of AI safety into the public eye. AI safety is a relatively new field of research focused on techniques for building AI beneficial for humans. While there exist survey papers for the field of AI safety, there is a lack of a quantitative look at the research being conducted. The quantitative aspect gives a data-driven insight about the emerging trends, knowledge gaps and potential areas for future research. In this paper, bibliometric analysis of the literature finds significant increase in research activity since 2015. Also, the field is so new that most of the technical issues are open, including: explainability with its long-term utility, and value alignment which we have identified as the most important long-term research topic. Equally, there is a severe lack of research into concrete policies regarding AI. As we expect AI to be the one of the main driving forces of changes in society, AI safety is the field under which we need to decide the direction of humanity's future.
翻訳日:2023-01-01 20:33:39 公開日:2020-07-09
# コミュニケーションのないコーディネーション:マルチアームバンディットにおける最適後悔

Coordination without communication: optimal regret in two players multi-armed bandits ( http://arxiv.org/abs/2002.07596v2 )

ライセンス: Link先を確認
S\'ebastien Bubeck and Thomas Budzinski(参考訳) 両エージェントは同じ確率的三本腕バンディット問題を同時に行う。 2人のエージェントは協力していますが、通信できません。 我々は(非常に高い確率で)プレイヤー同士の衝突が全くない戦略を提案し、ほぼ最適の後悔である$o(\sqrt{t \log(t)})$ を提案する。 また、この問題の完全な情報変種に対する下界を証明するためには、余分な対数項$\sqrt{\log(T)}$が必要であるとも主張する。

We consider two agents playing simultaneously the same stochastic three-armed bandit problem. The two agents are cooperating but they cannot communicate. We propose a strategy with no collisions at all between the players (with very high probability), and with near-optimal regret $O(\sqrt{T \log(T)})$. We also argue that the extra logarithmic term $\sqrt{\log(T)}$ should be necessary by proving a lower bound for a full information variant of the problem.
翻訳日:2023-01-01 04:42:16 公開日:2020-07-09
# 置換なしでSGDの収束ギャップを閉鎖する

Closing the convergence gap of SGD without replacement ( http://arxiv.org/abs/2002.10400v6 )

ライセンス: Link先を確認
Shashank Rajput, Anant Gupta and Dimitris Papailiopoulos(参考訳) 置換サンプリングのない確率勾配降下は、モデルトレーニングの実践に広く用いられている。 しかし、SGD分析の大多数は、データが置換でサンプリングされることを前提としており、関数の最小化が強い凸であれば、$\mathcal{O}\left(\frac{1}{T}\right)$ rateは、SGDが$T$反復で実行されるときに確立される。 最近のsgdoにおける画期的な研究は、最小化された関数が強凸であり、n$の滑らかな関数の和である場合の$\mathcal{o}\left(\frac{n}{t^2}\right)$収束率と、二次和に対する$\mathcal{o}\left(\frac{1}{t^2}+\frac{n^3}{t^3}\right)$率を確立した。 一方、最も厳密な既知の下界は$\Omega\left(\frac{1}{T^2}+\frac{n^2}{T^3}\right)$ rateを仮定し、一般の場合においてより良いSGDo収束率の可能性を開放する。 本稿では,このギャップを閉じて,関数の和が二次的であるときに,置換のないsgd が $\mathcal{o}\left(\frac{1}{t^2}+\frac{n^2}{t^3}\right)$ の率を達成し,滑らかな関数の和である強凸函数に対して $\omega\left(\frac{n}{t^2}\right)$ の新たな下限を与えることを示す。

Stochastic gradient descent without replacement sampling is widely used in practice for model training. However, the vast majority of SGD analyses assumes data is sampled with replacement, and when the function minimized is strongly convex, an $\mathcal{O}\left(\frac{1}{T}\right)$ rate can be established when SGD is run for $T$ iterations. A recent line of breakthrough works on SGD without replacement (SGDo) established an $\mathcal{O}\left(\frac{n}{T^2}\right)$ convergence rate when the function minimized is strongly convex and is a sum of $n$ smooth functions, and an $\mathcal{O}\left(\frac{1}{T^2}+\frac{n^3}{T^3}\right)$ rate for sums of quadratics. On the other hand, the tightest known lower bound postulates an $\Omega\left(\frac{1}{T^2}+\frac{n^2}{T^3}\right)$ rate, leaving open the possibility of better SGDo convergence rates in the general case. In this paper, we close this gap and show that SGD without replacement achieves a rate of $\mathcal{O}\left(\frac{1}{T^2}+\frac{n^2}{T^3}\right)$ when the sum of the functions is a quadratic, and offer a new lower bound of $\Omega\left(\frac{n}{T^2}\right)$ for strongly convex functions that are sums of smooth functions.
翻訳日:2022-12-29 03:39:31 公開日:2020-07-09
# 学習形状に対する暗黙的幾何正規化

Implicit Geometric Regularization for Learning Shapes ( http://arxiv.org/abs/2002.10099v2 )

ライセンス: Link先を確認
Amos Gropp, Lior Yariv, Niv Haim, Matan Atzmon, Yaron Lipman(参考訳) ニューラルネットワークのレベルセットとしての形状を表現することは、様々な形状解析や再構成タスクに有用であることが最近証明されている。 これまでのところ、このような表現はいずれも次のように計算されていた。 (i)事前計算された暗黙の形状表現又は (ii)神経レベル集合上で明示的に定義された損失関数。 本稿では,高忠実度暗黙的ニューラル表現を生データ(点雲,正規情報の有無)から直接計算するための新しいパラダイムを提案する。 我々は、ニューラルネットワークが入力点クラウド上で消滅し、単位ノルム勾配を持つように促す比較的単純な損失関数が、滑らかで自然なゼロレベルセット曲面を好む暗黙の幾何正規化特性を持ち、悪いゼロロス解を避けることを観察する。 線形の場合,この性質を理論的に解析し,本手法が従来の手法と比較して高いレベル・オブ・ディーテールと忠実度を有する暗黙的ニューラル表現の状態を導いたことを示す。

Representing shapes as level sets of neural networks has been recently proved to be useful for different shape analysis and reconstruction tasks. So far, such representations were computed using either: (i) pre-computed implicit shape representations; or (ii) loss functions explicitly defined over the neural level sets. In this paper we offer a new paradigm for computing high fidelity implicit neural representations directly from raw data (i.e., point clouds, with or without normal information). We observe that a rather simple loss function, encouraging the neural network to vanish on the input point cloud and to have a unit norm gradient, possesses an implicit geometric regularization property that favors smooth and natural zero level set surfaces, avoiding bad zero-loss solutions. We provide a theoretical analysis of this property for the linear case, and show that, in practice, our method leads to state of the art implicit neural representations with higher level-of-details and fidelity compared to previous methods.
翻訳日:2022-12-29 02:44:05 公開日:2020-07-09
# salsanext: 自動運転のためのlidar point cloudの高速で不確実性を考慮したセマンティクスセグメンテーション

SalsaNext: Fast, Uncertainty-aware Semantic Segmentation of LiDAR Point Clouds for Autonomous Driving ( http://arxiv.org/abs/2003.03653v3 )

ライセンス: Link先を確認
Tiago Cortinhal, George Tzelepis and Eren Erdal Aksoy(参考訳) 本稿では,完全3次元lidar点雲をリアルタイムに不確実性を考慮したセマンティクスセグメンテーションのために,salsanextを提案する。 SalsaNextは、Encoder-decoderアーキテクチャを持つSalsaNet [1]の次期バージョンで、エンコーダユニットはResNetブロックのセットを持ち、デコーダ部は残余ブロックからアップサンプリングされた特徴を組み合わせる。 salsanetとは対照的に、新しいコンテキストモジュールを導入し、resnetエンコーダブロックを新たな拡張畳み込みスタックに置き換え、徐々にレセプティブフィールドを増加させ、デコーダにピクセルシャッフル層を追加する。 さらに, ストライド・コンボリューションから平均プーリングに切り替え, 中央ドロップアウト処理を適用した。 Jaccard指数を直接最適化するために、重み付きクロスエントロピー損失とLovasz-Softmax損失 [2] を更に組み合わせる。 最終的にベイズ処理を注入し、雲中の各点に対するてんかんおよびアレラトリック不確実性を計算する。 本稿では,semantic-kitti データセット [3] の詳細な定量的評価を行い,提案手法がsemantic-kitti リーダボード上の他の最先端意味セグメンテーションネットワークよりも優れていることを示す。 ソースコード https://github.com/TiagoCortinhal/SalsaNext もリリースしています。

In this paper, we introduce SalsaNext for the uncertainty-aware semantic segmentation of a full 3D LiDAR point cloud in real-time. SalsaNext is the next version of SalsaNet [1] which has an encoder-decoder architecture where the encoder unit has a set of ResNet blocks and the decoder part combines upsampled features from the residual blocks. In contrast to SalsaNet, we introduce a new context module, replace the ResNet encoder blocks with a new residual dilated convolution stack with gradually increasing receptive fields and add the pixel-shuffle layer in the decoder. Additionally, we switch from stride convolution to average pooling and also apply central dropout treatment. To directly optimize the Jaccard index, we further combine the weighted cross-entropy loss with Lovasz-Softmax loss [2]. We finally inject a Bayesian treatment to compute the epistemic and aleatoric uncertainties for each point in the cloud. We provide a thorough quantitative evaluation on the Semantic-KITTI dataset [3], which demonstrates that the proposed SalsaNext outperforms other state-of-the-art semantic segmentation networks and ranks first on the Semantic-KITTI leaderboard. We also release our source code https://github.com/TiagoCortinhal/SalsaNext.
翻訳日:2022-12-25 19:22:07 公開日:2020-07-09
# 弱教師付き物体定位のためのデュアルアテンション誘導ドロップブロックモジュール

Dual-attention Guided Dropblock Module for Weakly Supervised Object Localization ( http://arxiv.org/abs/2003.04719v3 )

ライセンス: Link先を確認
Junhui Yin, Siqing Zhang, Dongliang Chang, Zhanyu Ma, Jun Guo(参考訳) アテンション機構は、より優れた特徴表現のための識別的特徴を学ぶためにしばしば用いられる。 本稿では、注意機構を弱教師付きオブジェクトローカライゼーション(WSOL)タスクに拡張し、WSOLにおける情報的および補完的視覚パターンの学習を目的とした二重注意誘導ドロップブロックモジュール(DGDM)を提案する。 このモジュールは、チャンネルアテンション誘導ドロップアウト(cagd)と空間アテンション誘導ドロップブロック(sagd)の2つの重要なコンポーネントを含んでいる。 チャネル相互依存性をモデル化するために、CAGDはチャネルの注意をランク付けし、最も大きな大きさでトップkの注意を重要視する。 また、トレーニング中に重要になった場合の価値を高めるために、いくつかの低価値要素も保持する。 SAGDは、個々の画素ではなく特徴マップの連続領域を消去することにより、最も識別性の高い情報を効率的に除去することができる。 これにより、分類のための識別性の少ない部分を取り込むモデルが導かれる。 さらに、前景オブジェクトを背景領域と区別することで、注意方向の誤認を軽減することもできる。 実験結果から,提案手法は最先端のローカライゼーション性能を実現する。

Attention mechanisms is frequently used to learn the discriminative features for better feature representations. In this paper, we extend the attention mechanism to the task of weakly supervised object localization (WSOL) and propose the dual-attention guided dropblock module (DGDM), which aims at learning the informative and complementary visual patterns for WSOL. This module contains two key components, the channel attention guided dropout (CAGD) and the spatial attention guided dropblock (SAGD). To model channel interdependencies, the CAGD ranks the channel attentions and treats the top-k attentions with the largest magnitudes as the important ones. It also keeps some low-valued elements to increase their value if they become important during training. The SAGD can efficiently remove the most discriminative information by erasing the contiguous regions of feature maps rather than individual pixels. This guides the model to capture the less discriminative parts for classification. Furthermore, it can also distinguish the foreground objects from the background regions to alleviate the attention misdirection. Experimental results demonstrate that the proposed method achieves new state-of-the-art localization performance.
翻訳日:2022-12-25 09:19:55 公開日:2020-07-09
# ゼロショットビデオオブジェクトセグメンテーションのためのモーション・アテンティブ・トランジション

Motion-Attentive Transition for Zero-Shot Video Object Segmentation ( http://arxiv.org/abs/2003.04253v3 )

ライセンス: Link先を確認
Tianfei Zhou, Shunzhou Wang, Yi Zhou, Yazhou Yao, Jianwu Li, Ling Shao(参考訳) 本稿では,ゼロショット映像オブジェクトセグメンテーションのための新しいモーション・アテンション・トランジション・ネットワーク(matnet)を提案する。 モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されており、各畳み込み段階での外観特徴をモーション・アテンティブな表現に変換する。 このように、エンコーダは深くインターリーブされ、オブジェクトの動きと外観の間の密接な階層的相互作用を可能にする。 これは、各ストリームの動作と外観を別々に扱う典型的な2ストリームアーキテクチャよりも優れており、しばしば過度な適合から外観情報に悩まされる。 さらに,マルチレベルエンコーダの特徴に対して,コンパクトで識別性,スケールセンシティブな表現を実現するためにブリッジネットワークを提案し,さらにデコーダに供給してセグメンテーション結果を得る。 DAVIS-16、FBMS、Youtube-Objectsの3つの挑戦的な公開ベンチマークに対する大規模な実験により、我々のモデルは最先端技術に対して魅力的なパフォーマンスを達成している。

In this paper, we present a novel Motion-Attentive Transition Network (MATNet) for zero-shot video object segmentation, which provides a new way of leveraging motion information to reinforce spatio-temporal object representation. An asymmetric attention block, called Motion-Attentive Transition (MAT), is designed within a two-stream encoder, which transforms appearance features into motion-attentive representations at each convolutional stage. In this way, the encoder becomes deeply interleaved, allowing for closely hierarchical interactions between object motion and appearance. This is superior to the typical two-stream architecture, which treats motion and appearance separately in each stream and often suffers from overfitting to appearance information. Additionally, a bridge network is proposed to obtain a compact, discriminative and scale-sensitive representation for multi-level encoder features, which is further fed into a decoder to achieve segmentation results. Extensive experiments on three challenging public benchmarks (i.e. DAVIS-16, FBMS and Youtube-Objects) show that our model achieves compelling performance against the state-of-the-arts.
翻訳日:2022-12-25 08:42:37 公開日:2020-07-09
# geo2drによるグラフの分散表現の学習

Learning distributed representations of graphs with Geo2DR ( http://arxiv.org/abs/2003.05926v3 )

ライセンス: Link先を確認
Paul Scherer, Pietro Lio(参考訳) Geo2DR(Geometric to Distributed Representations)は、離散的なサブストラクチャパターンとニューラル言語モデルを用いて、グラフ構造化データの教師なし学習のためのGPU対応Pythonライブラリである。 一般的なグラフ分解アルゴリズムとニューラルネットワークモデルをPyTorchで効率的に実装し、分散仮説を用いてグラフの表現を学習することができる。 さらに、geo2drは一般的なデータ処理とローディングメソッドを備えており、ニューラルネットワークモデルのトレーニングにおいてかなりのスピードアップを実現している。 これにより、グラフの分散表現を学習できるシステムを構築するための、モジュラーなツールセットとメソッドを提供する。 これは、既存のメソッドの複製、修正、あるいは全く新しいメソッドの開発に役立ちます。 本稿では,geo2drライブラリの提示と,geo2drで再実装された既存手法の包括的比較分析を行う。 geo2drは、公開メソッドの結果の再現性が高く、分散言語モデリングに有用な他のライブラリとの相互運用性を示す。

We present Geo2DR (Geometric to Distributed Representations), a GPU ready Python library for unsupervised learning on graph-structured data using discrete substructure patterns and neural language models. It contains efficient implementations of popular graph decomposition algorithms and neural language models in PyTorch which can be combined to learn representations of graphs using the distributive hypothesis. Furthermore, Geo2DR comes with general data processing and loading methods to bring substantial speed-up in the training of the neural language models. Through this we provide a modular set of tools and methods to quickly construct systems capable of learning distributed representations of graphs. This is useful for replication of existing methods, modification, or development of completely new methods. This paper serves to present the Geo2DR library and perform a comprehensive comparative analysis of existing methods re-implemented using Geo2DR across widely used graph classification benchmarks. Geo2DR displays a high reproducibility of results in published methods and interoperability with other libraries useful for distributive language modelling.
翻訳日:2022-12-24 13:55:01 公開日:2020-07-09
# 幾何学的深層学習による解剖学的に不明瞭な繊維のトラクトグラムフィルタリング

Tractogram filtering of anatomically non-plausible fibers with geometric deep learning ( http://arxiv.org/abs/2003.11013v2 )

ライセンス: Link先を確認
Pietro Astolfi, Ruben Verhagen, Laurent Petit, Emanuele Olivetti, Jonathan Masci, Davide Boscaini, Paolo Avesani(参考訳) トラクトグラムは脳の白質繊維の仮想的な表現である。 それらは、前外科的計画や神経可塑性や脳障害の研究といったタスクに主に関心がある。 各トラクトグラムは3Dポリラインとして符号化された数百万の繊維から構成される。 残念ながら、これらの繊維の大部分は解剖学的に妥当ではなく、追跡アルゴリズムの人工物と見なすことができる。 トラクトログラムフィルタリングの一般的な方法は、原則的アプローチである信号再構成に基づいているが、脳解剖学の知識を考慮できない。 本研究では,近年のヒューリスティックな手法により得られた基礎的真理アノテーションを利用して,繊維を解剖学的に可塑性か非楽観的かのどちらかと分類することで,トラクトグラムフィルタリングの問題を教師付き学習問題として解決する。 直感的な考え方は繊維を点雲としてモデル化することであり、その目標は幾何学的なディープラーニングモデルがその解剖学的特性をいかに捉えているかを調べることである。 提案手法は,動的エッジ畳み込みモデルの拡張であり,ファイバー内の点の逐次関係を利用して,高精度で実用的でない繊維を識別する。

Tractograms are virtual representations of the white matter fibers of the brain. They are of primary interest for tasks like presurgical planning, and investigation of neuroplasticity or brain disorders. Each tractogram is composed of millions of fibers encoded as 3D polylines. Unfortunately, a large portion of those fibers are not anatomically plausible and can be considered artifacts of the tracking algorithms. Common methods for tractogram filtering are based on signal reconstruction, a principled approach, but unable to consider the knowledge of brain anatomy. In this work, we address the problem of tractogram filtering as a supervised learning problem by exploiting the ground truth annotations obtained with a recent heuristic method, which labels fibers as either anatomically plausible or non-plausible according to well-established anatomical properties. The intuitive idea is to model a fiber as a point cloud and the goal is to investigate whether and how a geometric deep learning model might capture its anatomical properties. Our contribution is an extension of the Dynamic Edge Convolution model that exploits the sequential relations of points in a fiber and discriminates with high accuracy plausible/non-plausible fibers.
翻訳日:2022-12-20 09:43:42 公開日:2020-07-09
# tensorflowのハイパースペクトル画像拡張のためのオープンソースツール

An Open-source Tool for Hyperspectral Image Augmentation in Tensorflow ( http://arxiv.org/abs/2003.13502v2 )

ライセンス: Link先を確認
Mohamed Abdelhack(参考訳) 衛星画像は天気予報から陸地測量まで多岐にわたる応用を可能にする。 コンピュータビジョンシステムの急速な発展は、大量のデータのために衛星データを活用するために新たな地平線を開く可能性がある。 しかし、現在の最先端のコンピュータビジョンシステムは、主に自然画像を含むアプリケーションに特化している。 有用ではあるが、これらの画像は、より多くのスペクトルチャネルを持つことに加えて、衛星画像とは異なる分布を示す。 これにより、訓練済みの深層学習モデルを、自然画像と同等のスペクトルチャネルのサブセットでのみ使用することができ、他のスペクトルチャネルから貴重な情報を捨てることができる。 これにより、衛星画像のディープラーニングモデルを最適化し、リモートセンシングの分野における有用性を評価する研究が求められる。 Tensorflowツールはディープラーニングモデルの高速なプロトタイピングとテストを可能にするが、内蔵イメージジェネレータは最大4つのスペクトルチャネルを処理するように設計されている。 この原稿は、Tensorflowのハイパースペクトル画像に対する画像拡張の実装を可能にするオープンソースツールを紹介している。 アクセスが容易で使いやすいTensorflowを考えると、このツールは多くの研究者に、リモートセンシングアプリケーションのためのディープラーニングモデルの実装、テスト、デプロイの手段を提供するだろう。

Satellite imagery allows a plethora of applications ranging from weather forecasting to land surveying. The rapid development of computer vision systems could open new horizons to the utilization of satellite data due to the abundance of large volumes of data. However, current state-of-the-art computer vision systems mainly cater to applications that mainly involve natural images. While useful, those images exhibit a different distribution from satellite images in addition to having more spectral channels. This allows the use of pretrained deep learning models only in a subset of spectral channels that are equivalent to natural images thus discarding valuable information from other spectral channels. This calls for research effort to optimize deep learning models for satellite imagery to enable the assessment of their utility in the domain of remote sensing. Tensorflow tool allows for rapid prototyping and testing of deep learning models, however, its built-in image generator is designed to handle a maximum of four spectral channels. This manuscript introduces an open-source tool that allows the implementation of image augmentation for hyperspectral images in Tensorflow. Given how accessible and easy-to-use Tensorflow is, this tool would provide many researchers with the means to implement, test, and deploy deep learning models for remote sensing applications.
翻訳日:2022-12-18 07:16:33 公開日:2020-07-09
# Pruned Wasserstein Index Generation Modelとウィッピーパッケージ

Pruned Wasserstein Index Generation Model and wigpy Package ( http://arxiv.org/abs/2004.00999v3 )

ライセンス: Link先を確認
Fangzhou Xie(参考訳) Wasserstein Index Generation Model (WIG) の最近の提案は、インデックスを自動的に生成する新しい方向を示している。 しかし、大きなデータセットを2つの理由で適合させることは実際には難しい。 まず、シンクホーン距離は計算に費用がかかり、寸法が厳しくなる。 第二に、完全な$N\times N$行列をメモリに適合させるためには、$N$は語彙の次元である。 次元が大きすぎると、計算が全く不可能になる。 本稿では,WIGモデルに適合する前処理ステップとして,語彙の次元性を低減するためのラッソに基づく縮小法を提案する。 word2vec モデルから単語埋め込みを得た後、これらの高次元ベクトルを $k$-means クラスタリングでクラスタ化し、各クラスタ内で最も頻度の高いトークンを選択して "base vocabulary" を形成することができる。 非ベーストークンは、変換の重み付けを得るためにベーストークンのベクター上でレグレッションされ、それによって「ベーストークン」のみによって語彙全体を表現できる。 この変種はpWIG(pruned WIG)と呼ばれ、語彙次元を自由に縮めることができるが、精度は高い。 Pythonで \textit{wigpy} モジュールを提供し、両方のフレーバーで計算を実行します。 経済政策不確実性(EPU)指標の適用は、時系列感情指数を生成する既存の方法との比較として示される。

Recent proposal of Wasserstein Index Generation model (WIG) has shown a new direction for automatically generating indices. However, it is challenging in practice to fit large datasets for two reasons. First, the Sinkhorn distance is notoriously expensive to compute and suffers from dimensionality severely. Second, it requires to compute a full $N\times N$ matrix to be fit into memory, where $N$ is the dimension of vocabulary. When the dimensionality is too large, it is even impossible to compute at all. I hereby propose a Lasso-based shrinkage method to reduce dimensionality for the vocabulary as a pre-processing step prior to fitting the WIG model. After we get the word embedding from Word2Vec model, we could cluster these high-dimensional vectors by $k$-means clustering, and pick most frequent tokens within each cluster to form the "base vocabulary". Non-base tokens are then regressed on the vectors of base token to get a transformation weight and we could thus represent the whole vocabulary by only the "base tokens". This variant, called pruned WIG (pWIG), will enable us to shrink vocabulary dimension at will but could still achieve high accuracy. I also provide a \textit{wigpy} module in Python to carry out computation in both flavor. Application to Economic Policy Uncertainty (EPU) index is showcased as comparison with existing methods of generating time-series sentiment indices.
翻訳日:2022-12-18 06:58:08 公開日:2020-07-09
# attribute mix: きめ細かな認識のためのセマンティックデータ拡張

Attribute Mix: Semantic Data Augmentation for Fine Grained Recognition ( http://arxiv.org/abs/2004.02684v2 )

ライセンス: Link先を確認
Hao Li, Xiaopeng Zhang, Hongkai Xiong, Qi Tian(参考訳) きめ細かいラベルの収集は通常、専門家レベルのドメイン知識を必要とし、スケールアップは禁止される。 本稿では,属性レベルのデータ拡張戦略であるAttribute Mixを提案する。 その原則は、属性の特徴が細粒度のサブカテゴリ間で共有され、画像間でシームレスに転送可能であることである。 この目的に向けて,同じスーパーカテゴリに属する属性を検出する自動属性マイニング手法を提案し,2つの画像から意味的に意味のある属性特徴を混合して属性混合を行う。 Attribute Mixはシンプルなが効果的なデータ拡張戦略であり、推論予算を増やすことなく認識性能を大幅に改善することができる。 さらに、属性は同一のスーパーカテゴリの画像間で共有できるので、ジェネリックドメインの画像を使用して属性レベルラベルでトレーニングサンプルをさらに強化する。 広く用いられている細粒度ベンチマーク実験により,提案手法の有効性が実証された。

Collecting fine-grained labels usually requires expert-level domain knowledge and is prohibitive to scale up. In this paper, we propose Attribute Mix, a data augmentation strategy at attribute level to expand the fine-grained samples. The principle lies in that attribute features are shared among fine-grained sub-categories, and can be seamlessly transferred among images. Toward this goal, we propose an automatic attribute mining approach to discover attributes that belong to the same super-category, and Attribute Mix is operated by mixing semantically meaningful attribute features from two images. Attribute Mix is a simple but effective data augmentation strategy that can significantly improve the recognition performance without increasing the inference budgets. Furthermore, since attributes can be shared among images from the same super-category, we further enrich the training samples with attribute level labels using images from the generic domain. Experiments on widely used fine-grained benchmarks demonstrate the effectiveness of our proposed method.
翻訳日:2022-12-16 07:05:32 公開日:2020-07-09
# 教師なし学習による皮質表面の登録

Cortical surface registration using unsupervised learning ( http://arxiv.org/abs/2004.04617v2 )

ライセンス: Link先を確認
Jieyu Cheng, Adrian V. Dalca, Bruce Fischl, Lilla Zollei (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 非剛性皮質登録は、ヒト大脳皮質の幾何学的複雑さと高い対象間変動のために重要かつ困難な課題である。 従来の解決策は、表面特性の球面表現を用い、その空間における皮質の折りたたみパターンを整列させて登録を行うことである。 この戦略は正確な空間アライメントを生成するが、しばしば高い計算コストを必要とする。 近年,畳み込みニューラルネットワーク(cnns)がボリューム登録を劇的に高速化する可能性を実証している。 しかし、球面を2次元平面に投影することによって生じる歪みにより、近年の学習手法による表面への直接的適用は結果の低下をもたらす。 本研究では,これらの問題に対処するディープネットワークを用いた皮質表面の微分型登録フレームワークであるSphereMorphを提案する。 SphereMorphは、球面カーネルに関連するUNetスタイルのネットワークを使用して、変位場を学習し、修正された空間変換器層を用いて球面をワープする。 本研究では、極性投射による歪みを考慮したデータフィッティング損失の計算における再サンプリング重みを提案し、大脳皮質パーセレーションとグループワイド機能領域アライメントを含む2つのタスクにおける提案手法の性能を示す。 実験により,提案したSphereMorphはCNNフレームワークにおける幾何登録問題をモデル化し,より優れた登録精度と計算効率を示す。 spheremorphのソースコードは、https://github.com/voxelmorph/spheremorph.comで公開された。

Non-rigid cortical registration is an important and challenging task due to the geometric complexity of the human cortex and the high degree of inter-subject variability. A conventional solution is to use a spherical representation of surface properties and perform registration by aligning cortical folding patterns in that space. This strategy produces accurate spatial alignment but often requires a high computational cost. Recently, convolutional neural networks (CNNs) have demonstrated the potential to dramatically speed up volumetric registration. However, due to distortions introduced by projecting a sphere to a 2D plane, a direct application of recent learning-based methods to surfaces yields poor results. In this study, we present SphereMorph, a diffeomorphic registration framework for cortical surfaces using deep networks that addresses these issues. SphereMorph uses a UNet-style network associated with a spherical kernel to learn the displacement field and warps the sphere using a modified spatial transformer layer. We propose a resampling weight in computing the data fitting loss to account for distortions introduced by polar projection, and demonstrate the performance of our proposed method on two tasks, including cortical parcellation and group-wise functional area alignment. The experiments show that the proposed SphereMorph is capable of modeling the geometric registration problem in a CNN framework and demonstrate superior registration accuracy and computational efficiency. The source code of SphereMorph will be released to the public upon acceptance of this manuscript at https://github.com/voxelmorph/spheremorph.
翻訳日:2022-12-15 03:29:38 公開日:2020-07-09
# ドメイン適応問題としてのニューラルマシン翻訳におけるジェンダーバイアスの低減

Reducing Gender Bias in Neural Machine Translation as a Domain Adaptation Problem ( http://arxiv.org/abs/2004.04498v3 )

ライセンス: Link先を確認
Danielle Saunders and Bill Byrne(参考訳) NLPタスクのトレーニングデータは、男性よりも女性に言及する文章が少ないという性別バイアスを示すことが多い。 ニューラルマシン翻訳(NMT)では、特に対象言語が文法的性別を持つ場合、性別バイアスは翻訳品質を低下させる。 最近のWinoMTチャレンジセットでは、この効果を直接測定することができます(Stanovsky et al, 2019)。 理想的には、トレーニング前にすべてのデータをデバイアスすることで、システムのバイアスを低減します。 バランスの取れた'データセットを作成するのではなく、少数の信頼された、性別のバランスの取れた例で転送学習を使います。 このアプローチは、スクラッチからトレーニングするよりも計算コストがはるかに少なく、ジェンダーの偏りを強く一貫した改善をもたらす。 新しいドメインでの転帰学習の落とし穴として、我々は適応と推論の両方に対処する「破滅的な忘れ」がある。 適応中、Elastic Weight Consolidationは一般的な翻訳品質とバイアス低減のトレードオフを可能にする。 推定中に,一般テストセットbleuの劣化を伴わないウィノムトにおけるstanovsky et al (2019) で評価された全てのシステムを上回る格子復元スキームを提案し,このスキームを用いて 'black box' オンライン商用mtシステムの出力における性別バイアスを除去できることを示した。 本稿では,言語特性とデータ利用率の異なる3言語に翻訳するアプローチを実証する。

Training data for NLP tasks often exhibits gender bias in that fewer sentences refer to women than to men. In Neural Machine Translation (NMT) gender bias has been shown to reduce translation quality, particularly when the target language has grammatical gender. The recent WinoMT challenge set allows us to measure this effect directly (Stanovsky et al, 2019). Ideally we would reduce system bias by simply debiasing all data prior to training, but achieving this effectively is itself a challenge. Rather than attempt to create a `balanced' dataset, we use transfer learning on a small set of trusted, gender-balanced examples. This approach gives strong and consistent improvements in gender debiasing with much less computational cost than training from scratch. A known pitfall of transfer learning on new domains is `catastrophic forgetting', which we address both in adaptation and in inference. During adaptation we show that Elastic Weight Consolidation allows a performance trade-off between general translation quality and bias reduction. During inference we propose a lattice-rescoring scheme which outperforms all systems evaluated in Stanovsky et al (2019) on WinoMT with no degradation of general test set BLEU, and we show this scheme can be applied to remove gender bias in the output of `black box` online commercial MT systems. We demonstrate our approach translating from English into three languages with varied linguistic properties and data availability.
翻訳日:2022-12-15 02:55:31 公開日:2020-07-09
# muse 2020 -- 実生活メディアチャレンジとワークショップにおける最初の国際マルチモーダル感情分析

MuSe 2020 -- The First International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop ( http://arxiv.org/abs/2004.14858v3 )

ライセンス: Link先を確認
Lukas Stappen, Alice Baird, Georgios Rizos, Panagiotis Tzirakis, Xinchen Du, Felix Hafner, Lea Schumann, Adria Mallol-Ragolta, Bj\"orn W. Schuller, Iulia Lefter, Erik Cambria, Ioannis Kompatsiaris(参考訳) マルチモーダル感情分析(multimodal sentiment analysis in real-life media, muse)2020は、感情認識のタスクと、感情目標のエンゲージメントと信頼性検出に焦点を当てた、オーディオとビジュアルと言語のモダリティをより包括的に統合した、チャレンジベースのワークショップである。 MuSe 2020の目的は、主に音声・視覚的感情認識コミュニティ(信号ベース)と感情分析コミュニティ(記号ベース)の異なる分野のコミュニティをまとめることである。 本研究では,連続的な感情(覚醒と静寂)の予測に焦点をあてる MuSe-Wild と,3つのクラス(低,中,高)感情のターゲットとしてドメイン固有のトピックを認識する MuSe-Topic と,信頼の新たな側面を予測する MuSe-Trust の3つのサブチャレンジを提示する。 本稿では,その課題に利用された最初のインザワイルドデータベースである MuSe-CaR の詳細情報と,適用された最先端機能とモデリングアプローチについて述べる。 テストでは、MuSe-Wildは.2568、MuSe-Topicは0.34$\cdot$UAR + 0.66$\cdot$F1)、10クラスのトピックでは76.78%、3クラスの感情予測では40.64%、MuSe-Trustは.4359である。

Multimodal Sentiment Analysis in Real-life Media (MuSe) 2020 is a Challenge-based Workshop focusing on the tasks of sentiment recognition, as well as emotion-target engagement and trustworthiness detection by means of more comprehensively integrating the audio-visual and language modalities. The purpose of MuSe 2020 is to bring together communities from different disciplines; mainly, the audio-visual emotion recognition community (signal-based), and the sentiment analysis community (symbol-based). We present three distinct sub-challenges: MuSe-Wild, which focuses on continuous emotion (arousal and valence) prediction; MuSe-Topic, in which participants recognise domain-specific topics as the target of 3-class (low, medium, high) emotions; and MuSe-Trust, in which the novel aspect of trustworthiness is to be predicted. In this paper, we provide detailed information on MuSe-CaR, the first of its kind in-the-wild database, which is utilised for the challenge, as well as the state-of-the-art features and modelling approaches applied. For each sub-challenge, a competitive baseline for participants is set; namely, on test we report for MuSe-Wild a combined (valence and arousal) CCC of .2568, for MuSe-Topic a score (computed as 0.34$\cdot$ UAR + 0.66$\cdot$F1) of 76.78 % on the 10-class topic and 40.64 % on the 3-class emotion prediction, and for MuSe-Trust a CCC of .4359.
翻訳日:2022-12-08 03:40:49 公開日:2020-07-09
# 言語(再)モデリング: 具体化言語理解に向けて

Language (Re)modelling: Towards Embodied Language Understanding ( http://arxiv.org/abs/2005.00311v2 )

ライセンス: Link先を確認
Ronen Tamari, Chen Shani, Tom Hope, Miriam R. L. Petruck, Omri Abend, Dafna Shahaf(参考訳) 自然言語理解(NLU)は急速に進歩しているが、今日の技術は人間のような言語理解とは根本的に異なる。 本研究は, 具体的認知言語学(ECL)の理念に基づく表現と学習へのアプローチを提案する。 ECLによると、自然言語は本質的に(プログラミング言語のような)実行可能であり、心的シミュレーションと比喩的なマッピングによって、構造やスキーマの階層的な構成が具体的相互作用を通じて学習される。 本稿では,メタファー推論とシミュレーションによる接地の利用がnluシステムに大きな利益をもたらすと論じ,そのビジョンを実現するためのロードマップとともにシステムアーキテクチャを提案する。

While natural language understanding (NLU) is advancing rapidly, today's technology differs from human-like language understanding in fundamental ways, notably in its inferior efficiency, interpretability, and generalization. This work proposes an approach to representation and learning based on the tenets of embodied cognitive linguistics (ECL). According to ECL, natural language is inherently executable (like programming languages), driven by mental simulation and metaphoric mappings over hierarchical compositions of structures and schemata learned through embodied interaction. This position paper argues that the use of grounding by metaphoric inference and simulation will greatly benefit NLU systems, and proposes a system architecture along with a roadmap towards realizing this vision.
翻訳日:2022-12-07 22:51:52 公開日:2020-07-09
# 長軸強化学習は短軸強化学習よりも難易度が高いか?

Is Long Horizon Reinforcement Learning More Difficult Than Short Horizon Reinforcement Learning? ( http://arxiv.org/abs/2005.00527v2 )

ライセンス: Link先を確認
Ruosong Wang, Simon S. Du, Lin F. Yang, Sham M. Kakade(参考訳) 長地平線計画への学習は、エピソディクス強化学習問題の中心的な課題である。 根本的な問題は、地平線が増すにつれて問題の難易度がいかに大きくなるかを理解することである。 ここでサンプル複雑性の自然な尺度は正規化されたものである:我々は、各エピソードの正規化累積報酬によって値が測定される最適値の値に近い$\varepsilon$のポリシーを立証するために要するエピソードの数に興味を持っている。 COLT 2018のオープンな問題において、JiangとAgarwalは、表層的、エピソジックな強化学習問題に対して、水平線に多項式依存を示すサンプル複雑性の下界が存在すると推測した。 この研究はこの予想を反論し、計画の地平線と対数的にしかスケールしないサンプル複雑性によって、表象的、エピソディックな強化学習が可能であることを証明している。 言い換えれば、値が適切に正規化されているとき(単位区間に置かれる)、この結果は少なくともミニマックス感覚において、長い地平線 RL が短地平線 RL よりも困難でないことを示す。 分析では2つのアイデアを紹介します (i)ログ被覆数が計画地平線と対数的にしかスケールしない最適政策のための$\varepsilon$-netの構築 (II) オンライン軌道合成アルゴリズムは, ある政策クラスのログ検索数とスケールするサンプル複雑性を用いて, ある政策クラスの全ての政策を適応的に評価する。 どちらも独立した関心事である。

Learning to plan for long horizons is a central challenge in episodic reinforcement learning problems. A fundamental question is to understand how the difficulty of the problem scales as the horizon increases. Here the natural measure of sample complexity is a normalized one: we are interested in the number of episodes it takes to provably discover a policy whose value is $\varepsilon$ near to that of the optimal value, where the value is measured by the normalized cumulative reward in each episode. In a COLT 2018 open problem, Jiang and Agarwal conjectured that, for tabular, episodic reinforcement learning problems, there exists a sample complexity lower bound which exhibits a polynomial dependence on the horizon -- a conjecture which is consistent with all known sample complexity upper bounds. This work refutes this conjecture, proving that tabular, episodic reinforcement learning is possible with a sample complexity that scales only logarithmically with the planning horizon. In other words, when the values are appropriately normalized (to lie in the unit interval), this results shows that long horizon RL is no more difficult than short horizon RL, at least in a minimax sense. Our analysis introduces two ideas: (i) the construction of an $\varepsilon$-net for optimal policies whose log-covering number scales only logarithmically with the planning horizon, and (ii) the Online Trajectory Synthesis algorithm, which adaptively evaluates all policies in a given policy class using sample complexity that scales with the log-covering number of the given policy class. Both may be of independent interest.
翻訳日:2022-12-07 22:33:27 公開日:2020-07-09
# 合理的な非制限的反感の導出的共同支援」技術報告

Technical Report of "Deductive Joint Support for Rational Unrestricted Rebuttal" ( http://arxiv.org/abs/2005.03620v2 )

ライセンス: Link先を確認
Marcos Cramer, Meghna Bhadra(参考訳) aspicスタイルの構造化議論では、引数はその結論を攻撃することによって別の引数を反論することができる。 反論の形式化には2つの方法が提案されている: 制限された反論では、攻撃された結論はデファシブルなルールで到達したものでなければならないが、制限されない反論では、この厳格な規則の少なくとも1つが既にデファシブルであった限り、厳格なルールで到達したかもしれない。 構造化議論のためのフレームワークの様々な可能な定義の中から選択する体系的な方法の1つは、どの定義によって有理性仮定が満足されるかを研究することである。 いくつか利点があるが、unrestricted rebuttalを使用する提案は、クロージャが接地セマンティクスのみを保持するが、他の議論セマンティクスが適用されると失敗するという問題に直面している。 本稿では, ASPIC方式の議論は, 議論間の攻撃関係だけでなく, 厳密なルールを用いてその集合から構築した議論と, 議論の集合を包含する帰納的連立サポートの関係をトラックする上でも有効であることを示す。 この導出的共同サポート関係を拡張を決定しながら考慮することにより、クロージャの仮定は、すべての許容性に基づく意味論の下で、制限のない反感をもって保持される。 平坦化法により, 導出性関節支持のセマンティクスを定義する。

In ASPIC-style structured argumentation an argument can rebut another argument by attacking its conclusion. Two ways of formalizing rebuttal have been proposed: In restricted rebuttal, the attacked conclusion must have been arrived at with a defeasible rule, whereas in unrestricted rebuttal, it may have been arrived at with a strict rule, as long as at least one of the antecedents of this strict rule was already defeasible. One systematic way of choosing between various possible definitions of a framework for structured argumentation is to study what rationality postulates are satisfied by which definition, for example whether the closure postulate holds, i.e. whether the accepted conclusions are closed under strict rules. While having some benefits, the proposal to use unrestricted rebuttal faces the problem that the closure postulate only holds for the grounded semantics but fails when other argumentation semantics are applied, whereas with restricted rebuttal the closure postulate always holds. In this paper we propose that ASPIC-style argumentation can benefit from keeping track not only of the attack relation between arguments, but also the relation of deductive joint support that holds between a set of arguments and an argument that was constructed from that set using a strict rule. By taking this deductive joint support relation into account while determining the extensions, the closure postulate holds with unrestricted rebuttal under all admissibility-based semantics. We define the semantics of deductive joint support through the flattening method.
翻訳日:2022-12-05 23:52:56 公開日:2020-07-09
# 分類器アンサンブルのロバスト性検証

Robustness Verification for Classifier Ensembles ( http://arxiv.org/abs/2005.05587v2 )

ライセンス: Link先を確認
Dennis Gross, Nils Jansen, Guillermo A. P\'erez, Stephan Raaijmakers(参考訳) 任意のランダム化攻撃に対して,分類器アンサンブルが堅牢かどうかを判定する形式的検証手順を与える。 このような攻撃は決定論的な攻撃の集合と、この集合上の分布からなる。 ロバストネスチェック問題は、分類器の集合とラベル付きデータセットが与えられた場合、全ての分類器に対して一定の損失をもたらすランダムな攻撃が存在するかどうかを評価することである。 問題のnp硬度を示し、最適なランダム化攻撃を形成するのに十分な攻撃数の上限を提供する。 これらの結果は、分類器アンサンブルのロバスト性を評価する効果的な方法を与える。 最適なランダム化攻撃を計算したり、特定の損失を発生させる攻撃が存在しないことを証明するために、SMTおよびMILP符号化を提供する。 後者の場合、分類器アンサンブルは確実に堅牢である。 画像分類タスク用に訓練された複数のニューラルネットワークアンサンブルを検証する。 MILP符号化を用いた実験結果は,スケーラビリティと検証手順の適用性の両方において有望である。

We give a formal verification procedure that decides whether a classifier ensemble is robust against arbitrary randomized attacks. Such attacks consist of a set of deterministic attacks and a distribution over this set. The robustness-checking problem consists of assessing, given a set of classifiers and a labelled data set, whether there exists a randomized attack that induces a certain expected loss against all classifiers. We show the NP-hardness of the problem and provide an upper bound on the number of attacks that is sufficient to form an optimal randomized attack. These results provide an effective way to reason about the robustness of a classifier ensemble. We provide SMT and MILP encodings to compute optimal randomized attacks or prove that there is no attack inducing a certain expected loss. In the latter case, the classifier ensemble is provably robust. Our prototype implementation verifies multiple neural-network ensembles trained for image-classification tasks. The experimental results using the MILP encoding are promising both in terms of scalability and the general applicability of our verification procedure.
翻訳日:2022-12-03 18:24:25 公開日:2020-07-09
# 数学における形式化演習の自動評価

Automatized Evaluation of Formalization Exercises in Mathematics ( http://arxiv.org/abs/2006.01800v2 )

ライセンス: Link先を確認
Merlin Carl(参考訳) 初級述語論理の形式化における文の表現における基礎的スキルの獲得を支援する2つのシステムについて述べる。第1のシステムは「数学ディクテーション」と呼ばれ、ユーザに与えられた自然言語文の形式化タスクを与え、第2のシステムは「defのゲーム」と呼ばれ、ユーザに表示された幾何学的パターンの組の形式的記述を与える。 どちらの場合でも自動チェックが行われる。

We describe two systems for supporting beginner students in acquiring basic skills in expressing statements in the formalism of first-order predicate logic; the first, called "math dictations", presents users with the task of formalizing a given natural-language sentence, while the second, called "Game of Def", challenges users to give a formal description of a set of a geometric pattern displayed to them. In both cases, an automatic checking takes place.
翻訳日:2022-11-26 00:46:51 公開日:2020-07-09
# 受容野における好ましい刺激の可視化によるresnetの解釈

Interpretation of ResNet by Visualization of Preferred Stimulus in Receptive Fields ( http://arxiv.org/abs/2006.01645v2 )

ライセンス: Link先を確認
Genta Kobayashi and Hayaru Shouno(参考訳) 画像認識で使用される手法の1つはディープ畳み込みニューラルネットワーク(DCNN)である。 DCNNはCNNの隠蔽層を深くすることで特徴の表現力を大幅に改善するモデルである。 CNNのアーキテクチャは哺乳類の視覚野のモデルに基づいて決定される。 Residual Network(ResNet)と呼ばれるモデルがあり、スキップ接続がある。 ResNetは学習法の観点からは高度なモデルであるが,生物学的観点からは解釈されていない。 本研究では,ImageNetの分類タスクにおけるResNetの受容領域について検討する。 ResNetは配向選択的ニューロンと二重反対色ニューロンを持つ。 さらに、ResNetの第1層における不活性ニューロンが分類タスクに影響を与えることを示唆する。

One of the methods used in image recognition is the Deep Convolutional Neural Network (DCNN). DCNN is a model in which the expressive power of features is greatly improved by deepening the hidden layer of CNN. The architecture of CNNs is determined based on a model of the visual cortex of mammals. There is a model called Residual Network (ResNet) that has a skip connection. ResNet is an advanced model in terms of the learning method, but it has not been interpreted from a biological viewpoint. In this research, we investigate the receptive fields of a ResNet on the classification task in ImageNet. We find that ResNet has orientation selective neurons and double opponent color neurons. In addition, we suggest that some inactive neurons in the first layer of ResNet affect the classification task.
翻訳日:2022-11-26 00:37:15 公開日:2020-07-09
# 新型コロナウイルス未報告症例数のデータによる同定-境界と限界

Data-driven Identification of Number of Unreported Cases for COVID-19: Bounds and Limitations ( http://arxiv.org/abs/2006.02127v5 )

ライセンス: Link先を確認
Ajitesh Srivastava and Viktor K. Prasanna(参考訳) 新型コロナウイルスの正確な予測は、より良い準備と資源管理のために必要である。 特に、数ヶ月から数ヶ月間の応答を決定するには、モデルエラーが時間とともに蓄積するので特に難しい、正確な長期予測が必要となる。 正確な長期予測を妨げる重要な要因は、報告されていない/症状のないケースの数である。 この数を推定する初期の血清学的試験はあったが、より信頼できる結果を得るためにさらに多くの試験を行う必要がある。 未報告/漸近症例の数を特定するために,疫学データ駆動アプローチを採用する。 報告された症例の要因として, 実例のこの比率の下位境界, 上限を同定できることが示唆された。 そこで本研究では, 既往の異種感染率モデルを拡張し, 非報告・無症状症例を取り入れた。 報告されていない症例の数は、流行データの一定期間からのみ確実に推定できることを示す。 そこで本研究では,学習率の信頼度を推定する固定感染率法というアルゴリズムを構築した。 また,この比率を学習し,シミュレーションデータの有効性を示す2つのヒューリスティックスを提案する。 当社のアプローチは,ニューヨークと米国のいくつかの州において,実例と報告事例の比率の上限を識別するために使用しています。 その結果,ニューヨークでは35回以上,イリノイでは40回,マサチューセッツ州では38回,ニュージャージー州では29回,ニューヨークでは35回は発生できないという確信が持たれた。

Accurate forecasts for COVID-19 are necessary for better preparedness and resource management. Specifically, deciding the response over months or several months requires accurate long-term forecasts which is particularly challenging as the model errors accumulate with time. A critical factor that can hinder accurate long-term forecasts, is the number of unreported/asymptomatic cases. While there have been early serology tests to estimate this number, more tests need to be conducted for more reliable results. To identify the number of unreported/asymptomatic cases, we take an epidemiology data-driven approach. We show that we can identify lower bounds on this ratio or upper bound on actual cases as a factor of reported cases. To do so, we propose an extension of our prior heterogeneous infection rate model, incorporating unreported/asymptomatic cases. We prove that the number of unreported cases can be reliably estimated only from a certain time period of the epidemic data. In doing so, we construct an algorithm called Fixed Infection Rate method, which identifies a reliable bound on the learned ratio. We also propose two heuristics to learn this ratio and show their effectiveness on simulated data. We use our approaches to identify the upper bounds on the ratio of actual to reported cases for New York City and several US states. Our results demonstrate with high confidence that the actual number of cases cannot be more than 35 times in New York, 40 times in Illinois, 38 times in Massachusetts and 29 times in New Jersey, than the reported cases.
翻訳日:2022-11-25 18:38:40 公開日:2020-07-09
# 大規模像定位のための自己監督型きめ細かい領域類似性

Self-supervising Fine-grained Region Similarities for Large-scale Image Localization ( http://arxiv.org/abs/2006.03926v2 )

ライセンス: Link先を確認
Yixiao Ge, Haibo Wang, Feng Zhu, Rui Zhao, Hongsheng Li(参考訳) 大規模検索ベース画像ローカライゼーションの課題は、都市規模のデータセットから最も近い参照画像を認識してクエリ画像の地理的位置を推定することである。 しかし、一般のベンチマークではトレーニング画像に関連するノイズの多いGPSラベルのみを提供しており、画像と画像の類似性を学ぶための弱い監督役として機能している。 このようなラベルノイズは、ディープニューラルネットワークが正確なローカライゼーションのために識別的特徴を学習することを妨げる。 そこで本研究では,画像と領域の類似性を自己監視し,それらのサブ領域と並行して,困難でポジティブな画像の可能性を十分に探究することを提案する。 推定された画像と地域間の類似性は、ネットワークを世代ごとに改善するための追加のトレーニング監督となり、結果として、最適な性能を達成するために徐々に細かな類似性を洗練することができる。 提案する自己強調画像から領域への類似性ラベルは,トレーニングと推論の両方において,追加パラメータや手動アノテーションを必要とせず,最先端パイプラインのトレーニングボトルネックを効果的に処理する。 本手法は,標準ローカライズベンチマークの最先端を目立ったマージンで上回り,複数の画像検索データセットにおいて優れた一般化能力を示す。

The task of large-scale retrieval-based image localization is to estimate the geographical location of a query image by recognizing its nearest reference images from a city-scale dataset. However, the general public benchmarks only provide noisy GPS labels associated with the training images, which act as weak supervisions for learning image-to-image similarities. Such label noise prevents deep neural networks from learning discriminative features for accurate localization. To tackle this challenge, we propose to self-supervise image-to-region similarities in order to fully explore the potential of difficult positive images alongside their sub-regions. The estimated image-to-region similarities can serve as extra training supervision for improving the network in generations, which could in turn gradually refine the fine-grained similarities to achieve optimal performance. Our proposed self-enhanced image-to-region similarity labels effectively deal with the training bottleneck in the state-of-the-art pipelines without any additional parameters or manual annotations in both training and inference. Our method outperforms state-of-the-arts on the standard localization benchmarks by noticeable margins and shows excellent generalization capability on multiple image retrieval datasets.
翻訳日:2022-11-24 21:51:03 公開日:2020-07-09
# 法廷におけるパフォーマンス:フランスにおける控訴裁判所判決の自動処理と可視化

Performance in the Courtroom: Automated Processing and Visualization of Appeal Court Decisions in France ( http://arxiv.org/abs/2006.06251v3 )

ライセンス: Link先を確認
Paul Boniol, George Panagopoulos, Christos Xypolopoulos, Rajaa El Hamdani, David Restrepo Amariles, Michalis Vazirgiannis(参考訳) 人工知能技術はすでに法的領域で人気があり、重要である。 司法判断から法的な指標を抽出し、法体系の情報の非対称性と不正アクセスギャップを低減させる。 我々はNLP法を用いて、弁護士や判決のネットワークを構築するために、判断から興味深いエンティティやデータを抽出する。 我々は,弁護士のネットワークにおける経験,勝利/損失比,およびその重要性に基づいて,弁護士のランク付けのための指標を提案する。 また,判断ネットワークにおけるコミュニティ検出を行い,コミュニティの特徴を活かしたケースの難易度を示す指標を提案する。

Artificial Intelligence techniques are already popular and important in the legal domain. We extract legal indicators from judicial judgment to decrease the asymmetry of information of the legal system and the access-to-justice gap. We use NLP methods to extract interesting entities/data from judgments to construct networks of lawyers and judgments. We propose metrics to rank lawyers based on their experience, wins/loss ratio and their importance in the network of lawyers. We also perform community detection in the network of judgments and propose metrics to represent the difficulty of cases capitalising on communities features.
翻訳日:2022-11-22 09:19:10 公開日:2020-07-09
# FinBERT:金融コミュニケーションのための事前訓練言語モデル

FinBERT: A Pretrained Language Model for Financial Communications ( http://arxiv.org/abs/2006.08097v2 )

ライセンス: Link先を確認
Yi Yang, Mark Christopher Siy UY, Allen Huang(参考訳) BERT(Devlin et al., 2019)のような事前訓練済み言語モデルは、大規模にラベル付けされていないテキストのリソースをトレーニングすることで、様々なNLPタスクにおいて大きなブレークスルーを遂げている。 本研究では,金融分野固有のBERTモデルであるFinBERTを,大規模な金融通信コーパスを用いて事前訓練することの必要性に対処する。 3つの財務感情分類タスクの実験は、一般的なドメインBERTモデルよりもFinBERTの利点を裏付ける。 コードと事前訓練されたモデルはhttps://github.com/yya518/FinBERT.comで入手できる。 金融NLPタスクに取り組む実践者や研究者にとって、これが役に立つことを願っています。

Contextual pretrained language models, such as BERT (Devlin et al., 2019), have made significant breakthrough in various NLP tasks by training on large scale of unlabeled text re-sources.Financial sector also accumulates large amount of financial communication text.However, there is no pretrained finance specific language models available. In this work,we address the need by pretraining a financial domain specific BERT models, FinBERT, using a large scale of financial communication corpora. Experiments on three financial sentiment classification tasks confirm the advantage of FinBERT over generic domain BERT model. The code and pretrained models are available at https://github.com/yya518/FinBERT. We hope this will be useful for practitioners and researchers working on financial NLP tasks.
翻訳日:2022-11-21 04:18:14 公開日:2020-07-09
# オーシャン:物体認識型アンカーレストラッキング

Ocean: Object-aware Anchor-free Tracking ( http://arxiv.org/abs/2006.10721v2 )

ライセンス: Link先を確認
Zhipeng Zhang, Houwen Peng, Jianlong Fu, Bing Li, Weiming Hu(参考訳) アンカーベースのシアムトラッカーは精度が著しく向上しているが、さらなる改善は遅れるトラッキングの堅牢性によって制限されている。 根底にある理由は、アンカーベースの手法の回帰ネットワークが正のアンカーボックス(例えば$IoU \geq0.6$)でのみ訓練されていることである。 この機構により、対象オブジェクトとの重なりが小さいアンカーを洗練することが難しくなる。 本稿では,この問題に対処する新しいオブジェクト認識型アンカーフリーネットワークを提案する。 まず、リファレンスアンカーボックスを洗練するのではなく、アンカーフリーでターゲットオブジェクトの位置とスケールを直接予測します。 基底ボックスの各ピクセルはよく訓練されているため、トラッカーは推論中にターゲットオブジェクトの不正確な予測を修正できる。 第二に、予測境界ボックスからオブジェクト認識機能を学ぶための機能アライメントモジュールを導入する。 オブジェクト認識機能は、ターゲットオブジェクトとバックグラウンドの分類にさらに貢献することができる。 さらに,アンカーフリーモデルに基づく新たなトラッキングフレームワークを提案する。 実験の結果, VOT-2018, VOT-2019, OTB-100, GOT-10k, LaSOTの5つのベンチマークにおいて, アンカーフリートラッカーが最先端の性能を達成することがわかった。 ソースコードはhttps://github.com/researchmm/TracKit.comで入手できる。

Anchor-based Siamese trackers have achieved remarkable advancements in accuracy, yet the further improvement is restricted by the lagged tracking robustness. We find the underlying reason is that the regression network in anchor-based methods is only trained on the positive anchor boxes (i.e., $IoU \geq0.6$). This mechanism makes it difficult to refine the anchors whose overlap with the target objects are small. In this paper, we propose a novel object-aware anchor-free network to address this issue. First, instead of refining the reference anchor boxes, we directly predict the position and scale of target objects in an anchor-free fashion. Since each pixel in groundtruth boxes is well trained, the tracker is capable of rectifying inexact predictions of target objects during inference. Second, we introduce a feature alignment module to learn an object-aware feature from predicted bounding boxes. The object-aware feature can further contribute to the classification of target objects and background. Moreover, we present a novel tracking framework based on the anchor-free model. The experiments show that our anchor-free tracker achieves state-of-the-art performance on five benchmarks, including VOT-2018, VOT-2019, OTB-100, GOT-10k and LaSOT. The source code is available at https://github.com/researchmm/TracKit.
翻訳日:2022-11-19 13:59:18 公開日:2020-07-09
# スタイルと空間アライメントによる多視点ドローンによる地理局所化

Multi-view Drone-based Geo-localization via Style and Spatial Alignment ( http://arxiv.org/abs/2006.13681v2 )

ライセンス: Link先を確認
Siyi Hu and Xiaojun Chang(参考訳) 本稿では,ドローンビュー画像と衛星ビュー画像とを事前アノテーション付きGPSタグでマッチングすることにより,GPS測位の重要な補助的手法として機能するマルチビューマルチソースジオローカライゼーションの課題に焦点を当てる。 この問題を解決するために、既存の手法では、重み付き分類ブロックでメトリックロスを採用し、異なる視点と視点ソースで共有される共通特徴空間の生成を強制している。 しかし,これらの手法は空間情報(特に視点差)に十分な注意を払わない。 この欠点に対処するために、パターンを整列させるエレガントな配向に基づく手法を提案し、整列部分特徴を抽出する新しい分岐を導入する。 さらに,画像スタイルにおけるばらつきを低減し,特徴統一性を高めるためのスタイルアライメント戦略を提案する。 提案手法の性能を示すために,大規模ベンチマークデータセットについて広範な実験を行った。 実験により,提案手法が最先端の代替案よりも優れていることを確認した。

In this paper, we focus on the task of multi-view multi-source geo-localization, which serves as an important auxiliary method of GPS positioning by matching drone-view image and satellite-view image with pre-annotated GPS tag. To solve this problem, most existing methods adopt metric loss with an weighted classification block to force the generation of common feature space shared by different view points and view sources. However, these methods fail to pay sufficient attention to spatial information (especially viewpoint variances). To address this drawback, we propose an elegant orientation-based method to align the patterns and introduce a new branch to extract aligned partial feature. Moreover, we provide a style alignment strategy to reduce the variance in image style and enhance the feature unification. To demonstrate the performance of the proposed approach, we conduct extensive experiments on the large-scale benchmark dataset. The experimental results confirm the superiority of the proposed approach compared to state-of-the-art alternatives.
翻訳日:2022-11-17 21:41:28 公開日:2020-07-09
# 心臓再同期治療反応予測のための解釈可能な深部モデル

Interpretable Deep Models for Cardiac Resynchronisation Therapy Response Prediction ( http://arxiv.org/abs/2006.13811v2 )

ライセンス: Link先を確認
Esther Puyol-Ant\'on, Chen Chen, James R. Clough, Bram Ruijsink, Baldeep S. Sidhu, Justin Gould, Bradley Porter, Mark Elliott, Vishal Mehta, Daniel Rueckert, Christopher A. Rinaldi, and Andrew P. King(参考訳) 深層学習(DL)の進歩は、いくつかの医学画像分類タスクにおいて顕著な精度をもたらすが、深層モデルには解釈性がないことが多い。 これらのモデルが彼らの決定を説明する能力は、臨床信頼の促進と臨床翻訳の促進に重要である。 さらに、医学における多くの問題に対して、既存の臨床知識が豊富に存在するため、説明書を作成するのに有用であるが、この知識がDLモデルにどのようにエンコードできるかは明らかではない。 本稿ではこれら2つの問題に対処する。 本稿では,可変オートエンコーダ(VAE)に基づく画像分類のための新しいDLフレームワークを提案する。 このフレームワークは、オートエンコーダの潜伏空間からの利子出力の予測と、決定境界を越える効果の可視化(画像領域における)を可能にし、分類器の解釈可能性を高める。 我々の重要な貢献は、VAEが既存の臨床知識から引き出された「説明」に基づいて潜伏空間を混乱させることである。 このフレームワークは、アウトプットを予測できるだけでなく、これらのアウトプットの説明もできる。また、既存の知識から分離(あるいは分離)された新しいバイオマーカーを発見する可能性も高めている。 そこで本研究では,心磁気共鳴画像からの心臓再同期療法(crt)に対する心筋症患者の反応予測に関する枠組みを実証する。 CRT応答予測の課題における提案モデルの感度と特異性はそれぞれ88.43%と84.39%であり,CRT応答に寄与する要因の理解を深める上での本モデルの可能性を示す。

Advances in deep learning (DL) have resulted in impressive accuracy in some medical image classification tasks, but often deep models lack interpretability. The ability of these models to explain their decisions is important for fostering clinical trust and facilitating clinical translation. Furthermore, for many problems in medicine there is a wealth of existing clinical knowledge to draw upon, which may be useful in generating explanations, but it is not obvious how this knowledge can be encoded into DL models - most models are learnt either from scratch or using transfer learning from a different domain. In this paper we address both of these issues. We propose a novel DL framework for image-based classification based on a variational autoencoder (VAE). The framework allows prediction of the output of interest from the latent space of the autoencoder, as well as visualisation (in the image domain) of the effects of crossing the decision boundary, thus enhancing the interpretability of the classifier. Our key contribution is that the VAE disentangles the latent space based on `explanations' drawn from existing clinical knowledge. The framework can predict outputs as well as explanations for these outputs, and also raises the possibility of discovering new biomarkers that are separate (or disentangled) from the existing knowledge. We demonstrate our framework on the problem of predicting response of patients with cardiomyopathy to cardiac resynchronization therapy (CRT) from cine cardiac magnetic resonance images. The sensitivity and specificity of the proposed model on the task of CRT response prediction are 88.43% and 84.39% respectively, and we showcase the potential of our model in enhancing understanding of the factors contributing to CRT response.
翻訳日:2022-11-17 10:16:11 公開日:2020-07-09
# DensePoseの高速化と軽量化

Making DensePose fast and light ( http://arxiv.org/abs/2006.15190v3 )

ライセンス: Link先を確認
Ruslan Rakhimov, Emil Bogomolov, Alexandr Notchenko, Fung Mao, Alexey Artemov, Denis Zorin, Evgeny Burnaev(参考訳) 高密度推定タスクは、拡張現実から布地への適合まで、ユーザエクスペリエンスのコンピュータビジョンアプリケーションを強化するための重要なステップである。 この課題を解決できる既存のニューラルネットワークモデルは、非常にパラメータ化されており、組み込みまたはモバイルデバイスへの転送には程遠い。 現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドインフラストラクチャをサポートし、安定したインターネット接続が必要である。 さらに悪いことに、モバイルと組み込みデバイスは、必ずしも内部に強力なGPUを持っているとは限らない。 本研究では,r-cnnモデルのアーキテクチャを再設計し,最終的なネットワークの精度を保ちながら軽量化・高速化を図ることを目的とした。 そこで我々は近年,23の効率的なバックボーンアーキテクチャ,複数の2段階検出パイプライン修正,カスタムモデル量子化手法に関するアブレーション研究を行ってきた。 その結果,ベースラインモデルと比較して,モデルサイズ削減に17ドル,レイテンシ改善に2ドルを達成しました。

DensePose estimation task is a significant step forward for enhancing user experience computer vision applications ranging from augmented reality to cloth fitting. Existing neural network models capable of solving this task are heavily parameterized and a long way from being transferred to an embedded or mobile device. To enable Dense Pose inference on the end device with current models, one needs to support an expensive server-side infrastructure and have a stable internet connection. To make things worse, mobile and embedded devices do not always have a powerful GPU inside. In this work, we target the problem of redesigning the DensePose R-CNN model's architecture so that the final network retains most of its accuracy but becomes more light-weight and fast. To achieve that, we tested and incorporated many deep learning innovations from recent years, specifically performing an ablation study on 23 efficient backbone architectures, multiple two-stage detection pipeline modifications, and custom model quantization methods. As a result, we achieved $17\times$ model size reduction and $2\times$ latency improvement compared to the baseline model.
翻訳日:2022-11-16 21:21:35 公開日:2020-07-09
# 常用振動子ニューラル・デ・データとエンデレc{c}os

Normalizador Neural de Datas e Endere\c{c}os ( http://arxiv.org/abs/2007.04300v2 )

ライセンス: Link先を確認
Gustavo Plensack and Paulo Finardi(参考訳) あらゆる種類の文書には様々な日付と住所の形式があり、場合によっては日付は完全に完全あるいは異なる種類のセパレータで書かれることもある。 住所におけるパターン障害は、通り、地区、都市、州間の交流の可能性が大きいため、さらに大きい。 自然言語処理の文脈では、この性質の問題はReGexやDateParserのような厳密なツールによって処理される。 これらのアルゴリズムに予期しないフォーマットが与えられると、エラーと不要な出力が発生する。 この課題を回避するために、未設定の日付と住所のフォーマットを90%以上の精度で処理する、最先端のニューラルネットワーク技術T5のソリューションを提案する。 このモデルでは,提案手法は日付と住所を正規化するタスクに一般化をもたらす。 また、テキスト内のエラーをシミュレートするノイズの多いデータでこの問題に対処する。

Documents of any kind present a wide variety of date and address formats, in some cases dates can be written entirely in full or even have different types of separators. The pattern disorder in addresses is even greater due to the greater possibility of interchanging between streets, neighborhoods, cities and states. In the context of natural language processing, problems of this nature are handled by rigid tools such as ReGex or DateParser, which are efficient as long as the expected input is pre-configured. When these algorithms are given an unexpected format, errors and unwanted outputs happen. To circumvent this challenge, we present a solution with deep neural networks state of art T5 that treats non-preconfigured formats of dates and addresses with accuracy above 90% in some cases. With this model, our proposal brings generalization to the task of normalizing dates and addresses. We also deal with this problem with noisy data that simulates possible errors in the text.
翻訳日:2022-11-16 07:50:38 公開日:2020-07-09
# 日本語はTwitterで使われているか? 大規模な研究は

Is Japanese gendered language used on Twitter ? A large scale study ( http://arxiv.org/abs/2006.15935v2 )

ライセンス: Link先を確認
Tiziana Carpi and Stefano Maria Iacus(参考訳) 本研究は,日本語のtwitter上での利用状況を分析した。 2015年から2019年にかけての4億8800万ツイートの収集から始まり、さらに2355の手動でtwitterアカウントのタイムラインを性別やカテゴリー(政治、ミュージシャンなど)に分類した。 このコーパス上で大規模テキスト解析を行い、文末粒子(SFP)とテキストに現れる1人称代名詞を特定し、検討する。 性別付き言語は実際にはtwitterでも使用されており、ツイートの約6%を占めており、"male"と"female"言語への規範的な分類は、注目すべき例外を除いて常に期待を満たしているとは限らない。 さらに、SFPや代名詞は増加または減少傾向を示し、Twitterで使用される言語の進化を示している。

This study analyzes the usage of Japanese gendered language on Twitter. Starting from a collection of 408 million Japanese tweets from 2015 till 2019 and an additional sample of 2355 manually classified Twitter accounts timelines into gender and categories (politicians, musicians, etc). A large scale textual analysis is performed on this corpus to identify and examine sentence-final particles (SFPs) and first-person pronouns appearing in the texts. It turns out that gendered language is in fact used also on Twitter, in about 6% of the tweets, and that the prescriptive classification into "male" and "female" language does not always meet the expectations, with remarkable exceptions. Further, SFPs and pronouns show increasing or decreasing trends, indicating an evolution of the language used on Twitter.
翻訳日:2022-11-15 14:57:10 公開日:2020-07-09
# キャッシュ置換のための模倣学習手法

An Imitation Learning Approach for Cache Replacement ( http://arxiv.org/abs/2006.16239v2 )

ライセンス: Link先を確認
Evan Zheran Liu, Milad Hashemi, Kevin Swersky, Parthasarathy Ranganathan, Junwhan Ahn(参考訳) プログラムの実行速度はキャッシュヒットの増加に大きく依存する。 キャッシュヒットを増やすため、キャッシュ置換の問題に焦点をあて、新しい行を挿入すると、どのキャッシュラインを削除すべきかという問題に焦点をあてる。 これまでの計画が必要であり、現在、既知の実用的な解決策がないため、これは難しいことです。 その結果、現在の代替ポリシーは、特定の共通アクセスパターン用に設計されたヒューリスティックスに依存しており、より多様で複雑なアクセスパターンに失敗する。 これとは対照的に,将来のキャッシュアクセスに対して最適な消去決定を演算するオラクルポリシーであるBeladyを利用して,キャッシュアクセスパターンを自動的に学習する模倣学習手法を提案する。 ベラーディの直接適用は、未来が不明なため不可能であるが、過去のアクセスのみを条件とした政策を訓練し、多様な複雑なアクセスパターンにも正確に近似し、このアプローチをParrotと呼ぶ。 最もメモリ集約的なSPECアプリケーションの13で評価すると、Parrotは現在の技術よりもキャッシュミス率を20%向上させる。 さらに、大規模なWeb検索ベンチマークでは、従来のLRUポリシーよりもキャッシュヒット率を61%向上させる。 データは豊富であり、さらなる進歩は現実世界に大きな影響を与える可能性があるので、この分野の研究を促進するためのジム環境をリリースします。

Program execution speed critically depends on increasing cache hits, as cache hits are orders of magnitude faster than misses. To increase cache hits, we focus on the problem of cache replacement: choosing which cache line to evict upon inserting a new line. This is challenging because it requires planning far ahead and currently there is no known practical solution. As a result, current replacement policies typically resort to heuristics designed for specific common access patterns, which fail on more diverse and complex access patterns. In contrast, we propose an imitation learning approach to automatically learn cache access patterns by leveraging Belady's, an oracle policy that computes the optimal eviction decision given the future cache accesses. While directly applying Belady's is infeasible since the future is unknown, we train a policy conditioned only on past accesses that accurately approximates Belady's even on diverse and complex access patterns, and call this approach Parrot. When evaluated on 13 of the most memory-intensive SPEC applications, Parrot increases cache miss rates by 20% over the current state of the art. In addition, on a large-scale web search benchmark, Parrot increases cache hit rates by 61% over a conventional LRU policy. We release a Gym environment to facilitate research in this area, as data is plentiful, and further advancements can have significant real-world impact.
翻訳日:2022-11-15 14:22:38 公開日:2020-07-09
# ユニバーサルミソビームフォーミングのための深層学習法

Deep Learning Methods for Universal MISO Beamforming ( http://arxiv.org/abs/2007.00841v2 )

ライセンス: Link先を確認
Junbeom Kim, Hoon Lee, Seung-Eun Hong and Seok-Hwan Park(参考訳) 本文は,基地局での送信電力制限を任意に適用可能なダウンリンクマルチユーザマルチアンテナシステムにおいて,ビームフォーミングベクトルを最適化するための深層学習(DL)アプローチについて検討する。 我々は,ビームフォーミング最適化における電力制約の影響を,ディープニューラルネットワーク(DNN)が効果的に学習できるように,和電力予算をサイド情報として活用する。 その結果、単一のトレーニングプロセスが提案されたユニバーサルDLアプローチに十分であるのに対して、従来の手法では、可能なすべての電力予算レベルに対して複数のDNNをトレーニングする必要がある。 計算結果から,提案手法の既存方式に対する有効性を示した。

This letter studies deep learning (DL) approaches to optimize beamforming vectors in downlink multi-user multi-antenna systems that can be universally applied to arbitrarily given transmit power limitation at a base station. We exploit the sum power budget as side information so that deep neural networks (DNNs) can effectively learn the impact of the power constraint in the beamforming optimization. Consequently, a single training process is sufficient for the proposed universal DL approach, whereas conventional methods need to train multiple DNNs for all possible power budget levels. Numerical results demonstrate the effectiveness of the proposed DL methods over existing schemes.
翻訳日:2022-11-14 15:04:05 公開日:2020-07-09
# 確率最適化問題に対する適応バッチサイズによるバランシング率とばらつき

Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems ( http://arxiv.org/abs/2007.01219v2 )

ライセンス: Link先を確認
Zhan Gao and Alec Koppel and Alejandro Ribeiro(参考訳) 確率的勾配降下は、確率的最適化問題に対処する標準的なツールであり、現代の機械学習と統計の基盤を形成する。 本研究は, 漸近収束においてステップサイズの減衰が要求されるという事実と, 有限時間で誤差まで高速に学習するという事実のバランスをとることを目的とする。 そこで我々は,ミニバッチとステップサイズを最初から修正するのではなく,パラメータを適応的に進化させる戦略を提案する。 具体的には、バッチサイズを、適切なエラー基準が満たされたときに増加が生じる一括即時増加シーケンスとする。 さらに、ステップサイズを最も高速な収束値として選択する。 全体的なアルゴリズムである2つのスケール適応(TSA)スキームは、凸および非凸確率最適化問題に対して開発された。 これは確率勾配法の正確な漸近収束を継承する。 より重要なことに、最適誤差減少率と計算コストの全体的な削減が理論的に達成される。 実験では,tsaがミニバッチとステップサイズを固定する標準sgdと比較して好都合なトレードオフを達成できたか,あるいは単に増減を許すだけであった。

Stochastic gradient descent is a canonical tool for addressing stochastic optimization problems, and forms the bedrock of modern machine learning and statistics. In this work, we seek to balance the fact that attenuating step-size is required for exact asymptotic convergence with the fact that constant step-size learns faster in finite time up to an error. To do so, rather than fixing the mini-batch and the step-size at the outset, we propose a strategy to allow parameters to evolve adaptively. Specifically, the batch-size is set to be a piecewise-constant increasing sequence where the increase occurs when a suitable error criterion is satisfied. Moreover, the step-size is selected as that which yields the fastest convergence. The overall algorithm, two scale adaptive (TSA) scheme, is developed for both convex and non-convex stochastic optimization problems. It inherits the exact asymptotic convergence of stochastic gradient method. More importantly, the optimal error decreasing rate is achieved theoretically, as well as an overall reduction in computational cost. Experimentally, we observe that TSA attains a favorable tradeoff relative to standard SGD that fixes the mini-batch and the step-size, or simply allowing one to increase or decrease respectively.
翻訳日:2022-11-14 14:56:05 公開日:2020-07-09
# 動的・潜在的なヒューマンタスク能力を備えたロボットチーム調整:学習曲線によるスケジューリング

Human-Robot Team Coordination with Dynamic and Latent Human Task Proficiencies: Scheduling with Learning Curves ( http://arxiv.org/abs/2007.01921v2 )

ライセンス: Link先を確認
Ruisen Liu, Manisha Natarajan, and Matthew Gombolay(参考訳) ロボットが職場で普及するにつれて、人間とロボットのコラボレーションは直感的にも適応的にも不可欠である。 ロボットの品質は、人間の時間変化(学習曲線)と確率的能力について明確に推論する能力に基づいて改善され、人間の好みを判断しながら、作業負荷を調整して効率を向上する。 本稿では,ロボットが確率的かつ時間のかかる作業性能にロバストなスケジュールを構築することにより,人間のチームメイトの相対的な強みと学習能力を探索できる新しい資源協調アルゴリズムを提案する。 まず,ユーザ調査(n = 20)から収集したデータを用いてアルゴリズムアプローチを検証することで,最新の個々の作業者の習熟度を見出しながら,ロバストなスケジュールを迅速に生成し,評価できることを示す。 第2に、協調アルゴリズムの有効性を検証するために、対象間実験(n = 90)を行う。 人-オブジェクト実験の結果は、チーム流速の改善(p = 0.0438)とチームの効率の最大化(p < 0.001)により、探索に有利なスケジューリング戦略が人間-ロボットコラボレーションに有用であることを示している。

As robots become ubiquitous in the workforce, it is essential that human-robot collaboration be both intuitive and adaptive. A robot's quality improves based on its ability to explicitly reason about the time-varying (i.e. learning curves) and stochastic capabilities of its human counterparts, and adjust the joint workload to improve efficiency while factoring human preferences. We introduce a novel resource coordination algorithm that enables robots to explore the relative strengths and learning abilities of their human teammates, by constructing schedules that are robust to stochastic and time-varying human task performance. We first validate our algorithmic approach using data we collected from a user study (n = 20), showing we can quickly generate and evaluate a robust schedule while discovering the latest individual worker proficiency. Second, we conduct a between-subjects experiment (n = 90) to validate the efficacy of our coordinating algorithm. Results from the human-subjects experiment indicate that scheduling strategies favoring exploration tend to be beneficial for human-robot collaboration as it improves team fluency (p = 0.0438), while also maximizing team efficiency (p < 0.001).
翻訳日:2022-11-14 06:15:00 公開日:2020-07-09
# FMRIB変分ベイズ推定チュートリアルII:確率的変分ベイズ

The FMRIB Variational Bayesian Inference Tutorial II: Stochastic Variational Bayes ( http://arxiv.org/abs/2007.02725v2 )

ライセンス: Link先を確認
Michael A. Chappell and Mark W. Woolrich(参考訳) ベイズ法はデータからモデルパラメータを推定するための多くの応用において強力であることが証明されている。 これらの手法はベイズの定理に基づいている。 しかし、実際には必要な計算は単純な場合であっても難解である。 したがって、ベイズ推定の手法は歴史的にラプラス近似のようなかなり近似的であったり、マルコフ・チェイン・モンテカルロ法のような計算コストで正確な解からサンプルを得たりしてきた。 2000年ごろからベイズ推論に対するいわゆる変分的アプローチがますます展開されている。 最も一般的な形式である変分ベイズ (VB) では、真の後続確率分布を、より「管理可能な」分布で近似し、できるだけ良い近似を達成することが目的である。 最初のfmrib variational bayesチュートリアルでは、vbベースのアプローチを文書化し、近似後段を形成するために'mean field'アプローチを採り、事前と可能性の一致を必要とし、変動の微積分を活用して、期待の最大化に似た反復的な更新方程式を導出しました。 このチュートリアルではvbを再検討していますが、以前の方法論によって課された制限を回避できる可能性のある問題に対する確率的アプローチを取り上げています。 この新しいアプローチは、機械学習アルゴリズムに適用される計算方法に多くの類似性があり、利点がある。 しかし、ここで述べられているのは、古典的な意味でのベイズ推論であり、推論問題を解決するために機械学習をブラックボックスとして利用しようとする試みではない。

Bayesian methods have proved powerful in many applications for the inference of model parameters from data. These methods are based on Bayes' theorem, which itself is deceptively simple. However, in practice the computations required are intractable even for simple cases. Hence methods for Bayesian inference have historically either been significantly approximate, e.g., the Laplace approximation, or achieve samples from the exact solution at significant computational expense, e.g., Markov Chain Monte Carlo methods. Since around the year 2000 so-called Variational approaches to Bayesian inference have been increasingly deployed. In its most general form Variational Bayes (VB) involves approximating the true posterior probability distribution via another more 'manageable' distribution, the aim being to achieve as good an approximation as possible. In the original FMRIB Variational Bayes tutorial we documented an approach to VB based that took a 'mean field' approach to forming the approximate posterior, required the conjugacy of prior and likelihood, and exploited the Calculus of Variations, to derive an iterative series of update equations, akin to Expectation Maximisation. In this tutorial we revisit VB, but now take a stochastic approach to the problem that potentially circumvents some of the limitations imposed by the earlier methodology. This new approach bears a lot of similarity to, and has benefited from, computational methods applied to machine learning algorithms. Although, what we document here is still recognisably Bayesian inference in the classic sense, and not an attempt to use machine learning as a black-box to solve the inference problem.
翻訳日:2022-11-14 06:12:57 公開日:2020-07-09
# 深部画像圧縮の知覚的最適化

Perceptually Optimizing Deep Image Compression ( http://arxiv.org/abs/2007.02711v2 )

ライセンス: Link先を確認
Li-Heng Chen and Christos G. Bampis and Zhi Li and Andrey Norkin and Alan C. Bovik(参考訳) 平均二乗誤差(MSE)と$\ell_p$ノルムは、その単純さと解析的性質から、ニューラルネットワークの損失の測定に大きく依存している。 しかしながら、視覚情報損失を評価するために使用される場合、これらの単純な規範は人間の知覚とあまり一致しない。 本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。 具体的には、ネットワークの損失層として機能しながら知覚モデルを模倣したプロキシネットワークを構築し、この最適化フレームワークをエンドツーエンドの最適化画像圧縮ネットワークのトレーニングに適用する方法を実験的に実証する。 最新の深部画像圧縮モデルの上に構築することにより、特定の知覚品質(VMAF)レベルを考慮し、MSE最適化よりも平均28.7\%のビットレート削減を実証することができる。

Mean squared error (MSE) and $\ell_p$ norms have largely dominated the measurement of loss in neural networks due to their simplicity and analytical properties. However, when used to assess visual information loss, these simple norms are not highly consistent with human perception. Here, we propose a different proxy approach to optimize image analysis networks against quantitative perceptual models. Specifically, we construct a proxy network, which mimics the perceptual model while serving as a loss layer of the network.We experimentally demonstrate how this optimization framework can be applied to train an end-to-end optimized image compression network. By building on top of a modern deep image compression models, we are able to demonstrate an averaged bitrate reduction of $28.7\%$ over MSE optimization, given a specified perceptual quality (VMAF) level.
翻訳日:2022-11-14 06:03:40 公開日:2020-07-09
# 高速注意を伴うリアルタイム意味セグメンテーション

Real-time Semantic Segmentation with Fast Attention ( http://arxiv.org/abs/2007.03815v2 )

ライセンス: Link先を確認
Ping Hu, Federico Perazzi, Fabian Caba Heilbron, Oliver Wang, Zhe Lin, Kate Saenko, Stan Sclaroff(参考訳) セマンティックセグメンテーションのためのディープCNNベースのモデルでは、高い精度はリッチな空間コンテキスト(大きな受容場)と細かな空間詳細(高解像度)に依存し、どちらも高い計算コストを発生させる。 本稿では,高分解能画像と映像をリアルタイムにセグメンテーションするための,最先端のパフォーマンスを実現する新しいアーキテクチャを提案する。 提案したアーキテクチャは,従来の自己認識機構の簡易かつ効率的な変更であり,演算の順序を変化させることで,計算コストのごく一部で同じリッチな空間コンテキストをキャプチャする。 さらに,高分解能入力を効率的に処理するために,ファスト・アテンション・モジュールのヒューズ機能の利用により,ネットワークの中間特徴段階に最小限の精度で空間縮小を施す。 提案手法を一連の実験で検証し,複数のデータセットにおける結果が,既存の意味セマンティクスセグメンテーション手法と比較して精度と速度に優れることを示した。 都市景観において、我々のネットワークは72 fpsで74.4$\%$ miou、単一のtitan x gpu上で58 fpsで75.5$\%$ miouを達成する。

In deep CNN based models for semantic segmentation, high accuracy relies on rich spatial context (large receptive fields) and fine spatial details (high resolution), both of which incur high computational costs. In this paper, we propose a novel architecture that addresses both challenges and achieves state-of-the-art performance for semantic segmentation of high-resolution images and videos in real-time. The proposed architecture relies on our fast spatial attention, which is a simple yet efficient modification of the popular self-attention mechanism and captures the same rich spatial context at a small fraction of the computational cost, by changing the order of operations. Moreover, to efficiently process high-resolution input, we apply an additional spatial reduction to intermediate feature stages of the network with minimal loss in accuracy thanks to the use of the fast attention module to fuse features. We validate our method with a series of experiments, and show that results on multiple datasets demonstrate superior performance with better accuracy and speed compared to existing approaches for real-time semantic segmentation. On Cityscapes, our network achieves 74.4$\%$ mIoU at 72 FPS and 75.5$\%$ mIoU at 58 FPS on a single Titan X GPU, which is~$\sim$50$\%$ faster than the state-of-the-art while retaining the same accuracy.
翻訳日:2022-11-12 20:45:40 公開日:2020-07-09
# one-shot hard thresholdingによる1ビット圧縮センシング

One-Bit Compressed Sensing via One-Shot Hard Thresholding ( http://arxiv.org/abs/2007.03641v2 )

ライセンス: Link先を確認
Jie Shen(参考訳) 本論文は1ビット圧縮センシングの問題に対処し,その目的は,その2進数の測定値からスパース信号を推定することである。 本研究では,非凸スパルシティー拘束型プログラムについて検討し,ガウス幅の概念から遠ざかる新しい簡潔な解析法を提案する。 高確率では、単純なアルゴリズムが$\ell_2$-metric の下で正規化信号の正確な近似を生成することが保証される。 その上で,ノルム推定,リカバリ支援,モデルの誤特定に対処する新たな結果のアンサンブルを確立する。 計算側では、非凸プログラムは時間複雑性とメモリフットプリントの観点から劇的に効率的である1段階のハードしきい値で解くことができることを示した。 統計的には, 標準条件下では最適に近い誤差率を評価できることがわかった。 理論的結果は数値実験によって裏付けられる。

This paper concerns the problem of 1-bit compressed sensing, where the goal is to estimate a sparse signal from a few of its binary measurements. We study a non-convex sparsity-constrained program and present a novel and concise analysis that moves away from the widely used notion of Gaussian width. We show that with high probability a simple algorithm is guaranteed to produce an accurate approximation to the normalized signal of interest under the $\ell_2$-metric. On top of that, we establish an ensemble of new results that address norm estimation, support recovery, and model misspecification. On the computational side, it is shown that the non-convex program can be solved via one-step hard thresholding which is dramatically efficient in terms of time complexity and memory footprint. On the statistical side, it is shown that our estimator enjoys a near-optimal error rate under standard conditions. The theoretical results are substantiated by numerical experiments.
翻訳日:2022-11-12 19:25:04 公開日:2020-07-09
# ディープニューラルネットワークにおける階層的核生成

Hierarchical nucleation in deep neural networks ( http://arxiv.org/abs/2007.03506v2 )

ライセンス: Link先を確認
Diego Doimo, Aldo Glielmo, Alessio Ansuini, Alessandro Laio(参考訳) 深層畳み込みネットワーク(DCN)は、同じ抽象的特徴を共有するデータがより近く、より近い位置にある意味のある表現を学習する。 これらの表現とその生成方法を理解することは、疑わしい実践的で理論的な関心事である。 本研究では,いくつかの最先端DCNの隠蔽層にまたがるImageNetデータセットの確率密度の進化について検討する。 その結果,初期層は分類に無関係な構造を取り除き,一様確率密度を生成することがわかった。 その後の層では、密度ピークは概念の意味的階層を反映する階層的な方法で発生する。 単一のカテゴリに対応する密度ピークは出力と非常に鋭い遷移を通してのみ現れ、これは不均質な液体の核生成過程に似ている。 このプロセスは、ピークのトポグラフィーがカテゴリの意味的関係を再構築できる出力層の確率密度のフットプリントを残している。

Deep convolutional networks (DCNs) learn meaningful representations where data that share the same abstract characteristics are positioned closer and closer. Understanding these representations and how they are generated is of unquestioned practical and theoretical interest. In this work we study the evolution of the probability density of the ImageNet dataset across the hidden layers in some state-of-the-art DCNs. We find that the initial layers generate a unimodal probability density getting rid of any structure irrelevant for classification. In subsequent layers density peaks arise in a hierarchical fashion that mirrors the semantic hierarchy of the concepts. Density peaks corresponding to single categories appear only close to the output and via a very sharp transition which resembles the nucleation process of a heterogeneous liquid. This process leaves a footprint in the probability density of the output layer where the topography of the peaks allows reconstructing the semantic relationships of the categories.
翻訳日:2022-11-12 18:29:49 公開日:2020-07-09
# 無バイアス自由度バイディングシステム

Unbiased Lift-based Bidding System ( http://arxiv.org/abs/2007.04002v2 )

ライセンス: Link先を確認
Daisuke Moriwaki and Yuta Hayakawa and Isshu Munemasa and Yuta Saito and Akira Matsui(参考訳) オンラインディスプレイ広告オークションの従来の入札戦略は、クリックや変換のような観察されたパフォーマンス指標に大きく依存している。 しかし、これらの容易に観測可能な指標をナビゲート的に追求する入札戦略は、広告主の利益率の最適化に失敗する。 むしろ、最大の収益につながる入札戦略は、特定のユーザーに広告を表示するというパフォーマンス向上を追求する戦略だ。 したがって、ログデータから、ターゲット変数上の各ユーザに広告を表示することのリフト効果を予測することが不可欠である。 しかし,過去の入札戦略で収集したトレーニングデータは,入賞印象に対して強いバイアスを持つ可能性があるため,リフト効果の予測は困難である。 本研究では、偏りのあるログデータから昇降効果を正確に予測し、広告主の利益を最大化するUnbiased Liftベースの入札システムを開発する。 提案方式は,理論上はログ内固有のバイアスを軽減し,高パフォーマンスなリフトベース入札戦略を実現する最初のシステムである。 実世界の大規模A/Bテストは,提案システムの優位性と実用性を示す。

Conventional bidding strategies for online display ad auction heavily relies on observed performance indicators such as clicks or conversions. A bidding strategy naively pursuing these easily observable metrics, however, fails to optimize the profitability of the advertisers. Rather, the bidding strategy that leads to the maximum revenue is a strategy pursuing the performance lift of showing ads to a specific user. Therefore, it is essential to predict the lift-effect of showing ads to each user on their target variables from observed log data. However, there is a difficulty in predicting the lift-effect, as the training data gathered by a past bidding strategy may have a strong bias towards the winning impressions. In this study, we develop Unbiased Lift-based Bidding System, which maximizes the advertisers' profit by accurately predicting the lift-effect from biased log data. Our system is the first to enable high-performing lift-based bidding strategy by theoretically alleviating the inherent bias in the log. Real-world, large-scale A/B testing successfully demonstrates the superiority and practicability of the proposed system.
翻訳日:2022-11-12 12:47:09 公開日:2020-07-09
# 基板特異的有機反応条件予測のためのグラフニューラルネットワーク

Graph Neural Networks for the Prediction of Substrate-Specific Organic Reaction Conditions ( http://arxiv.org/abs/2007.04275v2 )

ライセンス: Link先を確認
Serim Ryou, Michael R. Maser, Alexander Y. Cui, Travis J. DeLano, Yisong Yue, Sarah E. Reisman(参考訳) 有機化学反応をモデル化するためにグラフニューラルネットワーク(GNN)を用いた系統的研究を行った。 そこで,有機化学文献から得られた4つのユビキタス反応のデータセットを作成した。 実験試薬と条件の識別に関わる分類タスクに対して、7つの異なるGNNアーキテクチャを評価した。 モデルは反応条件に影響を及ぼし正確な予測につながる特定のグラフの特徴を特定できる。 その結果、分子機械学習の進歩に大きな期待が持たれている。

We present a systematic investigation using graph neural networks (GNNs) to model organic chemical reactions. To do so, we prepared a dataset collection of four ubiquitous reactions from the organic chemistry literature. We evaluate seven different GNN architectures for classification tasks pertaining to the identification of experimental reagents and conditions. We find that models are able to identify specific graph features that affect reaction conditions and lead to accurate predictions. The results herein show great promise in advancing molecular machine learning.
翻訳日:2022-11-12 10:09:19 公開日:2020-07-09
# 音響シーン分類における深層構造を用いた分散識別情報の取得

Capturing scattered discriminative information using a deep architecture in acoustic scene classification ( http://arxiv.org/abs/2007.04631v1 )

ライセンス: Link先を確認
Hye-jin Shim, Jee-weon Jung, Ju-ho Kim, Ha-jin Yu(参考訳) 音響シーン分類(ASC)には、多くの一般的な音響特性を共有するクラスが頻繁に存在する。 このようなクラスを区別するためには、データ全体に散らばる自明な詳細が重要な手がかりになり得る。 しかし、これらの詳細は目立たず、従来の非線形アクティベーション(ReLUなど)で容易に取り除かれる。 さらに、設計上の選択を自明な細部を強調することは、システムが十分に一般化されていない場合、容易に過度に適合する。 そこで本研究では,ascタスクの特徴の分析に基づいて,識別情報を取り込む様々な手法を考察し,オーバーフィッティング問題を同時に緩和する。 深層ニューラルネットワークにおける従来の非線形活性化を置き換えるために,最大特徴写像法を採用し,畳み込み層の出力の異なるフィルタ間の要素ワイズ比較を適用した。 2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。 音響シーンの検出と分類を行い,2020 Task1-aデータセットを用いて提案手法の検証を行った。 その結果,提案方式はベースラインの65.1%に対して,最高性能のシステムは70.4%の精度でベースラインを一貫して上回ることがわかった。

Frequently misclassified pairs of classes that share many common acoustic properties exist in acoustic scene classification (ASC). To distinguish such pairs of classes, trivial details scattered throughout the data could be vital clues. However, these details are less noticeable and are easily removed using conventional non-linear activations (e.g. ReLU). Furthermore, making design choices to emphasize trivial details can easily lead to overfitting if the system is not sufficiently generalized. In this study, based on the analysis of the ASC task's characteristics, we investigate various methods to capture discriminative information and simultaneously mitigate the overfitting problem. We adopt a max feature map method to replace conventional non-linear activations in a deep neural network, and therefore, we apply an element-wise comparison between different filters of a convolution layer's output. Two data augment methods and two deep architecture modules are further explored to reduce overfitting and sustain the system's discriminative power. Various experiments are conducted using the detection and classification of acoustic scenes and events 2020 task1-a dataset to validate the proposed methods. Our results show that the proposed system consistently outperforms the baseline, where the single best performing system has an accuracy of 70.4% compared to 65.1% of the baseline.
翻訳日:2022-11-12 05:27:02 公開日:2020-07-09
# 音声キャプションのための頻繁な授業に基づくマルチタスク正規化

Multi-task Regularization Based on Infrequent Classes for Audio Captioning ( http://arxiv.org/abs/2007.04660v1 )

ライセンス: Link先を確認
Emre \c{C}ak{\i}r and Konstantinos Drossos and Tuomas Virtanen(参考訳) 音声キャプションはマルチモーダルタスクであり、一般的な音声の内容を自然言語で記述することに焦点を当てている。 ほとんどの音声キャプションはディープニューラルネットワークに基づいており、エンコーダ-デコーダスキームとオーディオクリップと対応する自然言語記述(キャプション)を備えたデータセットを使用している。 音声キャプションにおける重要な課題は、字幕内の単語の分布である:いくつかの単語は非常に頻繁であるが、音響的に非形式的、すなわち、機能語(例えば「a」や「the」)と他の単語は稀だが情報的、すなわち内容語(例えば形容詞、名詞)である。 本稿では,このクラス不均衡問題を緩和する2つの方法を提案する。 まず、音声キャプションのための自動エンコーダ設定において、各単語の学習損失に対する寄与度を、データセット全体の発生回数に反比例する重み付けを行う。 次に,マルチクラス音声キャプションタスクに加えて,個別のデコーダを訓練することにより,クリップレベルコンテンツワード検出に基づくマルチラベルサイドタスクを定義する。 音声キャプションタスクのための共同訓練エンコーダを正規化するために,第2タスクからの損失を利用する。 提案手法は,最近公開された大規模音声キャプションデータセットであるClosoを用いて評価し,本手法よりもSPIDEr法の方が375%向上したことを示す。

Audio captioning is a multi-modal task, focusing on using natural language for describing the contents of general audio. Most audio captioning methods are based on deep neural networks, employing an encoder-decoder scheme and a dataset with audio clips and corresponding natural language descriptions (i.e. captions). A significant challenge for audio captioning is the distribution of words in the captions: some words are very frequent but acoustically non-informative, i.e. the function words (e.g. "a", "the"), and other words are infrequent but informative, i.e. the content words (e.g. adjectives, nouns). In this paper we propose two methods to mitigate this class imbalance problem. First, in an autoencoder setting for audio captioning, we weigh each word's contribution to the training loss inversely proportional to its number of occurrences in the whole dataset. Secondly, in addition to multi-class, word-level audio captioning task, we define a multi-label side task based on clip-level content word detection by training a separate decoder. We use the loss from the second task to regularize the jointly trained encoder for the audio captioning task. We evaluate our method using Clotho, a recently published, wide-scale audio captioning dataset, and our results show an increase of 37\% relative improvement with SPIDEr metric over the baseline method.
翻訳日:2022-11-12 05:26:41 公開日:2020-07-09
# Green Lighting ML: デプロイメントにおけるマシンラーニングシステムの信頼性、統合性、可用性

Green Lighting ML: Confidentiality, Integrity, and Availability of Machine Learning Systems in Deployment ( http://arxiv.org/abs/2007.04693v1 )

ライセンス: Link先を確認
Abhishek Gupta, Erick Galinkin(参考訳) セキュリティと倫理の両方が、機械学習システムが信頼できることを保証するための核心である。 プロダクション機械学習では、一般的にモデルを構築している人からモデルをデプロイしている人への手引きがある。 このハンドオフでは、モデル展開を担当するエンジニアは、しばしば、モデルの詳細に依存しないため、その使用、露出、妥協に関連する潜在的な脆弱性が引き起こされる。 モデル盗難、モデル逆転、モデル誤用といったテクニックはモデルデプロイメントでは考慮されないため、データサイエンティストや機械学習エンジニアがこれらの潜在的なリスクを理解して、モデルをデプロイし、ホストするエンジニアに伝えることが可能である。 これは機械学習コミュニティのオープンな問題であり、この問題を軽減するためには、モデルのプライバシとセキュリティを検証する自動化システムを開発する必要がある。

Security and ethics are both core to ensuring that a machine learning system can be trusted. In production machine learning, there is generally a hand-off from those who build a model to those who deploy a model. In this hand-off, the engineers responsible for model deployment are often not privy to the details of the model and thus, the potential vulnerabilities associated with its usage, exposure, or compromise. Techniques such as model theft, model inversion, or model misuse may not be considered in model deployment, and so it is incumbent upon data scientists and machine learning engineers to understand these potential risks so they can communicate them to the engineers deploying and hosting their models. This is an open problem in the machine learning community and in order to help alleviate this issue, automated systems for validating privacy and security of models need to be developed, which will help to lower the burden of implementing these hand-offs and increasing the ubiquity of their adoption.
翻訳日:2022-11-12 05:26:15 公開日:2020-07-09
# グラフニューラルネットワークトポロジー攻撃に対するノードコピー

Node Copying for Protection Against Graph Neural Network Topology Attacks ( http://arxiv.org/abs/2007.06704v1 )

ライセンス: Link先を確認
Florence Regol, Soumyasundar Pal and Mark Coates(参考訳) 敵攻撃は既存のディープラーニングモデルの性能に影響を与える可能性がある。 グラフベースの機械学習技術への関心が高まり、これらのモデルが攻撃にも脆弱であることを示唆する調査が行われた。 特に、グラフトポロジの破損は、グラフベースの学習アルゴリズムの性能を著しく低下させる可能性がある。 これは、これらのアルゴリズムの予測能力が、グラフ接続によって課される類似性構造に大きく依存しているためである。 したがって、汚職の位置を検出し、発生したエラーを修正することが重要である。 近年,検出問題に対処する研究がいくつかあるが,これらの手法は下流学習課題に対する攻撃の影響に対処していない。 本研究では,敵の攻撃による分類の劣化を軽減するために,ノードコピーを用いたアルゴリズムを提案する。 提案手法は,ダウンストリームタスクのモデルがトレーニングされた後にのみ適用され,追加した計算コストは大規模グラフに対して十分にスケールする。 実験の結果,いくつかの実世界のデータセットに対するアプローチの有効性が示された。

Adversarial attacks can affect the performance of existing deep learning models. With the increased interest in graph based machine learning techniques, there have been investigations which suggest that these models are also vulnerable to attacks. In particular, corruptions of the graph topology can degrade the performance of graph based learning algorithms severely. This is due to the fact that the prediction capability of these algorithms relies mostly on the similarity structure imposed by the graph connectivity. Therefore, detecting the location of the corruption and correcting the induced errors becomes crucial. There has been some recent work which tackles the detection problem, however these methods do not address the effect of the attack on the downstream learning task. In this work, we propose an algorithm that uses node copying to mitigate the degradation in classification that is caused by adversarial attacks. The proposed methodology is applied only after the model for the downstream task is trained and the added computation cost scales well for large graphs. Experimental results show the effectiveness of our approach for several real world datasets.
翻訳日:2022-11-12 05:25:26 公開日:2020-07-09
# ASPのTreewidth-Aware Complexity: すべての正のサイクルが等しく難しいわけではない

Treewidth-Aware Complexity in ASP: Not all Positive Cycles are Equally Hard ( http://arxiv.org/abs/2007.04620v1 )

ライセンス: Link先を確認
Markus Hecher, Jorge Fandinno(参考訳) 正規解集合プログラム(ASP)の整合性を決定することはNP完全であり、古典命題論理(SAT)の満足度問題と同じくらい難しいことはよく知られている。 これらの問題を解決する最良のアルゴリズムは、最悪の場合指数関数的な時間がかかる。 指数時間仮説 (eth) は、この結果がsat、すなわちsatがサブ指数時間で解くことができないことを示唆する。 これにより、ASP.NETの一貫性の問題にも結果がきついことがすぐに証明される。 しかし、問題のツリー幅を考慮すると、ASP の一貫性問題は SAT よりもわずかに難しい:SAT は木幅 k において指数時間で実行されるアルゴリズムによって解けるが、最近、ASP は k \cdot log(k) において指数時間を必要とすることを示した。 この追加コストは、プログラムの正のサイクルのために自己支持の真の原子が存在しないことをチェックするためである。 本稿では,上述の結果を洗練し,プログラムの正の依存性グラフにおける最大強連結成分の最小値である k \cdot log({\lambda}) において,asp の一貫性問題を指数関数時間で解くことができることを示す。 上述の制限に従うASPからSATへのツリー幅対応の削減と問題を解く動的プログラミングアルゴリズムを提供する。

It is well-know that deciding consistency for normal answer set programs (ASP) is NP-complete, thus, as hard as the satisfaction problem for classical propositional logic (SAT). The best algorithms to solve these problems take exponential time in the worst case. The exponential time hypothesis (ETH) implies that this result is tight for SAT, that is, SAT cannot be solved in subexponential time. This immediately establishes that the result is also tight for the consistency problem for ASP. However, accounting for the treewidth of the problem, the consistency problem for ASP is slightly harder than SAT: while SAT can be solved by an algorithm that runs in exponential time in the treewidth k, it was recently shown that ASP requires exponential time in k \cdot log(k). This extra cost is due checking that there are no self-supported true atoms due to positive cycles in the program. In this paper, we refine the above result and show that the consistency problem for ASP can be solved in exponential time in k \cdot log({\lambda}) where {\lambda} is the minimum between the treewidth and the size of the largest strongly-connected component in the positive dependency graph of the program. We provide a dynamic programming algorithm that solves the problem and a treewidth-aware reduction from ASP to SAT that adhere to the above limit.
翻訳日:2022-11-12 05:20:57 公開日:2020-07-09
# 知識コンパイルを用いた知的輸送システムの説明可能性:交通灯制御器ケース

Explainability of Intelligent Transportation Systems using Knowledge Compilation: a Traffic Light Controller Case ( http://arxiv.org/abs/2007.04916v1 )

ライセンス: Link先を確認
Salom\'on Wollenstein-Betech, Christian Muise, Christos G. Cassandras, Ioannis Ch. Paschalidis, Yasaman Khazaeni(参考訳) 環境上で意思決定を行う自動コントローラの使用は広く、ブラックボックスモデルに基づくことが多い。 我々は,システムの状態からコントローラの判断に説明可能性をもたらすために知識コンパイル理論を用いる。 このために,シミュレートされた過去の状態動作データを入力として使用し,状態とアクションを関連付けたコンパクトで構造化された表現を構築する。 本手法は,道路の異なる地域で車両の存在(または不在)を観測することにより,制御器が光サイクルを選択する,交通光制御のシナリオに実装する。

Usage of automated controllers which make decisions on an environment are widespread and are often based on black-box models. We use Knowledge Compilation theory to bring explainability to the controller's decision given the state of the system. For this, we use simulated historical state-action data as input and build a compact and structured representation which relates states with actions. We implement this method in a Traffic Light Control scenario where the controller selects the light cycle by observing the presence (or absence) of vehicles in different regions of the incoming roads.
翻訳日:2022-11-12 05:20:31 公開日:2020-07-09
# 無人Kalman Smootherを用いたBluetooth低エネルギーRSSIからの近接推定

Inferring proximity from Bluetooth Low Energy RSSI with Unscented Kalman Smoothers ( http://arxiv.org/abs/2007.05057v1 )

ライセンス: Link先を確認
Tom Lovett, Mark Briers, Marcos Charalambides, Radka Jersakova, James Lomax and Chris Holmes(参考訳) コビッドウイルスのパンデミックは、国際人口の感染拡大を管理する様々なアプローチをもたらした。 例えば、携帯電話のアプリケーションでは、感染リスクの2つの重要な要素、感染している可能性のある個人との近接と近接期間を自動的に推測することで、感染した個人とその接触者を警告する。 前者のコンポーネントである near は、距離センサとして bluetooth low energy (ble) 受信信号強度インジケータ (rssi) に依存しており、デバイスタイプの違い、オンボディのデバイス位置、デバイス方向、ローカル環境、電波伝搬に関連する一般的なノイズなど、予測不能な変動が原因で問題となっている。 本稿では,RSSI値の与えられた距離列よりも後方確率を推定する手法を提案する。 非線型状態空間モデリングに単次元アンセントカルマン・スモーザー(UKS)を用い、変動源を直接キャプチャする生成モデルや、距離と感染リスクの両方を最適化目的関数として用いたトレーニングデータから適切な観測関数を学習する識別モデルなど、いくつかのガウス過程観察変換を概説する。 その結果、実世界のデータセット上では$\mathcal{o}(n)$ timeで優れたリスク予測が可能となり、同じトレーニングデータから得られた従来の分類方法よりも英国の方が優れていることがわかった。

The Covid-19 pandemic has resulted in a variety of approaches for managing infection outbreaks in international populations. One example is mobile phone applications, which attempt to alert infected individuals and their contacts by automatically inferring two key components of infection risk: the proximity to an individual who may be infected, and the duration of proximity. The former component, proximity, relies on Bluetooth Low Energy (BLE) Received Signal Strength Indicator(RSSI) as a distance sensor, and this has been shown to be problematic; not least because of unpredictable variations caused by different device types, device location on-body, device orientation, the local environment and the general noise associated with radio frequency propagation. In this paper, we present an approach that infers posterior probabilities over distance given sequences of RSSI values. Using a single-dimensional Unscented Kalman Smoother (UKS) for non-linear state space modelling, we outline several Gaussian process observation transforms, including: a generative model that directly captures sources of variation; and a discriminative model that learns a suitable observation function from training data using both distance and infection risk as optimisation objective functions. Our results show that good risk prediction can be achieved in $\mathcal{O}(n)$ time on real-world data sets, with the UKS outperforming more traditional classification methods learned from the same training data.
翻訳日:2022-11-12 05:19:59 公開日:2020-07-09
# 5Gネットワークセキュリティにおける人工知能と機械学習 : 機会、利点、今後の研究動向

Artificial Intelligence and Machine Learning in 5G Network Security: Opportunities, advantages, and future research trends ( http://arxiv.org/abs/2007.04490v1 )

ライセンス: Link先を確認
Noman Haider, Muhammad Zeeshan Baig, Muhammad Imran(参考訳) 5Gネットワークの最近の技術とアーキテクチャの進歩は、世界中に展開が始まって以来、その価値が証明されている。 コアネットワークへのアクセスによるパフォーマンス向上要因は、主要なネットワーク機能のソフトウェア化、クラウド化、仮想化である。 急速な進化とともに、システムのリスクや脅威、脆弱性がもたらされます。 したがって、不正な証明のエンドツーエンド(E2E)セキュリティを確保することが重要な問題となる。 人工知能(AI)と機械学習(ML)は、多種多様な脅威に対する効率的なセキュリティプロトコルの設計、モデリング、自動化において重要な役割を果たす。 AIとMLはすでに、高い精度で分類、識別、自動化の分野でその効果を証明している。 5Gネットワークの第一のセールスポイントはデータレートと速度の向上であり、一般的な防犯対策を用いて異なるポイントからの幅広い脅威に対処することは困難である。 したがって、aiとmlは、高度にデータ駆動のソフトウェアと仮想化されたネットワークコンポーネントを保護する上で中心的な役割を果たすことができる。 本稿では、5GネットワークセキュリティのためのAIおよびML駆動アプリケーション、その意味と研究の方向性について述べる。 また,脅威分類と異常検出のための5Gアーキテクチャにおけるキーデータ収集点の概要について述べる。

Recent technological and architectural advancements in 5G networks have proven their worth as the deployment has started over the world. Key performance elevating factor from access to core network are softwareization, cloudification and virtualization of key enabling network functions. Along with the rapid evolution comes the risks, threats and vulnerabilities in the system for those who plan to exploit it. Therefore, ensuring fool proof end-to-end (E2E) security becomes a vital concern. Artificial intelligence (AI) and machine learning (ML) can play vital role in design, modelling and automation of efficient security protocols against diverse and wide range of threats. AI and ML has already proven their effectiveness in different fields for classification, identification and automation with higher accuracy. As 5G networks' primary selling point has been higher data rates and speed, it will be difficult to tackle wide range of threats from different points using typical/traditional protective measures. Therefore, AI and ML can play central role in protecting highly data-driven softwareized and virtualized network components. This article presents AI and ML driven applications for 5G network security, their implications and possible research directions. Also, an overview of key data collection points in 5G architecture for threat classification and anomaly detection are discussed.
翻訳日:2022-11-12 05:19:33 公開日:2020-07-09
# ナップサック制約を受ける高速適応型非単調サブモジュラー最大化

Fast Adaptive Non-Monotone Submodular Maximization Subject to a Knapsack Constraint ( http://arxiv.org/abs/2007.05014v1 )

ライセンス: Link先を確認
Georgios Amanatidis, Federico Fusco, Philip Lazos, Stefano Leonardi, Rebecca Reiffenh\"auser(参考訳) 制限付きサブモジュラー最大化問題は、パーソナライズドレコメンデーション、チーム形成、バイラルマーケティングによる収益最大化など、幅広い応用を包含している。 現代のアプリケーションで発生する巨大なインスタンスは、既存のアルゴリズムを違法に遅くするが、それらのインスタンスは本質的に確率的でもある。 これらの課題に着目し,ナップサック制約を受ける(多分単調でない)部分モジュラー関数を最大化する古典的な問題を再考する。 5.83$の近似を達成し、o(n \log n)$の時間、すなわち、他の最先端のアルゴリズムよりも少なくとも1倍の速さで実行される単純なランダム化グリーディアルゴリズムを提案する。 私たちのアプローチの堅牢性は、問題を確率的なバージョンにさらに移すことを可能にします。 そこでは,非単調な目的に対する最初の定数近似である最適適応ポリシーに対する9ドル近似を得る。 提案アルゴリズムの実験的評価は,実データおよび合成データの性能向上を示す。

Constrained submodular maximization problems encompass a wide variety of applications, including personalized recommendation, team formation, and revenue maximization via viral marketing. The massive instances occurring in modern day applications can render existing algorithms prohibitively slow, while frequently, those instances are also inherently stochastic. Focusing on these challenges, we revisit the classic problem of maximizing a (possibly non-monotone) submodular function subject to a knapsack constraint. We present a simple randomized greedy algorithm that achieves a $5.83$ approximation and runs in $O(n \log n)$ time, i.e., at least a factor $n$ faster than other state-of-the-art algorithms. The robustness of our approach allows us to further transfer it to a stochastic version of the problem. There, we obtain a $9$-approximation to the best adaptive policy, which is the first constant approximation for non-monotone objectives. Experimental evaluation of our algorithms showcases their improved performance on real and synthetic data.
翻訳日:2022-11-12 05:17:55 公開日:2020-07-09
# SARS-CoV-2ウイルスRNA配列分類と畳み込みニューラルネットワークによる地理的解析

SARS-CoV-2 virus RNA sequence classification and geographical analysis with convolutional neural networks approach ( http://arxiv.org/abs/2007.05055v1 )

ライセンス: Link先を確認
Selcuk Yazar(参考訳) 2019年12月に世界中に広まり、現在も活動しているコビッドウイルスは、今日世界で2万5000人以上の死者を出した。 この課題に関する研究は、ウイルスの遺伝子構造、ワクチンの開発、疾患の経過、およびその発生源の分析に焦点が当てられている。 本研究では,sars-cov-2ウイルスに属するrna配列を2つの画像処理アルゴリズムを用いて遺伝子モチーフに変換し,畳み込みニューラルネットワーク(cnn)モデルに分類した。 CNNモデルはアジア、ヨーロッパ、アメリカ、オセアニアに分類されたRNA配列で平均98%の面積曲線(AUC)値を達成した。 その結果得られたニューラルネットワークモデルは、トルコで分離されたウイルスの変異の系統解析に用いられた。 その結果,SARS-CoV-2ウイルスの記録を世界中に保持するGISAIDデータベースの遺伝子アライメント値と比較した。 実験結果から,cnnモデルを用いたウイルスの地理的分布の検出が効率的である可能性が示唆された。

Covid-19 infection, which spread to the whole world in December 2019 and is still active, caused more than 250 thousand deaths in the world today. Researches on this subject have been focused on analyzing the genetic structure of the virus, developing vaccines, the course of the disease, and its source. In this study, RNA sequences belonging to the SARS-CoV-2 virus are transformed into gene motifs with two basic image processing algorithms and classified with the convolutional neural network (CNN) models. The CNN models achieved an average of 98% Area Under Curve(AUC) value was achieved in RNA sequences classified as Asia, Europe, America, and Oceania. The resulting artificial neural network model was used for phylogenetic analysis of the variant of the virus isolated in Turkey. The classification results reached were compared with gene alignment values in the GISAID database, where SARS-CoV-2 virus records are kept all over the world. Our experimental results have revealed that now the detection of the geographic distribution of the virus with the CNN models might serve as an efficient method.
翻訳日:2022-11-12 05:17:35 公開日:2020-07-09
# ラベル付けの負担を軽減する:注意分岐エンコーダ-デコーダネットワークによる文生成

Alleviating the Burden of Labeling: Sentence Generation by Attention Branch Encoder-Decoder Network ( http://arxiv.org/abs/2007.04557v1 )

ライセンス: Link先を確認
Tadashi Ogura, Aly Magassouba, Komei Sugiura, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, and Hisashi Kawai(参考訳) 家庭内サービスロボット(DSR)は、在宅勤務者の不足に対する有望な解決策である。 しかし、DSRの主な制限の1つは、言語を通して自然に相互作用できないことである。 近年、この制限に対処するためにデータ駆動アプローチが有効であることが示されているが、コストのかかる大規模なデータセットを必要とすることが多い。 この背景から、例えば「テーブルの上に緑茶瓶をくれ」など、フェッチング命令の自動文生成を目標としています。 適切な表現は対象のオブジェクトやその周辺に依存するため、これは特に困難である。 本稿では,視覚入力から文を生成するためのアテンションブランチエンコーダ-デコーダネットワーク(ABEN)を提案する。 他のアプローチとは異なり、ABENはサブワードレベルのアテンションを使用し、サブワード埋め込みに基づいた文を生成するマルチモーダルアテンションブランチを持つ。 実験では,画像キャプションにおける4つの標準指標を用いて,ABENをベースライン法と比較した。 その結果、ABENはこれらの指標でベースラインを上回りました。

Domestic service robots (DSRs) are a promising solution to the shortage of home care workers. However, one of the main limitations of DSRs is their inability to interact naturally through language. Recently, data-driven approaches have been shown to be effective for tackling this limitation; however, they often require large-scale datasets, which is costly. Based on this background, we aim to perform automatic sentence generation of fetching instructions: for example, "Bring me a green tea bottle on the table." This is particularly challenging because appropriate expressions depend on the target object, as well as its surroundings. In this paper, we propose the attention branch encoder--decoder network (ABEN), to generate sentences from visual inputs. Unlike other approaches, the ABEN has multimodal attention branches that use subword-level attention and generate sentences based on subword embeddings. In experiments, we compared the ABEN with a baseline method using four standard metrics in image captioning. Results show that the ABEN outperformed the baseline in terms of these metrics.
翻訳日:2022-11-12 05:12:38 公開日:2020-07-09
# マルチスケールモーション補償と時空間モデルを用いたニューラルビデオ符号化

Neural Video Coding using Multiscale Motion Compensation and Spatiotemporal Context Model ( http://arxiv.org/abs/2007.04574v1 )

ライセンス: Link先を確認
Haojie Liu, Ming Lu, Zhan Ma, Fan Wang, Zhihuang Xie, Xun Cao, Yao Wang(参考訳) 過去20年間で、従来のブロックベースのビデオコーディングは顕著な進歩を遂げ、MPEG-4、H.264/AVC、H.265/HEVCといった有名な標準が生まれた。 一方で、ディープニューラルネットワーク(dnn)は、視覚的コンテンツ理解、特徴抽出、コンパクト表現に強力な能力を示している。 以前のいくつかの研究は、学習されたビデオ符号化アルゴリズムをエンドツーエンドで検討しており、従来の方法と比べて大きな可能性を示している。 本稿では, フレーム内画素, フレーム間動き, フレーム間補償残差の相関を利用するために, 共同空間および時間的事前集約(PA)を用いた可変オートエンコーダ(VAE)を用いたエンドツーエンドのディープビデオ符号化フレームワークを提案する。 NVCの新機能には以下のものがある。 1) 広い範囲にわたる動きを推定・補償するために, マルチスケール流れ場を生成する動き特徴の符号化のためのVAEのピラミッドデコーダとともに, 教師なしマルチスケール運動補償ネットワーク(MS-MCN)を提案する。 2) 運動情報の効率的なエントロピー符号化のための新しい適応時空間文脈モデルを設計する。 3)vaesのボトルネックである非局所的注意モジュール(nlam)を暗黙的適応的特徴抽出とアクティベーションのために採用し,その高い変換能力とグローバル情報と局所情報との重み付けの不等さを生かした。 4) Pフレーム間の時間誤差の伝播を最小限に抑えるため, マルチモジュール最適化とマルチフレームトレーニング戦略を導入する。 NVCは低遅延因果条件で評価され、一般的なテスト条件に従ってH.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮手法と比較され、PSNRおよびMS-SSIMの歪み測定値において、すべての一般的なテストシーケンスに対して一貫した利得を示す。

Over the past two decades, traditional block-based video coding has made remarkable progress and spawned a series of well-known standards such as MPEG-4, H.264/AVC and H.265/HEVC. On the other hand, deep neural networks (DNNs) have shown their powerful capacity for visual content understanding, feature extraction and compact representation. Some previous works have explored the learnt video coding algorithms in an end-to-end manner, which show the great potential compared with traditional methods. In this paper, we propose an end-to-end deep neural video coding framework (NVC), which uses variational autoencoders (VAEs) with joint spatial and temporal prior aggregation (PA) to exploit the correlations in intra-frame pixels, inter-frame motions and inter-frame compensation residuals, respectively. Novel features of NVC include: 1) To estimate and compensate motion over a large range of magnitudes, we propose an unsupervised multiscale motion compensation network (MS-MCN) together with a pyramid decoder in the VAE for coding motion features that generates multiscale flow fields, 2) we design a novel adaptive spatiotemporal context model for efficient entropy coding for motion information, 3) we adopt nonlocal attention modules (NLAM) at the bottlenecks of the VAEs for implicit adaptive feature extraction and activation, leveraging its high transformation capacity and unequal weighting with joint global and local information, and 4) we introduce multi-module optimization and a multi-frame training strategy to minimize the temporal error propagation among P-frames. NVC is evaluated for the low-delay causal settings and compared with H.265/HEVC, H.264/AVC and the other learnt video compression methods following the common test conditions, demonstrating consistent gains across all popular test sequences for both PSNR and MS-SSIM distortion metrics.
翻訳日:2022-11-12 05:12:21 公開日:2020-07-09
# 水路のゴミ検知のための注意ニューラルネットワーク

Attention Neural Network for Trash Detection on Water Channels ( http://arxiv.org/abs/2007.04639v1 )

ライセンス: Link先を確認
Mohbat Tharani, Abdul Wahab Amin, Mohammad Maaz and Murtaza Taj(参考訳) 都市を流れる川や運河はしばしばゴミを捨てるために違法に使用される。 これは淡水の水路を汚染し、下水道の閉塞を引き起こして都市洪水を引き起こす。 この汚染された水が農地に達すると、土壌が劣化し、重要な環境と経済的脅威が生じる。 捨てられたゴミは、しばしば水面に浮かんでいる。 ゴミは分解され、部分的に沈められ、小さな破片に分解され、その形状を曖昧にし、困難な検出問題を生じさせる他の物体と組み合わされた。 本稿では,都市部における運河水面に浮かぶ可視性ゴミの検出手法を提案する。 また、オブジェクトレベルのアノテーションを含む大規模なデータセットも提供しています。 より小さな物体の検出を改善する新しいアテンション層が提案されている。 本研究の終了に向けて,本手法と最先端物体検出器との詳細な比較を行い,本手法が小型物体の検出を著しく改善することを示す。 データセットは一般公開される予定だ。

Rivers and canals flowing through cities are often used illegally for dumping the trash. This contaminates freshwater channels as well as causes blockage in sewerage resulting in urban flooding. When this contaminated water reaches agricultural fields, it results in degradation of soil and poses critical environmental as well as economic threats. The dumped trash is often found floating on the water surface. The trash could be disfigured, partially submerged, decomposed into smaller pieces, clumped together with other objects which obscure its shape and creates a challenging detection problem. This paper proposes a method for the detection of visible trash floating on the water surface of the canals in urban areas. We also provide a large dataset, first of its kind, trash in water channels that contains object-level annotations. A novel attention layer is proposed that improves the detection of smaller objects. Towards the end of this paper, we provide a detailed comparison of our method with state-of-the-art object detectors and show that our method significantly improves the detection of smaller objects. The dataset will be made publicly available.
翻訳日:2022-11-12 05:11:43 公開日:2020-07-09
# 精密視覚サーボのためのモデル非依存メタ学習によるcnn切替学習

Learning to Switch CNNs with Model Agnostic Meta Learning for Fine Precision Visual Servoing ( http://arxiv.org/abs/2007.04645v1 )

ライセンス: Link先を確認
Prem Raj, Vinay P. Namboodiri and L. Behera(参考訳) 畳み込みニューラルネットワーク(cnns)は、手作業による特徴やカメラ固有のパラメータ、深度情報を必要としない、ラベル付きイメージペアデータからの相対的なカメラポーズ推定に成功している。 トレーニングされたCNNは、ポーズベースのビジュアルサーボ制御(PBVS)を実行するために使用できる。 視覚サーボ出力の品質を向上させる方法の1つは、相対ポーズ推定のためのcnnの精度を向上させることである。 相対的ポーズ回帰のための与えられた最先端CNNでは、視覚サーボ制御の性能向上をどうやって達成できるのか? 本稿では,視覚サーボ制御の精度を向上させるために,CNNの切り替えを検討する。 cnnを切り替えるという考えは、視覚サーボ制御のための相対カメラポーズレグレッサーを訓練するためのデータセットが、非常に小さなスケールから、最終的には大きなスケールまで、相対姿勢のバリエーションを含む必要があるためである。 cnnの2つの異なるインスタンスをトレーニングすると、lsd(large-scale-displacements)とssd(small-scale-displacements)の2つが、視覚サーボ実行中にそれらを切り替えることで、単一のcnnをlsd+ssdデータでトレーニングするよりも優れた結果が得られることがわかった。 しかし、追加のストレージオーバヘッドが発生し、手動で設定したしきい値によってスイッチング決定が行われるため、すべてのシーンで最適ではない可能性がある。 これらの欠点を解消するために,モデル非依存メタ学習(MAML)アルゴリズムに基づく効率的なスイッチング戦略を提案する。 このモデルでは、複数のタスクに同時に適するパラメータ、すなわちスイッチング決定のためのバイナリ分類、LSDデータに対する6DOFポーズ回帰、SSDデータに対する6DOFポーズ回帰を学習するために、単一のモデルを訓練する。 提案手法は、ストレージと実行時のオーバーヘッドがほとんど無視されるのに対して、単純なアプローチよりもはるかに優れている。

Convolutional Neural Networks (CNNs) have been successfully applied for relative camera pose estimation from labeled image-pair data, without requiring any hand-engineered features, camera intrinsic parameters or depth information. The trained CNN can be utilized for performing pose based visual servo control (PBVS). One of the ways to improve the quality of visual servo output is to improve the accuracy of the CNN for estimating the relative pose estimation. With a given state-of-the-art CNN for relative pose regression, how can we achieve an improved performance for visual servo control? In this paper, we explore switching of CNNs to improve the precision of visual servo control. The idea of switching a CNN is due to the fact that the dataset for training a relative camera pose regressor for visual servo control must contain variations in relative pose ranging from a very small scale to eventually a larger scale. We found that, training two different instances of the CNN, one for large-scale-displacements (LSD) and another for small-scale-displacements (SSD) and switching them during the visual servo execution yields better results than training a single CNN with the combined LSD+SSD data. However, it causes extra storage overhead and switching decision is taken by a manually set threshold which may not be optimal for all the scenes. To eliminate these drawbacks, we propose an efficient switching strategy based on model agnostic meta learning (MAML) algorithm. In this, a single model is trained to learn parameters which are simultaneously good for multiple tasks, namely a binary classification for switching decision, a 6DOF pose regression for LSD data and also a 6DOF pose regression for SSD data. The proposed approach performs far better than the naive approach, while storage and run-time overheads are almost negligible.
翻訳日:2022-11-12 05:11:28 公開日:2020-07-09
# latent regularized adversarial networkを用いた脳腫瘍の異常検出

Brain Tumor Anomaly Detection via Latent Regularized Adversarial Network ( http://arxiv.org/abs/2007.04734v1 )

ライセンス: Link先を確認
Nan Wang, Chengwei Chen, Yuan Xie, Lizhuang Ma(参考訳) 医用画像技術の発展に伴い、医用画像は患者を診断するための重要な基盤となっている。 収集されたデータの脳構造は複雑で、脳の異常の診断には医師や医師が多量のエネルギーを消費する必要がある。 脳腫瘍データの不均衡と稀な量のラベル付きデータを目指して,革新的な脳腫瘍異常検出アルゴリズムを提案する。 健常な(正常な)脳画像のみを訓練する半教師付き異常検出モデルを提案する。 モデルは、トレーニング過程における通常の画像の共通パターンをキャプチャし、潜在空間の再構成誤差に基づいて異常を検出する。 さらに,本手法ではまず特異値を用いて遅延空間を制約し,複数の損失関数を用いて画像空間を共同最適化することにより,特徴レベルの正常サンプルと異常サンプルを分離しやすくする。 本稿では,BraTS,HCP,MNIST,CIFAR-10データセットを用いて,その有効性と実践性を総合的に評価する。 我々の半教師あり手法は, 最先端の教師あり手法に比較して, 性能や性能に優れることを示した。

With the development of medical imaging technology, medical images have become an important basis for doctors to diagnose patients. The brain structure in the collected data is complicated, thence, doctors are required to spend plentiful energy when diagnosing brain abnormalities. Aiming at the imbalance of brain tumor data and the rare amount of labeled data, we propose an innovative brain tumor abnormality detection algorithm. The semi-supervised anomaly detection model is proposed in which only healthy (normal) brain images are trained. Model capture the common pattern of the normal images in the training process and detect anomalies based on the reconstruction error of latent space. Furthermore, the method first uses singular value to constrain the latent space and jointly optimizes the image space through multiple loss functions, which make normal samples and abnormal samples more separable in the feature-level. This paper utilizes BraTS, HCP, MNIST, and CIFAR-10 datasets to comprehensively evaluate the effectiveness and practicability. Extensive experiments on intra- and cross-dataset tests prove that our semi-supervised method achieves outperforms or comparable results to state-of-the-art supervised techniques.
翻訳日:2022-11-12 05:10:54 公開日:2020-07-09
# 2次元スライスVAEを用いた3次元脳MRIの分布のモデル化

Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE ( http://arxiv.org/abs/2007.04780v1 )

ライセンス: Link先を確認
Anna Volokitin, Ertunc Erdil, Neerav Karani, Kerem Can Tezcan, Xiaoran Chen, Luc Van Gool, Ender Konukoglu(参考訳) 確率論的モデリングは医用画像解析、特に脳磁気共鳴画像(MRI)解析において重要なツールである。 近年,高次元分布,特に変分オートエンコーダ(VAE)を推定するためのディープラーニング技術が,確率的モデリングのための新たな道を開いた。 ボリュームデータのモデリングは、利用可能な計算とトレーニングデータに制約があるため、2次元画像で十分に開発されたVAEを効果的に活用することは困難である。 2次元スライスvaeと,スライス間の関係を捉えるガウスモデルを組み合わせた3次元mr脳容積分布のモデル化法を提案する。 2次元モデルの潜在空間におけるサンプル平均と共分散をスライス方向上で推定することで,その評価を行う。 この組み合わせモデルにより、潜在変数の新しいコヒーレントスタックをサンプリングして、ボリュームのスライスにデコードできます。 また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。 提案手法は,従来の測定値と提案した評価値の両方に基づいて,高品質なボリュームを高解像度で生成する上で競合することを示す。

Probabilistic modelling has been an essential tool in medical image analysis, especially for analyzing brain Magnetic Resonance Images (MRI). Recent deep learning techniques for estimating high-dimensional distributions, in particular Variational Autoencoders (VAEs), opened up new avenues for probabilistic modeling. Modelling of volumetric data has remained a challenge, however, because constraints on available computation and training data make it difficult effectively leverage VAEs, which are well-developed for 2D images. We propose a method to model 3D MR brain volumes distribution by combining a 2D slice VAE with a Gaussian model that captures the relationships between slices. We do so by estimating the sample mean and covariance in the latent space of the 2D model over the slice direction. This combined model lets us sample new coherent stacks of latent variables to decode into slices of a volume. We also introduce a novel evaluation method for generated volumes that quantifies how well their segmentations match those of true brain anatomy. We demonstrate that our proposed model is competitive in generating high quality volumes at high resolutions according to both traditional metrics and our proposed evaluation.
翻訳日:2022-11-12 05:10:34 公開日:2020-07-09
# 深層学習と埋め込みを用いた文脈認識型推薦システムに関する体系的レビュー

A Systematic Review on Context-Aware Recommender Systems using Deep Learning and Embeddings ( http://arxiv.org/abs/2007.04782v1 )

ライセンス: Link先を確認
Igor Andr\'e Pegoraro Santana, Marcos Aurelio Domingues(参考訳) Recommender Systemsは、ユーザがWebシステムで関連する情報を見つける方法を改善するツールである。 より良いレコメンデーションを生成するためには、レコメンデーションプロセスで情報コンテキストを使用する必要がある。 コンテキスト対応レコメンダシステムは、最先端の結果を達成し、従来のレコメンダシステムを改善する。 推奨システムを構築するための多くのアプローチがあり、最も顕著な進歩の1つは、レコメンデーションシステムでデータを表現するための埋め込みの使用と、ユーザにレコメンデーションを生成するためのディープラーニングアーキテクチャの使用である。 体系的なレビューは、書誌レビューを行うための形式的で体系的な方法を採用しており、関連する研究を分析して、特定の研究領域におけるすべての研究を特定し評価するために用いられる。 コンテキスト認識レコメンダシステムを改善するために、ディープラーニングと埋め込み技術がどのように適用されているかを理解するために、体系的なレビューが行われた。 私たちはそれらを作成するのに使用されるアーキテクチャとそれらが使われるドメインをまとめた。

Recommender Systems are tools that improve how users find relevant information in web systems, so they do not face too much information. In order to generate better recommendations, the context of information should be used in the recommendation process. Context-Aware Recommender Systems were created, accomplishing state-of-the-art results and improving traditional recommender systems. There are many approaches to build recommender systems, and two of the most prominent advances in area have been the use of Embeddings to represent the data in the recommender system, and the use of Deep Learning architectures to generate the recommendations to the user. A systematic review adopts a formal and systematic method to perform a bibliographic review, and it is used to identify and evaluate all the research in certain area of study, by analyzing the relevant research published. A systematic review was conducted to understand how the Deep Learning and Embeddings techniques are being applied to improve Context-Aware Recommender Systems. We summarized the architectures that are used to create those and the domains that they are used.
翻訳日:2022-11-12 05:10:13 公開日:2020-07-09
# StyPath:ロバストな組織像分類のためのスタイル変換データ拡張

StyPath: Style-Transfer Data Augmentation For Robust Histology Image Classification ( http://arxiv.org/abs/2007.05008v1 )

ライセンス: Link先を確認
Pietro Antonio Cicalese, Aryan Mobiny, Pengyu Yuan, Jan Becker, Chandra Mohan, Hien Van Nguyen(参考訳) 腎移植例においても, 抗AMRの分類は困難であり, 組織組織染色は低サーバ間一致と低再現性が特徴である。 オブザーバ間不一致の原因の1つは、病理研究所(および内部)間の組織染色の質の変動と、アーカイブセクションの段階的な縮小である。 染色色や強度の変化は、病理学者にとって組織評価を困難にし、最終的に関連する形態的特徴を記述する能力に影響を及ぼす。 腎臓組織像に基づくamr状態を正確に予測できることは、患者の治療と治療を改善する上で重要である。 そこで本研究では,amr分類のためのロバストな深層ニューラルネットワークを構築するための新しいパイプラインを提案する。 それぞれの画像はGTX TITAN V gpuとpytorchを使って1.84 +0.03秒で生成され、他の一般的な組織学的データ拡張技術よりも高速になった。 我々は,モンテカルロ (MC) のベイズ性能の推定値を用いてモデル評価を行い,ベースラインモデルとStyPath拡張モデルを比較した。 また,経験的神経病理医が評価した結果のGrad-CAM表現も生成し,この定性解析を用いて各モデルによる仮定の解明を行った。 その結果,本手法は組織学的分類性能(誤差を14.8%から11.5%に低減)と一般化能力を向上させることが示唆された。

The classification of Antibody Mediated Rejection (AMR) in kidney transplant remains challenging even for experienced nephropathologists; this is partly because histological tissue stain analysis is often characterized by low inter-observer agreement and poor reproducibility. One of the implicated causes for inter-observer disagreement is the variability of tissue stain quality between (and within) pathology labs, coupled with the gradual fading of archival sections. Variations in stain colors and intensities can make tissue evaluation difficult for pathologists, ultimately affecting their ability to describe relevant morphological features. Being able to accurately predict the AMR status based on kidney histology images is crucial for improving patient treatment and care. We propose a novel pipeline to build robust deep neural networks for AMR classification based on StyPath, a histological data augmentation technique that leverages a light weight style-transfer algorithm as a means to reduce sample-specific bias. Each image was generated in 1.84 +- 0.03 seconds using a single GTX TITAN V gpu and pytorch, making it faster than other popular histological data augmentation techniques. We evaluated our model using a Monte Carlo (MC) estimate of Bayesian performance and generate an epistemic measure of uncertainty to compare both the baseline and StyPath augmented models. We also generated Grad-CAM representations of the results which were assessed by an experienced nephropathologist; we used this qualitative analysis to elucidate on the assumptions being made by each model. Our results imply that our style-transfer augmentation technique improves histological classification performance (reducing error from 14.8% to 11.5%) and generalization ability.
翻訳日:2022-11-12 05:09:23 公開日:2020-07-09
# カメラ-ライダー統合:意味マッピングのための確率論的センサ融合

Camera-Lidar Integration: Probabilistic sensor fusion for semantic mapping ( http://arxiv.org/abs/2007.05490v1 )

ライセンス: Link先を確認
Julie Stephany Berrio, Mao Shan, Stewart Worrall, Eduardo Nebot(参考訳) 都市環境で動作する自動車両は、常に変化する環境の中でナビゲートしながら、3次元の世界における物体/オブスタクルを認識・認識できなければならない。 高精度な運転操作を計画し実行するためには、周囲の高レベルの文脈的理解が不可欠である。 近年の画像処理の進歩により、単眼カメラから2dで高精細な意味情報を得ることができるようになったが、レーザーによる高精度な3d情報を確実に提供できない。 これら2つのセンサーの融合は個々のセンサーの欠点を克服することができるが、確率的な方法で対処する必要がある重要な課題はいくつかある。 本稿では,完全に確率論的にアプローチされることがほとんどない,一般的な,しかし難しい,ライダー/カメラ/セマンティック融合問題に対処する。 提案手法では,マルチセンサプラットフォームを用いて,関連するすべてのプロセスの不確実性を考慮した3次元セマンティックなボキシ化マップを構築する。 本稿では,センサリーダ(カメラ,ライダー,IMU,ホイールエンコーダ)の不確実性,車両の動作に対する補償,セマンティックイメージに対するヒューリスティックラベルの確率を組み込んだ確率パイプラインを提案する。 また,カメラフレームからのオクルージョンをチェックするための新しい効率的な視点検証アルゴリズムを提案する。 カメラ画像からライダー点雲への確率的投射を行う。 ラベル付きlidarスキャンはoctreeマップ構築アルゴリズムにフィードされ、新たな観測が利用可能になる度に、マップボクセルのクラス確率を更新する。 我々は,USyd Dataset上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。

An automated vehicle operating in an urban environment must be able to perceive and recognise object/obstacles in a three-dimensional world while navigating in a constantly changing environment. In order to plan and execute accurate sophisticated driving maneuvers, a high-level contextual understanding of the surroundings is essential. Due to the recent progress in image processing, it is now possible to obtain high definition semantic information in 2D from monocular cameras, though cameras cannot reliably provide the highly accurate 3D information provided by lasers. The fusion of these two sensor modalities can overcome the shortcomings of each individual sensor, though there are a number of important challenges that need to be addressed in a probabilistic manner. In this paper, we address the common, yet challenging, lidar/camera/semantic fusion problems which are seldom approached in a wholly probabilistic manner. Our approach is capable of using a multi-sensor platform to build a three-dimensional semantic voxelized map that considers the uncertainty of all of the processes involved. We present a probabilistic pipeline that incorporates uncertainties from the sensor readings (cameras, lidar, IMU and wheel encoders), compensation for the motion of the vehicle, and heuristic label probabilities for the semantic images. We also present a novel and efficient viewpoint validation algorithm to check for occlusions from the camera frames. A probabilistic projection is performed from the camera images to the lidar point cloud. Each labelled lidar scan then feeds into an octree map building algorithm that updates the class probabilities of the map voxels every time a new observation is available. We validate our approach using a set of qualitative and quantitative experimental tests on the USyd Dataset.
翻訳日:2022-11-12 05:08:54 公開日:2020-07-09
# DECAPS: 詳細指向のカプセルネットワーク

DECAPS: Detail-Oriented Capsule Networks ( http://arxiv.org/abs/2007.05343v1 )

ライセンス: Link先を確認
Aryan Mobiny, Pengyu Yuan, Pietro Antonio Cicalese, Hien Van Nguyen(参考訳) Capsule Networks(CapsNets)は、CNN(Convolutional Neural Networks)に代わる有望な選択肢であることを実証している。 しかし、それらはしばしば大規模高次元データセットの最先端の精度に欠ける。 本稿では,CapsNetsの強度といくつかの新しい手法を組み合わせたDetail-Oriented Capsule Network(DECAPS)を提案する。 第一に、DECAPSは逆動的ルーティング(Inverted Dynamic Routing、IDR)機構を使用して、低レベルのカプセルを高レベルのカプセルに送る前に頭部にグループ化する。 この戦略により、カプセルはcnnのプール操作中に失われる可能性のあるデータの中で、小さくて有意義な詳細に選択的に対処できる。 第2に、DECAPSはPeekabooトレーニング手順を採用しており、第2レベルのアテンションスキームを通じて詳細な情報に集中するようネットワークに促している。 最後に、蒸留工程は、原画像及び随伴画像領域予測を平均化することにより、脱キャップのロバスト性を向上させる。 DECAPSの有効性を検証するため,CheXpertおよびRSNA肺炎データセットについて広範な実験を行った。 我々のネットワークは、分類(ROC曲線の平均面積を87.24%から92.82%に増加させる)だけでなく、疾患領域の弱い監督された局在化(RSNA肺炎検出データセットの平均精度を41.7%から80%に向上させる)において、最先端の精度を達成する。

Capsule Networks (CapsNets) have demonstrated to be a promising alternative to Convolutional Neural Networks (CNNs). However, they often fall short of state-of-the-art accuracies on large-scale high-dimensional datasets. We propose a Detail-Oriented Capsule Network (DECAPS) that combines the strength of CapsNets with several novel techniques to boost its classification accuracies. First, DECAPS uses an Inverted Dynamic Routing (IDR) mechanism to group lower-level capsules into heads before sending them to higher-level capsules. This strategy enables capsules to selectively attend to small but informative details within the data which may be lost during pooling operations in CNNs. Second, DECAPS employs a Peekaboo training procedure, which encourages the network to focus on fine-grained information through a second-level attention scheme. Finally, the distillation process improves the robustness of DECAPS by averaging over the original and attended image region predictions. We provide extensive experiments on the CheXpert and RSNA Pneumonia datasets to validate the effectiveness of DECAPS. Our networks achieve state-of-the-art accuracies not only in classification (increasing the average area under ROC curves from 87.24% to 92.82% on the CheXpert dataset) but also in the weakly-supervised localization of diseased areas (increasing average precision from 41.7% to 80% for the RSNA Pneumonia detection dataset).
翻訳日:2022-11-12 05:03:08 公開日:2020-07-09
# 遺伝的アルゴリズムを用いた複雑な相互作用ネットワークの効率的な制御の同定

Identifying efficient controls of complex interaction networks using genetic algorithms ( http://arxiv.org/abs/2007.04853v1 )

ライセンス: Link先を確認
Victor-Bogdan Popescu and Krishna Kanhaiya and Iulian N\u{a}stac and Eugen Czeizler and Ion Petre(参考訳) 制御理論は近年、ネットワーク科学、特にネットワーク医学の応用との結びつきにおいて、大きな影響を与えている。 研究の重要なトピックは、ネットワーク制御性として知られるネットワークのダイナミクスを制御できる最小限の外部介入を見つけることである。 本稿では,遺伝的アルゴリズムに基づくこの問題に対する新しい解法を提案する。 我々は、特定の疾患特異的タンパク質間相互作用ネットワークにおいてFDAが承認した薬物標的の使用を最大化するために、計算薬物再資源化の応用のためのソリューションを調整する。 我々のアルゴリズムは乳がん、卵巣がん、膵癌に有効な薬物を多数同定する方法を示す。 提案手法は,がん医学,ソーシャルネットワーク,電子回路,およびerd\h{o}s-r\'{e}nyi,small-world,スケールフリー特性に応じてエッジを分散したランダムネットワークなど,いくつかのベンチマークネットワーク上で実証する。 全体として,本アルゴリズムは疾患ネットワークにおける薬物標的の同定に有効であり,新しい治療法と薬物再資源化アプローチに必要な計算ソリューションを進歩させる。

Control theory has seen recently impactful applications in network science, especially in connections with applications in network medicine. A key topic of research is that of finding minimal external interventions that offer control over the dynamics of a given network, a problem known as network controllability. We propose in this article a new solution for this problem based on genetic algorithms. We tailor our solution for applications in computational drug repurposing, seeking to maximise its use of FDA-approved drug targets in a given disease-specific protein-protein interaction network. We show how our algorithm identifies a number of potentially efficient drugs for breast, ovarian, and pancreatic cancer. We demonstrate our algorithm on several benchmark networks from cancer medicine, social networks, electronic circuits, and several random networks with their edges distributed according to the Erd\H{o}s-R\'{e}nyi, the small-world, and the scale-free properties. Overall, we show that our new algorithm is more efficient in identifying relevant drug targets in a disease network, advancing the computational solutions needed for new therapeutic and drug repurposing approaches.
翻訳日:2022-11-12 05:02:39 公開日:2020-07-09
# 脳インスパイア強化学習アルゴリズムの信頼性と一般化性について

On the Reliability and Generalizability of Brain-inspired Reinforcement Learning Algorithms ( http://arxiv.org/abs/2007.04578v1 )

ライセンス: Link先を確認
Dongjae Kim and Jee Hang Lee, Jae Hoon Shin, Minsu Abel Yang, Sang Wan Lee(参考訳) 深いrlモデルは、最小限の監督で様々な種類のタスクを解決できる大きな可能性を示しているが、限られた経験から学ぶこと、環境の変化に適応すること、ひとつのタスクから学習を一般化することといったいくつかの重要な課題は残っている。 意思決定神経科学の最近の証拠は、人間の脳がこれらの問題を解決する能力を持っていることを示しており、標本効率と一般化可能なRLアルゴリズムに対する神経科学にインスパイアされた解決策の開発に関する楽観主義を導いている。 先行的rlと呼ばれるモデルベース制御とモデルフリー制御を組み合わせた計算モデルは、人間が学習したハイレベルなポリシーの情報を確実にエンコードし、学習したポリシーを幅広いタスクに一般化できることを示す。 まず,82件の被験者のデータに基づいて前頭前野のRLと深部RLアルゴリズムを訓練し,人間の被験者が2段階のマルコフ決定タスクを行い,その目標,状態遷移の不確実性,状態空間の複雑さを操作した。 潜在行動プロファイルとパラメータ回復性テストを含む信頼性テストでは、前頭前RLが人間の潜伏政策を確実に学習し、他の全てのモデルが失敗することを示した。 第二に、これらのモデルが元のタスクから学んだことを一般化する能力をテストするために、環境変動の文脈でそれらを配置する。 具体的には,10のマルコフ決定タスクを用いた大規模シミュレーションを行い,時間とともに潜在コンテキスト変数が変化する。 情報理論解析の結果,前頭前野RLは適応性とエピソードエンコーディングの有効性が最も高かった。 これは、脳が一般的な問題を解決する方法を模倣する計算モデルが機械学習の重要な課題に対する実践的な解決につながる可能性を正式にテストする最初の試みである。

Although deep RL models have shown a great potential for solving various types of tasks with minimal supervision, several key challenges remain in terms of learning from limited experience, adapting to environmental changes, and generalizing learning from a single task. Recent evidence in decision neuroscience has shown that the human brain has an innate capacity to resolve these issues, leading to optimism regarding the development of neuroscience-inspired solutions toward sample-efficient, and generalizable RL algorithms. We show that the computational model combining model-based and model-free control, which we term the prefrontal RL, reliably encodes the information of high-level policy that humans learned, and this model can generalize the learned policy to a wide range of tasks. First, we trained the prefrontal RL, and deep RL algorithms on 82 subjects' data, collected while human participants were performing two-stage Markov decision tasks, in which we manipulated the goal, state-transition uncertainty and state-space complexity. In the reliability test, which includes the latent behavior profile and the parameter recoverability test, we showed that the prefrontal RL reliably learned the latent policies of the humans, while all the other models failed. Second, to test the ability to generalize what these models learned from the original task, we situated them in the context of environmental volatility. Specifically, we ran large-scale simulations with 10 Markov decision tasks, in which latent context variables change over time. Our information-theoretic analysis showed that the prefrontal RL showed the highest level of adaptability and episodic encoding efficacy. This is the first attempt to formally test the possibility that computational models mimicking the way the brain solves general problems can lead to practical solutions to key challenges in machine learning.
翻訳日:2022-11-12 05:02:21 公開日:2020-07-09
# グル、パートナー、鉛筆の研削? インテリジェントクリエイティビティ支援ツールに対するデザイナーの態度を理解する

Guru, Partner, or Pencil Sharpener? Understanding Designers' Attitudes Towards Intelligent Creativity Support Tools ( http://arxiv.org/abs/2007.04848v1 )

ライセンス: Link先を確認
Angus Main, Mick Grierson(参考訳) クリエイティビティサポートツール(cst)は、人間の創造性を高めることを目標としているが、クリエイティビティの深い個人的、主観的な性質は、普遍的なサポートツールの設計を困難にする。 個人は創造性に対する個人的アプローチ、特に署名スタイルやテクニックが価値のある商品である商業デザインの文脈で発展する。 人工知能(AI)と機械学習(ML)技術は、個人の創造スタイルを学習し適応する「知的な」CSTを作成する手段を提供する。 このようなツールがデザインプロセスでどのような役割を果たすかを特定するには、設計者がAIで作業する際の態度や、それを個人的な創造プロセスに組み込む意思をよりよく理解する必要がある。 本稿では、AIツールとの協調に対する肯定的かつ実践的な態度を示すプロのデザイナーによる調査結果と、デザインプロジェクトの研究段階にそれらを組み込む特別な機会について述べる。

Creativity Support Tools (CST) aim to enhance human creativity, but the deeply personal and subjective nature of creativity makes the design of universal support tools challenging. Individuals develop personal approaches to creativity, particularly in the context of commercial design where signature styles and techniques are valuable commodities. Artificial Intelligence (AI) and Machine Learning (ML) techniques could provide a means of creating 'intelligent' CST which learn and adapt to personal styles of creativity. Identifying what kind of role such tools could play in the design process requires a better understanding of designers' attitudes towards working with AI, and their willingness to include it in their personal creative process. This paper details the results of a survey of professional designers which indicates a positive and pragmatic attitude towards collaborating with AI tools, and a particular opportunity for incorporating them in the research stages of a design project.
翻訳日:2022-11-12 05:01:46 公開日:2020-07-09
# ソーシャルロボットのためのリファレンスソフトウェアアーキテクチャ

A Reference Software Architecture for Social Robots ( http://arxiv.org/abs/2007.04933v1 )

ライセンス: Link先を確認
Luigi Asprino, Paolo Ciancarini, Andrea Giovanni Nuzzolese, Valentina Presutti, Alessandro Russo(参考訳) Social Roboticsは、アクセシビリティ、ロボットの信頼、そしてロボットがユーザーと個人化された対話を確立することなど、難しいアーキテクチャ上のドライバーの世話をしなければならないソフトウェアデザイナーに難しい課題を提起する。 さらに、このコンテキストでは、相互運用性の確保、再利用性の改善、ソフトウェアコンポーネントのカスタマイズ性といった、ソフトウェア設計の問題を繰り返す。 社会ロボットソフトウェアアーキテクチャの設計と実装は、多分野の専門知識を必要とする時間を要する活動であり、ロボットソリューションの迅速な開発、カスタマイズ、パーソナライズは困難である。 これらの課題は、特定のアーキテクチャスタイルを選択し、特定のアーキテクチャパターンを実装し、特定の技術を使用することによって、設計時に緩和される。 本稿では,マリオプロジェクトにおける我々の経験を活かし,ソーシャルロボットが利益を享受できる一連の原則を提案する。 これらの原則は、社会ロボットのためのリファレンスソフトウェアアーキテクチャの設計の基礎でもある。 この研究の最終的な目標は、社会ロボットを迅速に開発、実装、パーソナライズするために、ロボットソフトウェアコンポーネントを簡単に再利用できるように、リファレンスソフトウェアアーキテクチャに基づいた共通基盤を確立することである。

Social Robotics poses tough challenges to software designers who are required to take care of difficult architectural drivers like acceptability, trust of robots as well as to guarantee that robots establish a personalised interaction with their users. Moreover, in this context recurrent software design issues such as ensuring interoperability, improving reusability and customizability of software components also arise. Designing and implementing social robotic software architectures is a time-intensive activity requiring multi-disciplinary expertise: this makes difficult to rapidly develop, customise, and personalise robotic solutions. These challenges may be mitigated at design time by choosing certain architectural styles, implementing specific architectural patterns and using particular technologies. Leveraging on our experience in the MARIO project, in this paper we propose a series of principles that social robots may benefit from. These principles lay also the foundations for the design of a reference software architecture for Social Robots. The ultimate goal of this work is to establish a common ground based on a reference software architecture to allow to easily reuse robotic software components in order to rapidly develop, implement, and personalise Social Robots.
翻訳日:2022-11-12 05:01:30 公開日:2020-07-09
# あいまいなゲームにおける個人的・集団的後方・前方的責任度とその社会的選択問題への応用

Degrees of individual and groupwise backward and forward responsibility in extensive-form games with ambiguity, and their application to social choice problems ( http://arxiv.org/abs/2007.07352v1 )

ライセンス: Link先を確認
Jobst Heitzig and Sarah Hiller(参考訳) 倫理的関連性の多くの現実的な状況、特に気候変動の緩和のような大規模な社会的選択の状況は、決定が複雑な方法で相互作用する多くのエージェントだけでなく、定量化可能なリスクや不確実性を含む様々な不確実性も含む。 このような問題では、倫理的に望まれない結果に対する個人的・集団的道徳的責任の評価やそれを避ける責任は困難であり、責任の過小評価や過度な決定のリスクが伴う。 厳密な因果関係に基づく既存のアプローチや、'責任'と'責任なし'のバイナリ分類に焦点を当てたある種のデオン論理とは対照的に、ここでは確率の単位における責任度を評価するいくつかの異なる量的責任度指標を示す。 そこで我々は,広義のゲームツリーの適応バージョンに基づくフレームワークと,そのようなメトリクスの潜在的に望ましいプロパティを多数定義した公理的アプローチを用いて,開発候補のメトリクスを複数のパラダイム的社会的選択状況に適用して検証する。 ほとんどの特性は、そのような責任計量を望んでも、ある変種によって達成できるが、他の指標より明らかに優れている最適な計量は見つからない。

Many real-world situations of ethical relevance, in particular those of large-scale social choice such as mitigating climate change, involve not only many agents whose decisions interact in complicated ways, but also various forms of uncertainty, including quantifiable risk and unquantifiable ambiguity. In such problems, an assessment of individual and groupwise moral responsibility for ethically undesired outcomes or their responsibility to avoid such is challenging and prone to the risk of under- or overdetermination of responsibility. In contrast to existing approaches based on strict causation or certain deontic logics that focus on a binary classification of `responsible' vs `not responsible', we here present several different quantitative responsibility metrics that assess responsibility degrees in units of probability. For this, we use a framework based on an adapted version of extensive-form game trees and an axiomatic approach that specifies a number of potentially desirable properties of such metrics, and then test the developed candidate metrics by their application to a number of paradigmatic social choice situations. We find that while most properties one might desire of such responsibility metrics can be fulfilled by some variant, an optimal metric that clearly outperforms others has yet to be found.
翻訳日:2022-11-12 05:00:53 公開日:2020-07-09
# 深層残留ニューラルネットワークにおける不確かさの定量化

Uncertainty Quantification in Deep Residual Neural Networks ( http://arxiv.org/abs/2007.04905v1 )

ライセンス: Link先を確認
Lukasz Wandzik, Raul Vicente Garcia, J\"org Kr\"uger(参考訳) 不確実性定量化はディープラーニングにおいて重要かつ困難な問題である。 以前の方法は、現代のディープアーキテクチャやバッチサイズに敏感なバッチ正規化には存在しないドロップアウト層に依存していた。 本研究では, 確率深度と呼ばれる正規化手法を用いて, ディープ残差ネットワークにおける不確実性定量化の問題に対処する。 確率的深度を用いた残差ネットワークのトレーニングは、ベイズニューラルネットワークの重みに対する難解な後部への変動近似として解釈できることを示す。 深さと共有重みの異なる残差ネットワークの分布からサンプリングすることで,有意義な不確実性推定が得られることを示す。 さらに, 残差ネットワークの元々の定式化と比較して, ネットワーク構造にわずかな変更を加えるだけで十分なソフトマックス確率を生成する。 我々は,一般的なコンピュータビジョンデータセットに対するアプローチを評価し,不確実性評価の質を計測する。 また,領域シフトに対するロバスト性をテストし,分布外サンプルに対して高い予測不確実性を示すことができることを示した。 最後に,提案手法を用いて顔認証アプリケーションにおける不確実性推定を行う方法を示す。

Uncertainty quantification is an important and challenging problem in deep learning. Previous methods rely on dropout layers which are not present in modern deep architectures or batch normalization which is sensitive to batch sizes. In this work, we address the problem of uncertainty quantification in deep residual networks by using a regularization technique called stochastic depth. We show that training residual networks using stochastic depth can be interpreted as a variational approximation to the intractable posterior over the weights in Bayesian neural networks. We demonstrate that by sampling from a distribution of residual networks with varying depth and shared weights, meaningful uncertainty estimates can be obtained. Moreover, compared to the original formulation of residual networks, our method produces well-calibrated softmax probabilities with only minor changes to the network's structure. We evaluate our approach on popular computer vision datasets and measure the quality of uncertainty estimates. We also test the robustness to domain shift and show that our method is able to express higher predictive uncertainty on out-of-distribution samples. Finally, we demonstrate how the proposed approach could be used to obtain uncertainty estimates in facial verification applications.
翻訳日:2022-11-12 04:53:18 公開日:2020-07-09
# 教師の知識伝達に基づく高速光流に対する患者特化領域適応

Patient-Specific Domain Adaptation for Fast Optical Flow Based on Teacher-Student Knowledge Transfer ( http://arxiv.org/abs/2007.04928v1 )

ライセンス: Link先を確認
Sontje Ihler and Max-Heinrich Laves and Tobias Ortmaier(参考訳) 高速運動フィードバックは移動組織に対するコンピュータ支援手術 (cas) において重要である。 安全クリティカルな視覚応用におけるイメージアシストには、組織の動きの濃密な追跡が必要である。 これは光学フロー(OF)を用いて行うことができる。 高い処理速度での正確な動作予測は、患者の安全性を高める。 現在のモデルの深層学習は、共通速度と精度のトレードオフを示している。 高い処理速度で高い精度を達成するために,高速モデルの患者固有の微調整を提案する。 これにより、トレーニングとアプリケーションデータの間のドメイン間ギャップを最小限に抑え、ターゲットドメインをより複雑な高速モデルの能力に還元する。 手術室で術前に訓練シーケンスを取得することを提案する。 私たちは教師-学生の学習を生かして、真実の欠如に対処する。 教師モデルflownet2からのフロー推定を用いて、患者固有のドメインに高速学生モデルflownet2を特殊化する。 hamlynデータセットからのシーケンスで評価を行う。 我々の学生モデルは微調整後に非常に良い成績を示す。 追跡精度は6倍の速度で教師モデルに匹敵する。 微調整は数分で行うことができ、手術室で行うことができる。 提案手法では,従来この課題には適していなかったリアルタイムモデルの活用が可能であった。 この方法はCASにおける患者固有の動作推定を改善するための経路を敷設する。

Fast motion feedback is crucial in computer-aided surgery (CAS) on moving tissue. Image-assistance in safety-critical vision applications requires a dense tracking of tissue motion. This can be done using optical flow (OF). Accurate motion predictions at high processing rates lead to higher patient safety. Current deep learning OF models show the common speed vs. accuracy trade-off. To achieve high accuracy at high processing rates, we propose patient-specific fine-tuning of a fast model. This minimizes the domain gap between training and application data, while reducing the target domain to the capability of the lower complex, fast model. We propose to obtain training sequences pre-operatively in the operation room. We handle missing ground truth, by employing teacher-student learning. Using flow estimations from teacher model FlowNet2 we specialize a fast student model FlowNet2S on the patient-specific domain. Evaluation is performed on sequences from the Hamlyn dataset. Our student model shows very good performance after fine-tuning. Tracking accuracy is comparable to the teacher model at a speed up of factor six. Fine-tuning can be performed within minutes, making it feasible for the operation room. Our method allows to use a real-time capable model that was previously not suited for this task. This method is laying the path for improved patient-specific motion estimation in CAS.
翻訳日:2022-11-12 04:53:02 公開日:2020-07-09
# 修正指紋解析のための単一アーキテクチャとマルチタスクディープニューラルネットワーク

Single architecture and multiple task deep neural network for altered fingerprint analysis ( http://arxiv.org/abs/2007.04931v1 )

ライセンス: Link先を確認
Oliver Giudice (1), Mattia Litrico (1), Sebastiano Battiato (1 and 2) ((1) University of Catania, (2) iCTLab s.r.l. - Spin-off of University of Catania)(参考訳) 指紋は犯罪現場で最も厳しい証拠の一つであり、そのために警察によって個人を特定するために頻繁に使用されている。 しかし、指紋は変更できる。 「変質指紋」とは、意図的に摩擦隆起のパターンを損なうことであり、法執行を逃れるために賢い犯罪者がしばしば使用する。 我々は、inception-v3アーキテクチャをトレーニングするディープニューラルネットワークアプローチを使用する。 本稿では,変化指紋の検出,変化の種類の同定,性別,手,指の認識を行う手法を提案する。 また、ニューラルネットワークが注目している指紋の一部を表示するアクティベーションマップを作成し、変化の位置を検出する。 提案手法は,SO.CO.FINGの偽造,変化,性別,手指の分類において,98.21%,98.46%,92.52%,97.53%,92,18%の精度を達成している。 データセット。

Fingerprints are one of the most copious evidence in a crime scene and, for this reason, they are frequently used by law enforcement for identification of individuals. But fingerprints can be altered. "Altered fingerprints", refers to intentionally damage of the friction ridge pattern and they are often used by smart criminals in hope to evade law enforcement. We use a deep neural network approach training an Inception-v3 architecture. This paper proposes a method for detection of altered fingerprints, identification of types of alterations and recognition of gender, hand and fingers. We also produce activation maps that show which part of a fingerprint the neural network has focused on, in order to detect where alterations are positioned. The proposed approach achieves an accuracy of 98.21%, 98.46%, 92.52%, 97.53% and 92,18% for the classification of fakeness, alterations, gender, hand and fingers, respectively on the SO.CO.FING. dataset.
翻訳日:2022-11-12 04:52:46 公開日:2020-07-09
# 誰かいるか? 室内占有度を計測するスマート内蔵低解像度全方位ビデオセンサ

Anyone here? Smart embedded low-resolution omnidirectional video sensor to measure room occupancy ( http://arxiv.org/abs/2007.04934v1 )

ライセンス: Link先を確認
Timothy Callemein, Kristof Van Beeck and Toon Goedem\'e(参考訳) 本稿では,独特な特性を有する部屋占有感センサソリューションを提案する。 (一)全方位視覚カメラをベースとし、広い角度から豊かな風景情報を捉え、部屋にいる人の数や位置まで数えることができる。 (ii)カメラ入力を使用しているが、画像解像度が極端に低いためプライバシー上の問題は発生しない。 (iii)ニューラルネットワーク推論は、センサに埋め込まれた低コストな処理プラットフォーム上で完全に実行されるため、プライバシリスクはさらに低減される。 (4) 提案する自己学習方式のため, 限定的な手動データアノテーションが必要である。 このようなスマートルーム占有率センサは、例えば会議室やフレックスデスクで使用することができる。 実際、flex-deskingを奨励することで、必要なオフィススペースを大幅に削減できます。 ただし、保留されているフレックスデスクは、保留制度の更新なしには占められていない場合もある。 同様の問題は会議室で起こり、しばしば不足している。 占有率を最適化することで、コストを大幅に削減することができる。 そこで本稿では,オフィスのフレキシブルデスクや会議室に居住する人数を決定するシステムを開発した。 天井に取り付けられた全方位カメラと人検知器を組み合わせることで、同社は測定された占有状況に基づいて予約システムをインテリジェントに更新することができる。 そこで本研究では,この自己学習型全方位人物検出アルゴリズムの最適化と組込みにより,空間的および時間的画像データを組み合わせて,極端低解像度画像におけるシステムの性能を向上させる新しい手法を提案する。

In this paper, we present a room occupancy sensing solution with unique properties: (i) It is based on an omnidirectional vision camera, capturing rich scene info over a wide angle, enabling to count the number of people in a room and even their position. (ii) Although it uses a camera-input, no privacy issues arise because its extremely low image resolution, rendering people unrecognisable. (iii) The neural network inference is running entirely on a low-cost processing platform embedded in the sensor, reducing the privacy risk even further. (iv) Limited manual data annotation is needed, because of the self-training scheme we propose. Such a smart room occupancy rate sensor can be used in e.g. meeting rooms and flex-desks. Indeed, by encouraging flex-desking, the required office space can be reduced significantly. In some cases, however, a flex-desk that has been reserved remains unoccupied without an update in the reservation system. A similar problem occurs with meeting rooms, which are often under-occupied. By optimising the occupancy rate a huge reduction in costs can be achieved. Therefore, in this paper, we develop such system which determines the number of people present in office flex-desks and meeting rooms. Using an omnidirectional camera mounted in the ceiling, combined with a person detector, the company can intelligently update the reservation system based on the measured occupancy. Next to the optimisation and embedded implementation of such a self-training omnidirectional people detection algorithm, in this work we propose a novel approach that combines spatial and temporal image data, improving performance of our system on extreme low-resolution images.
翻訳日:2022-11-12 04:52:28 公開日:2020-07-09
# phong surface: lifted optimization を用いた効率的な3dモデルフィッティング

The Phong Surface: Efficient 3D Model Fitting using Lifted Optimization ( http://arxiv.org/abs/2007.04940v1 )

ライセンス: Link先を確認
Jingjing Shen, Thomas J. Cashman, Qi Ye, Tim Hutton, Toby Sharp, Federica Bogo, Andrew William Fitzgibbon, Jamie Shotton(参考訳) 複合現実におけるリアルタイムの知覚と相互作用の能力は、ヘッドマウントデバイスのようなリソース制約のあるハードウェア上で低レイテンシで解決する必要がある。 実際、アプリケーション用にCPUとGPUが残されているHoloLens 2のようなデバイスでは、単一のDigital Signal Processorを共有しながら、継続的にリアルタイムに複数のトラッキングサブシステムを実行する必要がある。 計算予算がiphone 7の約100倍小さいhololens 2ハンドトラッキングのモデルフィッティング問題を解決するため、新しいサーフェスモデルである 'phong surface' を導入する。 コンピュータグラフィックスのアイデアを用いて、Phong面は三角形メッシュモデルと同じ3次元形状を記述しているが、リフトベース最適化を可能とし、ICPベースの手法よりも大きな効率向上をもたらす連続表面正規化がある。 三角形メッシュは成立しないが,Pong曲面は滑らかな曲面モデルの収束効果を保っていることを示す。

Realtime perceptual and interaction capabilities in mixed reality require a range of 3D tracking problems to be solved at low latency on resource-constrained hardware such as head-mounted devices. Indeed, for devices such as HoloLens 2 where the CPU and GPU are left available for applications, multiple tracking subsystems are required to run on a continuous, real-time basis while sharing a single Digital Signal Processor. To solve model-fitting problems for HoloLens 2 hand tracking, where the computational budget is approximately 100 times smaller than an iPhone 7, we introduce a new surface model: the `Phong surface'. Using ideas from computer graphics, the Phong surface describes the same 3D shape as a triangulated mesh model, but with continuous surface normals which enable the use of lifting-based optimization, providing significant efficiency gains over ICP-based methods. We show that Phong surfaces retain the convergence benefits of smoother surface models, while triangle meshes do not.
翻訳日:2022-11-12 04:52:05 公開日:2020-07-09
# 買い物行動分析のためのリアルタイム組込み人物検出と追跡

Real-time Embedded Person Detection and Tracking for Shopping Behaviour Analysis ( http://arxiv.org/abs/2007.04942v1 )

ライセンス: Link先を確認
Robin Schrijvers, Steven Puttemans, Timothy Callemein and Toon Goedem\'e(参考訳) 店舗のような環境下での人々のカウントと追跡による行動分析は、店員にとって貴重な情報を提供し、店舗のレイアウト(頻繁に訪れるスポットなど)において重要な洞察を提供する。 このためにスタッフを追加する代わりに、自動化されたオンプレミスソリューションが望ましい。 これらの自動化システムはコスト効率が高く、より軽量な組み込みハードウェアで、非常に困難な状況(例えばオクルージョンの処理)で動作し、好ましくはリアルタイムに動作する。 我々は、リアルタイムのTensorRT最適化されたYOLOv3ベースの歩行者検出器をJetson TX2ハードウェアプラットフォーム上に実装することで、この問題を解決する。 検知器とスパース光フロートラッカーを組み合わせることで、各顧客にユニークなIDを割り当て、部分的に隠された顧客を略奪する問題に取り組む。 検出器追跡方式では,処理速度10 fpsで平均81.59%の精度を実現する。 貴重な統計に加えて、頻繁に訪れるスポットのヒートマップが抽出され、ビデオストリームのオーバーレイとして使用される。

Shopping behaviour analysis through counting and tracking of people in shop-like environments offers valuable information for store operators and provides key insights in the stores layout (e.g. frequently visited spots). Instead of using extra staff for this, automated on-premise solutions are preferred. These automated systems should be cost-effective, preferably on lightweight embedded hardware, work in very challenging situations (e.g. handling occlusions) and preferably work real-time. We solve this challenge by implementing a real-time TensorRT optimized YOLOv3-based pedestrian detector, on a Jetson TX2 hardware platform. By combining the detector with a sparse optical flow tracker we assign a unique ID to each customer and tackle the problem of loosing partially occluded customers. Our detector-tracker based solution achieves an average precision of 81.59% at a processing speed of 10 FPS. Besides valuable statistics, heat maps of frequently visited spots are extracted and used as an overlay on the video stream.
翻訳日:2022-11-12 04:51:48 公開日:2020-07-09
# 脳細胞分類のためのタスク強化型アクティブメタラーニング

Few Is Enough: Task-Augmented Active Meta-Learning for Brain Cell Classification ( http://arxiv.org/abs/2007.05009v1 )

ライセンス: Link先を確認
Pengyu Yuan, Aryan Mobiny, Jahandar Jahanipour, Xiaoyang Li, Pietro Antonio Cicalese, Badrinath Roysam, Vishal Patel, Maric Dragan, and Hien Van Nguyen(参考訳) ディープニューラルネットワーク(またはDNN)は、関心のあるタスクやデータ収集プロトコルが変更されたとき、入力データの分散変化に常に対処しなければならない。 ネットワークをゼロからトレーニングしてこの問題に対処することは、かなりのコストになる。 メタ学習は、これらの基本的な分散変化に敏感な適応モデルを提供することを目的としている。 本稿では,少数のトレーニング例を用いて,新しいタスクにdnnを効率的に適応させるタスク適応型アクティブメタラーニング(agile)手法を提案する。 AGILEはメタ学習アルゴリズムと,初期適応モデルを生成するための新しいタスク拡張手法を組み合わせる。 次に、ベイジアンドロップアウトの不確実性推定を用いて、モデルを新しいタスクに更新する際に最も難しいサンプルを積極的に選択する。 これにより、少ないタスクで学習し、限られたデータセットでハイパフォーマンスを達成することができる。 我々は、脳細胞分類タスクを用いて実験を行い、その結果をスクラッチからトレーニングした単純なメタラーニングモデルと比較する。 提案するタスク強化メタラーニングフレームワークは,学習サンプル数に制限のある単一勾配段階の後に,新たな細胞タイプを分類することができることを示す。 ベイズの不確実性を持つアクティブラーニングは,トレーニングサンプル数が非常に少ない場合,さらにパフォーマンスを向上させることができる。 トレーニングデータの1%と1回の更新ステップのみを用いて,新しい細胞型分類タスクにおいて90%の精度を達成し,最先端メタ学習アルゴリズムよりも50%ポイント改善した。

Deep Neural Networks (or DNNs) must constantly cope with distribution changes in the input data when the task of interest or the data collection protocol changes. Retraining a network from scratch to combat this issue poses a significant cost. Meta-learning aims to deliver an adaptive model that is sensitive to these underlying distribution changes, but requires many tasks during the meta-training process. In this paper, we propose a tAsk-auGmented actIve meta-LEarning (AGILE) method to efficiently adapt DNNs to new tasks by using a small number of training examples. AGILE combines a meta-learning algorithm with a novel task augmentation technique which we use to generate an initial adaptive model. It then uses Bayesian dropout uncertainty estimates to actively select the most difficult samples when updating the model to a new task. This allows AGILE to learn with fewer tasks and a few informative samples, achieving high performance with a limited dataset. We perform our experiments using the brain cell classification task and compare the results to a plain meta-learning model trained from scratch. We show that the proposed task-augmented meta-learning framework can learn to classify new cell types after a single gradient step with a limited number of training samples. We show that active learning with Bayesian uncertainty can further improve the performance when the number of training samples is extremely small. Using only 1% of the training data and a single update step, we achieved 90% accuracy on the new cell type classification task, a 50% points improvement over a state-of-the-art meta-learning algorithm.
翻訳日:2022-11-12 04:51:31 公開日:2020-07-09
# DCANet:畳み込みニューラルネットワークのためのコネクテッドアテンション学習

DCANet: Learning Connected Attentions for Convolutional Neural Networks ( http://arxiv.org/abs/2007.05099v1 )

ライセンス: Link先を確認
Xu Ma, Jingda Guo, Sihai Tang, Zhinan Qiao, Qi Chen, Qing Yang, Song Fu(参考訳) 自己認識機構は多くのビジョンタスクに対して有望な結果を示したが、同時に現在の機能のみを考慮する。 このような方法では注意機構を十分に活用できないことを示す。 本稿では,cnnモデルにおいて,内部構造を変更せずにアテンションモジュールを高速化する新しい設計であるdeep connected attention network (dcanet)を提案する。 これを実現するために,隣接した注意ブロックを相互接続し,注意ブロック間の情報フローを可能にする。 DCANetでは、CNNモデルのすべてのアテンションブロックが共同で訓練され、アテンション学習の能力が改善される。 DCANetは汎用的です。 特定のアテンションモジュールやベースネットワークアーキテクチャに限定されない。 ImageNetとMS COCOベンチマークの実験結果から、DCANetは、すべてのテストケースで最小限の計算オーバーヘッドで、最先端の注目モジュールを一貫して上回っていることがわかった。 すべてのコードとモデルは公開されています。

While self-attention mechanism has shown promising results for many vision tasks, it only considers the current features at a time. We show that such a manner cannot take full advantage of the attention mechanism. In this paper, we present Deep Connected Attention Network (DCANet), a novel design that boosts attention modules in a CNN model without any modification of the internal structure. To achieve this, we interconnect adjacent attention blocks, making information flow among attention blocks possible. With DCANet, all attention blocks in a CNN model are trained jointly, which improves the ability of attention learning. Our DCANet is generic. It is not limited to a specific attention module or base network architecture. Experimental results on ImageNet and MS COCO benchmarks show that DCANet consistently outperforms the state-of-the-art attention modules with a minimal additional computational overhead in all test cases. All code and models are made publicly available.
翻訳日:2022-11-12 04:50:47 公開日:2020-07-09
# 自律的な隠しカメラクルー

The autonomous hidden camera crew ( http://arxiv.org/abs/2007.04657v1 )

ライセンス: Link先を確認
Timothy Callemein, Wiebe Van Ranst and Toon Goedem\'e(参考訳) 現実的なテレビ番組では、日々の生活の中で人をフォローすることは新しい概念ではない。 しかし、業界で使われる伝統的な方法には多くの手作業が必要であり、少なくとも1人の物理的カメラマンの存在が必要である。 このため、被写体は記録されていることに気付くと異なる振る舞いをする傾向がある。 本論文は, 日常生活において, 長期間(月~年)にわたって, 可能な限り控えめでありながら, 人々をフォローするためのアプローチを提案する。 これを実現するために、人の家に隠された無人撮影用カメラを使用する。 まず、マルチチャネルレコーダと組み合わせて、ビデオスイッチマトリックスをインテリジェントに制御することにより、記録データ量を制限するシステムを構築する。 第2に、PTZカメラを制御して仮想カメラマンを作成し、自動的に撮影を楽しませます。 この論文を通して、私たちは本物のカメラクルーと密接に協力しました。 これにより、我々のシステムの結果を訓練された専門家の仕事と比較できるようになりました。

Reality TV shows that follow people in their day-to-day lives are not a new concept. However, the traditional methods used in the industry require a lot of manual labour and need the presence of at least one physical camera man. Because of this, the subjects tend to behave differently when they are aware of being recorded. This paper will present an approach to follow people in their day-to-day lives, for long periods of time (months to years), while being as unobtrusive as possible. To do this, we use unmanned cinematographically-aware cameras hidden in people's houses. Our contribution in this paper is twofold: First, we create a system to limit the amount of recorded data by intelligently controlling a video switch matrix, in combination with a multi-channel recorder. Second, we create a virtual camera man by controlling a PTZ camera to automatically make cinematographically pleasing shots. Throughout this paper, we worked closely with a real camera crew. This enabled us to compare the results of our system to the work of trained professionals.
翻訳日:2022-11-12 04:44:31 公開日:2020-07-09
# 転送学習と単一パスディープラーニングアーキテクチャを用いたロバストな産業応用オブジェクト検出モデルの構築

Building Robust Industrial Applicable Object Detection Models Using Transfer Learning and Single Pass Deep Learning Architectures ( http://arxiv.org/abs/2007.04666v1 )

ライセンス: Link先を確認
Steven Puttemans, Timothy Callemein and Toon Goedem\'e(参考訳) コンピュータビジョンと人工知能におけるディープラーニングの台頭傾向は、単に無視できない。 認識や検出からセグメンテーションまで、最も多様なタスクにおいて、ディープラーニングは最先端の結果を得ることができ、最高パフォーマンスに達する。 本稿では、darknetのような最先端のオープンソースディープラーニングフレームワークを用いて、オブジェクト検出タスクに特化した深い畳み込みニューラルネットワークが、産業指向のオブジェクト検出パイプラインをどのように改善するかを検討する。 地域提案,分類,確率推定を単一実行で統合したディープラーニングアーキテクチャを用いて,リアルタイム性能の獲得を目標とする。 我々は、高い平均精度を維持しつつ、転送学習を探求することで、必要なトレーニングデータの量を大幅に削減することに注力する。 さらに,これらのアルゴリズムを2つの産業関連アプリケーションに適用し,1つはアイトラッキングデータ中のプロモーションボードの検出と,もう1つは拡張広告のための倉庫製品のパッケージの検出と認識を行う。

The uprising trend of deep learning in computer vision and artificial intelligence can simply not be ignored. On the most diverse tasks, from recognition and detection to segmentation, deep learning is able to obtain state-of-the-art results, reaching top notch performance. In this paper we explore how deep convolutional neural networks dedicated to the task of object detection can improve our industrial-oriented object detection pipelines, using state-of-the-art open source deep learning frameworks, like Darknet. By using a deep learning architecture that integrates region proposals, classification and probability estimation in a single run, we aim at obtaining real-time performance. We focus on reducing the needed amount of training data drastically by exploring transfer learning, while still maintaining a high average precision. Furthermore we apply these algorithms to two industrially relevant applications, one being the detection of promotion boards in eye tracking data and the other detecting and recognizing packages of warehouse products for augmented advertisements.
翻訳日:2022-11-12 04:44:17 公開日:2020-07-09
# 視線追跡に基づく人間-人間相互作用研究の自動分析

Automated analysis of eye-tracker-based human-human interaction studies ( http://arxiv.org/abs/2007.04671v1 )

ライセンス: Link先を確認
Timothy Callemein, Kristof Van Beeck, Geert Br\^one, Toon Goedem\'e(参考訳) モバイルの視線追跡システムは10年ほど前から利用されており、マーケティング、社会学、ユーザビリティ研究、言語学など、さまざまな分野のアプリケーションで人気が高まっている。 ハードウェアのユーザフレンドリさやエルゴノミクスは急速に発展しているが、モバイルの視線追跡データを分析するためのソフトウェアはまだ堅牢性や機能に欠ける。 本稿では,移動眼球追跡データの自動解析に最先端のコンピュータビジョンアルゴリズムが用いられているかを検討する。 本稿では,人間と人間の対面インタラクション中に作成された移動型アイトラッカ記録に着目した。 最近公開された2つのフレームワーク(yolov2とopenpose)を比較して、視線追跡装置が生成した視線位置を、シーンカメラデータで見える頭部と手とに関連付けた。 本稿では,この単一パイプラインフレームワークを用いることで,現場での作業よりも正確かつ高速な結果が得られることを示す。 さらに,この手法では手作業による介入は行わない。

Mobile eye-tracking systems have been available for about a decade now and are becoming increasingly popular in different fields of application, including marketing, sociology, usability studies and linguistics. While the user-friendliness and ergonomics of the hardware are developing at a rapid pace, the software for the analysis of mobile eye-tracking data in some points still lacks robustness and functionality. With this paper, we investigate which state-of-the-art computer vision algorithms may be used to automate the post-analysis of mobile eye-tracking data. For the case study in this paper, we focus on mobile eye-tracker recordings made during human-human face-to-face interactions. We compared two recent publicly available frameworks (YOLOv2 and OpenPose) to relate the gaze location generated by the eye-tracker to the head and hands visible in the scene camera data. In this paper we will show that the use of this single-pipeline framework provides robust results, which are both more accurate and faster than previous work in the field. Moreover, our approach does not rely on manual interventions during this process.
翻訳日:2022-11-12 04:43:58 公開日:2020-07-09
# どのくらい低く行けますか。 全方位カメラによるプライバシー保護者検出

How low can you go? Privacy-preserving people detection with an omni-directional camera ( http://arxiv.org/abs/2007.04678v1 )

ライセンス: Link先を確認
Timothy Callemein, Kristof Van Beeck, and Toon Goedem\'e(参考訳) 本研究では,天井搭載全方位カメラを用いて室内の人を検出する。 これは会議室の占有度を測定し、利用可能なフレキシブルデスク作業スペースの量をカウントするためのセンサーとして使用できる。 これらのデバイスが組み込みの低消費電力センサーに統合できれば、オフィス環境における自動予約システムの理想的な拡張となる。 私たちがここで狙う主な課題は、撮影された人々のプライバシーを確保することです。 提案するアプローチは、人物を認識したり、潜在的に機密文書を読むことが不可能な画像解像度を極端に低くする。 そこで我々は,自動生成された基底真理を用いた単発低解像度人物検出ネットワークを再訓練した。 本稿では,この手法の機能を実証し,認識精度とプライバシー保護の最適なトレードオフを決定するために,解決率の低さについて検討する。 低解像度のため、結果として、組み込みハードウェアにデプロイ可能な軽量ネットワークになる可能性がある。 このような組み込み実装により、必要なメタデータ(つまり会議室にいる人の数)のみを出力する分散型スマートカメラの開発が可能になる。

In this work, we use a ceiling-mounted omni-directional camera to detect people in a room. This can be used as a sensor to measure the occupancy of meeting rooms and count the amount of flex-desk working spaces available. If these devices can be integrated in an embedded low-power sensor, it would form an ideal extension of automated room reservation systems in office environments. The main challenge we target here is ensuring the privacy of the people filmed. The approach we propose is going to extremely low image resolutions, such that it is impossible to recognise people or read potentially confidential documents. Therefore, we retrained a single-shot low-resolution person detection network with automatically generated ground truth. In this paper, we prove the functionality of this approach and explore how low we can go in resolution, to determine the optimal trade-off between recognition accuracy and privacy preservation. Because of the low resolution, the result is a lightweight network that can potentially be deployed on embedded hardware. Such embedded implementation enables the development of a decentralised smart camera which only outputs the required meta-data (i.e. the number of persons in the meeting room).
翻訳日:2022-11-12 04:43:39 公開日:2020-07-09
# Pollen13K: 大規模な顕微鏡ポーレングラインド画像データセット

Pollen13K: A Large Scale Microscope Pollen Grain Image Dataset ( http://arxiv.org/abs/2007.04690v1 )

ライセンス: Link先を確認
Sebastiano Battiato, Alessandro Ortis, Francesca Trenta, Lorenzo Ascari, Mara Politi, Consolata Siniscalco(参考訳) 花粉の分類は医学から生物学、農業まで多くの分野において顕著な役割を担っている。 実際、花粉の自動分類は、関連するすべてのアプリケーションや領域にとって重要な課題である。 この研究は、13万以上のオブジェクトを含む、最初の大規模な花粉粒画像データセットを提示している。 花粉の粒度分類の問題とその動機について紹介した後,本論文では,大気学的サンプリング,顕微鏡画像取得,物体検出,セグメンテーション,ラベリングなどのデータ取得手順に注目した。 さらに, 構築したデータセットにおける花粉分類のタスクに関する基礎実験評価を行い, 得られた結果について考察した。

Pollen grain classification has a remarkable role in many fields from medicine to biology and agronomy. Indeed, automatic pollen grain classification is an important task for all related applications and areas. This work presents the first large-scale pollen grain image dataset, including more than 13 thousands objects. After an introduction to the problem of pollen grain classification and its motivations, the paper focuses on the employed data acquisition steps, which include aerobiological sampling, microscope image acquisition, object detection, segmentation and labelling. Furthermore, a baseline experimental assessment for the task of pollen classification on the built dataset, together with discussion on the achieved results, is presented.
翻訳日:2022-11-12 04:43:01 公開日:2020-07-09
# 適応色局所テーブル管理によるアニメーションGIF最適化

Animated GIF optimization by adaptive color local table management ( http://arxiv.org/abs/2007.04717v1 )

ライセンス: Link先を確認
Oliver Giudice (1 and 2), Dario Allegra (1), Francesco Guarnera (1 and 2), Filippo Stanco (1), Sebastiano Battiato (1 and 2) ((1) University of Catania, (2) iCTLab s.r.l. - Spin-off of University of Catania)(参考訳) GIFファイルフォーマットの30年が経ち、今日(米国時間10/12)は、これまで以上に人気が高まっている。 GIF画像をエンコードするオリジナルの圧縮法は、とても人気があるが、少しは変わっていない。 一方、人気は、ホスティングプラットフォームではストレージの節約が問題になることを意味する。 本稿では,アニメーションGIFのパラメトリック最適化手法を提案する。 提案手法はローカルカラーテーブルの選択とカラーリマッピングに基づいて,元のフォーマットを保存しながら,最適化されたアニメーションGIFを作成する。 この技術は、知覚された色質を損なうことなく、バイト削減の観点で良好な結果が得られる。 1000個のGIFファイルで行ったテストは,提案手法の有効性を示した。

After thirty years of the GIF file format, today is becoming more popular than ever: being a great way of communication for friends and communities on Instant Messengers and Social Networks. While being so popular, the original compression method to encode GIF images have not changed a bit. On the other hand popularity means that storage saving becomes an issue for hosting platforms. In this paper a parametric optimization technique for animated GIFs will be presented. The proposed technique is based on Local Color Table selection and color remapping in order to create optimized animated GIFs while preserving the original format. The technique achieves good results in terms of byte reduction with limited or no loss of perceived color quality. Tests carried out on 1000 GIF files demonstrate the effectiveness of the proposed optimization strategy.
翻訳日:2022-11-12 04:42:49 公開日:2020-07-09
# RGB-Dサルエント物体検出のためのクロスモーダル重み付けネットワーク

Cross-Modal Weighting Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2007.04901v1 )

ライセンス: Link先を確認
Gongyang Li, Zhi Liu, Linwei Ye, Yang Wang, Haibin Ling(参考訳) 深度マップには、Salient Object Detection (SOD) を支援する幾何学的手がかりが含まれている。 本稿では,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいCMW戦略を提案する。 具体的には,cmw-l,cmw-m,cmw-hという3つのrgb深層相互作用モジュールを用いて,低レベル,中レベル,高レベルなクロスモーダル情報融合を実現する。 これらのモジュールはDW(Depth-to-RGB Weighing)とRW(RGB-to-RGB Weighting)を使用して、異なるネットワークブロックによって生成された機能層間のリッチなクロスモーダルおよびクロススケールな相互作用を可能にする。 提案するクロスモーダル重み付けネットワーク(cmwnet)を効果的にトレーニングするために,中間予測と基底真理の誤差を異なるスケールで要約する複合損失関数を設計した。 これらの新しいコンポーネントがすべて一緒に動作するため、CMWNetはRGBとディープチャネルからの情報を効果的に融合し、オブジェクトのローカライゼーションとスケールの細部を探究する。 CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SOD法を一貫して上回っている。

Depth maps contain geometric clues for assisting Salient Object Detection (SOD). In this paper, we propose a novel Cross-Modal Weighting (CMW) strategy to encourage comprehensive interactions between RGB and depth channels for RGB-D SOD. Specifically, three RGB-depth interaction modules, named CMW-L, CMW-M and CMW-H, are developed to deal with respectively low-, middle- and high-level cross-modal information fusion. These modules use Depth-to-RGB Weighing (DW) and RGB-to-RGB Weighting (RW) to allow rich cross-modal and cross-scale interactions among feature layers generated by different network blocks. To effectively train the proposed Cross-Modal Weighting Network (CMWNet), we design a composite loss function that summarizes the errors between intermediate predictions and ground truth over different scales. With all these novel components working together, CMWNet effectively fuses information from RGB and depth channels, and meanwhile explores object localization and details across scales. Thorough evaluations demonstrate CMWNet consistently outperforms 15 state-of-the-art RGB-D SOD methods on seven popular benchmarks.
翻訳日:2022-11-12 04:42:04 公開日:2020-07-09
# 循環型対向ネットワークを用いたロボット手術における機器セグメンテーションの教師なし学習に向けて

Towards Unsupervised Learning for Instrument Segmentation in Robotic Surgery with Cycle-Consistent Adversarial Networks ( http://arxiv.org/abs/2007.04505v1 )

ライセンス: Link先を確認
Daniil Pakhomov, Wei Shen, Nassir Navab(参考訳) 内視鏡画像における外科的ツールセグメンテーションは重要な問題であり,全機器のポーズ推定への重要なステップであり,術前および術中画像の内視鏡視への統合に使用される。 畳み込みニューラルネットワークに基づく最近の多くのアプローチは大きな成果を上げているが、進歩の鍵となる障壁は、さまざまな手術シナリオにおいてアルゴリズムが一般化し、うまく機能するために必要な、多数の手動注釈画像の取得にある。 外科画像データと異なり、アノテーションの取得は困難であり、品質が変動する可能性がある。 一方,ロボットの前方運動モデルとCADモデルを用いて,画像平面上に投影することで,合成アノテーションを自動的に生成することができる。 残念ながら、このモデルは不正確であり、画像分割モデルの教師あり学習には使用できない。 生成したアノテーションは誤りによる内視鏡画像と直接対応しないため,入力された内視鏡画像と対応するアノテーションとのマッピングを敵モデルを用いて学習することを目的として,画像から画像への非対訳として問題を定式化する。 本手法は,高価なアノテーションを必要とせずに画像セグメンテーションモデルを訓練することを可能にし,画像/注釈データの注釈分布の外側で大きなラベルのない内視鏡的画像収集を活用できる。 提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。

Surgical tool segmentation in endoscopic images is an important problem: it is a crucial step towards full instrument pose estimation and it is used for integration of pre- and intra-operative images into the endoscopic view. While many recent approaches based on convolutional neural networks have shown great results, a key barrier to progress lies in the acquisition of a large number of manually-annotated images which is necessary for an algorithm to generalize and work well in diverse surgical scenarios. Unlike the surgical image data itself, annotations are difficult to acquire and may be of variable quality. On the other hand, synthetic annotations can be automatically generated by using forward kinematic model of the robot and CAD models of tools by projecting them onto an image plane. Unfortunately, this model is very inaccurate and cannot be used for supervised learning of image segmentation models. Since generated annotations will not directly correspond to endoscopic images due to errors, we formulate the problem as an unpaired image-to-image translation where the goal is to learn the mapping between an input endoscopic image and a corresponding annotation using an adversarial model. Our approach allows to train image segmentation models without the need to acquire expensive annotations and can potentially exploit large unlabeled endoscopic image collection outside the annotated distributions of image/annotation data. We test our proposed method on Endovis 2017 challenge dataset and show that it is competitive with supervised segmentation methods.
翻訳日:2022-11-12 04:36:07 公開日:2020-07-09
# 空間と時間におけるビデオのアライメント

Aligning Videos in Space and Time ( http://arxiv.org/abs/2007.04515v1 )

ライセンス: Link先を確認
Senthil Purushwalkam, Tian Ye, Saurabh Gupta, Abhinav Gupta(参考訳) 本稿では,ビデオ間の視覚的対応を抽出する作業に焦点を当てる。 アクションクラスからのクェリビデオクリップが与えられた場合、スペースと時間のトレーニングビデオに合わせることを目的としている。 このようなきめ細かい調整作業のためのトレーニングデータを取得することは難しく、しばしば曖昧です。 そこで我々は,クロスビデオ・サイクル整合性により,空間と時間でそのような対応を学習する新しいアライメント手法を提案する。 トレーニング中、一対のビデオが与えられると、最初のビデオの所定のフレームのパッチを第2のビデオのフレームでマッチングして接続するサイクルを計算します。 重なり合うパッチを繋ぐサイクルは、重複しないパッチを繋ぐサイクルよりも高いスコアを得られる。 Penn Action and Pouring データセットに関する実験により,提案手法はビデオ間で意味論的に類似したパッチに対応し,対象状態や行動状態に敏感な表現を学習できることを示した。

In this paper, we focus on the task of extracting visual correspondences across videos. Given a query video clip from an action class, we aim to align it with training videos in space and time. Obtaining training data for such a fine-grained alignment task is challenging and often ambiguous. Hence, we propose a novel alignment procedure that learns such correspondence in space and time via cross video cycle-consistency. During training, given a pair of videos, we compute cycles that connect patches in a given frame in the first video by matching through frames in the second video. Cycles that connect overlapping patches together are encouraged to score higher than cycles that connect non-overlapping patches. Our experiments on the Penn Action and Pouring datasets demonstrate that the proposed method can successfully learn to correspond semantically similar patches across videos, and learns representations that are sensitive to object and action states.
翻訳日:2022-11-12 04:35:26 公開日:2020-07-09
# ESA-ReID:人物再IDのためのエントロピーに基づく意味的特徴アライメント

ESA-ReID: Entropy-Based Semantic Feature Alignment for Person re-ID ( http://arxiv.org/abs/2007.04644v1 )

ライセンス: Link先を確認
Chaoping Tu, Yin Zhao, Longjun Cai(参考訳) 人物の再識別(re-ID)は現実世界の課題である。 監視システムの典型的な応用に加えて、re-idはコンテンツビデオ(テレビや映画)における人物識別のリコール率を向上させる重要な価値を持っている。 しかし、オクルージョン、ショット角度の変化、複雑な背景は、特にコンテンツビデオにおいて、応用から遠く離れている。 本稿では,人間の意味的特徴の詳細な情報を活用するエントロピーに基づく意味的特徴のアライメントモデルを提案する。 セグメンテーションの不確実性を考慮すると,マスクセグメンテーション誤差の負の効果を低減できるエントロピーベースのマスクとのセマンティックアライメントを導入する。 咬合や身体部位の欠如が多いコンテンツビデオに基づく新しいre-idデータセットを構築し,今後公開する予定である。 既存のデータセットと新しいデータセットの両方に関する広範な研究は、提案モデルの優れた性能を示している。

Person re-identification (re-ID) is a challenging task in real-world. Besides the typical application in surveillance system, re-ID also has significant values to improve the recall rate of people identification in content video (TV or Movies). However, the occlusion, shot angle variations and complicated background make it far away from application, especially in content video. In this paper we propose an entropy based semantic feature alignment model, which takes advantages of the detailed information of the human semantic feature. Considering the uncertainty of semantic segmentation, we introduce a semantic alignment with an entropy-based mask which can reduce the negative effects of mask segmentation errors. We construct a new re-ID dataset based on content videos with many cases of occlusion and body part missing, which will be released in future. Extensive studies on both existing datasets and the new dataset demonstrate the superior performance of the proposed model.
翻訳日:2022-11-12 04:34:12 公開日:2020-07-09
# 最大エントロピー正規化と中国語テキスト認識

Maximum Entropy Regularization and Chinese Text Recognition ( http://arxiv.org/abs/2007.04651v1 )

ライセンス: Link先を確認
Changxu Cheng, Wuheng Xu, Xiang Bai, Bin Feng, and Wenyu Liu(参考訳) 中国語の文字認識がラテン文字よりも難しいのは、きめ細かい漢字が多すぎることと、クラスに対する大きな不均衡が原因で、深刻な過度な問題を引き起こしている。 本稿では,学習過程の正則化に最大エントロピー正規化を適用し,モデルのパラメータや修正を伴わずに,正準クロスエントロピー損失に負のエントロピー項を単に付加することを提案する。 理論的には収束確率分布を与え、正規化が学習過程に与える影響を分析する。 認識モデルの一般化と頑健性には正則化が有効であることを証明し,漢字認識,中国語テキスト行認識,細粒度画像分類の実験により一貫した改善が得られた。

Chinese text recognition is more challenging than Latin text due to the large amount of fine-grained Chinese characters and the great imbalance over classes, which causes a serious overfitting problem. We propose to apply Maximum Entropy Regularization to regularize the training process, which is to simply add a negative entropy term to the canonical cross-entropy loss without any additional parameters and modification of a model. We theoretically give the convergence probability distribution and analyze how the regularization influence the learning process. Experiments on Chinese character recognition, Chinese text line recognition and fine-grained image classification achieve consistent improvement, proving that the regularization is beneficial to generalization and robustness of a recognition model.
翻訳日:2022-11-12 04:33:27 公開日:2020-07-09
# 膝重み付きコーンビームCTにおける運動補償の慣性計測

Inertial Measurements for Motion Compensation in Weight-bearing Cone-beam CT of the Knee ( http://arxiv.org/abs/2007.04655v1 )

ライセンス: Link先を確認
Jennifer Maier, Marlies Nitschke, Jang-Hwan Choi, Garry Gold, Rebecca Fahrig, Bjoern M. Eskofier, Andreas Maier(参考訳) 膝関節X線CT検査における不随意運動は, 再建ボリュームのアーチファクトを生じ, 臨床診断には使用できない。 現在、この動きを補正するためにイメージベースまたはマーカーベースの手法が適用されているが、長い実行や準備時間を必要とすることが多い。 本稿では,加速度計とジャイロスコープを装着した慣性測定装置(IMU)を被験者の脚に装着し,スキャン中の運動を測定する。 そこで本研究では,光学式3次元トラッキングシステムを用いて実動を用いたシミュレーション実験を行った。 この動きにより、XCAT数値的な膝ファントムは、運動破壊プロジェクションを生成する模擬CTスキャン中に厳格に変形する。 生体力学モデルは、膝の下に置かれたIMUの測定値を生成するために、同じ追従運動でアニメーションされる。 提案する多段階アルゴリズムでは,これらの信号をCTスキャンのグローバル座標系に変換し,再構成時の動作補償に応用する。 提案手法は,復元したボリュームの運動アーチファクトを効果的に削減する。 運動崩壊の場合と比較して, 運動なしの場合の平均構造類似度指数と根平均二乗誤差はそれぞれ13-21%, 68-70%改善した。 これらの結果は,最先端のマーカーベース手法と同等の質的,定量的に比較した。 本研究は、本手法の有効性を示し、C-arm CTにおける純粋IMUに基づく運動補償に向けた有望な結果をもたらす。

Involuntary motion during weight-bearing cone-beam computed tomography (CT) scans of the knee causes artifacts in the reconstructed volumes making them unusable for clinical diagnosis. Currently, image-based or marker-based methods are applied to correct for this motion, but often require long execution or preparation times. We propose to attach an inertial measurement unit (IMU) containing an accelerometer and a gyroscope to the leg of the subject in order to measure the motion during the scan and correct for it. To validate this approach, we present a simulation study using real motion measured with an optical 3D tracking system. With this motion, an XCAT numerical knee phantom is non-rigidly deformed during a simulated CT scan creating motion corrupted projections. A biomechanical model is animated with the same tracked motion in order to generate measurements of an IMU placed below the knee. In our proposed multi-stage algorithm, these signals are transformed to the global coordinate system of the CT scan and applied for motion compensation during reconstruction. Our proposed approach can effectively reduce motion artifacts in the reconstructed volumes. Compared to the motion corrupted case, the average structural similarity index and root mean squared error with respect to the no-motion case improved by 13-21% and 68-70%, respectively. These results are qualitatively and quantitatively on par with a state-of-the-art marker-based method we compared our approach to. The presented study shows the feasibility of this novel approach, and yields promising results towards a purely IMU-based motion compensation in C-arm CT.
翻訳日:2022-11-12 04:33:13 公開日:2020-07-09
# 強化学習に基づくサイバースペース構成の弱さ解析

Weakness Analysis of Cyberspace Configuration Based on Reinforcement Learning ( http://arxiv.org/abs/2007.04614v1 )

ライセンス: Link先を確認
Lei Zhang, Wei Bai, Shize Guo, Shiming Xia, Hongmei Li and Zhisong Pan(参考訳) 本研究では,サイバー空間構成の分析に学習に基づくアプローチを提案する。 従来の方法とは異なり、私たちのアプローチは過去の経験から学び、時間とともに改善する能力を持っています。 特に,攻撃者としてより多くのエージェントを訓練するにつれて,これまで隠されていたパス,特に複数のドメインサイバースペースにおいて,攻撃経路を迅速に見つける方法が向上する。 これらの結果を達成するために,強化学習(rl)問題として攻撃経路の探索を行い,エージェントに複数のドメイン攻撃経路を見つけるように訓練する。 RLポリシーをより隠れた攻撃経路を見つけるために、RLに複数のドメインアクション選択モジュールを導入する。 この手法を検証するために サイバー空間実験環境を 設計することで 我々の目標は、サイバースペース構成の弱点を分析するために、より隠れた攻撃経路を見つけることである。 実験の結果,本手法は既存のベースライン手法よりも隠れた複数のドメイン攻撃経路を見つけることができた。

In this work, we present a learning-based approach to analysis cyberspace configuration. Unlike prior methods, our approach has the ability to learn from past experience and improve over time. In particular, as we train over a greater number of agents as attackers, our method becomes better at rapidly finding attack paths for previously hidden paths, especially in multiple domain cyberspace. To achieve these results, we pose finding attack paths as a Reinforcement Learning (RL) problem and train an agent to find multiple domain attack paths. To enable our RL policy to find more hidden attack paths, we ground representation introduction an multiple domain action select module in RL. By designing a simulated cyberspace experimental environment to verify our method. Our objective is to find more hidden attack paths, to analysis the weakness of cyberspace configuration. The experimental results show that our method can find more hidden multiple domain attack paths than existing baselines methods.
翻訳日:2022-11-12 04:26:10 公開日:2020-07-09
# 非拘束型クロスワードノズル生成の自動化戦略

Automation Strategies for Unconstrained Crossword Puzzle Generation ( http://arxiv.org/abs/2007.04663v1 )

ライセンス: Link先を確認
Charu Agarwal, Rushikesh K. Joshi(参考訳) 制約なしクロスワードパズルは制約付きクロスワード問題の一般化である。 この問題では、語彙のみであり、任意に格子次元が知られている。 したがって、単語の位置を決定するためにアルゴリズムを必要とするだけでなく、グリッドの幾何学も考え出す必要がある。 本稿では,このような制約のない環境での自動クロスワードパズル生成のためのアルゴリズム戦略について論じる。 提案した戦略は、与えられた語彙からの単語の選択、グリッドサイズの選択、グリッドサイズと調整、ワードフィッティングのメトリクス、バックトラッキング技術、および手がかり生成のタスクをカバーする。 これらの戦略は、単語列の置換順序がグリッドフィッティングに与える影響の研究に基づいて定式化されている。 これらの戦略を組み合わせたエンドツーエンドのアルゴリズムを示し、その性能を解析する。 この技術は、非常に大きなサイズのよく詰め込まれたパズルを素早く作成することに成功している。 最後に,本アルゴリズムで生成したいくつかのパズルについても述べる。

An unconstrained crossword puzzle is a generalization of the constrained crossword problem. In this problem, only the word vocabulary, and optionally the grid dimensions are known. Hence, it not only requires the algorithm to determine the word locations, but it also needs to come up with the grid geometry. This paper discusses algorithmic strategies for automatic crossword puzzle generation in such an unconstrained setting. The strategies proposed cover the tasks of selection of words from a given vocabulary, selection of grid sizes, grid resizing and adjustments, metrics for word fitting, back-tracking techniques, and also clue generation. The strategies have been formulated based on a study of the effect of word sequence permutation order on grid fitting. An end-to-end algorithm that combines these strategies is presented, and its performance is analyzed. The techniques have been found to be successful in quickly producing well-packed puzzles of even large sizes. Finally, a few example puzzles generated by our algorithm are also provided.
翻訳日:2022-11-12 04:25:56 公開日:2020-07-09
# トラベリングセールスマン問題の解法のための生成グラフ法

A Generative Graph Method to Solve the Travelling Salesman Problem ( http://arxiv.org/abs/2007.04949v1 )

ライセンス: Link先を確認
Amal Nammouchi, Hakim Ghazzai, and Yehia Massoud(参考訳) トラベリングセールスマン問題(TSP)は、局所ノード近傍とグローバルグラフ構造の両方の推論を必要とする組合せ最適化における挑戦的なグラフタスクである。 本稿では,生成的手法である新しいグラフ学習ネットワーク(gln)を用いて,tspの近似解法を提案する。 GLNモデルは、トレーニングデータセットとしてTSPインスタンスのパターンを直接学習し、グラフプロパティをエンコードし、各ノードの埋め込みをマージして、ノードからノードへの最適なツアーを直接出力するか、最終ツアーを検証するグラフ検索技術を介して行う。 提案手法の予備結果は, 最適解と比較し, 計算量を大幅に節約し, 最適ギャップの少ない課題に適用可能であることを証明した。

The Travelling Salesman Problem (TSP) is a challenging graph task in combinatorial optimization that requires reasoning about both local node neighborhoods and global graph structure. In this paper, we propose to use the novel Graph Learning Network (GLN), a generative approach, to approximately solve the TSP. GLN model learns directly the pattern of TSP instances as training dataset, encodes the graph properties, and merge the different node embeddings to output node-to-node an optimal tour directly or via graph search technique that validates the final tour. The preliminary results of the proposed novel approach proves its applicability to this challenging problem providing a low optimally gap with significant computation saving compared to the optimal solution.
翻訳日:2022-11-12 04:25:04 公開日:2020-07-09
# 受入エンジンの評価

Evaluating the Apperception Engine ( http://arxiv.org/abs/2007.05367v1 )

ライセンス: Link先を確認
Richard Evans, Jose Hernandez-Orallo, Johannes Welbl, Pushmeet Kohli, Marek Sergot(参考訳) Apperception Engineは教師なし学習システムである。 感覚入力の列が与えられたとき、感覚のシーケンスを説明すると同時に一連の統一条件を満たす象徴的因果理論を構築する。 統一条件は、理論の構成要素(対象、性質、および法則)は、コヒーレントな全体に統合されなければならないと主張する。 理論が構築されると、将来のセンサーの読み出し、事前の読み戻し、あるいは欠落した読み出しの予測に応用できる。 本稿では,セルオートマトン,リズム,簡単な保育音,マルチモーダル結合問題,オクルージョンタスク,シーケンス誘導知能テストなど多種多様な領域において,apperception engineを評価する。 それぞれの領域で、将来のセンサー値を予測するエンジンの能力、以前のセンサー値の回帰、センサーデータの欠如をテストします。 エンジンはこれらの領域すべてで良好に動作し、ニューラルネットベースラインとアート帰納論理プログラミングシステムの状態を大きく上回っている。 これらの結果は、ニューラルネットが結合問題(異なるモダリティの情報を何らかの形で結合して一つの統一されたオブジェクトの異なる側面にまとめる必要がある)を解こうとするのに苦労し、閉塞タスクを解こうとしないため重要である。 特にシーケンスインジェクションインテリジェンステストにおいて,本システムは人間レベルの性能を達成した。 これは、我々のシステムは知能検査に特化して設計されたbespokeシステムではなく、あらゆる感覚シーケンスを理解するために設計された汎用システムであるからである。

The Apperception Engine is an unsupervised learning system. Given a sequence of sensory inputs, it constructs a symbolic causal theory that both explains the sensory sequence and also satisfies a set of unity conditions. The unity conditions insist that the constituents of the theory - objects, properties, and laws - must be integrated into a coherent whole. Once a theory has been constructed, it can be applied to predict future sensor readings, retrodict earlier readings, or impute missing readings. In this paper, we evaluate the Apperception Engine in a diverse variety of domains, including cellular automata, rhythms and simple nursery tunes, multi-modal binding problems, occlusion tasks, and sequence induction intelligence tests. In each domain, we test our engine's ability to predict future sensor values, retrodict earlier sensor values, and impute missing sensory data. The engine performs well in all these domains, significantly outperforming neural net baselines and state of the art inductive logic programming systems. These results are significant because neural nets typically struggle to solve the binding problem (where information from different modalities must somehow be combined together into different aspects of one unified object) and fail to solve occlusion tasks (in which objects are sometimes visible and sometimes obscured from view). We note in particular that in the sequence induction intelligence tests, our system achieved human-level performance. This is notable because our system is not a bespoke system designed specifically to solve intelligence tests, but a general-purpose system that was designed to make sense of any sensory sequence.
翻訳日:2022-11-12 04:24:51 公開日:2020-07-09
# 適応物理学インフォームドニューラルネットワークを用いたallen-cahnおよびcahn-hilliard方程式の解法

Solving Allen-Cahn and Cahn-Hilliard Equations using the Adaptive Physics Informed Neural Networks ( http://arxiv.org/abs/2007.04542v1 )

ライセンス: Link先を確認
Colby L. Wight and Jia Zhao(参考訳) 位相場モデル、特にアレン・カーン型とカーン・ヒリアード型方程式は界面の動的問題の研究に広く用いられている。 位相場モデルを解くための正確で効率的で安定な数値アルゴリズムの設計は、何十年も前から活発な分野だった。 本稿では,改良型物理学インフォームドニューラルネットワーク (pinn) の提案により,allen-cahn および cahn-hilliard 方程式の自動数値解法の設計にディープニューラルネットワークを用いた。 PINNは多くの微分方程式問題を調べるために採用されてきたが、位相場方程式の解法におけるPINNの直接的な応用は、多くの場合、正確な解を提供しない。 そこで,我々はピンの近似パワーを付加する様々な手法を提案する。 本論文の主な貢献として,位相場方程式の解法におけるPINNの効率と正確性を向上させるために,空間と時間の両方で適応的アイデアを取り入れ,様々なサンプリング戦略を導入することを提案する。 さらに、改良されたPINNは、PDEの明示的な形式に制限を持たず、より広範なPDE問題に適応し、他のPDEの数値近似に光を当てる。

Phase field models, in particular, the Allen-Cahn type and Cahn-Hilliard type equations, have been widely used to investigate interfacial dynamic problems. Designing accurate, efficient, and stable numerical algorithms for solving the phase field models has been an active field for decades. In this paper, we focus on using the deep neural network to design an automatic numerical solver for the Allen-Cahn and Cahn-Hilliard equations by proposing an improved physics informed neural network (PINN). Though the PINN has been embraced to investigate many differential equation problems, we find a direct application of the PINN in solving phase-field equations won't provide accurate solutions in many cases. Thus, we propose various techniques that add to the approximation power of the PINN. As a major contribution of this paper, we propose to embrace the adaptive idea in both space and time and introduce various sampling strategies, such that we are able to improve the efficiency and accuracy of the PINN on solving phase field equations. In addition, the improved PINN has no restriction on the explicit form of the PDEs, making it applicable to a wider class of PDE problems, and shedding light on numerical approximations of other PDEs in general.
翻訳日:2022-11-12 04:24:22 公開日:2020-07-09
# 神経にインスパイアされたヒト-スワーム相互作用の理論

A Neuro-inspired Theory of Joint Human-Swarm Interaction ( http://arxiv.org/abs/2007.04882v1 )

ライセンス: Link先を確認
Jonas D. Hasbach, Maren Bennewitz(参考訳) HSI(Human-Swarm Interaction)は、ロボット工学とヒューマンファクター工学の領域における積極的な研究課題である。 本稿では、認知システム工学の観点を適用し、HSIの神経誘発ジョイントシステム理論を導入する。 この考え方は適応的で堅牢でスケーラブルなHSIダイナミクスの予測を定義しており、従って人間の警告ループ設計を知らせる可能性がある。

Human-swarm interaction (HSI) is an active research challenge in the realms of swarm robotics and human-factors engineering. Here we apply a cognitive systems engineering perspective and introduce a neuro-inspired joint systems theory of HSI. The mindset defines predictions for adaptive, robust and scalable HSI dynamics and therefore has the potential to inform human-swarm loop design.
翻訳日:2022-11-12 04:23:44 公開日:2020-07-09
# 無線交通センサデータを用いた主要高速道路混雑事象の自動検出:機械学習によるアプローチ

Automatic Detection of Major Freeway Congestion Events Using Wireless Traffic Sensor Data: A Machine Learning Approach ( http://arxiv.org/abs/2007.05079v1 )

ライセンス: Link先を確認
Sanaz Aliari, Kaveh F. Sadabadi(参考訳) 主要回廊における交通動態のモニタリングは、交通計画の目的に対して貴重な洞察を与えることができる。 このモニタリングの重要な要件は、主要なトラフィックイベントを自動的に検出し、旅行データに注釈を付ける方法が利用可能であることである。 本稿では,数百時間単位の交通速度データから,道路交通渋滞イベントの信頼性の高い検出と特徴付けのための機械学習手法を提案する。 実際、提案手法は、任意の時系列の変化を検出するための一般的なアプローチであり、これは現在の研究における無線交通センサデータである。 速度データは最初10時間のスライディングウィンドウでタイムウインドされ、各ウィンドウにおける混雑イベント(スローダウン)の存在と持続時間を検出するために使用される3つのニューラルネットワークに入力される。 スライディングウィンドウは、各スローダウンイベントを複数回キャプチャし、渋滞検出の信頼性を高める。 トレーニングとパラメータチューニングは168のスローダウンイベントを含む17,483時間のデータで実行される。 このデータは、メリーランド大学のCenter for Advanced Transportation Technologies(CATT)で進行中のプローブデータ検証研究の一部として収集され、ラベル付けされている。 ニューラルネットワークは、トレーニングデータに過剰に適合する可能性を減らすために慎重に訓練される。 実験結果から,本手法は混雑事象の大部分を検出できる一方で,ヒューリスティックなルールベースアプローチを著しく上回る結果が得られた。 さらに,渋滞イベントの開始時刻と終了時刻を推定する上で,提案手法がより正確であることを示す。

Monitoring the dynamics of traffic in major corridors can provide invaluable insight for traffic planning purposes. An important requirement for this monitoring is the availability of methods to automatically detect major traffic events and to annotate the abundance of travel data. This paper introduces a machine learning based approach for reliable detection and characterization of highway traffic congestion events from hundreds of hours of traffic speed data. Indeed, the proposed approach is a generic approach for detection of changes in any given time series, which is the wireless traffic sensor data in the present study. The speed data is initially time-windowed by a ten-hour long sliding window and fed into three Neural Networks that are used to detect the existence and duration of congestion events (slowdowns) in each window. The sliding window captures each slowdown event multiple times and results in increased confidence in congestion detection. The training and parameter tuning are performed on 17,483 hours of data that includes 168 slowdown events. This data is collected and labeled as part of the ongoing probe data validation studies at the Center for Advanced Transportation Technologies (CATT) at the University of Maryland. The Neural networks are carefully trained to reduce the chances of over-fitting to the training data. The experimental results show that this approach is able to successfully detect most of the congestion events, while significantly outperforming a heuristic rule-based approach. Moreover, the proposed approach is shown to be more accurate in estimation of the start-time and end-time of the congestion events.
翻訳日:2022-11-12 04:18:14 公開日:2020-07-09
# 対価第一価格オークションにおける最適かつ効率的な入札の学習

Learning to Bid Optimally and Efficiently in Adversarial First-price Auctions ( http://arxiv.org/abs/2007.04568v1 )

ライセンス: Link先を確認
Yanjun Han, Zhengyuan Zhou, Aaron Flores, Erik Ordentlich, Tsachy Weissman(参考訳) 第一価オークションはオンライン広告業界を席巻し、多くのプラットフォームで第二価オークションが支配的なオークションメカニズムとなっている。 この変化は、入札者にとって重要な課題を引き起こした: 第1の価格オークションにおいて、第2価格オークションとは異なり、他人の入札行動を知るのが困難で、他人のプライベート価値を競うのがもはや最適ではない、どのように入札すべきなのか? 本稿では,オンライン学習の角度から,入札者の私的評価と他の入札者の入札の両方が任意にできる1次オークションの入札を繰り返すことの学習の基本問題に対処する。 我々は,全てのリプシッツ入札ポリシーの集合と競合するときに,$\widetilde{O}(\sqrt{T})$の後悔を達成する,最初のミニマックス最適オンライン入札アルゴリズムを開発した。 この新しいアルゴリズムは、優れたエキスパートの存在がパフォーマンスを向上させるために活用できるという洞察と、オンライン学習に独立した関心を持つような、オリジナルの階層的なエキスパート連鎖構造に基づいている。 さらに,この問題に存在する積構造を生かして,このアルゴリズムを統計的に最適だが計算不可能であるバニラ形式から,同じ$\widetilde{o}(\sqrt{t})$ minimax の最適後悔保証を保った計算効率と空間効率のよいアルゴリズムに変更する。 さらに、不可能性の結果を通じて、より強力なオラクル(リプシッツ入札ポリシーが考慮されている)と有利に競合する可能性は低いことを強調する。 最後に,verizon mediaから得られた3つの実世界の1価オークションデータセット上でアルゴリズムをテストし,既存の入札アルゴリズムと比較して,アルゴリズムの優れた性能を示す。

First-price auctions have very recently swept the online advertising industry, replacing second-price auctions as the predominant auction mechanism on many platforms. This shift has brought forth important challenges for a bidder: how should one bid in a first-price auction, where unlike in second-price auctions, it is no longer optimal to bid one's private value truthfully and hard to know the others' bidding behaviors? In this paper, we take an online learning angle and address the fundamental problem of learning to bid in repeated first-price auctions, where both the bidder's private valuations and other bidders' bids can be arbitrary. We develop the first minimax optimal online bidding algorithm that achieves an $\widetilde{O}(\sqrt{T})$ regret when competing with the set of all Lipschitz bidding policies, a strong oracle that contains a rich set of bidding strategies. This novel algorithm is built on the insight that the presence of a good expert can be leveraged to improve performance, as well as an original hierarchical expert-chaining structure, both of which could be of independent interest in online learning. Further, by exploiting the product structure that exists in the problem, we modify this algorithm--in its vanilla form statistically optimal but computationally infeasible--to a computationally efficient and space efficient algorithm that also retains the same $\widetilde{O}(\sqrt{T})$ minimax optimal regret guarantee. Additionally, through an impossibility result, we highlight that one is unlikely to compete this favorably with a stronger oracle (than the considered Lipschitz bidding policies). Finally, we test our algorithm on three real-world first-price auction datasets obtained from Verizon Media and demonstrate our algorithm's superior performance compared to several existing bidding algorithms.
翻訳日:2022-11-12 04:17:02 公開日:2020-07-09
# データから動的システムを学ぶ:単純な相互検証の観点から

Learning dynamical systems from data: a simple cross-validation perspective ( http://arxiv.org/abs/2007.05074v1 )

ライセンス: Link先を確認
Boumediene Hamzi and Houman Owhadi(参考訳) 有限個の観測状態から力学系のベクトル場を回帰することは、そのような系の代理モデルを学ぶ自然な方法である。 我々は、これらのエミュレータで使用されるカーネルを学習するための簡単なアプローチとして、クロスバリデーションの変種(Kernel Flows \cite{Owhadi19} とその変種(Maximum Mean Discrepancy および Lyapunov exponents )を提示する。

Regressing the vector field of a dynamical system from a finite number of observed states is a natural way to learn surrogate models for such systems. We present variants of cross-validation (Kernel Flows \cite{Owhadi19} and its variants based on Maximum Mean Discrepancy and Lyapunov exponents) as simple approaches for learning the kernel used in these emulators.
翻訳日:2022-11-12 04:16:27 公開日:2020-07-09
# 主語ベクトル

Principal Word Vectors ( http://arxiv.org/abs/2007.04629v1 )

ライセンス: Link先を確認
Ali Basirat, Christian Hardmeier, Joakim Nivre(参考訳) 単語をベクトル空間に埋め込むための主成分分析を一般化する。 一般化は2つの大きなレベルで行われる。 1つ目は、コーパスの概念を3つのキー要素の語彙集合、特徴(注釈)集合、文脈によって定義される数え上げ過程として一般化することである。 この一般化により、コーパスに提供される異なる種類の文脈と異なるタイプのアノテーションに関して、主語埋め込み法がワードベクトルを生成することができる。 2つ目は、ほとんどの単語埋め込みメソッドで使われる変換ステップを一般化することである。 この目的のために、変換の2つのレベルを定義します。 1つは二次変換であり、語彙単位と文脈的特徴に対する異なる種類の重み付けを考慮に入れている。 2つ目は適応非線形変換であり、主成分分析に意味のあるデータ分布を再構成する。 これらの一般化が単語ベクトルに与える影響は、単語ベクトルの拡散と識別性に関して本質的に研究されている。 また,単語類似度ベンチマークにおける主語ベクトルの寄与度と係り受け解析のタスクについて,極端な評価を行う。 本実験は,一般的な単語埋め込み法で生成する主語ベクトルと他の単語ベクトル集合の比較によって最終化される。 その結果,主語ベクトルの拡散と判別性は,他の単語埋め込み法よりも高いことがわかった。 評価指標から得られた結果から, 主語ベクトルは, 単語埋め込み法より優れており, 一般的な単語埋め込み法と同等であることがわかった。

We generalize principal component analysis for embedding words into a vector space. The generalization is made in two major levels. The first is to generalize the concept of the corpus as a counting process which is defined by three key elements vocabulary set, feature (annotation) set, and context. This generalization enables the principal word embedding method to generate word vectors with regard to different types of contexts and different types of annotations provided for a corpus. The second is to generalize the transformation step used in most of the word embedding methods. To this end, we define two levels of transformations. The first is a quadratic transformation, which accounts for different types of weighting over the vocabulary units and contextual features. Second is an adaptive non-linear transformation, which reshapes the data distribution to be meaningful to principal component analysis. The effect of these generalizations on the word vectors is intrinsically studied with regard to the spread and the discriminability of the word vectors. We also provide an extrinsic evaluation of the contribution of the principal word vectors on a word similarity benchmark and the task of dependency parsing. Our experiments are finalized by a comparison between the principal word vectors and other sets of word vectors generated with popular word embedding methods. The results obtained from our intrinsic evaluation metrics show that the spread and the discriminability of the principal word vectors are higher than that of other word embedding methods. The results obtained from the extrinsic evaluation metrics show that the principal word vectors are better than some of the word embedding methods and on par with popular methods of word embedding.
翻訳日:2022-11-12 04:15:47 公開日:2020-07-09
# 離散的および連続的なスーパータグ機能を備えたgreedy transition-based dependency parse

Greedy Transition-Based Dependency Parsing with Discrete and Continuous Supertag Features ( http://arxiv.org/abs/2007.04686v1 )

ライセンス: Link先を確認
Ali Basirat, Joakim Nivre(参考訳) グリーディ遷移に基づく依存性解析における豊富なスーパータグ特徴の影響について検討した。 従来の研究では、単語の1-bestスーパータグを表すスパースブール特徴がパース精度を向上させることが示されているが、単語のスーパータグ分布全体の連続ベクトル表現を追加することで、さらなる改善が期待できることを示す。 このようにして、私たちは8.6 %$ LAS と90.9 %$ UASon のスーパータグ機能を備えたエレディ・トランジションベースの構文解析の最良の結果を得る。

We study the effect of rich supertag features in greedy transition-based dependency parsing. While previous studies have shown that sparse boolean features representing the 1-best supertag of a word can improve parsing accuracy, we show that we can get further improvements by adding a continuous vector representation of the entire supertag distribution for a word. In this way, we achieve the best results for greedy transition-based parsing with supertag features with $88.6\%$ LAS and $90.9\%$ UASon the English Penn Treebank converted to Stanford Dependencies.
翻訳日:2022-11-12 04:15:24 公開日:2020-07-09
# CompRes:ニュースにおける物語構造のためのデータセット

CompRes: A Dataset for Narrative Structure in News ( http://arxiv.org/abs/2007.04874v1 )

ライセンス: Link先を確認
Effi Levi, Guy Mor, Shaul Shenhav, Tamir Sheafer(参考訳) 本稿では,原文中のナラティブ構造を自動的に検出するタスクについて述べる。 以前の作品では、ラボフとワルツキーによる口頭物語理論を利用して、個人的な物語のテキスト中の様々な物語要素を同定している。 その代わり、我々は、その社会的影響の高まりと、世論の創造と形成における役割に動機づけられたニュース記事に焦点をあてる。 ニュースメディアにおける物語構造のための最初のデータセットであるCompResを紹介する。 まず、我々は、ラボフとワレツキーの物語理論から要素を適応させ、独自の物語要素を追加することによって、ニュースメディアに適した新しい物語論法を設計し、その後、ニュースやパルチザンのウェブサイトから収集された29の英ニュース記事(1,099文を含む)を注釈付けするために、その手法を用いた。 注釈付きデータセットを使用して、いくつかの教師付きモデルをトレーニングし、異なる物語要素を識別し、最大0.7のF_1$スコアを達成します。 我々は、将来の仕事のためにいくつかの有望な方向を提案して締めくくる。

This paper addresses the task of automatically detecting narrative structures in raw texts. Previous works have utilized the oral narrative theory by Labov and Waletzky to identify various narrative elements in personal stories texts. Instead, we direct our focus to news articles, motivated by their growing social impact as well as their role in creating and shaping public opinion. We introduce CompRes -- the first dataset for narrative structure in news media. We describe the process in which the dataset was constructed: first, we designed a new narrative annotation scheme, better suited for news media, by adapting elements from the narrative theory of Labov and Waletzky (Complication and Resolution) and adding a new narrative element of our own (Success); then, we used that scheme to annotate a set of 29 English news articles (containing 1,099 sentences) collected from news and partisan websites. We use the annotated dataset to train several supervised models to identify the different narrative elements, achieving an $F_1$ score of up to 0.7. We conclude by suggesting several promising directions for future work.
翻訳日:2022-11-12 04:15:12 公開日:2020-07-09
# ディープニューラルネットワークの表現性

Expressivity of Deep Neural Networks ( http://arxiv.org/abs/2007.04759v1 )

ライセンス: Link先を確認
Ingo G\"uhring, Mones Raslan, Gitta Kutyniok(参考訳) 本稿では,ニューラルネットワークの多種多様な近似結果について概観する。 古典関数空間に対する近似率と、特に構造化関数クラスに対する浅層関数に対するディープニューラルネットワークの利点について論じた。 既存の結果は、一般的なフィードフォワードアーキテクチャのためのものだが、畳み込み、残留、反復するニューラルネットワークの近似結果も記述する。

In this review paper, we give a comprehensive overview of the large variety of approximation results for neural networks. Approximation rates for classical function spaces as well as benefits of deep neural networks over shallow ones for specifically structured function classes are discussed. While the mainbody of existing results is for general feedforward architectures, we also depict approximation results for convolutional, residual and recurrent neural networks.
翻訳日:2022-11-12 04:09:02 公開日:2020-07-09
# Boltzmann MachinesとGenerative Adversarial Networksによる取引戦略バックテストのロバスト性向上

Improving the Robustness of Trading Strategy Backtesting with Boltzmann Machines and Generative Adversarial Networks ( http://arxiv.org/abs/2007.04838v1 )

ライセンス: Link先を確認
Edmond Lezmi, Jules Roche, Thierry Roncalli, Jiali Xu(参考訳) この記事では、マーケットジェネレータ構築における機械学習モデルの利用について説明する。 基礎となる考え方は、統計的性質が金融市場に見られるものと同じである人工多次元金融時系列をシミュレートすることである。 特に、これらの合成データは資産返却の確率分布、異なる資産間の確率的依存と時間的自己相関を保存する必要がある。 そこで本稿では,バックテスト統計の確率分布を推定する新しい手法を提案する。 最後の目標は、定量的投資戦略、特にスマートベータ、ファクター投資、代替リスクプレアの分野におけるリスク管理を改善するためのフレームワークを開発することである。

This article explores the use of machine learning models to build a market generator. The underlying idea is to simulate artificial multi-dimensional financial time series, whose statistical properties are the same as those observed in the financial markets. In particular, these synthetic data must preserve the probability distribution of asset returns, the stochastic dependence between the different assets and the autocorrelation across time. The article proposes then a new approach for estimating the probability distribution of backtest statistics. The final objective is to develop a framework for improving the risk management of quantitative investment strategies, in particular in the space of smart beta, factor investing and alternative risk premia.
翻訳日:2022-11-12 04:08:57 公開日:2020-07-09
# 生体力学的に学習したディープニューラルネットワークを用いた非構造ノードの前立腺運動モデリング

Prostate motion modelling using biomechanically-trained deep neural networks on unstructured nodes ( http://arxiv.org/abs/2007.04972v1 )

ライセンス: Link先を確認
Shaheer U. Saeed, Zeike A. Taylor, Mark A. Pinnock, Mark Emberton, Dean C. Barratt, Yipeng Hu(参考訳) 本稿では,バイオメカニカルシミュレーションを用いて深部ニューラルネットワークを訓練し,超音波ガイド下介入時の前立腺運動を予測することを提案する。 本応用では, 解剖学的領域を表すために, セグメント化術前MR画像から非構造点をサンプリングする。 点集合は点固有の材料特性と変位荷重に割り当てられ、非順序の入力特徴ベクトルを形成する。 適応されたPointNetは、有限要素(FE)シミュレーションを地平線データとして使用して、夜間変位を予測することができる。 さらに、トレーニング時ブートストラップサンプリングと平均推定モデルからなる、異なる患者ジオメトリによる特徴ベクトルの変動数に対応するために、多目的ブートストラップ集約機構を検証した。 これにより、被験者固有のソリッドメッシュを必要とせずに、FE溶液を高速かつ正確に近似することができる。 320名の患者の臨床像データに対する160,000個の非線形FEシミュレーションに基づいて, トレーニングされたネットワークは, ホールドアウト患者セグメンテーションから直接サンプリングされた非構造点集合に一般化し, 予測された結節変位においてほぼリアルタイムに推定され, 予測誤差は0.017mmであった。

In this paper, we propose to train deep neural networks with biomechanical simulations, to predict the prostate motion encountered during ultrasound-guided interventions. In this application, unstructured points are sampled from segmented pre-operative MR images to represent the anatomical regions of interest. The point sets are then assigned with point-specific material properties and displacement loads, forming the un-ordered input feature vectors. An adapted PointNet can be trained to predict the nodal displacements, using finite element (FE) simulations as ground-truth data. Furthermore, a versatile bootstrap aggregating mechanism is validated to accommodate the variable number of feature vectors due to different patient geometries, comprised of a training-time bootstrap sampling and a model averaging inference. This results in a fast and accurate approximation to the FE solutions without requiring subject-specific solid meshing. Based on 160,000 nonlinear FE simulations on clinical imaging data from 320 patients, we demonstrate that the trained networks generalise to unstructured point sets sampled directly from holdout patient segmentation, yielding a near real-time inference and an expected error of 0.017 mm in predicted nodal displacement.
翻訳日:2022-11-12 04:08:46 公開日:2020-07-09
# 尻尾のアタック: はい 連合学習をバックドアで

Attack of the Tails: Yes, You Really Can Backdoor Federated Learning ( http://arxiv.org/abs/2007.05084v1 )

ライセンス: Link先を確認
Hongyi Wang, Kartik Sreenivasan, Shashank Rajput, Harit Vishwakarma, Saurabh Agarwal, Jy-yong Sohn, Kangwook Lee, Dimitris Papailiopoulos(参考訳) 分散学習(federated learning, ffl)は、その性質上、訓練中のバックドアという形での敵の攻撃に寄与する。 バックドアの目標は、訓練されたモデルの特定のサブタスク(例えば、グリーンカーをカエルとして分類することで)のパフォーマンスを損なうことである。 文献には様々なFLバックドア攻撃が紹介されているが、それらに対して防御する方法もあり、現在、FLシステムはバックドアに対して堅牢であるように調整できるかどうか、未解決の問題である。 この作品では、我々は反対の証拠を提示する。 まず、一般的に、バックドアへのロバスト性は、敵の例に対するモデルのロバスト性を意味するが、それ自体は大きなオープン問題である。 さらに、flモデルにおけるバックドアの存在を検出することは、一階のオラクルや多項式時間と仮定する可能性は低い。 理論的結果は、新たなバックドア攻撃のファミリーと組み合わせて、エッジケースバックドアと呼んでいる。 エッジケースのバックドアは、トレーニングの一部としてはありそうにない一見簡単な入力、すなわち入力分布の尾に生息するテストデータに対して、モデルに誤った分類を強制する。 これらのエッジケースのバックドアが不便な失敗を招き、フェアネスに深刻な反感を与える可能性があることを説明し、敵側の注意深いチューニングによって、さまざまな機械学習タスク(画像分類、OCR、テキスト予測、感情分析など)にそれらを挿入できることを示す。

Due to its decentralized nature, Federated Learning (FL) lends itself to adversarial attacks in the form of backdoors during training. The goal of a backdoor is to corrupt the performance of the trained model on specific sub-tasks (e.g., by classifying green cars as frogs). A range of FL backdoor attacks have been introduced in the literature, but also methods to defend against them, and it is currently an open question whether FL systems can be tailored to be robust against backdoors. In this work, we provide evidence to the contrary. We first establish that, in the general case, robustness to backdoors implies model robustness to adversarial examples, a major open problem in itself. Furthermore, detecting the presence of a backdoor in a FL model is unlikely assuming first order oracles or polynomial time. We couple our theoretical results with a new family of backdoor attacks, which we refer to as edge-case backdoors. An edge-case backdoor forces a model to misclassify on seemingly easy inputs that are however unlikely to be part of the training, or test data, i.e., they live on the tail of the input distribution. We explain how these edge-case backdoors can lead to unsavory failures and may have serious repercussions on fairness, and exhibit that with careful tuning at the side of the adversary, one can insert them across a range of machine learning tasks (e.g., image classification, OCR, text prediction, sentiment analysis).
翻訳日:2022-11-12 04:08:23 公開日:2020-07-09
# 注意に基づく顔生成のための残留音声画像モデル

Attention-based Residual Speech Portrait Model for Speech to Face Generation ( http://arxiv.org/abs/2007.04536v1 )

ライセンス: Link先を確認
Jianrong Wang, Xiaosheng Hu, Li Liu, Wei Liu, Mei Yu, Tianyi Xu(参考訳) 話者の話し方を考えると、この話者の顔を生成することができるかどうかが興味深い。 このタスクの主な課題は、顔と音声の自然なミスマッチを緩和することである。 そこで本研究では,残差の理想をハイブリッドエンコーダ・デコーダアーキテクチャに導入し,音声エンコーダの出力と顔前の特徴をマージして最終的な顔特徴を形成する,アテンションベースのResidual Speech Portrait Model(AR-SPM)を提案する。 特に,L2-ノルム,L1-ノルム,負コサイン損失の重み付き線形結合である三重項損失関数を革新的に確立し,最終顔特徴と真顔特徴を比較してモデルの訓練を行う。 avspeechデータセットの評価は,提案モデルがトレーニングの収束を加速し,生成した顔の質において最先端を上回り,基礎的真理と比較して性別と年齢の認識精度が優れていることを示す。

Given a speaker's speech, it is interesting to see if it is possible to generate this speaker's face. One main challenge in this task is to alleviate the natural mismatch between face and speech. To this end, in this paper, we propose a novel Attention-based Residual Speech Portrait Model (AR-SPM) by introducing the ideal of the residual into a hybrid encoder-decoder architecture, where face prior features are merged with the output of speech encoder to form the final face feature. In particular, we innovatively establish a tri-item loss function, which is a weighted linear combination of the L2-norm, L1-norm and negative cosine loss, to train our model by comparing the final face feature and true face feature. Evaluation on AVSpeech dataset shows that our proposed model accelerates the convergence of training, outperforms the state-of-the-art in terms of quality of the generated face, and achieves superior recognition accuracy of gender and age compared with the ground truth.
翻訳日:2022-11-12 04:07:54 公開日:2020-07-09
# 対向画像の効率的な検出

Efficient detection of adversarial images ( http://arxiv.org/abs/2007.04564v1 )

ライセンス: Link先を確認
Darpan Kumar Yadav, Kartik Mundra, Rahul Modpur, Arpan Chattopadhyay and Indra Narayan Kar(参考訳) 本稿では,自律型およびサイバー物理システムにおけるディープニューラルネットワーク(DNN)に基づく画像分類による偽造攻撃の検出について考察する。 いくつかの研究は、悪意のある詐欺攻撃に対するDNNの脆弱性を示している。 このような攻撃では、画像の画素値の一部または全ては外部攻撃者によって修正されるため、変更はほとんど人間の目では見えないが、DNNベースの分類器がそれを誤分類するには十分である。 本稿では,DNNベースの画像分類器とアタッカーモデルを用いて,このような修正画像の検出を容易にする新しい前処理手法を提案する。 提案する前処理アルゴリズムは、主成分分析(pca)に基づく画像の分解とランダム摂動に基づく検出を組み合わせて計算複雑性を低減する。 次に、このアルゴリズムの適応バージョンを提案し、二重閾値ポリシーを用いてランダムな数の摂動を適応的に選択し、そのしきい値が確率近似によって学習され、誤報や検出確率の欠落に制約された摂動の期待数を最小化する。 数値実験により,提案手法は計算複雑性を十分低く抑えながら,競合するアルゴリズムより優れていることが示された。

In this paper, detection of deception attack on deep neural network (DNN) based image classification in autonomous and cyber-physical systems is considered. Several studies have shown the vulnerability of DNN to malicious deception attacks. In such attacks, some or all pixel values of an image are modified by an external attacker, so that the change is almost invisible to the human eye but significant enough for a DNN-based classifier to misclassify it. This paper first proposes a novel pre-processing technique that facilitates the detection of such modified images under any DNN-based image classifier as well as the attacker model. The proposed pre-processing algorithm involves a certain combination of principal component analysis (PCA)-based decomposition of the image, and random perturbation based detection to reduce computational complexity. Next, an adaptive version of this algorithm is proposed where a random number of perturbations are chosen adaptively using a doubly-threshold policy, and the threshold values are learnt via stochastic approximation in order to minimize the expected number of perturbations subject to constraints on the false alarm and missed detection probabilities. Numerical experiments show that the proposed detection scheme outperforms a competing algorithm while achieving reasonably low computational complexity.
翻訳日:2022-11-12 04:06:52 公開日:2020-07-09
# 未知カメラ内在性と歪み係数を用いたクラウドソーシング3次元トラヒックサイン位置決め

Monocular Vision based Crowdsourced 3D Traffic Sign Positioning with Unknown Camera Intrinsics and Distortion Coefficients ( http://arxiv.org/abs/2007.04592v1 )

ライセンス: Link先を確認
Hemang Chawla, Matti Jukola, Elahe Arani, and Bahram Zonooz(参考訳) 自動運転車と運転支援システムは、3Dセマンティックなランドマークの地図を利用して意思決定を改善する。 しかし、マッピングプロセスのスケーリングや、そのようなマップの定期的な更新には、膨大なコストがかかる。 交通標識の位置のようなこれらのランドマークのクラウドソーシングマッピングは、魅力的な代替手段となります。 クラウドソースマッピングに対する最先端のアプローチでは、地上の真理カメラパラメータが使用されている。 本研究では,カメラの焦点長,主点,歪み係数を事前に知ることなく3次元トラヒックサイン位置を計算する手法を提案する。 提案手法をKITTIにおける交通標識の公開データセット上で検証する。 単色カメラとGPSのみを用いて、平均的な1回の移動距離と絶対位置の精度をそれぞれ0.26mと1.38mとする。

Autonomous vehicles and driver assistance systems utilize maps of 3D semantic landmarks for improved decision making. However, scaling the mapping process as well as regularly updating such maps come with a huge cost. Crowdsourced mapping of these landmarks such as traffic sign positions provides an appealing alternative. The state-of-the-art approaches to crowdsourced mapping use ground truth camera parameters, which may not always be known or may change over time. In this work, we demonstrate an approach to computing 3D traffic sign positions without knowing the camera focal lengths, principal point, and distortion coefficients a priori. We validate our proposed approach on a public dataset of traffic signs in KITTI. Using only a monocular color camera and GPS, we achieve an average single journey relative and absolute positioning accuracy of 0.26 m and 1.38 m, respectively.
翻訳日:2022-11-12 04:06:31 公開日:2020-07-09
# JBFnet -- トレーニング可能な双方向フィルタによる低線量CT

JBFnet -- Low Dose CT Denoising by Trainable Joint Bilateral Filtering ( http://arxiv.org/abs/2007.04754v1 )

ライセンス: Link先を確認
Mayank Patwari, Ralf Gutjahr, Rainer Raupach, Andreas Maier(参考訳) 深層ニューラルネットワークは低線量ctで大きな成功を収めている。 しかし、これらのディープニューラルネットワークのほとんどは、数十万のトレーニング可能なパラメータを持つ。 これにより、ニューラルネットワーク固有の非線形性と組み合わせることで、深いニューラルネットワークは説明責任を低く理解しやすくなる。 本研究では低線量CT用ニューラルネットワークであるJBFnetを紹介する。 JBFnetのアーキテクチャは繰り返し二元フィルタリングを実装している。 ジョイントバイラテラルフィルタ(jbf)のフィルタ機能は、浅い畳み込みネットワークを通じて学習される。 誘導画像はディープニューラルネットワークによって推定される。 JBFnetは4つのフィルタブロックに分割され、それぞれがジョイントバイラテラルフィルタを実行する。 各JBFブロックは112のトレーニング可能なパラメータで構成されており、ノイズ除去プロセスは理解可能である。 ノイズマップ(NM)は、高次特徴を保存するためにフィルタ後に追加される。 我々は10名の患者の身体スキャンデータを用いてjbfnetを訓練し、aapm low dose ct grand challengeデータセットでテストした。 JBFnetと最先端のディープラーニングネットワークを比較した。 JBFnetは、CPCE3D、GAN、ディープGFnetを、構造を保ちながらノイズ除去の観点から上回る。 我々は,ネットワークアーキテクチャとトレーニング手法の性能をテストするため,いくつかのアブレーション研究を行っている。 現在のセットアップでは、動作説明責任を維持しながら、最高のパフォーマンスを実現しています。

Deep neural networks have shown great success in low dose CT denoising. However, most of these deep neural networks have several hundred thousand trainable parameters. This, combined with the inherent non-linearity of the neural network, makes the deep neural network diffcult to understand with low accountability. In this study we introduce JBFnet, a neural network for low dose CT denoising. The architecture of JBFnet implements iterative bilateral filtering. The filter functions of the Joint Bilateral Filter (JBF) are learned via shallow convolutional networks. The guidance image is estimated by a deep neural network. JBFnet is split into four filtering blocks, each of which performs Joint Bilateral Filtering. Each JBF block consists of 112 trainable parameters, making the noise removal process comprehendable. The Noise Map (NM) is added after filtering to preserve high level features. We train JBFnet with the data from the body scans of 10 patients, and test it on the AAPM low dose CT Grand Challenge dataset. We compare JBFnet with state-of-the-art deep learning networks. JBFnet outperforms CPCE3D, GAN and deep GFnet on the test dataset in terms of noise removal while preserving structures. We conduct several ablation studies to test the performance of our network architecture and training method. Our current setup achieves the best performance, while still maintaining behavioural accountability.
翻訳日:2022-11-12 04:06:17 公開日:2020-07-09
# 結合型バイラテラルフィルタとインテリジェントパラメータ最適化による低線量CT診断

Low Dose CT Denoising via Joint Bilateral Filtering and Intelligent Parameter Optimization ( http://arxiv.org/abs/2007.04768v1 )

ライセンス: Link先を確認
Mayank Patwari, Ralf Gutjahr, Rainer Raupach, Andreas Maier(参考訳) 臨床CT画像の復調は深層学習研究の活発な領域である。 現在の臨床試験では,CT画像のノイズ低減に反復的再構成法が用いられている。 反復的再構成技術は、時間と計算コストのかかる複数の前方および後方投影を必要とする。 近年,CT画像の難読化に深層学習が成功している。 しかし、従来のディープラーニング手法は「ブラックボックス」の問題に苦しんでいる。 それらは説明責任が低く、臨床画像の状況での使用には必要である。 本稿では,JBF (Joint Bilateral Filter) を用いてCT画像の識別を行う。 JBFの誘導画像は、ディープ残差畳み込みニューラルネットワーク(CNN)を用いて推定される。 JBFのレンジ平滑化および空間平滑化パラメータは、深い強化学習タスクによって調整される。 アクターは最初にパラメータを選択し、その後パラメータの値をチューニングするアクションを選択します。 報酬ネットワークは強化学習タスクを指示するために設計されている。 提案手法は,構造情報を保持しつつ,優れたデノージング性能を示す。 本手法は深層ニューラルネットワークの精度を著しく向上させる。 さらに,本手法は2つのパラメータしか持たず,より解釈しやすく,「ブラックボックス」問題を低減した。 我々は知的パラメータ最適化と報酬ネットワークの効果を実験的に測定した。 本研究は, 構造保存の観点から, 現状の設備が最適であることを示す。

Denoising of clinical CT images is an active area for deep learning research. Current clinically approved methods use iterative reconstruction methods to reduce the noise in CT images. Iterative reconstruction techniques require multiple forward and backward projections, which are time-consuming and computationally expensive. Recently, deep learning methods have been successfully used to denoise CT images. However, conventional deep learning methods suffer from the 'black box' problem. They have low accountability, which is necessary for use in clinical imaging situations. In this paper, we use a Joint Bilateral Filter (JBF) to denoise our CT images. The guidance image of the JBF is estimated using a deep residual convolutional neural network (CNN). The range smoothing and spatial smoothing parameters of the JBF are tuned by a deep reinforcement learning task. Our actor first chooses a parameter, and subsequently chooses an action to tune the value of the parameter. A reward network is designed to direct the reinforcement learning task. Our denoising method demonstrates good denoising performance, while retaining structural information. Our method significantly outperforms state of the art deep neural networks. Moreover, our method has only two parameters, which makes it significantly more interpretable and reduces the 'black box' problem. We experimentally measure the impact of our intelligent parameter optimization and our reward network. Our studies show that our current setup yields the best results in terms of structural preservation.
翻訳日:2022-11-12 04:06:01 公開日:2020-07-09
# AI(Luskin)における公平性のための透明性ツール

Transparency Tools for Fairness in AI (Luskin) ( http://arxiv.org/abs/2007.04484v1 )

ライセンス: Link先を確認
Mingliang Chen, Aria Shahverdi, Sarah Anderson, Se Yong Park, Justin Zhang, Dana Dachman-Soled, Kristin Lauter, Min Wu(参考訳) 本稿では,aiアルゴリズムにおける公平性とバイアスの評価と修正に使用するポリシメーカのための新しいツールを提案する。 3つのツールは以下のとおりである。 - 保護された特徴とフィルタの選択に関して「制御された公正」と呼ばれる新しい公正の定義。 この定義は、データセットに関するアルゴリズムの公平性の簡単なテストを提供する。 この公平性の概念は、正確性よりも公平性が優先される場合、例えば「根拠真理」データがない場合、過去の決定でラベル付けされたデータのみ(偏りがあったかもしれない)に適合する。 -特徴やフィルタの選択に関して「制御された公平性」を達成するために与えられた分類器を再訓練するアルゴリズム。 2つのアルゴリズムが提示され、実装され、テストされる。 これらのアルゴリズムは2段階の異なるモデルを訓練する必要がある。 我々は,第1ステージと第2ステージの様々なモデルの組み合わせを実験し,公正さと精度の観点からどの組み合わせが最適かを報告する。 -「分類パリティ」と呼ばれる公平性の概念を達成するためにモデルパラメータを調整するアルゴリズム。 この公平性の概念は、精度が優先される場合に適している。 2つのアルゴリズムが提示され、1つは、テスト中に保護された機能がモデルにアクセス可能であると仮定し、もう1つは、保護された機能がテスト中にアクセスできないと仮定する。 ツールを3つの異なる公開データセットで評価する。 これらのツールは様々なバイアスの次元を理解するのに有用であり、実際に新しいデータでテストした場合、与えられたバイアスを著しく低減するアルゴリズムが有効であることがわかった。

We propose new tools for policy-makers to use when assessing and correcting fairness and bias in AI algorithms. The three tools are: - A new definition of fairness called "controlled fairness" with respect to choices of protected features and filters. The definition provides a simple test of fairness of an algorithm with respect to a dataset. This notion of fairness is suitable in cases where fairness is prioritized over accuracy, such as in cases where there is no "ground truth" data, only data labeled with past decisions (which may have been biased). - Algorithms for retraining a given classifier to achieve "controlled fairness" with respect to a choice of features and filters. Two algorithms are presented, implemented and tested. These algorithms require training two different models in two stages. We experiment with combinations of various types of models for the first and second stage and report on which combinations perform best in terms of fairness and accuracy. - Algorithms for adjusting model parameters to achieve a notion of fairness called "classification parity". This notion of fairness is suitable in cases where accuracy is prioritized. Two algorithms are presented, one which assumes that protected features are accessible to the model during testing, and one which assumes protected features are not accessible during testing. We evaluate our tools on three different publicly available datasets. We find that the tools are useful for understanding various dimensions of bias, and that in practice the algorithms are effective in starkly reducing a given observed bias when tested on new data.
翻訳日:2022-11-12 03:59:59 公開日:2020-07-09
# 凸凸min-max最適化の高次法と単調変分不等式

Higher-order methods for convex-concave min-max optimization and monotone variational inequalities ( http://arxiv.org/abs/2007.04528v1 )

ライセンス: Link先を確認
Brian Bullins and Kevin A. Lai(参考訳) 制約付き凸凹 min-max 問題に対する収束率の改善と高次滑らかな単調変分不等式を提供する。 p^{th}$次微分がリプシッツ連続であるmin-maxの設定では、$p^{th}$次方程式の不動点を見つけるためにオラクルへのアクセスが与えられると、反復複雑性が$o(1/t^{\frac{p+1}{2}}) となるアルゴリズムhigherordermirrorproxを与える。 弱単調変分不等式問題に対して類似率を与える。 p>2$の場合、nemirovski [2004] の 1-order mirror prox 法と monteiro と svaiter [2012] の 2-order method の反復複雑性を改善する。 さらに、制約のない$p=2$ケースでアルゴリズム全体をインスタンス化する。

We provide improved convergence rates for constrained convex-concave min-max problems and monotone variational inequalities with higher-order smoothness. In min-max settings where the $p^{th}$-order derivatives are Lipschitz continuous, we give an algorithm HigherOrderMirrorProx that achieves an iteration complexity of $O(1/T^{\frac{p+1}{2}})$ when given access to an oracle for finding a fixed point of a $p^{th}$-order equation. We give analogous rates for the weak monotone variational inequality problem. For $p>2$, our results improve upon the iteration complexity of the first-order Mirror Prox method of Nemirovski [2004] and the second-order method of Monteiro and Svaiter [2012]. We further instantiate our entire algorithm in the unconstrained $p=2$ case.
翻訳日:2022-11-12 03:59:13 公開日:2020-07-09
# NTKを超える過パラメータ2層ReLUニューラルネットワークの学習

Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK ( http://arxiv.org/abs/2007.04596v1 )

ライセンス: Link先を確認
Yuanzhi Li, Tengyu Ma, Hongyang R. Zhang(参考訳) 2層ニューラルネットワークを学習する際の勾配降下のダイナミクスを考察する。 入力 $x\in\mathbb{R}^d$ はガウス分布から引き出され、$x$ satisfies $f^{\star}(x) = a^{\top}|W^{\star}x|$, ここで $a\in\mathbb{R}^d$ は非負ベクトル、$W^{\star} \in\mathbb{R}^{d\times d}$ は正則正規行列である。 ランダム初期化からの勾配降下によって学習されたrelu活性化を持つ超パラメータ2層ニューラルネットワークは、多項式サンプルを用いた多項式時間で最大$o(1/d)$の人口損失を持つ基底真理ネットワークを確実に学習できる。 一方、Neural Tangent Kernelを含むカーネル手法は、$d$の多項式数を持つ場合、少なくとも$\Omega(1 / d)$の人口減少があることを示す。

We consider the dynamic of gradient descent for learning a two-layer neural network. We assume the input $x\in\mathbb{R}^d$ is drawn from a Gaussian distribution and the label of $x$ satisfies $f^{\star}(x) = a^{\top}|W^{\star}x|$, where $a\in\mathbb{R}^d$ is a nonnegative vector and $W^{\star} \in\mathbb{R}^{d\times d}$ is an orthonormal matrix. We show that an over-parametrized two-layer neural network with ReLU activation, trained by gradient descent from random initialization, can provably learn the ground truth network with population loss at most $o(1/d)$ in polynomial time with polynomial samples. On the other hand, we prove that any kernel method, including Neural Tangent Kernel, with a polynomial number of samples in $d$, has population loss at least $\Omega(1 / d)$.
翻訳日:2022-11-12 03:58:13 公開日:2020-07-09
# asdを持つティーンエイジャーのための自動ジェスチャー模倣ゲームの構築

Building an Automated Gesture Imitation Game for Teenagers with ASD ( http://arxiv.org/abs/2007.04604v1 )

ライセンス: Link先を確認
Linda Nanan Vall\'ee (ESATIC), Christophe Lohr, Sao Mai Nguyen (IMT Atlantique), Ioannis Kanellos (IMT Atlantique - INFO), O. Asseu (ESATIC)(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder)は、コミュニケーションや社会的相互作用の問題を含む神経発達状態である。 ASDを持つ人は、しばしば興味や反復行動に制限がある。 本稿では,ASDを持つ10代の若者との社会的交流を改善することを目的とした,自動ジェスチャー模倣ゲームの予備的ブロックを構築する。 ゲームの構造や、スケルトン検出や模倣学習のための支援ツールや方法が提示されている。 ゲームは後に対話型ロボットを用いて実施される。

Autism spectrum disorder is a neurodevelopmental condition that includes issues with communication and social interactions. People with ASD also often have restricted interests and repetitive behaviors. In this paper we build preliminary bricks of an automated gesture imitation game that will aim at improving social interactions with teenagers with ASD. The structure of the game is presented, as well as support tools and methods for skeleton detection and imitation learning. The game shall later be implemented using an interactive robot.
翻訳日:2022-11-12 03:57:51 公開日:2020-07-09
# 空間効率モデルにおける確率的値選択

Probabilistic Value Selection for Space Efficient Model ( http://arxiv.org/abs/2007.04641v1 )

ライセンス: Link先を確認
Gunarto Sindoro Njoo, Baihua Zheng, Kuo-Wei Hsu, and Wen-Chih Peng(参考訳) 現在の主流のプリプロセッシング手法の代替として、Value Selection (VS) が提案されている。 インスタンスを削除する機能やインスタンス選択を削除する機能選択のような既存の方法とは異なり、バリューセレクションはデータセット内の値(各機能に関して)を2つの目的で削除する。 情報理論の計量に基づく2つの確率的手法が提案されている: PVS と P + VS。 これらの結果は、機能選択、特徴変換、インスタンス選択といった既存の前処理方法と比較される。 実験結果から,値選択は精度とモデルサイズ削減のバランスがとれることがわかった。

An alternative to current mainstream preprocessing methods is proposed: Value Selection (VS). Unlike the existing methods such as feature selection that removes features and instance selection that eliminates instances, value selection eliminates the values (with respect to each feature) in the dataset with two purposes: reducing the model size and preserving its accuracy. Two probabilistic methods based on information theory's metric are proposed: PVS and P + VS. Extensive experiments on the benchmark datasets with various sizes are elaborated. Those results are compared with the existing preprocessing methods such as feature selection, feature transformation, and instance selection methods. Experiment results show that value selection can achieve the balance between accuracy and model size reduction.
翻訳日:2022-11-12 03:57:44 公開日:2020-07-09
# 効率的な最適化のための資源認識多要素アクティブラーニング

Resource Aware Multifidelity Active Learning for Efficient Optimization ( http://arxiv.org/abs/2007.04674v1 )

ライセンス: Link先を確認
Francesco Grassi, Giorgio Manganini, Michele Garraffa, Laura Mainini(参考訳) ブラックボックス最適化の伝統的な手法は、正確な表現と高価なモデルに依存する多くのエンジニアリングアプリケーションにおいて、時間消費、非実用的、しばしば実現不可能な、かなりの数の評価を必要とする。 ベイズ最適化(bo)法は探索経路に沿って目的関数のサロゲートモデルを段階的に(アクティブに)学習することで大域的最適を探索する。 ベイズ最適化は、計算的に安価に評価できるが、検索タスクに関連情報を提供する対象関数の複数のブラックボックス近似を利用するマルチフィデリティアプローチによって加速することができる。 さらなる計算上の利点は、並列および分散コンピューティングアーキテクチャの可用性によって提供され、最適な使用法はアクティブラーニングの文脈におけるオープンな機会である。 本稿では,ブラックボックス関数の最適化を高速化する多要素ベイズ方式であるResource Aware Active Learning (RAAL)戦略を紹介する。 各最適化ステップにおいて、raalプロシージャは、限られた計算予算を考慮しつつ、目的関数の並列/分散評価中に取得する情報ゲインを最大化する最良サンプル位置と関連する忠実度源のセットを算出する。 このスキームは様々なベンチマーク問題に対して実証され、結果は単一忠実度と複数忠実度の設定の両方で議論される。 特に、RAAL戦略は、最適化タスクの大幅な高速化を可能にするため、各イテレーションで複数の点を最適にシードする。

Traditional methods for black box optimization require a considerable number of evaluations which can be time consuming, unpractical, and often unfeasible for many engineering applications that rely on accurate representations and expensive models to evaluate. Bayesian Optimization (BO) methods search for the global optimum by progressively (actively) learning a surrogate model of the objective function along the search path. Bayesian optimization can be accelerated through multifidelity approaches which leverage multiple black-box approximations of the objective functions that can be computationally cheaper to evaluate, but still provide relevant information to the search task. Further computational benefits are offered by the availability of parallel and distributed computing architectures whose optimal usage is an open opportunity within the context of active learning. This paper introduces the Resource Aware Active Learning (RAAL) strategy, a multifidelity Bayesian scheme to accelerate the optimization of black box functions. At each optimization step, the RAAL procedure computes the set of best sample locations and the associated fidelity sources that maximize the information gain to acquire during the parallel/distributed evaluation of the objective function, while accounting for the limited computational budget. The scheme is demonstrated for a variety of benchmark problems and results are discussed for both single fidelity and multifidelity settings. In particular we observe that the RAAL strategy optimally seeds multiple points at each iteration allowing for a major speed up of the optimization task.
翻訳日:2022-11-12 03:57:33 公開日:2020-07-09
# ベイズ学習則を用いたバイナリシナプス付き制限ボルツマン機械の訓練

Training Restricted Boltzmann Machines with Binary Synapses using the Bayesian Learning Rule ( http://arxiv.org/abs/2007.04676v1 )

ライセンス: Link先を確認
Xiangming Meng(参考訳) 低精度シナプスを持つ制限ボルツマン機械(RBM)は高エネルギー効率で非常に魅力的である。 しかし,バイナリシナプスを用いたrbmsの訓練は,シナプスの離散的な性質から困難である。 最近Huang氏は、変分推論フレームワークの下で勾配上昇とメッセージパッシングアルゴリズムの組み合わせを用いて、バイナリシナプスでRBMを訓練する1つの効率的な方法を提案した。 しかし,追加のヒューリスティッククリッピング操作が必要である。 本稿では,huangの研究に着想を得て,自然勾配変分推定法の一つであるベイズ学習則を用いた代替最適化手法を提案する。 黄の手法とは対照的に, 変動対称ベルヌーイ分布の自然パラメータを期待パラメータよりもむしろ更新する。 自然パラメータは実領域全体の値を取るので、追加のクリッピングは不要である。 興味深いことに、 \cite{huang2019data} のアルゴリズムは提案アルゴリズムの一階近似と見なすことができ、ヒューリスティックなクリッピングの有効性を正当化することができる。

Restricted Boltzmann machines (RBMs) with low-precision synapses are much appealing with high energy efficiency. However, training RBMs with binary synapses is challenging due to the discrete nature of synapses. Recently Huang proposed one efficient method to train RBMs with binary synapses by using a combination of gradient ascent and the message passing algorithm under the variational inference framework. However, additional heuristic clipping operation is needed. In this technical note, inspired from Huang's work , we propose one alternative optimization method using the Bayesian learning rule, which is one natural gradient variational inference method. As opposed to Huang's method, we update the natural parameters of the variational symmetric Bernoulli distribution rather than the expectation parameters. Since the natural parameters take values in the entire real domain, no additional clipping is needed. Interestingly, the algorithm in \cite{huang2019data} could be viewed as one first-order approximation of the proposed algorithm, which justifies its efficacy with heuristic clipping.
翻訳日:2022-11-12 03:57:09 公開日:2020-07-09
# PointMask: 解釈可能でバイアス耐性のあるポイントクラウド処理を目指す

PointMask: Towards Interpretable and Bias-Resilient Point Cloud Processing ( http://arxiv.org/abs/2007.04525v1 )

ライセンス: Link先を確認
Saeid Asgari Taghanaki, Kaveh Hassani, Pradeep Kumar Jayaraman, Amir Hosein Khasahmadi, Tonya Custis(参考訳) 深層分類器は、いくつかの識別的な入力変数と目的関数を関連付ける傾向があり、それによって一般化能力が損なわれる。 これに対処するために、システマティックな実験をデザインしたり、解釈可能性メソッドを通じてモデルを検査したりすることができる。 本稿では,これら2つの戦略について,ポイントクラウド上で動作する深層モデルについて検討する。 ポイントクラウドモデルにおける帰属に対するモデル非依存な解釈可能な情報ボトルネックアプローチであるpointmaskを提案する。 ポイントマスクは、徐々に一般的な解に収束しながら、入力空間の変動係数の大部分を探索することを奨励する。 より具体的に言うと、PointMaskは、無関係な変数をマスクするのに使われる入力と潜在機能の間の相互情報を最小化する正規化用語を導入している。 任意のモデルとポイントマスク層を結合することで、予測スコアに最も寄与する入力空間内の点を識別し、解釈可能となることを示す。 また, 設計バイアス実験により, 漸進的マスキング機能により, 提案手法がデータバイアスの処理に有効であることを示す。

Deep classifiers tend to associate a few discriminative input variables with their objective function, which in turn, may hurt their generalization capabilities. To address this, one can design systematic experiments and/or inspect the models via interpretability methods. In this paper, we investigate both of these strategies on deep models operating on point clouds. We propose PointMask, a model-agnostic interpretable information-bottleneck approach for attribution in point cloud models. PointMask encourages exploring the majority of variation factors in the input space while gradually converging to a general solution. More specifically, PointMask introduces a regularization term that minimizes the mutual information between the input and the latent features used to masks out irrelevant variables. We show that coupling a PointMask layer with an arbitrary model can discern the points in the input space which contribute the most to the prediction score, thereby leading to interpretability. Through designed bias experiments, we also show that thanks to its gradual masking feature, our proposed method is effective in handling data bias.
翻訳日:2022-11-12 03:50:29 公開日:2020-07-09
# 画像から画像への変換におけるスタイル内容の絡み合いの改善

Improving Style-Content Disentanglement in Image-to-Image Translation ( http://arxiv.org/abs/2007.04964v1 )

ライセンス: Link先を確認
Aviv Gabbay and Yedid Hoshen(参考訳) 教師なしの画像から画像への翻訳手法は近年大きな成功を収めている。 しかし、これらのモデルには翻訳性能を損なう重要な絡み合いがあることは容易に観察できる。 本研究では,画像から画像への変換におけるスタイル内容の絡み合いを改善するための原則的アプローチを提案する。 各表現への情報の流れを考慮することで、コンテンツボトルネックとして機能する追加の損失項を導入する。 提案手法は,現在の手法で生成した手法よりもかなり不連続であり,さらに視覚品質や翻訳の多様性も向上した。

Unsupervised image-to-image translation methods have achieved tremendous success in recent years. However, it can be easily observed that their models contain significant entanglement which often hurts the translation performance. In this work, we propose a principled approach for improving style-content disentanglement in image-to-image translation. By considering the information flow into each of the representations, we introduce an additional loss term which serves as a content-bottleneck. We show that the results of our method are significantly more disentangled than those produced by current methods, while further improving the visual quality and translation diversity.
翻訳日:2022-11-12 03:50:12 公開日:2020-07-09
# 空間的インフォームド肺組織学習に基づく肺気腫の新しいサブタイプ

Novel Subtypes of Pulmonary Emphysema Based on Spatially-Informed Lung Texture Learning ( http://arxiv.org/abs/2007.04978v1 )

ライセンス: Link先を確認
Jie Yang, Elsa D. Angelini, Pallavi P. Balte, Eric A. Hoffman, John H.M. Austin, Benjamin M. Smith, R. Graham Barr, and Andrew F. Laine(参考訳) 肺気腫は慢性閉塞性肺疾患(copd)とかなり重複しており、伝統的に3つの亜型に分類される。 CT(Computed tomography)における気腫サブタイプの教師なし学習は、気腫サブタイプの新たな定義への道を開き、徹底的な手動ラベリングの必要性を排除する。 しかし,CTによる気腫のサブタイプは空間的位置を考慮せずにテクスチャベースのパターンに制限されている。 本研究では,肺のテクスチャ位置を定量的に研究するための標準化された空間マッピングを提案するとともに,空間情報とテクスチャ情報を組み合わせて,新しい気腫のサブタイプを表す空間的インフォームド肺テクスチャパターン(sLTP)を発見するための新しい枠組みを提案する。 MESA COPD と EMCAP によるフル肺CTの2つのコホートを探索し,その空間マッピングにより,肺気腫の空間的位置を全人口で調査できることを示した。 次に,MESA COPDで発見されたsLTPの特性を評価し,再現性を示し,標準的な気腫のサブタイプをコード化でき,生理的症状と関連していることを示した。

Pulmonary emphysema overlaps considerably with chronic obstructive pulmonary disease (COPD), and is traditionally subcategorized into three subtypes previously identified on autopsy. Unsupervised learning of emphysema subtypes on computed tomography (CT) opens the way to new definitions of emphysema subtypes and eliminates the need of thorough manual labeling. However, CT-based emphysema subtypes have been limited to texture-based patterns without considering spatial location. In this work, we introduce a standardized spatial mapping of the lung for quantitative study of lung texture location, and propose a novel framework for combining spatial and texture information to discover spatially-informed lung texture patterns (sLTPs) that represent novel emphysema subtypes. Exploiting two cohorts of full-lung CT scans from the MESA COPD and EMCAP studies, we first show that our spatial mapping enables population-wide study of emphysema spatial location. We then evaluate the characteristics of the sLTPs discovered on MESA COPD, and show that they are reproducible, able to encode standard emphysema subtypes, and associated with physiological symptoms.
翻訳日:2022-11-12 03:50:02 公開日:2020-07-09
# 給与予測のための$n$-reference transfer learning

$n$-Reference Transfer Learning for Saliency Prediction ( http://arxiv.org/abs/2007.05104v1 )

ライセンス: Link先を確認
Yan Luo, Yongkang Wong, Mohan S. Kankanhalli, and Qi Zhao(参考訳) ディープラーニングの研究と大規模なデータセットから恩恵を受けることで、この10年で大きな成功を収めた。 しかし、データハングリーモデルに十分なデータがない新しいドメインのイメージに対して、サリエンシマップを予測することは依然として困難である。 そこで本研究では,既存の大規模サリエンシデータセットから学習した知識を,限定的なラベル付き例で対象領域に効率的に転送する,サリエンシ予測のための数発転送学習パラダイムを提案する。 特に、ターゲットドメインの例はごくわずかであり、ソースドメインデータセットでモデルをトレーニングする参照として使われ、トレーニングプロセスがターゲットドメインに有利なローカル最小限に収束できるようにします。 そして、その参照により学習したモデルをさらに微調整する。 提案するフレームワークは勾配ベースでモデルに依存しない。 種々の源領域および対象領域対に関する包括的実験およびアブレーション研究を行う。 その結果,提案フレームワークの性能は大幅に向上した。 コードは \url{https://github.com/luoyan407/n-reference} で公開されている。

Benefiting from deep learning research and large-scale datasets, saliency prediction has achieved significant success in the past decade. However, it still remains challenging to predict saliency maps on images in new domains that lack sufficient data for data-hungry models. To solve this problem, we propose a few-shot transfer learning paradigm for saliency prediction, which enables efficient transfer of knowledge learned from the existing large-scale saliency datasets to a target domain with limited labeled examples. Specifically, very few target domain examples are used as the reference to train a model with a source domain dataset such that the training process can converge to a local minimum in favor of the target domain. Then, the learned model is further fine-tuned with the reference. The proposed framework is gradient-based and model-agnostic. We conduct comprehensive experiments and ablation study on various source domain and target domain pairs. The results show that the proposed framework achieves a significant performance improvement. The code is publicly available at \url{https://github.com/luoyan407/n-reference}.
翻訳日:2022-11-12 03:49:27 公開日:2020-07-09
# 製品質問に対する信頼性の低いレビューを拒否する

Less is More: Rejecting Unreliable Reviews for Product Question Answering ( http://arxiv.org/abs/2007.04526v1 )

ライセンス: Link先を確認
Shiwei Zhang, Xiuzhen Zhang, Jey Han Lau, Jeffrey Chan, and Cecile Paris(参考訳) 製品に関する質問を迅速かつ正確に答えることは、eコマースアプリケーションにとって重要である。 手動で製品質問に答える(例えば、コミュニティの質問に答えるプラットフォーム)と、反応が遅くスケールしない。 最近の研究では、製品レビューがリアルタイムの自動製品質問応答(pqa)に適した情報源であることが示されている。 文献では、PQAは検索問題として定式化され、最も関連性の高いレビューを検索して、与えられた製品質問に答えることを目的としている。 本稿では、レビューを用いたPQAの回答可能性と回答信頼性の問題に焦点を当てる。 我々の調査は、多くの質問が限定的なレビューで答えられないという直感に基づいている。 質問が回答できない場合、システムは無関係なレビューのリストを提供するのではなく、nilの回答を返すべきである。 さらに、回答可能な質問に対しては、質問に回答する最も関連するレビューのみを結果に含めるべきである。 本稿では,PQAシステムの信頼性を向上させるための適合予測に基づくフレームワークを提案する。このフレームワークでは,不確実な質問に対する nil 回答の返却を含む,返却結果がより簡潔で正確であるように,信頼できない回答を拒否する。 広く使われているAmazonデータセットの実験は、提案したフレームワークの結果を奨励している。 より広い意味では,コンフォメーション法を検索タスクに新規かつ効果的に適用することを示す。

Promptly and accurately answering questions on products is important for e-commerce applications. Manually answering product questions (e.g. on community question answering platforms) results in slow response and does not scale. Recent studies show that product reviews are a good source for real-time, automatic product question answering (PQA). In the literature, PQA is formulated as a retrieval problem with the goal to search for the most relevant reviews to answer a given product question. In this paper, we focus on the issue of answerability and answer reliability for PQA using reviews. Our investigation is based on the intuition that many questions may not be answerable with a finite set of reviews. When a question is not answerable, a system should return nil answers rather than providing a list of irrelevant reviews, which can have significant negative impact on user experience. Moreover, for answerable questions, only the most relevant reviews that answer the question should be included in the result. We propose a conformal prediction based framework to improve the reliability of PQA systems, where we reject unreliable answers so that the returned results are more concise and accurate at answering the product question, including returning nil answers for unanswerable questions. Experiments on a widely used Amazon dataset show encouraging results of our proposed framework. More broadly, our results demonstrate a novel and effective application of conformal methods to a retrieval task.
翻訳日:2022-11-12 03:48:31 公開日:2020-07-09
# IoTのための無線ネットワークにおけるAIの課題

Challenges of AI in Wireless Networks for IoT ( http://arxiv.org/abs/2007.04705v1 )

ライセンス: Link先を確認
Ijaz Ahmad, Shahriar Shahabuddin, Tanesh Kumar, Erkki Harjula, Marcus Meisel, Markku Juntti, Thilo Sauter, Mika Ylianttila(参考訳) モノのインターネット(iot)は、次の産業革命の実現者として評価され、ユビキタスな接続、コンテキスト認識、動的サービスモビリティ、ワイヤレスネットワークインフラストラクチャを通じた極端なセキュリティを必要とする。 したがって、基盤となるネットワークインフラストラクチャにおいて、人工知能(AI)が重要な役割を果たします。 しかし、IoTが使用する無線ネットワークにおいて、AIの概念、ツール、アルゴリズムを使用することで、多くの課題が浮かび上がる。 本稿では、エンドツーエンドのiot通信を容易にするワイヤレスネットワークインフラストラクチャでaiを使用する際の主な課題を、潜在的な汎用ソリューションと今後の研究方向で強調する。

The Internet of Things (IoT), hailed as the enabler of the next industrial revolution, will require ubiquitous connectivity, context-aware and dynamic service mobility, and extreme security through the wireless network infrastructure. Artificial Intelligence (AI), thus, will play a major role in the underlying network infrastructure. However, a number of challenges will surface while using the concepts, tools and algorithms of AI in wireless networks used by IoT. In this article, the main challenges in using AI in the wireless network infrastructure that facilitate end-to-end IoT communication are highlighted with potential generalized solution and future research directions.
翻訳日:2022-11-12 03:48:10 公開日:2020-07-09
# 最適地域利用のための知的倉庫アロケータ

Intelligent Warehouse Allocator for Optimal Regional Utilization ( http://arxiv.org/abs/2007.05081v1 )

ライセンス: Link先を確認
Girish Sathyanarayana and Arun Patro(参考訳) 本稿では,ファッションインベントリの最適倉庫配分を計算するための新しいソリューションについて述べる。 調達された在庫は、倉庫周辺の地域需要に応じて最適に倉庫に割り当てられなければならない。 これにより、最も近い倉庫で需要が満たされ、配送物流コストと配送時間の最小化が図られる。 これらはそれぞれ、収益性と顧客エクスペリエンスを促進するための重要な指標です。 倉庫には容量の制約があり、在庫の倉庫間再分配コストを最小化しなければならない。 これは最大地域利用率(RU)につながる。 この倉庫割り当て問題に対する効率的なソリューションを構築するために、機械学習と最適化手法を使用します。 私たちは機械学習モデルを使用して、すべての製品に対する需要の地理的分割を見積もっています。 キャパシティ制約を考慮した最適倉庫割り当てを計算するために整数計画法を用いる。 この解を用いてバックテストを行い,2つの主要な指標である地域利用率 (ru) と2日配送率 (2dd) の大幅な上昇を示すことにより,このモデルの効率性を検証する。 私たちはこのプロセスを使用して、オンラインファッション小売のトップであるmyntraの倉庫割り当てによる購入注文をインテリジェントに作成します。

In this paper, we describe a novel solution to compute optimal warehouse allocations for fashion inventory. Procured inventory must be optimally allocated to warehouses in proportion to the regional demand around the warehouse. This will ensure that demand is fulfilled by the nearest warehouse thereby minimizing the delivery logistics cost and delivery times. These are key metrics to drive profitability and customer experience respectively. Warehouses have capacity constraints and allocations must minimize inter warehouse redistribution cost of the inventory. This leads to maximum Regional Utilization (RU). We use machine learning and optimization methods to build an efficient solution to this warehouse allocation problem. We use machine learning models to estimate the geographical split of the demand for every product. We use Integer Programming methods to compute the optimal feasible warehouse allocations considering the capacity constraints. We conduct a back-testing by using this solution and validate the efficiency of this model by demonstrating a significant uptick in two key metrics Regional Utilization (RU) and Percentage Two-day-delivery (2DD). We use this process to intelligently create purchase orders with warehouse assignments for Myntra, a leading online fashion retailer.
翻訳日:2022-11-12 03:47:59 公開日:2020-07-09
# グラフ認識ロジスティック回帰とプリエンプティブクエリ生成による有意グラフ上のアクティブラーニング

Active Learning on Attributed Graphs via Graph Cognizant Logistic Regression and Preemptive Query Generation ( http://arxiv.org/abs/2007.05003v1 )

ライセンス: Link先を確認
Florence Regol and Soumyasundar Pal and Yingxue Zhang and Mark Coates(参考訳) 属性付きグラフのノード分類は、複数の実用的な設定において重要なタスクであるが、ラベルを取得するのが難しい場合や費用がかかる場合が多い。 アクティブラーニングは、クエリされたラベルの数に基づいて、所定の予算の達成された分類性能を改善することができる。 既存の最良の手法はグラフニューラルネットワークに基づいているが、良質なハイパーパラメータを選択するためにラベル付きノードの大規模な検証セットが利用可能でない限り、性能は低いことが多い。 本稿では,属性付きグラフにおけるノード分類処理のための新しいグラフベース能動学習アルゴリズムを提案する。このアルゴリズムは,線形化グラフ畳み込みニューラルネットワーク(GCN)と等価なグラフ認識ロジスティック回帰を用いて,クエリフェーズにおける予測誤差低減を最大化する。 システムと対話するラベルラが経験する遅延を軽減するため,ラベル処理中に新しいクエリを計算したプリエンプティブクエリシステムを考案し,ラベル付きデータがほとんどない状態で学習を開始する設定に対処するため,ラベルの伝搬と線形化GCN推論の適応モデル平均化を行うハイブリッドアルゴリズムを開発した。 我々は,5つのベンチマークデータセットについて実験を行い,最先端の手法よりも大幅に改善したことを示すとともに,プライベートマイクロ波リンクネットワークデータセットに適用することにより,手法の実用的価値を示す。

Node classification in attributed graphs is an important task in multiple practical settings, but it can often be difficult or expensive to obtain labels. Active learning can improve the achieved classification performance for a given budget on the number of queried labels. The best existing methods are based on graph neural networks, but they often perform poorly unless a sizeable validation set of labelled nodes is available in order to choose good hyperparameters. We propose a novel graph-based active learning algorithm for the task of node classification in attributed graphs; our algorithm uses graph cognizant logistic regression, equivalent to a linearized graph convolutional neural network (GCN), for the prediction phase and maximizes the expected error reduction in the query phase. To reduce the delay experienced by a labeller interacting with the system, we derive a preemptive querying system that calculates a new query during the labelling process, and to address the setting where learning starts with almost no labelled data, we also develop a hybrid algorithm that performs adaptive model averaging of label propagation and linearized GCN inference. We conduct experiments on five public benchmark datasets, demonstrating a significant improvement over state-of-the-art approaches and illustrate the practical value of the method by applying it to a private microwave link network dataset.
翻訳日:2022-11-12 03:41:30 公開日:2020-07-09
# ガウスカーネルと不均衡データを用いた支持ベクトルマシン分類器の挙動解析

Behavioral analysis of support vector machine classifier with Gaussian kernel and imbalanced data ( http://arxiv.org/abs/2007.05042v1 )

ライセンス: Link先を確認
Alaa Tharwat(参考訳) ペナルティパラメータやカーネルパラメータなどのサポートベクトルマシン(SVM)のパラメータは、SVMモデルの分類精度と複雑さに大きな影響を与える。 したがって、SVMにおけるモデル選択は、これらのパラメータのチューニングを伴う。 しかし、これらのパラメータは通常、数学的背景や内部詳細を理解せずに、ブラックボックスとしてチューニングされ使用される。 本稿では,これらのパラメータがバランスの取れたデータと不均衡なデータで異なる値を取る場合に,SVM分類モデルの挙動を解析する。 この分析には、可視化、数学的および幾何学的解釈、およびSVMによるガウスおよび線型カーネル関数の基礎を提供するための図式的な数値例が含まれる。 そこで本研究では,新しい探索アルゴリズムを提案する。 本研究では,2次元空間を探索する代わりに,最適SVMパラメータを2次元空間に探索する。 これにより計算時間が大幅に短縮される。 さらに,本アルゴリズムでは,データの解析からカーネル関数の範囲が期待できる。 これにより探索空間も減少し、必要な計算時間を短縮できる。 異なるバランスデータセットと不均衡データセットを用いて検索アルゴリズムを評価するために異なる実験を行った。 その結果,提案手法が他の探索戦略よりも高速かつ効果的であることを実証した。

The parameters of support vector machines (SVMs) such as the penalty parameter and the kernel parameters have a great impact on the classification accuracy and the complexity of the SVM model. Therefore, the model selection in SVM involves the tuning of these parameters. However, these parameters are usually tuned and used as a black box, without understanding the mathematical background or internal details. In this paper, the behavior of the SVM classification model is analyzed when these parameters take different values with balanced and imbalanced data. This analysis including visualization, mathematical and geometrical interpretations and illustrative numerical examples with the aim of providing the basics of the Gaussian and linear kernel functions with SVM. From this analysis, we proposed a novel search algorithm. In this algorithm, we search for the optimal SVM parameters into two one-dimensional spaces instead of searching into one two-dimensional space. This reduces the computational time significantly. Moreover, in our algorithm, from the analysis of the data, the range of kernel function can be expected. This also reduces the search space and hence reduces the required computational time. Different experiments were conducted to evaluate our search algorithm using different balanced and imbalanced datasets. The results demonstrated how the proposed strategy is fast and effective than other searching strategies.
翻訳日:2022-11-12 03:40:54 公開日:2020-07-09
# 予測値一般化境界

Predictive Value Generalization Bounds ( http://arxiv.org/abs/2007.05073v1 )

ライセンス: Link先を確認
Keshav Vemuri, Nathan Srebro(参考訳) 本稿では,二項分類の文脈におけるスコアリング関数の評価のためのビクテリオンフレームワークについて検討する。 正と負の予測値(それぞれppvとnpv)は、分類器の予測ラベルと一致する真のラベルの条件付き確率である。 通常の分類誤差率はこれらの確率の線形結合であり、したがって誤差率の濃度不等式は2つの別々の予測値に対する信頼区間を生じさせない。 本研究では,新しい分布自由大偏差と一様収束境界を導出することにより,予測値に対するスコアリング関数の一般化特性について検討する。 後者の境界は、順序係数(order coefficient)と呼ばれる関数クラスの複雑性の測度として述べられ、この組合せ量とvc-subgraph次元を関連付ける。

In this paper, we study a bi-criterion framework for assessing scoring functions in the context of binary classification. The positive and negative predictive values (ppv and npv, respectively) are conditional probabilities of the true label matching a classifier's predicted label. The usual classification error rate is a linear combination of these probabilities, and therefore, concentration inequalities for the error rate do not yield confidence intervals for the two separate predictive values. We study generalization properties of scoring functions with respect to predictive values by deriving new distribution-free large deviation and uniform convergence bounds. The latter bound is stated in terms of a measure of function class complexity that we call the order coefficient; we relate this combinatorial quantity to the VC-subgraph dimension.
翻訳日:2022-11-12 03:40:34 公開日:2020-07-09
# 民間予測のトレードオフ

The Trade-Offs of Private Prediction ( http://arxiv.org/abs/2007.05089v1 )

ライセンス: Link先を確認
Laurens van der Maaten and Awni Hannun(参考訳) 機械学習モデルは、予測を公開するたびにトレーニングデータに関する情報をリークする。 トレーニングデータがプライベートのままである必要がある場合、これは問題となる。 プライベート予測手法は、各予測によってトレーニングデータに関する情報リーク量を制限する。 プライベートな予測は、プライベートなトレーニング手法でトレーニングされたモデルを使って達成することもできる。 プライベート予測では、プライベートトレーニングとプライベート予測の両方の方法が、プライバシ、プライバシ障害確率、トレーニングデータ量、推論予算の間のトレードオフを示している。 これらのトレードオフは理論的によく理解されているものの、実証的な研究はほとんど行われていない。 本稿では,個人予測のトレードオフに関する最初の実証研究を行う。 我々の研究は、どの学習環境に最も適した方法に光を当てている。 意外なことに、プライベートなトレーニング手法は、幅広いプライベートな予測設定においてプライベートな予測方法よりも優れています。

Machine learning models leak information about their training data every time they reveal a prediction. This is problematic when the training data needs to remain private. Private prediction methods limit how much information about the training data is leaked by each prediction. Private prediction can also be achieved using models that are trained by private training methods. In private prediction, both private training and private prediction methods exhibit trade-offs between privacy, privacy failure probability, amount of training data, and inference budget. Although these trade-offs are theoretically well-understood, they have hardly been studied empirically. This paper presents the first empirical study into the trade-offs of private prediction. Our study sheds light on which methods are best suited for which learning setting. Perhaps surprisingly, we find private training methods outperform private prediction methods in a wide range of private prediction settings.
翻訳日:2022-11-12 03:39:46 公開日:2020-07-09
# AdaScale SGD: 分散トレーニングのためのユーザフレンドリーなアルゴリズム

AdaScale SGD: A User-Friendly Algorithm for Distributed Training ( http://arxiv.org/abs/2007.05105v1 )

ライセンス: Link先を確認
Tyler B. Johnson, Pulkit Agrawal, Haijie Gu, Carlos Guestrin(参考訳) 大規模バッチトレーニングを使用して確率的勾配降下をスピードアップする場合、学習速度は、スピードアップを最大化し、モデル品質を維持するために、新しいバッチサイズに適応する必要がある。 再チューニングの学習レートはリソース集約であり、固定されたスケーリングルールはモデル品質を劣化させることが多い。 本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。 勾配の分散に継続的に適応することで、adascaleは広範囲のバッチサイズで自動的にスピードアップを実現する。 バッチサイズが大きくなり、イテレーション数が減少しても最終目的値を維持するadascaleの収束境界でこの品質を正式に記述する。 経験的比較において、adascaleは一般的な"線形学習率スケーリング"ルールのバッチサイズ制限をはるかに超えている。 これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。 アダスケールの質的行動は「ウォームアップ」のヒューリスティックと似ているが、ウォームアップとは異なり、この行動は原理的なメカニズムから自然に現れる。 このアルゴリズムは無視できる計算オーバーヘッドを導入し、新しいハイパーパラメーターは導入しないため、AdaScaleは実際に大規模なトレーニングを行う上で魅力的な選択肢となる。

When using large-batch training to speed up stochastic gradient descent, learning rates must adapt to new batch sizes in order to maximize speed-ups and preserve model quality. Re-tuning learning rates is resource intensive, while fixed scaling rules often degrade model quality. We propose AdaScale SGD, an algorithm that reliably adapts learning rates to large-batch training. By continually adapting to the gradient's variance, AdaScale automatically achieves speed-ups for a wide range of batch sizes. We formally describe this quality with AdaScale's convergence bound, which maintains final objective values, even as batch sizes grow large and the number of iterations decreases. In empirical comparisons, AdaScale trains well beyond the batch size limits of popular "linear learning rate scaling" rules. This includes large-batch training with no model degradation for machine translation, image classification, object detection, and speech recognition tasks. AdaScale's qualitative behavior is similar to that of "warm-up" heuristics, but unlike warm-up, this behavior emerges naturally from a principled mechanism. The algorithm introduces negligible computational overhead and no new hyperparameters, making AdaScale an attractive choice for large-scale training in practice.
翻訳日:2022-11-12 03:39:13 公開日:2020-07-09
# データ拡張の未解決可能性:ドメインの一般化の観点から

Untapped Potential of Data Augmentation: A Domain Generalization Viewpoint ( http://arxiv.org/abs/2007.04662v1 )

ライセンス: Link先を確認
Vihari Piratla, Shiv Shankar(参考訳) データ拡張は、一般化精度を改善するための一般的な前処理トリックである。 拡張入力を元の入力と直交して処理することで、モデルは元の入力と増進入力の間で共有されるより堅牢な特徴集合を学習すると考えられている。 しかし,最高の拡張手法であってもそうではないことを示す。 本稿では,拡張ベース手法の領域一般化の観点から考察する。 この新たな視点により、オーバーフィッティングとデライン化が改善のために可能となった。 最先端の強化手法による探索は、学習された表現が訓練中に使用する歪みに対してさえ頑健でないことを示す。 これは拡張例の未解決の可能性の証拠を示唆する。

Data augmentation is a popular pre-processing trick to improve generalization accuracy. It is believed that by processing augmented inputs in tandem with the original ones, the model learns a more robust set of features which are shared between the original and augmented counterparts. However, we show that is not the case even for the best augmentation technique. In this work, we take a Domain Generalization viewpoint of augmentation based methods. This new perspective allowed for probing overfitting and delineating avenues for improvement. Our exploration with the state-of-art augmentation method provides evidence that the learned representations are not as robust even towards distortions used during training. This suggests evidence for the untapped potential of augmented examples.
翻訳日:2022-11-12 03:32:31 公開日:2020-07-09
# 非定常帯域に対するリカレントニューラルLinear Posterior Smpling

Recurrent Neural-Linear Posterior Sampling for Non-Stationary Contextual Bandits ( http://arxiv.org/abs/2007.04750v1 )

ライセンス: Link先を確認
Aditya Ramesh, Paulo Rauber, J\"urgen Schmidhuber(参考訳) 非定常的文脈的包帯問題のエージェントは、探索と以前の経験に存在する(周期的または構造化された)パターンの活用のバランスをとるべきである。 適切な歴史的文脈を手作りすることは、非定常問題を効率的に解決できる定常問題に変換する魅力的な方法である。 しかし、慎重に設計された歴史的文脈でさえ、急激な関係や重要な情報の便利な表現が欠如している可能性がある。 これらの課題に対処するために,エージェントと環境間の相互作用の生履歴のみに基づいて,意思決定の関連文脈を表現することを学ぶアプローチを提案する。 このアプローチは、リカレントニューラルネットワークによって抽出された特徴と、後続サンプリングに基づく文脈線形帯域アルゴリズムの組み合わせに依存する。 文脈的および非文脈的非定常問題の多様な選択に関する実験は、我々の再帰的アプローチが、従来の非定常バンディットアルゴリズムよりも広く適用されながら、手作りの歴史的文脈を必要とするフィードフォワードのアプローチを一貫して上回っていることを示している。

An agent in a non-stationary contextual bandit problem should balance between exploration and the exploitation of (periodic or structured) patterns present in its previous experiences. Handcrafting an appropriate historical context is an attractive alternative to transform a non-stationary problem into a stationary problem that can be solved efficiently. However, even a carefully designed historical context may introduce spurious relationships or lack a convenient representation of crucial information. In order to address these issues, we propose an approach that learns to represent the relevant context for a decision based solely on the raw history of interactions between the agent and the environment. This approach relies on a combination of features extracted by recurrent neural networks with a contextual linear bandit algorithm based on posterior sampling. Our experiments on a diverse selection of contextual and non-contextual non-stationary problems show that our recurrent approach consistently outperforms its feedforward counterpart, which requires handcrafted historical contexts, while being more widely applicable than conventional non-stationary bandit algorithms.
翻訳日:2022-11-12 03:31:50 公開日:2020-07-09
# 低スイッチングコストのマルチノードロジットバンド

Multinomial Logit Bandit with Low Switching Cost ( http://arxiv.org/abs/2007.04876v1 )

ライセンス: Link先を確認
Kefan Dong, Yingkai Li, Qin Zhang, Yuan Zhou(参考訳) 適応性が限定されたマルチノミナルロジットバンディットについて検討し, アルゴリズムは, ほとんど最適のミニマックス後悔を達成する際に, 探索動作をできるだけ頻繁に変更する。 適応性の尺度として, 仕分け切替コストと細粒度切換コストの2つを提案する。 我々は、$O(N \log T)$ Assortment switchsで、下限の$\Omega(\frac{N \log T}{ \log \log T})$とほぼ一致する任意のアルゴリズム(AT-DUCB)を示す。 固定水平設定では、FH-DUCBアルゴリズムは、漸近的下界に一致する$O(N \log \log T)$アソートスイッチを発生させる。 また,アイテム切替コストを$O(N \log^2T)$とするESACBアルゴリズムを提案する。

We study multinomial logit bandit with limited adaptivity, where the algorithms change their exploration actions as infrequently as possible when achieving almost optimal minimax regret. We propose two measures of adaptivity: the assortment switching cost and the more fine-grained item switching cost. We present an anytime algorithm (AT-DUCB) with $O(N \log T)$ assortment switches, almost matching the lower bound $\Omega(\frac{N \log T}{ \log \log T})$. In the fixed-horizon setting, our algorithm FH-DUCB incurs $O(N \log \log T)$ assortment switches, matching the asymptotic lower bound. We also present the ESUCB algorithm with item switching cost $O(N \log^2 T)$.
翻訳日:2022-11-12 03:30:46 公開日:2020-07-09
# ダイアグラム帯域の影響:構造帯域問題に対する変分トンプソンサンプリング

Influence Diagram Bandits: Variational Thompson Sampling for Structured Bandit Problems ( http://arxiv.org/abs/2007.04915v1 )

ライセンス: Link先を確認
Tong Yu, Branislav Kveton, Zheng Wen, Ruiyi Zhang, Ole J. Mengshoel(参考訳) 本稿では,構造付きバンディットの新しい枠組みを提案し,これをインフルエンスダイアグラムバンディットと呼ぶ。 本フレームワークは, 動作, 潜伏変数, 観測の複雑な統計的依存関係を捉え, 組み合わせ半帯域, カスケードバンド, ローランクバンディットなど, 既存のモデルの多くを統一・拡張する。 我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。 キーとなる考え方は、モデルパラメータの構造的後部分布を正確にあるいはほぼ追跡することである。 動作するために、モデルパラメータを後部からサンプリングし、次に影響図の構造を用いて、サンプリングされたパラメータの下で最も楽観的なアクションを見つける。 我々は3つの構造化バンディット問題において,アルゴリズムを経験的に評価し,問題に固有のベースラインよりも優れた性能を示す。

We propose a novel framework for structured bandits, which we call an influence diagram bandit. Our framework captures complex statistical dependencies between actions, latent variables, and observations; and thus unifies and extends many existing models, such as combinatorial semi-bandits, cascading bandits, and low-rank bandits. We develop novel online learning algorithms that learn to act efficiently in our models. The key idea is to track a structured posterior distribution of model parameters, either exactly or approximately. To act, we sample model parameters from their posterior and then use the structure of the influence diagram to find the most optimistic action under the sampled parameters. We empirically evaluate our algorithms in three structured bandit problems, and show that they perform as well as or better than problem-specific state-of-the-art baselines.
翻訳日:2022-11-12 03:30:18 公開日:2020-07-09
# コンフォーマライズドパフォーマンス予測を用いた学習の透明化

Making learning more transparent using conformalized performance prediction ( http://arxiv.org/abs/2007.04486v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 本研究では、より透明で正確で実用的な性能保証を機械学習で提供する問題に対する共形推論手法の新たな応用について検討する。 我々は,任意の学習アルゴリズムの今後の性能について,有効かつ適切に評価された予測文を作成することができるように,従来の共形予測フレームワークの自然な拡張を提供する。 さらに、潜在的な応用を示す実験例をいくつか紹介する。

In this work, we study some novel applications of conformal inference techniques to the problem of providing machine learning procedures with more transparent, accurate, and practical performance guarantees. We provide a natural extension of the traditional conformal prediction framework, done in such a way that we can make valid and well-calibrated predictive statements about the future performance of arbitrary learning algorithms, when passed an as-yet unseen training set. In addition, we include some nascent empirical examples to illustrate potential applications.
翻訳日:2022-11-12 03:23:28 公開日:2020-07-09
# 深層学習における勾配変動の検討

A Study of Gradient Variance in Deep Learning ( http://arxiv.org/abs/2007.04532v1 )

ライセンス: Link先を確認
Fartash Faghri, David Duvenaud, David J. Fleet, Jimmy Ba(参考訳) 深層モデルの訓練における勾配雑音の影響は広く認識されているが,よく理解されていない。 この文脈では,トレーニング中の勾配分布について検討する。 階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。 勾配空間における重み付きクラスタリングから要素をサンプリングした場合, 平均ミニバッチ勾配の分散が最小となることを示す。 一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加し、より小さい学習率がより高い分散と一致することを観察する。 さらに,正規化勾配分散を,勾配分散と比較して収束速度によく相関する統計として導入する。

The impact of gradient noise on training deep models is widely acknowledged but not well understood. In this context, we study the distribution of gradients during training. We introduce a method, Gradient Clustering, to minimize the variance of average mini-batch gradient with stratified sampling. We prove that the variance of average mini-batch gradient is minimized if the elements are sampled from a weighted clustering in the gradient space. We measure the gradient variance on common deep learning benchmarks and observe that, contrary to common assumptions, gradient variance increases during training, and smaller learning rates coincide with higher variance. In addition, we introduce normalized gradient variance as a statistic that better correlates with the speed of convergence compared to gradient variance.
翻訳日:2022-11-12 03:23:11 公開日:2020-07-09
# ユーザ認証モデルのフェデレーション学習

Federated Learning of User Authentication Models ( http://arxiv.org/abs/2007.04618v1 )

ライセンス: Link先を確認
Hossein Hosseini, Sungrack Yun, Hyunsin Park, Christos Louizos, Joseph Soriaga and Max Welling(参考訳) マシンラーニングベースのユーザ認証(UA)モデルは、スマートデバイスに広くデプロイされている。 UAモデルは、異なるユーザの入力データを高度に分離可能な埋め込みベクトルにマッピングするように訓練され、テスト時に新しい入力を受け入れたり拒否するために使用される。 UAモデルのトレーニングには、ユーザの生の入力と埋め込みベクターに直接アクセスする必要がある。 本稿では,UAモデルのプライバシー保護のためのフレームワークであるFederated User Authentication (FedUA)を提案する。 FedUAは、フェデレートされた学習フレームワークを採用し、ユーザが生の入力を共有することなく、共同でモデルをトレーニングできるようにする。 また、ユーザはランダムなバイナリベクターとして埋め込みを生成することができ、サーバによるスプレッドアウト埋め込みを構築する既存のアプローチとは異なり、埋め込みベクターもプライベートに保持される。 提案手法は,プライバシ保存性が高く,ユーザ数にも拡張性があり,新たなユーザがアウトプット層を変更することなくトレーニングに追加できることを示す。 話者検証のためのVoxCelebデータセットに関する実験結果から,本手法は未確認ユーザのデータを極めて高い正の確率で確実に拒否することを示す。

Machine learning-based User Authentication (UA) models have been widely deployed in smart devices. UA models are trained to map input data of different users to highly separable embedding vectors, which are then used to accept or reject new inputs at test time. Training UA models requires having direct access to the raw inputs and embedding vectors of users, both of which are privacy-sensitive information. In this paper, we propose Federated User Authentication (FedUA), a framework for privacy-preserving training of UA models. FedUA adopts federated learning framework to enable a group of users to jointly train a model without sharing the raw inputs. It also allows users to generate their embeddings as random binary vectors, so that, unlike the existing approach of constructing the spread out embeddings by the server, the embedding vectors are kept private as well. We show our method is privacy-preserving, scalable with number of users, and allows new users to be added to training without changing the output layer. Our experimental results on the VoxCeleb dataset for speaker verification shows our method reliably rejects data of unseen users at very high true positive rates.
翻訳日:2022-11-12 03:22:39 公開日:2020-07-09
# 最大結合ネットワーク

Maximum-and-Concatenation Networks ( http://arxiv.org/abs/2007.04630v1 )

ライセンス: Link先を確認
Xingyu Xie, Hao Kong, Jianlong Wu, Wayne Zhang, Guangcan Liu, Zhouchen Lin(参考訳) 多くの分野で成功しているにもかかわらず、ディープニューラルネットワーク(DNN)は、悪い局所ミニマや不満足な一般化性能などのオープンな問題に悩まされている。 本研究では,ローカルな最小値の削減と一般化能力の向上を図るため,MCN(Maximum-and-Concatenation Networks)と呼ばれる新しいアーキテクチャを提案する。 驚くべきことに、mcnは非常に良い性質を持っていることを証明している。すなわち、 \emph{ every local minimum of a $(l+1)$-layer mcnは、少なくとも、最初の$l$ layer}からなるネットワークのグローバルミニマより優れている。 言い換えれば、ネットワークの深さを増やすことで、mcnはローカルのミニマの良さを自律的に改善することができる。 最後に、穏やかな条件下では、MCN は任意の連続関数を \emph{high efficiency} と任意に近似できることを示し、すなわち、MCN の被覆数は、ディープReLU のような既存の DNN よりもはるかに小さい。 これに基づいて、テストサンプルを扱う際のMCNの推論能力を保証するための厳密な一般化も提供する。

While successful in many fields, deep neural networks (DNNs) still suffer from some open problems such as bad local minima and unsatisfactory generalization performance. In this work, we propose a novel architecture called Maximum-and-Concatenation Networks (MCN) to try eliminating bad local minima and improving generalization ability as well. Remarkably, we prove that MCN has a very nice property; that is, \emph{every local minimum of an $(l+1)$-layer MCN can be better than, at least as good as, the global minima of the network consisting of its first $l$ layers}. In other words, by increasing the network depth, MCN can autonomously improve its local minima's goodness, what is more, \emph{it is easy to plug MCN into an existing deep model to make it also have this property}. Finally, under mild conditions, we show that MCN can approximate certain continuous functions arbitrarily well with \emph{high efficiency}; that is, the covering number of MCN is much smaller than most existing DNNs such as deep ReLU. Based on this, we further provide a tight generalization bound to guarantee the inference ability of MCN when dealing with testing samples.
翻訳日:2022-11-12 03:22:19 公開日:2020-07-09
# シミュレーション型非iidクライアントによるフェデレーション学習の改善

Client Adaptation improves Federated Learning with Simulated Non-IID Clients ( http://arxiv.org/abs/2007.04806v1 )

ライセンス: Link先を確認
Laura Rieger, Rasmus M. Th. H{\o}egh, and Lars K. Hansen(参考訳) クライアント間でデータを独立に分散する(非IID)場合、クライアント適応的で堅牢なモデルを学ぶための連合学習手法を提案する。 ヘテロジニアスクライアントをシミュレートすることにより,学習したクライアント固有のコンディショニングによりモデルの性能が向上し,音声領域と画像領域のバランスのとれた不均衡なデータを扱うことができることを示した。 クライアント適応は条件付きゲート型アクティベーションユニットによって実装され、フェデレーション学習における一般的なシナリオである各クライアントのデータ分散に大きな違いがある場合、特に有益である。

We present a federated learning approach for learning a client adaptable, robust model when data is non-identically and non-independently distributed (non-IID) across clients. By simulating heterogeneous clients, we show that adding learned client-specific conditioning improves model performance, and the approach is shown to work on balanced and imbalanced data set from both audio and image domains. The client adaptation is implemented by a conditional gated activation unit and is particularly beneficial when there are large differences between the data distribution for each client, a common scenario in federated learning.
翻訳日:2022-11-12 03:14:46 公開日:2020-07-09
# 可逆ゼロショット認識流れ

Invertible Zero-Shot Recognition Flows ( http://arxiv.org/abs/2007.04873v1 )

ライセンス: Link先を確認
Yuming Shen, Jie Qin, Lei Huang(参考訳) 深層生成モデルはZSL(Zero-Shot Learning)に適用されている。 しかし、GANとVAEの根本的な欠点(例えば、ZSL指向の正則化器によるトレーニングの難しさと、限られた生成品質)は、既存の生成的ZSLモデルを完全に無視することを妨げる。 上記の制限に対処するために、この研究は初めて新しい生成モデル(フローベースモデル)のファミリーをZSLに組み込む。 提案する可逆ゼロショットフロー(izf)は、可逆フローネットワークのフォワードパスと因果化データ埋め込み(すなわち、意味的要因と非意味的要素)を学習し、逆パスはデータサンプルを生成する。 この手順は理論的に従来の生成フローを因子化条件スキームに拡張する。 バイアス問題を明示的に解くために, 負のサンプルベース距離測定に基づいて, 観測対象の分布差を拡大する。 特に、IZFは、単純ベイズ分類器またはゼロショット認識のためのホールドアウト訓練可能なものと柔軟に機能する。 広く評価されたZSLベンチマークの実験は、古典的および一般化された設定の両方において、既存のメソッドよりもIZFの大幅な性能向上を示す。

Deep generative models have been successfully applied to Zero-Shot Learning (ZSL) recently. However, the underlying drawbacks of GANs and VAEs (e.g., the hardness of training with ZSL-oriented regularizers and the limited generation quality) hinder the existing generative ZSL models from fully bypassing the seen-unseen bias. To tackle the above limitations, for the first time, this work incorporates a new family of generative models (i.e., flow-based models) into ZSL. The proposed Invertible Zero-shot Flow (IZF) learns factorized data embeddings (i.e., the semantic factors and the non-semantic ones) with the forward pass of an invertible flow network, while the reverse pass generates data samples. This procedure theoretically extends conventional generative flows to a factorized conditional scheme. To explicitly solve the bias problem, our model enlarges the seen-unseen distributional discrepancy based on negative sample-based distance measurement. Notably, IZF works flexibly with either a naive Bayesian classifier or a held-out trainable one for zero-shot recognition. Experiments on widely-adopted ZSL benchmarks demonstrate the significant performance gain of IZF over existing methods, in both classic and generalized settings.
翻訳日:2022-11-12 03:14:34 公開日:2020-07-09
# すべてをコントロールするための1つのポリシー:エージェント非依存制御のための共有モジュールポリシー

One Policy to Control Them All: Shared Modular Policies for Agent-Agnostic Control ( http://arxiv.org/abs/2007.04976v1 )

ライセンス: Link先を確認
Wenlong Huang, Igor Mordatch, Deepak Pathak(参考訳) 強化学習は通常、特定のエージェントに適した学習制御ポリシーに関係している。 We investigate whether there exists a single global policy that can generalize to control a wide variety of agent morphologies -- ones in which even dimensionality of state and action spaces changes. We propose to express this global policy as a collection of identical modular neural networks, dubbed as Shared Modular Policies (SMP), that correspond to each of the agent's actuators. Every module is only responsible for controlling its corresponding actuator and receives information from only its local sensors. In addition, messages are passed between modules, propagating information between distant modules. We show that a single modular policy can successfully generate locomotion behaviors for several planar agents with different skeletal structures such as monopod hoppers, quadrupeds, bipeds, and generalize to variants not seen during training -- a process that would normally require training and manual hyperparameter tuning for each morphology. 我々は、強化学習目的から純粋に分散モジュール間のメッセージパッシングを通じて、形態学を横断する多様なロコモーションスタイルと集中的なコーディネーションが出現することを観察した。 ビデオとコード: https://huangwl18.github.io/modular-rl/

Reinforcement learning is typically concerned with learning control policies tailored to a particular agent. We investigate whether there exists a single global policy that can generalize to control a wide variety of agent morphologies -- ones in which even dimensionality of state and action spaces changes. We propose to express this global policy as a collection of identical modular neural networks, dubbed as Shared Modular Policies (SMP), that correspond to each of the agent's actuators. Every module is only responsible for controlling its corresponding actuator and receives information from only its local sensors. In addition, messages are passed between modules, propagating information between distant modules. We show that a single modular policy can successfully generate locomotion behaviors for several planar agents with different skeletal structures such as monopod hoppers, quadrupeds, bipeds, and generalize to variants not seen during training -- a process that would normally require training and manual hyperparameter tuning for each morphology. We observe that a wide variety of drastically diverse locomotion styles across morphologies as well as centralized coordination emerges via message passing between decentralized modules purely from the reinforcement learning objective. Videos and code at https://huangwl18.github.io/modular-rl/
翻訳日:2022-11-12 03:14:09 公開日:2020-07-09
# 多視点直交正規化部分最小方形:正規化と深部拡張

Multi-view Orthonormalized Partial Least Squares: Regularizations and Deep Extensions ( http://arxiv.org/abs/2007.05028v1 )

ライセンス: Link先を確認
Li Wang and Ren-Cang Li and Wen-Wei(参考訳) 最小二乗法を基本として,マルチビュー学習のためのサブスペースベース学習手法のファミリを確立する。 具体的には,正規正規化部分最小二乗法(opls)について検討し,多変量回帰と分類におけるその重要な性質について検討した。 OPLSの最小二乗再構成に基づいて,すべてのビューで共有される共通潜在空間上の分類器を学習するための統合された多視点学習フレームワークを提案する。 正規化手法は, モデルパラメータ, 決定値, 潜在投射点など, 固有成分に3種類の汎用型正規化器を提供することにより, 提案フレームワークのパワーを解き放つためにさらに活用されている。 様々な事前の観点で正規化器のセットをインスタンス化する。 正規化器を適切に選択したフレームワークは、既存のメソッドを再キャストできるだけでなく、新しいモデルを刺激することができる。 複雑な実問題に対する提案フレームワークの性能をさらに高めるため,深層ネットワークでパラメータ化された非線形変換を学習する。 特徴抽出法とクロスモーダル検索法の両方の観点から,9つのデータセットの様々な手法を異なる数のビューで比較した。

We establish a family of subspace-based learning method for multi-view learning using the least squares as the fundamental basis. Specifically, we investigate orthonormalized partial least squares (OPLS) and study its important properties for both multivariate regression and classification. Building on the least squares reformulation of OPLS, we propose a unified multi-view learning framework to learn a classifier over a common latent space shared by all views. The regularization technique is further leveraged to unleash the power of the proposed framework by providing three generic types of regularizers on its inherent ingredients including model parameters, decision values and latent projected points. We instantiate a set of regularizers in terms of various priors. The proposed framework with proper choices of regularizers not only can recast existing methods, but also inspire new models. To further improve the performance of the proposed framework on complex real problems, we propose to learn nonlinear transformations parameterized by deep networks. Extensive experiments are conducted to compare various methods on nine data sets with different numbers of views in terms of both feature extraction and cross-modal retrieval.
翻訳日:2022-11-12 03:13:54 公開日:2020-07-09
# 短期記憶スパイキングネットワークとその応用

Long Short-Term Memory Spiking Networks and Their Applications ( http://arxiv.org/abs/2007.04779v1 )

ライセンス: Link先を確認
Ali Lotfi Rezaabad and Sriram Vishwanath(参考訳) 事象ベースのニューロモルフィックシステムの最近の進歩は、スパイキングニューラルネットワーク(SNN)の使用と開発に大きな関心を寄せている。 しかし、スパイキングニューロンの非分化性により、SNNは従来のバックプロパゲーション技術と相容れない。 従来のディープニューラルネットワーク(DNN)のトレーニングでは大きな進歩があったが、SNNのトレーニング方法はまだよく分かっていない。 本稿では,繰り返しSNNをトレーニングするための新しいフレームワークを提案する。 DNN内の学習時系列モデルにおいて、リカレントニューラルネットワーク(RNN)がもたらす利点に類似して、長い短期記憶(LSTM)ネットワークに基づくSNNを開発する。 LSTMスパイクネットワークはスパイクのタイミングと時間的依存性を学習する。 また,LSTMに基づくSNNにおいて,エラーのバックプロパゲーションを行う手法を開発した。 LSTMベースのSNN内でのバックプロパゲーションのためのアーキテクチャと手法により、従来のLSTMに匹敵する長期的な依存関係を学習することができる。

Recent advances in event-based neuromorphic systems have resulted in significant interest in the use and development of spiking neural networks (SNNs). However, the non-differentiable nature of spiking neurons makes SNNs incompatible with conventional backpropagation techniques. In spite of the significant progress made in training conventional deep neural networks (DNNs), training methods for SNNs still remain relatively poorly understood. In this paper, we present a novel framework for training recurrent SNNs. Analogous to the benefits presented by recurrent neural networks (RNNs) in learning time series models within DNNs, we develop SNNs based on long short-term memory (LSTM) networks. We show that LSTM spiking networks learn the timing of the spikes and temporal dependencies. We also develop a methodology for error backpropagation within LSTM-based SNNs. The developed architecture and method for backpropagation within LSTM-based SNNs enable them to learn long-term dependencies with comparable results to conventional LSTMs.
翻訳日:2022-11-12 03:12:49 公開日:2020-07-09
# 有罪判決の予測: 裁判官による決定における法外的要因の回避と理解不能なAIモデル

Predicting Court Decisions for Alimony: Avoiding Extra-legal Factors in Decision made by Judges and Not Understandable AI Models ( http://arxiv.org/abs/2007.04824v1 )

ライセンス: Link先を確認
Fabrice Muhlenbach, Long Nguyen Phuoc and Isabelle Sayn(参考訳) 機械学習技術の出現により、従来の法的慣行を覆す予測システムを得ることが可能になった。 しかしながら、人間を置き換えるシステムに導かれるのではなく、裁判所の決定における決定要因の探索は、裁判官が行う決定機構をよりよく理解することを可能にしている。 フランスの司法管轄区域が生み出した離婚問題における大量の裁判所決定と、アリモニーの割り当てを許可する変数を見て、その量を定義することで、裁判官が下した決定には法外的要因があるかどうかを判断する。 この観点から、我々は、ランダム森林と回帰モデルを組み合わせた分類を、既存の意思決定尺度や実践者が作成したガイドラインに補完するツールとして設計した説明可能なAIモデルを提案する。

The advent of machine learning techniques has made it possible to obtain predictive systems that have overturned traditional legal practices. However, rather than leading to systems seeking to replace humans, the search for the determinants in a court decision makes it possible to give a better understanding of the decision mechanisms carried out by the judge. By using a large amount of court decisions in matters of divorce produced by French jurisdictions and by looking at the variables that allow to allocate an alimony or not, and to define its amount, we seek to identify if there may be extra-legal factors in the decisions taken by the judges. From this perspective, we present an explainable AI model designed in this purpose by combining a classification with random forest and a regression model, as a complementary tool to existing decision-making scales or guidelines created by practitioners.
翻訳日:2022-11-12 03:12:18 公開日:2020-07-09
# 強化学習による深層ニューラルネットワークの創出学習

Learning to Prune Deep Neural Networks via Reinforcement Learning ( http://arxiv.org/abs/2007.04756v1 )

ライセンス: Link先を確認
Manas Gupta, Siddharth Aravindan, Aleksandra Kalisz, Vijay Chandrasekhar, Lin Jie(参考訳) 本稿では,ニューラルネットワークの深部強化学習(RL)に基づくアルゴリズムであるPuRLを提案する。 現在のRLベースのモデル圧縮アプローチとは異なり、フィードバックは各エピソードの最後にのみエージェントに与えられる。 これにより、PuRLは、より短いトレーニングサイクルを持ちながら、現在の最先端のメソッドに匹敵する幅と精度を達成することができる。 PuRLはResNet-50モデルで80%以上の間隔を実現し、ImageNetデータセットでトップ1の精度は75.37%である。 実験を通じて、PuRLはMobileNet-V2のような既に効率的なアーキテクチャをスパース化できることを示した。 性能特性化実験に加えて,pullの基盤となるマルコフ決定プロセスのチューニングを行った様々なrl設計に関する議論と分析も行なっている。 最後に、PuRLは簡単に使用でき、様々なアーキテクチャに容易に適応できると指摘する。

This paper proposes PuRL - a deep reinforcement learning (RL) based algorithm for pruning neural networks. Unlike current RL based model compression approaches where feedback is given only at the end of each episode to the agent, PuRL provides rewards at every pruning step. This enables PuRL to achieve sparsity and accuracy comparable to current state-of-the-art methods, while having a much shorter training cycle. PuRL achieves more than 80% sparsity on the ResNet-50 model while retaining a Top-1 accuracy of 75.37% on the ImageNet dataset. Through our experiments we show that PuRL is also able to sparsify already efficient architectures like MobileNet-V2. In addition to performance characterisation experiments, we also provide a discussion and analysis of the various RL design choices that went into the tuning of the Markov Decision Process underlying PuRL. Lastly, we point out that PuRL is simple to use and can be easily adapted for various architectures.
翻訳日:2022-11-12 03:06:20 公開日:2020-07-09
# 検索からの学習による教師なしテキスト生成

Unsupervised Text Generation by Learning from Search ( http://arxiv.org/abs/2007.08557v1 )

ライセンス: Link先を確認
Jingjing Li, Zichao Li, Lili Mou, Xin Jiang, Michael R. Lyu, Irwin King(参考訳) 本研究では,検索からの学習による教師なしテキスト生成のための新しいフレームワークTGLSを提案する。 まず,(概して)文の品質を推定するヒューリスティックに定義された目的に対して,強い探索アルゴリズム(特にシミュレートアニーリング)を適用することから始める。 そして、条件付き生成モデルは、検索結果から学習し、一方、探索のノイズを滑らかにする。 検索と学習の交替は、パフォーマンスブートストラップのために繰り返すことができる。 実世界の自然言語生成タスクであるパラフレーズ生成とテキスト形式化におけるTGLSの有効性を示す。 我々のモデルは両タスクにおいて教師なしのベースライン法を著しく上回る。 特に、パラフレーズ生成における最先端の教師付き手法と同等の性能を発揮する。

In this work, we present TGLS, a novel framework to unsupervised Text Generation by Learning from Search. We start by applying a strong search algorithm (in particular, simulated annealing) towards a heuristically defined objective that (roughly) estimates the quality of sentences. Then, a conditional generative model learns from the search results, and meanwhile smooth out the noise of search. The alternation between search and learning can be repeated for performance bootstrapping. We demonstrate the effectiveness of TGLS on two real-world natural language generation tasks, paraphrase generation and text formalization. Our model significantly outperforms unsupervised baseline methods in both tasks. Especially, it achieves comparable performance with the state-of-the-art supervised methods in paraphrase generation.
翻訳日:2022-11-12 03:05:28 公開日:2020-07-09
# コーディアル同期:マルチエージェント具体化タスクの限界ポリシーを超える

A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied Tasks ( http://arxiv.org/abs/2007.04979v1 )

ライセンス: Link先を確認
Unnat Jain, Luca Weihs, Eric Kolve, Ali Farhadi, Svetlana Lazebnik, Aniruddha Kembhavi, Alexander Schwing(参考訳) 自律的なエージェントは協力することを学ぶ必要があります。 タスクの難しさが1つのエージェントの能力を上回る度に、新しい集中型エージェントを開発するのはスケーラビリティがない。 マルチエージェントコラボレーションの研究はグリッドワールドのような環境で盛んに行われているが、視覚的にリッチなドメインを考慮に入れた研究は比較的少ない。 そこで我々は,リビングルーム内の家具を目標に移動させるために,エージェントが協力して作業する新しいタスクFurnMoveを紹介した。 既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。 既存の分散アクションサンプリング手順では,協調的な行動方針の表現が認められず,緊密な調整を必要とするタスクでは,失敗した行動の数が成功した行動を支配する。 これらの課題に対処するために、SynC-policies(行動の同期)とCORDIAL(コーディネーションロス)を導入します。 SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。 私たちのデータセット、コード、事前トレーニングされたモデルは、https://unnat.github.io/cordial-sync で利用可能です。

Autonomous agents must learn to collaborate. It is not scalable to develop a new centralized agent every time a task's difficulty outpaces a single agent's abilities. While multi-agent collaboration research has flourished in gridworld-like environments, relatively little work has considered visually rich domains. Addressing this, we introduce the novel task FurnMove in which agents work together to move a piece of furniture through a living room to a goal. Unlike existing tasks, FurnMove requires agents to coordinate at every timestep. We identify two challenges when training agents to complete FurnMove: existing decentralized action sampling procedures do not permit expressive joint action policies and, in tasks requiring close coordination, the number of failed actions dominates successful actions. To confront these challenges we introduce SYNC-policies (synchronize your actions coherently) and CORDIAL (coordination loss). Using SYNC-policies and CORDIAL, our agents achieve a 58% completion rate on FurnMove, an impressive absolute gain of 25 percentage points over competitive decentralized baselines. Our dataset, code, and pretrained models are available at https://unnat.github.io/cordial-sync .
翻訳日:2022-11-12 03:04:15 公開日:2020-07-09