このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210716となっている論文です。

PDF登録状況(公開日: 20210716)

TitleAuthorsAbstract論文公表日・翻訳日
# 一元変換の因果構造と構成構造

Causal and compositional structure of unitary transformations ( http://arxiv.org/abs/2001.07774v2 )

ライセンス: Link先を確認
Robin Lorenz and Jonathan Barrett(参考訳) ユニタリ変換の因果構造は、任意の入力サブシステムと出力サブシステムとの間の可能な影響の関係の集合である。 このような因果構造がユニタリの構成構造の観点から理解できるかどうかを検討する。 入力系 $a$ から出力系 $b$ へのパスのない量子回路を考えると、システム $a$ はシステム $b$ に影響を与えない。 逆に、入力 $a$ から出力 $b$ への無影響関係を持つユニタリ $u$ が与えられると、[b. schumacher と m. d. westmoreland の量子情報処理 4 no. 1, (feb, 2005) から、$a$ から $b$ へのパスのない$u$ の回路分解が存在することが従う。 しかし、我々が議論しているように、すべての因果制約を同時に明白にする回路分解が存在しないユニタリが存在する。 これに対処するために、量子回路で表現可能なものを超えて「拡張回路図」という新しい形式を導入し、シーケンシャルおよびテンソル積合成に加えて直接和構造を表現できる主な新機能を紹介する。 因果的に忠実な拡張回路分解は、ユニタリ $u$ を表すもので、入力 $a$ から出力 $b$ へのパスが存在する場合と、実際に$a$ から $b$ への影響がある場合のみである。 我々は,多くのユニタリに対して因果的に忠実な拡張回路分解を導出し,その分解はユニタリのそれぞれの因果構造に含意される。 任意の有限次元ユニタリ変換は因果的に忠実な拡張回路分解を持つと仮定する。

The causal structure of a unitary transformation is the set of relations of possible influence between any input subsystem and any output subsystem. We study whether such causal structure can be understood in terms of compositional structure of the unitary. Given a quantum circuit with no path from input system $A$ to output system $B$, system $A$ cannot influence system $B$. Conversely, given a unitary $U$ with a no-influence relation from input $A$ to output $B$, it follows from [B. Schumacher and M. D. Westmoreland, Quantum Information Processing 4 no. 1, (Feb, 2005)] that there exists a circuit decomposition of $U$ with no path from $A$ to $B$. However, as we argue, there are unitaries for which there does not exist a circuit decomposition that makes all causal constraints evident simultaneously. To address this, we introduce a new formalism of `extended circuit diagrams', which goes beyond what is expressible with quantum circuits, with the core new feature being the ability to represent direct sum structures in addition to sequential and tensor product composition. A causally faithful extended circuit decomposition, representing a unitary $U$, is then one for which there is a path from an input $A$ to an output $B$ if and only if there actually is influence from $A$ to $B$ in $U$. We derive causally faithful extended circuit decompositions for a large class of unitaries, where in each case, the decomposition is implied by the unitary's respective causal structure. We hypothesize that every finite-dimensional unitary transformation has a causally faithful extended circuit decomposition.
翻訳日:2023-06-06 09:01:44 公開日:2021-07-16
# キュービットスピンアイス

Qubit spin ice ( http://arxiv.org/abs/2007.10555v2 )

ライセンス: Link先を確認
Andrew D. King and Cristiano Nisoli and Edward D. Dahl and Gabriel Poulin-Lamarre and Alejandro Lopez-Bezanilla(参考訳) 人工スピン氷は、幾何学とトポロジーの微調整によって構成レベルでのエキゾチックな創発現象の設計とキャラクタリゼーションを可能にした、工学的に設計できる不満のスピン系である。 ここでは超伝導量子ビットの格子におけるスピン氷の実現について述べる。 従来の人工氷とは異なり, この系は量子揺らぎと熱揺らぎの両方で乱れている。 基底状態は古典的に氷則によって記述され, クーロン相につながる不安定な縮退点を制御できる。 個々のスピンをピン留めする能力は、2次元の創発的実効単極子に対するガウスの法則を証明できる。 実証された量子ビット制御は、トポロジカルに保護された人工量子スピン液体の将来の研究の基盤となる。

Artificial spin ices are frustrated spin systems that can be engineered, wherein fine tuning of geometry and topology has allowed the design and characterization of exotic emergent phenomena at the constituent level. Here we report a realization of spin ice in a lattice of superconducting qubits. Unlike conventional artificial spin ice, our system is disordered by both quantum and thermal fluctuations. The ground state is classically described by the ice rule, and we achieve control over a fragile degeneracy point leading to a Coulomb phase. The ability to pin individual spins allows us to demonstrate Gauss's law for emergent effective monopoles in two dimensions. The demonstrated qubit control lays the groundwork for potential future study of topologically protected artificial quantum spin liquids.
翻訳日:2023-05-08 21:11:19 公開日:2021-07-16
# InGaAs検出器を用いた到着時刻に基づく予測不能かつ均一なRNG

Unpredictable and Uniform RNG based on time of arrival using InGaAs Detectors ( http://arxiv.org/abs/2010.12898v2 )

ライセンス: Link先を確認
Anindita Banerjee, Deepika Aggarwal, Ankush Sharma, Ganesh Yadav(参考訳) 量子乱数生成器は、ハイパフォーマンスな学習アルゴリズムとセキュリティガイドラインの要求の多い技術世界で必須になっている。 量子力学の原理に基づく実装により、必要なランダム性を達成することができる。 通信波長の弱いコヒーレント音源から高品質な量子乱数を生成した。 エントロピーは、予め定義された時間間隔内での量子状態の到来時刻に基づいている。 InGaAs単光子検出器による光子の検出と5psの高精度測定により、これまでに報告された最も高い到着時間当たり16ビットのランダムビットを生成することができる。 我々は乱数生成手法の理論解析と実験的検証を行った。 この方法は、量子物理学の原理を利用してランダム数を生成することにより、適用すべき任意のランダム性抽出器の要求を排除する。 出力データレートは平均2.4Mbpsである。 生の量子乱数は、ENTおよびNISTプラットフォーム上で、Blum-Blum-Shub擬似乱数生成器とFPGAから内蔵されたハードウェア乱数生成器とをNISTで比較する。

Quantum random number generators are becoming mandatory in a demanding technology world of high performing learning algorithms and security guidelines. Our implementation based on principles of quantum mechanics enable us to achieve the required randomness. We have generated high-quality quantum random numbers from a weak coherent source at telecommunication wavelength. The entropy is based on time of arrival of quantum states within a predefined time interval. The detection of photons by the InGaAs single-photon detectors and high precision time measurement of 5 ps enables us to generate 16 random bits per arrival time which is the highest reported to date. We have presented the theoretical analysis and experimental verification of the random number generation methodology. The method eliminates the requirement of any randomness extractor to be applied thereby, leveraging the principles of quantum physics to generate random numbers. The output data rate is on an average of 2.4 Mbps. The raw quantum random numbers are compared with NIST prescribed Blum-Blum-Shub pseudo random number generator and an in-house built hardware random number generator from FPGA, on the ENT and NIST Platform.
翻訳日:2023-04-27 20:47:45 公開日:2021-07-16
# 非一様磁場中の電子渦ビーム

Electron vortex beams in non-uniform magnetic fields ( http://arxiv.org/abs/2011.11729v2 )

ライセンス: Link先を確認
Abhijeet Melkani, S.J. van Enk(参考訳) グラザー磁場のような非一様磁場における同軸非相対論的電子ビームの量子論を考える。 このようなビームから電子の波動関数を見つけ、それが2つの(z$-dependent)可換ゲージ非依存作用素の合同固有状態であることを示す。 この一般化されたラゲール・ガウス渦ビームは、2つの部分からなる位相を持ち、それぞれが2つの保存作用素の1つの固有値に比例し、それぞれ異なる対称性を持つ。 また、任意のモードの角運動量と断面面積のダイナミクスと、異なる磁場がモードをモードの重ね合わせに分割する方法についても述べる。 参照のフレームを適切に変化させることで、時間に依存した磁場を持つ量子ホール系の電子にも解析が適用される。

We consider the quantum theory of paraxial non-relativistic electron beams in non-uniform magnetic fields, such as the Glaser field. We find the wave function of an electron from such a beam and show that it is a joint eigenstate of two ($z$-dependent) commuting gauge-independent operators. This generalized Laguerre-Gaussian vortex beam has a phase that is shown to consist of two parts, each being proportional to the eigenvalue of one of the two conserved operators and each having different symmetries. We also describe the dynamics of the angular momentum and cross-sectional area of any mode and how a varying magnetic field can split a mode into a superposition of modes. By a suitable change in frame of reference all of our analysis also applies to an electron in a quantum Hall system with a time-dependent magnetic field.
翻訳日:2023-04-23 08:40:42 公開日:2021-07-16
# 三成分相関のための二成分非符号非局所モデル除外

Ruling out Bipartite Nonsignaling Nonlocal Models for Tripartite Correlations ( http://arxiv.org/abs/2012.11132v2 )

ライセンス: Link先を確認
Peter Bierhorst(参考訳) 真の三部類非局所性と呼ばれるものを含む多くの三部類相関は、二部類非局所性非局所性のみを示す下位サブシステムのネットワークによってシミュレートできる。 量子力学は、そのようなシミュレーションを含まない3つの相関関係を予測し、自然界に非局所性が存在することを示唆している。 本稿では,二成分のみのネットワークでシミュレート可能な三成分相関解析のための厳密な枠組みを提案する。 我々は,非符号化などの既知相関の期待特性が実際に保持されていることを確認し,これらの相関に対してベル不等式型制約を導出する方法を示す。 特に、このフレームワークを使用して、chao and reichardt (arxiv:1706.02008) の論文で以前に記述されたような制約のバージョンを再定義します。

Many three-party correlations, including some that are commonly described as genuinely tripartite nonlocal, can be simulated by a network of underlying subsystems that display only bipartite nonsignaling nonlocal behavior. Quantum mechanics predicts three-party correlations that admit no such simulation, suggesting there are versions of nonlocality in nature transcending the phenomenon of bipartite nonsignaling nonlocality. This paper introduces a rigorous framework for analyzing tripartite correlations that can be simulated by bipartite-only networks. We confirm that expected properties of so-obtained correlations, such as no-signaling, indeed hold, and show how to use the framework to derive Bell-inequality-type constraints on these correlations that can be robustly violated by tripartite quantum systems. In particular, we use this framework to rederive a version of one such constraint previously described in a paper of Chao and Reichardt (arXiv:1706.02008).
翻訳日:2023-04-20 00:36:41 公開日:2021-07-16
# 浮揚振動子のフィードバック冷却法の性能と限界:直接比較

Performance and limits of feedback cooling methods for levitated oscillators: a direct comparison ( http://arxiv.org/abs/2102.01060v3 )

ライセンス: Link先を確認
T. W. Penny, A. Pontin and P. F. Barker(参考訳) 質量中心運動を冷却することは、浮遊光機械システムにとって重要な道具であるが、特定の実験のためにどの方法が実際に低温に達するかはよく分かっていない。 パラメトリックと速度フィードバックの減衰法を直接比較し,トラップ内の単一捕捉粒子の冷却に広く用いられている。 同じ粒子で実験を行い、同じ検出システムを用いて、速度減衰が発振器を低温に冷却し、不完全な実験条件に対してより弾力性があることを実証する。 これらの結果は,実験ノイズを含む数値シミュレーションと同様に解析的限界と一致していることを示す。

Cooling the centre-of-mass motion is an important tool for levitated optomechanical systems, but it is often not clear which method can practically reach lower temperatures for a particular experiment. We directly compare the parametric and velocity feedback damping methods, which are used extensively for cooling the motion of single trapped particles in a range of traps. By performing experiments on the same particle, and with the same detection system, we demonstrate that velocity damping cools the oscillator to lower temperatures and is more resilient to imperfect experimental conditions. We show that these results are consistent with analytical limits as well as numerical simulations that include experimental noise.
翻訳日:2023-04-13 02:47:22 公開日:2021-07-16
# 量子電池の帯電力を考慮した抽出作業の変動」へのコメント

Comment on "Fluctuations in Extractable Work Bound the Charging Power of Quantum Batteries" ( http://arxiv.org/abs/2102.04921v3 )

ライセンス: Link先を確認
Shang-Yung Wang(参考訳) Garc\'ia-Pintosらによる記事。 [rev. lett. 125, 040601 (2020)] 量子電池の充電電力と「自由エネルギーオペレーター」のゆらぎとの接続について、バッテリの最大抽出作業の特徴となる期待値について検討する。 閉系解析の結果、一般的な充電プロセスでは、電池の状態が自由エネルギー演算子の固有状態でない場合に限って、電池が非ゼロ充電パワーを持つことを示す。 このコメントでは、分析におけるいくつかの誤りを指摘し、充電パワーの正しい拘束力を得る。 したがって、閉システムダイナミクスの結果は一般に正しくない。

In an article by Garc\'ia-Pintos et al. [Rev. Lett. 125, 040601 (2020)] the connection between the charging power of a quantum battery and the fluctuations of a "free energy operator" whose expectation value characterizes the maximum extractable work of the battery is studied. The result of the closed-system analysis shows that for a general charging process the battery will have a nonzero charging power if and only if the state of the battery is not an eigenstate of the free energy operator. In this Comment, we point out a few mistakes in the analysis and obtain the correct bound on the charging power. Consequently, the result for closed-system dynamics is in general not correct.
翻訳日:2023-04-12 03:16:35 公開日:2021-07-16
# 周期固体におけるロバスト・パイプ・メゼイ軌道定位

Robust Pipek-Mezey Orbital Localization in Periodic Solids ( http://arxiv.org/abs/2103.04562v2 )

ライセンス: Link先を確認
Marjory C. Clement, Xiao Wang, Edward F. Valeev(参考訳) J\'onsson et al. (J. Chem. Theor. Chem. 2017, 13, 460) が最近導入した Pipek-Mezey (PM) Wannier 関数 (WF) を決定する頑健な方法について述べる。 Broyden-Fletcher-Goldfarb-Shanno (BFGS) をベースとしたPMWFソルバは, 1-, 2-, 3次元固体(一部は消滅したギャップを含む)の代替よりも劇的に高速に収束し,数千個の原子を持つスーパーセルのワニエ関数を得るのに使用できる。 周期的lcao表現におけるpm関数とその勾配の評価は、ムーア・ペンローズ擬逆射影により得られた原子電荷の極小原子軌道基底への単純な定義を用いた。 WFの初期推定を自動生成する"Canonicalize Phase then Randomize"(CPR)法は,解法の堅牢性に大きく寄与する。

We describe a robust method for determining Pipek-Mezey (PM) Wannier functions (WF), recently introduced by J\'onsson et al. (J. Chem. Theor. Chem. 2017, 13, 460), which provide some formal advantages over the more common Boys (also known as maximally-localized) Wannier functions. The Broyden-Fletcher-Goldfarb-Shanno (BFGS) based PMWF solver is demonstrated to yield dramatically faster convergence compared to the alternatives (steepest ascent and conjugate gradient) in a variety of 1-, 2-, and 3-dimensional solids (including some with vanishing gaps), and can be used to obtain Wannier functions robustly in supercells with thousands of atoms. Evaluation of the PM functional and its gradient in periodic LCAO representation used a particularly simple definition of atomic charges obtained by Moore-Penrose pseudoinverse projection onto the minimal atomic orbital basis. An automated "Canonicalize Phase then Randomize" (CPR) method for generating the initial guess for WFs contributes significantly to the robustness of the solver.
翻訳日:2023-04-08 18:30:53 公開日:2021-07-16
# 位相ジョセフソン分岐増幅器:半古典理論

Topological Josephson Bifurcation Amplifier: Semiclassical theory ( http://arxiv.org/abs/2103.09440v2 )

ライセンス: Link先を確認
Samuel Boutin, Pedro L. S. Lopes, Anqi Mu, Udson C. Mendes, Ion Garate(参考訳) ジョセフソン接合に基づく増幅器は超伝導量子ビットの高速かつ非侵襲的な読み出しを可能にする。 マヨラナ境界状態に基づく耐故障性量子ビットの実現に向けて進行中の進展により、ジョセフソン分岐増幅器の位相的対応について検討する。 我々は、適切なパラメータ構造で駆動される位相ジョセフソン接合の分岐ダイナミクスを、マヨラナ境界状態の出現を検出するための追加のツールとして用いることができると予測する。

Amplifiers based on Josephson junctions allow for a fast and noninvasive readout of superconducting qubits. Motivated by the ongoing progress toward the realization of fault-tolerant qubits based on Majorana bound states, we investigate the topological counterpart of the Josephson bifurcation amplifier. We predict that the bifurcation dynamics of a topological Josephson junction driven in the appropriate parameter regime may be used as an additional tool to detect the emergence of Majorana bound states.
翻訳日:2023-04-07 21:24:42 公開日:2021-07-16
# 非エルミート非相互系における輸送効果の可逆性

Compatibility of transport effects in non-Hermitian nonreciprocal systems ( http://arxiv.org/abs/2104.02905v2 )

ライセンス: Link先を確認
Hamed Ghaemi-Dizicheh and Henning Schomerus(参考訳) 非相反的非エルミート系に対する一般輸送理論と、以前に研究されたモデルの範囲を包含する位相モデルに基づく。 (i)無反射、透明な輸送、発散、及びコヒーレントな完全吸収等の効果の条件を提供する。 二 どの効果が適合し、相互に結びついているかを識別し、 (iii)どのレバーを独立して調整できるかを決定する。 例えば、非エルミート皮膚効果に固有の指向増幅は、反射のない輸送、洗浄、コヒーレントな完全吸収のスペクトル条件には入らず、システムの透明性を調節することができる。 さらに、トポロジカルモデルでは、反射のない輸送条件はトポロジカル位相に依存するが、コヒーレント完全吸収条件は依存しない。 これにより,非エルミート,非相互,トポロジカルな挙動,特に (I) トポロジカルな位相に依存する方向の反射のない輸送, (II) トポロジカルなエッジ状態の皮膚効果の相転移と一致した可視性, (III) 片側から探究すると透明な系におけるコヒーレントな完全吸収など,多くの異なる輸送シグネチャを確立することができる。

Based on a general transport theory for non-reciprocal non-Hermitian systems and a topological model that encompasses a wide range of previously studied models, we (i) provide conditions for effects such as reflectionless and transparent transport, lasing, and coherent perfect absorption, (ii) identify which effects are compatible and linked with each other, and (iii) determine by which levers they can be tuned independently. For instance, the directed amplification inherent in the non-Hermitian skin effect does not enter the spectral conditions for reflectionless transport, lasing, or coherent perfect absorption, but allows to adjust the transparency of the system. In addition, in the topological model the conditions for reflectionless transport depend on the topological phase, but those for coherent perfect absorption do not. This then allows us to establish a number of distinct transport signatures of non-Hermitian, nonreciprocal, and topological behaviour, in particular (I) reflectionless transport in a direction that depends on the topological phase, (II) invisibility coinciding with the skin-effect phase transition of topological edge states, and (III) coherent perfect absorption in a system that is transparent when probed from one side.
翻訳日:2023-04-05 02:27:44 公開日:2021-07-16
# ツイスト付きカラーコード:構成とユニバーサルゲートセットの実装

Color codes with twists: construction and universal gate set implementation ( http://arxiv.org/abs/2104.03669v2 )

ライセンス: Link先を確認
Manoj G. Gowda and Pradeep Kiran Sarvepalli(参考訳) Twistは、符号化された計算を実行するために使用できる格子の欠陥である。 カラーコードには3つの基本的なツイスト、すなわち色を透過するツイスト、エノンの電荷、および色ラベルでエノンの電荷ラベルを透過するドミノツイストが導入された。 本稿では,これらのツイストを符号化理論の観点から研究する。 具体的には、カラーコードにおける電荷置換と色置換の体系的な構成について論じる。 クリフォードゲートを単独でブレイディングすることで、電荷置換のツイストを持つカラーコードで実現できることを示す。 また,ポーリフレーム更新とcnotゲートによる単一量子ビットクリフォードゲートの実装についても検討した。 最後に、状態注入による非クリフォードゲートの実装についても論じ、普遍ゲートセットの実現を完了させる。

Twists are defects in the lattice that can be used to perform encoded computations. Three basic types of twists can be introduced in color codes, namely, twists that permute color, charge of anyons and domino twists that permute the charge label of an anyon with a color label. In this paper, we study a subset these twists from coding theoretic viewpoint. Specifically, we discuss systematic construction of charge permuting and color permuting twists in color codes. We show that by braiding alone, Clifford gates can be realized in color codes with charge permuting twists. We also discuss implementing single qubit Clifford gates by Pauli frame update and CNOT gate by braiding holes around twists in color codes with color permuting twists. Finally, we also discuss implementing a non-Clifford gate by state injection, thus completing the realization of a universal gate set.
翻訳日:2023-04-04 12:15:31 公開日:2021-07-16
# ナノスケールNMRにおける動的デカップリング法

Dynamical decoupling methods in nanoscale NMR ( http://arxiv.org/abs/2104.10617v2 )

ライセンス: Link先を確認
C. Munuera-Javaloy, R. Puebla, J. Casanova(参考訳) 核磁気共鳴(NMR)スキームは、ダイヤモンド中の窒素空孔(NV)色中心のような量子センサーの助けを借りて、ミクロン、ナノメートルのサンプルに適用することができる。 これらの微小デバイスは、環境条件下で高い空間分解能と周波数分解能を持つ核スピンアンサンブルの磁気計測を可能にし、化学、生物学、医学、物質科学など様々な領域で明らかな影響を持つ。 実際には、nv量子センサは2倍の目的を持つマイクロ波(mw)制御場によって駆動される:一方、mwフィールドは、nvと近傍核の間のエネルギーギャップを橋渡し、それらの間のコヒーレントかつ選択的結合を可能にする一方、mwフィールドは、nvの環境ノイズを除去し、尋問時間を増大させる。 本研究では, ナノスケールNMRのためのMW放射パターン, 動的デカップリング技術について概説する。

Nuclear magnetic resonance (NMR) schemes can be applied to micron-, and nanometer-sized samples by the aid of quantum sensors such as nitrogen-vacancy (NV) color centers in diamond. These minute devices allow for magnetometry of nuclear spin ensembles with high spatial and frequency resolution at ambient conditions, thus having a clear impact in different areas such as chemistry, biology, medicine, and material sciences. In practice, NV quantum sensors are driven by microwave (MW) control fields with a twofold objective: On the one hand, MW fields bridge the energy gap between NV and nearby nuclei which enables a coherent and selective coupling among them while, on the other hand, MW fields remove environmental noise on the NV leading to enhanced interrogation time. In this work we review distinct MW radiation patterns, or dynamical decoupling techniques, for nanoscale NMR applications.
翻訳日:2023-04-03 00:22:17 公開日:2021-07-16
# 非線形隠蔽層によりアクター批判エージェントは複数対の関連ナビゲーションを学習できる

A nonlinear hidden layer enables actor-critic agents to learn multiple paired association navigation ( http://arxiv.org/abs/2106.13541v2 )

ライセンス: Link先を確認
M Ganesh Kumar, Cheston Tan, Camilo Libedinsky, Shih-Cheng Yen, Andrew Yong-Yi Tan(参考訳) 複数の報酬場所へのナビゲーションは、げっ歯類学習の研究にますます使われている。 深層強化学習エージェントはタスクを学習できることが示されているが、生物学的には不可能である。 生物学的にもっともらしい古典的俳優批判エージェントは、単一の報酬の場所への移動を学ぶことが示されているが、生物学的にもっともらしいエージェントが複数のキュー・リワードの場所のタスクを学べるかどうかは不明である。 本研究では,1つの報酬位置への移動を学習し,報酬位置のずれに適応するが,複数の関連ナビゲーションを学習できない古典的エージェントのバージョンを示す。 この制限は、時間差誤差変調塑性を受けるアクター及び批評家にシナプスを付与したフィードフォワード非線形隠蔽層により、位置セルとキュー情報を最初に処理するエージェントによって克服される。 フィードフォワード層がリカレントリザーバネットワークに置き換えられると、より高速な学習が得られる。

Navigation to multiple cued reward locations has been increasingly used to study rodent learning. Though deep reinforcement learning agents have been shown to be able to learn the task, they are not biologically plausible. Biologically plausible classic actor-critic agents have been shown to learn to navigate to single reward locations, but which biologically plausible agents are able to learn multiple cue-reward location tasks has remained unclear. In this computational study, we show versions of classic agents that learn to navigate to a single reward location, and adapt to reward location displacement, but are not able to learn multiple paired association navigation. The limitation is overcome by an agent in which place cell and cue information are first processed by a feedforward nonlinear hidden layer with synapses to the actor and critic subject to temporal difference error-modulated plasticity. Faster learning is obtained when the feedforward layer is replaced by a recurrent reservoir network.
翻訳日:2023-03-25 14:08:20 公開日:2021-07-16
# SrCuTe$_{2}$O$_{6}$におけるハイゼンベルク量子スピン鎖の弱3次元結合

Weak three-dimensional coupling of Heisenberg quantum spin chains in SrCuTe$_{2}$O$_{6}$ ( http://arxiv.org/abs/2107.05331v2 )

ライセンス: Link先を確認
S. Chillal, A. T. M. N. Islam, P. Steffens, R. Bewley, B. Lake(参考訳) ハイゼンベルク量子反強磁性体SrCuTe$_{2}$O$_{6}$の磁気ハミルトニアンは、8Kと2Kの磁気遷移温度以上での非弾性中性子散乱法と1つの結晶試料による8Kと2Kの磁気遷移温度以下で研究される。 The low temperature spectra exhibits sharper excitations at energies below 1.25 meV which can be explained by considering a combination of weak antiferromagnetic first nearest neighbour interchain coupling J$_1$ = 0.17 meV (1.9 K) and even weaker ferromagnetic second nearest neighbour J$_2$ = -0.037 meV (-0.4 K) or a weak ferromagnetic J$_2$ = -0.11 meV (-1.3 K) and antiferromagnetic J$_6$ = 0.16 meV (1.85 K) giving rise to the long-range magnetic order and spin-wave excitations at low energies. これらの結果は、srcute$_{2}$o$_{6}$ が反強磁性 j$1$ または j$_6$ に加えて弱い強磁性 j$_2$ によって結合された3つの互いに垂直なスピン鎖を持つ高1次元ハイゼンベルク系であることを示唆している。

The magnetic Hamiltonian of the Heisenberg quantum antiferromagnet SrCuTe$_{2}$O$_{6}$ is studied by inelastic neutron scattering technique on powder and single crystalline samples above and below the magnetic transition temperatures at 8 K and 2 K. The high temperature spectra reveal a characteristic diffuse scattering corresponding to a multi-spinon continuum confirming the dominant quantum spin-chain behavior due to the third neighbour interaction J$_{intra}$ = 4.22 meV (49 K). The low temperature spectra exhibits sharper excitations at energies below 1.25 meV which can be explained by considering a combination of weak antiferromagnetic first nearest neighbour interchain coupling J$_1$ = 0.17 meV (1.9 K) and even weaker ferromagnetic second nearest neighbour J$_2$ = -0.037 meV (-0.4 K) or a weak ferromagnetic J$_2$ = -0.11 meV (-1.3 K) and antiferromagnetic J$_6$ = 0.16 meV (1.85 K) giving rise to the long-range magnetic order and spin-wave excitations at low energies. These results suggest that SrCuTe$_{2}$O$_{6}$ is a highly one-dimensional Heisenberg system with three mutually perpendicular spin-chains coupled by a weak ferromagnetic J$_2$ in addition to the antiferromagnetic J$_1$ or J$_6$ presenting a contrasting scenario from the highly frustrated hyper-hyperkagome lattice (equally strong antiferromagnetic J$_1$ and J$_2$) found in the iso-structural PbCuTe$_{2}$O$_{6}$.
翻訳日:2023-03-22 18:19:07 公開日:2021-07-16
# 周期駆動量子ビットの非平衡定常状態の実験的および理論的キャラクタリゼーション

Experimental and theoretical characterization of a non-equilibrium steady state of a periodically driven qubit ( http://arxiv.org/abs/2107.05314v2 )

ライセンス: Link先を確認
Yong-Nan Sun, Kimmo Luoma, Zhao-Di Liu, Jyrki Piilo, Chuan-Feng Li and Guang-Can Guo(参考訳) 開量子系の周期的に駆動されるダイナミクスは、通常非平衡定常状態に達するため非常に興味深い。 本研究では, 時間的離散と周期的駆動のダイナミクスを, 環境と結合した単一光子に対して実験的に研究する。 我々は、実験的な観察を説明する包括的な理論を開発し、システムの非平衡定常状態の分析的特徴を提供する。 本研究では, オープンシステムと環境の間には, 漸近的に消滅しない双方向情報フローが存在するように, 周期駆動と環境特性を設計できることを実証する。

Periodically driven dynamics of open quantum systems is very interesting because typically non-equilibrium steady state is reached, which is characterized by a non-vanishing current. In this work, we study time discrete and periodically driven dynamics experimentally for a single photon that its coupled to its environment. We develop a comprehensive theory which explains the experimental observations and offers an analytical characterization of the non-equilibrium steady states of the system. We demonstrate that the periodic driving and the properties of the environment can be engineered in such a way that there is asymptotically non-vanishing bidirectional information flow between the open system and the environment.
翻訳日:2023-03-22 18:18:33 公開日:2021-07-16
# 量子摂動理論のハミルトン的視点

Hamiltonian point of view of quantum perturbation theory ( http://arxiv.org/abs/2107.07050v2 )

ライセンス: Link先を確認
A. D. Berm\'udez Manjarres(参考訳) 量子力学のファン・ヴレック・プリマス摂動理論と古典力学におけるハミルトン系のリー列に基づく摂動理論の関係を考察する。 量子摂動理論と古典摂動理論の関係に関する以前の研究とは対照的に、このアプローチは2つの方法間の概念的類似性に基づくものではない。 代わりに、有限次元ヒルベルト空間を持つ量子系では、ファン・ヴェレック-プリマス手続きは古典摂動問題に正確に再キャストできることを示した。

We explore the relation of Van Vleck-Primas perturbation theory of quantum mechanics with the Lie-series based perturbation theory of Hamiltonian systems in classical mechanics. In contrast to previous works on the relation of quantum and classical perturbation theories, our approach is not based on the conceptual similarities between the two methods. Instead, we show that for quantum systems with a finite-dimensional Hilbert space, the Van Vleck-Primas procedure can be recast exactly into a classical perturbation problem.
翻訳日:2023-03-22 05:28:49 公開日:2021-07-16
# 量子熱デバイスにおけるネットワーク解析のサイクルフラックスランキング

Cycle Flux Ranking of Network Analysis in Quantum Thermal Device ( http://arxiv.org/abs/2107.07717v1 )

ライセンス: Link先を確認
Luqin Wang, Zi Wang, Chen Wang, Jie Ren(参考訳) 量子熱輸送の操作は、量子デバイスの原理的な動作サイクルを明らかにすることに依存する。 本稿では、量子状態遷移グラフで表される非平衡熱デバイスに対して、ネットワーク解析のサイクルフラックスランキングを適用する。 複雑な輸送挙動から主機構を抽出するために、量子遷移ネットワークをサイクルに分解し、代数的グラフ理論によりサイクルフラックスを計算し、上位のフラックスを持つ支配的なサイクル、すなわち最も確率の高いサイクル軌道を選択する。 熱抵抗スピンシーベックポンプや熱スイッチや熱増幅器としての量子熱トランジスタなど,典型的な量子デバイスモデルにおけるサイクルフラックスのランキングを示す。 支配的サイクル軌道は、実際にこれらの量子デバイスの主要な動作メカニズムを解明する。 サイクルフラックス解析は、量子熱デバイスの主要な機能に対応する作業サイクルを自然に記述する別の視点を提供する。

Manipulating quantum thermal transport relies on uncovering the principle working cycles of quantum devices. Here, we apply the cycle flux ranking of network analysis to nonequilibrium thermal devices described by graphs of quantum state transitions. To excavate the principal mechanism out of complex transport behaviors, we decompose the quantum-transition network into cycles, calculate the cycle flux by algebraic graph theory, and pick out the dominant cycles with top-ranked fluxes, i.e., the cycle trajectories with highest probabilities. We demonstrate the cycle flux ranking in typical quantum device models, such as a thermal-drag spin-Seebeck pump, and a quantum thermal transistor as thermal switch or heat amplifier. The dominant cycle trajectories indeed elucidate the principal working mechanisms of those quantum devices. The cycle flux analysis provides an alternative perspective that naturally describes the working cycle corresponding to the main functionality of quantum thermal devices, which would further guide the device optimization with desired performance
翻訳日:2023-03-22 03:22:14 公開日:2021-07-16
# 二次量子共鳴系における非平衡熱輸送と光子スクイーズ

Nonequilibrium thermal transport and photon squeezing in a quadratic qubit-resonator system ( http://arxiv.org/abs/2107.07667v1 )

ライセンス: Link先を確認
Chen Wang, Hua Chen, Jie-Qiao Liao(参考訳) 非平衡ハイブリッド量子系における定常熱輸送と光子統計について検討し, 量子ビットを光共振器に縦2次結合させた。 本計算は,量子服装マスター方程式と全計数統計を併用した手法を用いて行う。 負の差分熱伝導効果は、周期的熱遷移の抑制と弱および強いクォービット-共振器ハイブリッド化における2つの励起光子モードの大きなミスマッチから生じる有限温度バイアスで評価されない。 巨大な温度補正も、大きな温度バイアスで示される。 その結果,ハイブリッド系の内在的非対称構造と負の差分熱伝導が協調的寄与を示すことがわかった。 ノイズパワーと歪度は、典型的な現在のゆらぎとして、それぞれ小さい温度バイアスと大きな温度バイアスの限界で強いハイブリッド化を示す。 さらに,2つの浴温度に非対称反応を示す強いハイブリッド化と低温状態において,光子二次スキーズの効果が認められた。 これらの結果は、量子ビット共鳴ハイブリッド量子システムにおける熱機能設計と光子操作に関する洞察を与える。

We investigate steady-state thermal transport and photon statistics in a nonequilibrium hybrid quantum system, in which a qubit is longitudinally and quadratically coupled to an optical resonator. Our calculations are conducted with the method of the quantum dressed master equation combined with full counting statistics. The effect of negative differential thermal conductance is unravelled at finite temperature bias, which stems from the suppression of cyclic heat transitions and large mismatch of two squeezed photon modes at weak and strong qubit-resonator hybridizations, respectively. The giant thermal rectification is also exhibited at large temperature bias. It is found that the intrinsically asymmetric structure of the hybrid system and negative differential thermal conductance show the cooperative contribution. Noise power and skewness, as typical current fluctuations, exhibit global maximum with strong hybridization at small and large temperature bias limits, respectively. Moreover, the effect of photon quadrature squeezing is discovered in the strong hybridization and low-temperature regime, which shows asymmetric response to two bath temperatures. These results would provide some insight to thermal functional design and photon manipulation in qubit-resonator hybrid quantum systems.
翻訳日:2023-03-22 03:20:41 公開日:2021-07-16
# 絡み合いに基づく量子鍵分布におけるファイバー偏波状態補償

Fibre polarization state compensation in entanglement-based quantum key distribution ( http://arxiv.org/abs/2107.07654v1 )

ライセンス: Link先を確認
Yicheng Shi, Hou Shun Poh, Alexander Ling, Christian Kurtsiefer(参考訳) 偏光符号化を用いた量子鍵分布(QKD)は、ルーティング幾何学とファイバーリンクの複屈折が伝播光子の偏光状態を変化させる可能性があるため、配置されたテレコムファイバーよりも実装が難しい。 これらの変更は基底ミスマッチを引き起こし、量子ビットエラーレート(QBER)が増加する。 本研究は, 配置繊維上のQKDシステムにおける繊維誘起状態変化を動的に補償する手法を示す。 この補償スキームは、確率最適化アルゴリズムを用いてqberを最小化するフィードバックループを含む。

Quantum Key Distribution (QKD) using polarisation encoding can be hard to implement over deployed telecom fibres because the routing geometry and the birefringence of the fibre link can alter the polarisation states of the propagating photons. These alterations cause a basis mismatch, leading to an increased Quantum Bit Error Rate (QBER). In this work we demonstrate a technique for dynamically compensating fibre-induced state alteration in a QKD system over deployed fibre. This compensation scheme includes a feedback loop that minimizes the QBER using a stochastic optimization algorithm.
翻訳日:2023-03-22 03:20:22 公開日:2021-07-16
# ゲダンケン実験は重力の量子化を強制するか?

Do Gedankenexperiments compel quantization of gravity? ( http://arxiv.org/abs/2107.07514v1 )

ライセンス: Link先を確認
Erik Rydving, Erik Aurell, Igor Pikovski(参考訳) 重力が量子化されるかどうかは未解決の問題である。 この問題を明らかにするために、様々なゲダンケ実験が提案されている。 一般的な例としては、重力的に別の遠方の系と相互作用する巨大な系との干渉実験があり、そこでは明らかなパラドックスが生じる: 空間的な分離においても、干渉実験の結果は遠方の系への作用に依存し、相補性や無符号性に違反する。 最近の解像度は、重力放射の量子化と重力場の量子ゆらぎを含む場合、パラドックスは避けられることを示している。 ここでは, 空間分解能の限界としてプランク長のみに依存する重力放射を考慮せずに, 問題のパラドックスを解決できることを示す。 したがって、前述した結論とは対照的に、重力の場の量子論の必要性は、このタイプのゲダンケン実験から導かれるものではないことが分かる。 さらに,構成の共通実現において,効果は四重極ではなく質量八重極によって支配されていることを指摘した。 以上の結果から,現在までのゲダンケン実験は,電磁界の場合とは対照的に,重力の量子場理論を導出しないことが明らかとなった。

Whether gravity is quantized remains an open question. To shed light on this problem, various Gedankenexperiments have been proposed. One popular example is an interference experiment with a massive system that interacts gravitationally with another distant system, where an apparent paradox arises: even for space-like separation the outcome of the interference experiment depends on actions on the distant system, leading to a violation of either complementarity or no-signalling. A recent resolution shows that the paradox is avoided when quantizing gravitational radiation and including quantum fluctuations of the gravitational field. Here we show that the paradox in question can also be resolved without considering gravitational radiation, relying only on the Planck length as a limit on spatial resolution. Therefore, in contrast to conclusions previously drawn, we find that the necessity for a quantum field theory of gravity does not follow from so far considered Gedankenexperiments of this type. In addition, we point out that in the common realization of the setup the effects are governed by the mass octopole rather than the quadrupole. Our results highlight that no Gedankenexperiment to date compels a quantum field theory of gravity, in contrast to the electromagnetic case.
翻訳日:2023-03-22 03:20:12 公開日:2021-07-16
# 量子重ね合わせの転回負の矛盾

Overturning negative construal of quantum superposition ( http://arxiv.org/abs/2107.07989v1 )

ライセンス: Link先を確認
Arkady Bolotin(参考訳) 観測可能な事実や事象の矛盾、すなわち現実を理解する方法は、物理現象(一般相対性理論や量子力学など)の合理的な説明として提案される理論の数学的公式だけでなく、客観的世界(例えば、あるタイプの論理など)に関する言明を分析し、評価するために用いられる推論の数学的モデルにも基づいている。 したがって、ある現実の構成要素が問題に遭遇するたびに、物理理論の数学的形式論への修正と推論のモデルの変更の間に選択がある。 点のケースは量子重ね合わせの負の矛盾であり、明確な結果の問題を引き起こす。 上記の矛盾に従えば、状態の重畳状態にある系が、その重畳を構成する状態の1つにのみ存在するというわけではなく、結果として、マクロ的に異なる観察結果が一度に現れる可能性がある。 決定的な結果の問題に対する通常のアプローチは、余分な仮定(例えば波動関数の崩壊の仮定)を加えることによって量子数学的形式性を変更することである。 しかし、これまでに提案された余分な仮定は広く受け入れられていないため、論理学を推論の代替的な数学的モデルに置き換えるために別の方法を試すことができる。 この可能性について本論文で研究する。

Construal of observable facts or events, that is, the manner in which we understand reality, is based not only on mathematical formulas of a theory suggested as a reasonable explanation for physical phenomena (like general relativity or quantum mechanics), but also on a mathematical model of reasoning used to analyze and appraise statements regarding the objective world (for example, logic of one type or the other). Hence, every time that a certain construal of reality encounters a problem, there is a choice between a modification to the mathematical formalism of the physical theory and a change in the model of reasoning. A case in point is negative construal of quantum superposition causing the problem of definite outcomes. To be sure, according to the said construal, it is not the case that a system being in a superposition of states is exclusively in one of the states constituting the superposition, which in turn implies that macroscopically differing outcomes of observation may appear all at once. The usual approach to the problem of definite outcomes is to modify the quantum mathematical formalism by adding to it some extra postulates (for instance, the postulate of wave function collapse). However, since none of the extra postulates proposed so far has gained broad acceptance, one may try another avenue to resolve the problem, namely, to replace logic with an alternative mathematical model of reasoning. This possibility is studied in the present paper.
翻訳日:2023-03-22 03:14:10 公開日:2021-07-16
# 対角コンセプタによるリカレントニューラルネットワークの制御

Controlling Recurrent Neural Networks by Diagonal Conceptors ( http://arxiv.org/abs/2107.07968v1 )

ライセンス: Link先を確認
J.P. de Jong(参考訳) 人間の脳は、時間的パターンを学習し、記憶し、再生することができる。 概念と呼ばれる神経力学メカニズムは、様々な時間的パターンを学習し、リコールできる再帰型ニューラルネットワークのダイナミクスを制御する方法を提供する。 しかし、コンセプタは、リカレントニューラルネットワークのニューロン数と四倍スケールの行列であり、それらはすぐに非現実的になる。 この論文で報告された研究では、対角行列である対角線概念と呼ばれる様々な概念が導入されたため、計算コストが劇的に削減される。 対角線の概念体は概念体と同じ精度を達成するが、より不安定である。 この不安定性は改善できるが、さらなる研究が必要である。 それにもかかわらず、対角概念は標準フルマトリクス概念の代替として有望なものであることが示されている。

The human brain is capable of learning, memorizing, and regenerating a panoply of temporal patterns. A neuro-dynamical mechanism called conceptors offers a method for controlling the dynamics of a recurrent neural network by which a variety of temporal patterns can be learned and recalled. However, conceptors are matrices whose size scales quadratically with the number of neurons in the recurrent neural network, hence they quickly become impractical. In the work reported in this thesis, a variation of conceptors is introduced, called diagonal conceptors, which are diagonal matrices, thus reducing the computational cost drastically. It will be shown that diagonal conceptors achieve the same accuracy as conceptors, but are slightly more unstable. This instability can be improved, but requires further research. Nevertheless, diagonal conceptors show to be a promising practical alternative to the standard full matrix conceptors.
翻訳日:2023-03-22 03:13:46 公開日:2021-07-16
# 時間とその矢印--経験家の視点から

Time and its arrow: an empiricist's perspective ( http://arxiv.org/abs/2107.07913v1 )

ライセンス: Link先を確認
Stephen Boughn(参考訳) 時間の性質は哲学者を3千年近く苦しめてきた。 宇宙時間、生物学的時間、心理的時間、物理的時間、歴史的時間、さらには神学的時間を含む無数の時間がある。 私の短いエッセイは物理学の時間に関するもので、実験物理学者のプラグマティズムが現代の哲学者や物理学者の論文にはしばしば欠けている視点を提供するのに役立つことを期待しています。 これは特に時間の矢印の概念の場合である。 時間の矢印のパラドックスは、物理学の法則が必ず時間反転不変量であるから生じ、その場合、何が時間の方向を決定するのかを問うことになる。 時間の矢印の研究は通常、パラメータtが時間を表す数学的形式論の文脈で構成され、次に時間方向がどのように現れるかの論理解析へと進む。 暗黙の仮定は、時間は自然の存在論的性質であるということである。 一方、私のような経験家にとっては、数学的モデルのパラメータではなく、直接的な人間体験の観点でそのような議論を組み立てることは絶対的に重要です。 要するに、これは私のエッセイの動機であり、時間の矢のパラドックスは解決を必要としない人工的な問題である、と結論付けます。

The nature of time has beguiled philosophers for nearly three millennia. There are myriad types of time including cosmological time, biological time, psychological time, physical time, historical time, and even theological time. My brief essay concerns time in physics and I hope that the pragmatism of an experimental physicist might help provide a perspective that is often absent in treatises by contemporary philosophers and physicists. This is especially the case for the notion of the arrow of time. The paradox of the arrow of time arises because the laws of physics are invariably time reversal invariant, in which case we are led to ask what determines the direction of time. Investigations of time's arrow are usually framed in the context of a mathematical formalism where the parameter t represents time, and then proceed to logical analyses of how the direction of time emerges. The implicit assumption is that time is an ontological property of nature. On the other hand, for an empiricist like me, it is absolutely crucial to frame any such discussion in terms of direct human experience and not on a parameter in a mathematical model. This, in short, is the motivation for my essay and I conclude that the paradox of the arrow of time is an artificial problem that needs no resolution.
翻訳日:2023-03-22 03:13:23 公開日:2021-07-16
# 飽和限界吸収測定における最大精度

Maximising Precision in Saturation-Limited Absorption Measurements ( http://arxiv.org/abs/2107.07888v1 )

ライセンス: Link先を確認
J. Biele, S. Wollmann, J. W. Silverstone, J. C. F. Matthews and E. J. Allen(参考訳) 光プローブの強度の量子揺らぎは、吸収分光における測定精度を制限するノイズである。 プローブパワーの増大は高い精度をもたらすが、この戦略はしばしばサンプル飽和によって制限される。 本稿では、飽和度を考慮に入れた一般化吸収モデルの測定精度を分析し、古典的および量子的プローブ性能に与える影響を探求する。 従来のプローブサンプル最適化手法で精度を最大化し、最適プローブパワーが常に飽和状態に収まることを確かめる。 高精度ドップラー拡大熱測定とクロロフィルaの吸収分光測定の2つの例に最適化戦略を適用し,非古典的プローブを用いて得られた最大精度の限界を導出し,この限界を飽和させることのできる方法を見いだした。 我々は振幅印加された光を実験的なプローブ状態として評価し、現在利用可能な技術で最大量子限界の85%以内の精度を提供できることを示した。

Quantum fluctuations in the intensity of an optical probe is noise which limits measurement precision in absorption spectroscopy. Increased probe power can offer greater precision, however, this strategy is often constrained by sample saturation. Here, we analyse measurement precision for a generalised absorption model in which we account for saturation and explore its effect on both classical and quantum probe performance. We present a classical probe-sample optimisation strategy to maximise precision and find that optimal probe powers always fall within the saturation regime. We apply our optimisation strategy to two examples, high-precision Doppler broadened thermometry and an absorption spectroscopy measurement of Chlorophyll A. We derive a limit on the maximum precision gained from using a non-classical probe and find a strategy capable of saturating this bound. We evaluate amplitude-squeezed light as a viable experimental probe state and find it capable of providing precision that reaches to within > 85% of the ultimate quantum limit with currently available technology.
翻訳日:2023-03-22 03:12:41 公開日:2021-07-16
# 未知のシステム-プローブ結合による非マルコビアン性のスナップショット検証

Experimental Snapshot Verification of non-Markovianity with Unknown System-Probe Coupling ( http://arxiv.org/abs/2107.07876v1 )

ライセンス: Link先を確認
Henri Lyyra, Olli Siltanen, Jyrki Piilo, Subhashish Banerjee, and Tom Kuusela(参考訳) 最近提案された量子プローブプロトコルを未知の系-プローブカップリングで適用し、可換状態の混合状態における凸係数を探索する。 もともと提案されていたような2つの参照状態を用いることで、凸係数の下限と上限の両方を探索することができる。 単一光子の偏光ダイナミクスのマルコフ-非マルコフ遷移において、二重ピークガウス周波数スペクトルを特徴付けるパラメータの役割を広範囲に分析する。 遷移誘導周波数パラメータに凸係数のプローブを適用し, 偏光力学の非マルコビアン性は, 未知の時間および未知の結合であっても, 偏光量子ビットの単スナップショット測定で確認可能であることを示す。 また,プロトコルがマルコフと非マルコフの時間間隔を動的に識別する方法を示す。 結果は単一の光子実験で検証される。

We apply the recently proposed quantum probing protocols with an unknown system-probe coupling to probe the convex coefficients in mixtures of commuting states. By using two reference states instead of one as originally suggested, we are able to probe both lower and upper bounds for the convex coefficient. We perform extensive analysis for the roles of the parameters characterizing the double peaked Gaussian frequency spectrum in the Markovian-to-non-Markovian transition of the polarization dynamics of a single photon. We apply the probing of the convex coefficient to the transition-inducing frequency parameter and show that the non-Markovianity of the polarization dynamics can be confirmed with a single snapshot measurement of the polarization qubit performed at unknown time and even with unknown coupling. We also show how the protocol can identify Markovian and non-Markovian time intervals in the dynamics. The results are validated with single photon experiments.
翻訳日:2023-03-22 03:12:25 公開日:2021-07-16
# 非安全源を用いたデバイス非依存量子鍵分布の測定

Measurement-device-independent quantum key distribution with insecure sources ( http://arxiv.org/abs/2107.07803v1 )

ライセンス: Link先を確認
Hua-Jian Ding, Xing-Yu Zhou, Chun-Hui Zhang, Jian Li and Qin Wang(参考訳) 測定デバイス非依存量子鍵分布(mdi-qkd)は、全ての検出器側チャネルの抜け穴を取り除き、長距離秘密鍵共有において優れた性能を示す。 しかし、従来のセキュリティ証明では、ソースに関する追加の仮定が必要であり、実際には非文字化サイドチャネルを通じて妥協することができる。 そこで本研究では,MDI-QKDの安全性を証明するための参照手法に基づく汎用的なフォーマリズムを提案する。 この定式化により、状態準備に余分な仮定を伴わない単光子源の漸近性能について検討する。 我々の結果は送信機のセキュリティの重要性を強調している。

Measurement-device-independent quantum key distribution (MDI-QKD) can eliminate all detector side-channel loopholes and has shown excellent performance in long-distance secret keys sharing. Conventional security proofs, however, require additional assumptions on sources and that can be compromised through uncharacterized side channels in practice. Here, we present a general formalism based on reference technique to prove the security of MDI-QKD against any possible sources imperfection and/or side channels. With this formalism, we investigate the asymptotic performance of single-photon sources without any extra assumptions on the state preparations. Our results highlight the importance of transmitters' security.
翻訳日:2023-03-22 03:11:57 公開日:2021-07-16
# 3次元トポロジカル量子コンピューティング

3D Topological Quantum Computing ( http://arxiv.org/abs/2107.08049v1 )

ライセンス: Link先を確認
Torsten Asselmeyer-Maluga(参考訳) 本稿では,前回の論文からアイデアを拡張した量子コンピューティングにおける3次元トポロジーの利用について述べる。 トポロジカル量子コンピューティングでは、エノンと呼ばれる物質の位相相の量子状態である \textquotedblleft knotted\textquotedblright{} を用いた。 しかし、オンは表面トポロジーと繋がっている。 しかし、曲面は(通常)アーベル基本群を持ち、それゆえ量子計算にそれを使うのに非アーベルアノンを必要とする。 しかし、通常の材料はより複雑なトポロジーを許容できる3Dオブジェクトである。 ここで、結び目の補数は顕著な役割を担っており、原則として3次元多様体を理解する主要な部分である。 その目的のために、3次元球面の結び目の補体上に量子系を構築する(前述のarXiv:2102.04452参照)。 全ての交差がジョセフソン接合であり、量子ビットがフラックス量子ビットとして実現される結び目超伝導体として設計されている。 結び目のA-ポリノミカルを用いて, この系の性質, 特にフラッション量子化について論じる。 さらに、2量子ビット演算はジョセフソン接合を介して再び結合された(結び目)超伝導体によって実現可能であることを示した。

In this paper we will present some ideas to use 3D topology for quantum computing extending ideas from a previous paper. Topological quantum computing used \textquotedblleft knotted\textquotedblright{} quantum states of topological phases of matter, called anyons. But anyons are connected with surface topology. But surfaces have (usually) abelian fundamental groups and therefore one needs non-abelian anyons to use it for quantum computing. But usual materials are 3D objects which can admit more complicated topologies. Here, complements of knots do play a prominent role and are in principle the main parts to understand 3-manifold topology. For that purpose, we will construct a quantum system on the complements of a knot in the 3-sphere (see arXiv:2102.04452 for previous work). The whole system is designed as knotted superconductor where every crossing is a Josephson junction and the qubit is realized as flux qubit. We discuss the properties of this systems in particular the fluxion quantization by using the A-polynomial of the knot. Furthermore we showed that 2-qubit operations can be realized by linked (knotted) superconductors again coupled via a Josephson junction.
翻訳日:2023-03-22 03:06:16 公開日:2021-07-16
# 超低温原子を用いたドープ量子磁石の探索

Exploration of doped quantum magnets with ultracold atoms ( http://arxiv.org/abs/2107.08043v1 )

ライセンス: Link先を確認
Annabelle Bohrdt, Lukas Homeier, Christian Reinmoser, Eugene Demler, Fabian Grusdt(参考訳) 過去10年間、量子シミュレーター、特に光学格子中の冷たい原子は、強い相関性を持つ量子物質を研究する貴重なツールとして現れてきた。 これらの実験は、数値的に困難またはアクセスが不可能な体制に到達している。 特に彼らは、低温原子量子シミュレーションの分野の定義と形成に大きく貢献する約束を達成し始めており、すなわち、ドープおよびフラストレーション量子マグネットの探索とフェルミオンハバードモデルにおける高温超伝導の起源の探索である。 実験で利用できる温度をさらに下げる必要性など、多くの今後の課題があるにもかかわらず、注目すべき研究はすでに始まっている。 このうち, 1次元系のスピン電荷分離が実証され, 2次元系の長距離反強磁性が観察され, 現代の大規模数値シミュレーションとのつながりが観察され, 顕微鏡実験波動関数との比較が有限ドーピングで行われている。 多くの点で、この分野は新しい領域を獲得し、古いアイデアを新しいテストに投入し、次世代の物理学者に新しい洞察とインスピレーションを生み出した。 本稿では,近年のFermi-Hubbardモデルにおけるコールド原子の実現結果について概説する。 本論文の第2部では, ステージ集合と磁場の現況を念頭に置いて, 電荷運動がスピン交換によって結合した個々の層に制限される混合次元二層系を探索する新しい方向を提案する。 そこで本研究では,これらのシステムにおいて,ホールペアの形成を実験で利用可能な高温度で行うための,新しい強力なペアリング機構を提案する。

In the last decade, quantum simulators, and in particular cold atoms in optical lattices, have emerged as a valuable tool to study strongly correlated quantum matter. These experiments are now reaching regimes that are numerically difficult or impossible to access. In particular they have started to fulfill a promise which has contributed significantly to defining and shaping the field of cold atom quantum simulations, namely the exploration of doped and frustrated quantum magnets and the search for the origins of high-temperature superconductivity in the fermionic Hubbard model. Despite many future challenges lying ahead, such as the need to further lower the experimentally accessible temperatures, remarkable studies have already emerged. Among them, spin-charge separation in one-dimensional systems has been demonstrated, extended-range antiferromagnetism in two-dimensional systems has been observed, connections to modern day large-scale numerical simulations were made, and unprecedented comparisons with microscopic trial wavefunctions have been carried out at finite doping. In many regards, the field has acquired new realms, putting old ideas to a new test and producing new insights and inspiration for the next generation of physicists. In the first part of this paper, we review the results achieved in cold atom realizations of the Fermi-Hubbard model in recent years. In the second part of this paper, with the stage set and the current state of the field in mind, we propose a new direction for cold atoms to explore: namely mixed-dimensional bilayer systems, where the charge motion is restricted to individual layers which remain coupled through spin-exchange. We propose a novel, strong pairing mechanism in these systems, which puts the formation of hole pairs at experimentally accessible, elevated temperatures within reach.
翻訳日:2023-03-22 03:05:27 公開日:2021-07-16
# 4次元に拡張したブラニンフーオのサロゲート最適化試験

Testing Surrogate-Based Optimization with the Fortified Branin-Hoo Extended to Four Dimensions ( http://arxiv.org/abs/2107.08035v1 )

ライセンス: Link先を確認
Charles F. Jekel, Raphael T. Haftka(参考訳) グローバル最適化アルゴリズムをテストするために使われるいくつかの一般的な関数は、複数の局所最適化を持ち、全て同じ値を持ち、全てグローバル最適化である。 一つのオプティマの位置で局所的なバンプを追加することで、それらを強化することがより困難になる。 以前の研究で、著者らはこれをブラン・フー関数と一般的な微分進化アルゴリズムに応用し、要塞化されたブラン・フーは1桁以上の関数評価を必要としたことを示した。 本稿では,ブラニンフー関数の強化がサロゲートに基づく最適化に与える影響について検討する。 2つのアルゴリズムが考えられる。 egoアルゴリズムはガウス過程(gp)と放射基底関数(rbf)に基づくアルゴリズムに基づいている。 EGOは、正しい流域を特定するのに必要な関数評価の数に関してより厳密であることがわかったが、デスクトップ上で実行することは高価であり、必要な関数評価の数に関する音声統計を確立するために、実行回数を制限することができる。 RBFアルゴリズムはより安価に動作し、性能に関するより正確な統計を提供する。 次元効果を評価するために, ブラン・フー関数の4次元版が導入された。 その結果, 通常の関数と要塞化された関数との差は, 2次元関数に比べ, 4次元関数の方がはるかに顕著であった。

Some popular functions used to test global optimization algorithms have multiple local optima, all with the same value, making them all global optima. It is easy to make them more challenging by fortifying them via adding a localized bump at the location of one of the optima. In previous work the authors illustrated this for the Branin-Hoo function and the popular differential evolution algorithm, showing that the fortified Branin-Hoo required an order of magnitude more function evaluations. This paper examines the effect of fortifying the Branin-Hoo function on surrogate-based optimization, which usually proceeds by adaptive sampling. Two algorithms are considered. The EGO algorithm, which is based on a Gaussian process (GP) and an algorithm based on radial basis functions (RBF). EGO is found to be more frugal in terms of the number of required function evaluations required to identify the correct basin, but it is expensive to run on a desktop, limiting the number of times the runs could be repeated to establish sound statistics on the number of required function evaluations. The RBF algorithm was cheaper to run, providing more sound statistics on performance. A four-dimensional version of the Branin-Hoo function was introduced in order to assess the effect of dimensionality. It was found that the difference between the ordinary function and the fortified one was much more pronounced for the four-dimensional function compared to the two dimensional one.
翻訳日:2023-03-22 03:04:15 公開日:2021-07-16
# パイロットスタディ:インドネシアの偽ニュースにおけるオンラインメディアリテラシープログラミングの信頼度低下を示唆

Pilot Study Suggests Online Media Literacy Programming Reduces Belief in False News in Indonesia ( http://arxiv.org/abs/2107.08034v1 )

ライセンス: Link先を確認
Pamela Bilo Thomas, Clark Hogan-Taylor, Michael Yankoski, Tim Weninger(参考訳) デジタル誤情報の脅威の中、インドネシアの個人に誤情報の特定を支援するスキルを付与することを目的としたオンラインソーシャルメディアリテラシーキャンペーンの有効性に関するパイロット研究を行う。 オンライントレーニング教材や教育ビデオに携わるユーザーは、コントロールグループ(約1000ドル)よりも誤った情報を識別する傾向が強いことがわかりました。 予備研究の有望な成果を踏まえて,本分野の取り組みを拡大し,本試験から学んだ教訓を基に構築する予定である。

Amidst the threat of digital misinformation, we offer a pilot study regarding the efficacy of an online social media literacy campaign aimed at empowering individuals in Indonesia with skills to help them identify misinformation. We found that users who engaged with our online training materials and educational videos were more likely to identify misinformation than those in our control group (total $N$=1000). Given the promising results of our preliminary study, we plan to expand efforts in this area, and build upon lessons learned from this pilot study.
翻訳日:2023-03-22 03:03:51 公開日:2021-07-16
# 2次視点からの1次トロッタ誤差

First-Order Trotter Error from a Second-Order Perspective ( http://arxiv.org/abs/2107.08032v1 )

ライセンス: Link先を確認
David Layden(参考訳) 量子力学を古典コンピュータの範囲を超えてシミュレーションすることは、量子コンピュータの主要な応用の1つである。 近い将来、この端で最も有望な量子アルゴリズムは最も単純なもので、トロッター公式とその高次変量を用いて興味のダイナミクスを近似する。 これらのアルゴリズムの近似誤差は、実験に特に関係する最も基本的な場合においても、よく理解されていない。 最近の研究では、予想外のスケーリングを伴う異常に低い近似誤差が報告されており、これはアルゴリズムの異なるステップからの誤差間の量子干渉に起因する。 ここでは、トロッター公式をその2階変項に関連付けることにより、これらの効果のより単純な図式を提供する。 本手法は,先行研究の技術的注意事項を伴わずに,最先端の誤差境界を一般化し,基礎となる量子回路から誤差の合計部分がどのように発生するかを解明する。 我々は,実誤差と実誤差を数値的に比較し,シミュレーションパラメータの多数の桁に対して近い一致を求める。 本研究は,最も基本的な量子シミュレーションアルゴリズムに必要な回路深度を低減し,より広い範囲でシミュレーション誤差をバウンディングするための有用な方法を示す。

Simulating quantum dynamics beyond the reach of classical computers is one of the main envisioned applications of quantum computers. The most promising quantum algorithms to this end in the near-term are the simplest, which use the Trotter formula and its higher-order variants to approximate the dynamics of interest. The approximation error of these algorithms is often poorly understood, even in the most basic cases, which are particularly relevant for experiments. Recent studies have reported anomalously low approximation error with unexpected scaling in such cases, which they attribute to quantum interference between the errors from different steps of the algorithm. Here we provide a simpler picture of these effects by relating the Trotter formula to its second-order variant. Our method generalizes state-of-the-art error bounds without the technical caveats of prior studies, and elucidates how each part of the total error arises from the underlying quantum circuit. We compare our bound to the true error numerically, and find a close match over many orders of magnitude in the simulation parameters. Our findings reduce the required circuit depth for the most basic quantum simulation algorithms, and illustrate a useful method for bounding simulation error more broadly.
翻訳日:2023-03-22 03:03:41 公開日:2021-07-16
# 変分量子回路における分類誤差の高速抑制

Fast suppression of classification error in variational quantum circuits ( http://arxiv.org/abs/2107.08026v1 )

ライセンス: Link先を確認
Bingzhi Zhang and Quntao Zhuang(参考訳) 変分量子回路(vqcs)は、短期的応用において大きなポテンシャルを示している。 しかしながら、VQCの回路構造と深さに関する識別力は理解されていない。 VQCの真の識別能力を解き放つために,VQCの出力量子ビットを最大値で推定する古典的後処理を用いたVQCシステムを提案する。 広範な数値シミュレーションにより、VQCの量子データ分類の誤差は、VQCアーキテクチャが広い場合、回路深さとともに指数関数的に減衰することがわかった。 この高速な誤差抑制は、量子状態判別の究極のヘルストローム極限への飽和で終わる。 一方、量子畳み込みニューラルネットワークのような非集中的なVQCは準最適であり、ヘルストロム限界を達成できない。 与えられたvqcの最適性能を達成するためには、バイナリ分類問題においても最適な古典後処理が不可欠である。 短期実装のVQCを単純化するために,入力の対称性を適切に利用することで性能が向上し,過度に単純化すると劣化が生じる。

Variational quantum circuits (VQCs) have shown great potential in near-term applications. However, the discriminative power of a VQC, in connection to its circuit architecture and depth, is not understood. To unleash the genuine discriminative power of a VQC, we propose a VQC system with the optimal classical post-processing -- maximum-likelihood estimation on measuring all VQC output qubits. Via extensive numerical simulations, we find that the error of VQC quantum data classification typically decay exponentially with the circuit depth, when the VQC architecture is extensive -- the number of gates does not shrink with the circuit depth. This fast error suppression ends at the saturation towards the ultimate Helstrom limit of quantum state discrimination. On the other hand, non-extensive VQCs such as quantum convolutional neural networks are sub-optimal and fail to achieve the Helstrom limit. To achieve the best performance for a given VQC, the optimal classical post-processing is crucial even for a binary classification problem. To simplify VQCs for near-term implementations, we find that utilizing the symmetry of the input properly can improve the performance, while oversimplification can lead to degradation.
翻訳日:2023-03-22 03:03:21 公開日:2021-07-16
# 古典的データを量子コンピュータに符号化する

Encoding classical data into a quantum computer ( http://arxiv.org/abs/2107.09155v1 )

ライセンス: Link先を確認
Kumar Ghosh(参考訳) 本稿では,古典領域から量子領域へデータを転送する手法について述べる。 我々は、列行列の形式で1組の$n (=2^n)$古典データを検討し、その成分が$n$古典データに対応する$n$-量子ビット量子状態を作成する。 この$n$-qubit量子ベクトルを作成するために、シュミット分解法と特異値分解法を用い、対応する量子回路の族を構成する。 この議論を強化するために、4 と 16 の古典的データの集合を考慮し、対応する 2 と 4 の量子ベクトルをそれぞれ構成することで、具体的な例を示す。

In this article we describe a technique to transfer data from classical domain to quantum domain. We consider a set of $N (=2^n)$ classical data in the form of a column matrix and prepare a $n$-qubit quantum state, whose components correspond to the $N$ classical data. To prepare this $n$-qubit quantum vector we use Schmidt decomposition and singular value decomposition techniques respectively and construct the corresponding family of quantum circuits. To strengthen our argument we also give specific examples by considering a set of 4 and 16 classical data and constructing the corresponding 2 and 4-qubit quantum vector respectively.
翻訳日:2023-03-22 02:56:30 公開日:2021-07-16
# 共振器に結合したジョセフソン接合による単一光子検出

Single-photon detection with a Josephson junction coupled to a resonator ( http://arxiv.org/abs/2107.08113v1 )

ライセンス: Link先を確認
Dmitry S. Golubev, Evgeni V. Ilichev, and Leonid S. Kuzmin(参考訳) 共振器に結合した電流バイアスドジョセフソン接合のスイッチングイベントに基づいてマイクロ波単一光子検出器を最適化するために半古典的形式を用いる。 非常に稀な事象を検出するためには、スイッチング時間$\tau_{\rm sw}$ が十分小さいことを考慮し、ダークカウント $\tau_{\rm dark}$ の平均時間を最大化する必要がある。 これらの時間は、接合パラメータを変更して広い範囲で調整できることを示し、その比率が$\tau_{\rm dark}/\tau_{\rm sw} \sim 10^9$であることを示す。 したがって、接合共鳴器配置は銀河軸の探索など、非常に低い光子フラックスを検出するのに使うことができる。

We use semiclassical formalism to optimize a microwave single photon detector based on switching events of a current biased Josephson junction coupled to a resonator. In order to detect very rare events, the average time between dark counts $\tau_{\rm dark}$ should be maximized taking into account that the switching time $\tau_{\rm sw}$ should be sufficiently small. We demonstrate that these times can be tuned in the wide range by changing the junction parameters, and the ratios $\tau_{\rm dark}/\tau_{\rm sw} \sim 10^9$ can be achieved. Therefore, a junction-resonator arrangement can be used for detecting extremely low photon fluxes, for instance for searching galactic axions.
翻訳日:2023-03-22 02:55:56 公開日:2021-07-16
# 信号反射、量子非局所性、および遅延選択実験

Signal reflection, quantum non-locality, and delayed choice experiments ( http://arxiv.org/abs/2107.08103v1 )

ライセンス: Link先を確認
Moses Fayngold(参考訳) 複合的絡み合った系を記述するために通常呼び出される量子非局所性は、1つの量子オブジェクトの重要な特性として示される。 この目的のために,Fabry Perot共振器から放出される単一光子と環境との相互作用を分析する。 反対に動く部分を持つ分割光子状態は、各部分を切り離した鋭いエッジにもかかわらず量子非局所性に従うことが示されている。 平面鏡からの光子ポストの反射が考慮される。 反射中の形状の変化は、パルスの電気的および磁気的成分の移動不連続を含む。 それらは、既存の形状の縁から生まれ、一緒に動き、まず鏡から離れて、それから鏡に戻る。 プロセスが終わると、パルスは電気部品を反転させて元の形状を復元する。 さらに、このプロセスは動く不連続の保存を示す。 検討された実験的なセットアップは、遅延選択実験のいくつかの新しいバージョンで使用することができ、検出器を挿入する様々なオプションとそれぞれの時間遅延がある。 いずれの場合も、遅延した挿入はプロセスに遡及的な影響を及ぼさない。 キーワード:進化作用素、シグナル、反射、不連続、量子非局所性

Quantum nonlocality which is conventionally invoked for describing a composite entangled system is shown here to be a possible important characteristic of a single quantum object. To this end, we analyze some interactions of a single photon released from Fabry Perot resonator with environment. The split photon state with oppositely moving parts is shown to obey quantum nonlocality despite the sharp edges truncating each part. Photon post release reflection from a plane mirror is considered. The changing shape of the form during reflection contains moving discontinuities in electric and magnetic components of the pulse. They originate from preexisting edges of the form and move together, first away from and then back to the mirror. At the end of the process, the pulse restores its original shape, with electric component reversed. Altogether, the process demonstrates conservation of moving discontinuities. The considered experimental setup may be used for some new versions of a delayed choice experiment, with various options for insertion of detectors and the respective time delays. In all cases, the delayed insertion does not have any retroactive effect on the process. Key words: Evolution operator, signaling, reflection, discontinuity, quantum nonlocality
翻訳日:2023-03-22 02:55:41 公開日:2021-07-16
# 学習エネルギー保存力学系のための変分積分グラフネットワーク

Variational Integrator Graph Networks for Learning Energy Conserving Dynamical Systems ( http://arxiv.org/abs/2004.13688v2 )

ライセンス: Link先を確認
Shaan Desai, Marios Mattheakis and Stephen Roberts(参考訳) 近年の進歩は、物理インフォームド前のニューラルネットワークがバニラニューラルネットワークを著しく上回り、ノイズの多いデータから複雑な物理系の長期的ダイナミクスを予測することが示されている。 この成功にもかかわらず、予測性能を改善するために物理学を最適に結合する方法に関する限られた研究しか行われていない。 この問題に対処するため、最近のイノベーションを個別の帰納バイアスセグメントに解き放つ。 したがって、既存の手法が自然な部分集合である帰納的バイアスの可能なすべての組み合わせを体系的に研究することができる。 このフレームワークを用いて,エネルギー制約,高次シンプレクティック変分積分器,グラフニューラルネットワークを組み合わせることにより,既存の手法の強みを統一する新しい手法である変分積分グラフネットワークを提案する。 近年の文献で研究されている単体・多体両問題にまたがって,データ効率の学習や予測精度において,提案手法が既存の手法よりも優れていることを示す。 本研究では,高次変分積分器とポテンシャルエネルギー制約が組み合わさって一般化位置と運動量更新の複合学習を誘導し,分割ルンゲ・クッタ法により定式化できることを実証的に示す。

Recent advances show that neural networks embedded with physics-informed priors significantly outperform vanilla neural networks in learning and predicting the long term dynamics of complex physical systems from noisy data. Despite this success, there has only been a limited study on how to optimally combine physics priors to improve predictive performance. To tackle this problem we unpack and generalize recent innovations into individual inductive bias segments. As such, we are able to systematically investigate all possible combinations of inductive biases of which existing methods are a natural subset. Using this framework we introduce Variational Integrator Graph Networks - a novel method that unifies the strengths of existing approaches by combining an energy constraint, high-order symplectic variational integrators, and graph neural networks. We demonstrate, across an extensive ablation, that the proposed unifying framework outperforms existing methods, for data-efficient learning and in predictive accuracy, across both single and many-body problems studied in recent literature. We empirically show that the improvements arise because high order variational integrators combined with a potential energy constraint induce coupled learning of generalized position and momentum updates which can be formalized via the Partitioned Runge-Kutta method.
翻訳日:2022-12-08 22:24:19 公開日:2021-07-16
# 子ども向け・成人向け音声の理解

Learning to Understand Child-directed and Adult-directed Speech ( http://arxiv.org/abs/2005.02721v4 )

ライセンス: Link先を確認
Lieke Gelderloos, Grzegorz Chrupa{\l}a, Afra Alishahi(参考訳) 子供に向けられた音声は、反復、単語選択、文長といった言語的な側面や、韻律や音韻の変化といった音声信号自体の側面において、大人指向の音声とは異なる。 言語習得研究は、子ども向け音声が言語学習に役立つことを示している。 本研究は, 音声から直接意味情報を抽出する学習において, 児童指向音声の効果について検討する。 成人指向音声(ADS)と子ども指向音声(CDS)で訓練されたモデルのタスク性能を比較した。 CDSが学習の初期段階で有効であることを示す指標が得られたが、最終的には、ADSでトレーニングされたモデルは、同等のタスクパフォーマンスに達し、より一般化される。 その結果,2つのレジスタの音響的特性よりも少なくとも部分的に言語的特性が原因であることが示唆された。

Speech directed to children differs from adult-directed speech in linguistic aspects such as repetition, word choice, and sentence length, as well as in aspects of the speech signal itself, such as prosodic and phonemic variation. Human language acquisition research indicates that child-directed speech helps language learners. This study explores the effect of child-directed speech when learning to extract semantic information from speech directly. We compare the task performance of models trained on adult-directed speech (ADS) and child-directed speech (CDS). We find indications that CDS helps in the initial stages of learning, but eventually, models trained on ADS reach comparable task performance, and generalize better. The results suggest that this is at least partially due to linguistic rather than acoustic properties of the two registers, as we see the same pattern when looking at models trained on acoustically comparable synthetic speech.
翻訳日:2022-12-06 05:33:41 公開日:2021-07-16
# 安定かつ一貫した密度に基づくクラスタリング

Stable and consistent density-based clustering ( http://arxiv.org/abs/2005.09048v2 )

ライセンス: Link先を確認
Alexander Rolle, Luis Scoccola(参考訳) 入力データとパラメータの両方において安定性定理を満足する密度に基づくクラスタリングに対して,分布仮定のないマルチスケールで一貫したアプローチを提案する。 入力データの安定性は、計量確率空間上のgromov--hausdorff-prokhorov距離と、我々が導入する(マルチパラメータ)階層クラスタリング間の間距離に関するものである。 階層クラスタリングの標準的な単純化手順に対する安定性を証明し、安定なクラスタリングアルゴリズムを得るための我々の手法と組み合わせることができる。 本稿では,このアプローチの安定性を計算例で示す。 我々のフレームワークは、トポロジカルデータ分析からの距離と持続性の概念に基づいている。

We present a multiscale, consistent approach to density-based clustering that satisfies stability theorems -- in both the input data and in the parameters -- which hold without distributional assumptions. The stability in the input data is with respect to the Gromov--Hausdorff--Prokhorov distance on metric probability spaces and interleaving distances between (multi-parameter) hierarchical clusterings we introduce. We prove stability results for standard simplification procedures for hierarchical clusterings, which can be combined with our approach to yield a stable flat clustering algorithm. We illustrate the stability of the approach with computational examples. Our framework is based on the concepts of persistence and interleaving distance from Topological Data Analysis.
翻訳日:2022-12-01 23:22:29 公開日:2021-07-16
# 関連データから学習した歪んだ表現について

On Disentangled Representations Learned From Correlated Data ( http://arxiv.org/abs/2006.07886v3 )

ライセンス: Link先を確認
Frederik Tr\"auble, Elliot Creager, Niki Kilbertus, Francesco Locatello, Andrea Dittadi, Anirudh Goyal, Bernhard Sch\"olkopf, Stefan Bauer(参考訳) 切り離しアプローチの焦点は、データのばらつきの独立した要因を特定することである。 しかし、実世界の観測の基礎となる因果変数はしばしば統計的に独立ではない。 本研究では,大規模実験(4260モデルを含む)において,相関データに対する最も顕著な不連続アプローチの挙動を分析することにより,現実のシナリオとのギャップを埋める。 我々は,データセット内の系統的な相関関係が学習され,潜在表現に反映されていることを示し,定量化する。 また,これらの潜在相関の解消方法については,訓練中の弱い監督や,少量のラベルで事前学習したモデルを修正することで検証する。

The focus of disentanglement approaches has been on identifying independent factors of variation in data. However, the causal variables underlying real-world observations are often not statistically independent. In this work, we bridge the gap to real-world scenarios by analyzing the behavior of the most prominent disentanglement approaches on correlated data in a large-scale empirical study (including 4260 models). We show and quantify that systematically induced correlations in the dataset are being learned and reflected in the latent representations, which has implications for downstream applications of disentanglement such as fairness. We also demonstrate how to resolve these latent correlations, either using weak supervision during training or by post-hoc correcting a pre-trained model with a small number of labels.
翻訳日:2022-11-21 10:01:09 公開日:2021-07-16
# storywrangler: twitterを用いた社会言語学、文化、社会経済、政治タイムラインの大規模な爆発

Storywrangler: A massive exploratorium for sociolinguistic, cultural, socioeconomic, and political timelines using Twitter ( http://arxiv.org/abs/2007.12988v5 )

ライセンス: Link先を確認
Thayer Alshaabi, Jane L. Adams, Michael V. Arnold, Joshua R. Minot, David R. Dewhurst, Andrew J. Reagan, Christopher M. Danforth, and Peter Sheridan Dodds(参考訳) リアルタイムでは、ソーシャルメディアのデータは世界の出来事、大衆文化、そして何百万人もの一般人の日々の会話を、ほとんど慣習化されず記録されていない規模で強く刻み込む。 本書やニュースアーカイブなど,多くの標準コーパスが欠落しており,共有・コメント機構はソーシャルメディアプラットフォームに固有のものであり,トレンドや現代文化現象の社会的増幅(すなわち人気)を定量化することができる。 ここでは、2008年から2021年までの約1兆1グラムを含む100億以上のツイートの日々のキュレーションを実行するために設計された自然言語処理機器であるStorywranglerについて説明する。 毎日、ツイートをユニグラム、ビッグラム、そして100以上の言語にまたがるトリグラムに分割する。 n-gramの使用頻度を追跡し、単語、ハッシュタグ、ハンドル、数字、シンボル、絵文字のZipf分布を生成する。 我々は、データセットをインタラクティブな時系列ビューアと、ダウンロード可能な時系列および日次配信を通じて利用可能にする。 Storywrangler は Twitter のデータを活用するが,n-gram の動的変化を抽出・追跡する手法は任意のソーシャルメディアプラットフォームに拡張できる。 我々は,社会増幅を「コンタジグラム」で可視化する方法を含む,私たちが実現しようとしている多くの研究方法の例を紹介している。 また,n-gram時系列を異なるデータソースでブリッジして,有名人の社会工学的ダイナミクス,興行成功,社会不安を探求する事例も提示する。

In real-time, social media data strongly imprints world events, popular culture, and day-to-day conversations by millions of ordinary people at a scale that is scarcely conventionalized and recorded. Vitally, and absent from many standard corpora such as books and news archives, sharing and commenting mechanisms are native to social media platforms, enabling us to quantify social amplification (i.e., popularity) of trending storylines and contemporary cultural phenomena. Here, we describe Storywrangler, a natural language processing instrument designed to carry out an ongoing, day-scale curation of over 100 billion tweets containing roughly 1 trillion 1-grams from 2008 to 2021. For each day, we break tweets into unigrams, bigrams, and trigrams spanning over 100 languages. We track n-gram usage frequencies, and generate Zipf distributions, for words, hashtags, handles, numerals, symbols, and emojis. We make the data set available through an interactive time series viewer, and as downloadable time series and daily distributions. Although Storywrangler leverages Twitter data, our method of extracting and tracking dynamic changes of n-grams can be extended to any similar social media platform. We showcase a few examples of the many possible avenues of study we aim to enable including how social amplification can be visualized through 'contagiograms'. We also present some example case studies that bridge n-gram time series with disparate data sources to explore sociotechnical dynamics of famous individuals, box office success, and social unrest.
翻訳日:2022-11-07 01:17:58 公開日:2021-07-16
# 観測整合インバージョンのための力学系からの興味の学習量

Learning Quantities of Interest from Dynamical Systems for Observation-Consistent Inversion ( http://arxiv.org/abs/2009.06918v3 )

ライセンス: Link先を確認
Steven Mattis and Kyle Robert Steffen and Troy Butler and Clint N. Dawson and Donald Estep(参考訳) 力学系は科学や工学の様々な数学的モデルに現れる。 一般的な課題は、関心の可観測量(QoI)に関する不確実性の定量的評価に対応するモデル入力(パラメータ)の不確実性の定量化である。 この目的のために、引き戻し確率測度によって記述された解を持つ確率的逆問題(SIP)を考える。 我々はこれを観測一貫性解と呼び、その後のQoI写像によるプッシュフォワードはモデル出力の観測確率分布と一致する。 SIPを解くのに有用なQoIと任意のモデル出力データとを区別する。 動的システムでは、モデル出力データは特定の時間ウィンドウ上で記録された一連の状態変数応答として与えられることが多い。 したがって、出力データの次元は観測頻度により$\mathcal{O}(1E4)$以上を容易に超えることができ、このデータからQoIの正しい選択や構成は自明ではない。 本稿では、動的システムのためのSIPの抽出可能な解を容易にする新しいフレームワークであるLearning Uncertain Quantities (LUQ)を提案する。 予測(シミュレーション)時系列と(ノイズ)観測データのアンサンブルが与えられた場合、LUQはデータフィルタリング、基礎となるダイナミクスの教師なし学習、観察の分類、QoIマップの学習のための特徴抽出のルーチンを提供する。 その後、時系列データはQoIに関連する予測および観測された分布のサンプルに変換され、SIPの解が計算可能である。 LUQの導入と実演に続いて、生命科学や物理科学で生じる様々な力学系について、複数のSIPによる数値結果が提示される。 科学的再現性のために、我々はPythonによるLUQの実装と、この原稿の成果を再現するために必要なすべてのデータとスクリプトへのリンクを提供します。

Dynamical systems arise in a wide variety of mathematical models from science and engineering. A common challenge is to quantify uncertainties on model inputs (parameters) that correspond to a quantitative characterization of uncertainties on observable Quantities of Interest (QoI). To this end, we consider a stochastic inverse problem (SIP) with a solution described by a pullback probability measure. We call this an observation-consistent solution, as its subsequent push-forward through the QoI map matches the observed probability distribution on model outputs. A distinction is made between QoI useful for solving the SIP and arbitrary model output data. In dynamical systems, model output data are often given as a series of state variable responses recorded over a particular time window. Consequently, the dimension of output data can easily exceed $\mathcal{O}(1E4)$ or more due to the frequency of observations, and the correct choice or construction of a QoI from this data is not self-evident. We present a new framework, Learning Uncertain Quantities (LUQ), that facilitates the tractable solution of SIPs for dynamical systems. Given ensembles of predicted (simulated) time series and (noisy) observed data, LUQ provides routines for filtering data, unsupervised learning of the underlying dynamics, classifying observations, and feature extraction to learn the QoI map. Subsequently, time series data are transformed into samples of the underlying predicted and observed distributions associated with the QoI so that solutions to the SIP are computable. Following the introduction and demonstration of LUQ, numerical results from several SIPs are presented for a variety of dynamical systems arising in the life and physical sciences. For scientific reproducibility, we provide links to our Python implementation of LUQ and to all data and scripts required to reproduce the results in this manuscript.
翻訳日:2022-10-18 06:53:33 公開日:2021-07-16
# 重み付き注意と意味的ハードプルによるビデオキャプション

Video captioning with stacked attention and semantic hard pull ( http://arxiv.org/abs/2009.07335v3 )

ライセンス: Link先を確認
Md. Mushfiqur Rahman, Thasin Abedin, Khondokar S. S. Prottoy, Ayana Moshruba, Fazlul Hasan Siddiqui(参考訳) ビデオキャプション、すなわち、ビデオシーケンスからキャプションを生成するタスクは、自然言語処理とコンピュータ科学のコンピュータビジョンドメインの間の橋渡しとなる。 ビデオの意味的に正確な記述を生成する作業は非常に複雑である。 問題の複雑さを考えると、最近の研究で得られた結果は賞賛に値する。 しかし、さらなる調査には十分な範囲がある。 本稿では,この範囲について論じ,新しい解決法を提案する。 ほとんどのビデオキャプションモデルは、2つのシーケンシャル/リカレント層で構成されている。 本稿では,2つの新しいアプローチ "スタックド・アテンション" と "空間ハードプル" を用いてコンテキスト生成機構を改良した,セマンティック・センシティブル・ビデオ・キャプション(SSVC)を提案する。 ビデオキャプションモデルの評価には専用の指標がないため,本モデルの定量的・質的分析を強調する。 そこで我々は,BLEU測定基準を定量的分析に用い,定性分析のための人的評価基準,すなわちセマンティック・センシティビリティー(SS)評価指標を提案した。 SS Scoreは、一般的な自動スコアリングメトリクスの欠点を克服する。 本稿では,先述の斬新さを用いることで,最先端アーキテクチャの性能が向上することを示す。

Video captioning, i.e. the task of generating captions from video sequences creates a bridge between the Natural Language Processing and Computer Vision domains of computer science. The task of generating a semantically accurate description of a video is quite complex. Considering the complexity, of the problem, the results obtained in recent research works are praiseworthy. However, there is plenty of scope for further investigation. This paper addresses this scope and proposes a novel solution. Most video captioning models comprise two sequential/recurrent layers - one as a video-to-context encoder and the other as a context-to-caption decoder. This paper proposes a novel architecture, namely Semantically Sensible Video Captioning (SSVC) which modifies the context generation mechanism by using two novel approaches - "stacked attention" and "spatial hard pull". As there are no exclusive metrics for evaluating video captioning models, we emphasize both quantitative and qualitative analysis of our model. Hence, we have used the BLEU scoring metric for quantitative analysis and have proposed a human evaluation metric for qualitative analysis, namely the Semantic Sensibility (SS) scoring metric. SS Score overcomes the shortcomings of common automated scoring metrics. This paper reports that the use of the aforementioned novelties improves the performance of state-of-the-art architectures.
翻訳日:2022-10-18 06:23:22 公開日:2021-07-16
# ブラックボックス分類器の視覚情報理論

Information-Theoretic Visual Explanation for Black-Box Classifiers ( http://arxiv.org/abs/2009.11150v2 )

ライセンス: Link先を確認
Jihun Yi, Eunji Kim, Siwon Kim, Sungroh Yoon(参考訳) 本研究では,情報理論の観点から,ブラックボックス分類器の予測について説明する。 各入力機能について,2つの情報理論指標を用いて分類器出力と特徴の有無を比較した。 したがって,2つの帰属マップ,--an information gain (ig) map と point-wise mutual information (pmi) map を得る。 IGマップは「各ピクセルはどのくらい情報的か?」というクラスに依存しない回答を提供し、PMIマップは「各ピクセルが特定のクラスをサポートするか?」というクラス固有の説明を提供する。 提案手法は,既存の手法と比較して,定量的な計量による属性マップの正確性を向上させる。 また,提案手法を用いて画像ネット分類器の詳細な解析を行い,そのコードをオンラインで公開する。

In this work, we attempt to explain the prediction of any black-box classifier from an information-theoretic perspective. For each input feature, we compare the classifier outputs with and without that feature using two information-theoretic metrics. Accordingly, we obtain two attribution maps--an information gain (IG) map and a point-wise mutual information (PMI) map. IG map provides a class-independent answer to "How informative is each pixel?", and PMI map offers a class-specific explanation of "How much does each pixel support a specific class?" Compared to existing methods, our method improves the correctness of the attribution maps in terms of a quantitative metric. We also provide a detailed analysis of an ImageNet classifier using the proposed method, and the code is available online.
翻訳日:2022-10-15 16:19:17 公開日:2021-07-16
# Deodable Information Bottleneckによる最適表現の学習

Learning Optimal Representations with the Decodable Information Bottleneck ( http://arxiv.org/abs/2009.12789v2 )

ライセンス: Link先を確認
Yann Dubois, Douwe Kiela, David J. Schwab, Ramakrishna Vedantam(参考訳) 教師あり学習における最適な表現を特徴付けることの課題に対処する。 従来、この質問は、デコーダに依存しない方法で、ターゲットに関する情報を保持しながら入力を圧縮する情報ボトルネックを使って取り組まれてきた。 しかし機械学習では、目標は圧縮ではなく一般化であり、予測ファミリや関心のあるデコーダ(線形分類器など)と密接に関連している。 本稿では,情報保持と圧縮を所望の予測族の観点から考慮した,情報保持可能な情報ボトルネック(DIB)を提案する。 結果として、DIBは期待されるテスト性能の観点で最適であり、保証とともに推定できる表現を生み出します。 実験により、このフレームワークは下流の分類器に小さな一般化ギャップを課し、ニューラルネットワークの一般化能力を予測するのに利用できることを示す。

We address the question of characterizing and finding optimal representations for supervised learning. Traditionally, this question has been tackled using the Information Bottleneck, which compresses the inputs while retaining information about the targets, in a decoder-agnostic fashion. In machine learning, however, our goal is not compression but rather generalization, which is intimately linked to the predictive family or decoder of interest (e.g. linear classifier). We propose the Decodable Information Bottleneck (DIB) that considers information retention and compression from the perspective of the desired predictive family. As a result, DIB gives rise to representations that are optimal in terms of expected test performance and can be estimated with guarantees. Empirically, we show that the framework can be used to enforce a small generalization gap on downstream classifiers and to predict the generalization ability of neural networks.
翻訳日:2022-10-14 03:26:04 公開日:2021-07-16
# RNNLogic:知識グラフに基づく推論のための論理ルールの学習

RNNLogic: Learning Logic Rules for Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2010.04029v2 )

ライセンス: Link先を確認
Meng Qu, Junkun Chen, Louis-Pascal Xhonneux, Yoshua Bengio, Jian Tang(参考訳) 本稿では知識グラフに基づく推論のための論理規則の学習について述べる。 論理ルールは、予測に使われるときに解釈可能な説明を提供し、他のタスクに一般化することができるため、学習に不可欠である。 既存の手法は、大きな探索空間(例えば、ニューラルネットワークプログラミング)で探索する問題や、不十分な報酬(例えば強化学習に基づく技術)による非効率的な最適化に苦しむ。 そこで本研究では,RNNLogicと呼ばれる確率モデルを提案する。 rnnlogicは論理ルールを潜在変数として扱い、ルール生成器と論理ルールによる推論予測器を同時に訓練する。 最適化のためのEMベースのアルゴリズムを開発した。 各イテレーションで、推論予測器は最初に更新され、推論のために生成された論理ルールを探索する。 そして、Eステップにおいて、ルール生成器と推論予測器の両方を用いて、生成されたルールから高品質なルールのセットを選択し、Mステップでは、ルール生成器をEステップで選択したルールで更新する。 4つのデータセットの実験は、RNNLogicの有効性を証明する。

This paper studies learning logic rules for reasoning on knowledge graphs. Logic rules provide interpretable explanations when used for prediction as well as being able to generalize to other tasks, and hence are critical to learn. Existing methods either suffer from the problem of searching in a large search space (e.g., neural logic programming) or ineffective optimization due to sparse rewards (e.g., techniques based on reinforcement learning). To address these limitations, this paper proposes a probabilistic model called RNNLogic. RNNLogic treats logic rules as a latent variable, and simultaneously trains a rule generator as well as a reasoning predictor with logic rules. We develop an EM-based algorithm for optimization. In each iteration, the reasoning predictor is first updated to explore some generated logic rules for reasoning. Then in the E-step, we select a set of high-quality rules from all generated rules with both the rule generator and reasoning predictor via posterior inference; and in the M-step, the rule generator is updated with the rules selected in the E-step. Experiments on four datasets prove the effectiveness of RNNLogic.
翻訳日:2022-10-09 11:22:35 公開日:2021-07-16
# 階層的ラベルワイズアテンションネットワークとラベル埋め込み初期化を用いた臨床ノートの説明可能な自動符号化

Explainable Automated Coding of Clinical Notes using Hierarchical Label-wise Attention Networks and Label Embedding Initialisation ( http://arxiv.org/abs/2010.15728v4 )

ライセンス: Link先を確認
Hang Dong, V\'ictor Su\'arez-Paniagua, William Whiteley, Honghan Wu(参考訳) 臨床ノートの診断または手続きコーディングは、疾患に関連する患者の情報をコード化した要約を導出することを目的としている。 このようなコーディングは通常、病院で手動で行われるが、医療コーディングの効率と精度を改善するために自動化される可能性がある。 自動化医療符号化のためのディープラーニングに関する最近の研究は、有望な性能を達成した。 しかしながら、これらのモデルの説明可能性は通常貧弱であり、臨床実践を確実に支援することができない。 もう一つの制限は、これらのモデルが主にラベル間の独立を前提としており、パフォーマンスを改善するために利用される可能性がある医療コード間の複雑な相関を無視していることである。 本稿では,各ラベルに関する単語と文の重要性(注意重みとして)を定量化することにより,モデルを解釈することを目的とした階層的ラベル回り注意ネットワーク(hlan)を提案する。 第2に,ラベル埋め込み(LE)初期化アプローチによる大規模深層学習モデルの拡張を提案する。これは,高密度かつ連続的なベクトル表現を学習し,その表現をモデル内の最終層とラベルの注意層に注入する。 我々はMIMIC-III放電サマリーの3つの設定を用いて,全コード,トップ50コード,英国NHS COVID-19遮蔽コードの評価を行った。 HLANとLEの初期化と最先端のニューラルネットワークに基づく手法を比較する実験を行った。 HLANは、トップ50のコード予測で最高のマイクロレベルAUCと$F_1$を獲得し、他のモデルにコード予測を防御するNHS COVID-19で同等の結果を得た。 HLANはラベルごとの単語や文を強調することにより、劣化したベースラインやCNNベースのモデルよりも意味があり包括的なモデル解釈を示した。 le初期化は、自動医療コーディングのためのほとんどのディープラーニングモデルを一貫して強化した。

Diagnostic or procedural coding of clinical notes aims to derive a coded summary of disease-related information about patients. Such coding is usually done manually in hospitals but could potentially be automated to improve the efficiency and accuracy of medical coding. Recent studies on deep learning for automated medical coding achieved promising performances. However, the explainability of these models is usually poor, preventing them to be used confidently in supporting clinical practice. Another limitation is that these models mostly assume independence among labels, ignoring the complex correlation among medical codes which can potentially be exploited to improve the performance. We propose a Hierarchical Label-wise Attention Network (HLAN), which aimed to interpret the model by quantifying importance (as attention weights) of words and sentences related to each of the labels. Secondly, we propose to enhance the major deep learning models with a label embedding (LE) initialisation approach, which learns a dense, continuous vector representation and then injects the representation into the final layers and the label-wise attention layers in the models. We evaluated the methods using three settings on the MIMIC-III discharge summaries: full codes, top-50 codes, and the UK NHS COVID-19 shielding codes. Experiments were conducted to compare HLAN and LE initialisation to the state-of-the-art neural network based methods. HLAN achieved the best Micro-level AUC and $F_1$ on the top-50 code prediction and comparable results on the NHS COVID-19 shielding code prediction to other models. By highlighting the most salient words and sentences for each label, HLAN showed more meaningful and comprehensive model interpretation compared to its downgraded baselines and the CNN-based models. LE initialisation consistently boosted most deep learning models for automated medical coding.
翻訳日:2022-10-01 22:11:13 公開日:2021-07-16
# ノイズを用いたリカレントニューラルネットワーク構造とpruneシナプスの探索

Using noise to probe recurrent neural network structure and prune synapses ( http://arxiv.org/abs/2011.07334v2 )

ライセンス: Link先を確認
Eli Moore and Rishidev Chaudhuri(参考訳) 脳内の多くのネットワークは疎結合であり、脳は発達と学習の間にシナプスを取り除く。 脳はどのようにして、どのシナプスをプルーンにするかを決定できるのか? リカレントネットワークでは、2つのニューロン間のシナプスの重要性を決定することは、両方のニューロンが機能する役割と、それらの間の情報の流れの全ての経路に依存する、難しい計算問題である。 ノイズは神経系においてユビキタスであり、しばしば克服される刺激性とみなされる。 ここでは,脳がネットワーク構造を調べ,どのシナプスが冗長かを決定することで,ノイズがシナプスプラニングにおいて機能的役割を果たすことを示唆する。 我々は,シナプス重みと隣接ニューロンのノイズ駆動共分散のみを用いて,単純で局所的で教師なしの可塑性規則を構築する。 線形および正則線形ネットワークのサブセットについて、この規則は元の行列のスペクトルを保ち、プルーンドシナプスの分画が漸近的に1に近づいたとしてもネットワークのダイナミクスを保っていることを証明している。 可塑性則は生物学的に評価可能であり、神経計算におけるノイズの新しい役割を示唆するかもしれない。

Many networks in the brain are sparsely connected, and the brain eliminates synapses during development and learning. How could the brain decide which synapses to prune? In a recurrent network, determining the importance of a synapse between two neurons is a difficult computational problem, depending on the role that both neurons play and on all possible pathways of information flow between them. Noise is ubiquitous in neural systems, and often considered an irritant to be overcome. Here we suggest that noise could play a functional role in synaptic pruning, allowing the brain to probe network structure and determine which synapses are redundant. We construct a simple, local, unsupervised plasticity rule that either strengthens or prunes synapses using only synaptic weight and the noise-driven covariance of the neighboring neurons. For a subset of linear and rectified-linear networks, we prove that this rule preserves the spectrum of the original matrix and hence preserves network dynamics even when the fraction of pruned synapses asymptotically approaches 1. The plasticity rule is biologically-plausible and may suggest a new role for noise in neural computation.
翻訳日:2022-09-25 13:27:11 公開日:2021-07-16
# 認識から予測へ:映像における人間の行動と軌道予測の分析

From Recognition to Prediction: Analysis of Human Action and Trajectory Prediction in Video ( http://arxiv.org/abs/2011.10670v3 )

ライセンス: Link先を確認
Junwei Liang(参考訳) コンピュータビジョンの深層学習の進歩により、システムはこれまでになく豊富な映像情報をビデオから分析し、自動運転、社会的に認識されたロボットアシスタント、公衆安全監視などの応用を可能にする。 これらのアプリケーションでは、人間の振る舞いを解読して将来の経路や軌跡を予測し、ビデオから何をするかが重要である。 しかし、シーンのセマンティクスや人間の意図はモデル化が難しいため、人間の軌道予測は依然として難しい課題である。 多くのシステムは歩行者の未来を推論する高レベルなセマンティック属性を提供していない。 この設計は、多様なドメインや見えないシナリオからのビデオデータの予測性能を妨げる。 将来の人間の行動予測を最適なものにするためには,人間の行動やシーンの意味を検知・分析し,文脈理解のための情報的特徴を次の予測モジュールに渡すことが不可欠である。

With the advancement in computer vision deep learning, systems now are able to analyze an unprecedented amount of rich visual information from videos to enable applications such as autonomous driving, socially-aware robot assistant and public safety monitoring. Deciphering human behaviors to predict their future paths/trajectories and what they would do from videos is important in these applications. However, human trajectory prediction still remains a challenging task, as scene semantics and human intent are difficult to model. Many systems do not provide high-level semantic attributes to reason about pedestrian future. This design hinders prediction performance in video data from diverse domains and unseen scenarios. To enable optimal future human behavioral forecasting, it is crucial for the system to be able to detect and analyze human activities as well as scene semantics, passing informative features to the subsequent prediction module for context understanding.
翻訳日:2022-09-23 06:06:36 公開日:2021-07-16
# (参考訳) 確率予測モデルによる大規模多目的最適化の解法

Solving Large-Scale Multi-Objective Optimization via Probabilistic Prediction Model ( http://arxiv.org/abs/2108.04197v1 )

ライセンス: CC BY 4.0
Haokai Hong, Kai Ye, Min Jiang, Donglin Cao, Kay Chen Tan(参考訳) 大規模多目的最適化問題(LSMOP)の主な特徴は、何千もの決定変数を同時に考慮しながら、矛盾する複数の目的を最適化することである。 効率的なLSMOPアルゴリズムは、局所最適解を巨大な探索空間から脱出し、大域的最適解を見つける能力を持つべきである。 現在の研究のほとんどは、決定変数の扱い方に焦点を当てている。 しかし、多くの決定変数があるため、高い計算コストにつながることは容易である。 人口の多様性を維持することは、検索効率を改善する効果的な方法の1つである。 本稿では,LSMOP に取り組むために,トレンド予測モデルと LT-PPM と呼ばれる生成フィルタ戦略に基づく確率的予測モデルを提案する。 提案手法は,重要サンプリングにより個体群の多様性を高める。 同時に,個別進化機構の採用により,提案手法の計算コストは決定変数の数に依存しないため,探索空間の指数的成長の問題を回避することができる。 提案アルゴリズムと,異なるベンチマーク関数に対する最先端アルゴリズムを比較した。 実験結果と複雑性解析により,提案アルゴリズムは大規模多目的最適化における性能と計算効率を著しく向上することを示した。

The main feature of large-scale multi-objective optimization problems (LSMOP) is to optimize multiple conflicting objectives while considering thousands of decision variables at the same time. An efficient LSMOP algorithm should have the ability to escape the local optimal solution from the huge search space and find the global optimal. Most of the current researches focus on how to deal with decision variables. However, due to the large number of decision variables, it is easy to lead to high computational cost. Maintaining the diversity of the population is one of the effective ways to improve search efficiency. In this paper, we propose a probabilistic prediction model based on trend prediction model and generating-filtering strategy, called LT-PPM, to tackle the LSMOP. The proposed method enhances the diversity of the population through importance sampling. At the same time, due to the adoption of an individual-based evolution mechanism, the computational cost of the proposed method is independent of the number of decision variables, thus avoiding the problem of exponential growth of the search space. We compared the proposed algorithm with several state-of-the-art algorithms for different benchmark functions. The experimental results and complexity analysis have demonstrated that the proposed algorithm has significant improvement in terms of its performance and computational efficiency in large-scale multi-objective optimization.
翻訳日:2021-08-15 16:08:31 公開日:2021-07-16
# クラス非依存セグメンテーション損失とその有能物体検出・セグメンテーションへの応用

Class-Agnostic Segmentation Loss and Its Application to Salient Object Detection and Segmentation ( http://arxiv.org/abs/2108.04226v1 )

ライセンス: Link先を確認
Angira Sharma, Naeemullah Khan, Muhammad Mubashar, Ganesh Sundaramoorthi, Philip Torr(参考訳) 本稿では,CAS損失(class-agnostic segmentation)と呼ばれる新しい損失関数を提案する。 cas損失により、クラス記述子はネットワークのトレーニング中に学習される。 クラス a-priori のラベルを定義する必要はないが、CAS の損失クラスタは、よく似た外観を、弱教師付きで一緒に定義する。 さらに,cas損失関数はクラス不均衡に弱く,有界であり,ロバストであることを示した。 最初にcas損失関数を完全畳み込みresnet101とdeeplab-v3アーキテクチャで適用し,salient object detectionのバイナリセグメンテーション問題に適用した。 本研究では,7つの有意な対象検出データセットに対する低・高忠実度トレーニングデータの2つの設定における最先端手法に対する性能について検討する。 低忠実度トレーニングデータ(不正確なクラスラベル)では、クラス非依存なセグメンテーション損失は、約50%のマージンを停滞させることで、サルエントオブジェクト検出データセットの最先端メソッドを上回っている。 高忠実性トレーニングデータ(正しいクラスラベル)では、クラスに依存しないセグメンテーションモデルは最先端のアプローチと同等に機能し、ほとんどのデータセットで最先端の手法を上回ります。 異なるドメインにまたがるロス関数の有用性を示すために、クラス非依存なセグメンテーションの損失が競合する損失を圧倒する一般的なセグメンテーションデータセットもテストします。

In this paper we present a novel loss function, called class-agnostic segmentation (CAS) loss. With CAS loss the class descriptors are learned during training of the network. We don't require to define the label of a class a-priori, rather the CAS loss clusters regions with similar appearance together in a weakly-supervised manner. Furthermore, we show that the CAS loss function is sparse, bounded, and robust to class-imbalance. We first apply our CAS loss function with fully-convolutional ResNet101 and DeepLab-v3 architectures to the binary segmentation problem of salient object detection. We investigate the performance against the state-of-the-art methods in two settings of low and high-fidelity training data on seven salient object detection datasets. For low-fidelity training data (incorrect class label) class-agnostic segmentation loss outperforms the state-of-the-art methods on salient object detection datasets by staggering margins of around 50%. For high-fidelity training data (correct class labels) class-agnostic segmentation models perform as good as the state-of-the-art approaches while beating the state-of-the-art methods on most datasets. In order to show the utility of the loss function across different domains we then also test on general segmentation dataset, where class-agnostic segmentation loss outperforms competing losses by huge margins.
翻訳日:2021-08-15 11:27:56 公開日:2021-07-16
# ニューラルネットワークを用いたウルドゥ・ヒンディー語詩生成

Urdu & Hindi Poetry Generation using Neural Networks ( http://arxiv.org/abs/2107.14587v1 )

ライセンス: Link先を確認
Shakeeb A. M. Mukhtar, Pushkar S. Joglekar(参考訳) 作家や詩人が直面する主な問題の1つは、作家のブロックである。 作家が新しい作品を制作する能力を失ったり、創造的なスローダウンを経験したりする状態である。 この問題は散文よりも詩の文脈においてより困難であり、後者の場合、著者はアイデアを表現しながら簡潔でなくてもよいし、韻などの様々な側面も散文には関係がない。 この詩を書くブロックを克服する最も効果的な方法の1つは、彼らの想像力と新しいアイデアへの心を開くのに役立つ、即席のシステムを持つことである。 プロンプトシステムは1つのライナー、2つのライナーまたはフルガザルを生成することができる。 本書の目的は、ウルドゥー人、ヒンドゥー教徒の詩人にオデを贈り、彼らの次の詩行であるカプレットまたは完全なガザルを、韻律、控え、メーターといった様々な要素を考慮して始めるのを助けることである。 この結果は、詩人が新しいアイデアを身につけ、深層学習技術を使って詩を自動生成することで作家のブロックを克服するのに役立つ。 このような創造的な作品、特に文学的文脈における懸念は、アウトプットが盗作されていないことを保証することである。 この研究はまた、懸念に対処し、結果のオードが温度や手動による入力コーパスチェックなどのパラメータを使って入力データと正確に一致しないことを確認する。 我々の知る限りでは、自動テキスト生成問題は文学において非常に広範囲に研究されてきたが、ウルドゥーの特定の問題であるヒンディー語詩生成は、あまり研究されていない。 ウルドゥー詩やヒンドゥー語の詩を自動生成するシステムの開発とは別に、我々の研究の重要な貢献は、ウルドゥー詩、ヒンドゥー詩(正真正銘の資料に由来する)のクリーンで前処理されたコーパスを作成し、この地域の研究者が自由に利用できるようにすることです。

One of the major problems writers and poets face is the writer's block. It is a condition in which an author loses the ability to produce new work or experiences a creative slowdown. The problem is more difficult in the context of poetry than prose, as in the latter case authors need not be very concise while expressing their ideas, also the various aspects such as rhyme, poetic meters are not relevant for prose. One of the most effective ways to overcome this writing block for poets can be, to have a prompt system, which would help their imagination and open their minds for new ideas. A prompt system can possibly generate one liner, two liner or full ghazals. The purpose of this work is to give an ode to the Urdu, Hindi poets, and helping them start their next line of poetry, a couplet or a complete ghazal considering various factors like rhymes, refrain, and meters. The result will help aspiring poets to get new ideas and help them overcome writer's block by auto-generating pieces of poetry using Deep Learning techniques. A concern with creative works like this, especially in the literary context, is to ensure that the output is not plagiarized. This work also addresses the concern and makes sure that the resulting odes are not exact match with input data using parameters like temperature and manual plagiarism check against input corpus. To the best of our knowledge, although the automatic text generation problem has been studied quite extensively in the literature, the specific problem of Urdu, Hindi poetry generation has not been explored much. Apart from developing system to auto-generate Urdu, Hindi poetry, another key contribution of our work is to create a cleaned and preprocessed corpus of Urdu, Hindi poetry (derived from authentic resources) and making it freely available for researchers in the area.
翻訳日:2021-08-08 11:02:52 公開日:2021-07-16
# 注意誘導圧縮による低遅延エネルギー効率深部SNNの実現に向けて

Towards Low-Latency Energy-Efficient Deep SNNs via Attention-Guided Compression ( http://arxiv.org/abs/2107.12445v1 )

ライセンス: Link先を確認
Souvik Kundu, Gourav Datta, Massoud Pedram, Peter A. Beerel(参考訳) deep spiking neural networks (snns)は、イベント駆動型ニューロモルフィックハードウェアでの計算効率の向上を約束していることから、従来のディープラーニングフレームワークに代わる潜在的な選択肢として登場した。 しかし、複雑な視覚アプリケーションでうまく機能するために、ほとんどのSNNトレーニングフレームワークは、スパイク活動の増加とエネルギー効率の低下につながる大きな推論遅延をもたらす。 したがって, 深部SNNの精度を保ちながら平均スパイク活動を最小限に抑えることは大きな課題であり, 高い推測精度を維持しつつ, スパイク活性を減少させながら超高圧縮を実現する非定性SNNトレーニング手法を提案する。 特に,本フレームワークでは,まず非圧縮メタモデルのアテンションマップを用いて圧縮ANNを生成する。 このステップは、不規則チャネルプルーニングと構造化チャネルプルーニングの両方をサポートし、幅広いプラットフォーム上で計算上の利点を利用するように調整することができる。 フレームワークは、直接入力を使用してスパースラーニングに基づく教師付きSNNトレーニングを実行する。 トレーニング中、SNN重量、しきい値、リークパラメータを共同で最適化し、圧縮を維持しながら必要な時間ステップの数を劇的に最小化する。 CIFAR-10とCIFAR-100とTiny-ImageNetの両方でVGGとResNetの変種を用いて実験を行い,提案手法により生成したSNNモデルは,ベースライン未切断モデルと比較して,最大33.4倍のSOTA圧縮比を得ることができた。 既存のSNNプルーニング法と比較して,精度が向上し,最大8.3倍の圧縮を実現する。

Deep spiking neural networks (SNNs) have emerged as a potential alternative to traditional deep learning frameworks, due to their promise to provide increased compute efficiency on event-driven neuromorphic hardware. However, to perform well on complex vision applications, most SNN training frameworks yield large inference latency which translates to increased spike activity and reduced energy efficiency. Hence,minimizing average spike activity while preserving accuracy indeep SNNs remains a significant challenge and opportunity.This paper presents a non-iterative SNN training technique thatachieves ultra-high compression with reduced spiking activitywhile maintaining high inference accuracy. In particular, our framework first uses the attention-maps of an un compressed meta-model to yield compressed ANNs. This step can be tuned to support both irregular and structured channel pruning to leverage computational benefits over a broad range of platforms. The framework then performs sparse-learning-based supervised SNN training using direct inputs. During the training, it jointly optimizes the SNN weight, threshold, and leak parameters to drastically minimize the number of time steps required while retaining compression. To evaluate the merits of our approach, we performed experiments with variants of VGG and ResNet, on both CIFAR-10 and CIFAR-100, and VGG16 on Tiny-ImageNet.The SNN models generated through the proposed technique yield SOTA compression ratios of up to 33.4x with no significant drops in accuracy compared to baseline unpruned counterparts. Compared to existing SNN pruning methods, we achieve up to 8.3x higher compression with improved accuracy.
翻訳日:2021-08-01 11:04:29 公開日:2021-07-16
# 長手分散係数予測のためのデータ駆動型特徴選択と機械学習モデルベンチマーク

A Data-driven feature selection and machine-learning model benchmark for the prediction of longitudinal dispersion coefficient ( http://arxiv.org/abs/2107.12970v1 )

ライセンス: Link先を確認
Yifeng Zhao, Pei Zhang, S.A. Galindo-Torres, Stan Z. Li(参考訳) 縦方向分散(LD)は自然流におけるスカラー輸送の主要な過程である。 LD係数(Dl)の正確な予測は、関連するシミュレーションにおいて性能の飛躍をもたらす。 新興機械学習(ML)技術は、この問題に対する自己適応ツールを提供する。 しかし、既存の研究の多くは、単純な理論的推論によって得られた証明されていない四元数の特徴集合を利用している。 信頼性と合理性に注目する研究はほとんどない。 さらに、比較の欠如により、異なるシナリオにおけるMLモデルの適切な選択は依然として不明である。 本研究では,多変数データから局所最適特徴集合を直接抽出するために,まず特徴勾配セレクタを採用した。 次に, 蒸留した局所最適特性を代表的mlモデルと数値的に比較し, 最適特徴集合(流路幅, 流速, 流路傾斜, 断面面積)を提案した。 流路傾斜はLCDの予測の鍵となるパラメータである。 さらに,包括的モデル比較が可能な重み付き評価指標を設計した。 ベースラインとして単純な線形モデルを用い,単一およびアンサンブル学習モデルのベンチマークを行った。 関連する手法の利点と欠点についても論じた。 その結果,サポートベクタマシンは他のモデルよりも大幅に性能が向上した。 一般化能力の低さから、決定木はこの問題には適さない。 特に、単純モデルは、回帰と一般化のバランスが良くなるため、この低次元問題における複雑なモデルよりも優れている。

Longitudinal Dispersion(LD) is the dominant process of scalar transport in natural streams. An accurate prediction on LD coefficient(Dl) can produce a performance leap in related simulation. The emerging machine learning(ML) techniques provide a self-adaptive tool for this problem. However, most of the existing studies utilize an unproved quaternion feature set, obtained through simple theoretical deduction. Few studies have put attention on its reliability and rationality. Besides, due to the lack of comparative comparison, the proper choice of ML models in different scenarios still remains unknown. In this study, the Feature Gradient selector was first adopted to distill the local optimal feature sets directly from multivariable data. Then, a global optimal feature set (the channel width, the flow velocity, the channel slope and the cross sectional area) was proposed through numerical comparison of the distilled local optimums in performance with representative ML models. The channel slope is identified to be the key parameter for the prediction of LDC. Further, we designed a weighted evaluation metric which enables comprehensive model comparison. With the simple linear model as the baseline, a benchmark of single and ensemble learning models was provided. Advantages and disadvantages of the methods involved were also discussed. Results show that the support vector machine has significantly better performance than other models. Decision tree is not suitable for this problem due to poor generalization ability. Notably, simple models show superiority over complicated model on this low-dimensional problem, for their better balance between regression and generalization.
翻訳日:2021-08-01 11:03:59 公開日:2021-07-16
# ビジネスプロセス予測モデルの検査を可能にする説明可能なAI

Explainable AI Enabled Inspection of Business Process Prediction Models ( http://arxiv.org/abs/2107.09767v1 )

ライセンス: Link先を確認
Chun Ouyang, Renuka Sindhgatta, Catarina Moreira(参考訳) 機械学習技術に根ざした現代のデータ分析は、データ主導意思決定の自動化の鍵となる。 最先端のデータ分析の重要な分野として、ビジネスプロセス予測は、基盤となる「ブラックボックス」予測モデルによる推論と決定に対する説明の欠如に関しても課題に直面している。 解釈可能な機械学習技術の開発により、ブラックボックスモデルに対する説明が生成され、(人間)ユーザーが機械学習の予測の背後にある推論にアクセスできるようになる。 本稿では、機械学習による予測に適用される推論をモデル説明を用いて検証し、基礎となる手法の潜在的な問題を検出し、ビジネスプロセス予測モデルの信頼度を高める手法を提案する。 本手法の新たな貢献は,解釈可能な機械学習機構によって生成された説明と,過去のプロセス実行を記録するイベントログから抽出された文脈的,あるいはドメイン的知識の両方を活用するモデル検査の提案である。 この研究から得られた知見は、ビジネスプロセス予測の文脈でモデル信頼性のメトリクスや評価を開発するための重要なインプットとなることが期待されます。

Modern data analytics underpinned by machine learning techniques has become a key enabler to the automation of data-led decision making. As an important branch of state-of-the-art data analytics, business process predictions are also faced with a challenge in regard to the lack of explanation to the reasoning and decision by the underlying `black-box' prediction models. With the development of interpretable machine learning techniques, explanations can be generated for a black-box model, making it possible for (human) users to access the reasoning behind machine learned predictions. In this paper, we aim to present an approach that allows us to use model explanations to investigate certain reasoning applied by machine learned predictions and detect potential issues with the underlying methods thus enhancing trust in business process prediction models. A novel contribution of our approach is the proposal of model inspection that leverages both the explanations generated by interpretable machine learning mechanisms and the contextual or domain knowledge extracted from event logs that record historical process execution. Findings drawn from this work are expected to serve as a key input to developing model reliability metrics and evaluation in the context of business process predictions.
翻訳日:2021-07-25 12:00:06 公開日:2021-07-16
# 強化学習によるループ不変合成の促進

Enhancing Loop-Invariant Synthesis via Reinforcement Learning ( http://arxiv.org/abs/2107.09766v1 )

ライセンス: Link先を確認
Takeshi Tsukada and Hiroshi Unno and Taro Sekiyama and Kohei Suenaga(参考訳) ループ不変合成は、全てのプログラム検証手順の基礎となる。 一般に決定不能であるため、不変合成のツールは必然的にヒューリスティックスを用いる。 検証器の効果的な性能にはヒューリスティックの設計が不可欠であるという共通の信念にもかかわらず、各不変合成ツールの最適なヒューリスティックを得るための研究はほとんど行われていない。 その代わり、開発者はツールのヒューリスティックを手動で調整した。 本研究は, 不変合成器PCSatの強化学習により, 優れたヒューリスティックを効果的かつ自動的に学習できることを実証する。 実験の結果,PCSatと強化学習によるヒューリスティック学習が組み合わさって,この課題に対する最先端の解法よりも優れていることがわかった。 我々の知る限りでは、これは不変合成ツールのヒューリスティックスを学ぶための最初の研究である。

Loop-invariant synthesis is the basis of every program verification procedure. Due to its undecidability in general, a tool for invariant synthesis necessarily uses heuristics. Despite the common belief that the design of heuristics is vital for the effective performance of a verifier, little work has been performed toward obtaining the optimal heuristics for each invariant-synthesis tool. Instead, developers have hand-tuned the heuristics of tools. This study demonstrates that we can effectively and automatically learn a good heuristic via reinforcement learning for an invariant synthesizer PCSat. Our experiment shows that PCSat combined with the heuristic learned by reinforcement learning outperforms the state-of-the-art solvers for this task. To the best of our knowledge, this is the first work that investigates learning the heuristics of an invariant synthesis tool.
翻訳日:2021-07-25 11:59:33 公開日:2021-07-16
# 物理式辞書におけるスパース信号分解によるディープニューラルネットワークによる逆問題解

Solving inverse problems with deep neural networks driven by sparse signal decomposition in a physics-based dictionary ( http://arxiv.org/abs/2107.10657v1 )

ライセンス: Link先を確認
Gaetan Rensonnet, Louise Adam and Benoit Macq(参考訳) 深層ニューラルネットワーク(dnn)は、非常に複雑なモデルを反転させる素晴らしい能力を持っています。 モデルの出力から生成パラメータを学習します 一度トレーニングすると、dnnのフォワードパスは、逆問題を解くために使用される従来の最適化ベースのメソッドよりもはるかに高速になる。 しかし、これはほとんどの医療応用において基本的な制限である解釈可能性の低下によるものである。 本稿では,DNNの効率と従来の解析手法の解釈可能性を組み合わせた一般逆問題の解法を提案する。 この測定はまずモデルに基づく反応の密度の高い辞書に投影される。 結果として得られるスパース表現は、高速パラメータ学習のための問題の物理によって駆動されるアーキテクチャを持つDNNに供給される。 本手法は,高い解釈性と訓練の容易さを維持しつつ,完全に学習されたdnnとして,精度と計算時間に類似した性能を有する生成的前方モデルを扱うことができる。 具体的な結果は、MRI(MRI)によるモデルベース脳パラメータ推定の例に示されている。

Deep neural networks (DNN) have an impressive ability to invert very complex models, i.e. to learn the generative parameters from a model's output. Once trained, the forward pass of a DNN is often much faster than traditional, optimization-based methods used to solve inverse problems. This is however done at the cost of lower interpretability, a fundamental limitation in most medical applications. We propose an approach for solving general inverse problems which combines the efficiency of DNN and the interpretability of traditional analytical methods. The measurements are first projected onto a dense dictionary of model-based responses. The resulting sparse representation is then fed to a DNN with an architecture driven by the problem's physics for fast parameter learning. Our method can handle generative forward models that are costly to evaluate and exhibits similar performance in accuracy and computation time as a fully-learned DNN, while maintaining high interpretability and being easier to train. Concrete results are shown on an example of model-based brain parameter estimation from magnetic resonance imaging (MRI).
翻訳日:2021-07-25 11:59:21 公開日:2021-07-16
# (参考訳) 変分モデルを用いた視覚障害者模倣学習

Visual Adversarial Imitation Learning using Variational Models ( http://arxiv.org/abs/2107.08829v1 )

ライセンス: CC BY 4.0
Rafael Rafailov, Tianhe Yu, Aravind Rajeswaran, Chelsea Finn(参考訳) 人的努力と反復を必要とするリワード関数の仕様は、深い強化学習を通じて行動を学ぶ上で大きな障害となる。 対照的に、望ましい行動の視覚的なデモンストレーションを提供することは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。 エージェントがタスクの実行方法を示すビジュアルデモンストレーションの固定データセットを提供し、提供されたデモと教師なしの環境インタラクションを使ってタスクの解決を学ばなければならない設定を考える。 この設定は、視覚的な観察のための表現学習、高次元空間によるサンプル複雑性、固定報酬や学習信号の欠如による学習不安定性など、多くの課題を提示している。 これらの課題に対処するために,変動モデルに基づく逆模倣学習(V-MAIL)アルゴリズムを開発した。 モデルに基づくアプローチは、表現学習のための強力なシグナルを提供し、サンプル効率を実現し、オンポリシー学習を可能にして、敵対的トレーニングの安定性を向上させる。 複数の視覚に基づくロコモーションと操作タスクに関する実験を通じて、v-mailはサンプル効率のよい方法でvisuomotorポリシーを学習し、以前の作業よりも安定性が向上し、非漸近的なパフォーマンスも達成できることがわかった。 さらに、学習したモデルを転送することで、V-MAILは、追加の環境相互作用なしに視覚的なデモンストレーションから新しいタスクを学習できることがわかった。 ビデオを含むすべての結果は、 \url{https://sites.google.com/view/variational-mail} で見ることができる。

Reward function specification, which requires considerable human effort and iteration, remains a major impediment for learning behaviors through deep reinforcement learning. In contrast, providing visual demonstrations of desired behaviors often presents an easier and more natural way to teach agents. We consider a setting where an agent is provided a fixed dataset of visual demonstrations illustrating how to perform a task, and must learn to solve the task using the provided demonstrations and unsupervised environment interactions. This setting presents a number of challenges including representation learning for visual observations, sample complexity due to high dimensional spaces, and learning instability due to the lack of a fixed reward or learning signal. Towards addressing these challenges, we develop a variational model-based adversarial imitation learning (V-MAIL) algorithm. The model-based approach provides a strong signal for representation learning, enables sample efficiency, and improves the stability of adversarial training by enabling on-policy learning. Through experiments involving several vision-based locomotion and manipulation tasks, we find that V-MAIL learns successful visuomotor policies in a sample-efficient manner, has better stability compared to prior work, and also achieves higher asymptotic performance. We further find that by transferring the learned models, V-MAIL can learn new tasks from visual demonstrations without any additional environment interactions. All results including videos can be found online at \url{https://sites.google.com/view/variational-mail}.
翻訳日:2021-07-21 14:15:44 公開日:2021-07-16
# (参考訳) LeanML: 機械学習プロジェクトでの無駄を避けるデザインパターン

LeanML: A Design Pattern To Slash Avoidable Wastes in Machine Learning Projects ( http://arxiv.org/abs/2107.08066v1 )

ライセンス: CC BY-SA 4.0
Yves-Laurent Kom Samo(参考訳) 機械学習プロジェクトへのリーン方法論の最初の応用を紹介します。 リーンスタートアップやリーン製造業と同様に、リーン機械学習(LeanML)は、商用機械学習プロジェクトにおける回避可能な無駄を大幅に削減し、機械学習能力への投資におけるビジネスリスクを低減し、さらに機械学習へのアクセスを民主化することができる、と私たちは主張する。 本論文で提案するリーンデザインパターンは2つの実現に基づいている。 まず、様々なパフォーマンス指標に対して与えられた説明変数のセットを$x \in \mathcal{X}$で予測し、予測モデルを訓練することなく、結果を予測する際に得られる最高のパフォーマンスを推定することができる。 第二に、最良の予測モデルを学ぶよりもずっと簡単で、速く、そして安価です。 相互情報 $i\left(y; x\right)$ の関数として$y$ を予測するために$x$ を使用する場合の観測量当たりの最高の$r^2$,mse,分類精度,log-likelihood を表す式を導出し、おそらく $y$ の変動係数(例えば、y$ )の尺度を導出する。 分類精度の場合にはシャノンエントロピー、回帰MSEの場合はばらつき)。 本稿では,LeanML設計パターンが多種多様な回帰・分類問題,合成・実生活に与える影響について述べる。

We introduce the first application of the lean methodology to machine learning projects. Similar to lean startups and lean manufacturing, we argue that lean machine learning (LeanML) can drastically slash avoidable wastes in commercial machine learning projects, reduce the business risk in investing in machine learning capabilities and, in so doing, further democratize access to machine learning. The lean design pattern we propose in this paper is based on two realizations. First, it is possible to estimate the best performance one may achieve when predicting an outcome $y \in \mathcal{Y}$ using a given set of explanatory variables $x \in \mathcal{X}$, for a wide range of performance metrics, and without training any predictive model. Second, doing so is considerably easier, faster, and cheaper than learning the best predictive model. We derive formulae expressing the best $R^2$, MSE, classification accuracy, and log-likelihood per observation achievable when using $x$ to predict $y$ as a function of the mutual information $I\left(y; x\right)$, and possibly a measure of the variability of $y$ (e.g. its Shannon entropy in the case of classification accuracy, and its variance in the case regression MSE). We illustrate the efficacy of the LeanML design pattern on a wide range of regression and classification problems, synthetic and real-life.
翻訳日:2021-07-21 13:57:08 公開日:2021-07-16
# (参考訳) DeformerNet: 三次元変形可能なオブジェクト操作に対するディープラーニングアプローチ

DeformerNet: A Deep Learning Approach to 3D Deformable Object Manipulation ( http://arxiv.org/abs/2107.08067v1 )

ライセンス: CC BY-SA 4.0
Bao Thach, Alan Kuntz, Tucker Hermans(参考訳) 本稿では,DeformerNetと呼ばれるディープニューラルネットワークを利用した3次元変形可能なオブジェクト操作手法を提案する。 3dオブジェクトの形状を制御するには、オブジェクトの完全な3d形状をキャプチャできる効果的な状態表現が必要である。 現在の手法は、オブジェクト上の特徴点のセットを定義したり、オブジェクトを2次元画像空間でしか変形させることによってこの問題を回避する。 代わりに、3dポイントクラウドを状態表現として明示的に使用し、ポイントクラウドに畳み込みニューラルネットワークを適用して3d機能を学びます。 これらの機能は、完全に接続されたニューラルネットワークを使用して、ロボットのエンドエフェクタの位置にマッピングされる。 DeformerNetは、一度エンドツーエンドでトレーニングを行った後、変形可能なオブジェクトの現在の点雲とターゲット点雲の形状を直接ロボットグリップパー位置の所望の変位にマッピングする。 さらに,物体の初期形状と目標形状を考慮した操作点位置の予測問題についても検討した。

In this paper, we propose a novel approach to 3D deformable object manipulation leveraging a deep neural network called DeformerNet. Controlling the shape of a 3D object requires an effective state representation that can capture the full 3D geometry of the object. Current methods work around this problem by defining a set of feature points on the object or only deforming the object in 2D image space, which does not truly address the 3D shape control problem. Instead, we explicitly use 3D point clouds as the state representation and apply Convolutional Neural Network on point clouds to learn the 3D features. These features are then mapped to the robot end-effector's position using a fully-connected neural network. Once trained in an end-to-end fashion, DeformerNet directly maps the current point cloud of a deformable object, as well as a target point cloud shape, to the desired displacement in robot gripper position. In addition, we investigate the problem of predicting the manipulation point location given the initial and goal shape of the object.
翻訳日:2021-07-21 13:31:01 公開日:2021-07-16
# (参考訳) MDPの政策改善境界

Refined Policy Improvement Bounds for MDPs ( http://arxiv.org/abs/2107.08068v1 )

ライセンス: CC BY 4.0
J. G. Dai and Mark Gluzman(参考訳) 割引リターンの差に縛られる政策改善は、信頼区間政策最適化(TRPO)アルゴリズムの理論的正当性において重要な役割を果たす。 既存のバウンダリは、ディスカウント係数が1に近づくと縮退バウンダリとなり、ディスカウント係数が1に近づくと、TRPOと関連するアルゴリズムの適用性が疑問視される。 我々は,その結果を<cite{schulman2015, achiam2017} で精錬し,ディスカウント係数において「連続」な新しい境界を提案する。 特に、我々の限界は、長期平均報酬を持つMDPにも当てはまる。

The policy improvement bound on the difference of the discounted returns plays a crucial role in the theoretical justification of the trust-region policy optimization (TRPO) algorithm. The existing bound leads to a degenerate bound when the discount factor approaches one, making the applicability of TRPO and related algorithms questionable when the discount factor is close to one. We refine the results in \cite{Schulman2015, Achiam2017} and propose a novel bound that is "continuous" in the discount factor. In particular, our bound is applicable for MDPs with the long-run average rewards as well.
翻訳日:2021-07-21 11:49:25 公開日:2021-07-16
# (参考訳) 非パラメトリックマニフォールド学習

Non-Parametric Manifold Learning ( http://arxiv.org/abs/2107.08089v1 )

ライセンス: CC BY 4.0
Dena Asta(参考訳) ラプラス・ベルトラミ作用素のグラフラプラシアン推定に基づく多様体距離推定器を提案する。 この推定器は、ユークリッド空間の未知コンパクトリーマン部分多様体上のゼロから有界な滑らかな密度から引き出された点の同分布サンプルに基づいて、文献におけるグラフラプラシアンの適切な選択に一貫性があることを示す。 推定器は類似しており、実際に収束特性はコンヌ距離公式として知られるワッサーシュタイン距離のコントロヴィッチ双対再構成の特別な場合に由来する。

We introduce an estimator for manifold distances based on graph Laplacian estimates of the Laplace-Beltrami operator. We show that the estimator is consistent for suitable choices of graph Laplacians in the literature, based on an equidistributed sample of points drawn from a smooth density bounded away from zero on an unknown compact Riemannian submanifold of Euclidean space. The estimator resembles, and in fact its convergence properties are derived from, a special case of the Kontorovic dual reformulation of Wasserstein distance known as Connes' Distance Formula.
翻訳日:2021-07-21 11:41:37 公開日:2021-07-16
# (参考訳) 現在の行列乗算時間における線形代数の近似最適アルゴリズム

Near-Optimal Algorithms for Linear Algebra in the Current Matrix Multiplication Time ( http://arxiv.org/abs/2107.08090v1 )

ライセンス: CC BY-SA 4.0
Nadiia Chepurko, Kenneth L. Clarkson, Praneeth Kacham and David P. Woodruff(参考訳) Currently, in the numerical linear algebra community, it is thought that to obtain nearly-optimal bounds for various problems such as rank computation, finding a maximal linearly independent subset of columns, regression, low rank approximation, maximum matching on general graphs and linear matroid union, one would need to resolve the main open question of Nelson and Nguyen (FOCS, 2013) regarding the logarithmic factors in the sketching dimension for existing constant factor approximation oblivious subspace embeddings. 改良されたスケッチ技術を用いてこの問題を回避し、これらの問題に対して最適あるいはほぼ最適な境界を求める方法を示す。 キーとなる手法は不確実性原理と抽出器に基づくIndykの明示的なマッピングであり、まずは未知の部分空間埋め込みを適用した後、ベクトルの質量を急速に広げてサンプリングが効果的になるようにし、行列チェルノフ境界から生じるスケッチ次元において標準となる対数係数を避ける。 ランク計算と列の線形独立部分集合の探索という基本的な問題に対して、我々のアルゴリズムはCheung, Kwok, Lau (JACM, 2013)を改善し、それぞれ定数係数と$\log\log(n)$-factorの範囲で最適である。 さらに、定数因子回帰と低階近似に対しては、現在の行列乗法指数に対して最初の最適アルゴリズムを与える。

Currently, in the numerical linear algebra community, it is thought that to obtain nearly-optimal bounds for various problems such as rank computation, finding a maximal linearly independent subset of columns, regression, low rank approximation, maximum matching on general graphs and linear matroid union, one would need to resolve the main open question of Nelson and Nguyen (FOCS, 2013) regarding the logarithmic factors in the sketching dimension for existing constant factor approximation oblivious subspace embeddings. We show how to bypass this question using a refined sketching technique, and obtain optimal or nearly optimal bounds for these problems. A key technique we use is an explicit mapping of Indyk based on uncertainty principles and extractors, which after first applying known oblivious subspace embeddings, allows us to quickly spread out the mass of the vector so that sampling is now effective, and we avoid a logarithmic factor that is standard in the sketching dimension resulting from matrix Chernoff bounds. For the fundamental problems of rank computation and finding a linearly independent subset of columns, our algorithms improve Cheung, Kwok, and Lau (JACM, 2013) and are optimal to within a constant factor and a $\log\log(n)$-factor, respectively. Further, for constant factor regression and low rank approximation we give the first optimal algorithms, for the current matrix multiplication exponent.
翻訳日:2021-07-21 11:21:05 公開日:2021-07-16
# (参考訳) 新しい公開データセットにおけるOOV単語認識手法の比較

A Comparison of Methods for OOV-word Recognition on a New Public Dataset ( http://arxiv.org/abs/2107.08091v1 )

ライセンス: CC BY-SA 4.0
Rudolf A. Braun, Srikanth Madikeri, Petr Motlicek(参考訳) 自動音声認識システムにおける一般的な問題は、訓練中に見なかった単語の認識方法である。 現在、この問題に対処するための様々な手法を評価する方法が確立されていない。 我々はCommonVoiceデータセットを用いて、トレーニングセットに対して高い語彙(OOV)比を持つ複数の言語を対象としたテストセットを作成し、関連するパフォーマンスメトリクスを計算するための新しいツールをリリースする。 次に,ハイブリッドasrシステムにおいて,oov認識におけるサブワードモデルがどの程度優れているか,wfstsを改良することで既存のシステムにoovワード情報を組み込むことによるメリットについて評価する。 さらに,OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。 OOVワード認識の大幅な改善を示し、データとコードの両方を利用可能にします。

A common problem for automatic speech recognition systems is how to recognize words that they did not see during training. Currently there is no established method of evaluating different techniques for tackling this problem. We propose using the CommonVoice dataset to create test sets for multiple languages which have a high out-of-vocabulary (OOV) ratio relative to a training set and release a new tool for calculating relevant performance metrics. We then evaluate, within the context of a hybrid ASR system, how much better subword models are at recognizing OOVs, and how much benefit one can get from incorporating OOV-word information into an existing system by modifying WFSTs. Additionally, we propose a new method for modifying a subword-based language model so as to better recognize OOV-words. We showcase very large improvements in OOV-word recognition and make both the data and code available.
翻訳日:2021-07-21 10:39:25 公開日:2021-07-16
# (参考訳) スケーリング法則によるデータ収集の制限学習: 実践におけるデータ最小化コンプライアンス

Learning to Limit Data Collection via Scaling Laws: Data Minimization Compliance in Practice ( http://arxiv.org/abs/2107.08096v1 )

ライセンス: CC BY 4.0
Divya Shanmugam, Samira Shabanian, Fernando Diaz, Mich\`ele Finck, Asia Biega(参考訳) データ最小化(英: data minimization)とは、欧州連合(eu)の一般データ保護規則(gdpr)において、処理目的に関する適切な、関連する、限られた量の個人情報を処理する責任として定義される法的義務である。 しかし、公平さや透明性とは異なり、この原理は計算解釈の欠如のために機械学習システムに広く採用されていない。 本稿では,機械学習と法学の文献をもとに,データ収集目的とシステム性能を関連付けた解釈に基づくデータ収集を制限するための最初の学習フレームワークを提案する。 性能曲線微分に基づくデータ最小化基準を定式化し、データ収集全体を通してアルゴリズムの性能の異なる段階をモデル化する効果的かつ解釈可能な分法手法を提供する。 実験的な調査の結果は、特徴獲得アルゴリズムの選択、初期化条件、データ最小化と公正性の緊張を示唆する個人への影響など、データ最小化フレームワークを設計する際の関連する考慮事項に関する深い洞察を提供する。

Data minimization is a legal obligation defined in the European Union's General Data Protection Regulation (GDPR) as the responsibility to process an adequate, relevant, and limited amount of personal data in relation to a processing purpose. However, unlike fairness or transparency, the principle has not seen wide adoption for machine learning systems due to a lack of computational interpretation. In this paper, we build on literature in machine learning and law to propose the first learning framework for limiting data collection based on an interpretation that ties the data collection purpose to system performance. We formalize a data minimization criterion based on performance curve derivatives and provide an effective and interpretable piecewise power law technique that models distinct stages of an algorithm's performance throughout data collection. Results from our empirical investigation offer deeper insights into the relevant considerations when designing a data minimization framework, including the choice of feature acquisition algorithm, initialization conditions, as well as impacts on individuals that hint at tensions between data minimization and fairness.
翻訳日:2021-07-21 10:28:07 公開日:2021-07-16
# (参考訳) 不確実性下におけるタスクオフロードのための分散マルチエージェント強化学習

Decentralized Multi-Agent Reinforcement Learning for Task Offloading Under Uncertainty ( http://arxiv.org/abs/2107.08114v1 )

ライセンス: CC0 1.0
Yuanchao Xu, Amal Feriani, and Ekram Hossain(参考訳) MARL(Multi-Agent Reinforcement Learning)は、環境の非定常性と複合行動空間の大きな次元性により、強化学習の挑戦的なサブ領域である。 タスクオフロード問題を解くために、ディープMARLアルゴリズムが適用されている。 しかし、現実世界のアプリケーションでは、エージェント(すなわち、エージェント)が必要とする情報である。 報酬と状態)はノイズと変更の対象となる。 深部MARLの実用的課題に対する安定性と堅牢性は、まだオープンな研究課題である。 本研究では,最先端のmarlアルゴリズムを適用し,報酬の不確実性を伴うタスクオフロードを解決する。 報奨信号の摂動は, 完全報奨学習と比較して, 性能の低下を招き得ることを示す。 本稿では,無線通信システムに深層MARLソリューションをデプロイする実践的課題を研究・解決するためのさらなる研究を期待する。

Multi-Agent Reinforcement Learning (MARL) is a challenging subarea of Reinforcement Learning due to the non-stationarity of the environments and the large dimensionality of the combined action space. Deep MARL algorithms have been applied to solve different task offloading problems. However, in real-world applications, information required by the agents (i.e. rewards and states) are subject to noise and alterations. The stability and the robustness of deep MARL to practical challenges is still an open research problem. In this work, we apply state-of-the art MARL algorithms to solve task offloading with reward uncertainty. We show that perturbations in the reward signal can induce decrease in the performance compared to learning with perfect rewards. We expect this paper to stimulate more research in studying and addressing the practical challenges of deploying deep MARL solutions in wireless communications systems.
翻訳日:2021-07-21 10:15:27 公開日:2021-07-16
# (参考訳) nlpシステムの体系的コーパス分析における意味のアーキテクチャ

Architectures of Meaning, A Systematic Corpus Analysis of NLP Systems ( http://arxiv.org/abs/2107.08124v1 )

ライセンス: CC BY 4.0
Oskar Wysocki, Malina Florea, Donal Landers and Andre Freitas(参考訳) 本稿では,自然言語処理(NLP)アーキテクチャを大規模に解釈することを目的とした,新しい統計コーパス解析フレームワークを提案する。 提案手法は,Saturation-based lexicon construction,statistical corpus analysis method, graph collocations を組み合わせて,NLPアーキテクチャパターンのコーパスからの合成表現を誘導する。 このフレームワークはSemevalタスクの完全なコーパスで検証され、データ駆動方式でアーキテクチャ上の問題に答えるために使用できる一貫性のあるアーキテクチャパターンを示し、大きく動的で指数関数的に成長する分野を解釈するための体系的なメカニズムを提供する。

This paper proposes a novel statistical corpus analysis framework targeted towards the interpretation of Natural Language Processing (NLP) architectural patterns at scale. The proposed approach combines saturation-based lexicon construction, statistical corpus analysis methods and graph collocations to induce a synthesis representation of NLP architectural patterns from corpora. The framework is validated in the full corpus of Semeval tasks and demonstrated coherent architectural patterns which can be used to answer architectural questions on a data-driven fashion, providing a systematic mechanism to interpret a largely dynamic and exponentially growing field.
翻訳日:2021-07-21 10:04:44 公開日:2021-07-16
# (参考訳) 最小メッセージ長を用いたマルコフブランケット発見

Markov Blanket Discovery using Minimum Message Length ( http://arxiv.org/abs/2107.08140v1 )

ライセンス: CC BY 4.0
Yang Li, Kevin B Korb, Lloyd Allison(参考訳) 因果発見は、データから因果ベイズネットワークの学習を自動化し、その初期から活発な関心を集めてきた。 インターネットから大規模データセットをアウトソーシングすることで、大規模データセットへのスケールアップへの関心が高まっている。 これに対する1つのアプローチは、マルコフ・ブランケット(MB)発見を用いた探索を第1ステップとして並列化し、続いてグローバル因果モデルでMBを組み合わせるプロセスである。 我々は、mml(minimum message length)を用いたmb発見の3つの新しい手法を開発・検討し、mb発見として開発するか、機能選択として開発するかに関わらず、経験的に最良の既存手法と比較する。 私たちの最高のMMLメソッドは一貫して競争力があり、いくつかの利点があります。

Causal discovery automates the learning of causal Bayesian networks from data and has been of active interest from their beginning. With the sourcing of large data sets off the internet, interest in scaling up to very large data sets has grown. One approach to this is to parallelize search using Markov Blanket (MB) discovery as a first step, followed by a process of combining MBs in a global causal model. We develop and explore three new methods of MB discovery using Minimum Message Length (MML) and compare them empirically to the best existing methods, whether developed specifically as MB discovery or as feature selection. Our best MML method is consistently competitive and has some advantageous features.
翻訳日:2021-07-21 09:45:42 公開日:2021-07-16
# (参考訳) 自律性2.0:なぜ自動運転は常に5年先なのか?

Autonomy 2.0: Why is self-driving always 5 years away? ( http://arxiv.org/abs/2107.08142v1 )

ライセンス: CC BY 4.0
Ashesh Jain, Luca Del Pero, Hugo Grimmett, Peter Ondruska(参考訳) 過去10年間の機械学習の成功(画像認識、意思決定、NLP、画像合成)にもかかわらず、自動運転技術は未だに同じ傾向を辿っていない。 本稿では,現代の自動運転スタックの歴史,構成,開発ボトルネックについて考察する。 遅すぎる進歩は、ハンドエンジニアリングが多すぎるアプローチ、ロードテストへの過度な依存、高いデプロイメントコストによるものだ、と私たちは主張する。 古典的スタックには、まれな事象の長い尾を捉えるために必要なスケールを妨げるいくつかのボトルネックがある。 これらの問題を解決するため、私たちは、MLファーストの自動運転アプローチであるAutonomy 2.0の原則を、現在採用されている最先端の代替手段として概説した。 このアプローチは、(i)人間のデモからトレーニング可能な完全な差別化可能なavスタック、(ii)クローズドループデータ駆動リアクティブシミュレーション、(iii)スケーラビリティ問題に対する重要なソリューションとして大規模で低コストなデータコレクションに基づいている。 我々は,一般アーキテクチャの概要と,この方向性で有望な成果をまとめた調査を行い,今後コミュニティが取り組むべき重要な課題を提案する。

Despite the numerous successes of machine learning over the past decade (image recognition, decision-making, NLP, image synthesis), self-driving technology has not yet followed the same trend. In this paper, we study the history, composition, and development bottlenecks of the modern self-driving stack. We argue that the slow progress is caused by approaches that require too much hand-engineering, an over-reliance on road testing, and high fleet deployment costs. We observe that the classical stack has several bottlenecks that preclude the necessary scale needed to capture the long tail of rare events. To resolve these problems, we outline the principles of Autonomy 2.0, an ML-first approach to self-driving, as a viable alternative to the currently adopted state-of-the-art. This approach is based on (i) a fully differentiable AV stack trainable from human demonstrations, (ii) closed-loop data-driven reactive simulation, and (iii) large-scale, low-cost data collections as critical solutions towards scalability issues. We outline the general architecture, survey promising works in this direction and propose key challenges to be addressed by the community in the future.
翻訳日:2021-07-21 09:44:47 公開日:2021-07-16
# (参考訳) Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian Translation

Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian Translation ( http://arxiv.org/abs/2107.08146v1 )

ライセンス: CC BY 4.0
Peter Jansen(参考訳) スター・トレックのエピソード『ダルモック』で紹介された架空の言語であるタマリアンは、"We should working together"の代わりに"Darmok and Jalad at Tanagra"のような比喩的な言及の発声を通じて意味を伝える。 本書は、タマリアン・イングリッシュによる最初のエピソードからの発話の辞書といくつかの後続の小説を組み立て、これを用いて456の英語とタマリアンの発話の並列コーパスを構築する。 大規模言語モデル(T5)に基づく機械翻訳システムは、この並列コーパスを用いて訓練されており、既知の発話に基づいて英語からタマリアンへの翻訳時に精度が76%であることが示されている。

Tamarian, a fictional language introduced in the Star Trek episode Darmok, communicates meaning through utterances of metaphorical references, such as "Darmok and Jalad at Tanagra" instead of "We should work together." This work assembles a Tamarian-English dictionary of utterances from the original episode and several follow-on novels, and uses this to construct a parallel corpus of 456 English-Tamarian utterances. A machine translation system based on a large language model (T5) is trained using this parallel corpus, and is shown to produce an accuracy of 76% when translating from English to Tamarian on known utterances.
翻訳日:2021-07-21 09:33:26 公開日:2021-07-16
# 多地点沈殿合成のための確率的および深部生成モデルの比較研究

A comparative study of stochastic and deep generative models for multisite precipitation synthesis ( http://arxiv.org/abs/2107.08074v1 )

ライセンス: Link先を確認
Jorge Guevara, Dario Borges, Campbell Watson, Bianca Zadrozny(参考訳) 将来の気候変動シナリオは通常、気象発生器のシミュレーションを用いて仮説を立てる。 しかし、天気予報のための有望なディープラーニングモデルと古典的なアプローチを比較し評価する研究はごくわずかである。 本研究は多地点降水合成作業における予備的な評価結果を示す。 我々は、IBM Weathergen(Weathergenライブラリの拡張)とRGeneratePrecの2つのオープンソースの気象発生装置と、さまざまなメトリクスでGANとVAEの2つの深い生成モデルを比較した。 予備結果は,多地点沈殿合成タスクのための深層学習アーキテクチャとアルゴリズムの設計改善のためのガイドとして機能する。

Future climate change scenarios are usually hypothesized using simulations from weather generators. However, there only a few works comparing and evaluating promising deep learning models for weather generation against classical approaches. This study shows preliminary results making such evaluations for the multisite precipitation synthesis task. We compared two open-source weather generators: IBMWeathergen (an extension of the Weathergen library) and RGeneratePrec, and two deep generative models: GAN and VAE, on a variety of metrics. Our preliminary results can serve as a guide for improving the design of deep learning architectures and algorithms for the multisite precipitation synthesis task.
翻訳日:2021-07-20 15:17:55 公開日:2021-07-16
# 履歴データを用いた強化学習に基づくオートプルーニングの収束化

Boosting the Convergence of Reinforcement Learning-based Auto-pruning Using Historical Data ( http://arxiv.org/abs/2107.08815v1 )

ライセンス: Link先を確認
Jiandong Mu, Mengdi Wang, Feiwen Zhu, Jun Yang, Wei Lin, Wei Zhang(参考訳) 近年、チャネルプルーニングのようなニューラルネットワーク圧縮方式は、組み込みシステムなどの電力制約のあるシナリオにおけるディープニューラルネットワーク(dnn)のモデルサイズと計算複雑性を低減するために広く使われている。 強化学習(RL)に基づくオートプルーニングは、高価な手作り作業を避けるため、DNNプルーニングプロセスを自動化するためにさらに提案されている。 しかしながら、rlベースのprunerでは、時間を要するトレーニングプロセスが伴い、各サンプルの高コストがこの問題をさらに悪化させる。 これらの障害は、RLベースのオートプルーニングの現実的な応用を著しく制限している。 そこで,本稿では,従来のオートプルーニングプロセスの履歴データを活用することで,この問題を解消する効率的なオートプルーニングフレームワークを提案する。 我々のフレームワークでは、まず転送学習によるrl-prunerの収束性を高める。 そこで,トランスファービリティを向上させることにより,トレーニングプロセスの高速化を図るために,拡張トランスファー学習手法を提案する。 最後に,rlエージェントのサンプル効率を向上させるために,補助学習プロセスを提案する。 実験の結果、我々のフレームワークはResNet20で1.5-2.5倍、ResNet56、ResNet18、MobileNet v1で1.81-2.375倍のオートプルーニングプロセスを高速化できることがわかった。

Recently, neural network compression schemes like channel pruning have been widely used to reduce the model size and computational complexity of deep neural network (DNN) for applications in power-constrained scenarios such as embedded systems. Reinforcement learning (RL)-based auto-pruning has been further proposed to automate the DNN pruning process to avoid expensive hand-crafted work. However, the RL-based pruner involves a time-consuming training process and the high expense of each sample further exacerbates this problem. These impediments have greatly restricted the real-world application of RL-based auto-pruning. Thus, in this paper, we propose an efficient auto-pruning framework which solves this problem by taking advantage of the historical data from the previous auto-pruning process. In our framework, we first boost the convergence of the RL-pruner by transfer learning. Then, an augmented transfer learning scheme is proposed to further speed up the training process by improving the transferability. Finally, an assistant learning process is proposed to improve the sample efficiency of the RL agent. The experiments have shown that our framework can accelerate the auto-pruning process by 1.5-2.5 times for ResNet20, and 1.81-2.375 times for other neural networks like ResNet56, ResNet18, and MobileNet v1.
翻訳日:2021-07-20 15:15:15 公開日:2021-07-16
# メディア非結合学習:直接出力対応のない学習機能

Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences ( http://arxiv.org/abs/2107.08135v1 )

ライセンス: Link先を確認
Ikko Yamane, Junya Honda, Florian Yger, Masashi Sugiyama(参考訳) 通常の教師付き学習は、入力$x$と出力$y$のペアトレーニングデータがあるときに便利です。 しかし、このようなペアデータの収集は実際には困難である。 この論文では、ペアデータがない場合、$x$から$y$を予測するタスクについて検討するが、分離独立データセットは$x$と$y$の2つがあり、それぞれに変数$u$、すなわち$s_x = \{(x_i, u_i)\}$と$s_y = \{(u'_j, y'_j)\} の2つのデータセットがある。 単純なアプローチは、$S_X$で$U$、$S_Y$で$U$を予測し、$U$で$S_Y$で$Y$を予測することである。 さらに、u$ の予測は、例えば $u$ がより高い次元を持つ場合に、実際に $y$ を予測するよりも難しくなる。 この難しさを回避するために、$U$の予測を避けるために、$f(X)$と$S_{X}$のトレーニングによって$Y = f(X)$を直接学習し、$S_{Y}$でトレーニングされた$h(U)$を予測する新しい方法を提案する。 本手法の統計的一貫性と誤差境界を実証し,その実用的有用性を実験的に検証した。

Ordinary supervised learning is useful when we have paired training data of input $X$ and output $Y$. However, such paired data can be difficult to collect in practice. In this paper, we consider the task of predicting $Y$ from $X$ when we have no paired data of them, but we have two separate, independent datasets of $X$ and $Y$ each observed with some mediating variable $U$, that is, we have two datasets $S_X = \{(X_i, U_i)\}$ and $S_Y = \{(U'_j, Y'_j)\}$. A naive approach is to predict $U$ from $X$ using $S_X$ and then $Y$ from $U$ using $S_Y$, but we show that this is not statistically consistent. Moreover, predicting $U$ can be more difficult than predicting $Y$ in practice, e.g., when $U$ has higher dimensionality. To circumvent the difficulty, we propose a new method that avoids predicting $U$ but directly learns $Y = f(X)$ by training $f(X)$ with $S_{X}$ to predict $h(U)$ which is trained with $S_{Y}$ to approximate $Y$. We prove statistical consistency and error bounds of our method and experimentally confirm its practical usefulness.
翻訳日:2021-07-20 15:14:04 公開日:2021-07-16
# 宣言型機械学習システム

Declarative Machine Learning Systems ( http://arxiv.org/abs/2107.08148v1 )

ライセンス: Link先を確認
Piero Molino and Christopher R\'e(参考訳) 過去数年間、機械学習(ML)は、学術的な取り組みから、コンピューティングのほぼすべての側面で採用されている普及した技術へと移行してきた。 MLで動くプロダクトは、今、私たちのデジタル生活に埋め込まれている:何を見るべきかの推薦から検索意図の占い、消費者や企業におけるバーチャルアシスタントのパワーまで。 近年の自然科学におけるMLの適用の成功により、MLは人類が直面する最も困難な現実世界問題に対処するために利用できることが明らかとなった。 こうした理由から、MLはテクノロジー企業の戦略の中心となり、これまで以上に学術的関心を集めてきた。 これらの成功にもかかわらず、私たちがこれまで見てきたのはほんの始まりにすぎない。 現在、MLモデルをトレーニングし使用している人々は、大規模な組織内で作業するエキスパート開発者ですが、次のMLシステムの波は、コーディングスキルなしで、おそらくは同じタスクを実行できる、と私たちは考えています。 これらの新しいmlシステムは、モデルがどのように訓練され、予測を得るために利用されるかについて、ユーザが完全に理解する必要がなくなる。 宣言的インターフェースは、複雑さを隠蔽し、関心の分離を好むことによって、この目標に適しており、生産性の向上につながる可能性がある。 そこで我々は,2つの宣言型MLシステムであるOvertonとLudwigを開発し,ユーザがデータスキーマ(名前と入力の種類)とタスクのみを宣言する代わりに,低レベルのMLコードを書くように要求した。 この記事では、MLシステムが現在どのように構成されているかを説明し、その成功と採用の重要な要因、現在のMLシステムが直面している問題と、私たちが開発したシステムがそれにどう対処したかについて説明する。 最後に、MLシステムの開発から何年にもわたって学んだこと、そして次世代のMLシステムがどのように見えるかについて話します。

In the last years machine learning (ML) has moved from a academic endeavor to a pervasive technology adopted in almost every aspect of computing. ML-powered products are now embedded in our digital lives: from recommendations of what to watch, to divining our search intent, to powering virtual assistants in consumer and enterprise settings. Recent successes in applying ML in natural sciences revealed that ML can be used to tackle some of the hardest real-world problems humanity faces today. For these reasons ML has become central in the strategy of tech companies and has gathered even more attention from academia than ever before. Despite these successes, what we have witnessed so far is just the beginning. Right now the people training and using ML models are expert developers working within large organizations, but we believe the next wave of ML systems will allow a larger amount of people, potentially without coding skills, to perform the same tasks. These new ML systems will not require users to fully understand all the details of how models are trained and utilized for obtaining predictions. Declarative interfaces are well suited for this goal, by hiding complexity and favouring separation of interests, and can lead to increased productivity. We worked on such abstract interfaces by developing two declarative ML systems, Overton and Ludwig, that require users to declare only their data schema (names and types of inputs) and tasks rather then writing low level ML code. In this article we will describe how ML systems are currently structured, highlight important factors for their success and adoption, what are the issues current ML systems are facing and how the systems we developed addressed them. Finally we will talk about learnings from the development of ML systems throughout the years and how we believe the next generation of ML systems will look like.
翻訳日:2021-07-20 15:09:28 公開日:2021-07-16
# icml 2021ワークショップ「theoretic foundation, criticism and application trends of explainable ai」開催報告

Proceedings of ICML 2021 Workshop on Theoretic Foundation, Criticism, and Application Trend of Explainable AI ( http://arxiv.org/abs/2107.08821v1 )

ライセンス: Link先を確認
Quanshi Zhang, Tian Han, Lixin Fan, Zhanxing Zhu, Hang Su, Ying Nian Wu, Jie Ren, Hao Zhang(参考訳) ICML 2021 Workshop on Theoretic Foundation, Criticism, and Application Trends of Explainable AIの成果である。 ディープニューラルネットワーク(DNN)は、コンピュータビジョン、計算言語学、AIなど、幅広い分野で大きな成功を収めたことは間違いない。 しかし、DNNの成功と敵の攻撃に対する弾力性の根底にある基本原理は依然としてほとんど失われている。 DNNの内部メカニズムの解釈と理論化は、魅力的だが議論の的となっているトピックである。 このワークショップは、XAIの範囲における理論の基礎、制限、および新しいアプリケーショントレンドに特別な関心を払っている。 これらの問題は今後の開発における新たなボトルネックを反映している。

This is the Proceedings of ICML 2021 Workshop on Theoretic Foundation, Criticism, and Application Trend of Explainable AI. Deep neural networks (DNNs) have undoubtedly brought great success to a wide range of applications in computer vision, computational linguistics, and AI. However, foundational principles underlying the DNNs' success and their resilience to adversarial attacks are still largely missing. Interpreting and theorizing the internal mechanisms of DNNs becomes a compelling yet controversial topic. This workshop pays a special interest in theoretic foundations, limitations, and new application trends in the scope of XAI. These issues reflect new bottlenecks in the future development of XAI.
翻訳日:2021-07-20 15:08:03 公開日:2021-07-16
# 大規模文書の法則:ビジュアルクイズを用いた法的契約の構造理解

The Law of Large Documents: Understanding the Structure of Legal Contracts Using Visual Cues ( http://arxiv.org/abs/2107.08128v1 )

ライセンス: Link先を確認
Allison Hegel, Marina Shah, Genevieve Peaslee, Brendan Roof, Emad Elwany(参考訳) BERTのような大規模で事前訓練されたトランスフォーマーモデルは、文書理解タスクで最先端の結果を得たが、ほとんどの実装では一度に512トークンしか考慮できない。 多くの現実世界のアプリケーションでは、ドキュメントはずっと長くなり、典型的には長いドキュメントで使われるセグメンテーション戦略は、ドキュメントの構造やコンテキスト情報を見逃し、下流のタスクで結果を損なう。 法的合意に関する本研究では,文書中のテキストのレイアウト,スタイル,配置といった視覚的な手がかりが,長い文書において許容できるレベルの精度を達成する上で不可欠な強力な特徴であることが分かりました。 文書分割,エンティティ抽出,属性分類などの文書理解タスクの精度に及ぼす,コンピュータビジョン法により得られたこのような視覚的手がかりを取り入れた影響を計測する。 構造メタデータに基づく文書分割手法は,契約理解atticusデータセット上で測定した4つの長期文書理解タスクにおいて,既存の手法よりも優れている。

Large, pre-trained transformer models like BERT have achieved state-of-the-art results on document understanding tasks, but most implementations can only consider 512 tokens at a time. For many real-world applications, documents can be much longer, and the segmentation strategies typically used on longer documents miss out on document structure and contextual information, hurting their results on downstream tasks. In our work on legal agreements, we find that visual cues such as layout, style, and placement of text in a document are strong features that are crucial to achieving an acceptable level of accuracy on long documents. We measure the impact of incorporating such visual cues, obtained via computer vision methods, on the accuracy of document understanding tasks including document segmentation, entity extraction, and attribute classification. Our method of segmenting documents based on structural metadata out-performs existing methods on four long-document understanding tasks as measured on the Contract Understanding Atticus Dataset.
翻訳日:2021-07-20 15:04:44 公開日:2021-07-16
# パーソナライズされたニューラルアーキテクチャによるMRI前立腺分画

Federated Whole Prostate Segmentation in MRI with Personalized Neural Architectures ( http://arxiv.org/abs/2107.08111v1 )

ライセンス: Link先を確認
Holger R. Roth, Dong Yang, Wenqi Li, Andriy Myronenko, Wentao Zhu, Ziyue Xu, Xiaosong Wang, Daguang Xu(参考訳) 堅牢なディープラーニングベースのモデルの構築には、さまざまなトレーニングデータが必要である。 しかし、これらのデータセットは患者のプライバシー上の懸念や規制上のハードルのために簡単に組み合わせることができない。 Federated Learning(FL)は、集中型データセットを必要とせずに機械学習モデルをトレーニングする手段である。 各flクライアントは、すべてのクライアントからパラメータを集約するグローバルサーバとモデルパラメータのみを共有しながら、ローカルデータをトレーニングする。 同時に、各クライアントのデータは、患者数、撮像装置、取得プロトコルの局所的な変化により、差異や矛盾を示すことができる。 したがって、連合学習モデルは、クライアントのデータの局所的特異性に適応できるべきである。 本研究では, fl と局所的ニューラルネットワーク探索に基づく automl 技術を組み合わせた「スーパーネット」の学習を行う。 さらに,各FLクライアントのサイトでパーソナライズされたモデルアーキテクチャを実現するための適応方式を提案する。 提案手法は3次元前立腺MRIの4つの異なるデータセットを用いて評価し,AutoMLスーパーネットを通した最適経路を選択することにより,適応後の局所モデルの性能を向上させることを示した。

Building robust deep learning-based models requires diverse training data, ideally from several sources. However, these datasets cannot be combined easily because of patient privacy concerns or regulatory hurdles, especially if medical data is involved. Federated learning (FL) is a way to train machine learning models without the need for centralized datasets. Each FL client trains on their local data while only sharing model parameters with a global server that aggregates the parameters from all clients. At the same time, each client's data can exhibit differences and inconsistencies due to the local variation in the patient population, imaging equipment, and acquisition protocols. Hence, the federated learned models should be able to adapt to the local particularities of a client's data. In this work, we combine FL with an AutoML technique based on local neural architecture search by training a "supernet". Furthermore, we propose an adaptation scheme to allow for personalized model architectures at each FL client's site. The proposed method is evaluated on four different datasets from 3D prostate MRI and shown to improve the local models' performance after adaptation through selecting an optimal path through the AutoML supernet.
翻訳日:2021-07-20 14:47:24 公開日:2021-07-16
# 磁気共鳴フィンガープリンティングにおける組織特性のリアルタイムマッピング

Real-Time Mapping of Tissue Properties for Magnetic Resonance Fingerprinting ( http://arxiv.org/abs/2107.08120v1 )

ライセンス: Link先を確認
Yilin Liu, Yong Chen, Pew-Thian Yap(参考訳) 磁気共鳴フィンガープリンティング(mrf)は、2段階のプロセスを含む比較的新しいマルチパラメトリックな定量的イメージング手法である: (i) 高アンサンプされた非カルテジアンスパイラルk空間データから一連の時間フレームを再構成し、(ii)時間フレームを用いて組織特性(例えばt1およびt2緩和時間)を推定するパターンマッチング。 本稿では,スパイラルk空間mrfデータから組織特性を直接シームレスにマッピングし,非一様高速フーリエ変換(nufft)や辞書ベースの指紋照合などの時間消費処理を回避するための,エンドツーエンドのディープラーニングフレームワークを提案する。 本手法は,非カルト的k-空間データを直接消費し,適応密度補正を行い,複数の組織特性マップを前方通過で予測する。 2Dと3DのMRFデータを用いた実験では、最先端手法に匹敵する量子化精度が0.5秒以内で達成できることが示されている。 提案手法は, 臨床現場におけるmrfの導入を促進することが期待できる。

Magnetic resonance Fingerprinting (MRF) is a relatively new multi-parametric quantitative imaging method that involves a two-step process: (i) reconstructing a series of time frames from highly-undersampled non-Cartesian spiral k-space data and (ii) pattern matching using the time frames to infer tissue properties (e.g., T1 and T2 relaxation times). In this paper, we introduce a novel end-to-end deep learning framework to seamlessly map the tissue properties directly from spiral k-space MRF data, thereby avoiding time-consuming processing such as the nonuniform fast Fourier transform (NUFFT) and the dictionary-based Fingerprint matching. Our method directly consumes the non-Cartesian k- space data, performs adaptive density compensation, and predicts multiple tissue property maps in one forward pass. Experiments on both 2D and 3D MRF data demonstrate that quantification accuracy comparable to state-of-the-art methods can be accomplished within 0.5 second, which is 1100 to 7700 times faster than the original MRF framework. The proposed method is thus promising for facilitating the adoption of MRF in clinical settings.
翻訳日:2021-07-20 14:47:04 公開日:2021-07-16
# 未来の知的自律ロボット 設計による倫理 自動運転車倫理から学ぶ

Future Intelligent Autonomous Robots, Ethical by Design. Learning from Autonomous Cars Ethics ( http://arxiv.org/abs/2107.08122v1 )

ライセンス: Link先を確認
Gordana Dodig-Crnkovic, Tobias Holstein, Patrizio Pelliccione(参考訳) インテリジェント自律ロボット技術の開発は、個人や社会に期待される有益な効果を前提としている。 このような破壊的な創発的技術の場合、構築方法に関する疑問だけでなく、構築方法や結果が重要である理由についても疑問が持たれます。 インテリジェントな自律ロボットの倫理学の分野は、法律システムやその他の社会的・政府的なアクターを含む様々な利害関係者や企業や企業が、倫理と社会的な技術的側面の共通の見解をもたらす、実用的な実用価値を持つ研究の好例である。 この技術は、技術ライフサイクルのさまざまな段階(開発、実装、テスト、使用、廃棄)における人間と機械のインターフェースを考慮して、インテリジェントな自律型ロボットの開発へのアプローチの出発プラットフォームとして使用できる。 自律的な知的ロボカーの倫理に関する研究や、ロボットの倫理に関する既存の文献から、我々の貢献は、特定された課題とそれらに対応するためのアプローチを含む一連の価値と倫理原則から成り立っている。 これは、インテリジェントな自律ロボット分野のステークホルダーが倫理的原則と応用を結びつけるのに役立つかもしれない。 自動運転車の倫理的要件に関する私たちの推奨事項は、他の種類のインテリジェントな自律ロボットに利用することができ、ユーザーとのインタラクションに関するさらなる研究を必要とする社会ロボットには注意が必要である。 既存の倫理的枠組みは,多条件分析による学際的・多機能チームの評価によって,文脈に敏感な方法で適用する必要がある,と我々は強調する。 さらに、我々は、技術の発展と関連する利害関係者に通知された倫理的原則、ガイドライン、規制の継続的な発展の必要性を論じる。

Development of the intelligent autonomous robot technology presupposes its anticipated beneficial effect on the individuals and societies. In the case of such disruptive emergent technology, not only questions of how to build, but also why to build and with what consequences are important. The field of ethics of intelligent autonomous robotic cars is a good example of research with actionable practical value, where a variety of stakeholders, including the legal system and other societal and governmental actors, as well as companies and businesses, collaborate bringing about shared view of ethics and societal aspects of technology. It could be used as a starting platform for the approaches to the development of intelligent autonomous robots in general, considering human-machine interfaces in different phases of the life cycle of technology - the development, implementation, testing, use and disposal. Drawing from our work on ethics of autonomous intelligent robocars, and the existing literature on ethics of robotics, our contribution consists of a set of values and ethical principles with identified challenges and proposed approaches for meeting them. This may help stakeholders in the field of intelligent autonomous robotics to connect ethical principles with their applications. Our recommendations of ethical requirements for autonomous cars can be used for other types of intelligent autonomous robots, with the caveat for social robots that require more research regarding interactions with the users. We emphasize that existing ethical frameworks need to be applied in a context-sensitive way, by assessments in interdisciplinary, multi-competent teams through multi-criteria analysis. Furthermore, we argue for the need of a continuous development of ethical principles, guidelines, and regulations, informed by the progress of technologies and involving relevant stakeholders.
翻訳日:2021-07-20 14:43:51 公開日:2021-07-16
# 取引市場向けロバストリスク感性強化学習エージェント

Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets ( http://arxiv.org/abs/2107.08083v1 )

ライセンス: Link先を確認
Yue Gao and Kry Yik Chau Lui and Pablo Hernandez-Leal(参考訳) トレーディングマーケットは、強化学習エージェントを展開するための現実世界の金融アプリケーションであるが、高い分散やコストのかかる調査のような厳しい根本的な課題を抱えている。 さらに、市場は本質的に多くのアクターが行動し環境を変えるマルチエージェントドメインである。 このようなシナリオに対処するには、リスク認識、摂動に対する堅牢性、学習のばらつきの低さなど、特定の特性を示す必要がある。 これらをビルディングブロックとし、4つのアルゴリズムのファミリーを提案する。 まず,リスク逆目的関数と分散低減手法を用いる2つのアルゴリズムに寄与する。 次に,マルチエージェント学習のためのフレームワークを拡張し,学習プロセスを乗っ取り,摂動できる相手を仮定する。 第3および第4のアルゴリズムは,この設定下で良好に動作し,理論的保証と実用性とのバランスをとる。 さらに,環境のマルチエージェント性について考察し,リスクに敏感なペイオフを考慮したマルチエージェント学習のための経験的ゲーム理論分析を初めて拡張した。

Trading markets represent a real-world financial application to deploy reinforcement learning agents, however, they carry hard fundamental challenges such as high variance and costly exploration. Moreover, markets are inherently a multiagent domain composed of many actors taking actions and changing the environment. To tackle these type of scenarios agents need to exhibit certain characteristics such as risk-awareness, robustness to perturbations and low learning variance. We take those as building blocks and propose a family of four algorithms. First, we contribute with two algorithms that use risk-averse objective functions and variance reduction techniques. Then, we augment the framework to multi-agent learning and assume an adversary which can take over and perturb the learning process. Our third and fourth algorithms perform well under this setting and balance theoretical guarantees with practical use. Additionally, we consider the multi-agent nature of the environment and our work is the first one extending empirical game theory analysis for multi-agent learning by considering risk-sensitive payoffs.
翻訳日:2021-07-20 14:41:32 公開日:2021-07-16
# autofl: ヘテロジェネリティアウェアエネルギ効率のよい連合学習を可能にする

AutoFL: Enabling Heterogeneity-Aware Energy Efficient Federated Learning ( http://arxiv.org/abs/2107.08147v1 )

ライセンス: Link先を確認
Young Geun Kim and Carole-Jean Wu(参考訳) フェデレーション学習(federated learning)は、エッジにある分散モバイルデバイスのクラスタによって、すべての生のトレーニングサンプルをデバイスに保持しながら、共有機械学習モデルを協調的にトレーニングすることが可能になる。 この分散トレーニングアプローチは、プライバシー漏洩のリスクを軽減するための実用的なソリューションとして実証されている。 しかし,非IIDトレーニングデータ分布,広範囲なシステム不均一性,フィールドにおける確率的ランタイム効果などにより,エッジでの効率的なFL展開を実現することは困難である。 本稿では,エッジ実行の確率的性質を考慮して,最先端flユースケースの時間・コンバージェンスとエネルギー効率を共同で最適化する。 本稿では,各FLモデル集約ラウンドに対して,確率的実行時差,システムおよびデータ不均一性の存在下で,どのK参加者デバイスとデバイス毎の実行目標を学習し,決定する強化学習アルゴリズムを設計し,AutoFLを提案する。 flエッジ配置のユニークな特性を公平に考慮し、autoflはモデル収束時間の3.6倍、ローカルクライアントの4.7倍と5.2倍のエネルギー効率を実現している。

Federated learning enables a cluster of decentralized mobile devices at the edge to collaboratively train a shared machine learning model, while keeping all the raw training samples on device. This decentralized training approach is demonstrated as a practical solution to mitigate the risk of privacy leakage. However, enabling efficient FL deployment at the edge is challenging because of non-IID training data distribution, wide system heterogeneity and stochastic-varying runtime effects in the field. This paper jointly optimizes time-to-convergence and energy efficiency of state-of-the-art FL use cases by taking into account the stochastic nature of edge execution. We propose AutoFL by tailor-designing a reinforcement learning algorithm that learns and determines which K participant devices and per-device execution targets for each FL model aggregation round in the presence of stochastic runtime variance, system and data heterogeneity. By considering the unique characteristics of FL edge deployment judiciously, AutoFL achieves 3.6 times faster model convergence time and 4.7 and 5.2 times higher energy efficiency for local clients and globally over the cluster of K participants, respectively.
翻訳日:2021-07-20 14:41:16 公開日:2021-07-16
# スマートグリッドの時系列異常検出に関する調査

Time Series Anomaly Detection for Smart Grids: A Survey ( http://arxiv.org/abs/2107.08835v1 )

ライセンス: Link先を確認
Jiuqi (Elise) Zhang, Di Wu, Benoit Boulet(参考訳) 再生可能エネルギーの統合が急速に増加し、様々な電化製品が広く採用されるようになると、電力網はますます課題に直面している。 1つの顕著な課題は、電力グリッド内の様々な種類の異常な振る舞いに対する効率的な異常検出を実装することである。 これらの異常な振る舞いは、ユーザの異常な消費パターン、障害のあるグリッドインフラストラクチャ、障害、外部のサイバー攻撃、あるいはエネルギー詐欺によって引き起こされる可能性がある。 このような異常を同定することは、現代の電力網の信頼性と効率的な運用において重要である。 電力グリッド時系列データにおける異常検出のための様々な手法が提案されている。 本稿では,電力系統時系列データの異常検出手法の最近の進歩について概説する。 具体的には,まず,電力グリッド異常検出領域における最近の研究課題を概説し,さらに主要な異常検出手法について検討する。 最後に,今後の研究の方向性を明らかにすることで調査を締めくくる。

With the rapid increase in the integration of renewable energy generation and the wide adoption of various electric appliances, power grids are now faced with more and more challenges. One prominent challenge is to implement efficient anomaly detection for different types of anomalous behaviors within power grids. These anomalous behaviors might be induced by unusual consumption patterns of the users, faulty grid infrastructures, outages, external cyberattacks, or energy fraud. Identifying such anomalies is of critical importance for the reliable and efficient operation of modern power grids. Various methods have been proposed for anomaly detection on power grid time-series data. This paper presents a short survey of the recent advances in anomaly detection for power grid time-series data. Specifically, we first outline current research challenges in the power grid anomaly detection domain and further review the major anomaly detection approaches. Finally, we conclude the survey by identifying the potential directions for future research.
翻訳日:2021-07-20 14:37:17 公開日:2021-07-16
# データからの共変リアプノフベクトルの推定

Estimating covariant Lyapunov vectors from data ( http://arxiv.org/abs/2107.08925v1 )

ライセンス: Link先を確認
Christoph Martin, Nahal Sharafi, Sarah Hallerberg(参考訳) 共変リアプノフベクトル(CLV)は力学系の摂動が増加する方向を特徴付ける。 また、臨界遷移や極端な事象の予測因子としても研究されている。 しかし、多くの応用において、モデル方程式が多くの興味深い現象について未知であるため、データからベクトルを推定する必要がある。 本稿では,高次元データにも適し,計算コストのかかるシステムの基本方程式を知らずに,データ記録に基づいてCLVを推定する手法を提案する。 この純粋にデータ駆動型アプローチは、次元128のカオス力学系と複数の低次元系のカオス力学系によって生成されたデータレコードからCLVを正確に推定できることを示す。

Covariant Lyapunov vectors (CLVs) characterize the directions along which perturbations in dynamical systems grow. They have also been studied as potential predictors of critical transitions and extreme events. For many applications, it is, however, necessary to estimate the vectors from data since model equations are unknown for many interesting phenomena. We propose a novel method for estimating CLVs based on data records without knowing the underlying equations of the system which is suitable also for high-dimensional data and computationally inexpensive. We demonstrate that this purely data-driven approach can accurately estimate CLVs from data records generated by chaotic dynamical systems of dimension 128 and multiple lower-dimensional systems and thus provides the foundation for numerous future applications in data-analysis and data-based predictions.
翻訳日:2021-07-20 14:35:57 公開日:2021-07-16
# (参考訳) 荷物脅威認識のための教師なし異常インスタンスセグメンテーション

Unsupervised Anomaly Instance Segmentation for Baggage Threat Recognition ( http://arxiv.org/abs/2107.07333v2 )

ライセンス: CC BY 4.0
Taimur Hassan and Samet Akcay and Mohammed Bennamoun and Salman Khan and Naoufel Werghi(参考訳) 荷物の中に隠された潜在的な脅威を特定することは、セキュリティスタッフにとって大きな懸念事項だ。 多くの研究者がX線スキャンから荷物の脅威を検出するフレームワークを開発した。 しかしながら、私たちの知る限りでは、これらのフレームワークはすべて、現実世界で調達が困難である大規模かつ注釈付きデータセットの広範なトレーニングを必要とします。 本稿では,X線スキャンにおける荷物の脅威を,根拠となる真理ラベルを必要としない異常として認識する,教師なしの新規なインスタンス分割フレームワークを提案する。 さらに、そのスタイリング能力により、フレームワークは一度だけ訓練され、推論段階では、スキャナの仕様にかかわらず、反バンドアイテムを検出して抽出する。 我々の一段階的アプローチは、まず、提案したスタイリゼーション損失関数を用いてエンコーダデコーダネットワークを介して通常の荷物コンテンツを再構成することを学ぶ。 モデルはその後、元のスキャンと再構成されたスキャンの相違を分析して異常領域を特定する。 異常領域はクラスタ化され、そのローカライゼーションのために境界ボックスに適合するように後処理される。 さらに、これらの抽出された異常のカテゴリを認識するために、オプションの分類器を提案フレームワークに追加することもできる。 A thorough evaluation of the proposed system on four public baggage X-ray datasets, without any re-training, demonstrates that it achieves competitive performance as compared to the conventional fully supervised methods (i.e., the mean average precision score of 0.7941 on SIXray, 0.8591 on GDXray, 0.7483 on OPIXray, and 0.5439 on COMPASS-XP dataset) while outperforming state-of-the-art semi-supervised and unsupervised baggage threat detection frameworks by 67.37%, 32.32%, 47.19%, and 45.81% in terms of F1 score across SIXray, GDXray, OPIXray, and COMPASS-XP datasets, respectively.

Identifying potential threats concealed within the baggage is of prime concern for the security staff. Many researchers have developed frameworks that can detect baggage threats from X-ray scans. However, to the best of our knowledge, all of these frameworks require extensive training on large-scale and well-annotated datasets, which are hard to procure in the real world. This paper presents a novel unsupervised anomaly instance segmentation framework that recognizes baggage threats, in X-ray scans, as anomalies without requiring any ground truth labels. Furthermore, thanks to its stylization capacity, the framework is trained only once, and at the inference stage, it detects and extracts contraband items regardless of their scanner specifications. Our one-staged approach initially learns to reconstruct normal baggage content via an encoder-decoder network utilizing a proposed stylization loss function. The model subsequently identifies the abnormal regions by analyzing the disparities within the original and the reconstructed scans. The anomalous regions are then clustered and post-processed to fit a bounding box for their localization. In addition, an optional classifier can also be appended with the proposed framework to recognize the categories of these extracted anomalies. A thorough evaluation of the proposed system on four public baggage X-ray datasets, without any re-training, demonstrates that it achieves competitive performance as compared to the conventional fully supervised methods (i.e., the mean average precision score of 0.7941 on SIXray, 0.8591 on GDXray, 0.7483 on OPIXray, and 0.5439 on COMPASS-XP dataset) while outperforming state-of-the-art semi-supervised and unsupervised baggage threat detection frameworks by 67.37%, 32.32%, 47.19%, and 45.81% in terms of F1 score across SIXray, GDXray, OPIXray, and COMPASS-XP datasets, respectively.
翻訳日:2021-07-20 09:13:11 公開日:2021-07-16
# (参考訳) ファウズ前のアライメント:モメンタム蒸留による視覚と言語表現学習

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation ( http://arxiv.org/abs/2107.07651v1 )

ライセンス: CC BY 4.0
Junnan Li, Ramprasaath R. Selvaraju, Akhilesh Deepak Gotmare, Shafiq Joty, Caiming Xiong, Steven Hoi(参考訳) 大規模ビジョンと言語表現学習は、様々な視覚言語タスクにおいて有望な改善を示している。 既存の方法のほとんどはトランスフォーマーベースのマルチモーダルエンコーダを使用して、視覚トークン(地域ベースの画像特徴)と単語トークンを共同でモデル化している。 視覚トークンとワードトークンは一致しないため、マルチモーダルエンコーダが画像とテキストの相互作用を学習することは困難である。 本稿では,画像とテキストの表現をALBEF(Align the Image and Text Expressions BEfore Fusing)に関連付けることで,より基礎的な視覚と言語表現学習を実現する。 既存の手法と異なり,バウンディングボックスアノテーションや高解像度画像は不要である。 ノイズの多いWebデータからの学習を改善するために,モーメントモデルによって生成された擬似ターゲットから学習する自己学習法であるモーメント蒸留を提案する。 情報最大化の観点からALBEFの理論的解析を行い、異なるトレーニングタスクを画像テキストペアのビューを生成する異なる方法として解釈できることを示す。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。 画像テキスト検索では、albefは桁違いに大きなデータセットで事前学習されたメソッドよりも優れている。 VQAとNLVR$^2$では、ALBEFは最先端技術と比較して2.37%と3.84%の絶対的な改善を達成し、推論速度は速い。 コードと事前トレーニングされたモデルはhttps://github.com/salesforce/albef/で入手できる。

Large-scale vision and language representation learning has shown promising improvements on various vision-language tasks. Most existing methods employ a transformer-based multimodal encoder to jointly model visual tokens (region-based image features) and word tokens. Because the visual tokens and word tokens are unaligned, it is challenging for the multimodal encoder to learn image-text interactions. In this paper, we introduce a contrastive loss to ALign the image and text representations BEfore Fusing (ALBEF) them through cross-modal attention, which enables more grounded vision and language representation learning. Unlike most existing methods, our method does not require bounding box annotations nor high-resolution images. In order to improve learning from noisy web data, we propose momentum distillation, a self-training method which learns from pseudo-targets produced by a momentum model. We provide a theoretical analysis of ALBEF from a mutual information maximization perspective, showing that different training tasks can be interpreted as different ways to generate views for an image-text pair. ALBEF achieves state-of-the-art performance on multiple downstream vision-language tasks. On image-text retrieval, ALBEF outperforms methods that are pre-trained on orders of magnitude larger datasets. On VQA and NLVR$^2$, ALBEF achieves absolute improvements of 2.37% and 3.84% compared to the state-of-the-art, while enjoying faster inference speed. Code and pre-trained models are available at https://github.com/salesforce/ALBEF/.
翻訳日:2021-07-19 23:54:12 公開日:2021-07-16
# (参考訳) アクティブクエリK-平均のテキスト分類への応用

The Application of Active Query K-Means in Text Classification ( http://arxiv.org/abs/2107.07682v1 )

ライセンス: CC BY 4.0
Yukun Jiang(参考訳) アクティブ・ラーニング(Active Learning)は、ラベルのない大量のデータを扱う最先端の機械学習アプローチである。 自然言語処理の分野では、一般的にすべてのデータが注釈付けされるのは費用と時間を要する。 この非効率さは、テキスト分類におけるアクティブラーニングの適用を誘発する。 従来の教師なしk平均クラスタリングは、この研究で最初に半教師付きバージョンに修正される。 次に,Penalized Min-Max-Selectionを用いて,アルゴリズムをさらにアクティブな学習シナリオに拡張し,より安定した初期セントロイドを生成する限定クエリを実現する。 本手法は,ユーザからの対話型クエリ結果と,それに基づく距離表現の両方を利用する。 中国のニュースデータセットでテストした結果、トレーニングのコストを下げながら精度が一貫した向上を示した。

Active learning is a state-of-art machine learning approach to deal with an abundance of unlabeled data. In the field of Natural Language Processing, typically it is costly and time-consuming to have all the data annotated. This inefficiency inspires out our application of active learning in text classification. Traditional unsupervised k-means clustering is first modified into a semi-supervised version in this research. Then, a novel attempt is applied to further extend the algorithm into active learning scenario with Penalized Min-Max-selection, so as to make limited queries that yield more stable initial centroids. This method utilizes both the interactive query results from users and the underlying distance representation. After tested on a Chinese news dataset, it shows a consistent increase in accuracy while lowering the cost in training.
翻訳日:2021-07-19 23:33:20 公開日:2021-07-16
# (参考訳) CutDepth:深度推定におけるエッジ対応データ拡張

CutDepth:Edge-aware Data Augmentation in Depth Estimation ( http://arxiv.org/abs/2107.07684v1 )

ライセンス: CC BY 4.0
Yasunori Ishii and Takayoshi Yamashita(参考訳) RGB画像と深度を同時に取得する必要があるため,単眼深度推定において大規模なデータ収集は困難である。 したがって、このタスクではデータ拡張が重要です。 しかし,ピクセル単位での変換を行う単眼深度推定などのタスクでは,データ拡張に関する研究はほとんど行われていない。 本稿では,CutDepthと呼ばれるデータ拡張手法を提案する。 カットディフでは、トレーニング中に奥行きの一部が入力画像にペーストされる。 この方法はエッジの特徴を損なうことなく変動データを拡張する。 実験により,提案手法が従来のデータ拡張法より優れていることを示す。 遠距離でのトレーニングデータが少ない場合でも、CutDepthで推定精度が向上する。

It is difficult to collect data on a large scale in a monocular depth estimation because the task requires the simultaneous acquisition of RGB images and depths. Data augmentation is thus important to this task. However, there has been little research on data augmentation for tasks such as monocular depth estimation, where the transformation is performed pixel by pixel. In this paper, we propose a data augmentation method, called CutDepth. In CutDepth, part of the depth is pasted onto an input image during training. The method extends variations data without destroying edge features. Experiments objectively and subjectively show that the proposed method outperforms conventional methods of data augmentation. The estimation accuracy is improved with CutDepth even though there are few training data at long distances.
翻訳日:2021-07-19 23:25:15 公開日:2021-07-16
# (参考訳) 自己微分可能なアンサンブルカルマンフィルタ

Auto-differentiable Ensemble Kalman Filters ( http://arxiv.org/abs/2107.07687v1 )

ライセンス: CC BY 4.0
Yuming Chen, Daniel Sanz-Alonso, Rebecca Willett(参考訳) データ同化は、時間発展状態の逐次推定に関係している。 このタスクは、幅広い科学的・工学的応用で発生し、状態が高次元で状態空間のダイナミクスが未知である場合、特に困難である。 本稿では,データ同化における動的システム学習のための機械学習フレームワークを提案する。 我々の自動微分可能アンサンブルカルマンフィルタ(AD-EnKF)は、状態回復のためのアンサンブルカルマンフィルタと、ダイナミックスを学ぶための機械学習ツールをブレンドする。 その際、ad-enkfsはアンサンブルカルマンフィルタの高次元状態へのスケールと自動微分のパワーを利用して、ダイナミックスのための高次元サーロゲートモデルを訓練する。 Lorenz-96モデルを用いて計算した結果、AD-EnKFは期待最大化や粒子フィルタを用いてデータ同化と機械学習をマージする既存の手法よりも優れていた。 さらに、AD-EnKFは実装が容易で、最小限のチューニングを必要とする。

Data assimilation is concerned with sequentially estimating a temporally-evolving state. This task, which arises in a wide range of scientific and engineering applications, is particularly challenging when the state is high-dimensional and the state-space dynamics are unknown. This paper introduces a machine learning framework for learning dynamical systems in data assimilation. Our auto-differentiable ensemble Kalman filters (AD-EnKFs) blend ensemble Kalman filters for state recovery with machine learning tools for learning the dynamics. In doing so, AD-EnKFs leverage the ability of ensemble Kalman filters to scale to high-dimensional states and the power of automatic differentiation to train high-dimensional surrogate models for the dynamics. Numerical results using the Lorenz-96 model show that AD-EnKFs outperform existing methods that use expectation-maximization or particle filters to merge data assimilation and machine learning. In addition, AD-EnKFs are easy to implement and require minimal tuning.
翻訳日:2021-07-19 23:20:53 公開日:2021-07-16
# (参考訳) 因果言語モデルにおける交叉バイアス

Intersectional Bias in Causal Language Models ( http://arxiv.org/abs/2107.07691v1 )

ライセンス: CC BY-SA 4.0
Liam Magee, Lida Ghahremanlou, Karen Soldatic, and Shanthi Robertson(参考訳) 言語生成において交叉バイアスが観測できるかどうかを調べるため,1億1400万から270億のパラメータの範囲で \emph{GPT-2} と \emph{GPT-NEO} モデルを検証した。 我々は、最大3つの社会的カテゴリー(性別、宗教、障害)を無条件またはゼロショットのプロンプトに組み合わせて、感情を解析する文を生成する実験を行う。 以上の結果から, 自己回帰因果モデルを用いて実施した初期のテストが確認できた。 また、偏見が単一のカテゴリ(例)をターゲットにした手法に抵抗する理由も説明します。 性別、宗教、人種)は、しばしば微妙な方法で、結合した社会的カテゴリーによって引き起こされるテキストの中に現れることもある。 これらの困難に対処するために、技術とコミュニティに基づくアプローチは、複雑で交叉型言語モデルのバイアスを認識し、対処するために組み合わせる必要があると提案する。

To examine whether intersectional bias can be observed in language generation, we examine \emph{GPT-2} and \emph{GPT-NEO} models, ranging in size from 124 million to ~2.7 billion parameters. We conduct an experiment combining up to three social categories - gender, religion and disability - into unconditional or zero-shot prompts used to generate sentences that are then analysed for sentiment. Our results confirm earlier tests conducted with auto-regressive causal models, including the \emph{GPT} family of models. We also illustrate why bias may be resistant to techniques that target single categories (e.g. gender, religion and race), as it can also manifest, in often subtle ways, in texts prompted by concatenated social categories. To address these difficulties, we suggest technical and community-based approaches need to combine to acknowledge and address complex and intersectional language model bias.
翻訳日:2021-07-19 23:19:49 公開日:2021-07-16
# (参考訳) 時空間拡張を用いた遠隔心拍推定のための自己監督学習フレームワーク

Self-Supervised Learning Framework for Remote Heart Rate Estimation Using Spatiotemporal Augmentation ( http://arxiv.org/abs/2107.07695v1 )

ライセンス: CC BY 4.0
Hao Wang, Euijoon Ahn, Jinman Kim(参考訳) 最近の教師付き深層学習法では、顔画像を用いて心拍数をリモートで測定できることが示されている。 しかし、これらの教師付き手法の性能は、大規模ラベル付きデータの可用性に依存しており、3次元時空間情報を十分に活用しない2次元ディープラーニングアーキテクチャに限られている。 この問題を解決するために,顔画像上でのリモートHR推定のための3次元自己教師付き時空間学習フレームワークを提案する。 具体的には,シェーファーの2色反射モデルと,Nyquist-Shannonサンプリング定理を利用して信号モデリング能力を向上させる新しい空間拡張法により,顔を複数の情報部分に分割するランドマークベース空間拡張法を提案する。 提案手法を3つの公開データセットで評価し,他の自己教師あり手法を上回り,最先端教師付き手法と競合する精度を得た。

Recent supervised deep learning methods have shown that heart rate can be measured remotely using facial videos. However, the performance of these supervised method are dependent on the availability of large-scale labelled data and they have been limited to 2D deep learning architectures that do not fully exploit the 3D spatiotemporal information. To solve this problem, we present a novel 3D self-supervised spatiotemporal learning framework for remote HR estimation on facial videos. Concretely, we propose a landmark-based spatial augmentation which splits the face into several informative parts based on the Shafer's dichromatic reflection model and a novel sparsity-based temporal augmentation exploiting Nyquist-Shannon sampling theorem to enhance the signal modelling ability. We evaluated our method on 3 public datasets and outperformed other self-supervised methods and achieved competitive accuracy with the state-of-the-art supervised methods.
翻訳日:2021-07-19 22:59:31 公開日:2021-07-16
# (参考訳) 擬似ラベリング強化メディアバイアス検出

Pseudo-labelling Enhanced Media Bias Detection ( http://arxiv.org/abs/2107.07705v1 )

ライセンス: CC BY 4.0
Qin Ruan, Brian Mac Namee, Ruihai Dong(参考訳) より効果的なテキスト分類モデルを開発するためには、弱い、あるいは遠くの監督を通じてラベルのないデータを活用することが魅力的なアプローチである。 本稿では,疑似ラベルの考え方を生かして,ノイズの多い遠隔指導用アノテーションデータセットからサンプルを選択できる,単純かつ効果的なデータ拡張手法を提案する。 その結果,提案手法はバイアス付きニュース検出モデルの精度を向上することがわかった。

Leveraging unlabelled data through weak or distant supervision is a compelling approach to developing more effective text classification models. This paper proposes a simple but effective data augmentation method, which leverages the idea of pseudo-labelling to select samples from noisy distant supervision annotation datasets. The result shows that the proposed method improves the accuracy of biased news detection models.
翻訳日:2021-07-19 22:46:37 公開日:2021-07-16
# (参考訳) 新しい位置認識を伴う確率的出現-不変幾何分布

Probabilistic Appearance-Invariant Topometric Localization with New Place Awareness ( http://arxiv.org/abs/2107.07707v1 )

ライセンス: CC BY 4.0
Ming Xu, Tobias Fischer, Niko S\"underhauf, Michael Milford(参考訳) 確率的状態推定アプローチは、不完全な動きと外部受容センサデータのシーケンスを自然に統合するため、ローカライズシステムを設計するための基本となる。 近年, 外観不変視覚位置認識 (vpr) 法を主刺激センサとして用いた確率的位置推定システムが, 外観変化の存在下での最先端性能を実証している。 しかし,既存のシステム(1)では,移動モデル内でのドメトリデータを完全に活用できず,(2)クエリトラバースがマッピングトラバースを正確に繰り返すという仮定のため,経路ずれを処理できない。 これらの欠点に対処するため,動作モデルにフル3dofオドメトリーを組み込んだ新しい確率的トポロジカルローカライゼーションシステムを提案し,さらに,状態推定フレームワーク内に「オフマップ」状態を追加し,参照マップから重要な経路デトラクションを特徴付けるクエリトラバースを正常にローカライズする。 オックスフォード・ロボットカーのデータセットから得られた複数の問合せトラバースについて,先行する経路から有意な外観変化と逸脱の両方を示す広範な評価を行った。 特に,ループクロージャ検出とグローバルローカライゼーションという2つの実用的なローカライゼーションタスクの性能を評価する。 提案手法は,既存システムと改良型システムの両方に対して,大幅な性能向上を実現する。

Probabilistic state-estimation approaches offer a principled foundation for designing localization systems, because they naturally integrate sequences of imperfect motion and exteroceptive sensor data. Recently, probabilistic localization systems utilizing appearance-invariant visual place recognition (VPR) methods as the primary exteroceptive sensor have demonstrated state-of-the-art performance in the presence of substantial appearance change. However, existing systems 1) do not fully utilize odometry data within the motion models, and 2) are unable to handle route deviations, due to the assumption that query traverses exactly repeat the mapping traverse. To address these shortcomings, we present a new probabilistic topometric localization system which incorporates full 3-dof odometry into the motion model and furthermore, adds an "off-map" state within the state-estimation framework, allowing query traverses which feature significant route detours from the reference map to be successfully localized. We perform extensive evaluation on multiple query traverses from the Oxford RobotCar dataset exhibiting both significant appearance change and deviations from routes previously traversed. In particular, we evaluate performance on two practically relevant localization tasks: loop closure detection and global localization. Our approach achieves major performance improvements over both existing and improved state-of-the-art systems.
翻訳日:2021-07-19 22:43:38 公開日:2021-07-16
# (参考訳) 映像予測のための構造化モデルにおける解釈可能な潜在空間に向けて

Towards an Interpretable Latent Space in Structured Models for Video Prediction ( http://arxiv.org/abs/2107.07713v1 )

ライセンス: CC BY 4.0
Rushil Gupta, Vishal Sharma, Yash Jain, Yitao Liang, Guy Van den Broeck and Parag Singla(参考訳) 基礎となる物理力学が支配するビデオにおける将来のフレーム予測の課題に焦点をあてる。 我々はオブジェクト中心のモデル、すなわちオブジェクト表現を明示的に扱うモデルで作業し、潜在空間における損失を伝播する。 具体的には、Kipfらによる最近の研究に基づいている。 グラフニューラルネットワークを用いて、潜在空間におけるオブジェクトインタラクションの対照的な学習を通じて、次の状態を予測する。 一般の物理法則の形で、モデルに明示的な帰納バイアスを注入することは、モデルをより解釈可能にするだけでなく、モデル全体の予測を改善するのにも役立ちます。 自然な副産物として,トレーニング時の対象位置を明示的に監視することなく,画像中の実際の対象位置と密接に類似した特徴マップを学習できる。 物理エンジンの形で運動を支配する力学の完全な知識を仮定した初期の著作である \cite{jaques&al20} と比較すると、私たちは、位置と速度を持つ物体からなる世界のような一般の物理法則の知識のみに依存している。 そこで,本研究では,画素空間の損失をカリキュラム的に加味し,潜在空間予測をさらに洗練するための追加デコーダを提案する。 複数の異なる設定での実験では、Kipfなどがそうである。 モデルはオブジェクトのインタラクションを捉えるのに効果的であり、私たちのモデルはオブジェクトのローカライズにはるかに効果的になり、実験する4つのドメインのうち3つでパフォーマンスが向上します。 さらに、我々のモデルは、実際のオブジェクトの位置に似た、非常に予測不可能な特徴マップを学べる。

We focus on the task of future frame prediction in video governed by underlying physical dynamics. We work with models which are object-centric, i.e., explicitly work with object representations, and propagate a loss in the latent space. Specifically, our research builds on recent work by Kipf et al. \cite{kipf&al20}, which predicts the next state via contrastive learning of object interactions in a latent space using a Graph Neural Network. We argue that injecting explicit inductive bias in the model, in form of general physical laws, can help not only make the model more interpretable, but also improve the overall prediction of model. As a natural by-product, our model can learn feature maps which closely resemble actual object positions in the image, without having any explicit supervision about the object positions at the training time. In comparison with earlier works \cite{jaques&al20}, which assume a complete knowledge of the dynamics governing the motion in the form of a physics engine, we rely only on the knowledge of general physical laws, such as, world consists of objects, which have position and velocity. We propose an additional decoder based loss in the pixel space, imposed in a curriculum manner, to further refine the latent space predictions. Experiments in multiple different settings demonstrate that while Kipf et al. model is effective at capturing object interactions, our model can be significantly more effective at localising objects, resulting in improved performance in 3 out of 4 domains that we experiment with. Additionally, our model can learn highly intrepretable feature maps, resembling actual object positions.
翻訳日:2021-07-19 22:26:53 公開日:2021-07-16
# (参考訳) 人工知能を用いたcbm実験用シリコンマイクロストリップセンサの光学検査

Optical Inspection of the Silicon Micro-strip Sensors for the CBM Experiment employing Artificial Intelligence ( http://arxiv.org/abs/2107.07714v1 )

ライセンス: CC BY 4.0
E. Lavrik, M. Shiroya, H.R. Schmidt, A. Toia and J.M. Heuser(参考訳) 1191個のシリコンマイクロストリップセンサの光学検査をカスタムメイドの光学検査装置を用いて行い、欠陥解析とその後の品質保証に機械学習に基づくアプローチを用いた。 さらに,センサ表面のメトロジー制御を行った。 本論文では, 各種センサ表面欠陥の解析について述べる。 その中には、インプラントブレーク、pストップブレイク、アルミニウムストリップオープン、アルミニウムストリップショーツ、表面スクラッチ、ダブルメタリゼーション層欠陥、受動層欠陥、バイアス抵抗欠陥、ダスト粒子の同定などがある。 欠陥検出は、畳み込みディープニューラルネットワーク(CDNN)を用いて行われた。 このことから, 欠陥片と欠陥クラスターが同定され, センサ上の幾何学的位置を用いた欠陥の2次元マップが得られた。 センサ表面に存在する欠陥の合計数に基づいて,センサの全体的な品質評価と品質スコアの推定法を提案した。

Optical inspection of 1191 silicon micro-strip sensors was performed using a custom made optical inspection setup, employing a machine-learning based approach for the defect analysis and subsequent quality assurance. Furthermore, metrological control of the sensor's surface was performed. In this manuscript, we present the analysis of various sensor surface defects. Among these are implant breaks, p-stop breaks, aluminium strip opens, aluminium strip shorts, surface scratches, double metallization layer defects, passivation layer defects, bias resistor defects as well as dust particle identification. The defect detection was done using the application of Convolutional Deep Neural Networks (CDNNs). From this, defective strips and defect clusters were identified, as well as a 2D map of the defects using their geometrical positions on the sensor was performed. Based on the total number of defects found on the sensor's surface, a method for the estimation of sensor's overall quality grade and quality score was proposed.
翻訳日:2021-07-19 22:09:51 公開日:2021-07-16
# (参考訳) 弱監督下の多様な音環境における鳥類の認識

Recognizing bird species in diverse soundscapes under weak supervision ( http://arxiv.org/abs/2107.07728v1 )

ライセンス: CC BY 4.0
Christof Henkel, Pascal Pfeiffer and Philipp Singer(参考訳) 本研究では,複雑で多様なサウンドスケープにおける鳥の発声に対するロバストな分類手法を提案する。 本稿では,新しい拡張法によって補完される効率的なモデリングとトレーニングルーチンを用いて,事前学習された畳み込みニューラルネットワークをフル活用する方法を示す。 これにより、自動記録装置が収集した生産データに対して、弱いラベル付きクラウドソースデータの一般化が向上する。 そこで本研究では,人手によるアノテーションでは不可能な大規模な生物多様性モニタリングを実現するために,鳥の個体群の自動評価を正確に行う方法について述べる。

We present a robust classification approach for avian vocalization in complex and diverse soundscapes, achieving second place in the BirdCLEF2021 challenge. We illustrate how to make full use of pre-trained convolutional neural networks, by using an efficient modeling and training routine supplemented by novel augmentation methods. Thereby, we improve the generalization of weakly labeled crowd-sourced data to productive data collected by autonomous recording units. As such, we illustrate how to progress towards an accurate automated assessment of avian population which would enable global biodiversity monitoring at scale, impossible by manual annotation.
翻訳日:2021-07-19 21:57:06 公開日:2021-07-16
# (参考訳) EGC2: グラフ圧縮によるグラフ分類の強化

EGC2: Enhanced Graph Classification with Easy Graph Compression ( http://arxiv.org/abs/2107.07737v1 )

ライセンス: CC BY 4.0
Jinyin Chen, Dunjie Zhang, Zhaoyan Ming, Mingwei Jia, and Yi Liu(参考訳) グラフ分類はネットワーク分析において重要な役割を果たす。 また、敵攻撃のような潜在的なセキュリティ上の脅威に直面している。 いくつかの防御方法は、敵の訓練のような堅牢性のためにアルゴリズムの複雑さを犠牲にし、一方、スムーズな防御のようなクリーンな例のパフォーマンスを犠牲にする。 それらのほとんどは、高い複雑さまたは少ない転送能力に苦しめられている。 この問題に対処するため,簡単なグラフ圧縮を備えた拡張グラフ分類モデルであるEGC$^2$を提案した。 EGC$^2$は、特徴グラフの構築と集約ノードレベルの表現の改善によって、異なるノードの特徴間の関係をキャプチャする。 様々なグラフ分類モデルに適用されたより低い複雑性の防御を実現するため、EGC$^2$は、中央性に基づくエッジ重要度指数を用いてグラフを圧縮し、自明な構造をフィルタリングし、入力グラフの逆摂動さえも除去する。 7つのベンチマークデータセットの実験により,提案した特徴読み出し機構とグラフ圧縮機構により,様々な基本モデルの堅牢性が向上し,異なる敵攻撃の脅威に対する精度と堅牢性の最先端性能が達成された。

Graph classification plays a significant role in network analysis. It also faces potential security threat like adversarial attacks. Some defense methods may sacrifice algorithm complexity for robustness like adversarial training, while others may sacrifice the clean example performance such as smoothing-based defense. Most of them are suffered from high-complexity or less transferability. To address this problem, we proposed EGC$^2$, an enhanced graph classification model with easy graph compression. EGC$^2$ captures the relationship between features of different nodes by constructing feature graphs and improving aggregate node-level representation. To achieve lower complexity defense applied to various graph classification models, EGC$^2$ utilizes a centrality-based edge importance index to compress graphs, filtering out trivial structures and even adversarial perturbations of the input graphs, thus improves its robustness. Experiments on seven benchmark datasets demonstrate that the proposed feature read-out and graph compression mechanisms enhance the robustness of various basic models, thus achieving the state-of-the-art performance of accuracy and robustness in the threat of different adversarial attacks.
翻訳日:2021-07-19 21:47:15 公開日:2021-07-16
# (参考訳) MS-MDA:クロスオブジェクトとクロスセッション脳波の感情認識のためのマルチソース・マージナル分布適応

MS-MDA: Multisource Marginal Distribution Adaptation for Cross-subject and Cross-session EEG Emotion Recognition ( http://arxiv.org/abs/2107.07740v1 )

ライセンス: CC BY 4.0
Hao Chen, Ming Jin, Zhunan Li, Cunhang Fan, Jinpeng Li and Huiguang He(参考訳) 精神疾患の診断とリハビリに欠かせない要素として、脳波に基づく感情認識(EEG)は、高い精度と信頼性のために大きな進歩を遂げている。 しかし、実用性への障害の1つは、主題とセッション間のばらつきにある。 この問題を解決するためにいくつかの研究がドメイン適応(DA)アプローチを採用しているが、そのほとんどは異なる主題やセッションからの複数のEEGデータを単一のソースドメインとして扱い、ソースが一定の限界分布を持つというドメイン適応の仮定を満たさないか、適応の困難を増すかのいずれかである。 そこで我々は,脳波感情認識のためのマルチソース境界分布適応法(MS-MDA)を提案する。 まず、異なるEEGデータが同じ低レベルな特徴を共有していると仮定し、複数のEEGデータソースドメインに対して独立したブランチを構築して、1対1のドメイン適応を採用し、ドメイン固有の特徴を抽出する。 最後に、推論は複数のブランチによって行われる。 3つの感情を認識するためのseed-ivとseed-ivの評価を行った。 実験の結果,MS-MDAは,我々の設定におけるクロスセッションおよびクロスオブジェクト転送シナリオにおいて,比較手法と最先端モデルよりも優れていた。 https://github.com/VoiceBeer/MS-MDA

As an essential element for the diagnosis and rehabilitation of psychiatric disorders, the electroencephalogram (EEG) based emotion recognition has achieved significant progress due to its high precision and reliability. However, one obstacle to practicality lies in the variability between subjects and sessions. Although several studies have adopted domain adaptation (DA) approaches to tackle this problem, most of them treat multiple EEG data from different subjects and sessions together as a single source domain for transfer, which either fails to satisfy the assumption of domain adaptation that the source has a certain marginal distribution, or increases the difficulty of adaptation. We therefore propose the multi-source marginal distribution adaptation (MS-MDA) for EEG emotion recognition, which takes both domain-invariant and domain-specific features into consideration. First, we assume that different EEG data share the same low-level features, then we construct independent branches for multiple EEG data source domains to adopt one-to-one domain adaptation and extract domain-specific features. Finally, the inference is made by multiple branches. We evaluate our method on SEED and SEED-IV for recognizing three and four emotions, respectively. Experimental results show that the MS-MDA outperforms the comparison methods and state-of-the-art models in cross-session and cross-subject transfer scenarios in our settings. Codes at https://github.com/VoiceBeer/MS-MDA.
翻訳日:2021-07-19 21:18:27 公開日:2021-07-16
# (参考訳) 生成モデルにおける公平性の測定

Measuring Fairness in Generative Models ( http://arxiv.org/abs/2107.07754v1 )

ライセンス: CC BY 4.0
Christopher T.H Teo and Ngai-Man Cheung(参考訳) 深層生成モデルによって、トレーニングの安定性と生成データの質が向上する。 近年,深層データに対する公平性への関心が高まっている。 公平性は多くのアプリケーションにおいて重要である。 法執行機関は 偏見が効果に影響を与える 公正データ生成の中心は、異なる生成モデルの評価と評価のための公正度指標である。 本稿では,先行研究で提案した公平度指標をまずレビューし,潜在的な弱点を明らかにする。 次に、代替メトリクスの評価とともにパフォーマンスベンチマークフレームワークについて議論する。

Deep generative models have made much progress in improving training stability and quality of generated data. Recently there has been increased interest in the fairness of deep-generated data. Fairness is important in many applications, e.g. law enforcement, as biases will affect efficacy. Central to fair data generation are the fairness metrics for the assessment and evaluation of different generative models. In this paper, we first review fairness metrics proposed in previous works and highlight potential weaknesses. We then discuss a performance benchmark framework along with the assessment of alternative metrics.
翻訳日:2021-07-19 20:58:15 公開日:2021-07-16
# (参考訳) 初期化のエントロピー的代替

Entropic alternatives to initialization ( http://arxiv.org/abs/2107.07757v1 )

ライセンス: CC BY 4.0
Daniele Musso(参考訳) 局所エントロピー損失関数は、アーキテクチャ認識正規化手順を定義するための汎用フレームワークを提供する。 シナプス空間における異方性の可能性に加えて、損失関数の局所的なエントロピー滑らか化は訓練中に変化し、調整可能なモデル複雑性をもたらす。 トレーニングの初期段階で正規化が強く、その後徐々にフェードアウトするスコーピングプロトコルは、ディープ畳み込みニューラルネットワークの標準的な初期化手順の代替となるが、それでもより広い適用性を有する。 統計物理学と情報理論の言語における異方的局所的エントロピーな平滑化を解析し,その解釈と働きの両方について洞察を与える。 我々は、再正規化の物理と畳み込みネットワークの時空構造に関するいくつかの側面を論じる。

Local entropic loss functions provide a versatile framework to define architecture-aware regularization procedures. Besides the possibility of being anisotropic in the synaptic space, the local entropic smoothening of the loss function can vary during training, thus yielding a tunable model complexity. A scoping protocol where the regularization is strong in the early-stage of the training and then fades progressively away constitutes an alternative to standard initialization procedures for deep convolutional neural networks, nonetheless, it has wider applicability. We analyze anisotropic, local entropic smoothenings in the language of statistical physics and information theory, providing insight into both their interpretation and workings. We comment some aspects related to the physics of renormalization and the spacetime structure of convolutional networks.
翻訳日:2021-07-19 20:44:49 公開日:2021-07-16
# (参考訳) Know Deeper:オープンドメイン対話生成のための知識対話サイクル利用メカニズム

Know Deeper: Knowledge-Conversation Cyclic Utilization Mechanism for Open-domain Dialogue Generation ( http://arxiv.org/abs/2107.07771v1 )

ライセンス: CC BY 4.0
Yajing Sun, Yue Hu, Luxi Xing, Yuqiang Xie, Xiangpeng Wei(参考訳) エンドツーエンドのインテリジェントなニューラルダイアログシステムは、一貫性のない繰り返し応答を生成する問題に悩まされる。 既存の対話モデルは、一方的に個人的知識を対話に取り入れることに注意を払い、一方的個性に関連した会話情報を、二者間情報フローがその後の会話の質を高めると捉えた個人的知識に組み込むという事実を無視している。 また,会話レベルでの個人的知識利用の制御も不可欠である。 本稿では,会話の一貫性の向上と2つの折りたたみによる反復の緩和を目的とした,会話適応型多視点人格認識応答生成モデルを提案する。 まず,複数の視点から会話の一貫性を検討する。 ペルソナプロファイルの視点から,パーソナライズされた知識を各会話に反復的に取り入れるだけでなく,会話からパーソナライズされた情報を取り込んで,パーソナライズされた知識意味表現を強化する新たなインタラクションモジュールをデザインする。 発話スタイルの観点からは、スピーキングスタイルベクトルを導入し、スピーキングスタイルの一貫性を保つためにデコーダに供給する。 会話の繰り返しを避けるために,個人の知識利用の活性化を追跡するためのカバレッジメカニズムを考案する。 自動評価と人的評価の両方の実験は、過去のモデルよりもモデルの優位性を検証する。

End-to-End intelligent neural dialogue systems suffer from the problems of generating inconsistent and repetitive responses. Existing dialogue models pay attention to unilaterally incorporating personal knowledge into the dialog while ignoring the fact that incorporating the personality-related conversation information into personal knowledge taken as the bilateral information flow boosts the quality of the subsequent conversation. Besides, it is indispensable to control personal knowledge utilization over the conversation level. In this paper, we propose a conversation-adaption multi-view persona aware response generation model that aims at enhancing conversation consistency and alleviating the repetition from two folds. First, we consider conversation consistency from multiple views. From the view of the persona profile, we design a novel interaction module that not only iteratively incorporates personalized knowledge into each turn conversation but also captures the personality-related information from conversation to enhance personalized knowledge semantic representation. From the view of speaking style, we introduce the speaking style vector and feed it into the decoder to keep the speaking style consistency. To avoid conversation repetition, we devise a coverage mechanism to keep track of the activation of personal knowledge utilization. Experiments on both automatic and human evaluation verify the superiority of our model over previous models.
翻訳日:2021-07-19 20:29:58 公開日:2021-07-16
# (参考訳) DoReMi: ユニバーサルなOMRデータセットを初めて見る

DoReMi: First glance at a universal OMR dataset ( http://arxiv.org/abs/2107.07786v1 )

ライセンス: CC BY 4.0
Elona Shatri and Gy\"orgy Fazekas(参考訳) 光音楽認識(omr)の主な課題は、文章音楽の性質、その複雑さ、適切なデータ表現を見つけることの難しさである。 本稿では,これらの課題に対処するOMRデータセットであるDoReMiと,その有用性を評価するためのベースラインオブジェクト検出モデルについて述べる。 研究者はしばしば、既存のデータがより広範な研究を満足していないため、小さな段階の後にOMRにアプローチする。 メタデータをより多く提示することで、この傾向を変える可能性を検討する。 したがって、DoReMiは2つの既存のデータセット、DeepScoresとMUSCIMA++との調和を可能にする。 DoReMiは音楽表記ソフトウェアを用いて生成され、OMR研究に有用なメタデータを備えた6400枚のプリントされた楽譜を含む。 我々のデータセットはOMRメタデータ、MIDI、MEI、MusicXML、PNGファイルを提供し、それぞれがOMRの異なるステージを支援する。 データの半分を用いた物体検出において平均平均精度(mAP)は64%であった。 さらに作業には、カスタムのOMRモデルを満たすために、作成プロセスを通じて再設定も含まれる。 OMRの主な課題を解決したとは思っていませんが、このデータセットは最終的にその目標に役立つ、新たな議論のコースを開きます。

The main challenges of Optical Music Recognition (OMR) come from the nature of written music, its complexity and the difficulty of finding an appropriate data representation. This paper provides a first look at DoReMi, an OMR dataset that addresses these challenges, and a baseline object detection model to assess its utility. Researchers often approach OMR following a set of small stages, given that existing data often do not satisfy broader research. We examine the possibility of changing this tendency by presenting more metadata. Our approach complements existing research; hence DoReMi allows harmonisation with two existing datasets, DeepScores and MUSCIMA++. DoReMi was generated using a music notation software and includes over 6400 printed sheet music images with accompanying metadata useful in OMR research. Our dataset provides OMR metadata, MIDI, MEI, MusicXML and PNG files, each aiding a different stage of OMR. We obtain 64% mean average precision (mAP) in object detection using half of the data. Further work includes re-iterating through the creation process to satisfy custom OMR models. While we do not assume to have solved the main challenges in OMR, this dataset opens a new course of discussions that would ultimately aid that goal.
翻訳日:2021-07-19 20:19:24 公開日:2021-07-16
# (参考訳) IoTデバイス識別の再検討

Revisiting IoT Device Identification ( http://arxiv.org/abs/2107.07818v1 )

ライセンス: CC BY 4.0
Roman Kolcun, Diana Andreea Popescu, Vadim Safronov, Poonam Yadav, Anna Maria Mandalari, Richard Mortier, Hamed Haddadi(参考訳) Internet-of-Things(IoT)デバイスは多くのセキュリティ問題の原因として知られており、自動化された管理の恩恵を受けるだろう。 これは、適切なネットワークセキュリティポリシーを適用するために、ロバストなデバイス識別を必要とする。 他の研究者が提案したアプローチを活用しながら、ネットワークの振る舞いに基づいてIoTデバイスを正確に識別する方法を検討することで、この問題に対処する。 これまで提案してきた4種類の機械学習モデル(ツリーベースとニューラルネットワークベース)の精度をiotデバイス識別のために比較した。 大規模なiotテストベッドから6ヶ月にわたって収集されたパケットトレースデータを使用する。 トレーニングしたモデルと同じデータセットで評価すると,すべてのモデルで高い精度が得られたが,トレーニングセット外のデータに基づいて評価すると,その精度は経時的に低下する。 モデルの平均精度は、数週間後に最大40パーセンテージ(平均12パーセンテージから21パーセンテージ)で低下する。 モデルの精度を高いレベルに保つためには、これらを継続的に更新する必要がある、と我々は主張する。

Internet-of-Things (IoT) devices are known to be the source of many security problems, and as such, they would greatly benefit from automated management. This requires robustly identifying devices so that appropriate network security policies can be applied. We address this challenge by exploring how to accurately identify IoT devices based on their network behavior, while leveraging approaches previously proposed by other researchers. We compare the accuracy of four different previously proposed machine learning models (tree-based and neural network-based) for identifying IoT devices. We use packet trace data collected over a period of six months from a large IoT test-bed. We show that, while all models achieve high accuracy when evaluated on the same dataset as they were trained on, their accuracy degrades over time, when evaluated on data collected outside the training set. We show that on average the models' accuracy degrades after a couple of weeks by up to 40 percentage points (on average between 12 and 21 percentage points). We argue that, in order to keep the models' accuracy at a high level, these need to be continuously updated.
翻訳日:2021-07-19 20:10:18 公開日:2021-07-16
# (参考訳) カルトサットDEMのグラニュロメトリーに基づく粗さ対策の理論解析

A Theoretical Analysis of Granulometry-based Roughness Measures on Cartosat DEMs ( http://arxiv.org/abs/2107.07827v1 )

ライセンス: CC BY 4.0
Nagajothi Kannan, Sravan Danda, Aditya Challa, and Daya Sagar B S(参考訳) 河川などの水域の研究は、リモートセンシングコミュニティにおいて重要な問題である。 物理特性を反映した有意義な量的特徴は、河川の形成と進化をよりよく理解するのに役立ちます。 通常、河川のサブベースはカルトサット・デジタル標高モデル (Cartosat Digital Elevation Models, DEMs) を用いて解析される。 河川サブベースで有用な地質学的特徴の1つは、DEMの粗さの測定値である。 しかし、我々の知る限りでは、粗さ測定の理論的分析に関する文献はほとんどない。 本稿では,数理形態学における多スケールグラニュロメトリー(MDGI)を応用したDEMデータの粗さ尺度を再検討する。 この尺度は、グレースケール画像の形状解析に古典的に用いられた。 初期の研究において, MDGIは, 特定の方向に沿って河川サブバスンの特徴的な表面粗さを捉えるために導入された。 また, MDGIsを効率的に計算し, 河川サブバスンの分類に有用であることが知られている。 本稿ではMDGIの理論的解析について述べる。 特に、MDGIが不変であるDEMの構造について、非自明な十分条件を特徴づける。 これらの性質は、いくつかの架空のDEMで示される。 また、DEMの体積の離散微分への接続も提供する。 これらの関係に基づき,MDGIを粗さ尺度とみなす理由を直感的に考察する。 さらに,下流域,ウォーダ川,バーマー川サブベースについて,提案手法がサブベースの特性を捉えていることを示す実験を行った。

The study of water bodies such as rivers is an important problem in the remote sensing community. A meaningful set of quantitative features reflecting the geophysical properties help us better understand the formation and evolution of rivers. Typically, river sub-basins are analysed using Cartosat Digital Elevation Models (DEMs), obtained at regular time epochs. One of the useful geophysical features of a river sub-basin is that of a roughness measure on DEMs. However, to the best of our knowledge, there is not much literature available on theoretical analysis of roughness measures. In this article, we revisit the roughness measure on DEM data adapted from multiscale granulometries in mathematical morphology, namely multiscale directional granulometric index (MDGI). This measure was classically used to obtain shape-size analysis in greyscale images. In earlier works, MDGIs were introduced to capture the characteristic surficial roughness of a river sub-basin along specific directions. Also, MDGIs can be efficiently computed and are known to be useful features for classification of river sub-basins. In this article, we provide a theoretical analysis of a MDGI. In particular, we characterize non-trivial sufficient conditions on the structure of DEMs under which MDGIs are invariant. These properties are illustrated with some fictitious DEMs. We also provide connections to a discrete derivative of volume of a DEM. Based on these connections, we provide intuition as to why a MDGI is considered a roughness measure. Further, we experimentally illustrate on Lower-Indus, Wardha, and Barmer river sub-basins that the proposed features capture the characteristics of the river sub-basin.
翻訳日:2021-07-19 19:53:44 公開日:2021-07-16
# (参考訳) 高次元マルチタスク回帰におけるchi-squareと正規推論

Chi-square and normal inference in high-dimensional multi-task regression ( http://arxiv.org/abs/2107.07828v1 )

ライセンス: CC BY 4.0
Pierre C Bellec, Gabriel Romon(参考訳) 本論文は,マルチタスク(mt)線形モデルにおける未知係数行列 $b^*$ of size $p\times t$,$p$ covariates, $t$ tasks, $n$ observations に対するchi-squareおよび正規推定手法を提案する。 row-sparsity $s$, dimension $p$, and number of tasks $t$は$n$で成長することができる。 高次元のレジーム $p\ggg n$ では、行スパーシティを活用するために MT Lasso を考える。 我々は、刑罰によって引き起こされる偏見を正すため、脱バイアス方式でMTラッソの上に構築する。 このスキームでは、異なるタスクにおけるノイズベクトルと残差の効果的な相関をキャプチャする、相互作用行列と呼ばれる新しいデータ駆動オブジェクトを導入する必要がある。 この行列は psd で、$T\times T$ であり、効率的に計算できる。 相互作用行列は、ガウス設計の下での漸近正規と$\chi^2_T$の結果とフロベニウスノルムの一貫性に対応する$\frac{sT+s\log(p/s)}{n}\to0$を導出する。 これらの漸近分布の結果は、単一のエントリに対して$B^*$と、既知の設計共分散に対して$B^*$の単一行に対して有効な信頼楕円体に対して$Sigma$である。 While previous proposals in grouped-variables regression require row-sparsity $s\lesssim\sqrt n$ up to constants depending on $T$ and logarithmic factors in $n,p$, the de-biasing scheme using the interaction matrix provides confidence intervals and $\chi^2_T$ confidence ellipsoids under the conditions ${\min(T^2,\log^8p)}/{n}\to 0$ and $$ \frac{sT+s\log(p/s)+\|\Sigma^{-1}e_j\|_0\log p}{n}\to0, \quad \frac{\min(s,\|\Sigma^{-1}e_j\|_0)}{\sqrt n} \sqrt{[T+\log(p/s)]\log p}\to 0, $$ allowing row-sparsity $s\ggg\sqrt n$ when $\|\Sigma^{-1}e_j\|_0 \sqrt T\lll \sqrt{n}$ up to logarithmic factors.

The paper proposes chi-square and normal inference methodologies for the unknown coefficient matrix $B^*$ of size $p\times T$ in a Multi-Task (MT) linear model with $p$ covariates, $T$ tasks and $n$ observations under a row-sparse assumption on $B^*$. The row-sparsity $s$, dimension $p$ and number of tasks $T$ are allowed to grow with $n$. In the high-dimensional regime $p\ggg n$, in order to leverage row-sparsity, the MT Lasso is considered. We build upon the MT Lasso with a de-biasing scheme to correct for the bias induced by the penalty. This scheme requires the introduction of a new data-driven object, coined the interaction matrix, that captures effective correlations between noise vector and residuals on different tasks. This matrix is psd, of size $T\times T$ and can be computed efficiently. The interaction matrix lets us derive asymptotic normal and $\chi^2_T$ results under Gaussian design and $\frac{sT+s\log(p/s)}{n}\to0$ which corresponds to consistency in Frobenius norm. These asymptotic distribution results yield valid confidence intervals for single entries of $B^*$ and valid confidence ellipsoids for single rows of $B^*$, for both known and unknown design covariance $\Sigma$. While previous proposals in grouped-variables regression require row-sparsity $s\lesssim\sqrt n$ up to constants depending on $T$ and logarithmic factors in $n,p$, the de-biasing scheme using the interaction matrix provides confidence intervals and $\chi^2_T$ confidence ellipsoids under the conditions ${\min(T^2,\log^8p)}/{n}\to 0$ and $$ \frac{sT+s\log(p/s)+\|\Sigma^{-1}e_j\|_0\log p}{n}\to0, \quad \frac{\min(s,\|\Sigma^{-1}e_j\|_0)}{\sqrt n} \sqrt{[T+\log(p/s)]\log p}\to 0, $$ allowing row-sparsity $s\ggg\sqrt n$ when $\|\Sigma^{-1}e_j\|_0 \sqrt T\lll \sqrt{n}$ up to logarithmic factors.
翻訳日:2021-07-19 19:40:30 公開日:2021-07-16
# (参考訳) 論文推薦システムにおけるユーザ行動のモデル化

Modeling User Behaviour in Research Paper Recommendation System ( http://arxiv.org/abs/2107.07831v1 )

ライセンス: CC BY 4.0
Arpita Chaudhuri, Debasis Samanta, Monalisa Sarma(参考訳) 動的に変化するユーザの意図は、レコメンデーションシステムの設計において、ユーザをモデリングする上で重要な要素であると考えられている。 最近の研究は、ユーザーの好み(ユーザーが好きなもの)を超えて、ユーザーの意図(ユーザーが望むもの)を予測することに焦点が当てられている。 そこで本研究では,より深い逐次的話題分析に基づくユーザ意図モデルを提案する。 モデルは、興味のあるトピックの観点から、ユーザの意図を予測する。 The Hybrid Topic Model (HTM) consistnt Dirichlet Allocation (LDA) and Word2Vec is proposed to derived the topic of interest of users and the history of preferences。 htmは、単語間の構文的および意味的相関を含む単語話題分布を推定する論文の真の話題を見つける。 次に,ユーザの意図をモデル化するために,長期記憶(lstm)に基づく逐次ディープラーニングモデルを提案する。 このモデルは、時間的文脈、すなわちユーザーが目にする2つの連続する論文のクリック間の時間差を考慮している。 実世界の論文データセットを用いた広範な実験は、提案されたアプローチが最先端の手法を大きく上回っていることを示している。 さらに,提案手法では,研究論文推薦システムの設計に適したユーザアクティビティをモデル化する新たなロードマップを提案する。

User intention which often changes dynamically is considered to be an important factor for modeling users in the design of recommendation systems. Recent studies are starting to focus on predicting user intention (what users want) beyond user preference (what users like). In this work, a user intention model is proposed based on deep sequential topic analysis. The model predicts a user's intention in terms of the topic of interest. The Hybrid Topic Model (HTM) comprising Latent Dirichlet Allocation (LDA) and Word2Vec is proposed to derive the topic of interest of users and the history of preferences. HTM finds the true topics of papers estimating word-topic distribution which includes syntactic and semantic correlations among words. Next, to model user intention, a Long Short Term Memory (LSTM) based sequential deep learning model is proposed. This model takes into account temporal context, namely the time difference between clicks of two consecutive papers seen by a user. Extensive experiments with the real-world research paper dataset indicate that the proposed approach significantly outperforms the state-of-the-art methods. Further, the proposed approach introduces a new road map to model a user activity suitable for the design of a research paper recommendation system.
翻訳日:2021-07-19 19:38:16 公開日:2021-07-16
# (参考訳) 明示的なアライメント推定を伴わないプログレッシブディープビデオデハジング

Progressive Deep Video Dehazing without Explicit Alignment Estimation ( http://arxiv.org/abs/2107.07837v1 )

ライセンス: CC BY 4.0
Runde Li(参考訳) ビデオデハージングの問題を解決するために、隣接するフレームを基準フレームに合わせる方法、参照フレームを復元する方法の2つの主要なタスクが達成される。 一部の論文では、マルコフランダム場、光学フロー、変形可能な畳み込み、3D畳み込みといった明示的なアプローチを採用して、特徴空間や画像空間における参照フレームと隣り合うフレームを整列させ、最終的な退化結果を達成するために様々な復元手法を用いる。 本稿では,ビデオデハージングのための進行的アライメントと復元手法を提案する。 このアライメントプロセスは、光フロー推定を使わずに連続する隣接フレームステージを段階的に整列する。 復元プロセスはアライメントプロセス下で実施されるだけでなく、改良ネットワークを使用してネットワーク全体の脱ハージング性能を向上させる。 提案ネットワークは4つの融合ネットワークと1つの改良ネットワークを含む。 ネットワークのパラメータを減らすために、第1の融合段階における3つの融合ネットワークは同じパラメータを共有する。 広汎な実験により,提案手法は最先端の手法に対して優れた性能を発揮することが示された。

To solve the issue of video dehazing, there are two main tasks to attain: how to align adjacent frames to the reference frame; how to restore the reference frame. Some papers adopt explicit approaches (e.g., the Markov random field, optical flow, deformable convolution, 3D convolution) to align neighboring frames with the reference frame in feature space or image space, they then use various restoration methods to achieve the final dehazing results. In this paper, we propose a progressive alignment and restoration method for video dehazing. The alignment process aligns consecutive neighboring frames stage by stage without using the optical flow estimation. The restoration process is not only implemented under the alignment process but also uses a refinement network to improve the dehazing performance of the whole network. The proposed networks include four fusion networks and one refinement network. To decrease the parameters of networks, three fusion networks in the first fusion stage share the same parameters. Extensive experiments demonstrate that the proposed video dehazing method achieves outstanding performance against the-state-of-art methods.
翻訳日:2021-07-19 19:24:35 公開日:2021-07-16
# (参考訳) 知識グラフ埋め込みに関する調査とその応用

A Survey of Knowledge Graph Embedding and Their Applications ( http://arxiv.org/abs/2107.07842v1 )

ライセンス: CC BY 4.0
Shivani Choudhary, Tarun Luthra, Ashima Mittal, Rajat Singh(参考訳) 知識グラフ埋め込みは知識を表現するための多用途技術を提供する。 これらの技術は知識グラフの完成など,不足情報予測やレコメンダシステム,質問応答,クエリ拡張など,さまざまなアプリケーションで使用することができる。 構造化されているものの、知識グラフに埋め込まれた情報は、現実世界のアプリケーションでの使用が困難である。 知識グラフの埋め込みにより、現実世界のアプリケーションが情報を消費してパフォーマンスを向上させることができる。 知識グラフ埋め込みは活発な研究分野である。 組込み方式の多くは構造に基づく情報に重点を置いている。 近年の研究では、テキストベースの情報と画像ベースの情報をエンティティ埋め込みに含めるように境界を広げている。 文脈情報による表現を強化する努力がなされている。 本稿では、単純な翻訳モデルからリッチメントモデルへのKG埋め込みの分野の成長を紹介する。 本稿では実世界のアプリケーションにおける知識グラフの有用性について述べる。

Knowledge Graph embedding provides a versatile technique for representing knowledge. These techniques can be used in a variety of applications such as completion of knowledge graph to predict missing information, recommender systems, question answering, query expansion, etc. The information embedded in Knowledge graph though being structured is challenging to consume in a real-world application. Knowledge graph embedding enables the real-world application to consume information to improve performance. Knowledge graph embedding is an active research area. Most of the embedding methods focus on structure-based information. Recent research has extended the boundary to include text-based information and image-based information in entity embedding. Efforts have been made to enhance the representation with context information. This paper introduces growth in the field of KG embedding from simple translation-based models to enrichment-based models. This paper includes the utility of the Knowledge graph in real-world applications.
翻訳日:2021-07-19 19:08:16 公開日:2021-07-16
# (参考訳) 高速学習による可変モジュール型ニューラルロコモーション制御

Versatile modular neural locomotion control with fast learning ( http://arxiv.org/abs/2107.07844v1 )

ライセンス: CC BY 4.0
Mathias Thor, Poramate Manoonpong(参考訳) 脚のあるロボットは、高度に非構造な環境で作動する大きな可能性を秘めている。 しかし、移動制御の設計は依然として難しい。 現在、コントローラーは特定のロボットやタスクのために手動で設計するか、長いトレーニング時間と大きな不透明なコントローラを必要とする機械学習メソッドで自動的に設計されなければならない。 動物の動きからインスピレーションを得て,高速学習によるシンプルかつ多目的なモジュラーニューラルコントロール構造を提案する。 このアプローチの主な利点は、行動特異的な制御モジュールを漸進的に追加して、より複雑な緊急移動動作を得ることができ、既存のモジュールと対面する神経接続を迅速かつ自動的に学習できることです。 一連の実験で、8つのモジュールを迅速に学習し、ベースコントロールモジュールに追加することで、ヘキサポッドロボットが複雑な環境でナビゲートできる創発的適応行動を得る方法を示した。 また、残りのコントローラの機能に影響を与えることなく、操作中にモジュールの追加や削除ができることを示す。 最後に、物理的な六足歩行ロボットで制御手法が実証された。 本研究は,複合ロボットシステムのための多目的神経移動制御の高速自動設計に向けた重要なステップを明らかにする。

Legged robots have significant potential to operate in highly unstructured environments. The design of locomotion control is, however, still challenging. Currently, controllers must be either manually designed for specific robots and tasks, or automatically designed via machine learning methods that require long training times and yield large opaque controllers. Drawing inspiration from animal locomotion, we propose a simple yet versatile modular neural control structure with fast learning. The key advantages of our approach are that behavior-specific control modules can be added incrementally to obtain increasingly complex emergent locomotion behaviors, and that neural connections interfacing with existing modules can be quickly and automatically learned. In a series of experiments, we show how eight modules can be quickly learned and added to a base control module to obtain emergent adaptive behaviors allowing a hexapod robot to navigate in complex environments. We also show that modules can be added and removed during operation without affecting the functionality of the remaining controller. Finally, the control approach was successfully demonstrated on a physical hexapod robot. Taken together, our study reveals a significant step towards fast automatic design of versatile neural locomotion control for complex robotic systems.
翻訳日:2021-07-19 18:56:33 公開日:2021-07-16
# (参考訳) 意味とロバストなアルゴリズムに関する因果的視点

A Causal Perspective on Meaningful and Robust Algorithmic Recourse ( http://arxiv.org/abs/2107.07853v1 )

ライセンス: CC BY-SA 4.0
Gunnar K\"onig, Timo Freiesleben, Moritz Grosse-Wentrup(参考訳) アルゴリズムによる説明は、好ましくない予測を逆転する方法を利害関係者に通知する。 しかし、一般的にMLモデルは介入分布においてうまく予測できない。 したがって、望ましい方法で予測を変更するアクションは、基盤となるターゲットの改善に繋がることはないかもしれない。 このようなリコースは、モデル修正にとって有意義でもロバストでもない。 karimiらによる作品の拡張。 (2021) 予測と目標の両方を改善する行動のみを推奨する有意義なアルゴリズム・リコース(MAR)を提案する。 この選択制約を、モデル監査と意味のある行動可能な説明の違いを強調して正当化する。 さらに, ある仮定の下では, 対象の因果に対する介入のみを許すことで, 有意義な言動が得られる, 効果的なアルゴリズム・リコース(EAR)と呼ばれるMARの緩和を導入する。

Algorithmic recourse explanations inform stakeholders on how to act to revert unfavorable predictions. However, in general ML models do not predict well in interventional distributions. Thus, an action that changes the prediction in the desired way may not lead to an improvement of the underlying target. Such recourse is neither meaningful nor robust to model refits. Extending the work of Karimi et al. (2021), we propose meaningful algorithmic recourse (MAR) that only recommends actions that improve both prediction and target. We justify this selection constraint by highlighting the differences between model audit and meaningful, actionable recourse explanations. Additionally, we introduce a relaxation of MAR called effective algorithmic recourse (EAR), which, under certain assumptions, yields meaningful recourse by only allowing interventions on causes of the target.
翻訳日:2021-07-19 18:55:24 公開日:2021-07-16
# (参考訳) Metric Learning を用いた遺伝子組み換えDNAの分類

Ranking labs-of-origin for genetically engineered DNA using Metric Learning ( http://arxiv.org/abs/2107.07878v1 )

ライセンス: CC BY 4.0
I. Muniz, F. H. F. Camargo and A. Marques(参考訳) 遺伝子工学の絶え間ない進歩により、共通の関心事は遺伝子組み換えDNAシークエンスを同定できることである。 そのため、AltLabsは遺伝子工学属性チャレンジを開催し、多くのチームを集めてこの問題を解決する新しいツールを提案している。 ここでは、最も可能性の高い実験室をランク付けし、DNA配列と実験室の埋め込みを生成する方法を示す。 これらの埋め込みは、DNA配列とラボの両方をクラスタリングしたり、他の問題を解決するために機械学習モデルの機能として使用するなど、さまざまなタスクを実行することもできる。 本研究は,本手法が他の有用な情報を生成しつつ,従来の学習方法よりも優れていることを示す。

With the constant advancements of genetic engineering, a common concern is to be able to identify the lab-of-origin of genetically engineered DNA sequences. For that reason, AltLabs has hosted the genetic Engineering Attribution Challenge to gather many teams to propose new tools to solve this problem. Here we show our proposed method to rank the most likely labs-of-origin and generate embeddings for DNA sequences and labs. These embeddings can also perform various other tasks, like clustering both DNA sequences and labs and using them as features for Machine Learning models applied to solve other problems. This work demonstrates that our method outperforms the classic training method for this task while generating other helpful information.
翻訳日:2021-07-19 18:45:54 公開日:2021-07-16
# (参考訳) single pass entrywise-transformed low rank approximation

Single Pass Entrywise-Transformed Low Rank Approximation ( http://arxiv.org/abs/2107.07889v1 )

ライセンス: CC BY 4.0
Yifei Jiang, Yi Li, Yiming Sun, Jiaxin Wang, David P. Woodruff(参考訳) 自然言語処理やコンピュータビジョンのようなアプリケーションでは、大きな$n \times d$ matrix $a = (a_{i,j})$ が与えられ、行列分解(例えば、低ランク近似)の関数 $f(a) = (f(a_{i,j}))$ の計算が求められる。 非常に重要な特殊ケースは、可能性関数 $f\left(A \right ) = \log{\left( \left| a_{ij}\right| +1\right)}$ である。 これを行う自然な方法は、単に$a$の各エントリに$f$を適用して、行列の分解を計算することであるが、これは$a$のすべてと複数のエントリへのパスを格納する必要がある。 Liang et al.\ の最近の研究は、$f(A)$ for a $n \times n$ matrix $A$ using only $n \cdot \operatorname{poly}(\epsilon^{-1}k\log n)$ words of memory, with overall error $10\|f(A)-[f(A)]_k\|_F^2 + \operatorname{poly}(\epsilon/k) \|f(A)\|_{1,2}^2$, where $[f(A)]_k$ is the best rank-k$approximation to $f(A)$ and $\|f(A)\|_{1,2}^2$ square of the sum of the row of $f(A)$2$であることを示している。 彼らのアルゴリズムは$a$のエントリを3回パスする。 著者らは、$n \cdot \operatorname{poly}(\epsilon^{-1}k\log n)$$A$のエントリを1回だけパスするだけで、アルゴリズムを得るというオープンな疑問を提起する。 本稿では,この問題に対する最初のシングルパスアルゴリズムと,Liangらによって研究された関数のクラス$f$について,このオープンな問題を解く。 さらに、我々の誤差は $\|f(A)-[f(A)]_k\|_F^2 + \operatorname{poly}(\epsilon/k) \|f(A)\|_F^2$, ここで $\|f(A)\|_F^2$ は$f(A)$の行のユークリッド長の平方の和である。 したがって、この誤差は10$と$\|f(A)\|_F^2 \leq \|f(A)\|_{1,2}^2$の係数を除去するので、かなり小さい。 また、前回の作業でエラーを指摘して回帰のアルゴリズムを与え、その結果を実証的に検証する。

In applications such as natural language processing or computer vision, one is given a large $n \times d$ matrix $A = (a_{i,j})$ and would like to compute a matrix decomposition, e.g., a low rank approximation, of a function $f(A) = (f(a_{i,j}))$ applied entrywise to $A$. A very important special case is the likelihood function $f\left( A \right ) = \log{\left( \left| a_{ij}\right| +1\right)}$. A natural way to do this would be to simply apply $f$ to each entry of $A$, and then compute the matrix decomposition, but this requires storing all of $A$ as well as multiple passes over its entries. Recent work of Liang et al.\ shows how to find a rank-$k$ factorization to $f(A)$ for an $n \times n$ matrix $A$ using only $n \cdot \operatorname{poly}(\epsilon^{-1}k\log n)$ words of memory, with overall error $10\|f(A)-[f(A)]_k\|_F^2 + \operatorname{poly}(\epsilon/k) \|f(A)\|_{1,2}^2$, where $[f(A)]_k$ is the best rank-$k$ approximation to $f(A)$ and $\|f(A)\|_{1,2}^2$ is the square of the sum of Euclidean lengths of rows of $f(A)$. Their algorithm uses three passes over the entries of $A$. The authors pose the open question of obtaining an algorithm with $n \cdot \operatorname{poly}(\epsilon^{-1}k\log n)$ words of memory using only a single pass over the entries of $A$. In this paper we resolve this open question, obtaining the first single-pass algorithm for this problem and for the same class of functions $f$ studied by Liang et al. Moreover, our error is $\|f(A)-[f(A)]_k\|_F^2 + \operatorname{poly}(\epsilon/k) \|f(A)\|_F^2$, where $\|f(A)\|_F^2$ is the sum of squares of Euclidean lengths of rows of $f(A)$. Thus our error is significantly smaller, as it removes the factor of $10$ and also $\|f(A)\|_F^2 \leq \|f(A)\|_{1,2}^2$. We also give an algorithm for regression, pointing out an error in previous work, and empirically validate our results.
翻訳日:2021-07-19 18:39:48 公開日:2021-07-16
# (参考訳) 物体放射界の教師なし発見

Unsupervised Discovery of Object Radiance Fields ( http://arxiv.org/abs/2107.07905v1 )

ライセンス: CC BY 4.0
Hong-Xing Yu, Leonidas J. Guibas, Jiajun Wu(参考訳) 本研究では,1つの画像からオブジェクト中心のシーン表現を推定する問題について検討し,画像形成過程を説明する表現を導出し,シーンの3D特性を捉え,監督なしに学習する。 シーン分解における既存の手法の多くは、複雑な3D-to-2D画像生成プロセスをディープネットワークのような強力な推論手法に統合するという根本的な課題のために、これらの特徴を欠いている。 本稿では,物体放射場(uORF)の非教師的発見を提案し,ニューラル3次元シーン表現の最近の進歩と,教師なし3次元シーン分解のための深部推論ネットワークとのレンダリングを統合する。 アノテーションのないマルチビューRGBイメージに基づいて、uORFは複雑なシーンを1つの画像から多様でテクスチャ化された背景で分解することを学ぶ。 我々は,uORFが教師なしの3次元シーンセグメンテーション,新しいビュー合成,3つのデータセットのシーン編集に優れていることを示す。

We study the problem of inferring an object-centric scene representation from a single image, aiming to derive a representation that explains the image formation process, captures the scene's 3D nature, and is learned without supervision. Most existing methods on scene decomposition lack one or more of these characteristics, due to the fundamental challenge in integrating the complex 3D-to-2D image formation process into powerful inference schemes like deep networks. In this paper, we propose unsupervised discovery of Object Radiance Fields (uORF), integrating recent progresses in neural 3D scene representations and rendering with deep inference networks for unsupervised 3D scene decomposition. Trained on multi-view RGB images without annotations, uORF learns to decompose complex scenes with diverse, textured background from a single image. We show that uORF performs well on unsupervised 3D scene segmentation, novel view synthesis, and scene editing on three datasets.
翻訳日:2021-07-19 17:56:12 公開日:2021-07-16
# (参考訳) 畳み込み時間注意ネットワークを用いた衛星画像時系列のパンオプティカルセグメンテーション

Panoptic Segmentation of Satellite Image Time Series with Convolutional Temporal Attention Networks ( http://arxiv.org/abs/2107.07933v1 )

ライセンス: CC BY 4.0
Vivien Sainte Fare Garnot and Loic Landrieu(参考訳) 前代未聞の衛星画像へのアクセスにより、様々な地球観測タスクの新しい視点が開けた。 その中でも、農業用パルセールの画素優先のパンオプティカルセグメンテーションは、経済的および環境的な影響が大きい。 研究者は単一の画像に対してこの問題を探求してきたが、作物表現学の複雑な時間パターンは画像の時間的シーケンスでよりうまく対処できると論じている。 本稿では,衛星画像時系列(SITS)のパノプティカルセグメンテーションのための,エンド・ツー・エンドの単一ステージ方式を提案する。 このモジュールは,時間的自己アテンションに依存する新たな画像シーケンス符号化ネットワークと組み合わせることで,リッチで適応的な複数スケールの時空間特徴を抽出できる。 PASTISは、パン光学アノテーションを用いた最初のオープンアクセスSITSデータセットである。 複数の競合するアーキテクチャに対するセマンティックセグメンテーションのためのエンコーダの優位性を実証し、sitsのpanopticセグメンテーションの最初の最先端を設定する。 私たちの実装とPASTISは公開されています。

Unprecedented access to multi-temporal satellite imagery has opened new perspectives for a variety of Earth observation tasks. Among them, pixel-precise panoptic segmentation of agricultural parcels has major economic and environmental implications. While researchers have explored this problem for single images, we argue that the complex temporal patterns of crop phenology are better addressed with temporal sequences of images. In this paper, we present the first end-to-end, single-stage method for panoptic segmentation of Satellite Image Time Series (SITS). This module can be combined with our novel image sequence encoding network which relies on temporal self-attention to extract rich and adaptive multi-scale spatio-temporal features. We also introduce PASTIS, the first open-access SITS dataset with panoptic annotations. We demonstrate the superiority of our encoder for semantic segmentation against multiple competing architectures, and set up the first state-of-the-art of panoptic segmentation of SITS. Our implementation and PASTIS are publicly available.
翻訳日:2021-07-19 17:40:22 公開日:2021-07-16
# (参考訳) 対人攻撃に対するフェイクニュースの自動検出法はどの程度脆弱か?

How Vulnerable Are Automatic Fake News Detection Methods to Adversarial Attacks? ( http://arxiv.org/abs/2107.07970v1 )

ライセンス: CC BY 4.0
Camille Koenders, Johannes Filla, Nicolai Schneider, Vinicius Woloszyn(参考訳) 近年、インターネット上での偽情報の拡散が激化しており、偽ニュースの自動検出にますます注目が集まっている。 偽ニュース検出手法はすでにかなり成功している。 それでも、検出アルゴリズムにはまだ多くの脆弱性がある。 その理由は、偽ニュース発行者が、検出アルゴリズムが偽ニュースとしてこのテキストを公開しないように、そのテキストを構造化して定式化できるからだ。 本稿では,偽ニュースを検知するために訓練された最先端モデルを自動的に攻撃することで,これらを脆弱なものにすることができることを示す。 この目的のために、対応するモデルをデータセットに基づいてトレーニングした。 そして、テキスト攻撃を用いて、トレーニングされたモデルを、以前に正しく識別された偽ニュースを真のニュースとして分類するように操作する試みが行われた。 その結果,Fake Newsの検出メカニズムを自動で回避することができ,既存の政策イニシアチブに影響を及ぼす可能性が示唆された。

As the spread of false information on the internet has increased dramatically in recent years, more and more attention is being paid to automated fake news detection. Some fake news detection methods are already quite successful. Nevertheless, there are still many vulnerabilities in the detection algorithms. The reason for this is that fake news publishers can structure and formulate their texts in such a way that a detection algorithm does not expose this text as fake news. This paper shows that it is possible to automatically attack state-of-the-art models that have been trained to detect Fake News, making these vulnerable. For this purpose, corresponding models were first trained based on a dataset. Then, using Text-Attack, an attempt was made to manipulate the trained models in such a way that previously correctly identified fake news was classified as true news. The results show that it is possible to automatically bypass Fake News detection mechanisms, leading to implications concerning existing policy initiatives.
翻訳日:2021-07-19 17:19:41 公開日:2021-07-16
# (参考訳) west frisian の pos tagging, lemmatization および dependency parsing

POS tagging, lemmatization and dependency parsing of West Frisian ( http://arxiv.org/abs/2107.07974v1 )

ライセンス: CC BY 4.0
Wilbert Heeringa, Gosse Bouma, Martha Hofman, Eduard Drenth, Jan Wijffels, Hans Van de Velde(参考訳) We present a lemmatizer/POS-tagger/dependency parser for West Frisian using a corpus of 44,714 words in 3,126 sentences that was annotated by the Guidelines of Universal Dependency Version 2。 POSタグはオランダ語のPOSタグを用いて単語に割り当てられ、文字通りの単語単位の翻訳やオランダ語のパラレルテキストの文に適用される。 フリジア語訳プログラム Oersetter を用いて作成したリテラル翻訳を用いて、最良の結果を得た。 形態学的および構文的注釈は、文字通りのオランダ語訳にも基づいて作成された。 デフォルトパラメータを用いたトレーニング時のlemmatizer/tagger/annotatorの性能は、lassysmall ud 2.5コーパスのトレーニングに使用されたパラメータ値を使用して得られたパフォーマンスと比較した。 lemma'に対する大幅な改善が見られた。 Frisian lemmatizer/PoS tagger/dependency parserはWebアプリおよびWebサービスとしてリリースされた。

We present a lemmatizer/POS-tagger/dependency parser for West Frisian using a corpus of 44,714 words in 3,126 sentences that were annotated according to the guidelines of Universal Dependency version 2. POS tags were assigned to words by using a Dutch POS tagger that was applied to a literal word-by-word translation, or to sentences of a Dutch parallel text. Best results were obtained when using literal translations that were created by using the Frisian translation program Oersetter. Morphologic and syntactic annotations were generated on the basis of a literal Dutch translation as well. The performance of the lemmatizer/tagger/annotator when it was trained using default parameters was compared to the performance that was obtained when using the parameter values that were used for training the LassySmall UD 2.5 corpus. A significant improvement was found for `lemma'. The Frisian lemmatizer/PoS tagger/dependency parser is released as a web app and as a web service.
翻訳日:2021-07-19 17:09:39 公開日:2021-07-16
# (参考訳) 混合ガウス領域適応による半教師あり3次元超解像分割法

Joint Semi-supervised 3D Super-Resolution and Segmentation with Mixed Adversarial Gaussian Domain Adaptation ( http://arxiv.org/abs/2107.07975v1 )

ライセンス: CC BY 4.0
Nicolo Savioli, Antonio de Marvao, Wenjia Bai, Shuo Wang, Stuart A. Cook, Calvin W.L. Chin, Daniel Rueckert, Declan P. O'Regan(参考訳) 心臓構造と機能の解析を最適化するには、正確な形状と運動の3D表現が必要である。 しかし、心臓磁気共鳴イメージングなどの技術は、従来、平面解像度の低い連続断面積スライスと、スライス間空間不整合の可能性に限られていた。 医療画像の超解像は、画像の解像度を上げることを目的としているが、従来は低解像度データセットの特徴に基づいて訓練されており、対応するセグメンテーションを超解像しない。 本稿では,高分解能3次元シネマとセグメンテーションの基底的真理を用いて画像とラベルの同時超解像を行う半教師付きマルチタスク生成逆ネットワーク (gemini-gan) を提案し,非教師なし変分逆混合オートエンコーダ (v-ama) を連続ドメイン適応に使用する。 提案手法は,1,331人と205人の2つの多民族間集団において広く評価され,ダイス指数,ピーク信号と雑音比,構造類似度指標を用いて,技術手法の状態を改善した。 このフレームワークはまた、外部検証(左室のdice index 0.81対 0.74)におけるアートジェネレーティブドメイン適応モデルの性能を上回っている。 このことは、クロスドメインの一般化による3次元地下構造データに基づいて訓練された関節の超解像とセグメンテーションが、多様な個体群における堅牢な高精度表現を可能にすることを示す。

Optimising the analysis of cardiac structure and function requires accurate 3D representations of shape and motion. However, techniques such as cardiac magnetic resonance imaging are conventionally limited to acquiring contiguous cross-sectional slices with low through-plane resolution and potential inter-slice spatial misalignment. Super-resolution in medical imaging aims to increase the resolution of images but is conventionally trained on features from low resolution datasets and does not super-resolve corresponding segmentations. Here we propose a semi-supervised multi-task generative adversarial network (Gemini-GAN) that performs joint super-resolution of the images and their labels using a ground truth of high resolution 3D cines and segmentations, while an unsupervised variational adversarial mixture autoencoder (V-AMA) is used for continuous domain adaptation. Our proposed approach is extensively evaluated on two transnational multi-ethnic populations of 1,331 and 205 adults respectively, delivering an improvement on state of the art methods in terms of Dice index, peak signal to noise ratio, and structural similarity index measure. This framework also exceeds the performance of state of the art generative domain adaptation models on external validation (Dice index 0.81 vs 0.74 for the left ventricle). This demonstrates how joint super-resolution and segmentation, trained on 3D ground-truth data with cross-domain generalization, enables robust precision phenotyping in diverse populations.
翻訳日:2021-07-19 16:59:38 公開日:2021-07-16
# (参考訳) S2TA:エネルギー効率の良いモバイルCNN高速化のための構造空間の爆発

S2TA: Exploiting Structured Sparsity for Energy-Efficient Mobile CNN Acceleration ( http://arxiv.org/abs/2107.07983v1 )

ライセンス: CC BY 4.0
Zhi-Gang Liu, Paul N. Whatmough, Yuhao Zhu, Matthew Mattina(参考訳) sparsityの利用は、モバイルデバイス上で量子化畳み込みニューラルネットワーク(cnn)の推論を加速する上で重要な技術である。 以前のスパースCNNアクセラレーターは、非構造的空間を多く利用し、大幅なスピードアップを実現している。 しかし、非有界で予測不可能な空間パターンのため、非構造化の空間性を利用するには、かなりのエネルギーと面積オーバーヘッドを持つ複雑なハードウェア設計が必要であり、特にエネルギーと面積効率が不可欠であるモバイル/IoT推論シナリオに有害である。 本稿では,より具体的には,重みとアクティベーションの両方に対して密度結合ブロック(dbb)のスパーシティを活用することを提案する。 DBBブロックテンソルはブロック当たりのゼロでない最大数を制限している。 これにより、DBBは静的に予測可能なスパンサーティパターンを公開し、リーンスパンサーティ露光ハードウェアを実現する。 我々は,(静的)重みと(動的)アクティベーションに対してdbbスパーシティを実装するための新しいハードウェアプリミティブを提案する。 プリミティブの上に構築されたS2TAは、従来のシストリックアレイでは利用できない、結合重みとアクティベーションDBB空間と新しいデータ再利用の次元を利用する、シストリックアレイベースのCNNアクセラレータである。 16nmのS2TAは、0値のクロックゲーティングを持つサイストリックアレイの強いベースラインと比較して、2倍以上のスピードアップとエネルギー削減を達成する。 最近の非シストリックスパース加速器であるeyeriss v2 (65nm) とsparten (45nm) と比較して、65nmのs2taは、それぞれ2.2倍と3.1倍のエネルギーを消費している。

Exploiting sparsity is a key technique in accelerating quantized convolutional neural network (CNN) inference on mobile devices. Prior sparse CNN accelerators largely exploit un-structured sparsity and achieve significant speedups. Due to the unbounded, largely unpredictable sparsity patterns, however, exploiting unstructured sparsity requires complicated hardware design with significant energy and area overhead, which is particularly detrimental to mobile/IoT inference scenarios where energy and area efficiency are crucial. We propose to exploit structured sparsity, more specifically, Density Bound Block (DBB) sparsity for both weights and activations. DBB block tensors bound the maximum number of non-zeros per block. DBB thus exposes statically predictable sparsity patterns that enable lean sparsity-exploiting hardware. We propose new hardware primitives to implement DBB sparsity for (static) weights and (dynamic) activations, respectively, with very low overheads. Building on top of the primitives, we describe S2TA, a systolic array-based CNN accelerator that exploits joint weight and activation DBB sparsity and new dimensions of data reuse unavailable on the traditional systolic array. S2TA in 16nm achieves more than 2x speedup and energy reduction compared to a strong baseline of a systolic array with zero-value clock gating, over five popular CNN benchmarks. Compared to two recent non-systolic sparse accelerators, Eyeriss v2 (65nm) and SparTen (45nm), S2TA in 65nm uses about 2.2x and 3.1x less energy per inference, respectively.
翻訳日:2021-07-19 16:32:53 公開日:2021-07-16
# (参考訳) 材料特性の機械学習モデルに対する不確かさ予測

Uncertainty Prediction for Machine Learning Models of Material Properties ( http://arxiv.org/abs/2107.07997v1 )

ライセンス: CC BY 4.0
Francesca Tavazza, Brian De Cost, Kamal Choudhary(参考訳) 人工知能(AI)による材料特性の予測の不確実性定量化は、材料科学におけるAIアプリケーションの成功と信頼性において極めて重要である。 機械学習(ML)モデルでは、信頼区間が一般的に報告されるが、予測間隔、すなわち予測の不確実性の評価は、ほとんど利用できない。 本研究では、3つの異なるアプローチを比較して、それらの個々の不確かさを12mlの物理的性質でテストする。 具体的には,量子化損失関数を用いて,予測間隔を直接学習し,ガウス過程を用いて検討した。 私たちはそれぞれのアプローチの長所と短所を特定し、最も適合しやすいため、個々の不確実性のモデリングを少しだけ優先し、多くの場合、予測したエラーの過度かつ過小評価を最小限に抑えます。 トレーニングとテストのすべてのデータは、JARVIS-DFTデータベースから取得され、予測間隔を計算するために開発されたコードは、JARVIS-Toolsを通じて利用可能である。

Uncertainty quantification in Artificial Intelligence (AI)-based predictions of material properties is of immense importance for the success and reliability of AI applications in material science. While confidence intervals are commonly reported for machine learning (ML) models, prediction intervals, i.e., the evaluation of the uncertainty on each prediction, are seldomly available. In this work we compare 3 different approaches to obtain such individual uncertainty, testing them on 12 ML-physical properties. Specifically, we investigated using the Quantile loss function, machine learning the prediction intervals directly and using Gaussian Processes. We identify each approachs advantages and disadvantages and end up slightly favoring the modeling of the individual uncertainties directly, as it is the easiest to fit and, in most cases, minimizes over-and under-estimation of the predicted errors. All data for training and testing were taken from the publicly available JARVIS-DFT database, and the codes developed for computing the prediction intervals are available through JARVIS-Tools.
翻訳日:2021-07-19 16:03:22 公開日:2021-07-16
# (参考訳) SOK:Twitterユーザーの信頼度を評価する

SOK: Seeing and Believing: Evaluating the Trustworthiness of Twitter Users ( http://arxiv.org/abs/2107.08027v1 )

ライセンス: CC BY 4.0
Tanveer Khan, Antonis Michalas(参考訳) Twitterのようなソーシャルネットワークやマイクロブログサービスは、デジタル情報の共有において重要な役割を果たす。 ソーシャルメディアの人気と有用性にもかかわらず、腐敗したユーザーが、例えばユーザーの信頼性を高めたり下げたりすることで、それを悪用する方法を見つけた例は数多くある。 その結果、ソーシャルメディアは情報へのアクセスを前例のない容易さで促進する一方で、共有情報の信頼性を確認するという新たな課題ももたらした。 現時点では、どのニュースやユーザが信頼できるか、そうでないかを判断する自動化方法がない。 そのため、ソーシャルメディア利用者の信頼度を計測できるシステムを確立することが重要な課題となっている。 信頼度スコアをユーザーに割り当てることによって、研究コミュニティだけでなく、業界側ではFacebook、社会党側では政党など、双方の大手プレイヤーの関心を喚起している。 この研究で我々は、最終的にソーシャルネットワークコミュニティにおける信頼の高まりを促進、支援するモデルを作成しました。 我々のモデルはデータを集め、twitter上の約5万人の政治家の行動を分析した。 評価された各ユーザに対して,いくつかの特徴に基づいて影響スコアを割り当てた。 さらに,政治Twitterユーザを,ランダムな森林,多層パーセプトロン,サポートベクターマシンを用いて信頼あるいは信頼されていないと分類した。 アクティブな学習モデルを用いて,データセットから不明瞭な記録を分類した。 最後に,提案モデルの性能を評価するために,主評価指標として精度,リコール,F1スコア,精度を用いた。

Social networking and micro-blogging services, such as Twitter, play an important role in sharing digital information. Despite the popularity and usefulness of social media, there have been many instances where corrupted users found ways to abuse it, as for instance, through raising or lowering user's credibility. As a result, while social media facilitates an unprecedented ease of access to information, it also introduces a new challenge - that of ascertaining the credibility of shared information. Currently, there is no automated way of determining which news or users are credible and which are not. Hence, establishing a system that can measure the social media user's credibility has become an issue of great importance. Assigning a credibility score to a user has piqued the interest of not only the research community but also most of the big players on both sides - such as Facebook, on the side of industry, and political parties on the societal one. In this work, we created a model which, we hope, will ultimately facilitate and support the increase of trust in the social network communities. Our model collected data and analysed the behaviour of~50,000 politicians on Twitter. Influence score, based on several chosen features, was assigned to each evaluated user. Further, we classified the political Twitter users as either trusted or untrusted using random forest, multilayer perceptron, and support vector machine. An active learning model was used to classify any unlabelled ambiguous records from our dataset. Finally, to measure the performance of the proposed model, we used precision, recall, F1 score, and accuracy as the main evaluation metrics.
翻訳日:2021-07-19 15:50:39 公開日:2021-07-16
# (参考訳) グラフカーネル注意変換器

Graph Kernel Attention Transformers ( http://arxiv.org/abs/2107.07999v1 )

ライセンス: CC BY 4.0
Krzysztof Choromanski, Han Lin, Haoxian Chen, Jack Parker-Holder(参考訳) 我々は,グラフカーネル,注目に基づくネットワークと構造的先行概念,さらに最近では,低階分解技術を用いて,小さなメモリフットプリントを暗黙の注意法で適用した効率的なトランスフォーマーアーキテクチャといった,これまで独立に研究されてきたいくつかの概念を組み合わせることで,新しいグラフニューラルネットワーク(GNN)のクラスを導入する。 論文の目標は2倍です。 グラフカーネルアテンショントランスフォーマー(GKAT)は、単一のレイヤ内で長距離依存関係をモデリングできるため、SOTA GNNよりもはるかに表現力がある。 その結果、より浅いアーキテクチャ設計を使うことができる。 さらに、gkatの注意層は入力グラフのノード数を2乗的にではなく線形にスケールし、これらのグラフが密度が高い場合でも、通常のグラフの注意層よりも計算量が少なくなる。 グラフ上のランダムウォークによるランダムな特徴写像分解を許容するグラフカーネルの新しいクラスを適用することで実現している。 提案手法の副産物として,トポロジカルグラフ特性とノードの特徴をコンパクトに符号化するグラクトと呼ばれる,学習可能なグラフスケッチの新たなクラスを得る。 本手法は,モチーフ検出からソーシャルネットワーク分類,バイオインフォマティクスの課題まで,gkatsから得られる一貫した成果を示す9種類のgnnクラスと徹底的に比較した。

We introduce a new class of graph neural networks (GNNs), by combining several concepts that were so far studied independently - graph kernels, attention-based networks with structural priors and more recently, efficient Transformers architectures applying small memory footprint implicit attention methods via low rank decomposition techniques. The goal of the paper is twofold. Proposed by us Graph Kernel Attention Transformers (or GKATs) are much more expressive than SOTA GNNs as capable of modeling longer-range dependencies within a single layer. Consequently, they can use more shallow architecture design. Furthermore, GKAT attention layers scale linearly rather than quadratically in the number of nodes of the input graphs, even when those graphs are dense, requiring less compute than their regular graph attention counterparts. They achieve it by applying new classes of graph kernels admitting random feature map decomposition via random walks on graphs. As a byproduct of the introduced techniques, we obtain a new class of learnable graph sketches, called graphots, compactly encoding topological graph properties as well as nodes' features. We conducted exhaustive empirical comparison of our method with nine different GNN classes on tasks ranging from motif detection through social network classification to bioinformatics challenges, showing consistent gains coming from GKATs.
翻訳日:2021-07-19 15:29:08 公開日:2021-07-16
# 道路型分類のためのグラフ表現学習

Graph Representation Learning for Road Type Classification ( http://arxiv.org/abs/2107.07791v1 )

ライセンス: Link先を確認
Zahra Gharaee and Shreyas Kowshik and Oliver Stromann and Michael Felsberg(参考訳) 本稿では,最先端のグラフ畳み込みニューラルネットワークを用いた道路網のグラフ表現に関する新しい学習手法を提案する。 このアプローチは、オープンストリートマップから17都市の現実の道路網に適用できる。 エッジ機能は道路ネットワークの記述グラフ表現を生成する上で不可欠であるが、グラフ畳み込みネットワークは通常ノード機能のみに依存する。 線グラフ変換を適用することで, 高い代表性を持つエッジ機能をこれらのネットワークに統合できることを示す。 また,局所的近傍と大域的近傍の両方からなる位相的近傍に基づく近傍サンプリング手法を提案する。 本研究では,帰納的および帰納的タスクと教師なし学習において,異なる種類の近傍集約関数を用いた学習表現の性能を比較する。 さらに,新たなアグリゲーション手法であるグラフ注意同型ネットワーク,GAINを提案する。 その結果,gainは道路型分類問題において最先端手法よりも優れていることがわかった。

We present a novel learning-based approach to graph representations of road networks employing state-of-the-art graph convolutional neural networks. Our approach is applied to realistic road networks of 17 cities from Open Street Map. While edge features are crucial to generate descriptive graph representations of road networks, graph convolutional networks usually rely on node features only. We show that the highly representative edge features can still be integrated into such networks by applying a line graph transformation. We also propose a method for neighborhood sampling based on a topological neighborhood composed of both local and global neighbors. We compare the performance of learning representations using different types of neighborhood aggregation functions in transductive and inductive tasks and in supervised and unsupervised learning. Furthermore, we propose a novel aggregation approach, Graph Attention Isomorphism Network, GAIN. Our results show that GAIN outperforms state-of-the-art methods on the road type classification problem.
翻訳日:2021-07-19 14:50:18 公開日:2021-07-16
# tapex:neural sql executorの学習によるテーブル事前トレーニング

TAPEX: Table Pre-training via Learning a Neural SQL Executor ( http://arxiv.org/abs/2107.07653v1 )

ライセンス: Link先を確認
Qian Liu and Bei Chen and Jiaqi Guo and Zeqi Lin and Jian-guang Lou(参考訳) 近年、事前訓練された言語モデルは、自然言語文と(半)構造化テーブルのモデリングに成功している。 しかし、既存のテーブル事前学習技術は、常にデータ品質が低く、事前学習効率が低い。 本稿では,実行可能SQLクエリの自動合成によって得られる合成コーパス上で,ニューラルネットワークのSQLエグゼキュータを学習することにより,テーブル事前学習を実現する方法を示す。 合成コーパスの事前学習により、我々のアプローチであるTAPEXはダウンストリームタスクの性能を劇的に向上させ、既存の言語モデルを少なくとも19.5%向上させる。 一方、TAPEXはトレーニング前の効率が著しく高く、トレーニング前の小さなコーパスを使用すると強い結果が得られる。 実験結果から,TAPEXは従来のテーブル事前学習手法を大きなマージンで上回り,WikiSQLの表記精度を89.6%(+4.9%),WikiTableQuestionsの表記精度を57.5%(+4.8%),SQAの表記精度を74.5%(+3.5%),TabFactの精度を84.6%(+3.6%)とした。 我々の研究は、合成可能プログラムを事前学習することで構造化データを推論する方法を開放する。

Recent years pre-trained language models hit a success on modeling natural language sentences and (semi-)structured tables. However, existing table pre-training techniques always suffer from low data quality and low pre-training efficiency. In this paper, we show that table pre-training can be realized by learning a neural SQL executor over a synthetic corpus, which is obtained by automatically synthesizing executable SQL queries. By pre-training on the synthetic corpus, our approach TAPEX dramatically improves the performance on downstream tasks, boosting existing language models by at most 19.5%. Meanwhile, TAPEX has remarkably high pre-training efficiency and yields strong results when using a small pre-trained corpus. Experimental results demonstrate that TAPEX outperforms previous table pre-training approaches by a large margin, and our model achieves new state-of-the-art results on four well-known datasets, including improving the WikiSQL denotation accuracy to 89.6% (+4.9%), the WikiTableQuestions denotation accuracy to 57.5% (+4.8%), the SQA denotation accuracy to 74.5% (+3.5%), and the TabFact accuracy to 84.6% (+3.6%). Our work opens the way to reason over structured data by pre-training on synthetic executable programs.
翻訳日:2021-07-19 14:49:37 公開日:2021-07-16
# 時系列のニューラルネットワークによる異常検出

Neural Contextual Anomaly Detection for Time Series ( http://arxiv.org/abs/2107.07702v1 )

ライセンス: Link先を確認
Chris U. Carmona, Fran\c{c}ois-Xavier Aubet, Valentin Flunkert, Jan Gasthaus(参考訳) 我々は,教師なしから教師付き設定までシームレスにスケールする時系列の異常検出フレームワークであるNeural Contextual Anomaly Detection (NCAD)を導入し,一変量および多変量時系列の両方に適用する。 これは、多変量時系列の表現学習における最近の発展と、時系列設定に合わせたコンピュータビジョンのために開発された深部異常検出技術とを効果的に組み合わせることによって達成される。 ウィンドウベースのアプローチは、利用可能なデータに汎用的な合成異常を注入することにより、正規クラスと異常クラスの境界を学習しやすくする。 さらに,本手法は,ドメイン知識として,あるいはセミ教師付き環境でのトレーニングラベルとして,利用可能なすべての情報を効果的に活用することができる。 提案手法は,これらの環境での最先端性能を実証的に示す。

We introduce Neural Contextual Anomaly Detection (NCAD), a framework for anomaly detection on time series that scales seamlessly from the unsupervised to supervised setting, and is applicable to both univariate and multivariate time series. This is achieved by effectively combining recent developments in representation learning for multivariate time series, with techniques for deep anomaly detection originally developed for computer vision that we tailor to the time series setting. Our window-based approach facilitates learning the boundary between normal and anomalous classes by injecting generic synthetic anomalies into the available data. Moreover, our method can effectively take advantage of all the available information, be it as domain knowledge, or as training labels in the semi-supervised setting. We demonstrate empirically on standard benchmark datasets that our approach obtains a state-of-the-art performance in these settings.
翻訳日:2021-07-19 14:48:34 公開日:2021-07-16
# マーク付き時間点過程の半教師付き学習

Semi-supervised Learning for Marked Temporal Point Processes ( http://arxiv.org/abs/2107.07729v1 )

ライセンス: Link先を確認
Shivshankar Reddy, Anand Vir Singh Chauhan, Maneet Singh, and Karamjit Singh(参考訳) 時間的ポイントプロセス(TPP)は、しばしば発生時刻に応じて順序付けられたイベントのシーケンスを表すために使用される。 柔軟な性質のため、TPPは様々なシナリオをモデル化するのに使われ、様々な現実世界のアプリケーションに適用性を示している。 TPPはイベント発生のモデル化に重点を置いているが、MTPP(Marked Temporal Point Process)はイベントのカテゴリやクラス(マーカーとして定義される)のモデリングにも重点を置いている。 MTPPの研究はここ数年で大きな注目を集めており、教師付きアルゴリズムに重点を置いている。 研究の焦点にもかかわらず、アルゴリズムがラベル付きデータとラベルなしデータの混合にアクセスする半教師付き設定でソリューションを開発するという難しい問題に対して、限られた注意が向けられている。 本研究では,マーク付き時間点プロセス(SSL-MTPP)のための半教師付き学習アルゴリズムを提案する。 SSL-MTPPアルゴリズムはラベル付きデータとラベルなしデータを組み合わせてロバストなマーカー予測モデルを学習する。 提案アルゴリズムは、RNNベースのEncoder-Decoderモジュールを用いて、時間列の効率的な表現を学習する。 提案アルゴリズムの有効性はRetweetデータセット上の複数のプロトコルを用いて実証されており、SSL-MTPPでは従来の教師付き学習手法と比較して性能が向上している。

Temporal Point Processes (TPPs) are often used to represent the sequence of events ordered as per the time of occurrence. Owing to their flexible nature, TPPs have been used to model different scenarios and have shown applicability in various real-world applications. While TPPs focus on modeling the event occurrence, Marked Temporal Point Process (MTPP) focuses on modeling the category/class of the event as well (termed as the marker). Research in MTPP has garnered substantial attention over the past few years, with an extensive focus on supervised algorithms. Despite the research focus, limited attention has been given to the challenging problem of developing solutions in semi-supervised settings, where algorithms have access to a mix of labeled and unlabeled data. This research proposes a novel algorithm for Semi-supervised Learning for Marked Temporal Point Processes (SSL-MTPP) applicable in such scenarios. The proposed SSL-MTPP algorithm utilizes a combination of labeled and unlabeled data for learning a robust marker prediction model. The proposed algorithm utilizes an RNN-based Encoder-Decoder module for learning effective representations of the time sequence. The efficacy of the proposed algorithm has been demonstrated via multiple protocols on the Retweet dataset, where the proposed SSL-MTPP demonstrates improved performance in comparison to the traditional supervised learning approach.
翻訳日:2021-07-19 14:48:19 公開日:2021-07-16
# 冷間開始時の不均衡データストリームにおけるオンライントレーニングのためのアクティブラーニング

Active learning for online training in imbalanced data streams under cold start ( http://arxiv.org/abs/2107.07724v1 )

ライセンス: Link先を確認
Ricardo Barata, Miguel Leite, Ricardo Pacheco, Marco O. P. Sampaio, Jo\~ao Tiago Ascens\~ao, Pedro Bizarro(参考訳) ラベル付きデータは、予測モデリングに機械学習(ML)に依存する現代システムにおいて不可欠である。 このようなシステムはコールドスタートの問題に苦しむ可能性がある:教師付きモデルがうまく機能するが、最初はラベルがなく、費用がかかるか遅い。 この問題は、不均衡なデータシナリオにおいてさらに悪化する。 オンラインの金融詐欺検出は、ラベリングが次の例である: i) 高価、またはii) 被害者が苦情を申し立てる場合、長い遅れに苦しむ。 モデルが直ちに実施される必要がある場合、後者は実行できない可能性があるため、コストを制御するアノテーションの数を最小限に抑えながら、アナリストにイベントにラベルを付けるオプションがある。 コールドスタートストリーミングシナリオにおいて,クラス不均衡の桁数を持つデータセットに対するアクティブラーニング(al)アノテーションシステムを提案する。 本稿では,計算効率の高い異常値に基づく判別alアプローチ(odal)を提案し,それをウォームアップとして用いる新しい3段階のalラベリングポリシを設計する。 次に,4つの実世界データセットにおいて,クラス不均衡の様々な等級で実証研究を行う。 その結果,本手法は標準alポリシーよりも高速に高性能モデルに到達できることがわかった。 ランダムサンプリングに対する観察された利益は80%に達し、無制限の注釈予算や追加の履歴データ(ラベルの1/10から1/50)を持つポリシーと競合する。

Labeled data is essential in modern systems that rely on Machine Learning (ML) for predictive modelling. Such systems may suffer from the cold-start problem: supervised models work well but, initially, there are no labels, which are costly or slow to obtain. This problem is even worse in imbalanced data scenarios. Online financial fraud detection is an example where labeling is: i) expensive, or ii) it suffers from long delays, if relying on victims filing complaints. The latter may not be viable if a model has to be in place immediately, so an option is to ask analysts to label events while minimizing the number of annotations to control costs. We propose an Active Learning (AL) annotation system for datasets with orders of magnitude of class imbalance, in a cold start streaming scenario. We present a computationally efficient Outlier-based Discriminative AL approach (ODAL) and design a novel 3-stage sequence of AL labeling policies where it is used as warm-up. Then, we perform empirical studies in four real world datasets, with various magnitudes of class imbalance. The results show that our method can more quickly reach a high performance model than standard AL policies. Its observed gains over random sampling can reach 80% and be competitive with policies with an unlimited annotation budget or additional historical data (with 1/10 to 1/50 of the labels).
翻訳日:2021-07-19 14:47:49 公開日:2021-07-16
# 行列値時系列からのオンライングラフトポロジー学習

Online Graph Topology Learning from Matrix-valued Time Series ( http://arxiv.org/abs/2107.08020v1 )

ライセンス: Link先を確認
Yiye Jiang, J\'er\'emie Bigot and Sofian Maabout(参考訳) 本稿では,行列値時系列の統計解析について述べる。 これらは、センサーのネットワーク上で収集されたデータ(通常は空間的位置の集合)、記録、時間経過、複数の測定の観察である。 このようなデータから,センサ間の空間関係の疎さを記述したグラフと,測定関係を特徴付けるグラフをオンライン形式で学習することを提案する。 本研究では,行列値時系列に存在するスパースグランガー因果関係構造を捉える係数行列に符号化されたグラフトポロジーを推定する,新しい多変量自己回帰モデルを提案する。 係数行列にクロネッカー和構造を付与することによりグラフを分解する。 グラフを再帰的に学習するための2つのオンラインアプローチを開発した。 第一にウォルドテストを用いて予測されたOLS推定を行い、推定器の漸近分布を導出する。 第二に,lasso型最適化問題を定式化する。 係数行列を推定するための更新規則を導出するためにホモトピーアルゴリズムに依存する。 さらに,正規化パラメータに対する適応チューニング手順を提案する。 合成データと実データの両方を用いて数値実験を行い,提案手法の有効性を実証した。

This paper is concerned with the statistical analysis of matrix-valued time series. These are data collected over a network of sensors (typically a set of spatial locations), recording, over time, observations of multiple measurements. From such data, we propose to learn, in an online fashion, a graph that captures two aspects of dependency: one describing the sparse spatial relationship between sensors, and the other characterizing the measurement relationship. To this purpose, we introduce a novel multivariate autoregressive model to infer the graph topology encoded in the coefficient matrix which captures the sparse Granger causality dependency structure present in such matrix-valued time series. We decompose the graph by imposing a Kronecker sum structure on the coefficient matrix. We develop two online approaches to learn the graph in a recursive way. The first one uses Wald test for the projected OLS estimation, where we derive the asymptotic distribution for the estimator. For the second one, we formalize a Lasso-type optimization problem. We rely on homotopy algorithms to derive updating rules for estimating the coefficient matrix. Furthermore, we provide an adaptive tuning procedure for the regularization parameter. Numerical experiments using both synthetic and real data, are performed to support the effectiveness of the proposed learning approaches.
翻訳日:2021-07-19 14:47:25 公開日:2021-07-16
# DANCE: 効率的なセグメンテーションモデルトレーニングと推論のためのDAta-Networkの共同最適化

DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference ( http://arxiv.org/abs/2107.07706v1 )

ライセンス: Link先を確認
Chaojian Li, Wuyang Chen, Yuchen Gu, Tianlong Chen, Yonggan Fu, Zhangyang Wang, Yingyan Lin(参考訳) シーン理解のためのセマンティックセグメンテーションが近年広く求められており、アルゴリズムの効率、特にリソース制限されたプラットフォームでの応用に大きな課題が提起されている。 現在のセグメンテーションモデルは、大量の高解像度シーンイメージ(「データレベル」)をトレーニングし、評価し、必要なマルチスケールアグリゲーション(「ネットワークレベル」)から生じる高価な計算に苦しむ。 両方の折り畳みでは、しばしば望まれる大きな入力解像度と分割モデルの重い計算負担のため、トレーニングと推論における計算とエネルギーのコストが顕著である。 そこで本稿では,効率的なセグメンテーションモデルトレーニングと推論のためのDAta-Network共同最適化手法であるDANCEを提案する。 軽量ネットワーク設計のみに焦点を当てた既存の効率的なセグメンテーションアプローチとは違って、danceは入力データ操作とネットワークアーキテクチャスリム化の両方を通じて、自動データネットワーク共同最適化を特徴としている。 具体的には、DANCEは、入力イメージを適応的にサンプリング/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対する対応するコントリビューションを制御する。 このようなダウンサンプリング操作は、入力サイズに関するコストを直接削減するだけでなく、入力オブジェクトとコンテキストスケールのダイナミックレンジを縮小するので、ダウンサンプリングされたデータに適合するようにネットワークを適応的にスリムにすることも動機付けます。 広範囲な実験とアブレーション研究(2つのトレーニング条件の下で3つの人気のあるセグメンテーションデータセットを持つ4つのソータセグメンテーションモデル)は、ダンスが効率的なセグメンテーション(訓練コストの削減、より安価な推論、より平均的交点オーバーユニオン(miou))に向けて「全勝」を達成することを証明している。

Semantic segmentation for scene understanding is nowadays widely demanded, raising significant challenges for the algorithm efficiency, especially its applications on resource-limited platforms. Current segmentation models are trained and evaluated on massive high-resolution scene images ("data level") and suffer from the expensive computation arising from the required multi-scale aggregation("network level"). In both folds, the computational and energy costs in training and inference are notable due to the often desired large input resolutions and heavy computational burden of segmentation models. To this end, we propose DANCE, general automated DAta-Network Co-optimization for Efficient segmentation model training and inference. Distinct from existing efficient segmentation approaches that focus merely on light-weight network design, DANCE distinguishes itself as an automated simultaneous data-network co-optimization via both input data manipulation and network architecture slimming. Specifically, DANCE integrates automated data slimming which adaptively downsamples/drops input images and controls their corresponding contribution to the training loss guided by the images' spatial complexity. Such a downsampling operation, in addition to slimming down the cost associated with the input size directly, also shrinks the dynamic range of input object and context scales, therefore motivating us to also adaptively slim the network to match the downsampled data. Extensive experiments and ablating studies (on four SOTA segmentation models with three popular segmentation datasets under two training settings) demonstrate that DANCE can achieve "all-win" towards efficient segmentation(reduced training cost, less expensive inference, and better mean Intersection-over-Union (mIoU)).
翻訳日:2021-07-19 14:47:07 公開日:2021-07-16
# 異常検出のためのコントラスト予測符号化

Contrastive Predictive Coding for Anomaly Detection ( http://arxiv.org/abs/2107.07820v1 )

ライセンス: Link先を確認
Puck de Haan, Sindy L\"owe(参考訳) 機械学習モデルを実際にデプロイする際には、信頼性の高い異常検出が不可欠だが、ラベル付きデータがないため、依然として難しい。 この課題に取り組むために、自己教師付き表現学習設定で達成した印象的な結果を考えると、対照的な学習アプローチがますます人気を高めている。 しかしながら、既存のコントラスト異常検出およびセグメンテーションアプローチのほとんどは画像に適用されているが、コントラスト損失を直接使用して、異常検出とセグメンテーションの両方を行うことはできない。 本稿では,コントラスト予測符号化モデル(arxiv:1807.03748)を用いて,このギャップを解消する。 その結果, パッチ方向のコントラスト損失は, 直接, 異常スコアとして解釈され得ること, 異常分割マスクの作成にどのように寄与するかが明らかになった。 得られたモデルは、挑戦的なMVTec-ADデータセット上の異常検出とセグメント化の両方に対して有望な結果を得る。

Reliable detection of anomalies is crucial when deploying machine learning models in practice, but remains challenging due to the lack of labeled data. To tackle this challenge, contrastive learning approaches are becoming increasingly popular, given the impressive results they have achieved in self-supervised representation learning settings. However, while most existing contrastive anomaly detection and segmentation approaches have been applied to images, none of them can use the contrastive losses directly for both anomaly detection and segmentation. In this paper, we close this gap by making use of the Contrastive Predictive Coding model (arXiv:1807.03748). We show that its patch-wise contrastive loss can directly be interpreted as an anomaly score, and how this allows for the creation of anomaly segmentation masks. The resulting model achieves promising results for both anomaly detection and segmentation on the challenging MVTec-AD dataset.
翻訳日:2021-07-19 14:46:27 公開日:2021-07-16
# 研修専門学生のための表現統合

Representation Consolidation for Training Expert Students ( http://arxiv.org/abs/2107.08039v1 )

ライセンス: Link先を確認
Zhizhong Li, Avinash Ravichandran, Charless Fowlkes, Marzia Polito, Rahul Bhotika, Stefano Soatto(参考訳) 伝統的に、蒸留は教師の入出力機能をエミュレートするために学生モデルを訓練するために用いられてきた。 エミュレーションよりも有用なゴールは、学生が将来のタスクにうまく移行する特徴表現を学ぶことである。 しかし, タスク特化教師の標準蒸留は, 生徒表現の下流タスクへの移動性を *reduces* で表している。 本研究では,非ラベル型プロキシデータセットとジェネラリスト教師を用いたマルチヘッド・マルチタスク蒸留法によって,課題特定教師からの表現の統合と下流性能の向上,教師の優位化,イメージネット事前学習機能の強固なベースライン化が達成できることを示す。 提案手法は,複数の教師が1つないし複数のドメインで訓練した表現的知識を1つのモデルに組み合わせ,その表現をすべての教師のドメインで改善する。

Traditionally, distillation has been used to train a student model to emulate the input/output functionality of a teacher. A more useful goal than emulation, yet under-explored, is for the student to learn feature representations that transfer well to future tasks. However, we observe that standard distillation of task-specific teachers actually *reduces* the transferability of student representations to downstream tasks. We show that a multi-head, multi-task distillation method using an unlabeled proxy dataset and a generalist teacher is sufficient to consolidate representations from task-specific teacher(s) and improve downstream performance, outperforming the teacher(s) and the strong baseline of ImageNet pretrained features. Our method can also combine the representational knowledge of multiple teachers trained on one or multiple domains into a single model, whose representation is improved on all teachers' domain(s).
翻訳日:2021-07-19 14:46:11 公開日:2021-07-16
# 到達可能性解析によるfeedforwardニューラルネットワークトレーニング

Constrained Feedforward Neural Network Training via Reachability Analysis ( http://arxiv.org/abs/2107.07696v1 )

ライセンス: Link先を確認
Long Kiu Chung, Adam Dai, Derek Knowles, Shreyas Kousik, Grace X. Gao(参考訳) 近年、ニューラルネットワークは様々な用途で普及しているが、人間近辺や周囲のロボティクスのような安全上重要な分野に限定的に応用されている。 これは、安全制約に従うためにニューラルネットワークをトレーニングすることは、まだ未解決の課題であるからです。 既存の安全関連手法の多くは、既に訓練済みのネットワークが制約に従うことを確認し、トレーニングと検証を交互に行う必要がある。 そこで本研究では,修正線形単位(ReLU)非線形性を持つフィードフォワードニューラルネットワークを同時にトレーニングし,検証する制約付き手法を提案する。 制約は、ネットワークの出力空間到達可能な集合を計算し、それが安全でない集合と干渉しないことを保証することで実行され、出力空間の到達可能な集合と安全でない部分の間の新しい衝突チェック損失関数を定式化して訓練を行う。 到達可能な集合と安全でない集合は、微分可能な衝突チェックを可能にする凸ポリトープ表現である制約付きゾノトープで表される。 提案手法は,1つの非線形層と約50パラメータを有するネットワーク上で有効である。

Neural networks have recently become popular for a wide variety of uses, but have seen limited application in safety-critical domains such as robotics near and around humans. This is because it remains an open challenge to train a neural network to obey safety constraints. Most existing safety-related methods only seek to verify that already-trained networks obey constraints, requiring alternating training and verification. Instead, this work proposes a constrained method to simultaneously train and verify a feedforward neural network with rectified linear unit (ReLU) nonlinearities. Constraints are enforced by computing the network's output-space reachable set and ensuring that it does not intersect with unsafe sets; training is achieved by formulating a novel collision-check loss function between the reachable set and unsafe portions of the output space. The reachable and unsafe sets are represented by constrained zonotopes, a convex polytope representation that enables differentiable collision checking. The proposed method is demonstrated successfully on a network with one nonlinearity layer and approximately 50 parameters.
翻訳日:2021-07-19 14:45:00 公開日:2021-07-16
# 正規化フローを用いたマルコフ連鎖モンテカルロ法による効率的なベイズサンプリング

Efficient Bayesian Sampling Using Normalizing Flows to Assist Markov Chain Monte Carlo Methods ( http://arxiv.org/abs/2107.08001v1 )

ライセンス: Link先を確認
Marylou Gabri\'e, Grant M. Rotskoff, Eric Vanden-Eijnden(参考訳) 正規化フローは複雑なターゲット分布を生成できるため、ベイズ統計学の多くの応用において、後方サンプリングのためのMCMCの代替または補題として期待できる。 対象の後方分布からのデータセットは事前に入手できないため、フローは通常、基底分布からのサンプルのみを必要とする逆のKullback-Leibler(KL)分散を用いて訓練される。 この戦略は、後方が複雑で、訓練されていない正規化フローでサンプルが難しい場合、うまくいかない可能性がある。 ここでは,後方からのサンプルを,(i)後方の局所mcmcアルゴリズムを正規化フローで支援して混合速度を加速し,(ii)この方法で生成されたデータを用いて流れを訓練することにより,直接kl発散を損失として,異なる訓練戦略を検討する。 この方法は後部に関する限られた量の \textit{a~priori} 入力しか必要とせず、例に示すようにモデル検証に必要なエビデンスを推定するために使用できる。

Normalizing flows can generate complex target distributions and thus show promise in many applications in Bayesian statistics as an alternative or complement to MCMC for sampling posteriors. Since no data set from the target posterior distribution is available beforehand, the flow is typically trained using the reverse Kullback-Leibler (KL) divergence that only requires samples from a base distribution. This strategy may perform poorly when the posterior is complicated and hard to sample with an untrained normalizing flow. Here we explore a distinct training strategy, using the direct KL divergence as loss, in which samples from the posterior are generated by (i) assisting a local MCMC algorithm on the posterior with a normalizing flow to accelerate its mixing rate and (ii) using the data generated this way to train the flow. The method only requires a limited amount of \textit{a~priori} input about the posterior, and can be used to estimate the evidence required for model validation, as we illustrate on examples.
翻訳日:2021-07-19 14:44:45 公開日:2021-07-16
# NeXtQSM -- ハイブリッドデータでトレーニングされたデータ一貫性の定量的感受性マッピングのための完全なディープラーニングパイプライン

NeXtQSM -- A complete deep learning pipeline for data-consistent quantitative susceptibility mapping trained with hybrid data ( http://arxiv.org/abs/2107.07752v1 )

ライセンス: Link先を確認
Francesco Cognolato, Kieran O'Brien, Jin Jin, Simon Robinson, Frederik B. Laun, Markus Barth, Steffen Bollmann(参考訳) 近年,ディープラーニングに基づく定量的サセプティビリティマッピング(QSM)は,従来の非学習アプローチよりも高速かつ高精度に実現されている。 しかし、現在のディープラーニングアプローチの多くは、データ一貫性がなく、インビボのトレーニングデータを必要とするか、QSM処理パイプラインのすべてのステップを解決していない。 ここでは,これらの制限を克服し,協調してQSM処理ステップを解決するためのフレームワークを開発する。 そこで我々は,QSMモデル項と学習正規化器を組み合わせた変分ネットワークを用いて,バックグラウンドフィールド補正と双極子反転をデータ一貫性で解くためのエンドツーエンドトレーニングを実現するハイブリッドトレーニングデータ生成手法を開発した。 我々は、NeXtQSMが従来のモデルに依存しないディープラーニング手法の限界を克服し、NeXtQSMが、堅牢で高速で正確な定量的感受性マップを計算するための完全なディープラーニングベースのパイプラインを提供することを示した。

Deep learning based Quantitative Susceptibility Mapping (QSM) has shown great potential in recent years, outperforming traditional non-learning approaches in speed and accuracy. However, many of the current deep learning approaches are not data consistent, require in vivo training data or do not solve all steps of the QSM processing pipeline. Here we aim to overcome these limitations and developed a framework to solve the QSM processing steps jointly. We developed a new hybrid training data generation method that enables the end-to-end training for solving background field correction and dipole inversion in a data-consistent fashion using a variational network that combines the QSM model term and a learned regularizer. We demonstrate that NeXtQSM overcomes the limitations of previous model-agnostic deep learning methods and show that NeXtQSM offers a complete deep learning based pipeline for computing robust, fast and accurate quantitative susceptibility maps.
翻訳日:2021-07-19 14:43:56 公開日:2021-07-16
# 多次元投影のクラスタ間信頼性の測定と説明

Measuring and Explaining the Inter-Cluster Reliability of Multidimensional Projections ( http://arxiv.org/abs/2107.07859v1 )

ライセンス: Link先を確認
Hyeon Jeon, Hyung-Kwon Ko, Jaemin Jo, Youngtaek Kim, and Jinwook Seo(参考訳) 本研究では,多次元射影(mdp)のクラスタ間信頼性を測定するための2つの新しい指標である定常性と凝集性,特に,クラスター間構造が元の高次元空間と低次元射影空間の間で保存されているかを示す。 クラスタ間信頼性の測定は、クラスタ間タスク(例えば、プロジェクションされたビューから元の空間におけるクラスタ間関係を識別する)がどの程度適切に実行されるかに直接影響を与えるため、非常に重要であるが、クラスタ間タスクの重要性にもかかわらず、信頼性や継続性といった以前のメトリクスではクラスタ間信頼性の測定に失敗していることがわかった。 我々のメトリクスはクラスタ間信頼性の2つの側面を考察している。定常性は、投影された空間内のクラスタが元の空間内のクラスタを形成する度合いを測り、結合性は逆の度合いを測る。 任意の形状と位置を持つランダムなクラスタを1つの空間で抽出し、クラスタが他の空間でどれだけ伸びるか、分散しているかを評価する。 さらに、我々のメトリクスはポイントワイズ歪みを定量化することができ、プロジェクションにおけるクラスタ間信頼性の可視化を可能にします。 定量的実験により,クラスタ間信頼性を損なう歪みを正確に把握すると同時に,以前の測定値では歪みの捕捉が困難であることを確認した。 ケーススタディでは,我々のメトリクスと信頼性マップが,適切なプロジェクション技術やハイパーパラメータの選択を支援するとともに,クラスタ間タスクの実行中に誤解釈を防止し,クラスタ間構造を適切に識別できるようにする。

We propose Steadiness and Cohesiveness, two novel metrics to measure the inter-cluster reliability of multidimensional projection (MDP), specifically how well the inter-cluster structures are preserved between the original high-dimensional space and the low-dimensional projection space. Measuring inter-cluster reliability is crucial as it directly affects how well inter-cluster tasks (e.g., identifying cluster relationships in the original space from a projected view) can be conducted; however, despite the importance of inter-cluster tasks, we found that previous metrics, such as Trustworthiness and Continuity, fail to measure inter-cluster reliability. Our metrics consider two aspects of the inter-cluster reliability: Steadiness measures the extent to which clusters in the projected space form clusters in the original space, and Cohesiveness measures the opposite. They extract random clusters with arbitrary shapes and positions in one space and evaluate how much the clusters are stretched or dispersed in the other space. Furthermore, our metrics can quantify pointwise distortions, allowing for the visualization of inter-cluster reliability in a projection, which we call a reliability map. Through quantitative experiments, we verify that our metrics precisely capture the distortions that harm inter-cluster reliability while previous metrics have difficulty capturing the distortions. A case study also demonstrates that our metrics and the reliability map 1) support users in selecting the proper projection techniques or hyperparameters and 2) prevent misinterpretation while performing inter-cluster tasks, thus allow an adequate identification of inter-cluster structure.
翻訳日:2021-07-19 14:43:40 公開日:2021-07-16
# 歩行者行動予測に必要なバウンディングボックスに注意は必要か?

Is attention to bounding boxes all you need for pedestrian action prediction? ( http://arxiv.org/abs/2107.08031v1 )

ライセンス: Link先を確認
Lina Achaji, Julien Moreau, Thibault Fouqueray, Francois Aioun, Francois Charpillet(参考訳) 人間のドライバーはもはや、運転シナリオの複雑さに関心を持つ唯一の人間ではありません。 自動運転車(AV)も同様にプロセスに関与している。 現在、都市部におけるavの開発は歩行者などの脆弱な道路利用者(vrus)にとって不可欠な安全上の懸念を浮き彫りにしている。 したがって、道路をより安全にするために、将来の行動の分類と予測が不可欠である。 本稿では,歩行者の過去の軌跡の動的進化を理論的に判断するためのトランスフォーマーモデルの多変種に基づく枠組みを提案し,交差点を横断するか否かの今後の行動を予測する。 モデルへの入力としてバウンディングボックスのみを使用することで,従来の最先端モデルよりも優れており,予測精度が91%,予測精度が0.83であることが分かった。 さらに,行動予測にCARLAを用いた大規模シミュレーションデータセット(CP2A)を導入した。 このモデルも同様に高い精度 (91 %) とF1スコア (0.91) に達した。 興味深いことに、シミュレーションデータセット上でトランスフォーマーモデルを事前トレーニングし、実際のデータセットで微調整することで、アクション予測タスクに非常に効果的であることが分かりました。

The human driver is no longer the only one concerned with the complexity of the driving scenarios. Autonomous vehicles (AV) are similarly becoming involved in the process. Nowadays, the development of AV in urban places underpins essential safety concerns for vulnerable road users (VRUs) such as pedestrians. Therefore, to make the roads safer, it is critical to classify and predict their future behavior. In this paper, we present a framework based on multiple variations of the Transformer models to reason attentively about the dynamic evolution of the pedestrians' past trajectory and predict its future actions of crossing or not crossing the street. We proved that using only bounding boxes as input to our model can outperform the previous state-of-the-art models and reach a prediction accuracy of 91 % and an F1-score of 0.83 on the PIE dataset up to two seconds ahead in the future. In addition, we introduced a large-size simulated dataset (CP2A) using CARLA for action prediction. Our model has similarly reached high accuracy (91 %) and F1-score (0.91) on this dataset. Interestingly, we showed that pre-training our Transformer model on the simulated dataset and then fine-tuning it on the real dataset can be very effective for the action prediction task.
翻訳日:2021-07-19 14:43:11 公開日:2021-07-16
# 音声から顔を生成する制御オートエンコーダ

Controlled AutoEncoders to Generate Faces from Voices ( http://arxiv.org/abs/2107.07988v1 )

ライセンス: Link先を確認
Hao Liang, Lulan Yu, Guikang Xu, Bhiksha Raj, Rita Singh(参考訳) 過去の複数の研究では、人間の声の特徴と顔の特徴の間に強い相関関係があることが示されている。 しかし、既存のアプローチは、これらの相関に寄与する特徴の集合を探索することなく、単に音声から顔を生成する。 これを研究するための計算手法は、「原声の発声者として認識されるためには、対象の顔がどの程度変化する必要があるか?」という問いを言い換えることで考案できる。 本稿では,この観点から,学習した音声と顔の相関によって顔の特徴が暗黙的に導かれるように,与えられた音声に応答して対象の顔を変化させる枠組みを提案する。 我々のフレームワークは、入力された音声記録に基づいて再構成された顔を変更するゲーティングコントローラと呼ばれるユニークなモデル条件コンポーネントによって制御される、ある顔を別の顔に変換するガイド付きオートエンコーダを含む。 我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。 提案モデルの有効性を示す様々な実験を行った。

Multiple studies in the past have shown that there is a strong correlation between human vocal characteristics and facial features. However, existing approaches generate faces simply from voice, without exploring the set of features that contribute to these observed correlations. A computational methodology to explore this can be devised by rephrasing the question to: "how much would a target face have to change in order to be perceived as the originator of a source voice?" With this in perspective, we propose a framework to morph a target face in response to a given voice in a way that facial features are implicitly guided by learned voice-face correlation in this paper. Our framework includes a guided autoencoder that converts one face to another, controlled by a unique model-conditioning component called a gating controller which modifies the reconstructed face based on input voice recordings. We evaluate the framework on VoxCelab and VGGFace datasets through human subjects and face retrieval. Various experiments demonstrate the effectiveness of our proposed model.
翻訳日:2021-07-19 14:42:51 公開日:2021-07-16
# マルチ言語モデルは、適度なアンダーリソース言語にとって最良の選択か? カタルーニャの包括的評価

Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan ( http://arxiv.org/abs/2107.07903v1 )

ライセンス: Link先を確認
Jordi Armengol-Estap\'e, Casimiro Pio Carrino, Carlos Rodriguez-Penagos, Ona de Gibert Bonet, Carme Armentano-Oller, Aitor Gonzalez-Agirre, Maite Melero and Marta Villegas(参考訳) マルチ言語モデルは、リソース不足の言語に対するデータの必要性を大幅に減らし、重要なブレークスルーとなった。 それでも、大量のデータにアクセス可能な言語では、言語固有のモデルの優位性は既に証明されている。 本研究では,中規模単言語モデルと最先端の大規模多言語モデルとの競争力について検討することを目的として,カタルーニャ語に焦点をあてる。 For this, we: (1) build a clean, high-quality textual Catalan corpus (CaText), the largest to date (but only a fraction of the usual size of the previous work in monolingual language models), (2) train a Transformer-based language model for Catalan (BERTa), and (3) devise a thorough evaluation in a diversity of settings, comprising a complete array of downstream tasks, namely, Part of Speech Tagging, Named Entity Recognition and Classification, Text Classification, Question Answering, and Semantic Textual Similarity, with most of the corresponding datasets being created ex novo. その結果、クリーンテキストコーパス、言語モデル、クリーニングパイプラインとともに、オープンリソースとして公開する新しいベンチマークである、catalan language understanding benchmark(club)が生まれました。 最先端の多言語モデルとwikipediaでのみトレーニングされた単言語モデルを用いて,タスクや設定におけるモデルの優位性を一貫して観察する。

Multilingual language models have been a crucial breakthrough as they considerably reduce the need of data for under-resourced languages. Nevertheless, the superiority of language-specific models has already been proven for languages having access to large amounts of data. In this work, we focus on Catalan with the aim to explore to what extent a medium-sized monolingual language model is competitive with state-of-the-art large multilingual models. For this, we: (1) build a clean, high-quality textual Catalan corpus (CaText), the largest to date (but only a fraction of the usual size of the previous work in monolingual language models), (2) train a Transformer-based language model for Catalan (BERTa), and (3) devise a thorough evaluation in a diversity of settings, comprising a complete array of downstream tasks, namely, Part of Speech Tagging, Named Entity Recognition and Classification, Text Classification, Question Answering, and Semantic Textual Similarity, with most of the corresponding datasets being created ex novo. The result is a new benchmark, the Catalan Language Understanding Benchmark (CLUB), which we publish as an open resource, together with the clean textual corpus, the language model, and the cleaning pipeline. Using state-of-the-art multilingual models and a monolingual model trained only on Wikipedia as baselines, we consistently observe the superiority of our model across tasks and settings.
翻訳日:2021-07-19 14:42:12 公開日:2021-07-16
# 知識ベース質問応答にリッチ構文を活用する

Exploiting Rich Syntax for Better Knowledge Base Question Answering ( http://arxiv.org/abs/2107.07940v1 )

ライセンス: Link先を確認
Pengju Zhang, Yonghui Jia, Muhua Zhu, Wenliang Chen, Min Zhang(参考訳) 知識ベース質問回答(KBQA)に関する最近の研究は、より優れた質問理解を通じて、この課題に大きな進歩を見せている。 質問をエンコーディングする以前の研究は,主に単語列に焦点を当てているが,構文木からの情報をほとんど考慮しない。 まず、キーワード間の最も短い依存性パスを考慮し、パスベースの構文をエンコードする。 そこで本研究では,構文木全体の情報をモデム化し,木ベースの構文を得るための2つの符号化戦略を提案する。 最後に、kbqaのパスベースとツリーベースの構文表現を組み合わせる。 我々は,広く使用されているベンチマークデータセットの広範な実験を行い,構文認識システムを用いて,構文情報を異なる設定でフル活用し,KBQAの最先端性能を達成できることを実験的に示す。

Recent studies on Knowledge Base Question Answering (KBQA) have shown great progress on this task via better question understanding. Previous works for encoding questions mainly focus on the word sequences, but seldom consider the information from syntactic trees.In this paper, we propose an approach to learn syntax-based representations for KBQA. First, we encode path-based syntax by considering the shortest dependency paths between keywords. Then, we propose two encoding strategies to mode the information of whole syntactic trees to obtain tree-based syntax. Finally, we combine both path-based and tree-based syntax representations for KBQA. We conduct extensive experiments on a widely used benchmark dataset and the experimental results show that our syntax-aware systems can make full use of syntax information in different settings and achieve state-of-the-art performance of KBQA.
翻訳日:2021-07-19 14:41:53 公開日:2021-07-16
# Imitate TheWorld: 検索エンジンシミュレーションプラットフォーム

Imitate TheWorld: A Search Engine Simulation Platform ( http://arxiv.org/abs/2107.07693v1 )

ライセンス: Link先を確認
Yongqing Gao, Guangda Huzhang, Weijie Shen, Yawen Liu, Wen-Ji Zhou, Qing Da, Dan Shen, Yang Yu(参考訳) 近年のEコマースアプリケーションは、ディープラーニング技術の成長の恩恵を受けている。 しかし,教師あり学習パラダイムに従うオフラインラベルを密にマッチングすることで,ビジネス目標の最大化を図っている作業は多い。 これにより、auc(area under curve)とndcg(normalized discounted cumulative gain)という観点で高いオフラインパフォーマンスが得られるが、ユーザの購買量などの収益指標を一貫して増やすことはできない。 この問題に対して,我々は,動的データセットとして,よく訓練された識別器からフィードバックを得られるシミュレーション検索エンジンAESimを構築した。 AliExpress Searchの実際のデータに依存する従来のシミュレーションプラットフォームとは違って、仮想ユーザ生成には逆学習を使用し、ユーザの行動パターンをキャプチャするためにGAIL(Generative Adversarial Imitation Learning)を使用します。 また、aesimは従来のランキング指標よりも、ランキングモデルのオンラインパフォーマンスをよりよく反映できることを示し、aesimがaliexpress検索の代理を演じ、オンラインに行かずにモデルを評価できることを示唆した。

Recent E-commerce applications benefit from the growth of deep learning techniques. However, we notice that many works attempt to maximize business objectives by closely matching offline labels which follow the supervised learning paradigm. This results in models obtain high offline performance in terms of Area Under Curve (AUC) and Normalized Discounted Cumulative Gain (NDCG), but cannot consistently increase the revenue metrics such as purchases amount of users. Towards the issues, we build a simulated search engine AESim that can properly give feedback by a well-trained discriminator for generated pages, as a dynamic dataset. Different from previous simulation platforms which lose connection with the real world, ours depends on the real data in AliExpress Search: we use adversarial learning to generate virtual users and use Generative Adversarial Imitation Learning (GAIL) to capture behavior patterns of users. Our experiments also show AESim can better reflect the online performance of ranking models than classic ranking metrics, implying AESim can play a surrogate of AliExpress Search and evaluate models without going online.
翻訳日:2021-07-19 14:41:41 公開日:2021-07-16
# ポーズ辞書学習による半教師付き3次元手指ポーズ推定

Semi-supervised 3D Hand-Object Pose Estimation via Pose Dictionary Learning ( http://arxiv.org/abs/2107.07676v1 )

ライセンス: Link先を確認
Zida Cheng, Siheng Chen, Ya Zhang(参考訳) 3次元手動ポーズ推定は,人間と環境の相互作用を理解する上で重要な課題である。 現在の手動ポーズ推定法は,高価で労働集約的な詳細な3Dラベルを必要とする。 データ収集の課題に対処するために,ポーズ辞書学習とオブジェクト指向座標系という2つの重要な手法を用いて,半教師付き3次元ポーズ推定手法を提案する。 提案するポーズ辞書学習モジュールは、再構成誤差により実現不可能なポーズを識別することができ、ラベルのないデータが監督信号を提供することができる。 提案するオブジェクト指向座標系は3次元推定をカメラの視点と等価にすることができる。 FPHAとHO-3Dデータセットを用いて実験を行った。 提案手法は,FPHA上のラベル付きデータの直接使用と比較して,手・対象物の推定誤差を19.5%/24.9%削減し,いくつかのベースライン法より優れる。 広範な実験により,提案手法のロバスト性が検証された。

3D hand-object pose estimation is an important issue to understand the interaction between human and environment. Current hand-object pose estimation methods require detailed 3D labels, which are expensive and labor-intensive. To tackle the problem of data collection, we propose a semi-supervised 3D hand-object pose estimation method with two key techniques: pose dictionary learning and an object-oriented coordinate system. The proposed pose dictionary learning module can distinguish infeasible poses by reconstruction error, enabling unlabeled data to provide supervision signals. The proposed object-oriented coordinate system can make 3D estimations equivariant to the camera perspective. Experiments are conducted on FPHA and HO-3D datasets. Our method reduces estimation error by 19.5% / 24.9% for hands/objects compared to straightforward use of labeled data on FPHA and outperforms several baseline methods. Extensive experiments also validate the robustness of the proposed method.
翻訳日:2021-07-19 14:40:39 公開日:2021-07-16
# 小型画像データセットの深層学習分類法の比較:収束型ニューラルネットワークから視覚変換器へ

A Comparison of Deep Learning Classification Methods on Small-scale Image Data set: from Converlutional Neural Networks to Visual Transformers ( http://arxiv.org/abs/2107.07699v1 )

ライセンス: Link先を確認
Peng Zhao, Chen Li, Md Mamunur Rahaman, Hechen Yang, Tao Jiang and Marcin Grzegorzek(参考訳) 近年、深層学習は画像分類において素晴らしい成果を上げている。 しかし、小さなデータセットのイメージ分類は良い研究結果が得られていない。 本稿ではまず,畳み込みニューラルネットワークと視覚トランスフォーマーの応用と特性について概説する。 一方,小さなデータセットが分類と解に与える影響について紹介する。 そこで, 各種モデルを用いて小データセット上で一連の実験を行い, 実験におけるいくつかのモデルの問題について議論した。 実験結果の比較により、モデル適用環境に応じて推奨深層学習モデルが与えられる。 最後に、将来の仕事の指示を与えます。

In recent years, deep learning has made brilliant achievements in image classification. However, image classification of small datasets is still not obtained good research results. This article first briefly explains the application and characteristics of convolutional neural networks and visual transformers. Meanwhile, the influence of small data set on classification and the solution are introduced. Then a series of experiments are carried out on the small datasets by using various models, and the problems of some models in the experiments are discussed. Through the comparison of experimental results, the recommended deep learning model is given according to the model application environment. Finally, we give directions for future work.
翻訳日:2021-07-19 14:40:25 公開日:2021-07-16
# 背景のショートカット学習の具体化:Few-Shot画像認識のための共有物体濃度

Rectifying the Shortcut Learning of Background: Shared Object Concentration for Few-Shot Image Recognition ( http://arxiv.org/abs/2107.07746v1 )

ライセンス: Link先を確認
Xu Luo, Longhui Wei, Liangjian Wen, Jinrong Yang, Lingxi Xie, Zenglin Xu, Qi Tian(参考訳) Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。 通常、各タスクには、新しいカテゴリのトレーニング例がほとんどない。 これにより、事前学習モデルは、よく一般化可能な知識にフォーカスするが、ドメイン固有の情報は無視する必要がある。 本稿では、画像背景がドメイン固有の知識の源であり、モデルがソースデータセットで学ぶためのショートカットであるが、新しいクラスに適応する際には有害であることを示す。 モデルがこのショートカット知識を学習するのを防ぐため,新しいFew-Shot LearningフレームワークであるCOSOCを提案し,事前学習と評価段階の両方で前景オブジェクトを自動的に抽出する。 cosocは2段階のアルゴリズムで、同じクラス内の異なる画像からのフォアグラウンドオブジェクトは背景よりも類似したパターンを共有している。 事前学習段階では,各クラスについて,前景のみを含む作物を単一クラスタで識別できるように,ランダムに切り抜かれた画像パッチのコントラストプリトレーニングされた特徴をクラスタ化する。 次に, 予備学習モデルを融合サンプリング戦略により前景オブジェクトに焦点を合わせるように強制し, 評価段階では, 実写課題の各訓練クラス内の画像の中から, 共有コンテンツを探し, 背景をフィルタリングする。 各クラスの認識された前景オブジェクトは、テスト画像の前景にマッチするために使用される。 2つのベンチマークでfslタスクをインダクティブ化するための広範囲な実験を行い,その性能を実証した。

Few-Shot image classification aims to utilize pretrained knowledge learned from a large-scale dataset to tackle a series of downstream classification tasks. Typically, each task involves only few training examples from brand-new categories. This requires the pretraining models to focus on well-generalizable knowledge, but ignore domain-specific information. In this paper, we observe that image background serves as a source of domain-specific knowledge, which is a shortcut for models to learn in the source dataset, but is harmful when adapting to brand-new classes. To prevent the model from learning this shortcut knowledge, we propose COSOC, a novel Few-Shot Learning framework, to automatically figure out foreground objects at both pretraining and evaluation stage. COSOC is a two-stage algorithm motivated by the observation that foreground objects from different images within the same class share more similar patterns than backgrounds. At the pretraining stage, for each class, we cluster contrastive-pretrained features of randomly cropped image patches, such that crops containing only foreground objects can be identified by a single cluster. We then force the pretraining model to focus on found foreground objects by a fusion sampling strategy; at the evaluation stage, among images in each training class of any few-shot task, we seek for shared contents and filter out background. The recognized foreground objects of each class are used to match foreground of testing images. Extensive experiments tailored to inductive FSL tasks on two benchmarks demonstrate the state-of-the-art performance of our method.
翻訳日:2021-07-19 14:40:17 公開日:2021-07-16
# マンハッタン世界推定に部分的に適合した屋内マッピングデータセットの正当化

Pose Normalization of Indoor Mapping Datasets Partially Compliant to the Manhattan World Assumption ( http://arxiv.org/abs/2107.07778v1 )

ライセンス: Link先を確認
Patrick H\"ubner, Martin Weinmann, Sven Wursthorn, Stefan Hinz(参考訳) 本稿では, 理想的なマンハッタン世界構造から逸脱した屋内マッピングジオメトリの多くに対して頑健な, 屋内マッピングポイント雲と三角形メッシュに対する新しいポーズ正規化手法を提案する。 複数のマンハッタン・ワールド・システムを含む建物では、最大のジオメトリーによって支えられた支配的なマンハッタン・ワールド・構造が決定され、アライメントに使用される。 第1のステップでは、選択された軸を水平床及び天井面に直交させる垂直配向を行う。 その後、得られた垂直軸まわりの回転が決定され、データセットを座標軸と水平に整列する。 提案手法は,複数の屋内マッピングデータセットに対して定量的に評価される。 提案手法の実装は,評価を再現するためのコードとともに公開を受理し,一般に公開する予定である。

In this paper, we present a novel pose normalization method for indoor mapping point clouds and triangle meshes that is robust against large fractions of the indoor mapping geometries deviating from an ideal Manhattan World structure. In the case of building structures that contain multiple Manhattan World systems, the dominant Manhattan World structure supported by the largest fraction of geometries is determined and used for alignment. In a first step, a vertical alignment orienting a chosen axis to be orthogonal to horizontal floor and ceiling surfaces is conducted. Subsequently, a rotation around the resulting vertical axis is determined that aligns the dataset horizontally with the coordinate axes. The proposed method is evaluated quantitatively against several publicly available indoor mapping datasets. Our implementation of the proposed procedure along with code for reproducing the evaluation will be made available to the public upon acceptance for publication.
翻訳日:2021-07-19 14:39:52 公開日:2021-07-16
# 3次元人物位置推定のための条件付きグラフ畳み込み

Conditional Directed Graph Convolution for 3D Human Pose Estimation ( http://arxiv.org/abs/2107.07797v1 )

ライセンス: Link先を確認
Wenbo Hu, Changgong Zhang, Fangneng Zhan, Lei Zhang, Tien-Tsin Wong(参考訳) グラフ畳み込みネットワークは、人間の骨格を無向グラフとして表現することで、3次元人間のポーズ推定を大幅に改善した。 しかし、この表現は関節の階層的な順序が明示的に示されないため、人間の骨格の明瞭な特徴を反映することができない。 本稿では,人間の骨格をノードとして,骨を親関節から子関節へ向けたエッジとして有向グラフとして表現することを提案する。 これにより、エッジの方向はノード間の階層的関係を明示的に反映することができる。 この表現に基づいて、空間時間有向グラフ畳み込み(ST-DGConv)を用いて、有向グラフの時間列で表される2次元ポーズの特徴を抽出する。 さらに、入力ポーズにグラフトポロジを条件付けることにより、異なるポーズに対する様々な非局所的依存を活用するための時空間有向グラフ畳み込み(ST-CondDGConv)を提案する。 また,ST-DGConv層とST-CondDGConv層を有するU字型ネットワークを構築し,U字型コンディショングラフ畳み込みネットワーク (U-CondDGCN) と名づけた。 U-CondDGCNの有効性を評価するため,Human3.6MとMPI-INF-3DHPの2つの大規模ベンチマーク実験を行った。 定量的および定性的な結果から,本手法が最高性能を達成した。 また,無向グラフよりも有向グラフの方が人間の骨格の階層構造をうまく利用でき,条件付き接続によって異なる種類のポーズに対して適応的なグラフトポロジーが得られることを示す。

Graph convolutional networks have significantly improved 3D human pose estimation by representing the human skeleton as an undirected graph. However, this representation fails to reflect the articulated characteristic of human skeletons as the hierarchical orders among the joints are not explicitly presented. In this paper, we propose to represent the human skeleton as a directed graph with the joints as nodes and bones as edges that are directed from parent joints to child joints. By so doing, the directions of edges can explicitly reflect the hierarchical relationships among the nodes. Based on this representation, we adopt the spatial-temporal directed graph convolution (ST-DGConv) to extract features from 2D poses represented in a temporal sequence of directed graphs. We further propose a spatial-temporal conditional directed graph convolution (ST-CondDGConv) to leverage varying non-local dependence for different poses by conditioning the graph topology on input poses. Altogether, we form a U-shaped network with ST-DGConv and ST-CondDGConv layers, named U-shaped Conditional Directed Graph Convolutional Network (U-CondDGCN), for 3D human pose estimation from monocular videos. To evaluate the effectiveness of our U-CondDGCN, we conducted extensive experiments on two challenging large-scale benchmarks: Human3.6M and MPI-INF-3DHP. Both quantitative and qualitative results show that our method achieves top performance. Also, ablation studies show that directed graphs can better exploit the hierarchy of articulated human skeletons than undirected graphs, and the conditional connections can yield adaptive graph topologies for different kinds of poses.
翻訳日:2021-07-19 14:39:40 公開日:2021-07-16
# 多発性骨髄腫分類のための補助タスク重み付けによる複数インスタンス学習

Multiple Instance Learning with Auxiliary Task Weighting for Multiple Myeloma Classification ( http://arxiv.org/abs/2107.07805v1 )

ライセンス: Link先を確認
Talha Qaiser, Stefan Winzeck, Theodore Barfoot, Tara Barwick, Simon J. Doran, Martin F. Kaiser, Linda Wedlake, Nina Tunariu, Dow-Mu Koh, Christina Messiou, Andrea Rockall, Ben Glocker(参考訳) 多発性骨髄腫(mm)の診断には全身磁気共鳴画像(wb-mri)が推奨される。 WB-MRIは骨格系全体にわたる疾患の部位を検出するのに使用されるが、かなりの専門知識が必要であり、大量の画像のために報告するのに時間がかかる。 放射線学的読影を支援するために,病気部位の局所化機能を備えたMM分類のための補助タスクベースマルチインスタンス学習手法(ATMIL)を提案する。 このアプローチは、アクティブな疾患のある地域を特定するために注意メカニズムを使用する患者レベルのアノテーションのみを必要とするため、魅力的です。 我々は,マルチタスク学習からアイデアを借用し,適応的重み付けによる補助タスクを定義し,データ不足の存在下での学習効率の向上を支援する。 本研究のアプローチは, 総合的, リアルな多施設臨床データに当てはまる。 また,ミルアテンションモジュールは骨領域を局所化する機構を提供し,補助タスクの適応的な重み付けにより性能が大幅に向上することを示す。

Whole body magnetic resonance imaging (WB-MRI) is the recommended modality for diagnosis of multiple myeloma (MM). WB-MRI is used to detect sites of disease across the entire skeletal system, but it requires significant expertise and is time-consuming to report due to the great number of images. To aid radiological reading, we propose an auxiliary task-based multiple instance learning approach (ATMIL) for MM classification with the ability to localize sites of disease. This approach is appealing as it only requires patient-level annotations where an attention mechanism is used to identify local regions with active disease. We borrow ideas from multi-task learning and define an auxiliary task with adaptive reweighting to support and improve learning efficiency in the presence of data scarcity. We validate our approach on both synthetic and real multi-center clinical data. We show that the MIL attention module provides a mechanism to localize bone regions while the adaptive reweighting of the auxiliary task considerably improves the performance.
翻訳日:2021-07-19 14:39:11 公開日:2021-07-16
# 視覚データセットのバイアスに関する調査

A Survey on Bias in Visual Datasets ( http://arxiv.org/abs/2107.07919v1 )

ライセンス: Link先を確認
Simone Fabbrizzi, Symeon Papadopoulos, Eirini Ntoutsi, Ioannis Kompatsiaris(参考訳) コンピュータビジョン(cv)は、いくつかのタスクで人間を上回って素晴らしい成果を上げている。 それにもかかわらず、適切なケアに対処しなければ大きな差別をもたらす可能性がある。 CVシステムは、供給されるデータに大きく依存し、そのようなデータ内のバイアスを学習し、増幅することができる。 したがって、バイアスの理解と発見の問題はどちらも最も重要である。 しかし、これまでビジュアルデータセットのバイアスに関する包括的な調査は行われていない。 本研究の目的は, 視覚的データセットに影響を与えるバイアスを記述すること, 視覚的データセットにおけるバイアス発見と定量化の手法に関する文献をレビューすること, そして, バイアスを意識した視覚的データセットを収集するための既存の試みについて議論することである。 この研究の重要な結論は、ビジュアルデータセットにおけるバイアス発見と定量化の問題は依然としてオープンであり、手法と対処可能なバイアスの範囲の両方について改善の余地があるということです。 そこで本研究では,視覚データセットの収集中に異なる種類のバイアスを検出できるチェックリストを提案する。

Computer Vision (CV) has achieved remarkable results, outperforming humans in several tasks. Nonetheless, it may result in major discrimination if not dealt with proper care. CV systems highly depend on the data they are fed with and can learn and amplify biases within such data. Thus, both the problems of understanding and discovering biases are of utmost importance. Yet, to date there is no comprehensive survey on bias in visual datasets. To this end, this work aims to: i) describe the biases that can affect visual datasets; ii) review the literature on methods for bias discovery and quantification in visual datasets; iii) discuss existing attempts to collect bias-aware visual datasets. A key conclusion of our study is that the problem of bias discovery and quantification in visual datasets is still open and there is room for improvement in terms of both methods and the range of biases that can be addressed; moreover, there is no such thing as a bias-free dataset, so scientists and practitioners must become aware of the biases in their datasets and make them explicit. To this end, we propose a checklist that can be used to spot different types of bias during visual dataset collection.
翻訳日:2021-07-19 14:38:55 公開日:2021-07-16
# 深部ドメイン適応と細部オブジェクト検出の課題, 技術, データセットに関する調査

A Survey on Deep Domain Adaptation and Tiny Object Detection Challenges, Techniques and Datasets ( http://arxiv.org/abs/2107.07927v1 )

ライセンス: Link先を確認
Muhammed Muzammul and Xi Li(参考訳) 本稿では,コンピュータビジョンに基づく物体検出の課題と解決策を異なる手法で分析した。 主に3つのトレンド戦略,すなわち,1)ドメイン適応型ディープラーニングベースのアプローチ(差分ベース,Adversarialベース,Reコンストラクションベース,ハイブリッド)によるオブジェクト検出を強調した。 一般および小型物体検出関連課題について検討し, 歴史的および比較分析による解決法を示した。 第2部では,小型物体検出技術(多機能学習,データ拡張,トレーニング戦略(ts),コンテキストベース検出,ganベース検出)を中心に検討した。 パート3: 知識に富む発見を得るために, 傾向型を用いたプール操作, 畳み込みと畳み込みニューラルネットワーク (CNN) など, さまざまな物体検出手法について検討した。 さらに, CV, CNN, ODの基礎骨と考えられるR-CNN, Fast R-CNN, Faster R-CNN, YOLO, SSDなどのオブジェクト検出アルゴリズムの助けを借りて解析を行った。 我々は,MS-COCO,PASCAL VOC07,12,ImageNetなどの異なるデータセットの比較分析を行い,結果と結果を比較した。 最後に,既存の課題に対して今後の方向性を示した。 将来、ODメソッドとモデルはリアルタイムオブジェクト検出、追跡戦略のために分析できる。

This survey paper specially analyzed computer vision-based object detection challenges and solutions by different techniques. We mainly highlighted object detection by three different trending strategies, i.e., 1) domain adaptive deep learning-based approaches (discrepancy-based, Adversarial-based, Reconstruction-based, Hybrid). We examined general as well as tiny object detection-related challenges and offered solutions by historical and comparative analysis. In part 2) we mainly focused on tiny object detection techniques (multi-scale feature learning, Data augmentation, Training strategy (TS), Context-based detection, GAN-based detection). In part 3), To obtain knowledge-able findings, we discussed different object detection methods, i.e., convolutions and convolutional neural networks (CNN), pooling operations with trending types. Furthermore, we explained results with the help of some object detection algorithms, i.e., R-CNN, Fast R-CNN, Faster R-CNN, YOLO, and SSD, which are generally considered the base bone of CV, CNN, and OD. We performed comparative analysis on different datasets such as MS-COCO, PASCAL VOC07,12, and ImageNet to analyze results and present findings. At the end, we showed future directions with existing challenges of the field. In the future, OD methods and models can be analyzed for real-time object detection, tracking strategies.
翻訳日:2021-07-19 14:38:33 公開日:2021-07-16
# 継続による3次ハッシュコードの深層学習

Deep Learning to Ternary Hash Codes by Continuation ( http://arxiv.org/abs/2107.07987v1 )

ライセンス: Link先を確認
Mingrui Chen, Weiyu Li, Weizhi Lu(参考訳) 近年, ハードしきい値による深部特徴から生成した {0,1,-1}-三進符号は, 画像検索において {-1,1}-二進符号より優れていることが観察されている。 より優れた3次符号を得るため,ネットワークにスムーズな関数を付加することにより,コードと機能を共同で学習する提案を行った。 訓練中、関数は継続法によって非スムース三元関数へと進化する。 この方法は、離散関数を直接訓練することの難しさを回避し、3次符号の量子化誤差を低減する。 実験の結果,生成した符号は高い精度で検索できることがわかった。

Recently, it has been observed that {0,1,-1}-ternary codes which are simply generated from deep features by hard thresholding, tend to outperform {-1,1}-binary codes in image retrieval. To obtain better ternary codes, we for the first time propose to jointly learn the features with the codes by appending a smoothed function to the networks. During training, the function could evolve into a non-smoothed ternary function by a continuation method. The method circumvents the difficulty of directly training discrete functions and reduces the quantization errors of ternary codes. Experiments show that the generated codes indeed could achieve higher retrieval accuracy.
翻訳日:2021-07-19 14:38:06 公開日:2021-07-16
# 必要なすべての注意:画像検索のためのグローバルローカル、空間チャネルの注意

All the attention you need: Global-local, spatial-channel attention for image retrieval ( http://arxiv.org/abs/2107.08000v1 )

ライセンス: Link先を確認
Chull Hwan Song, Hye Joo Han, Yannis Avrithis(参考訳) 大規模インスタンスレベルの画像検索のための表現学習に対処する。 バックボーン、トレーニングパイプライン、損失関数とは別に、一般的なアプローチは、強力なグローバルイメージ表現の学習の核となる、異なる空間プーリングとアテンションメカニズムに焦点を当てている。 特徴テンソル(局所的および大域的)要素とそれが適用される次元(空間的およびチャネル的)との相互作用により、異なる形式の注意が向けられる。 残念なことに、それぞれの研究は1つか2つの注意を向け、分類、検出、検索といった異なる問題に適用している。 バックボーンネットワークの終端に設けたグローバルローカルアテンションモジュール(GLAM)について,局所的,グローバル的,空間的,チャネル的な4種類のアテンションを組み込んだアテンションモジュールを提案する。 我々は特徴テンソルを新たに獲得し,空間プーリングにより画像検索のための強力な埋め込みを学習する。 グローバルディスクリプタに着目し,あらゆる形式の注意の相互作用の実証的証拠を提供し,標準ベンチマークにおける技術の現状を改善する。

We address representation learning for large-scale instance-level image retrieval. Apart from backbone, training pipelines and loss functions, popular approaches have focused on different spatial pooling and attention mechanisms, which are at the core of learning a powerful global image representation. There are different forms of attention according to the interaction of elements of the feature tensor (local and global) and the dimensions where it is applied (spatial and channel). Unfortunately, each study addresses only one or two forms of attention and applies it to different problems like classification, detection or retrieval. We present global-local attention module (GLAM), which is attached at the end of a backbone network and incorporates all four forms of attention: local and global, spatial and channel. We obtain a new feature tensor and, by spatial pooling, we learn a powerful embedding for image retrieval. Focusing on global descriptors, we provide empirical evidence of the interaction of all forms of attention and improve the state of the art on standard benchmarks.
翻訳日:2021-07-19 14:37:55 公開日:2021-07-16
# CCVS:コンテキスト対応制御可能なビデオ合成

CCVS: Context-aware Controllable Video Synthesis ( http://arxiv.org/abs/2107.08037v1 )

ライセンス: Link先を確認
Guillaume Le Moing and Jean Ponce and Cordelia Schmid(参考訳) 本発表では,時間的連続性に関する文脈的情報と微妙な制御のための補助的情報の合成過程を条件に,空間的解像度とリアリズムを改善するためのいくつかの重要な要素を含む,古いビデオクリップを合成するための自己教師付き学習手法を紹介する。 予測モデルは、予測のためのオートエンコーダの潜時空間と、学習可能な光フローモジュールを通して時空間一貫性を強制するためにも用いられる文脈情報を更新するための画像空間において、二重自己回帰的である。 オートエンコーダの外観及び時間領域における適応的訓練は、その出力のリアリズムをさらに改善するために使用される。 A quantizer inserted between the encoder and the transformer in charge of forecasting future frames in latent space (and its inverse inserted between the transformer and the decoder) adds even more flexibility by affording simple mechanisms for handling multimodal ancillary information for controlling the synthesis process (eg, a few sample frames, an audio track, a trajectory in image space) and taking into account the intrinsically uncertain nature of the future by allowing multiple predictions. 提案手法の実装による実験は、複数のタスクと標準ベンチマークに対して非常に質的で定量的な結果を与える。

This presentation introduces a self-supervised learning approach to the synthesis of new video clips from old ones, with several new key elements for improved spatial resolution and realism: It conditions the synthesis process on contextual information for temporal continuity and ancillary information for fine control. The prediction model is doubly autoregressive, in the latent space of an autoencoder for forecasting, and in image space for updating contextual information, which is also used to enforce spatio-temporal consistency through a learnable optical flow module. Adversarial training of the autoencoder in the appearance and temporal domains is used to further improve the realism of its output. A quantizer inserted between the encoder and the transformer in charge of forecasting future frames in latent space (and its inverse inserted between the transformer and the decoder) adds even more flexibility by affording simple mechanisms for handling multimodal ancillary information for controlling the synthesis process (eg, a few sample frames, an audio track, a trajectory in image space) and taking into account the intrinsically uncertain nature of the future by allowing multiple predictions. Experiments with an implementation of the proposed approach give very good qualitative and quantitative results on multiple tasks and standard benchmarks.
翻訳日:2021-07-19 14:37:37 公開日:2021-07-16
# 幾何学的値反復:強化学習のための動的エラー認識KL正規化

Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning ( http://arxiv.org/abs/2107.07659v1 )

ライセンス: Link先を確認
Toshinori Kitamura, Lingwei Zhu, Takamitsu Matsubara(参考訳) 最近のentropy-regularized literatureのブームは、kullback-leibler(kl)正規化が、軽度の仮定の下でエラーをキャンセルすることで強化学習(rl)アルゴリズムの利点をもたらすことを示している。 しかし、既存の解析では定数重み係数を持つ固定正則化に焦点をあてており、係数が動的に変化することが許されている場合は考慮されていない。 本稿では,動的係数スキームを考察し,最初の漸近誤差境界について述べる。 動的係数の誤差境界に基づいて,よりロバストな学習を優先して,誤差の大きさに応じて係数をチューニングする効果的な手法を提案する。 そこで本研究では, 動的誤差を考慮したKL係数設計を特徴とする幾何学的値反復法(GVI)を提案する。 実験により, 一定KL係数の均一平均化に対する学習速度とロバスト性とのトレードオフを効果的に活用できることを示した。 GVIとディープネットワークの組み合わせは、一定のKL係数を持つアルゴリズムが大きく振動したり、あるいは収束に失敗するターゲットネットワークが存在しない場合でも、安定した学習挙動を示す。

The recent booming of entropy-regularized literature reveals that Kullback-Leibler (KL) regularization brings advantages to Reinforcement Learning (RL) algorithms by canceling out errors under mild assumptions. However, existing analyses focus on fixed regularization with a constant weighting coefficient and have not considered the case where the coefficient is allowed to change dynamically. In this paper, we study the dynamic coefficient scheme and present the first asymptotic error bound. Based on the dynamic coefficient error bound, we propose an effective scheme to tune the coefficient according to the magnitude of error in favor of more robust learning. On top of this development, we propose a novel algorithm: Geometric Value Iteration (GVI) that features a dynamic error-aware KL coefficient design aiming to mitigate the impact of errors on the performance. Our experiments demonstrate that GVI can effectively exploit the trade-off between learning speed and robustness over uniform averaging of constant KL coefficient. The combination of GVI and deep networks shows stable learning behavior even in the absence of a target network where algorithms with a constant KL coefficient would greatly oscillate or even fail to converge.
翻訳日:2021-07-19 14:36:51 公開日:2021-07-16
# 地中汚職を超えて--確率モデルにおける挿入と削除

Beyond In-Place Corruption: Insertion and Deletion In Denoising Probabilistic Models ( http://arxiv.org/abs/2107.07675v1 )

ライセンス: Link先を確認
Daniel D. Johnson, Jacob Austin, Rianne van den Berg, Daniel Tarlow(参考訳) denoising diffusion probabilistic models (ddpms) は、各例を反復的に分解し、崩壊したバージョンを元のものにマッピングする学習によって、シーケンス生成において印象的な結果を示している。 しかし、以前の研究は主に場所の汚職に焦点を当てており、それぞれのピクセルやトークンにノイズを加え、位置を同じに保っている。 本研究では,要素の挿入・削除が可能なシーケンスデータに対して,より広範な汚職プロセスやモデルについて検討する。 これらのモデルは算術シーケンスタスクにおいて標準のインプレースモデルよりも優れており、text8データセットでトレーニングされた場合、微調整なしでスペルエラーを修正することができる。

Denoising diffusion probabilistic models (DDPMs) have shown impressive results on sequence generation by iteratively corrupting each example and then learning to map corrupted versions back to the original. However, previous work has largely focused on in-place corruption, adding noise to each pixel or token individually while keeping their locations the same. In this work, we consider a broader class of corruption processes and denoising models over sequence data that can insert and delete elements, while still being efficient to train and sample from. We demonstrate that these models outperform standard in-place models on an arithmetic sequence task, and that when trained on the text8 dataset they can be used to fix spelling errors without any fine-tuning.
翻訳日:2021-07-19 14:36:31 公開日:2021-07-16
# ECG-Adv-GAN:条件付き生成逆数ネットワークによるECG逆数検出

ECG-Adv-GAN: Detecting ECG Adversarial Examples with Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2107.07677v1 )

ライセンス: Link先を確認
Khondker Fariha Hossain, Sharif Amit Kamran, Alireza Tavakkoli, Lei Pan, Daniel Ma, Sutharshan Rajasegarar, Chandan Karmaker(参考訳) 心電図(ECG)の取得には、特定のリズムの不規則を理解するための自動システムと分析パイプラインが必要である。 ディープニューラルネットワークは、ecg信号を追跡する一般的な技術となり、人間の専門家を上回っている。 それにもかかわらず、畳み込みニューラルネットワークは、ecg信号を誤分類し、モデルの精度を低下させる敵の例に影響を受けやすい。 さらに、アウトオブディストリビューションデータセットではうまく一般化されていない。 GANアーキテクチャは、敵のECG信号を合成し、既存のトレーニングデータを増やすために近年研究されている。 しかし、不整脈を検出するためにcnnベースの分類アーキテクチャを使用している。 現在、敵のサンプルを検出し不整脈を同時に分類できる汎用アーキテクチャは提案されていない。 そこで本研究では,異なるカテゴリの心電図信号を同時に生成し,心臓の異常を検知する条件生成適応ネットワークを提案する。 さらに,本モデルは,実例を合成するために,クラス固有のECG信号に条件付けされている。 その結果,本研究のアーキテクチャを比較検討し,実世界および逆境信号をベンチマークすることにより,正常/異常心電図信号検出における他の分類モデルに勝ることを示す。

Electrocardiogram (ECG) acquisition requires an automated system and analysis pipeline for understanding specific rhythm irregularities. Deep neural networks have become a popular technique for tracing ECG signals, outperforming human experts. Despite this, convolutional neural networks are susceptible to adversarial examples that can misclassify ECG signals and decrease the model's precision. Moreover, they do not generalize well on the out-of-distribution dataset. The GAN architecture has been employed in recent works to synthesize adversarial ECG signals to increase existing training data. However, they use a disjointed CNN-based classification architecture to detect arrhythmia. Till now, no versatile architecture has been proposed that can detect adversarial examples and classify arrhythmia simultaneously. To alleviate this, we propose a novel Conditional Generative Adversarial Network to simultaneously generate ECG signals for different categories and detect cardiac abnormalities. Moreover, the model is conditioned on class-specific ECG signals to synthesize realistic adversarial examples. Consequently, we compare our architecture and show how it outperforms other classification models in normal/abnormal ECG signal detection by benchmarking real world and adversarial signals.
翻訳日:2021-07-19 14:36:16 公開日:2021-07-16
# ScRAE: 1セル遺伝子発現データのクラスタリングのためのフレキシブルプリミティブを持つ決定論的正規化オートエンコーダ

ScRAE: Deterministic Regularized Autoencoders with Flexible Priors for Clustering Single-cell Gene Expression Data ( http://arxiv.org/abs/2107.07709v1 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Himanshu Asnani, Parag Singla, Prathosh AP(参考訳) シングルセルRNA配列(scRNA-seq)のクラスタリングは、その高次元性とデータスパーシティ("dropout"イベントとしても知られる)のため、統計的および計算上の問題を引き起こす。 近年,RAE(Regularized Auto-Encoder)に基づくディープニューラルネットワークモデルが,ロバストな低次元表現の学習に成功している。 RAEの基本的な考え方は、高次元のデータ空間から低次元の潜伏空間と逆転空間への非線形写像を学習し、同時に潜伏空間に分布を先行させ、正規化効果をもたらすことである。 本稿では,RAEは偏差トレードオフという悪名高い問題に悩まされていることを論じる。 遅延正規化のない単純なAEはデータの過度な適合をもたらすが、非常に強力な事前処理は表現不足やクラスタリングの低下につながる。 以上の課題に対処するため,単一セルRNAシークエンシングデータの効率的なクラスタリングのためのRAEフレームワーク( scRAE と呼ばれる)を提案する。 scRAEは決定論的AEと柔軟に学習可能な先行ジェネレータネットワークから構成されており、AEと共同で訓練されている。 これにより、scRAEは潜在空間におけるバイアスと分散の間のトレードオフを改善することができる。 提案手法の有効性を実世界の複数セルの遺伝子発現データセットを用いて実験的に実証する。

Clustering single-cell RNA sequence (scRNA-seq) data poses statistical and computational challenges due to their high-dimensionality and data-sparsity, also known as `dropout' events. Recently, Regularized Auto-Encoder (RAE) based deep neural network models have achieved remarkable success in learning robust low-dimensional representations. The basic idea in RAEs is to learn a non-linear mapping from the high-dimensional data space to a low-dimensional latent space and vice-versa, simultaneously imposing a distributional prior on the latent space, which brings in a regularization effect. This paper argues that RAEs suffer from the infamous problem of bias-variance trade-off in their naive formulation. While a simple AE without a latent regularization results in data over-fitting, a very strong prior leads to under-representation and thus bad clustering. To address the above issues, we propose a modified RAE framework (called the scRAE) for effective clustering of the single-cell RNA sequencing data. scRAE consists of deterministic AE with a flexibly learnable prior generator network, which is jointly trained with the AE. This facilitates scRAE to trade-off better between the bias and variance in the latent space. We demonstrate the efficacy of the proposed method through extensive experimentation on several real-world single-cell Gene expression datasets.
翻訳日:2021-07-19 14:35:58 公開日:2021-07-16
# 損失ベースの優先順位付けはいつ失敗するのか?

When does loss-based prioritization fail? ( http://arxiv.org/abs/2107.07741v1 )

ライセンス: Link先を確認
Niel Teng Hu, Xinyu Hu, Rosanne Liu, Sara Hooker, Jason Yosinski(参考訳) すべての例が等しく作られるわけではないが、標準のディープニューラルネットワークトレーニングプロトコルは、各トレーニングポイントを均一に扱う。 各例は、サンプルが学習プロトコルにどの程度貢献するかに関わらず、ネットワークを通じて同じ回数で前方および後方に伝播される。 最近の研究は、この均一な治療から逸脱してトレーニングを加速する方法を提案している。 一般的な手法は、損失の少ない例が既にモデルによって学習されているという直観によって損失に寄与するアップウェイトな例を伴っているため、トレーニング手順に対するその限界値が低くすべきである。 この見解は、高損失例でモデルを更新することがモデルにとって有益であると仮定する。 しかし、これは騒々しい実世界のデータには当てはまらないかもしれない。 本稿では,損失に基づく加速度法がノイズや破損したデータを伴うシナリオで劣化することを示す。 我々の研究は、ノイズを他の困難な例から正しく分離する必要がある例の計測方法を提案する。

Not all examples are created equal, but standard deep neural network training protocols treat each training point uniformly. Each example is propagated forward and backward through the network the same amount of times, independent of how much the example contributes to the learning protocol. Recent work has proposed ways to accelerate training by deviating from this uniform treatment. Popular methods entail up-weighting examples that contribute more to the loss with the intuition that examples with low loss have already been learned by the model, so their marginal value to the training procedure should be lower. This view assumes that updating the model with high loss examples will be beneficial to the model. However, this may not hold for noisy, real world data. In this paper, we theorize and then empirically demonstrate that loss-based acceleration methods degrade in scenarios with noisy and corrupted data. Our work suggests measures of example difficulty need to correctly separate out noise from other types of challenging examples.
翻訳日:2021-07-19 14:35:34 公開日:2021-07-16
# 分子特性予測のための特性認識適応関係ネットワーク

Property-aware Adaptive Relation Networks for Molecular Property Prediction ( http://arxiv.org/abs/2107.07994v1 )

ライセンス: Link先を確認
Yaqing Wang, Abulikemu Abuduweili, Dejing Dou(参考訳) 分子特性予測は、標的特性を持つ候補分子を発見するための薬物発見において重要な役割を担っている。 しかし、分子特性予測は基本的に数ショットの問題であり、通常のモデルを得るのが困難である。 本稿では,数発の分子特性予測問題に対する特性認識適応関係ネットワーク(PAR)を提案する。 既存の研究と比較すると, 分子のサブ構造と分子間の関係は, 様々な分子特性を考慮して異なるという事実を生かしている。 私たちのparは既存のグラフベースの分子エンコーダと互換性があり、さらにプロパティアウェアな分子埋め込みとモデル分子関係グラフを適応的に得ることができる。 結果関係グラフは、各タスク内の効果的なラベル伝播も促進する。 ベンチマーク分子特性予測データセットの大規模な実験により,本手法は常に最先端の手法より優れており,分子の埋め込みとモデル分子関係グラフを適切に得ることを示す。

Molecular property prediction plays a fundamental role in drug discovery to discover candidate molecules with target properties. However, molecular property prediction is essentially a few-shot problem which makes it hard to obtain regular models. In this paper, we propose a property-aware adaptive relation networks (PAR) for the few-shot molecular property prediction problem. In comparison to existing works, we leverage the facts that both substructures and relationships among molecules are different considering various molecular properties. Our PAR is compatible with existing graph-based molecular encoders, and are further equipped with the ability to obtain property-aware molecular embedding and model molecular relation graph adaptively. The resultant relation graph also facilitates effective label propagation within each task. Extensive experiments on benchmark molecular property prediction datasets show that our method consistently outperforms state-of-the-art methods and is able to obtain property-aware molecular embedding and model molecular relation graph properly.
翻訳日:2021-07-19 14:35:20 公開日:2021-07-16
# MODRL/D-EL:多目的最適化のための進化学習による多目的深層強化学習

MODRL/D-EL: Multiobjective Deep Reinforcement Learning with Evolutionary Learning for Multiobjective Optimization ( http://arxiv.org/abs/2107.07961v1 )

ライセンス: Link先を確認
Yongxin Zhang, Jiahai Wang, Zizhen Zhang, Yalan Zhou(参考訳) 近年,組合せ最適化問題を解決するための学習に基づくヒューリスティックスが注目を集めている。 既存の作品の多くは単純な制約付き単一目的問題のみを考えるが、実世界の問題の多くは多目的的な視点を持ち、豊富な制約を含む。 本稿では、時間窓付き多目的車両ルーティング問題(MO-VRPTW)と呼ばれる、典型的な複雑な問題に対する進化学習アルゴリズムを用いた多目的深部強化学習を提案する。 提案アルゴリズムでは,分解戦略を適用し,一連の注意モデルに対するサブプロブレムを生成する。 注意モデルをさらに強化するために、包括的コンテキスト情報を導入する。 進化学習はモデルのパラメータを微調整するためにも用いられる。 MO-VRPTWインスタンスの実験結果は、提案アルゴリズムが他の学習ベースおよび反復型アプローチよりも優れていることを示す。

Learning-based heuristics for solving combinatorial optimization problems has recently attracted much academic attention. While most of the existing works only consider the single objective problem with simple constraints, many real-world problems have the multiobjective perspective and contain a rich set of constraints. This paper proposes a multiobjective deep reinforcement learning with evolutionary learning algorithm for a typical complex problem called the multiobjective vehicle routing problem with time windows (MO-VRPTW). In the proposed algorithm, the decomposition strategy is applied to generate subproblems for a set of attention models. The comprehensive context information is introduced to further enhance the attention models. The evolutionary learning is also employed to fine-tune the parameters of the models. The experimental results on MO-VRPTW instances demonstrate the superiority of the proposed algorithm over other learning-based and iterative-based approaches.
翻訳日:2021-07-19 14:34:42 公開日:2021-07-16
# 視線追跡校正のための新しいロバスト多変量モード推定器

A New Robust Multivariate Mode Estimator for Eye-tracking Calibration ( http://arxiv.org/abs/2107.08030v1 )

ライセンス: Link先を確認
Adrien Brilhault, Sergio Neuenschwander, Ricardo Araujo Rios(参考訳) 本研究では,多変量分布のメインモードを推定する新しい手法を提案し,アイトラッキングキャリブレーションに適用する。 乳児やサルなどの非協力的な被験者による視線追跡実験を行う場合、キャリブレーションデータは一般的に高い汚染に悩まされる。 アウトリアーは通常、被験者がキャリブレーションポイントを見ていない時間間隔に対応するクラスタに編成される。 このタイプのマルチモーダル分布では、ほとんどの中心傾向尺度は主固定座標(第1モード)の推定に失敗するため、視線を画面座標にマッピングする際にエラーや不正確さが生じる。 そこで我々は,再帰的な深度に基づくフィルタリングに依存するBRILという,多変量分布の第1モードを同定するアルゴリズムを開発した。 この手法はガウス分布と一様分布の人工混合体で試験され、既存の手法と比較された(従来の深さ中央値、位置と散乱の頑健な推定器、クラスタリングに基づくアプローチ)。 異常値の比率が非常に高い分布であっても,クラスタにグループ化され,ランダムに分布する,優れた性能を得た。 最後に,カプシンサルを用いた眼追跡校正による実験データを用いて実世界のシナリオにおいて,特に他のアルゴリズムが精度に欠ける分布について,本手法の強みを示す。

We propose in this work a new method for estimating the main mode of multivariate distributions, with application to eye-tracking calibrations. When performing eye-tracking experiments with poorly cooperative subjects, such as infants or monkeys, the calibration data generally suffer from high contamination. Outliers are typically organized in clusters, corresponding to the time intervals when subjects were not looking at the calibration points. In this type of multimodal distributions, most central tendency measures fail at estimating the principal fixation coordinates (the first mode), resulting in errors and inaccuracies when mapping the gaze to the screen coordinates. Here, we developed a new algorithm to identify the first mode of multivariate distributions, named BRIL, which rely on recursive depth-based filtering. This novel approach was tested on artificial mixtures of Gaussian and Uniform distributions, and compared to existing methods (conventional depth medians, robust estimators of location and scatter, and clustering-based approaches). We obtained outstanding performances, even for distributions containing very high proportions of outliers, both grouped in clusters and randomly distributed. Finally, we demonstrate the strength of our method in a real-world scenario using experimental data from eye-tracking calibrations with Capuchin monkeys, especially for distributions where other algorithms typically lack accuracy.
翻訳日:2021-07-19 14:34:30 公開日:2021-07-16
# 関節グラフラッソの効率的な近位勾配アルゴリズム

Efficient proximal gradient algorithms for joint graphical lasso ( http://arxiv.org/abs/2107.07799v1 )

ライセンス: Link先を確認
Jie Chen, Ryosuke Shimmura and Joe Suzuki(参考訳) スパースデータから非方向のグラフィカルモデルを学ぶことを検討する。 グラフィカル・ラッソ (GL) に対していくつかの効率的なアルゴリズムが提案されているが、乗算器の交互方向法 (ADMM) がジョイント・グラフィカル・ラッソ (JGL) の主要なアプローチである。 本稿では,JGL のバックトラックオプションを伴わない近位勾配法を提案する。 これらの手順は1次で比較的単純であり、サブプロブレムは閉じた形で効率的に解かれる。 さらに、JGL問題の解法とアルゴリズムの反復に対する有界性を示す。 数値計算の結果,提案アルゴリズムは高精度かつ精度が高く,その効率は最先端のアルゴリズムと競合することがわかった。

We consider learning an undirected graphical model from sparse data. While several efficient algorithms have been proposed for graphical lasso (GL), the alternating direction method of multipliers (ADMM) is the main approach taken concerning for joint graphical lasso (JGL). We propose proximal gradient procedures with and without a backtracking option for the JGL. These procedures are first-order and relatively simple, and the subproblems are solved efficiently in closed form. We further show the boundedness for the solution of the JGL problem and the iterations in the algorithms. The numerical results indicate that the proposed algorithms can achieve high accuracy and precision, and their efficiency is competitive with state-of-the-art algorithms.
翻訳日:2021-07-19 14:33:40 公開日:2021-07-16
# アノテーションの欠如による生物画像評価のための創発的自己教師学習--新型コロナウイルスのケーススタディ

Exploiting generative self-supervised learning for the assessment of biological images with lack of annotations: a COVID-19 case-study ( http://arxiv.org/abs/2107.07761v1 )

ライセンス: Link先を確認
Alessio Mascolini, Dario Cardamone, Francesco Ponzio, Santa Di Cataldo, Elisa Ficarra(参考訳) 生物画像のコンピュータ支援分析は、多くの場合、大規模な注釈付きデータセットの広範な訓練を必要とする。 本稿では,StyleGAN2アーキテクチャに基づく識別器学習者であるGAN-DLについて述べる。 本稿では, 線形サポートベクトルマシンとワッサーシュタイン生成共振器ネットワークが組み合わさって, 原画像に基づく高スループット複合スクリーニングを可能にすることを示す。 VEROおよびHRCE細胞株のSARS-CoV-2感染抑制試験において,活性および不活性化合物の分類を行った。 従来の手法とは対照的に,ディープラーニングに基づくアプローチでは,サンプル作成プロセス中に通常収集されるアノテーション以外のアノテーションは不要である。 我々はRxRx19a Sars-CoV-2画像の収集実験を行った。 このデータセットは、VEROおよびHRCE細胞株のSARS-CoV-2からのin vitro感染を調節するための規制承認または後期臨床試験化合物の能力を評価するために生成された蛍光画像からなる。 本手法は, 分類作業だけでなく, 被験者に対する線量反応曲線を, 自己教師ありで効果的に導出できることを示す。 最後に,RxRx1蛍光画像コレクションの4つの異なるセルタイプを分類し,ゼロショット学習タスクをうまく処理することで,その一般化能力を実証する。

Computer-aided analysis of biological images typically requires extensive training on large-scale annotated datasets, which is not viable in many situations. In this paper we present GAN-DL, a Discriminator Learner based on the StyleGAN2 architecture, which we employ for self-supervised image representation learning in the case of fluorescent biological images. We show that Wasserstein Generative Adversarial Networks combined with linear Support Vector Machines enable high-throughput compound screening based on raw images. We demonstrate this by classifying active and inactive compounds tested for the inhibition of SARS-CoV-2 infection in VERO and HRCE cell lines. In contrast to previous methods, our deep learning based approach does not require any annotation besides the one that is normally collected during the sample preparation process. We test our technique on the RxRx19a Sars-CoV-2 image collection. The dataset consists of fluorescent images that were generated to assess the ability of regulatory-approved or in late-stage clinical trials compound to modulate the in vitro infection from SARS-CoV-2 in both VERO and HRCE cell lines. We show that our technique can be exploited not only for classification tasks, but also to effectively derive a dose response curve for the tested treatments, in a self-supervised manner. Lastly, we demonstrate its generalization capabilities by successfully addressing a zero-shot learning task, consisting in the categorization of four different cell types of the RxRx1 fluorescent images collection.
翻訳日:2021-07-19 14:33:26 公開日:2021-07-16
# HD特徴マップを用いた注意に基づく自動車の自己ローカライゼーション

Attention-based Vehicle Self-Localization with HD Feature Maps ( http://arxiv.org/abs/2107.07787v1 )

ライセンス: Link先を確認
Nico Engel, Vasileios Belagiannis and Klaus Dietmayer(参考訳) 本稿では,ポイントベース深層ニューラルネットワークを用いた車両の自己局所化手法を提案する。 我々のアプローチは測定と点の特徴、すなわち 高解像度のデジタルマップから車両のポーズを推測するランドマーク。 最良関連を学習し,各点集合間の局所情報を組み込むため,測定値と対応するランドマークとを一致させるアテンション機構を提案する。 最後に、この表現をポイントクラウド登録とその後のポーズ回帰タスクに使用します。 さらに,実世界のデータから膨大なデータセットを作成するコストを削減し,デプロイメントプロセスを容易にするための計測値とランドマークを人工的に生成するトレーニングシミュレーションフレームワークを提案する。 我々は,本手法をデータセット上で評価し,Kitti odometry データセットの適応版として,関連するアプローチと比較して優れた性能を実現し,また,支配的な一般化能力を示す。

We present a vehicle self-localization method using point-based deep neural networks. Our approach processes measurements and point features, i.e. landmarks, from a high-definition digital map to infer the vehicle's pose. To learn the best association and incorporate local information between the point sets, we propose an attention mechanism that matches the measurements to the corresponding landmarks. Finally, we use this representation for the point-cloud registration and the subsequent pose regression task. Furthermore, we introduce a training simulation framework that artificially generates measurements and landmarks to facilitate the deployment process and reduce the cost of creating extensive datasets from real-world data. We evaluate our method on our dataset, as well as an adapted version of the Kitti odometry dataset, where we achieve superior performance compared to related approaches; and additionally show dominant generalization capabilities.
翻訳日:2021-07-19 14:33:04 公開日:2021-07-16
# 組込みデバイスにおけるUAVマルチスペクトル画像を用いた効率的なU-Netベースツリークラウンのデライン化

Efficient automated U-Net based tree crown delineation using UAV multi-spectral imagery on embedded devices ( http://arxiv.org/abs/2107.07826v1 )

ライセンス: Link先を確認
Kostas Blekos, Stavros Nousias, Aris S Lalos(参考訳) ガイドラインのアプローチは、農業、環境、自然災害のモニタリングなど、様々な領域に重要な利益をもたらす。 文学作品の多くは、大量の計算資源とストレージリソースを必要とする伝統的なセグメンテーション手法を使用している。 ディープラーニングはコンピュータビジョンを変革し、機械翻訳を劇的に改善しましたが、トレーニングには膨大なデータセットと推論のための重要なリソースが必要です。 さらに重要なのは、上記のアプリケーションでは、リアルタイムで堅牢なパフォーマンスを提供するエネルギー効率の高い組み込みビジョンハードウェアが不可欠である。 本研究では,マルチスペクトル画像を用いて効果的にトレーニングされるU-Netベースのツリーデライン化手法を提案する。 ローカライゼーションを実行するディープアーキテクチャ、すなわち各ピクセルに対応するクラスラベルは、小さなセグメンテーションイメージのトレーニングを可能にするためにうまく使われています。 基底真理データは従来の画像復調法と分割法を用いて生成した。 ディープラーニングアプローチ用に設計された組込みプラットフォームで提案したDNNを効率的に実行できるようにするため,従来のモデル圧縮とアクセラレーション手法を用いる。 マルチスペクトルカメラを備えたUAVから収集したデータを用いた広範囲な評価研究は,デライン精度と実行効率の観点から提案手法の有効性を示す。

Delineation approaches provide significant benefits to various domains, including agriculture, environmental and natural disasters monitoring. Most of the work in the literature utilize traditional segmentation methods that require a large amount of computational and storage resources. Deep learning has transformed computer vision and dramatically improved machine translation, though it requires massive dataset for training and significant resources for inference. More importantly, energy-efficient embedded vision hardware delivering real-time and robust performance is crucial in the aforementioned application. In this work, we propose a U-Net based tree delineation method, which is effectively trained using multi-spectral imagery but can then delineate single-spectrum images. The deep architecture that also performs localization, i.e., a class label corresponds to each pixel, has been successfully used to allow training with a small set of segmented images. The ground truth data were generated using traditional image denoising and segmentation approaches. To be able to execute the proposed DNN efficiently in embedded platforms designed for deep learning approaches, we employ traditional model compression and acceleration methods. Extensive evaluation studies using data collected from UAVs equipped with multi-spectral cameras demonstrate the effectiveness of the proposed methods in terms of delineation accuracy and execution efficiency.
翻訳日:2021-07-19 14:32:51 公開日:2021-07-16
# 生成的逆ネットワークに基づく絵画スタイルアウェアマンガ彩色

Painting Style-Aware Manga Colorization Based on Generative Adversarial Networks ( http://arxiv.org/abs/2107.07943v1 )

ライセンス: Link先を確認
Yugo Shimizu, Ryosuke Furuta, Delong Ouyang, Yukinobu Taniguchi, Ryota Hinami, Shonosuke Ishiwatari(参考訳) 日本の漫画(漫画)は伝統的にモノクロ形式で作られている。 近年では、モノクロ漫画に加えて、より魅力的なメディアであるフルカラー漫画が登場している。 残念なことに、カラーコミックは手作業で着色する必要があるため、高い労働コストがかかる。 近年,自動着色手法が提案されているが,そのほとんどが漫画ではなくイラストとしてデザインされている。 イラストとは異なり、漫画は多くの連続したイメージで構成されているため、絵のスタイルは一貫していなければならない。 そこで本研究では,gan(generative adversarial networks)に基づく半自動カラー化手法を提案する。 提案手法では,画面トーン画像とフラットカラー画像の対を入力として,カラー画像を出力する。 実験の結果,提案手法は既存手法よりも優れた性能が得られることがわかった。

Japanese comics (called manga) are traditionally created in monochrome format. In recent years, in addition to monochrome comics, full color comics, a more attractive medium, have appeared. Unfortunately, color comics require manual colorization, which incurs high labor costs. Although automatic colorization methods have been recently proposed, most of them are designed for illustrations, not for comics. Unlike illustrations, since comics are composed of many consecutive images, the painting style must be consistent. To realize consistent colorization, we propose here a semi-automatic colorization method based on generative adversarial networks (GAN); the method learns the painting style of a specific comic from small amount of training data. The proposed method takes a pair of a screen tone image and a flat colored image as input, and outputs a colorized image. Experiments show that the proposed method achieves better performance than the existing alternatives.
翻訳日:2021-07-19 14:32:34 公開日:2021-07-16
# CT肺腫瘍分節に対するCMEDL (unpaired cross-modality ed distillation) の有用性

Unpaired cross-modality educed distillation (CMEDL) applied to CT lung tumor segmentation ( http://arxiv.org/abs/2107.07985v1 )

ライセンス: Link先を確認
Jue Jiang, Andreas Rimner, Joseph O. Deasy, and Harini Veeraraghavan(参考訳) 放射線治療を正確に計画し,実施し,治療効果を測定するためには,CTによる肺癌の正確な切除が必要である。 これは、軟組織コントラストが低いため、中腸に近い腫瘍では特に困難である。 そこで,教師のMRIネットワークが生徒のCTネットワークを誘導し,前景と背景の違いを示唆する特徴を抽出する,新しい相互モダリティ教育蒸留(CMEDL)手法を開発した。 i)イメージ・トゥ・イメージ(I2I)変換を用いたペア画像セットと,(ii)全ネットワークの同時トレーニングによる大規模なトレーニングセットによる教師ネットワークの事前学習の2つの要件を排除した。 我々のフレームワークは、エンドツーエンドのトレーニングなしのi2i翻訳、教師、学生セグメンテーションネットワークを用いています。 我々のフレームワークは任意のI2Iとセグメンテーションネットワークと組み合わせることができる。 3つのセグメンテーションと2つのI2I法によるフレームワークの実現可能性を示す。 全ネットワークは377個のCTと82個のT2w MRIで訓練された。 MRI情報をCTに取り入れるためのアブレーション試験と異なる方法が実施された。 dice similarity (dsc)、surface dice (sdsc)、hausdorff distance at the 95$^{th}$ percentile (hd95)を用いて精度を測定した。 CMEDL法は,非CMEDL法よりも有意に(p$<001)精度が高かった。 高いセグメンテーション精度(sDSC 0.83$\pm$ 0.16、HD95 5.20$\pm$ 6.86mm)を生み出した。 CMEDL は pMRI や CT と pMRI を併用した場合よりも精度が高かった。

Accurate and robust segmentation of lung cancers from CTs is needed to more accurately plan and deliver radiotherapy and to measure treatment response. This is particularly difficult for tumors located close to mediastium, due to low soft-tissue contrast. Therefore, we developed a new cross-modality educed distillation (CMEDL) approach, using unpaired CT and MRI scans, whereby a teacher MRI network guides a student CT network to extract features that signal the difference between foreground and background. Our contribution eliminates two requirements of distillation methods: (i) paired image sets by using an image to image (I2I) translation and (ii) pre-training of the teacher network with a large training set by using concurrent training of all networks. Our framework uses an end-to-end trained unpaired I2I translation, teacher, and student segmentation networks. Our framework can be combined with any I2I and segmentation network. We demonstrate our framework's feasibility using 3 segmentation and 2 I2I methods. All networks were trained with 377 CT and 82 T2w MRI from different sets of patients. Ablation tests and different strategies for incorporating MRI information into CT were performed. Accuracy was measured using Dice similarity (DSC), surface Dice (sDSC), and Hausdorff distance at the 95$^{th}$ percentile (HD95). The CMEDL approach was significantly (p $<$ 0.001) more accurate than non-CMEDL methods, quantitatively and visually. It produced the highest segmentation accuracy (sDSC of 0.83 $\pm$ 0.16 and HD95 of 5.20 $\pm$ 6.86mm). CMEDL was also more accurate than using either pMRI's or the combination of CT's with pMRI's for segmentation.
翻訳日:2021-07-19 14:32:22 公開日:2021-07-16
# 自動暗号ファイナンスエージェントのアーキテクチャ

Architecture of Automated Crypto-Finance Agent ( http://arxiv.org/abs/2107.07769v1 )

ライセンス: Link先を確認
Ali Raheman, Anton Kolonin, Ben Goertzel, Gergely Hegykozi, Ikram Ansari(参考訳) 本稿では,資産選択,ポートフォリオバランシング,流動性提供,トレーディングなどの活動を含む,分散金融におけるアクティブポートフォリオ管理のための自律エージェントの認知アーキテクチャを提案する。 アーキテクチャの一部の実装が提供され、予備的な結果と結論が提供される。

We present the cognitive architecture of an autonomous agent for active portfolio management in decentralized finance, involving activities such as asset selection, portfolio balancing, liquidity provision, and trading. Partial implementation of the architecture is provided and supplied with preliminary results and conclusions.
翻訳日:2021-07-19 14:31:53 公開日:2021-07-16
# デュアルバンド通信システムにおけるディープラーニングに基づくハイブリッドプリコーディング

Deep Learning Based Hybrid Precoding in Dual-Band Communication Systems ( http://arxiv.org/abs/2107.07843v1 )

ライセンス: Link先を確認
Rafail Ismayilov, Renato L. G. Cavalcante, S{\l}awomir Sta\'nczak(参考訳) 本研究では,サブ6GHz帯から抽出した空間的・時間的情報を用いてミリ波帯のビームを予測・追跡する深層学習手法を提案する。 より詳しくは、サブ6GHz帯とmmWave帯の両方で動作するデュアルバンド通信システムについて考察する。 目的は、アナログプリコーダ(RFプリコーダ)を有限コードブックから取り出すハイブリッドアナログ/デジタルアーキテクチャにより、mmWaveバンド内の達成可能な相互情報を最大化することである。 従来の探索手法を用いてRFプリコーダを見つけると、信号のオーバーヘッドが大きくなり、RF鎖の数や位相シフト器の分解能が大きくなる。 提案手法は、サブ-6ghz帯とmm波帯の時空間相関を利用して、サブ6ghzチャンネル測定からmm波帯のrfプリコーダを予測・追跡する。 提案手法は,従来型の検索ヒューリスティックに比べて信号処理のオーバーヘッドを大幅に削減するために,より小さな候補セットを提供する。 シミュレーションにより,提案手法は信号のオーバヘッドを大幅に低減しつつ,合理的な達成率を提供できることが示された。

We propose a deep learning-based method that uses spatial and temporal information extracted from the sub-6GHz band to predict/track beams in the millimeter-wave (mmWave) band. In more detail, we consider a dual-band communication system operating in both the sub-6GHz and mmWave bands. The objective is to maximize the achievable mutual information in the mmWave band with a hybrid analog/digital architecture where analog precoders (RF precoders) are taken from a finite codebook. Finding a RF precoder using conventional search methods incurs large signalling overhead, and the signalling scales with the number of RF chains and the resolution of the phase shifters. To overcome the issue of large signalling overhead in the mmWave band, the proposed method exploits the spatiotemporal correlation between sub-6GHz and mmWave bands, and it predicts/tracks the RF precoders in the mmWave band from sub-6GHz channel measurements. The proposed method provides a smaller candidate set so that performing a search over that set significantly reduces the signalling overhead compared with conventional search heuristics. Simulations show that the proposed method can provide reasonable achievable rates while significantly reducing the signalling overhead.
翻訳日:2021-07-19 14:31:49 公開日:2021-07-16
# ミリ波通信システムにおけるディープラーニングビーム最適化

Deep Learning Beam Optimization in Millimeter-Wave Communication Systems ( http://arxiv.org/abs/2107.07846v1 )

ライセンス: Link先を確認
Rafail Ismayilov, Renato L. G. Cavalcante, S{\l}awomir Sta\'nczak(参考訳) 本稿では,固定点アルゴリズムとニューラルネットワークを組み合わせることで,ミリ波通信システムにおける連立離散変数と連続変数を最適化し,ユーザレートを適切に定義した意味で割り当てる手法を提案する。 より詳しくは、離散変数にはユーザアクセスポイント割り当てとビーム構成が含まれ、連続変数はパワー割り当てを参照する。 ニューラルネットワークを用いてユーザ関連情報からビーム構成を予測する。 予測されたビーム構成により、不動点アルゴリズムは電力を割り当て、ユーザが干渉のないレートの最大割合を達成するためにアクセスポイントを割り当てる。 提案手法はビーム構成を"ワンショット"な方法で予測し,ビーム探索手順の複雑さを著しく低減する。 さらに、予測されたビーム配置が最適でない場合でも、不動点アルゴリズムは与えられたビーム配置に対して最適な電力割当とユーザアクセスポイント割当を提供する。

We propose a method that combines fixed point algorithms with a neural network to optimize jointly discrete and continuous variables in millimeter-wave communication systems, so that the users' rates are allocated fairly in a well-defined sense. In more detail, the discrete variables include user-access point assignments and the beam configurations, while the continuous variables refer to the power allocation. The beam configuration is predicted from user-related information using a neural network. Given the predicted beam configuration, a fixed point algorithm allocates power and assigns users to access points so that the users achieve the maximum fraction of their interference-free rates. The proposed method predicts the beam configuration in a "one-shot" manner, which significantly reduces the complexity of the beam search procedure. Moreover, even if the predicted beam configurations are not optimal, the fixed point algorithm still provides the optimal power allocation and user-access point assignments for the given beam configuration.
翻訳日:2021-07-19 14:31:29 公開日:2021-07-16
# ブロックチェーン技術:bitcoin、暗号通貨、アプリケーション

Blockchain Technology: Bitcoins, Cryptocurrency and Applications ( http://arxiv.org/abs/2107.07964v1 )

ライセンス: Link先を確認
Bosubabu Sambana(参考訳) Blockchainは、デジタル通貨をセキュアに交換し、取引と取引を効率的に行うために使用される分散台帳であり、ネットワークの各ユーザは、新しい取引を検証するために暗号化台帳の最小のコピーにアクセスすることができる。 blockchain ledgerは、過去に実行されたすべてのbitcoinトランザクションのコレクションである。 基本的には、個々のトランザクションのバッチを保持するタンパ保護データ構造ブロックを継続的に成長させ続ける分散データベースである。 完了したブロックは線形および時間順に追加される。 各ブロックは、前のブロックを指し示すタイムスタンプと情報リンクを含んでいる。 bitcoinはピアツーピアのパーミッションレスネットワークで、すべてのユーザーがネットワークに接続して新しいトランザクションを送信して、新しいブロックの検証と作成を可能にする。 サトシ・ナカモト(satoshi nakamoto)は、bitcoinのデジタル通貨のデザインについて、彼の研究論文 listserv 2008に投稿した。 中本氏の提案は暗号の長期化問題を解決し、デジタル通貨の基礎を築いた。 本稿では、bitcoinの概念、その特性、ブロックチェーンの必要性、bitcoinの仕組みについて説明する。 それは、銀行、金融サービス、および思考のインターネットと未来のテクノロジーの採用を形作る上でのブロックチェーンの役割を強調しようとしている。

Blockchain is a decentralized ledger used to securely exchange digital currency, perform deals and transactions efficient manner, each user of the network has access to the least copy of the encrypted ledger so that they can validate a new transaction. The blockchain ledger is a collection of all Bitcoin transactions executed in the past. Basically, it's distributed database that maintains continuously growing tamper-proof data structure blocks that holds batches of individual transactions. The completed blocks are added in a linear and chronological order. Each block contains a timestamp and information link which points to a previous block. Bitcoin is a peer-to-peer permissionless network that allows every user to connect to the network and send new transactions to verify and create new blocks. Satoshi Nakamoto described the design of Bitcoin digital currency in his research paper posted to a cryptography listserv 2008. Nakamoto's suggestion has solved the long-pending problem of cryptography and laid the foundation stone for digital currency. This paper explains the concept of bitcoin, its characteristics, the need for Blockchain, and how Bitcoin works. It attempts to highlight the role of Blockchain in shaping the future of banking , financial services, and the adoption of the Internet of Thinks and future Technologies.
翻訳日:2021-07-19 14:31:13 公開日:2021-07-16
# モデル誤特定によるロバストオンライン制御

Robust Online Control with Model Misspecification ( http://arxiv.org/abs/2107.07732v1 )

ライセンス: Link先を確認
Xinyi Chen, Udaya Ghai, Elad Hazan, Alexandre Megretski(参考訳) モデル誤特定を伴う時間不変線形系によって近似される未知の非線形力学系のオンライン制御について検討する。 本研究では,仮定線形近似からの逸脱を許容できるロバスト性に着目し,後見の最適制御と比較して有界な$\ell_2$-gainを維持した。 一部のモデルは、係数の完全な知識を持っても安定化できない: ロバスト性は、仮定されたダイナミクスと不安定なダイナミクスの集合の間の最小距離によって制限される。 そのため、この距離で下限を仮定する必要がある。 この仮定の下で、および$d$次元状態の完全な観察により、次元依存がほぼ最適である$\ell_2$-geinとともに$\Omega(\frac{1}{\sqrt{d}})$ロバスト性を達成する効率的なコントローラを記述する。 また, 有限だが準最適の$\ell_2$-geinで, 次元に依存しない一定のロバスト性を実現する非効率アルゴリズムも提供する。

We study online control of an unknown nonlinear dynamical system that is approximated by a time-invariant linear system with model misspecification. Our study focuses on robustness, which measures how much deviation from the assumed linear approximation can be tolerated while maintaining a bounded $\ell_2$-gain compared to the optimal control in hindsight. Some models cannot be stabilized even with perfect knowledge of their coefficients: the robustness is limited by the minimal distance between the assumed dynamics and the set of unstabilizable dynamics. Therefore it is necessary to assume a lower bound on this distance. Under this assumption, and with full observation of the $d$ dimensional state, we describe an efficient controller that attains $\Omega(\frac{1}{\sqrt{d}})$ robustness together with an $\ell_2$-gain whose dimension dependence is near optimal. We also give an inefficient algorithm that attains constant robustness independent of the dimension, with a finite but sub-optimal $\ell_2$-gain.
翻訳日:2021-07-19 14:30:35 公開日:2021-07-16
# 物理インフォーメーションニューラルネットワークを用いた磁気共鳴速度計測における境界形状推定と速度場の脱ノイズ

Simultaneous boundary shape estimation and velocity field de-noising in Magnetic Resonance Velocimetry using Physics-informed Neural Networks ( http://arxiv.org/abs/2107.07863v1 )

ライセンス: Link先を確認
Ushnish Sengupta, Alexandros Kontogiannis, Matthew P. Juniper(参考訳) 磁気共鳴速度計(MRV)は、流体の速度場を測定するために医学や工学で広く用いられている非侵襲的な実験技術である。 これらの測定は密度が高いが、信号対雑音比(SNR)が低い。 この測定は、質量と運動量の制御方程式にカプセル化された流れの物理的制約を課すことで解くことができる。 これまでの研究では、境界(例えば血管)の形状が先駆体として知られていた。 しかし、これには追加の計測が必要であり、それを得るのに費用がかかる。 本稿では、ノイズの多いMRVデータのみを用いて、最も可能性の高い境界形状と減音速度場を同時に推定する物理インフォームニューラルネットワークを提案する。 我々は、支配するpdeおよび0.0の推論された領域内で値1.0を取る補助ニューラルネットワークをトレーニングすることでこれを達成する。 このネットワークは損失関数におけるpde残項の重み付けに使用され、暗黙的にシステムの形状を学習する。 我々は,Poisson 方程式と Stokes 方程式をうまくモデル化できる流れの合成と実の MRV 測定の両方を同化して,アルゴリズムを検証した。 我々は、非常にノイズの多いMRV信号(SNR = 2.5)を再構成し、3.7~7.5%の低い復元誤差で地上の真実を復元できることを発見した。 物理インフォームドニューラルネットワークアプローチの単純さと柔軟性は、複雑な3Dジオメトリ、時間変化した4Dデータ、または物理モデルの未知のパラメータでMRVデータを同化するために容易にスケールすることができる。

Magnetic resonance velocimetry (MRV) is a non-invasive experimental technique widely used in medicine and engineering to measure the velocity field of a fluid. These measurements are dense but have a low signal-to-noise ratio (SNR). The measurements can be de-noised by imposing physical constraints on the flow, which are encapsulated in governing equations for mass and momentum. Previous studies have required the shape of the boundary (for example, a blood vessel) to be known a priori. This, however, requires a set of additional measurements, which can be expensive to obtain. In this paper, we present a physics-informed neural network that instead uses the noisy MRV data alone to simultaneously infer the most likely boundary shape and de-noised velocity field. We achieve this by training an auxiliary neural network that takes the value 1.0 within the inferred domain of the governing PDE and 0.0 outside. This network is used to weight the PDE residual term in the loss function accordingly and implicitly learns the geometry of the system. We test our algorithm by assimilating both synthetic and real MRV measurements for flows that can be well modeled by the Poisson and Stokes equations. We find that we are able to reconstruct very noisy (SNR = 2.5) MRV signals and recover the ground truth with low reconstruction errors of 3.7 - 7.5%. The simplicity and flexibility of our physics-informed neural network approach can readily scale to assimilating MRV data with complex 3D geometries, time-varying 4D data, or unknown parameters in the physical model.
翻訳日:2021-07-19 14:30:15 公開日:2021-07-16
# ベイズ深層学習によるHalpha Fibrilsの追跡

Tracing Halpha Fibrils through Bayesian Deep Learning ( http://arxiv.org/abs/2107.07886v1 )

ライセンス: Link先を確認
Haodi Jiang, Ju Jing, Jiasheng Wang, Chang Liu, Qin Li, Yan Xu, Jason T. L. Wang, Haimin Wang(参考訳) 本稿では,太陽観測のhalpha画像中の色球フィブリルを追跡するための新しい深層学習法fibrilnetを提案する。 本手法は、しきい値ベースのツールからトレーニングデータを準備するデータ前処理コンポーネントと、不確実な定量化を伴う確率的画像セグメンテーションのためのベイズ畳み込みニューラルネットワークとして実装されたディープラーニングモデルと、フィブリル適合アルゴリズムを含む後処理コンポーネントで構成され、フィブリルの向きを決定する。 このフィブリルネットツールは、ビッグベア太陽天文台(bbso)で高次適応光学を備えた1.6mグッド太陽望遠鏡(gst)が収集した活性領域(ar 12665)からの高分解能halpha画像に適用される。 本研究では,フィブリルネットツールについて,画像分割アルゴリズムとフィブリルフィッティングアルゴリズムを比較し,定量的に評価する。 実験結果と主な知見は以下の通りである。 まず、2つのツールのイメージセグメンテーション結果(すなわち検出されたフィブリル)はよく似ており、FibrilNetの優れた学習能力を示している。 第二に、fibrilnetは閾値ベースのツールよりも正確で滑らかなフィブリル方位角を見つける。 第3に、fibrilnetは閾値ベースのツールよりも高速であり、fibrilnetによって生成された不確かさマップは、検出された各フィブリルの信頼性を測定する定量的な方法を提供するだけでなく、閾値ベースのツールによって検出されないが機械学習によって推測されるフィブリル構造を特定するのに役立つ。 最後に、他の太陽観測所のフルディスクHalpha画像とBBSO/GSTが収集した高解像度Halpha画像にFibrilNetを適用し、多様なデータセットでツールのユーザビリティを実証する。

We present a new deep learning method, dubbed FibrilNet, for tracing chromospheric fibrils in Halpha images of solar observations. Our method consists of a data pre-processing component that prepares training data from a threshold-based tool, a deep learning model implemented as a Bayesian convolutional neural network for probabilistic image segmentation with uncertainty quantification to predict fibrils, and a post-processing component containing a fibril-fitting algorithm to determine fibril orientations. The FibrilNet tool is applied to high-resolution Halpha images from an active region (AR 12665) collected by the 1.6 m Goode Solar Telescope (GST) equipped with high-order adaptive optics at the Big Bear Solar Observatory (BBSO). We quantitatively assess the FibrilNet tool, comparing its image segmentation algorithm and fibril-fitting algorithm with those employed by the threshold-based tool. Our experimental results and major findings are summarized as follows. First, the image segmentation results (i.e., detected fibrils) of the two tools are quite similar, demonstrating the good learning capability of FibrilNet. Second, FibrilNet finds more accurate and smoother fibril orientation angles than the threshold-based tool. Third, FibrilNet is faster than the threshold-based tool and the uncertainty maps produced by FibrilNet not only provide a quantitative way to measure the confidence on each detected fibril, but also help identify fibril structures that are not detected by the threshold-based tool but are inferred through machine learning. Finally, we apply FibrilNet to full-disk Halpha images from other solar observatories and additional high-resolution Halpha images collected by BBSO/GST, demonstrating the tool's usability in diverse datasets.
翻訳日:2021-07-19 14:29:47 公開日:2021-07-16
# 脳-Ageモデリングのための不確実性と共有性,透過性ニューラルネットワークアーキテクチャ

An Uncertainty-Aware, Shareable and Transparent Neural Network Architecture for Brain-Age Modeling ( http://arxiv.org/abs/2107.07977v1 )

ライセンス: Link先を確認
Tim Hahn, Jan Ernsting, Nils R. Winter, Vincent Holstein, Ramona Leenings, Marie Beisemann, Lukas Fisch, Kelvin Sarink, Daniel Emden, Nils Opel, Ronny Redlich, Jonathan Repple, Dominik Grotegerd, Susanne Meinert, Jochen G. Hirsch, Thoralf Niendorf, Beate Endemann, Fabian Bamberg, Thomas Kr\"oncke, Robin B\"ulow, Henry V\"olzke, Oyunbileg von Stackelberg, Ramona Felizitas Sowade, Lale Umutlu, B\"orge Schmidt, Svenja Caspers, German National Cohort Study Center Consortium, Harald Kugel, Tilo Kircher, Benjamin Risse, Christian Gaser, James H. Cole, Udo Dannlowski, Klaus Berger(参考訳) 神経画像データから予測される年代と年齢の偏差は、横断的脳変化の高感度なリスクマーカーとして同定され、生物学的年齢調査の基礎となる。 しかし、この分野の基礎となる機械学習モデルは不確かさを考慮せず、その結果をトレーニングデータ密度と可変性と結びつける。 また、既存のモデルは一般に均質なトレーニングセットに基づいており、しばしば独立して検証されず、データ保護の問題により共有できない。 本稿では,ドイツ国立コホートのn=10,691データセットで学習した,不確実性,共有性,透明なモンテカルロドロップアウト複合量子性回帰(mccqr)ニューラルネットワークを紹介する。 MCCQRモデルは、高次元のニューロイメージングデータにおいて堅牢で分布のない不確実性の定量化を提供し、既存の10のリクルートセンターおよび3つの独立した検証サンプル(N=4,004)と比較して誤差率を低くする。 2つの例では,脳老化の加速を検出するために,刺激的な関連を予防し,能力を高めることが示されている。 トレーニング済みのモデルを公開しています。

The deviation between chronological age and age predicted from neuroimaging data has been identified as a sensitive risk-marker of cross-disorder brain changes, growing into a cornerstone of biological age-research. However, Machine Learning models underlying the field do not consider uncertainty, thereby confounding results with training data density and variability. Also, existing models are commonly based on homogeneous training sets, often not independently validated, and cannot be shared due to data protection issues. Here, we introduce an uncertainty-aware, shareable, and transparent Monte-Carlo Dropout Composite-Quantile-Regression (MCCQR) Neural Network trained on N=10,691 datasets from the German National Cohort. The MCCQR model provides robust, distribution-free uncertainty quantification in high-dimensional neuroimaging data, achieving lower error rates compared to existing models across ten recruitment centers and in three independent validation samples (N=4,004). In two examples, we demonstrate that it prevents spurious associations and increases power to detect accelerated brain-aging. We make the pre-trained model publicly available.
翻訳日:2021-07-19 14:29:14 公開日:2021-07-16
# 適応一階法の再検討:リプシッツ要求のない凸最適化

Adaptive first-order methods revisited: Convex optimization without Lipschitz requirements ( http://arxiv.org/abs/2107.08011v1 )

ライセンス: Link先を確認
Kimon Antonakopoulos and Panayotis Mertikopoulos(参考訳) 標準意味でのリプシッツ連続あるいは滑らかでないような凸最小化問題のクラスに対する適応的一階法の新しいファミリーを提案する。 具体的には、非Lipschitz (NoLips) 最適化における最近の活動の激しさに動機づけられた、参照ブレグマン関数に対して連続的あるいは滑らかな問題を考える。 これらの条件は、フィッシャー・マーケット、ポアソン・トモグラフィー、D-デザインなど、特定の目的を持つ幅広い問題を含んでいる。 この設定では、UnixGradやAcceleGradのような既存の順序最適適応手法の適用は、特にランダム性と不確実性の存在では不可能である。 適応ミラー降下(AdaMir)と呼ばれる手法は,確率的を含む比較的連続的あるいは滑らかな問題において,min-max最適率を同時に達成することにより,このギャップを埋めることを目的としている。

We propose a new family of adaptive first-order methods for a class of convex minimization problems that may fail to be Lipschitz continuous or smooth in the standard sense. Specifically, motivated by a recent flurry of activity on non-Lipschitz (NoLips) optimization, we consider problems that are continuous or smooth relative to a reference Bregman function - as opposed to a global, ambient norm (Euclidean or otherwise). These conditions encompass a wide range of problems with singular objectives, such as Fisher markets, Poisson tomography, D-design, and the like. In this setting, the application of existing order-optimal adaptive methods - like UnixGrad or AcceleGrad - is not possible, especially in the presence of randomness and uncertainty. The proposed method - which we call adaptive mirror descent (AdaMir) - aims to close this gap by concurrently achieving min-max optimal rates in problems that are relatively continuous or smooth, including stochastic ones.
翻訳日:2021-07-19 14:28:50 公開日:2021-07-16
# マージツリーのwasserstein距離、測地線、およびバリセンタ

Wasserstein Distances, Geodesics and Barycenters of Merge Trees ( http://arxiv.org/abs/2107.07789v1 )

ライセンス: Link先を確認
Mathieu Pont, Jules Vidal, Julie Delon and Julien Tierny(参考訳) 本稿では,マージ木の距離,測地線,バリセンタを推定するための統一計算フレームワークを提案する。 本研究では,最近の編集距離 [106] の研究を拡張し,測地線とバリセンタの効率的な計算を可能にするために意図的に設計された,マージ木間のワッサースタイン距離と呼ばれる新しい計量を導入する。 具体的には、我々の新しい距離は極端持続図形の間のL2-ワッサーシュタイン距離と厳密に等しいが、より小さな解空間、すなわち枝分解木の間のルート部分同型空間に制限される。 これにより、永続化ダイアグラムから統合ツリーへのジオデシックとバリセンタのための既存の最適化フレームワーク [112] を簡単に拡張できます。 本稿では,距離,測地,バリセンタ,クラスタ計算に汎用的に適用可能なタスクベースアルゴリズムを提案する。 本手法のタスクベース特性は,共有メモリ並列化によるさらなる高速化を可能にする。 公開アンサンブルやscivisコンテストのベンチマークに関する広範囲な実験によって、我々のアプローチの効率性 -- 最大の例としては、分単位のbarycenter計算 -- と、代表的なbarycenterマージツリーを生成する質的能力が示され、アンサンブルに見られる興味深い特徴を視覚的に要約しています。 我々は,機能追跡,時間的縮小,アンサンブルクラスタリングといった専用可視化アプリケーションによる貢献の有用性を示す。 結果の再現に使用できる軽量なC++実装を提供しています。

This paper presents a unified computational framework for the estimation of distances, geodesics and barycenters of merge trees. We extend recent work on the edit distance [106] and introduce a new metric, called the Wasserstein distance between merge trees, which is purposely designed to enable efficient computations of geodesics and barycenters. Specifically, our new distance is strictly equivalent to the L2-Wasserstein distance between extremum persistence diagrams, but it is restricted to a smaller solution space, namely, the space of rooted partial isomorphisms between branch decomposition trees. This enables a simple extension of existing optimization frameworks [112] for geodesics and barycenters from persistence diagrams to merge trees. We introduce a task-based algorithm which can be generically applied to distance, geodesic, barycenter or cluster computation. The task-based nature of our approach enables further accelerations with shared-memory parallelism. Extensive experiments on public ensembles and SciVis contest benchmarks demonstrate the efficiency of our approach -- with barycenter computations in the orders of minutes for the largest examples -- as well as its qualitative ability to generate representative barycenter merge trees, visually summarizing the features of interest found in the ensemble. We show the utility of our contributions with dedicated visualization applications: feature tracking, temporal reduction and ensemble clustering. We provide a lightweight C++ implementation that can be used to reproduce our results.
翻訳日:2021-07-19 14:28:29 公開日:2021-07-16
# 光度変調による深部逆トーンマッピング

Lightness Modulated Deep Inverse Tone Mapping ( http://arxiv.org/abs/2107.07907v1 )

ライセンス: Link先を確認
Kanglin Liu, Gaofeng Cao, Jiang Duan, Guoping Qiu(参考訳) シングルイメージHDR再構成や逆トーンマッピング(iTM)は難しい課題である。 特に,その地域の詳細がほぼ完全に失われているため,過剰露出領域における情報の復元は極めて困難である。 本稿では、深層畳み込みニューラルネットワーク(CNN)の特徴抽出とマッピング能力を活用し、CNNの変調前の明るさを利用して、過剰露光領域の周囲の観測をよりよく活用し、HDR画像再構成の質を高める深層学習に基づくiTM法を提案する。 具体的には、LDR入力からHDR画像を推測するための階層型合成ネットワーク(HiSN)と、その推論プロセスにおける光度事前知識を組み込むための光度適応変調ネットワーク(LAMN)を導入する。 HiSNはHDR画像の高明度成分と低明度成分を階層的に合成する一方、LAMNは明度適応マスクを用いて、明度のない飽和画素をよく露出した下光画素から分離し、特に難解な明度のない領域において、HiSNが欠落した情報をより正確に推測できるようにする。 本研究は,定量的測定と視覚的比較に基づく新しい手法の有効性を示す実験結果である。 さらに,hisnのアブレーション研究とlamn内部のアクティベーションマップの可視化により,新しいitmアルゴリズムの内部動作の理解を深めるとともに,最先端アルゴリズムよりも性能が向上する理由を説明する。

Single-image HDR reconstruction or inverse tone mapping (iTM) is a challenging task. In particular, recovering information in over-exposed regions is extremely difficult because details in such regions are almost completely lost. In this paper, we present a deep learning based iTM method that takes advantage of the feature extraction and mapping power of deep convolutional neural networks (CNNs) and uses a lightness prior to modulate the CNN to better exploit observations in the surrounding areas of the over-exposed regions to enhance the quality of HDR image reconstruction. Specifically, we introduce a Hierarchical Synthesis Network (HiSN) for inferring a HDR image from a LDR input and a Lightness Adpative Modulation Network (LAMN) to incorporate the the lightness prior knowledge in the inferring process. The HiSN hierarchically synthesizes the high-brightness component and the low-brightness component of the HDR image whilst the LAMN uses a lightness adaptive mask that separates detail-less saturated bright pixels from well-exposed lower light pixels to enable HiSN to better infer the missing information, particularly in the difficult over-exposed detail-less areas. We present experimental results to demonstrate the effectiveness of the new technique based on quantitative measures and visual comparisons. In addition, we present ablation studies of HiSN and visualization of the activation maps inside LAMN to help gain a deeper understanding of the internal working of the new iTM algorithm and explain why it can achieve much improved performance over state-of-the-art algorithms.
翻訳日:2021-07-19 14:28:05 公開日:2021-07-16
# 熱赤外センサを用いた生体内モニタリング

In-Bed Person Monitoring Using Thermal Infrared Sensors ( http://arxiv.org/abs/2107.07986v1 )

ライセンス: Link先を確認
Elias Josse, Amanda Nerborg, Kevin Hernandez-Diaz, Fernando Alonso-Fernandez(参考訳) 世界は高齢化と医療専門家の不足を期待している。 これは高齢者に安全で尊厳ある生活を提供するという問題を引き起こす。 カメラを含む技術ソリューションは、安全、快適、効率的な緊急対応に寄与するが、プライバシーを侵害している。 パナソニックグリッド(Panasonic Grid-EYE)は、低解像度の赤外線サーモパイルアレイセンサーで、よりプライバシーを提供する。 ベッドの上に装着すると、ユーザーがベッドの上にいるかどうかを、人間との対話なしに判断できる。 この目的のために、2つのデータセットをキャプチャし、1つ(480画像)は一定の条件下で、もう1つ(200画像)はダブレットの使用、ペットとの睡眠、室温の増加といった異なるバリエーションでキャプチャした。 我々は、SVM(Support Vector Machines)、k-Nearest Neighbors(k-NN)、Neural Network(NN)の3つの機械学習アルゴリズムをテストする。 10倍のクロスバリデーションで、メインデータセットの最高精度は、SVMとk-NNの両方(99%)である。 変動データを用いた結果,一定の状況下での信頼性が低下し,環境変動の課題を満たすための余分な作業の必要性が強調された。

The world is expecting an aging population and shortage of healthcare professionals. This poses the problem of providing a safe and dignified life for the elderly. Technological solutions involving cameras can contribute to safety, comfort and efficient emergency responses, but they are invasive of privacy. We use 'Griddy', a prototype with a Panasonic Grid-EYE, a low-resolution infrared thermopile array sensor, which offers more privacy. Mounted over a bed, it can determine if the user is on the bed or not without human interaction. For this purpose, two datasets were captured, one (480 images) under constant conditions, and a second one (200 images) under different variations such as use of a duvet, sleeping with a pet, or increased room temperature. We test three machine learning algorithms: Support Vector Machines (SVM), k-Nearest Neighbors (k-NN) and Neural Network (NN). With 10-fold cross validation, the highest accuracy in the main dataset is for both SVM and k-NN (99%). The results with variable data show a lower reliability under certain circumstances, highlighting the need of extra work to meet the challenge of variations in the environment.
翻訳日:2021-07-19 14:27:35 公開日:2021-07-16
# プライバシ保存時空間シナリオ生成による再生可能エネルギー:深層学習アプローチ

Privacy-preserving Spatiotemporal Scenario Generation of Renewable Energies: A Federated Deep Generative Learning Approach ( http://arxiv.org/abs/2107.07738v1 )

ライセンス: Link先を確認
Yang Li, Jiazheng Li and Yi Wang(参考訳) シナリオ生成は、高ペネレーションの再生可能エネルギーを用いた電力システムにおける決定のための基本的で重要なツールである。 ビッグデータに基づいて,フェデレーション学習と最小2乗逆数ネットワーク(LSGAN)を統合して,再生可能シナリオ生成を実現することにより,フェデレーション付き深層学習フレームワークFed-LSGANを提案する。 具体的には、フェデレーション学習は、ネットワークエッジにおける再生可能サイトから中央サーバ内の共有グローバルモデルを学び、すべてのデータではなくモデルパラメータを転送することで、生成品質を犠牲にすることなく、プライバシ保存形式でシナリオを生成することができる。 一方、LSGANsに基づく深層生成モデルでは、再生可能電力の時空間特性を完全に把握することにより、履歴データの分布に適合するシナリオを生成し、最小二乗損失関数を利用してトレーニング安定性と生成品質を向上させる。 シミュレーションの結果,提案手法は高品質な再生可能シナリオを生成し,最先端の集中型手法よりも優れていた。 さらに,本手法の堅牢性を検証するために,異なるフェデレート学習環境を用いた実験を設計・実施した。

Scenario generation is a fundamental and crucial tool for decision-making in power systems with high-penetration renewables. Based on big historical data, a novel federated deep generative learning framework, called Fed-LSGAN, is proposed by integrating federated learning and least square generative adversarial networks (LSGANs) for renewable scenario generation. Specifically, federated learning learns a shared global model in a central server from renewable sites at network edges, which enables the Fed-LSGAN to generate scenarios in a privacy-preserving manner without sacrificing the generation quality by transferring model parameters, rather than all data. Meanwhile, the LSGANs-based deep generative model generates scenarios that conform to the distribution of historical data through fully capturing the spatial-temporal characteristics of renewable powers, which leverages the least squares loss function to improve the training stability and generation quality. The simulation results demonstrate that the proposal manages to generate high-quality renewable scenarios and outperforms the state-of-the-art centralized methods. Besides, an experiment with different federated learning settings is designed and conducted to verify the robustness of our method.
翻訳日:2021-07-19 14:26:58 公開日:2021-07-16
# 線形確率システムの最適定常制御のための強化学習

Reinforcement Learning for Optimal Stationary Control of Linear Stochastic Systems ( http://arxiv.org/abs/2107.07788v1 )

ライセンス: Link先を確認
Bo Pang and Zhong-Ping Jiang(参考訳) 本稿では,強化学習手法を用いて,加法と乗法の両方の雑音を伴う連続時間線形確率システムの最適定常制御について検討する。 方針反復に基づいて, 最適定常制御問題の最適化方針を, 初期許容制御方針からシステム行列を明示的に識別することなく, 入力/状態データから直接発見できる新しいオフ・ポリシー強化学習アルゴリズム, 楽観的最小二乗法に基づく政策反復法を提案する。 楽観的な最小二乗法に基づく政策反復によって与えられる解は、穏やかな条件下で最適解の小さな近傍に収束することが証明される。 三重反転振子例に対する提案アルゴリズムの適用は,その実現可能性と有効性を検証する。

This paper studies the optimal stationary control of continuous-time linear stochastic systems with both additive and multiplicative noises, using reinforcement learning techniques. Based on policy iteration, a novel off-policy reinforcement learning algorithm, named optimistic least-squares-based policy iteration, is proposed which is able to iteratively find near-optimal policies of the optimal stationary control problem directly from input/state data without explicitly identifying any system matrices, starting from an initial admissible control policy. The solutions given by the proposed optimistic least-squares-based policy iteration are proved to converge to a small neighborhood of the optimal solution with probability one, under mild conditions. The application of the proposed algorithm to a triple inverted pendulum example validates its feasibility and effectiveness.
翻訳日:2021-07-19 14:26:35 公開日:2021-07-16
# 5g&beyond無線ネットワークの設計における近接近傍法とその応用

Nearest neighbor Methods and their Applications in Design of 5G & Beyond Wireless Networks ( http://arxiv.org/abs/2107.07869v1 )

ライセンス: Link先を確認
Syed Ali Raza Zaidi(参考訳) 本稿では,教師あり学習を用いた分類問題の解法としてよく用いられるNearest neighbor(NN)手法の概要について述べる。 この記事では、重要なアプリケーションとともに理論的背景、アルゴリズム、実装の側面を簡潔に紹介する。 本稿では、アプリケーションの観点から、NN分類技術を用いて解決できる5Gおよび無線ネットワーク以外の課題について考察する。

In this paper, we present an overview of Nearest neighbor (NN) methods, which are frequently employed for solving classification problems using supervised learning. The article concisely introduces the theoretical background, algorithmic, and implementation aspects along with the key applications. From an application standpoint, this article explores the challenges related to the 5G and beyond wireless networks which can be solved using NN classification techniques.
翻訳日:2021-07-19 14:26:21 公開日:2021-07-16
# Finite Basis Physics-Informed Neural Networks (FBPINNs):微分方程式を解くためのスケーラブルな領域分解アプローチ

Finite Basis Physics-Informed Neural Networks (FBPINNs): a scalable domain decomposition approach for solving differential equations ( http://arxiv.org/abs/2107.07871v1 )

ライセンス: Link先を確認
Ben Moseley, Andrew Markham, Tarje Nissen-Meyer(参考訳) 近年,物理インフォームドニューラルネットワーク (PINN) は微分方程式に関する問題を解くための強力な新しいパラダイムを提供している。 古典的な数値法と比較して、PINNは微分方程式のメッシュフリー解を提供する能力や、同じ最適化問題において前方および逆モデリングを行う能力など、いくつかの利点がある。 有望ではあるが、これまでの重要な制限は、pinnが大規模なドメインやマルチスケールソリューションの問題を正確かつ効率的に解決するのに苦労していることだ。 問題のサイズが大きくなると、基礎となるPINN最適化問題の複雑さが増大し、ニューラルネットワークのスペクトルバイアスが増大するなど、複数の重要な要因がこの問題に寄与する。 本研究では,FBPINN(Finite Basis PINNs)と呼ばれる微分方程式に関する大規模問題を解くための,新しいスケーラブルなアプローチを提案する。 FBPINNは古典的有限要素法に着想を得ており、微分方程式の解はコンパクトな支持を持つ基底関数の有限集合の和として表される。 fbpinnsでは、ニューラルネットワークは、小さな重複するサブドメイン上で定義されるこれらの基底関数を学ぶために使用される。 fbinnは、各サブドメインに対して別々の入力正規化を使用することで、ニューラルネットワークのスペクトルバイアスに対処するように設計されている。 数値実験により,FBPINNは,大規模かつ大規模な課題の解決に有効であり,必要な精度と計算資源の両方において標準PINNよりも優れており,大規模かつ現実的な問題に対するPINNの適用への道が開けている可能性が示唆された。

Recently, physics-informed neural networks (PINNs) have offered a powerful new paradigm for solving problems relating to differential equations. Compared to classical numerical methods PINNs have several advantages, for example their ability to provide mesh-free solutions of differential equations and their ability to carry out forward and inverse modelling within the same optimisation problem. Whilst promising, a key limitation to date is that PINNs have struggled to accurately and efficiently solve problems with large domains and/or multi-scale solutions, which is crucial for their real-world application. Multiple significant and related factors contribute to this issue, including the increasing complexity of the underlying PINN optimisation problem as the problem size grows and the spectral bias of neural networks. In this work we propose a new, scalable approach for solving large problems relating to differential equations called Finite Basis PINNs (FBPINNs). FBPINNs are inspired by classical finite element methods, where the solution of the differential equation is expressed as the sum of a finite set of basis functions with compact support. In FBPINNs neural networks are used to learn these basis functions, which are defined over small, overlapping subdomains. FBINNs are designed to address the spectral bias of neural networks by using separate input normalisation over each subdomain, and reduce the complexity of the underlying optimisation problem by using many smaller neural networks in a parallel divide-and-conquer approach. Our numerical experiments show that FBPINNs are effective in solving both small and larger, multi-scale problems, outperforming standard PINNs in both accuracy and computational resources required, potentially paving the way to the application of PINNs on large, real-world problems.
翻訳日:2021-07-19 14:26:17 公開日:2021-07-16
# 変分オートエンコーダを用いた機械学習金堂物理

Machine-learning Kondo physics using variational autoencoders ( http://arxiv.org/abs/2107.08013v1 )

ライセンス: Link先を確認
Cole Miles, Matthew R. Carbone, Erica J. Sturm, Deyu Lu, Andreas Weichselbaum, Kipton Barros, and Robert M. Konik(参考訳) 1粒子アンダーソン不純物モデルスペクトル関数のデータセットから物理的洞察を抽出するために変分オートエンコーダを用いる。 オートエンコーダは、再構成誤差によって測定されたトレーニングセットの各要素を忠実に特徴付ける低次元の潜在空間表現を見つけるために訓練される。 変分オートエンコーダは標準オートエンコーダの確率的一般化であり、高い解釈可能な特徴を促進するために学習された潜在空間をさらに条件付ける。 本研究では,アンダーソンの不純物モデルにおける創発的挙動を特徴付けるよく知られた,しかし非自明なパラメータと,学習された潜在空間成分が強く相関していることを見いだした。 特に、1つの潜在空間成分は粒子-ホール非対称性と相関し、もう1つは不純物モデルにおいて動的に生成された低エネルギースケールである近藤温度とほぼ1対1の対応にある。 記号回帰により、この成分を素物理的入力パラメータの関数としてモデル化し、近藤温度の非摂動公式を再発見する。 私たちが開発した機械学習パイプラインは、他の物理システムで新しいドメイン知識を見つける機会を開きます。

We employ variational autoencoders to extract physical insight from a dataset of one-particle Anderson impurity model spectral functions. Autoencoders are trained to find a low-dimensional, latent space representation that faithfully characterizes each element of the training set, as measured by a reconstruction error. Variational autoencoders, a probabilistic generalization of standard autoencoders, further condition the learned latent space to promote highly interpretable features. In our study, we find that the learned latent space components strongly correlate with well known, but nontrivial, parameters that characterize emergent behaviors in the Anderson impurity model. In particular, one latent space component correlates with particle-hole asymmetry, while another is in near one-to-one correspondence with the Kondo temperature, a dynamically generated low-energy scale in the impurity model. With symbolic regression, we model this component as a function of bare physical input parameters and "rediscover" the non-perturbative formula for the Kondo temperature. The machine learning pipeline we develop opens opportunities to discover new domain knowledge in other physical systems.
翻訳日:2021-07-19 14:25:47 公開日:2021-07-16
# 明示的時間依存力学系学習のためのポート・ハミルトンニューラルネットワーク

Port-Hamiltonian Neural Networks for Learning Explicit Time-Dependent Dynamical Systems ( http://arxiv.org/abs/2107.08024v1 )

ライセンス: Link先を確認
Shaan Desai, Marios Mattheakis, David Sondak, Pavlos Protopapas and Stephen Roberts(参考訳) 動的システムの時間的挙動を正確に学習するには、十分な学習バイアスを持つモデルが必要である。 近年のイノベーションは、ハミルトニアン形式とラグランジュ形式をニューラルネットワークに組み込んで、物理系の軌道を予測する他のアプローチよりも大幅に改善されている。 これらの方法は一般的に、制御信号が apriori として知られている時間やシステムに依存する自律システムに取り組む。 この成功にもかかわらず、多くの実世界の力学系は非自律的であり、時間に依存した力とエネルギー散逸を経験する。 本研究では,エネルギー散逸と時間依存的な制御力を捉える汎用フレームワークであるニューラルネットワークにポート・ハミルトン形式を組み込むことで,このような非自律システムからの学習の課題に対処する。 提案する \emph{port-hamiltonian neural network} は,実用的な非線形物理系のダイナミクスを効率的に学習し,基礎となる定常ハミルトニアン,時間依存力,散逸係数を正確に回復できることを示す。 我々のネットワークの有望な成果は、ダッフィング方程式のようなカオス的なシステムを学習し、予測する能力である。

Accurately learning the temporal behavior of dynamical systems requires models with well-chosen learning biases. Recent innovations embed the Hamiltonian and Lagrangian formalisms into neural networks and demonstrate a significant improvement over other approaches in predicting trajectories of physical systems. These methods generally tackle autonomous systems that depend implicitly on time or systems for which a control signal is known apriori. Despite this success, many real world dynamical systems are non-autonomous, driven by time-dependent forces and experience energy dissipation. In this study, we address the challenge of learning from such non-autonomous systems by embedding the port-Hamiltonian formalism into neural networks, a versatile framework that can capture energy dissipation and time-dependent control forces. We show that the proposed \emph{port-Hamiltonian neural network} can efficiently learn the dynamics of nonlinear physical systems of practical interest and accurately recover the underlying stationary Hamiltonian, time-dependent force, and dissipative coefficient. A promising outcome of our network is its ability to learn and predict chaotic systems such as the Duffing equation, for which the trajectories are typically hard to learn.
翻訳日:2021-07-19 14:25:30 公開日:2021-07-16
# 留意点のない学習を用いた自動音声キャプションの連続学習

Continual Learning for Automated Audio Captioning Using The Learning Without Forgetting Approach ( http://arxiv.org/abs/2107.08028v1 )

ライセンス: Link先を確認
Jan Berg and Konstantinos Drossos(参考訳) 自動音声キャプション(AAC)は、テキスト記述を自動的に生成するタスクである。 キャプション) 一般音声信号の内容について。 ほとんどのaacメソッドは既存のデータセットを使用して最適化や評価を行っている。 AACデータセットが保持する限られた情報を考えると、AACメソッドは利用したデータセットに含まれる情報のみを学習する可能性が高い。 本稿では,連続学習法を用いて新たな情報にaac法を連続的に適用する最初の手法を提案する。 本シナリオでは,未認識の一般音声信号に対して事前最適化されたaac法が用いられ,新たな参照キャプションが与えられた場合,新たな情報に適応するためにパラメータを更新できる。 本手法は,プリ最適化されたaac法と2つのaacデータセットを用いて評価する。 提案手法を3つのシナリオと比較し,一方のデータセットでトレーニングを2回,他方のデータセットでトレーニングを3分の1,もう一方のデータセットで微調整を行った。 得られた結果から,本手法は新たな知識を蒸留し,過去の知識を忘れないことのバランスが良好であることがわかった。

Automated audio captioning (AAC) is the task of automatically creating textual descriptions (i.e. captions) for the contents of a general audio signal. Most AAC methods are using existing datasets to optimize and/or evaluate upon. Given the limited information held by the AAC datasets, it is very likely that AAC methods learn only the information contained in the utilized datasets. In this paper we present a first approach for continuously adapting an AAC method to new information, using a continual learning method. In our scenario, a pre-optimized AAC method is used for some unseen general audio signals and can update its parameters in order to adapt to the new information, given a new reference caption. We evaluate our method using a freely available, pre-optimized AAC method and two freely available AAC datasets. We compare our proposed method with three scenarios, two of training on one of the datasets and evaluating on the other and a third of training on one dataset and fine-tuning on the other. Obtained results show that our method achieves a good balance between distilling new knowledge and not forgetting the previous one.
翻訳日:2021-07-19 14:25:09 公開日:2021-07-16
# (参考訳) データ対分類器 誰が勝つ?

Data vs classifiers, who wins? ( http://arxiv.org/abs/2107.07451v2 )

ライセンス: CC BY 4.0
Lucas F. F. Cardoso, Vitor C. A. Santos, Regiane S. Kawasaki Franc\^es, Ricardo B. C. Prud\^encio and Ronnie C. O. Alves(参考訳) 機械学習(ML)によってカバーされる分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。 それらが問題の基本的な部分であるため、モデルのパフォーマンスをベンチマークで評価する際には、どちらも考慮する必要がある。 最高の分類器は、適切に評価するために堅牢なベンチマークが必要です。 このため、openml-cc18のようなゴールド標準ベンチマークが用いられる。 しかし、データ複雑性は一般的に、性能評価中にモデルとともに考慮されない。 最近の研究は、データセットとアルゴリズムを同時に評価できる新しいアプローチとして、IRT(Item Response Theory)を採用している。 本研究は,IRT と Glicko-2 に基づく新しい評価手法を,ML における IRT の推定を導くために開発された deodIRT ツールと共同で提案する。 OpenML-CC18ベンチマークをアルゴリズム評価能力で評価するためのツールとしてIRTを検討し、データセットのサブセットが元のベンチマークよりも効率的かどうかをチェックする。 古典からアンサンブルまでいくつかの分類器もIRTモデルを用いて評価されている。 Glicko-2のレーティングシステムはIRTとともに適用され、自然能力と分類器のパフォーマンスを要約した。 すべてのOpenML-CC18データセットがアルゴリズムを評価するのに本当に役に立つわけではない。 さらに、元のサイズの50%しか含まないより効率的な部分集合の存在が確認された。 ランドン・フォレストは最高の能力を持つアルゴリズムとして選抜された。

The classification experiments covered by machine learning (ML) are composed by two important parts: the data and the algorithm. As they are a fundamental part of the problem, both must be considered when evaluating a model's performance against a benchmark. The best classifiers need robust benchmarks to be properly evaluated. For this, gold standard benchmarks such as OpenML-CC18 are used. However, data complexity is commonly not considered along with the model during a performance evaluation. Recent studies employ Item Response Theory (IRT) as a new approach to evaluating datasets and algorithms, capable of evaluating both simultaneously. This work presents a new evaluation methodology based on IRT and Glicko-2, jointly with the decodIRT tool developed to guide the estimation of IRT in ML. It explores the IRT as a tool to evaluate the OpenML-CC18 benchmark for its algorithmic evaluation capability and checks if there is a subset of datasets more efficient than the original benchmark. Several classifiers, from classics to ensemble, are also evaluated using the IRT models. The Glicko-2 rating system was applied together with IRT to summarize the innate ability and classifiers performance. It was noted that not all OpenML-CC18 datasets are really useful for evaluating algorithms, where only 10% were rated as being really difficult. Furthermore, it was verified the existence of a more efficient subset containing only 50% of the original size. While Randon Forest was singled out as the algorithm with the best innate ability.
翻訳日:2021-07-19 12:14:16 公開日:2021-07-16
# (参考訳) プログラム合成による数学的推論のための強化学習環境

A Reinforcement Learning Environment for Mathematical Reasoning via Program Synthesis ( http://arxiv.org/abs/2107.07373v2 )

ライセンス: CC BY 4.0
Joseph Palermo, Johnny Ye, Alok Singh(参考訳) 我々はDeepMind数学データセットをプログラム合成問題として解釈することで強化学習環境に変換する。 環境における各アクションは、演算子または入力を離散計算グラフに追加する。 正解を計算するグラフは正の報酬をもたらし、ポリシーの最適化により問題文に条件付き計算グラフを構築することができる。 ベースラインモデルは、様々な問題型のサブセット上でdouble dqnを使用してトレーニングされ、組み合わせの爆発と騒がしい報酬の課題にもかかわらず、グラフを正しく構築する能力を示す。

We convert the DeepMind Mathematics Dataset into a reinforcement learning environment by interpreting it as a program synthesis problem. Each action taken in the environment adds an operator or an input into a discrete compute graph. Graphs which compute correct answers yield positive reward, enabling the optimization of a policy to construct compute graphs conditioned on problem statements. Baseline models are trained using Double DQN on various subsets of problem types, demonstrating the capability to learn to correctly construct graphs despite the challenges of combinatorial explosion and noisy rewards.
翻訳日:2021-07-19 11:50:51 公開日:2021-07-16