このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210125となっている論文です。

PDF登録状況(公開日: 20210125)

TitleAuthorsAbstract論文公表日・翻訳日
# 確率的再帰機構を有する効率的な命令型ブロックチェーン

An Efficient Permissioned Blockchain with Provable Reputation Mechanism ( http://arxiv.org/abs/2002.06852v3 )

ライセンス: Link先を確認
Hongyin Chen, Zhaohua Chen, Yukun Cheng, Xiaotie Deng, Wenhan Huang, Jichen Li, Hongyi Ling, Mengqian Zhang(参考訳) 認可されたブロックチェーンの設計は、メンバがブロックチェーン上で情報を読み、アクセスし、書き込みするためのアクセス制御要件を課す。 本稿では,プロバイダ,コレクタ,知事の3種類の参加者を含む階層的なシナリオについて検討する。 具体的には、端末から収集されたトランザクションをコレクターに転送する。コレクターは、受信したトランザクションを検証およびラベル付けした後、ガバナにアップロードする。そしてガバナは、受信したラベル付きトランザクションの一部を検証し、有効なトランザクションをブロックにパックし、台帳に新しいブロックを追加する。 階層モデルのコレクターは、プロバイダと管理者の両方との関係を持ち、トランザクションを収集し、検証し、アップロードする責任を持つという、設計において重要な役割を担います。 しかし、コレクターは合理的であり、一部のコレクターは悪意を持って振る舞う(必ずしも自身の利益のためではない)。 本稿では,ブロックチェーン環境におけるコレクタの信頼性を評価する尺度として,評価プロトコルを提案する。 その目的は、コレクターが真実に振る舞うことを奨励し、さらに検証コストを削減することである。 プロバイダの$p$の検証コストは、$p$が提供し、知事がチェックする不正なトランザクションの総数として定義される。 理論解析により, 評価機構を有するプロトコルの効率性が大幅に向上した。 具体的には、州知事が苦しむ検証損失は、うまく振る舞う少なくとも1つのコレクタが存在する限り、漸近的に$O(\sqrt{T_{total}})$$$(T_{total}$)であることが証明されている。 最終的に、我々のモデルをうまく適用できる2つの典型的なケースも示される。

The design of permissioned blockchains places an access control requirement for members to read, access, and write information over the blockchains. In this paper, we study a hierarchical scenario to include three types of participants: providers, collectors, and governors. To be specific, providers forward transactions, collected from terminals, to collectors; collectors upload received transactions to governors after verifying and labeling them; and governors validate a part of received labeled transactions, pack valid ones into a block, and append a new block on the ledger. Collectors in the hierarchical model play a crucial role in the design: they have connections with both providers and governors, and are responsible for collecting, verifying, and uploading transactions. However, collectors are rational and some of them may behave maliciously (not necessarily for their own benefits). In this paper, we introduce a reputation protocol as a measure of the reliability of collectors in the permissioned blockchain environment. Its objective is to encourage collectors to behave truthfully and, in addition, to reduce the verification cost. The verification cost on provider $p$ is defined as the total number of invalid transactions provided by $p$ and checked by governors. Through theoretical analysis, our protocol with the reputation mechanism has a significant improvement in efficiency. Specifically, the verification loss that governors suffer is proved to be asymptotically $O(\sqrt{T_{total}})$ ($T_{total}$, representing the number of transactions verified by governors and provided by $p$), as long as there exists at least one collector who behaves well. At last, two typical cases where our model can be well applied are also demonstrated.
翻訳日:2023-06-03 11:15:35 公開日:2021-01-25
# 量子力学の4つの仮定は3である

The four postulates of quantum mechanics are three ( http://arxiv.org/abs/2003.11007v2 )

ライセンス: Link先を確認
Gabriele Carcassi, Lorenzo Maccone and Christine A. Aidala(参考訳) 量子力学のテンソル積の仮定は、合成系のヒルベルト空間が成分のヒルベルト空間のテンソル積であることを示している。 この仮定を含まない量子力学の現在の公式化は、同じ仮定や仮定(時には隠れる)を含む。 ここでは、成分系を含む集合として合成系を自然な定義とし、状態仮定と測定仮定からテンソル積則を論理的に導出する方法を示す。 言い換えれば、我々の論文は量子力学に必要な仮定の数を1つ減らしている。

The tensor product postulate of quantum mechanics states that the Hilbert space of a composite system is the tensor product of the components' Hilbert spaces. All current formalizations of quantum mechanics that do not contain this postulate contain some equivalent postulate or assumption (sometimes hidden). Here we give a natural definition of composite system as a set containing the component systems and show how one can logically derive the tensor product rule from the state postulate and from the measurement postulate. In other words, our paper reduces by one the number of postulates necessary to quantum mechanics.
翻訳日:2023-05-28 01:07:12 公開日:2021-01-25
# コヒーレントな状態の探索:起源から量子重力へ

Searching for Coherent States: From Origins to Quantum Gravity ( http://arxiv.org/abs/2003.11810v4 )

ライセンス: Link先を確認
Pierre Martin-Dussaud(参考訳) シュレーディンガーの独創的アプローチ、量子光学の実験的考察、量子重力における理論的発展という3つの視点からコヒーレント状態の概念を考察する。 この比較研究は、アプローチ間のつながりを強調し、その分野の一貫性のある短い物語を提供するよう試みている。 教育的な目的だけでなく、量子光学や量子重力の専門家が視野を広い風景に埋め込むのに役立つかもしれない。

We discuss the notion of coherent states from three different perspectives: the seminal approach of Schroedinger, the experimental take of quantum optics, and the theoretical developments in quantum gravity. This comparative study tries to emphasise the connections between the approaches, and to offer a coherent short story of the field, so to speak. It may be useful for pedagogical purposes, as well as for specialists of quantum optics and quantum gravity willing to embed their perspective within a wider landscape.
翻訳日:2023-05-27 20:45:31 公開日:2021-01-25
# 雑音測定を含むトポロジカル量子符号のためのセルオートマトンデコーダ

Cellular automaton decoders for topological quantum codes with noisy measurements and beyond ( http://arxiv.org/abs/2004.07247v2 )

ライセンス: Link先を確認
Michael Vasmer, Dan E. Browne, Aleksander Kubica(参考訳) 本稿では,トポロジカル量子符号を超える幅広い符号に適用可能なセルオートマトン,スイープルールに基づく誤り訂正手法を提案する。 しかし, 簡易化のために, 境界付きロンバルドデカヘドラル格子上の3次元トーリック符号に着目し, 得られた局所デコーダの誤差しきい値がゼロでないことを証明した。 また,様々なノイズモデルを用いた測定誤差を用いてデコーダの性能を数値的に評価する。 この誤差補正法は, 測定誤差に対して極めて堅牢であり, また, 格子モデルやノイズモデルの詳細に敏感であることがわかった。 我々の研究は、幅広い量子低密度パリティチェック符号の単純かつ高性能な復号法を見つけるためのステップを構成する。

We propose an error correction procedure based on a cellular automaton, the sweep rule, which is applicable to a broad range of codes beyond topological quantum codes. For simplicity, however, we focus on the three-dimensional (3D) toric code on the rhombic dodecahedral lattice with boundaries and prove that the resulting local decoder has a non-zero error threshold. We also numerically benchmark the performance of the decoder in the setting with measurement errors using various noise models. We find that this error correction procedure is remarkably robust against measurement errors and is also essentially insensitive to the details of the lattice and noise model. Our work constitutes a step towards finding simple and high-performance decoding strategies for a wide range of quantum low-density parity-check codes.
翻訳日:2023-05-23 09:10:24 公開日:2021-01-25
# 演算子スケーリングの情報幾何学

Information geometry of operator scaling ( http://arxiv.org/abs/2005.01453v2 )

ライセンス: Link先を確認
Takeru Matsuda and Tasuku Soma(参考訳) マトリックススケーリングは、幅広いアプリケーションにおいて古典的な問題である。 行列スケーリングのためのシンクホーンアルゴリズムは、古典情報幾何学の観点から e-射影の交互化として解釈されることが知られている。 近年、演算子スケーリングと呼ばれる正の写像への行列スケーリングの一般化が数学や計算機科学の様々な分野に現れ、シンクホーンアルゴリズムは演算子スケーリングに拡張されている。 本研究では,完全正の写像のchoi表現を通じて,量子情報幾何の観点から作用素シンクホーン法を考察する。 作用素シンクホーンのアルゴリズムは、量子推定理論に関連する量子状態の空間上のリーマン計量である対称対数微分計量に関して、交互な e-射影と一致することが示されている。 他の種類の交互 e-射影アルゴリズムも、正定円錐上の異なる情報幾何構造を用いて提供される。

Matrix scaling is a classical problem with a wide range of applications. It is known that the Sinkhorn algorithm for matrix scaling is interpreted as alternating e-projections from the viewpoint of classical information geometry. Recently, a generalization of matrix scaling to completely positive maps called operator scaling has been found to appear in various fields of mathematics and computer science, and the Sinkhorn algorithm has been extended to operator scaling. In this study, the operator Sinkhorn algorithm is studied from the viewpoint of quantum information geometry through the Choi representation of completely positive maps. The operator Sinkhorn algorithm is shown to coincide with alternating e-projections with respect to the symmetric logarithmic derivative metric, which is a Riemannian metric on the space of quantum states relevant to quantum estimation theory. Other types of alternating e-projections algorithms are also provided by using different information geometric structures on the positive definite cone.
翻訳日:2023-05-21 16:56:51 公開日:2021-01-25
# 準確率サンプリングによる非局所チャネルと局所チャネルのシミュレーションのためのオーバーヘッド

Overhead for simulating a non-local channel with local channels by quasiprobability sampling ( http://arxiv.org/abs/2006.11174v2 )

ライセンス: Link先を確認
Kosuke Mitarai and Keisuke Fujii(参考訳) 量子コンピューティングのハードウェア技術が進歩するにつれて、そのアプリケーションは積極的に探索され開発されている。 しかし、特に忠実度が比較的低い2量子ビットゲートを使用する場合、このような応用は量子デバイスのノイズに悩まされる。 この困難を克服する一つの方法は、そのような非ローカル操作をローカル操作に置き換えることである。 このような置換は、非局所チャネルを局所チャネルの線形結合に分解し、元のチャネルを準確率ベースでシミュレートすることで行うことができる。 本研究では,まず非局所性のチャネルロバスト性(channel robustness of non-locality)と呼び,分解のコストを定量化する量を定義する。 この量は一般の非局所チャネルの計算には困難であるが、明示的な分解を提供することで一般の2量子ユニタリチャネルの上限を与える。 この分解は、ある形式の2量子ユニタリに応用が制限された以前の作品を一般化することで得られる。 本研究は,第1世代の量子デバイスに適した資源削減のためのフレームワークを開発する。

As the hardware technology for quantum computing advances, its possible applications are actively searched and developed. However, such applications still suffer from the noise on quantum devices, in particular when using two-qubit gates whose fidelity is relatively low. One way to overcome this difficulty is to substitute such non-local operations by local ones. Such substitution can be performed by decomposing a non-local channel into a linear combination of local channels and simulating the original channel with a quasiprobability-based method. In this work, we first define a quantity that we call channel robustness of non-locality, which quantifies the cost for the decomposition. While this quantity is challenging to calculate for a general non-local channel, we give an upper bound for a general two-qubit unitary channel by providing an explicit decomposition. The decomposition is obtained by generalizing our previous work whose application has been restricted to a certain form of two-qubit unitary. This work develops a framework for a resource reduction suitable for first-generation quantum devices.
翻訳日:2023-05-13 11:23:35 公開日:2021-01-25
# 量子幾何学的基底多様体の隠れ対称性, ビアンチ分類と測地

Hidden Symmetries, the Bianchi Classification and Geodesics of the Quantum Geometric Ground-State Manifolds ( http://arxiv.org/abs/2007.12122v3 )

ライセンス: Link先を確認
Diego Liska and Vladimir Gritsev(参考訳) パラメータ依存ハミルトニアンの量子基底状態多様体のキリングベクトルについて検討する。 多様体はハミルトニアンのレベルでは見えず、物質の量子位相が異なる対称性を示す対称性を持つことができる。 キリングベクトル場のリー代数を用いた基底状態多様体のビアンチに基づく分類を提案する。 さらに,これらの対称性を利用して測地線を探索し,臨界線を横断する時の挙動を考察する。 本稿では,測地線,エネルギーゆらぎ,断熱準備プロトコルの関係について概説する。 主な例は異方性横場イジングモデルである。 また、イジング極限を解析し、両方の場合の測地方程式の解析解を求める。

We study the Killing vectors of the quantum ground-state manifold of a parameter-dependent Hamiltonian. We find that the manifold may have symmetries that are not visible at the level of the Hamiltonian and that different quantum phases of matter exhibit different symmetries. We propose a Bianchi-based classification of the various ground-state manifolds using the Lie algebra of the Killing vector fields. Moreover, we explain how to exploit these symmetries to find geodesics and explore their behaviour when crossing critical lines. We briefly discuss the relation between geodesics, energy fluctuations and adiabatic preparation protocols. Our primary example is the anisotropic transverse-field Ising model. We also analyze the Ising limit and find analytic solutions to the geodesic equations for both cases.
翻訳日:2023-05-08 10:49:31 公開日:2021-01-25
# 相互情報支援適応変分量子固有解法

Mutual information-assisted Adaptive Variational Quantum Eigensolver ( http://arxiv.org/abs/2008.07553v2 )

ライセンス: Link先を確認
Zi-Jian Zhang, Thi Ha Kyaw, Jakob S. Kottmann, Matthias Degroote and Al\'an Aspuru-Guzik(参考訳) ansatz回路の適応構成は、近距離量子ハードウェア上で応用可能な変分量子固有ソルバ(vqe)への有望な経路を提供する。 これらのアルゴリズムは特定の問題に対して最適な回路を構築することを目的としている。 アンサッツ回路は、これらのアルゴリズムで予め定義されたプールから絡み目を選択して追加することで適応的に構成される。 本研究では,古典的アルゴリズムを活用し,それらのアルゴリズムのサイズを小さくした絡み込みプールを構築する手法を提案する。 提案手法は,古典的に近似された基底状態における量子ビット間の相互情報(MI)を用いて,エンタングルのランク付けとスクリーニングを行う。 密度行列再正規化群 (DMRG) は古典的事前計算に使用される。 我々は、この手法を小さな分子上で数値的にコーロボレートする。 数値実験により,元のエンタングルプールのごく一部が縮小されたエンタングルプールは,同じ数値精度が得られることが示された。 本手法は,変分量子アルゴリズムのためのアンサッツ回路を適応的に構築するための新しい手法であると考えている。

Adaptive construction of ansatz circuits offers a promising route towards applicable variational quantum eigensolvers (VQE) on near-term quantum hardware. Those algorithms aim to build up optimal circuits for a certain problem. Ansatz circuits are adaptively constructed by selecting and adding entanglers from a predefined pool in those algorithms. In this work, we propose a way to construct entangler pools with reduced size for those algorithms by leveraging classical algorithms. Our method uses mutual information (MI) between the qubits in classically approximated ground state to rank and screen the entanglers. The density matrix renormalization group (DMRG) is employed for classical precomputation in this work. We corroborate our method numerically on small molecules. Our numerical experiments show that a reduced entangler pool with a small portion of the original entangler pool can achieve same numerical accuracy. We believe that our method paves a new way for adaptive construction of ansatz circuits for variational quantum algorithms.
翻訳日:2023-05-06 00:48:59 公開日:2021-01-25
# H_2+$の解離イオン化におけるフリーマン共鳴の理論的研究

Theoretical investigation of the Freeman resonance in the dissociative ionization of $H_2+$ ( http://arxiv.org/abs/2008.09528v4 )

ライセンス: Link先を確認
Jinzhen Zhu(参考訳) 線形偏光400nmレーザーパルスにおける$H_2^+$の解離イオン化は、3粒子時間依存シュリンガー方程式を全次元で解くことでシミュレートされる。 ジョイントエネルギースペクトル(jes)は時間依存表面フラックス(tsurff)法を用いて$\cos^8$およびフラットトップエンベロープとして計算される。 JESでは、エネルギー共有の$n$ Photon energies $\omega$ of Nuclearetic Energy Release (KER) $E_N$と電子KER $E_e$は、E_N+E_e=n\omega-U_p+E_0$パルスに対して$\cos^8$パルスに対して$E_N+E_e=n\omega+E_0$で表される。 パルス後の電子と陽子の波動関数の解析を行い、u_p$ は2つの励起アンジェラード状態の間のフリーマン共鳴によって吸収される。

The dissociative ionization of $H_2^+$ in linearly polarized, 400 nm laser pulses is simulated by solving a three-particle time-dependent Schr\"odinger equation in full dimensionality. The joint energy spectra (JES) are computed for $\cos^8$ and flat-top envelopes using the time-dependent surface flux (tSurff) methods. In JES, the energy sharing $n$ photon energies $\omega$ of nuclear kinetic energy release (KER) $E_N$ and electronic KER $E_e$ are well represented by $E_N+E_e=n\omega-U_p+E_0$ for $\cos^8$ pulses, but satisfy $E_N+E_e=n\omega+E_0$ for flat-top envelope, exposing a deviation of the ponderomotive energy $U_p$, which has been observed in experiments, where $E_0$ is the ground energy of $H_2^+$. The analysis of the wavefunction for electrons and protons after the pulse are presented, where we find $U_p$ is absorbed by the Freeman resonances between two excited ungerade states.
翻訳日:2023-05-05 08:00:36 公開日:2021-01-25
# Pt(111)上のH原子の表面拡散における原子共鳴トンネル

Atomic Resonant Tunneling in the Surface Diffusion of H Atoms on Pt(111) ( http://arxiv.org/abs/2008.12717v4 )

ライセンス: Link先を確認
Cheng Bi and Yong Yang(参考訳) 水素(H)原子の量子運動は、凝縮した相物質の動的性質と機能、および生物学的システムにおいて重要な役割を果たす。 本研究では, 遷移行列法と第一原理計算に基づいて, Pt(111)表面上のH原子の力学を解析し, 表面電位場を横断するH原子の量子確率を数値計算する。 原子共鳴トンネル(ART)は多くの拡散経路に沿って示される。 共鳴トンネル法により, 低温におけるH拡散の異常速度を予測し, Hを含む表面反応における核量子効果(NQEs)の役割について, バリアクロスの可能性を解析して検討した。 有効障壁は量子トンネルにより著しく減少し、特定の領域内の温度とともに単調に減少する。 arrhenius型関係が適用される障壁交差過程について, 低温条件下でのh-誘導反応の非自明な活性を示す速度定数の非零低温極限の存在を示す。

The quantum motions of hydrogen (H) atoms play an important role in the dynamical properties and functionalities of condensed phase materials as well as biological systems. In this work, based on the transfer matrix method and first-principles calculations, we study the dynamics of H atoms on Pt(111) surface and numerically calculate the quantum probability of H transferring across the surface potential fields. Atomic resonant tunneling (ART) is demonstrated along a number of diffusion pathways. Owing to resonant tunneling, anomalous rate of transfer is predicted for H diffusion along certain path at low temperatures.The role of nuclear quantum effects (NQEs) on the surface reactions involving H is investigated, by analyzing the probabilities of barrier-crossing. The effective barrier is significantly reduced due to quantum tunneling, and decreases monotonically with temperature within a certain region. For barrier-crossing processes where the Arrhenius type relation applies, we show the existence of a nonzero low-temperature limit of rate constant, which indicates the nontrivial activity of H-involved reactions at cryogenic conditions.
翻訳日:2023-05-04 11:42:17 公開日:2021-01-25
# 高速高忠実量子ゲートのための並列選択的核スピンアドレッシング

Parallel selective nuclear spin addressing for fast high-fidelity quantum gates ( http://arxiv.org/abs/2009.01727v2 )

ライセンス: Link先を確認
Benedikt Tratzmiller, Jan F. Haase, Zhenyu Wang and Martin B. Plenio(参考訳) 長いコヒーレンス時間のため、核スピンは物理量子ビットとしてかなりの注目を集めている。 異なる共鳴周波数の核スピン間の2量子ゲートは電子スピンによって媒介され、通常は一連の電子-核ゲートを用いる。 ここでは、ダイヤモンド中のNV中心から着想を得た異なるアプローチを示し、応用の可能性について議論する。 この目的のために、核スピン初期化とハイパーポーラライズのための外部電子スピン制御シーケンスを一般化し、電子スピンを介して異なる核スピンを同時に制御する。 このアプローチにより、標準技術と比較して、ゲート時間が他のスピンとの非共鳴結合によって制限された場合、ゲート時間が小さな電子核結合によって制限された場合の最大22%まで、ゲート時間を50%以上削減できる効率的なエンタングリングゲートが得られる。

Due to their long coherence times, nuclear spins have gained considerable attention as physical qubits. Two-qubit gates between nuclear spins of distinct resonance frequencies can be mediated by electron spins, usually employing a sequence of electron-nuclear gates. Here we present a different approach inspired by, but not limited to, NV centers in diamond and discuss possible applications. To this end we generalize external electron spin control sequences for nuclear spin initialization and hyperpolarization to achieve the simultaneous control of distinct nuclear spins via an electron spin. This approach results in efficient entangling gates that, compared to standard techniques, reduce the gate time by more than 50% when the gate time is limited by off-resonant coupling to other spins, and by up to 22% when the gate time is limited by small electron-nuclear coupling.
翻訳日:2023-05-03 22:53:52 公開日:2021-01-25
# 低オーバヘッド回路検証用拡張フラグガジェット

Extended flag gadgets for low-overhead circuit verification ( http://arxiv.org/abs/2009.07752v2 )

ライセンス: Link先を確認
Dripto M. Debroy, Kenneth R. Brown(参考訳) フラッグ検証技術は臨界断層を検出するために量子誤差補正に有用である。 本稿では,短期アルゴリズムの性能向上のためのフラグ検証手法を提案する。 我々は、ユニタリ演算子の既知の変換に基づいてエラー検出ガジェットを作成することで、フラグを構成するものの定義を拡張する。 クリフォードやクリフォードに近い回路の場合、これらのユニタリ演算子はポーリゲートを制御するために選択され、クリフォードゲートをほんの数個追加するだけのガジェットに繋がる。 このようなフラグは,ポストセレクション後の回路特性を最大2倍改善し,単一量子非偏極雑音,クロストーク,2量子コヒーレントオーバーローテーションを含む誤差モデルに対する効果を示す。

Flag verification techniques are useful in quantum error correction for detecting critical faults. Here we present an application of flag verification techniques to improving post-selected performance of near-term algorithms. We extend the definition of what constitutes a flag by creating error-detection gadgets based on known transformations of unitary operators. In the case of Clifford or near-Clifford circuits, these unitary operators can be chosen to be controlled Pauli gates, leading to gadgets which require only a small number of additional Clifford gates. We show that such flags can improve circuit fidelities by up to a factor of 2 after post selection, and demonstrate their effectiveness over error models featuring single-qubit depolarizing noise, crosstalk, and two-qubit coherent overrotation.
翻訳日:2023-05-02 02:29:30 公開日:2021-01-25
# フェライト系GdFeCo合金の学習相転移

Learning phase transitions in ferrimagnetic GdFeCo alloys ( http://arxiv.org/abs/2010.16237v2 )

ライセンス: Link先を確認
N.A. Koritsky, S.V. Solov'yov, A.K. Fedorov, A.K. Zvezdin(参考訳) 強磁性GdFeCo合金における相転移の機械学習による同定結果について述べる。 システム内の相転移を見つけるためのアプローチは、一般化された$W$-shapeを使って相転移を特徴づける 'learning by confusion' スキームに基づいている。 混乱による学習」方式を適用することで,gdfeco合金の三相転移点を特徴づける2次元$w$-a形状の表面を得る。 この結果が熱力学ポテンシャルの数値最小化の手順と完全に一致していることを示すが、機械学習に基づく手法は相転移同定のタスクにおいて高速化をもたらす可能性がある。

We present results on the identification of phase transitions in ferrimagnetic GdFeCo alloys using machine learning. The approach for finding phase transitions in the system is based on the `learning by confusion' scheme, which allows one to characterize phase transitions using a universal $W$-shape. By applying the `learning by confusion' scheme, we obtain 2D $W$-a shaped surface that characterizes a triple phase transition point of the GdFeCo alloy. We demonstrate that our results are in the perfect agreement with the procedure of the numerical minimization of the thermodynamical potential, yet our machine-learning-based scheme has the potential to provide a speedup in the task of the phase transition identification.
翻訳日:2023-04-28 07:44:11 公開日:2021-01-25
# モースポテンシャルの等スペクトル拡大の再検討

Revisiting an isospectral extension of the Morse potential ( http://arxiv.org/abs/2011.02897v2 )

ライセンス: Link先を確認
C. Quesne(参考訳) モースポテンシャルの(厳密な)等スペクトル拡大を導出するために、非常に単純な方法が考案された。 さらに、点正準変換は後者を放射振動子とクーロンポテンシャルの準正確に解ける拡張に変換するために用いられる。

A very simple method is devised to derive a (strictly) isospectral extension of the Morse potential. Furthermore, point canonical transformations are used to transform the latter into quasi-exactly solvable extensions of the radial oscillator and the Coulomb potentials.
翻訳日:2023-04-25 05:16:08 公開日:2021-01-25
# 量子グラフニューラルネットワークを用いた粒子追跡の性能評価

Performance of Particle Tracking Using a Quantum Graph Neural Network ( http://arxiv.org/abs/2012.01379v2 )

ライセンス: Link先を確認
Cenk T\"uys\"uz, Kristiane Novotny, Carla Rieger, Federico Carminati, Bilge Demirk\"oz, Daniel Dobos, Fabio Fracas, Karolos Potamianos, Sofia Vallecorsa, Jean-Roch Vlimant(参考訳) 欧州原子核研究機構(cern)の大型ハドロン衝突型加速器(lhc)は、素粒子衝突(光度)をさらに増加させ、高輝度のlhcとなるようにアップグレードされる。 この光度の増加により、より多くの検出器ヒット(占有率)が生成されるため、これらのヒットから粒子軌道を決定するための再構成アルゴリズムの追跡が困難になる。 この研究は、トラック再構成タスクで証明された新しいグラフニューラルネットワークモデルを、指数関数的に増加するヒルベルト空間の恩恵を受けるためにハイブリッドグラフニューラルネットワークに変換する可能性を探求する。 いくつかのパラメタライズド量子回路(PQC)を試験し、古典的アプローチに対する性能を比較した。 ハイブリッドモデルは,従来の手法とよく似た性能を示すことを示す。 また,現在のハイブリッドモデルの性能をさらに高めるために,今後の道路図も提示する。

The Large Hadron Collider (LHC) at the European Organisation for Nuclear Research (CERN) will be upgraded to further increase the instantaneous rate of particle collisions (luminosity) and become the High Luminosity LHC. This increase in luminosity, will yield many more detector hits (occupancy), and thus measurements will pose a challenge to track reconstruction algorithms being responsible to determine particle trajectories from those hits. This work explores the possibility of converting a novel Graph Neural Network model, that proven itself for the track reconstruction task, to a Hybrid Graph Neural Network in order to benefit the exponentially growing Hilbert Space. Several Parametrized Quantum Circuits (PQC) are tested and their performance against the classical approach is compared. We show that the hybrid model can perform similar to the classical approach. We also present a future road map to further increase the performance of the current hybrid model.
翻訳日:2023-04-22 07:47:30 公開日:2021-01-25
# 心臓の鼓動をシェアする: 危機時代の市民科学者のモチベーション

Sharing Heartbeats: Motivations of Citizen Scientists in Times of Crises ( http://arxiv.org/abs/2101.04913v2 )

ライセンス: Link先を確認
Daniel Diethei, Jasmin Niess, Carolin Stellmacher, Evropi Stefanidi, Johannes Sch\"oning(参考訳) 世界的な新型コロナウイルスの感染拡大に伴い、多くの国がパンデミックの影響を軽減するためのデジタルツールをリリースした。 ドイツでは、Robert Koch Institute(RKI)が、仮想市民科学(VCS)プロジェクトであるCorona-Data-Donation-Appを公開した。 hciにおけるvcsプロジェクトのモチベーションに関する作業は、しばしば利己的なモチベーションを示すが、危機状況におけるそのようなモチベーションに関する研究はほとんどない。 本稿では,パンデミック時に個人データを共有するための社会心理学的プロセスとモチベーションについて検討する。 以上の結果から,アプリレビュー (n=464) とインフルインタビュー (n=10) において,共同モチベーションが支配的であった。 我々は、コミュニケーション、透明性、責任の重要性を強調する危機時に、将来のVCSツールに影響を及ぼす。

With the rise of COVID-19 cases globally, many countries released digital tools to mitigate the effects of the pandemic. In Germany the Robert Koch Institute (RKI) published the Corona-Data-Donation-App, a virtual citizen science (VCS) project, to establish an early warning system for the prediction of potential COVID-19 hotspots using data from wearable devices. While work on motivation for VCS projects in HCI often presents egoistic motives as prevailing, there is little research on such motives in crises situations. In this paper, we explore the socio-psychological processes and motivations to share personal data during a pandemic. Our findings indicate that collective motives dominated among app reviews (n=464) and in in-depth interviews (n=10). We contribute implications for future VCS tools in times of crises that highlight the importance of communication, transparency and responsibility.
翻訳日:2023-04-15 17:48:19 公開日:2021-01-25
# 『このすべてはジェンダーを揺るがす』--バイオインプデンスに基づく身体構成分析におけるアルゴリズム的排除

"This Whole Thing Smacks of Gender": Algorithmic Exclusion in Bioimpedance-based Body Composition Analysis ( http://arxiv.org/abs/2101.08325v3 )

ライセンス: Link先を確認
Kendra Albert and Maggie Delano(参考訳) スマートウェイトスケールは、純粋な体重測定の補足として生体影響に基づく体組成分析を提供する。 withingsやfitbit tout composition analysisといった企業は、自己認識とよりインフォームドな意思決定能力を提供している。 しかし、これらの願望的な言明は、これらの数値が、その入力として二元性/ジェンダーを必要とするプロプライエタリな回帰方程式の積であるという事実を導出する。 本稿では,トランスジェンダーによる個人談話と,Withingsスマートスケールの一部として用いられるバイオインピーダンス技術の科学的基礎の分析を組み合わせる。 非バイナリな人々を含む試みは、生体電気インピーダンス解析が常に生理的に不安定な地面で行われていることを明らかにしている。 白人の非バイナリーの人々は、身体に関して、彼らのスマートスケールがそれほど賢くないと感じる人々の氷山の一角に過ぎない。 身体構成分析を例に挙げて,健康技術におけるトランス・ノンバイナリの包み込みの問題は,第3の「ゲンダー」ボックスの追加や包装にレインボーフラッグを貼ることの問題を超越しているかを検討する。 また、排他的データに依存しながら、より包括的技術を作成する方法へのアプローチについても推奨しています。

Smart weight scales offer bioimpedance-based body composition analysis as a supplement to pure body weight measurement. Companies such as Withings and Fitbit tout composition analysis as providing self-knowledge and the ability to make more informed decisions. However, these aspirational statements elide the reality that these numbers are a product of proprietary regression equations that require a binary sex/gender as their input. Our paper combines transgender studies-influenced personal narrative with an analysis of the scientific basis of bioimpedance technology used as part of the Withings smart scale. Attempting to include nonbinary people reveals that bioelectrical impedance analysis has always rested on physiologically shaky ground. White nonbinary people are merely the tip of the iceberg of those who may find that their smart scale is not so intelligent when it comes to their bodies. Using body composition analysis as an example, we explore how the problem of trans and nonbinary inclusion in personal health tech goes beyond the issues of adding a third "gender" box or slapping a rainbow flag on the packaging. We also provide recommendations as to how to approach creating more inclusive technologies even while still relying on exclusionary data.
翻訳日:2023-04-14 11:08:20 公開日:2021-01-25
# all-optical independent axial and radial self-feedback scheme を用いたデュアルビーム共振器内光トラップ

Dual-beam intracavity optical trap with all-optical independent axial and radial self-feedback schemes ( http://arxiv.org/abs/2101.10034v1 )

ライセンス: Link先を確認
Tengfang Kuang, Zijie Liu, Wei Xiong, Xiang Han, Guangzong Xiao, Xinlin Chen, Kaiyong Yang and Hui Luo(参考訳) 近年, 単一ビーム内光ツイーザが報告され, 標準光ツイーザよりも高次閉じ込めを達成している。 しかし、捕捉粒子の三次元位置とキャビティレーザーの散乱損失との間には1つのフィードバックループしか存在しない。 これにより粒子の半径運動と軸運動の結合効果が生じ、軸方向の閉じ込め効率が増大する。 ここでは、時計回りと反時計回りの光の焦点をオフセットすることで、粒子の独立な半径方向と軸方向の自己フィードバック制御を可能にするデュアルビームのキャビティ光トラップを提示し、実証する。 我々は,光トラップの最大軸閉じ込め効率である超低開口(NA=0.25)において,1.6*10^(-4) mW^(-1)の軸閉じ込め効率を実験的に達成した。 デュアルビーム・イントラキャビティ光学トラップは、特に熱に非常に敏感な試料に対して、生物学や物理学のさらなる研究における応用範囲を大きく広げる。

Recently single-beam intracavity optical tweezers have been reported and achieved orders-of-magnitude higher confinement than standard optical tweezers. However, there is only one feedback loop between the trapped particle's three-dimensional position and the scattering loss of the intracavity laser. That leads to the coupling effect between the particle's radial and axial motion, and aggravates the axial confinement efficiency. Here, we present and demonstrate the dual-beam intracavity optical trap enabling independent radial and axial self-feedback control of the trapped particle, through offsetting the foci of the clockwise and counter-clockwise beams. We have achieved the axial confinement efficiency of 1.6*10^(-4) mW^(-1) experimentally at very low numerical aperture (NA=0.25), which is the highest axial confinement efficiency of the optical trap to date, to the best of our knowledge. The dual-beam intracavity optical trap will significantly expand the range of applications in the further studies of biology and physics, especially for a sample that is extremely sensitive to heat.
翻訳日:2023-04-14 00:50:38 公開日:2021-01-25
# 粒子群オプティマイザを用いたfrp補強コンクリート梁の最適曲げ設計

Optimal Flexural Design of FRP-Reinforced Concrete Beams Using a Particle Swarm Optimizer ( http://arxiv.org/abs/2101.09974v1 )

ライセンス: Link先を確認
M. S. Innocente, Ll. Torres, X. Cah\'is, G. Barbeta, A. Catal\'an(参考訳) FRP補強コンクリート梁の断面設計は、その寸法と補強比を推定する反復的プロセスであり、その後、多くの強度および耐用性制約の遵守を確認する。 このプロセスは適切な解が見つかるまで続く。 この問題には無限の解が存在するので、異なる解の相対的良さを測定するためにいくつかの最適性基準を定義するのが便利である。 本稿では,aci 440.1 r-06のレコメンデーションに従う予備的最小コスト区間設計モデルを開発し,比較的新しい人工知能技術である particle swarm optimization (pso) を用いて最適化処理を行う。 後者は、集団内の比較的非知的な個人間の低レベルの相互作用から生じる知性に基づいている。

The design of the cross-section of an FRP-reinforced concrete beam is an iterative process of estimating both its dimensions and the reinforcement ratio, followed by the check of the compliance of a number of strength and serviceability constraints. The process continues until a suitable solution is found. Since there are infinite solutions to the problem, it appears convenient to define some optimality criteria so as to measure the relative goodness of the different solutions. This paper intends to develop a preliminary least-cost section design model that follows the recommendations in the ACI 440.1 R-06, and uses a relatively new artificial intelligence technique called particle swarm optimization (PSO) to handle the optimization tasks. The latter is based on the intelligence that emerges from the low-level interactions among a number of relatively non-intelligent individuals within a population.
翻訳日:2023-04-14 00:49:50 公開日:2021-01-25
# プランクセル分解能を有する量子ダイナミクスのための顕微鏡

Microscope for Quantum Dynamics with Planck Cell Resolution ( http://arxiv.org/abs/2101.09971v1 )

ライセンス: Link先を確認
Zhenduo Wang, Jiajin Feng, and Biao Wu(参考訳) 我々はPlanckセル分解能とOTOC(Out-of-time-correlation)を導入する。 このOTOCの初期状態への依存により、顕微鏡のように機能し、熱状態を超えた量子力学の微細構造を調べることができる。 我々は、このOTOCとヒルベルト空間における波動関数の拡散との明確な関係を見つけ、量子カオスの研究の2つの分野、すなわち状態進化と作用素のダイナミクスを統一する。 古典的極限付近で解析することにより、OTOCの指数的成長が古典的リャプノフ指数に依存することを明らかにする。

We introduce the out-of-time-correlation(OTOC) with the Planck cell resolution. The dependence of this OTOC on the initial state makes it function like a microscope, allowing us to investigate the fine structure of quantum dynamics beyond the thermal state. We find an explicit relation of this OTOC to the spreading of the wave function in the Hilbert space, unifying two branches of the study of quantum chaos: state evolution and operator dynamics. By analyzing it in the vicinity of the classical limit, we clarify the dependence of the OTOC's exponential growth on the classical Lyapunov exponent.
翻訳日:2023-04-14 00:49:34 公開日:2021-01-25
# キャビティ・マグネティックシステムにおける非相互伝達と絡み合い

Nonreciprocal Transmission and Entanglement in a cavity-magnomechanical system ( http://arxiv.org/abs/2101.09931v1 )

ライセンス: Link先を確認
Zhi-Bo Yang, Jin-Song Liu, Ai-Dong Zhu, Hong-Yu Liu, and Rong-Can Yang(参考訳) 量子エンタングルメント(quantum entanglement)は、空洞-磁気力学系を用いて量子情報の鍵要素を生成する。 2つのマイクロ波空洞、マグノンモードと振動モードで構成され、最後の2つの要素は第2空洞に閉じ込められたYIG球から来る。 2つのマイクロ波キャビティは超伝導伝送線で接続され、それらの間に線形結合する。 マグノンモードは強いマイクロ波磁場によって駆動され、磁気双極子相互作用を介してキャビティ光子と結合し、同時に磁歪相互作用を介してフォノンと相互作用する。 構成の対称性を破ることで、非相互光子伝送と片方向二部量子絡みを実現する。 数値シミュレーションに現在の実験パラメータを用いることで,ノイズ耐性量子プロセッサやカイラルネットワークなどの実現に向けた新たな量子資源構築戦略を明らかにすることが期待できる。

Quantum entanglement, a key element for quantum information is generated with a cavity-magnomechanical system. It comprises of two microwave cavities, a magnon mode and a vibrational mode, and the last two elements come from a YIG sphere trapped in the second cavity. The two microwave cavities are connected by a superconducting transmission line, resulting in a linear coupling between them. The magnon mode is driven by a strong microwave field and coupled to cavity photons via magnetic dipole interaction, and at the same time interacts with phonons via magnetostrictive interaction. By breaking symmetry of the configuration, we realize nonreciprocal photon transmission and one-way bipartite quantum entanglement. By using current experimental parameters for numerical simulation, it is hoped that our results may reveal a new strategy to built quantum resources for the realization of noise-tolerant quantum processors, chiral networks, and so on.
翻訳日:2023-04-14 00:49:01 公開日:2021-01-25
# 粒子群最適化:汎用最適化器の開発

Particle Swarm Optimization: Development of a General-Purpose Optimizer ( http://arxiv.org/abs/2101.09835v1 )

ライセンス: Link先を確認
Mauro S. Innocente, Johann Sienz(参考訳) 従来の手法では、最適化される関数の特徴と制約関数によって、非常に制限された範囲のアプリケーションが存在する。 対照的に、進化的アルゴリズムはこれらの関数の特徴にほとんど制限を示さないが、最も適切な制約処理技術は未解決の問題である。 粒子群最適化(pso)法は、同じメタファーに触発されてはいないが、その多くの類似性から、しばしば別の進化的アルゴリズムと見なされる。 すなわち、以前の経験を考慮し、確率演算子を用いて新しい反応を導入する個人集団を進化させる。 従来の手法に関する進化的アルゴリズムの利点は、数十年にわたって文献で大いに議論されてきた。 PSOパラダイムを従来の手法と比較する場合、これらの利点はすべて有効であるが、進化的アルゴリズムに対する主な利点は、計算コストが著しく低く、実装が容易であることである。 実際、プレーンバージョンは数行のコードでプログラムでき、演算子の設計や調整すべきパラメータはほとんど含まれない。 本稿では, パラメータのチューニングがシステムの動作に及ぼす影響, 解の信頼性を何らかの形で推定し, 計算コストを節約するための停止基準の設計, 制約に対処するための適切な手法の開発について述べる。

Traditional methods present a very restrictive range of applications, mainly limited by the features of the function to be optimized and of the constraint functions. In contrast, evolutionary algorithms present almost no restriction to the features of these functions, although the most appropriate constraint-handling technique is still an open question. The particle swarm optimization (PSO) method is sometimes viewed as another evolutionary algorithm because of their many similarities, despite not being inspired by the same metaphor. Namely, they evolve a population of individuals taking into consideration previous experiences and using stochastic operators to introduce new responses. The advantages of evolutionary algorithms with respect to traditional methods have been greatly discussed in the literature for decades. While all such advantages are valid when comparing the PSO paradigm to traditional methods, its main advantages with respect to evolutionary algorithms consist of its noticeably lower computational cost and easier implementation. In fact, the plain version can be programmed in a few lines of code, involving no operator design and few parameters to be tuned. This paper deals with three important aspects of the method: the influence of the parameters' tuning on the behaviour of the system; the design of stopping criteria so that the reliability of the solution found can be somehow estimated and computational cost can be saved; and the development of appropriate techniques to handle constraints, given that the original method is designed for unconstrained optimization problems.
翻訳日:2023-04-14 00:48:06 公開日:2021-01-25
# IBM量子デバイス上での量子グラフ状態のスケーラブルベル不等式試験

Testing Scalable Bell Inequalities for Quantum Graph States on IBM Quantum Devices ( http://arxiv.org/abs/2101.10307v1 )

ライセンス: Link先を確認
Bo Yang, Rudy Raymond, Hiroshi Imai, Hyungseok Chang, and Hidefumi Hiraishi(参考訳) 不完全なマルチ量子ビット量子デバイスのテストと検証は、ノイズの多い量子デバイスが現在広く利用可能であるために重要である。 ベルの不等式は、非局所量子状態と局所測定値から量子デバイスの品質を検査し検証するのに有用である。 ベルの不等式違反を実証する実験は数多く行われているが、量子ビットの数や量子状態の種類は限られている。 baccariらによって提唱されたグラフ状態の最大に違反するスケーラブルでロバストな不等式に基づいて,ibm量子デバイスにおけるベル不等式違反を報告する(ref.[1])。 これらの違反は、65量子ビットと27量子ビットのIBM量子デバイス上での57量子ビットと21量子ビットまでの経路グラフの量子状態と、同じデバイス上でエラーを緩和する8量子ビットと7量子ビットまでの星グラフの量子状態から得られる。 低深さ量子回路を構築し,読み出し誤差緩和手法を適用することで,様々なグラフ状態における不等式違反を示すことができる。 また,65量子ビットのibm量子デバイスのトポロジである分分割ハニカム格子上での深さ$o(\sqrt n)$の回路を用いて,nサイズの星グラフ状態の量子回路を実現することもできることを指摘した。 本実験は,既存の量子デバイスが量子状態に絡み合った状態を作る能力を示すとともに,拡張性のあるベルの不等式を試験するために有効であることを示す。

Testing and verifying imperfect multi-qubit quantum devices are important as such noisy quantum devices are widely available today. Bell inequalities are known useful for testing and verifying the quality of the quantum devices from their nonlocal quantum states and local measurements. There have been many experiments demonstrating the violations of Bell inequalities but they are limited in the number of qubits and the types of quantum states. We report violations of Bell inequalities on IBM Quantum devices based on the scalable and robust inequalities maximally violated by graph states as proposed by Baccari et al. (Ref.[1]). The violations are obtained from the quantum states of path graphs up to 57 and 21 qubits on the 65-qubit and 27-qubit IBM Quantum devices, respectively, and from those of star graphs up to 8 and 7 qubits with error mitigation on the same devices. We are able to show violations of the inequalities on various graph states by constructing low-depth quantum circuits producing them, and by applying the readout error mitigation technique. We also point out that quantum circuits for star graph states of size N can be realized with circuits of depth $O(\sqrt n)$ on subdivided honeycomb lattices which are the topology of the 65-qubit IBM Quantum device. Our experiments show encouraging results on the ability of existing quantum devices to prepare entangled quantum states, and provide experimental evidences on the benefit of scalable Bell inequalities for testing them.
翻訳日:2023-04-14 00:42:38 公開日:2021-01-25
# 縮退リウビリアンと定常還元密度行列

Degenerated Liouvillians and Steady-State Reduced Density Matrices ( http://arxiv.org/abs/2101.10236v1 )

ライセンス: Link先を確認
Juzar Thingna and Daniel Manzano(参考訳) 開量子系における対称性は、物理的に複数の定常状態の存在を示唆する退化リウビリアンをもたらす。 そのような場合、初期条件独立なステッド状態を得るのは、必ずしも密度行列ではないかもしれない 'emph{true} 漸近状態の線型結合は、リウヴィリアンの有効な漸近状態であるので、非常に非自明である。 したがって、この研究において、退化したリウビリアンの「emph{true} 定常状態」を得るための異なるアプローチを考える。 理想のシナリオでは、開系対称性作用素が知られているとき、これらはリウヴィリアンの不変部分空間とそれゆえ定常状態を得るためにどのように用いられるかを示す。 次に、対称作用素の知識を必要としない他の2つのアプローチについて議論する。 これらは、量子多体複雑なオープンシステムを扱う強力なツールになり得る。 密度行列のグラム・シュミット直交正規化に基づく第1のアプローチは定常状態を得ることを可能にするが、大きな偏差に基づく第2のアプローチは非退化最大値と最小電流輸送状態を得ることを可能にする。 本手法は開放パラベンゼン環の助けを借りて検討し,ハミルトニアン対称性の長寿命回復などの興味深いシナリオを考察し,非平衡定常状態の固有化統計量の研究に応用する。

Symmetries in an open quantum system lead to degenerated Liouvillian that physically implies the existence of multiple steady states. In such cases, obtaining the initial condition independent stead states is highly nontrivial since any linear combination of the \emph{true} asymptotic states, which may not necessarily be a density matrix, is also a valid asymptote for the Liouvillian. Thus, in this work we consider different approaches to obtain the \emph{true} steady states of a degenerated Liouvillian. In the ideal scenario, when the open system symmetry operators are known we show how these can be used to obtain the invariant subspaces of the Liouvillian and hence the steady states. We then discuss two other approaches that do not require any knowledge of the symmetry operators. These could be a powerful tool to deal with quantum many-body complex open systems. The first approach which is based on Gramm-Schmidt orthonormalization of density matrices allows us to obtain \emph{all} the steady states, whereas the second one based on large deviations allows us to obtain the non-degenerated maximum and minimum current-carrying states. We discuss our method with the help of an open para-Benzene ring and examine interesting scenarios such as the dynamical restoration of Hamiltonian symmetries in the long-time limit and apply the method to study the eigenspacing statistics of the nonequilibrium steady state.
翻訳日:2023-04-14 00:41:44 公開日:2021-01-25
# Suppes-Zanotti不等式の量子違反と「コンテキスト性」

Quantum violation of the Suppes-Zanotti inequalities and "contextuality" ( http://arxiv.org/abs/2101.10167v1 )

ライセンス: Link先を確認
Karl Svozil(参考訳) スッペス・ザノッティの不等式は、それぞれの相関ポリトープの船体計算によって、わずか3つの量子可観測体のジョイント期待を含む(re-)。 min-max計算により、その最大量子違反は一般化されたツィレルソン境界に対応する。 このような違反によって動機付けられた「コンテキスト性」の注釈は批判的にレビューされる。

The Suppes-Zanotti inequalities involving the joint expectations of just three binary quantum observables are (re-)derived by the hull computation of the respective correlation polytope. A min-max calculation reveals its maximal quantum violations correspond to a generalized Tsirelson bound. Notions of "contextuality" motivated by such violations are critically reviewed.
翻訳日:2023-04-14 00:40:36 公開日:2021-01-25
# 超ハイブリッドエンタングルメント、非識別性及び2粒子エンタングルメント交換

Hyper-hybrid entanglement, indistinguishability, and two-particle entanglement swapping ( http://arxiv.org/abs/2101.10089v1 )

ライセンス: Link先を確認
Soumya Das, Goutam Paul and Anindya Banerji(参考訳) 2つの区別不可能なボソンに対する超ハイブリッドな絡み合いは、最近Li \textit{et al。 だ。 Li, M. Gessner, W. Li, and A. Smerzi, \href{https://doi.org/10.1103/PhysRevLett.120.050404}{Phys Rev. Lett. 120, 050404 (2018)}]. 本論文では、この絡み合いが2つの区別できないフェルミオンにも存在することを示す。 次に、2つの区別可能な粒子に対する超ハイブリッドな絡み合いが無く、また2つの区別可能な粒子を用いた単位忠実度量子テレポーテーションが存在しない。 これらのいずれかが可能であれば、"em no-signaling principle} に違反する。 初期のいくつかの研究は、区別不可能な粒子に対して多くの結果を拡張しようとしたが、その逆もまた、上記の2つの非ゴーの結果は2つの領域を非自明に分離する。 最後に,2つの区別不能粒子のみを用いた効率的な絡み換えを提案するが,既存のプロトコルでは3つの識別不能粒子または4つの識別不能粒子の最小数が必要である。

Hyper-hybrid entanglement for two indistinguishable bosons has been recently proposed by Li \textit{et al.} [Y. Li, M. Gessner, W. Li, and A. Smerzi, \href{https://doi.org/10.1103/PhysRevLett.120.050404}{Phys. Rev. Lett. 120, 050404 (2018)}]. In the current paper, we show that this entanglement exists for two indistinguishable fermions also. Next, we establish two {\em no-go} results: no hyper-hybrid entanglement for two {\em distinguishable} particles, and no unit fidelity quantum teleportation using {\em indistinguishable} particles. If either of these is possible, then the {\em no-signaling principle} would be violated. While several earlier works have attempted extending many results on distinguishable particles to indistinguishable ones, and vice versa, the above two no-go results establish a nontrivial separation between the two domains. Finally, we propose an efficient entanglement swapping using only two indistinguishable particles, whereas a minimum number of either three distinguishable or four indistinguishable particles is necessary for existing protocols.
翻訳日:2023-04-14 00:40:00 公開日:2021-01-25
# ダイヤモンド中の窒素空孔スピンアンサンブルのパルス領域における検出のための最適制御

Optimal control of a nitrogen-vacancy spin ensemble in diamond for sensing in the pulsed domain ( http://arxiv.org/abs/2101.10049v1 )

ライセンス: Link先を確認
Andreas F.L. Poulsen, Joshua D. Clement, James L. Webb, Rasmus H. Jensen, Kirstine Berg-S{\o}rensen, Alexander Huck, Ulrik Lund Andersen(参考訳) 固体材料の欠陥は、量子センシングの理想的なロバストなプラットフォームを提供する。 最大感度を得るためには、コヒーレント量子状態を持つ非相互作用欠陥の大規模なアンサンブルが必要となる。 このようなアンサンブルの制御は、欠陥エネルギーレベルとマクロサンプル間の任意の制御領域の両方の空間的変動のために困難である。 本研究では,Floquet理論と最適制御最適化法を用いて,センサに適した大規模な欠陥アンサンブルを効率よく協調制御できることを示す。 提案手法をダイヤモンド中の窒素空孔(NV)中心の最大4$\times$10$^9$のスピンアンサンブルに実験的に適用する。 システムの物理を考慮し、最適化における超微細な相互作用を明示的に含むことにより、温度や磁場の感知に応用された場合、従来の(\pi$-)パルスよりも優れる形状のマイクロ波制御パルスを、11〜78\%の感度向上で設計する。 アンサンブルの動作を動的にモデル化することで,アンサンブルシステムの物理的挙動に光を当て,さらなる改善のための新しい経路を提案する。

Defects in solid state materials provide an ideal, robust platform for quantum sensing. To deliver maximum sensitivity, a large ensemble of non-interacting defects hosting coherent quantum states are required. Control of such an ensemble is challenging due to the spatial variation in both the defect energy levels and in any control field across a macroscopic sample. In this work we experimentally demonstrate that we can overcome these challenges using Floquet theory and optimal control optimization methods to efficiently and coherently control a large defect ensemble, suitable for sensing. We apply our methods experimentally to a spin ensemble of up to 4 $\times$ 10$^9$ nitrogen vacancy (NV) centers in diamond. By considering the physics of the system and explicitly including the hyperfine interaction in the optimization, we design shaped microwave control pulses that can outperform conventional ($\pi$-) pulses when applied to sensing of temperature or magnetic field, with a potential sensitivity improvement between 11 and 78\%. Through dynamical modelling of the behaviour of the ensemble, we shed light on the physical behaviour of the ensemble system and propose new routes for further improvement.
翻訳日:2023-04-14 00:39:35 公開日:2021-01-25
# 準備・測定シナリオにおける古典性認定の一般的な方法

General Method for Classicality Certification in the Prepare and Measure Scenario ( http://arxiv.org/abs/2101.10459v1 )

ライセンス: Link先を確認
Carlos de Gois, George Moreno, Ranieri Nery, Samura\'i Brito, Rafael Chaves, Rafael Rabelo(参考訳) 物理システムの作成と測定は、あらゆる物理実験の運用上の構成要素であり、それらを記述することは、物理理論の最初の目的である。 ある状況では、単一のシステムの準備と測定装置のみが存在して、それらが不特性である場合でも、観測データにのみ依存する量子システムと古典システムの挙動を区別することは可能である。 準備と測定シナリオにおける測定統計の物理的起源の証明は、量子ネットワークを開発し、量子鍵を配布し、ランダム性を証明するために重要なものであるが、驚くべきことに、それを行う一般的な方法が知られていない。 我々は、与えられた準備の組が、任意の数の一般化された測定値に対して、古典統計のみを生成できることを証明するための、一般的な十分な条件を作ることにより、この問題を前進させる。 本手法を応用し,ランダムアクセスコードへの適用を考慮し,準備・測定シナリオにおける非古典性アクティベーションを実証する。 その後、我々は、与えられた測定セットが、どのような準備をしても、非古典的行動を起こすことができないかどうかを、十分な条件で確認するために、我々の方法を適用する。 これにより、非古典性を示すのに使用できない大きな非互換な測定セットを見つけることができ、したがって、準備と測定のシナリオにおいて非古典性には相容れないことを示す。

Preparation and measurement of physical systems are the operational building blocks of any physical experiment, and to describe them is the first purpose of any physical theory. It is remarkable that, in some situations, even when only preparation and measurement devices of a single system are present and they are uncharacterized, it is possible to distinguish between the behaviours of quantum and classical systems relying only on observational data. Certifying the physical origin of measurement statistics in the prepare and measure scenario is of primal importance for developing quantum networks, distributing quantum keys and certifying randomness, to mention a few applications, but, surprisingly, no general methods to do so are known. We progress on this problem by crafting a general, sufficient condition to certify that a given set of preparations can only generate classical statistics, for any number of generalized measurements. As an application, we employ the method to demonstrate non-classicality activation in the prepare and measure scenario, also considering its application in random access codes. Following that, we adapt our method to certify, again through a sufficient condition, whether a given set of measurements can never give rise to non-classical behaviors, irrespective of what preparations they may act upon. This, in turn, allows us to find a large set of incompatible measurements that cannot be used to demonstrate non-classicality, thus showing incompatibility is not sufficient for non-classicality in the prepare and measure scenario.
翻訳日:2023-04-14 00:32:11 公開日:2021-01-25
# 時空量子準曲面

Space-Time Quantum Metasurfaces ( http://arxiv.org/abs/2101.10433v1 )

ライセンス: Link先を確認
Wilton J. M. Kort-Kamp, Abul K. Azad and Diego A. R. Dalvit(参考訳) metasurfacesは、デザイナー光学応答を持つサブ波長構造を使用して古典光を操作するための重要なフォトニックプラットフォームである。 静的なメタサーフェスは最近量子フォトニクスの領域に入り、非古典的な光の状態を調整できる能力を示している。 量子光の動的制御のための時空量子準曲面の概念を導入する。 量子フォトニクスにおける時空間変調メタ曲面の影響の例を示し, 単一光子上での周波数スピンパスハイパーエンタングルメントの生成と, 量子真空の最深部における時空非対称性の実現について述べる。 時空量子準曲面の概念に基づくフォトニックプラットフォームは、量子通信のためのオンデマンドな絡み合い生成、自由空間量子分離のための非相互光子伝播、再構成可能な量子イメージングとセンシングなど、新しい機能を実現する可能性を秘めている。

Metasurfaces are a key photonic platform to manipulate classical light using sub-wavelength structures with designer optical response. Static metasurfaces have recently entered the realm of quantum photonics, showing their ability to tailor nonclassical states of light. We introduce the concept of space-time quantum metasurfaces for dynamical control of quantum light. We provide illustrative examples of the impact of spatio-temporally modulated metasurfaces in quantum photonics, including the creation of frequency-spin-path hyperentanglement on a single photon and the realization of space-time asymmetry at the deepest level of the quantum vacuum. Photonic platforms based on the space-time quantum metasurface concept have the potential to enable novel functionalities, such as on-demand entanglement generation for quantum communications, nonreciprocal photon propagation for free-space quantum isolation, and reconfigurable quantum imaging and sensing.
翻訳日:2023-04-14 00:31:47 公開日:2021-01-25
# 例外点へのユニタリアクセスの経路

Paths of unitary access to exceptional points ( http://arxiv.org/abs/2101.10414v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) ユニタリ量子論の初期の歴史において、ハミルトンの$H(\lambda)$の加藤の例外点(EP、すなわち非エルミート退化点)は、主にユニタリティとエルミート性とをしっかりと結び付けたストーンの定理のために重要な役割を果たさなかった。 最近の楽観主義の波の間、人々はEPへのユニタリアクセスの回廊が、例えば、エルミティティの弱体化(準ハーミティティ性によって置き換えられる)による量子相転移の新たな図へと導くことができると信じ始めた。 その後、悲観論が流行した(アクセスの道は脆弱に見えた)。 閉システムの量子物理学に制限された方法では、ここでは楽観主義への回帰が主張されている: 回廊の明らかなフレギリティは、その準エルミート定式化における理論の誤解から導かれると主張している。 現実的な多体Bose-Hubbardモデルのいくつかの摂動バージョンがイラスト用に選択されている。

During the early history of unitary quantum theory the Kato's exceptional points (EPs, a.k.a. non-Hermitian degeneracies) of Hamiltonians $H(\lambda)$ did not play any significant role, mainly due to the Stone theorem which firmly connected the unitarity with the Hermiticity. During the recent wave of optimism people started believing that the corridors of a unitary access to the EPs could be opened leading, say, to a new picture of quantum phase transitions via an {\it ad hoc} weakening of the Hermiticty (replaced by the quasi-Hermiticity). Subsequently, the pessimism prevailed (the paths of access appeared to be fragile). In a way restricted to the quantum physics of closed systems a return to optimism is advocated here: the apparent fragility of the corridors is claimed to follow from a misinterpretation of the theory in its quasi-Hermitian formulation. Several perturbed versions of the realistic many-body Bose-Hubbard model are chosen for illustration purposes.
翻訳日:2023-04-14 00:31:32 公開日:2021-01-25
# ロンドンにおける暴力犯罪:地理的重み付け回帰による調査

Violent Crime in London: An Investigation using Geographically Weighted Regression ( http://arxiv.org/abs/2101.10388v1 )

ライセンス: Link先を確認
Arman Sarjou(参考訳) ロンドンにおける暴力犯罪は、近年の警察と地域予算の削減により、関心が高まる分野である。 ロンドンにおける暴力犯罪率の分布を加速させる地域的変動要因を理解することは、効果的な行動のためのより効果的な政策立案の手段となるかもしれない。 統計学的手法と組み合わせた視覚分析手法を用いて、伝統的に暴力犯罪率(VCR)に関連する人口統計学的特徴を同定し、OLSユニバリアイトと多変量回帰をGWRの前駆体として用いる。 vif と pearson の相関統計は、伝統的に使われている多くの特徴において強い共線型性を示しており、人的推論はこれを正すのに使われている。 帯域幅のスムージングサイズは67で、Bi-Square型はGWRに最適である。 GWRとLS回帰は、5つのクラスタを用いたVCRとK-Meansクラスタリングの局所的な変動がロンドンにおける暴力犯罪を5つのコヒーレントなグループに分離する効果的な方法であることを示している。

Violent crime in London is an area of increasing interest following policing and community budget cuts in recent years. Understanding the locally-varying demographic factors that drive distribution of violent crime rate in London could be a means to more effective policy making for effective action. Using a visual analytics approach combined with Statsitical Methods, demographic features which are traditionally related to Violent Crime Rate (VCR) are identified and OLS Univariate and Multivariate Regression are used as a precursor to GWR. VIF and pearson correlation statistics show strong colinearity in many of the traditionally used features and so human reasoning is used to rectify this. Bandwidth kernel smoothing size of 67 with a Bi-Square type is best for GWR. GWR and OLS regression shows that there is local variation in VCR and K-Means clustering using 5 clusters provides an effective way of seperating violent crime in London into 5 coherent groups.
翻訳日:2023-04-14 00:31:09 公開日:2021-01-25
# 学生割当アルゴリズムにおける透明性,公平性,コミュニティ課題のモデル化と現実の世界との衝突

Modeling Assumptions Clash with the Real World: Transparency, Equity, and Community Challenges for Student Assignment Algorithms ( http://arxiv.org/abs/2101.10367v1 )

ライセンス: Link先を確認
Samantha Robertson, Tonya Nguyen, Niloufar Salehi(参考訳) 米国全体では、多くの教育学区が、生徒を公立学校に割り当てるためのマッチングアルゴリズムに目を向けている。 これらのアルゴリズムの設計者は、そのプロセスにおける透明性、株式、およびコミュニティといった価値を促進することを目的としていた。 しかし、教育学区はその展開において実用的な課題に遭遇してきた。 実際、サンフランシスコ統一教育学区は、学生割当アルゴリズムの使用を中止し、完全に再設計することを投票で決めた。 このシステムを価値に敏感な設計手法を用いて分析し、実際に価値が満たされない理由の一つは、システムが実世界と衝突する家族の優先順位、制約、目標に関する仮定をモデル化することにあることを見出します。 これらの仮定は、多くの家族が直面する理想的な参加に対する複雑な障壁を見落としている。 我々は、直接的かつ継続的な利害関係者との関わりが、アルゴリズム的価値と現実世界の条件との整合の中心であると主張する。 そのためには、複雑な社会・政治問題に対処するための純粋アルゴリズムソリューションの限界を認識しながら、アルゴリズムの評価方法を広げなければならない。

Across the United States, a growing number of school districts are turning to matching algorithms to assign students to public schools. The designers of these algorithms aimed to promote values such as transparency, equity, and community in the process. However, school districts have encountered practical challenges in their deployment. In fact, San Francisco Unified School District voted to stop using and completely redesign their student assignment algorithm because it was not promoting educational equity in practice. We analyze this system using a Value Sensitive Design approach and find that one reason values are not met in practice is that the system relies on modeling assumptions about families' priorities, constraints, and goals that clash with the real world. These assumptions overlook the complex barriers to ideal participation that many families face, particularly because of socioeconomic inequalities. We argue that direct, ongoing engagement with stakeholders is central to aligning algorithmic values with real world conditions. In doing so we must broaden how we evaluate algorithms while recognizing the limitations of purely algorithmic solutions in addressing complex socio-political problems.
翻訳日:2023-04-14 00:30:51 公開日:2021-01-25
# 捕捉イオンのマルチ波長アドレッシングのためのマイクロ光学モジュール

A micro-optical module for multi-wavelength addressing of trapped ions ( http://arxiv.org/abs/2101.10362v1 )

ライセンス: Link先を確認
M. L. Day, K. Choonee, Z. Chaboyer, S. Gross, M. J. Withford, A. G. Sinclair and G. D. Marshall(参考訳) 捕捉されたイオンの配列に基づく大規模量子情報プロセッサの制御には、複数のレーザービームを複数のトラップ部位に並列にルーティングし集中させる手段が必要である。 ここでは, ファイバー, 3次元レーザ光導波路, 回折マイクロレンズの配列を組み合わせることで, この課題に適合するマイクロ光学配線の原理を実証する。 このモジュールは3d電極形状のイオンマイクロトラップでの使用を意図している。 10個の独立したレーザービームをユニークな軌跡で誘導し、空間的に分離された1対の目標点を照らす。 3つの青と2つの赤外線ビームが収束し、それぞれの所望の位置で正確に重なり合う。 ブルーの一般的なクロストークの強度は3.6 \times 10^{-3}$であり、全チャンネルの平均挿入損失は8〜$dbである。 このモジュールは、従来のバルク光学等価量よりも$\sim 10^4$の体積が小さく、異なるイオン種に適している。

The control of large-scale quantum information processors based on arrays of trapped ions requires a means to route and focus multiple laser beams to each of many trapping sites in parallel. Here, we combine arrays of fibres, 3D laser-written waveguides and diffractive microlenses to demonstrate the principle of a micro-optic interconnect suited to this task. The module is intended for use with an ion microtrap of 3D electrode geometry. It guides ten independent laser beams with unique trajectories to illuminate a pair of spatially separated target points. Three blue and two infrared beams converge to overlap precisely at each desired position. Typical relative crosstalk intensities in the blue are $3.6 \times 10^{-3}$ and the average insertion loss across all channels is $8~$dB. The module occupies $\sim 10^4$ times less volume than a conventional bulk-optic equivalent and is suited to different ion species.
翻訳日:2023-04-14 00:30:34 公開日:2021-01-25
# all-optical diamond magneticmetryによるドメイン形態の多角再構成

Multi-Angle Reconstruction of Domain Morphology with All-Optical Diamond Magnetometry ( http://arxiv.org/abs/2101.10331v1 )

ライセンス: Link先を確認
Lucio Stefan, Anthony K. C. Tan, Baptiste Vindolet, Michael H\"ogen, Dickson Thian, Hang Khume Tan, Lo\"ic Rondin, Helena S. Knowles, Jean-Fran\c{c}ois Roch, Anjan Soumyanarayanan, Mete Atat\"ure(参考訳) 窒素空洞中心の光学的に検出された磁気共鳴に基づく走査型ダイヤモンド磁気センサは、極薄磁性材料から放出される成層体が十分低い(<10 mt)場合、非常に感度が高く非侵襲的な撮像能力を有する。 この低磁場状態を超えて、光学信号のクエンチと定量測定は困難である。 磁場依存性のNVフォトルミネッセンスは、磁気形態に関する定性的情報を提供することができるが、この操作状態は、特に$\sim$3 mA以上の表面磁化について探索されていない。 本稿では,nvフォトルミネッセンス・クエンチに繋がる全磁場領域におけるナノスケールドメイン形態を捉えるマルチアングル再構成法(mare)を提案する。 これを実証するために,[ir/co/pt]$_{14}$多層膜を用いた。 本手法は,非侵襲的ナノスケール磁場イメージング機能を,より広い磁気材料と現象のプールの研究に導入する。

Scanning diamond magnetometers based on the optically detected magnetic resonance of the nitrogen-vacancy centre offer very high sensitivity and non-invasive imaging capabilities when the stray fields emanating from ultrathin magnetic materials are sufficiently low (< 10 mT). Beyond this low-field regime, the optical signal quenches and a quantitative measurement is challenging. While the field-dependent NV photoluminescence can still provide qualitative information on magnetic morphology, this operation regime remains unexplored particularly for surface magnetisation larger than $\sim$ 3 mA. Here, we introduce a multi-angle reconstruction technique (MARe) that captures the full nanoscale domain morphology in all magnetic-field regimes leading to NV photoluminescence quench. To demonstrate this, we use [Ir/Co/Pt]$_{14}$ multilayer films with surface magnetisation an order of magnitude larger than previous reports. Our approach brings non-invasive nanoscale magnetic field imaging capability to the study of a wider pool of magnetic materials and phenomena.
翻訳日:2023-04-14 00:30:16 公開日:2021-01-25
# 粒子群最適化器の基本パラメータに関する研究

A Study of the Fundamental Parameters of Particle Swarm Optimizers ( http://arxiv.org/abs/2101.10326v1 )

ライセンス: Link先を確認
Mauro S. Innocente, Johann Sienz(参考訳) 従来の最適化手法の応用範囲は、オブジェクト変数の特徴と目的関数と制約関数の両方によって制限される。 対照的に、進化的アルゴリズムや粒子群最適化のような創発的特性を持つ集団ベースのアルゴリズムは、これらの特徴にほとんど制限がなく、適応がほとんどあるいは全くない異なる最適化問題に対処できる。 主な欠点は、計算コストが比較的高く、等式制約を扱うのが難しいことである。 粒子群最適化法は、同じ比喩にインスピレーションを受けていないにもかかわらず、多くの類似性のために進化的アルゴリズムと見なされることがある。 従来の手法に関する進化的アルゴリズムの利点は、数十年にわたって文献で大いに議論されてきた。 パーティクルスワムオプティマイザはそのような利点を共有しているが、進化的アルゴリズムと比較して最も望ましい特徴は計算コストの低減と実装の容易さであり、演算子の設計や調整すべきパラメータが少ないことである。 しかし、これらのパラメータのわずかな変更でさえも、スウォームのダイナミクスに大きな影響を与えている。 本稿では,粒子の速度更新方程式のパラメータ設定が系の挙動に及ぼす影響について述べる。

The range of applications of traditional optimization methods are limited by the features of the object variables, and of both the objective and the constraint functions. In contrast, population-based algorithms whose optimization capabilities are emergent properties, such as evolutionary algorithms and particle swarm optimization, present almost no restriction on those features and can handle different optimization problems with few or no adaptations. Their main drawbacks consist of their comparatively higher computational cost and difficulty in handling equality constraints. The particle swarm optimization method is sometimes viewed as an evolutionary algorithm because of their many similarities, despite not being inspired by the same metaphor: they evolve a population of individuals taking into account previous experiences and using stochastic operators to introduce new responses. The advantages of evolutionary algorithms with respect to traditional methods have been greatly discussed in the literature for decades. While the particle swarm optimizers share such advantages, their main desirable features when compared to evolutionary algorithms are their lower computational cost and easier implementation, involving no operator design and few parameters to be tuned. However, even slight modifications of these parameters greatly influence the dynamics of the swarm. This paper deals with the effect of the settings of the parameters of the particles' velocity update equation on the behaviour of the system.
翻訳日:2023-04-14 00:29:59 公開日:2021-01-25
# Belavkin-Staszewski相対エントロピーの弱準因子化

Weak quasi-factorization for the Belavkin-Staszewski relative entropy ( http://arxiv.org/abs/2101.10312v1 )

ライセンス: Link先を確認
Andreas Bluhm, \'Angela Capel, Antonio P\'erez-Hern\'andez(参考訳) 相対エントロピーに対する準因子化型不等式は、量子スピン系に対する修正対数的ソボレフ不等式(英語版)の現代の証明において基礎であることが最近証明されている。 本論文では,Belavkin-Staszewski相対エントロピーに対する弱準因子化の結果,すなわち2つの条件付きBSエントロピーの和から2つの条件付きBSエントロピーの間のBS-エントロピーの上界を乗法的および加法的要素まで示す。

Quasi-factorization-type inequalities for the relative entropy have recently proven to be fundamental in modern proofs of modified logarithmic Sobolev inequalities for quantum spin systems. In this paper, we show some results of weak quasi-factorization for the Belavkin-Staszewski relative entropy, i.e. upper bounds for the BS-entropy between two bipartite states in terms of the sum of two conditional BS-entropies, up to some multiplicative and additive factors.
翻訳日:2023-04-14 00:29:39 公開日:2021-01-25
# 双方向システム環境情報交換の検出

Detection of Bidirectional System-Environment Information Exchanges ( http://arxiv.org/abs/2101.10308v1 )

ライセンス: Link先を確認
Adri\'an A. Budini(参考訳) 量子メモリ効果は、オープンシステムとその環境間の双方向の情報交換と関連付けられ、それによって最後のシステムの状態と動的挙動が変化する。 しかしながら、非マルコビアン性は、システムの進化中に力学が影響されない環境によっても引き起こされ、物理的な情報交換が存在しないことを意味する。 量子記憶測度の定式化における未解決のオープン問題は、両パラダイムのケースを識別することの明らかな不可能性である。 本稿では,興味のあるシステム上で連続する計測プロセスの結果に基づいて,両種類の記憶効果を区別する操作方式を提案する。 多様な散逸性を有する双方向情報の流れを正確に検出し、非マルコフ開システムダイナミクスを強調する。

Quantum memory effects can be related to a bidirectional exchange of information between an open system and its environment, which in turn modifies the state and dynamical behavior of the last one. Nevertheless, non-Markovianity can also be induced by environments whose dynamics is not affected during the system evolution, implying the absence of any physical information exchange. An unsolved open problem in the formulation of quantum memory measures is the apparent impossibility of discerning between both paradigmatic cases. Here, we present an operational scheme that, based on the outcomes of successive measurements processes performed over the system of interest, allows to distinguishing between both kinds of memory effects. The method accurately detects bidirectional information flows in diverse dissipative and dephasing non-Markovian open system dynamics.
翻訳日:2023-04-14 00:29:27 公開日:2021-01-25
# 粒子群最適化器の制約に対する擬似適応的罰則

Pseudo-Adaptive Penalization to Handle Constraints in Particle Swarm Optimizers ( http://arxiv.org/abs/2101.11441v1 )

ライセンス: Link先を確認
Mauro S. Innocente, Johann Sienz(参考訳) ペナライズ法は、制約を処理できる粒子群最適化器を提供する一般的な手法である。 欠点は、設定が問題固有のペナル化係数の必要性である。 適応係数は文献で見られるが,本論文では,係数を一定に保つための異なる適応スキームが提案されている。 制約違反に対する耐性を擬似適応緩和する一方で、そのような許容を超える違反のみを罰することは、擬似適応的ペナリゼーションをもたらす。 粒子群オプティマイザは3種類の耐性緩和のための一連のベンチマーク問題(緩和なし、決定論的減少を伴う自己調整初期緩和、擬適応的減少を伴う自己調整初期緩和)で試験される。 他の著者の結果は参照のフレームとして提供される。

The penalization method is a popular technique to provide particle swarm optimizers with the ability to handle constraints. The downside is the need of penalization coefficients whose settings are problem-specific. While adaptive coefficients can be found in the literature, a different adaptive scheme is proposed in this paper, where coefficients are kept constant. A pseudo-adaptive relaxation of the tolerances for constraint violations while penalizing only violations beyond such tolerances results in a pseudo-adaptive penalization. A particle swarm optimizer is tested on a suite of benchmark problems for three types of tolerance relaxation: no relaxation; self-tuned initial relaxation with deterministic decrease; and self-tuned initial relaxation with pseudo-adaptive decrease. Other authors' results are offered as frames of reference.
翻訳日:2023-04-14 00:22:40 公開日:2021-01-25
# 粒子群最適化における個人的・社会的行動

Individual and Social Behaviour in Particle Swarm Optimizers ( http://arxiv.org/abs/2101.11439v1 )

ライセンス: Link先を確認
Johann Sienz, Mauro S. Innocente(参考訳) 粒子の個々の挙動を決定する3つの基本的な要因は、その前の変位から慣性、自身の最良の経験への魅力、特定の隣人の最良の経験への魅力である。 各因子に与えられる重要性は、慣性、個性、社会的重みの3つの係数によって制御される。 社会的行動は、自分の経験を与えられた粒子に知らせる隣人を定義するソーシャルネットワークの構造によって支配される。 本稿では,係数の異なる設定の影響と,異なる設定と異なる近傍トポロジの組合せが収束の速度と形に及ぼす影響について検討する。

Three basic factors govern the individual behaviour of a particle: the inertia from its previous displacement; the attraction to its own best experience; and the attraction to a given neighbour's best experience. The importance awarded to each factor is controlled by three coefficients: the inertia; the individuality; and the sociality weights. The social behaviour is ruled by the structure of the social network, which defines the neighbours that are to inform of their experiences to a given particle. This paper presents a study of the influence of different settings of the coefficients as well as of the combined effect of different settings and different neighbourhood topologies on the speed and form of convergence.
翻訳日:2023-04-14 00:22:25 公開日:2021-01-25
# 研究・教育のためのBose-Einstein Condensatesの遠隔マルチユーザ制御

Remote multi-user control of the production of Bose-Einstein condensates for research and education ( http://arxiv.org/abs/2101.11398v1 )

ライセンス: Link先を確認
J S Laustsen, R Heck, O El\'iasson, J J Arlt, J F Sherson, C A Weidner(参考訳) 実験システムの遠隔操作は、研究グループ間のコラボレーションの改善と、学生や市民科学者が利用できるユニークな遠隔教育機会を可能にする。 本稿では,複数のリモートユーザによる非同期遠隔制御が可能な超低温量子ガスの生成と調査実験について述べる。 これは、一般の人が使用するゲーミフィケーションインターフェースや専門家向けのスクリプトインターフェースなど、ユーザに合わせて変更可能なインターフェースに結合されたキューシステムによって実現されている。 これを実証するため、実験室は遠隔の専門家と一般大衆に開放された。 利用可能な期間に、遠隔のユーザはBose-Einstein Condensate (BEC)の生産を最適化するタスクを与えられた。 この研究は、リモート専門家や学生、市民科学者らによるより高度な物理モデルの探索と実現に向けた一歩となる。

Remote control of experimental systems allows for improved collaboration between research groups as well as unique remote educational opportunities accessible by students and citizen scientists. Here, we describe an experiment for the production and investigation of ultracold quantum gases capable of asynchronous remote control by multiple remote users. This is enabled by a queuing system coupled to an interface that can be modified to suit the user, e.g. a gamified interface for use by the general public or a scripted interface for an expert. To demonstrate this, the laboratory was opened to remote experts and the general public. During the available time, remote users were given the task of optimising the production of a Bose-Einstein condensate (BEC). This work thus provides a stepping stone towards the exploration and realisation of more advanced physical models by remote experts, students and citizen scientists alike.
翻訳日:2023-04-14 00:22:14 公開日:2021-01-25
# particle swarm optimization:基礎研究とその最適化とjettyスケジューリング問題への応用

Particle Swarm Optimization: Fundamental Study and its Application to Optimization and to Jetty Scheduling Problems ( http://arxiv.org/abs/2101.11096v1 )

ライセンス: Link先を確認
Johann Sienz, Mauro S. Innocente(参考訳) 従来の手法に対する進化的アルゴリズムの利点は文献で大きく議論されている。 パーティクルスワムオプティマイザはそのような利点を共有しているが、計算コストが低く、実装が容易で、演算子の設計や調整する係数が少ないため、進化的アルゴリズムよりも優れている。 しかし、これらの係数の設定の限界変動でさえ、スワムの力学に大きな影響を及ぼす。 本論文はチューニングを意図しないため,従来の研究から汎用的な設定を取り出し,様々な問題を最適化するために,事実上同じアルゴリズムを用いている。 したがって、このパラダイムをレビューした後、アルゴリズムは一連のベンチマーク関数と、文献から取られた工学的問題に基づいてテストされる。 その後、スケジューリング問題で発生する組合せ最適化にこの方法を適用するために補完的なコード行が組み込まれ、同じ設定で同じオプティマイザを使用して実際のケースが解決される。 目的は、様々な問題に対処できるアプローチの柔軟性と堅牢性を示すことである。

The advantages of evolutionary algorithms with respect to traditional methods have been greatly discussed in the literature. While particle swarm optimizers share such advantages, they outperform evolutionary algorithms in that they require lower computational cost and easier implementation, involving no operator design and few coefficients to be tuned. However, even marginal variations in the settings of these coefficients greatly influence the dynamics of the swarm. Since this paper does not intend to study their tuning, general-purpose settings are taken from previous studies, and virtually the same algorithm is used to optimize a variety of notably different problems. Thus, following a review of the paradigm, the algorithm is tested on a set of benchmark functions and engineering problems taken from the literature. Later, complementary lines of code are incorporated to adapt the method to combinatorial optimization as it occurs in scheduling problems, and a real case is solved using the same optimizer with the same settings. The aim is to show the flexibility and robustness of the approach, which can handle a wide variety of problems.
翻訳日:2023-04-14 00:22:02 公開日:2021-01-25
# 制約付き最適化問題に対する particle swarm optimizer と sqp local search の組み合わせ

Combining Particle Swarm Optimizer with SQP Local Search for Constrained Optimization Problems ( http://arxiv.org/abs/2101.10936v1 )

ライセンス: Link先を確認
Carwyn Pelley, Mauro S. Innocente, Johann Sienz(参考訳) 制約付き最適化問題に対する汎用粒子群最適化器 (gp-pso) と逐次二次計画法 (sqp) の組合せは, 改良に非常に有用であり, 場合によっては大域的最適解を求めることに成功した。 先行するアルゴリズムの違いは局所的な検索能力にある可能性が示されている。 ベンチマークスイートの他の主要なオプティマイザとの比較では、他の主要なPSOアルゴリズムと競合するローカル検索を実装したGP-PSOのハイブリッドが示されている。

The combining of a General-Purpose Particle Swarm Optimizer (GP-PSO) with Sequential Quadratic Programming (SQP) algorithm for constrained optimization problems has been shown to be highly beneficial to the refinement, and in some cases, the success of finding a global optimum solution. It is shown that the likely difference between leading algorithms are in their local search ability. A comparison with other leading optimizers on the tested benchmark suite, indicate the hybrid GP-PSO with implemented local search to compete along side other leading PSO algorithms.
翻訳日:2023-04-14 00:21:45 公開日:2021-01-25
# 粒子群最適化における近傍位相の数値的比較

Numerical Comparison of Neighbourhood Topologies in Particle Swarm Optimization ( http://arxiv.org/abs/2101.10935v1 )

ライセンス: Link先を確認
Mauro S. Innocente, Johann Sienz(参考訳) Particle Swarm Optimizationは、ローカル最適化の貧弱さを回避できるという意味で、グローバルオプティマイザである。 しかし、人口内における情報の拡散が適切に行われない場合、早期収束が起こる可能性がある。 収束速度,従って準最適解に閉じ込められるアルゴリズムの相対性は,速度更新方程式の係数の設定や近傍トポロジーによって制御される。 係数の設定は、識別された良い場所に向かう粒子の軌道を決定するが、近隣のトポロジーは、人口内における情報の拡散の形式と速度を制御する(すなわち、社会的誘引者の更新)。 多くの近隣の地形が文献に提案・実装されている。 本稿では,5つの異なる近傍トポロジで表される性能と,ベンチマークの制約のない問題の集合を最適化する場合の4つの係数の設定とを比較検討する。 最適なトポロジーは問題に依存しないが、探索が進行するにつれてインターコネクト数が増加する動的近傍は、非プロブレム固有の最適化器として好まれるべきである。

Particle Swarm Optimization is a global optimizer in the sense that it has the ability to escape poor local optima. However, if the spread of information within the population is not adequately performed, premature convergence may occur. The convergence speed and hence the reluctance of the algorithm to getting trapped in suboptimal solutions are controlled by the settings of the coefficients in the velocity update equation as well as by the neighbourhood topology. The coefficients settings govern the trajectories of the particles towards the good locations identified, whereas the neighbourhood topology controls the form and speed of spread of information within the population (i.e. the update of the social attractor). Numerous neighbourhood topologies have been proposed and implemented in the literature. This paper offers a numerical comparison of the performances exhibited by five different neighbourhood topologies combined with four different coefficients' settings when optimizing a set of benchmark unconstrained problems. Despite the optimum topology being problem-dependent, it appears that dynamic neighbourhoods with the number of interconnections increasing as the search progresses should be preferred for a non-problem-specific optimizer.
翻訳日:2023-04-14 00:21:30 公開日:2021-01-25
# 粒子群最適化アルゴリズムの制約ハンドリング手法

Constraint-Handling Techniques for Particle Swarm Optimization Algorithms ( http://arxiv.org/abs/2101.10933v1 )

ライセンス: Link先を確認
Mauro S. Innocente, Johann Sienz(参考訳) 人口ベースの手法は、従来の方法よりもはるかに複雑な問題を含む、さまざまな問題に対処することができる。 主な手順は、候補解の集団を逐次更新し、従来のシーケンシャル探索の代わりに並列探索を行うことである。 PSO法の起源は鳥の群れシミュレーションと結びついているが、創造性を導入するためにランダム係数に依存するという意味では確率的最適化であり、その知的行動が決定的にプログラムされるよりも個人よりも高いレベルで現れるという意味ではボトムアップの人工知能に基づくアプローチである。 EAとは対照的に、PSOは演算子の設計を伴わず、調整する係数も少ない。 本論文はそのようなチューニングを意図しないため,従来の研究から汎用的な設定を取り入れたものである。 PSOアルゴリズムは制約を扱うためにいくつかのテクニックを組み込む必要がある。 一般的な方法としてペナリゼーション(penalization)法があり、元の制約付き問題をペナリゼーション可能な解をペナリゼーションすることで制約のない問題に変換する。 他のテクニックはpso用に特別に設計できる。 これらの戦略は互いに比較した場合の利点と欠点を示すため、すべての問題に対して最高の制約処理技術(CHT)は存在しない。 ここでの目標は、汎用設定のアルゴリズムに組み込まれているpsosに適した異なるchtsを開発し比較することである。 比較はアルゴリズムの残りの特徴を同じに保ちながら行われ、他の著者の結果との比較はオプティマイザ全体の参照フレームとして提供される。 そこで, 2組のベンチマーク問題に対して, ペナリゼーション, 有効性, 二項法について検討, 実施, 検証を行った。 実験では、近隣の3つのサイズも考慮されている。

Population-based methods can cope with a variety of different problems, including problems of remarkably higher complexity than those traditional methods can handle. The main procedure consists of successively updating a population of candidate solutions, performing a parallel exploration instead of traditional sequential exploration. While the origins of the PSO method are linked to bird flock simulations, it is a stochastic optimization method in the sense that it relies on random coefficients to introduce creativity, and a bottom-up artificial intelligence-based approach in the sense that its intelligent behaviour emerges in a higher level than the individuals' rather than deterministically programmed. As opposed to EAs, the PSO involves no operator design and few coefficients to be tuned. Since this paper does not intend to study such tuning, general-purpose settings are taken from previous studies. The PSO algorithm requires the incorporation of some technique to handle constraints. A popular one is the penalization method, which turns the original constrained problem into unconstrained by penalizing infeasible solutions. Other techniques can be specifically designed for PSO. Since these strategies present advantages and disadvantages when compared to one another, there is no obvious best constraint-handling technique (CHT) for all problems. The aim here is to develop and compare different CHTs suitable for PSOs, which are incorporated to an algorithm with general-purpose settings. The comparisons are performed keeping the remaining features of the algorithm the same, while comparisons to other authors' results are offered as a frame of reference for the optimizer as a whole. Thus, the penalization, preserving feasibility and bisection methods are discussed, implemented, and tested on two suites of benchmark problems. Three neighbourhood sizes are also considered in the experiments.
翻訳日:2023-04-14 00:21:13 公開日:2021-01-25
# 人口ベース手法:Particle SWARM OPTIMIZATION -- 汎用最適化器の開発とその応用

Population-Based Methods: PARTICLE SWARM OPTIMIZATION -- Development of a General-Purpose Optimizer and Applications ( http://arxiv.org/abs/2101.10901v1 )

ライセンス: Link先を確認
Mauro S. Innocente(参考訳) この論文は不等式制約の対象となる連続的、静的、単一目的最適化問題に関するものである。 それにもかかわらず、他の種類の問題に対処するいくつかの方法を概観する。 粒子群最適化パラダイムは、社会的存在で観察された協調行動の以前のシミュレーションに触発された。 ボトムアップでランダムに重み付けされた人口ベースの手法で、局所的な個人間相互作用から最適化する能力が生まれる。 従来の手法とは対照的に、問題に対する問題固有の特徴から利益を得るが、集団による探索空間の並列的共同探索を行うという事実から、適応がほとんど、あるいは全くない様々な問題に対処することができる。 この論文の主な目標は、ほとんどの問題に対して合理的に機能する最適化器を開発することである。 そこで,アルゴリズムのパラメータの設定がシステムの動作に与える影響について検討し,汎用的な設定を求めるとともに,より汎用的な最適化を実現するために,標準バージョンへのいくつかのバリエーションを提案する。 この論文は、標準版には終了条件が含まれていないため、さらなる大幅な改善が期待できない場合や、一定の時間ステップに達した場合、反復探索を終了させるいくつかの停止基準の設計にも関係している。 さらに、制約処理技法のいくつかは、不等式制約を扱うために標準アルゴリズムに組み込まれている。 最後に、いくつかのベンチマーク問題を最適化することにより、提案する汎用オプティマイザの機能を示す。

This thesis is concerned with continuous, static, and single-objective optimization problems subject to inequality constraints. Nevertheless, some methods to handle other kinds of problems are briefly reviewed. The particle swarm optimization paradigm was inspired by previous simulations of the cooperative behaviour observed in social beings. It is a bottom-up, randomly weighted, population-based method whose ability to optimize emerges from local, individual-to-individual interactions. As opposed to traditional methods, it can deal with different problems with few or no adaptation due to the fact that it does profit from problem-specific features of the problem at issue but performs a parallel, cooperative exploration of the search-space by means of a population of individuals. The main goal of this thesis consists of developing an optimizer that can perform reasonably well on most problems. Hence, the influence of the settings of the algorithm's parameters on the behaviour of the system is studied, some general-purpose settings are sought, and some variations to the canonical version are proposed aiming to turn it into a more general-purpose optimizer. Since no termination condition is included in the canonical version, this thesis is also concerned with the design of some stopping criteria which allow the iterative search to be terminated if further significant improvement is unlikely, or if a certain number of time-steps are reached. In addition, some constraint-handling techniques are incorporated into the canonical algorithm to handle inequality constraints. Finally, the capabilities of the proposed general-purpose optimizers are illustrated by optimizing a few benchmark problems.
翻訳日:2023-04-14 00:20:43 公開日:2021-01-25
# 文書における単語関連性決定のための意味的感性TF-IDF

Semantic Sensitive TF-IDF to Determine Word Relevance in Documents ( http://arxiv.org/abs/2001.09896v2 )

ライセンス: Link先を確認
Amir Jalilifard, Vinicius F. Carid\'a, Alex F. Mansano, Rogers S. Cristo, Felipe Penhorate C. da Fonseca(参考訳) キーワード抽出は重要な研究トピックとして注目され、文書コンテキスト分類、テキストインデックス化、文書分類などの様々な応用に発展をもたらす可能性がある。 本稿では,TF-IDFに基づく新しい意味的手法であるSTF-IDFを提案する。 医療用ソーシャルメディアから400万件近い文書が収集され、セマンティックモデルを作成し、埋め込みという言葉を見つけるために訓練された。 次に, 意味空間の特徴を用いて, tf-idfスコアを反復解を用いて再構成し, 非公式テキストにおけるこのアルゴリズムの適度な性能向上を図る。 提案手法をランダムに選択した200の文書で検証した結果, tf-idf平均誤差率は50%, 平均誤差13.7%と, tf-idfの27.2%に低下した。

Keyword extraction has received an increasing attention as an important research topic which can lead to have advancements in diverse applications such as document context categorization, text indexing and document classification. In this paper we propose STF-IDF, a novel semantic method based on TF-IDF, for scoring word importance of informal documents in a corpus. A set of nearly four million documents from health-care social media was collected and was trained in order to draw semantic model and to find the word embeddings. Then, the features of semantic space were utilized to rearrange the original TF-IDF scores through an iterative solution so as to improve the moderate performance of this algorithm on informal texts. After testing the proposed method with 200 randomly chosen documents, our method managed to decrease the TF-IDF mean error rate by a factor of 50% and reaching the mean error of 13.7%, as opposed to 27.2% of the original TF-IDF.
翻訳日:2023-01-14 01:52:01 公開日:2021-01-25
# ショットテキストの分類と自然言語推論におけるクローズ問題の利用

Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference ( http://arxiv.org/abs/2001.07676v3 )

ライセンス: Link先を確認
Timo Schick and Hinrich Sch\"utze(参考訳) いくつかのNLPタスクは、自然言語で"タスク記述"をトレーニング済みの言語モデルを提供することで、完全に教師なしの方法で解決することができる(Radfordら、2019年)。 提案手法では,入力例をクローゼスタイルのフレーズとして再構成し,言語モデルが与えられたタスクを理解するのに役立つ半教師付きトレーニング手法であるPET(Pattern-Exploiting Training)を導入する。 これらのフレーズは、ラベルなしの大きな例にソフトラベルを割り当てるために使われる。 そして、得られた訓練セット上で、標準監督訓練を行う。 いくつかのタスクや言語において、PETは教師付きトレーニングと低リソース環境における強力な半教師付きアプローチを大きなマージンで上回る。

Some NLP tasks can be solved in a fully unsupervised fashion by providing a pretrained language model with "task descriptions" in natural language (e.g., Radford et al., 2019). While this approach underperforms its supervised counterpart, we show in this work that the two ideas can be combined: We introduce Pattern-Exploiting Training (PET), a semi-supervised training procedure that reformulates input examples as cloze-style phrases to help language models understand a given task. These phrases are then used to assign soft labels to a large set of unlabeled examples. Finally, standard supervised training is performed on the resulting training set. For several tasks and languages, PET outperforms supervised training and strong semi-supervised approaches in low-resource settings by a large margin.
翻訳日:2023-01-08 00:01:04 公開日:2021-01-25
# 模倣学習を用いた同時機械翻訳のための学習結合ポリシー

Learning Coupled Policies for Simultaneous Machine Translation using Imitation Learning ( http://arxiv.org/abs/2002.04306v2 )

ライセンス: Link先を確認
Philip Arthur, Trevor Cohn, Gholamreza Haffari(参考訳) 本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。 まず、単語アライメントの概念を用いてバイリンガル文ペアを訓練するためのオラクルREAD/WRITEアクションを生成するアルゴリズムを提示する。 このoracleアクションは、出力を記述する前に、部分入力から十分な情報を取得するように設計されている。 次に,模倣学習と協調して2つの方針を学習する場合,露光バイアスを効果的に軽減するために,連続したスケジュールサンプリングを行う。 6つの言語対の実験では,翻訳遅延を低く保ちながら,翻訳品質の点で高いベースラインを達成できた。

We present a novel approach to efficiently learn a simultaneous translation model with coupled programmer-interpreter policies. First, wepresent an algorithmic oracle to produce oracle READ/WRITE actions for training bilingual sentence-pairs using the notion of word alignments. This oracle actions are designed to capture enough information from the partial input before writing the output. Next, we perform a coupled scheduled sampling to effectively mitigate the exposure bias when learning both policies jointly with imitation learning. Experiments on six language-pairs show our method outperforms strong baselines in terms of translation quality while keeping the translation delay low.
翻訳日:2023-01-02 01:00:59 公開日:2021-01-25
# フィードバックメモリを用いた変圧器の限界に対処する

Addressing Some Limitations of Transformers with Feedback Memory ( http://arxiv.org/abs/2002.09402v3 )

ライセンス: Link先を確認
Angela Fan, Thibaut Lavril, Edouard Grave, Armand Joulin, Sainbayar Sukhbaatar(参考訳) トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。 繰り返しニューラルネットワークとは異なり、Transformerは入力トークンを並列に処理しながら時間的関係をキャプチャするために注意を払っている。 この並列化によって計算効率は向上するが、モデルが入力のシーケンシャルな性質を完全に活用することを制限している。 与えられたレイヤでの表現は、既に利用可能な高レベルな表現よりも、下位層からの表現にしかアクセスできない。 本研究では,これまでのすべての表現をすべての表現に公開するフィードバックトランスフォーマアーキテクチャを提案する。つまり,過去の最上位の抽象表現から,現在の時間ステップの最低表現が形成される。 我々は、言語モデリング、機械翻訳、強化学習における様々なベンチマークで、表現能力の増大により、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さく浅いモデルが作成できることを実証する。

Transformers have been successfully applied to sequential, auto-regressive tasks despite being feedforward networks. Unlike recurrent neural networks, Transformers use attention to capture temporal relations while processing input tokens in parallel. While this parallelization makes them computationally efficient, it restricts the model from fully exploiting the sequential nature of the input. The representation at a given layer can only access representations from lower layers, rather than the higher level representations already available. In this work, we propose the Feedback Transformer architecture that exposes all previous representations to all future representations, meaning the lowest representation of the current timestep is formed from the highest-level abstract representation of the past. We demonstrate on a variety of benchmarks in language modeling, machine translation, and reinforcement learning that the increased representation capacity can create small, shallow models with much stronger performance than comparable Transformers.
翻訳日:2022-12-30 00:07:07 公開日:2021-01-25
# 画像テキストマッチングと検索のためのトランスフォーマー推論ネットワーク

Transformer Reasoning Network for Image-Text Matching and Retrieval ( http://arxiv.org/abs/2004.09144v3 )

ライセンス: Link先を確認
Nicola Messina, Fabrizio Falchi, Andrea Esuli, Giuseppe Amato(参考訳) 画像テキストマッチングは、現代のAI研究において興味深く魅力的なタスクである。 ディープラーニングベースの画像およびテキスト処理システムの進化にもかかわらず、マルチモーダルマッチングは難しい問題である。 本研究では,マルチモーダル大規模情報検索タスクにおける正確な画像テキストマッチングの問題を考える。 画像テキストマッチングの最先端の結果は、2つの異なる処理パイプラインから画像とテキストの機能を相互に再生することで達成される。 しかし、これは大規模な検索システムにおいて、後の索引付けステップに必要な視覚的特徴とテキスト的特徴を分離する機会を無効にする。 そこで,本稿では,トランスフォーマエンコーダ推論ネットワーク (tern) について紹介する。 このアーキテクチャは、2つの異なるモダリティを別々に推論し、より深いトランスフォーマー層の重みを共有することで最終的な共通の抽象概念空間を強制することができる。 この設計により、実装されたネットワークは、連続するインデックス化ステップで利用可能なコンパクトで非常にリッチな視覚的およびテキスト的特徴を生成できる。 実験は,ms-cocoデータセット上で実施し,字幕の類似性を活用し,非現実的だが関連のある検索結果を評価するために,値引きされた累積ゲイン指標を用いて結果を評価する。 この測定値を用いて,画像検索作業において最先端の結果が得られることを示す。 私たちのコードはhttps://github.com/mesnico/TERN.comで無料で利用可能です。

Image-text matching is an interesting and fascinating task in modern AI research. Despite the evolution of deep-learning-based image and text processing systems, multi-modal matching remains a challenging problem. In this work, we consider the problem of accurate image-text matching for the task of multi-modal large-scale information retrieval. State-of-the-art results in image-text matching are achieved by inter-playing image and text features from the two different processing pipelines, usually using mutual attention mechanisms. However, this invalidates any chance to extract separate visual and textual features needed for later indexing steps in large-scale retrieval systems. In this regard, we introduce the Transformer Encoder Reasoning Network (TERN), an architecture built upon one of the modern relationship-aware self-attentive architectures, the Transformer Encoder (TE). This architecture is able to separately reason on the two different modalities and to enforce a final common abstract concept space by sharing the weights of the deeper transformer layers. Thanks to this design, the implemented network is able to produce compact and very rich visual and textual features available for the successive indexing step. Experiments are conducted on the MS-COCO dataset, and we evaluate the results using a discounted cumulative gain metric with relevance computed exploiting caption similarities, in order to assess possibly non-exact but relevant search results. We demonstrate that on this metric we are able to achieve state-of-the-art results in the image retrieval task. Our code is freely available at https://github.com/mesnico/TERN.
翻訳日:2022-12-11 18:47:49 公開日:2021-01-25
# polarized-vae: テキスト生成のための近接型不等角表現学習

Polarized-VAE: Proximity Based Disentangled Representation Learning for Text Generation ( http://arxiv.org/abs/2004.10809v2 )

ライセンス: Link先を確認
Vikash Balasubramanian, Ivan Kobyzev, Hareesh Bahuleyan, Ilya Shapiro, Olga Vechtomova(参考訳) 実世界のデータの絡み合った表現を学ぶことは、難しいオープン問題である。 これまでの手法では、属性ラベルを使用する教師付きアプローチや、タスク固有の損失のトレーニングによる変分オートエンコーダ(vae)のようなモデルの潜在空間における因子化を操作する教師なしアプローチに焦点が当てられていた。 本研究では,これらの属性に対するデータポイント間の類似性を反映した近接測度に基づいて,潜在空間内の属性をアンタングル化する手法である偏極VAEを提案する。 本手法は,文の意味論と構文を分離し,転送実験を行う。 偏極VAEはVAEベースラインを上回り、最先端のアプローチと競合する一方で、他の属性の切り離しタスクに適用可能な一般的なフレームワークである。

Learning disentangled representations of real-world data is a challenging open problem. Most previous methods have focused on either supervised approaches which use attribute labels or unsupervised approaches that manipulate the factorization in the latent space of models such as the variational autoencoder (VAE) by training with task-specific losses. In this work, we propose polarized-VAE, an approach that disentangles select attributes in the latent space based on proximity measures reflecting the similarity between data points with respect to these attributes. We apply our method to disentangle the semantics and syntax of sentences and carry out transfer experiments. Polarized-VAE outperforms the VAE baseline and is competitive with state-of-the-art approaches, while being more a general framework that is applicable to other attribute disentanglement tasks.
翻訳日:2022-12-10 18:13:16 公開日:2021-01-25
# Stochastic Confoundersによる因果モデリング

Causal Modeling with Stochastic Confounders ( http://arxiv.org/abs/2004.11497v4 )

ライセンス: Link先を確認
Thanh Vinh Vo, Pengfei Wei, Wicher Bergsma, Tze-Yun Leong(参考訳) この研究は因果推論を確率的共同創設者に拡張する。 本稿では,ランダムな入力空間を持つ表現子定理に基づく因果推論のための変分推定手法を提案する。 観察研究において,相互依存的かつ時間的変動を伴う潜在共同創設者の因果効果を連続的かつ反復的な測定から推定する。 当社のアプローチは、非時間的でない独立した共同創設者を仮定する現在の作業を拡張します。 モデルコンポーネントのパラメトリックな仕様を伴わない,単純だがエレガントなアルゴリズムを提案する。 提案手法は,既存のアプローチにおける因果推論のために,ディープニューラルネットワークなどの複雑なモデルを展開する際に,高価かつ慎重なパラメータ化の必要性を回避する。 様々なベンチマーク時間データセットに対するアプローチの有効性を示す。

This work extends causal inference with stochastic confounders. We propose a new approach to variational estimation for causal inference based on a representer theorem with a random input space. We estimate causal effects involving latent confounders that may be interdependent and time-varying from sequential, repeated measurements in an observational study. Our approach extends current work that assumes independent, non-temporal latent confounders, with potentially biased estimators. We introduce a simple yet elegant algorithm without parametric specification on model components. Our method avoids the need for expensive and careful parameterization in deploying complex models, such as deep neural networks, for causal inference in existing approaches. We demonstrate the effectiveness of our approach on various benchmark temporal datasets.
翻訳日:2022-12-10 02:59:44 公開日:2021-01-25
# 脳波信号分類のためのフェデレーション伝達学習

Federated Transfer Learning for EEG Signal Classification ( http://arxiv.org/abs/2004.12321v5 )

ライセンス: Link先を確認
Ce Ju, Dashan Gao, Ravikiran Mane, Ben Tan, Yang Liu and Cuntai Guan(参考訳) 脳-コンピュータインタフェース(BCI)分野における深層学習(DL)手法の成功は、大規模なデータセットの欠如によって制限されている。 EEG信号に関連するプライバシー上の懸念は、機械学習モデルを共同でトレーニングするための複数の小さなデータセットの統合によって、大きなEEG-BCIデータセットを構築する可能性を制限する。 そこで本稿では,フェデレーション学習フレームワークに基づく脳波分類のためのFTL(Federated Transfer Learning)という,新たなプライバシ保護型DLアーキテクチャを提案する。 単一心房共分散行列を用いて,提案手法では,多目的脳波データから共通識別情報をドメイン適応手法を用いて抽出する。 2クラスモータ画像分類のためのPhyloNetデータセットを用いて,提案手法の性能評価を行った。 実際のデータ共有を回避する一方で、FTL手法は対象適応分析において2%高い分類精度を達成する。 また、マルチサブジェクトデータがない場合、我々のアーキテクチャは他の最先端dlアーキテクチャよりも6%精度が向上します。

The success of deep learning (DL) methods in the Brain-Computer Interfaces (BCI) field for classification of electroencephalographic (EEG) recordings has been restricted by the lack of large datasets. Privacy concerns associated with EEG signals limit the possibility of constructing a large EEG-BCI dataset by the conglomeration of multiple small ones for jointly training machine learning models. Hence, in this paper, we propose a novel privacy-preserving DL architecture named federated transfer learning (FTL) for EEG classification that is based on the federated learning framework. Working with the single-trial covariance matrix, the proposed architecture extracts common discriminative information from multi-subject EEG data with the help of domain adaptation techniques. We evaluate the performance of the proposed architecture on the PhysioNet dataset for 2-class motor imagery classification. While avoiding the actual data sharing, our FTL approach achieves 2% higher classification accuracy in a subject-adaptive analysis. Also, in the absence of multi-subject data, our architecture provides 6% better accuracy compared to other state-of-the-art DL architectures.
翻訳日:2022-12-09 13:54:02 公開日:2021-01-25
# 並列機械学習のための動的バックアップワーカー

Dynamic backup workers for parallel machine learning ( http://arxiv.org/abs/2004.14696v2 )

ライセンス: Link先を確認
Chuan Xu, Giovanni Neglia, Nicola Sebastianelli(参考訳) 機械学習モデルの分散トレーニングのための最も一般的なフレームワークは、(同期)パラメータサーバ(PS)である。 このパラダイムは、モデルパラメータの更新を反復的に計算する$n$ workersと、すべての更新を待機して集約してモデルパラメータの新たな推定を生成し、それを新しいイテレーションのためにワーカーに送信するステートフルpsで構成されている。 過渡的計算のスローダウンや伝達遅延は、各イテレーションの時間を許容できないほど長くすることができる。 この問題を緩和する効果的な方法は、PSが新しいパラメータを生成する前に、最速の$n-b$更新だけを待機させることである。 最も遅い$b$ワーカーはバックアップワーカーと呼ばれる。 バックアップワーカーの最適数である$b$は、クラスタの構成とワークロードに依存しますが、学習アルゴリズムのハイパーパラメータとトレーニングの現在のステージにも依存しています。 トレーニングプロセス中のバックアップワーカー数を動的に決定し,各イテレーションにおける収束速度を最大化するアルゴリズムDBWを提案する。 我々の実験からDBWは 1)予備的な時間消費実験によるb$のチューニングの必要性を取り除き、 2) トレーニングを最適な静的設定よりも3ドル高速にする。

The most popular framework for distributed training of machine learning models is the (synchronous) parameter server (PS). This paradigm consists of $n$ workers, which iteratively compute updates of the model parameters, and a stateful PS, which waits and aggregates all updates to generate a new estimate of model parameters and sends it back to the workers for a new iteration. Transient computation slowdowns or transmission delays can intolerably lengthen the time of each iteration. An efficient way to mitigate this problem is to let the PS wait only for the fastest $n-b$ updates, before generating the new parameters. The slowest $b$ workers are called backup workers. The optimal number $b$ of backup workers depends on the cluster configuration and workload, but also (as we show in this paper) on the hyper-parameters of the learning algorithm and the current stage of the training. We propose DBW, an algorithm that dynamically decides the number of backup workers during the training process to maximize the convergence speed at each iteration. Our experiments show that DBW 1) removes the necessity to tune $b$ by preliminary time-consuming experiments, and 2) makes the training up to a factor $3$ faster than the optimal static configuration.
翻訳日:2022-12-08 05:35:47 公開日:2021-01-25
# 高速対向訓練のための多方向の摂動初期化

Initializing Perturbations in Multiple Directions for Fast Adversarial Training ( http://arxiv.org/abs/2005.07606v2 )

ライセンス: Link先を確認
Xunguang Wang, Ship Peng Xu, and Eric Ke Wang(参考訳) 近年のDeep Learningの研究では、Deep Neural Networks(DNN)が敵の例に弱いことが示されている。 具体的には、画像分類において、敵対的な例は、画像のクリーニングにほとんど知覚できない摂動を加えることで、よく訓練されたディープニューラルネットワークを騙すことができる。 最も直接的かつ効果的な方法の1つであるadversarial trainingは、摂動データの損失を最小限に抑え、敵の攻撃に対して堅牢なディープネットワークを学ぶ。 高速勾配符号法 (FGSM) を用いることで, 高速適応訓練が実現できることが証明されている。 しかし、FGSMをベースとした対向訓練は、FGSMサンプルに過度に適合するため、最終的に失敗する可能性がある。 本稿では,対象モデルの出力距離をランダムな方向に拡大することにより,摂動の初期化を図りながら,DIP-FAT(Diversified Initialized Perturbations Adversarial Training)を提案する。 ランダム方向の多様性により,fgsmを用いた組込み高速敵訓練は,敵からの情報を増加させ,過剰フィッティングの可能性を低減する。 オーバーフィッティングの防止に加えて,提案したDIP-FAT技術により,クリーンデータの精度が向上することを示す。 DIP-FAT方式の最大の利点は、クリーンデータ、摂動データ、効率で最高のバンランスを達成することである。

Recent developments in the filed of Deep Learning have demonstrated that Deep Neural Networks(DNNs) are vulnerable to adversarial examples. Specifically, in image classification, an adversarial example can fool the well trained deep neural networks by adding barely imperceptible perturbations to clean images. Adversarial Training, one of the most direct and effective methods, minimizes the losses of perturbed-data to learn robust deep networks against adversarial attacks. It has been proven that using the fast gradient sign method (FGSM) can achieve Fast Adversarial Training. However, FGSM-based adversarial training may finally obtain a failed model because of overfitting to FGSM samples. In this paper, we proposed the Diversified Initialized Perturbations Adversarial Training (DIP-FAT) which involves seeking the initialization of the perturbation via enlarging the output distances of the target model in a random directions. Due to the diversity of random directions, the embedded fast adversarial training using FGSM increases the information from the adversary and reduces the possibility of overfitting. In addition to preventing overfitting, the extensive results show that our proposed DIP-FAT technique can also improve the accuracy of the clean data. The biggest advantage of DIP-FAT method: achieving the best banlance among clean-data, perturbed-data and efficiency.
翻訳日:2022-12-02 22:33:10 公開日:2021-01-25
# Loihiニューロモルフィックプロセッサ上のDVSカメラを用いたジェスチャ認識のための効率的なスパイクニューラルネットワーク

An Efficient Spiking Neural Network for Recognizing Gestures with a DVS Camera on the Loihi Neuromorphic Processor ( http://arxiv.org/abs/2006.09985v2 )

ライセンス: Link先を確認
Riccardo Massa, Alberto Marchisio, Maurizio Martina, Muhammad Shafique(参考訳) 第3世代のnnであるspyking neural networks(snns)は、生物学的な可能性と従来の人工深層ニューラルネットワーク(dnns)と比較して複雑さが低いため、機械学習ベースのアプリケーションで注目を浴びている。 これらのSNNは、Intel Loihi研究チップのようなニューロモルフィックプロセッサ上で極端なエネルギー効率で実装でき、DVSカメラのようなイベントベースのセンサーによって供給される。 しかし,多くのレイヤを持つDNNは,実世界のアプリケーションにおけるSNNの学習ルールの研究がまだ成熟していないため,画像分類や認識タスクにおいて比較的高い精度が得られる。 SNNの精度は、訓練されたDNNをSNNに変換するか、またはスパイク領域でSNNを直接設計し、訓練することによって得られる。 DNNからSNNへの変換に向けて、Intel Loihi用に特別に設計されたプロセスの包括的な解析を行い、対応するDNNとほぼ同じ精度のSNNの設計手法を示す。 イベントベースセンサの利用に向けて,DvsGestureデータセットで評価された事前処理手法を設計し,DNNドメインで使用可能にする。 したがって、最初の分析結果に基づいて、事前処理されたDvsGestureデータセットに対してDNNをトレーニングし、リアルタイムジェスチャー認識を可能にするIntel Loihiへのデプロイのためにスパイクドメインに変換する。 その結果,SNNの分類精度は89.64%で,Loihiコアは37個しかないことがわかった。 実験を生成するソースコードはhttps://github.com/albertomarchisio/EfficientSNN.comで公開されている。

Spiking Neural Networks (SNNs), the third generation NNs, have come under the spotlight for machine learning based applications due to their biological plausibility and reduced complexity compared to traditional artificial Deep Neural Networks (DNNs). These SNNs can be implemented with extreme energy efficiency on neuromorphic processors like the Intel Loihi research chip, and fed by event-based sensors, such as DVS cameras. However, DNNs with many layers can achieve relatively high accuracy on image classification and recognition tasks, as the research on learning rules for SNNs for real-world applications is still not mature. The accuracy results for SNNs are typically obtained either by converting the trained DNNs into SNNs, or by directly designing and training SNNs in the spiking domain. Towards the conversion from a DNN to an SNN, we perform a comprehensive analysis of such process, specifically designed for Intel Loihi, showing our methodology for the design of an SNN that achieves nearly the same accuracy results as its corresponding DNN. Towards the usage of the event-based sensors, we design a pre-processing method, evaluated for the DvsGesture dataset, which makes it possible to be used in the DNN domain. Hence, based on the outcome of the first analysis, we train a DNN for the pre-processed DvsGesture dataset, and convert it into the spike domain for its deployment on Intel Loihi, which enables real-time gesture recognition. The results show that our SNN achieves 89.64% classification accuracy and occupies only 37 Loihi cores. The source code for generating our experiments is available online at https://github.com/albertomarchisio/EfficientSNN.
翻訳日:2022-12-02 12:40:54 公開日:2021-01-25
# ヘテロスケダス音に対するガウス核の二重確率正規化

Doubly-Stochastic Normalization of the Gaussian Kernel is Robust to Heteroskedastic Noise ( http://arxiv.org/abs/2006.00402v2 )

ライセンス: Link先を確認
Boris Landa, Ronald R.Coifman, Yuval Kluger(参考訳) 多くのデータ分析技術の基本的なステップは、データポイント間の類似性を記述する親和性行列の構築である。 データポイントがユークリッド空間に存在するとき、一対距離のガウス核による親和性行列から特定の正規化(例えば、行-確率正規化またはその対称変種)に従うように広くアプローチされる。 ガウス核の二重確率正規化は主対角線がゼロ(すなわち自己ループがない)であり、ヘテロスケダティックノイズに対して堅牢であることを示す。 すなわち、二重確率正規化は、ノイズ分散の異なる観測を自動で行うという点で有利である。 具体的には、ヘテロスケダティックノイズが空間内の特定の方向にあまり集中しないような適切な高次元環境では、結果として生じる(二重確率的な)ノイズ親和性行列は、m^{-1/2}$でそのクリーンなものと収束し、$m$は周囲の次元である。 この結果を数値的に示し,それとは対照的に,一般の行ステキスティックおよび対称正規化はヘテロステキスティックな雑音下で不利に振る舞うことを示した。 さらに,本研究では,本態性ヘテロスケダスティック性を有する単一細胞RNA配列のシミュレートと実験を行い,二重確率正規化の利点を探索解析に活かした。

A fundamental step in many data-analysis techniques is the construction of an affinity matrix describing similarities between data points. When the data points reside in Euclidean space, a widespread approach is to from an affinity matrix by the Gaussian kernel with pairwise distances, and to follow with a certain normalization (e.g. the row-stochastic normalization or its symmetric variant). We demonstrate that the doubly-stochastic normalization of the Gaussian kernel with zero main diagonal (i.e., no self loops) is robust to heteroskedastic noise. That is, the doubly-stochastic normalization is advantageous in that it automatically accounts for observations with different noise variances. Specifically, we prove that in a suitable high-dimensional setting where heteroskedastic noise does not concentrate too much in any particular direction in space, the resulting (doubly-stochastic) noisy affinity matrix converges to its clean counterpart with rate $m^{-1/2}$, where $m$ is the ambient dimension. We demonstrate this result numerically, and show that in contrast, the popular row-stochastic and symmetric normalizations behave unfavorably under heteroskedastic noise. Furthermore, we provide examples of simulated and experimental single-cell RNA sequence data with intrinsic heteroskedasticity, where the advantage of the doubly-stochastic normalization for exploratory analysis is evident.
翻訳日:2022-11-26 12:32:34 公開日:2021-01-25
# 専門家に学ぶための一貫性のある推定器

Consistent Estimators for Learning to Defer to an Expert ( http://arxiv.org/abs/2006.01862v3 )

ライセンス: Link先を確認
Hussein Mozannar, David Sontag(参考訳) 学習アルゴリズムは、実際のシナリオでは、専門家の意思決定者と組み合わせて使用されることが多いが、この事実は、これらのアルゴリズムを設計する際にほとんど無視される。 本稿では,意思決定を下流の専門家に先延ばしするか,あるいは先延ばしできる予測器の学習方法について検討する。 専門家の判断のサンプルのみを与えられた場合、分類器と拒絶器の学習に基づく手続きを行い、理論的に分析する。 提案手法は,クロスエントロピー損失を一般化するコストセンシティブな学習に一貫したサロゲート損失を与える,コストセンシティブな学習への新たな削減に基づく。 様々な実験課題において,提案手法の有効性を示す。

Learning algorithms are often used in conjunction with expert decision makers in practical scenarios, however this fact is largely ignored when designing these algorithms. In this paper we explore how to learn predictors that can either predict or choose to defer the decision to a downstream expert. Given only samples of the expert's decisions, we give a procedure based on learning a classifier and a rejector and analyze it theoretically. Our approach is based on a novel reduction to cost sensitive learning where we give a consistent surrogate loss for cost sensitive learning that generalizes the cross entropy loss. We show the effectiveness of our approach on a variety of experimental tasks.
翻訳日:2022-11-26 00:02:30 公開日:2021-01-25
# CoDeNet: 組み込みFPGA上での入力適応型オブジェクト検出の効率的なデプロイ

CoDeNet: Efficient Deployment of Input-Adaptive Object Detection on Embedded FPGAs ( http://arxiv.org/abs/2006.08357v2 )

ライセンス: Link先を確認
Zhen Dong, Dequan Wang, Qijing Huang, Yizhao Gao, Yaohui Cai, Tian Li, Bichen Wu, Kurt Keutzer, John Wawrzynek(参考訳) 組み込みシステムにディープラーニングモデルをデプロイすることは、限られたコンピューティングリソースのために難しい。 既存の作業の大部分は画像分類の高速化に重点を置いているが、オブジェクト検出などの他の基本的なビジョン問題は十分に解決されていない。 画像分類と比較すると、検出問題は物体の空間的ばらつきに敏感であり、そのため空間情報を集約するために特別な畳み込みが必要となる。 このニーズに対処するため、最近の研究では、通常の畳み込みを強化するために動的変形可能な畳み込みを導入する。 しかし、これは既存のハードウェアによる入力の非効率なメモリアクセスにつながる。 本研究ではFPGAの柔軟性を活用し、変形可能な畳み込みを伴う新しい物体検出パイプラインを開発する。 不規則アクセスと限定範囲と固定形を含む一連のアルゴリズム修正の速度精度のトレードオフを示す。 次に、変形可能な畳み込みでネットワークCoDeNetを共設計し、4ビット重みと8ビットアクティベーションに量子化する。 当社の高効率実装では,標準オブジェクト検出データセットPascal VOCで61.7 AP50を達成しながら,0.76MBの小さなモデルサイズで毎秒26.9フレームを実現しています。 高精度な実装により、我々のモデルは2.9MBのパラメータしか持たないPascal VOC上で67.1 AP50となるが、Tiny-YOLOより10%精度が高い。

Deploying deep learning models on embedded systems has been challenging due to limited computing resources. The majority of existing work focuses on accelerating image classification, while other fundamental vision problems, such as object detection, have not been adequately addressed. Compared with image classification, detection problems are more sensitive to the spatial variance of objects, and therefore, require specialized convolutions to aggregate spatial information. To address this need, recent work introduces dynamic deformable convolution to augment regular convolutions. However, this will lead to inefficient memory accesses of inputs with existing hardware. In this work, we harness the flexibility of FPGAs to develop a novel object detection pipeline with deformable convolutions. We show the speed-accuracy tradeoffs for a set of algorithm modifications including irregular-access versus limited-range and fixed-shape. We then Co-Design a Network CoDeNet with the modified deformable convolution and quantize it to 4-bit weights and 8-bit activations. With our high-efficiency implementation, our solution reaches 26.9 frames per second with a tiny model size of 0.76 MB while achieving 61.7 AP50 on the standard object detection dataset, Pascal VOC. With our higher accuracy implementation, our model gets to 67.1 AP50 on Pascal VOC with only 2.9 MB of parameters-20.9x smaller but 10% more accurate than Tiny-YOLO.
翻訳日:2022-11-22 04:35:51 公開日:2021-01-25
# ゴール生成による自律獲得スキルへの接地言語

Grounding Language to Autonomously-Acquired Skills via Goal Generation ( http://arxiv.org/abs/2006.07185v3 )

ライセンス: Link先を確認
Ahmed Akakzia, C\'edric Colas, Pierre-Yves Oudeyer, Mohamed Chetouani, Olivier Sigaud(参考訳) 私たちはスキルのレパートリーを自律的に取得することに興味があります。 言語条件強化学習(LC-RL)アプローチは、国家の制約の集合として抽象的な目標を表現できるので、この探求において優れたツールである。 しかし、ほとんどのLC-RLエージェントは自律的ではなく、外部からの指示やフィードバックなしでは学習できない。 さらに、それらの直接的な言語状態は、言語前幼児の目標指向行動は説明できず、与えられた言語入力に対する行動の多様性の表現を強く制限する。 これらの問題を解決するために,言語条件付きRL(Language-Goal-Behavior Architecture, LGB)の概念的アプローチを提案する。 LGBは、世界の中間的な意味表現を通じて、スキル学習と言語基盤を分離する。 LGBの特性を示すために,DECSTRと呼ばれる特定の実装を提案する。 DECSTRは、物理的オブジェクト間の空間的関係を記述する本質的な意味表現を備えた、本質的に動機付けられた学習エージェントである。 第1段階(g -> b)では、環境を自由に探索し、自己生成したセマンティクス構成をターゲットとする。 第2段階(L -> G)では、言語ベースの入力で表現される制約にマッチするセマンティックな目標を生成するために、言語条件のゴールジェネレータを訓練する。 我々は、LGB w.r.t. の終端LC-RLアプローチと、非意味的、連続的な中間表現を利用した同様のアプローチの両方の付加特性を示す。 中間的なセマンティック表現は、さまざまな方法で言語コマンドを満足させ、失敗後の戦略変更を可能にし、言語接地を容易にする。

We are interested in the autonomous acquisition of repertoires of skills. Language-conditioned reinforcement learning (LC-RL) approaches are great tools in this quest, as they allow to express abstract goals as sets of constraints on the states. However, most LC-RL agents are not autonomous and cannot learn without external instructions and feedback. Besides, their direct language condition cannot account for the goal-directed behavior of pre-verbal infants and strongly limits the expression of behavioral diversity for a given language input. To resolve these issues, we propose a new conceptual approach to language-conditioned RL: the Language-Goal-Behavior architecture (LGB). LGB decouples skill learning and language grounding via an intermediate semantic representation of the world. To showcase the properties of LGB, we present a specific implementation called DECSTR. DECSTR is an intrinsically motivated learning agent endowed with an innate semantic representation describing spatial relations between physical objects. In a first stage (G -> B), it freely explores its environment and targets self-generated semantic configurations. In a second stage (L -> G), it trains a language-conditioned goal generator to generate semantic goals that match the constraints expressed in language-based inputs. We showcase the additional properties of LGB w.r.t. both an end-to-end LC-RL approach and a similar approach leveraging non-semantic, continuous intermediate representations. Intermediate semantic representations help satisfy language commands in a diversity of ways, enable strategy switching after a failure and facilitate language grounding.
翻訳日:2022-11-22 02:04:51 公開日:2021-01-25
# 変形性分離性畳み込みによる複数フレーム補間

Multiple Video Frame Interpolation via Enhanced Deformable Separable Convolution ( http://arxiv.org/abs/2006.08070v2 )

ライセンス: Link先を確認
Xianhang Cheng and Zhenzhong Chen(参考訳) 連続するビデオシーケンスから既存のフレームを生成することは、ビデオ処理分野において興味深い、難しい問題である。 典型的なカーネルベースの補間法は、光フローの形で時間を要する明示的な動き推定を回避し、空間適応的なローカルカーネルとソースフレームを囲む単一の畳み込みプロセスでピクセルを予測する。 しかし、シーンの動作が予め定義されたカーネルサイズよりも大きい場合、これらのメソッドは、より妥当な結果をもたらす可能性がある。 さらに、学習したカーネルが入力フレーム間の時間中点に結び付けられているため、任意の時間位置にフレームを直接生成することはできない。 本稿では,これらの問題を解決するために,適応型カーネルだけでなくオフセット,マスク,バイアスを推定し,ネットワークが非局所的な近傍から情報を得るための新しい非流れ型カーネルベース手法を提案する。 学習過程では、コオード・コンブトリックの拡張により、異なる中間時間ステップを制御変数として関与することができ、推定されたコンポーネントを異なる入力時間情報で変更することができる。 これにより、複数のフレームを相互に生成できる。 さらに,本手法と他のカーネルおよびフローベース手法との関係について検討する。 実験結果から,本手法は幅広いデータセットを対象とした最先端手法に対して良好に機能することが示された。 コードはURLで公開される。 \url{https://github.com/Xianhang/EDSC-pytorch}。

Generating non-existing frames from a consecutive video sequence has been an interesting and challenging problem in the video processing field. Typical kernel-based interpolation methods predict pixels with a single convolution process that convolves source frames with spatially adaptive local kernels, which circumvents the time-consuming, explicit motion estimation in the form of optical flow. However, when scene motion is larger than the pre-defined kernel size, these methods are prone to yield less plausible results. In addition, they cannot directly generate a frame at an arbitrary temporal position because the learned kernels are tied to the midpoint in time between the input frames. In this paper, we try to solve these problems and propose a novel non-flow kernel-based approach that we refer to as enhanced deformable separable convolution (EDSC) to estimate not only adaptive kernels, but also offsets, masks and biases to make the network obtain information from non-local neighborhood. During the learning process, different intermediate time step can be involved as a control variable by means of an extension of coord-conv trick, allowing the estimated components to vary with different input temporal information. This makes our method capable to produce multiple in-between frames. Furthermore, we investigate the relationships between our method and other typical kernel- and flow-based methods. Experimental results show that our method performs favorably against the state-of-the-art methods across a broad range of datasets. Code will be publicly available on URL: \url{https://github.com/Xianhang/EDSC-pytorch}.
翻訳日:2022-11-21 04:53:50 公開日:2021-01-25
# NPLIC: ピアスワイズ線形インタフェース構築のための機械学習アプローチ

NPLIC: A Machine Learning Approach to Piecewise Linear Interface Construction ( http://arxiv.org/abs/2007.04244v2 )

ライセンス: Link先を確認
Mohammadmehdi Ataei, Markus Bussmann, Vahid Shaayegan, Franco Costa, Sejin Han, Chul B. Park(参考訳) 流体体積法(VOF)は数値シミュレーションにおける流体界面の追跡に広く用いられており、多くのVOFアルゴリズムは界面を幾何的に再構成する必要がある。 この目的のために、Piecewise Linear Interface Construction (PLIC) 技術が最も頻繁に使われており、幾何学的複雑さの理由から実装が遅く、困難である。 本稿では,plic計算を行うためのnplと呼ばれる代替ニューラルネットワーク法を提案する。 このモデルは、正方形、立方形、三角形、四面体メッシュのためのプライシングソリューションの大規模な合成データセットでトレーニングされる。 このデータ駆動アプローチは、通常の計算コストのごく一部で正確な計算が可能であり、異なるメッシュタイプのインタフェース再構築に単一のニューラルネットワークシステムを用いることが可能であることを示す。

Volume of fluid (VOF) methods are extensively used to track fluid interfaces in numerical simulations, and many VOF algorithms require that the interface be reconstructed geometrically. For this purpose, the Piecewise Linear Interface Construction (PLIC) technique is most frequently used, which for reasons of geometric complexity can be slow and difficult to implement. Here, we propose an alternative neural network based method called NPLIC to perform PLIC calculations. The model is trained on a large synthetic dataset of PLIC solutions for square, cubic, triangular, and tetrahedral meshes. We show that this data-driven approach results in accurate calculations at a fraction of the usual computational cost, and a single neural network system can be used for interface reconstruction of different mesh types.
翻訳日:2022-11-16 22:19:24 公開日:2021-01-25
# 多層ランダムドット積グラフ

The multilayer random dot product graph ( http://arxiv.org/abs/2007.10455v3 )

ライセンス: Link先を確認
Andrew Jones and Patrick Rubin-Delanchy(参考訳) 本稿では,ノードの共通部分を共有する複数のグラフ -- 非有向グラフと有向グラフ -- に対応するために,ランダムドット積グラフとして知られる潜在位置ネットワークモデルを包括的に拡張し,関連する隣接行列やその部分行列を適切な潜在空間に埋め込む手法を提案する。 このように得られたノード表現の漸近的挙動に関する理論的結果は確立され、線型変換の適用後、ガウス誤差のある潜在位置へユークリッドノルムに一様収束することを示している。 本フレームワークでは,複数の異なるグラフ設定に対して確率ブロックモデルを一般化し,競合するスペクトル法と同等あるいはより良い結果が得られるようないくつかの統計的推論タスクによる共同埋め込み手法の有効性を実証する。 単一グラフ埋め込みによるリンク予測の実証的な改善がサイバーセキュリティの例で示されている。

We present a comprehensive extension of the latent position network model known as the random dot product graph to accommodate multiple graphs -- both undirected and directed -- which share a common subset of nodes, and propose a method for jointly embedding the associated adjacency matrices, or submatrices thereof, into a suitable latent space. Theoretical results concerning the asymptotic behaviour of the node representations thus obtained are established, showing that after the application of a linear transformation these converge uniformly in the Euclidean norm to the latent positions with Gaussian error. Within this framework, we present a generalisation of the stochastic block model to a number of different multiple graph settings, and demonstrate the effectiveness of our joint embedding method through several statistical inference tasks in which we achieve comparable or better results than rival spectral methods. Empirical improvements in link prediction over single graph embeddings are exhibited in a cyber-security example.
翻訳日:2022-11-08 12:54:57 公開日:2021-01-25
# MathNet: グラフ表現と学習のためのHaar-like Wavelet Multi resolution-Analysis

MathNet: Haar-Like Wavelet Multiresolution-Analysis for Graph Representation and Learning ( http://arxiv.org/abs/2007.11202v2 )

ライセンス: Link先を確認
Xuebin Zheng, Bingxin Zhou, Ming Li, Yu Guang Wang, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)は最近大きな注目を集め、グラフレベルのアプリケーションで大きな進歩を遂げた。 本稿では,マルチレゾリューションHaarに似たウェーブレット(MathNet)を用いたグラフニューラルネットワークのためのフレームワークを提案する。 基礎となる方法は、入力として異なる構造のグラフを取り込み、読み出し層の一貫性のあるグラフ表現を組み立て、ラベル予測を行う。 これを実現するために、マルチレゾリューショングラフ表現をまず構築し、グラフ畳み込み層に入力して処理する。 階層的なグラフプーリング層は、グラフ信号内の冗長性を同時に取り除きながら、グラフ分解をダウンサンプルする。 ワークフロー全体は、多レベルグラフ分析で形成することができ、各グラフの固有のトポロジー情報をgnnに埋め込むのに役立つだけでなく、フォワードおよび随伴グラフ変換の高速計算もサポートする。 提案手法は,グラフ分類や回帰作業において,性能の安定度で顕著な精度向上が得られることを示す。 提案したMathNetは、特にデータセットにおいて、既存のGNNモデルよりも優れている。

Graph Neural Networks (GNNs) have recently caught great attention and achieved significant progress in graph-level applications. In this paper, we propose a framework for graph neural networks with multiresolution Haar-like wavelets, or MathNet, with interrelated convolution and pooling strategies. The underlying method takes graphs in different structures as input and assembles consistent graph representations for readout layers, which then accomplishes label prediction. To achieve this, the multiresolution graph representations are first constructed and fed into graph convolutional layers for processing. The hierarchical graph pooling layers are then involved to downsample graph resolution while simultaneously remove redundancy within graph signals. The whole workflow could be formed with a multi-level graph analysis, which not only helps embed the intrinsic topological information of each graph into the GNN, but also supports fast computation of forward and adjoint graph transforms. We show by extensive experiments that the proposed framework obtains notable accuracy gains on graph classification and regression tasks with performance stability. The proposed MathNet outperforms various existing GNN models, especially on big data sets.
翻訳日:2022-11-07 22:13:13 公開日:2021-01-25
# 潜伏ディリクレ転位におけるベイズ一般化誤差の異常漸近形式

The Exact Asymptotic Form of Bayesian Generalization Error in Latent Dirichlet Allocation ( http://arxiv.org/abs/2008.01304v2 )

ライセンス: Link先を確認
Naoki Hayashi(参考訳) 潜在ディリクレ割り当て(LDA)はベイズ推定を用いてデータから必須情報を取得する。 多くの分野における次元減少とクラスタリングによる知識発見に適用される。 しかし、パラメータから確率分布への1対1マッピングが存在しない特異な統計モデルであるため、その一般化誤差はまだ明らかになっていない。 本稿では,代数幾何学を用いた学習係数の理論解析により,その一般化誤差と限界確率の正確な漸近形式を与える。 理論的な結果は、LDAにおけるベイズ一般化誤差が、行列分解とLDAのパラメータ領域の単純制限によるペナルティで表されることを示している。 数値実験は理論結果と一致している。

Latent Dirichlet allocation (LDA) obtains essential information from data by using Bayesian inference. It is applied to knowledge discovery via dimension reducing and clustering in many fields. However, its generalization error had not been yet clarified since it is a singular statistical model where there is no one-to-one mapping from parameters to probability distributions. In this paper, we give the exact asymptotic form of its generalization error and marginal likelihood, by theoretical analysis of its learning coefficient using algebraic geometry. The theoretical result shows that the Bayesian generalization error in LDA is expressed in terms of that in matrix factorization and a penalty from the simplex restriction of LDA's parameter region. A numerical experiment is consistent to the theoretical result.
翻訳日:2022-11-02 23:48:31 公開日:2021-01-25
# 変えないで! ユーザ制御可能な選択パラフレーズ生成

Don't Change Me! User-Controllable Selective Paraphrase Generation ( http://arxiv.org/abs/2008.09290v2 )

ライセンス: Link先を確認
Mohan Zhang, Luchen Tan, Zhengkai Tu, Zihang Fu, Kun Xiong, Ming Li, Jimmy Lin(参考訳) パラフレーズ生成タスクでは、ソース文は変更すべきでないフレーズを含むことが多い。 しかし、どのフレーズは文脈に依存し、アプリケーションによって異なる可能性がある。 この課題に対する私たちの解決策は、パラフレーズを生成するときに、任意のテキストのセグメントの周りに配置できる明示的なタグをユーザに提供し、これらのフレーズを出力に明示的にコピーすることを学習することです。 本研究の貢献は、事前訓練されたシーケンス・ツー・シーケンスモデルから開始し、この振る舞いを示すパラフレーズ生成を微調整し、ユーザ制御可能なパラフレーズ生成を可能にする、遠隔監視を用いた新しいデータ生成技術である。 さらに、モデル出力の多様性を明確に促進するために、微調整時の損失を修正する。 私たちの技術は言語に依存せず、英語と中国語の実験を報告します。

In the paraphrase generation task, source sentences often contain phrases that should not be altered. Which phrases, however, can be context dependent and can vary by application. Our solution to this challenge is to provide the user with explicit tags that can be placed around any arbitrary segment of text to mean "don't change me!" when generating a paraphrase; the model learns to explicitly copy these phrases to the output. The contribution of this work is a novel data generation technique using distant supervision that allows us to start with a pretrained sequence-to-sequence model and fine-tune a paraphrase generator that exhibits this behavior, allowing user-controllable paraphrase generation. Additionally, we modify the loss during fine-tuning to explicitly encourage diversity in model output. Our technique is language agnostic, and we report experiments in English and Chinese.
翻訳日:2022-10-26 21:38:15 公開日:2021-01-25
# PhenoTagger:ヒト現象型オントロジーを用いた現象型概念認識のためのハイブリッド手法

PhenoTagger: A Hybrid Method for Phenotype Concept Recognition using Human Phenotype Ontology ( http://arxiv.org/abs/2009.08478v2 )

ライセンス: Link先を確認
Ling Luo, Shankai Yan, Po-Ting Lai, Daniel Veltri, Andrew Oler, Sandhya Xirasagar, Rajarshi Ghosh, Morgan Similuk, Peter N. Robinson, Zhiyong Lu(参考訳) 非構造化テキストからの自動表現型概念認識は、バイオメディカルテキストマイニング研究において難しい課題である。 タスクに対処する以前の作業では、辞書ベースのマッチング手法が一般的に用いられており、精度は高いがリコールは少ない。 近年,自動特徴量学習によって認識できない概念シノニムを認識できる生体医学的概念を識別するために,機械学習に基づく手法が提案されている。 しかし、ほとんどの手法では、モデルトレーニングのために大量の手作業による注釈データを必要とするため、人的アノテーションのコストが高いため取得が困難である。 本稿では,非構造化バイオメディカルテキストにおけるヒト現象型オントロジー(HPO)の概念を認識するために,辞書と機械学習を併用したハイブリッド手法であるPhenoTaggerを提案する。 我々はまずHPOのすべての概念とシノニムを使用して辞書を構築し、機械学習のための遠隔教師付きトレーニングデータセットを自動構築する。 次に、最先端のディープラーニングモデルを訓練し、各候補句(入力文からn-gram)を対応する概念ラベルに分類する。 最後に、辞書と機械学習に基づく予測結果を組み合わせて性能を向上させる。 提案手法は2つのHPOコーパスを用いて検証し,PhenoTaggerが従来の手法と比較した。 また,本手法の一般化性を示すため,病的概念認識のための病的オントロジーMEDICを用いてPhenoTaggerを再訓練し,異なるオントロジーに対するトレーニングの効果を検討した。 NCBI 病的コーパスの実験結果から,手動でアノテートしたトレーニングデータを必要としない PhenoTagger は,最先端の教師付き手法と比較して,競争性能が向上することが示された。

Automatic phenotype concept recognition from unstructured text remains a challenging task in biomedical text mining research. Previous works that address the task typically use dictionary-based matching methods, which can achieve high precision but suffer from lower recall. Recently, machine learning-based methods have been proposed to identify biomedical concepts, which can recognize more unseen concept synonyms by automatic feature learning. However, most methods require large corpora of manually annotated data for model training, which is difficult to obtain due to the high cost of human annotation. In this paper, we propose PhenoTagger, a hybrid method that combines both dictionary and machine learning-based methods to recognize Human Phenotype Ontology (HPO) concepts in unstructured biomedical text. We first use all concepts and synonyms in HPO to construct a dictionary, which is then used to automatically build a distantly supervised training dataset for machine learning. Next, a cutting-edge deep learning model is trained to classify each candidate phrase (n-gram from input sentence) into a corresponding concept label. Finally, the dictionary and machine learning-based prediction results are combined for improved performance. Our method is validated with two HPO corpora, and the results show that PhenoTagger compares favorably to previous methods. In addition, to demonstrate the generalizability of our method, we retrained PhenoTagger using the disease ontology MEDIC for disease concept recognition to investigate the effect of training on different ontologies. Experimental results on the NCBI disease corpus show that PhenoTagger without requiring manually annotated training data achieves competitive performance as compared with state-of-the-art supervised methods.
翻訳日:2022-10-17 09:09:17 公開日:2021-01-25
# BNAS-v2: メモリ効率と性能劣化防止ブロードニューラルアーキテクチャサーチ

BNAS-v2: Memory-efficient and Performance-collapse-prevented Broad Neural Architecture Search ( http://arxiv.org/abs/2009.08886v4 )

ライセンス: Link先を確認
Zixiang Ding, Yaran Chen, Nannan Li and Dongbin Zhao(参考訳) 本稿では,BCNNの両優位性を同時に具現化し,NASの効率をさらに向上するBNAS-v2を提案する。 BNASの不公平なトレーニング問題を緩和するために,我々は,BCNNにおけるセルの各エッジを,過度にパラメータ化されたBCNN構築のためのすべての候補操作に関連付けるために,連続緩和戦略を採用している。 さらに、連続緩和戦略は、予め定義された全ての操作に対してソフトマックスとして候補演算の選択を緩和する。 その結果、BNAS-v2は勾配に基づく最適化アルゴリズムを用いて、BNASとして単一のサンプルではなく、過パラメータ化されたBCNNの全ての経路を同時に更新する。 しかし、連続緩和は性能崩壊という別の問題につながり、これらの重みのない操作は探索戦略によって選択されやすい。 この問題に対して、2つの解決策が与えられる。 1)アーキテクチャウェイト更新の勾配の信頼度を考慮し,過パラメータ化BCNNのトレーニング時間の増加を考慮した信頼度学習率(CLR)を提案する。 2) 部分チャネル接続とエッジ正規化の組み合わせを導入することにより, メモリ効率をさらに向上する。 さらに, BNASをBNAS-D, CLRをBNAS-v2-CLR, 部分連結BNAS-DをBNAS-v2-PCとする。 CIFAR-10 と ImageNet による実験結果 1)BNAS-v2は、CIFAR-10(BNASより4倍速い0.05GPU日)とImageNet(0.19GPU日)の両方で最先端の検索効率を提供する。 2) 提案するclrは, bnas-dおよびバニラ微分可能なnasフレームワークにおける性能崩壊の軽減に有効である。

In this paper, we propose BNAS-v2 to further improve the efficiency of NAS, embodying both superiorities of BCNN simultaneously. To mitigate the unfair training issue of BNAS, we employ continuous relaxation strategy to make each edge of cell in BCNN relevant to all candidate operations for over-parameterized BCNN construction. Moreover, the continuous relaxation strategy relaxes the choice of a candidate operation as a softmax over all predefined operations. Consequently, BNAS-v2 employs the gradient-based optimization algorithm to simultaneously update every possible path of over-parameterized BCNN, rather than the single sampled one as BNAS. However, continuous relaxation leads to another issue named performance collapse, in which those weight-free operations are prone to be selected by the search strategy. For this consequent issue, two solutions are given: 1) we propose Confident Learning Rate (CLR) that considers the confidence of gradient for architecture weights update, increasing with the training time of over-parameterized BCNN; 2) we introduce the combination of partial channel connections and edge normalization that also can improve the memory efficiency further. Moreover, we denote differentiable BNAS (i.e. BNAS with continuous relaxation) as BNAS-D, BNAS-D with CLR as BNAS-v2-CLR, and partial-connected BNAS-D as BNAS-v2-PC. Experimental results on CIFAR-10 and ImageNet show that 1) BNAS-v2 delivers state-of-the-art search efficiency on both CIFAR-10 (0.05 GPU days that is 4x faster than BNAS) and ImageNet (0.19 GPU days); and 2) the proposed CLR is effective to alleviate the performance collapse issue in both BNAS-D and vanilla differentiable NAS framework.
翻訳日:2022-10-17 02:24:20 公開日:2021-01-25
# OWL2Vec*:OWLオントロジーの埋め込み

OWL2Vec*: Embedding of OWL Ontologies ( http://arxiv.org/abs/2009.14654v2 )

ライセンス: Link先を確認
Jiaoyan Chen and Pan Hu and Ernesto Jimenez-Ruiz and Ole Magnus Holter and Denvar Antonyrajah and Ian Horrocks(参考訳) ナレッジグラフの意味的埋め込みは広く研究され、自然言語処理やセマンティックウェブといった様々な分野の予測や統計分析タスクに使われている。 しかし、知識グラフよりもはるかに幅広い意味を表現できるOWLオントロジーを組み込む堅牢な手法の開発にはあまり注意が払われておらず、バイオインフォマティクスなどの領域で広く採用されている。 本稿では, OWL2Vec* というオントロジー埋め込み法を用いて, グラフ構造, 語彙情報, 論理コンストラクタを考慮し, OWLオントロジーの意味を符号化したランダムウォークと単語埋め込みを提案する。 実世界の3つのデータセットを用いた経験的評価から,OWL2Vec*は,クラスメンバシップ予測とクラスサブ消費予測タスクにおけるオントロジーの3つの異なる側面から恩恵を受けることが示唆された。 さらに、owl2vec*は、実験における最先端の手法を大幅に上回っています。

Semantic embedding of knowledge graphs has been widely studied and used for prediction and statistical analysis tasks across various domains such as Natural Language Processing and the Semantic Web. However, less attention has been paid to developing robust methods for embedding OWL (Web Ontology Language) ontologies which can express a much wider range of semantics than knowledge graphs and have been widely adopted in domains such as bioinformatics. In this paper, we propose a random walk and word embedding based ontology embedding method named OWL2Vec*, which encodes the semantics of an OWL ontology by taking into account its graph structure, lexical information and logical constructors. Our empirical evaluation with three real world datasets suggests that OWL2Vec* benefits from these three different aspects of an ontology in class membership prediction and class subsumption prediction tasks. Furthermore, OWL2Vec* often significantly outperforms the state-of-the-art methods in our experiments.
翻訳日:2022-10-12 23:45:58 公開日:2021-01-25
# jensen-shannon 発散に基づく転送汎化ギャップの情報理論的境界

Information-Theoretic Bounds on Transfer Generalization Gap Based on Jensen-Shannon Divergence ( http://arxiv.org/abs/2010.09484v4 )

ライセンス: Link先を確認
Sharu Theresa Jose, Osvaldo Simeone(参考訳) 転送学習では、異なるデータ分布からデータセットをトレーニングおよびテストする。 転送一般化ギャップは、対象データ分布における人口損失とトレーニング損失との差である。 トレーニングデータセットは一般的に、ソースとターゲットの両方のディストリビューションから引き出されたデータを含む。 本研究は,$ をキャプチャする平均転送汎化ギャップに関する新しい情報理論上界を提案する。 (i)$ 対象データ分散 $p'_z$ とソース分散 $p_z$ の間の領域シフト 一般化された $(\alpha_1,\alpha_2)$-jensen-shannon (js) の2パラメータファミリー と $ (ii)転送学習者の感度$$W$は、相互情報$I(W;Z_i)$を介してデータセットの各サンプルに対して$Z_i$となる。 $\alpha_1 \in (0,1)$の場合、$(\alpha_1,\alpha_2)$-JSの分岐は、$P'_Z$のサポートが$P'_Z$に含まれていない場合でも境界づけられる。 これはkullback-leibler (kl) divergence $d_{kl}(p_z||p'_z)$-based bounds of wu et alと対照的である。 [1]であり、この仮定では空白である。 さらに、得られた境界は、wuなどの$\phi$-divergenceベースの境界とは異なり、有界累積生成関数を持つ非有界損失関数に対して保持される。 [1]. また,平均伝達過剰リスクに対する新たな上限として,経験的重み付きリスク最小化 (ewrm) に対する$(\alpha_1,\alpha_2)$-js の発散により,ソースおよびターゲットデータセットに対する重み付き平均トレーニング損失を最小化する。 最後に、導入した境界の利点を説明する数値的な例を示す。

In transfer learning, training and testing data sets are drawn from different data distributions. The transfer generalization gap is the difference between the population loss on the target data distribution and the training loss. The training data set generally includes data drawn from both source and target distributions. This work presents novel information-theoretic upper bounds on the average transfer generalization gap that capture $(i)$ the domain shift between the target data distribution $P'_Z$ and the source distribution $P_Z$ through a two-parameter family of generalized $(\alpha_1,\alpha_2)$-Jensen-Shannon (JS) divergences; and $(ii)$ the sensitivity of the transfer learner output $W$ to each individual sample of the data set $Z_i$ via the mutual information $I(W;Z_i)$. For $\alpha_1 \in (0,1)$, the $(\alpha_1,\alpha_2)$-JS divergence can be bounded even when the support of $P_Z$ is not included in that of $P'_Z$. This contrasts the Kullback-Leibler (KL) divergence $D_{KL}(P_Z||P'_Z)$-based bounds of Wu et al. [1], which are vacuous under this assumption. Moreover, the obtained bounds hold for unbounded loss functions with bounded cumulant generating functions, unlike the $\phi$-divergence based bound of Wu et al. [1]. We also obtain new upper bounds on the average transfer excess risk in terms of the $(\alpha_1,\alpha_2)$-JS divergence for empirical weighted risk minimization (EWRM), which minimizes the weighted average training losses over source and target data sets. Finally, we provide a numerical example to illustrate the merits of the introduced bounds.
翻訳日:2022-10-08 01:02:43 公開日:2021-01-25
# 大規模ボールオンプレートシステムに適用した適応最適軌道追従制御

Adaptive Optimal Trajectory Tracking Control Applied to a Large-Scale Ball-on-Plate System ( http://arxiv.org/abs/2010.13486v2 )

ライセンス: Link先を確認
Florian K\"opf, Sean Kille, Jairo Inga, S\"oren Hohmann(参考訳) 適応動的プログラミング(ADP)に関する多くの理論的研究が提案されているが、アプリケーションの結果は乏しい。 そこで本研究では,adpに基づく最適軌道追従制御系を設計,大規模ボールオンプレートシステムに適用する。 提案手法は, セットポイント追跡に代えて近似参照軌跡を取り入れ, 一定のオフセット項を自動的に補償する。 アルゴリズムのオフポリシー特性のため、この方法はコントローラを訓練するために少量の計測データしか必要としない。 実験の結果, このトラッキング機構は, セットポイントコントローラに比べて制御コストを大幅に削減することがわかった。 さらに、モデルベース最適制御器との比較では、システムモデルや手動チューニングが不要なモデルフリーデータベースのADPトラッキング制御器の利点が強調されるが、制御器は測定データを用いて自動的に調整される。

While many theoretical works concerning Adaptive Dynamic Programming (ADP) have been proposed, application results are scarce. Therefore, we design an ADP-based optimal trajectory tracking controller and apply it to a large-scale ball-on-plate system. Our proposed method incorporates an approximated reference trajectory instead of using setpoint tracking and allows to automatically compensate for constant offset terms. Due to the off-policy characteristics of the algorithm, the method requires only a small amount of measured data to train the controller. Our experimental results show that this tracking mechanism significantly reduces the control cost compared to setpoint controllers. Furthermore, a comparison with a model-based optimal controller highlights the benefits of our model-free data-based ADP tracking controller, where no system model and manual tuning are required but the controller is tuned automatically using measured data.
翻訳日:2022-10-02 20:25:48 公開日:2021-01-25
# DebiNet:非線形過パラメータニューラルネットワークによる線形モデルのデバイアス

DebiNet: Debiasing Linear Models with Nonlinear Overparameterized Neural Networks ( http://arxiv.org/abs/2011.00417v2 )

ライセンス: Link先を確認
Shiyun Xu, Zhiqi Bu(参考訳) 近年では、様々なタスクにおける超パラメータニューラルネットワークの強力な経験的性能と理論の多くの進歩、例えば普遍近似や証明可能な大域的最小値への収束が目撃されている。 本稿では,超パラメータニューラルネットワークを半パラメトリックモデルに組み込んで,特に高次元線形問題における推論と予測のギャップを埋める。 これにより、幅広い種類のネットワークを利用してニュアンス関数を近似し、関心のパラメータを一貫して推定することができる。 したがって、ニューラルネットワークの普遍近似能力と古典的一般線形モデルからの解釈可能性の2つの世界の中で最高のものを提供し、妥当な推測と正確な予測をもたらす。 これを可能にする理論的基礎を示し,数値実験により実証する。 さらに,半パラメトリックニューラルネットワークに任意の特徴選択手法をプラグインするフレームワークであるDebiNetを提案する。 DebiNetは正規化推定器(例えばLasso)をデバイアスし、選択後の推測と一般化誤差の観点からうまく機能する。

Recent years have witnessed strong empirical performance of over-parameterized neural networks on various tasks and many advances in the theory, e.g. the universal approximation and provable convergence to global minimum. In this paper, we incorporate over-parameterized neural networks into semi-parametric models to bridge the gap between inference and prediction, especially in the high dimensional linear problem. By doing so, we can exploit a wide class of networks to approximate the nuisance functions and to estimate the parameters of interest consistently. Therefore, we may offer the best of two worlds: the universal approximation ability from neural networks and the interpretability from classic ordinary linear model, leading to both valid inference and accurate prediction. We show the theoretical foundations that make this possible and demonstrate with numerical experiments. Furthermore, we propose a framework, DebiNet, in which we plug-in arbitrary feature selection methods to our semi-parametric neural network. DebiNet can debias the regularized estimators (e.g. Lasso) and perform well, in terms of the post-selection inference and the generalization error.
翻訳日:2022-09-30 23:03:38 公開日:2021-01-25
# 一般化wasserstein diceスコア、分布的ロバストなディープラーニング、脳腫瘍分割のためのranger: brats 2020 challenge

Generalized Wasserstein Dice Score, Distributionally Robust Deep Learning, and Ranger for brain tumor segmentation: BraTS 2020 challenge ( http://arxiv.org/abs/2011.01614v2 )

ライセンス: Link先を確認
Lucas Fidon and Sebastien Ourselin and Tom Vercauteren(参考訳) ディープニューラルネットワークのトレーニングは,ディープニューラルネットワークの設計,サンプル単位の損失関数,人口減少関数,オプティマイザの4つの主要な要素を持つ最適化問題である。 しかし、最近のBraTSの課題と競合するために開発された手法は、ディープニューラルネットワークアーキテクチャの設計にのみ焦点をあてる傾向にあり、他の3つの側面にはあまり注意を払わない。 本稿では,逆アプローチを採用する実験を行った。 我々は、汎用的で最先端の3D U-Netアーキテクチャに固執し、標準でないサンプル単位の損失関数、一般化されたワッサーシュタインジス損失関数、分布的に堅牢な最適化に対応する非標準集団損失関数、および非標準最適化器であるレンジャーの実験を行った。 これらの変異は多種脳腫瘍の分節問題に特異的に選択された。 一般化されたwaserstein dice損失は、bratsでラベルされた腫瘍領域の階層構造を活用できる、サンプル毎の損失関数である。 分散ロバストな最適化は、トレーニングデータセットに未表現のサブドメインが存在することを考慮した経験的リスク最小化の一般化である。 Rangerは広く使われているAdamオプティマイザの一般化であり、小さなバッチサイズとノイズのあるラベルでより安定している。 脳腫瘍セグメント化のためのディープニューラルネットワークの最適化のそれぞれのバリエーションは、DiceスコアとHausdorff距離の点で改善されることがわかった。 様々な最適化手順でトレーニングされた3つのディープニューラルネットワークのアンサンブルにより、brats 2020チャレンジの検証データセットで有望な結果を得た。 私たちのアンサンブルは、brats 2020チャレンジのセグメンテーションタスクで673チーム中4位にランクインしました。

Training a deep neural network is an optimization problem with four main ingredients: the design of the deep neural network, the per-sample loss function, the population loss function, and the optimizer. However, methods developed to compete in recent BraTS challenges tend to focus only on the design of deep neural network architectures, while paying less attention to the three other aspects. In this paper, we experimented with adopting the opposite approach. We stuck to a generic and state-of-the-art 3D U-Net architecture and experimented with a non-standard per-sample loss function, the generalized Wasserstein Dice loss, a non-standard population loss function, corresponding to distributionally robust optimization, and a non-standard optimizer, Ranger. Those variations were selected specifically for the problem of multi-class brain tumor segmentation. The generalized Wasserstein Dice loss is a per-sample loss function that allows taking advantage of the hierarchical structure of the tumor regions labeled in BraTS. Distributionally robust optimization is a generalization of empirical risk minimization that accounts for the presence of underrepresented subdomains in the training dataset. Ranger is a generalization of the widely used Adam optimizer that is more stable with small batch size and noisy labels. We found that each of those variations of the optimization of deep neural networks for brain tumor segmentation leads to improvements in terms of Dice scores and Hausdorff distances. With an ensemble of three deep neural networks trained with various optimization procedures, we achieved promising results on the validation dataset of the BraTS 2020 challenge. Our ensemble ranked fourth out of the 693 registered teams for the segmentation task of the BraTS 2020 challenge.
翻訳日:2022-09-30 04:34:29 公開日:2021-01-25
# (参考訳) 単眼カメラによる障害物回避

Obstacle Avoidance Using a Monocular Camera ( http://arxiv.org/abs/2012.01608v2 )

ライセンス: CC BY 4.0
Kyle Hatch, John Mern, Mykel Kochenderfer(参考訳) 単純なデジタルカメラに基づく衝突回避システムは、小さなUAVを混み合った低高度環境に安全に統合するのに役立ちます。 本研究では,ニューラルネットワークと経路プランナコントローラを組み合わせた単眼カメラを用いた小型UAVの障害物回避システムを提案する。 本システムは、カメラ画像から深度を推定するビジョンネットワークと、高レベル制御ネットワークと、衝突予測ネットワークと、緊急ポリシーとから構成される。 本システムは,制約飛行パターンで障害物コースを走行する模擬UAVを用いて評価する。 その結果,本システムは飛行速度を維持しつつ低衝突率を達成した。

A collision avoidance system based on simple digital cameras would help enable the safe integration of small UAVs into crowded, low-altitude environments. In this work, we present an obstacle avoidance system for small UAVs that uses a monocular camera with a hybrid neural network and path planner controller. The system is comprised of a vision network for estimating depth from camera images, a high-level control network, a collision prediction network, and a contingency policy. This system is evaluated on a simulated UAV navigating an obstacle course in a constrained flight pattern. Results show the proposed system achieves low collision rates while maintaining operationally relevant flight speeds.
翻訳日:2021-05-24 05:18:44 公開日:2021-01-25
# (参考訳) Interactive Weak Supervision: データラベリングに有用なヒューリスティックを学ぶ

Interactive Weak Supervision: Learning Useful Heuristics for Data Labeling ( http://arxiv.org/abs/2012.06046v2 )

ライセンス: CC BY 4.0
Benedikt Boecking, Willie Neiswanger, Eric Xing, Artur Dubrawski(参考訳) 大きなアノテートされたデータセットを持つことは、成功した機械学習モデルのトレーニングに不可欠である。 弱監督は、複数のノイズのあるヒューリスティックを使って確率的ラベルを生成することで、真実のアノテーションを使わずにラベル付きデータセットを作成するための有望な代替手段を提供する。 このプロセスは大規模なデータセットにスケール可能で、医療やeコマースといったさまざまな領域におけるアートパフォーマンスの状況を示している。 ユーザの生成したヒューリスティックスから学ぶことの現実的な問題は、創造性、先見性、ドメインの専門知識が、それらを手作りする人たちから必要となることだ。 本稿では,提案手法がヒューリスティックスを提案し,提案する各ヒューリスティックに対するユーザフィードバックから学習する,対話型弱い監督のための最初のフレームワークを開発した。 実験の結果,真理学習ラベルにアクセスすることなく,高い競争力を持つテストセットのパフォーマンスを達成できるモデルをトレーニングするには,少数のフィードバックイテレーションが必要なことがわかった。 我々は,ヒューリスティックスに対するフィードバックを効果的に提供できるユーザスタディを行い,テストセットの結果が模擬オラクルの性能を追跡することを示す。

Obtaining large annotated datasets is critical for training successful machine learning models and it is often a bottleneck in practice. Weak supervision offers a promising alternative for producing labeled datasets without ground truth annotations by generating probabilistic labels using multiple noisy heuristics. This process can scale to large datasets and has demonstrated state of the art performance in diverse domains such as healthcare and e-commerce. One practical issue with learning from user-generated heuristics is that their creation requires creativity, foresight, and domain expertise from those who hand-craft them, a process which can be tedious and subjective. We develop the first framework for interactive weak supervision in which a method proposes heuristics and learns from user feedback given on each proposed heuristic. Our experiments demonstrate that only a small number of feedback iterations are needed to train models that achieve highly competitive test set performance without access to ground truth training labels. We conduct user studies, which show that users are able to effectively provide feedback on heuristics and that test set results track the performance of simulated oracles.
翻訳日:2021-05-14 13:41:00 公開日:2021-01-25
# (参考訳) Fork or Fail: 複数対1マッピングによるサイクル一貫性トレーニング

Fork or Fail: Cycle-Consistent Training with Many-to-One Mappings ( http://arxiv.org/abs/2012.07412v3 )

ライセンス: CC BY 4.0
Qipeng Guo, Zhijing Jin, Ziyu Wang, Xipeng Qiu, Weinan Zhang, Jun Zhu, Zheng Zhang, David Wipf(参考訳) サイクル一貫性のあるトレーニングは、各ドメイン内のマッチしたペアを収集するという面倒な要件なしに、2つの関心領域間の前方および逆のマッピングを共同学習するために広く使われている。 この点において、暗黙の仮定は、任意の領域から与えられた入力がそれぞれの写像の連続した適用から正確に再構成できるような(少なくともおよそ)接地単射が存在するということである。 しかし、多くのアプリケーションではそのような単射は存在せず、大規模な再構成エラーはサイクル一貫性トレーニングの成功を損なう可能性がある。 この制限の重要な例の1つとして、ドメイン間の多対一あるいは全射的マッピングが存在する、事実上関係のある状況を考える。 この状況に対処するために,条件付き変分オートエンコーダ(cvae)アプローチを開発し,両方向の再構成誤差を最小限に抑えるための全射写像を暗黙の単射に変換し,自然な副産物として1対1の方向に現実的な出力の多様性を求めることができる。 理論的動機として,提案したCVAEに基づくエネルギー関数の最小化が,地中トラス・サージェクティブ・マッピングの回復と一致するという簡易なシナリオを分析した。 経験的側面では、既知の基盤を持つ合成画像データセットと、知識グラフから自然言語を生成する現実のアプリケーション、そしてその逆の原型的な推測ケースを考える。 後者の場合、当社のcvaeパイプラインは、グラフからテキストへのタスクに対するテキストの多様性を促進しながら、サイクルトレーニング中にこのような多対一のマッピングをキャプチャすることができます。 我々のコードはgithub.com/QipengGuo/CycleGTで入手できる。 このバージョンには追加のコンテンツとアップデートが含まれている。

Cycle-consistent training is widely used for jointly learning a forward and inverse mapping between two domains of interest without the cumbersome requirement of collecting matched pairs within each domain. In this regard, the implicit assumption is that there exists (at least approximately) a ground-truth bijection such that a given input from either domain can be accurately reconstructed from successive application of the respective mappings. But in many applications no such bijection can be expected to exist and large reconstruction errors can compromise the success of cycle-consistent training. As one important instance of this limitation, we consider practically-relevant situations where there exists a many-to-one or surjective mapping between domains. To address this regime, we develop a conditional variational autoencoder (CVAE) approach that can be viewed as converting surjective mappings to implicit bijections whereby reconstruction errors in both directions can be minimized, and as a natural byproduct, realistic output diversity can be obtained in the one-to-many direction. As theoretical motivation, we analyze a simplified scenario whereby minima of the proposed CVAE-based energy function align with the recovery of ground-truth surjective mappings. On the empirical side, we consider a synthetic image dataset with known ground-truth, as well as a real-world application involving natural language generation from knowledge graphs and vice versa, a prototypical surjective case. For the latter, our CVAE pipeline can capture such many-to-one mappings during cycle training while promoting textural diversity for graph-to-text tasks. Our code is available at github.com/QipengGuo/CycleGT *A condensed version of this paper has been accepted to AISTATS 2021. This version contains additional content and updates.
翻訳日:2021-05-09 02:29:33 公開日:2021-01-25
# ActionBert: ユーザインターフェースのセマンティック理解にユーザアクションを活用する

ActionBert: Leveraging User Actions for Semantic Understanding of User Interfaces ( http://arxiv.org/abs/2012.12350v2 )

ライセンス: Link先を確認
Zecheng He, Srinivas Sunkara, Xiaoxue Zang, Ying Xu, Lijuan Liu, Nevan Wichers, Gabriel Schubiner, Ruby Lee, Jindong Chen and Blaise Ag\"uera y Arcas(参考訳) モバイルデバイスがユビキタスになりつつある中、さまざまなユーザインターフェース(UI)と定期的に対話することは、多くの人々にとって日常的な側面である。 これらのデバイスのアクセシビリティを改善し、さまざまな設定で使用できるようにするには、uiを通じてユーザを支援し、タスクを達成するためのモデルを構築することが極めて重要です。 しかし、これを達成するにはいくつかの課題がある。 まず、類似した外観を持つUIコンポーネントは機能が異なるため、外観を分析することよりも機能を理解することがより重要である。 第二に、webページのドキュメントオブジェクトモデル(dom)やモバイルアプリケーションのビュー階層(vh)といったドメイン固有の機能は、ui要素の意味に関する重要なシグナルを提供するが、これらの機能は自然言語フォーマットにはない。 第3に、UIの多様性と標準DOMやVH表現の欠如のため、高いカバレッジでUI理解モデルを構築するには、大量のトレーニングデータが必要である。 データ効率のよい方法で様々な問題に取り組むためのNLPの事前学習ベースのアプローチの成功に触発されて、ActionBertと呼ばれる新しいトレーニング済みUI表現モデルを導入する。 ユーザインタラクショントレースにおける視覚的,言語的,ドメイン固有の特徴を,UIとそのコンポーネントの汎用的特徴表現の事前訓練に活用する。 私たちの重要な直感は、ユーザーアクション、例えば、異なるUIコンポーネントの一連のクリックは、それらの機能に関する重要な情報を明らかにすることです。 提案手法は,アイコン分類からUIコンポーネント検索に至るまで,さまざまなダウンストリームタスクに対して,自然言語記述に基づく提案モデルを評価する。 実験により、提案するactionbertモデルは、下流タスク全体のマルチモーダルベースラインを最大15.5%上回ることがわかった。

As mobile devices are becoming ubiquitous, regularly interacting with a variety of user interfaces (UIs) is a common aspect of daily life for many people. To improve the accessibility of these devices and to enable their usage in a variety of settings, building models that can assist users and accomplish tasks through the UI is vitally important. However, there are several challenges to achieve this. First, UI components of similar appearance can have different functionalities, making understanding their function more important than just analyzing their appearance. Second, domain-specific features like Document Object Model (DOM) in web pages and View Hierarchy (VH) in mobile applications provide important signals about the semantics of UI elements, but these features are not in a natural language format. Third, owing to a large diversity in UIs and absence of standard DOM or VH representations, building a UI understanding model with high coverage requires large amounts of training data. Inspired by the success of pre-training based approaches in NLP for tackling a variety of problems in a data-efficient way, we introduce a new pre-trained UI representation model called ActionBert. Our methodology is designed to leverage visual, linguistic and domain-specific features in user interaction traces to pre-train generic feature representations of UIs and their components. Our key intuition is that user actions, e.g., a sequence of clicks on different UI components, reveals important information about their functionality. We evaluate the proposed model on a wide variety of downstream tasks, ranging from icon classification to UI component retrieval based on its natural language description. Experiments show that the proposed ActionBert model outperforms multi-modal baselines across all downstream tasks by up to 15.5%.
翻訳日:2021-04-26 07:48:08 公開日:2021-01-25
# 重み付きデファジブル知識ベースと深部ニューラルネットワークモデルのためのマルチ参照セマンティクス

Weighted defeasible knowledge bases and a multipreference semantics for a deep neural network model ( http://arxiv.org/abs/2012.13421v2 )

ライセンス: Link先を確認
Laura Giordano and Daniele Theseider Dupr\'e(参考訳) 本稿では,知識表現におけるデファシブル推論のための多義的セマンティクスとディープニューラルネットワークモデルとの関係について検討する。 記述論理の重み付き知識ベースは「概念的」な多重参照意味論の下で考慮される。 意味論はさらにファジィ解釈に拡張され、多層パーセプトロンの優先解釈を提供するために利用される。

In this paper we investigate the relationships between a multipreferential semantics for defeasible reasoning in knowledge representation and a deep neural network model. Weighted knowledge bases for description logics are considered under a "concept-wise" multipreference semantics. The semantics is further extended to fuzzy interpretations and exploited to provide a preferential interpretation of Multilayer Perceptrons.
翻訳日:2021-04-25 08:09:38 公開日:2021-01-25
# (参考訳) 科学的事実検証のための段落レベルのマルチタスク学習モデル

A Paragraph-level Multi-task Learning Model for Scientific Fact-Verification ( http://arxiv.org/abs/2012.14500v2 )

ライセンス: CC BY 4.0
Xiangci Li, Gully Burns, Nanyun Peng(参考訳) ドメインの専門家でさえも、証拠の根拠を支持または否定することで科学的な主張を検証することは非自明な仕事である。 ソーシャルメディアやニュースサイトでは、いつでも手動でもプログラムでも、誤報が広まると状況は悪化する。 その結果、誤情報拡散に対処するためには、自動事実検証ツールが不可欠となる。 本研究では,SciFactタスクに対して,BERTモデルからの文脈化文埋め込みのシーケンスを直接計算し,有理数選択と姿勢予測のモデルを協調的に訓練する,新しい段落レベルのマルチタスク学習モデルを提案する。

Even for domain experts, it is a non-trivial task to verify a scientific claim by providing supporting or refuting evidence rationales. The situation worsens as misinformation is proliferated on social media or news websites, manually or programmatically, at every moment. As a result, an automatic fact-verification tool becomes crucial for combating the spread of misinformation. In this work, we propose a novel, paragraph-level, multi-task learning model for the SciFact task by directly computing a sequence of contextualized sentence embeddings from a BERT model and jointly training the model on rationale selection and stance prediction.
翻訳日:2021-04-19 12:39:48 公開日:2021-01-25
# グラフフィルタリングによる分類精度の向上

Improving Classification Accuracy with Graph Filtering ( http://arxiv.org/abs/2101.04789v2 )

ライセンス: Link先を確認
Mounia Hamidouche, Carlos Lassance, Yuqing Hu, Lucas Drumetz, Bastien Pasdeloup, Vincent Gripon(参考訳) 機械学習では、分類器は通常、トレーニングデータのノイズに影響を受けやすい。 本研究では,クラス内雑音を低減し,グラフフィルタリングを用いて分類性能を向上させることを目的とする。 考慮されたグラフは、潜在空間におけるそれらの表現の類似性に応じて同じクラスに属するトレーニング集合のサンプルを接続することによって得られる。 提案手法は,クラス内分散を漸近的に減少させながら平均値を維持したグラフフィルタリング手法である。 本手法は一般にすべての分類問題に適用されるが,クラス内ノイズが小さいサンプル選択に大きく影響しうる場合において特に有用である。 視覚の分野における標準化されたベンチマークを用いて,提案手法は,少数ショットと標準分類の両方の場合において,最先端の結果をわずかに改善する能力を実証的に実証した。

In machine learning, classifiers are typically susceptible to noise in the training data. In this work, we aim at reducing intra-class noise with the help of graph filtering to improve the classification performance. Considered graphs are obtained by connecting samples of the training set that belong to a same class depending on the similarity of their representation in a latent space. We show that the proposed graph filtering methodology has the effect of asymptotically reducing intra-class variance, while maintaining the mean. While our approach applies to all classification problems in general, it is particularly useful in few-shot settings, where intra-class noise can have a huge impact due to the small sample selection. Using standardized benchmarks in the field of vision, we empirically demonstrate the ability of the proposed method to slightly improve state-of-the-art results in both cases of few-shot and standard classification.
翻訳日:2021-04-04 01:51:59 公開日:2021-01-25
# 自己教師付き表現学習と複数画像予測によるcovid-19の予後

COVID-19 Prognosis via Self-Supervised Representation Learning and Multi-Image Prediction ( http://arxiv.org/abs/2101.04909v2 )

ライセンス: Link先を確認
Anuroop Sriram, Matthew Muckley, Koustuv Sinha, Farah Shamout, Joelle Pineau, Krzysztof J. Geras, Lea Azour, Yindalon Aphinyanaphongs, Nafissa Yakubova, William Moore(参考訳) 新型コロナウイルスの感染拡大で病院の資源が枯渇し、救急医療機関に提示する患者の迅速かつ正確なトリアージが求められている。 胸部X線などの臨床データを用いた機械学習技術は、どの患者が劣化のリスクが最も高いかを予測するために用いられている。 胸部X線による2種類の患者劣化予測の課題を考察する: 有害事象劣化(集中治療室への移動, 挿管, 死亡)と1日6L以上の酸素要求量の増加である。 新型コロナウイルス患者のデータが比較的少ないため、既存のソリューションは、関連する非共用画像で教師付き事前トレーニングを利用するが、これは、事前トレーニングデータとターゲットの新型コロナウイルス患者データの違いによって制限される。 本稿では,前訓練段階における運動量コントラスト(moco)法に基づく自己教師あり学習を用いて,下流課題に使用する汎用イメージ表現の学習を行う。 3つの結果が得られます。 1つは1つの画像からの劣化予測であり、このモデルが受信者の動作特性曲線(auc)の下の領域を96時間以内に予測し(教師付き事前訓練で0.703に比較)、24時間で1日6l以上の酸素要求を予測するaucを0.765に設定する(教師付き事前訓練で0.749に比較)。 次に,複数の画像のシーケンスを予測として処理可能なトランスフォーマーアーキテクチャを提案し,96時間における有害事象の予測に改良されたAUC 0.786,96時間における致命率予測に0.848を達成できることを示す。 小型臨床研究により,本モデルの予測精度は,同一情報を解析した経験者と同等であることが示唆された。

The rapid spread of COVID-19 cases in recent months has strained hospital resources, making rapid and accurate triage of patients presenting to emergency departments a necessity. Machine learning techniques using clinical data such as chest X-rays have been used to predict which patients are most at risk of deterioration. We consider the task of predicting two types of patient deterioration based on chest X-rays: adverse event deterioration (i.e., transfer to the intensive care unit, intubation, or mortality) and increased oxygen requirements beyond 6 L per day. Due to the relative scarcity of COVID-19 patient data, existing solutions leverage supervised pretraining on related non-COVID images, but this is limited by the differences between the pretraining data and the target COVID-19 patient data. In this paper, we use self-supervised learning based on the momentum contrast (MoCo) method in the pretraining phase to learn more general image representations to use for downstream tasks. We present three results. The first is deterioration prediction from a single image, where our model achieves an area under receiver operating characteristic curve (AUC) of 0.742 for predicting an adverse event within 96 hours (compared to 0.703 with supervised pretraining) and an AUC of 0.765 for predicting oxygen requirements greater than 6 L a day at 24 hours (compared to 0.749 with supervised pretraining). We then propose a new transformer-based architecture that can process sequences of multiple images for prediction and show that this model can achieve an improved AUC of 0.786 for predicting an adverse event at 96 hours and an AUC of 0.848 for predicting mortalities at 96 hours. A small pilot clinical study suggested that the prediction accuracy of our model is comparable to that of experienced radiologists analyzing the same information.
翻訳日:2021-03-30 08:05:40 公開日:2021-01-25
# 部分重なり合う点集合に対するハイブリッドトリ線形および双線形計画法

Hybrid Trilinear and Bilinear Programming for Aligning Partially Overlapping Point Sets ( http://arxiv.org/abs/2101.07458v2 )

ライセンス: Link先を確認
Wei Lian and Wangmeng Zuo and Lei Zhang(参考訳) 部分重なり合う点集合を処理し、対応する変換に不変なアライメント法は、ICPのような局所探索に基づく手法に初期変換構成を提供するなど、コンピュータビジョンにおいて望ましい。 この目的のために、まず、ロバスト点マッチング(RPM)アルゴリズムの目的が立方多項式であることを示す。 次に,三重項および二重項の凸エンベロープを用いて下界関数を発達させる。 結果として生じる下界問題は、線形代入と低次元凸二次計画法によって効率よく解ける。 次に,変換パラメータのみを分岐して収束する分枝結合アルゴリズム(bnb)を開発した。 実験の結果,提案手法はロバスト性と速度の点で最先端手法よりも良好な性能を示した。

Alignment methods which can handle partially overlapping point sets and are invariant to the corresponding transformations are desirable in computer vision, with applications such as providing initial transformation configuration for local search based methods like ICP. To this end, we first show that the objective of the robust point matching (RPM) algorithm is a cubic polynomial. We then utilize the convex envelopes of trilinear and bilinear monomials to develop its lower bounding function. The resulting lower bounding problem can be efficiently solved via linear assignment and low dimensional convex quadratic programming. We next develop a branch-and-bound (BnB) algorithm which only branches over the transformation parameters and converges quickly. Experimental results demonstrated favorable performance of the proposed method over the state-of-the-art methods in terms of robustness and speed.
翻訳日:2021-03-22 11:21:43 公開日:2021-01-25
# (参考訳) 非パラメトリック適応ネットワークプラニング

Non-Parametric Adaptive Network Pruning ( http://arxiv.org/abs/2101.07985v2 )

ライセンス: CC BY 4.0
Mingbao Lin, Rongrong Ji, Shaojie Li, Yan Wang, Yongjian Wu, Feiyue Huang, Qixiang Ye(参考訳) 人気のあるネットワークプルーニングアルゴリズムは、手作りパラメトリックモデルを最適化することで冗長情報を減らし、フィルタの選択において最適な性能と長時間を生じる可能性がある。 アルゴリズム設計をシンプルにするために,非パラメトリックモデリングを革新的に導入し,EPrunerと呼ばれる自動かつ効率的なプルーニング手法を実現する。 顔認識コミュニティに触発されて,重み行列に対するメッセージパッシングアルゴリズムの親和性伝播を用いて,適応的な例示数を求め,保存フィルタとして機能する。 eprunerは、"重要"フィルタを決定する際のトレーニングデータへの依存性を壊し、gpuベースのsomaよりも1桁早くcpuの実装を可能にする。 さらに, 実例の重みは, 微調整によりよい初期化をもたらすことを示した。 VGGNet-16では、EPrunerは88.80%のパラメータを除去して76.34%のFLOPを削減し、CIFAR-10の精度は0.06%向上した。 resnet-152において、eprunerは64.18%のパラメータを削除することで65.12%のflops削減を達成している。 コードはhttps://github.com/lmbxmu/eprunerで入手できる。

Popular network pruning algorithms reduce redundant information by optimizing hand-crafted parametric models, and may cause suboptimal performance and long time in selecting filters. We innovatively introduce non-parametric modeling to simplify the algorithm design, resulting in an automatic and efficient pruning approach called EPruner. Inspired by the face recognition community, we use a message passing algorithm Affinity Propagation on the weight matrices to obtain an adaptive number of exemplars, which then act as the preserved filters. EPruner breaks the dependency on the training data in determining the "important" filters and allows the CPU implementation in seconds, an order of magnitude faster than GPU based SOTAs. Moreover, we show that the weights of exemplars provide a better initialization for the fine-tuning. On VGGNet-16, EPruner achieves a 76.34%-FLOPs reduction by removing 88.80% parameters, with 0.06% accuracy improvement on CIFAR-10. In ResNet-152, EPruner achieves a 65.12%-FLOPs reduction by removing 64.18% parameters, with only 0.71% top-5 accuracy loss on ILSVRC-2012. Code can be available at https://github.com/lmbxmu/EPruner.
翻訳日:2021-03-22 08:51:22 公開日:2021-01-25
# LowKey: ソーシャルメディアユーザーを顔認識から守るために、敵対的攻撃を活用する

LowKey: Leveraging Adversarial Attacks to Protect Social Media Users from Facial Recognition ( http://arxiv.org/abs/2101.07922v2 )

ライセンス: Link先を確認
Valeriia Cherepanova, Micah Goldblum, Harrison Foley, Shiyuan Duan, John Dickerson, Gavin Taylor, Tom Goldstein(参考訳) 顔認識システムは、民間企業や政府機関、消費者サービスや大量監視プログラムの請負業者によって、ますます普及している。 これらのシステムは通常、ユーザー画像のソーシャルメディアプロファイルをスクラップして構築される。 顔認識システムをバイパスするための対向摂動法が提案されている。 しかし、既存の方法はフルスケールのシステムや商用APIでは失敗する。 我々は,画像処理パイプライン全体を考慮し,顔検出や大規模データベースを含む産業用パイプラインに対して明らかに有効である,独自の逆フィルタを開発した。 さらに、Amazon RekognitionとMicrosoft Azure Face Recognition APIの精度を大幅に低下させ、それぞれの精度を1%以下に削減する使いやすいWebツールもリリースしました。

Facial recognition systems are increasingly deployed by private corporations, government agencies, and contractors for consumer services and mass surveillance programs alike. These systems are typically built by scraping social media profiles for user images. Adversarial perturbations have been proposed for bypassing facial recognition systems. However, existing methods fail on full-scale systems and commercial APIs. We develop our own adversarial filter that accounts for the entire image processing pipeline and is demonstrably effective against industrial-grade pipelines that include face detection and large scale databases. Additionally, we release an easy-to-use webtool that significantly degrades the accuracy of Amazon Rekognition and the Microsoft Azure Face Recognition API, reducing the accuracy of each to below 1%.
翻訳日:2021-03-22 01:30:55 公開日:2021-01-25
# 動きのぼけに対する幾何学的モーメント不変量

Geometric Moment Invariants to Motion Blur ( http://arxiv.org/abs/2101.08647v2 )

ライセンス: Link先を確認
Hongxiang Hao., Hanlin Mo., Hua Li(参考訳) 本稿では,動きのぼかし不変量の導出による動きのぼかしの干渉を取り除くことに焦点を当てる。 動きのぼやきの幾何学的モーメントと数学的モデルに基づき、ぼやけた画像と元の画像の幾何学的モーメントが線形に関連していることを証明する。 この性質により、既存のモーメントベースの特徴が動きのぼかしに不変であるかどうかを分析することができる。 驚くべきことに、幾何モーメント不変量は空間変換だけでなく動きのぼやきにも不変である。 一方、合成および実画像データセットを用いて、これらの不変量の不変性とロバスト性をテストする。 また,これらの不変量は,画像検索,分類,テンプレートマッチングにおいて広く使用されるぼやけモーメント不変量や非モーメント画像の特徴よりも優れていることが示された。

In this paper, we focus on removing interference of motion blur by the derivation of motion blur invariants.Unlike earlier work, we don't restore any blurred image. Based on geometric moment and mathematical model of motion blur, we prove that geometric moments of blurred image and original image are linearly related. Depending on this property, we can analyse whether an existing moment-based feature is invariant to motion blur. Surprisingly, we find some geometric moment invariants are invariants to not only spatial transform but also motion blur. Meanwhile, we test invariance and robustness of these invariants using synthetic and real blur image datasets. And the results show these invariants outperform some widely used blur moment invariants and non-moment image features in image retrieval, classification and template matching.
翻訳日:2021-03-21 07:49:48 公開日:2021-01-25
# タスク類似性がメタラーニングに与える影響に関する情報理論解析

An Information-Theoretic Analysis of the Impact of Task Similarity on Meta-Learning ( http://arxiv.org/abs/2101.08390v2 )

ライセンス: Link先を確認
Sharu Theresa Jose and Osvaldo Simeone(参考訳) メタラーニングは、関連するタスクからのデータ観測からモデルクラスやトレーニングアルゴリズムのハイパーパラメータを最適化することを目的としている。 baxter [1] の設定に続いて、タスクはタスク空間上の分散とタスクごとのデータ分散によって定義される同じタスク環境に属すると仮定される。 したがって、タスク環境の統計的性質はタスクの類似性を決定する。 meta-learnerの目標は、タスク環境からサンプリングされた新しいタスクのトレーニングに適用されると、ハイパーパラメータがわずかな損失を得るようにすることである。 結果として生じる平均損失(メタ人口損失)と、メタ一般化ギャップ(meta-generalization gap)として知られる関連するタスクから得られる利用可能なデータに基づいて測定される経験的損失(experience loss)との差は、メタリーナーの一般化能力の尺度である。 本稿では,メタ一般化ギャップの平均絶対値に関する新しい情報理論的境界を提案する。 従来の作業[2]とは違って,タスク関連性,タスク数,タスク毎のデータサンプル数がメタ一般化ギャップに与える影響を明確に把握する。 タスクの類似性は、KL(Kullback-Leibler)とJS(Jensen-Shannon)の分岐によって測定される。 本稿では,メタ学習バイアスを伴うリッジ回帰の例で提案する境界を説明する。

Meta-learning aims at optimizing the hyperparameters of a model class or training algorithm from the observation of data from a number of related tasks. Following the setting of Baxter [1], the tasks are assumed to belong to the same task environment, which is defined by a distribution over the space of tasks and by per-task data distributions. The statistical properties of the task environment thus dictate the similarity of the tasks. The goal of the meta-learner is to ensure that the hyperparameters obtain a small loss when applied for training of a new task sampled from the task environment. The difference between the resulting average loss, known as meta-population loss, and the corresponding empirical loss measured on the available data from related tasks, known as meta-generalization gap, is a measure of the generalization capability of the meta-learner. In this paper, we present novel information-theoretic bounds on the average absolute value of the meta-generalization gap. Unlike prior work [2], our bounds explicitly capture the impact of task relatedness, the number of tasks, and the number of data samples per task on the meta-generalization gap. Task similarity is gauged via the Kullback-Leibler (KL) and Jensen-Shannon (JS) divergences. We illustrate the proposed bounds on the example of ridge regression with meta-learned bias.
翻訳日:2021-03-21 07:45:20 公開日:2021-01-25
# (参考訳) 弱い指導を伴う深層学習を用いた臨床ノートからアルツハイマー病の生活習慣因子の抽出

Extracting Lifestyle Factors for Alzheimer's Disease from Clinical Notes Using Deep Learning with Weak Supervision ( http://arxiv.org/abs/2101.09244v2 )

ライセンス: CC BY 4.0
Zitao Shen, Yoonkwon Yi, Anusha Bompelli, Fang Yu, Yanshan Wang, Rui Zhang(参考訳) アルツハイマー病(AD)に対する効果的な治療法は存在しないため、ライフスタイルの変化や介入によって予防がより重要になっている。 AD患者の電子健康記録(EHR)の分析は、ADに対するライフスタイルの影響をよりよく理解するのに役立ちます。 しかし、ライフスタイル情報は典型的には臨床物語に保存される。 本研究の目的は, 生活習慣因子(身体活動や過度の食事など)を臨床テキストから分類するための自然言語処理(NLP)モデルの有効性を実証することであった。 ルールベースNLPアルゴリズムを用いてトレーニングデータのラベルを自動生成する。 弱ラベル付きトレーニングコーパス上で, BERTモデルから事前学習した双方向エンコーダ表現の弱い監視を行った。 これらのモデルには、BERTベースモデル、PubMedBERT (abstracts + full text)、PubMedBERT (only abstracts)、Unified Medical Language System (UMLS) BERT、Bio BERT、Bio-clinical BERTが含まれる。 生活習慣因子の分類におけるBERTモデルの有効性を検証するために,身体活動と過剰食の2つのケーススタディを行った。 これらのモデルは2つのケーススタディで開発されたゴールドスタンダードコーパス (gsc) で比較された。 PubmedBERT(Abs)モデルは、精度、リコール、F-1スコアはそれぞれ0.96、0.96、0.96で、身体活動において最高のパフォーマンスを達成した。 過度の食事の分類では,Bio BERTモデルが完全精度,リコール,F-1スコアで最高の成績を示した。 弱い監督を利用するアプローチは、ディープラーニングモデルのトレーニングに必要なサンプルサイズを大幅に増加させる可能性がある。 この研究は、臨床ノートからアルツハイマー病のライフスタイル因子を抽出するためのBERTモデルの有効性を示した。

Since no effective therapies exist for Alzheimer's disease (AD), prevention has become more critical through lifestyle factor changes and interventions. Analyzing electronic health records (EHR) of patients with AD can help us better understand lifestyle's effect on AD. However, lifestyle information is typically stored in clinical narratives. Thus, the objective of the study was to demonstrate the feasibility of natural language processing (NLP) models to classify lifestyle factors (e.g., physical activity and excessive diet) from clinical texts. We automatically generated labels for the training data by using a rule-based NLP algorithm. We conducted weak supervision for pre-trained Bidirectional Encoder Representations from Transformers (BERT) models on the weakly labeled training corpus. These models include the BERT base model, PubMedBERT(abstracts + full text), PubMedBERT(only abstracts), Unified Medical Language System (UMLS) BERT, Bio BERT, and Bio-clinical BERT. We performed two case studies: physical activity and excessive diet, in order to validate the effectiveness of BERT models in classifying lifestyle factors for AD. These models were compared on the developed Gold Standard Corpus (GSC) on the two case studies. The PubmedBERT(Abs) model achieved the best performance for physical activity, with its precision, recall, and F-1 scores of 0.96, 0.96, and 0.96, respectively. Regarding classifying excessive diet, the Bio BERT model showed the highest performance with perfect precision, recall, and F-1 scores. The proposed approach leveraging weak supervision could significantly increase the sample size, which is required for training the deep learning models. The study also demonstrates the effectiveness of BERT models for extracting lifestyle factors for Alzheimer's disease from clinical notes.
翻訳日:2021-03-20 21:20:47 公開日:2021-01-25
# (参考訳) ECOL-R:強化学習による新規オブジェクトキャプションにおけるコピー促進

ECOL-R: Encouraging Copying in Novel Object Captioning with Reinforcement Learning ( http://arxiv.org/abs/2101.09865v1 )

ライセンス: CC BY 4.0
Yufei Wang and Ian D. Wood and Stephen Wan and Mark Johnson(参考訳) 新規なオブジェクトキャプションは、トレーニングキャプションで見ることなく、外部のオブジェクト検出器から情報が得られるオブジェクトを記述することを必要とするゼロショット画像キャプションタスクである。 重要な課題は、入力画像中の検出されたすべての新規オブジェクトを選択し、記述することです。 本稿では、この課題に焦点をあて、新しいオブジェクトラベルを正確に記述することを奨励するコピー強化トランスフォーマーモデルであるECOL-Rモデル(Encouraging Copying of Object Labels with Reinforced Learning)を提案する。 これは、キャプション品質を維持しながら、新しいオブジェクトへの言及を奨励するscst強化学習フレームワーク(rennie et al., 2017)の特別報酬関数によって達成される。 さらに、検出対象が参照キャプションに言及されている画像に対してSCSTトレーニングを制限し、ECOL-Rモデルをトレーニングする。 さらに、既知のオブジェクトタイプから新しいオブジェクトタイプに知識を転送するAbstract Labelsと、新しいオブジェクトラベルの適切な入力形式を決定するMorphological Selectorを介してコピーメカニズムを改善します。 その結果得られたモデルは、nocaps (agrawal et al., 2019) と hold-out coco (hendricks et al., 2016) ベンチマークに最新技術を設定する。

Novel Object Captioning is a zero-shot Image Captioning task requiring describing objects not seen in the training captions, but for which information is available from external object detectors. The key challenge is to select and describe all salient detected novel objects in the input images. In this paper, we focus on this challenge and propose the ECOL-R model (Encouraging Copying of Object Labels with Reinforced Learning), a copy-augmented transformer model that is encouraged to accurately describe the novel object labels. This is achieved via a specialised reward function in the SCST reinforcement learning framework (Rennie et al., 2017) that encourages novel object mentions while maintaining the caption quality. We further restrict the SCST training to the images where detected objects are mentioned in reference captions to train the ECOL-R model. We additionally improve our copy mechanism via Abstract Labels, which transfer knowledge from known to novel object types, and a Morphological Selector, which determines the appropriate inflected forms of novel object labels. The resulting model sets new state-of-the-art on the nocaps (Agrawal et al., 2019) and held-out COCO (Hendricks et al., 2016) benchmarks.
翻訳日:2021-03-16 07:58:33 公開日:2021-01-25
# (参考訳) 第3次ディハードチャレンジにおけるドメイン依存話者ダイアリゼーション

Domain-Dependent Speaker Diarization for the Third DIHARD Challenge ( http://arxiv.org/abs/2101.09884v1 )

ライセンス: CC BY 4.0
A Kishore Kumar, Shefali Waldekar, Goutam Saha, Md Sahidullah(参考訳) 本報告では,第3回DIHARD音声ダイアリゼーションチャレンジのためにABSP Laboratoryチームが開発したシステムについて述べる。 本研究の主な貢献は,音響領域依存音声ダイアリゼーションのための簡易かつ効率的な解法の開発である。 Emph{acoustic domain ID} (ADI) タスクのスピーカ埋め込みについて検討する。 本研究は,第3のDIHARDチャレンジデータセットにおいて,i-vectorベースの手法がx-vectorベースの手法よりもかなり優れた性能を実現することを明らかにする。 次に、ADIモジュールとダイアリゼーションフレームワークを統合します。 その性能は,凝集階層クラスタリングのしきい値と,各音響領域の得点時の次元性低減パラメータを最適化することで,ベースラインよりも大幅に向上した。 我々は,DIHARD III 評価セットのトラック1において,コア条件とフル条件に対する DER の 9.63 % と 10.64 % の相対的な改善を達成した。

This report presents the system developed by the ABSP Laboratory team for the third DIHARD speech diarization challenge. Our main contribution in this work is to develop a simple and efficient solution for acoustic domain dependent speech diarization. We explore speaker embeddings for \emph{acoustic domain identification} (ADI) task. Our study reveals that i-vector based method achieves considerably better performance than x-vector based approach in the third DIHARD challenge dataset. Next, we integrate the ADI module with the diarization framework. The performance substantially improved over that of the baseline when we optimized the thresholds for agglomerative hierarchical clustering and the parameters for dimensionality reduction during scoring for individual acoustic domains. We achieved a relative improvement of $9.63\%$ and $10.64\%$ in DER for core and full conditions, respectively, for Track 1 of the DIHARD III evaluation set.
翻訳日:2021-03-16 07:37:05 公開日:2021-01-25
# (参考訳) MadDog: 頭字語識別と曖昧化のためのWebベースシステム

MadDog: A Web-based System for Acronym Identification and Disambiguation ( http://arxiv.org/abs/2101.09893v1 )

ライセンス: CC BY 4.0
Amir Pouran Ben Veyseh, Franck Dernoncourt, Walter Chang, Thien Huu Nguyen(参考訳) 略語と略語は、長いフレーズの短い形式であり、さまざまなタイプの執筆に広く使用されています。 文章中のスペースと読み時間の節約が有用であるにもかかわらず、特に頭字語がテキストで定義されていない場合や長いテキストでの定義から遠く離れている場合など、テキストを理解する上での課題もある。 この問題を軽減するため、研究コミュニティとソフトウェア開発者の両方から、頭字語を識別するシステムを構築し、テキスト中の正しい意味を見つけるための努力がなされている。 しかし、既存の作品のいずれも、さまざまなドメインで頭字語を処理し、公開可能な統一ソリューションを提供していない。 そこで我々は, 科学, 生物医学, 一般分野など, 様々な分野の頭字語を処理できる, 初めてのWebベースの頭字語識別・曖昧化システムを提供する。 Webベースのシステムはhttp://iq.cs.uoregon.edu:5000で公開されており、デモビデオはhttps://youtu.be/IkSh7LqI42Mで公開されている。 システムソースコードはhttps://github.com/amirveyseh/MadDogでも入手できる。

Acronyms and abbreviations are the short-form of longer phrases and they are ubiquitously employed in various types of writing. Despite their usefulness to save space in writing and reader's time in reading, they also provide challenges for understanding the text especially if the acronym is not defined in the text or if it is used far from its definition in long texts. To alleviate this issue, there are considerable efforts both from the research community and software developers to build systems for identifying acronyms and finding their correct meanings in the text. However, none of the existing works provide a unified solution capable of processing acronyms in various domains and to be publicly available. Thus, we provide the first web-based acronym identification and disambiguation system which can process acronyms from various domains including scientific, biomedical, and general domains. The web-based system is publicly available at http://iq.cs.uoregon.edu:5000 and a demo video is available at https://youtu.be/IkSh7LqI42M. The system source code is also available at https://github.com/amirveyseh/MadDog.
翻訳日:2021-03-16 07:33:37 公開日:2021-01-25
# (参考訳) モデル駆動からデータ駆動へ:アクティブディープラーニングに関する調査

From Model-driven to Data-driven: A Survey on Active Deep Learning ( http://arxiv.org/abs/2101.09933v1 )

ライセンス: CC BY 4.0
Peng Liu, Guojin He, Lei Zhao(参考訳) 大規模なデータセットにラベル付けすべきサンプルは、ディープラーニングのトレーニングにおいて最も重要な問題のひとつです。 これまでのところ,多くの文献において,深層学習に関連する様々なサンプル選択戦略が提案されている。 基本学習者が予測者と呼ばれ、ラベル付けスキームがセレクタと呼ばれる深層モデルの場合のみ、アクティブ深層学習(adl)と定義した。 本調査では,セレクタ指定における3つの基本因子を要約した。 ADLをモデル駆動型ADLとデータ駆動型ADLに分類する。 2つの主要なADLの異なる特性は、それぞれindetailで対処された。 さらに、データ駆動型およびモデル駆動型ADLのサブクラスも要約され、実証的に議論される。 データ駆動型adlandモデル駆動adlの利点と欠点を徹底的に分析する。 我々は、ディープラーニングの開発により、ADLのセレクタもモデル駆動からデータ駆動まで段階を経験していると指摘した。 最後に、その不確実性、説明、認知科学の基礎などについて議論し、モデル駆動からデータ駆動へのadlの動向について調査する。

Which samples should be labelled in a large data set is one of the most important problems for trainingof deep learning. So far, a variety of active sample selection strategies related to deep learning havebeen proposed in many literatures. We defined them as Active Deep Learning (ADL) only if theirpredictor is deep model, where the basic learner is called as predictor and the labeling schemes iscalled selector. In this survey, three fundamental factors in selector designation were summarized. Wecategory ADL into model-driven ADL and data-driven ADL, by whether its selector is model-drivenor data-driven. The different characteristics of the two major type of ADL were addressed in indetail respectively. Furthermore, different sub-classes of data-driven and model-driven ADL are alsosummarized and discussed emphatically. The advantages and disadvantages between data-driven ADLand model-driven ADL are thoroughly analyzed. We pointed out that, with the development of deeplearning, the selector in ADL also is experiencing the stage from model-driven to data-driven. Finally,we make discussion on ADL about its uncertainty, explanatory, foundations of cognitive science etc.and survey on the trend of ADL from model-driven to data-driven.
翻訳日:2021-03-16 07:21:20 公開日:2021-01-25
# (参考訳) ベイズ最適化による4足歩行ロボットの足場歩行学習

Scaffolded Gait Learning of a Quadruped Robot with Bayesian Optimization ( http://arxiv.org/abs/2101.09961v1 )

ライセンス: CC BY 4.0
Keyan Zhai, Chu'an Li, Andre Rosendo(参考訳) 学習試験の間、システムは異なる障害条件に晒され、安全な行動が見つかる前にロボット部品を壊す可能性がある。 人間はこの問題を、学習をより安全な構造/制御に置き、その難しさを徐々に増すことで解決する。 本稿では,四足歩行ロボットに対する安定歩行学習における同様の支援の効果について述べる。 指導足場に関する心理学的理論に基づき,ロボットに異なる支援設定を提供し,ひずみゲージを用いて評価し,安定なraibertコントローラに対するパラメトリック探索を行うためにベイズ最適化を用いる。 歩行学習において一定支持と徐々に減少する支持の関係を計測するための実験を行い, 徐々に減少する支持は一定高さでの支持よりも安定な歩行を創出できることを示した。 シミュレーションと現実のギャップはロボットに壊滅的な失敗をもたらす可能性があるが、提案手法は新たな行動を学ぶ際のスピードと安全性を組み合わせたものである。

During learning trials, systems are exposed to different failure conditions which may break robotic parts before a safe behavior is discovered. Humans contour this problem by grounding their learning to a safer structure/control first and gradually increasing its difficulty. This paper presents the impact of a similar supports in the learning of a stable gait on a quadruped robot. Based on the psychological theory of instructional scaffolding, we provide different support settings to our robot, evaluated with strain gauges, and use Bayesian Optimization to conduct a parametric search towards a stable Raibert controller. We perform several experiments to measure the relation between constant supports and gradually reduced supports during gait learning, and our results show that a gradually reduced support is capable of creating a more stable gait than a support at a fixed height. Although gaps between simulation and reality can lead robots to catastrophic failures, our proposed method combines speed and safety when learning a new behavior.
翻訳日:2021-03-16 06:13:11 公開日:2021-01-25
# (参考訳) トランスファーラーニングを用いたCOVID-19関連肺浸潤物のセグメント化のための3D U-Net: 手頃な価格のハードウェアに関する最新の結果

3D U-Net for segmentation of COVID-19 associated pulmonary infiltrates using transfer learning: State-of-the-art results on affordable hardware ( http://arxiv.org/abs/2101.09976v1 )

ライセンス: CC BY-SA 4.0
Keno K. Bressem, Stefan M. Niehues, Bernd Hamm, Marcus R. Makowski, Janis L. Vahldiek, Lisa C. Adams(参考訳) 肺浸潤物のセグメンテーションは、COVID-19の重症度を評価するのに役立ちますが、手動セグメンテーションは労働力と時間集約的です。 神経ネットワークを用いて肺浸潤を分断すると、このタスクは自動化される。 しかし、CTデータから3D U-Netを訓練することは時間的およびリソース集約的である。 そこで本研究では,限られたハードウェアと短時間で,最先端セグメンテーションモデルのトレーニングにトランスファーラーニングを利用する方法を開発した。 私たちは最近公開されたRSNA International COVID-19 Open Radiology Database(RICORD)を使用して、18層の3D ResNetを使用して完全な3次元U-Netアーキテクチャを訓練します。 このモデルの一般化は、胸部CT(Corona CasesとMosMedデータセット)を受けたCOVID-19患者の2つのオープンに利用可能なデータセットでテストされた。 我々のモデルは、以前公開された3D U-Netアーキテクチャに匹敵し、チューニングデータセットの平均Diceスコア0.679、コロナケースデータセット0.648、MosMedデータセット0.405を達成しました。 特に、これらの結果は、以前の研究で使用したGPUよりも少ないメモリを持つ単一のGPU上でのトレーニング時間を短くすることで達成された。

Segmentation of pulmonary infiltrates can help assess severity of COVID-19, but manual segmentation is labor and time-intensive. Using neural networks to segment pulmonary infiltrates would enable automation of this task. However, training a 3D U-Net from computed tomography (CT) data is time- and resource-intensive. In this work, we therefore developed and tested a solution on how transfer learning can be used to train state-of-the-art segmentation models on limited hardware and in shorter time. We use the recently published RSNA International COVID-19 Open Radiology Database (RICORD) to train a fully three-dimensional U-Net architecture using an 18-layer 3D ResNet, pretrained on the Kinetics-400 dataset as encoder. The generalization of the model was then tested on two openly available datasets of patients with COVID-19, who received chest CTs (Corona Cases and MosMed datasets). Our model performed comparable to previously published 3D U-Net architectures, achieving a mean Dice score of 0.679 on the tuning dataset, 0.648 on the Coronacases dataset and 0.405 on the MosMed dataset. Notably, these results were achieved with shorter training time on a single GPU with less memory available than the GPUs used in previous studies.
翻訳日:2021-03-16 06:06:57 公開日:2021-01-25
# (参考訳) 全または無体制における最大類似度推定について

On maximum-likelihood estimation in the all-or-nothing regime ( http://arxiv.org/abs/2101.09994v1 )

ライセンス: CC BY 4.0
Luca Corinzia, Paolo Penna, Wojciech Szpankowski, Joachim M. Buhmann(参考訳) ガウステンソルの階数1の加法的変形を \emph{maximum-likelihood estimator} (MLE) に従って推定する問題について検討する。 解析はスパース設定で行われ、基礎となる信号は、次元の総数に対して部分線形にスケールする支持体を持つ。 我々は、ベルヌーイ分布信号に対して、MLEは、同じ問題における最小平均二乗誤差推定器(MMSE)に対して既に確立されている \emph{all-or-nothing} (AoN) 相転移を行うことを示す。 i) MLE と MMSE の接続は、制約された信号空間における第一モーメント法と第二モーメント法を用い、 (ii) MMSE の回復規則は、標準 AoN で与えられる単純なエラー消滅特性よりも厳格であり、これは一般的な結果として証明されている。

We study the problem of estimating a rank-1 additive deformation of a Gaussian tensor according to the \emph{maximum-likelihood estimator} (MLE). The analysis is carried out in the sparse setting, where the underlying signal has a support that scales sublinearly with the total number of dimensions. We show that for Bernoulli distributed signals, the MLE undergoes an \emph{all-or-nothing} (AoN) phase transition, already established for the minimum mean-square-error estimator (MMSE) in the same problem. The result follows from two main technical points: (i) the connection established between the MLE and the MMSE, using the first and second-moment methods in the constrained signal space, (ii) a recovery regime for the MMSE stricter than the simple error vanishing characterization given in the standard AoN, that is here proved as a general result.
翻訳日:2021-03-16 05:29:23 公開日:2021-01-25
# (参考訳) フェデレーション学習に基づく生産ラインの故障予測:実証的研究

Failure Prediction in Production Line Based on Federated Learning: An Empirical Study ( http://arxiv.org/abs/2101.11715v1 )

ライセンス: CC0 1.0
Ning Ge, Guanghao Li, Li Zhang, Yi Liu Yi Liu(参考訳) 組織間のデータ保護は、集中型学習(cl)技術の適用を制限する。 フェデレーション学習(fl)は、複数の参加者がデータを共有することなく学習モデルを構築することを可能にする。 それでも、知的製造におけるFLに関する研究はごくわずかである。 本稿では,FLに基づく生産ラインの故障予測に関する実証研究の結果について述べる。 本論文では,(1)FedSVM(Federated Support Vector Machine)およびFedRF(Federated Random Forest)アルゴリズムを水平FLと垂直FLのシナリオに対してそれぞれ設計し,(2)FLとCLのアルゴリズムの有効性を評価する実験プロセスを提案する。 テストデータが不均一であるという事実は、私たちの発見を高めます。 本研究では FL が CL を故障予測に置き換えることができることを明らかにした。

Data protection across organizations is limiting the application of centralized learning (CL) techniques. Federated learning (FL) enables multiple participants to build a learning model without sharing data. Nevertheless, there are very few research works on FL in intelligent manufacturing. This paper presents the results of an empirical study on failure prediction in the production line based on FL. This paper (1) designs Federated Support Vector Machine (FedSVM) and Federated Random Forest (FedRF) algorithms for the horizontal FL and vertical FL scenarios, respectively; (2) proposes an experiment process for evaluating the effectiveness between the FL and CL algorithms; (3) finds that the performance of FL and CL are not significantly different on the global testing data, on the random partial testing data, and on the estimated unknown Bosch data, respectively. The fact that the testing data is heterogeneous enhances our findings. Our study reveals that FL can replace CL for failure prediction.
翻訳日:2021-03-16 05:01:51 公開日:2021-01-25
# (参考訳) インテリジェントエージェントのための簡易災害関連知識基盤

A Simple Disaster-Related Knowledge Base for Intelligent Agents ( http://arxiv.org/abs/2101.10014v1 )

ライセンス: CC BY 4.0
Clark Emmanuel Paulo, Arvin Ken Ramirez, David Clarence Reducindo, Rannie Mark Mateo, Joseph Marvin Imperial(参考訳) 本論文では,フィリピンの災害時における概念と単語関係からなる意味的ネットワークを構築することにより,単純な知識基盤を確立する取り組みについて述べる。 私たちの主なデータソースは、フィリピンのニュースサイトから取り除かれたニュース記事のコレクションです。 単語埋め込みを用いて、初期シード単語リストから意味的に類似し共起する単語を抽出する。 我々は450単語のアサーションを持つ拡張オントロジーに到達した。 言語学、災害学、気象学の専門家に私たちの知識ベースを評価し、一致率64%に到達させました。 次に,アサーションの時系列分析を行い,(a) 人間による役割の傾向,(b) 人間の所属,(c) 災害関連単語の共通化など,知識基盤が捉えた重要な意味的変化を同定する。 本研究から開発されたコンテキスト固有の知識ベースは,facebook messengerなどのプラットフォームに統合されたチャットボットなどのインテリジェントエージェントによって,災害関連クエリに応答することができる。

In this paper, we describe our efforts in establishing a simple knowledge base by building a semantic network composed of concepts and word relationships in the context of disasters in the Philippines. Our primary source of data is a collection of news articles scraped from various Philippine news websites. Using word embeddings, we extract semantically similar and co-occurring words from an initial seed words list. We arrive at an expanded ontology with a total of 450 word assertions. We let experts from the fields of linguistics, disasters, and weather science evaluate our knowledge base and arrived at an agreeability rate of 64%. We then perform a time-based analysis of the assertions to identify important semantic changes captured by the knowledge base such as the (a) trend of roles played by human entities, (b) memberships of human entities, and (c) common association of disaster-related words. The context-specific knowledge base developed from this study can be adapted by intelligent agents such as chat bots integrated in platforms such as Facebook Messenger for answering disaster-related queries.
翻訳日:2021-03-16 04:33:30 公開日:2021-01-25
# (参考訳) グラフニューラルネットワークの現状と電力システムへの応用

A Review of Graph Neural Networks and Their Applications in Power Systems ( http://arxiv.org/abs/2101.10025v1 )

ライセンス: CC BY 4.0
Wenlong Liao, Birgitte Bak-Jensen, Jayakrishnan Radhakrishna Pillai, Yuelong Wang, and Yusen Wang(参考訳) ディープニューラルネットワークは、パターン認識から信号処理まで、電力システムにおける多くの機械学習タスクに革命をもたらした。 これらのタスクのデータは典型的にはユークリッド領域で表される。 それでも電力系統では、非ユークリッド領域からデータが収集され、高次元の特徴とノード間の相互依存性を持つグラフ構造化データとして表現されるアプリケーションが増えています。 グラフ構造化データの複雑さは、ユークリッド領域で定義された既存のディープニューラルネットワークに大きな課題をもたらした。 近年,電力系統におけるグラフ構造化データに対するディープニューラルネットワークの拡張に関する研究が数多く行われている。 本稿では,電力系統におけるグラフニューラルネットワーク(gnns)の包括的概要について述べる。 具体的には、GNN構造(例えば、グラフ畳み込みネットワーク、グラフ繰り返しニューラルネットワーク、グラフ注意ネットワーク、グラフ生成ネットワーク、空間時空間グラフ畳み込みネットワーク、GNNsのハイブリッド形式)のいくつかの古典的なパラダイムを要約し、故障診断、電力予測、電力フロー計算、データ生成などの電力システムにおける重要なアプリケーションについて詳細に検討する。 さらに、電力システムにおけるGNNの適用に関する主な課題といくつかの研究動向について論じる。

Deep neural networks have revolutionized many machine learning tasks in power systems, ranging from pattern recognition to signal processing. The data in these tasks is typically represented in Euclidean domains. Nevertheless, there is an increasing number of applications in power systems, where data are collected from non-Euclidean domains and represented as the graph-structured data with high dimensional features and interdependency among nodes. The complexity of graph-structured data has brought significant challenges to the existing deep neural networks defined in Euclidean domains. Recently, many studies on extending deep neural networks for graph-structured data in power systems have emerged. In this paper, a comprehensive overview of graph neural networks (GNNs) in power systems is proposed. Specifically, several classical paradigms of GNNs structures (e.g., graph convolutional networks, graph recurrent neural networks, graph attention networks, graph generative networks, spatial-temporal graph convolutional networks, and hybrid forms of GNNs) are summarized, and key applications in power systems such as fault diagnosis, power prediction, power flow calculation, and data generation are reviewed in detail. Furthermore, main issues and some research trends about the applications of GNNs in power systems are discussed.
翻訳日:2021-03-15 13:00:03 公開日:2021-01-25
# (参考訳) ターゲット補題アノテーションによる用語翻訳の円滑化

Facilitating Terminology Translation with Target Lemma Annotations ( http://arxiv.org/abs/2101.10035v1 )

ライセンス: CC BY-SA 4.0
Toms Bergmanis and M\=arcis Pinnis(参考訳) 機械翻訳における用語統合に関する最近の研究のほとんどは、用語翻訳がターゲット言語の文に適した形で既にインフレーションされていると仮定している。 しかし、プロの翻訳者の日々の仕事では、翻訳者が辞書形式で用語が与えられたバイリンガル用語集で作業するケースはほとんどありません。適切なターゲット言語フォームを見つけることは翻訳プロセスの一部です。 apriori の特定対象言語形式に対する要求は非現実的であり、以前の作業の実用的適用性を妨げていると論じている。 本研究では,ランダムに選択されたソース言語単語を対象言語補題で注釈付けするソース側データ拡張手法を用いて,機械翻訳システムの訓練を行う。 このような拡張データに基づいて訓練されたシステムは,実生活の翻訳シナリオにおける用語統合に容易に利用できることを示す。 形態学的に複雑なバルト語とウラル語への用語変換実験では,用語統合の手段のないベースラインシステムよりも最大7点のBLEU点が向上し,前回の作業よりも平均4点のBLEU点が向上した。 人的評価の結果は、ラトビア語への翻訳の際の項翻訳精度において、以前の研究よりも47.7%の絶対的な改善を示している。

Most of the recent work on terminology integration in machine translation has assumed that terminology translations are given already inflected in forms that are suitable for the target language sentence. In day-to-day work of professional translators, however, it is seldom the case as translators work with bilingual glossaries where terms are given in their dictionary forms; finding the right target language form is part of the translation process. We argue that the requirement for apriori specified target language forms is unrealistic and impedes the practical applicability of previous work. In this work, we propose to train machine translation systems using a source-side data augmentation method that annotates randomly selected source language words with their target language lemmas. We show that systems trained on such augmented data are readily usable for terminology integration in real-life translation scenarios. Our experiments on terminology translation into the morphologically complex Baltic and Uralic languages show an improvement of up to 7 BLEU points over baseline systems with no means for terminology integration and an average improvement of 4 BLEU points over the previous work. Results of the human evaluation indicate a 47.7% absolute improvement over the previous work in term translation accuracy when translating into Latvian.
翻訳日:2021-03-15 12:26:51 公開日:2021-01-25
# (参考訳) 定時系列におけるARIMAの反復学習のための収束の最適化

Optimizing Convergence for Iterative Learning of ARIMA for Stationary Time Series ( http://arxiv.org/abs/2101.10037v1 )

ライセンス: CC BY 4.0
Kevin Styp-Rekowski, Florian Schmidt, Odej Kao(参考訳) 連続システムにおける時系列の予測は、IoTと5Gの最近の開発により、ますます関連性の高いタスクになります。 一般的な予測モデルであるARIMAは、数十年にわたって様々なアプリケーションに適用されている。 ARIMAのオンライン変種は、時系列の基本的なプロセスを学ぶために、オンラインニュートンステップを適用します。 この最適化手法には計算の複雑さと収束に関する落とし穴がある。 そこで本研究では,近年,ニューラルネットワークの学習に普及した計算コストの安いオンライングラディエントDescent最適化手法に着目した。 このようなモデルを反復的に学習するために,Adam,AMSGrad,Adagrad,Nesterovなど,異なるオンライングラディエントDescent学習者を組み合わせて高速収束を実現する手法を提案する。 合成データおよび実験データセットの評価は,提案手法が既存の手法より優れており,全体として予測誤差が低いことを示す。

Forecasting of time series in continuous systems becomes an increasingly relevant task due to recent developments in IoT and 5G. The popular forecasting model ARIMA is applied to a large variety of applications for decades. An online variant of ARIMA applies the Online Newton Step in order to learn the underlying process of the time series. This optimization method has pitfalls concerning the computational complexity and convergence. Thus, this work focuses on the computational less expensive Online Gradient Descent optimization method, which became popular for learning of neural networks in recent years. For the iterative training of such models, we propose a new approach combining different Online Gradient Descent learners (such as Adam, AMSGrad, Adagrad, Nesterov) to achieve fast convergence. The evaluation on synthetic data and experimental datasets show that the proposed approach outperforms the existing methods resulting in an overall lower prediction error.
翻訳日:2021-03-15 12:15:59 公開日:2021-01-25
# (参考訳) 風速予測のための深層グラフ畳み込みネットワーク

Deep Graph Convolutional Networks for Wind Speed Prediction ( http://arxiv.org/abs/2101.10041v1 )

ライセンス: CC BY-SA 4.0
Tomasz Sta\'nczyk and Siamak Mehrkanoon(参考訳) 風速予測と予測は、さまざまなビジネスおよび管理部門にとって重要です。 本稿では,グラフ畳み込みネットワーク(GCN)に基づく風速予測の新しいモデルを提案する。 複数の気象観測所から取得した複数の気象変数の時間的データから、風速は複数の時間ステップで予測される。 特に気象局は、関連する隣接行列が学習可能であるグラフのノードとして扱われる。 このようにして、ネットワークはグラフ空間構造を学習し、過去の気象データに基づいて気象観測所間の関係の強さを決定する。 学習した隣接行列に自己ループ接続を追加し、隣接行列を正規化する。 自己ループ接続設定(2つの別々のモデル)で2つのシナリオを検討します。 最初のシナリオでは、自己ループ接続は定数加法として課される。 第2のシナリオでは、ネットワークが自己ループ接続強度を決定するために学習可能なパラメータを含む。 さらに,空間グラフ畳み込みとともに時空間グラフ畳み込みを構成する複数の時間ステップからのデータを取り入れた。 デンマークとオランダの都市にある気象観測所から収集した実データを用いて実験を行った。 数値実験により,提案したモデルが参照データセットのベースラインモデルより優れていることが示された。 モデルの各層から学習隣接行列を視覚化することで、さらなる洞察を提供します。

Wind speed prediction and forecasting is important for various business and management sectors. In this paper, we introduce new models for wind speed prediction based on graph convolutional networks (GCNs). Given hourly data of several weather variables acquired from multiple weather stations, wind speed values are predicted for multiple time steps ahead. In particular, the weather stations are treated as nodes of a graph whose associated adjacency matrix is learnable. In this way, the network learns the graph spatial structure and determines the strength of relations between the weather stations based on the historical weather data. We add a self-loop connection to the learnt adjacency matrix and normalize the adjacency matrix. We examine two scenarios with the self-loop connection setting (two separate models). In the first scenario, the self-loop connection is imposed as a constant additive. In the second scenario a learnable parameter is included to enable the network to decide about the self-loop connection strength. Furthermore, we incorporate data from multiple time steps with temporal convolution, which together with spatial graph convolution constitutes spatio-temporal graph convolution. We perform experiments on real datasets collected from weather stations located in cities in Denmark and the Netherlands. The numerical experiments show that our proposed models outperform previously developed baseline models on the referenced datasets. We provide additional insights by visualizing learnt adjacency matrices from each layer of our models.
翻訳日:2021-03-15 12:02:00 公開日:2021-01-25
# (参考訳) 衛星通信における人工知能の展望

Artificial Intelligence for Satellite Communication: A Review ( http://arxiv.org/abs/2101.10899v1 )

ライセンス: CC BY 4.0
Fares Fourati, Mohamed-Slim Alouini(参考訳) 衛星通信は、未発見領域や未発見領域に対するサービス継続性、サービスユビキティ、サービスのスケーラビリティを提供する。 しかし、衛星ネットワークの資源管理、ネットワーク制御、ネットワークセキュリティ、スペクトル管理、エネルギー利用が地上ネットワークよりも難しいため、これらの利点を実現するために、まずいくつかの課題に対処しなければならない。 一方、機械学習、ディープラーニング、強化学習などの人工知能(AI)は、研究分野として着実に成長しており、無線通信を含む多様なアプリケーションで成果を発揮しています。 特に、ビームホッピング、アンチジャミング、ネットワークトラフィック予測、チャネルモデリング、テレメトリマイニング、電離圏シンチレーション検出、干渉管理、リモートセンシング、行動モデリング、宇宙-地上統合、エネルギー管理など、さまざまな衛星通信分野へのAIの適用は優れた可能性を実証しています。 この研究は、AI、その多様なサブフィールド、そして最先端のアルゴリズムの概観を提供する。 衛星通信システムの多様な側面に直面するいくつかの課題が議論され、その提案と潜在的なAIベースのソリューションが提示される。 最後に、フィールドの見通しが描かれ、将来のステップが提案される。

Satellite communication offers the prospect of service continuity over uncovered and under-covered areas, service ubiquity, and service scalability. However, several challenges must first be addressed to realize these benefits, as the resource management, network control, network security, spectrum management, and energy usage of satellite networks are more challenging than that of terrestrial networks. Meanwhile, artificial intelligence (AI), including machine learning, deep learning, and reinforcement learning, has been steadily growing as a research field and has shown successful results in diverse applications, including wireless communication. In particular, the application of AI to a wide variety of satellite communication aspects have demonstrated excellent potential, including beam-hopping, anti-jamming, network traffic forecasting, channel modeling, telemetry mining, ionospheric scintillation detecting, interference managing, remote sensing, behavior modeling, space-air-ground integrating, and energy managing. This work thus provides a general overview of AI, its diverse sub-fields, and its state-of-the-art algorithms. Several challenges facing diverse aspects of satellite communication systems are then discussed, and their proposed and potential AI-based solutions are presented. Finally, an outlook of field is drawn, and future steps are suggested.
翻訳日:2021-03-15 10:59:30 公開日:2021-01-25
# (参考訳) 方向性平均シフトアルゴリズムのEMパースペクティブ

The EM Perspective of Directional Mean Shift Algorithm ( http://arxiv.org/abs/2101.10058v1 )

ライセンス: CC BY 4.0
Yikun Zhang, Yen-Chi Chen(参考訳) 指向性平均シフト (DMS) アルゴリズムは、単位超球面上のカーネル密度推定器によって定義される局所的な密度モードを求める非パラメトリックな手法である。 本稿では、任意の DMS 反復を一般化期待最大化 (EM) アルゴリズムとして見ることができること、特に von Mises カーネルを適用すると、正確な EM アルゴリズムとなることを示す。 一般化された)emフレームワークの下では、密度推定の上昇特性の新たな証明を提供し、方向平均シフト列のグローバル収束を実証する。 最後に,dmsアルゴリズムの線形収束に関する新たな知見を与える。

The directional mean shift (DMS) algorithm is a nonparametric method for pursuing local modes of densities defined by kernel density estimators on the unit hypersphere. In this paper, we show that any DMS iteration can be viewed as a generalized Expectation-Maximization (EM) algorithm; in particular, when the von Mises kernel is applied, it becomes an exact EM algorithm. Under the (generalized) EM framework, we provide a new proof for the ascending property of density estimates and demonstrate the global convergence of directional mean shift sequences. Finally, we give a new insight into the linear convergence of the DMS algorithm.
翻訳日:2021-03-15 09:59:04 公開日:2021-01-25
# (参考訳) RelWalk - 知識グラフ埋め込みのための潜在変数モデルアプローチ

RelWalk A Latent Variable Model Approach to Knowledge Graph Embedding ( http://arxiv.org/abs/2101.10070v1 )

ライセンス: CC BY 4.0
Danushka Bollegala, Huda Hakami, Yuichi Yoshida and Ken-ichi Kawarabayashi(参考訳) 低次元空間におけるエンティティの埋め込みと知識グラフの関係は、エンティティ間のリンクの欠如を予測する際、顕著な性能を示した。 進歩は達成されたが、既存の方法はヒューリスティックに動機づけられ、そのような埋め込みの理論的理解は比較的未発達である。 本稿では、単語埋め込みのランダムウォークモデル(Arora et al., 2016a)を知識グラフ埋め込み(KGE)に拡張し、2つの実体h(ヘッド)とt(テール)の間の関係Rの強さを評価するスコアリング関数を導出する。 さらに,KGEの先行研究で広く用いられている限界損失最小化は,KGEから推定される確率の下での対数類似率の最大化から自然に導かれることを示す。 理論的解析によって動機付けられた学習目標を提案し,知識グラフからKGEを学習する。 得られた目的を用いて、正確なKGEをFB15K237とWN18RRベンチマークデータセットから学習し、理論を支持する実証的な証拠を提供する。

Embedding entities and relations of a knowledge graph in a low-dimensional space has shown impressive performance in predicting missing links between entities. Although progresses have been achieved, existing methods are heuristically motivated and theoretical understanding of such embeddings is comparatively underdeveloped. This paper extends the random walk model (Arora et al., 2016a) of word embeddings to Knowledge Graph Embeddings (KGEs) to derive a scoring function that evaluates the strength of a relation R between two entities h (head) and t (tail). Moreover, we show that marginal loss minimisation, a popular objective used in much prior work in KGE, follows naturally from the log-likelihood ratio maximisation under the probabilities estimated from the KGEs according to our theoretical relationship. We propose a learning objective motivated by the theoretical analysis to learn KGEs from a given knowledge graph. Using the derived objective, accurate KGEs are learnt from FB15K237 and WN18RR benchmark datasets, providing empirical evidence in support of the theory.
翻訳日:2021-03-15 07:53:25 公開日:2021-01-25
# (参考訳) ユーザーレビューにおけるブランド感を測るためのポアソン因子モデルの逆学習

Adversarial Learning of Poisson Factorisation Model for Gauging Brand Sentiment in User Reviews ( http://arxiv.org/abs/2101.10150v1 )

ライセンス: CC0 1.0
Runcong Zhao and Lin Gui and Gabriele Pergola and Yulan He(参考訳) 本論文では、製品レビューからブランド関連極性保持トピックを検出することを目的としたブランドトポリックモデル(BTM)を提案する。 トピックが「ポジティブ」や「ネガティブ」や「ニューラル」などの別個の感情カテゴリでグループ化されていると仮定する既存の感情トピック抽出モデルとは異なり、BTMは、実際の価値のあるブランド関連感情スコアを自動的に推測し、特定のトピック(例えば「シェーバー」や「クリーム」など)の下で単語の連続的な変化を観察できるきめ細かい感情トピックを生成することができます。 BTMは、逆学習を取り入れたPoisson分解モデルに基づいて構築されている。 amazon reviewsから構築されたデータセットで評価されている。 実験の結果,BTMはブランドランキングにおいて多くの競争的ベースラインを上回り,トピックコヒーレンスとユニークさのバランスを良くし,ポーラリティを含むトピックをより分離したトピックを抽出した。

In this paper, we propose the Brand-Topic Model (BTM) which aims to detect brand-associated polarity-bearing topics from product reviews. Different from existing models for sentiment-topic extraction which assume topics are grouped under discrete sentiment categories such as `positive', `negative' and `neural', BTM is able to automatically infer real-valued brand-associated sentiment scores and generate fine-grained sentiment-topics in which we can observe continuous changes of words under a certain topic (e.g., `shaver' or `cream') while its associated sentiment gradually varies from negative to positive. BTM is built on the Poisson factorisation model with the incorporation of adversarial learning. It has been evaluated on a dataset constructed from Amazon reviews. Experimental results show that BTM outperforms a number of competitive baselines in brand ranking, achieving a better balance of topic coherence and uniqueness, and extracting better-separated polarity-bearing topics.
翻訳日:2021-03-15 05:36:16 公開日:2021-01-25
# (参考訳) セミ教師付き意味セグメンテーションのためのマスクベースデータ拡張

Mask-based Data Augmentation for Semi-supervised Semantic Segmentation ( http://arxiv.org/abs/2101.10156v1 )

ライセンス: CC BY 4.0
Ying Chen, Xu Ouyang, Kaiyue Zhu, Gady Agam(参考訳) 畳み込みニューラルネットワーク(CNN)を用いたセマンティックセグメンテーションは、画像解析の重要な要素です。 セマンティックセグメンテーションを実行するためにCNNを訓練するには大量のラベル付きデータが必要である。 半教師付き学習アルゴリズムはラベルなしのデータを利用してこの問題に対処し、トレーニングに必要なラベル付きデータの量を削減する。 特に、CutMixやClassMixなどのデータ拡張技術は、既存のラベル付きデータから追加のトレーニングデータを生成します。 本論文では、CutMixとClassMixの側面を組み込んだデータ拡張の新たなアプローチであるComplexMixを提案する。 提案手法は,意味論的に正確でありながら拡張データの複雑さを制御し,複雑さと正確性の間のトレードオフに対処する能力を有する。 提案手法は,セマンティックセグメンテーションの標準データセットを用いて評価し,他の最先端技術と比較する。 実験結果から,セマンティック画像分割のための標準データセットにおける最新手法の改良が得られた。

Semantic segmentation using convolutional neural networks (CNN) is a crucial component in image analysis. Training a CNN to perform semantic segmentation requires a large amount of labeled data, where the production of such labeled data is both costly and labor intensive. Semi-supervised learning algorithms address this issue by utilizing unlabeled data and so reduce the amount of labeled data needed for training. In particular, data augmentation techniques such as CutMix and ClassMix generate additional training data from existing labeled data. In this paper we propose a new approach for data augmentation, termed ComplexMix, which incorporates aspects of CutMix and ClassMix with improved performance. The proposed approach has the ability to control the complexity of the augmented data while attempting to be semantically-correct and address the tradeoff between complexity and correctness. The proposed ComplexMix approach is evaluated on a standard dataset for semantic segmentation and compared to other state-of-the-art techniques. Experimental results show that our method yields improvement over state-of-the-art methods on standard datasets for semantic image segmentation.
翻訳日:2021-03-15 05:19:57 公開日:2021-01-25
# (参考訳) 単一画像超解法のための構造的コヒーレンスを学習する

Learning Structral coherence Via Generative Adversarial Network for Single Image Super-Resolution ( http://arxiv.org/abs/2101.10165v1 )

ライセンス: CC BY 4.0
Yuanzhuo Li, Yunan Zheng, Jie Chen, Zhenyu Xu, Yiguang Liu(参考訳) 単一画像スーパーリゾリューション(SISR)の大きな課題の1つは、人間の視覚システムに準拠したグローバルな形状と局所的な詳細で一貫性のある画像を回復する能力です。 最近のGAN(Genation Adversarial Network)ベースのSISR法は、全体的な現実的なSR画像を生成していますが、ローカル領域で構造的な歪みを伴う不快なテクスチャは常にあります。 これらの問題に対処するため,SRプロセスで高分解能勾配マップを復元することにより,構造情報を保存するための勾配分岐をジェネレータに導入する。 さらに,u-netに基づく判別器を用いて,画像全体と画素単位の詳細な信頼性を考慮し,再構成画像の全体的な一貫性を維持することができる。 さらに,目的関数について検討し,より現実的で自然な情報を生成するためにLPIPS知覚損失を付加した。 実験結果から,提案手法は知覚指標(PI)における最先端の知覚駆動SR法を上回り,自然画像復元における幾何学的一貫性と視覚的快感を得ることができた。

Among the major remaining challenges for single image super resolution (SISR) is the capacity to recover coherent images with global shapes and local details conforming to human vision system. Recent generative adversarial network (GAN) based SISR methods have yielded overall realistic SR images, however, there are always unpleasant textures accompanied with structural distortions in local regions. To target these issues, we introduce the gradient branch into the generator to preserve structural information by restoring high-resolution gradient maps in SR process. In addition, we utilize a U-net based discriminator to consider both the whole image and the detailed per-pixel authenticity, which could encourage the generator to maintain overall coherence of the reconstructed images. Moreover, we have studied objective functions and LPIPS perceptual loss is added to generate more realistic and natural details. Experimental results show that our proposed method outperforms state-of-the-art perceptual-driven SR methods in perception index (PI), and obtains more geometrically consistent and visually pleasing textures in natural image restoration.
翻訳日:2021-03-15 04:54:31 公開日:2021-01-25
# (参考訳) モノのインターネット(IoT)デバイスの検出と識別のための機械学習:調査

Machine Learning for the Detection and Identification of Internet of Things (IoT) Devices: A Survey ( http://arxiv.org/abs/2101.10181v1 )

ライセンス: CC BY 4.0
Yongxin Liu, Jian Wang, Jianqiang Li, Shuteng Niu, Houbing Song(参考訳) モノのインターネット(IoT)は、さまざまな新興サービスやアプリケーションを可能にする、日常生活の不可欠な部分になりつつあります。 しかし、不正なIoTデバイスの存在は、IoTを未然にリスクにさらし、深刻な結果をもたらしています。 IoTを確保する第一歩は、不正なIoTデバイスを検出し、正当なものを識別することです。 従来の手法では暗号機構を使用して正当なデバイスのアイデンティティを認証し検証する。 しかし、暗号プロトコルは多くのシステムで利用できません。 一方、これらの手法は、正当性のあるデバイスを悪用したり、暗号鍵を開示する場合、効果が低い。 したがって、非暗号化IoTデバイス識別とローグデバイス検出は、既存のシステムを保護するための効率的なソリューションとなり、暗号プロトコルを持つシステムにさらなる保護を提供する。 非暗号的アプローチはさらなる努力を必要とし、まだ十分に調査されていない。 本稿では、IoTデバイスの識別のための機械学習技術に関する包括的な調査と、受動監視エージェントまたはネットワークオペレータの視点から、侵害または改ざんされたデバイスを検出する。 iotデバイスの識別と検出を,デバイス固有のパターン認識,ディープラーニングによるデバイス識別,教師なしデバイス識別,異常デバイス検出の4つのカテゴリに分類した。 一方,本稿では,ML関連の様々な実現技術について論じる。 これらの実現技術には、学習アルゴリズム、ネットワークトラフィックトレースと無線信号の機能エンジニアリング、継続学習、異常検出などが含まれる。

The Internet of Things (IoT) is becoming an indispensable part of everyday life, enabling a variety of emerging services and applications. However, the presence of rogue IoT devices has exposed the IoT to untold risks with severe consequences. The first step in securing the IoT is detecting rogue IoT devices and identifying legitimate ones. Conventional approaches use cryptographic mechanisms to authenticate and verify legitimate devices' identities. However, cryptographic protocols are not available in many systems. Meanwhile, these methods are less effective when legitimate devices can be exploited or encryption keys are disclosed. Therefore, non-cryptographic IoT device identification and rogue device detection become efficient solutions to secure existing systems and will provide additional protection to systems with cryptographic protocols. Non-cryptographic approaches require more effort and are not yet adequately investigated. In this paper, we provide a comprehensive survey on machine learning technologies for the identification of IoT devices along with the detection of compromised or falsified ones from the viewpoint of passive surveillance agents or network operators. We classify the IoT device identification and detection into four categories: device-specific pattern recognition, Deep Learning enabled device identification, unsupervised device identification, and abnormal device detection. Meanwhile, we discuss various ML-related enabling technologies for this purpose. These enabling technologies include learning algorithms, feature engineering on network traffic traces and wireless signals, continual learning, and abnormality detection.
翻訳日:2021-03-15 04:45:54 公開日:2021-01-25
# (参考訳) ホワイトペーパー:疑わしいコンテンツを含むオンラインビデオの大規模ラベル付きリポジトリ作成への挑戦と考察

White Paper: Challenges and Considerations for the Creation of a Large Labelled Repository of Online Videos with Questionable Content ( http://arxiv.org/abs/2101.10894v1 )

ライセンス: CC BY 4.0
Thamar Solorio, Mahsa Shafaei, Christos Smailis, Mona Diab, Theodore Giannakopoulos, Heng Ji, Yang Liu, Rada Mihalcea, Smaranda Muresan, Ioannis Kakadiaris(参考訳) 本稿では,疑わしいコンテンツを示すラベルを付記したオンラインビデオの広範なリポジトリを開発するための批判的考察の要点について概説する。 主な議論ポイントは、1)AIコミュニティにとって価値のあるリポジトリをもたらす適切なラベルの種類、2)コレクションとアノテーションプロセスの設計方法、およびその潜在的な影響を最大化するためにコーパスの配布方法、3)アノテータに対するトラウマのリスクを低減するために私たちが取るべきアクションである。

This white paper presents a summary of the discussions regarding critical considerations to develop an extensive repository of online videos annotated with labels indicating questionable content. The main discussion points include: 1) the type of appropriate labels that will result in a valuable repository for the larger AI community; 2) how to design the collection and annotation process, as well as the distribution of the corpus to maximize its potential impact; and, 3) what actions we can take to reduce risk of trauma to annotators.
翻訳日:2021-03-15 03:36:45 公開日:2021-01-25
# (参考訳) 胸部X線画像を用いたCOVID-19コンピュータ支援診断の2段階的検討

A two-step explainable approach for COVID-19 computer-aided diagnosis from chest x-ray images ( http://arxiv.org/abs/2101.10223v1 )

ライセンス: CC BY 4.0
Carlo Alberto Barbano, Enzo Tartaglione, Claudio Berzovini, Marco Calandri, Marco Grangetto(参考訳) 患者の早期スクリーニングは、新型コロナウイルスの感染拡大に対する即時かつ迅速な対応を評価するために重要な問題です。 鼻咽頭の綿棒の使用は最も実行可能なアプローチと考えられていますが、結果は即時ではなく、高速試験の場合、十分に正確です。 早期スクリーニングにChest X-Ray (CXR)イメージングを使用することは、より速く、より正確な応答を提供する可能性があります。しかし、CXRからのCOVIDの診断は困難であり、その決定プロセスであるディープラーニングのサポートに頼る必要があります。 肺の既知の病理(異常)を最初に検出し、その上に病気を診断する説明可能な2段階の診断アプローチを提案します。 私たちのアプローチは、専門家の放射線科医と互換性のあるCOVID検出で有望なパフォーマンスを達成します。 私たちの実験はすべて、特に臨床応用において、説明可能性が機械学習アルゴリズムの信頼を構築する上で重要な役割を果たすことを念頭において行われました。

Early screening of patients is a critical issue in order to assess immediate and fast responses against the spread of COVID-19. The use of nasopharyngeal swabs has been considered the most viable approach; however, the result is not immediate or, in the case of fast exams, sufficiently accurate. Using Chest X-Ray (CXR) imaging for early screening potentially provides faster and more accurate response; however, diagnosing COVID from CXRs is hard and we should rely on deep learning support, whose decision process is, on the other hand, "black-boxed" and, for such reason, untrustworthy. We propose an explainable two-step diagnostic approach, where we first detect known pathologies (anomalies) in the lungs, on top of which we diagnose the illness. Our approach achieves promising performance in COVID detection, compatible with expert human radiologists. All of our experiments have been carried out bearing in mind that, especially for clinical applications, explainability plays a major role for building trust in machine learning algorithms.
翻訳日:2021-03-15 03:04:29 公開日:2021-01-25
# (参考訳) ガウス型グラッピング表現を用いたロボットグラッピング検出用軽量畳み込みニューラルネットワーク

Lightweight Convolutional Neural Network with Gaussian-based Grasping Representation for Robotic Grasping Detection ( http://arxiv.org/abs/2101.10226v1 )

ライセンス: CC BY 4.0
Hu Cao, Guang Chen, Zhijun Li, Jianjie Lin, Alois Knoll(参考訳) 深層学習法は,ロボットの把握検出性能の向上に優れた成果を上げている。 しかし,一般物体検出における深層学習法はロボット把持検出には適さない。 現在の物体検出器は、高精度と高速な推論速度のバランスをとるのが難しい。 本稿では,実際の把握シーンのnチャネル入力画像からロボットによる把握ポーズ推定を行うための,効率的で頑健な完全畳み込みニューラルネットワークモデルを提案する。 提案するネットワークは,一段階検出のための軽量な生成アーキテクチャである。 具体的には、Gaussianカーネルに基づく把握表現を導入し、トレーニングサンプルをエンコードし、最大の中央点把握自信の原則を具現化します。 一方、マルチスケール情報を抽出し、特徴の識別性を高めるために、私たちの把握検出アーキテクチャのボトルネックに受容フィールドブロック(RFB)を組み立てます。 また、画素の注意とチャンネルの注意を組み合わせ、ノイズ特性を抑制し、把握対象の特徴を強調して、さまざまな形状やサイズのコンテキスト情報を融合させることに自動的に焦点を合わせます。 CornellとJacquardの2つの公開把握データセットに関する広範な実験は、精度と推論速度のバランスをとる方法の最先端のパフォーマンスを示しています。 ネットワークは、コーネルとジャカードのデータセット上でそれぞれ98.9$\%$と95.6$\%$の精度でより良いパフォーマンスを達成しながら、他の優れたアルゴリズムよりも桁違いに小さい順序である。

The method of deep learning has achieved excellent results in improving the performance of robotic grasping detection. However, the deep learning methods used in general object detection are not suitable for robotic grasping detection. Current modern object detectors are difficult to strike a balance between high accuracy and fast inference speed. In this paper, we present an efficient and robust fully convolutional neural network model to perform robotic grasping pose estimation from an n-channel input image of the real grasping scene. The proposed network is a lightweight generative architecture for grasping detection in one stage. Specifically, a grasping representation based on Gaussian kernel is introduced to encode training samples, which embodies the principle of maximum central point grasping confidence. Meanwhile, to extract multi-scale information and enhance the feature discriminability, a receptive field block (RFB) is assembled to the bottleneck of our grasping detection architecture. Besides, pixel attention and channel attention are combined to automatically learn to focus on fusing context information of varying shapes and sizes by suppressing the noise feature and highlighting the grasping object feature. Extensive experiments on two public grasping datasets, Cornell and Jacquard demonstrate the state-of-the-art performance of our method in balancing accuracy and inference speed. The network is an order of magnitude smaller than other excellent algorithms while achieving better performance with an accuracy of 98.9$\%$ and 95.6$\%$ on the Cornell and Jacquard datasets, respectively.
翻訳日:2021-03-15 02:52:42 公開日:2021-01-25
# (参考訳) コントラスト学習に基づく特徴抽出のための統一フレームワーク

A Unified Framework for Feature Extraction based on Contrastive Learning ( http://arxiv.org/abs/2101.11703v1 )

ライセンス: CC BY 4.0
Hongjie Zhang(参考訳) 特徴抽出は高次元データにおける次元性の呪いを軽減する効果的な手法である。 自己教師あり学習の分野におけるコントラスト学習の発展により,新しい視点からのコントラスト学習に基づく特徴抽出のための統一的な枠組みを提案し,教師なし特徴抽出と教師なし特徴抽出の両方に適合する。 このフレームワークでは,まず,グラフ埋め込み(GE)に基づく対照的な学習グラフを構築し,正と負のペアを定義する新しい方法を提案する。 そして、コントラスト損失関数を最小化することにより、投影行列を解く。 この枠組みでは、類似したサンプルだけでなく、非教師付きGEに基づく異種サンプルも検討でき、教師付き特徴抽出とのギャップを狭めることができる。 提案手法の有効性を検証するため, 局所保存による非監督GE法LPP, 局所保存のない監督GE法LDA, 局所保存による監督GE法LFDA, CL-LPP, CL-LDA, CL-LFDAをそれぞれ提案した。 最後に,5つの実データを用いた数値実験を行った。

Feature extraction is an efficient approach for alleviating the curse of dimensionality in high-dimensional data. With the development of contrastive learning in the field of self-supervised learning, we propose a unified framework for feature extraction based on contrastive learning from a new perspective, which is suitable for both unsupervised and supervised feature extraction. In this framework, we first construct a contrastive learning graph based on graph embedding (GE), which proposes a new way to define positive and negative pairs. Then, we solve the projection matrix by minimizing the contrastive loss function. In this framework, we can consider not only similar samples but also dissimilar samples on the basis of unsupervised GE, so as to narrow the gap with supervised feature extraction. In order to verify the effectiveness of our proposed framework for unsupervised and supervised feature extraction, we improved the unsupervised GE method LPP with local preserving, the supervised GE method LDA without local preserving, and the supervised GE method LFDA with local preserving, and proposed CL-LPP, CL-LDA, and CL-LFDA, respectively. Finally, we performed numerical experiments on five real datasets.
翻訳日:2021-03-15 02:30:19 公開日:2021-01-25
# (参考訳) ブレグジットツイートにおける心理的ストレス検出のためのトランスファーラーニングアプローチ

Transfer Learning Approach for Detecting Psychological Distress in Brexit Tweets ( http://arxiv.org/abs/2102.00912v1 )

ライセンス: CC BY 4.0
Sean-Kelly Palicki, Shereen Fouad, Mariam Adedoyin-Olowe, Zahraa S. Abdallah(参考訳) 2016年、英国(英国)市民は2020年に正式に実施された欧州連合(EU)を離れることに投票しました。 この期間、イギリス住民はEUとの継続的な関係に関して大きな不確実性を経験した。 多くの人はソーシャルメディアプラットフォームを使って、この重要な出来事に対する感情を表現している。 最近、感情分析は、twitterコンテンツの精神的幸福を検出する重要なツールとみなされている。 しかし、政治的なツイートにおける心理的苦痛状態の検出は、抑うつ状態や不安状態を記述した明示的な文がないために難しい作業である。 そこで本論文では,ブレグジットツイートの非臨床心理的ストレス状態を測定するために,感情分析のためのトランスファーラーニング手法を活用する。 このフレームワークは、自己報告の心理的苦痛ツイート(ソースドメイン)から学んだ知識を移行して、ブレグジットツイート(ターゲットドメイン)の障害状態を検出します。 このフレームワークは、ソースとターゲットドメイン間の負の転送の影響を減らすために、ドメイン適応技術を適用します。 また、ブレグジットツイートにおける個人の心理的苦痛のレベルを検出するために使用できるブレグジット救済指数も導入している。 両方のドメインからのデータを含む実験をデザインする。 提案モデルは、ソースドメインとターゲットドメインの66%と62%の精度で、ブレグジットツイートにおける非臨床的心理的苦痛状態を検出することができる。

In 2016, United Kingdom (UK) citizens voted to leave the European Union (EU), which was officially implemented in 2020. During this period, UK residents experienced a great deal of uncertainty around the UK's continued relationship with the EU. Many people have used social media platforms to express their emotions about this critical event. Sentiment analysis has been recently considered as an important tool for detecting mental well-being in Twitter contents. However, detecting the psychological distress status in political-related tweets is a challenging task due to the lack of explicit sentences describing the depressive or anxiety status. To address this problem, this paper leverages a transfer learning approach for sentiment analysis to measure the non-clinical psychological distress status in Brexit tweets. The framework transfers the knowledge learnt from self-reported psychological distress tweets (source domain) to detect the distress status in Brexit tweets (target domain). The framework applies a domain adaptation technique to decrease the impact of negative transfer between source and target domains. The paper also introduces a Brexit distress index that can be used to detect levels of psychological distress of individuals in Brexit tweets. We design an experiment that includes data from both domains. The proposed model is able to detect the non-clinical psychological distress status in Brexit tweets with an accuracy of 66% and 62% on the source and target domains, respectively.
翻訳日:2021-03-15 02:29:01 公開日:2021-01-25
# (参考訳) 改訂から学ぶ: スケールでの議論におけるクレームの品質評価

Learning From Revisions: Quality Assessment of Claims in Argumentation at Scale ( http://arxiv.org/abs/2101.10250v1 )

ライセンス: CC BY 4.0
Gabriella Skitalinskaya, Jonas Klaff and Henning Wachsmuth(参考訳) 引数の品質を評価し、引数を構成するクレームは計算議論において重要なタスクとなっています。 しかし、異なる主張が同じ話題について同じスタンスを共有しているとしても、その評価は議論されているトピックの異なる側面の事前の認識と重み付けに依存する。 これにより、トピックに依存しない品質指標の学習が困難になる。 本稿では,同一のクレームの異なるリビジョンを比較することで,議論の面に関わらずクレーム品質の評価を行う。 我々は,Kialo.comから377k以上のクレームリビジョンペアを作成した大規模コーパスをコンパイルし,政治,倫理,エンターテイメントなどさまざまなトピックをカバーした。 次に、(a)どのリビジョンペアのクレームが良いかを評価し、(b)クレームのすべてのバージョンを品質でランク付けする2つのタスクを提案する。 組込み型ロジスティック回帰とトランスフォーマー型ニューラルネットワークを用いた最初の実験では有望な結果を示し,学習指標がトピックをまたいでよく一般化することを示唆した。 詳細なエラー解析では、クレームの品質寸法を確実に評価できるかどうかを洞察する。 すべての結果を再現するために必要なデータとスクリプトを提供します。

Assessing the quality of arguments and of the claims the arguments are composed of has become a key task in computational argumentation. However, even if different claims share the same stance on the same topic, their assessment depends on the prior perception and weighting of the different aspects of the topic being discussed. This renders it difficult to learn topic-independent quality indicators. In this paper, we study claim quality assessment irrespective of discussed aspects by comparing different revisions of the same claim. We compile a large-scale corpus with over 377k claim revision pairs of various types from kialo.com, covering diverse topics from politics, ethics, entertainment, and others. We then propose two tasks: (a) assessing which claim of a revision pair is better, and (b) ranking all versions of a claim by quality. Our first experiments with embedding-based logistic regression and transformer-based neural networks show promising results, suggesting that learned indicators generalize well across topics. In a detailed error analysis, we give insights into what quality dimensions of claims can be assessed reliably. We provide the data and scripts needed to reproduce all results.
翻訳日:2021-03-15 02:11:50 公開日:2021-01-25
# (参考訳) コミュニケーションゲームによる視覚的意味論の出現

The emergence of visual semantics through communication games ( http://arxiv.org/abs/2101.10253v1 )

ライセンス: CC BY 4.0
Daniela Mihai and Jonathon Hare(参考訳) 近年,レファレンスシグナリングゲームをリアルイメージでプレイすることを学ぶエージェント間のコミュニケーションシステムの出現が注目されている。 作業の大部分は、エージェントが通信を学習する情報をバイアスする可能性のある、固定された事前訓練された画像特徴抽出ネットワークの使用に重点を置いている。 本研究では,'sender'エージェントが画像に関する情報を'receiver'に伝達し,多数の邪魔者から正しい画像を選択しなければならないシグナリングゲームの設定について検討する。 特徴抽出器の重みと課題がモデルによって学習された視覚的意味論に与える影響を検討する。 まず,事前学習された特徴抽出ネットワークの利用が,創発的コミュニケーションチャネルによって伝達される視覚意味論を誘導的にバイアスし,誘発される視覚意味論を定量化することを示す。 次に,視覚特徴抽出器の教師付き事前学習を必要とせず,意味的に意味のあるコミュニケーションの出現を促すために,帰納的バイアスを導入する方法について検討する。 画像の概念特性をキャプチャする視覚的表現を誘導する目的で,入力画像とゲーム内の追加タスクに様々な拡張を課す。 実験により,視覚的意味論を捉えたコミュニケーションシステムは,適切なタイプのゲームをプレイすることで,完全に自己指導的に学習できることが実証された。 我々の研究は、創発的なコミュニケーション研究と自己教師型特徴学習のギャップを埋める。

The emergence of communication systems between agents which learn to play referential signalling games with realistic images has attracted a lot of attention recently. The majority of work has focused on using fixed, pretrained image feature extraction networks which potentially bias the information the agents learn to communicate. In this work, we consider a signalling game setting in which a `sender' agent must communicate the information about an image to a `receiver' who must select the correct image from many distractors. We investigate the effect of the feature extractor's weights and of the task being solved on the visual semantics learned by the models. We first demonstrate to what extent the use of pretrained feature extraction networks inductively bias the visual semantics conveyed by emergent communication channel and quantify the visual semantics that are induced. We then go on to explore ways in which inductive biases can be introduced to encourage the emergence of semantically meaningful communication without the need for any form of supervised pretraining of the visual feature extractor. We impose various augmentations to the input images and additional tasks in the game with the aim to induce visual representations which capture conceptual properties of images. Through our experiments, we demonstrate that communication systems which capture visual semantics can be learned in a completely self-supervised manner by playing the right types of game. Our work bridges a gap between emergent communication research and self-supervised feature learning.
翻訳日:2021-03-15 01:50:13 公開日:2021-01-25
# (参考訳) VConstruct:変分オートエンコーダを用いたChl-aデータのギャップ充填

VConstruct: Filling Gaps in Chl-a Data Using a Variational Autoencoder ( http://arxiv.org/abs/2101.10260v1 )

ライセンス: CC BY 4.0
Matthew Ehrler and Neil Ernst(参考訳) クロロフィルaのリモートセンシングは気候変動のモニタリングに不可欠である。 Chlorphyll-a測定は、海中の藻類濃度のアイデアを与え、海洋の健康を監視することができます。 しかし、データ収集に使用される衛星が雲やその他のアーティファクトによって妨害されるのが一般的な問題である。 これは衛星からの時系列データが空間的データ損失に苦しむことを意味する。 これらの画像の欠落部分を様々な精度で再構成できるアルゴリズムは数多く存在し、データ補完による経験的直交関数(dineof)が現在の標準となっている。 しかし、DINEOFは遅く、時間的に均質な水中での精度の低下に悩まされ、時間的データに依存し、単一の潜在的再構成しか生成できない。 可変オートエンコーダ(VAE)を用いたクロロフィルaデータの再構築のための機械学習手法を提案する。 私達の正確さの結果はDINEOFより競争ですが、わずかに正確ではないです。 提案手法の利点として,計算時間を大幅に短縮し,複数の潜在的再構成を生成できることを挙げる。 最後に、計画されている改善と今後の作業の概要を述べます。

Remote sensing of Chlorophyll-a is vital in monitoring climate change. Chlorphyll-a measurements give us an idea of the algae concentrations in the ocean, which lets us monitor ocean health. However, a common problem is that the satellites used to gather the data are commonly obstructed by clouds and other artifacts. This means that time series data from satellites can suffer from spatial data loss. There are a number of algorithms that are able to reconstruct the missing parts of these images to varying degrees of accuracy, with Data INterpolating Empirical Orthogonal Functions (DINEOF) being the current standard. However, DINEOF is slow, suffers from accuracy loss in temporally homogenous waters, reliant on temporal data, and only able to generate a single potential reconstruction. We propose a machine learning approach to reconstruction of Chlorophyll-a data using a Variational Autoencoder (VAE). Our accuracy results to date are competitive with but slightly less accurate than DINEOF. We show the benefits of our method including vastly decreased computation time and ability to generate multiple potential reconstructions. Lastly, we outline our planned improvements and future work.
翻訳日:2021-03-15 01:26:34 公開日:2021-01-25
# (参考訳) TDMSci: タスクデータセットとメトリクスの科学文献エンティティタグ付けに特化したコーパス

TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of Tasks Datasets and Metrics ( http://arxiv.org/abs/2101.10273v1 )

ライセンス: CC BY 4.0
Yufang Hou, Charles Jochim, Martin Gleize, Francesca Bonin and Debasis Ganguly(参考訳) 課題,データセット,評価メトリクスは,実験科学論文を理解する上で重要な概念である。 しかし、科学文献のための情報抽出に関するこれまでの研究は主に抽象論のみに焦点を当てており、データセットを別のタイプの実体として扱うことはない(Zadeh and Schumann, 2016; Luan et al., 2018)。 本稿では,NLP論文から抽出した2000文に対して,タスク(T),データセット(D),メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。 簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し, aclアンソロジーから約30,000のnlp論文に適用した。 コーパスは、科学出版の要約(Erera et al., 2019)と知識発見の研究を促進するために、コミュニティに公開されている。

Tasks, Datasets and Evaluation Metrics are important concepts for understanding experimental scientific papers. However, most previous work on information extraction for scientific literature mainly focuses on the abstracts only, and does not treat datasets as a separate type of entity (Zadeh and Schumann, 2016; Luan et al., 2018). In this paper, we present a new corpus that contains domain expert annotations for Task (T), Dataset (D), Metric (M) entities on 2,000 sentences extracted from NLP papers. We report experiment results on TDM extraction using a simple data augmentation strategy and apply our tagger to around 30,000 NLP papers from the ACL Anthology. The corpus is made publicly available to the community for fostering research on scientific publication summarization (Erera et al., 2019) and knowledge discovery.
翻訳日:2021-03-15 01:19:53 公開日:2021-01-25
# (参考訳) 画像とテキストに関する不可解な質問

Unanswerable Questions about Images and Texts ( http://arxiv.org/abs/2102.06793v1 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) 答えられないテキストや画像に関する質問は、AIの特徴的な問題を引き起こします。 本稿では、VQA(視覚的質問応答)、QA(視覚的質問応答)、AI全般における不可解な問題について議論する。

Questions about a text or an image that cannot be answered raise distinctive issues for an AI. This note discusses the problem of unanswerable questions in VQA (visual question answering), in QA (visual question answering), and in AI generally.
翻訳日:2021-03-15 01:08:19 公開日:2021-01-25
# (参考訳) QFold:タンパク質折り畳みを解くための量子ウォークとディープラーニング

QFold: Quantum Walks and Deep Learning to Solve Protein Folding ( http://arxiv.org/abs/2101.10279v1 )

ライセンス: CC BY 4.0
P A M Casares, Roberto Campos, M A Martin-Delgado(参考訳) 現在の生化学研究の最も重要な課題の1つである3Dにおけるタンパク質の折り畳み方を予測するための量子計算ツールを開発しています。 本研究では,最近の深層学習の進歩を,メトロポリスアルゴリズムに適用した量子ウォークの手法と組み合わせる方法について述べる。 その結果、qfoldは完全なスケーラブルなハイブリッド量子アルゴリズムであり、従来の量子アプローチとは対照的に、格子モデルの単純化を必要とせず、アミノ酸のねじれ角の観点からパラメータ化のより現実的な仮定に依存している。 我々は、異なるアニーリングスケジュールの古典的アナログと比較し、多項式量子優位性を求め、IBMQ Casablanca量子プロセッサにおける量子メトロポリスの概念実証を検証した。

We develop quantum computational tools to predict how proteins fold in 3D, one of the most important problems in current biochemical research. We explain how to combine recent deep learning advances with the well known technique of quantum walks applied to a Metropolis algorithm. The result, QFold, is a fully scalable hybrid quantum algorithm that in contrast to previous quantum approaches does not require a lattice model simplification and instead relies on the much more realistic assumption of parameterization in terms of torsion angles of the amino acids. We compare it with its classical analog for different annealing schedules and find a polynomial quantum advantage, and validate a proof-of-concept realization of the quantum Metropolis in IBMQ Casablanca quantum processor.
翻訳日:2021-03-15 00:54:44 公開日:2021-01-25
# (参考訳) PAWLS: ラベルと構造を持つPDFアノテーション

PAWLS: PDF Annotation With Labels and Structure ( http://arxiv.org/abs/2101.10281v1 )

ライセンス: CC BY 4.0
Mark Neumann, Zejiang Shen, Sam Skjonsberg(参考訳) Adobe の Portable Document Format (PDF) はビューのみのドキュメントをリッチなビジュアルマークアップで配布する方法として人気がある。 これは、これらの文書の注釈付けが困難であるため、PDF文書に含まれる情報をトレーニングモデルやデータ分析に使用したいNLP実践者に課題を提示します。 本稿では,PDF文書フォーマットに特化して設計された新しいアノテーションツールPAWLS(PDF Annotation with Labels and Structure)を提案する。 PAWLSは、アノテータが正確にアノテートするために拡張コンテキストを必要とする混合モードアノテーションやシナリオに特に適している。 PAWLSは、スパンベースのテキストアノテーション、N-aryリレーション、フリーフォーム、非テキストバウンディングボックスをサポートし、これらはすべて、マルチモーダル機械学習モデルをトレーニングするための便利なフォーマットでエクスポートできる。 読み取り専用PAWLSサーバはhttps://pawls.apps.allenai.org/で、ソースコードはhttps://github.com/allenai/pawlsで入手できる。

Adobe's Portable Document Format (PDF) is a popular way of distributing view-only documents with a rich visual markup. This presents a challenge to NLP practitioners who wish to use the information contained within PDF documents for training models or data analysis, because annotating these documents is difficult. In this paper, we present PDF Annotation with Labels and Structure (PAWLS), a new annotation tool designed specifically for the PDF document format. PAWLS is particularly suited for mixed-mode annotation and scenarios in which annotators require extended context to annotate accurately. PAWLS supports span-based textual annotation, N-ary relations and freeform, non-textual bounding boxes, all of which can be exported in convenient formats for training multi-modal machine learning models. A read-only PAWLS server is available at https://pawls.apps.allenai.org/ and the source code is available at https://github.com/allenai/pawls.
翻訳日:2021-03-15 00:19:56 公開日:2021-01-25
# (参考訳) ハイパースペクトル画像分類:ハイブリッドCNNにおける次元低減の成果

Hyperspectral Image Classification: Artifacts of Dimension Reduction on Hybrid CNN ( http://arxiv.org/abs/2101.10532v1 )

ライセンス: CC BY 4.0
Muhammad Ahmad, Sidrah Shabbir, Rana Aamir Raza, Manuel Mazzara, Salvatore Distefano, Adil Mehmood Khan(参考訳) 畳み込みニューラルネットワーク(CNN)はハイパースペクトル画像分類(HSIC)のために広く研究されており、2Dおよび3DCNNモデルはハイパースペクトル画像の空間的およびスペクトル情報を利用するのに非常に効率的であることが証明されている。 しかし、2D CNNは空間情報のみを考慮し、スペクトル情報を無視する一方、3D CNNは空間スペクトル情報を高い計算コストで共同で活用する。 そこで本研究では, 軽量CNN (3D) モデルと 2D-CNN (2D-CNN) モデルを提案する。 5つのベンチマークハイパースペクトルデータセット(すなわち、SalinasA、Salinas、Indian Pines、Pavia University、Pavia Center、Botswana)が実験的評価に使用されている。 実験の結果,提案パイプラインは,一般的な計算コストの高い設計選択を除いて,最先端の2d/3d cnnモデルと比較して,一般化性能,統計的意義,計算複雑性の面で優れていた。

Convolutional Neural Networks (CNN) has been extensively studied for Hyperspectral Image Classification (HSIC) more specifically, 2D and 3D CNN models have proved highly efficient in exploiting the spatial and spectral information of Hyperspectral Images. However, 2D CNN only considers the spatial information and ignores the spectral information whereas 3D CNN jointly exploits spatial-spectral information at a high computational cost. Therefore, this work proposed a lightweight CNN (3D followed by 2D-CNN) model which significantly reduces the computational cost by distributing spatial-spectral feature extraction across a lighter model alongside a preprocessing that has been carried out to improve the classification results. Five benchmark Hyperspectral datasets (i.e., SalinasA, Salinas, Indian Pines, Pavia University, Pavia Center, and Botswana) are used for experimental evaluation. The experimental results show that the proposed pipeline outperformed in terms of generalization performance, statistical significance, and computational complexity, as compared to the state-of-the-art 2D/3D CNN models except commonly used computationally expensive design choices.
翻訳日:2021-03-15 00:11:49 公開日:2021-01-25
# (参考訳) 深層学習に基づく混合次元GMMによるCryoEMの変動特性評価

Deep learning based mixed-dimensional GMM for characterizing variability in CryoEM ( http://arxiv.org/abs/2101.10356v1 )

ライセンス: CC BY 4.0
Muyuan Chen and Steven Ludtke(参考訳) ほとんどのタンパク質分子の機能には、構造的柔軟性や他の分子との動的相互作用が含まれる。 CryoEMは、コンフォメーション状態とコンフォメーション状態の異なる個々のマクロ分子を直接可視化する。 離散状態の分類には多くの方法があるが、人間の監督なしに連続的なコンフォーメーションの変化や多数の離散状態を特徴付けることは困難である。 本稿では、2次元粒子画像に写像された3次元ガウス混合モデルを用いてタンパク質や複合体のコンフォーメーションランドスケープを決定する機械学習アルゴリズムを提案する。 ディープニューラルネットワークアーキテクチャを用いて、タンパク質複合体内の構造的不均一性を自動的に解決し、コンフォメーションと構成の変化を記述した小さな潜在空間に粒子をマッピングする。 このシステムは、現在使われている他の多様体法よりも直感的で柔軟な表現を示す。 本手法をいくつかの異なる生体分子系に応用し,様々なスケールで組成変化およびコンフォメーション変化を探索する。

The function of most protein molecules involves structural flexibility and/or dynamic interactions with other molecules. CryoEM provides direct visualization of individual macromolecules in different conformational and compositional states. While many methods are available for classification of discrete states, characterization of continuous conformational changes or large numbers of discrete state without human supervision remains challenging. Here we present a machine learning algorithm to determine a conformational landscape for proteins or complexes using a 3-D Gaussian mixture model mapped onto 2-D particle images in known orientations. Using a deep neural network architecture, this method can automatically resolve the structural heterogeneity within the protein complex and map particles onto a small latent space describing conformational and compositional changes. This system presents a more intuitive and flexible representation than other manifold methods currently in use. We demonstrate this method on several different biomolecular systems to explore compositional and conformational changes at a range of scales.
翻訳日:2021-03-14 23:45:53 公開日:2021-01-25
# (参考訳) Regret-Optimal Filtering

Regret-Optimal Filtering ( http://arxiv.org/abs/2101.10357v1 )

ライセンス: CC BY 4.0
Oron Sabag, Babak Hassibi(参考訳) 線形状態空間モデル(例えばカルマンフィルタ設定)において、後悔の最適化のレンズによるフィルタリングの問題を考察する。 駆動障害と観測ノイズシーケンスに関する異なる仮定は、異なる推定値を引き起こす:有名なカルマンフィルタへの確率的設定、および境界付きエネルギー障害の決定論的な設定で$H_\infty$推定値。 本研究では,将来のすべての観測(いわゆる平滑化)にアクセス可能な透視型推定器の誤差エネルギーの推定と,現在および過去の観測のみにアクセス可能な因果関係との間にある後悔の概念に基づいて,フィルタ設計の新しい基準を定式化する。 残響最適推定器は、すべての有界エネルギーノイズ列間の最悪のケース差を最小限に抑えるために選択される。 得られた推定器は、ノイズの実現に拘わらず、透視推定器の挙動を模倣することを目的としており、確率的アプローチと決定論的アプローチの間を補間する。 2つの異なるレベルで後悔推定問題に対する解決策を提供する。 まず、nehari問題に縮小することで、演算子レベルでの解を提供する。 第二に、状態空間モデルの場合、最適な後悔を達成する推定器を明示的に見つける。 計算の観点からは、3つのリッカティ方程式と1つのリアプノフ方程式を解いて、後悔-最適推定器を容易に実装できる。 次元 $n$ の状態空間モデルの場合、後悔最適推定器は次元 $n$ の状態空間構造を有する。 我々は,様々な問題における推定器の適用性と有効性を示し,推定器の最適値に近い平均および最悪の性能を観察する。 したがって、後悔-最適性は推定器設計への実行可能なアプローチであると主張します。

We consider the problem of filtering in linear state-space models (e.g., the Kalman filter setting) through the lens of regret optimization. Different assumptions on the driving disturbance and the observation noise sequences give rise to different estimators: in the stochastic setting to the celebrated Kalman filter, and in the deterministic setting of bounded energy disturbances to $H_\infty$ estimators. In this work, we formulate a novel criterion for filter design based on the concept of regret between the estimation error energy of a clairvoyant estimator that has access to all future observations (a so-called smoother) and a causal one that only has access to current and past observations. The regret-optimal estimator is chosen to minimize this worst-case difference across all bounded-energy noise sequences. The resulting estimator is adaptive in the sense that it aims to mimic the behavior of the clairvoyant estimator, irrespective of what the realization of the noise will be and thus interpolates between the stochastic and deterministic approaches. We provide a solution for the regret estimation problem at two different levels. First, we provide a solution at the operator level by reducing it to the Nehari problem. Second, for state-space models, we explicitly find the estimator that achieves the optimal regret. From a computational perspective, the regret-optimal estimator can be easily implemented by solving three Riccati equations and a single Lyapunov equation. For a state-space model of dimension $n$, the regret-optimal estimator has a state-space structure of dimension $3n$. We demonstrate the applicability and efficacy of the estimator in a variety of problems and observe that the estimator has average and worst-case performances that are simultaneously close to their optimal values. We therefore argue that regret-optimality is a viable approach to estimator design.
翻訳日:2021-03-14 23:34:31 公開日:2021-01-25
# (参考訳) 言語の力:twitterデータを用いた気候緊急事態に対する感情理解

The Power of Language: Understanding Sentiment Towards the Climate Emergency using Twitter Data ( http://arxiv.org/abs/2101.10376v1 )

ライセンス: CC BY 4.0
Arman Sarjou(参考訳) 気候危機に対する態度の違いを理解することは、気候変動に関するリスクを軽減する効果的な行動のための政策変更を推進するための鍵となる。 石油・ガス産業は、世界の排出量のかなりの割合を占めているため、原油先物と気候危機に対する感情との間に関係があると推測することができます。 本研究は,twitter上でのトピックモデリングに潜在ディリクレ割当を用いることにより,気候災害時の会話を3つのトピックに分割することが可能であることを示す。 季節的自動回帰統合移動平均モデリングを用いた原油先物予測は、トレーニングデータとテストデータに0.196と0.209の根本平均二乗誤差で有望な結果をもたらす。 気候緊急事態に対する態度の変化を理解することは、密度ベースクラスタリング(dbscan)のような時空間分析手法を用いて改善できる決定的な結果をもたらす。

Understanding how attitudes towards the Climate Emergency vary can hold the key to driving policy changes for effective action to mitigate climate related risk. The Oil and Gas industry account for a significant proportion of global emissions and so it could be speculated that there is a relationship between Crude Oil Futures and sentiment towards the Climate Emergency. Using Latent Dirichlet Allocation for Topic Modelling on a bespoke Twitter dataset, this study shows that it is possible to split the conversation surrounding the Climate Emergency into 3 distinct topics. Forecasting Crude Oil Futures using Seasonal AutoRegressive Integrated Moving Average Modelling gives promising results with a root mean squared error of 0.196 and 0.209 on the training and testing data respectively. Understanding variation in attitudes towards climate emergency provides inconclusive results which could be improved using spatial-temporal analysis methods such as Density Based Clustering (DBSCAN).
翻訳日:2021-03-14 22:59:16 公開日:2021-01-25
# (参考訳) マルチモーダル変分オートエンコーダを用いた3次元オブジェクト再構成の欠落データ計算法

A Missing Data Imputation Method for 3D Object Reconstruction using Multi-modal Variational Autoencoder ( http://arxiv.org/abs/2101.10391v1 )

ライセンス: CC BY 4.0
Hyeonwoo Yu and Jean Oh(参考訳) 人間とロボットの効果的なコラボレーションには、ロボットが人間のオペレーターと視覚的認識を共有することが重要である。 しかし,2次元カメラ画像の3次元形状再構成作業などにおいて,低帯域幅ネットワーク上で大量のセンサデータをリアルタイムに転送することは特に困難である。 データ転送の負担を軽減するために、オートエンコーダなどのデータ圧縮技術を利用して、潜在変数を非コンパクト形式で送信することができる。 しかし、低帯域幅の制限や通信遅延のため、潜伏変数の次元の一部が通過時に失われて復元結果が縮退し、より高速な伝送を実現するために、潜伏変数の部分的要素のみを用いる意図的超過圧縮が用いられる。 これらの不完全なデータケースを処理するために,要素が部分的に失われたり,手作業で除外された潜在変数をインプテーションする手法を提案する。 toperform imputation with some dimension of variable, exploiting prior information of the category- or instance-levelis essential (英語) 一般に、変分オートエンコーダで使われる事前分布は、それらのラベルのすべてのトレーニングデータポイントから得られる。 このタイプのフラット化前処理は、カテゴリまたはインスタンスレベルの分布からインプテーションを実行するのが困難である。

For effective human-robot teaming, it is importantfor the robots to be able to share their visual perceptionwith the human operators. In a harsh remote collaborationsetting, however, it is especially challenging to transfer a largeamount of sensory data over a low-bandwidth network in real-time, e.g., for the task of 3D shape reconstruction given 2Dcamera images. To reduce the burden of data transferring, datacompression techniques such as autoencoder can be utilized toobtain and transmit the data in terms of latent variables in acompact form. However, due to the low-bandwidth limitation orcommunication delay, some of the dimensions of latent variablescan be lost in transit, degenerating the reconstruction results.Moreover, in order to achieve faster transmission, an intentionalover compression can be used where only partial elements ofthe latent variables are used. To handle these incomplete datacases, we propose a method for imputation of latent variableswhose elements are partially lost or manually excluded. Toperform imputation with only some dimensions of variables,exploiting prior information of the category- or instance-levelis essential. In general, a prior distribution used in variationalautoencoders is achieved from all of the training datapointsregardless of their labels. This type of flattened prior makes itdifficult to perform imputation from the category- or instance-level distributions.
翻訳日:2021-03-14 22:51:29 公開日:2021-01-25
# (参考訳) Learning-'N-Flying: 学習ベースの分散型ミッションAware UAS衝突回避スキーム

Learning-'N-Flying: A Learning-based, Decentralized Mission Aware UAS Collision Avoidance Scheme ( http://arxiv.org/abs/2101.10404v1 )

ライセンス: CC BY 4.0
Al\"ena Rodionova (1), Yash Vardhan Pant (2), Connor Kurtz (3), Kuk Jang (1), Houssam Abbas (3), Rahul Mangharam (1) ((1) University of Pennsylvania, (2) University of California Berkeley, (3) Oregon State University)(参考訳) アーバン・エア・モビリティ(Urban Air Mobility)は、数百人の有人無人航空機システム(UAS)が様々なミッションを行うシナリオである。 都市内の人間や商品を移動させること)は、未来の輸送ソリューションとして受け入れられている。 これが起こるための重要な要件の1つは、これらの都市圏の航空交通を安全に管理することです。 空域の密度が予想されるため、オンラインで展開できる高速な自律的なソリューションが必要です。 マルチUAS衝突回避(CA)フレームワークLearning-'N-Flying (LNF)を提案する。 分散化され、オン・ザ・フライで動作し、異なるオペレータが管理する自律uasが、信号時相論理を用いて、共通の空域で複雑なミッションを安全に行うことができる。 まず,混合整数線形プログラムとして2つのUASの予測衝突回避問題を定式化し,オンラインでの解決が困難であることを示す。 a)学習に基づく意思決定,b)分散凸最適化に基づく制御を組み合わせることで,まずL2F(Learning-to-Fly)を開発する。 LNFは衝突経路に2つ以上のUASがある場合にL2Fを拡張します。 広範なシミュレーションにより,本手法がオンライン(ミリ秒単位の計算時間)で実行可能であること,最悪の場合には障害率が1%未満であること,よりリラックスした操作では0%近く改善できることを示した。 複数のケーススタディを通して,提案手法を多種多様な設定に適用可能であることを示す。

Urban Air Mobility, the scenario where hundreds of manned and Unmanned Aircraft System (UAS) carry out a wide variety of missions (e.g. moving humans and goods within the city), is gaining acceptance as a transportation solution of the future. One of the key requirements for this to happen is safely managing the air traffic in these urban airspaces. Due to the expected density of the airspace, this requires fast autonomous solutions that can be deployed online. We propose Learning-'N-Flying (LNF) a multi-UAS Collision Avoidance (CA) framework. It is decentralized, works on-the-fly and allows autonomous UAS managed by different operators to safely carry out complex missions, represented using Signal Temporal Logic, in a shared airspace. We initially formulate the problem of predictive collision avoidance for two UAS as a mixed-integer linear program, and show that it is intractable to solve online. Instead, we first develop Learning-to-Fly (L2F) by combining: a) learning-based decision-making, and b) decentralized convex optimization-based control. LNF extends L2F to cases where there are more than two UAS on a collision path. Through extensive simulations, we show that our method can run online (computation time in the order of milliseconds), and under certain assumptions has failure rates of less than 1% in the worst-case, improving to near 0% in more relaxed operations. We show the applicability of our scheme to a wide variety of settings through multiple case studies.
翻訳日:2021-03-14 22:19:23 公開日:2021-01-25
# (参考訳) 時系列分類のためのスペクトル注意機構

Spectrum Attention Mechanism for Time Series Classification ( http://arxiv.org/abs/2101.10420v1 )

ライセンス: CC BY 4.0
Shibo Zhou, Yu Pan(参考訳) 時系列分類(TSC)は、常に重要かつ困難な研究課題である。 深層学習の幅広い応用により、ますます多くの研究者が深層学習モデルを使用してTSCの問題を解決する。 時系列は常に多くのノイズを含み、ネットワークトレーニングに悪影響を及ぼすため、通常、ネットワークを訓練する前に元のデータをフィルタリングします。 既存の手法は、フィルタリングとトレーニングを2つの段階として扱うことであり、フィルタの設計にはエキスパートエクスペリエンスが必要であり、アルゴリズムの設計の難しさを増大させ、普遍的ではない。 フィルタの本質は,重要でない周波数成分をフィルタリングし,注意機構に類似した重要な成分を強調することにある。 本稿では,スペクトル(SAM)に作用する注意メカニズムを提案する。 ネットワークは、適応フィルタリングを実現するために各周波数成分に適切な重みを割り当てることができる。 我々は、SAMの周波数スクリーニング機能を強化するためにL1正規化を用いる。 また、シーケンス全体のスペクトルを用いて時間領域情報の損失を回避するためのセグメント化SAM(SSAM)を提案する。 元のデータをセグメント化するために、タンブリングウィンドウが導入されます。 そして、各セグメントにSAMを適用して新機能を生成します。 適切なセグメント数を探索するためのヒューリスティック戦略を提案する。 実験の結果,SSAMはより優れた特徴表現を生成でき,ネットワークの収束を高速化し,ロバスト性や分類精度を向上できることがわかった。

Time series classification(TSC) has always been an important and challenging research task. With the wide application of deep learning, more and more researchers use deep learning models to solve TSC problems. Since time series always contains a lot of noise, which has a negative impact on network training, people usually filter the original data before training the network. The existing schemes are to treat the filtering and training as two stages, and the design of the filter requires expert experience, which increases the design difficulty of the algorithm and is not universal. We note that the essence of filtering is to filter out the insignificant frequency components and highlight the important ones, which is similar to the attention mechanism. In this paper, we propose an attention mechanism that acts on spectrum (SAM). The network can assign appropriate weights to each frequency component to achieve adaptive filtering. We use L1 regularization to further enhance the frequency screening capability of SAM. We also propose a segmented-SAM (SSAM) to avoid the loss of time domain information caused by using the spectrum of the whole sequence. In which, a tumbling window is introduced to segment the original data. Then SAM is applied to each segment to generate new features. We propose a heuristic strategy to search for the appropriate number of segments. Experimental results show that SSAM can produce better feature representations, make the network converge faster, and improve the robustness and classification accuracy.
翻訳日:2021-03-14 21:37:40 公開日:2021-01-25
# (参考訳) 画像分類におけるオンライン継続学習:実証的調査

Online Continual Learning in Image Classification: An Empirical Survey ( http://arxiv.org/abs/2101.10423v1 )

ライセンス: CC BY 4.0
Zheda Mai, Ruiwen Li, Jihwan Jeong, David Quispe, Hyunwoo Kim, Scott Sanner(参考訳) 画像分類のためのオンライン連続学習 オンラインデータとタスクのストリームからイメージを分類する学習の問題は、タスクには新しいクラス(クラスインクリメンタル)やデータ非定常(ドメインインクリメンタル)が含まれる可能性がある。 継続的な学習の重要な課題の1つは、壊滅的な忘れ(CF)、すなわち、より最近のタスクの存在下で古いタスクを忘れることを避けることです。 ここ数年、この問題に対処するために多くの方法やトリックが導入されてきたが、現実的で実用的な様々な設定下では、多くは公平かつ体系的に比較されていない。 To better understand the relative advantages of various approaches and the settings where they work best, this survey aims to (1) compare state-of-the-art methods such as MIR, iCARL, and GDumb and determine which works best at different experimental settings; (2) determine if the best class incremental methods are also competitive in domain incremental setting; (3) evaluate the performance of 7 simple but effective trick such as "review" trick and nearest class mean (NCM) classifier to assess their relative impact. 1)メモリバッファが小さい場合,提案したiCaRLは依然として競争力があり,GDumbは近年提案されている多くの手法を中規模データセットで上回り,MIRは大規模データセットで最良である。 2) では、GDumb は性能がかなり悪いが、MIR (すでに (1) と競合している) も、この非常に異なるが重要な設定において強い競争力を持っていることに注意してください。 全体として、これはMIRが広範囲の設定にわたる強く、多目的な方法であることを結論づけることができます。 (3)では、すべての7つのトリックが有益であり、「レビュー」トリックとNCM分類器で強化されると、MIRはオンラインの継続的な学習をオフライントレーニングにマッチするという究極の目標にはるかに近づかせるパフォーマンスレベルを生成します。

Online continual learning for image classification studies the problem of learning to classify images from an online stream of data and tasks, where tasks may include new classes (class incremental) or data nonstationarity (domain incremental). One of the key challenges of continual learning is to avoid catastrophic forgetting (CF), i.e., forgetting old tasks in the presence of more recent tasks. Over the past few years, many methods and tricks have been introduced to address this problem, but many have not been fairly and systematically compared under a variety of realistic and practical settings. To better understand the relative advantages of various approaches and the settings where they work best, this survey aims to (1) compare state-of-the-art methods such as MIR, iCARL, and GDumb and determine which works best at different experimental settings; (2) determine if the best class incremental methods are also competitive in domain incremental setting; (3) evaluate the performance of 7 simple but effective trick such as "review" trick and nearest class mean (NCM) classifier to assess their relative impact. Regarding (1), we observe earlier proposed iCaRL remains competitive when the memory buffer is small; GDumb outperforms many recently proposed methods in medium-size datasets and MIR performs the best in larger-scale datasets. For (2), we note that GDumb performs quite poorly while MIR -- already competitive for (1) -- is also strongly competitive in this very different but important setting. Overall, this allows us to conclude that MIR is overall a strong and versatile method across a wide variety of settings. For (3), we find that all 7 tricks are beneficial, and when augmented with the "review" trick and NCM classifier, MIR produces performance levels that bring online continual learning much closer to its ultimate goal of matching offline training.
翻訳日:2021-03-14 21:26:31 公開日:2021-01-25
# (参考訳) ニューラルネットワークを用いたデータセット内の隠れた機能依存法則の探索と分類

Finding hidden-feature depending laws inside a data set and classifying it using Neural Network ( http://arxiv.org/abs/2101.10427v1 )

ライセンス: CC BY-SA 4.0
Thilo Moshagen, Nihal Acharya Adde, Ajay Navilarekal Rajgopal(参考訳) ニューラルネットワークのログコッシュ損失関数は、アウトプライヤを過重にしない絶対誤差損失関数の利点と、平均付近の連続微分の平均二乗誤差の利点を組み合わせるために開発されており、学習の最終段階を容易にする。 クラスタ化されたデータの場合、ログコッシュ損失のある人工ニューラルネットワークが2つの平均よりも大きなクラスタを学ぶことは明らかです。 さらに、ANNは、セット値関数の回帰に使用されるとき、その選択の1つに近い値、すなわち、セット値関数の1つの分岐を学習し、平均2乗誤差NNは、その間の値を学ぶ。 本研究は,logcosh損失を持つ人工ニューラルネットワークを用いてパラメータ-アウトカムサンプルセットのセット値マッピングの分岐を探索し,それらの分岐に従ってサンプルを分類する手法を提案する。

The logcosh loss function for neural networks has been developed to combine the advantage of the absolute error loss function of not overweighting outliers with the advantage of the mean square error of continuous derivative near the mean, which makes the last phase of learning easier. It is clear, and one experiences it soon, that in the case of clustered data, an artificial neural network with logcosh loss learns the bigger cluster rather than the mean of the two. Even more so, the ANN, when used for regression of a set-valued function, will learn a value close to one of the choices, in other words, one branch of the set-valued function, while a mean-square-error NN will learn the value in between. This work suggests a method that uses artificial neural networks with logcosh loss to find the branches of set-valued mappings in parameter-outcome sample sets and classifies the samples according to those branches.
翻訳日:2021-03-14 21:25:06 公開日:2021-01-25
# (参考訳) 自律型インテリジェントエージェントのマルチエージェントシステムのテストと評価フレームワーク

Test and Evaluation Framework for Multi-Agent Systems of Autonomous Intelligent Agents ( http://arxiv.org/abs/2101.10430v1 )

ライセンス: CC BY 4.0
Erin Lanus, Ivan Hernandez, Adam Dachowicz, Laura Freeman, Melanie Grande, Andrew Lang, Jitesh H. Panchal, Anthony Patrick, Scott Welch(参考訳) テストと評価は、予期せぬ様々な条件下で、設計されたシステムが意図通りに機能することを保証するために必要なプロセスです。 本研究では,人工知能を組み込んだサイバーフィジカルシステムの複雑なアンサンブルのためのテストと評価の統一フレームワークを開発するという,ユニークな課題について考察する。 本稿では, 開発ライフサイクルだけでなく, 騒音, 変化, 競合する環境下での学習, 適応などを通じて, 開発ライフサイクル全体を通してテストと評価を取り入れたフレームワークを提案する。 このフレームワークは、テスト時間とリソースが制限されていることを尊重しながら、さまざまな階層的な構成スケールで多様なシステムの統合をテストするという課題を負っている。 汎用的なユースケースが提供され、フレームワークを介してユースケースを探索した結果、説明的な目的と研究の方向性が提案される。

Test and evaluation is a necessary process for ensuring that engineered systems perform as intended under a variety of conditions, both expected and unexpected. In this work, we consider the unique challenges of developing a unifying test and evaluation framework for complex ensembles of cyber-physical systems with embedded artificial intelligence. We propose a framework that incorporates test and evaluation throughout not only the development life cycle, but continues into operation as the system learns and adapts in a noisy, changing, and contended environment. The framework accounts for the challenges of testing the integration of diverse systems at various hierarchical scales of composition while respecting that testing time and resources are limited. A generic use case is provided for illustrative purposes and research directions emerging as a result of exploring the use case via the framework are suggested.
翻訳日:2021-03-14 21:14:04 公開日:2021-01-25
# (参考訳) 機械学習に基づく新しい手法を用いた運転用風力タービンブレードの損傷検出

Damage detection in operational wind turbine blades using a new approach based on machine learning ( http://arxiv.org/abs/2101.11711v1 )

ライセンス: CC BY 4.0
Kartik Chandrasekhar, Nevena Stevanovic, Elizabeth J. Cross, Nikolaos Dervilis, Keith Worden(参考訳) 信頼できる構造健康監視(SHM)技術の運用用風力タービンブレードへの適用は、彼らが動作している環境の不確実性のために、困難な作業です。 本稿では,ガウス過程(GP)を用いた新しいSHM手法を提案する。 この手法は、タービン上のブレードが構造特性で公称同一であり、同じ環境および運転変数(EOV)に遭遇するという事実を利用しています。 興味のある特性はブレードの最初のエッジワイズ周波数である。 GPは、ブレードが健全な状態にあるときに、ブレード間のこれらの関係が学習された後、あるブレードのエッジ周波数を予測するために使用される。 このアプローチを用いることで、提案したSHM手法は、ブレードが時間とともに異なる振る舞いを始めるタイミングを特定することができる。 この概念を検証するため, 提案したSHMシステムは, 風力タービンの羽根の実データに適用され, 何らかの損傷が生じたことが判明した。 GP予測と実際の周波数の間の残留誤差のXバー制御チャート分析は、システムが識別および修復される6ヶ月前に損傷の早期開始を成功裏に特定したことを示しています。

The application of reliable structural health monitoring (SHM) technologies to operational wind turbine blades is a challenging task, due to the uncertain nature of the environments they operate in. In this paper, a novel SHM methodology, which uses Gaussian Processes (GPs) is proposed. The methodology takes advantage of the fact that the blades on a turbine are nominally identical in structural properties and encounter the same environmental and operational variables (EOVs). The properties of interest are the first edgewise frequencies of the blades. The GPs are used to predict the edge frequencies of one blade given that of another, after these relationships between the pairs of blades have been learned when the blades are in a healthy state. In using this approach, the proposed SHM methodology is able to identify when the blades start behaving differently from one another over time. To validate the concept, the proposed SHM system is applied to real onshore wind turbine blade data, where some form of damage was known to have taken place. X-bar control chart analysis of the residual errors between the GP predictions and actual frequencies show that the system successfully identified early onset of damage as early as six months before it was identified and remedied.
翻訳日:2021-03-14 21:02:21 公開日:2021-01-25
# (参考訳) PolyLM: 言語モデリングによるPolysemyの学習

PolyLM: Learning about Polysemy through Language Modeling ( http://arxiv.org/abs/2101.10448v1 )

ライセンス: CC BY 4.0
Alan Ansell, Felipe Bravo-Marquez, Bernhard Pfahringer(参考訳) 単語埋め込みの「意味的コンフレーション不足」を避けるために、複数のモデルが個々の単語感覚を組み込むことを目的としている。 これらの手法は、一時はword sense induction (wsi) などのタスクでうまく機能していたが、コンテキスト化された埋め込みを利用するタスク固有の技術に取って代わられた。 しかし、感覚埋め込みと文脈化は相互に排他的である必要はない。 言語モデリング問題として,感性埋め込みを学習するタスクを定式化するPolyLMを導入し,文脈化技術の適用を可能にした。 第一に、ある文脈で起こる単語の確率が、その個々の感覚の確率の合計と等しいこと、第二に、ある単語の特定の発生において、その感覚の1つは、他の文脈よりもずっと説得力がある傾向があること、である。 WSI上でのPolyLMの評価は、従来の感覚埋め込み技術よりも大幅に優れており、パラメータが6倍少ないにもかかわらず、現在の最先端の特殊WSI法と一致することを示しています。 コードとトレーニング済みモデルはhttps://github.com/AlanAnsell/PolyLM.comで入手できる。

To avoid the "meaning conflation deficiency" of word embeddings, a number of models have aimed to embed individual word senses. These methods at one time performed well on tasks such as word sense induction (WSI), but they have since been overtaken by task-specific techniques which exploit contextualized embeddings. However, sense embeddings and contextualization need not be mutually exclusive. We introduce PolyLM, a method which formulates the task of learning sense embeddings as a language modeling problem, allowing contextualization techniques to be applied. PolyLM is based on two underlying assumptions about word senses: firstly, that the probability of a word occurring in a given context is equal to the sum of the probabilities of its individual senses occurring; and secondly, that for a given occurrence of a word, one of its senses tends to be much more plausible in the context than the others. We evaluate PolyLM on WSI, showing that it performs considerably better than previous sense embedding techniques, and matches the current state-of-the-art specialized WSI method despite having six times fewer parameters. Code and pre-trained models are available at https://github.com/AlanAnsell/PolyLM.
翻訳日:2021-03-14 20:52:58 公開日:2021-01-25
# (参考訳) ジョブショップスケジューリング問題に対する大規模ベンチマーク

Large-Scale Benchmarks for the Job Shop Scheduling Problem ( http://arxiv.org/abs/2102.08778v1 )

ライセンス: CC BY 4.0
Giacomo Da Col and Erich Teppan(参考訳) 本報告では,業界における実際のスケジューリング問題に類似した2つの新しいジョブショップスケジューリングベンチマークについて述べる。 特に目標は、大規模なベンチマーク(最大100万のオペレーション)を提供し、実際の産業状況で発生する問題に近い問題に関する最先端のスケジューリングソリューションをテストすることでした。 最初のベンチマークはよく知られたTaillard ベンチマーク (1992) の拡張であり、第二のベンチマークは既知の最適解を持つスケジューリングインスタンスのコレクションである。

This report contains the description of two novel job shop scheduling benchmarks that resemble instances of real scheduling problem as they appear in industry. In particular, the aim was to provide large-scale benchmarks (up to 1 million operations) to test the state-of-the-art scheduling solutions on problems that are closer to what occurs in a real industrial context. The first benchmark is an extension of the well known Taillard benchmark (1992), while the second is a collection of scheduling instances with a known-optimum solution.
翻訳日:2021-03-14 20:13:48 公開日:2021-01-25
# (参考訳) 統計的フラクタル探索(stochastic fractal search)アルゴリズムに関する調査

A Survey On (Stochastic Fractal Search) Algorithm ( http://arxiv.org/abs/2102.01503v1 )

ライセンス: CC BY 4.0
Mohammed ElKomy(参考訳) 進化的アルゴリズムは自然にインスパイアされた近似最適化アルゴリズムであり、一般的な数学的手法が良い解を提供しられなかったり、正確な解を見つけるのに従来の徹底的な探索アルゴリズムを使うのに不合理な時間を必要とする場合、科学の問題に通常干渉する。 これらの人口ベースのフレームワークの成功は主に、最も異なる複雑な最適化問題への柔軟性と適応の容易さに起因する。 本稿では, フラクタルと呼ばれる数学的概念に基づく成長の自然現象に着想を得た, 確率的フラクタル探索というメタヒューリスティックなアルゴリズムを提案する。 本論文は,提案するアルゴリズムに適用される文献によく用いられる工学設計最適化問題のアルゴリズムステップと応用例にも注目する。

Evolutionary Algorithms are naturally inspired approximation optimisation algorithms that usually interfere with science problems when common mathematical methods are unable to provide a good solution or finding the exact solution requires an unreasonable amount of time using traditional exhaustive search algorithms. The success of these population-based frameworks is mainly due to their flexibility and ease of adaptation to the most different and complex optimisation problems. This paper presents a metaheuristic algorithm called Stochastic Fractal Search, inspired by the natural phenomenon of growth based on a mathematical concept called the fractal, which is shown to be able to explore the search space more efficiently. This paper also focuses on the algorithm steps and some example applications of engineering design optimisation problems commonly used in the literature being applied to the proposed algorithm.
翻訳日:2021-03-14 20:07:40 公開日:2021-01-25
# (参考訳) サイクルクラスタリングを用いたアプライアンス動作モード同定

Appliance Operation Modes Identification Using Cycles Clustering ( http://arxiv.org/abs/2101.10472v1 )

ライセンス: CC BY 4.0
Abdelkareem Jaradat, Hanan Lutfiyya, Anwar Haque(参考訳) コスト、エネルギー需要、環境問題の増加により、多くの研究者がエネルギーモニタリングやエネルギー保存へのアプローチを見出した。 モノのインターネット(IoT)と機械学習(ML)の新興技術は、エネルギーを効率的に保存し、エネルギー消費の利用を改善する可能性を持つ技術を提供します。 スマートホームエネルギーマネジメントシステム(SHEMS)は、住宅セクターにおける需要対応(DR)の適用を通じて、省エネに貢献する可能性があります。 本論文では,DR支援において,感知された住宅分別消費電力を活用したSHEMSの基本的アプローチであるサイクルクラスタリング(OMICC)を用いたアプライアンス動作モード同定について,消費者に軽量なアプライアンス動作モードを選択する機会を提供することで提案する。 アプライアンスの単一使用プロファイル(SUP)のサイクルを抽出し、サイクルのクラスタの観点で特徴に再構成する。 これらの機能はk-nearest neighbors (knn) を使用して、すべての発生で使用されるオペレーションモードを特定するために使用される。 運用モードの識別は、消費者やサプライヤーに対するSHEMS内の多くの潜在的なスマートDRアプリケーションの基礎と見なされる

The increasing cost, energy demand, and environmental issues has led many researchers to find approaches for energy monitoring, and hence energy conservation. The emerging technologies of Internet of Things (IoT) and Machine Learning (ML) deliver techniques that have the potential to efficiently conserve energy and improve the utilization of energy consumption. Smart Home Energy Management Systems (SHEMSs) have the potential to contribute in energy conservation through the application of Demand Response (DR) in the residential sector. In this paper, we propose appliances Operation Modes Identification using Cycles Clustering (OMICC) which is SHEMS fundamental approach that utilizes the sensed residential disaggregated power consumption in supporting DR by providing consumers the opportunity to select lighter appliance operation modes. The cycles of the Single Usage Profile (SUP) of an appliance are extracted and reformed into features in terms of clusters of cycles. These features are then used to identify the operation mode used in every occurrence using K-Nearest Neighbors (KNN). Operation modes identification is considered a basis for many potential smart DR applications within SHEMS towards the consumers or the suppliers
翻訳日:2021-03-14 19:57:30 公開日:2021-01-25
# 談話レベル処理のためのランダム化深部構造予測

Randomized Deep Structured Prediction for Discourse-Level Processing ( http://arxiv.org/abs/2101.10435v1 )

ライセンス: Link先を確認
Manuel Widmoser, Maria Leonor Pacheco, Jean Honorio, Dan Goldwasser(参考訳) RNNやTransformer Networksのような表現力のあるテキストエンコーダは、近年NLPモデルの中心となっている。 作業の大部分は文レベルのタスクに重点を置いており、単一文中の単語間の依存関係、あるいは文のペアをキャプチャしている。 しかし、議論のマイニングのような特定のタスクは、長いテキストとそれら間の複雑な構造的依存関係の会計を必要とする。 深い構造化予測は、表現型ニューラルエンコーダの相補的な強度と高度に構造化されたドメインに対する構造的推論を組み合わせた一般的なフレームワークである。 それにもかかわらず、文を超える必要がある場合、ほとんどの作業は独立に訓練された分類器の出力スコアを組み合わせることに依存している。 この主な理由の1つは、制約付き推論が高い計算コストで来ることである。 本稿では,この懸念を緩和するためにランダム化推論を用いることを考察し,複雑な議論構造を含む一連のタスクに対して,深層構造予測と表現型ニューラルネットワークエンコーダを効率的に活用できることを示す。

Expressive text encoders such as RNNs and Transformer Networks have been at the center of NLP models in recent work. Most of the effort has focused on sentence-level tasks, capturing the dependencies between words in a single sentence, or pairs of sentences. However, certain tasks, such as argumentation mining, require accounting for longer texts and complicated structural dependencies between them. Deep structured prediction is a general framework to combine the complementary strengths of expressive neural encoders and structured inference for highly structured domains. Nevertheless, when the need arises to go beyond sentences, most work relies on combining the output scores of independently trained classifiers. One of the main reasons for this is that constrained inference comes at a high computational cost. In this paper, we explore the use of randomized inference to alleviate this concern and show that we can efficiently leverage deep structured prediction and expressive neural encoders for a set of tasks involving complicated argumentative structures.
翻訳日:2021-03-14 19:23:38 公開日:2021-01-25
# カリキュラム学習:調査

Curriculum Learning: A Survey ( http://arxiv.org/abs/2101.10382v1 )

ライセンス: Link先を確認
Petru Soviany, Radu Tudor Ionescu, Paolo Rota, Nicu Sebe(参考訳) 機械学習モデルを、簡単なサンプルから難しいものまで、意味のある順序でトレーニングすることで、カリキュラム学習は、追加の計算コストなしで、ランダムデータシャッフルに基づく標準的なトレーニングアプローチよりもパフォーマンスが向上する。 カリキュラム学習戦略は、機械学習のあらゆる分野において、幅広いタスクにおいてうまく採用されてきた。 しかし、より難しいデータを導入するための適切なペアリング機能と同様に、サンプルを簡単から困難にランク付けする方法を見つける必要は、カリキュラムのアプローチの使用を制限することができる。 本稿では,これらの制限が文献にどのように取り組まれているかを示し,機械学習における様々な課題に対するカリキュラム学習のインスタンス化について述べる。 様々な分類基準を考慮し,カリキュラム学習アプローチのマルチパースペクティブ分類を手作業で構築する。 さらに,発見したクラスタを分類法に関連付けた凝集クラスタリングアルゴリズムを用いて,カリキュラム学習手法の階層木を構築する。 最後に、私たちは今後の作業にいくつかの興味深い方向を示します。

Training machine learning models in a meaningful order, from the easy samples to the hard ones, using curriculum learning can provide performance improvements over the standard training approach based on random data shuffling, without any additional computational costs. Curriculum learning strategies have been successfully employed in all areas of machine learning, in a wide range of tasks. However, the necessity of finding a way to rank the samples from easy to hard, as well as the right pacing function for introducing more difficult data can limit the usage of the curriculum approaches. In this survey, we show how these limits have been tackled in the literature, and we present different curriculum learning instantiations for various tasks in machine learning. We construct a multi-perspective taxonomy of curriculum learning approaches by hand, considering various classification criteria. We further build a hierarchical tree of curriculum learning methods using an agglomerative clustering algorithm, linking the discovered clusters with our taxonomy. At the end, we provide some interesting directions for future work.
翻訳日:2021-03-14 19:23:22 公開日:2021-01-25
# ニューラルネットワークにおける活性化関数:体系的概要

Activation Functions in Artificial Neural Networks: A Systematic Overview ( http://arxiv.org/abs/2101.09957v1 )

ライセンス: Link先を確認
Johannes Lederer(参考訳) 活性化関数は人工ニューロンの出力を形作るため、ニューラルネットワークの一般および深層学習において不可欠な部分である。 ロジスティックやreluのようないくつかのアクティベーション関数は数十年にわたって使われてきた。 しかし、ディープラーニングが主流の研究テーマとなり、新しい活性化機能がキノコになり、理論と実践の両方に混乱を引き起こします。 本論文では, 人気アクティベーション機能とその特性について, 解析的かつ最新の概観を提供し, ニューラルネットワークを研究・適用するすべての人にとって, タイムリーなリソースとなる。

Activation functions shape the outputs of artificial neurons and, therefore, are integral parts of neural networks in general and deep learning in particular. Some activation functions, such as logistic and relu, have been used for many decades. But with deep learning becoming a mainstream research topic, new activation functions have mushroomed, leading to confusion in both theory and practice. This paper provides an analytic yet up-to-date overview of popular activation functions and their properties, which makes it a timely resource for anyone who studies or applies neural networks.
翻訳日:2021-03-14 19:23:06 公開日:2021-01-25
# PAC学習に基づくDNNの確率ロバスト性解析

Probabilistic Robustness Analysis for DNNs based on PAC Learning ( http://arxiv.org/abs/2101.10102v1 )

ライセンス: Link先を確認
Renjue Li and Pengfei Yang and Cheng-Chao Huang and Bai Xue and Lijun Zhang(参考訳) 本稿では,深層ニューラルネットワーク(DNN)解析のためのブラックボックスベースのアプローチを提案する。 DNN を入力から出力への関数 $\boldsymbol{f}$ と見なし、与えられた入力に対してローカルロバスト性プロパティを考慮する。 ロバストな制御設計におけるシナリオ最適化手法に基づき、目標ラベル $\ell$ と攻撃ラベル $i$ に関してスコア差分関数 $f_i-f_\ell$ を学びます。 入力画素上の線形テンプレートを使用し、線形プログラミング(LP)問題への還元に基づいてスコア差分関数の対応する係数を学習する。 スケーラブルにするために,コンポーネントベースの学習と集中学習を含む最適化を提案する。 学習された関数は、堅牢性特性のほぼ正しい(PAC)保証を提供します。 スコア差分関数はDNNの局所的挙動の近似であるので、潜在的な敵の例を生成するために使用することができ、元のネットワークは、それらが素早いかどうかを確認するために使用することができる。 最後に,絶対係数が大きい入力画素に着目し,それらを用いて攻撃シナリオを説明する。 提案手法をプロトタイプツールであるDeepPACに実装した。 実験の結果, resnet152のような非常に大きなニューラルネットワークを6.5$mのニューロンで処理でき, 決定境界に非常に近い敵の例をしばしば生成できることがわかった。

This paper proposes a black box based approach for analysing deep neural networks (DNNs). We view a DNN as a function $\boldsymbol{f}$ from inputs to outputs, and consider the local robustness property for a given input. Based on scenario optimization technique in robust control design, we learn the score difference function $f_i-f_\ell$ with respect to the target label $\ell$ and attacking label $i$. We use a linear template over the input pixels, and learn the corresponding coefficients of the score difference function, based on a reduction to a linear programming (LP) problems. To make it scalable, we propose optimizations including components based learning and focused learning. The learned function offers a probably approximately correct (PAC) guarantee for the robustness property. Since the score difference function is an approximation of the local behaviour of the DNN, it can be used to generate potential adversarial examples, and the original network can be used to check whether they are spurious or not. Finally, we focus on the input pixels with large absolute coefficients, and use them to explain the attacking scenario. We have implemented our approach in a prototypical tool DeepPAC. Our experimental results show that our framework can handle very large neural networks like ResNet152 with $6.5$M neurons, and often generates adversarial examples which are very close to the decision boundary.
翻訳日:2021-03-14 19:22:55 公開日:2021-01-25
# 対比対比学習による効率的なロバストネスの理解と達成

Understanding and Achieving Efficient Robustness with Adversarial Contrastive Learning ( http://arxiv.org/abs/2101.10027v1 )

ライセンス: Link先を確認
Anh Bui, Trung Le, He Zhao, Paul Montague, Seyit Camtepe, Dinh Phung(参考訳) 対比学習(CL)は最近、さまざまな下流タスクで表現を学習するための効果的なアプローチとして登場しました。 このアプローチの中心となるのは、潜在空間におけるデータとクラス表現の間の「コントラスト」の機会をモデルに提供するための正(類似)と負(類似)のセットの選択である。 本論文では,対向サンプルを用いたモデル堅牢性向上のためのCLについて検討する。 我々はまず、潜伏空間における敵の脆弱性がどのように振る舞うかを理解するための総合的研究を設計し、実施した。 これらの実証的証拠に基づいて,敵攻撃に対するモデルロバスト性を実現するために,効果的かつ効率的な教師付きコントラスト学習を提案する。 さらに,冗長性を除去し,アンカーとの相関性を改善することにより,正負のセットを最適化する新しいサンプル選択戦略を提案する。 ベンチマークデータセット上で行われた実験は、Adversarial Supervised Contrastive Learning(ASCL)アプローチが、堅牢な精度の観点から最先端の防御を2.6\%$上回ることを示し、提案された選択戦略を備えたASCLは、選択戦略なしでASCLと比較してわずか4.8\%$陽性と$6.3\%$陰性でさらに1.4\%$の改善を得ることができます。

Contrastive learning (CL) has recently emerged as an effective approach to learning representation in a range of downstream tasks. Central to this approach is the selection of positive (similar) and negative (dissimilar) sets to provide the model the opportunity to `contrast' between data and class representation in the latent space. In this paper, we investigate CL for improving model robustness using adversarial samples. We first designed and performed a comprehensive study to understand how adversarial vulnerability behaves in the latent space. Based on these empirical evidences, we propose an effective and efficient supervised contrastive learning to achieve model robustness against adversarial attacks. Moreover, we propose a new sample selection strategy that optimizes the positive/negative sets by removing redundancy and improving correlation with the anchor. Experiments conducted on benchmark datasets show that our Adversarial Supervised Contrastive Learning (ASCL) approach outperforms the state-of-the-art defenses by $2.6\%$ in terms of the robust accuracy, whilst our ASCL with the proposed selection strategy can further gain $1.4\%$ improvement with only $42.8\%$ positives and $6.3\%$ negatives compared with ASCL without a selection strategy.
翻訳日:2021-03-14 19:22:31 公開日:2021-01-25
# マルチモーダル機械翻訳のためのクロスリンガルビジュアルプリトレーニング

Cross-lingual Visual Pre-training for Multimodal Machine Translation ( http://arxiv.org/abs/2101.10044v1 )

ライセンス: Link先を確認
Ozan Caglayan, Menekse Kuyu, Mustafa Sercan Amac, Pranava Madhyastha, Erkut Erdem, Aykut Erdem, Lucia Specia(参考訳) 事前学習された言語モデルは、多くの自然言語タスクのパフォーマンスを実質的に改善することが示されている。 これらのモデルの初期の焦点は単一言語前訓練であったが、近年の進歩により言語間および視覚前訓練法が確立された。 本論文では,これら2つのアプローチを組み合わせ,視覚に基づくクロスリンガル表現を学習する。 具体的には,翻訳言語モデル(lample and conneau, 2019)をマスキング領域分類で拡張し,3方向並列視覚と言語コーパスで事前学習を行う。 マルチモーダル機械翻訳のための微調整を行うと、これらのモデルが最先端の性能を得ることを示す。 また,学習した基底表現の有用性に関する質的な洞察も提供する。

Pre-trained language models have been shown to improve performance in many natural language tasks substantially. Although the early focus of such models was single language pre-training, recent advances have resulted in cross-lingual and visual pre-training methods. In this paper, we combine these two approaches to learn visually-grounded cross-lingual representations. Specifically, we extend the translation language modelling (Lample and Conneau, 2019) with masked region classification and perform pre-training with three-way parallel vision & language corpora. We show that when fine-tuned for multimodal machine translation, these models obtain state-of-the-art performance. We also provide qualitative insights into the usefulness of the learned grounded representations.
翻訳日:2021-03-14 19:21:42 公開日:2021-01-25
# 汎用顔アンチスプーフィングのためのカメラ不変特徴学習

Camera Invariant Feature Learning for Generalized Face Anti-spoofing ( http://arxiv.org/abs/2101.10075v1 )

ライセンス: Link先を確認
Baoliang Chen, Wenhan Yang, Haoliang Li, Shiqi Wang and Sam Kwong(参考訳) 学習ベースのアンチスプーフィングでは、カメラモデルの相違が実際のアプリケーションシナリオに大きなドメインギャップをもたらしているというコンセンサスが高まっている。 本稿では,特徴レベルでの取得カメラからの固有ばらつきの影響を排除し,異なる取得デバイスに高度に適応可能な汎用的な顔スプーフィング検出モデルを実現するフレームワークについて述べる。 特に、フレームワークは2つのブランチで構成されている。 最初のブランチは、高周波領域における特徴レベルの分解を介してカメラ不変のスプーフィング機能を学ぶことを目的とする。 スプルーフィングの特徴が高周波領域にのみ存在するという事実に動機づけられて、第2ブランチでは、高周波および低周波情報の再構成に基づいて、抽出されたスポーフィング機能の識別能力を強化画像からさらに高める。 最後に、2つの枝の分類結果は重み付け戦略によって融合される。 実験では、提案手法がデータセット内設定とデータセット間設定の両方でより良いパフォーマンスを達成できることを示し、様々なアプリケーションシナリオで高い一般化能力を示す。

There has been an increasing consensus in learning based face anti-spoofing that the divergence in terms of camera models is causing a large domain gap in real application scenarios. We describe a framework that eliminates the influence of inherent variance from acquisition cameras at the feature level, leading to the generalized face spoofing detection model that could be highly adaptive to different acquisition devices. In particular, the framework is composed of two branches. The first branch aims to learn the camera invariant spoofing features via feature level decomposition in the high frequency domain. Motivated by the fact that the spoofing features exist not only in the high frequency domain, in the second branch the discrimination capability of extracted spoofing features is further boosted from the enhanced image based on the recomposition of the high-frequency and low-frequency information. Finally, the classification results of the two branches are fused together by a weighting strategy. Experiments show that the proposed method can achieve better performance in both intra-dataset and cross-dataset settings, demonstrating the high generalization capability in various application scenarios.
翻訳日:2021-03-14 19:21:32 公開日:2021-01-25
# ISP蒸留

ISP Distillation ( http://arxiv.org/abs/2101.10203v1 )

ライセンス: Link先を確認
Eli Schwartz, Alex Bronstein, Raja Giryes(参考訳) 現在、撮影された画像の多くは、ロボットや自動運転車のカメラなど、人間ではなく機械によって「観察」されている。 物体認識などの高レベルマシンビジョンモデルは、画像がカメラispによって標準画像空間に変換されると仮定する。 しかし、カメラISPは、人間の観察者に対して、マシンではなく、視覚的に喜ぶ画像を生成するために最適化されているため、ISPの計算時間を省いて、ビジョンモデルを生データに直接適用することができる。 しかし,RAW画像から直接そのようなモデルをトレーニングすると,性能低下が生じることが示されている。 RAWデータのアノテートを必要とせずに)この性能低下を軽減するために、RAWとRGBのイメージペアのデータセットを使用し、人間のラベルなしで容易に取得できる。 次に、RAW画像のモデル予測が処理されたRGB画像の既製プリトレーニングモデルの予測と一致するように、知識蒸留を使用してRAWデータに直接適用されるモデルをトレーニングします。 実験の結果,RAW画像の性能はラベル付きRAW画像で訓練されたモデルよりも有意に優れていることがわかった。 また、処理されたRGB画像の事前訓練されたモデルの予測に合理的に一致し、ISPの計算オーバーヘッドを節約します。

Nowadays, many of the images captured are "observed" by machines only and not by humans, for example, robots' or autonomous cars' cameras. High-level machine vision models, such as object recognition, assume images are transformed to some canonical image space by the camera ISP. However, the camera ISP is optimized for producing visually pleasing images to human observers and not for machines, thus, one may spare the ISP compute time and apply the vision models directly to the raw data. Yet, it has been shown that training such models directly on the RAW images results in a performance drop. To mitigate this drop in performance (without the need to annotate RAW data), we use a dataset of RAW and RGB image pairs, which can be easily acquired with no human labeling. We then train a model that is applied directly to the RAW data by using knowledge distillation such that the model predictions for RAW images will be aligned with the predictions of an off-the-shelf pre-trained model for processed RGB images. Our experiments show that our performance on RAW images is significantly better than a model trained on labeled RAW images. It also reasonably matches the predictions of a pre-trained model on processed RGB images, while saving the ISP compute overhead.
翻訳日:2021-03-14 19:21:08 公開日:2021-01-25
# トレーニングにおけるバイアス移行の多面的課題

Diverse Adversaries for Mitigating Bias in Training ( http://arxiv.org/abs/2101.10001v1 )

ライセンス: Link先を確認
Xudong Han, Timothy Baldwin, Trevor Cohn(参考訳) 対比学習は、標準的な方法よりも公平で偏見の少ない言語モデルを学ぶことができる。 しかし、現在の敵対的手法はモデルのバイアスを部分的に緩和するだけであり、トレーニング手順が不安定であることが多い。 本論文では,複数の多様な判別器を用いて,直交的隠れた表現を互いに学習することを奨励する,対比学習の新たなアプローチを提案する。 実験の結果, 偏りの低減とトレーニングの安定性の観点から, 標準逆除去法よりも大幅に改善することが示された。

Adversarial learning can learn fairer and less biased models of language than standard methods. However, current adversarial techniques only partially mitigate model bias, added to which their training procedures are often unstable. In this paper, we propose a novel approach to adversarial learning based on the use of multiple diverse discriminators, whereby discriminators are encouraged to learn orthogonal hidden representations from one another. Experimental results show that our method substantially improves over standard adversarial removal methods, in terms of reducing bias and the stability of training.
翻訳日:2021-03-14 19:20:28 公開日:2021-01-25
# 不規則サンプリング時系列に対するマルチタイムアテンションネットワーク

Multi-Time Attention Networks for Irregularly Sampled Time Series ( http://arxiv.org/abs/2101.10318v1 )

ライセンス: Link先を確認
Satya Narayan Shukla, Benjamin M. Marlin(参考訳) 不規則サンプリングは多くの時系列モデリングアプリケーションで発生し、標準的なディープラーニングモデルに重要な課題をもたらす。 この研究は、不規則にサンプリングされ、多変量である電子健康記録における生理学的時系列データの分析によって動機づけられる。 本稿では,マルチタイムアテンションネットワークと呼ばれる新しい深層学習フレームワークを提案する。 マルチタイムアテンションネットワークは、連続時間値の埋め込みを学び、注意メカニズムを使用して、可変数の観測を含む時系列の固定長表現を生成する。 複数のデータセットを用いた補間および分類タスクにおけるフレームワークの性能について検討する。 本研究の結果から,本手法はベースラインモデルや最近提案されたモデルよりも優れた性能を示しながら,現在の最先端手法よりもはるかに高速なトレーニング時間を提供する。

Irregular sampling occurs in many time series modeling applications where it presents a significant challenge to standard deep learning models. This work is motivated by the analysis of physiological time series data in electronic health records, which are sparse, irregularly sampled, and multivariate. In this paper, we propose a new deep learning framework for this setting that we call Multi-Time Attention Networks. Multi-Time Attention Networks learn an embedding of continuous-time values and use an attention mechanism to produce a fixed-length representation of a time series containing a variable number of observations. We investigate the performance of our framework on interpolation and classification tasks using multiple datasets. Our results show that our approach performs as well or better than a range of baseline and recently proposed models while offering significantly faster training times than current state-of-the-art methods.
翻訳日:2021-03-14 19:20:20 公開日:2021-01-25
# マルチアーマッドバンドを用いたオンラインおよびスケーラブルモデル選択

Online and Scalable Model Selection with Multi-Armed Bandits ( http://arxiv.org/abs/2101.10385v1 )

ライセンス: Link先を確認
Jiayi Xie, Michael Tashman, John Hoffman, Lee Winikor, Rouzbeh Gerami(参考訳) ライブトラフィックで動作する多くのオンラインアプリケーションは、トレーニング、バリデーション、ハイパーパラメータチューニングを履歴データで実行する機械学習モデルを利用している。 しかしながら、オフライン分析で強力なパフォーマンスを示すモデルでは、オンラインデプロイ時のパフォーマンスが低くなることが一般的である。 この問題は、非定常環境での履歴データに関するトレーニングの難しさの結果です。 さらに、モデル選択に使用される機械学習メトリクスは、テスト対象のアプリケーションの成功を決定するために使用される実世界のビジネスメトリクスと十分に相関しないかもしれない。 これらの問題は、MLモデルが入札戦略を駆動するリアルタイム入札(RTB)ドメインにおいて特に顕著であり、モデルの変更が広告キャンペーンのパフォーマンスに影響を与える可能性が高い。 本研究では,実世界のパフォーマンス指標に基づくRTB入札戦略のスケーラブルなオンライン選択システムであるAutomatic Model Selector(AMS)を提案する。 AMSはマルチアーミングバンディット(MAB)を採用し、ライブトラフィックに対する複数のモデルをほぼ同時に実行および評価し、最高のパフォーマンスのモデルに最もトラフィックを割り当て、オンラインパフォーマンスの悪いモデルへのトラフィックを減らし、キャンペーン全体のパフォーマンスに劣るモデルの影響を最小限に抑えます。 オフラインデータへの依存は避けられ、代わりに実行可能なビジネス目標に従ってモデルの選択をケースバイケースで行う。 AMSは、新しいモデルを開発後すぐにライブキャンペーンに安全に導入することを可能にし、全体的なパフォーマンスのリスクを最小限にする。 複数の広告キャンペーンのライブトラフィックテストでは、AMSシステムは広告キャンペーンのパフォーマンス向上に非常に効果的であることが証明されました。

Many online applications running on live traffic are powered by machine learning models, for which training, validation, and hyper-parameter tuning are conducted on historical data. However, it is common for models demonstrating strong performance in offline analysis to yield poorer performance when deployed online. This problem is a consequence of the difficulty of training on historical data in non-stationary environments. Moreover, the machine learning metrics used for model selection may not sufficiently correlate with real-world business metrics used to determine the success of the applications being tested. These problems are particularly prominent in the Real-Time Bidding (RTB) domain, in which ML models power bidding strategies, and a change in models will likely affect performance of the advertising campaigns. In this work, we present Automatic Model Selector (AMS), a system for scalable online selection of RTB bidding strategies based on real-world performance metrics. AMS employs Multi-Armed Bandits (MAB) to near-simultaneously run and evaluate multiple models against live traffic, allocating the most traffic to the best-performing models while decreasing traffic to those with poorer online performance, thereby minimizing the impact of inferior models on overall campaign performance. The reliance on offline data is avoided, instead making model selections on a case-by-case basis according to actionable business goals. AMS allows new models to be safely introduced into live campaigns as soon as they are developed, minimizing the risk to overall performance. In live-traffic tests on multiple ad campaigns, the AMS system proved highly effective at improving ad campaign performance.
翻訳日:2021-03-14 19:20:07 公開日:2021-01-25
# 学習パラメータグラフシフト演算子

Learning Parametrised Graph Shift Operators ( http://arxiv.org/abs/2101.10050v1 )

ライセンス: Link先を確認
George Dasoulas, Johannes Lutzeyer, Michalis Vazirgiannis(参考訳) 多くのドメインでは、データは現在グラフとして表現されているため、このデータのグラフ表現は機械学習においてますます重要になる。 ネットワークデータは暗黙的または明示的に、常にグラフシフト演算子(GSO)を用いて表現され、最も一般的な選択は隣接性、ラプラシア行列とその正規化である。 本稿では、グラフニューラルネットワーク(GNN)フレームワークにおいて、パラメータ値が最も一般的に使用されるGSOとメッセージパッシング演算子となる新しいパラメータGSO(PGSO)を提案する。 PGSOは、最先端のGNNアーキテクチャで使用される標準GSOの代替として提案され、PGSOパラメータの最適化はモデルトレーニングにシームレスに含まれています。 PGSOは実固有値を持ち、パラメータ値とPGSOのスペクトル境界に依存しない実固有ベクトルの集合が導出されることが証明された。 PGSOパラメータは確率的ブロックモデルネットワークの研究においてグラフ構造の空間性に適応することが示され、そこでは文献で見られるGSO正規化を自動的に複製する。 いくつかの実世界のデータセットでは、ノード分類タスクとグラフ分類タスクの両方にPGSOを組み込むことで、最先端のGNNアーキテクチャの精度が向上する。

In many domains data is currently represented as graphs and therefore, the graph representation of this data becomes increasingly important in machine learning. Network data is, implicitly or explicitly, always represented using a graph shift operator (GSO) with the most common choices being the adjacency, Laplacian matrices and their normalisations. In this paper, a novel parametrised GSO (PGSO) is proposed, where specific parameter values result in the most commonly used GSOs and message-passing operators in graph neural network (GNN) frameworks. The PGSO is suggested as a replacement of the standard GSOs that are used in state-of-the-art GNN architectures and the optimisation of the PGSO parameters is seamlessly included in the model training. It is proved that the PGSO has real eigenvalues and a set of real eigenvectors independent of the parameter values and spectral bounds on the PGSO are derived. PGSO parameters are shown to adapt to the sparsity of the graph structure in a study on stochastic blockmodel networks, where they are found to automatically replicate the GSO regularisation found in the literature. On several real-world datasets the accuracy of state-of-the-art GNN architectures is improved by the inclusion of the PGSO in both node- and graph-classification tasks.
翻訳日:2021-03-14 19:19:14 公開日:2021-01-25
# 対物説明のための条件付きジェネラティブモデル

Conditional Generative Models for Counterfactual Explanations ( http://arxiv.org/abs/2101.10123v1 )

ライセンス: Link先を確認
Arnaud Van Looveren, Janis Klaise, Giovanni Vacanti, Oliver Cobb(参考訳) counterfactualインスタンスは、機械学習モデルのローカルな振る舞いに対する人間解釈可能な洞察を提供する。 本論文では, 目的の予測と条件付き生成モデルとを一致させ, 単一フォワードパスで反実インスタンスのバッチを生成するための, 分散内反実モデル記述を生成するための汎用フレームワークを提案する。 この方法は、基礎となる予測モデルのタスクと同様に使用される生成モデルの種類に関して柔軟である。 これにより、画像や時系列、表データなどのさまざまなモダリティや、GANやオートエンコーダなどの生成モデルパラダイム、分類や回帰といった予測タスクへのフレームワークの直接的な適用が可能になる。 本稿では,画像(CelebA),時系列(ECG),混合型表状(Adult Census)データに対する提案手法の有効性について述べる。

Counterfactual instances offer human-interpretable insight into the local behaviour of machine learning models. We propose a general framework to generate sparse, in-distribution counterfactual model explanations which match a desired target prediction with a conditional generative model, allowing batches of counterfactual instances to be generated with a single forward pass. The method is flexible with respect to the type of generative model used as well as the task of the underlying predictive model. This allows straightforward application of the framework to different modalities such as images, time series or tabular data as well as generative model paradigms such as GANs or autoencoders and predictive tasks like classification or regression. We illustrate the effectiveness of our method on image (CelebA), time series (ECG) and mixed-type tabular (Adult Census) data.
翻訳日:2021-03-14 19:18:55 公開日:2021-01-25
# 疾患マスクによる胸部疾患局在の弱監視

Weakly Supervised Thoracic Disease Localization via Disease Masks ( http://arxiv.org/abs/2101.09915v1 )

ライセンス: Link先を確認
Hyun-Woo Kim, Hong-Gyu Jung, Seong-Whan Lee(参考訳) コンピュータ支援診断システムとして医療分野での深層学習システムの利用を可能にするためには、疾患の分類だけでなく、疾患の位置も提示することが不可欠である。 しかし,様々な胸部疾患に対するインスタンスレベルのアノテーションの収集は高価である。 そのため,画像レベルのアノテーションのみを用いる弱教師付き局所化手法が提案されている。 従来の方法では, 病原体の位置を分類の最も差別的な部分として示していたが, 深部ネットワークは, 識別不能なX線画像に対して, 間違った領域を局所化する。 そこで本研究では,主に疾患が発症する領域を記述する疾患マスクを用いた空間的注意法を提案する。 次に, 疾患発生の確率を最大化することにより, 正確な疾患領域の特定に空間的注意をあてる。 一方、胸部X線画像のさまざまなサイズ、回転、およびノイズは、疾患マスクの生成を困難にします。 画像間のばらつきを低減するために,入力されたx線画像を一般化画像に変換するアライメントモジュールを用いる。 8種類の疾患を持つNIH-Chest X-rayデータセットの広範な実験を通して,提案手法は最先端の手法と比較して,より優れたローカライゼーション性能を示すことを示す。

To enable a deep learning-based system to be used in the medical domain as a computer-aided diagnosis system, it is essential to not only classify diseases but also present the locations of the diseases. However, collecting instance-level annotations for various thoracic diseases is expensive. Therefore, weakly supervised localization methods have been proposed that use only image-level annotation. While the previous methods presented the disease location as the most discriminative part for classification, this causes a deep network to localize wrong areas for indistinguishable X-ray images. To solve this issue, we propose a spatial attention method using disease masks that describe the areas where diseases mainly occur. We then apply the spatial attention to find the precise disease area by highlighting the highest probability of disease occurrence. Meanwhile, the various sizes, rotations and noise in chest X-ray images make generating the disease masks challenging. To reduce the variation among images, we employ an alignment module to transform an input X-ray image into a generalized image. Through extensive experiments on the NIH-Chest X-ray dataset with eight kinds of diseases, we show that the proposed method results in superior localization performances compared to state-of-the-art methods.
翻訳日:2021-03-14 19:18:39 公開日:2021-01-25
# 歩行認識のための畳み込みニューラルネットワークの性能評価

Performance Evaluation of Convolutional Neural Networks for Gait Recognition ( http://arxiv.org/abs/2101.10141v1 )

ライセンス: Link先を確認
K.D. Apostolidis, P.S. Amanatidis, G.A. Papakostas(参考訳) 本稿では,歩行認識における深層学習モデルの性能評価について述べる。 この目的のために、歩行認識タスクを解決するためのCASIA-Bデータセットにモデルに適合するために、事前に訓練されたモデルに転送学習スキームが採用される。 この文脈において,18種類の一般畳み込みニューラルネットワーク (cnns) を,様々な条件下で約14,000種類の124クラスの画像を含むcasia-bの歩行エネルギー画像 (geis) を用いて再訓練し,その性能を精度で検討した。 さらに, 検討したモデルの性能は, モデルが検討している画像の一部を調べて, 決定を下すことによって説明できる。 ほぼ全てのモデルが90%以上の精度を達成しており、クラス数の増加にロバストな結果が得られているため、実験結果は非常に有望である。 さらに,本研究の重要な成果は,異なる問題に事前学習したCNNを用いて認識問題を効果的に解くことができ,モデル設計をカスタマイズする必要がなくなることである。

In this paper, a performance evaluation of well-known deep learning models in gait recognition is presented. For this purpose, the transfer learning scheme is adopted to pre-trained models in order to fit the models to the CASIA-B dataset for solving a gait recognition task. In this context, 18 popular Convolutional Neural Networks (CNNs), were re-trained using Gait Energy Images (GEIs) of CASIA-B containing almost 14000 images of 124 classes under various conditions, and their performance was studied in terms of accuracy. Moreover, the performance of the studied models is managed to be explained by examining the parts of the images being considered by the models towards providing their decisions. The experimental results are very promising since almost all the models achieved a high accuracy of over 90%, which is robust to the increasing number of classes. Furthermore, an important outcome of this study is the fact that a recognition problem can be effectively solved by using CNNs pre-trained to different problems, thus eliminating the need for customized model design.
翻訳日:2021-03-14 19:18:20 公開日:2021-01-25
# CNNにおけるスペクトル漏洩とカーネルサイズ再考

Spectral Leakage and Rethinking the Kernel Size in CNNs ( http://arxiv.org/abs/2101.10143v1 )

ライセンス: Link先を確認
Nergis Tomen, Jan van Gemert(参考訳) CNNの畳み込み層は、異なる周波数帯域に入力を分解する線形フィルタを実装している。 しかし、現代のほとんどのアーキテクチャは、畳み込みカーネルのサイズと形状に関するモデル選択を最適化する際に、フィルタ設計の標準原則を無視している。 本研究では,cnnの文脈におけるフィルタリング操作におけるウィンドウアーティファクトによるスペクトル漏洩問題について考察する。 我々は,CNNカーネルの小型化によってスペクトルリークの影響を受けやすくなり,性能劣化を招きうることを示す。 そこで本研究では,CNNアーキテクチャの漏洩を緩和するために,ハミングウィンドウ機能とともにより大きなカーネルサイズを使用することを提案する。 我々はFashion-MNIST, CIFAR-10, CIFAR-100, ImageNetなどのベンチマークデータセット上で, 畳み込み層における標準ウィンドウ関数の簡単な使用により, ベースラインの分類精度を従来の$3\times 3$カーネルで向上させることを示した。 最後に,ハミングウィンドウ表示を用いたCNNは,特定の種類の敵攻撃に対する堅牢性を高めたことを示す。

Convolutional layers in CNNs implement linear filters which decompose the input into different frequency bands. However, most modern architectures neglect standard principles of filter design when optimizing their model choices regarding the size and shape of the convolutional kernel. In this work, we consider the well-known problem of spectral leakage caused by windowing artifacts in filtering operations in the context of CNNs. We show that the small size of CNN kernels make them susceptible to spectral leakage, which may induce performance-degrading artifacts. To address this issue, we propose the use of larger kernel sizes along with the Hamming window function to alleviate leakage in CNN architectures. We demonstrate improved classification accuracy over baselines with conventional $3\times 3$ kernels, on multiple benchmark datasets including Fashion-MNIST, CIFAR-10, CIFAR-100 and ImageNet, via the simple use of a standard window function in convolutional layers. Finally, we show that CNNs employing the Hamming window display increased robustness against certain types of adversarial attacks.
翻訳日:2021-03-14 19:18:01 公開日:2021-01-25
# AdaBelief Optimizerによる広告の一般化

Generalizing Adversarial Examples by AdaBelief Optimizer ( http://arxiv.org/abs/2101.09930v1 )

ライセンス: Link先を確認
Yixiang Wang, Jiqiang Liu, Xiaolin Chang(参考訳) 最近の研究では、ディープニューラルネットワーク(DNN)が敵対的な例に対して脆弱であることが証明されています。 しかし、既存の敵対攻撃のほとんどは、敵対的に訓練されたモデルをだますことは困難です。 そこで本研究では,AdaBelief 反復高速勾配符号法 (AB-FGSM) を提案する。 AdaBelief最適化アルゴリズムをI-FGSMに統合することにより、AdaBelief最適化アルゴリズムの強力な一般化に頼って、逆例の一般化が改善されると信じている。 提案したAB-FGSMが生成する敵対的事例の有効性と伝達性を検証するため,様々な単一モデルおよびアンサンブルモデルに対して,ホワイトボックスおよびブラックボックス攻撃を行う。 提案手法は, 最先端攻撃法と比較して, ホワイトボックス設定における敵例を効果的に生成でき, 転送レートは最新の攻撃法よりも7%-21%高い。

Recent research has proved that deep neural networks (DNNs) are vulnerable to adversarial examples, the legitimate input added with imperceptible and well-designed perturbations can fool DNNs easily in the testing stage. However, most of the existing adversarial attacks are difficult to fool adversarially trained models. To solve this issue, we propose an AdaBelief iterative Fast Gradient Sign Method (AB-FGSM) to generalize adversarial examples. By integrating AdaBelief optimization algorithm to I-FGSM, we believe that the generalization of adversarial examples will be improved, relying on the strong generalization of AdaBelief optimizer. To validate the effectiveness and transferability of adversarial examples generated by our proposed AB-FGSM, we conduct the white-box and black-box attacks on various single models and ensemble models. Compared with state-of-the-art attack methods, our proposed method can generate adversarial examples effectively in the white-box setting, and the transfer rate is 7%-21% higher than latest attack methods.
翻訳日:2021-03-14 19:17:21 公開日:2021-01-25
# 多値データの融合法

A fusion method for multi-valued data ( http://arxiv.org/abs/2101.10115v1 )

ライセンス: Link先を確認
Martin Pap\v{c}o, Iosu Rodr\'iguez-Mart\'inez, Javier Fumanal-Idocin, Abdulrahman H. Altalhi and Humberto Bustince(参考訳) 本稿では,多次元データの集約に適した偏差に基づくアグリゲーション関数の概念の拡張を提案する。 我々の目的は、ペナルティ関数などの特定のデータ集合に対して最適な集約関数を選択しようとする他の方法による結果の改善と、そのような手法が必要とする時間的複雑さの低減である。 本稿では,この概念をどのように定義できるかを考察し,画像処理やディープラーニング,意思決定といった時間的制約が厳格な領域において,提案手法の適用性を示す3つの例を示す。

In this paper we propose an extension of the notion of deviation-based aggregation function tailored to aggregate multidimensional data. Our objective is both to improve the results obtained by other methods that try to select the best aggregation function for a particular set of data, such as penalty functions, and to reduce the temporal complexity required by such approaches. We discuss how this notion can be defined and present three illustrative examples of the applicability of our new proposal in areas where temporal constraints can be strict, such as image processing, deep learning and decision making, obtaining favourable results in the process.
翻訳日:2021-03-14 19:17:03 公開日:2021-01-25
# 競争下の創発的コミュニケーション

Emergent Communication under Competition ( http://arxiv.org/abs/2101.10276v1 )

ライセンス: Link先を確認
Michael Noukhovitch, Travis LaCroix, Angeliki Lazaridou, Aaron Courville(参考訳) 現代の機械学習の文献は、標準的なRLを用いた競合エージェント間のコミュニケーションを学ぶための負の結果しか得られない。 我々は、部分的に競合するシナリオのスペクトルを研究するために修正された送信受信機ゲームを導入し、通信が競争環境で実際に現れることを示す。 我々は、将来の研究のための3つの重要なポイントを実証的に示す。 まず,コミュニケーションが協調に比例することを示すとともに,標準学習アルゴリズムを用いた部分的競争シナリオに適用できることを示す。 第2に,コミュニケーションと操作の違いを強調し,これまでのコミュニケーションの指標を競合事例に拡張する。 第3に,従来の作業が独立したエージェント間のコミュニケーションを学ばなかった交渉ゲームについて検討する(Cao et al., 2018)。 この環境では、双方のエージェントがコミュニケーションの恩恵を受けなければならないことを示し、ゲームにわずかな修正を加えることで、競合エージェント間のコミュニケーションが成功することを示す。 この研究が誤解を覆し、競争力のある創発的コミュニケーションのさらなる研究を促すことを願っている。

The literature in modern machine learning has only negative results for learning to communicate between competitive agents using standard RL. We introduce a modified sender-receiver game to study the spectrum of partially-competitive scenarios and show communication can indeed emerge in a competitive setting. We empirically demonstrate three key takeaways for future research. First, we show that communication is proportional to cooperation, and it can occur for partially competitive scenarios using standard learning algorithms. Second, we highlight the difference between communication and manipulation and extend previous metrics of communication to the competitive case. Third, we investigate the negotiation game where previous work failed to learn communication between independent agents (Cao et al., 2018). We show that, in this setting, both agents must benefit from communication for it to emerge; and, with a slight modification to the game, we demonstrate successful communication between competitive agents. We hope this work overturns misconceptions and inspires more research in competitive emergent communication.
翻訳日:2021-03-14 19:16:54 公開日:2021-01-25
# 時間的遅延オートエンコーダ:確率的多変量時系列予測法

Temporal Latent Auto-Encoder: A Method for Probabilistic Multivariate Time Series Forecasting ( http://arxiv.org/abs/2101.10460v1 )

ライセンス: Link先を確認
Nam Nguyen, Brian Quanz(参考訳) 高次元多変量時系列の確率的予測は、計算負荷と分布モデリングの両方の観点から、非常に難しい課題である。 以前のほとんどの仕事は単純な分布の仮定をするか、あるいは直列相関のモデリングを放棄した。 有望な作業ラインは、潜在空間予測にスケーラブルな行列分解を利用するが、線形埋め込みに限定され、分布をモデル化できず、ディープラーニング予測を使用する場合のエンドツーエンドのトレーニングができない。 本稿では,時間的深層学習遅延空間予測モデルを用いて,多変量時系列の非線形分解を可能にする新しい時間的潜時自動エンコーダ手法を提案する。 確率的潜時空間モデルにより、入力系列の複雑な分布はデコーダを介してモデル化される。 広範な実験は、私たちのモデルが多くの一般的な多変量データセットで最先端のパフォーマンスを達成することを実証しています。

Probabilistic forecasting of high dimensional multivariate time series is a notoriously challenging task, both in terms of computational burden and distribution modeling. Most previous work either makes simple distribution assumptions or abandons modeling cross-series correlations. A promising line of work exploits scalable matrix factorization for latent-space forecasting, but is limited to linear embeddings, unable to model distributions, and not trainable end-to-end when using deep learning forecasting. We introduce a novel temporal latent auto-encoder method which enables nonlinear factorization of multivariate time series, learned end-to-end with a temporal deep learning latent space forecast model. By imposing a probabilistic latent space model, complex distributions of the input series are modeled via the decoder. Extensive experiments demonstrate that our model achieves state-of-the-art performance on many popular multivariate datasets, with gains sometimes as high as $50\%$ for several standard metrics.
翻訳日:2021-03-14 19:16:06 公開日:2021-01-25
# 空間軌道再構成のためのパターン組み立て

Pattern Ensembling for Spatial Trajectory Reconstruction ( http://arxiv.org/abs/2101.09844v1 )

ライセンス: Link先を確認
Shivam Pathak, Mingyi He, Sergey Malinchik, Stanislav Sobolevsky(参考訳) デジタルセンシングは、モビリティを評価し理解する前例のない機会を提供する。 しかし、不完全性、情報不足、不正確な可能性、および位置情報データの時間的不均一性は、その適用性を損なう可能性がある。 移動パターンが繰り返されることが多いため,局所近傍からの類似した軌道パターンを確率的にアンサンブルし,欠落あるいは信頼できない観測を堅牢に再構築する手法を提案する。 自動識別システム(AIS)が提供する船舶軌道データを用いて,従来の機能的軌道補間と比較して,提案手法の評価を行った。 本手法は,実世界の軌跡の類似性を効果的に活用することにより,拡張長と複素幾何学の欠落した軌跡セグメントを再構成するのに役立つ。 一時的に観測されていないときの移動物体の配置や、さらなる軌道採掘に役立つ均等なサンプル軌道補間の作成に使用できる。

Digital sensing provides an unprecedented opportunity to assess and understand mobility. However, incompleteness, missing information, possible inaccuracies, and temporal heterogeneity in the geolocation data can undermine its applicability. As mobility patterns are often repeated, we propose a method to use similar trajectory patterns from the local vicinity and probabilistically ensemble them to robustly reconstruct missing or unreliable observations. We evaluate the proposed approach in comparison with traditional functional trajectory interpolation using a case of sea vessel trajectory data provided by The Automatic Identification System (AIS). By effectively leveraging the similarities in real-world trajectories, our pattern ensembling method helps to reconstruct missing trajectory segments of extended length and complex geometry. It can be used for locating mobile objects when temporary unobserved as well as for creating an evenly sampled trajectory interpolation useful for further trajectory mining.
翻訳日:2021-03-14 19:15:51 公開日:2021-01-25
# 多様体熱補間によるガウス核化グラフラプラシアンの固有収束

Eigen-convergence of Gaussian kernelized graph Laplacian by manifold heat interpolation ( http://arxiv.org/abs/2101.09875v1 )

ライセンス: Link先を確認
Xiuyuan Cheng, Nan Wu(参考訳) 本研究は,ラプラス・ベルトラミ作用素に対するグラフラプラシアンのスペクトル収束を,高次元空間に埋め込まれた$d$次元多様体上の$N$ランダムなサンプルからグラフアフィニティ行列を構築するときの研究である。 ディリクレ形式収束を解析し、ガウス核との畳み込みにより近似固有関数を構成することにより、核帯域幅パラメータ $\epsilon \sim (\log n/n)^{1/(d/2+2)}$ を、固有値収束率 $n^{-1/(d/2+2)}$ とし、2-ノルムにおける固有ベクトル収束率 $n^{-1/(d/2+4)}$; $\epsilon \sim n^{-1/(d/2+3)}$ とすると、固有値と固有ベクトル率は$n^{-1/(d/2+3)}$となる。 これらのレートは最大で$\log n$ factorであり、有限個の低次固有値に対して証明される。 この結果は、データが多様体上で一様にサンプリングされたときに非正規化およびランダムウォークグラフラプラシアンと、非一様サンプリングデータを持つ密度補正グラフラプラシアン(両辺の次数行列によってアフィニティ行列が正規化される)が成り立つ。 中間結果として,密度補正グラフラプラシアンに対する新しい点分割型およびディリクレ型収束率を示す。 理論を検証するために数値的結果が提供される。

This work studies the spectral convergence of graph Laplacian to the Laplace-Beltrami operator when the graph affinity matrix is constructed from $N$ random samples on a $d$-dimensional manifold embedded in a possibly high dimensional space. By analyzing Dirichlet form convergence and constructing candidate approximate eigenfunctions via convolution with manifold heat kernel, we prove that, with Gaussian kernel, one can set the kernel bandwidth parameter $\epsilon \sim (\log N/ N)^{1/(d/2+2)}$ such that the eigenvalue convergence rate is $N^{-1/(d/2+2)}$ and the eigenvector convergence in 2-norm has rate $N^{-1/(d+4)}$; When $\epsilon \sim N^{-1/(d/2+3)}$, both eigenvalue and eigenvector rates are $N^{-1/(d/2+3)}$. These rates are up to a $\log N$ factor and proved for finitely many low-lying eigenvalues. The result holds for un-normalized and random-walk graph Laplacians when data are uniformly sampled on the manifold, as well as the density-corrected graph Laplacian (where the affinity matrix is normalized by the degree matrix from both sides) with non-uniformly sampled data. As an intermediate result, we prove new point-wise and Dirichlet form convergence rates for the density-corrected graph Laplacian. Numerical results are provided to verify the theory.
翻訳日:2021-03-14 19:15:36 公開日:2021-01-25
# ReLUネットワークによる確率分布の近似

Approximating Probability Distributions by ReLU Networks ( http://arxiv.org/abs/2101.09973v1 )

ライセンス: Link先を確認
Manuj Mukherjee and Aslan Tchamkerten and Mansoor Yousefi(参考訳) 入力分布と近似誤差を与えられたニューラルネットワークを用いて目標確率分布を近似するニューロンはいくつ必要か? 本稿では,入力分布が均一で,対象分布がヒストグラム分布のクラスに属する場合のこの問題について検討する。 我々は、これまで存在していた上界よりも厳密に優れている必須ニューロンの数に新しい上界を得る。 この改良の鍵となる要素は、区分線形関数を表すニューラルネットワークの効率的な構築である。 また、ヒストグラム分布を近似するのに必要なニューロンの最小数について下限を得る。

How many neurons are needed to approximate a target probability distribution using a neural network with a given input distribution and approximation error? This paper examines this question for the case when the input distribution is uniform, and the target distribution belongs to the class of histogram distributions. We obtain a new upper bound on the number of required neurons, which is strictly better than previously existing upper bounds. The key ingredient in this improvement is an efficient construction of the neural nets representing piecewise linear functions. We also obtain a lower bound on the minimum number of neurons needed to approximate the histogram distributions.
翻訳日:2021-03-14 19:15:00 公開日:2021-01-25
# 行列型エントロピー関数による測定依存性

Measuring Dependence with Matrix-based Entropy Functional ( http://arxiv.org/abs/2101.10160v1 )

ライセンス: Link先を確認
Shujian Yu, Francesco Alesiani, Xi Yu, Robert Jenssen, Jose C. Principe(参考訳) データの依存度を測定することは、統計と機械学習の中心的な役割を担います。 本研究では,既存の情報理論依存対策の主な考え方を,シャーラーの不等式による高レベルな視点に要約し,一般化する。 この一般化に基づき,行列ベース正規化全相関(t_\alpha^*$)と行列ベース正規化双対全相関(d_\alpha^*$)の2つの尺度を提案し,基礎となるデータ分布を明示的に推定することなく任意の次元空間における複数の変数の依存性を定量化する。 我々の尺度は微分可能かつ統計的に一般的なものよりも強力であることを示す。 また、遺伝子制御ネットワーク推論、共変量シフトおよび非ガウス雑音下での頑健な機械学習、部分空間外乱検出、および畳み込みニューラルネットワーク(CNN)の学習ダイナミクスの理解など、4つの異なる機械学習問題に対する我々の対策の効果を示し、それらの実用性、利点、およびそれらの問題への示唆を示す。 依存度測定のコードはhttps://bit.ly/AAAI-dependenceで入手できます。

Measuring the dependence of data plays a central role in statistics and machine learning. In this work, we summarize and generalize the main idea of existing information-theoretic dependence measures into a higher-level perspective by the Shearer's inequality. Based on our generalization, we then propose two measures, namely the matrix-based normalized total correlation ($T_\alpha^*$) and the matrix-based normalized dual total correlation ($D_\alpha^*$), to quantify the dependence of multiple variables in arbitrary dimensional space, without explicit estimation of the underlying data distributions. We show that our measures are differentiable and statistically more powerful than prevalent ones. We also show the impact of our measures in four different machine learning problems, namely the gene regulatory network inference, the robust machine learning under covariate shift and non-Gaussian noises, the subspace outlier detection, and the understanding of the learning dynamics of convolutional neural networks (CNNs), to demonstrate their utilities, advantages, as well as implications to those problems. Code of our dependence measure is available at: https://bit.ly/AAAI-dependence
翻訳日:2021-03-14 19:14:52 公開日:2021-01-25
# 冠動脈造影検査における新しい冠動脈抽出法と狭窄検出法

A new approach to extracting coronary arteries and detecting stenosis in invasive coronary angiograms ( http://arxiv.org/abs/2101.09848v1 )

ライセンス: Link先を確認
Chen Zhao, Haipeng Tang, Daniel McGonigle, Zhuo He, Chaoyang Zhang, Yu-Ping Wang, Hong-Wen Deng, Robert Bober, Weihua Zhou(参考訳) 安定した冠動脈疾患 (CAD) では, 医療療法による再血行再建による死亡・心筋梗塞の減少は確実ではない。 冠動脈は通常、狭窄を検出するために抽出される。 本研究では,ICAから冠状動脈を抽出する深層学習による自動アルゴリズムの開発を目標とし,自動血管分割のための2段階反復トレーニング戦略を備えたマルチインプット・マルチスケールU-Netを提案する。 Incorporating features such as the Inception residual module with depth-wise separable convolutional layers, the proposed model generated a refined prediction map with the following two training stages: (i) Stage I coarsely segmented the major coronary arteries from pre-processed single-channel ICAs and generated the probability map of vessels; (ii) during the Stage II, a three-channel image consisting of the original preprocessed image, a generated probability map, and an edge-enhanced image generated from the preprocessed image was fed to the proposed MIMS U-Net to produce the final segmentation probability map. トレーニング段階では、確率マップは反復的に更新され、ニューラルネットワークに供給される。 分節後,血管中心を抽出し,動脈径を算出し,狭窄度を評価するため,動脈狭窄検出アルゴリズムを開発した。 実験の結果,提案手法は平均diceスコア 0.8329, 平均感度 0.8281, 平均特異度 0.9979 となり, 73例から294 icasを得た。 また, 狭窄検出アルゴリズムは0.6668で, 正の予測値は0.7043であった。

In stable coronary artery disease (CAD), reduction in mortality and/or myocardial infarction with revascularization over medical therapy has not been reliably achieved. Coronary arteries are usually extracted to perform stenosis detection. We aim to develop an automatic algorithm by deep learning to extract coronary arteries from ICAs.In this study, a multi-input and multi-scale (MIMS) U-Net with a two-stage recurrent training strategy was proposed for the automatic vessel segmentation. Incorporating features such as the Inception residual module with depth-wise separable convolutional layers, the proposed model generated a refined prediction map with the following two training stages: (i) Stage I coarsely segmented the major coronary arteries from pre-processed single-channel ICAs and generated the probability map of vessels; (ii) during the Stage II, a three-channel image consisting of the original preprocessed image, a generated probability map, and an edge-enhanced image generated from the preprocessed image was fed to the proposed MIMS U-Net to produce the final segmentation probability map. During the training stage, the probability maps were iteratively and recurrently updated by feeding into the neural network. After segmentation, an arterial stenosis detection algorithm was developed to extract vascular centerlines and calculate arterial diameters to evaluate stenotic level. Experimental results demonstrated that the proposed method achieved an average Dice score of 0.8329, an average sensitivity of 0.8281, and an average specificity of 0.9979 in our dataset with 294 ICAs obtained from 73 patient. Moreover, our stenosis detection algorithm achieved a true positive rate of 0.6668 and a positive predictive value of 0.7043.
翻訳日:2021-03-14 19:14:31 公開日:2021-01-25
# 基礎画像における深層学習の応用:一考察

Applications of Deep Learning in Fundus Images: A Review ( http://arxiv.org/abs/2101.09864v1 )

ライセンス: Link先を確認
Tao Li and Wang Bo and Chunyu Hu and Hong Kang and Hanruo Liu and Kai Wang and Huazhu Fu(参考訳) 眼疾患早期検診における眼底画像の使用は臨床的に非常に重要である。 その強力な性能により、深層学習は、病変分割、バイオマーカー分割、疾患診断、画像合成などの関連アプリケーションでますます人気が高まっています。 そのため,眼底画像の深層学習における最近の展開をレビュー論文で要約する必要がある。 本稿では,階層構造を慎重に設計した143のアプリケーション論文を紹介する。 さらに、33の公開データセットが提示される。 各タスクに要約と分析が提供される。 最後に、全てのタスクに共通する制限が明らかにされ、可能な解決策が与えられる。 我々はまた、この分野の急速な開発に適応するために、最先端の結果と新しくリリースされたデータセットをhttps://github.com/nkicsl/Fundus Reviewでリリースし、定期的に更新します。

The use of fundus images for the early screening of eye diseases is of great clinical importance. Due to its powerful performance, deep learning is becoming more and more popular in related applications, such as lesion segmentation, biomarkers segmentation, disease diagnosis and image synthesis. Therefore, it is very necessary to summarize the recent developments in deep learning for fundus images with a review paper. In this review, we introduce 143 application papers with a carefully designed hierarchy. Moreover, 33 publicly available datasets are presented. Summaries and analyses are provided for each task. Finally, limitations common to all tasks are revealed and possible solutions are given. We will also release and regularly update the state-of-the-art results and newly-released datasets at https://github.com/nkicsl/Fundus Review to adapt to the rapid development of this field.
翻訳日:2021-03-14 19:14:06 公開日:2021-01-25
# 複合図形分離のための2段階フレームワーク

A Two-stage Framework for Compound Figure Separation ( http://arxiv.org/abs/2101.09903v1 )

ライセンス: Link先を確認
Weixin Jiang, Eric Schwenker, Trevor Spreadbury, Nicola Ferrier, Maria K.Y. Chan, Oliver Cossairt(参考訳) 科学文献には、自然界で複雑な複雑な、非構造的な図形が大量に含まれている。 複数の画像、グラフ、図面で構成されている)。 これらの複合数値の分離は、これらの数字からの情報検索に不可欠です。 本稿では,複合図形を構成部分図形に分解し,その部分図形と各字幕成分との関係を保ちながら,複合図形分離のための新しい戦略を提案する。 提案する複合図形分離問題に対処するための二段階フレームワークを提案する。 特に、サブフィギュアラベル検出モジュールは、第1段階で全てのサブフィギュアラベルを検出する。 そして、検出された副図ラベルは、特徴選択プロセスを最適化し、グローバルレイアウト情報を余分な特徴として提供することにより、副図を検出するのに役立つ。 提案手法の有効性と優越性を検証するために広範な実験を行い,検出精度を9%向上させた。

Scientific literature contains large volumes of complex, unstructured figures that are compound in nature (i.e. composed of multiple images, graphs, and drawings). Separation of these compound figures is critical for information retrieval from these figures. In this paper, we propose a new strategy for compound figure separation, which decomposes the compound figures into constituent subfigures while preserving the association between the subfigures and their respective caption components. We propose a two-stage framework to address the proposed compound figure separation problem. In particular, the subfigure label detection module detects all subfigure labels in the first stage. Then, in the subfigure detection module, the detected subfigure labels help to detect the subfigures by optimizing the feature selection process and providing the global layout information as extra features. Extensive experiments are conducted to validate the effectiveness and superiority of the proposed framework, which improves the detection precision by 9%.
翻訳日:2021-03-14 19:13:52 公開日:2021-01-25
# ディープラーニングアルゴリズムを用いたct画像からの自動肝分画法の比較検討

Automatic Liver Segmentation from CT Images Using Deep Learning Algorithms: A Comparative Study ( http://arxiv.org/abs/2101.09987v1 )

ライセンス: Link先を確認
K. E. Sengun, Y. T. Cetin, M.S Guzel, S. Can and E. Bostanci(参考訳) 医学的診断と治療を支援するために医療画像が使用されている。 また、最適な手術前計画と周術期管理を容易にするために、外科医に重要な情報を提供する。 本質的に、半自動臓器と腫瘍の分割は多くの研究者によって研究されている。 近年、ディープラーニング(DL)アルゴリズムの開発により、自動臓器分割が研究者から多くの注目を集めています。 本稿では,最先端のdlフレームワークを適用・比較することにより,肝分画のための最も効率的なdlアーキテクチャを提案する。 これらのフレームワークは'LiverVision'という商用ソフトウェアに実装・適応されている。 完全自動肝セグメンテーションのための最も効率的かつ正確なDLアーキテクチャを明らかにすることを目的としている。 アルゴリズムの精度を計測するために実験中の全てのアーキテクチャに等条件が与えられ、比較分析をサポートするためにサイス係数メトリクスも用いられた。 実験結果から, 「U-Net」と「SegNet」は, 時間, コスト, 有効性といった概念を考慮した実験よりも優れていることが示された。 両方のアーキテクチャを考えると、"SegNet"は偽陽性の値を削除することに成功している。 また,画像分割のみの有効性を測定するための精度指標は不十分であった。 その結果,DLアルゴリズムはDICOM画像からの臓器分割を高精度に自動化できることが判明した。 この貢献は外科的事前計画に不可欠であり、このアプローチを異なる臓器および医学分野に適用する動機づけとなる。

Medical imaging has been employed to support medical diagnosis and treatment. It may also provide crucial information to surgeons to facilitate optimal surgical preplanning and perioperative management. Essentially, semi-automatic organ and tumor segmentation has been studied by many researchers. Recently, with the development of Deep Learning (DL) algorithms, automatic organ segmentation has been gathered lots of attention from the researchers. This paper addresses to propose the most efficient DL architectures for Liver segmentation by adapting and comparing state-of-the-art DL frameworks, studied in different disciplines. These frameworks are implemented and adapted into a Commercial software, 'LiverVision'. It is aimed to reveal the most effective and accurate DL architecture for fully automatic liver segmentation. Equal conditions were provided to all architectures in the experiments so as to measure the effectiveness of algorithms accuracy, and Dice coefficient metrics were also employed to support comparative analysis. Experimental results prove that 'U-Net' and 'SegNet' have been superior in line with the experiments conducted considering the concepts of time, cost, and effectiveness. Considering both architectures, 'SegNet' was observed to be more successful in eliminating false-positive values. Besides, it was seen that the accuracy metric used to measure effectiveness in image segmentation alone was not enough. Results reveal that DL algorithms are able to automate organ segmentation from DICOM images with high accuracy. This contribution is critical for surgical preplanning and motivates author to apply this approach to the different organs and field of medicine.
翻訳日:2021-03-14 19:13:11 公開日:2021-01-25
# 顕微鏡画像の埋め込みに基づくInstance Segmentation

Embedding-based Instance Segmentation of Microscopy Images ( http://arxiv.org/abs/2101.10033v1 )

ライセンス: Link先を確認
Manan Lalit, Pavel Tomancak, Florian Jug(参考訳) 顕微鏡画像中のオブジェクトの自動検出とセグメンテーションは、多くの生物学的用途にとって重要です。 自然画像の領域、特に街路シーンの文脈では、組み込みベースのインスタンスセグメンテーションは高品質の結果につながります。 この一連の作業から着想を得て、Neven et alの作業に基づいたエンドツーエンドのトレーニング可能なディープラーニングメソッドである EmbedSeg を紹介します。 彼らのアプローチでは、それぞれのピクセルを任意のインスタンスのcentroidに埋め込むが、embedsegでは、生体オブジェクトの複雑な形状に動機づけられている。 さらに、テスト時間拡張スキームを利用して、生物学的顕微鏡データセットのインスタンスセグメンテーションのパフォーマンスを特に改善することを示唆している。 組込み型インスタンスセグメンテーションは,多種多様な生物学的な顕微鏡データに対する最先端の手法と比較して,競争力のある結果が得られることを示した。 最後に、パイプライン全体は、事実上すべてのCUDA対応ラップトップハードウェアで使用できるメモリフットプリントが小さくなっていることを示します。 当社のオープンソース実装はgithub.com/juglab/embedsegで利用可能です。

Automatic detection and segmentation of objects in microscopy images is important for many biological applications. In the domain of natural images, and in particular in the context of city street scenes, embedding-based instance segmentation leads to high-quality results. Inspired by this line of work, we introduce EmbedSeg, an end-to-end trainable deep learning method based on the work by Neven et al. While their approach embeds each pixel to the centroid of any given instance, in EmbedSeg, motivated by the complex shapes of biological objects, we propose to use the medoid instead. Additionally, we make use of a test-time augmentation scheme, and show that both suggested modifications improve the instance segmentation performance on biological microscopy datasets notably. We demonstrate that embedding-based instance segmentation achieves competitive results in comparison to state-of-the-art methods on diverse and biologically relevant microscopy datasets. Finally, we show that the overall pipeline has a small enough memory footprint to be used on virtually all CUDA enabled laptop hardware. Our open-source implementation is available at github.com/juglab/EmbedSeg.
翻訳日:2021-03-14 19:12:13 公開日:2021-01-25
# EGFI: エンリッチエンティティとセンテンス情報の融合による薬物-薬物相互作用抽出と生成

EGFI: Drug-Drug Interaction Extraction and Generation with Fusion of Enriched Entity and Sentence Information ( http://arxiv.org/abs/2101.09914v1 )

ライセンス: Link先を確認
Lei Huang, Jiecong Lin, Xiangtao Li, Linqi Song and Ka-Chun Wong(参考訳) 文学の急速な成長は、薬物相互作用などの採掘に隠された多様で包括的な生物医学の知識を蓄積します。 しかし、異質な知識を抽出して、最新の知識や新しい知識を効率的に検索、発見することは困難である。 そこで本研究では,大規模医学文献データから薬物相互作用を抽出・統合するためのEGFIを提案する。 具体的には、EGFIは分類と生成の2つの部分から構成される。 分類部では、EGFIはバイオメディカルコーパスで包括的に事前訓練された言語モデルBioBERTを包含している。 特に,マルチヘッドアテンション機構を提案し,厳密な文脈モデリングのための複数の意味情報を融合するbigruをパックする。 生成部において、EGFIは、フィルタ規則に基づいて生成文が選択される別の事前学習言語モデルBioGPT-2を利用する。 DDIs 2013"データセットと"DTIs"データセットの分類部を評価し,それぞれ0.842と0.720のFIスコアを達成した。 さらに, 分類部を高品質生成文の識別に適用し, 流出成長真理を検証し, フィルタリング文の確認を行った。 DrugBankとDDIs 2013データセットに記録されていない生成された文もまた、新しい薬物関係を識別するEGFIの可能性を示している。

The rapid growth in literature accumulates diverse and yet comprehensive biomedical knowledge hidden to be mined such as drug interactions. However, it is difficult to extract the heterogeneous knowledge to retrieve or even discover the latest and novel knowledge in an efficient manner. To address such a problem, we propose EGFI for extracting and consolidating drug interactions from large-scale medical literature text data. Specifically, EGFI consists of two parts: classification and generation. In the classification part, EGFI encompasses the language model BioBERT which has been comprehensively pre-trained on biomedical corpus. In particular, we propose the multi-head attention mechanism and pack BiGRU to fuse multiple semantic information for rigorous context modeling. In the generation part, EGFI utilizes another pre-trained language model BioGPT-2 where the generation sentences are selected based on filtering rules. We evaluated the classification part on "DDIs 2013" dataset and "DTIs" dataset, achieving the FI score of 0.842 and 0.720 respectively. Moreover, we applied the classification part to distinguish high-quality generated sentences and verified with the exiting growth truth to confirm the filtered sentences. The generated sentences that are not recorded in DrugBank and DDIs 2013 dataset also demonstrate the potential of EGFI to identify novel drug relationships.
翻訳日:2021-03-14 19:11:38 公開日:2021-01-25
# SpanEmo: Span-predictionとしてのマルチラベル感情分類

SpanEmo: Casting Multi-label Emotion Classification as Span-prediction ( http://arxiv.org/abs/2101.10038v1 )

ライセンス: Link先を確認
Hassan Alhuzali, Sophia Ananiadou(参考訳) 感情認識(ER)は自然言語処理(NLP)の重要なタスクであり、健康と幸福から著者のプロファイリング、消費者分析、セキュリティまで、現実世界のアプリケーションに高い影響があります。 ERに対する現在のアプローチは、主に感情が共存できることを考慮せずに感情を独立して分類する。 このようなアプローチは、複数の感情が重なる潜在的な曖昧さを見落とします。 文中のラベルと単語の関連を学習するERモデルを支援するため,マルチラベル感情分類をスパンプレディションとしてキャストする新しいモデル「SpanEmo」を提案する。 さらに、入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。 3つの言語セット(英語、アラビア語、スペイン語)にわたるSemEval2018マルチラベル感情データ上での実験は、この方法の有効性を示している。 最後に,モデル性能の向上と感情クラスと文中の単語との有意義な関係の学習という観点から,提案手法の利点を示す異なる分析法を提案する。

Emotion recognition (ER) is an important task in Natural Language Processing (NLP), due to its high impact in real-world applications from health and well-being to author profiling, consumer analysis and security. Current approaches to ER, mainly classify emotions independently without considering that emotions can co-exist. Such approaches overlook potential ambiguities, in which multiple emotions overlap. We propose a new model "SpanEmo" casting multi-label emotion classification as span-prediction, which can aid ER models to learn associations between labels and words in a sentence. Furthermore, we introduce a loss function focused on modelling multiple co-existing emotions in the input sentence. Experiments performed on the SemEval2018 multi-label emotion data over three language sets (i.e., English, Arabic and Spanish) demonstrate our method's effectiveness. Finally, we present different analyses that illustrate the benefits of our method in terms of improving the model performance and learning meaningful associations between emotion classes and words in the sentence.
翻訳日:2021-03-14 19:11:02 公開日:2021-01-25
# 測定語を用いた文圧縮アルゴリズムのブラックボックス最適化のための簡易文選択

With Measured Words: Simple Sentence Selection for Black-Box Optimization of Sentence Compression Algorithms ( http://arxiv.org/abs/2101.10096v1 )

ライセンス: Link先を確認
Yotam Shichel, Meir Kalech, Oren Tsur(参考訳) 文圧縮 (Sentence Compression) とは、ある文の短いが文法的なバージョンを生成し、原文の本質を保存するタスクである。 本稿では,圧縮のためのブラックボックスオプティマイザ(b-boc)を提案する。ブラックボックス圧縮アルゴリズムが与えられたとき,すべての文が圧縮される必要はないと仮定し,圧縮速度と品質の両方を最大化するために最適な圧縮候補を探す。 必要な圧縮比を考えると、(i)単文圧縮と(ii)文シーケンス圧縮の2つのシナリオを検討する。 第1のシナリオでは、指定された比率要件を満たしながら、各文がどの程度圧縮できるかを予測するために最適化器を訓練する。 後者では、所望の圧縮比を個々の文ではなく、全体としての文の列(例えば、段落)に適用する。 そこで我々は,B-BOCを用いて各文に最適な圧縮比を割り当て,それをKnapsack問題としてキャストし,有界動的プログラミングを用いて解く。 両シナリオのB-BOCを3つのデータセットで評価し、他の圧縮アルゴリズムの直接適用と比較して精度とルージュF1スコアの両方を改善することを実証した。

Sentence Compression is the task of generating a shorter, yet grammatical version of a given sentence, preserving the essence of the original sentence. This paper proposes a Black-Box Optimizer for Compression (B-BOC): given a black-box compression algorithm and assuming not all sentences need be compressed -- find the best candidates for compression in order to maximize both compression rate and quality. Given a required compression ratio, we consider two scenarios: (i) single-sentence compression, and (ii) sentences-sequence compression. In the first scenario, our optimizer is trained to predict how well each sentence could be compressed while meeting the specified ratio requirement. In the latter, the desired compression ratio is applied to a sequence of sentences (e.g., a paragraph) as a whole, rather than on each individual sentence. To achieve that, we use B-BOC to assign an optimal compression ratio to each sentence, then cast it as a Knapsack problem, which we solve using bounded dynamic programming. We evaluate B-BOC on both scenarios on three datasets, demonstrating that our optimizer improves both accuracy and Rouge-F1-score compared to direct application of other compression algorithms.
翻訳日:2021-03-14 19:10:45 公開日:2021-01-25
# 議論におけるオープンマインドとスタイルコーディネート

Open-Mindedness and Style Coordination in Argumentative Discussions ( http://arxiv.org/abs/2101.10164v1 )

ライセンス: Link先を確認
Aviv Ben Haim, Oren Tsur(参考訳) 言語の宿泊施設は、話し手がお互いのコミュニケーションスタイルに応じてアクセント、辞書、語彙、その他の言語の側面を調整するプロセスです。 これまでの研究では、言語的調節が話者のパワーとステータスのギャップと、それが承認や議論の効率性を促進する方法とどのように相関するかが示されている。 本研究では,この現象に対する新たな視点を提供し,その社会的地位ではなく,話者のオープンマインドとの相関性を検討する。 我々は、Reddit の Change My View (CMV) サブレディットで起こった何千もの構造化されていない議論を処理し、オープンマインドは異なる文脈における話者の役割と関連していることを示した。 議論レベルでは、合意に達する議論が宿泊のレベルを低くするのが驚きである。

Linguistic accommodation is the process in which speakers adjust their accent, diction, vocabulary, and other aspects of language according to the communication style of one another. Previous research has shown how linguistic accommodation correlates with gaps in the power and status of the speakers and the way it promotes approval and discussion efficiency. In this work, we provide a novel perspective on the phenomena, exploring its correlation with the open-mindedness of a speaker, rather than to her social status. We process thousands of unstructured argumentative discussions that took place in Reddit's Change My View (CMV) subreddit, demonstrating that open-mindedness relates to the assumed role of a speaker in different contexts. On the discussion level, we surprisingly find that discussions that reach agreement present lower levels of accommodation.
翻訳日:2021-03-14 19:10:21 公開日:2021-01-25
# バイオメディカル概念のセマンティック関連性測定のためのハイブリッドアプローチ

A Hybrid Approach to Measure Semantic Relatedness in Biomedical Concepts ( http://arxiv.org/abs/2101.10196v1 )

ライセンス: Link先を確認
Katikapalli Subramanyam Kalyan and Sivanesan Sangeetha(参考訳) 目的: 本研究は,2つのバイオメディカル概念間の関連性を計算するために, センテンスBERTモデルと再適合アルゴリズムに基づくハイブリッドアプローチの有効性を実証することを目的とした。 材料と方法: ELMo, BERT, Sentence BERTモデルを用いて, 概念推奨項を符号化し, 概念ベクトルを生成する。 BioELMo と Clinical ELMo を使いました。 我々は、PubMedBERT、BioBERT、BioClinicalBERTのようなオントロジー知識自由(OKF)モデルと、SapBERT、CoderBERT、KbBERT、UmlsBERTのようなオントロジー知識注入(OKI)モデルを使用した。 snli と stsb データセット上の siamese network を使ってすべての bert モデルをトレーニングし、モデルが複数の単語の概念をより良く表現できるように、句や文レベルでより意味的な情報を学習できるようにしました。 最後に、オントロジー関係の知識を概念ベクトルに注入するために、様々なUMLS関係から再適合アルゴリズムと概念を用いた。 最近リリースされたEHR-RelBデータセットを含む4つの公開データセットのハイブリッドアプローチを評価しました。 EHR-RelBは、89%の用語がマルチワードであるため、より困難になる最大の公開関連データセットです。 結果: Sentence BERTモデルは、主に対応するBERTモデルより優れていた。 SapBERT をベースとした Sentence BERT モデルを用いて生成された概念ベクトルは,UMLS に関連する概念を用いて再適合し,4つのデータセットで最高の結果を得た。 結論: Sentence BERTモデルは、ほとんどの場合、計算関連性スコアにおいてBERTモデルよりも効果的である。 概念ベクトルにオントロジー知識を注入すると、その品質がさらに向上し、関連性のスコアが向上する。

Objective: This work aimed to demonstrate the effectiveness of a hybrid approach based on Sentence BERT model and retrofitting algorithm to compute relatedness between any two biomedical concepts. Materials and Methods: We generated concept vectors by encoding concept preferred terms using ELMo, BERT, and Sentence BERT models. We used BioELMo and Clinical ELMo. We used Ontology Knowledge Free (OKF) models like PubMedBERT, BioBERT, BioClinicalBERT, and Ontology Knowledge Injected (OKI) models like SapBERT, CoderBERT, KbBERT, and UmlsBERT. We trained all the BERT models using Siamese network on SNLI and STSb datasets to allow the models to learn more semantic information at the phrase or sentence level so that they can represent multi-word concepts better. Finally, to inject ontology relationship knowledge into concept vectors, we used retrofitting algorithm and concepts from various UMLS relationships. We evaluated our hybrid approach on four publicly available datasets which also includes the recently released EHR-RelB dataset. EHR-RelB is the largest publicly available relatedness dataset in which 89% of terms are multi-word which makes it more challenging. Results: Sentence BERT models mostly outperformed corresponding BERT models. The concept vectors generated using the Sentence BERT model based on SapBERT and retrofitted using UMLS-related concepts achieved the best results on all four datasets. Conclusions: Sentence BERT models are more effective compared to BERT models in computing relatedness scores in most of the cases. Injecting ontology knowledge into concept vectors further enhances their quality and contributes to better relatedness scores.
翻訳日:2021-03-14 19:10:05 公開日:2021-01-25
# 対話型アノテーションによる科学プロトコルのプロセスレベル表現

Process-Level Representation of Scientific Protocols with Interactive Annotation ( http://arxiv.org/abs/2101.10244v1 )

ライセンス: Link先を確認
Ronen Tamari, Fan Bai, Alan Ritter, Gabriel Stanovsky(参考訳) 我々は,実世界のウェットラボ生化学プロトコルの文書レベル表現であるプロセス実行グラフ~(PEG)を開発し,クロスセンス関係,長距離コア推論,グラウンド化,暗黙の議論といった課題に対処する。 アノテーション中のエンティティ特性や意味的制約を追跡するインタラクティブなテキストシミュレータを用いて,複雑なラボプロトコルのコーパスにpegを手動でアノテートする。 このデータを使用してグラフ予測モデルを開発し、エンティティの識別と局所関係抽出に優れていることを見つけ、コーパスはより困難な長期関係の探索を促進します。

We develop Process Execution Graphs~(PEG), a document-level representation of real-world wet lab biochemistry protocols, addressing challenges such as cross-sentence relations, long-range coreference, grounding, and implicit arguments. We manually annotate PEGs in a corpus of complex lab protocols with a novel interactive textual simulator that keeps track of entity traits and semantic constraints during annotation. We use this data to develop graph-prediction models, finding them to be good at entity identification and local relation extraction, while our corpus facilitates further exploration of challenging long-range relations.
翻訳日:2021-03-14 19:09:33 公開日:2021-01-25
# english machine reading comprehension datasets: a survey (英語)

English Machine Reading Comprehension Datasets: A Survey ( http://arxiv.org/abs/2101.10421v1 )

ライセンス: Link先を確認
Daria Dzendzik, Carl Vogel, Jennifer Foster(参考訳) 本稿では、54の英語機械読解データセットを調査し、この問題に関心のある他の研究者に便利なリソースを提供することを目的とする。 質問文や回答形式に応じてデータセットを分類し,サイズ,語彙,データソース,生成方法,人的パフォーマンスレベル,質問語など,さまざまな領域で比較する。 分析の結果、wikipediaは最も一般的なデータソースであり、データセットにまたがる質問の理由、時期、場所が比較的不足していることが分かりました。

This paper surveys 54 English Machine Reading Comprehension datasets, with a view to providing a convenient resource for other researchers interested in this problem. We categorize the datasets according to their question and answer form and compare them across various dimensions including size, vocabulary, data source, method of creation, human performance level, and first question word. Our analysis reveals that Wikipedia is by far the most common data source and that there is a relative lack of why, when, and where questions across datasets.
翻訳日:2021-03-14 19:09:21 公開日:2021-01-25
# 名前付きエンティティ認識(NER)の最近の動向

Recent Trends in Named Entity Recognition (NER) ( http://arxiv.org/abs/2101.11420v1 )

ライセンス: Link先を確認
Arya Roy(参考訳) データを処理できる大量のコンピュータ可読テキストデータとハードウェアが利用可能になったことで、知識プロジェクトの中心はディープラーニングアーキテクチャへとシフトした。 自然言語処理、特に名前付きエンティティ認識のタスクは例外ではない。 最先端の結果を生み出した学習方法の大部分は、ディープラーニングモデル、使用するトレーニング方法、トレーニングデータ自体、あるいはNERシステムの出力の符号化を変更している。 本稿では,近年NERに採用されている重要な学習手法と,それが過去の線形学習方法からどのように生まれたのかを概観する。 我々はまた、問題のプロセスがNER結果も改善した場所、例えば、シーケンスタグ付け、エンティティリンクなど、NERへの上流または下流にある関連タスクの進捗状況についても説明します。

The availability of large amounts of computer-readable textual data and hardware that can process the data has shifted the focus of knowledge projects towards deep learning architecture. Natural Language Processing, particularly the task of Named Entity Recognition is no exception. The bulk of the learning methods that have produced state-of-the-art results have changed the deep learning model, the training method used, the training data itself or the encoding of the output of the NER system. In this paper, we review significant learning methods that have been employed for NER in the recent past and how they came about from the linear learning methods of the past. We also cover the progress of related tasks that are upstream or downstream to NER, e.g., sequence tagging, entity linking, etc., wherever the processes in question have also improved NER results.
翻訳日:2021-03-14 19:09:11 公開日:2021-01-25
# 文脈に基づく決定と説明に関する認知的視点

Cognitive Perspectives on Context-based Decisions and Explanations ( http://arxiv.org/abs/2101.10179v1 )

ライセンス: Link先を確認
Marcus Westberg, Kary Fr\"amling(参考訳) 人間の認知が哲学と認知科学でモデル化されるとき、人間は世界をナビゲートし、将来の行動の結果について予測するために精神的表現を採用するという考えが広がっています。 これらの表現構造がどのように機能するかを理解することによって、私たちは人間の認知についてもっと理解するだけでなく、人間の意思決定の合理化と説明をよりよく理解します。 これは説明可能なAIに影響を及ぼし、人間の聴衆にコンピュータの意思決定の説明を提供することが目的です。 我々は,XAIの文脈的重要性と実用性は,現在の行動指向の予測表現構造と重なり合うことを示し,CIUを人間が関係し,信頼することのできる説明を作成するための信頼性の高いツールとする。

When human cognition is modeled in Philosophy and Cognitive Science, there is a pervasive idea that humans employ mental representations in order to navigate the world and make predictions about outcomes of future actions. By understanding how these representational structures work, we not only understand more about human cognition but also gain a better understanding for how humans rationalise and explain decisions. This has an influencing effect on explainable AI, where the goal is to provide explanations of computer decision-making for a human audience. We show that the Contextual Importance and Utility method for XAI share an overlap with the current new wave of action-oriented predictive representational structures, in ways that makes CIU a reliable tool for creating explanations that humans can relate to and trust.
翻訳日:2021-03-14 19:08:59 公開日:2021-01-25
# 知能と成長率の測定:ヒバードの知能測定値の変動

Measuring Intelligence and Growth Rate: Variations on Hibbard's Intelligence Measure ( http://arxiv.org/abs/2101.12047v1 )

ライセンス: Link先を確認
Samuel Alexander, Bill Hibbard(参考訳) 2011年、ヒバードは敵対的なシーケンス予測ゲームに出場するエージェントの知能測定を提案した。 ヒバードの考えは、実際には2つの異なる考え方として検討されるべきである: まず、そのようなエージェントの知性は、彼らが倒したライバルのランタイムの成長率に基づいて測定できる、そして、その成長率を測定するための1つの特定の(任意の)方法である。 ヒバードの知性尺度は後者の成長率測定法に基づいているが、関数の成長率を測定する他の方法を調査し、ヒバードのような知性指標と分類法を示す。 特に、我々は、知能対策がどうあるべきかという従来の概念に挑戦するという点で、ビッグ・オ・ビッグ・テータの表記体系に基づく知能分類学を得る。 本稿では,AGI(Artificial General Intelligence)エージェントに対して,シーケンス予測器のインテリジェンス測定が間接的にインテリジェンス測定に果たす役割について論じる。

In 2011, Hibbard suggested an intelligence measure for agents who compete in an adversarial sequence prediction game. We argue that Hibbard's idea should actually be considered as two separate ideas: first, that the intelligence of such agents can be measured based on the growth rates of the runtimes of the competitors that they defeat; and second, one specific (somewhat arbitrary) method for measuring said growth rates. Whereas Hibbard's intelligence measure is based on the latter growth-rate-measuring method, we survey other methods for measuring function growth rates, and exhibit the resulting Hibbard-like intelligence measures and taxonomies. Of particular interest, we obtain intelligence taxonomies based on Big-O and Big-Theta notation systems, which taxonomies are novel in that they challenge conventional notions of what an intelligence measure should look like. We discuss how intelligence measurement of sequence predictors can indirectly serve as intelligence measurement for agents with Artificial General Intelligence (AGIs).
翻訳日:2021-03-14 19:08:45 公開日:2021-01-25
# ATRM:GNNを用いたFew-shot Learningのためのアテンションベースタスクレベル関係モジュール

ATRM: Attention-based Task-level Relation Module for GNN-based Few-shot Learning ( http://arxiv.org/abs/2101.09840v1 )

ライセンス: Link先を確認
Yurong Guo, Zhanyu Ma, Xiaoxu Li, and Yuan Dong(参考訳) 近年,グラフニューラルネットワーク(GNN)は,クラスごとのラベル付きサンプルに制限されたトレーニングを行う際に,未知のサンプルを分類することを目的とした,少数ショットの分類問題に対処する強力な能力を示している。 GNNベースの数発の学習アーキテクチャは、主に従来のメトリクスを学習可能なGNNに置き換える。 GNNでは、ノードは埋め込みサンプルとして設定され、2つの接続ノード間の関係はネットワークによって取得され、その入力は埋め込み機能の違いである。 サンプル間の関係を測定する方法はサンプル間関係のみをモデル化するが、異なるタスクの特異性は無視する。 すなわち、この関係を測定する方法は、タスクレベルの情報を考慮に入れない。 そこで本研究では, あるサンプルと他のすべてのサンプルのタスクレベル関係を明示的にモデル化する新しい関係測定法, すなわち注意に基づくタスクレベル関係モジュール (ATRM) を提案する。 提案モジュールは,サンプルからサンプルへの埋め込み機能ではなく,サンプルからタスクまでを考慮し,ノード間の関係表現をキャプチャする。 我々は,4つのベンチマークデータセット(mini-ImageNet, tiered-ImageNet, CUB-200-2011, CIFAR-FS)について広範な実験を行った。 実験結果から,提案モジュールはGNNによる少数ショット学習に有効であることが示された。

Recently, graph neural networks (GNNs) have shown powerful ability to handle few-shot classification problem, which aims at classifying unseen samples when trained with limited labeled samples per class. GNN-based few-shot learning architectures mostly replace traditional metric with a learnable GNN. In the GNN, the nodes are set as the samples embedding, and the relationship between two connected nodes can be obtained by a network, the input of which is the difference of their embedding features. We consider this method of measuring relation of samples only models the sample-to-sample relation, while neglects the specificity of different tasks. That is, this method of measuring relation does not take the task-level information into account. To this end, we propose a new relation measure method, namely the attention-based task-level relation module (ATRM), to explicitly model the task-level relation of one sample to all the others. The proposed module captures the relation representations between nodes by considering the sample-to-task instead of sample-to-sample embedding features. We conducted extensive experiments on four benchmark datasets: mini-ImageNet, tiered-ImageNet, CUB-200-2011, and CIFAR-FS. Experimental results demonstrate that the proposed module is effective for GNN-based few-shot learning.
翻訳日:2021-03-14 19:08:27 公開日:2021-01-25
# 顔行動分析のための弱教師付き学習 : 概観

Weakly Supervised Learning for Facial Behavior Analysis : A Review ( http://arxiv.org/abs/2101.09858v1 )

ライセンス: Link先を確認
Gnana Praveen R, Eric Granger, Patrick Cardinal(参考訳) 近年,実世界の多くのアプリケーションにおいて,深層学習に基づくアプローチが優れているため,実験室が制御する条件から困難な実環境へ顔の行動分析がシフトしているが,深層学習アプローチの性能はトレーニングデータ量に依存する。 データ取得の大きな問題の1つは、大量のトレーニングデータに対するアノテーションの必要性である。 大規模なトレーニングデータのラベル付けには、表情やアクションユニットの強力なドメイン専門知識が要求されるため、リアルタイム環境では入手が困難であり、特にドメイン専門家のバイアスによる強度に対する表現やアクションユニットのあいまいさに対して、ラベル付けプロセスは極めて脆弱である。 したがって、弱いアノテーションで顔の行動分析の問題を解決するために不可欠な必要性があります。 本論文では, 顔面行動解析における弱監督学習(WSL)手法について, カテゴリー的および次元的ラベルとそれに関連する課題と潜在的な研究方向性を総合的に検討する。 まず,顔行動分析の文脈とそれに関連する課題において,様々な弱いアノテーションを導入する。 そして、既存の最先端のアプローチを体系的にレビューし、これらのアプローチの分類と洞察と限界を提供します。 さらに、レビューされた文献で広く使用されているデータセットと、これらのアプローチのパフォーマンスと評価原則を要約します。 最後に,実際の状況において,弱いラベルを用いた顔行動分析を適用するために,残る課題と機会について検討する。

In the recent years, there has been a shift in facial behavior analysis from the laboratory-controlled conditions to the challenging in-the-wild conditions due to the superior performance of deep learning based approaches for many real world applications.However, the performance of deep learning approaches relies on the amount of training data. One of the major problems with data acquisition is the requirement of annotations for large amount of training data. Labeling process of huge training data demands lot of human support with strong domain expertise for facial expressions or action units, which is difficult to obtain in real-time environments.Moreover, labeling process is highly vulnerable to ambiguity of expressions or action units, especially for intensities due to the bias induced by the domain experts. Therefore, there is an imperative need to address the problem of facial behavior analysis with weak annotations. In this paper, we provide a comprehensive review of weakly supervised learning (WSL) approaches for facial behavior analysis with both categorical as well as dimensional labels along with the challenges and potential research directions associated with it. First, we introduce various types of weak annotations in the context of facial behavior analysis and the corresponding challenges associated with it. We then systematically review the existing state-of-the-art approaches and provide a taxonomy of these approaches along with their insights and limitations. In addition, widely used data-sets in the reviewed literature and the performance of these approaches along with evaluation principles are summarized. Finally, we discuss the remaining challenges and opportunities along with the potential research directions in order to apply facial behavior analysis with weak labels in real life situations.
翻訳日:2021-03-14 19:08:06 公開日:2021-01-25
# 分類規則化を用いたクロス知識に基づくゼロショット学習手法

Cross Knowledge-based Generative Zero-Shot Learning Approach with Taxonomy Regularization ( http://arxiv.org/abs/2101.09892v1 )

ライセンス: Link先を確認
Cheng Xie, Hongxin Xiang, Ting Zeng, Yun Yang, Beibei Yu and Qing Liu(参考訳) ゼロショット学習(ZSL)は、今までにない新しいクラスを認識するための推論能力を持っていますが、クロスモダリティとクロスドメインの課題の2つの基本的な課題に常に直面しています。 これらの問題を緩和するため,提案手法であるCross Knowledge Learning (CKL) とTaxonomy Regularization (TR) を組み合わせたネットワークベースのZSL手法を開発した。 提案手法では, セマンティックな特徴を入力とし, 出力は対応するセマンティックな特徴から生成した合成視覚的特徴である。 CKLは、ZSLにセマンティック・ツー・ビジュアルな特徴を埋め込むために、より関連性の高いセマンティックな特徴をトレーニングできるようにし、Taxonomy Regularization (TR)は、生成ネットワークから生成されたより一般化された視覚的特徴を持つ見えない画像との交点を大幅に改善する。 いくつかのベンチマークデータセット(例えば、AwA1、AwA2、CUB、NAB、aPY)に対する大規模な実験により、ZSL画像分類と検索の観点から、我々のアプローチはこれらの最先端手法よりも優れていることが示された。

Although zero-shot learning (ZSL) has an inferential capability of recognizing new classes that have never been seen before, it always faces two fundamental challenges of the cross modality and crossdomain challenges. In order to alleviate these problems, we develop a generative network-based ZSL approach equipped with the proposed Cross Knowledge Learning (CKL) scheme and Taxonomy Regularization (TR). In our approach, the semantic features are taken as inputs, and the output is the synthesized visual features generated from the corresponding semantic features. CKL enables more relevant semantic features to be trained for semantic-to-visual feature embedding in ZSL, while Taxonomy Regularization (TR) significantly improves the intersections with unseen images with more generalized visual features generated from generative network. Extensive experiments on several benchmark datasets (i.e., AwA1, AwA2, CUB, NAB and aPY) show that our approach is superior to these state-of-the-art methods in terms of ZSL image classification and retrieval.
翻訳日:2021-03-14 19:07:39 公開日:2021-01-25
# 逆テキストから画像への合成:レビュー

Adversarial Text-to-Image Synthesis: A Review ( http://arxiv.org/abs/2101.09983v1 )

ライセンス: Link先を確認
Stanislav Frolov, Tobias Hinz, Federico Raue, J\"orn Hees, Andreas Dengel(参考訳) 生成的敵ネットワークの出現に伴い,テキスト記述からの画像合成が近年,活発な研究領域となっている。 これは、ビジュアルリアリズム、多様性、セマンティックアライメントに関して、過去数年間に重要な進歩を遂げた条件付き画像生成のための柔軟で直感的な方法です。 しかし、複数の物体で高解像度の画像を生成することや、人間の判断と相関する適切で信頼性の高い評価指標の開発など、さらなる研究努力を必要とするいくつかの課題に直面しています。 本総説では,5年前に始まった対人的テキスト・画像合成モデルの現状,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。 我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。 本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。

With the advent of generative adversarial networks, synthesizing images from textual descriptions has recently become an active research area. It is a flexible and intuitive way for conditional image generation with significant progress in the last years regarding visual realism, diversity, and semantic alignment. However, the field still faces several challenges that require further research efforts such as enabling the generation of high-resolution images with multiple objects, and developing suitable and reliable evaluation metrics that correlate with human judgement. In this review, we contextualize the state of the art of adversarial text-to-image synthesis models, their development since their inception five years ago, and propose a taxonomy based on the level of supervision. We critically examine current strategies to evaluate text-to-image synthesis models, highlight shortcomings, and identify new areas of research, ranging from the development of better datasets and evaluation metrics to possible improvements in architectural design and model training. This review complements previous surveys on generative adversarial networks with a focus on text-to-image synthesis which we believe will help researchers to further advance the field.
翻訳日:2021-03-14 19:06:32 公開日:2021-01-25
# 長尺・短距離時系列特徴のコントラスト学習による弱監督映像異常検出

Weakly-supervised Video Anomaly Detection with Contrastive Learning of Long and Short-range Temporal Features ( http://arxiv.org/abs/2101.10030v1 )

ライセンス: Link先を確認
Yu Tian, Guansong Pang, Yuanhong Chen, Rajvinder Singh, Johan W. Verjans, Gustavo Carneiro(参考訳) 本稿では,訓練用ビデオレベルラベルを付与して,異常事象を含むビデオの断片を識別することを目的とした,弱教師付きビデオ異常検出の問題に対処する。 マルチインスタンス学習(MIL)に基づく現在の手法は、効果的な検出性能を示すが、ビデオの時間的依存を無視する。 また、異常スニペットの数は、MILベースのメソッドのトレーニングプロセスがもっとも異常なスニペットに集中するため複雑になるので、異常スニペットの数は、異常スニペットではなく通常のスニペットを誤って選択し、利用可能なすべての異常スニペットを選択できない可能性がある。 そこで本稿では,Top-K Contrastive Multiple Instance Learning (MTN-KMIL) を用いたマルチスケールテンポラルネットワークを提案する。 The main contributions of MTN-KMIL are: 1) a novel synthesis of a pyramid of dilated convolutions and a self-attention mechanism, with the former capturing the multi-scale short-range temporal dependencies between snippets and the latter capturing long-range temporal dependencies; and 2) a novel contrastive MIL learning method that enforces large margins between the top-K normal and abnormal video snippets at the feature representation level and anomaly score level, resulting in accurate anomaly discrimination. 実験の結果,本手法は3つのベンチマークデータセット(ShanghaiTech, UCF-Crime, XD-Violence)において,最先端の手法よりも高い性能を示した。 コードはhttps://github.com/tianyu0207/MTN-KMILで入手できる。

In this paper, we address the problem of weakly-supervised video anomaly detection, in which given video-level labels for training, we aim to identify in test videos, the snippets containing abnormal events. Although current methods based on multiple instance learning (MIL) show effective detection performance, they ignore important video temporal dependencies. Also, the number of abnormal snippets can vary per anomaly video, which complicates the training process of MIL-based methods because they tend to focus on the most abnormal snippet -- this can cause it to mistakenly select a normal snippet instead of an abnormal snippet, and also to fail to select all abnormal snippets available. We propose a novel method, named Multi-scale Temporal Network trained with top-K Contrastive Multiple Instance Learning (MTN-KMIL), to address the issues above. The main contributions of MTN-KMIL are: 1) a novel synthesis of a pyramid of dilated convolutions and a self-attention mechanism, with the former capturing the multi-scale short-range temporal dependencies between snippets and the latter capturing long-range temporal dependencies; and 2) a novel contrastive MIL learning method that enforces large margins between the top-K normal and abnormal video snippets at the feature representation level and anomaly score level, resulting in accurate anomaly discrimination. Extensive experiments show that our method outperforms several state-of-the-art methods by a large margin on three benchmark data sets (ShanghaiTech, UCF-Crime and XD-Violence). The code is available at https://github.com/tianyu0207/MTN-KMIL
翻訳日:2021-03-14 19:05:48 公開日:2021-01-25
# マルチスケール補間ガウスディスクリプタによる教師なし異常検出と局所化

Unsupervised Anomaly Detection and Localisation with Multi-scale Interpolated Gaussian Descriptors ( http://arxiv.org/abs/2101.10043v1 )

ライセンス: Link先を確認
Yuanhong Chen, Yu Tian, Guansong Pang, Gustavo Carneiro(参考訳) 現在の監視されていない異常検出および局在化システムは、通常画像の分布の効果的な推定と異常を識別するための堅牢な基準に依存する1クラスの分類器として一般に定式化される。 しかし,現在のシステムで推定される正規画像の分布は,トレーニングセットで表現されていない正規画像のクラスでは不安定になりがちであり,現場でよく調査される異常識別基準は,マルチスケールな構造的・非構造的異常に対してうまく機能しない。 本稿では,これらの2つの問題に対処するために,教師なし異常検出と位置決め手法を提案する。 より具体的には、通常の画像の下位表現クラスに堅牢な正規分布推定法を導入します。この方法は、トレーニング画像から対比的に補間されたディスクリプタとガウス分類器に基づいています。 また,マルチスケール構造および非構造的異常を正確に検出・局在化可能な新しい異常識別基準を提案する。 MNIST, Fashion MNIST, CIFAR10, MVTec ADデータセットに関する広範な実験では, 教師なし異常検出および局所化のための標準的な実験装置において, 現状よりも優れた結果が得られた。 コードはhttps://github.com/tianyu0207/IGDで入手できる。

Current unsupervised anomaly detection and localisation systems are commonly formulated as one-class classifiers that depend on an effective estimation of the distribution of normal images and robust criteria to identify anomalies. However, the distribution of normal images estimated by current systems tends to be unstable for classes of normal images that are under-represented in the training set, and the anomaly identification criteria commonly explored in the field does not work well for multi-scale structural and non-structural anomalies. In this paper, we introduce an unsupervised anomaly detection and localisation method designed to address these two issues. More specifically, we introduce a normal image distribution estimation method that is robust to under-represented classes of normal images -- this method is based on adversarially interpolated descriptors from training images and a Gaussian classifier. We also propose a new anomaly identification criterion that can accurately detect and localise multi-scale structural and non-structural anomalies. In extensive experiments on MNIST, Fashion MNIST, CIFAR10 and MVTec AD data sets, our approach shows better results than the current state of the arts in the standard experimental setup for unsupervised anomaly detection and localisation. Code is available at https://github.com/tianyu0207/IGD.
翻訳日:2021-03-14 19:05:21 公開日:2021-01-25
# 3次元畳み込みニューラルネットワークによるRGB-D定常物体検出

RGB-D Salient Object Detection via 3D Convolutional Neural Networks ( http://arxiv.org/abs/2101.10241v1 )

ライセンス: Link先を確認
Qian Chen, Ze Liu, Yi Zhang, Keren Fu, Qijun Zhao, Hongwei Du(参考訳) RGB-D salient Object Detection (SOD)は近年研究の関心が高まり、エンコーダ・デコーダアーキテクチャに基づく多くのディープラーニング手法が出現している。 しかし、既存のほとんどのRGB-D SODモデルは単一エンコーダまたはデコーダの段階で機能融合を行うため、十分なクロスモーダル融合能力は保証されない。 本稿では,RGB-D SODを3D畳み込みニューラルネットワークで処理する試みについて述べる。 提案したRD3Dは,エンコーダ段階での事前融合とデコーダ段階での深部融合を目標とし,RGBと深度ストリームの完全統合を効果的に促進する。 具体的には、RD3Dはまず、膨脹した3Dエンコーダを介してRGBおよび深度モダリティ間の事前融合を行い、その後、3D畳み込みの広範な集約能力を活用するために、リッチバックプロジェクションパス(RBPP)を備えた3Dデコーダを設計することにより、詳細な機能融合を提供します。 エンコーダとデコーダの両方を含むプログレッシブ融合戦略により、2つのモード間の効果的かつ徹底的な相互作用を活用でき、検出精度を高めることができる。 6つの広く使用されているベンチマークデータセットに関する広範な実験は、4つの主要な評価指標の観点から、RD3Dが14の最先端のRGB-D SODアプローチに対して有利に機能することを示しています。 コードが公開される。https://github.com/PPOLYpubki/RD3D。

RGB-D salient object detection (SOD) recently has attracted increasing research interest and many deep learning methods based on encoder-decoder architectures have emerged. However, most existing RGB-D SOD models conduct feature fusion either in the single encoder or the decoder stage, which hardly guarantees sufficient cross-modal fusion ability. In this paper, we make the first attempt in addressing RGB-D SOD through 3D convolutional neural networks. The proposed model, named RD3D, aims at pre-fusion in the encoder stage and in-depth fusion in the decoder stage to effectively promote the full integration of RGB and depth streams. Specifically, RD3D first conducts pre-fusion across RGB and depth modalities through an inflated 3D encoder, and later provides in-depth feature fusion by designing a 3D decoder equipped with rich back-projection paths (RBPP) for leveraging the extensive aggregation ability of 3D convolutions. With such a progressive fusion strategy involving both the encoder and decoder, effective and thorough interaction between the two modalities can be exploited and boost the detection accuracy. Extensive experiments on six widely used benchmark datasets demonstrate that RD3D performs favorably against 14 state-of-the-art RGB-D SOD approaches in terms of four key evaluation metrics. Our code will be made publicly available: https://github.com/PPOLYpubki/RD3D.
翻訳日:2021-03-14 19:05:01 公開日:2021-01-25
# HexCNN: ネイティブな六角形畳み込みニューラルネットワークのためのフレームワーク

HexCNN: A Framework for Native Hexagonal Convolutional Neural Networks ( http://arxiv.org/abs/2101.10897v1 )

ライセンス: Link先を確認
Yunxiang Zhao, Qiuhong Ke, Flip Korn, Jianzhong Qi, Rui Zhang(参考訳) ヘキサゴナルcnnモデルは、回転対称性が向上し、異方性が低下するため、iactデータ解析や空中シーン分類などの応用において優れた性能を示している。 六角形処理を実現するために、既存の研究では、主にZeroOutメソッドを使用して六角形処理を模倣し、メモリと計算のオーバーヘッドを大幅に引き起こします。 HexCNNという新しいネイティブ六角形CNNフレームワークでこの不足に対処する。 HexCNNは六角形の入力を受け取り、六角形のフィルタに基づいて入力の原形を前方・後方に伝播することで、模倣による計算やメモリオーバーヘッドを回避する。 矩形形状の入力を必要とするが六角形処理を必要とするアプリケーションの場合、HexCNNは前処理として入力を六角形にパディングすることで適用できる。 この場合、HexCNNの時間と空間効率は、既存の六角形CNN法を著しく上回っていることを示す。 実験の結果、六角形処理を模倣するが長方形フィルタを使用する最先端モデルと比較して、HexCNNはトレーニング時間を最大42.2%短縮した。 一方、HexCNNは、入力の読み込みと畳み込みの実行のためにメモリスペースコストを最大25%と41.7%節約します。

Hexagonal CNN models have shown superior performance in applications such as IACT data analysis and aerial scene classification due to their better rotation symmetry and reduced anisotropy. In order to realize hexagonal processing, existing studies mainly use the ZeroOut method to imitate hexagonal processing, which causes substantial memory and computation overheads. We address this deficiency with a novel native hexagonal CNN framework named HexCNN. HexCNN takes hexagon-shaped input and performs forward and backward propagation on the original form of the input based on hexagon-shaped filters, hence avoiding computation and memory overheads caused by imitation. For applications with rectangle-shaped input but require hexagonal processing, HexCNN can be applied by padding the input into hexagon-shape as preprocessing. In this case, we show that the time and space efficiency of HexCNN still outperforms existing hexagonal CNN methods substantially. Experimental results show that compared with the state-of-the-art models, which imitate hexagonal processing but using rectangle-shaped filters, HexCNN reduces the training time by up to 42.2%. Meanwhile, HexCNN saves the memory space cost by up to 25% and 41.7% for loading the input and performing convolution, respectively.
翻訳日:2021-03-14 19:04:15 公開日:2021-01-25
# 視覚トラッカー評価における詳細の再検討

Revisiting the details when evaluating a visual tracker ( http://arxiv.org/abs/2102.06733v1 )

ライセンス: Link先を確認
Zan Huang(参考訳) 視覚追跡アルゴリズムは、さまざまなアプリケーションで自然に採用されており、いくつかのベンチマークと多くの追跡アルゴリズムがあり、将来的に現れることが予想されています。 本報告では, 単一物体追跡に着目し, トラッカ評価と比較のための簡易かつ高精度, 拡張可能な手法を導入することで, 広く使用されている otb\cite{otb} ベンチマークに基づくトラッカ評価の詳細を再検討する。 実験結果から,追跡アルゴリズムには絶対的な勝者が存在しない可能性が示唆された。 ユースケースに適したトラッカーを選択するためには,詳細な分析を行う必要がある。

Visual tracking algorithms are naturally adopted in various applications, there have been several benchmarks and many tracking algorithms, more expected to appear in the future. In this report, I focus on single object tracking and revisit the details of tracker evaluation based on widely used OTB\cite{otb} benchmark by introducing a simpler, accurate, and extensible method for tracker evaluation and comparison. Experimental results suggest that there may not be an absolute winner among tracking algorithms. We have to perform detailed analysis to select suitable trackers for use cases.
翻訳日:2021-03-14 19:03:53 公開日:2021-01-25
# MICROS: Mixed-Initiative ConveRsatiOnal Systems Workshop

MICROS: Mixed-Initiative ConveRsatiOnal Systems Workshop ( http://arxiv.org/abs/2101.10219v1 )

ライセンス: Link先を確認
Ida Mele, Cristina Ioana Muntean, Mohammad Aliannejadi, Nikos Voskarides(参考訳) The first edition on Mixed-Initiative ConveRsatiOnal Systems (MICROS@ECIR2021)は、会話システム分野における新しいアイデアと貢献を調査・収集することを目的としている。 多くの場合、ユーザーはスマートフォンやホームアシスタントを使って必要な情報を満たす。 これはユーザーがオンライン情報にアクセスする方法に革命をもたらし、従来の検索やレコメンデーションに比べて新たな課題を生じさせている。 MICROSの最初のエディションは、特に混合開始対話システムに焦点を当てます。 実際、会話システムは前向きで、答えだけでなく、あいまいな要求やあいまいな要求に対する解釈も提案する必要がある。

The 1st edition of the workshop on Mixed-Initiative ConveRsatiOnal Systems (MICROS@ECIR2021) aims at investigating and collecting novel ideas and contributions in the field of conversational systems. Oftentimes, the users fulfill their information need using smartphones and home assistants. This has revolutionized the way users access online information, thus posing new challenges compared to traditional search and recommendation. The first edition of MICROS will have a particular focus on mixed-initiative conversational systems. Indeed, conversational systems need to be proactive, proposing not only answers but also possible interpretations for ambiguous or vague requests.
翻訳日:2021-03-14 19:03:43 公開日:2021-01-25
# 高信頼オフポリティ(または偽物)変動推定

High-Confidence Off-Policy (or Counterfactual) Variance Estimation ( http://arxiv.org/abs/2101.09847v1 )

ライセンス: Link先を確認
Yash Chandak, Shiv Shankar, Philip S. Thomas(参考訳) 多くの連続的な意思決定システムは、以前のポリシーを使用して収集されたデータを利用して新しいポリシーを提案します。 重要なアプリケーションでは、ポリシーが必要に応じて振る舞うことを保証するために、デプロイ前に新しいポリシーの振舞いに対する高い信頼性を保証することが重要です。 先行研究は、期待リターンの高信頼オフポリシー推定を研究してきたが、高リスクアプリケーションでは、リターンの分散の高信頼オフポリシー推定が等しく重要である。 本稿では,オフポリシーデータからのリターンのばらつきを高い信頼性で推定し,バウンディングするという,従来から開かれた問題に取り組みます。

Many sequential decision-making systems leverage data collected using prior policies to propose a new policy. For critical applications, it is important that high-confidence guarantees on the new policy's behavior are provided before deployment, to ensure that the policy will behave as desired. Prior works have studied high-confidence off-policy estimation of the expected return, however, high-confidence off-policy estimation of the variance of returns can be equally critical for high-risk applications. In this paper, we tackle the previously open problem of estimating and bounding, with high confidence, the variance of returns from off-policy data
翻訳日:2021-03-14 19:03:32 公開日:2021-01-25
# CPT: サイクル精度による効率的なディープニューラルネットワークトレーニング

CPT: Efficient Deep Neural Network Training via Cyclic Precision ( http://arxiv.org/abs/2101.09868v1 )

ライセンス: Link先を確認
Yonggan Fu, Han Guo, Meng Li, Xin Yang, Yining Ding, Vikas Chandra, Yingyan Lin(参考訳) 低精度ディープニューラルネットワーク(DNN)トレーニングは、DNNのトレーニング時間/エネルギー効率を高めるための最も効果的なノブの1つであるため、大きな注目を集めている。 本稿では、DNNトレーニングの理解に関する最近の知見に触発された新しい視点から、DNNの精度はDNNトレーニングの学習率に類似する効果があるのではないかと推測し、DNNトレーニングの時間とエネルギー効率をさらに高めるためのトレーニング軌道に沿って動的精度を提唱する。 具体的には,最初の数回の訓練期間において,簡便な精度範囲テストを用いて識別可能な2つの境界値間の精度を周期的に変化させる循環精度トレーニング(cpt)を提案する。 5つのデータセットと10のモデルに関する大規模なシミュレーションとアブレーション研究は、CPTの有効性が様々なモデル/タスク(分類と言語モデリングを含む)で一致していることを示した。 さらに,実験と可視化により,CPTは(1)より広い最小値に収束し,(2)DNNトレーニングの最適化と効率を同時に向上する新たな設計ノブを開放すると考えられるトレーニング分散を減少させることを示す。 コードはhttps://github.com/RICE-EIC/CPTで入手できます。

Low-precision deep neural network (DNN) training has gained tremendous attention as reducing precision is one of the most effective knobs for boosting DNNs' training time/energy efficiency. In this paper, we attempt to explore low-precision training from a new perspective as inspired by recent findings in understanding DNN training: we conjecture that DNNs' precision might have a similar effect as the learning rate during DNN training, and advocate dynamic precision along the training trajectory for further boosting the time/energy efficiency of DNN training. Specifically, we propose Cyclic Precision Training (CPT) to cyclically vary the precision between two boundary values which can be identified using a simple precision range test within the first few training epochs. Extensive simulations and ablation studies on five datasets and ten models demonstrate that CPT's effectiveness is consistent across various models/tasks (including classification and language modeling). Furthermore, through experiments and visualization we show that CPT helps to (1) converge to a wider minima with a lower generalization error and (2) reduce training variance which we believe opens up a new design knob for simultaneously improving the optimization and efficiency of DNN training. Our codes are available at: https://github.com/RICE-EIC/CPT.
翻訳日:2021-03-14 19:03:19 公開日:2021-01-25
# ドメイン適応のための統一結合最大平均差分法

A Unified Joint Maximum Mean Discrepancy for Domain Adaptation ( http://arxiv.org/abs/2101.09979v1 )

ライセンス: Link先を確認
Wei Wang, Baopu Li, Shuhui Yang, Jing Sun, Zhengming Ding, Junyang Chen, Xiao Dong, Zhihui Wang, Haojie Li(参考訳) ドメイン適応は近年多くの注目を集めており、多くのアルゴリズムが目覚ましい進歩をもって提案されている。 しかし、最大平均誤差(結合平均誤差、JMMD)から導かれる経験的推定は、操作が難しい複雑なテンソル積演算子を含むため、この問題に対する関節確率分布(P(X, Y))距離についてはまだ完全には検討されていない。 本論文では,JMMDの最適化が容易な統一型JMMDを理論的に導出し,境界,クラス条件,重み付きクラスの条件付き確率分布距離がラベルカーネルの異なる特殊な場合であることを証明し,重み付きクラスの条件付き分布は,カテゴリレベルの領域間の特徴アライメントを実現するだけでなく,クラス先行確率を用いた不均衡データセットにも対処できる。 その結果,jmmdは分類に有利な特徴ラベル依存(識別可能性)を低下させ,ラベルカーネルが重み付きクラス条件付きである場合のラベル分布変化に敏感であることが分かった。 そこで、ヒルベルト・シュミットの独立基準を活用し、依存を促進するために新しいMDD行列を提案し、ラベル分散シフトに堅牢な新しいラベルカーネルを考案する。 最後に,いくつかのクロスドメインデータセットについて広範な実験を行い,理論結果の有効性と有効性を示す。

Domain adaptation has received a lot of attention in recent years, and many algorithms have been proposed with impressive progress. However, it is still not fully explored concerning the joint probability distribution (P(X, Y)) distance for this problem, since its empirical estimation derived from the maximum mean discrepancy (joint maximum mean discrepancy, JMMD) will involve complex tensor-product operator that is hard to manipulate. To solve this issue, this paper theoretically derives a unified form of JMMD that is easy to optimize, and proves that the marginal, class conditional and weighted class conditional probability distribution distances are our special cases with different label kernels, among which the weighted class conditional one not only can realize feature alignment across domains in the category level, but also deal with imbalance dataset using the class prior probabilities. From the revealed unified JMMD, we illustrate that JMMD degrades the feature-label dependence (discriminability) that benefits to classification, and it is sensitive to the label distribution shift when the label kernel is the weighted class conditional one. Therefore, we leverage Hilbert Schmidt independence criterion and propose a novel MMD matrix to promote the dependence, and devise a novel label kernel that is robust to label distribution shift. Finally, we conduct extensive experiments on several cross-domain datasets to demonstrate the validity and effectiveness of the revealed theoretical results.
翻訳日:2021-03-14 19:02:53 公開日:2021-01-25
# TT-Rec:深層学習推薦モデルのためのテンソルトレイン圧縮

TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models ( http://arxiv.org/abs/2101.11714v1 )

ライセンス: Link先を確認
Chunxing Yin and Bilge Acun and Xing Liu and Carole-Jean Wu(参考訳) ディープラーニングレコメンデーションモデル(DLRM)への組み込みテーブルのメモリ容量は、業界全体で数十GBからTBへと劇的に増加しています。 DLRMの急速な成長を考えると、迅速かつ効率的なDLRMイノベーションを可能にするために、新しいソリューションが緊急に必要です。 同時に、インフラストラクチャのキャパシティ要求を指数的に増やさなくても、これを行う必要があります。 本論文では,重要かつ未調査のコンテキストであるDLRM(TT-Rec)に対するTensor Trainの分解の可能性を示す。 提案するTT-Rec設計を評価するために,最適化カーネル(TT-EmbeddingBag)を設計,実装する。 TT-EmbeddingBagはSOTA TT実装の3倍高速です。 TT-Recの性能は、ベクトルルックアップ操作を埋め込むためのバッチ行列乗算とキャッシュ戦略によりさらに最適化される。 さらに, 重量初期化分布がDLRM精度に及ぼす影響を数学的, 実験的に検討し, サンプルガウス分布に従ってTT-Recのテンソルコアを初期化することを提案する。 mlperf-dlrmをcriteoのkaggleおよびterabyteデータセットでトレーニングすることにより,メモリ容量,精度,タイミングパフォーマンスという3つの重要な設計空間でtt-recを評価する。 TT-Recは、KaggleとTerabyteのモデルサイズ圧縮をそれぞれ117回、112回達成します。 この印象的なモデルサイズ削減は、圧縮されていないベースラインと比較して正確さやトレーニング時間のオーバーヘッドを伴わない。

The memory capacity of embedding tables in deep learning recommendation models (DLRMs) is increasing dramatically from tens of GBs to TBs across the industry. Given the fast growth in DLRMs, novel solutions are urgently needed, in order to enable fast and efficient DLRM innovations. At the same time, this must be done without having to exponentially increase infrastructure capacity demands. In this paper, we demonstrate the promising potential of Tensor Train decomposition for DLRMs (TT-Rec), an important yet under-investigated context. We design and implement optimized kernels (TT-EmbeddingBag) to evaluate the proposed TT-Rec design. TT-EmbeddingBag is 3 times faster than the SOTA TT implementation. The performance of TT-Rec is further optimized with the batched matrix multiplication and caching strategies for embedding vector lookup operations. In addition, we present mathematically and empirically the effect of weight initialization distribution on DLRM accuracy and propose to initialize the tensor cores of TT-Rec following the sampled Gaussian distribution. We evaluate TT-Rec across three important design space dimensions -- memory capacity, accuracy, and timing performance -- by training MLPerf-DLRM with Criteo's Kaggle and Terabyte data sets. TT-Rec achieves 117 times and 112 times model size compression, for Kaggle and Terabyte, respectively. This impressive model size reduction can come with no accuracy nor training time overhead as compared to the uncompressed baseline.
翻訳日:2021-03-14 19:02:27 公開日:2021-01-25
# インフォーマル文書における記号表現の曖昧化

Disambiguating Symbolic Expressions in Informal Documents ( http://arxiv.org/abs/2101.11716v1 )

ライセンス: Link先を確認
Dennis M\"uller and Cezary Kaliszyk(参考訳) ニューラルマシン翻訳タスクとして,LaTeXファイル,すなわち,それらの正確なセマンティクスと抽象構文木を決定する形で,非公式STEM文書におけるシンボリック表現を曖昧にするタスクを提案する。 関連するさまざまな課題を議論し,約33,000項目のデータセットを提示する。 このデータセット上でいくつかのベースラインモデルを評価したが、オーバーフィッティング前に構文的に有効なLaTeXさえ得られなかった。 そこで本研究では,arxiv.org から得られたデータに基づいて事前学習したトランスフォーマー言語モデルを用いた手法について述べる。 我々は,シンボリック表現の構文と意味を考慮に入れて,複数の専用手法を用いてモデルを評価する。

We propose the task of disambiguating symbolic expressions in informal STEM documents in the form of LaTeX files - that is, determining their precise semantics and abstract syntax tree - as a neural machine translation task. We discuss the distinct challenges involved and present a dataset with roughly 33,000 entries. We evaluated several baseline models on this dataset, which failed to yield even syntactically valid LaTeX before overfitting. Consequently, we describe a methodology using a transformer language model pre-trained on sources obtained from arxiv.org, which yields promising results despite the small size of the dataset. We evaluate our model using a plurality of dedicated techniques, taking the syntax and semantics of symbolic expressions into account.
翻訳日:2021-03-14 19:02:04 公開日:2021-01-25
# 協力投資によるリスク資本の蓄積

Accumulating Risk Capital Through Investing in Cooperation ( http://arxiv.org/abs/2101.10305v1 )

ライセンス: Link先を確認
Charlotte Roman, Michael Dennis, Andrew Critch, Stuart Russell(参考訳) マルチエージェント学習における協力を促進する最近の取り組みは、悪意のあるアクターによる搾取に対してより脆弱になるコストで協力を促進する多くの方法をもたらしました。 これは避けられないトレードオフであり、これらの懸念をバランスさせ、安全と長期協力の両立を促進する目標を提案する。 さらに、安全と協力のトレードオフは深刻ではなく、少量のリスクから協力することで指数関数的に大きな利益を得ることができる。 本研究は,厳密な解決方法と,この目標を目標とする政策の訓練方法,Arccumulating Risk Capital Through Investing in Cooperation (ARCTIC) について検討し,これらを反復した囚人のジレンマとスタッグハントで評価する。

Recent work on promoting cooperation in multi-agent learning has resulted in many methods which successfully promote cooperation at the cost of becoming more vulnerable to exploitation by malicious actors. We show that this is an unavoidable trade-off and propose an objective which balances these concerns, promoting both safety and long-term cooperation. Moreover, the trade-off between safety and cooperation is not severe, and you can receive exponentially large returns through cooperation from a small amount of risk. We study both an exact solution method and propose a method for training policies that targets this objective, Accumulating Risk Capital Through Investing in Cooperation (ARCTIC), and evaluate them in iterated Prisoner's Dilemma and Stag Hunt.
翻訳日:2021-03-14 19:01:51 公開日:2021-01-25
# droidlet: モジュール型、異種、マルチモーダルエージェント

droidlet: modular, heterogenous, multi-modal agents ( http://arxiv.org/abs/2101.10384v1 )

ライセンス: Link先を確認
Anurag Pratik, Soumith Chintala, Kavya Srinet, Dhiraj Gandhi, Rebecca Qian, Yuxuan Sun, Ryan Drew, Sara Elkafrawy, Anoushka Tiwari, Tucker Hart, Mary Williamson, Abhinav Gupta, Arthur Szlam(参考訳) 近年、大規模に学習するエンドツーエンド機械学習(ml)システムを構築するための大きな進歩がある。 しかし、これらのシステムのほとんどは: (a) 分離された(パーセプション、スピーチ、言語のみ); (b) 静的データセットでトレーニングされた。 一方,ロボット工学の分野では,大規模学習が常に困難であった。 スーパービジョンは収集が難しいし、現実世界の物理的相互作用は高価だ。 本研究では,モジュール化された異種エージェントアーキテクチャとプラットフォームであるdroidletをオープンソースとして紹介する。 これにより、認識と言語における大規模な静的データセットと、ロボット工学でよく使われる高度なヒューリスティックの両方を活用でき、インタラクティブなアノテーションのためのツールを提供することができます。 さらに、知覚、言語、行動がひとつのプラットフォームにまとめられ、現実世界の相互作用の豊かさから学ぶエージェントへの道を提供する。

In recent years, there have been significant advances in building end-to-end Machine Learning (ML) systems that learn at scale. But most of these systems are: (a) isolated (perception, speech, or language only); (b) trained on static datasets. On the other hand, in the field of robotics, large-scale learning has always been difficult. Supervision is hard to gather and real world physical interactions are expensive. In this work we introduce and open-source droidlet, a modular, heterogeneous agent architecture and platform. It allows us to exploit both large-scale static datasets in perception and language and sophisticated heuristics often used in robotics; and provides tools for interactive annotation. Furthermore, it brings together perception, language and action onto one platform, providing a path towards agents that learn from the richness of real world interactions.
翻訳日:2021-03-14 19:01:37 公開日:2021-01-25
# ランドマーク検出のための登録と三角測量による監督

Supervision by Registration and Triangulation for Landmark Detection ( http://arxiv.org/abs/2101.09866v1 )

ライセンス: Link先を確認
Xuanyi Dong, Yi Yang, Shih-En Wei, Xinshuo Weng, Yaser Sheikh, Shoou-I Yu(参考訳) 本稿では,マルチビュー映像を用いた教師なし手法である登録・三角測量(srt)による監視を行い,ランドマーク検出器の精度と精度を向上させる。 ラベルのないデータを活用することで、検出者は大量のラベルのないデータから自由に学び、手動のアノテーションの品質や量によって制限されない。 ラベルのないデータを利用するには,(1)隣接するフレームにおける同一のランドマークの検出は,登録,すなわち光学フローと一貫性を持つべきである。 2) 多重同期および幾何的校正ビューにおける同一のランドマークの検出は,単一の3次元点,すなわち複数視点の整合性に対応すべきである。 登録と多視点整合性は手動ラベリングを必要としない監督の源であり、検出器トレーニング中に既存のトレーニングデータを増やすために利用することができる。 識別可能な登録と3D三角モジュールにより、エンドツーエンドのトレーニングが可能です。 画像と映像のランドマーク検出における精度と精度の向上について,11のデータセットと新たに提案されたメトリクスを用いた実験を行った。 コードはhttps://github.com/D-X-Y/landmark-detectionで入手できる。

We present Supervision by Registration and Triangulation (SRT), an unsupervised approach that utilizes unlabeled multi-view video to improve the accuracy and precision of landmark detectors. Being able to utilize unlabeled data enables our detectors to learn from massive amounts of unlabeled data freely available and not be limited by the quality and quantity of manual human annotations. To utilize unlabeled data, there are two key observations: (1) the detections of the same landmark in adjacent frames should be coherent with registration, i.e., optical flow. (2) the detections of the same landmark in multiple synchronized and geometrically calibrated views should correspond to a single 3D point, i.e., multi-view consistency. Registration and multi-view consistency are sources of supervision that do not require manual labeling, thus it can be leveraged to augment existing training data during detector training. End-to-end training is made possible by differentiable registration and 3D triangulation modules. Experiments with 11 datasets and a newly proposed metric to measure precision demonstrate accuracy and precision improvements in landmark detection on both images and video. Code is available at https://github.com/D-X-Y/landmark-detection.
翻訳日:2021-03-14 19:01:25 公開日:2021-01-25
# 実世界バースト画像に先行したグリーンチャネルによるノイズ除去

Joint Denoising and Demosaicking with Green Channel Prior for Real-world Burst Images ( http://arxiv.org/abs/2101.09870v1 )

ライセンス: Link先を確認
Shi Guo, Zhetong Liang, Lei Zhang(参考訳) 生色フィルタアレイ(CFA)データからフルカラー画像を再構成するには,デノイングとデシッキングが不可欠だが相関するステップである。 深層畳み込みニューラルネットワーク(CNN)の学習により、共同でノイズ除去と復号化を行うことで、大きな進歩を遂げました。 しかし、既存のcnn-based joint denoising and demosaicking (jdd) 法は単一の画像で動作し、付加的な白色ガウスノイズを仮定している。 本研究では,実世界バースト画像,すなわち JDD-B に対する JDD 問題について検討する。 グリーンチャネルが、CFAの生データにおける赤と青のチャネルの2倍のサンプリング率と品質を有することを考慮し、このグリーンチャネル事前(GCP)を用いて、JDD-BタスクのためのGCP-Netを構築することを提案する。 GCP-Netでは、グリーンチャネルから抽出されたGCP特徴を利用して、画像全体の特徴抽出と特徴アップサンプリングをガイドする。 また、フレーム間のシフトを補うために、GCPの特徴からオフセットを推定し、ノイズの影響を低減する。 我々のGCP-Netはノイズを除去しながら他のJDDメソッドよりも多くの画像構造や詳細を保存できます。 合成および実世界の雑音画像に対する実験は、GCP-Netの有効性を定量的に定性的に示す。

Denoising and demosaicking are essential yet correlated steps to reconstruct a full color image from the raw color filter array (CFA) data. By learning a deep convolutional neural network (CNN), significant progress has been achieved to perform denoising and demosaicking jointly. However, most existing CNN-based joint denoising and demosaicking (JDD) methods work on a single image while assuming additive white Gaussian noise, which limits their performance on real-world applications. In this work, we study the JDD problem for real-world burst images, namely JDD-B. Considering the fact that the green channel has twice the sampling rate and better quality than the red and blue channels in CFA raw data, we propose to use this green channel prior (GCP) to build a GCP-Net for the JDD-B task. In GCP-Net, the GCP features extracted from green channels are utilized to guide the feature extraction and feature upsampling of the whole image. To compensate for the shift between frames, the offset is also estimated from GCP features to reduce the impact of noise. Our GCP-Net can preserve more image structures and details than other JDD methods while removing noise. Experiments on synthetic and real-world noisy images demonstrate the effectiveness of GCP-Net quantitatively and qualitatively.
翻訳日:2021-03-14 19:01:07 公開日:2021-01-25
# CMOSイメージセンサにおける転がりシャッタの固有の脆弱性

They See Me Rollin': Inherent Vulnerability of the Rolling Shutter in CMOS Image Sensors ( http://arxiv.org/abs/2101.10011v1 )

ライセンス: Link先を確認
Sebastian K\"ohler, Giulio Lovisotto, Simon Birnbach, Richard Baker, Ivan Martinovic(参考訳) カメラは視覚ベースのインテリジェントシステムの基本コンポーネントとなっている。 製造コストと画質のバランスをとるため、現代のほとんどのカメラでは、電子式ローリングシャッター機構を実装したComplementary Metal-Oxide Semiconductorイメージセンサーを使用している。 本稿では, 電子式転がりシャッターを明るい変調光源(例えば, 安価なオフザシェルフレーザー)で利用し, きめ細かな画像破壊を注入する方法について述べる。 これらの破壊は、物体から情報的特徴を抽出するのに高周波データが不可欠であるカメラベースのコンピュータビジョンシステムに大きく影響する。 本研究では, 環境条件, 入射光の角度, レーザーからカメラの距離, 精度など, 転がりシャッター攻撃に影響を及ぼす基本的な要因について検討する。 これらの要因が射出歪みの強度にどう影響するか, カメラの特性をモデル化することで敵がどう考慮するかを実証する。 i) ターゲットカメラのいくつかの特性をプロファイリングし、(ii) 敵の目標を満たす歪みを見つけるために攻撃を部分的にシミュレートする。 次に、敵の目標は、画像内の物体の検出を最大に破壊することであるオブジェクト検出のシナリオへの攻撃をインスタンス化します。 敵はレーザーを変調して、最先端の検出器が知覚する物体の75%まで隠蔽でき、また攻撃を目立たないよう摂動量を制御できることを示した。 以上の結果から,ローリングシャッター攻撃は視覚に基づくインテリジェントシステムの性能と信頼性を大幅に低下させる可能性が示唆された。

Cameras have become a fundamental component of vision-based intelligent systems. As a balance between production costs and image quality, most modern cameras use Complementary Metal-Oxide Semiconductor image sensors that implement an electronic rolling shutter mechanism, where image rows are captured consecutively rather than all-at-once. In this paper, we describe how the electronic rolling shutter can be exploited using a bright, modulated light source (e.g., an inexpensive, off-the-shelf laser), to inject fine-grained image disruptions. These disruptions substantially affect camera-based computer vision systems, where high-frequency data is crucial in extracting informative features from objects. We study the fundamental factors affecting a rolling shutter attack, such as environmental conditions, angle of the incident light, laser to camera distance, and aiming precision. We demonstrate how these factors affect the intensity of the injected distortion and how an adversary can take them into account by modeling the properties of the camera. We introduce a general pipeline of a practical attack, which consists of: (i) profiling several properties of the target camera and (ii) partially simulating the attack to find distortions that satisfy the adversary's goal. Then, we instantiate the attack to the scenario of object detection, where the adversary's goal is to maximally disrupt the detection of objects in the image. We show that the adversary can modulate the laser to hide up to 75% of objects perceived by state-of-the-art detectors while controlling the amount of perturbation to keep the attack inconspicuous. Our results indicate that rolling shutter attacks can substantially reduce the performance and reliability of vision-based intelligent systems.
翻訳日:2021-03-14 19:00:43 公開日:2021-01-25
# 形状優先型マルチストラクチャーディープセグメンテーションと遅延逆正規化

Multi-Structure Deep Segmentation with Shape Priors and Latent Adversarial Regularization ( http://arxiv.org/abs/2101.10173v1 )

ライセンス: Link先を確認
Arnaud Boutillon, Bhushan Borotikar, Christelle Pons, Val\'erie Burdin, Pierre-Henri Conze(参考訳) 小児MRI画像における筋骨格系の自動分割は, 臨床における形態学的評価の課題であるが重要な課題である。 そこで本研究では,mr画像における多構造骨境界化のための深層学習に基づく正規化セグメンテーション法を提案する。 新たに考案した形状コード判別器に基づき,本手法は深層ネットワークに解剖学の学習可能な形状表現に従うよう強制する。 新たな形状先行型逆正則化(SPAR)は、地上の真実と予測マスクから生じる潜時的な形状コードを利用して、より一貫性があり、妥当な予測に向けてセグメンテーションネットワークを導く。 本研究は足関節および肩関節からの2つの小児筋骨格イメージングデータセットにおける術中正規化法と比較した。

Automatic segmentation of the musculoskeletal system in pediatric magnetic resonance (MR) images is a challenging but crucial task for morphological evaluation in clinical practice. We propose a deep learning-based regularized segmentation method for multi-structure bone delineation in MR images, designed to overcome the inherent scarcity and heterogeneity of pediatric data. Based on a newly devised shape code discriminator, our adversarial regularization scheme enforces the deep network to follow a learnt shape representation of the anatomy. The novel shape priors based adversarial regularization (SPAR) exploits latent shape codes arising from ground truth and predicted masks to guide the segmentation network towards more consistent and plausible predictions. Our contribution is compared to state-of-the-art regularization methods on two pediatric musculoskeletal imaging datasets from ankle and shoulder joints.
翻訳日:2021-03-14 19:00:14 公開日:2021-01-25
# D-Net: ボリュームアライメントを考慮したSiameseベースのネットワーク

D-Net: Siamese based Network with Mutual Attention for Volume Alignment ( http://arxiv.org/abs/2101.10248v1 )

ライセンス: Link先を確認
Jian-Qing Zheng, Ngee Han Lim, Bartlomiej W. Papiez(参考訳) いくつかの生物医学的応用における変化の定量化には、コントラストと非コントラスト強調イメージングのアライメントが不可欠です。 特に, 造影CTからの軟骨形状の抽出には, 現在手動で行われている骨の正確なアライメントが必要である。 既存のディープラーニングベースのアライメントでは、共通のテンプレートやローテーション範囲が制限されている。 そこで本研究では,従来の標準テンプレートを必要としない3次元CTスキャン間の任意の回転と変換を推定する新しいネットワークD-netを提案する。 d-net は分岐した siamese エンコーダ-デコーダ構造の拡張であり、新しい相互非局所リンクによって接続される。 この3D教師ネットワークは, 軟骨の造影を伴わず, 術前CTスキャンを用いて訓練し, 検証した。 以上の結果より, ctアライメントの推定精度は, 現在の比較法を上回って有意に向上した。

Alignment of contrast and non-contrast-enhanced imaging is essential for the quantification of changes in several biomedical applications. In particular, the extraction of cartilage shape from contrast-enhanced Computed Tomography (CT) of tibiae requires accurate alignment of the bone, currently performed manually. Existing deep learning-based methods for alignment require a common template or are limited in rotation range. Therefore, we present a novel network, D-net, to estimate arbitrary rotation and translation between 3D CT scans that additionally does not require a prior standard template. D-net is an extension to the branched Siamese encoder-decoder structure connected by new mutual non-local links, which efficiently capture long-range connections of similar features between two branches. The 3D supervised network is trained and validated using preclinical CT scans of mouse tibiae with and without contrast enhancement in cartilage. The presented results show a significant improvement in the estimation of CT alignment, outperforming the current comparable methods.
翻訳日:2021-03-14 19:00:01 公開日:2021-01-25
# タンジェンシャルビューを用いた超解像全方位画質の品質評価

Quality Assessment of Super-Resolved Omnidirectional Image Quality Using Tangential Views ( http://arxiv.org/abs/2101.10396v1 )

ライセンス: Link先を確認
Cagri Ozcinar and Aakanksha Rana(参考訳) 全方位画像(odis)は360度画像としても知られ、与えられた360度シーンのあらゆる方向を一定地点から探索することができる。 ODIを用いた没入型イメージングシステムの設計は困難であり、360度視野全体の非常に大きな解像度カバレッジを必要とするため、QoE(Quality of Experience)が強化されます。 深層学習技術を用いた単一画像超解像法(SISR)の顕著な進歩にもかかわらず,超解像ODIの品質評価のための研究は存在しない。 本稿では,GANベースおよびCNNベースSISR法により生成されたODIの品質測定を対象とする,客観的かつ完全な品質評価フレームワークを提案する。 品質評価フレームワークは、与えられたodisの球面的性質に対処するために接線ビューを利用する。 生成されたタンジェンシャルビューは歪みがなく、SISR品質測定のために高分解能球面データに効率的にスケールできます。 設計したフレームワークに適応した広範に使われているフル参照SISR品質指標を用いて、最先端SISRの2つの手法を広範囲に評価した。 さらに,主観的テストではganベースのアーキテクチャが好まれるのに対し,客観的な測定基準ではcnnベースのsisrよりも高いパフォーマンスを示すことが明らかとなった。

Omnidirectional images (ODIs), also known as 360-degree images, enable viewers to explore all directions of a given 360-degree scene from a fixed point. Designing an immersive imaging system with ODI is challenging as such systems require very large resolution coverage of the entire 360 viewing space to provide an enhanced quality of experience (QoE). Despite remarkable progress on single image super-resolution (SISR) methods with deep-learning techniques, no study for quality assessments of super-resolved ODIs exists to analyze the quality of such SISR techniques. This paper proposes an objective, full-reference quality assessment framework which studies quality measurement for ODIs generated by GAN-based and CNN-based SISR methods. The quality assessment framework offers to utilize tangential views to cope with the spherical nature of a given ODIs. The generated tangential views are distortion-free and can be efficiently scaled to high-resolution spherical data for SISR quality measurement. We extensively evaluate two state-of-the-art SISR methods using widely used full-reference SISR quality metrics adapted to our designed framework. In addition, our study reveals that most objective metric show high performance over CNN based SISR, while subjective tests favors GAN-based architectures.
翻訳日:2021-03-14 18:59:25 公開日:2021-01-25
# 地中真理のない3次元再構成とマッピング性能評価のための指標

A metric for evaluating 3D reconstruction and mapping performance with no ground truthing ( http://arxiv.org/abs/2101.10402v1 )

ライセンス: Link先を確認
Guoxiang Zhang and YangQuan Chen(参考訳) 既存のメトリクスは、特別な機器でのみ収集できる地上の真理データを必要とするため、三次元マッピング性能を評価するのは容易ではない。 本稿では,この評価のために,DMP (metric, dense map posterior) を提案する。 根拠となる真理のデータなしでは機能する。 代わりに、密度の高い雲の観測から、地図の後方確率を反映して、同等の値を計算する。 実験では,提案したDMPを実測値と比較した。 結果はDMPが同様の評価能力を提供できることを示している。 提案されたメトリクスは、異なるメソッドの評価をより柔軟にし、セルフ監視メソッドやより利用可能なデータセットなど、多くの新しい可能性を開きます。

It is not easy when evaluating 3D mapping performance because existing metrics require ground truth data that can only be collected with special instruments. In this paper, we propose a metric, dense map posterior (DMP), for this evaluation. It can work without any ground truth data. Instead, it calculates a comparable value, reflecting a map posterior probability, from dense point cloud observations. In our experiments, the proposed DMP is benchmarked against ground truth-based metrics. Results show that DMP can provide a similar evaluation capability. The proposed metric makes evaluating different methods more flexible and opens many new possibilities, such as self-supervised methods and more available datasets.
翻訳日:2021-03-14 18:59:04 公開日:2021-01-25
# 事前の知識で自動運転車を偽装する学習

Learning to falsify automated driving vehicles with prior knowledge ( http://arxiv.org/abs/2101.10377v1 )

ライセンス: Link先を確認
Andrea Favrin and Vladislav Nenchev and Angelo Cenedese(参考訳) 自動運転技術は大きな進歩を遂げているが、スケーラブルで厳格なテストと安全な自動運転車両の検証は依然として困難である。 本稿では,シミュレーションにおける自動運転機能の実装をテストするための学習に基づく偽造フレームワークを提案する。 機能仕様は、可能なシナリオに関する違反指標と関連していると仮定する。 シナリオパラメータの分散を制限し、学習プロセスをガイドし、改善するためのモデルベースのファシファイアに事前知識が組み込まれています。 模範的な適応型クルーズコントローラでは、純粋に学習ベースまたは純粋にモデルベースのファルシフィケーションアプローチによって得られたシナリオと比較して、非自明なファルシフィケーションシナリオを高い報酬で得る。

While automated driving technology has achieved a tremendous progress, the scalable and rigorous testing and verification of safe automated and autonomous driving vehicles remain challenging. This paper proposes a learning-based falsification framework for testing the implementation of an automated or self-driving function in simulation. We assume that the function specification is associated with a violation metric on possible scenarios. Prior knowledge is incorporated to limit the scenario parameter variance and in a model-based falsifier to guide and improve the learning process. For an exemplary adaptive cruise controller, the presented framework yields non-trivial falsifying scenarios with higher reward, compared to scenarios obtained by purely learning-based or purely model-based falsification approaches.
翻訳日:2021-03-14 18:58:28 公開日:2021-01-25
# ディープラーニングの一般化とトレーニングセットの凸束

Deep Learning Generalization and the Convex Hull of Training Sets ( http://arxiv.org/abs/2101.09849v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) トレーニングセットの凸船体に関連して,深層学習モデルの一般化について検討する。 訓練されたイメージ分類器は基本的に、決定境界を介してそのドメインを分割し、各パーティションにクラスを割り当てる。 トレーニングセットの凸内における決定境界の位置は、トレーニングサンプルに関連して調査することができる。 しかし,本解析により,標準画像分類データセットでは,すべてのテスト画像が,その凸包,画素空間,ウェーブレット空間,深層ネットワークで学習された内部表現の外側にかなり存在することが示された。 したがって、訓練されたモデルのパフォーマンスは、その決定境界がトレーニングデータの凸船体外でどのように拡張されるかに部分的に依存します。 これまで研究されなかったこの観点から、深層学習モデルの過小パラメータ化は、決定境界の拡張を形成する上で不可欠であると考えられる。 同時に、オーバーパラメータ化は、トレーニングセットに適合するだけでなく、その決定境界が凸船体外で望ましく拡張されるモデルを得るために、特定のトレーニング体制を伴うべきである。 これを説明するために,トレーニングセットの凸包内外において,様々なパラメータを持つニューラルネットワークの判断境界について検討する。 さらに, 過剰パラメータ化の必要性と, トレーニングセットの凸包外への拡張形成におけるトレーニングレジームの影響について, 多項式決定境界を用いて検討する。

We study the generalization of deep learning models in relation to the convex hull of their training sets. A trained image classifier basically partitions its domain via decision boundaries and assigns a class to each of those partitions. The location of decision boundaries inside the convex hull of training set can be investigated in relation to the training samples. However, our analysis shows that in standard image classification datasets, all testing images are considerably outside that convex hull, in the pixel space, in the wavelet space, and in the internal representations learned by deep networks. Therefore, the performance of a trained model partially depends on how its decision boundaries are extended outside the convex hull of its training data. From this perspective which is not studied before, over-parameterization of deep learning models may be considered a necessity for shaping the extension of decision boundaries. At the same time, over-parameterization should be accompanied by a specific training regime, in order to yield a model that not only fits the training set, but also its decision boundaries extend desirably outside the convex hull. To illustrate this, we investigate the decision boundaries of a neural network, with various degrees of parameters, inside and outside the convex hull of its training set. Moreover, we use a polynomial decision boundary to study the necessity of over-parameterization and the influence of training regime in shaping its extensions outside the convex hull of training set.
翻訳日:2021-03-14 18:57:51 公開日:2021-01-25
# 自動種分類のための中央アフリカ霊長類発声データセットの導入

Introducing a Central African Primate Vocalisation Dataset for Automated Species Classification ( http://arxiv.org/abs/2101.10390v1 )

ライセンス: Link先を確認
Joeri A. Zwerts, Jelle Treep, Casper S. Kaandorp, Floor Meewis, Amparo C. Koot, Heysem Kaya(参考訳) 動物の発声の自動分類は、潜在的に強力な野生動物の監視ツールです。 堅牢な分類器のトレーニングには、相当量の注釈付きデータセットが必要です。 この問題を回避すべく,カメルーンの野生生物保護区において,野生生物を検出可能な分類器の訓練を目的として,半自然条件下で4種の霊長類を記録した。 本稿では,収集したデータセットを紹介し,このアプローチと分類器開発の初期結果について述べる。 アノテーション処理の効率を高めるために,エネルギ/チェンジに基づく自動発声検出により録音を凝縮した。 注釈付きチャンクをトレーニング,検証,テストセットに分割した結果,4種類の霊長類分類において,最大82%の非重み付き平均リコール(UAR)テストセットの性能が確認された。

Automated classification of animal vocalisations is a potentially powerful wildlife monitoring tool. Training robust classifiers requires sizable annotated datasets, which are not easily recorded in the wild. To circumvent this problem, we recorded four primate species under semi-natural conditions in a wildlife sanctuary in Cameroon with the objective to train a classifier capable of detecting species in the wild. Here, we introduce the collected dataset, describe our approach and initial results of classifier development. To increase the efficiency of the annotation process, we condensed the recordings with an energy/change based automatic vocalisation detection. Segmenting the annotated chunks into training, validation and test sets, initial results reveal up to 82% unweighted average recall (UAR) test set performance in four-class primate species classification.
翻訳日:2021-03-14 18:56:48 公開日:2021-01-25
# 競争的質的自己回帰による動的サイバーリスク推定

Dynamic cyber risk estimation with Competitive Quantile Autoregression ( http://arxiv.org/abs/2101.10893v1 )

ライセンス: Link先を確認
Raisa Dzhamtyrova and Carsten Maple(参考訳) サイバーリスクの推定は、システム妥協のコストが壊滅的である可能性があるため、あらゆる情報技術システムの設計とガバナンスの重要な部分です。 効果的なリスクフレームワークは、潜在的な有害事象を予測、評価、緩和する可能性がある。 時系列データに利用可能なVaR(Value-at-Risk)のモデリング手法を提案する。 最初のアプローチはQuantile Autoregression (QAR)に基づいており、VaRは異なる量子要素、すなわちVaRを推定できる。 信頼レベルだ 第2の方法は、CQAR(Competitive Quantile Autoregression)と呼ばれ、新しいデータが利用可能になったらすぐに、動的にサイバーリスクを見積もる。 この方法は、将来任意の時点におけるQARと同様に漸近的に機能することを理論的に保証する。 これらの手法は,カバレッジテストを実行することで,サイバーハッキング攻撃の規模と発生時間を予測することができることを示す。 提案手法は,各重要度レベルで分離した確率過程をモデル化できるため,提案手法に比べて柔軟性が向上する。 実験に使用する完全な再現可能なコードを提供する。

Cyber risk estimation is an essential part of any information technology system's design and governance since the cost of the system compromise could be catastrophic. An effective risk framework has the potential to predict, assess, and mitigate possible adverse events. We propose two methods for modelling Value-at-Risk (VaR) which can be used for any time-series data. The first approach is based on Quantile Autoregression (QAR), which can estimate VaR for different quantiles, i.e. confidence levels. The second method, called Competitive Quantile Autoregression (CQAR), dynamically re-estimates cyber risk as soon as new data becomes available. This method provides a theoretical guarantee that it asymptotically performs as well as any QAR at any time point in the future. We show that these methods can predict the size and inter-arrival time of cyber hacking breaches by running coverage tests. The proposed approaches allow to model a separate stochastic process for each significance level and therefore provide more flexibility compared to previously proposed techniques. We provide a fully reproducible code used for conducting the experiments.
翻訳日:2021-03-14 18:56:32 公開日:2021-01-25
# 立体3次元映像推薦におけるユーザの主観的知覚の潜在要因モデリング

Latent Factor Modeling of Users Subjective Perception for Stereoscopic 3D Video Recommendation ( http://arxiv.org/abs/2101.10039v1 )

ライセンス: Link先を確認
Balasubramanyam Appina, Mansi Sharma, Santosh Kumar(参考訳) 毎年多くの立体3D映画が劇場で公開され、大きな収入を生み出している。 立体撮影と3Dビデオのポストプロダクション技術の改善にもかかわらず、高予算映画でも視聴者の不快感を引き起こす立体的人工物が引き続き現れる。 既存の3Dビデオ品質測定ツールでは、立体画像やビデオの歪みを検出することができるが、これらのアーチファクトに対する視聴者の主観的な認識や、これらの歪みが自身の選択にどのように影響するかを考慮できない。 本論文では,鑑賞者の主観的評価と3D映像の歪みが好みに及ぼす影響を詳細に分析する潜在因子モデルに基づく立体的3D映画の推薦システムを提案する。 私たちの知る限りでは、これは視聴者の視覚的不快感と立体的アーティファクト知覚の間の相関を会計するステレオフィルムの品質評価に基づいて3D映画をお勧めする最初のモデルです。 提案モデルは,Noma3ds1-cospad1 と LFOVIAS3DPh2 S3D ビデオ品質評価データセットを用いてトレーニングおよびテストを行う。 実験の結果,行列分解に基づくレコメンデーションシステムは,視聴者の主観的評価をかなり向上させることができることがわかった。

Numerous stereoscopic 3D movies are released every year to theaters and created large revenues. Despite the improvement in stereo capturing and 3D video post-production technology, stereoscopic artifacts which cause viewer discomfort continue to appear even in high-budget films. Existing automatic 3D video quality measurement tools can detect distortions in stereoscopic images or videos, but they fail to consider the viewer's subjective perception of those artifacts, and how these distortions affect their choices. In this paper, we introduce a novel recommendation system for stereoscopic 3D movies based on a latent factor model that meticulously analyse the viewer's subjective ratings and influence of 3D video distortions on their preferences. To the best of our knowledge, this is a first-of-its-kind model that recommends 3D movies based on stereo-film quality ratings accounting correlation between the viewer's visual discomfort and stereoscopic-artifact perception. The proposed model is trained and tested on benchmark Nama3ds1-cospad1 and LFOVIAS3DPh2 S3D video quality assessment datasets. The experiments revealed that resulting matrix-factorization based recommendation system is able to generalize considerably better for the viewer's subjective ratings.
翻訳日:2021-03-14 18:56:13 公開日:2021-01-25
# 物理誘起ニューラルネットワークを用いた界面運動からの非圧縮二相流場推定

Inferring incompressible two-phase flow fields from the interface motion using physics-informed neural networks ( http://arxiv.org/abs/2101.09833v1 )

ライセンス: Link先を確認
Aaron B. Buhendwa, Stefan Adami, Nikolaus A. Adams (Technical University of Munich)(参考訳) 本研究では,非圧縮性二相流問題に対して物理インフォームドニューラルネットワークを適用した。 本研究では, 初期状態と境界条件から支配方程式を解くフォワード問題と, 界面位置の散乱時間データから連続速度と圧力場を推定する逆問題について検討する。 我々は大量の流体アプローチ、すなわち、それを用いる。 ここでの補助変数は、各相内の流体の体積率である。 前方問題のために、私達は二相CouetteおよびPoiseuilleの流れを解決します。 逆問題について、2相モデリングのための3つの古典的なテストケースを検討する:(i)せん断流れの低下、(ii)振動低下および(iii)上昇気泡。 時間経過中の界面位置のデータは数値シミュレーションによって生成される。 インタフェースに適合する空間的トレーニングポイントを配布する効果的な方法、すなわち、 体積分数体と残差点が 提案されます。 さらに, 偏微分方程式の残差に伴う損失の適切な重み付けが, トレーニングの成功に不可欠であることを示す。 適応的アクティベーション関数の利点は、前方および逆問題の両方に対して評価される。

In this work, physics-informed neural networks are applied to incompressible two-phase flow problems. We investigate the forward problem, where the governing equations are solved from initial and boundary conditions, as well as the inverse problem, where continuous velocity and pressure fields are inferred from scattered-time data on the interface position. We employ a volume of fluid approach, i.e. the auxiliary variable here is the volume fraction of the fluids within each phase. For the forward problem, we solve the two-phase Couette and Poiseuille flow. For the inverse problem, three classical test cases for two-phase modeling are investigated: (i) drop in a shear flow, (ii) oscillating drop and (iii) rising bubble. Data of the interface position over time is generated by numerical simulation. An effective way to distribute spatial training points to fit the interface, i.e. the volume fraction field, and the residual points is proposed. Furthermore, we show that appropriate weighting of losses associated with the residual of the partial differential equations is crucial for successful training. The benefit of using adaptive activation functions is evaluated for both the forward and inverse problem.
翻訳日:2021-03-14 18:55:52 公開日:2021-01-25
# E-cheating Prevention Measures: Detection of Cheating at Online examinations using Deep Learning Approach -- 事例研究

E-cheating Prevention Measures: Detection of Cheating at Online Examinations Using Deep Learning Approach -- A Case Study ( http://arxiv.org/abs/2101.09841v1 )

ライセンス: Link先を確認
Leslie Ching Ow Tiong and HeeJeong Jasmine Lee(参考訳) この研究は、Covid-19パンデミック中に特に関連があるオンラインアセスメントの現在の問題に対処します。 私たちの焦点は、オンラインアセスメントに関連するアカデミック不正です。 ケーススタディを用いてe-cheatingの可能性を検討し,実施可能な予防策を提案する。 我々は,インターネットプロトコル(IP)検出器と行動検出器という2つの主要なモジュールから構成されるオンライン不正行為の実践を検出するメカニズムとして,電子メール処理エージェントを利用した。 インテリジェンスエージェントは、学生の行動を監視し、悪意のあるプラクティスを防止および検出する能力を持っています。 コース試験でランダム化された複数選択の質問を割り当て、オンライン学習プログラムと統合して学生の行動を監視するために使用できます。 提案手法は, 各種データセット上で有効性を確認した。 その結果、ディープニューラルネットワーク(DNN)では68%、長期メモリ(LSTM)では92%、DenseLSTMでは95%、リカレントニューラルネットワーク(RNN)では86%の精度が示された。

This study addresses the current issues in online assessments, which are particularly relevant during the Covid-19 pandemic. Our focus is on academic dishonesty associated with online assessments. We investigated the prevalence of potential e-cheating using a case study and propose preventive measures that could be implemented. We have utilised an e-cheating intelligence agent as a mechanism for detecting the practices of online cheating, which is composed of two major modules: the internet protocol (IP) detector and the behaviour detector. The intelligence agent monitors the behaviour of the students and has the ability to prevent and detect any malicious practices. It can be used to assign randomised multiple-choice questions in a course examination and be integrated with online learning programs to monitor the behaviour of the students. The proposed method was tested on various data sets confirming its effectiveness. The results revealed accuracies of 68% for the deep neural network (DNN); 92% for the long-short term memory (LSTM); 95% for the DenseLSTM; and, 86% for the recurrent neural network (RNN).
翻訳日:2021-03-14 18:55:36 公開日:2021-01-25
# 不均一コホートプライバシを用いたIoTのフェデレーション侵入検出

Federated Intrusion Detection for IoT with Heterogeneous Cohort Privacy ( http://arxiv.org/abs/2101.09878v1 )

ライセンス: Link先を確認
Ajesh Koyatan Chathoth (1), Abhyuday Jagannatha (2), Stephen Lee (1) ((1) University of Pittsburgh, (2) University of Massachusetts Amherst)(参考訳) IoT(Internet of Things)デバイスはますます普及し、医療や輸送といった多くのアプリケーションドメインに影響を与える。 これらのデバイスは、センサーモニタリングやリアルタイム制御など、現実世界のアプリケーションで使用される。 本研究では,このようなIoTデバイスのネットワーク上での侵入攻撃を検出するために,差分プライベート(DP)ニューラルネットワーク(NN)ベースのネットワーク侵入検出システム(NIDS)を検討する。 このドメインの既存のNNトレーニングソリューションは、プライバシの考慮を無視したり、すべてのユーザのプライバシー要件が均一であると仮定する。 クライアントのプライバシ要件が異種である場合、非識別データ分布を持つクライアントに対して、既存の差分プライベート確率メソッドのパフォーマンスが低下することを示した。 私たちは、IoTデバイスのコホートのより実用的な設定を非識別クライアントおよび異種プライバシー要件とモデル化するコホートベースの$(\epsilon,\delta)$-DPフレームワークを定義します。 本研究では, モデル性能向上を目的とした, 連続学習に基づく2つのDPトレーニング手法を提案する。 私たちの知る限りでは、クライアントプライバシ要求の不均一性を扱うために、継続的な学習に基づくアプローチを採用した最初のシステムです。 実際のデータセットに対するアプローチを評価し,その手法がベースラインを上回ることを示す。 また,ハイパーパラメータ変化に対してロバストな手法を示す。 最後に,提案手法の1つが,クライアントのプライバシ要件のポストホック緩和に容易に適応できることを示す。

Internet of Things (IoT) devices are becoming increasingly popular and are influencing many application domains such as healthcare and transportation. These devices are used for real-world applications such as sensor monitoring, real-time control. In this work, we look at differentially private (DP) neural network (NN) based network intrusion detection systems (NIDS) to detect intrusion attacks on networks of such IoT devices. Existing NN training solutions in this domain either ignore privacy considerations or assume that the privacy requirements are homogeneous across all users. We show that the performance of existing differentially private stochastic methods degrade for clients with non-identical data distributions when clients' privacy requirements are heterogeneous. We define a cohort-based $(\epsilon,\delta)$-DP framework that models the more practical setting of IoT device cohorts with non-identical clients and heterogeneous privacy requirements. We propose two novel continual-learning based DP training methods that are designed to improve model performance in the aforementioned setting. To the best of our knowledge, ours is the first system that employs a continual learning-based approach to handle heterogeneity in client privacy requirements. We evaluate our approach on real datasets and show that our techniques outperform the baselines. We also show that our methods are robust to hyperparameter changes. Lastly, we show that one of our proposed methods can easily adapt to post-hoc relaxations of client privacy requirements.
翻訳日:2021-03-14 18:55:16 公開日:2021-01-25
# ネットワーク上の機械学習タスクに対する適応スケジューリング

Adaptive Scheduling for Machine Learning Tasks over Networks ( http://arxiv.org/abs/2101.10007v1 )

ライセンス: Link先を確認
Konstantinos Gatsis(参考訳) スマートトランスポーテーションシステムやスマートシティ、産業用インターネットなど、新たなコネクテッド・自律システムの主要な機能は、さまざまな物理的場所で収集されたデータを処理し、学習する能力である。 これは分散学習と連合学習という観点から、ますます注目を集めている。 しかし、このセットアップでは、多くのユーザとタスク間で共有され、キャパシティの制約を受ける通信リソースを介してデータ転送が行われる。 本論文では, 線形回帰タスクに資源を効率的に割り当てるアルゴリズムを, データのインフォマティビティ性を利用して検討する。 アルゴリズムは、信頼性の高い性能保証による学習タスクの適応スケジューリングを可能にする。

A key functionality of emerging connected autonomous systems such as smart transportation systems, smart cities, and the industrial Internet-of-Things, is the ability to process and learn from data collected at different physical locations. This is increasingly attracting attention under the terms of distributed learning and federated learning. However, in this setup data transfer takes place over communication resources that are shared among many users and tasks or subject to capacity constraints. This paper examines algorithms for efficiently allocating resources to linear regression tasks by exploiting the informativeness of the data. The algorithms developed enable adaptive scheduling of learning tasks with reliable performance guarantees.
翻訳日:2021-03-14 18:54:37 公開日:2021-01-25
# ある集合上の線形最小化と射影の複雑さ

Complexity of Linear Minimization and Projection on Some Sets ( http://arxiv.org/abs/2101.10040v1 )

ライセンス: Link先を確認
Cyrille W. Combettes and Sebastian Pokutta(参考訳) Frank-Wolfeアルゴリズムは、プロジェクションではなく線形最小化に依存する制約付き最適化の手法である。 したがって、Frank-Wolfeアルゴリズムの大規模な作業の動機は、プロジェクションの代わりに線形最小化を解くことの計算上の利点である。 しかし、この利点を支持する議論は、しばしば簡潔すぎるか不完全です。 本稿では,最適化によく用いられる複数の集合上の両タスクの複雑性境界について検討する。 $\ell_p$-ball, $p\in\left]1,2\right[\cup\left]2,+\infty\right[$, and the Birkhoff polytope も提案されている。

The Frank-Wolfe algorithm is a method for constrained optimization that relies on linear minimizations, as opposed to projections. Therefore, a motivation put forward in a large body of work on the Frank-Wolfe algorithm is the computational advantage of solving linear minimizations instead of projections. However, the discussions supporting this advantage are often too succinct or incomplete. In this paper, we review the complexity bounds for both tasks on several sets commonly used in optimization. Projection methods onto the $\ell_p$-ball, $p\in\left]1,2\right[\cup\left]2,+\infty\right[$, and the Birkhoff polytope are also proposed.
翻訳日:2021-03-14 18:54:27 公開日:2021-01-25
# 変性神経アニーリング

Variational Neural Annealing ( http://arxiv.org/abs/2101.10154v1 )

ライセンス: Link先を確認
Mohamed Hibat-Allah, Estelle M. Inack, Roeland Wiersema, Roger G. Melko, Juan Carrasquilla(参考訳) 科学技術における多くの重要な課題を最適化問題とみなすことができる。 統計物理学の枠組みで見ると、これらは漸進冷却法がターゲットハミルトニアンの基底状態解を探索するのに役立つシミュレート・アニーリングによって取り組まれる。 強力なシミュレーションアニールは、最適化ランドスケープが粗い場合やガラス質の場合、サンプリングダイナミクスが著しく遅くなることが知られている。 ここでは, 対象分布をパラメータ化されたモデルで一般化することで, 変分原理に基づく類似のアニーリングフレームワークを用いて基底状態解を探索できることを示す。 リカレントニューラルネットワークなどの現代の自動回帰モデルは、モデルが荒い風景をエンコードしても、スローダイナミクスなしで正確にサンプリングできるため、理想的なパラメータ化を提供します。 この手順は、いくつかの原型スピンガラスハミルトン上の古典的および量子的設定で実行し、この最適化への未探索のルートの潜在的な力を示す、無症状限界における従来のシミュレートアニールを大幅に上回っていることを発見します。

Many important challenges in science and technology can be cast as optimization problems. When viewed in a statistical physics framework, these can be tackled by simulated annealing, where a gradual cooling procedure helps search for groundstate solutions of a target Hamiltonian. While powerful, simulated annealing is known to have prohibitively slow sampling dynamics when the optimization landscape is rough or glassy. Here we show that by generalizing the target distribution with a parameterized model, an analogous annealing framework based on the variational principle can be used to search for groundstate solutions. Modern autoregressive models such as recurrent neural networks provide ideal parameterizations since they can be exactly sampled without slow dynamics even when the model encodes a rough landscape. We implement this procedure in the classical and quantum settings on several prototypical spin glass Hamiltonians, and find that it significantly outperforms traditional simulated annealing in the asymptotic limit, illustrating the potential power of this yet unexplored route to optimization.
翻訳日:2021-03-14 18:54:17 公開日:2021-01-25
# ハーネスングテンソル構造 -マルチモード貯留層計算とそのMIMOへの応用-

Harnessing Tensor Structures -- Multi-Mode Reservoir Computing and Its Application in Massive MIMO ( http://arxiv.org/abs/2102.09322v1 )

ライセンス: Link先を確認
Zhou Zhou, Lingjia Liu, Jiarui Xu(参考訳) 本稿では,新しいニューラルネットワーク(NN)構造,マルチモード貯水池計算(Multi-Mode RC)を提案する。 RCの動的メカニズムを継承し、基礎となるデータフォーマットとしてテンソルを用いてNNの前方経路と損失最適化を処理する。 マルチモードRCは従来のRC構造(例えば)に比べて複雑さが低い。 対等な一般化性能を持つシングルモードRC)。 さらに,マルチモードRCの最小二乗学習アルゴリズムを交互に導入するとともに,関連する理論解析を行う。 その結果、NNパラメータの設定をガイドし、オーバーフィッティング問題を十分に回避することができます。 重要な応用として,基地局(BSs)に大規模MIMOを用いた直交周波数分割多重化(OFDM)システムにおけるシンボル検出タスクを検討する。 大規模なMIMO-OFDM信号のテンソル構造により、オンライン学習に基づくシンボル検出法は、限られたオンライントレーニングセットを用いてもビット誤り率の観点からうまく一般化する。 評価の結果,マルチモードRCベースの学習フレームワークは,無線システムの実用的制約(すなわち,効果的に対処できることが示唆された。 チャンネル状態情報(CSI)エラーとハードウェアの非線形性により、空気上の堅牢で適応的な学習ベースの通信を可能にする。

In this paper, we introduce a new neural network (NN) structure, multi-mode reservoir computing (Multi-Mode RC). It inherits the dynamic mechanism of RC and processes the forward path and loss optimization of the NN using tensor as the underlying data format. Multi-Mode RC exhibits less complexity compared with conventional RC structures (e.g. single-mode RC) with comparable generalization performance. Furthermore, we introduce an alternating least square-based learning algorithm for Multi-Mode RC as well as conduct the associated theoretical analysis. The result can be utilized to guide the configuration of NN parameters to sufficiently circumvent over-fitting issues. As a key application, we consider the symbol detection task in multiple-input-multiple-output (MIMO) orthogonal-frequency-division-multiplexing (OFDM) systems with massive MIMO employed at the base stations (BSs). Thanks to the tensor structure of massive MIMO-OFDM signals, our online learning-based symbol detection method generalizes well in terms of bit error rate even using a limited online training set. Evaluation results suggest that the Multi-Mode RC-based learning framework can efficiently and effectively combat practical constraints of wireless systems (i.e. channel state information (CSI) errors and hardware non-linearity) to enable robust and adaptive learning-based communications over the air.
翻訳日:2021-03-14 18:53:58 公開日:2021-01-25