このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200328となっている論文です。

PDF登録状況(公開日: 20200328)

TitleAuthorsAbstract論文公表日・翻訳日
# 分散量子コンピューティングエコシステムを目指して

Towards a Distributed Quantum Computing Ecosystem ( http://arxiv.org/abs/2002.11808v2 )

ライセンス: Link先を確認
Daniele Cuomo, Marcello Caleffi and Angela Sara Cacciapuoti(参考訳) 量子インターネットは、遠隔の量子ノード間の量子通信を可能にすることによって、古典的世界で直接の通信を行わない機能をサポートするネットワークである。 実際、Quantum Internetが提供するネットワークと通信機能により、リモート量子デバイスは分散コンピューティングアプローチを採用することで、困難な計算タスクの解決に協力し、コミュニケーションすることができる。 本論文の目的は,分散量子コンピューティングエコシステムの設計に伴う主な課題とオープンな問題の概要を読者に提供することである。 そのために、コミュニケーションエンジニアリングの観点からボトムアップアプローチに従って、調査を実施します。 まず、分散量子コンピューティングエコシステムの基盤となる基盤としてQuantum Internetを導入します。 次に、分散量子コンピューティングエコシステムの高レベルなシステム抽象化に取り組むことで、さらに進みます。 このような抽象化は論理層の集合を通して記述される。 これにより、上記の層間の依存関係を明確にするとともに、道路地図が出現する。

The Quantum Internet, by enabling quantum communications among remote quantum nodes, is a network capable of supporting functionalities with no direct counterpart in the classical world. Indeed, with the network and communications functionalities provided by the Quantum Internet, remote quantum devices can communicate and cooperate for solving challenging computational tasks by adopting a distributed computing approach. The aim of this paper is to provide the reader with an overview about the main challenges and open problems arising with the design of a Distributed Quantum Computing ecosystem. For this, we provide a survey, following a bottom-up approach, from a communications engineering perspective. We start by introducing the Quantum Internet as the fundamental underlying infrastructure of the Distributed Quantum Computing ecosystem. Then we go further, by elaborating on a high-level system abstraction of the Distributed Quantum Computing ecosystem. Such an abstraction is described through a set of logical layers. Thereby, we clarify dependencies among the aforementioned layers and, at the same time, a road-map emerges.
翻訳日:2023-06-03 09:17:37 公開日:2020-03-28
# 立方体グラフ上の完全エッジ状態移動

Perfect edge state transfer on cubelike graphs ( http://arxiv.org/abs/2003.10624v2 )

ライセンス: Link先を確認
Xiwang Cao(参考訳) 完全(量子)状態転送は量子情報処理の有効なモデルであることが証明されている。 本稿では,完全エッジ状態遷移を持つ立方体状グラフの特性について述べる。 昇降法を用いて、全ての曲がった関数といくつかの半ベント関数が PEST を持つグラフを生成可能であることを示す。 このようなグラフの具体的構成がいくつか提供されている。 特に,本手法を用いることで, PEST を持つ無限グラフのクラスが得られる。

Perfect (quantum) state transfer has been proved to be an effective model for quantum information processing. In this paper, we give a characterization of cubelike graphs having perfect edge state transfer. By using a lifting technique, we show that every bent function, and some semi-bent functions as well, can produce some graphs having PEST. Some concrete constructions of such graphs are provided. Notably, using our method, one can obtain some classes of infinite graphs possessing PEST.
翻訳日:2023-05-28 01:20:47 公開日:2020-03-28
# ガウス状態の共分散行列について

On the covariance matrix for Gaussian states ( http://arxiv.org/abs/2003.11063v2 )

ライセンス: Link先を確認
Angel Garcia-Chung(参考訳) 一般ガウス状態の共分散行列に対してシンプレクティック群行列を用いて明示的な表現を示す。 共分散行列を用いたスキューズと絡み合いを特徴付ける基準が、一般的なガウス状態を構成するために使われるシンプレクティック行列要素に新しい基準をもたらすかについて議論する。

We show the explicit expression for the covariance matrix of general Gaussian states in terms of the symplectic group matrices. We discuss how the criteria to characterize squeezing and entanglement using the covariance matrix give rise to new criteria in the symplectic matrix elements used to construct the general Gaussian states.
翻訳日:2023-05-28 00:58:01 公開日:2020-03-28
# 波のない回折:光の量子サブ構造の創出

Diffraction without Waves: Emergence of the Quantum Substructure of Light ( http://arxiv.org/abs/2003.14217v1 )

ライセンス: Link先を確認
Joachim St\"ohr(参考訳) 今日、光の性質は物理学の宝石の一つ、量子電磁力学(qed)、光と物質の基本理論によって説明されている。 しかし、その無限の複雑さのため、科学者たちは、その中心となる概念である光子が、200年前のヤングの二重スリット回折実験の後に現れた光波の存在とどのように調和するかを議論している。 それ以来、回折現象は光の波動の性質を具現化しており、統合失調症の波と粒子の双対性に繋がる。 後者は、波の存在なしに光子に基づくQEDには存在しない。 ここでは、回折画像が光の基本量子状態を直接反映する新しいパラダイムを紹介する。 これは、異なる修正レーザー光と光子に基づく検出によって行われたヤングの実験の現代バージョンの進化の分析によって明らかになった。 従来の量子力学では、1次qedに対応するが、異なる量子状態はコヒーレントと非コヒーレント波重ね合わせによって説明できる2つの基本的な回折パターンしか生成しないため、光の基本光子の性質は隠れている。 光の真の光子に基づくサブ構造は、2次QEDの特徴的な回折画像を通して明らかに現れる。 第1次画像の縮退が解除され、波動粒子の等価性が破壊され、パターンは光の真の量子サブ構造を直接明らかにする。 これにより、従来の波動コヒーレンスの概念を、全ての光の量子状態の干渉と回折挙動を定量化する正確な順序依存コヒーレンスに置き換えることができる。

Today, the nature of light is accounted for by one of the jewels of physics, quantum electrodynamics (QED), the fundamental theory of light and matter. Yet owing to its infinite complexity, scientists still debate how its central concept, the photon, can be reconciled with the perceived existence of light waves, emerging 200 years ago in the wake of Young's double slit diffraction experiment. Ever since, the phenomenon of diffraction has been viewed to embody the wave nature of light, leading to the schizophrenic wave-particle duality. The latter does not exist in QED which is photon based without the existence of waves. Here we introduce the new paradigm that diffraction images directly reflect the fundamental quantum states of light. This is revealed by analysis of the evolution of modern versions of Young's experiment performed with differently modified laser light and photon-based detection. In conventional quantum mechanics, corresponding to first order QED, the fundamental photon nature of light remains hidden since different quantum states produce only two basic types of diffraction patterns that may also be explained by coherent and incoherent wave superposition. The true photon based substructure of light is shown to clearly emerge through characteristic diffraction images in second order QED. The degeneracy of the first order images is lifted, the wave-particle equivalence breaks down, and the patterns directly reveal the true quantum substructure of light. This allows the replacement of the conventional concept of wave coherence by a precise order-dependent degree of coherence that quantifies the interference and diffraction behavior of all quantum states of light.
翻訳日:2023-05-27 16:19:51 公開日:2020-03-28
# N$_2^+$におけるフェムト秒強磁場イオン励起とその後のラシングの理論

Theory of femtosecond strong field ion excitation and subsequent lasing in N$_2^+$ ( http://arxiv.org/abs/2003.12840v1 )

ライセンス: Link先を確認
Vladimir T. Tikhonchuk, Yi Liu, Rostyslav Danylo, Aur\'elien Houard, Andr\'e Mysyrowicz(参考訳) 391nmと428nmの波長での遅延キャビティフリー前方発振は、800~nmの強いフェムト秒レーザーパルスで励起された空気または純粋な窒素の最近の実験で観察された。 溶岩のメカニズムは非常に議論を呼んでいる。 本稿では,単イオン化窒素分子のa$^2\pi_u$とb$^2\sigma_u^+$を同時に基底状態x$^2\sigma_g^+$と結合する長寿命偏光の存在による遅延放出を説明する。 強いレーザー場における中性窒素分子のイオン化とその後のイオン励起は、地上におけるイオンの分布とレーザーパルスの終端における励起状態a,bを提供するブロッホ方程式系によって記述される。 B-X遷移波長での遅延信号増幅は、弱いレーザー後パルスで維持される偏光結合を持つマクスウェル・ブロッホ方程式の系によって記述される。 信号増幅の2つのレジームは、低ガス圧で数ps持続の信号と、高ガス圧で短い(サブピコ秒)信号である。 理論モデルは実験結果と良好に比較できる。

Delayed cavity-free forward lasing at the wavelengths of 391 and 428 nm was observed in recent experiments in air or pure nitrogen pumped with an intense femtosecond laser pulse at wavelength of 800~nm. The mechanism responsible for the lasing is highly controversial. In this article we explain the delayed emission by the presence of long-lived polarizations coupling simultaneously ground state X$^2\Sigma_g^+$ to states A$^2\Pi_u$ and B$^2\Sigma_u^+$ of singly ionized nitrogen molecules N$_2^+$. Ionization of neutral nitrogen molecules in a strong laser field and subsequent ion excitation are described by a system of Bloch equations providing a distribution of ions in the ground and excited states A and B at the end of the laser pulse. The delayed signal amplification at the B-X transition wavelength is described by a system of Maxwell-Bloch equations with polarization coupling maintained by a weak laser post-pulse. Two regimes of signal amplification are identified: a signal of a few ps duration at low gas pressures and a short (sub-picosecond) signal at high gas pressures. The theoretical model compares favorably with experimental results.
翻訳日:2023-05-27 16:19:00 公開日:2020-03-28
# ac Stark Gradient Echoメモリを用いた広帯域・効率的な量子メモリ

Broadband and efficient Quantum Memory Using ac Stark Gradient Echo Memory ( http://arxiv.org/abs/2003.12821v1 )

ライセンス: Link先を確認
Mahmood Sabooni, Mohsen Jafarbeklu, and Farrokh Sarreshtehdari(参考訳) ac Stark効果を通した仮想磁場を用いた量子状態光貯蔵法を提案し, 室温原子蒸気を用いた高貯蔵効率と大帯域幅の両立を図った。 このアプローチでは、ac Stark Gradient Echo Memory (ASGEM) と呼ばれ、約1ナノ秒のac Starkパルス(約127 THz)をルビジウムのD1線から切り離して、約1GHzの帯域を持つ光子を記憶し、90%以上の効率で回収できる原子媒体を作成することが可能であることが示されている。 3レベルマックスウェル・ブロッホ方程式に基づく勾配場強度と光学深さの関数としての効率の輪郭プロットは、実験パラメータ最適化をよりよく理解するためにシミュレートされた。

A quantum state light-storage, using a virtual magnetic field through the ac Stark effect is proposed to combine the high overall storage efficiency and large bandwidth employing room temperature atomic vapor. In this approach, which was called the ac Stark Gradient Echo Memory (ASGEM), it has been shown the possibility to employ about a nanosecond ac Stark pulse far detuned (about 127 THz) from D1 line of rubidium and create an atomic media with the possibility to store a photon with about a GHz bandwidth with storage and retrieval efficiency of more than 90%. A contour plot of efficiency as a function of gradient field strength and optical depth, based on three-level Maxwell- Bloch equations, simulated for a better understanding of experimental parameter optimization.
翻訳日:2023-05-27 16:18:36 公開日:2020-03-28
# バーズ角の境界に基づく量子速度限界

Quantum speed limit based on the bound of Bures angle ( http://arxiv.org/abs/2003.12758v1 )

ライセンス: Link先を確認
Shao-xiong Wu, Chang-shui Yu(参考訳) 本稿では,修正ビュール角に基づくオープンシステムにおける量子速度制限時間の統一的境界について検討する。 この境界は減衰されたjaynes-cummingsモデルとデファスメントモデルに適用され、両モデルとも解析的な量子速度制限時間が得られる。 例えば、減衰したJaynes-Cummingsモデルの初期状態として、白色雑音を伴う最大コヒーレント量子状態が選択される。 非マルコフ系とマルコフ系の両方における量子速度制限時間は、純粋な状態と比較してホワイトノイズによって減少することができる。 さらに, デファスメントモデルでは, 量子速度制限時間は初期状態のコヒーレンスや非マルコフ性に関係しているだけでなく, 初期励起状態の個体群にも依存していることがわかった。

In this paper, we investigate the unified bound of quantum speed limit time in open systems based on the modified Bures angle. This bound is applied to the damped Jaynes-Cummings model and the dephasing model, and the analytical quantum speed limit time is obtained for both models. As an example, the maximum coherent qubit state with white noise is chosen as the initial states for the damped Jaynes-Cummings model. It is found that the quantum speed limit time in both the non-Markovian and the Markovian regimes can be decreased by the white noise compared with the pure state. In addition, for the dephasing model, we find that the quantum speed limit time is not only related to the coherence of initial state and non-Markovianity, but also dependent on the population of initial excited state.
翻訳日:2023-05-27 16:17:41 公開日:2020-03-28
# ディラックと経路積分

Dirac and the Path Integral ( http://arxiv.org/abs/2003.12683v1 )

ライセンス: Link先を確認
N. D. Hari Dass(参考訳) Through a very careful analysis of Dirac's 1932 paper on the Lagrangian in Quantum Mechanics as well as the second and third editions of his classic book {\it The Principles of Quantum Mechanics}, I show that Dirac's contributions to the birth of the path-integral approach to quantum mechanics is not restricted to just his seminal demonstration of how Lagrangians appear naturally in quantum mechanics, but that Dirac should be credited for creating a path-integral which I call {\it Dirac path-integral} which is far more general than Feynman's while possessing all its desirable features. さらに、ディラックパス積分は避けられない量子化の曖昧さと完全に互換性があるが、ファインマンパス積分はその完全整合性を持つことができない。 特に、ファインマンによる無限小の時間間隔について、ディラックが実際に類似していると考えるものは、常に正し得ないことを示す。 また、diracパス積分とschr\"odinger方程式の円錐も示した。 特に、ディラック経路積分の各選択は、ファインマン経路積分が与えるものと一般的に異なる「イット量子ハミルトニアン」を生じさせ、それら全てが同じ「イット古典類縁体」を持つことが示されている。 古典力学の最小作用原理を示すディラックの方法は、すべての一般化パス積分に対して最も単純な方法で一般化される。

Through a very careful analysis of Dirac's 1932 paper on the Lagrangian in Quantum Mechanics as well as the second and third editions of his classic book {\it The Principles of Quantum Mechanics}, I show that Dirac's contributions to the birth of the path-integral approach to quantum mechanics is not restricted to just his seminal demonstration of how Lagrangians appear naturally in quantum mechanics, but that Dirac should be credited for creating a path-integral which I call {\it Dirac path-integral} which is far more general than Feynman's while possessing all its desirable features. On top of it, the Dirac path-integral is fully compatible with the inevitable quantisation ambiguities, while the Feynman path-integral can never have that full consistency. In particular, I show that the claim by Feynman that for infinitesimal time intervals, what Dirac thought were analogues were actually proportional can not be correct always. I have also shown the conection between Dirac path-integrals and the Schr\"odinger equation. In particular, it is shown that each choice of Dirac path-integral yields a {\it quantum Hamiltonian} that is generically different from what the Feynman path-integral gives, and that all of them have the same {\it classical analogue}. Dirac's method of demonstrating the least action principle for classical mechanics generalizes in a most straightforward way to all the generalized path-integrals.
翻訳日:2023-05-27 16:16:57 公開日:2020-03-28
# 拡張型畳み込みピラミッドダウンサンプリングと自己注意による乳児脳MRI所見の検討

Infant brain MRI segmentation with dilated convolution pyramid downsampling and self-attention ( http://arxiv.org/abs/1912.12570v2 )

ライセンス: Link先を確認
Zhihao Lei, Lin Qi, Ying Wei, Yunlong Zhou(参考訳) 本稿では,乳児の脳MRI領域における異なる情報を適応的に集約する2重集約ネットワークを提案する。 より正確には、3D-UNetをベースにした2つのモジュールを追加しました。 拡張畳み込みピラミッドダウンサンプリングモジュールは、主にダウンサンプリングプロセスにおける空間情報の損失問題を解決するためであり、解像度を低下させながら、詳細を効果的に節約することができる。 自己注意モジュールは、特徴マップに対するリモート依存を空間とチャネルの2次元に統合し、モデルの表現能力と識別能力を効果的に向上することができる。 その結果,Iseg2017 の初回評価結果と比較し,WM と GM の DICE 比が 0.7% 増加し,CSF と同等であり,Iseg-2019 と GM の DICE では DICE が第1位,CSF の DICE が第2位となった。

In this paper, we propose a dual aggregation network to adaptively aggregate different information in infant brain MRI segmentation. More precisely, we added two modules based on 3D-UNet to better model information at different levels and locations. The dilated convolution pyramid downsampling module is mainly to solve the problem of loss of spatial information on the downsampling process, and it can effectively save details while reducing the resolution. The self-attention module can integrate the remote dependence on the feature maps in two dimensions of spatial and channel, effectively improving the representation ability and discriminating ability of the model. Our results are compared to the winners of iseg2017's first evaluation, the DICE ratio of WM and GM increased by 0.7%, and CSF is comparable.In the latest evaluation of the iseg-2019 cross-dataset challenge,we achieve the first place in the DICE of WM and GM, and the DICE of CSF is second.
翻訳日:2023-01-17 07:45:00 公開日:2020-03-28
# プライベートおよびコミュニケーション効率のよいエッジ学習: 疎微分ガウス型分散SGDアプローチ

Private and Communication-Efficient Edge Learning: A Sparse Differential Gaussian-Masking Distributed SGD Approach ( http://arxiv.org/abs/2001.03836v4 )

ライセンス: Link先を確認
Xin Zhang, Minghong Fang, Jia Liu, and Zhengyuan Zhu(参考訳) 機械学習(ML)の台頭とスマートモバイルデバイスの普及により、近年、無線エッジネットワークにおけるMLの実行に対する関心が高まっている。 本稿では,分散エッジ学習におけるデータプライバシと通信効率を協調的に向上する問題について考察する。 そこで本研究では,非凸分散エッジ学習のための分散ガウスマッシュ確率勾配(sdm-dsgd)を用いた分散確率勾配法を提案する。 私たちの主な貢献は3倍です。 一 理論上は、SDM-DSGD方式のプライバシー及び通信効率性能を保証し、既存のすべての業務を上回ります。 ii)SDM-DSGDは,最先端技術と比較して,2桁の規模で基本的トレーニング・プライバシトレードオフを改善していることを示す。 iii) プライバシ保護と通信効率の相互関係について, 理論的知見を明らかにし, 実用的な設計指針を提供する。 我々は,MNISTおよびCIFAR-10データセット上で,様々な学習モデルを用いた広範囲な実験を行い,理論的な結果を検証する。 本結果は,分散エッジ学習における理論とアルゴリズム設計に寄与する。

With rise of machine learning (ML) and the proliferation of smart mobile devices, recent years have witnessed a surge of interest in performing ML in wireless edge networks. In this paper, we consider the problem of jointly improving data privacy and communication efficiency of distributed edge learning, both of which are critical performance metrics in wireless edge network computing. Toward this end, we propose a new decentralized stochastic gradient method with sparse differential Gaussian-masked stochastic gradients (SDM-DSGD) for non-convex distributed edge learning. Our main contributions are three-fold: i) We theoretically establish the privacy and communication efficiency performance guarantee of our SDM-DSGD method, which outperforms all existing works; ii) We show that SDM-DSGD improves the fundamental training-privacy trade-off by {\em two orders of magnitude} compared with the state-of-the-art. iii) We reveal theoretical insights and offer practical design guidelines for the interactions between privacy preservation and communication efficiency, two conflicting performance goals. We conduct extensive experiments with a variety of learning models on MNIST and CIFAR-10 datasets to verify our theoretical findings. Collectively, our results contribute to the theory and algorithm design for distributed edge learning.
翻訳日:2023-01-12 05:08:29 公開日:2020-03-28
# ディバースディープス: ディバースデータを用いたアフィン不変深さ予測

DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data ( http://arxiv.org/abs/2002.00569v3 )

ライセンス: Link先を確認
Wei Yin, Xinlong Wang, Chunhua Shen, Yifan Liu, Zhi Tian, Songcen Xu, Changming Sun, Dou Renyin(参考訳) 本研究では,モノクロ画像を用いた深度推定手法を提案する。これにより,アフィン変換までの様々なシーンにおける高品質な深度を予測し,シーンの正確な形状を保存できる。 計量深度を予測する従来の方法は、特定のシーンでのみうまく機能する。 対照的に、相対深度(近いかそれ以上かの情報)の学習は、シーンの正確な幾何学的形状の回復に失敗する価格で、より良い一般化を享受することができる。 本研究では,このジレンマに対処するためのデータセットと手法を提案し,多様なシーンにうまく一般化したアフィン変換までの正確な深さを予測することを目的としている。 まず,広い範囲のシーンと前景コンテンツを有する大規模かつ多様なデータセットであるDiverse Scene Depthデータセット(DiverseDepth)を構築した。 従来の学習目標,すなわちメートル法深度や相対深度と比較して,多種多様なデータセットを用いてアフィン不変深度を学習し,シーンの一般化と高品質な幾何学的形状の両立を図ることを提案する。 さらに,複雑なデータセット上でモデルを効果的に訓練するために,マルチカリキュラム学習法を提案する。 実験により,本手法はゼロショットテスト設定と大差で8つのデータセットの従来の手法より優れており,学習したモデルの多様なシーンへの優れた一般化能力を示している。 推定深度の再構成された点雲は,高品質な3d形状を再現できることを示す。 コードとデータセットは: https://tinyurl.com/diversedepth

We present a method for depth estimation with monocular images, which can predict high-quality depth on diverse scenes up to an affine transformation, thus preserving accurate shapes of a scene. Previous methods that predict metric depth often work well only for a specific scene. In contrast, learning relative depth (information of being closer or further) can enjoy better generalization, with the price of failing to recover the accurate geometric shape of the scene. In this work, we propose a dataset and methods to tackle this dilemma, aiming to predict accurate depth up to an affine transformation with good generalization to diverse scenes. First we construct a large-scale and diverse dataset, termed Diverse Scene Depth dataset (DiverseDepth), which has a broad range of scenes and foreground contents. Compared with previous learning objectives, i.e., learning metric depth or relative depth, we propose to learn the affine-invariant depth using our diverse dataset to ensure both generalization and high-quality geometric shapes of scenes. Furthermore, in order to train the model on the complex dataset effectively, we propose a multi-curriculum learning method. Experiments show that our method outperforms previous methods on 8 datasets by a large margin with the zero-shot test setting, demonstrating the excellent generalization capacity of the learned model to diverse scenes. The reconstructed point clouds with the predicted depth show that our method can recover high-quality 3D shapes. Code and dataset are available at: https://tinyurl.com/DiverseDepth
翻訳日:2023-01-04 09:07:37 公開日:2020-03-28
# 符号化のための識別器の再利用:教師なし画像変換を目指して

Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2003.00273v6 )

ライセンス: Link先を確認
Runfa Chen, Wenbing Huang, Binghui Huang, Fuchun Sun, Bin Fang(参考訳) 教師なし画像画像変換はコンピュータビジョンにおける中心的な課題である。 現在の翻訳フレームワークは、トレーニングプロセスが完了すると差別を放棄する。 本稿では,対象領域の画像の符号化に使用する識別器の新たな役割について考察する。 NICE-GANと呼ばれるこのアーキテクチャは、従来のアプローチよりも2つの有利なパターンを示す: 第一に、独立した符号化部品を必要としないため、よりコンパクトである; 第二に、このプラグインエンコーダは、敵の損失によって直接訓練され、マルチスケールの識別器が適用されれば、より情報的かつ効果的に訓練される。 nice-ganの主な問題は、エンコーダに沿って翻訳と識別を結合することであり、ganでmin-maxゲームをプレイする場合、トレーニングの一貫性を損なう可能性がある。 この問題に対処するために, エンコーダは凍結を保ちながら敵の損失を最大化する際にのみ訓練される, 分離されたトレーニング戦略を開発する。 一般的な4つのベンチマークにおいて、FID、KID、および人間の嗜好の観点から、最先端の手法よりもNICE-GANの方が優れた性能を示した。 また, 各成分の有効性を明らかにするための包括的アブレーション研究も行った。 私たちのコードはhttps://github.com/alpc91/nice-gan-pytorchで利用可能です。

Unsupervised image-to-image translation is a central task in computer vision. Current translation frameworks will abandon the discriminator once the training process is completed. This paper contends a novel role of the discriminator by reusing it for encoding the images of the target domain. The proposed architecture, termed as NICE-GAN, exhibits two advantageous patterns over previous approaches: First, it is more compact since no independent encoding component is required; Second, this plug-in encoder is directly trained by the adversary loss, making it more informative and trained more effectively if a multi-scale discriminator is applied. The main issue in NICE-GAN is the coupling of translation with discrimination along the encoder, which could incur training inconsistency when we play the min-max game via GAN. To tackle this issue, we develop a decoupled training strategy by which the encoder is only trained when maximizing the adversary loss while keeping frozen otherwise. Extensive experiments on four popular benchmarks demonstrate the superior performance of NICE-GAN over state-of-the-art methods in terms of FID, KID, and also human preference. Comprehensive ablation studies are also carried out to isolate the validity of each proposed component. Our codes are available at https://github.com/alpc91/NICE-GAN-pytorch.
翻訳日:2022-12-27 20:52:46 公開日:2020-03-28
# D3VO:単眼視における深度,深度,深度不確かさ

D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry ( http://arxiv.org/abs/2003.01060v2 )

ライセンス: Link先を確認
Nan Yang and Lukas von Stumberg and Rui Wang and Daniel Cremers(参考訳) 我々はd3voを,奥行き,ポーズ,不確実性推定の3段階の深層ネットワークを利用する単眼視覚オドメトリーのための新しいフレームワークとして提案する。 まず,外部の監視を必要とせず,ステレオ映像で学習した自己教師付き単眼深度推定ネットワークを提案する。 特に、トレーニング画像ペアを、予測輝度変換パラメータを備えた類似の照明条件に調整する。 また、入力画像上の画素の測光不確かさをモデル化し、深度推定精度を向上し、直接(特徴のない)視覚オドメトリーにおける測光残差の学習重み付け関数を提供する。 評価の結果,提案ネットワークは最先端の自己教師型深度推定ネットワークよりも優れていた。 D3VOは、予測深度、ポーズ、不確実性を直接視覚計測法にしっかりと組み込んで、フロントエンドのトラッキングと、バックエンドの非線形最適化の両方を強化する。 我々は,KITTI odometryベンチマークとEuRoC MAVデータセットの両方を用いて,D3VOを単眼視計測で評価した。 また、KITTIの最先端ステレオ/LiDARオドメトリーと、EuRoC MAVの最先端のビジュアル慣性オドメトリーに匹敵する結果を得る。

We propose D3VO as a novel framework for monocular visual odometry that exploits deep networks on three levels -- deep depth, pose and uncertainty estimation. We first propose a novel self-supervised monocular depth estimation network trained on stereo videos without any external supervision. In particular, it aligns the training image pairs into similar lighting condition with predictive brightness transformation parameters. Besides, we model the photometric uncertainties of pixels on the input images, which improves the depth estimation accuracy and provides a learned weighting function for the photometric residuals in direct (feature-less) visual odometry. Evaluation results show that the proposed network outperforms state-of-the-art self-supervised depth estimation networks. D3VO tightly incorporates the predicted depth, pose and uncertainty into a direct visual odometry method to boost both the front-end tracking as well as the back-end non-linear optimization. We evaluate D3VO in terms of monocular visual odometry on both the KITTI odometry benchmark and the EuRoC MAV dataset.The results show that D3VO outperforms state-of-the-art traditional monocular VO methods by a large margin. It also achieves comparable results to state-of-the-art stereo/LiDAR odometry on KITTI and to the state-of-the-art visual-inertial odometry on EuRoC MAV, while using only a single camera.
翻訳日:2022-12-27 04:12:28 公開日:2020-03-28
# PADS:視覚的類似性学習のためのポリシー適応サンプリング

PADS: Policy-Adapted Sampling for Visual Similarity Learning ( http://arxiv.org/abs/2003.11113v2 )

ライセンス: Link先を確認
Karsten Roth, Timo Milbich, Bj\"orn Ommer(参考訳) 視覚の類似性を学ぶには、通常画像の三重項間の関係を学ぶ必要がある。 トリプレットのアプローチは強力だが、計算複雑性はトレーニングを可能なトレーニングトリプレットのサブセットのみに制限する。 したがって、学習中にどのトレーニングサンプルを使うかを決めるサンプリング戦略が不可欠である。 現在、顕著なパラダイムは、トレーニング開始前に事前に定義された固定またはカリキュラムサンプリング戦略である。 しかし、この問題はトレーニング中の類似性表現の実際の状態に基づいて調整するサンプリングプロセスを本当に求めている。 そこで我々は強化学習を採用し,教師ネットワークに視覚類似性を表す学習者ネットワークの現在の状態に基づいてサンプリング分布を調整させる。 標準のトリプレットに基づく損失を用いたベンチマークデータセットの実験は、我々の適応サンプリング戦略が固定サンプリング戦略を大きく上回っていることを示している。 さらに, 適応サンプリングは基本的な三重奏学習フレームワーク上でのみ適用されるが, 多様な学習信号や強力なアンサンブルアーキテクチャを用いた最先端のアプローチと競合する結果が得られる。 コードはhttps://github.com/Confusezius/CVPR2020_PADSで見ることができる。

Learning visual similarity requires to learn relations, typically between triplets of images. Albeit triplet approaches being powerful, their computational complexity mostly limits training to only a subset of all possible training triplets. Thus, sampling strategies that decide when to use which training sample during learning are crucial. Currently, the prominent paradigm are fixed or curriculum sampling strategies that are predefined before training starts. However, the problem truly calls for a sampling process that adjusts based on the actual state of the similarity representation during training. We, therefore, employ reinforcement learning and have a teacher network adjust the sampling distribution based on the current state of the learner network, which represents visual similarity. Experiments on benchmark datasets using standard triplet-based losses show that our adaptive sampling strategy significantly outperforms fixed sampling strategies. Moreover, although our adaptive sampling is only applied on top of basic triplet-learning frameworks, we reach competitive results to state-of-the-art approaches that employ diverse additional learning signals or strong ensemble architectures. Code can be found under https://github.com/Confusezius/CVPR2020_PADS.
翻訳日:2022-12-20 09:27:32 公開日:2020-03-28
# ユニバーサル依存を用いた言語間適応

Cross-Lingual Adaptation Using Universal Dependencies ( http://arxiv.org/abs/2003.10816v2 )

ライセンス: Link先を確認
Nasrin Taghizadeh and Heshaam Faili(参考訳) 本稿では,言語間一貫性のある共通依存関係(ud)から得られる構文解析木に基づく言語間適応法を記述し,低リソース言語における分類器の開発を行った。 UD構文解析の考え方は、類型的に異なる言語間の類似性や慣用的類似性を捉えることである。 本稿では,複雑なNLPタスクのためのUD解析木を用いて訓練されたモデルが,非常に異なる言語を特徴付けることを示す。 ケーススタディとして,パラフレーズ識別と意味的関係抽出の2つの課題を検討した。 ud解析木に基づいて,木カーネルを用いたモデルをいくつか開発し,英語データセットでトレーニングされたモデルがフランス語,ファルシ語,アラビア語などの他の言語のデータを正しく分類できることを示す。 提案されたアプローチは、同様の言語間タスクを解決するためにud解析を利用するための道を開きます。

We describe a cross-lingual adaptation method based on syntactic parse trees obtained from the Universal Dependencies (UD), which are consistent across languages, to develop classifiers in low-resource languages. The idea of UD parsing is to capture similarities as well as idiosyncrasies among typologically different languages. In this paper, we show that models trained using UD parse trees for complex NLP tasks can characterize very different languages. We study two tasks of paraphrase identification and semantic relation extraction as case studies. Based on UD parse trees, we develop several models using tree kernels and show that these models trained on the English dataset can correctly classify data of other languages e.g. French, Farsi, and Arabic. The proposed approach opens up avenues for exploiting UD parsing in solving similar cross-lingual tasks, which is very useful for languages that no labeled data is available for them.
翻訳日:2022-12-20 08:58:32 公開日:2020-03-28
# 単一画像レイニングのためのマルチスケールプログレッシブフュージョンネットワーク

Multi-Scale Progressive Fusion Network for Single Image Deraining ( http://arxiv.org/abs/2003.10985v2 )

ライセンス: Link先を確認
Kui Jiang and Zhongyuan Wang and Peng Yi and Chen Chen and Baojin Huang and Yimin Luo and Jiayi Ma and Junjun Jiang(参考訳) 空気中の雨は、位置からカメラまでの距離が異なるため、様々なぼやけた度合いや解像度で現れる。 同様の降雨パターンは降雨画像やマルチスケール(またはマルチレゾリューション)バージョンで見ることができ、雨のストリーク表現にこのような補完的な情報を利用することができる。 本研究では,入力画像スケールと階層的深層特徴の観点から,雨ストレークのマルチスケール協調表現を,単一画像雨ストレーク除去のためのマルチスケールプログレッシブ・フュージョン・ネットワーク(mspfn)と呼ばれる統一フレームワークで検討する。 異なる位置における類似した雨のストレークに対して,地球規模のテクスチャを捉えるために再帰的な計算を行い,雨のストレークを特徴付ける空間的次元における補完的かつ冗長な情報を探索する。 さらに, マルチスケールのピラミッド構造を構築し, さらに, この相関情報の微細融合を異なるスケールから導くための注意機構を導入する。 このマルチスケールのプログレッシブ融合戦略は、協調表現を促進するだけでなく、エンドツーエンドのトレーニングを促進する。 提案手法は,いくつかのベンチマークデータセット上で広く評価され,最新の結果が得られる。 さらに, 共同デライニング, 検出, セグメンテーションタスクの実験を行い, 視覚タスク駆動画像デライニングの新たな研究方向を導出する。 ソースコードは \url{https://github.com/kuihua/MSPFN} で入手できる。

Rain streaks in the air appear in various blurring degrees and resolutions due to different distances from their positions to the camera. Similar rain patterns are visible in a rain image as well as its multi-scale (or multi-resolution) versions, which makes it possible to exploit such complementary information for rain streak representation. In this work, we explore the multi-scale collaborative representation for rain streaks from the perspective of input image scales and hierarchical deep features in a unified framework, termed multi-scale progressive fusion network (MSPFN) for single image rain streak removal. For similar rain streaks at different positions, we employ recurrent calculation to capture the global texture, thus allowing to explore the complementary and redundant information at the spatial dimension to characterize target rain streaks. Besides, we construct multi-scale pyramid structure, and further introduce the attention mechanism to guide the fine fusion of this correlated information from different scales. This multi-scale progressive fusion strategy not only promotes the cooperative representation, but also boosts the end-to-end training. Our proposed method is extensively evaluated on several benchmark datasets and achieves state-of-the-art results. Moreover, we conduct experiments on joint deraining, detection, and segmentation tasks, and inspire a new research direction of vision task-driven image deraining. The source code is available at \url{https://github.com/kuihua/MSPFN}.
翻訳日:2022-12-20 08:50:01 公開日:2020-03-28
# DCDLearn: 車両再識別のための多階深層距離学習

DCDLearn: Multi-order Deep Cross-distance Learning for Vehicle Re-Identification ( http://arxiv.org/abs/2003.11315v2 )

ライセンス: Link先を確認
Rixing Zhu, Jianwu Fang, Hongke Xu, Hongkai Yu, Jianru Xue(参考訳) 自動車再識別(Re-ID)は、インテリジェント交通システムにおける実践性から、一般的な研究トピックとなっている。 車両のRe-IDは、照明、閉塞、背景、解像度、視角などの急激な変化によって引き起こされる多くの課題に悩まされている。 そこで本論文では,車両再識別のための多階深度クロス距離学習(\textbf{DCDLearn})モデルを定式化し,一視点のCycleGANモデルを効率よく開発することにより,過去の作業における網羅的かつ列挙的なクロスカメラマッチング問題を緩和し,クロスカメラのドメイン不一致を円滑にする。 特に, 1-view CycleGAN が生成した変換画像と再構成画像を深層距離学習のための多階拡張データとして扱い, 多階増設三重項損失と中心損失で目的関数を最適化することにより, 異なる同一性を持つ多階画像の交差距離を学習し, カメラの不変性と同一性を実現する。 3台の車載Re-IDデータセットに対する大規模な実験により、提案手法が最先端、特に小規模データセットに対して大幅な改善を達成できることが示されている。

Vehicle re-identification (Re-ID) has become a popular research topic owing to its practicability in intelligent transportation systems. Vehicle Re-ID suffers the numerous challenges caused by drastic variation in illumination, occlusions, background, resolutions, viewing angles, and so on. To address it, this paper formulates a multi-order deep cross-distance learning (\textbf{DCDLearn}) model for vehicle re-identification, where an efficient one-view CycleGAN model is developed to alleviate exhaustive and enumerative cross-camera matching problem in previous works and smooth the domain discrepancy of cross cameras. Specially, we treat the transferred images and the reconstructed images generated by one-view CycleGAN as multi-order augmented data for deep cross-distance learning, where the cross distances of multi-order image set with distinct identities are learned by optimizing an objective function with multi-order augmented triplet loss and center loss to achieve the camera-invariance and identity-consistency. Extensive experiments on three vehicle Re-ID datasets demonstrate that the proposed method achieves significant improvement over the state-of-the-arts, especially for the small scale dataset.
翻訳日:2022-12-20 03:34:50 公開日:2020-03-28
# 分散関数推定: 最小通信を用いた適応化

Distributed function estimation: adaptation using minimal communication ( http://arxiv.org/abs/2003.12838v1 )

ライセンス: Link先を確認
Botond Szabo and Harry van Zanten(参考訳) 分散環境では, 最適速度における滑らかな関数の適応的推定が最小限の通信で可能かどうかを検討する。 答えは、考慮されたリスクと、手続きが分散されるサーバの数に依存することが判明した。 l_\infty$-riskの場合、最小の通信下で適応的に最適なレートを得ることはできない。 $L_2$-riskの場合、ローカルサーバの数とサンプルサイズ全体の関係に依存する、一連の正規性に対して可能である。

We investigate whether in a distributed setting, adaptive estimation of a smooth function at the optimal rate is possible under minimal communication. It turns out that the answer depends on the risk considered and on the number of servers over which the procedure is distributed. We show that for the $L_\infty$-risk, adaptively obtaining optimal rates under minimal communication is not possible. For the $L_2$-risk, it is possible over a range of regularities that depends on the relation between the number of local servers and the total sample size.
翻訳日:2022-12-19 00:03:23 公開日:2020-03-28
# ディープラーニングを用いた辞書DGAネットワークトラフィックのリアルタイム検出

Real-Time Detection of Dictionary DGA Network Traffic using Deep Learning ( http://arxiv.org/abs/2003.12805v1 )

ライセンス: Link先を確認
Kate Highnam, Domenic Puzio, Song Luo, and Nicholas R. Jennings(参考訳) ボットネットとマルウェアは、ユニークな動的に生成されたWebアドレスへの呼び出しにドメイン生成アルゴリズム(DGA)を使用する場合、静的ルールエンジンによる検出を避け続けている。 一般的なDGA検出技術は、ランダム辞書語を組み合わせたDGA変種を確実に検出できず、正規ドメインを忠実にミラーするドメイン名を生成する。 これに対抗するために、我々は、ドメインを分析し、それらがそのようなアルゴリズムによって生成される可能性を評価し、そのため潜在的に悪意のある、新しいハイブリッドニューラルネットワーク、Bilboを作成した。 Bilboは、DGA検出のための畳み込みニューラルネットワーク(CNN)と長い短期記憶(LSTM)ネットワークの最初の並列使用である。 我々のユニークなアーキテクチャは、現在最先端のディープラーニングアーキテクチャと比較して、異なる辞書DGA分類タスクを一般化する際に、AUC、F1スコア、精度において最も一貫性がある。 逆エンジニアリング辞書DGAドメインを用いて検証を行い、大規模金融企業における実世界のネットワークログを評価するためのリアルタイム実装戦略を詳述する。 実際のネットワークトラフィックの4時間の間に、このモデルは少なくとも5つのコマンド・アンド・コントロールネットワークを発見した。

Botnets and malware continue to avoid detection by static rules engines when using domain generation algorithms (DGAs) for callouts to unique, dynamically generated web addresses. Common DGA detection techniques fail to reliably detect DGA variants that combine random dictionary words to create domain names that closely mirror legitimate domains. To combat this, we created a novel hybrid neural network, Bilbo the `bagging` model, that analyses domains and scores the likelihood they are generated by such algorithms and therefore are potentially malicious. Bilbo is the first parallel usage of a convolutional neural network (CNN) and a long short-term memory (LSTM) network for DGA detection. Our unique architecture is found to be the most consistent in performance in terms of AUC, F1 score, and accuracy when generalising across different dictionary DGA classification tasks compared to current state-of-the-art deep learning architectures. We validate using reverse-engineered dictionary DGA domains and detail our real-time implementation strategy for scoring real-world network logs within a large financial enterprise. In four hours of actual network traffic, the model discovered at least five potential command-and-control networks that commercial vendor tools did not flag.
翻訳日:2022-12-19 00:02:59 公開日:2020-03-28
# AIオペレーションライフサイクルの自動化に向けて

Towards Automating the AI Operations Lifecycle ( http://arxiv.org/abs/2003.12808v1 )

ライセンス: Link先を確認
Matthew Arnold, Jeffrey Boston, Michael Desmond, Evelyn Duesterwald, Benjamin Elder, Anupama Murthi, Jiri Navratil, Darrell Reimer(参考訳) 今日のAIデプロイメントは、プレリリーステスト、監視、問題診断、モデル改善など、モデルライフサイクルの運用段階における人的関与とスキルを必要とすることが多い。 我々は、AI操作における自動化のレベルを向上し、必要な人的労力を減らすために使用できる一連の実現技術を提案する。 人間の関与の共通源は、デプロイされたモデルのパフォーマンスを評価する必要があるため、パフォーマンス予測とKPI分析の技術に注目し、典型的なAIオペレーションパイプラインのキーステージにおける自動化の改善にどのように使用できるかを示す。

Today's AI deployments often require significant human involvement and skill in the operational stages of the model lifecycle, including pre-release testing, monitoring, problem diagnosis and model improvements. We present a set of enabling technologies that can be used to increase the level of automation in AI operations, thus lowering the human effort required. Since a common source of human involvement is the need to assess the performance of deployed models, we focus on technologies for performance prediction and KPI analysis and show how they can be used to improve automation in the key stages of a typical AI operations pipeline.
翻訳日:2022-12-19 00:02:39 公開日:2020-03-28
# CNNによる人口密度推定と集団数:調査

CNN-based Density Estimation and Crowd Counting: A Survey ( http://arxiv.org/abs/2003.12783v1 )

ライセンス: Link先を確認
Guangshuai Gao, Junyu Gao, Qingjie Liu, Qi Wang, Yunhong Wang(参考訳) 単一画像中のオブジェクト数を正確に推定することは難しいが有意義な作業であり、都市計画や公共安全など多くの用途に応用されている。 様々なオブジェクトカウントタスクにおいて、群衆カウントは特に社会保障と開発に特別な重要性があるため顕著である。 幸運なことに、群衆カウント技術の開発は、その特性を考慮せずに、車計数や環境調査などの他の関連分野に一般化することができる。 そのため、多くの研究者が群衆の数え上げに熱心であり、多くの優れた文学作品や作品が盛り上がっている。 これらの作品では、彼らは群衆の数え上げの発展に役立ちます。 しかし、我々が考慮すべき問題は、なぜこのタスクに効果があるのかである。 時間とエネルギーのコストによって制限されるため、すべてのアルゴリズムを解析することはできない。 本稿では,主にCNNに基づく密度マップ推定手法である群集数モデルについて,包括的かつ体系的に研究する220以上の研究を調査した。 最後に,評価指標により,群集計数データセット上で上位3人のパフォーマーを選択し,そのメリットと欠点を分析した。 分析により,群衆カウントの今後の発展に対する合理的な推測と予測が期待できる一方で,他の分野における対象カウント問題に対する実現可能な解決策を提供することができる。 我々は,NWPUデータセットの検証セットにおいて,いくつかの主流アルゴリズムの密度マップと予測結果を提供する。 一方、密度マップの生成と評価ツールも提供される。 すべてのコードと評価結果は、https://github.com/gaoguangshuai/survey-for-crowd-countingで公開されている。

Accurately estimating the number of objects in a single image is a challenging yet meaningful task and has been applied in many applications such as urban planning and public safety. In the various object counting tasks, crowd counting is particularly prominent due to its specific significance to social security and development. Fortunately, the development of the techniques for crowd counting can be generalized to other related fields such as vehicle counting and environment survey, if without taking their characteristics into account. Therefore, many researchers are devoting to crowd counting, and many excellent works of literature and works have spurted out. In these works, they are must be helpful for the development of crowd counting. However, the question we should consider is why they are effective for this task. Limited by the cost of time and energy, we cannot analyze all the algorithms. In this paper, we have surveyed over 220 works to comprehensively and systematically study the crowd counting models, mainly CNN-based density map estimation methods. Finally, according to the evaluation metrics, we select the top three performers on their crowd counting datasets and analyze their merits and drawbacks. Through our analysis, we expect to make reasonable inference and prediction for the future development of crowd counting, and meanwhile, it can also provide feasible solutions for the problem of object counting in other fields. We provide the density maps and prediction results of some mainstream algorithm in the validation set of NWPU dataset for comparison and testing. Meanwhile, density map generation and evaluation tools are also provided. All the codes and evaluation results are made publicly available at https://github.com/gaoguangshuai/survey-for-crowd-counting.
翻訳日:2022-12-18 23:57:06 公開日:2020-03-28
# 野生における完全アライメントによる偏光反射除去

Polarized Reflection Removal with Perfect Alignment in the Wild ( http://arxiv.org/abs/2003.12789v1 )

ライセンス: Link先を確認
Chenyang Lei, Xuhua Huang, Mengdi Zhang, Qiong Yan, Wenxiu Sun and Qifeng Chen(参考訳) 野生の偏光画像からの反射を除去するための新しい定式化法を提案する。 まず, 既存の反射除去データセットにおいて, ガラスの屈折による混合画像と完全に一致しない反射除去画像の誤りを識別する。 次に,100種類以上のガラスを用いた新しいデータセットを構築し,得られた透過画像と入力混合画像とを完全に一致させる。 第二に、反射と偏光の特殊関係に着目し、二段階構造を持つ偏光反射除去モデルを提案する。 さらに,反射除去および画像分解タスクの性能を向上させる新しい知覚的NCC損失を設計する。 我々は広範な実験を行い,このモデルがリフレクション除去における最先端手法よりも優れていることを示唆する。

We present a novel formulation to removing reflection from polarized images in the wild. We first identify the misalignment issues of existing reflection removal datasets where the collected reflection-free images are not perfectly aligned with input mixed images due to glass refraction. Then we build a new dataset with more than 100 types of glass in which obtained transmission images are perfectly aligned with input mixed images. Second, capitalizing on the special relationship between reflection and polarized light, we propose a polarized reflection removal model with a two-stage architecture. In addition, we design a novel perceptual NCC loss that can improve the performance of reflection removal and general image decomposition tasks. We conduct extensive experiments, and results suggest that our model outperforms state-of-the-art methods on reflection removal.
翻訳日:2022-12-18 23:56:42 公開日:2020-03-28
# グラフ誘起プロトタイプアライメントによるクロスドメイン検出

Cross-domain Detection via Graph-induced Prototype Alignment ( http://arxiv.org/abs/2003.12849v1 )

ライセンス: Link先を確認
Minghao Xu, Hang Wang, Bingbing Ni, Qi Tian, Wenjun Zhang(参考訳) 特定のドメイン上でトレーニングされたオブジェクト検出器の知識を新しいドメインに直接適用することは、モデルの性能を著しく低下させる可能性があるため、リスクが高い。 さらに、オブジェクト検出シナリオにおいて、異なるインスタンスが個別のモーダル情報を具現化しているため、ソースとターゲットドメインの特徴アライメントを実現することは困難である。 これらの問題を緩和するために,グラフ誘導型プロトタイプアライメント(GPA)フレームワークを提案し,詳細なプロトタイプ表現を用いてカテゴリレベルのドメインアライメントを求める。 言い換えると、より正確なインスタンスレベルの特徴は、地域提案間のグラフベースの情報伝達によって得られ、それに基づいて、各クラスのプロトタイプ表現がカテゴリレベルのドメインアライメントのために導出される。 さらに,クラス不均衡がドメイン適応に与える影響を緩和するために,クラス重み付けされたコントラスト損失を設計し,適応訓練プロセスを調和させる。 提案するフレームワークは,Faster R-CNNと組み合わせて,2段階的な機能アライメントを行う。 様々なクロスドメイン検出タスクの包括的結果から,提案手法が既存の手法よりも有意なマージンで優れていることが分かる。 私たちのコードはhttps://github.com/ChrisAllenMing/GPA-detectionで利用可能です。

Applying the knowledge of an object detector trained on a specific domain directly onto a new domain is risky, as the gap between two domains can severely degrade model's performance. Furthermore, since different instances commonly embody distinct modal information in object detection scenario, the feature alignment of source and target domain is hard to be realized. To mitigate these problems, we propose a Graph-induced Prototype Alignment (GPA) framework to seek for category-level domain alignment via elaborate prototype representations. In the nutshell, more precise instance-level features are obtained through graph-based information propagation among region proposals, and, on such basis, the prototype representation of each class is derived for category-level domain alignment. In addition, in order to alleviate the negative effect of class-imbalance on domain adaptation, we design a Class-reweighted Contrastive Loss to harmonize the adaptation training process. Combining with Faster R-CNN, the proposed framework conducts feature alignment in a two-stage manner. Comprehensive results on various cross-domain detection tasks demonstrate that our approach outperforms existing methods with a remarkable margin. Our code is available at https://github.com/ChrisAllenMing/GPA-detection.
翻訳日:2022-12-18 23:56:05 公開日:2020-03-28
# 顔生成のためのワンショットドメイン適応

One-Shot Domain Adaptation For Face Generation ( http://arxiv.org/abs/2003.12869v1 )

ライセンス: Link先を確認
Chao Yang, Ser-Nam Lim(参考訳) 本稿では,与えられた一発の例と同じ分布に陥る顔画像を生成するフレームワークを提案する。 すでに一般的な顔分布を学習した事前学習されたスタイルガンモデルを活用する。 単発の目標を考えると、モデルの重みを迅速に適応させ、出力の高レベル分布を目標にシフトさせる反復最適化スキームを開発する。 同じ分布の画像を生成するために,ターゲットからランダムに生成された顔へ低レベル統計を転送するスタイルミキシング手法を提案する。 これにより、一般的な人間の顔とワンショットの例の両方の分布から受け継がれる無制限の顔を生成することができる。 新たに生成された顔は他の下流タスクのトレーニングデータとして機能する。 このような設定は、ターゲットドメイン内で非常に少ないラベリング、あるいは1つの例を必要とするため、魅力的である。 顔操作検出におけるワンショットアプローチの有効性を示し,他のマイナショット領域適応法との比較を行った。

In this paper, we propose a framework capable of generating face images that fall into the same distribution as that of a given one-shot example. We leverage a pre-trained StyleGAN model that already learned the generic face distribution. Given the one-shot target, we develop an iterative optimization scheme that rapidly adapts the weights of the model to shift the output's high-level distribution to the target's. To generate images of the same distribution, we introduce a style-mixing technique that transfers the low-level statistics from the target to faces randomly generated with the model. With that, we are able to generate an unlimited number of faces that inherit from the distribution of both generic human faces and the one-shot example. The newly generated faces can serve as augmented training data for other downstream tasks. Such setting is appealing as it requires labeling very few, or even one example, in the target domain, which is often the case of real-world face manipulations that result from a variety of unknown and unique distributions, each with extremely low prevalence. We show the effectiveness of our one-shot approach for detecting face manipulations and compare it with other few-shot domain adaptation methods qualitatively and quantitatively.
翻訳日:2022-12-18 23:55:45 公開日:2020-03-28
# エッジ検出を利用した立方体形状物体の精密平面分割

Refined Plane Segmentation for Cuboid-Shaped Objects by Leveraging Edge Detection ( http://arxiv.org/abs/2003.12870v1 )

ライセンス: Link先を確認
Alexander Naumann, Laura D\"orr, Niels Ole Salscheider, Kai Furmans(参考訳) 単一rgb画像からの平面セグメンテーション領域の最近の進歩により、精度が向上し、室内シーンの信頼性の高いセグメンテーションが可能となった。 にもかかわらず、これらのセグメンテーションマスクの細部の詳細はまだ正確性に欠けており、拡張現実のユースケースの塗布など、多数のアプリケーションにおいて、そのような技術の使用性を制限する。 画像中に検出されたエッジとセグメント面マスクを整合させるポストプロセッシングアルゴリズムを提案する。 これにより、最先端のアプローチの精度を高めつつ、立方体型のオブジェクトに制限できるのです。 我々のアプローチはロジスティクスに動機付けられており、この仮定は妥当であり、洗練された平面は教師付き学習を必要とせずに堅牢なオブジェクト検出を行うことができる。 2つのベースラインの結果と我々のアプローチは、我々のデータセットで報告されています。 その結果、最先端よりも一貫した改善が見られた。 先行セグメンテーションとエッジ検出の影響について検討し,最後に,今後の研究分野を提案する。

Recent advances in the area of plane segmentation from single RGB images show strong accuracy improvements and now allow a reliable segmentation of indoor scenes into planes. Nonetheless, fine-grained details of these segmentation masks are still lacking accuracy, thus restricting the usability of such techniques on a larger scale in numerous applications, such as inpainting for Augmented Reality use cases. We propose a post-processing algorithm to align the segmented plane masks with edges detected in the image. This allows us to increase the accuracy of state-of-the-art approaches, while limiting ourselves to cuboid-shaped objects. Our approach is motivated by logistics, where this assumption is valid and refined planes can be used to perform robust object detection without the need for supervised learning. Results for two baselines and our approach are reported on our own dataset, which we made publicly available. The results show a consistent improvement over the state-of-the-art. The influence of the prior segmentation and the edge detection is investigated and finally, areas for future research are proposed.
翻訳日:2022-12-18 23:55:27 公開日:2020-03-28
# 対応とシームズネットワークを用いた音声の教師なし特徴学習

Unsupervised feature learning for speech using correspondence and Siamese networks ( http://arxiv.org/abs/2003.12799v1 )

ライセンス: Link先を確認
Petri-Johan Last, Herman A. Engelbrecht, Herman Kamper(参考訳) 書き起こされた音声が使用できないゼロリソース環境では、教師なしの機能学習が下流の音声処理タスクに不可欠である。 本稿では,2種類のフレームレベルの音響特徴学習法を比較する。 どちらの方法も、教師なし項発見は、同じ未知のタイプの単語のペアを見つけるために用いられる。 次に動的プログラミングは、各単語ペア間の機能フレームの調整に使われ、2つのモデルの弱いトップダウンの監督に役立ちます。 対応オートエンコーダ(CAE)では、マッチングフレームを入出力ペアとして表示する。 triamese networkは、同じ予測された単語タイプのフレーム間の距離を減少させながら、負の例間の距離を増加させるコントラスト的損失を使用する。 このような特徴抽出器を,同じ弱い監督ペアを用いて同一の識別タスクで初めて比較する。 ここで考慮された2つのデータセットにおいて、CAEはTriameseネットワークよりも優れています。 しかし,新たなハイブリッド通信方式(CTriamese)は,英語とXitsongaの評価データの平均精度とABX誤差率において,CAEモデルとTriameseモデルの両方より一貫して優れていた。

In zero-resource settings where transcribed speech audio is unavailable, unsupervised feature learning is essential for downstream speech processing tasks. Here we compare two recent methods for frame-level acoustic feature learning. For both methods, unsupervised term discovery is used to find pairs of word examples of the same unknown type. Dynamic programming is then used to align the feature frames between each word pair, serving as weak top-down supervision for the two models. For the correspondence autoencoder (CAE), matching frames are presented as input-output pairs. The Triamese network uses a contrastive loss to reduce the distance between frames of the same predicted word type while increasing the distance between negative examples. For the first time, these feature extractors are compared on the same discrimination tasks using the same weak supervision pairs. We find that, on the two datasets considered here, the CAE outperforms the Triamese network. However, we show that a new hybrid correspondence-Triamese approach (CTriamese), consistently outperforms both the CAE and Triamese models in terms of average precision and ABX error rates on both English and Xitsonga evaluation data.
翻訳日:2022-12-18 23:55:09 公開日:2020-03-28
# HIN:文書レベル関係抽出のための階層型推論ネットワーク

HIN: Hierarchical Inference Network for Document-Level Relation Extraction ( http://arxiv.org/abs/2003.12754v1 )

ライセンス: Link先を確認
Hengzhu Tang, Yanan Cao, Zhenyu Zhang, Jiangxia Cao, Fang Fang, Shi Wang and Pengfei Yin(参考訳) 文書レベルのREでは、複数の文を読み取り、推測、集約する必要がある。 我々の視点では、文書レベルREは、エンティティレベル、文レベル、文書レベルといった多粒性推論情報を活用する必要がある。 したがって,これまで検討されていない文書レベルのREでは,異なる粒度で推論情報を収集・集約する方法が困難である。 本稿では,エンティティレベル,文レベル,文書レベルから得られる豊富な情報を十分に活用するための階層的推論ネットワーク(hin)を提案する。 翻訳制約と双線形変換は、複数のサブ空間内の対象エンティティペアに適用され、エンティティレベルの推論情報を取得する。 次に,エンティティレベルの情報と文表現との推論をモデル化し,文レベルの推論情報を実現する。 最後に、文書レベルの推論情報を得るために階層的集約手法を採用する。 このようにして、我々のモデルはこれらの3つの異なる粒度の推論情報を効果的に集約することができる。 実験の結果,大規模docredデータセット上での最先端性能が得られた。 また,bert表現を用いることで性能がさらに向上することを示す。

Document-level RE requires reading, inferring and aggregating over multiple sentences. From our point of view, it is necessary for document-level RE to take advantage of multi-granularity inference information: entity level, sentence level and document level. Thus, how to obtain and aggregate the inference information with different granularity is challenging for document-level RE, which has not been considered by previous work. In this paper, we propose a Hierarchical Inference Network (HIN) to make full use of the abundant information from entity level, sentence level and document level. Translation constraint and bilinear transformation are applied to target entity pair in multiple subspaces to get entity-level inference information. Next, we model the inference between entity-level information and sentence representation to achieve sentence-level inference information. Finally, a hierarchical aggregation approach is adopted to obtain the document-level inference information. In this way, our model can effectively aggregate inference information from these three different granularities. Experimental results show that our method achieves state-of-the-art performance on the large-scale DocRED dataset. We also demonstrate that using BERT representations can further substantially boost the performance.
翻訳日:2022-12-18 23:48:03 公開日:2020-03-28
# 視点からのヒントの活用:多視点物体認識のための自己教師あり正規化学習

Exploit Clues from Views: Self-Supervised and Regularized Learning for Multiview Object Recognition ( http://arxiv.org/abs/2003.12735v1 )

ライセンス: Link先を確認
Chih-Hui Ho, Bo Liu, Tz-Ying Wu, Nuno Vasconcelos(参考訳) マルチビュー認識は文献でよく研究されており、オブジェクト認識および検索タスクにおいて十分な性能を発揮する。 しかしながら、以前のほとんどの著作は教師付き学習と、トレーニングや推論時間におけるすべてのビューの可利用性など、いくつかの非現実的前提に依存している。 本研究では,多視点自己教師型学習(MV-SSL)の問題について検討し,対象関係の画像のみを与える。 この設定を前提として,「対象不変性」表現を追求し,自己教師付き学習のための新しいサロゲートタスクを提案する。 これは、オブジェクトのイメージ特徴をオブジェクトプロトタイプとしてランダムに選択し、マルチビュー一貫性の正規化を伴い、ビュー不変確率的プロトタイプ埋め込み(vispe)となる。 実験の結果,VISPEを用いた認識と検索は,他の自己教師あり学習手法よりも優れていた。 VISPEは半教師付きシナリオにも適用でき、限られたデータで堅牢なパフォーマンスを示す。 コードはhttps://github.com/chihhuiho/VISPEで入手できる。

Multiview recognition has been well studied in the literature and achieves decent performance in object recognition and retrieval task. However, most previous works rely on supervised learning and some impractical underlying assumptions, such as the availability of all views in training and inference time. In this work, the problem of multiview self-supervised learning (MV-SSL) is investigated, where only image to object association is given. Given this setup, a novel surrogate task for self-supervised learning is proposed by pursuing "object invariant" representation. This is solved by randomly selecting an image feature of an object as object prototype, accompanied with multiview consistency regularization, which results in view invariant stochastic prototype embedding (VISPE). Experiments shows that the recognition and retrieval results using VISPE outperform that of other self-supervised learning methods on seen and unseen data. VISPE can also be applied to semi-supervised scenario and demonstrates robust performance with limited data available. Code is available at https://github.com/chihhuiho/VISPE
翻訳日:2022-12-18 23:46:01 公開日:2020-03-28
# グループ活動認識のためのアクタ変換器

Actor-Transformers for Group Activity Recognition ( http://arxiv.org/abs/2003.12737v1 )

ライセンス: Link先を確認
Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, Cees G. M. Snoek(参考訳) 本稿では,ビデオから個人行動やグループ活動を認識することを目的とする。 この課題に対する既存の解決策は、個々のアクターの位置に基づく空間的・時間的関係を明示的にモデル化する一方で、グループ活動認識に関連する情報を学習し、選択的に抽出できるアクター・トランスフォーマーモデルを提案する。 2次元ポーズネットワークと3次元CNNの機能によって表現されるリッチなアクター固有の静的表現と動的表現をトランスフォーマーに提供する。 我々はこれらの表現を組み合わせる様々な方法を経験的に研究し、相補的な利点を示す。 実験は、トランスフォーメーションの重要性と、トランスフォーメーションの方法を示しています。 さらに、アクタトランスフォーマーは、グループアクティビティ認識の2つの公開ベンチマークで最先端の結果を達成し、これまでの最高の結果を大幅に上回っています。

This paper strives to recognize individual actions and group activities from videos. While existing solutions for this challenging problem explicitly model spatial and temporal relationships based on location of individual actors, we propose an actor-transformer model able to learn and selectively extract information relevant for group activity recognition. We feed the transformer with rich actor-specific static and dynamic representations expressed by features from a 2D pose network and 3D CNN, respectively. We empirically study different ways to combine these representations and show their complementary benefits. Experiments show what is important to transform and how it should be transformed. What is more, actor-transformers achieve state-of-the-art results on two publicly available benchmarks for group activity recognition, outperforming the previous best published results by a considerable margin.
翻訳日:2022-12-18 23:45:46 公開日:2020-03-28
# 教師なし画像復元のための学習不変表現

Learning Invariant Representation for Unsupervised Image Restoration ( http://arxiv.org/abs/2003.12769v1 )

ライセンス: Link先を確認
Wenchao Du, Hu Chen and Hongyu Yang(参考訳) 近年,教師なし画像復元作業にクロスドメイン転送が適用されている。 しかし、既存のフレームワークを直接適用すると、効果的な監督が欠如しているため、翻訳画像のドメインシフトの問題に繋がる。 代わりに,ノイズデータから不変表現を明示的に学習し,明確な観察を再構築する教師なし学習手法を提案する。 そこで本稿では,背景整合性制約や意味的整合性制約,特徴領域や画像領域などの二重領域制約下での頑健な表現の学習など,自己教師付きモジュールが支援する汎用ドメイン転送フレームワークに,離散的不整合表現と対向ドメイン適応を導入する。 合成および実ノイズ除去タスクの実験により,提案手法は他の領域適応法よりも高速で安定な収束性を持ちながら,最先端の教師なしおよび教師なし法と同等の性能が得られることを示した。

Recently, cross domain transfer has been applied for unsupervised image restoration tasks. However, directly applying existing frameworks would lead to domain-shift problems in translated images due to lack of effective supervision. Instead, we propose an unsupervised learning method that explicitly learns invariant presentation from noisy data and reconstructs clear observations. To do so, we introduce discrete disentangling representation and adversarial domain adaption into general domain transfer framework, aided by extra self-supervised modules including background and semantic consistency constraints, learning robust representation under dual domain constraints, such as feature and image domains. Experiments on synthetic and real noise removal tasks show the proposed method achieves comparable performance with other state-of-the-art supervised and unsupervised methods, while having faster and stable convergence than other domain adaption methods.
翻訳日:2022-12-18 23:45:05 公開日:2020-03-28
# 常に戻らないシミュレーターとのコピング

Coping With Simulators That Don't Always Return ( http://arxiv.org/abs/2003.12908v1 )

ライセンス: Link先を確認
Andrew Warrington, Saeid Naderiparizi, Frank Wood(参考訳) 決定論的モデルは、解釈が容易で、しばしば確率的な代替物よりも構築が容易な現実の近似である。 残念なことに、自然は静けさであるため、観察データは実際には決定論的モデルによって完全に説明できない。 観測とプロセスノイズは、確率的に振る舞うように決定論的モデルを適用するために追加され、ノイズデータから説明や外挿ができる。 我々は、特定の入力に対して返却しない決定論的シミュレータにプロセスノイズを加えることによって生じる計算効率の非効率性を調査し、対処する。 本稿では,条件付き正規化フローを訓練する方法を示し,シミュレータが高い確率で成功し,計算効率が向上するような摂動を提案する。

Deterministic models are approximations of reality that are easy to interpret and often easier to build than stochastic alternatives. Unfortunately, as nature is capricious, observational data can never be fully explained by deterministic models in practice. Observation and process noise need to be added to adapt deterministic models to behave stochastically, such that they are capable of explaining and extrapolating from noisy data. We investigate and address computational inefficiencies that arise from adding process noise to deterministic simulators that fail to return for certain inputs; a property we describe as "brittle." We show how to train a conditional normalizing flow to propose perturbations such that the simulator succeeds with high probability, increasing computational efficiency.
翻訳日:2022-12-18 23:38:59 公開日:2020-03-28
# 対人ロバスト性:自己監督型プレトレーニングからファインチューニングへ

Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning ( http://arxiv.org/abs/2003.12862v1 )

ライセンス: Link先を確認
Tianlong Chen, Sijia Liu, Shiyu Chang, Yu Cheng, Lisa Amini and Zhangyang Wang(参考訳) 自己超越による事前訓練されたモデルは、細調整された下流タスクや精度向上のためによく使用される。 しかし、事前訓練による堅牢性は未検討のままである。 対戦型トレーニングを自己超越に導入し,汎用的な頑健な事前訓練モデルを初めて提供する。 これらの堅牢な事前学習モデルは、次の2つの方法による微調整の恩恵を受けることができる。 一 最終模型の堅牢性を高めること 二 逆微調整に進む場合において、計算コストを節約すること。 CIFAR-10データセットでは,従来のエンドツーエンドのトレーニングベースラインと比較して,提案フレームワークが大きなパフォーマンスマージン(堅牢な精度が3.83%,標準精度が1.3%)を達成することを示すため,広範な実験を行った。 さらに, 自己教師付き事前学習モデルには, 多様な敵の脆弱性があることが判明した。 これは、いくつかの事前訓練タスクをアンサンブルするきっかけとなり、堅牢性を高めます。 今回のアンサンブル戦略は,cifar-10の標準精度をわずかに高めながら,ロバストな精度で3.59%のさらなる改善に寄与する。 私たちのコードはhttps://github.com/TAMU-VITA/Adv-SS-Pretraining.comで公開されています。

Pretrained models from self-supervision are prevalently used in fine-tuning downstream tasks faster or for better accuracy. However, gaining robustness from pretraining is left unexplored. We introduce adversarial training into self-supervision, to provide general-purpose robust pre-trained models for the first time. We find these robust pre-trained models can benefit the subsequent fine-tuning in two ways: i) boosting final model robustness; ii) saving the computation cost, if proceeding towards adversarial fine-tuning. We conduct extensive experiments to demonstrate that the proposed framework achieves large performance margins (eg, 3.83% on robust accuracy and 1.3% on standard accuracy, on the CIFAR-10 dataset), compared with the conventional end-to-end adversarial training baseline. Moreover, we find that different self-supervised pre-trained models have a diverse adversarial vulnerability. It inspires us to ensemble several pretraining tasks, which boosts robustness more. Our ensemble strategy contributes to a further improvement of 3.59% on robust accuracy, while maintaining a slightly higher standard accuracy on CIFAR-10. Our codes are available at https://github.com/TAMU-VITA/Adv-SS-Pretraining.
翻訳日:2022-12-18 23:38:47 公開日:2020-03-28
# 資源制約のあるモノのインターネットのための異なる私的フェデレーション学習

Differentially Private Federated Learning for Resource-Constrained Internet of Things ( http://arxiv.org/abs/2003.12705v1 )

ライセンス: Link先を確認
Rui Hu, Yuanxiong Guo, E. Paul. Ratazzi and Yanmin Gong(参考訳) IoT(Internet of Things)の時代に、内蔵センサー、インターネット接続、プログラマブルな計算能力を備えたスマートデバイスの普及により、ネットワークエッジで膨大なデータが生成されるようになりました。 連合学習(federated learning)は、分散したスマートデバイスから大量のデータを分析し、そのデータを中央にアップロードする必要がない。 しかし、一般的に使われているフェデレート学習アルゴリズムは確率勾配勾配(SGD)に基づいており、通信リソースの要求が高いため、リソース制約のIoT環境には適さない。 さらに、スマートデバイス上の機密データのプライバシーが重要な関心事となり、厳格に保護する必要がある。 本稿では,IoTのリソース制約されたスマートデバイスに格納されたデータから,差分プライバシーを確保しながら機械学習モデルを効率的にトレーニングするための,DP-PASGDという新しいフェデレーション学習フレームワークを提案する。 資源コストとプライバシ損失の限界を満足しつつ学習性能を最大化するDP-PASGDの最適スキーマ設計を最適化問題として定式化し、DP-PASGDの収束解析に基づく近似解法を開発し、最適化問題を効率的に解く。 実世界のデータセットに基づく数値結果は,提案するdp-pasgd方式の有効性を検証する。

With the proliferation of smart devices having built-in sensors, Internet connectivity, and programmable computation capability in the era of Internet of things (IoT), tremendous data is being generated at the network edge. Federated learning is capable of analyzing the large amount of data from a distributed set of smart devices without requiring them to upload their data to a central place. However, the commonly-used federated learning algorithm is based on stochastic gradient descent (SGD) and not suitable for resource-constrained IoT environments due to its high communication resource requirement. Moreover, the privacy of sensitive data on smart devices has become a key concern and needs to be protected rigorously. This paper proposes a novel federated learning framework called DP-PASGD for training a machine learning model efficiently from the data stored across resource-constrained smart devices in IoT while guaranteeing differential privacy. The optimal schematic design of DP-PASGD that maximizes the learning performance while satisfying the limits on resource cost and privacy loss is formulated as an optimization problem, and an approximate solution method based on the convergence analysis of DP-PASGD is developed to solve the optimization problem efficiently. Numerical results based on real-world datasets verify the effectiveness of the proposed DP-PASGD scheme.
翻訳日:2022-12-18 23:37:32 公開日:2020-03-28
# 多様な応答生成のための変分トランス

Variational Transformers for Diverse Response Generation ( http://arxiv.org/abs/2003.12738v1 )

ライセンス: Link先を確認
Zhaojiang Lin, Genta Indra Winata, Peng Xu, Zihan Liu, Pascale Fung(参考訳) 多くのシーケンスモデリングタスク(例えば機械翻訳)におけるトランスフォーマーの大きな期待にもかかわらず、その決定論的性質は対話応答生成のような高いエントロピータスクへの一般化を妨げる。 従来の研究は、リカレントニューラルネットワーク(RNN)ベースの条件変分オートエンコーダ(CVAE)による対話応答の変動を捉えることを提案した。 しかし、RNNの自己回帰計算は訓練効率を制限している。 そこで本研究では,変分自己注意フィードフォワードシーケンスモデルである変分変換器(VT)を提案する。 VTは、Transformerの並列化性と大域的受容場とCVAEの変動特性を、確率的潜在変数をTransformerに組み込むことで結合する。 VTの2つのタイプを探索する。 1)グローバル潜在変数を用いた談話レベルの多様性のモデル化 2)細粒度の潜在変数列によるトランスフォーマデコーダの強化。 そして,提案手法を3つの対話データセット上で自動計測と人的評価で評価する。 実験の結果, 標準トランスフォーマーや他のベースラインを, 多様性, 意味的関連性, 人的判断の観点から改善した。

Despite the great promise of Transformers in many sequence modeling tasks (e.g., machine translation), their deterministic nature hinders them from generalizing to high entropy tasks such as dialogue response generation. Previous work proposes to capture the variability of dialogue responses with a recurrent neural network (RNN)-based conditional variational autoencoder (CVAE). However, the autoregressive computation of the RNN limits the training efficiency. Therefore, we propose the Variational Transformer (VT), a variational self-attentive feed-forward sequence model. The VT combines the parallelizability and global receptive field of the Transformer with the variational nature of the CVAE by incorporating stochastic latent variables into Transformers. We explore two types of the VT: 1) modeling the discourse-level diversity with a global latent variable; and 2) augmenting the Transformer decoder with a sequence of fine-grained latent variables. Then, the proposed models are evaluated on three conversational datasets with both automatic metric and human evaluation. The experimental results show that our models improve standard Transformers and other baselines in terms of diversity, semantic relevance, and human judgment.
翻訳日:2022-12-18 23:36:15 公開日:2020-03-28
# 法律ドメインのためのNLPサービスのオーケストレーション

Orchestrating NLP Services for the Legal Domain ( http://arxiv.org/abs/2003.12900v1 )

ライセンス: Link先を確認
Juli\'an Moreno-Schneider and Georg Rehm and Elena Montiel-Ponsoda and V\'ictor Rodriguez-Doncel and Artem Revenko and Sotirios Karampatakis and Maria Khvalchik and Christian Sageder and Jorge Gracia and Filippo Maganza(参考訳) 現在、法律技術は様々な角度から多くの注目を集めている。 このコントリビューションでは、産業と研究のパートナーを含む欧州のイノベーションプロジェクトLynxで現在開発中のシステムの主要な技術コンポーネントについて説明します。 本論文の主な貢献は,自然言語処理とコンテンツキュレーションサービスのポートフォリオに基づくワークフローの柔軟なオーケストレーションを可能にするワークフローマネージャと,意味情報と法文書への意味のある参照を含む多言語法的知識グラフである。 また,原型的なソリューションを実験し,開発するさまざまなユースケースについても述べる。

Legal technology is currently receiving a lot of attention from various angles. In this contribution we describe the main technical components of a system that is currently under development in the European innovation project Lynx, which includes partners from industry and research. The key contribution of this paper is a workflow manager that enables the flexible orchestration of workflows based on a portfolio of Natural Language Processing and Content Curation services as well as a Multilingual Legal Knowledge Graph that contains semantic information and meaningful references to legal documents. We also describe different use cases with which we experiment and develop prototypical solutions.
翻訳日:2022-12-18 23:29:24 公開日:2020-03-28
# セミフェデレート学習

Semi-Federated Learning ( http://arxiv.org/abs/2003.12795v1 )

ライセンス: Link先を確認
Zhikun Chen, Daofeng Li, Ming Zhao, Sihai Zhang, Jinkang Zhu(参考訳) フェデレートラーニング(FL)は、大規模な分散情報通信技術(ICT)デバイスが、参加者が自身のデータを中央サーバに公開することなく、グローバルコンセンサスモデルを学習できるようにする。 しかし、FLにおける実用性、通信費、非独立で同一の分散(Non-IID)データ課題は依然として考慮する必要がある。 本研究では,ローカルクライアントクラスタリングとクラスタ内トレーニングという2つの面でFLとは異なるセミフェデレートラーニング(セミFL)を提案する。 本稿では,隣のクライアントが学習モデルを共有できるように,クラスタ内トレーニングのための逐次トレーニング手法を提案する。 提案するsemi-flは、将来の移動通信ネットワークに容易に適用でき、アップリンク伝送帯域幅を少なくできる。 数値実験により,提案したセミFLの非IIDデータの有効性,学習性能,ロバスト性を検証した。 Semi-FL は FL の既存のポテンシャルを拡張する。

Federated learning (FL) enables massive distributed Information and Communication Technology (ICT) devices to learn a global consensus model without any participants revealing their own data to the central server. However, the practicality, communication expense and non-independent and identical distribution (Non-IID) data challenges in FL still need to be concerned. In this work, we propose the Semi-Federated Learning (Semi-FL) which differs from the FL in two aspects, local clients clustering and in-cluster training. A sequential training manner is designed for our in-cluster training in this paper which enables the neighboring clients to share their learning models. The proposed Semi-FL can be easily applied to future mobile communication networks and require less up-link transmission bandwidth. Numerical experiments validate the feasibility, learning performance and the robustness to Non-IID data of the proposed Semi-FL. The Semi-FL extends the existing potentials of FL.
翻訳日:2022-12-18 23:28:51 公開日:2020-03-28
# 連合残留学習

Federated Residual Learning ( http://arxiv.org/abs/2003.12880v1 )

ライセンス: Link先を確認
Alekh Agarwal, John Langford, Chen-Yu Wei(参考訳) 我々は、クライアントがパーソナライズしたローカルモデルをトレーニングし、サーバサイド共有モデルと共同で予測を行う、新しい形式のフェデレーション学習について研究する。 この新しい連合学習フレームワークを使用することで、中央の共有モデルの複雑さを最小化し、共同トレーニングが提供するすべてのパフォーマンス上のメリットを享受することができる。 我々のフレームワークはデータの不均一性に対して堅牢であり、クライアント間でデータが非i.d.d.の場合、従来のフェデレーション学習手法が直面する緩やかな収束問題に対処する。 この理論を実証的に検証し、ベースラインよりもかなりの性能向上を見出した。

We study a new form of federated learning where the clients train personalized local models and make predictions jointly with the server-side shared model. Using this new federated learning framework, the complexity of the central shared model can be minimized while still gaining all the performance benefits that joint training provides. Our framework is robust to data heterogeneity, addressing the slow convergence problem traditional federated learning methods face when the data is non-i.i.d. across clients. We test the theory empirically and find substantial performance gains over baselines.
翻訳日:2022-12-18 23:27:49 公開日:2020-03-28
# モバイル健康における線形混合モデルの流線型経験ベイズフィッティング

Streamlined Empirical Bayes Fitting of Linear Mixed Models in Mobile Health ( http://arxiv.org/abs/2003.12881v1 )

ライセンス: Link先を確認
Marianne Menictas, Sabina Tomkins, Susan A Murphy(参考訳) 振る舞いを変えるために、成功したアルゴリズムは、リアルタイムで高品質な決定をしなければならない。 例えば、身体活動を増加させるために設計されたモバイルヘルス(mHealth)アプリケーションは、ユーザーを動機づけるためにコンテキスト的に関連性のある提案をしなければならない。 機械学習は、バッチデータをオフラインで処理できるような、特定のスタイリッシュな設定のためのソリューションを提供するが、mhealthの特定の制約の下で高品質なソリューションを提供するためのアプローチは多数存在する。 本稿では,ユーザに対して,身体活動の文脈的およびパーソナライズされた提案を行うアルゴリズムを提案する。 このアルゴリズムは、複雑なモデルを効率的に訓練するmHealthにとって重要な課題を克服することができる。 大規模データ設定において線形混合効果モデルに適合するトラクタブル・合理化経験ベイズ法を提案する。 本手法は,線形混合効果モデルの後方分布を効率よく学習するために,階層的ランダム効果によって生じる空間性を利用する。 この研究の重要な貢献は、固定効果、ランダム効果、ハイパーパラメータ値の両方を学ぶために明示的な更新を提供することです。 このアプローチは,モバイルヘルス(mhealth)強化学習アプリケーションにおいて,リアルタイム介入に高速計算が不可欠である領域において,その成功を実証する。 私たちのアプローチは計算効率が優れるだけでなく、クローズドフォーム行列代数的な更新でも容易に実装でき、速度と精度がそれぞれ99%と56%という、最先端のアプローチよりも改善しています。

To effect behavior change a successful algorithm must make high-quality decisions in real-time. For example, a mobile health (mHealth) application designed to increase physical activity must make contextually relevant suggestions to motivate users. While machine learning offers solutions for certain stylized settings, such as when batch data can be processed offline, there is a dearth of approaches which can deliver high-quality solutions under the specific constraints of mHealth. We propose an algorithm which provides users with contextualized and personalized physical activity suggestions. This algorithm is able to overcome a challenge critical to mHealth that complex models be trained efficiently. We propose a tractable streamlined empirical Bayes procedure which fits linear mixed effects models in large-data settings. Our procedure takes advantage of sparsity introduced by hierarchical random effects to efficiently learn the posterior distribution of a linear mixed effects model. A key contribution of this work is that we provide explicit updates in order to learn both fixed effects, random effects and hyper-parameter values. We demonstrate the success of this approach in a mobile health (mHealth) reinforcement learning application, a domain in which fast computations are crucial for real time interventions. Not only is our approach computationally efficient, it is also easily implemented with closed form matrix algebraic updates and we show improvements over state of the art approaches both in speed and accuracy of up to 99% and 56% respectively.
翻訳日:2022-12-18 23:27:39 公開日:2020-03-28
# ニューラルネットワーク上の勾配による過パラメトリザイオンのないガウスの記憶

Memorizing Gaussians with no over-parameterizaion via gradient decent on neural networks ( http://arxiv.org/abs/2003.12895v1 )

ライセンス: Link先を確認
Amit Daniely(参考訳) 直交初期化から始まる$q$隠れニューロンを持つ勾配の1ステップは、$\Omega\left(\frac{dq}{\log^4(d)}\right)$独立かつランダムにラベル付けされたガウスを$\mathbb{R}^d$で記憶することができることを証明している。 その結果は、絶対値を含む大きな活性化関数のクラスに対して有効である。

We prove that a single step of gradient decent over depth two network, with $q$ hidden neurons, starting from orthogonal initialization, can memorize $\Omega\left(\frac{dq}{\log^4(d)}\right)$ independent and randomly labeled Gaussians in $\mathbb{R}^d$. The result is valid for a large class of activation functions, which includes the absolute value.
翻訳日:2022-12-18 23:27:15 公開日:2020-03-28
# ソーシャルメディアでコロナウイルス(COVID-19)の投稿をマイニング

Mining Coronavirus (COVID-19) Posts in Social Media ( http://arxiv.org/abs/2004.06778v1 )

ライセンス: Link先を確認
Negin Karisani, Payam Karisani(参考訳) 世界保健機関(WHO)は、新型コロナウイルスを2020年3月11日の世界的パンデミックと位置づけた。 この前と1月下旬、特に1月27日、中国と数隻のクルーズ船で感染者の大半が報告されたが、Twitterの検索APIを使ってソーシャルメディアのユーザー投稿をクロールし始めた。 私たちの目標は、機械学習と言語ツールを活用して、中国におけるアウトブレイクの影響をよりよく理解することでした。 新型コロナウイルス(COVID-19)が世界中で急速に広まっている。 本稿では,最先端機械学習モデルを用いたソーシャルメディア利用者投稿から,新型コロナウイルスの陽性報告を自動的に検出する研究の予備的結果を報告する。

World Health Organization (WHO) characterized the novel coronavirus (COVID-19) as a global pandemic on March 11th, 2020. Before this and in late January, more specifically on January 27th, while the majority of the infection cases were still reported in China and a few cruise ships, we began crawling social media user postings using the Twitter search API. Our goal was to leverage machine learning and linguistic tools to better understand the impact of the outbreak in China. Unlike our initial expectation to monitor a local outbreak, COVID-19 rapidly spread across the globe. In this short article we report the preliminary results of our study on automatically detecting the positive reports of COVID-19 from social media user postings using state-of-the-art machine learning models.
翻訳日:2022-12-18 23:20:56 公開日:2020-03-28
# マルチモーダル変分エンコーダ・デコーダによるマイクロビデオの普及予測

Predicting the Popularity of Micro-videos with Multimodal Variational Encoder-Decoder Framework ( http://arxiv.org/abs/2003.12724v1 )

ライセンス: Link先を確認
Yaochen Zhu, Jiayi Xie, Zhenzhong Chen(参考訳) 新しいタイプのユーザー生成コンテンツとして、マイクロビデオは人々のエンターテイメント体験と社会的相互作用を劇的に豊かにする。 しかし、個々のマイクロビデオの人気パターンは研究者の間でいまだに解明されていない。 主な課題の1つは、マイクロビデオの人気が様々な外部要因の影響で変動する傾向にあり、不確実性に満ちていることである。 加えて、マイクロビデオは主に専門技術に欠ける個人によってアップロードされるため、不明瞭な有用な情報を含む複数の種類のノイズが存在する可能性がある。 本稿では,マイクロビデオの人気予測タスクのためのマルチモーダル変分エンコーダデコーダ(MMVED)フレームワークを提案する。 MMVEDは、その人気レベルに情報を与えるマイクロビデオの確率的なガウス埋め込みを学習し、同時に固有の不確実性を保存する。 さらに,iblbo(deep variational information bottleneck lower-bound)の最適化により,学習した隠れ表現は,マイクロビデオ特徴のノイズに対して最大圧縮しながら,人気ターゲットに対して最大表現性を示すことが示された。 さらに、ベイズ積・オブ・エキスパートズ原理をマルチモーダルエンコーダに適用し、情報保持または破棄の決定を全ての利用可能なモダリティで包括的に行う。 公開データセットと,Xiguaから収集したデータセットによる大規模な実験により,提案したMMVEDフレームワークの有効性が実証された。

As an emerging type of user-generated content, micro-video drastically enriches people's entertainment experiences and social interactions. However, the popularity pattern of an individual micro-video still remains elusive among the researchers. One of the major challenges is that the potential popularity of a micro-video tends to fluctuate under the impact of various external factors, which makes it full of uncertainties. In addition, since micro-videos are mainly uploaded by individuals that lack professional techniques, multiple types of noise could exist that obscure useful information. In this paper, we propose a multimodal variational encoder-decoder (MMVED) framework for micro-video popularity prediction tasks. MMVED learns a stochastic Gaussian embedding of a micro-video that is informative to its popularity level while preserves the inherent uncertainties simultaneously. Moreover, through the optimization of a deep variational information bottleneck lower-bound (IBLBO), the learned hidden representation is shown to be maximally expressive about the popularity target while maximally compressive to the noise in micro-video features. Furthermore, the Bayesian product-of-experts principle is applied to the multimodal encoder, where the decision for information keeping or discarding is made comprehensively with all available modalities. Extensive experiments conducted on a public dataset and a dataset we collect from Xigua demonstrate the effectiveness of the proposed MMVED framework.
翻訳日:2022-12-18 23:19:58 公開日:2020-03-28
# 現代・歴史的手書き文字列認識のためのエンドツーエンドアプローチ

An End-to-End Approach for Recognition of Modern and Historical Handwritten Numeral Strings ( http://arxiv.org/abs/2004.03337v1 )

ライセンス: Link先を確認
Andre G. Hochuli, Alceu S. Britto Jr., Jean P. Barddal, Luiz E. S. Oliveira, Robert Sabourin(参考訳) ヨーロベースモデルによって自動的に検出され認識される物体からなる数字と見なされる手書きの数字認識のためのエンドツーエンドソリューションを提案する。 本論文の主な貢献は,文字列前処理とセグメンテーションのヒューリスティックな手法,タスク指向の分類器の必要性,および文字列長に関する特定の制約の使用を避けることである。 歴史的文書を含む数個の数値文字列データセットに基づく頑健な実験プロトコルでは,提案手法が数値文字列認識の終端解として実現可能であることを示した。 さらに、特別な前処理、セグメンテーション、特定の長さの文字列専用の分類器のセットなど、古典的なステップを省略するため、文字列認識タスクの複雑さを大幅に減らす。

An end-to-end solution for handwritten numeral string recognition is proposed, in which the numeral string is considered as composed of objects automatically detected and recognized by a YoLo-based model. The main contribution of this paper is to avoid heuristic-based methods for string preprocessing and segmentation, the need for task-oriented classifiers, and also the use of specific constraints related to the string length. A robust experimental protocol based on several numeral string datasets, including one composed of historical documents, has shown that the proposed method is a feasible end-to-end solution for numeral string recognition. Besides, it reduces the complexity of the string recognition task considerably since it drops out classical steps, in special preprocessing, segmentation, and a set of classifiers devoted to strings with a specific length.
翻訳日:2022-12-18 23:19:20 公開日:2020-03-28
# 漢字の文体と内容のアンタングル表現による多形フォント対フォント翻訳

Multiform Fonts-to-Fonts Translation via Style and Content Disentangled Representations of Chinese Character ( http://arxiv.org/abs/2004.03338v1 )

ライセンス: Link先を確認
Fenxi Xiao, Jie Zhang, Bo Huang, Xia Wu(参考訳) 本稿では主にイメージスタイル転送の問題としてパーソナライズされたフォントの生成について論じる。 本研究の目的は,キャラクタの内容やスタイルを抽出・再結合可能なネットワークフレームワークを設計することである。 これらの試みは、少数の文字だけでフォント全体の合成に使用できる。 本稿では,畳み込みニューラルネットワーク,多層パーセプトロン,残留ネットワークなどの様々な深度ネットワークを組み合わせて,フォントの特徴を抽出する最適なモデルを求める。 その結果,構造的類似度指標とピーク信号対雑音比評価基準を用いて,生成した文字は実文字に非常に近いことがわかった。

This paper mainly discusses the generation of personalized fonts as the problem of image style transfer. The main purpose of this paper is to design a network framework that can extract and recombine the content and style of the characters. These attempts can be used to synthesize the entire set of fonts with only a small amount of characters. The paper combines various depth networks such as Convolutional Neural Network, Multi-layer Perceptron and Residual Network to find the optimal model to extract the features of the fonts character. The result shows that those characters we have generated is very close to real characters, using Structural Similarity index and Peak Signal-to-Noise Ratio evaluation criterions.
翻訳日:2022-12-18 23:19:06 公開日:2020-03-28