このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200202となっている論文です。

PDF登録状況(公開日: 20200202)

TitleAuthorsAbstract論文公表日・翻訳日
# 微小空洞の異常点を用いた重力波検出

Gravitational waves detection with exceptional points in micro cavities ( http://arxiv.org/abs/2001.09462v2 )

ライセンス: Link先を確認
Jian Liu, Lei Chen, Fei He, and Ka-Di Zhu(参考訳) 本稿では,マイクロキャビティ内の例外点(eps)で動作する広帯域重力波(gws)検出器を提案する。 検出信号は、空間ひずみに起因する機械的モードの固有周波数分割である。 EP近傍の複雑な正方形根のトポロジーのため、分裂は十分に小さな摂動のために大幅に強化される。 現在の戦略と比較して、室温で達成でき、マイクロデバイススケール、広帯域帯域、高感度の利点がある。

Here we propose a new gravitational waves(GWs) detector in broad frequency band, which is operated at exceptional points(EPs) in micro cavities. The detected signal is an eigenfrequency split of the mechanical modes caused by the spatial strain. Due to the complex square root topology near the EP, the splitting is greatly enhanced for sufficiently small perturbations. Compared to current strategies, it can be achieved at the room temperature and has advantages in micro device scale, wide frequency band and higher sensitivity.
翻訳日:2023-06-05 21:44:33 公開日:2020-02-02
# 弱結合数モードファイバ上の古典的光通信と共存する量子鍵分布の長距離伝送

Long-distance transmission of quantum key distribution coexisting with classical optical communication over weakly-coupled few-mode fiber ( http://arxiv.org/abs/2002.00420v1 )

ライセンス: Link先を確認
Bi-Xiao Wang, Yingqiu Mao, Lei Shen, Lei Zhang, Xiao-Bo Lan, Dawei Ge, Yuyang Gao, Juhao Li, Yan-Lin Tang, Shi-Biao Tang, Jun Zhang, Teng-Yun Chen and Jian-Wei Pan(参考訳) 量子鍵分散(QKD)は、リモートパーティ間で情報理論的に安全なキーを生成する量子情報処理において、最も実用的な応用の1つである。 波長分割多重化技術により、QKDは古典的な光通信ネットワークに統合されている。 モード分割多重化は、モード分離を付加し、モードの有効コア面積が大きく、特にマルチコアファイバと比較して製造・スプライシング技術において実用的なモード波長デュアル多重化技術(fmf)によってさらに改善することができる。 ここでは、ファイバモード選択カプラを用いたFMF上での古典光学通信と共存するQKD実装を初めて提示する。 QKDと100Gbpsの古典的データチャネルを2.60dBmで共用し、86km FMFで1.3kbpsのセキュアな鍵生成を実現する。 単一モードファイバと比較して、FMFの平均ラマンノイズは同じファイバインプットパワーで86%低減される。 我々の研究は、QKDと古典光学通信の統合に対する重要なアプローチを実装し、次世代モード分割多重化ネットワークとの量子通信の互換性をプレビューする。

Quantum key distribution (QKD) is one of the most practical applications in quantum information processing, which can generate information-theoretical secure keys between remote parties. With the help of the wavelength-division multiplexing technique, QKD has been integrated with the classical optical communication networks. The wavelength-division multiplexing can be further improved by the mode-wavelength dual multiplexing technique with few-mode fiber (FMF), which has additional modal isolation and large effective core area of mode, and particularly is practical in fabrication and splicing technology compared with the multi-core fiber. Here, we present for the first time a QKD implementation coexisting with classical optical communication over weakly-coupled FMF using all-fiber mode-selective couplers. The co-propagation of QKD with one 100 Gbps classical data channel at -2.60 dBm launched power is achieved over 86 km FMF with 1.3 kbps real-time secure key generation. Compared with single-mode fiber, the average Raman noise in FMF is reduced by 86% at the same fiber-input power. Our work implements an important approach to the integration between QKD and classical optical communication and previews the compatibility of quantum communications with the next-generation mode division multiplexing networks
翻訳日:2023-06-05 00:29:24 公開日:2020-02-02
# 量子ドットセルオートマトンにおける最適多重回路設計

Optimum multiplexer design in quantum-dot cellular automata ( http://arxiv.org/abs/2002.00360v1 )

ライセンス: Link先を確認
Esam Alkaldy, Ali H. Majeed, Mohd Shamian Zainal, Danial Md. Nor(参考訳) 量子ドットセルオートマトン(qca)は、将来の最も重要なコンピューティング技術の1つであり、現在のcmos技術の代替候補となる。 QCAは、高速、小型、低消費電力といった多くの特徴のために、多くの研究者を惹きつけている。 QCAには、ブール関数の設計に使用される2つの主要なビルディングブロック(マイジョリティゲートとインバータ)がある。 QCAはまた、XORやMultigerのような多くの重要なゲートをブール関数に従わずに最適な形で設計する固有の機能を持っている。 本稿では,2種類のQCA-Multiplexerの設計について述べる。 提案した設計は非常に単純で効率的であり、多くの論理関数を生成できる。 提案した設計出力は、量子技術の本質的な能力に由来する。 新たに4:1 QCA-Multiplexerが提案された構造を用いて構築されている。 出力波形は, セル数, 面積, レイテンシの観点から, 提案する設計の素晴らしい性能を示した。

Quantum-dot Cellular Automata (QCA) is one of the most important computing technologies for the future and will be the alternative candidate for current CMOS technology. QCA is attracting a lot of researchers due to many features such as high speed, small size, and low power consumption. QCA has two main building blocks (majority gate and inverter) used for design any Boolean function. QCA also has an inherent capability that used to design many important gates such as XOR and Multiplexer in optimal form without following any Boolean function. This paper presents a novel design 2:1 QCA-Multiplexer in two forms. The proposed design is very simple, highly efficient and can be used to produce many logical functions. The proposed design output comes from the inherent capabilities of quantum technology. New 4:1 QCA-Multiplexer has been built using the proposed structure. The output waveforms showed the wonderful performance of the proposed design in terms of the number of cells, area, and latency.
翻訳日:2023-06-05 00:28:02 公開日:2020-02-02
# 3段階非線形干渉計を用いたハイヘラルディング効率純状態単一光子の生成

Generation of pure-state single photons with high heralding efficiency by using a three-stage nonlinear interferometer ( http://arxiv.org/abs/2002.00314v1 )

ライセンス: Link先を確認
Jiamin Li, Jie Su, Liang Cui, Tianqi Xie, Z.Y. Ou, and Xiaoying Li(参考訳) ファイバベース3段非線形干渉計を実験的に検討し, スペクトル工学による高効率・純度な単光子生成への応用を実証した。 輝度0.039光子/パルスで90%のヘラルド効率が得られる。 光源の純度は、2光子のホン・ウー・マンデル干渉により95%以上-6%の可視性(ラマン散乱とマルチペアの事象を補正した後)で確認される。 本研究では, 3段階非線形干渉計で生成する単一光子のヘラルド源は, 高純度, 高ヘラルド効率, 高輝度, 波長・帯域選択の柔軟性を有することを示す。

We experimentally study a fiber-based three-stage nonlinear interferometer and demonstrate its application in generating heralded single photons with high efficiency and purity by spectral engineering. We obtain a heralding efficiency of 90% at a brightness of 0.039 photons/pulse. The purity of the source is checked by two-photon Hong-Ou-Mandel interference with a visibility of 95%+-6% (after correcting Raman scattering and multi-pair events). Our investigation indicates that the heralded source of single photons produced by the three-stage nonlinear interferometer has the advantages of high purity, high heralding efficiency, high brightness, and flexibility in wavelength and bandwidth selection.
翻訳日:2023-06-05 00:27:42 公開日:2020-02-02
# 量子ラビモデルの平均場理論, 回転波近似の不整合

Mean Field Theory for the Quantum Rabi Model, Inconsistency to the Rotating Wave Approximation ( http://arxiv.org/abs/2002.01324v1 )

ライセンス: Link先を確認
Ghasem Asadi Cordshooli, Mehdi Mirzaee(参考訳) 局所的な原子をよく考慮し、平均場理論(MFT)を用いて演算子を等価な期待値で置き換えた。 ラビ模型は原子の位置を記述する4階のNDEに縮小された。 調和バランス法 (HBM) による解法では, 数値結果の精度と整合性が向上し, 量子力学研究において有用なツールとして紹介される。

Considering well localized atom, the mean field theory (MFT) was applied to replace the operators by equivalent expectation values. The Rabi model was reduced to a fourth orders NDE describing atoms position. Solution by the harmonic balance method (HBM) showed good accuracy and consistency to the numerical results, which introduces it as a useful tool in the quantum dynamics studies.
翻訳日:2023-06-05 00:18:52 公開日:2020-02-02
# 完全Blind Delegating Private Quantum Computation

Full-Blind Delegating Private Quantum Computation ( http://arxiv.org/abs/2002.00464v1 )

ライセンス: Link先を確認
Wen-Jie Liu, Zhen-Yu Chen, Jin-Suo Liu, Zhao-Feng Su, and Lian-Hua Chi(参考訳) delegating private quantum computation (dqc) protocol with universal quantum gate set $\left\{ {x,z,h,p,r,cnot} \right\}$ は、broadbent \emph{et alによって最初に提案された。 そして、tan \emph{et al.}である。 半盲の DQC プロトコル (HDQC) を、別の普遍集合 $\left\{ {H,P,CNOT,T} \right\}$ で転送しようとした。 しかし、 \emph{Toffoli} ゲート(すなわち \emph{T} )の復号回路は少し冗長であり、Tan \emph{et al} のプロトコルは情報漏洩が存在する。 さらに、これらの2つのプロトコルはデータの盲点(すなわち、クライアントの入力と出力)のみに焦点を当てるが、計算の盲点(すなわち、デリゲートされた量子演算)を考慮しない。 これらの問題を解決するために, 量子ゲートセット $\left\{ {h,p,cnot,t} \right\}$ を持つ完全盲点dqcプロトコル (fdqc) を提案する。ここでは, $\left\{ {h,p,cnot,t} \right\}$ のうちの1つを固定シーケンス$\left \{ {h,p,t,cz,cnot} \right\}$ に置き換えて計算を盲目的とし, \emph{toffoli} ゲートの復号回路を最適化する。 解析により,提案プロトコルは代入量子計算を正しく行うだけでなく,データの盲点や計算盲点の特性も保持できることがわかった。

The delegating private quantum computation (DQC) protocol with the universal quantum gate set $\left\{ {X,Z,H,P,R,CNOT} \right\}$ was firstly proposed by Broadbent \emph{et al.}, and then Tan \emph{et al.} tried to put forward an half-blind DQC protocol (HDQC) with another universal set $\left\{ {H,P,CNOT,T} \right\}$. However, the decryption circuit of \emph{Toffoli} gate (i.e., \emph{T}) is a little redundant, and Tan \emph{et al}.'s protocol exists the information leak. In addition, both of these two protocols just focus on the blindness of data (i.e., the client's input and output), but do not consider the blindness of computation (i.e., the delegated quantum operation). For solving these problems, we propose a full-blind DQC protocol (FDQC) with quantum gate set $\left\{ {H,P,CNOT,T} \right\}$ , where the desirable delegated quantum operation, one of $\left\{ {H,P,CNOT,T} \right\}$ , is replaced by a fixed sequence $\left \{ {H,P,T,CZ,CNOT} \right\}$ to make the computation blind, and the decryption circuit of \emph{Toffoli} gate is also optimized. Analysis shows that our protocol can not only correctly perform any delegated quantum computation, but also holds the characteristics of data blindness and computation blindness.
翻訳日:2023-06-05 00:17:28 公開日:2020-02-02
# 実ビームスプリッタにおけるHong-Ou-Mandel干渉

Hong-Ou-Mandel interference on a real beam splitter ( http://arxiv.org/abs/2002.00443v1 )

ライセンス: Link先を確認
Dmitry N. Makarov(参考訳) ホン・ウー・マンデル効果(HOM)は量子光学の主要な現象の一つである。 この効果は、2つの同一の単一光子波が入力ポートごとに1:1ビームスプリッターに入るときに起こる。 光子が同一であれば、互いに消滅する。 hom干渉計の主な要素の1つはビームスプリッタであり、反射率 r = 1/2$ と伝達率 $ t = 1/2 $ を持つ。 In this work, the general mechanism of the interaction of two photons in a beam splitter is considered using an analytical solution, which shows that in the HOM theory of the effect it is necessary to know (including when planning the experiment) not only $ R = 1/2 $ and $ T = 1/2 $, but also their root-mean-square fluctuations $ \Delta R ^ 2, \Delta T ^ 2 $, which arise due to the dependence of $R = R(\omega_1, \omega_2) $ and $ T = T (\omega_1, \omega_2) $ on the frequencies where $\omega_1, \omega_2$ are the frequencies of the first and second photons, respectively. ある条件下では、特に、揺らぎの依存が$ \Delta R^2 $ と $ \Delta T^2 $ を無視でき、そして$ R=T=1/2 $ を選択すると、発展理論は以前に知られていた結果と一致する。

Hong-Ou-Mandel (HOM) effect is known to be one of the main phenomena in quantum optics. The effect occurs when two identical single-photon waves enter a 1:1 beam splitter, one in each input port. When the photons are identical, they will extinguish each other. One of the main elements of the HOM interferometer is the beam splitter, which has its own coefficients of reflection $R = 1/2$ and transmission $ T = 1/2 $. In this work, the general mechanism of the interaction of two photons in a beam splitter is considered using an analytical solution, which shows that in the HOM theory of the effect it is necessary to know (including when planning the experiment) not only $ R = 1/2 $ and $ T = 1/2 $, but also their root-mean-square fluctuations $ \Delta R ^ 2, \Delta T ^ 2 $, which arise due to the dependence of $R = R(\omega_1, \omega_2) $ and $ T = T (\omega_1, \omega_2) $ on the frequencies where $\omega_1, \omega_2$ are the frequencies of the first and second photons, respectively. Under certain conditions, specifically when the dependence of the fluctuations $ \Delta R^2 $ and $ \Delta T^2 $ can be neglected and $ R=T=1/2 $ is chosen, the developed theory coincides with previously known results.
翻訳日:2023-06-05 00:16:42 公開日:2020-02-02
# 音声から音声への翻訳から自動ダビングへ

From Speech-to-Speech Translation to Automatic Dubbing ( http://arxiv.org/abs/2001.06785v3 )

ライセンス: Link先を確認
Marcello Federico, Robert Enyedi, Roberto Barra-Chicote, Ritwik Giri, Umut Isik, Arvindh Krishnaswamy and Hassan Sawaf(参考訳) 自動ダビングを行うために,音声から音声への翻訳パイプラインの拡張を提案する。 本アーキテクチャは、好みの長さの出力を生成するニューラルマシン翻訳、原音声セグメントとの翻訳の韻律的アライメント、各発話の持続時間を微調整したニューラルテキストから音声への変換、そして最後に、原音声から抽出された背景雑音と残響によってテキストから音声への出力を豊かにするオーディオレンダリングを特徴とする。 本報告では, TEDトークからイタリア語への抜粋の自動ダビングの主観評価を行い, 自動ダビングの自然な認識と, 提案した拡張の相対的重要性を計測した。

We present enhancements to a speech-to-speech translation pipeline in order to perform automatic dubbing. Our architecture features neural machine translation generating output of preferred length, prosodic alignment of the translation with the original speech segments, neural text-to-speech with fine tuning of the duration of each utterance, and, finally, audio rendering to enriches text-to-speech output with background noise and reverberation extracted from the original audio. We report on a subjective evaluation of automatic dubbing of excerpts of TED Talks from English into Italian, which measures the perceived naturalness of automatic dubbing and the relative importance of each proposed enhancement.
翻訳日:2023-01-08 12:46:46 公開日:2020-02-02
# 数十億ドル規模のKnapsack問題の解決

Solving Billion-Scale Knapsack Problems ( http://arxiv.org/abs/2002.00352v1 )

ライセンス: Link先を確認
Xingwen Zhang, Feng Qi, Zhigang Hua, Shuang Yang(参考訳) クナプサック問題(KPs)は業界では一般的な問題であるが、KPsの解法はNPハードであることが知られ、比較的小さなスケールでのみ抽出可能である。 本稿では,KPを少し一般化した形で検討し,分散アルゴリズムを用いて大規模にほぼ最適に解けることを示す。 提案されたアプローチは、既製の分散コンピューティングフレームワーク(MPI、Hadoop、Sparkなど)でかなり簡単に実装できる。 例えば、我々の実装は、かつてない規模でKPを解くことができる(例えば、10億個の決定変数と10億個の制約を持つKPは、1時間以内に解決できる)、現在知られている最も効率的なKP解法の一つである。 システムはプロダクションにデプロイされ、日々コールされ、ant financialで大きなビジネスへの影響をもたらしている。

Knapsack problems (KPs) are common in industry, but solving KPs is known to be NP-hard and has been tractable only at a relatively small scale. This paper examines KPs in a slightly generalized form and shows that they can be solved nearly optimally at scale via distributed algorithms. The proposed approach can be implemented fairly easily with off-the-shelf distributed computing frameworks (e.g. MPI, Hadoop, Spark). As an example, our implementation leads to one of the most efficient KP solvers known to date -- capable to solve KPs at an unprecedented scale (e.g., KPs with 1 billion decision variables and 1 billion constraints can be solved within 1 hour). The system has been deployed to production and called on a daily basis, yielding significant business impacts at Ant Financial.
翻訳日:2023-01-04 20:22:34 公開日:2020-02-02
# コンテキスト帯域最適化のための安全な探索

Safe Exploration for Optimizing Contextual Bandits ( http://arxiv.org/abs/2002.00467v1 )

ライセンス: Link先を確認
Rolf Jagerman and Ilya Markov and Maarten de Rijke(参考訳) 文脈的バンディット問題は、ランク付けの学習、テキスト分類、レコメンデーションなど、多くの情報検索タスクに自然に適合する。 しかし、既存の学習手法では、可能なすべてのドキュメントランキング(例えばアクション)の空間を探索しないか、最適なランキングを逃すか、ユーザに対して最適以下のランキングを提示するか、ユーザエクスペリエンスを損なう可能性があるという2つの欠点の1つである。 本稿では,上記の欠点を克服した,コンテキストバンディット問題の新たな学習法であるsafe exploration algorithm(sea)を提案する。 seaはまず、ベースライン(あるいは製品)ランキングシステム(すなわちポリシ)を使用することから始まり、ユーザエクスペリエンスを損なうことなく、実行が安全だが、最適ではないパフォーマンスを持つため、改善が必要となる。 次にseaは、反事実学習を使用して、ベースラインポリシーの振る舞いに基づいた新しいポリシーを学ぶ。 SEAはまた、新たに学習した政策のパフォーマンスを見積もるために、高信頼の非政治評価を使用する。 新しく学んだポリシーのパフォーマンスが少なくともベースラインポリシーのパフォーマンスに匹敵するものになると、seaは新しいアクションを実行するために新しいポリシーを使い始め、アクションスペースの望ましい領域を積極的に探索することができる。 このように、SEAはベースラインポリシーよりもパフォーマンスが悪くないため、ユーザエクスペリエンスを損なうことなく、アクションスペースを探索し、したがって最適なポリシーを見つけることができます。 テキスト分類と文書検索を用いた実験では,sea (およびbseaと呼ばれる境界のない派生型) と,コンテキストバンディット問題に対するオンラインおよびオフライン学習手法を比較した。

Contextual bandit problems are a natural fit for many information retrieval tasks, such as learning to rank, text classification, recommendation, etc. However, existing learning methods for contextual bandit problems have one of two drawbacks: they either do not explore the space of all possible document rankings (i.e., actions) and, thus, may miss the optimal ranking, or they present suboptimal rankings to a user and, thus, may harm the user experience. We introduce a new learning method for contextual bandit problems, Safe Exploration Algorithm (SEA), which overcomes the above drawbacks. SEA starts by using a baseline (or production) ranking system (i.e., policy), which does not harm the user experience and, thus, is safe to execute, but has suboptimal performance and, thus, needs to be improved. Then SEA uses counterfactual learning to learn a new policy based on the behavior of the baseline policy. SEA also uses high-confidence off-policy evaluation to estimate the performance of the newly learned policy. Once the performance of the newly learned policy is at least as good as the performance of the baseline policy, SEA starts using the new policy to execute new actions, allowing it to actively explore favorable regions of the action space. This way, SEA never performs worse than the baseline policy and, thus, does not harm the user experience, while still exploring the action space and, thus, being able to find an optimal policy. Our experiments using text classification and document retrieval confirm the above by comparing SEA (and a boundless variant called BSEA) to online and offline learning methods for contextual bandit problems.
翻訳日:2023-01-04 20:22:18 公開日:2020-02-02
# 時間畳み込みリカレントニューラルネットワークを用いた単一チャネル音声強調

Single Channel Speech Enhancement Using Temporal Convolutional Recurrent Neural Networks ( http://arxiv.org/abs/2002.00319v1 )

ライセンス: Link先を確認
Jingdong Li, Hui Zhang, Xueliang Zhang, and Changliang Li(参考訳) 近年,ニューラルネットワークに基づく手法により,音声強調性能が大幅に向上している。 それらの多くは、直接または間接的に対象音声の時間周波数(T-F)表現を推定した後、推定したT-F表現を用いて波形を再合成する。 本研究では,ノイズ波形をクリーン波形に直接マッピングするエンドツーエンドモデルである時間畳み込みリカレントネットワーク(tcrn)を提案する。 TCRNは畳み込みとリカレントニューラルネットワークを組み合わせたもので、短時間のアングル情報を効率的に効果的に活用することができる。 今後,前処理中に繰り返しサンプルをダウンサンプル・アップサンプル・スピーチを行うアーキテクチャを提案する。 既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。 今後,トレーニングプロセスの安定化のための重要な技術をいくつか提示する。 実験結果から,本モデルが既存の音声強調手法よりも音声の明瞭度や品質に優れていることが示唆された。

In recent decades, neural network based methods have significantly improved the performace of speech enhancement. Most of them estimate time-frequency (T-F) representation of target speech directly or indirectly, then resynthesize waveform using the estimated T-F representation. In this work, we proposed the temporal convolutional recurrent network (TCRN), an end-to-end model that directly map noisy waveform to clean waveform. The TCRN, which is combined convolution and recurrent neural network, is able to efficiently and effectively leverage short-term ang long-term information. Futuremore, we present the architecture that repeatedly downsample and upsample speech during forward propagation. We show that our model is able to improve the performance of model, compared with existing convolutional recurrent networks. Futuremore, We present several key techniques to stabilize the training process. The experimental results show that our model consistently outperforms existing speech enhancement approaches, in terms of speech intelligibility and quality.
翻訳日:2023-01-04 20:21:35 公開日:2020-02-02
# DropClassとDropAdapt: 深層話者表現学習のためのドロップクラス

DropClass and DropAdapt: Dropping classes for deep speaker representation learning ( http://arxiv.org/abs/2002.00453v1 )

ライセンス: Link先を確認
Chau Luu, Peter Bell, Steve Renals(参考訳) 深い話者埋め込みに関する最近の多くの研究は、大きな分類タスクで特徴抽出ネットワークを訓練し、トレーニングセット内のすべての話者を区別している。 経験上、これは見当たらない話者に対しても、話者差別的埋め込みを生み出すことが示されている。 しかし、これが一般化した埋め込みを訓練する最適な方法であるかどうかは不明である。 本研究は,学習中にクラスをドロップするという概念に基づく,組込み学習への2つのアプローチを提案する。 両手法が話者検証タスクにおいて性能向上をもたらすことを示す。 最初の提案手法であるDropClassは、トレーニングデータと出力層からランダムなクラスのサブセットを定期的にドロップすることで、多くの異なる分類タスクで訓練された特徴抽出器を実現する。 付加的な角マージン損失と組み合わせることで、voxcelebの強いベースラインに対して、同じ誤差率(eer)で7.9%の相対的に改善することができる。 2つ目の提案手法であるDropAdaptは、教師なしの方法で教師なし話者群に訓練されたモデルを適用する手段である。 これは、エンローメントスピーカを入力として使用する場合に高い確率予測を生成するクラスのみをモデルに微調整し、関連する行を出力層から降ろすことによって行われる。 この方法は、VoxCeleb上のEERの13.2%の相対的な改善をもたらす。 この論文のコードは公開されています。

Many recent works on deep speaker embeddings train their feature extraction networks on large classification tasks, distinguishing between all speakers in a training set. Empirically, this has been shown to produce speaker-discriminative embeddings, even for unseen speakers. However, it is not clear that this is the optimal means of training embeddings that generalize well. This work proposes two approaches to learning embeddings, based on the notion of dropping classes during training. We demonstrate that both approaches can yield performance gains in speaker verification tasks. The first proposed method, DropClass, works via periodically dropping a random subset of classes from the training data and the output layer throughout training, resulting in a feature extractor trained on many different classification tasks. Combined with an additive angular margin loss, this method can yield a 7.9% relative improvement in equal error rate (EER) over a strong baseline on VoxCeleb. The second proposed method, DropAdapt, is a means of adapting a trained model to a set of enrolment speakers in an unsupervised manner. This is performed by fine-tuning a model on only those classes which produce high probability predictions when the enrolment speakers are used as input, again also dropping the relevant rows from the output layer. This method yields a large 13.2% relative improvement in EER on VoxCeleb. The code for this paper has been made publicly available.
翻訳日:2023-01-04 20:21:20 公開日:2020-02-02
# 奥行き分離と拡張畳み込みによる音響イベント検出

Sound Event Detection with Depthwise Separable and Dilated Convolutions ( http://arxiv.org/abs/2002.00476v1 )

ライセンス: Link先を確認
Konstantinos Drossos and Stylianos I. Mimilakis and Shayan Gharib and Yanxiong Li and Tuomas Virtanen(参考訳) state-of-the-art sound event detection (sed) は通常、入力音声信号から有用な特徴を抽出するために一連の畳み込みニューラルネットワーク (cnns) を使用し、抽出された特徴の長い時間的文脈をモデル化するためにrecurrent neural networks (rnn) を使用する。 CNNのチャネル数とRNNの重み行列の大きさは、SED法のパラメータの総量に直接影響する。 さらに、通常長いシーケンスは、RNNの使用とともにSEDメソッドへの入力として使用され、トレーニング時間の増加、勾配流の困難化、SEDメソッドの並列化を妨げている。 これらの問題に対処するために,CNNを深く分離可能な畳み込みで置き換えることと,RNNを拡張畳み込みで置き換えることを提案する。 提案手法を,SEDタスク上のベースライン畳み込みニューラルネットワークと比較し,パラメータの85%,トレーニング時間の平均を78%削減し,フレーム単位のF1スコアと平均誤差率の4.6%と3.8%をそれぞれ増加させた。

State-of-the-art sound event detection (SED) methods usually employ a series of convolutional neural networks (CNNs) to extract useful features from the input audio signal, and then recurrent neural networks (RNNs) to model longer temporal context in the extracted features. The number of the channels of the CNNs and size of the weight matrices of the RNNs have a direct effect on the total amount of parameters of the SED method, which is to a couple of millions. Additionally, the usually long sequences that are used as an input to an SED method along with the employment of an RNN, introduce implications like increased training time, difficulty at gradient flow, and impeding the parallelization of the SED method. To tackle all these problems, we propose the replacement of the CNNs with depthwise separable convolutions and the replacement of the RNNs with dilated convolutions. We compare the proposed method to a baseline convolutional neural network on a SED task, and achieve a reduction of the amount of parameters by 85% and average training time per epoch by 78%, and an increase the average frame-wise F1 score and reduction of the average error rate by 4.6% and 3.8%, respectively.
翻訳日:2023-01-04 20:21:00 公開日:2020-02-02
# 幾何学的深層学習による3次元形状分割

3D Shape Segmentation with Geometric Deep Learning ( http://arxiv.org/abs/2002.00397v1 )

ライセンス: Link先を確認
Davide Boscaini and Fabio Poiesi(参考訳) 高密度の頂点を持つ3次元形状のセマンティックセグメンテーションは、大きなメモリ要求のために実行できない可能性がある。 そこで本研究では,3次元形状の3次元拡張画像を作成し,セグメンテーション全体をサブセグメンテーション問題として解決するニューラルネットワークに基づく手法を提案する。 3次元拡張ビューは、形状の異なる視点から3次元形状の頂点と正規を2次元正則格子に投影することで得られる。 これらの3Dビューは畳み込みニューラルネットワークによって処理され、各頂点のセマンティッククラスの集合上の確率分布関数(pdf)を生成する。 これらのpdfは元の3D形状に再投影され、条件ランダムフィールドを通してコンテキスト情報を用いて後処理される。 提案手法は,公開データセットの3次元形状と,フォトグラム法を用いて再構成した実物体を用いて検証する。 我々はこのアプローチを最先端の代替品と比較する。

The semantic segmentation of 3D shapes with a high-density of vertices could be impractical due to large memory requirements. To make this problem computationally tractable, we propose a neural-network based approach that produces 3D augmented views of the 3D shape to solve the whole segmentation as sub-segmentation problems. 3D augmented views are obtained by projecting vertices and normals of a 3D shape onto 2D regular grids taken from different viewpoints around the shape. These 3D views are then processed by a Convolutional Neural Network to produce a probability distribution function (pdf) over the set of the semantic classes for each vertex. These pdfs are then re-projected on the original 3D shape and postprocessed using contextual information through Conditional Random Fields. We validate our approach using 3D shapes of publicly available datasets and of real objects that are reconstructed using photogrammetry techniques. We compare our approach against state-of-the-art alternatives.
翻訳日:2023-01-04 20:15:46 公開日:2020-02-02
# 勾配ペナルティによる服装評価の定式化

Regularizing Reasons for Outfit Evaluation with Gradient Penalty ( http://arxiv.org/abs/2002.00460v1 )

ライセンス: Link先を確認
Xingxing Zou, Zhizhong Li, Ke Bai, Dahua Lin, Waikeung Wong(参考訳) 本稿では,判断と説得力のある説明からなるフィードバックを提供する衣装評価システムを構築する。 システムは、ドメインの知識を忠実に追従する監督された方法で訓練される。 我々は、判断、判断の決定的理由、および対応する属性(例:print, silhouette, material \etc)を付加したアセスメント3データセットを作成する。 ). トレーニングプロセスでは、衣装内のすべての属性の特徴を最初に抽出し、その後、要素内互換性ネットの入力として結合する。 そして、要素間互換性ネットを用いて判定の損失を算出する。 我々は、グレード・CAMライクな理由がラベル付き理由と整合するように、判定損失の勾配を罰する。 推論では、得られた判断、理由、属性の情報に基づいて、予め定義されたテンプレートによってユーザフレンドリーな説明文を生成する。 実験の結果, 得られたネットワークは, 高精度かつ良好な解釈の利点を併せ持つことがわかった。

In this paper, we build an outfit evaluation system which provides feedbacks consisting of a judgment with a convincing explanation. The system is trained in a supervised manner which faithfully follows the domain knowledge in fashion. We create the EVALUATION3 dataset which is annotated with judgment, the decisive reason for the judgment, and all corresponding attributes (e.g. print, silhouette, and material \etc.). In the training process, features of all attributes in an outfit are first extracted and then concatenated as the input for the intra-factor compatibility net. Then, the inter-factor compatibility net is used to compute the loss for judgment. We penalize the gradient of judgment loss of so that our Grad-CAM-like reason is regularized to be consistent with the labeled reason. In inference, according to the obtained information of judgment, reason, and attributes, a user-friendly explanation sentence is generated by the pre-defined templates. The experimental results show that the obtained network combines the advantages of high precision and good interpretation.
翻訳日:2023-01-04 20:15:32 公開日:2020-02-02
# 事前深度情報を用いた動的シーンの深度マップ推定

Depth Map Estimation of Dynamic Scenes Using Prior Depth Information ( http://arxiv.org/abs/2002.00297v1 )

ライセンス: Link先を確認
James Noraky, Vivienne Sze(参考訳) 深度情報は多くの応用に有用である。 能動深度センサは、密集した正確な深度マップを得るため、魅力的である。 しかし、電力制約からマルチセンサー干渉まで幅広い問題から、これらのセンサーを常に使用することはできない。 この制限を克服するために,同時収集した画像を用いて深度マップを推定するアルゴリズムと,カメラとシーン内のオブジェクトが独立に移動可能な動的シーンの深度マップを提案する。 これらのシナリオの奥行きを推定するために, アルゴリズムは独立および剛体運動を用いて動的シーン動作をモデル化する。 次に、前の深度マップを使用して、これらの剛体運動を効率的に推定し、新しい深度マップを得る。 当社の目標は,大規模な計算コストを伴わずに,アクティブ深さセンサと計算の深さ取得のバランスをとることにある。 そこで,先行する奥行き情報を利用して,同様の手法で使用される高密度光流推定やセグメンテーションなどの計算コストのかかる操作を回避する。 提案手法では, 標準ラップトップコンピュータ上で, 最大30FPSの高密度深度マップを, 類似の手法よりも桁違いに高速に取得できる。 動的シーンのRGB-Dデータセットを用いて評価すると, 平均相対誤差2.5%で深度マップを推定し, アクティブ深度センサの使用量を90%以上削減する。

Depth information is useful for many applications. Active depth sensors are appealing because they obtain dense and accurate depth maps. However, due to issues that range from power constraints to multi-sensor interference, these sensors cannot always be continuously used. To overcome this limitation, we propose an algorithm that estimates depth maps using concurrently collected images and a previously measured depth map for dynamic scenes, where both the camera and objects in the scene may be independently moving. To estimate depth in these scenarios, our algorithm models the dynamic scene motion using independent and rigid motions. It then uses the previous depth map to efficiently estimate these rigid motions and obtain a new depth map. Our goal is to balance the acquisition of depth between the active depth sensor and computation, without incurring a large computational cost. Thus, we leverage the prior depth information to avoid computationally expensive operations like dense optical flow estimation or segmentation used in similar approaches. Our approach can obtain dense depth maps at up to real-time (30 FPS) on a standard laptop computer, which is orders of magnitude faster than similar approaches. When evaluated using RGB-D datasets of various dynamic scenes, our approach estimates depth maps with a mean relative error of 2.5% while reducing the active depth sensor usage by over 90%.
翻訳日:2023-01-04 20:13:56 公開日:2020-02-02
# 注意を伴う多視点情報におけるディープラーニングによる左心房解剖とスカーセグメンテーション

Simultaneous Left Atrium Anatomy and Scar Segmentations via Deep Learning in Multiview Information with Attention ( http://arxiv.org/abs/2002.00440v1 )

ライセンス: Link先を確認
Guang Yang, Jun Chen, Zhifan Gao, Shuo Li, Hao Ni, Elsa Angelini, Tom Wong, Raad Mohiaddin, Eva Nyktari, Ricardo Wage, Lei Xu, Yanping Zhang, Xiuquan Du, Heye Zhang, David Firmin, Jennifer Keegan(参考訳) 心房細動(AF)患者における左心房粗動の3次元遅延ガドリニウム増強(LGE)心筋MR(CMR)は,近年,患者の階層化,アブレーション療法の指導,治療成功の予測に有望な技術として出現している。 これは、高強度スカー組織のセグメンテーションと、左心房(la)解剖学のセグメンテーションを必要とする。 2つのセグメンテーションを1つの3D LGE CMRの買収から自動的に実行することで、追加の買収の必要性を排除し、その後の登録問題を回避することができる。 本論文では,3次元lge cmr画像を直接処理し,la(および近位肺静脈)を分割し,同じデータセット上で傷跡を並べるマルチビュー・ツータスク(mvtt)再帰的注意モデルに基づく関節セグメンテーション法を提案する。 我々のMVTT再帰的注意モデルを用いて、LA解剖と傷跡を正確に区分けできる(LA解剖は93%、傷跡セグメンテーションは87%)とともに、効率良く(約0.27秒で3D LGE CMRデータセットから60-682DスライスでLA解剖と傷跡を同時に区分けできる)。 従来の教師なし学習法や最先端の深層学習法と比較して,提案したMVTTモデルは優れた結果を得た。

Three-dimensional late gadolinium enhanced (LGE) cardiac MR (CMR) of left atrial scar in patients with atrial fibrillation (AF) has recently emerged as a promising technique to stratify patients, to guide ablation therapy and to predict treatment success. This requires a segmentation of the high intensity scar tissue and also a segmentation of the left atrium (LA) anatomy, the latter usually being derived from a separate bright-blood acquisition. Performing both segmentations automatically from a single 3D LGE CMR acquisition would eliminate the need for an additional acquisition and avoid subsequent registration issues. In this paper, we propose a joint segmentation method based on multiview two-task (MVTT) recursive attention model working directly on 3D LGE CMR images to segment the LA (and proximal pulmonary veins) and to delineate the scar on the same dataset. Using our MVTT recursive attention model, both the LA anatomy and scar can be segmented accurately (mean Dice score of 93% for the LA anatomy and 87% for the scar segmentations) and efficiently (~0.27 seconds to simultaneously segment the LA anatomy and scars directly from the 3D LGE CMR dataset with 60-68 2D slices). Compared to conventional unsupervised learning and other state-of-the-art deep learning based methods, the proposed MVTT model achieved excellent results, leading to an automatic generation of a patient-specific anatomical model combined with scar segmentation for patients in AF.
翻訳日:2023-01-04 20:13:33 公開日:2020-02-02
# Amazon Comprehend Medicalの評価:医療情報抽出

Assessment of Amazon Comprehend Medical: Medication Information Extraction ( http://arxiv.org/abs/2002.00481v1 )

ライセンス: Link先を確認
Benedict Guzman, MS and Isabel Metzger, MS and Yindalon Aphinyanaphongs, M.D., Ph.D. and Himanshu Grover, Ph.D(参考訳) 2018年11月27日、Amazon Web Services (AWS)がAmazon Comprehend Medical (ACM)をリリースした。これは、臨床テキストノートから臨床概念(解剖学、医療状況、保護された健康情報(PH)I、テスト名、治療名、医療処置、医薬品を含む)を自動的に抽出するディープラーニングベースのシステムである。 新たなデータ製品の取り込みと信頼は、期待される結果の品質を確立および確認するために、ベンチマークデータセットとツール間で独立した検証に依存している。 本研究は,2009年i2b2薬物抽出チャレンジと2018年n2c2トラック2: 逆薬物イベントと医薬品抽出のEHRにおける公式テストセットを用いて,薬物抽出タスク,特にACMを評価した。 ACMはFスコア0.768と0.828を達成した。 これらのスコアは、各課題における3つのベストシステムと比較すると、最も低い。 また, 薬物抽出性能の汎用性をさらに高めるため, nyu langone medical center の無作為な内部臨床文書群も本研究に含まれていた。 そしてこのコーパスでは、acmはf-score 0.753を収集した。

In November 27, 2018, Amazon Web Services (AWS) released Amazon Comprehend Medical (ACM), a deep learning based system that automatically extracts clinical concepts (which include anatomy, medical conditions, protected health information (PH)I, test names, treatment names, and medical procedures, and medications) from clinical text notes. Uptake and trust in any new data product relies on independent validation across benchmark datasets and tools to establish and confirm expected quality of results. This work focuses on the medication extraction task, and particularly, ACM was evaluated using the official test sets from the 2009 i2b2 Medication Extraction Challenge and 2018 n2c2 Track 2: Adverse Drug Events and Medication Extraction in EHRs. Overall, ACM achieved F-scores of 0.768 and 0.828. These scores ranked the lowest when compared to the three best systems in the respective challenges. To further establish the generalizability of its medication extraction performance, a set of random internal clinical text notes from NYU Langone Medical Center were also included in this work. And in this corpus, ACM garnered an F-score of 0.753.
翻訳日:2023-01-04 20:06:14 公開日:2020-02-02
# DSTC8におけるスキーマ誘導対話状態追跡タスク

Schema-Guided Dialogue State Tracking Task at DSTC8 ( http://arxiv.org/abs/2002.01359v1 )

ライセンス: Link先を確認
Abhinav Rastogi, Xiaoxue Zang, Srinivas Sunkara, Raghav Gupta, Pranav Khaitan(参考訳) 本稿では,第8回対話システム技術チャレンジにおける対話状態追跡タスクの概要について述べる。 このタスクの目的は、大規模仮想アシスタントに適した対話状態追跡モデルの開発であり、ドメイン間のデータ効率の高い共同モデリングと、新しいapiへのゼロショット一般化に焦点を当てている。 このタスクは、16のドメインにまたがるトレーニングセットで16,000以上の対話からなる新しいデータセットと、新しいapiへのゼロショット一般化が可能なベースラインモデルを提供した。 25チームが参加し、ベースラインモデルのパフォーマンスを非常に高いマージンで上回る、さまざまなニューラルネットワークモデルを開発した。 提案には、様々な事前学習されたエンコーダとデータ拡張技術が組み込まれている。 本稿では,タスク定義,データセット,評価手法について述べる。 また,提案システムのアプローチと結果を要約して,最先端のトレンドの全体像を強調する。

This paper gives an overview of the Schema-Guided Dialogue State Tracking task of the 8th Dialogue System Technology Challenge. The goal of this task is to develop dialogue state tracking models suitable for large-scale virtual assistants, with a focus on data-efficient joint modeling across domains and zero-shot generalization to new APIs. This task provided a new dataset consisting of over 16000 dialogues in the training set spanning 16 domains to highlight these challenges, and a baseline model capable of zero-shot generalization to new APIs. Twenty-five teams participated, developing a range of neural network models, exceeding the performance of the baseline model by a very high margin. The submissions incorporated a variety of pre-trained encoders and data augmentation techniques. This paper describes the task definition, dataset and evaluation methodology. We also summarize the approach and results of the submitted systems to highlight the overall trends in the state-of-the-art.
翻訳日:2023-01-04 20:05:52 公開日:2020-02-02
# ノード分類における重み付きグラフ特徴の理解のためのグラフニューラルネットワーク

Explain Graph Neural Networks to Understand Weighted Graph Features in Node Classification ( http://arxiv.org/abs/2002.00514v1 )

ライセンス: Link先を確認
Xiaoxiao Li and Joao Saude(参考訳) 追加の位相構造と接続情報を持つ異なるアプリケーションから収集された実データは重み付きグラフとして表現できる。 ノードラベルの問題を考えると、グラフニューラルネットワーク(GNN)は、ノードラベルに関する専門家の決定を模倣する強力なツールである。 gnnは、ニューラルネットワークを使用してノード情報を埋め込み、グラフのエッジに渡すことで、ノードの特徴、接続パターン、グラフ構造を組み合わせる。 我々は、GNNモデルが使用する入力データに含まれるパターンを特定し、そのモデルが私たちが望むように機能するかどうかを確認したい。 しかしながら、複雑なデータ表現と非線形変換のため、gnnによる決定の説明は困難である。 本研究では,情報成分と重要なノード特徴を特定するために,新しいグラフ特徴の説明手法を提案する。 さらに,ノード分類における重要な要因を特定するパイプラインを提案する。 4つのデータセット(2つの合成と2つの実)を使って手法を検証する。 提案手法は,人間の解釈によってノード分類に使用されるデータパターンを模倣し,グラフの異なる特徴を分離できることを示す。 さらに,データ理解,GNNモデルのデバッギング,モデル決定の検証に利用することができる。

Real data collected from different applications that have additional topological structures and connection information are amenable to be represented as a weighted graph. Considering the node labeling problem, Graph Neural Networks (GNNs) is a powerful tool, which can mimic experts' decision on node labeling. GNNs combine node features, connection patterns, and graph structure by using a neural network to embed node information and pass it through edges in the graph. We want to identify the patterns in the input data used by the GNN model to make a decision and examine if the model works as we desire. However, due to the complex data representation and non-linear transformations, explaining decisions made by GNNs is challenging. In this work, we propose new graph features' explanation methods to identify the informative components and important node features. Besides, we propose a pipeline to identify the key factors used for node classification. We use four datasets (two synthetic and two real) to validate our methods. Our results demonstrate that our explanation approach can mimic data patterns used for node classification by human interpretation and disentangle different features in the graphs. Furthermore, our explanation methods can be used for understanding data, debugging GNN models, and examine model decisions.
翻訳日:2023-01-04 19:58:05 公開日:2020-02-02
# 多数のgumbel-max変数を高速に生成する

Fast Generating A Large Number of Gumbel-Max Variables ( http://arxiv.org/abs/2002.00413v1 )

ライセンス: Link先を確認
Yiyan Qi, Pinghui Wang, Yuanming Zhang, Junzhou Zhao, Guangjian Tian, and Xiaohong Guan(参考訳) カテゴリー分布(あるいは一般には非負ベクトル)から要素をサンプリングするための有名なガンベル・マックス・トリックとその変種は、機械学習や情報検索などの分野で広く使われている。 ランダム要素 $i$ を正の重み $v_i$ に比例してサンプリングするために、gumbel-max トリックはまず各正の重み要素 $i$ に対してガムベル確率変数 $g_i$ を計算し、次に$i$ を最大値 $g_i+\ln v_i$ でサンプリングする。 近年、類似度推定やグラフ埋め込みを含むアプリケーションは、高次元ベクトルから$k$独立のgumbel-max変数を生成する必要がある。 しかし、従来のgumbel-maxトリックを使用する場合、大きなk$(例えば数百ドルや数千ドル)の計算コストがかかる。 この問題を解決するために、新しいアルゴリズムである \emph{fastgm} を提案する。これは、時間の複雑さを$o(kn^+)$ から $o(k \ln k + n^+)$ に減らすもので、ここで $n^+$ は関心ベクトル内の正の要素の数である。 k$独立のgumbel確率変数を直接計算する代わりに、これらの変数を次々に生成するテクニックがあることが分かりました。 この手法を用いて、FastGMは下降順に全ての正の要素に対して$g_i+\ln v_i$を演算する。 その結果,多くの要素に対するガムベル確率変数の計算,特に小さい重みを持つ場合の計算を中止できるため,fastgmは計算時間を著しく短縮する。 さまざまな実世界のデータセットの実験によると、FastGMは精度を犠牲にせず、追加のコストを発生させることなく、最先端の手法よりも桁違いに高速である。

The well-known Gumbel-Max Trick for sampling elements from a categorical distribution (or more generally a nonnegative vector) and its variants have been widely used in areas such as machine learning and information retrieval. To sample a random element $i$ (or a Gumbel-Max variable $i$) in proportion to its positive weight $v_i$, the Gumbel-Max Trick first computes a Gumbel random variable $g_i$ for each positive weight element $i$, and then samples the element $i$ with the largest value of $g_i+\ln v_i$. Recently, applications including similarity estimation and graph embedding require to generate $k$ independent Gumbel-Max variables from high dimensional vectors. However, it is computationally expensive for a large $k$ (e.g., hundreds or even thousands) when using the traditional Gumbel-Max Trick. To solve this problem, we propose a novel algorithm, \emph{FastGM}, that reduces the time complexity from $O(kn^+)$ to $O(k \ln k + n^+)$, where $n^+$ is the number of positive elements in the vector of interest. Instead of computing $k$ independent Gumbel random variables directly, we find that there exists a technique to generate these variables in descending order. Using this technique, our method FastGM computes variables $g_i+\ln v_i$ for all positive elements $i$ in descending order. As a result, FastGM significantly reduces the computation time because we can stop the procedure of Gumbel random variables computing for many elements especially for those with small weights. Experiments on a variety of real-world datasets show that FastGM is orders of magnitude faster than state-of-the-art methods without sacrificing accuracy and incurring additional expenses.
翻訳日:2023-01-04 19:56:50 公開日:2020-02-02
# インデックス言語のニューラルマシン翻訳システム -注意に基づくアプローチ-

Neural Machine Translation System of Indic Languages -- An Attention based Approach ( http://arxiv.org/abs/2002.02758v1 )

ライセンス: Link先を確認
Parth Shah, Vishvajit Bakrola(参考訳) ニューラル機械翻訳 (NMT) は, 従来の機械翻訳技術と比較して顕著に改良された手法である。 Gujarati言語向けに開発されたニューラルネットワーク翻訳モデルは、注意機構を備えたエンコーダデコーダを含む。 インドでは、ほとんどの言語は先祖のサンスクリット語に由来する。 彼らは語彙と名前の類似性を含む必然的な類似性を持っている。 Indic言語への翻訳は常に難しい作業です。 本稿では、ヒンディー語やグジャラーティ語などの言語を効率的に翻訳できるニューラルマシン翻訳システム(nmt)を提案し、国全体の話者の58.49パーセント以上をカバーした。 我々は,NMTモデルの性能をBLEU,perplexity,TER行列などの自動評価行列と比較した。 また、我々のネットワークとGoogle翻訳を比較して、英グジャラート翻訳のBLEUスコアを6点上回った結果も示された。

Neural machine translation (NMT) is a recent and effective technique which led to remarkable improvements in comparison of conventional machine translation techniques. Proposed neural machine translation model developed for the Gujarati language contains encoder-decoder with attention mechanism. In India, almost all the languages are originated from their ancestral language - Sanskrit. They are having inevitable similarities including lexical and named entity similarity. Translating into Indic languages is always be a challenging task. In this paper, we have presented the neural machine translation system (NMT) that can efficiently translate Indic languages like Hindi and Gujarati that together covers more than 58.49 percentage of total speakers in the country. We have compared the performance of our NMT model with automatic evaluation matrices such as BLEU, perplexity and TER matrix. The comparison of our network with Google translate is also presented where it outperformed with a margin of 6 BLEU score on English-Gujarati translation.
翻訳日:2023-01-04 19:49:31 公開日:2020-02-02
# データビュー抽出とシャドウモデル作成によるブラックボックス機械学習モデルの解釈可能性

Interpretability of Blackbox Machine Learning Models through Dataview Extraction and Shadow Model creation ( http://arxiv.org/abs/2002.00372v1 )

ライセンス: Link先を確認
Rupam Patir, Shubham Singhal, C. Anantaram, Vikram Goyal(参考訳) 大量のデータを使ってトレーニングされたディープラーニングモデルは、データの1つのビューとその関連するマッピングをキャプチャする傾向がある。 同じトレーニングデータ上に構築された異なるディープラーニングモデルは、使用する基礎技術に基づいて、データのさまざまなビューをキャプチャすることができる。 blackboxのディープラーニングモデルによってもたらされた決定を説明するために、トレーニングデータに対するモデルの見解を忠実に再現することが不可欠であると主張する。 この忠実な再現は、説明生成に使用できる。 データビュー抽出のための2つの手法であるヒルクライミングアプローチとgan駆動アプローチについて検討した。 次に、この合成データを用いて、説明生成のためのシャドーモデルを作成する:決定木モデルと形式的概念分析に基づくモデル。 公開データセット上でトレーニングされたブラックボックスモデル上でこれらのアプローチを評価し,その説明生成における有用性を示す。

Deep learning models trained using massive amounts of data tend to capture one view of the data and its associated mapping. Different deep learning models built on the same training data may capture different views of the data based on the underlying techniques used. For explaining the decisions arrived by blackbox deep learning models, we argue that it is essential to reproduce that model's view of the training data faithfully. This faithful reproduction can then be used for explanation generation. We investigate two methods for data view extraction: hill-climbing approach and a GAN-driven approach. We then use this synthesized data for creating shadow models for explanation generation: Decision-Tree model and Formal Concept Analysis based model. We evaluate these approaches on a Blackbox model trained on public datasets and show its usefulness in explanation generation.
翻訳日:2023-01-04 19:49:16 公開日:2020-02-02
# 対人模倣学習における虚偽否定

Combating False Negatives in Adversarial Imitation Learning ( http://arxiv.org/abs/2002.00412v1 )

ライセンス: Link先を確認
Konrad Zolna, Chitwan Saharia, Leonard Boussioux, David Yu-Tung Hui, Maxime Chevalier-Boisvert, Dzmitry Bahdanau and Yoshua Bengio(参考訳) 敵対的模倣学習では、識別器は、望ましい行動を表す専門家のデモンストレーションとエージェントのエピソードを区別するように訓練される。 しかし、訓練された政策がより成功することを学ぶと、ネガティブな例(エージェントによって生成されるもの)は、専門家に近づきつつある。 エージェントの軌道の一部でタスクが成功しているにもかかわらず、識別器は低い値を出力するように訓練される。 判別器のこの一貫性のない訓練信号は学習を妨げる可能性があり、結果としてエージェントの全体的な性能が悪化する。 この仮説の実験的証拠と「偽陰性」(即ちエージェントエピソードの成功)が敵の模倣学習を著しく阻害していることが本論文の最初の貢献である。 そこで我々は,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。 この方法は、ベースライン上のサンプル効率を少なくとも1桁改善する。

In adversarial imitation learning, a discriminator is trained to differentiate agent episodes from expert demonstrations representing the desired behavior. However, as the trained policy learns to be more successful, the negative examples (the ones produced by the agent) become increasingly similar to expert ones. Despite the fact that the task is successfully accomplished in some of the agent's trajectories, the discriminator is trained to output low values for them. We hypothesize that this inconsistent training signal for the discriminator can impede its learning, and consequently leads to worse overall performance of the agent. We show experimental evidence for this hypothesis and that the 'False Negatives' (i.e. successful agent episodes) significantly hinder adversarial imitation learning, which is the first contribution of this paper. Then, we propose a method to alleviate the impact of false negatives and test it on the BabyAI environment. This method consistently improves sample efficiency over the baselines by at least an order of magnitude.
翻訳日:2023-01-04 19:49:05 公開日:2020-02-02
# Deep Machine Reasoningに向けて:決定木推論を用いたプロトタイプベースDeep Neural Network

Towards Deep Machine Reasoning: a Prototype-based Deep Neural Network with Decision Tree Inference ( http://arxiv.org/abs/2002.03776v1 )

ライセンス: Link先を確認
Plamen Angelov, Eduardo Soares(参考訳) 本稿では,決定木(dt)に基づく推論と合成データを用いてクラスをバランスさせる,ディープラーニングのためのプロトタイプベースの手法とネットワークアーキテクチャであるdmrを提案する。 これは最近導入されたxDNNメソッドに基づいており、より複雑なマルチクラス問題に対処している。 dmrは全てのクラスに基づく直接決定から、ペアワイズクラス比較の階層化されたdtへと移行する。 さらに、トレーニングデータのクラス不均衡の可能性に関係なく、プロトタイプをクラス間でバランスを取るように強制する。 二つの新しいメカニズムがあります 一 DTを用いて優勝クラスラベルを定めること。 二 利用可能なトレーニングデータから決定されたプロトタイプに関するデータを合成して授業のバランスをとること。 その結果,最近公表した「世界記録」を上回って,よく知られたベンチマーク問題であるcaltech-101の報告結果が示すように,完全に説明可能なdnnの性能が大幅に向上した。 さらに、別の非常に難しいベンチマーク問題、すなわちCaltech-256に対して、また別の「世界記録」を達成し、Faces-1999問題に対する他のアプローチの結果を上回った。 そこで,本研究では,よく知られたハードベンチマーク問題に対する2つの世界記録と,別の問題に対する最善の結果を精度で達成した,不均衡なマルチクラス問題に特有な新しいアプローチを提案する。 さらに、dmrは完全な説明性を提供し、gpuを必要とせず、新しいプロトタイプを追加して、新しいデータから学び続けることができる。

In this paper we introduce the DMR -- a prototype-based method and network architecture for deep learning which is using a decision tree (DT)-based inference and synthetic data to balance the classes. It builds upon the recently introduced xDNN method addressing more complex multi-class problems, specifically when classes are highly imbalanced. DMR moves away from a direct decision based on all classes towards a layered DT of pair-wise class comparisons. In addition, it forces the prototypes to be balanced between classes regardless of possible class imbalances of the training data. It has two novel mechanisms, namely i) using a DT to determine the winning class label, and ii) balancing the classes by synthesizing data around the prototypes determined from the available training data. As a result, we improved significantly the performance of the resulting fully explainable DNN as evidenced by the best reported result on the well know benchmark problem Caltech-101 surpassing our own recently published "world record". Furthermore, we also achieved another "world record" for another very hard benchmark problem, namely Caltech-256 as well as surpassed the results of other approaches on Faces-1999 problem. In summary, we propose a new approach specifically advantageous for imbalanced multi-class problems that achieved two world records on well known hard benchmark problems and the best result on another problem in terms of accuracy. Moreover, DMR offers full explainability, does not require GPUs and can continue to learn from new data by adding new prototypes preserving the previous ones but not requiring full retraining.
翻訳日:2023-01-04 19:48:48 公開日:2020-02-02
# SQWA:低精度ディープニューラルネットワークの一般化能力向上のための確率量子化ウェイト平均化

SQWA: Stochastic Quantized Weight Averaging for Improving the Generalization Capability of Low-Precision Deep Neural Networks ( http://arxiv.org/abs/2002.00343v1 )

ライセンス: Link先を確認
Sungho Shin, Yoonho Boo, Wonyong Sung(参考訳) 優れた一般化能力を持つディープニューラルネットワーク(DNN)を設計することは、特に重みが著しく定量化されている場合の複雑なプロセスである。 モデル平均化はDNNの優れた一般化能力を達成するための有望なアプローチである。 モデル平均化を用いた高精度DNNの設計のために,新しい量子化ニューラルネットワーク最適化手法,確率量子化重み付け(SQWA)を提案する。 提案手法は,(1)浮動小数点モデルトレーニング,(2)重みの直接量子化,(3)周期的学習率による再訓練中の複数の低精度モデル取得,(4)取得したモデルの平均化,(5)平均モデルの再定量化,および低学習率での微調整を含む。 さらに,本手法の挙動を明らかにするために,量子化重み領域における損失視覚化手法を提案する。 可視化の結果,提案手法に最適化された量子化DNN (QDNN) が損失面の平坦な最小値の中心付近に位置することが示された。 SQWAトレーニングにより、CIFAR-100およびImageNetデータセット上の2ビットQDNNの最先端結果を得た。 vlsiや低精度ニューラルプロセッシングユニットの実装のために、一様量子化方式を採用したが、非一様量子化を用いた従来の研究よりも性能が向上した。

Designing a deep neural network (DNN) with good generalization capability is a complex process especially when the weights are severely quantized. Model averaging is a promising approach for achieving the good generalization capability of DNNs, especially when the loss surface for training contains many sharp minima. We present a new quantized neural network optimization approach, stochastic quantized weight averaging (SQWA), to design low-precision DNNs with good generalization capability using model averaging. The proposed approach includes (1) floating-point model training, (2) direct quantization of weights, (3) capturing multiple low-precision models during retraining with cyclical learning rates, (4) averaging the captured models, and (5) re-quantizing the averaged model and fine-tuning it with low-learning rates. Additionally, we present a loss-visualization technique on the quantized weight domain to clearly elucidate the behavior of the proposed method. Visualization results indicate that a quantized DNN (QDNN) optimized with the proposed approach is located near the center of the flat minimum in the loss surface. With SQWA training, we achieved state-of-the-art results for 2-bit QDNNs on CIFAR-100 and ImageNet datasets. Although we only employed a uniform quantization scheme for the sake of implementation in VLSI or low-precision neural processing units, the performance achieved exceeded those of previous studies employing non-uniform quantization.
翻訳日:2023-01-04 19:47:28 公開日:2020-02-02
# Greedy Neighbor Selection を用いた確率ノイズスパースサブスペースクラスタリング:コヒーレンスに基づく視点

Provable Noisy Sparse Subspace Clustering using Greedy Neighbor Selection: A Coherence-Based Perspective ( http://arxiv.org/abs/2002.00401v1 )

ライセンス: Link先を確認
Jwo-Yuh Wu, Wen-Hsuan Li, Liang-Chi Huang, Yen-Ping Lin, Chun-Hung Liu and Rung-Hung Gau(参考訳) マッチング追尾 (MP) や直交マッチング追尾 (OMP) など, グリーディに基づく近傍選択を用いたスパース部分空間クラスタリング (SSC) は, 従来のL1最小化法に代わる計算効率のよい方法として広く知られている。 本稿では,MP/OMPを用いた近接同定の正当性を保証するために,コヒーレンスに基づく十分な条件を導出する。 本分析では,ノイズレベルの既知上界を受ける2つのノイズデータポイント間の内積の最大/最小値を利用する。 得られた十分な条件は, グリーディーベース近傍の回復に及ぼす騒音の影響を明らかにする。 具体的には、ノイズが十分小さい限り、結果として生じる摂動残差ベクトルが所望の部分空間に近づき続けるように、MPとOMPはともに正しい近傍部分集合を返すことに成功している。 驚くべき発見は、基底真理部分空間が互いにうまく分離され、ノイズが大きくない場合、mpベースの反復は、アルゴリズムの複雑さが低くなる一方で、残差の摂動が小さくなるため、より正確な隣人を識別でき、さらに高いグローバルデータクラスタリング精度が得られることである。 大規模な数値実験は、我々の理論研究の裏付けとなる。

Sparse subspace clustering (SSC) using greedy-based neighbor selection, such as matching pursuit (MP) and orthogonal matching pursuit (OMP), has been known as a popular computationally-efficient alternative to the conventional L1-minimization based methods. Under deterministic bounded noise corruption, in this paper we derive coherence-based sufficient conditions guaranteeing correct neighbor identification using MP/OMP. Our analyses exploit the maximum/minimum inner product between two noisy data points subject to a known upper bound on the noise level. The obtained sufficient condition clearly reveals the impact of noise on greedy-based neighbor recovery. Specifically, it asserts that, as long as noise is sufficiently small so that the resultant perturbed residual vectors stay close to the desired subspace, both MP and OMP succeed in returning a correct neighbor subset. A striking finding is that, when the ground truth subspaces are well-separated from each other and noise is not large, MP-based iterations, while enjoying lower algorithmic complexity, yield smaller perturbation of residuals, thereby better able to identify correct neighbors and, in turn, achieving higher global data clustering accuracy. Extensive numerical experiments are used to corroborate our theoretical study.
翻訳日:2023-01-04 19:46:47 公開日:2020-02-02