このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200405となっている論文です。

PDF登録状況(公開日: 20200405)

TitleAuthorsAbstract論文公表日・翻訳日
# mds符号のガロア殻とその量子誤差補正

Galois hulls of MDS codes and their quantum error correction ( http://arxiv.org/abs/2002.12892v2 )

ライセンス: Link先を確認
Meng Cao(参考訳) 線形符号の殻は量子情報と符号理論において重要な役割を果たす。 本稿では、一般化されたリード・ソロモン符号(GRS)のガロア殻と有限体 Fq 上の拡張 GRS 符号を探索することにより、これまで得られなかった任意の次元のガロア殻を持つ MDS 符号の新しい族を与える。 そのうちのいくつかは文学のものを一般化している[13]。 その結果、任意の次元のガロア殻を持つこれらのMDS符号を用いて、柔軟なパラメータを持つMDS絡み込み支援量子誤り訂正符号(EAQECC)の9つの新しいファミリーを構築した。

The hull of linear codes plays an important role in quantum information and coding theory. In the present paper, by investigating the Galois hulls of generalized Reed-Solomon (GRS) codes and extended GRS codes over the finite field Fq, we give several new families of MDS codes with Galois hulls of arbitrary dimensions that are not obtained before. Some of them generalize the ones in the literature [13]. As a consequence, using these MDS codes with Galois hulls of arbitrary dimensions, we construct nine new families of MDS entanglement-assisted quantum error-correcting codes (EAQECCs) with flexible parameters.
翻訳日:2023-06-01 07:42:26 公開日:2020-04-05
# スピン波に基づく超伝導束量子ビット間の可変スイッチ

Spin wave based tunable switch between superconducting flux qubits ( http://arxiv.org/abs/2004.02156v1 )

ライセンス: Link先を確認
Shaojie Yuan, Chuanpu Liu, Jilei Chen, Song Liu, Jin Lan, Haiming Yu, Jiansheng Wu, Fei Yan, Man-Hong Yung, Jiang Xiao, Liang Jiang, Dapeng Yu(参考訳) 量子コンピューティングハードウェアは世界中で注目を集め、近年はかなり進歩している。 YIG薄膜はスピン波(マグノン)モードを持ち、低散逸と量子情報処理の信頼性制御を行う。 しかし、量子デバイスとYIG薄膜のコヒーレント結合はまだ実証されていない。 本稿では,YIG薄膜における超伝導フラックス量子ビットとマグノンモードの強い結合を実現する手法を提案する。 キッテルモードや他のスピンアンサンブルとの結合における直接$\sqrt{N}$拡張係数とは異なり、N はスピンの総数であるので、量子ビットが有限波長のマノンモードと磁気的に結合されているとき、追加の空間依存位相因子を考える必要がある。 対称境界条件による結合の望ましくないキャンセルを回避するため、YIG薄膜の一方にCoFeB薄膜を添加して対称性を損なう。 数値シミュレーションによりYIG薄膜におけるフラックス量子ビットと定常スピン波の間の量子情報の交差とコヒーレント移動を回避した。 その結果,yig薄膜は2つの磁束量子ビット間の波長可変スイッチとして使用可能であり,その形状は直接誘導結合が小さく変化していることがわかった。 その結果, 望ましくないクロストークを抑えつつ, フラックス量子ビットを結合させることが可能であることがわかった。

Quantum computing hardware has received world-wide attention and made considerable progress recently. YIG thin film have spin wave (magnon) modes with low dissipation and reliable control for quantum information processing. However, the coherent coupling between a quantum device and YIG thin film has yet been demonstrated. Here, we propose a scheme to achieve strong coupling between superconducting flux qubits and magnon modes in YIG thin film. Unlike the direct $\sqrt{N}$ enhancement factor in coupling to the Kittel mode or other spin ensembles, with N the total number of spins, an additional spatial dependent phase factor needs to be considered when the qubits are magnetically coupled with the magnon modes of finite wavelength. To avoid undesirable cancelation of coupling caused by the symmetrical boundary condition, a CoFeB thin layer is added to one side of the YIG thin film to break the symmetry. Our numerical simulation demonstrates avoided crossing and coherent transfer of quantum information between the flux qubits and the standing spin waves in YIG thin films. We show that the YIG thin film can be used as a tunable switch between two flux qubits, which have modified shape with small direct inductive coupling between them. Our results manifest that it is possible to couple flux qubits while suppressing undesirable cross-talk.
翻訳日:2023-05-26 08:32:02 公開日:2020-04-05
# 旅行行動における経路パターンの発見と異常検出

Routine pattern discovery and anomaly detection in individual travel behavior ( http://arxiv.org/abs/2004.03481v1 )

ライセンス: Link先を確認
Lijun Sun, Xinyu Chen, Zhaocheng He and Luis F. Miranda-Moreno(参考訳) 個々の旅行行動におけるパターンの発見と異常の検出は、研究と実践の両方において重要な問題である。 本稿では,個々の時空間旅行行動データ(旅行記録や軌道データなど)をモデル化する確率的枠組みを構築し,この問題に対処する。 本研究では,各旅行者の時空間旅行記録の生成機構を特徴付ける2次元潜在ディリクレアロケーション(LDA)モデルを開発した。 このモデルは空間次元と時間次元の2つの異なる因子行列を導入し、個々のレベルで2次元コア構造を用いて結合相互作用と複雑な依存関係を効果的にモデル化する。 このモデルでは, 空間的, 時間的両方の移動行動パターンを, 教師なしの方法で効率的に要約することができる。 このように、複雑な旅行行動は、代表パターンと解釈可能な時空間パターンの混合としてモデル化することができる。 トラベラーの将来の時空間記録に訓練されたモデルを適用することで、パープレキシティを用いてそれらの観察をスコア付けすることで、彼女の行動異常を検出できる。 本稿では,実世界ライセンスプレート認識(lpr)データセット上で提案手法の有効性を示す。 その結果,各旅行行動データのモデリングにおける統計的学習手法の利点が確認できた。 この種のパターン発見および異常検出アプリケーションは、交通監視、法執行、個人旅行行動プロファイリングに有用な洞察を提供することができる。

Discovering patterns and detecting anomalies in individual travel behavior is a crucial problem in both research and practice. In this paper, we address this problem by building a probabilistic framework to model individual spatiotemporal travel behavior data (e.g., trip records and trajectory data). We develop a two-dimensional latent Dirichlet allocation (LDA) model to characterize the generative mechanism of spatiotemporal trip records of each traveler. This model introduces two separate factor matrices for the spatial dimension and the temporal dimension, respectively, and use a two-dimensional core structure at the individual level to effectively model the joint interactions and complex dependencies. This model can efficiently summarize travel behavior patterns on both spatial and temporal dimensions from very sparse trip sequences in an unsupervised way. In this way, complex travel behavior can be modeled as a mixture of representative and interpretable spatiotemporal patterns. By applying the trained model on future/unseen spatiotemporal records of a traveler, we can detect her behavior anomalies by scoring those observations using perplexity. We demonstrate the effectiveness of the proposed modeling framework on a real-world license plate recognition (LPR) data set. The results confirm the advantage of statistical learning methods in modeling sparse individual travel behavior data. This type of pattern discovery and anomaly detection applications can provide useful insights for traffic monitoring, law enforcement, and individual travel behavior profiling.
翻訳日:2023-05-26 08:27:20 公開日:2020-04-05
# 三角光学キャビティにおける熱環境の影響下における量子相関

Quantum correlations under the effect of a thermal environment in a triangular optomechanical cavity ( http://arxiv.org/abs/2004.02263v1 )

ライセンス: Link先を確認
Oumayma El Bir and Morad El Baz(参考訳) 固定ミラーと2つの可動鏡からなるリングキャビティの光学モードと相対機械モードとの定常的相関を三角形状で定量化する。 両部共分散行列は、対数ネガティリティを絡み合いの尺度として、ガウス量子不協和を全量子相関の尺度として、そして相互情報を全体相関の尺度として評価するために用いられる。 移動鏡のレーザー励起力や質量といった他のパラメータと同様に, 環境温度に対するこれらの量の挙動について考察した。

We quantify the stationary correlations between the optical mode and the relative mechanical mode of a ring cavity composed of a fixed mirror and two movable ones in a triangular design. The bipartite covariance matrix, is used to evaluate the logarithmic negativity as a measure of entanglement, the Gaussian quantum discord as a measure of total quantum correlations and the mutual information as a measure of the overall correlations. The behaviour of these quantities with respect to the environment's temperature as well as other parameters such as the laser pumping power and mass of the movable mirrors is discussed.
翻訳日:2023-05-26 08:25:34 公開日:2020-04-05
# 核とパルス光波の場における超相対論的電子の共鳴高エネルギーブレムストラルング

Resonant high-energy bremsstrahlung of ultrarelativistic electrons in the field of a nucleus and a pulsed light wave ( http://arxiv.org/abs/2004.02247v1 )

ライセンス: Link先を確認
Sergei P. Roshchupkin, Alexander Dubov, Victor V. Dubov(参考訳) 実際の理論的研究は、核の磁場と準単色レーザー波にかなりのエネルギーを持つ超相対論的電子の共鳴高エネルギー自発ブレムストラルングの研究である。 レーザー場内の共鳴条件下では、中間仮想電子は実粒子へと変換される。 その結果, 偏光角が自発光子の周波数を特徴付けることがわかった。 この研究は、初期電子の運動量(チャネルA)と自然光子の最終的な電子(チャネルB)の運動量に相関して周波数と放射角の同時登録を実現する代表過程の共振差断面積(r=1, 2, 3, ... $)の表現を導出した。 さらに、共鳴(r = 2, 3,... $)の高次数に対する自発的な光子放出の角度の関数としての共鳴微分断面積の分布は、最も可能性の高い周波数で粒子放射と協調する鋭いピークの最大値を持つ依存性を示す。 要約すると、達成された作業は共鳴微分断面積が相当に大きくなることを示す。 したがって、チャネルAの最初の共鳴に対して、共鳴微分断面積は$\sim 10^{12}$次数に達し、チャネルBの3次共振は$\sim 10^5$次数($\alpha Z^2 r_e^2$)となる。 最後に、パルスレーザー放射(SLAC, FAIR, XFEL, ELI, XCELS)を専門とする多くの科学施設が、構築されたモデル計算を実験的に検証することができる。

The actual theoretical research investigates the resonant high-energy spontaneous bremsstrahlung of ultrarelativistic electrons with considerable energies in the field of a nucleus and a quasimonochromatic laser wave. Under the resonant conditions within the laser field the intermediate virtual electron transforms into the real particle. As a result, the accomplished analysis defines that the polar emission angle characterizes the frequency of a spontaneous photon. The study derives the expressions for the resonant differential cross-sections of the represented processes that realize simultaneous registration of the frequency and radiation angle in correlation to the momentum of the initial electron (for the channel A) and of the final electron (for the channel B) of the spontaneous photon with absorption of $r$ wave photons ($r = 1, 2, 3,... $ - the number of a resonance). Additionally, the distribution of the resonant differential cross-section as a function of the angle of the spontaneous photon emission for the higher numbers of resonance ($r = 2, 3,... $) delineates a dependency with a sharp peak maximum that coordinates to the particle radiation at the most probable frequency. To summarize, the accomplished work represents that the resonant differential cross-section acquires considerable magnitude. Thus, for the first resonance of the channel A the resonant differential cross-section attains the $\sim 10^{12}$ order of a magnitude, and for the third resonance of the channel B $\sim 10^5$ order of a magnitude (in the units of $\alpha Z^2 r_e^2$). Finally, numerous scientific facilities with specialization in pulsed laser radiation (SLAC, FAIR, XFEL, ELI, XCELS) may experimentally verify the constructed model calculations.
翻訳日:2023-05-26 08:25:23 公開日:2020-04-05
# aubry-andr\'{e}-haper系における非マルコフ浴と結合したエッジ状態、結合状態、異常ダイナミクス

Edge state, bound state and anomalous dynamics in the Aubry-Andr\'{e}-Haper system coupled to non-Markovian baths ( http://arxiv.org/abs/2004.02201v1 )

ライセンス: Link先を確認
H. T. Cui, H. Z. Shen, M. Qin, and X. X. Yi(参考訳) 本稿では, 拘束状態と環境に従属する1次元強結合系のダイナミクスへの影響について検討した。 具体的には3種類の境界状態を特定します 1つ目は離散境界状態(DBS)であり、エネルギー準位は連続体とのギャップを示す。 DBSは、系のエッジ状態として局在化の類似した特徴を示し、したがって系の崩壊を抑制することができる。 2つ目は連続体(BIC)における境界状態であり、システム崩壊も抑制できる。 その結果,BICは局部化とエネルギーのほぼ同じ特徴を示すため,システムのエッジモードと密接に関連していることがわかった。 第3のものは連続体から大きな隙間を示し、拡張可能(局所化されていない)に振る舞う。 さらに、この状態の系の人口は部分的に減少するが、全てではない。 これは以前の2つの境界状態とは異なる。 系の1つの励起の時間発展は、境界状態の影響を説明するために研究されている。 その結果,dbsとbicは時間発展において重要な役割を担っていることがわかった。例えば,励起は局所化され,初期状態とdbsまたはbicの重なりによって減衰しない。 さらに, 単一励起は, システムが強い局在状態に陥ると, 長距離ホッピングを行う。 この特徴は、システムローカライゼーションと浴槽による長距離相関の相互作用として理解することができる。

Bound states and their influence on the dynamics of an one-dimensional tight-binding system subject to environments are studied in this paper. We identify specifically three kinds of bound states. The first is a discrete bound state (DBS), of which the energy level exhibits a gap from the continuum. The DBS exhibits the similar features of localization as the edge states in the system and thus can suppress the decay of system. The second is a bound state in the continuum (BIC), which can suppress the system decay too. It is found that the BIC is intimately connected to the edge mode of the system since both of them show almost the same features of localization and energy. The third one displays a large gap from the continuum and behaves extendible (not localized). Moreover the population of the system on this state decays partly but not all of them does. This is different from the two former bound states. The time evolution of a single excitation in the system is studied in order to illustrate the influence of the bound states. We found that both DBS and BIC play an important role in the time evolution, for example, the excitation becomes localized and not decay depending on the overlap between the initial state and the DBS or BIC. Furthermore we observe that the single excitation takes a long-range hopping when the system falls into the regime of strong localizations. This feature can be understood as the interplay of system localizations and the bath-induced long-range correlation.
翻訳日:2023-05-26 08:24:31 公開日:2020-04-05
# SUR-FeatNet: 深い特徴学習による画像圧縮のための満足度比曲線の予測

SUR-FeatNet: Predicting the Satisfied User Ratio Curvefor Image Compression with Deep Feature Learning ( http://arxiv.org/abs/2001.02002v2 )

ライセンス: Link先を確認
Hanhe Lin, Vlad Hosu, Chunling Fan, Yun Zhang, Yuchen Mu, Raouf Hamzaoui, Dietmar Saupe(参考訳) JPEG等の損失画像圧縮スキームに対する満足ユーザ比(SUR)曲線は、基準画像が歪んだものと比較された場合に被写体によって知覚される最小の歪みレベルであるジャストインタブル差(JND)の相補的な累積分布関数を特徴付ける。 JNDのシーケンスは、参照画像の適切な連続的な選択で定義することができる。 本研究では,SUR曲線の予測に初となる深層学習手法を提案する。 分布関数に適したパラメトリックモデルを選択するために、最大推定法とアンダーソン・ダーリング試験を適用する方法を示す。 次に,高次特徴学習を用いてsur曲線のサンプルを予測し,パラメトリックモデルに適合する最小二乗法を適用した。 我々のディープラーニングアプローチは、トレーニングのために基準画像と圧縮画像からなるペアを使用して、シアム畳み込みニューラルネットワーク、転送学習、ディープラーニングに依存しています。 mcl-jciデータセットの実験は最先端のパフォーマンスを示した。 例えば、予測真理第1、第2、第3JND分布の平均Bhattacharyya距離はそれぞれ0.0810、0.0702、0.00522であり、対応する第1JND分布の中央値におけるピーク信号-ノイズ比の平均絶対差は0.58、0.69、0.58dBであった。 JND-Panoデータセットのさらなる実験により、ヘッドマウントディスプレイで見られる高解像度パノラマ画像にうまく転送されることが示された。

The satisfied user ratio (SUR) curve for a lossy image compression scheme, e.g., JPEG, characterizes the complementary cumulative distribution function of the just noticeable difference (JND), the smallest distortion level that can be perceived by a subject when a reference image is compared to a distorted one. A sequence of JNDs can be defined with a suitable successive choice of reference images. We propose the first deep learning approach to predict SUR curves. We show how to apply maximum likelihood estimation and the Anderson-Darling test to select a suitable parametric model for the distribution function. We then use deep feature learning to predict samples of the SUR curve and apply the method of least squares to fit the parametric model to the predicted samples. Our deep learning approach relies on a siamese convolutional neural network, transfer learning, and deep feature learning, using pairs consisting of a reference image and a compressed image for training. Experiments on the MCL-JCI dataset showed state-of-the-art performance. For example, the mean Bhattacharyya distances between the predicted and ground truth first, second, and third JND distributions were 0.0810, 0.0702, and 0.0522, respectively, and the corresponding average absolute differences of the peak signal-to-noise ratio at a median of the first JND distribution were 0.58, 0.69, and 0.58 dB. Further experiments on the JND-Pano dataset showed that the method transfers well to high resolution panoramic images viewed on head-mounted displays.
翻訳日:2023-01-13 21:21:04 公開日:2020-04-05
# c-dlinknet: パースのためのマルチレベルセマンティクス機能の検討

C-DLinkNet: considering multi-level semantic features for human parsing ( http://arxiv.org/abs/2001.11690v2 )

ライセンス: Link先を確認
Yu Lu, Muyan Feng, Ming Wu, Chuang Zhang(参考訳) 人間のパーシングは意味的セグメンテーションの不可欠な分岐であり、人間の構成部分を特定するためのきめ細かいセグメンテーションタスクである。 人間解析の課題は、変形や多変種を解消するための効果的な意味的特徴を抽出することである。 本稿では,LinkNetをベースとしたC-DLinkNetと呼ばれるエンドツーエンドモデルを提案する。 C-DLinkNetは、LIPデータセットの検証セットでmIoU=53.05を得るという、入力サイズが小さく、追加情報がない最先端の手法と比較して、競争力のある解析性能を生み出すことができる。

Human parsing is an essential branch of semantic segmentation, which is a fine-grained semantic segmentation task to identify the constituent parts of human. The challenge of human parsing is to extract effective semantic features to resolve deformation and multi-scale variations. In this work, we proposed an end-to-end model called C-DLinkNet based on LinkNet, which contains a new module named Smooth Module to combine the multi-level features in Decoder part. C-DLinkNet is capable of producing competitive parsing performance compared with the state-of-the-art methods with smaller input sizes and no additional information, i.e., achiving mIoU=53.05 on the validation set of LIP dataset.
翻訳日:2023-01-05 06:38:00 公開日:2020-04-05
# 事前学習による視覚・言語ナビゲーションのためのジェネリックエージェントの学習

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training ( http://arxiv.org/abs/2002.10638v2 )

ライセンス: Link先を確認
Weituo Hao, Chunyuan Li, Xiujun Li, Lawrence Carin, Jianfeng Gao(参考訳) エージェントへのマルチモーダル入力は非常に可変であり、新しいタスクのトレーニングデータに制限があるため、自然言語による指示に従って視覚環境をナビゲートする学習は難しい課題である。 本稿では,視覚言語ナビゲーション(vln)タスクのための最初の事前学習および微調整パラダイムを提案する。 自己教師付き学習方法で大量の画像-テキスト-アクション三重項をトレーニングすることで、事前学習されたモデルは、視覚環境と言語指示の汎用表現を提供する。 既存のVLNフレームワークのドロップインとして簡単に使用できるため、Prevalentと呼ばれるエージェントが提案されている。 新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより一般化する。 性能は3つのVLNタスクで検証される。 Room-to-Roomベンチマークでは,パス長で重み付けられた成功率に対して,最先端の47%から51%に改善した。 さらに、学習された表現は他のVLNタスクに転送可能である。 ビジョン・アンド・ダイアログナビゲーションと "help, anna!" という2つの最近のタスクでは,提案手法が既存の方法よりも大幅に改善され,新たな最先端のアートが実現されている。

Learning to navigate in a visual environment following natural-language instructions is a challenging task, because the multimodal inputs to the agent are highly variable, and the training data on a new task is often limited. In this paper, we present the first pre-training and fine-tuning paradigm for vision-and-language navigation (VLN) tasks. By training on a large amount of image-text-action triplets in a self-supervised learning manner, the pre-trained model provides generic representations of visual environments and language instructions. It can be easily used as a drop-in for existing VLN frameworks, leading to the proposed agent called Prevalent. It learns more effectively in new tasks and generalizes better in a previously unseen environment. The performance is validated on three VLN tasks. On the Room-to-Room benchmark, our model improves the state-of-the-art from 47% to 51% on success rate weighted by path length. Further, the learned representation is transferable to other VLN tasks. On two recent tasks, vision-and-dialog navigation and "Help, Anna!" the proposed Prevalent leads to significant improvement over existing methods, achieving a new state of the art.
翻訳日:2022-12-28 20:26:57 公開日:2020-04-05
# エネルギー効率支援推定から学習支援圧縮センシングへ向けた畳み込みスパース支援推定ネットワーク(csen)

Convolutional Sparse Support Estimator Network (CSEN) From energy efficient support estimation to learning-aided Compressive Sensing ( http://arxiv.org/abs/2003.00768v2 )

ライセンス: Link先を確認
Mehmet Yamac, Mete Ahishali, Serkan Kiranyaz, Moncef Gabbouj(参考訳) スパース信号のサポート推定(se)とは、スパース表現における非零要素の位置指標を見つけることを指す。 se問題を扱う伝統的なアプローチのほとんどは、欲深い方法や最適化技術に基づいた反復アルゴリズムである。 実際、大多数は、より密度の高い測定(圧縮感度測定など)から直接ゼロでない位置をマッピングする代わりに、スパース信号回復技術を用いてサポートセットを得る。 本研究では,そのようなマッピングをトレーニングセットから学習するための新しいアプローチを提案する。 この目的を達成するため、CSEN(Convolutional Support Estimator Networks)がそれぞれコンパクトな構成で設計されている。 提案されたCSENは、以下のシナリオにとって重要なツールである。 一 異常な位置決め、同時顔認識等のための移動及び低消費電力エッジ装置にリアルタイム及び低コストの支援推定を適用することができる。 (ii)csenの出力は、スパース信号復元アルゴリズムの性能を向上させる「優先情報」として直接使用できる。 ベンチマークデータセットの結果から、最先端のパフォーマンスレベルは計算量を大幅に削減した提案手法によって達成できることが示された。

Support estimation (SE) of a sparse signal refers to finding the location indices of the non-zero elements in a sparse representation. Most of the traditional approaches dealing with SE problem are iterative algorithms based on greedy methods or optimization techniques. Indeed, a vast majority of them use sparse signal recovery techniques to obtain support sets instead of directly mapping the non-zero locations from denser measurements (e.g., Compressively Sensed Measurements). This study proposes a novel approach for learning such a mapping from a training set. To accomplish this objective, the Convolutional Support Estimator Networks (CSENs), each with a compact configuration, are designed. The proposed CSEN can be a crucial tool for the following scenarios: (i) Real-time and low-cost support estimation can be applied in any mobile and low-power edge device for anomaly localization, simultaneous face recognition, etc. (ii) CSEN's output can directly be used as "prior information" which improves the performance of sparse signal recovery algorithms. The results over the benchmark datasets show that state-of-the-art performance levels can be achieved by the proposed approach with a significantly reduced computational complexity.
翻訳日:2022-12-27 04:57:23 公開日:2020-04-05
# 高精度な非構造化データによる未計画読解予測

Predicting Unplanned Readmissions with Highly Unstructured Data ( http://arxiv.org/abs/2003.11622v2 )

ライセンス: Link先を確認
Constanza Fierro, Jorge P\'erez, Javier Mora(参考訳) 深層学習技術は、医療センターにおける患者の未計画の寛解を予測するのに成功している。 これらのモデルのトレーニングデータは、通常、入試報告書、参考書、試験ノートなどからかなりの量のフリーテキストを含む歴史的医療記録に基づいている。 これまで提案されたモデルの多くは、英語のテキストデータに合わせており、先進国では電子医療記録が標準に準拠していると仮定している。 これらの2つの特徴は、必ずしも患者情報を登録する国際基準に従わない発展途上国や、英語以外の言語にテキスト情報を格納する途上国では適用が困難である。 本稿では,従来の文献モデルに比べて構造化の少ないデータを消費する未計画の読み出し予測のためのディープラーニングアーキテクチャを提案する。 主にスペイン語のテキストデータを含む大規模な臨床データセットを用いて,このタスクの最初の結果を示す。 データセットはチリの医療センターで約10年間の記録で構成されている。 このデータセットでは、同じタスク(0.76 auroc)で米国医療センターで得られた最新の結果に匹敵する結果が得られる。

Deep learning techniques have been successfully applied to predict unplanned readmissions of patients in medical centers. The training data for these models is usually based on historical medical records that contain a significant amount of free-text from admission reports, referrals, exam notes, etc. Most of the models proposed so far are tailored to English text data and assume that electronic medical records follow standards common in developed countries. These two characteristics make them difficult to apply in developing countries that do not necessarily follow international standards for registering patient information, or that store text information in languages other than English. In this paper we propose a deep learning architecture for predicting unplanned readmissions that consumes data that is significantly less structured compared with previous models in the literature. We use it to present the first results for this task in a large clinical dataset that mainly contains Spanish text data. The dataset is composed of almost 10 years of records in a Chilean medical center. On this dataset, our model achieves results that are comparable to some of the most recent results obtained in US medical centers for the same task (0.76 AUROC).
翻訳日:2022-12-22 03:31:22 公開日:2020-04-05
# 神経輪郭:3次元形状から線を描くことを学ぶ

Neural Contours: Learning to Draw Lines from 3D Shapes ( http://arxiv.org/abs/2003.10333v3 )

ライセンス: Link先を確認
Difan Liu, Mohamed Nabail, Aaron Hertzmann, Evangelos Kalogerakis(参考訳) 本稿では,3次元モデルから線描画を学習する手法を提案する。 本アーキテクチャでは,3次元モデルの幾何学的特徴を操作可能なモジュールと,ビューに基づく形状表現を操作可能なイメージベースモジュールが組み込まれている。 テスト時には、幾何学的およびビューに基づく推論とニューラルモジュールの助けが組み合わさって線図を作成する。 このモデルは、多数のクラウドソースによる線図の比較に基づいて訓練されている。 実験により,本手法は,標準ベンチマークで評価した場合のラインドローイングの精度が向上し,経験豊富なヒトアーティストに匹敵するドローイングが得られることが示された。

This paper introduces a method for learning to generate line drawings from 3D models. Our architecture incorporates a differentiable module operating on geometric features of the 3D model, and an image-based module operating on view-based shape representations. At test time, geometric and view-based reasoning are combined with the help of a neural module to create a line drawing. The model is trained on a large number of crowdsourced comparisons of line drawings. Experiments demonstrate that our method achieves significant improvements in line drawing over the state-of-the-art when evaluated on standard benchmarks, resulting in drawings that are comparable to those produced by experienced human artists.
翻訳日:2022-12-21 00:43:30 公開日:2020-04-05
# GRATE: Aggregated Tensor Dataの例によるグラニュラーリカバリ

GRATE: Granular Recovery of Aggregated Tensor Data by Example ( http://arxiv.org/abs/2003.12666v2 )

ライセンス: Link先を確認
Ahmed S. Zamzam, Bo Yang, Nicholas D. Sidiropoulos(参考訳) 本稿では,分散例を用いて,テンソルデータの正確な分解を復元する課題について述べる。 この問題はいくつかのアプリケーションによって動機付けられている。 例えば、ある家庭でのエネルギー消費の崩壊を考えると、他の家庭で同じ期間に消費された総エネルギーをどのように分解するか? この課題に対処するために,不適切なタスクを制約付きテンソル因子化問題に変換する原理的手法であるGRATEを提案する。 そして、この最適化問題は、交互に最小二乗アルゴリズムを用いて取り組む。 GRATEは、正確な集約されたデータを扱うだけでなく、観測されていない量が集約されたデータに寄与する不正確な集約を扱うことができる。 月単位の消費から消費者にエネルギー分解を提供することを目標とするエネルギー分解問題に特に重点が置かれている。 2つの実際のデータセットの実験は、最先端のエネルギー分解法よりも正確な分解を回収するGRATEの有効性を示している。

In this paper, we address the challenge of recovering an accurate breakdown of aggregated tensor data using disaggregation examples. This problem is motivated by several applications. For example, given the breakdown of energy consumption at some homes, how can we disaggregate the total energy consumed during the same period at other homes? In order to address this challenge, we propose GRATE, a principled method that turns the ill-posed task at hand into a constrained tensor factorization problem. Then, this optimization problem is tackled using an alternating least-squares algorithm. GRATE has the ability to handle exact aggregated data as well as inexact aggregation where some unobserved quantities contribute to the aggregated data. Special emphasis is given to the energy disaggregation problem where the goal is to provide energy breakdown for consumers from their monthly aggregated consumption. Experiments on two real datasets show the efficacy of GRATE in recovering more accurate disaggregation than state-of-the-art energy disaggregation methods.
翻訳日:2022-12-19 05:36:52 公開日:2020-04-05
# Attentive CutMix: 深層学習に基づく画像分類のための拡張データ拡張アプローチ

Attentive CutMix: An Enhanced Data Augmentation Approach for Deep Learning Based Image Classification ( http://arxiv.org/abs/2003.13048v2 )

ライセンス: Link先を確認
Devesh Walawalkar, Zhiqiang Shen, Zechun Liu, Marios Savvides(参考訳) 畳み込みニューラルネットワーク(CNN)は、異なる正規化手法で堅牢な表現を学習でき、畳み込み層としての活性化は空間的に相関する。 この特性に基づき, カットアウト, ドロップブロック, カットミクスなど, 多様な地域的ドロップアウト戦略が提案されている。 これらの手法は,物体の識別部分の一部を部分的に取り除き,ネットワークの一般化を促進することを目的としている。 しかし、これらすべてがオブジェクト内の最も重要な領域をキャプチャすることなく、ランダムにこの操作を実行する。 本稿では,cutmixに基づく自然に強化された拡張戦略であるattentive cutmixを提案する。 各トレーニングイテレーションにおいて、特徴抽出器から中間注目マップに基づいて最も記述性の高い領域を選択し、画像中の最も識別性の高い部分の探索を可能にする。 提案手法は単純だが,実装が容易で,ベースラインを大幅に向上させることができる。 cifar-10/100の広範な実験により,様々なcnnアーキテクチャを用いたimagenetデータセットが提案手法の有効性を実証した。

Convolutional neural networks (CNN) are capable of learning robust representation with different regularization methods and activations as convolutional layers are spatially correlated. Based on this property, a large variety of regional dropout strategies have been proposed, such as Cutout, DropBlock, CutMix, etc. These methods aim to promote the network to generalize better by partially occluding the discriminative parts of objects. However, all of them perform this operation randomly, without capturing the most important region(s) within an object. In this paper, we propose Attentive CutMix, a naturally enhanced augmentation strategy based on CutMix. In each training iteration, we choose the most descriptive regions based on the intermediate attention maps from a feature extractor, which enables searching for the most discriminative parts in an image. Our proposed method is simple yet effective, easy to implement and can boost the baseline significantly. Extensive experiments on CIFAR-10/100, ImageNet datasets with various CNN architectures (in a unified setting) demonstrate the effectiveness of our proposed method, which consistently outperforms the baseline CutMix and other methods by a significant margin.
翻訳日:2022-12-18 13:50:09 公開日:2020-04-05
# リンゴ収穫における実時間果実認識と把持推定

Real-Time Fruit Recognition and Grasping Estimation for Autonomous Apple Harvesting ( http://arxiv.org/abs/2003.13298v2 )

ライセンス: Link先を確認
Hanwen Kang, Chao Chen(参考訳) 本研究では,自律型リンゴ収穫のための完全ニューラルネットワークに基づく視覚知覚フレームワークを提案する。 提案するフレームワークは,果実認識のための多機能ニューラルネットワークと,ロボットの実行を誘導する適切な把持姿勢を決定するポイントネット把持推定を含む。 果実認識は、RGB-DカメラからRGB画像の生の入力を受け、果実検出とインスタンスセグメンテーションを行い、各果実のポイントグルーピング推定のテイクポイントクラウドを入力として、各果実のグルーピングポーズの予測を出力する。 実験では, 実験室および果樹園から収集したrgb-d画像を用いて, 制御環境下でのロボット把持試験も行った。 実験により,提案フレームワークはロボットのつかみ動作を正確に位置決めし,推定できることが確認された。

In this research, a fully neural network based visual perception framework for autonomous apple harvesting is proposed. The proposed framework includes a multi-function neural network for fruit recognition and a Pointnet grasp estimation to determine the proper grasp pose to guide the robotic execution. Fruit recognition takes raw input of RGB images from the RGB-D camera to perform fruit detection and instance segmentation, and Pointnet grasp estimation take point cloud of each fruit as input and output the prediction of grasp pose for each of fruits. The proposed framework is validated by using RGB-D images collected from laboratory and orchard environments, a robotic grasping test in a controlled environment is also included in the experiments. Experimental shows that the proposed framework can accurately localise and estimate the grasp pose for robotic grasping.
翻訳日:2022-12-18 08:05:33 公開日:2020-04-05
# AQIL(Augmented Q Imitation Learning)

Augmented Q Imitation Learning (AQIL) ( http://arxiv.org/abs/2004.00993v2 )

ライセンス: Link先を確認
Xiao Lei Zhang, Anish Agarwal(参考訳) 教師なし学習の研究は一般的に模倣学習と強化学習の2つのカテゴリに分けられる。 模倣学習では、機械はエキスパートシステムの振る舞いを模倣して学習し、強化学習では直接環境フィードバックによって学習する。 従来の深層強化学習は、マシンが最適なポリシーに収束する前にかなりの時間がかかる。 本稿では,Q-imitation-learning を従来の深部Q-learning の初期訓練プロセスとして適用することにより,深部強化学習の収束を加速する手法である Augmented Q-Imitation-Learning を提案する。

The study of unsupervised learning can be generally divided into two categories: imitation learning and reinforcement learning. In imitation learning the machine learns by mimicking the behavior of an expert system whereas in reinforcement learning the machine learns via direct environment feedback. Traditional deep reinforcement learning takes a significant time before the machine starts to converge to an optimal policy. This paper proposes Augmented Q-Imitation-Learning, a method by which deep reinforcement learning convergence can be accelerated by applying Q-imitation-learning as the initial training process in traditional Deep Q-learning.
翻訳日:2022-12-18 00:11:45 公開日:2020-04-05
# covariatesを用いたモデルベースクラスタリングアルゴリズムによる第i期非小細胞肺癌成層化

Stage I non-small cell lung cancer stratification by using a model-based clustering algorithm with covariates ( http://arxiv.org/abs/2004.02333v1 )

ライセンス: Link先を確認
Carlos Relvas and Andr\'e Fujita(参考訳) 肺癌は現在、がんの死因として主要なものとなっている。 i期非小細胞肺癌(nsclc)、特に腺癌と診断された患者数は増加している。 ステージi患者の30-40-%が再発し、10-30-%が再発により死亡すると推定され、追加治療によって恩恵を受けるサブグループの存在が明らかに示唆されている。 NSCLCサブグループを同定する現在の試みは、診断年齢や分化年齢などの共変量の影響で失敗し、その結果を隠蔽する可能性があるという仮説を立てた。 この文脈で、ステージI NSCLCを成層化するために、クラスタリング過程における望ましくない共変量の影響を最小化するモデルベースのクラスタリングアルゴリズムであるCEM-Coを提案する。 CEM-CoをステージI NSCLCと診断された129名の被験者からなる遺伝子発現データセットに適用し,異なる表現型(予後不良)のサブグループを同定したが,標準クラスタリングアルゴリズムは失敗した。

Lung cancer is currently the leading cause of cancer deaths. Among various subtypes, the number of patients diagnosed with stage I non-small cell lung cancer (NSCLC), particularly adenocarcinoma, has been increasing. It is estimated that 30 - 40\% of stage I patients will relapse, and 10 - 30\% will die due to recurrence, clearly suggesting the presence of a subgroup that could be benefited by additional therapy. We hypothesize that current attempts to identify stage I NSCLC subgroup failed due to covariate effects, such as the age at diagnosis and differentiation, which may be masking the results. In this context, to stratify stage I NSCLC, we propose CEM-Co, a model-based clustering algorithm that removes/minimizes the effects of undesirable covariates during the clustering process. We applied CEM-Co on a gene expression data set composed of 129 subjects diagnosed with stage I NSCLC and successfully identified a subgroup with a significantly different phenotype (poor prognosis), while standard clustering algorithms failed.
翻訳日:2022-12-16 13:28:36 公開日:2020-04-05
# 自動交通シナリオ分類のための教師なしランダムフォレストクラスタリング手法

An Unsupervised Random Forest Clustering Technique for Automatic Traffic Scenario Categorization ( http://arxiv.org/abs/2004.02121v1 )

ライセンス: Link先を確認
Friedrich Kruber, Jonas Wurst, Michael Botsch(参考訳) 本稿では,交通状況の分類のためのランダムフォレストアルゴリズムの修正について述べる。 この手順は教師なしの機械学習手法をもたらす。 このアルゴリズムは類似度測度を含む近接行列を生成する。 この行列は、グラフィカルに解釈可能な表現を達成するために階層的クラスタリングで並べ替えられる。 得られた近接行列がどのように視覚的に解釈され、メソッドのメタパラメータの変化がデータに対する異なる洞察を明らかにするかを示す。 提案手法は任意のデータソースからデータをクラスタリングすることができる。 提案手法の可能性を示すために,交通シミュレーションから得られた複数の特徴を用いた。 トラフィックシナリオクラスタの知識は、検証プロセスの高速化に不可欠である。 この手法の手がかりは、実際の交通状況からシナリオテンプレートを自動生成できることである。 これらのテンプレートは開発プロセスのすべての段階で利用できる。 その結果,この手法は交通シナリオの自動分類に適していることがわかった。 他の様々なアプリケーションもこの仕事の恩恵を受けることができる。

A modification of the Random Forest algorithm for the categorization of traffic situations is introduced in this paper. The procedure yields an unsupervised machine learning method. The algorithm generates a proximity matrix which contains a similarity measure. This matrix is then reordered with hierarchical clustering to achieve a graphically interpretable representation. It is shown how the resulting proximity matrix can be visually interpreted and how the variation of the methods' metaparameter reveals different insights into the data. The proposed method is able to cluster data from any data source. To demonstrate the methods' potential, multiple features derived from a traffic simulation are used in this paper. The knowledge of traffic scenario clusters is crucial to accelerate the validation process. The clue of the method is that scenario templates can be generated automatically from actual traffic situations. These templates can be employed in all stages of the development process. The results prove that the procedure is well suited for an automatic categorization of traffic scenarios. Diverse other applications can benefit from this work.
翻訳日:2022-12-16 13:21:57 公開日:2020-04-05
# トラヒックシナリオクラスタリングと分類のためのランダムフォレストアルゴリズムによる教師なし学習

Unsupervised and Supervised Learning with the Random Forest Algorithm for Traffic Scenario Clustering and Classification ( http://arxiv.org/abs/2004.02126v1 )

ライセンス: Link先を確認
Friedrich Kruber, Jonas Wurst, Eduardo S\'anchez Morales, Samarjit Chakraborty, Michael Botsch(参考訳) 本論文の目的は,トラフィックシナリオのカテゴリを自動的に見つける手法を提供することである。 アーキテクチャは3つの主要コンポーネントで構成されている: 顕微鏡的トラフィックシミュレーション、クラスタリング技術、および運用フェーズの分類技術である。 開発したシミュレーションツールは、相互の依存関係を維持しながら、各車両を別々にモデル化する。 クラスタリングアプローチは、すべてのシナリオ間でデータ適応的類似度尺度を見つけるために、修正されていないランダムフォレストアルゴリズムから成り立っている。 その一例として、ランダムフォレストアルゴリズムに基づく類似性を決定する新しい手法である経路近接について述べる。 クラスタリングの第2部では、クラスタのセットを定義するために類似性が使用される。 第3部では、ランダムフォレスト分類器が、運用フェーズで定義されたクラスタを使用して訓練される。 クラス割り当てに対する一定の信頼性レベルを確保するために、しきい値化手法を記述する。 この方法は高速道路のシナリオに適用できる。 その結果,提案手法は交通シナリオを自動的に分類する優れた手法であり,特に自律走行車の機能テストに関係があることが示唆された。

The goal of this paper is to provide a method, which is able to find categories of traffic scenarios automatically. The architecture consists of three main components: A microscopic traffic simulation, a clustering technique and a classification technique for the operational phase. The developed simulation tool models each vehicle separately, while maintaining the dependencies between each other. The clustering approach consists of a modified unsupervised Random Forest algorithm to find a data adaptive similarity measure between all scenarios. As part of this, the path proximity, a novel technique to determine a similarity based on the Random Forest algorithm is presented. In the second part of the clustering, the similarities are used to define a set of clusters. In the third part, a Random Forest classifier is trained using the defined clusters for the operational phase. A thresholding technique is described to ensure a certain confidence level for the class assignment. The method is applied for highway scenarios. The results show that the proposed method is an excellent approach to automatically categorize traffic scenarios, which is particularly relevant for testing autonomous vehicle functionality.
翻訳日:2022-12-16 13:21:45 公開日:2020-04-05
# 専門知識のマイニング形:畳み込みニューラルネットワークに基づく新しいアプローチ

Mining Shape of Expertise: A Novel Approach Based on Convolutional Neural Network ( http://arxiv.org/abs/2004.02184v1 )

ライセンス: Link先を確認
Mahdi Dehghan, Hossein A. Rahmani, Ahmad Ali Abin, Viet-Vu Vu(参考訳) エキスパート発見は、ユーザクエリの対象となる有能な人材を検索し、ランク付けするタスクに対処する。 これはコミュニティ質問回答ネットワークにおける実践的な問題である。 求人に知識のある人材を探しているリクルーターは、専門家探しシステムの最も重要な顧客である。 従業員の専門知識に加えて、新しいスタッフを採用するコストも組織にとって重要な懸念事項である。 この懸念に対処する効果的な解決策は、コスト効率のよいT字型のエキスパートを雇うことです。 本研究では,畳み込みニューラルネットワークに基づくT字型エキスパートのための新しい深層モデルを提案する。 提案モデルでは,クエリとユーザを対応文書から局所的および位置不変な特徴を抽出することによってマッチングを試みる。 言い換えれば、ユーザのドキュメントとクエリのパターンを同時に学習することで、ユーザの専門知識の形状を検出する。 提案モデルには2つの並列CNNが組み込まれており、それに対応する文書に基づいてユーザとクエリの潜在ベクトルを抽出し、最後のレイヤでそれらを結合してユーザとクエリをマッチングする。 Stack Overflowドキュメントの大規模なサブセットに関する実験は、提案手法がNDCG, MRR, ERR評価指標のベースラインに対して有効であることを示す。

Expert finding addresses the task of retrieving and ranking talented people on the subject of user query. It is a practical issue in the Community Question Answering networks. Recruiters looking for knowledgeable people for their job positions are the most important clients of expert finding systems. In addition to employee expertise, the cost of hiring new staff is another significant concern for organizations. An efficient solution to cope with this concern is to hire T-shaped experts that are cost-effective. In this study, we have proposed a new deep model for T-shaped experts finding based on Convolutional Neural Networks. The proposed model tries to match queries and users by extracting local and position-invariant features from their corresponding documents. In other words, it detects users' shape of expertise by learning patterns from documents of users and queries simultaneously. The proposed model contains two parallel CNN's that extract latent vectors of users and queries based on their corresponding documents and join them together in the last layer to match queries with users. Experiments on a large subset of Stack Overflow documents indicate the effectiveness of the proposed method against baselines in terms of NDCG, MRR, and ERR evaluation metrics.
翻訳日:2022-12-16 13:20:48 公開日:2020-04-05
# 汚れたデータをクリーニングせずに学習する

Learning Over Dirty Data Without Cleaning ( http://arxiv.org/abs/2004.02308v1 )

ライセンス: Link先を確認
Jose Picado, John Davis, Arash Termehchy, Ga Young Lee(参考訳) 現実世界のデータセットは汚く、多くのエラーを含んでいる。 これらの問題の例としては、整合性制約の違反、重複、データ値とエンティティの表現における矛盾などがある。 汚いデータベース上での学習は、不正確なモデルをもたらす可能性がある。 ユーザはデータエラーを修復し、学習のためのクリーンなデータベースを作成するために、多くの時間と労力を費やす必要があります。 さらに、これらのエラーを修正するために必要な情報が入手できないため、汚いデータベースのクリーンバージョンが多数存在する可能性がある。 本稿では,前処理なしに汚いデータベースを直接効率よく,効率的に学習する新しい関係学習システムDLearnを提案する。 dlearnは一貫性のない異種データよりも正確な関係モデルを学ぶためにデータベースの制約を利用する。 学習したモデルは、可能なすべてのデータのクリーンなインスタンスのパターンを使用可能な形式で表現する。 実験の結果,dlearnは大規模実世界のデータベース上で正確なモデルを効率的に学習できることがわかった。

Real-world datasets are dirty and contain many errors. Examples of these issues are violations of integrity constraints, duplicates, and inconsistencies in representing data values and entities. Learning over dirty databases may result in inaccurate models. Users have to spend a great deal of time and effort to repair data errors and create a clean database for learning. Moreover, as the information required to repair these errors is not often available, there may be numerous possible clean versions for a dirty database. We propose DLearn, a novel relational learning system that learns directly over dirty databases effectively and efficiently without any preprocessing. DLearn leverages database constraints to learn accurate relational models over inconsistent and heterogeneous data. Its learned models represent patterns over all possible clean instances of the data in a usable form. Our empirical study indicates that DLearn learns accurate models over large real-world databases efficiently.
翻訳日:2022-12-16 13:20:09 公開日:2020-04-05
# エッジコンピューティングを用いたIoTネットワークにおけるリソース割り当てのためのマルチエージェント強化学習

Multi-agent Reinforcement Learning for Resource Allocation in IoT networks with Edge Computing ( http://arxiv.org/abs/2004.02315v1 )

ライセンス: Link先を確認
Xiaolan Liu, Jiadong Yu, Yue Gao(参考訳) 仮想現実、モバイルゲーム、ウェアラブルデバイスといった一般的なIoT(Internet of Things)アプリケーションをサポートするために、エッジコンピューティングは、低レイテンシで集中型クラウドコンピューティングのフロントエンド分散コンピューティングアーティタイプを提供する。 しかし、スペクトルや計算リソースやRadio Access Technology(RAT)の頻繁な要求に対する大きな要求のために、エンドユーザが計算をオフロードすることは難しい。 本稿では,iotエッジコンピューティングネットワークにおけるリソース割り当てを伴う計算オフロード機構について,確率ゲームとして定式化することにより検討する。 ここでは、各エンドユーザは、そのローカル環境を観察してローカルコンピューティングまたはエッジコンピューティングのいずれかの最適決定を学習し、送信電力レベル、RAT、サブチャネルを選択することで、他のエンドユーザの情報を知らずに、長期システムコストを最小化する。 そこで,多エージェント強化学習フレームワークを開発し,独立学習者に基づく多エージェントq-learning (il-based ma-q) アルゴリズムを提案する。 シミュレーションにより,提案したILベースのMA-Qアルゴリズムは定式化問題を解くことが可能であり,他の2つのベンチマークアルゴリズムと比較して,集中ゲートウェイでのチャネル推定に余分なコストを要さずにエネルギー効率がよいことを示した。

To support popular Internet of Things (IoT) applications such as virtual reality, mobile games and wearable devices, edge computing provides a front-end distributed computing archetype of centralized cloud computing with low latency. However, it's challenging for end users to offload computation due to their massive requirements on spectrum and computation resources and frequent requests on Radio Access Technology (RAT). In this paper, we investigate computation offloading mechanism with resource allocation in IoT edge computing networks by formulating it as a stochastic game. Here, each end user is a learning agent observing its local environment to learn optimal decisions on either local computing or edge computing with the goal of minimizing long term system cost by choosing its transmit power level, RAT and sub-channel without knowing any information of the other end users. Therefore, a multi-agent reinforcement learning framework is developed to solve the stochastic game with a proposed independent learners based multi-agent Q-learning (IL-based MA-Q) algorithm. Simulations demonstrate that the proposed IL-based MA-Q algorithm is feasible to solve the formulated problem and is more energy efficient without extra cost on channel estimation at the centralized gateway compared to the other two benchmark algorithms.
翻訳日:2022-12-16 13:19:57 公開日:2020-04-05
# 不均質エネルギ材料のための設計枠組による合成微細構造生成のための深層学習

Deep learning for synthetic microstructure generation in a materials-by-design framework for heterogeneous energetic materials ( http://arxiv.org/abs/2004.04814v1 )

ライセンス: Link先を確認
Sehyun Chun, Sidhartha Roy, Yen Thi Nguyen, Joseph B. Choi, H.S. Udaykumar, Stephen S. Baek(参考訳) ヘテロジニアスエネルギー(HE)材料の感度(推進剤、爆発物、熱工学)は、その微細構造に大きく依存する。 化学反応の開始は、多孔質やその他の欠陥の部位におけるエネルギーの局在によるホットスポットで起こる。 負荷に対するHE応答のマルチスケール予測モデルは、メソスケールでの物理学、すなわち、統計学的に代表される粒子クラスターのスケールやその他のミクロ構造における特徴を説明する。 メソスケール物理は、メソスケールの解決されたシミュレーションによって得られた機械学習クロージャモデルに注入される。 ミクロ構造は確率的であるため、メソスケールシミュレーションのアンサンブルはホットスポット点火と成長を定量化し、ミクロ構造に依存したエネルギー沈着速度のモデルを開発するために必要である。 本稿では, 合成ヘテロジニアス系エネルギー材料マイクロ構造のアンサンブルを生成するために, GAN(Generative Adversarial Network)を活用することを提案する。 HE微細構造の画像から学習することにより、定性的かつ定量的に現実的な微構造を生成する。 また,提案手法により,ポロシティ分布の制御と空間的操作が可能な新しい形態素の生成が可能となった。 このような制御は、新規なマイクロ構造の設計において、材料・バイ・デザイン・フレームワークにおける目標性能のためのHE材料を設計する方法である。

The sensitivity of heterogeneous energetic (HE) materials (propellants, explosives, and pyrotechnics) is critically dependent on their microstructure. Initiation of chemical reactions occurs at hot spots due to energy localization at sites of porosities and other defects. Emerging multi-scale predictive models of HE response to loads account for the physics at the meso-scale, i.e. at the scale of statistically representative clusters of particles and other features in the microstructure. Meso-scale physics is infused in machine-learned closure models informed by resolved meso-scale simulations. Since microstructures are stochastic, ensembles of meso-scale simulations are required to quantify hot spot ignition and growth and to develop models for microstructure-dependent energy deposition rates. We propose utilizing generative adversarial networks (GAN) to spawn ensembles of synthetic heterogeneous energetic material microstructures. The method generates qualitatively and quantitatively realistic microstructures by learning from images of HE microstructures. We show that the proposed GAN method also permits the generation of new morphologies, where the porosity distribution can be controlled and spatially manipulated. Such control paves the way for the design of novel microstructures to engineer HE materials for targeted performance in a materials-by-design framework.
翻訳日:2022-12-16 13:19:39 公開日:2020-04-05
# Webページクローリングにおける変化速度推定と最適鮮度

Change Rate Estimation and Optimal Freshness in Web Page Crawling ( http://arxiv.org/abs/2004.02167v1 )

ライセンス: Link先を確認
Konstantin Avrachenkov, Kishor Patil, Gugan Thoppe(参考訳) 素早く正確な結果を提供するため、検索エンジンはウェブ全体のローカルスナップショットを維持する。 そして、このローカルキャッシュを新鮮に保つために、様々なウェブページにまたがる変更を追跡するクローラを使用している。 しかしながら、帯域幅の制限とサーバの制限は、クローリング周波数にいくつかの制約を課している。 したがって、理想的なクローリングレートは、ローカルキャッシュの鮮度を最大化し、上記の制約を尊重するものである。 Azarらは最近、この最適化問題を解決するためのトラクタブルアルゴリズムを提案した。 しかし、実際には現実的ではない正確なページ変更率の知識を想定している。 ここでこの問題に対処する。 具体的には,ページ変更率のオンライン推定のための2つの新しい手法を提案する。 どちらのスキームもページ変更プロセスに関する部分的な情報のみを必要とする。すなわち、ページが最後のクロールされたインスタンス以降に変更されたかどうかを知る必要がある。 これらのスキームの両方について、収束性を証明するとともに、収束率も導出する。 最後に,提案した推定器の性能と既存の推定器(MLEなど)を比較した数値実験を行った。

For providing quick and accurate results, a search engine maintains a local snapshot of the entire web. And, to keep this local cache fresh, it employs a crawler for tracking changes across various web pages. However, finite bandwidth availability and server restrictions impose some constraints on the crawling frequency. Consequently, the ideal crawling rates are the ones that maximise the freshness of the local cache and also respect the above constraints. Azar et al. 2018 recently proposed a tractable algorithm to solve this optimisation problem. However, they assume the knowledge of the exact page change rates, which is unrealistic in practice. We address this issue here. Specifically, we provide two novel schemes for online estimation of page change rates. Both schemes only need partial information about the page change process, i.e., they only need to know if the page has changed or not since the last crawled instance. For both these schemes, we prove convergence and, also, derive their convergence rates. Finally, we provide some numerical experiments to compare the performance of our proposed estimators with the existing ones (e.g., MLE).
翻訳日:2022-12-16 13:19:20 公開日:2020-04-05
# ビジュアルダイアログのための反復的文脈認識グラフ推論

Iterative Context-Aware Graph Inference for Visual Dialog ( http://arxiv.org/abs/2004.02194v1 )

ライセンス: Link先を確認
Dan Guo, Hui Wang, Hanwang Zhang, Zheng-Jun Zha, Meng Wang(参考訳) ビジュアルダイアログは、暗黙の視覚的およびテキスト的コンテキスト間の意味的依存関係の理解を必要とする難しいタスクである。 このタスクは、スパースコンテキストと未知のグラフ構造(関係記述子)を持つグラフィカルモデルにおける関係推論と、基礎となるコンテキスト・アウェア関係推論のモデル化が重要である。 そこで本研究では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。 グラフの各ノードは、オブジェクトベース(視覚)および履歴関連(テキスト)コンテキスト表現を含む、共同意味機能に対応している。 グラフ構造(ダイアログ内の関係)は、適応型トップ$k$メッセージパッシングメカニズムを使用して反復的に更新される。 具体的には、すべてのメッセージパスステップで、各ノードは最も$k$の関連するノードを選択し、それらからのみメッセージを受信する。 そして、更新後、最後のグラフを埋め込んで答えを推測するために、すべてのノードにグラフの注意を向けます。 CAGでは、各ノードはグラフ内の動的関係(微分関連$K$隣接ノード)を持ち、最も関連性の高いノードのみが文脈対応リレーショナルグラフの推論に起因している。 VisDial v0.9とv1.0データセットの実験的結果は、CAGが比較法より優れていることを示している。 可視化結果はさらに,本手法の解釈可能性を検証する。

Visual dialog is a challenging task that requires the comprehension of the semantic dependencies among implicit visual and textual contexts. This task can refer to the relation inference in a graphical model with sparse contexts and unknown graph structure (relation descriptor), and how to model the underlying context-aware relation inference is critical. To this end, we propose a novel Context-Aware Graph (CAG) neural network. Each node in the graph corresponds to a joint semantic feature, including both object-based (visual) and history-related (textual) context representations. The graph structure (relations in dialog) is iteratively updated using an adaptive top-$K$ message passing mechanism. Specifically, in every message passing step, each node selects the most $K$ relevant nodes, and only receives messages from them. Then, after the update, we impose graph attention on all the nodes to get the final graph embedding and infer the answer. In CAG, each node has dynamic relations in the graph (different related $K$ neighbor nodes), and only the most relevant nodes are attributive to the context-aware relational graph inference. Experimental results on VisDial v0.9 and v1.0 datasets show that CAG outperforms comparative methods. Visualization results further validate the interpretability of our method.
翻訳日:2022-12-16 13:13:27 公開日:2020-04-05
# 特徴超解像に基づく多次元低解像顔の表情認識

Feature Super-Resolution Based Facial Expression Recognition for Multi-scale Low-Resolution Faces ( http://arxiv.org/abs/2004.02234v1 )

ライセンス: Link先を確認
Wei Jing, Feng Tian, Jizhong Zhang, Kuo-Ming Chao, Zhenxin Hong, Xu Liu(参考訳) 低解像度画像上での表情認識(fer)は,群衆シナリオ(駅,教室など)におけるグループ表現認識などの応用には不可欠である。 小さめの顔画像を正しい表現カテゴリーに分類することは依然として難しい課題である。 この問題の主な原因は、解像度の低下による識別的特徴の喪失である。 超解像法はしばしば低解像度画像を強化するために用いられるが、非常に低解像度の画像ではferタスクの性能が制限される。 本研究では,オブジェクト検出のための特徴超解像法に触発されて,頑健な表情認識(FSR-FER)のための新たな生成逆ネットワークに基づく特徴レベル超解像法を提案する。 特に、予め訓練されたFERモデルを特徴抽出器として使用し、低解像度および原高解像度の画像から抽出された特徴により、ジェネレータネットワークGと判別器ネットワークDを訓練する。 ジェネレータネットワークgは、解像度の低い画像の特徴を、対応する高解像度画像に近づけることで、より識別的な画像に変換しようとする。 分類性能を向上するために,固定FERモデルにより算出された分類確率に基づいて,分類を誤分類し易くするための効果的な分類認識損失再重み付け手法を提案する。 real-world affective faces (raf) データベースを用いた実験により,単一のモデルで様々なダウンサンプル因子を満足させ,画像の超解像と表現認識を別々に用いた手法と比較して,低解像度画像での性能が向上することを示した。

Facial Expressions Recognition(FER) on low-resolution images is necessary for applications like group expression recognition in crowd scenarios(station, classroom etc.). Classifying a small size facial image into the right expression category is still a challenging task. The main cause of this problem is the loss of discriminative feature due to reduced resolution. Super-resolution method is often used to enhance low-resolution images, but the performance on FER task is limited when on images of very low resolution. In this work, inspired by feature super-resolution methods for object detection, we proposed a novel generative adversary network-based feature level super-resolution method for robust facial expression recognition(FSR-FER). In particular, a pre-trained FER model was employed as feature extractor, and a generator network G and a discriminator network D are trained with features extracted from images of low resolution and original high resolution. Generator network G tries to transform features of low-resolution images to more discriminative ones by making them closer to the ones of corresponding high-resolution images. For better classification performance, we also proposed an effective classification-aware loss re-weighting strategy based on the classification probability calculated by a fixed FER model to make our model focus more on samples that are easily misclassified. Experiment results on Real-World Affective Faces (RAF) Database demonstrate that our method achieves satisfying results on various down-sample factors with a single model and has better performance on low-resolution images compared with methods using image super-resolution and expression recognition separately.
翻訳日:2022-12-16 13:12:46 公開日:2020-04-05
# 局所的なピクセル統計を超越した自己監督型特徴学習

Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics ( http://arxiv.org/abs/2004.02331v1 )

ライセンス: Link先を確認
Simon Jenni, Hailin Jin, Paolo Favaro(参考訳) 本稿では,画像の特定の変換の識別に基づく自己教師付き特徴学習のための新しい原理を提案する。 学習した特徴の一般化能力は、異なる画像変換を識別するのに十分な画像近傍サイズに依存する、と我々は主張する: 必要な近傍サイズが大きいほど、その特徴が記述できる画像統計はよりグローバルになる。 グローバルな画像統計の正確な記述は、オブジェクトの形状と構成をより良く表現し、最終的にはオブジェクトの分類や検出といった新しいタスクに良く一般化する。 これは画像変換を選択し設計する基準を示唆している。 この基準に基づき,限定的文脈インペイント(LCI)と呼ばれる新しい画像変換を導入する。 この変換は、小さな長方形のピクセル境界(限られたコンテキスト)にのみ条件付きイメージパッチを印字する。 境界情報に制限があるため、インパインターは局所的なピクセルの統計にマッチすることを学べるが、画像のグローバル統計にマッチする可能性は低い。 我々は、画像回転やワーピングなどの変換の性能を正当化するために同じ原理が使用できると主張する。 実際、我々は、LCI、画像ワープ、回転などの変換を識別する学習が、Pascal VOC、STL-10、CelebA、ImageNetなどのいくつかのデータセット上で、アート一般化能力の状態を特徴付けることを示した。 驚くべきことに、トレーニングされた機能はimagenetラベルによる教師付き学習で訓練された機能と同等の性能を達成しています。

We introduce a novel principle for self-supervised feature learning based on the discrimination of specific transformations of an image. We argue that the generalization capability of learned features depends on what image neighborhood size is sufficient to discriminate different image transformations: The larger the required neighborhood size and the more global the image statistics that the feature can describe. An accurate description of global image statistics allows to better represent the shape and configuration of objects and their context, which ultimately generalizes better to new tasks such as object classification and detection. This suggests a criterion to choose and design image transformations. Based on this criterion, we introduce a novel image transformation that we call limited context inpainting (LCI). This transformation inpaints an image patch conditioned only on a small rectangular pixel boundary (the limited context). Because of the limited boundary information, the inpainter can learn to match local pixel statistics, but is unlikely to match the global statistics of the image. We claim that the same principle can be used to justify the performance of transformations such as image rotations and warping. Indeed, we demonstrate experimentally that learning to discriminate transformations such as LCI, image warping and rotations, yields features with state of the art generalization capabilities on several datasets such as Pascal VOC, STL-10, CelebA, and ImageNet. Remarkably, our trained features achieve a performance on Places on par with features trained through supervised learning with ImageNet labels.
翻訳日:2022-12-16 13:11:57 公開日:2020-04-05
# 知覚色空間の非パラメトリックデータ解析

Nonparametric Data Analysis on the Space of Perceived Colors ( http://arxiv.org/abs/2004.03402v1 )

ライセンス: Link先を確認
Vic Patrangenaru and Yifang Deng(参考訳) 3dの世界を動き回るためには、3種類の網膜円錐を通して行われる3つの画像認識チャネルに依存する生活者の視覚システムが必要である。 Newton, Grasmann, Helmholz, Schr$\ddot{o}$dingerは、色のついた視覚を理解するために必要な基本的な仮定を説明した。 このような概念は、知覚される色の空間を3次元同質空間として想像したResnikoffによってもたらされた。 この記事では、resnikoff 3d 等質空間モデル上のランダムな対象と見なされる色について述べる。 機械視覚における色分化の2つの応用を, 知覚色に対するユークリッドモデルに適用した統計的手法に適用した。

Moving around in a 3D world, requires the visual system of a living individual to rely on three channels of image recognition, which is done through three types of retinal cones. Newton, Grasmann, Helmholz and Schr$\ddot{o}$dinger laid down the basic assumptions needed to understand colored vision. Such concepts were furthered by Resnikoff, who imagined the space of perceived colors as a 3D homogeneous space. This article is concerned with perceived colors regarded as random objects on a Resnikoff 3D homogeneous space model. Two applications to color differentiation in machine vision are illustrated for the proposed statistical methodology, applied to the Euclidean model for perceived colors.
翻訳日:2022-12-16 13:11:36 公開日:2020-04-05
# SincNetとXベクトル融合を用いた話者認識

Speaker Recognition using SincNet and X-Vector Fusion ( http://arxiv.org/abs/2004.02219v1 )

ライセンス: Link先を確認
Mayank Tripathi, Divyanshu Singh, Seba Susan(参考訳) 本稿では,最近導入された2つのディープニューラルネットワーク(dnn)であるsincnetとx-vectorを用いて,話者認識を行うための革新的な手法を提案する。 生音声波形上でSincNetフィルタを使用する背景にある考え方は、CNNアーキテクチャの初期畳み込み層において、より区別された周波数関連の特徴を抽出することである。 X-Vectorsは、この埋め込みが可変長音声発話から固定次元特徴を抽出する効率的な方法であるという事実を生かし、CNNの手法では困難であり、速度と精度の両面において効率的である。 我々のアプローチは、後層のXベクターを結合し、深層モデルの初期の層にSincNetフィルタを使用することによって、両方の世界の長所を利用する。 このアプローチにより、ネットワークはよりうまく埋め込み、より早く収束することができる。 これまでの研究ではx-vectorフィルタやsincnetフィルタ、あるいはいくつかの修正が用いられてきましたが、我々はこの2つの技術を組み合わせて音声信号に関するより多くの情報を集め、より良い結果を得る新しい融合アーキテクチャを導入しました。 提案手法は話者認識のためのvoxceleb1データセットに着目し,トレーニングとテストの両方に使用している。

In this paper, we propose an innovative approach to perform speaker recognition by fusing two recently introduced deep neural networks (DNNs) namely - SincNet and X-Vector. The idea behind using SincNet filters on the raw speech waveform is to extract more distinguishing frequency-related features in the initial convolution layers of the CNN architecture. X-Vectors are used to take advantage of the fact that this embedding is an efficient method to churn out fixed dimension features from variable length speech utterances, something which is challenging in plain CNN techniques, making it efficient both in terms of speed and accuracy. Our approach uses the best of both worlds by combining X-vector in the later layers while using SincNet filters in the initial layers of our deep model. This approach allows the network to learn better embedding and converge quicker. Previous works use either X-Vector or SincNet Filters or some modifications, however we introduce a novel fusion architecture wherein we have combined both the techniques to gather more information about the speech signal hence, giving us better results. Our method focuses on the VoxCeleb1 dataset for speaker recognition, and we have used it for both training and testing purposes.
翻訳日:2022-12-16 13:11:25 公開日:2020-04-05
# DeepFLASH: 学習型医用画像登録のための効率的なネットワーク

DeepFLASH: An Efficient Network for Learning-based Medical Image Registration ( http://arxiv.org/abs/2004.02097v1 )

ライセンス: Link先を確認
Jian Wang, Miaomiao Zhang(参考訳) 本稿では,学習型医用画像登録のためのトレーニングと推論を効率的に行う新しいネットワークであるDeepFLASHを提案する。 高次元画像空間におけるトレーニングデータから空間変換を学習する既存のアプローチとは対照的に,我々は低次元帯域制限空間における新しい登録ネットワークを開発する。 これにより、高価なトレーニングと推論の計算コストとメモリフットプリントが劇的に削減される。 この目的を達成するために,まず,学習ベースの登録モデルに重要なコンポーネントを提供するニューラルネットワークの複雑な演算と表現を導入する。 次に、パラメータ化の少ない帯域制限空間に特徴付けられる変換場の明示的な損失関数を構築する。 実験結果から,本手法は最先端の深層学習に基づく画像登録法よりもはるかに高速であり,高精度なアライメントが得られた。 我々は2次元合成データと3次元実脳磁気共鳴(MR)画像の2つの異なる画像登録法でアルゴリズムを実証した。 私たちのコードはhttps://github.com/jw4hv/deepflashで利用可能です。

This paper presents DeepFLASH, a novel network with efficient training and inference for learning-based medical image registration. In contrast to existing approaches that learn spatial transformations from training data in the high dimensional imaging space, we develop a new registration network entirely in a low dimensional bandlimited space. This dramatically reduces the computational cost and memory footprint of an expensive training and inference. To achieve this goal, we first introduce complex-valued operations and representations of neural architectures that provide key components for learning-based registration models. We then construct an explicit loss function of transformation fields fully characterized in a bandlimited space with much fewer parameterizations. Experimental results show that our method is significantly faster than the state-of-the-art deep learning based image registration methods, while producing equally accurate alignment. We demonstrate our algorithm in two different applications of image registration: 2D synthetic data and 3D real brain magnetic resonance (MR) images. Our code is available at https://github.com/jw4hv/deepflash.
翻訳日:2022-12-16 13:11:03 公開日:2020-04-05
# 深層コンビネート幾何埋め込みと構造整合性規則化による光場空間超解像

Light Field Spatial Super-resolution via Deep Combinatorial Geometry Embedding and Structural Consistency Regularization ( http://arxiv.org/abs/2004.02215v1 )

ライセンス: Link先を確認
Jing Jin and Junhui Hou and Jie Chen and Sam Kwong(参考訳) ハンドヘルドデバイスが取得した光フィールド(LF)画像は通常、限られたサンプリングリソースを角次元と共有する必要があるため、空間分解能の低下に悩まされる。 したがって、LF空間超解像(SR)はLFカメラ処理パイプラインの必須部分となる。 LF画像の高次元特性と複雑な幾何学構造は、従来の単一像SRよりも難しい。 既存の手法の性能は、lfビュー間のコヒーレンスを徹底的に探索できず、シーンのパララックス構造を正確に保存できないため、まだ限られている。 本稿では,合成幾何埋め込みによる視点間の相補的情報を探索し,lf画像の各視点を個別に超解く学習ベースlf空間srフレームワークを提案する。 再構成されたビュー間のパララックス構造を正確に保存するために、構造認識損失関数上でトレーニングされた正規化ネットワークを付加し、中間推定に対する正確なパララックス関係を強制する。 提案手法は,合成シーンと実世界のシーンの両方を含む多数のテスト画像を含むデータセット上で評価される。 実験の結果,提案手法は平均PSNRを1.0dB以上改善するだけでなく,より正確な視差の詳細をより少ない計算コストで保存する。

Light field (LF) images acquired by hand-held devices usually suffer from low spatial resolution as the limited sampling resources have to be shared with the angular dimension. LF spatial super-resolution (SR) thus becomes an indispensable part of the LF camera processing pipeline. The high-dimensionality characteristic and complex geometrical structure of LF images make the problem more challenging than traditional single-image SR. The performance of existing methods is still limited as they fail to thoroughly explore the coherence among LF views and are insufficient in accurately preserving the parallax structure of the scene. In this paper, we propose a novel learning-based LF spatial SR framework, in which each view of an LF image is first individually super-resolved by exploring the complementary information among views with combinatorial geometry embedding. For accurate preservation of the parallax structure among the reconstructed views, a regularization network trained over a structure-aware loss function is subsequently appended to enforce correct parallax relationships over the intermediate estimation. Our proposed approach is evaluated over datasets with a large number of testing images including both synthetic and real-world scenes. Experimental results demonstrate the advantage of our approach over state-of-the-art methods, i.e., our method not only improves the average PSNR by more than 1.0 dB but also preserves more accurate parallax details, at a lower computational cost.
翻訳日:2022-12-16 13:10:47 公開日:2020-04-05
# 心臓MRIにおけるMulti-Label Fusionを用いた自動右室セグメンテーション

Automatic Right Ventricle Segmentation using Multi-Label Fusion in Cardiac MRI ( http://arxiv.org/abs/2004.02317v1 )

ライセンス: Link先を確認
Maria A. Zuluaga and M. Jorge Cardoso and S\'ebastien Ourselin(参考訳) 右室の正確なセグメンテーション(rv)は、心室の構造と機能を評価する上で重要なステップである。 しかし、複雑な解剖学とRVの運動分節化は左心室ほど大きく研究されていない。 本稿では,心磁気共鳴画像(MRI)におけるRVのセグメンテーションを完全自動で行う手法を提案する。 本手法は,マルチアトラス伝搬セグメンテーションフレームワークと組み合わせた粗大なセグメンテーション戦略を用いる。 クロス相関メトリックに基づいて,提案手法は伝播の各イテレーションにおけるセグメンテーションの精細化を可能にするための最善のアトラスを選択する。 提案手法は,心臓MRIにおけるRVセグメンテーションチャレンジによって提供される32個の心MRIデータセットを用いて評価した。

Accurate segmentation of the right ventricle (RV) is a crucial step in the assessment of the ventricular structure and function. Yet, due to its complex anatomy and motion segmentation of the RV has not been as largely studied as the left ventricle. This paper presents a fully automatic method for the segmentation of the RV in cardiac magnetic resonance images (MRI). The method uses a coarse-to-fine segmentation strategy in combination with a multi-atlas propagation segmentation framework. Based on a cross correlation metric, our method selects the best atlases for propagation allowing the refinement of the segmentation at each iteration of the propagation. The proposed method was evaluated on 32 cardiac MRI datasets provided by the RV Segmentation Challenge in Cardiac MRI.
翻訳日:2022-12-16 13:10:24 公開日:2020-04-05
# 3次元シーン補完のための異方性畳み込みネットワーク

Anisotropic Convolutional Networks for 3D Semantic Scene Completion ( http://arxiv.org/abs/2004.02122v1 )

ライセンス: Link先を確認
Jie Li, Kai Han, Peng Wang, Yu Liu, Xia Yuan(参考訳) ボクセルワイドなラベリングタスクとして、セマンティックシーン補完(SSC)は、単一の深さおよび/またはRGB画像からシーンの占有度とセマンティックラベルを同時に推測しようとする。 SSCの鍵となる課題は、3Dコンテキストを効果的に活用して、形状、レイアウト、可視性に大きなバリエーションを持つさまざまなオブジェクトやものをモデル化する方法である。 このような変動に対処するために、標準的な3D畳み込みやそのバリエーションといった競合する手法に対して、柔軟性とパワーを持つ特性を持つ異方性畳み込みと呼ばれる新しいモジュールを提案する。 固定された3次元受容場に制限される標準的な3次元畳み込みとは対照的に、我々のモジュールは次元異方性ボクセルを賢明にモデル化することができる。 基本的な考え方は、3D畳み込みを3つの連続した1D畳み込みに分解することで異方性3D受容場を実現し、そのような1D畳み込みごとにカーネルサイズを適応的に決定する。 複数の異方性畳み込みモジュールを積み重ねることで、制御可能なモデルパラメータを保ちながら、ボクセルワイズ・モデリング能力をさらに強化することができる。 2つのSSCベンチマーク(NYU-Depth-v2とNYUCAD)において,提案手法の優れた性能を示す。 私たちのコードはhttps://waterljwant.github.io/SSC/で利用可能です。

As a voxel-wise labeling task, semantic scene completion (SSC) tries to simultaneously infer the occupancy and semantic labels for a scene from a single depth and/or RGB image. The key challenge for SSC is how to effectively take advantage of the 3D context to model various objects or stuffs with severe variations in shapes, layouts and visibility. To handle such variations, we propose a novel module called anisotropic convolution, which properties with flexibility and power impossible for the competing methods such as standard 3D convolution and some of its variations. In contrast to the standard 3D convolution that is limited to a fixed 3D receptive field, our module is capable of modeling the dimensional anisotropy voxel-wisely. The basic idea is to enable anisotropic 3D receptive field by decomposing a 3D convolution into three consecutive 1D convolutions, and the kernel size for each such 1D convolution is adaptively determined on the fly. By stacking multiple such anisotropic convolution modules, the voxel-wise modeling capability can be further enhanced while maintaining a controllable amount of model parameters. Extensive experiments on two SSC benchmarks, NYU-Depth-v2 and NYUCAD, show the superior performance of the proposed method. Our code is available at https://waterljwant.github.io/SSC/
翻訳日:2022-12-16 13:03:38 公開日:2020-04-05
# 動的シーンの深部ホログラフィー推定

Deep Homography Estimation for Dynamic Scenes ( http://arxiv.org/abs/2004.02132v1 )

ライセンス: Link先を確認
Hoang Le, Feng Liu, Shu Zhang, and Aseem Agarwala(参考訳) ホログラフィー推定は多くのコンピュータビジョン問題において重要なステップである。 近年,ディープニューラルネットワーク法は従来の手法と比較してこの問題に好適であることが示されている。 しかし、これらの新しい手法は入力画像の動的コンテンツを考慮していない。 彼らは、ホモグラフを使って完全に整列できるイメージペアのみでニューラルネットワークを訓練する。 本稿では,動的シーンを扱う深層ニューラルネットワークの設計と訓練について考察する。 まず,動的コンテンツを用いた大規模ビデオデータセットを収集する。 そして、複数のスケールのニューラルネットワークを開発し、新しいデータセットを使って適切にトレーニングすると、このニューラルネットワークが既にある程度ダイナミックなシーンを処理できることを示します。 より原理的な方法で動的シーンのホモグラフィーを推定するには、動的内容を特定する必要がある。 動的コンテンツ検出とホモグラフィ推定は2つの密結合タスクであるので,マルチタスク学習の原則に従い,ダイナミクスマスクとホモグラフィを共同で推定できるように,マルチスケールネットワークを強化した。 提案手法は, 動的シーン, ぼやけたアーティファクト, テクスチャの欠如といった難題に対して, ホログラフィーを頑健に推定できることを示す。

Homography estimation is an important step in many computer vision problems. Recently, deep neural network methods have shown to be favorable for this problem when compared to traditional methods. However, these new methods do not consider dynamic content in input images. They train neural networks with only image pairs that can be perfectly aligned using homographies. This paper investigates and discusses how to design and train a deep neural network that handles dynamic scenes. We first collect a large video dataset with dynamic content. We then develop a multi-scale neural network and show that when properly trained using our new dataset, this neural network can already handle dynamic scenes to some extent. To estimate a homography of a dynamic scene in a more principled way, we need to identify the dynamic content. Since dynamic content detection and homography estimation are two tightly coupled tasks, we follow the multi-task learning principles and augment our multi-scale network such that it jointly estimates the dynamics masks and homographies. Our experiments show that our method can robustly estimate homography for challenging scenarios with dynamic scenes, blur artifacts, or lack of textures.
翻訳日:2022-12-16 13:03:13 公開日:2020-04-05
# 電子顕微鏡画像のセマンティックセグメンテーションのための逆予測誘導マルチタスク適応

Adversarial-Prediction Guided Multi-task Adaptation for Semantic Segmentation of Electron Microscopy Images ( http://arxiv.org/abs/2004.02134v1 )

ライセンス: Link先を確認
Jiajin Yi, Zhimin Yuan, Jialin Peng(参考訳) セマンティックセグメンテーションは電子顕微鏡(EM)画像解析に不可欠なステップである。 教師付きモデルは大きな進歩を遂げているが、労働集約的なピクセル単位のアノテーションの必要性は大きな限界である。 さらに複雑化するため、教師付き学習モデルでは、ドメインシフトによる新しいデータセットではうまく一般化できない。 本研究では,新しいラベルなし対象領域で使用するための訓練済みモデルの適応性を学ぶために,逆予測誘導型マルチタスクネットワークを提案する。 対象領域にはラベルがないため、ソースドメイン上の教師付きセグメント化だけでなく、教師なしのターゲットデータの再構成についても符号化表現を学習する。 幾何学的手がかりを用いた識別能力の向上のために, 意味予測空間における多レベル逆学習による表現学習を指導する。 パブリックベンチマークの比較とアブレーション調査により, 現状と提案手法の有効性が示された。

Semantic segmentation is an essential step for electron microscopy (EM) image analysis. Although supervised models have achieved significant progress, the need for labor intensive pixel-wise annotation is a major limitation. To complicate matters further, supervised learning models may not generalize well on a novel dataset due to domain shift. In this study, we introduce an adversarial-prediction guided multi-task network to learn the adaptation of a well-trained model for use on a novel unlabeled target domain. Since no label is available on target domain, we learn an encoding representation not only for the supervised segmentation on source domain but also for unsupervised reconstruction of the target data. To improve the discriminative ability with geometrical cues, we further guide the representation learning by multi-level adversarial learning in semantic prediction space. Comparisons and ablation study on public benchmark demonstrated state-of-the-art performance and effectiveness of our approach.
翻訳日:2022-12-16 13:02:34 公開日:2020-04-05
# bisenet v2:リアルタイム意味セマンティクスセグメンテーションのためのアグリゲーション付きバイラテラルネットワーク

BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time Semantic Segmentation ( http://arxiv.org/abs/2004.02147v1 )

ライセンス: Link先を確認
Changqian Yu, Changxin Gao, Jingbo Wang, Gang Yu, Chunhua Shen, Nong Sang(参考訳) 低レベルの詳細と高レベルのセマンティクスはどちらもセマンティクスセグメンテーションタスクに不可欠である。 しかし、モデル推論を高速化するために、現在のアプローチはほとんど常に低レベルの詳細を犠牲にしている。 本稿では,これらの空間的詳細と分類的意味論を個別に扱い,リアルタイムなセマンティックセグメンテーションのための高精度かつ高効率なセマンティックセグメンテーションを実現することを提案する。 この目的のために,バイラテラルセグメンテーションネットワーク (BiSeNet V2) と呼ばれる,速度と精度のトレードオフの良い効率的かつ効率的なアーキテクチャを提案する。 このアーキテクチャは: (i)低レベルな細部をキャプチャし、高分解能な特徴表現を生成するために、幅の広いチャネルと浅い層を備えた細部ブランチ (ii) 細いチャネルと深い層を持つセマンティックブランチで、高いレベルのセマンティックコンテキストを得る。 セマンティクスブランチは、チャネル容量の削減と高速ダウンサンプリング戦略のために軽量である。 さらに,相互接続性を高め,両タイプの特徴表現を融合させるガイドアグリゲーション層を設計する。 さらに、余分な推論コストを伴わずにセグメンテーション性能を向上させるためにブースタートレーニング戦略が設計されている。 広範な量的・質的評価は、提案されたアーキテクチャがいくつかの最先端のリアルタイムセマンティクスセグメンテーションアプローチに対して好適に機能することを示している。 具体的には、2,048x1,024の入力に対して、Cityscapesテストセットで72.6%のMean IoUを、NVIDIA GeForce GTX 1080 Tiカードで156 FPSの速度で達成します。

The low-level details and high-level semantics are both essential to the semantic segmentation task. However, to speed up the model inference, current approaches almost always sacrifice the low-level details, which leads to a considerable accuracy decrease. We propose to treat these spatial details and categorical semantics separately to achieve high accuracy and high efficiency for realtime semantic segmentation. To this end, we propose an efficient and effective architecture with a good trade-off between speed and accuracy, termed Bilateral Segmentation Network (BiSeNet V2). This architecture involves: (i) a Detail Branch, with wide channels and shallow layers to capture low-level details and generate high-resolution feature representation; (ii) a Semantic Branch, with narrow channels and deep layers to obtain high-level semantic context. The Semantic Branch is lightweight due to reducing the channel capacity and a fast-downsampling strategy. Furthermore, we design a Guided Aggregation Layer to enhance mutual connections and fuse both types of feature representation. Besides, a booster training strategy is designed to improve the segmentation performance without any extra inference cost. Extensive quantitative and qualitative evaluations demonstrate that the proposed architecture performs favourably against a few state-of-the-art real-time semantic segmentation approaches. Specifically, for a 2,048x1,024 input, we achieve 72.6% Mean IoU on the Cityscapes test set with a speed of 156 FPS on one NVIDIA GeForce GTX 1080 Ti card, which is significantly faster than existing methods, yet we achieve better segmentation accuracy.
翻訳日:2022-12-16 13:02:09 公開日:2020-04-05
# 情報誘導強化学習戦略による立体対話生成

Stylistic Dialogue Generation via Information-Guided Reinforcement Learning Strategy ( http://arxiv.org/abs/2004.02202v1 )

ライセンス: Link先を確認
Yixuan Su, Deng Cai, Yan Wang, Simon Baker, Anna Korhonen, Nigel Collier, Xiaojiang Liu(参考訳) スタイリスティック応答生成は産業用対話システムの構築に不可欠である。 研究の関心は高いが、既存の手法は内容の質(関連性や流布性)を犠牲にしてスタイリスティックな応答を生成することが多い。 コンテンツ品質とスタイルのバランスを改善するため,IG-RL(Information-Guided Reinforcement Learning)と呼ばれる新たなトレーニング戦略を導入する。 IG-RLでは、コンテンツ品質の維持を制約しながら、スタイル表現を探索するトレーニングモデルが推奨されている。 これは,品質保全のための統計的スタイル情報ガイダンスを用いた強化学習戦略を採用することで達成される。 2つのデータセットの実験により、提案手法は、全体の応答性能において、いくつかの強いベースラインを上回ります。

Stylistic response generation is crucial for building an engaging dialogue system for industrial use. While it has attracted much research interest, existing methods often generate stylistic responses at the cost of the content quality (relevance and fluency). To enable better balance between the content quality and the style, we introduce a new training strategy, know as Information-Guided Reinforcement Learning (IG-RL). In IG-RL, a training model is encouraged to explore stylistic expressions while being constrained to maintain its content quality. This is achieved by adopting reinforcement learning strategy with statistical style information guidance for quality-preserving explorations. Experiments on two datasets show that the proposed approach outperforms several strong baselines in terms of the overall response performance.
翻訳日:2022-12-16 12:54:48 公開日:2020-04-05
# Prototype-to-Style: 検索メモリ上でのスタイル認識編集による対話生成

Prototype-to-Style: Dialogue Generation with Style-Aware Editing on Retrieval Memory ( http://arxiv.org/abs/2004.02214v1 )

ライセンス: Link先を確認
Yixuan Su, Yan Wang, Simon Baker, Deng Cai, Xiaojiang Liu, Anna Korhonen, Nigel Collier(参考訳) 会話中に事前に特定された言語スタイルを表現するダイアログシステムの能力は、ユーザビリティとユーザの満足度に直接的なポジティブな影響を与える。 文体対話生成の課題を解決するために,新しいプロトタイプ・ツー・スタイル(PS)フレームワークを導入する。 このフレームワークは、IR(Information Retrieval)システムを使用して、検索した応答から応答プロトタイプを抽出する。 スタイリスティック応答生成器は、プロトタイプと所望の言語スタイルをモデル入力として、高品質でスタイリスティックな応答を得る。 提案手法を効果的に学習するために,新しいスタイル認識学習目標と非ノイズ学習戦略を提案する。 2つの言語から得られた3つのベンチマークデータセットの結果、提案手法はドメイン内およびドメイン間の評価において既存のベースラインを大幅に上回ることを示した。

The ability of a dialog system to express prespecified language style during conversations has a direct, positive impact on its usability and on user satisfaction. We introduce a new prototype-to-style (PS) framework to tackle the challenge of stylistic dialogue generation. The framework uses an Information Retrieval (IR) system and extracts a response prototype from the retrieved response. A stylistic response generator then takes the prototype and the desired language style as model input to obtain a high-quality and stylistic response. To effectively train the proposed model, we propose a new style-aware learning objective as well as a de-noising learning strategy. Results on three benchmark datasets from two languages demonstrate that the proposed approach significantly outperforms existing baselines in both in-domain and cross-domain evaluations
翻訳日:2022-12-16 12:54:24 公開日:2020-04-05
# 多レベル学習による階層型エンティティのランク付け

Hierarchical Entity Typing via Multi-level Learning to Rank ( http://arxiv.org/abs/2004.02286v1 )

ライセンス: Link先を確認
Tongfei Chen, Yunmo Chen, Benjamin Van Durme(参考訳) 学習と予測の両方においてオントロジ構造を包含する階層的実体分類法を提案する。 学習において,本研究では,正の型と負の兄弟姉妹の型木による正の型を比較した。 予測中、既に予測されている親タイプ(s)に基づいて、オントロジーの各レベルにおいて実行可能な候補を制限する粗大なデコーダを定義する。 我々は複数のデータセット、特に厳密な正確性に関して最先端を達成する。

We propose a novel method for hierarchical entity classification that embraces ontological structure at both training and during prediction. At training, our novel multi-level learning-to-rank loss compares positive types against negative siblings according to the type tree. During prediction, we define a coarse-to-fine decoder that restricts viable candidates at each level of the ontology based on already predicted parent type(s). We achieve state-of-the-art across multiple datasets, particularly with respect to strict accuracy.
翻訳日:2022-12-16 12:53:52 公開日:2020-04-05
# トラックとドローンによる二車線のルーティング問題

The two-echelon routing problem with truck and drones ( http://arxiv.org/abs/2004.02275v1 )

ライセンス: Link先を確認
Minh Ho\`ang H\`a and Lam Vu and Duy Manh Vu(参考訳) 本稿では,トラックが1台の車体と1台のドローン群を中間車庫に輸送するために1台目の車体で作業し,2台目の車体が中間車庫から顧客へ荷物を配送する,有名な2台の車体経路問題の新しい変種について検討する。 目的は、古典的な2車線の経路問題のように、輸送コストの代わりに完成時間を最小化することである。 状況によっては、中間補給所のトラックから一度(シングルトリップドローン)または複数回(複数回のトリップドローン)でドローンを発射することができる。 混合整数線形計画法(MILP)モデルが最初に提案され、数学的に問題を定式化し、最小サイズのインスタンスに最適化する。 より大きなインスタンスを扱うために、Greedy Randomized Adaptive Search procedure (GRASP)というアイデアに基づくメタヒューリスティックを導入する。 異なる状況の事例で得られた実験結果を報告し分析した。

In this paper, we study novel variants of the well-known two-echelon vehicle routing problem in which a truck works on the first echelon to transport parcels and a fleet of drones to intermediate depots while in the second echelon, the drones are used to deliver parcels from intermediate depots to customers. The objective is to minimize the completion time instead of the transportation cost as in classical 2-echelon vehicle routing problems. Depending on the context, a drone can be launched from the truck at an intermediate depot once (single trip drone) or several times (multiple trip drone). Mixed Integer Linear Programming (MILP) models are first proposed to formulate mathematically the problems and solve to optimality small-size instances. To handle larger instances, a metaheuristic based on the idea of Greedy Randomized Adaptive Search Procedure (GRASP) is introduced. Experimental results obtained on instances of different contexts are reported and analyzed.
翻訳日:2022-12-16 12:53:03 公開日:2020-04-05
# 自然知能システムとAIで学ぶ形態論的計算と学習

Morphological Computation and Learning to Learn In Natural Intelligent Systems And AI ( http://arxiv.org/abs/2004.02304v1 )

ライセンス: Link先を確認
Gordana Dodig-Crnkovic(参考訳) 現在、機械学習の形での人工知能は、特にディープラーニング(dl)の分野で驚くべき進歩を遂げています[1]。 深層学習のアルゴリズムは、脳機能に関する私たちの不完全な知識にもかかわらず、自然、特に人間の脳からインスピレーションを受けている。 自然から学ぶことは、[2][3][4]で論じられるように双方向のプロセスであり、コンピューティングは神経科学から学び、神経科学は素早く情報処理モデルを採用する。 問題は、開発段階での計算的性質からのインスピレーションは、ディープラーニングと、機械学習におけるモデルと実験がいかにして神経科学と認知科学の研究を動機付け、正当化し、リードし、人工知能の実践的な応用に寄与するかである。

At present, artificial intelligence in the form of machine learning is making impressive progress, especially the field of deep learning (DL) [1]. Deep learning algorithms have been inspired from the beginning by nature, specifically by the human brain, in spite of our incomplete knowledge about its brain function. Learning from nature is a two-way process as discussed in [2][3][4], computing is learning from neuroscience, while neuroscience is quickly adopting information processing models. The question is, what can the inspiration from computational nature at this stage of the development contribute to deep learning and how much models and experiments in machine learning can motivate, justify and lead research in neuroscience and cognitive science and to practical applications of artificial intelligence.
翻訳日:2022-12-16 12:52:45 公開日:2020-04-05
# gDLS*: スケールと重力を前提とした一般化されたPose-and-Scaleの推定

gDLS*: Generalized Pose-and-Scale Estimation Given Scale and Gravity Priors ( http://arxiv.org/abs/2004.02052v1 )

ライセンス: Link先を確認
Victor Fragoso, Joseph DeGol, Gang Hua(参考訳) 拡張現実(ar)や3dマッピング、ロボット工学における現実世界のアプリケーションの多くは、複数のカメラや1つの移動カメラで撮影された複数の画像から、カメラのポーズとスケールを高速かつ正確に推定する必要がある。 ポーズ・アンド・スケール推定器における高速達成と高精度維持は、しばしば目標と矛盾する。 両方を同時に達成するために、ソリューション空間に関する事前知識を利用する。 回転とスケールプリエントを利用した一般化カメラモデルのポーズ・アンド・スケール推定器であるgdls*を提案する。 gDLS*は、アプリケーションが各前のコントリビューションを柔軟に測定することを可能にする。 最先端の汎用・大規模推定器(gDLSなど)と比較して、合成データと実データの両方に対する実験は、gDLS*が推定プロセスを加速し、スケールを改善し、精度を向上することを示す。

Many real-world applications in augmented reality (AR), 3D mapping, and robotics require both fast and accurate estimation of camera poses and scales from multiple images captured by multiple cameras or a single moving camera. Achieving high speed and maintaining high accuracy in a pose-and-scale estimator are often conflicting goals. To simultaneously achieve both, we exploit a priori knowledge about the solution space. We present gDLS*, a generalized-camera-model pose-and-scale estimator that utilizes rotation and scale priors. gDLS* allows an application to flexibly weigh the contribution of each prior, which is important since priors often come from noisy sensors. Compared to state-of-the-art generalized-pose-and-scale estimators (e.g., gDLS), our experiments on both synthetic and real data consistently demonstrate that gDLS* accelerates the estimation process and improves scale and pose accuracy.
翻訳日:2022-12-16 12:52:30 公開日:2020-04-05
# データ-テキスト生成のための機械翻訳事前学習-チェコの事例研究

Machine Translation Pre-training for Data-to-Text Generation -- A Case Study in Czech ( http://arxiv.org/abs/2004.02077v1 )

ライセンス: Link先を確認
Mihir Kale and Scott Roy(参考訳) 構造化データからテキストを生成するための深層学習法を研究する研究は多数存在するが、ほとんどが英語に焦点をあてている。 本稿では,非英語言語におけるテキスト生成のための機械翻訳による事前学習の有効性について検討する。 構造化されたデータは一般に英語で表現されるため、他の言語へのテキスト生成には、神経機械翻訳システムで既にエンコードされている翻訳、翻訳、複製要素の要素が含まれる。 さらに、データ対テキストコーパスは通常小さいため、このタスクは事前トレーニングの恩恵を受ける可能性がある。 形態学的に複雑な言語であるチェコにおける我々の実験に基づいて、自動測定と人的評価によって判断されるように、事前学習によって、パフォーマンスを大幅に向上したエンドツーエンドモデルをトレーニングできることがわかった。 また,このアプローチは,低データシナリオのパフォーマンス向上やスロット値の取得が容易なロバスト性など,いくつかの望ましい特性を享受できることを示す。

While there is a large body of research studying deep learning methods for text generation from structured data, almost all of it focuses purely on English. In this paper, we study the effectiveness of machine translation based pre-training for data-to-text generation in non-English languages. Since the structured data is generally expressed in English, text generation into other languages involves elements of translation, transliteration and copying - elements already encoded in neural machine translation systems. Moreover, since data-to-text corpora are typically small, this task can benefit greatly from pre-training. Based on our experiments on Czech, a morphologically complex language, we find that pre-training lets us train end-to-end models with significantly improved performance, as judged by automatic metrics and human evaluation. We also show that this approach enjoys several desirable properties, including improved performance in low data scenarios and robustness to unseen slot values.
翻訳日:2022-12-16 12:45:35 公開日:2020-04-05
# チャチノの言語形態研究の資源

A Resource for Studying Chatino Verbal Morphology ( http://arxiv.org/abs/2004.02083v1 )

ライセンス: Link先を確認
Hilaria Cruz, Gregory Stump, and Antonios Anastasopoulos(参考訳) メキシコで話されているメソアメリカ語サンフアン・キアヒエ・チャティノの言語的抑揚形態に焦点をあてた最初の資料を紹介する。 我々はUniMorphスキーマに基づく形態的タグ付き198レマタの完全なインフレクションテーブルのコレクションを提供する。 また, 形態素解析, 補間, 形態素変換の3つのコアnlpタスクについて基礎的結果を提供する。

We present the first resource focusing on the verbal inflectional morphology of San Juan Quiahije Chatino, a tonal mesoamerican language spoken in Mexico. We provide a collection of complete inflection tables of 198 lemmata, with morphological tags based on the UniMorph schema. We also provide baseline results on three core NLP tasks: morphological analysis, lemmatization, and morphological inflection.
翻訳日:2022-12-16 12:45:21 公開日:2020-04-05
# GIANT: Webスケールオントロジーのスケーラブルな創造

GIANT: Scalable Creation of a Web-scale Ontology ( http://arxiv.org/abs/2004.02118v1 )

ライセンス: Link先を確認
Bang Liu, Weidong Guo, Di Niu, Jinwen Luo, Chaoyue Wang, Zhen Wen, Yu Xu(参考訳) オンラインユーザーが何に注意を払うかを理解することは、コンテンツレコメンデーションや検索サービスの鍵となる。 これらのサービスは、エンティティ、概念、イベント、トピック、カテゴリの高度に構造化され、webスケールのオントロジーの恩恵を受ける。 既存の知識基盤や分類体系は多数のエンティティやカテゴリを具現化しているが,オンライン人口の言語スタイルにおける概念や事象,トピックを適切に把握することはできなかった。 どちらも論理的に構造化されたオントロジーではない。 本稿では,ユーザ中心のwebスケールで構造化オントロジーを構築するためのメカニズムであるジャイアントについて述べる。多数のweb文書と検索クリックグラフから抽出した,さまざまな粒度でユーザの注意に合った多数の自然言語句を含む。 様々な種類のエッジもオントロジーの階層を維持するために構築されている。 本稿では,GIANTで使用されるグラフニューラルネットワーク技術について述べるとともに,提案手法を各種ベースラインと比較して評価する。 GIANTはAttention Ontologyを作成した。これはTencentのさまざまなアプリケーションに10億人以上のユーザが参加してデプロイされている。 tencent qqブラウザ上でのオンラインa/bテストでは、ニュースレコメンデーションのクリックスルー率を大幅に向上できる。

Understanding what online users may pay attention to is key to content recommendation and search services. These services will benefit from a highly structured and web-scale ontology of entities, concepts, events, topics and categories. While existing knowledge bases and taxonomies embody a large volume of entities and categories, we argue that they fail to discover properly grained concepts, events and topics in the language style of online population. Neither is a logically structured ontology maintained among these notions. In this paper, we present GIANT, a mechanism to construct a user-centered, web-scale, structured ontology, containing a large number of natural language phrases conforming to user attentions at various granularities, mined from a vast volume of web documents and search click graphs. Various types of edges are also constructed to maintain a hierarchy in the ontology. We present our graph-neural-network-based techniques used in GIANT, and evaluate the proposed methods as compared to a variety of baselines. GIANT has produced the Attention Ontology, which has been deployed in various Tencent applications involving over a billion users. Online A/B testing performed on Tencent QQ Browser shows that Attention Ontology can significantly improve click-through rates in news recommendation.
翻訳日:2022-12-16 12:44:56 公開日:2020-04-05
# ニューラルネットワーク翻訳のための一般化障壁の検出と理解

Detecting and Understanding Generalization Barriers for Neural Machine Translation ( http://arxiv.org/abs/2004.02181v1 )

ライセンス: Link先を確認
Guanlin Li, Lemao Liu, Conghui Zhu, Tiejun Zhao, Shuming Shi(参考訳) 未知のインスタンスへの一般化は、すべてのデータ駆動モデルに対する永遠の追求です。 しかし、機械翻訳のような現実的なタスクでは、平均的な意味での一般化を測定する従来のアプローチは、きめ細かい一般化能力の理解に乏しい。 そこで本論文では,不明瞭な文中の一般化障壁語を,微細な一般化の劣化に起因して識別し,理解しようとする。 本稿では,一般化障壁単語の原理定義と,計算において扱いやすい修正版を提案する。 そこで本研究では,提案手法を改良したバリア検出法として,反事実生成による探索・認識リスク推定法を提案する。 次に,zh$\leftrightarrow$en nistベンチマークにおいて検出された一般化障壁語の広範囲な分析を行った。 検出された障壁語の使用可能性についても論じる。

Generalization to unseen instances is our eternal pursuit for all data-driven models. However, for realistic task like machine translation, the traditional approach measuring generalization in an average sense provides poor understanding for the fine-grained generalization ability. As a remedy, this paper attempts to identify and understand generalization barrier words within an unseen input sentence that \textit{cause} the degradation of fine-grained generalization. We propose a principled definition of generalization barrier words and a modified version which is tractable in computation. Based on the modified one, we propose three simple methods for barrier detection by the search-aware risk estimation through counterfactual generation. We then conduct extensive analyses on those detected generalization barrier words on both Zh$\Leftrightarrow$En NIST benchmarks from various perspectives. Potential usage of the detected barrier words is also discussed.
翻訳日:2022-12-16 12:43:35 公開日:2020-04-05
# AR: ニューラルネットワーク翻訳のための合成データの自動修復

AR: Auto-Repair the Synthetic Data for Neural Machine Translation ( http://arxiv.org/abs/2004.02196v1 )

ライセンス: Link先を確認
Shanbo Cheng, Shaohui Kuang, Rongxiang Weng, Heng Yu, Changfeng Zhu, Weihua Luo(参考訳) 学習コーパスとして限定された真の並列データのみを使用するのに比べ、nmtトレーニングプロセスにバック翻訳(bt)やフォワード翻訳(ft、セルフトレーニング)によって生成された合成並列データを組み込むことで、翻訳品質が大幅に向上することが多くの研究で証明されている。 しかし、よく知られた欠点として、不完全なnmtシステムによって生成されるため、合成並列データはノイズが多い。 その結果,合成並列データによる翻訳品質の向上が著しく減少した。 本稿では,合成データの質を向上させるための新しい自動修復(AR)フレームワークを提案する。 提案するarモデルは,btとftを用いた大規模単言語データに基づいて,低品質(ノイズ)入力文から高品質文への変換を学習できる。 合成並列データのノイズはarモデルによって十分に除去され、修理された合成並列データはnmtモデルがより大きな改善を達成するのに役立つ。 実験結果から,本手法は合成並列データの品質を効果的に向上し,修復された合成データを用いてnmtモデルが両wmt14エンに一貫した改善を達成できることがわかった。 デとiwslt14 de! EN翻訳タスク。

Compared with only using limited authentic parallel data as training corpus, many studies have proved that incorporating synthetic parallel data, which generated by back translation (BT) or forward translation (FT, or selftraining), into the NMT training process can significantly improve translation quality. However, as a well-known shortcoming, synthetic parallel data is noisy because they are generated by an imperfect NMT system. As a result, the improvements in translation quality bring by the synthetic parallel data are greatly diminished. In this paper, we propose a novel Auto- Repair (AR) framework to improve the quality of synthetic data. Our proposed AR model can learn the transformation from low quality (noisy) input sentence to high quality sentence based on large scale monolingual data with BT and FT techniques. The noise in synthetic parallel data will be sufficiently eliminated by the proposed AR model and then the repaired synthetic parallel data can help the NMT models to achieve larger improvements. Experimental results show that our approach can effective improve the quality of synthetic parallel data and the NMT model with the repaired synthetic data achieves consistent improvements on both WMT14 EN!DE and IWSLT14 DE!EN translation tasks.
翻訳日:2022-12-16 12:43:14 公開日:2020-04-05
# LiDARデータによる考古学的特徴の学習と認識

Learning and Recognizing Archeological Features from LiDAR Data ( http://arxiv.org/abs/2004.02099v1 )

ライセンス: Link先を確認
Conrad M Albrecht, Chris Fisher, Marcus Freitag, Hendrik F Hamann, Sharathchandra Pankanti, Florencia Pezzutti, Francesca Rossi(参考訳) 我々は,IBM PAIRS Geoscope などの大規模地理空間データプラットフォームにおける考古学的特徴検出の応用を目的として,LiDAR (Light Detection and Ranging) データを処理するリモートセンシングパイプラインを提案する。 今日、考古学者たちは、地上の検査の関心領域を特定するために、大量のlidarデータを視覚的に調査する作業に圧倒されている。 私たちは、少数のアーティファクトを欠きながら、専門家の生産性という観点でかなりの節約をもたらすソフトウェアシステムパイプラインを紹介します。 本研究は、ニューラルネットワークと、ドメイン知識に基づく効率的な空間分割手順を併用する。 データ処理は、古構造物の植生被覆と崩壊により、限られた量のトレーニングラベルとノイズの多いLiDAR信号によって制限される。 ドメインの専門家が自身のニーズに応じてパラメータを柔軟に調整できるように,考古学的アーティファクトを用いた地理空間領域の識別を監督的に行う。

We present a remote sensing pipeline that processes LiDAR (Light Detection And Ranging) data through machine & deep learning for the application of archeological feature detection on big geo-spatial data platforms such as e.g. IBM PAIRS Geoscope. Today, archeologists get overwhelmed by the task of visually surveying huge amounts of (raw) LiDAR data in order to identify areas of interest for inspection on the ground. We showcase a software system pipeline that results in significant savings in terms of expert productivity while missing only a small fraction of the artifacts. Our work employs artificial neural networks in conjunction with an efficient spatial segmentation procedure based on domain knowledge. Data processing is constraint by a limited amount of training labels and noisy LiDAR signals due to vegetation cover and decay of ancient structures. We aim at identifying geo-spatial areas with archeological artifacts in a supervised fashion allowing the domain expert to flexibly tune parameters based on her needs.
翻訳日:2022-12-16 12:37:47 公開日:2020-04-05
# ビデオ注文のためのディープマルチモーダル特徴符号化

Deep Multimodal Feature Encoding for Video Ordering ( http://arxiv.org/abs/2004.02205v1 )

ライセンス: Link先を確認
Vivek Sharma and Makarand Tapaswi and Rainer Stiefelhagen(参考訳) ビデオの真の理解は、ビデオフレーム、オーディオトラック、クローズドキャプションなどの付随するテキストなど、すべてのモダリティを共同で分析することに由来する。 これらすべてのモダリティをエンコードするコンパクトなマルチモーダルな特徴表現を学ぶ方法を提案する。 モデルパラメータは、タイムライン内の無順序ビデオの集合の時間順序を推測するプロキシタスクによって学習される。 この目的のために,我々は,「大規模映画記述チャレンジ」に基づいて,約30Kシーン(2-6クリップ)からなる時間順序付けのための新しいマルチモーダルデータセットを作成する。 我々は3つの課題における個人と共同モダリティの分析と評価を行う。 (i)一連のビデオの時間順序を推測すること。 (ii)行動認識。 我々は、マルチモーダル表現が確かに相補的であり、多くのアプリケーションの性能向上において重要な役割を果たすことを実証的に示す。

True understanding of videos comes from a joint analysis of all its modalities: the video frames, the audio track, and any accompanying text such as closed captions. We present a way to learn a compact multimodal feature representation that encodes all these modalities. Our model parameters are learned through a proxy task of inferring the temporal ordering of a set of unordered videos in a timeline. To this end, we create a new multimodal dataset for temporal ordering that consists of approximately 30K scenes (2-6 clips per scene) based on the "Large Scale Movie Description Challenge". We analyze and evaluate the individual and joint modalities on three challenging tasks: (i) inferring the temporal ordering of a set of videos; and (ii) action recognition. We demonstrate empirically that multimodal representations are indeed complementary, and can play a key role in improving the performance of many applications.
翻訳日:2022-12-16 12:37:12 公開日:2020-04-05
# CondenseUNet:両室血液プールと心筋セグメンテーションのためのメモリ効率の良いコンデンス接続アーキテクチャ

CondenseUNet: A Memory-Efficient Condensely-Connected Architecture for Bi-ventricular Blood Pool and Myocardium Segmentation ( http://arxiv.org/abs/2004.02249v1 )

ライセンス: Link先を確認
S. M. Kamrul Hasan and Cristian A. Linte(参考訳) 心臓内磁気共鳴画像(cmr)の出現とともに、放射線を照射することなく心臓内の異なる構造をイメージングする能力により、医療技術のパラダイムが変化した。 しかし,左室 (LV) , 右室 (RV) 血液プール (RV) , 心筋 (LV-myocardium) の正確な分画, 同定を行なわずに, 術中最小侵襲心術を計画することは極めて困難である。 にもかかわらず、これらの構造のマニュアルセグメンテーションは時間がかかり、しばしばエラーやバイアスのある結果を引き起こす。 したがって、自動的かつ計算効率の良いセグメンテーション技術が最重要である。 本研究では,CondenseNetとDenseNetを併用した新しいメモリ効率の畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 実験の結果,提案アーキテクチャはDenseNetのメモリ要件の半分(50%)とU-Netのメモリ要件の1/12(〜8%)を用いて,ACDC(Automated Cardiac Diagnosis Challenge)データセット上で動作することがわかった。 心臓画像が心循環を通じて取得され,平均サイススコア96.78%(LV血液プール),93.46%(RV血液プール),90.1%(LV心筋症)が達成された1つの健康・4つの病理組織群からなるACDCデータセットの枠組みを検証した。 これらの結果は心画像分割と臨床パラメータ推定の競合ツールとして提案手法を有望かつ促進し,事前手続き計画や手術前応用に必要な迅速かつ正確な結果を提供する可能性を持っている。

With the advent of Cardiac Cine Magnetic Resonance (CMR) Imaging, there has been a paradigm shift in medical technology, thanks to its capability of imaging different structures within the heart without ionizing radiation. However, it is very challenging to conduct pre-operative planning of minimally invasive cardiac procedures without accurate segmentation and identification of the left ventricle (LV), right ventricle (RV) blood-pool, and LV-myocardium. Manual segmentation of those structures, nevertheless, is time-consuming and often prone to error and biased outcomes. Hence, automatic and computationally efficient segmentation techniques are paramount. In this work, we propose a novel memory-efficient Convolutional Neural Network (CNN) architecture as a modification of both CondenseNet, as well as DenseNet for ventricular blood-pool segmentation by introducing a bottleneck block and an upsampling path. Our experiments show that the proposed architecture runs on the Automated Cardiac Diagnosis Challenge (ACDC) dataset using half (50%) the memory requirement of DenseNet and one-twelfth (~ 8%) of the memory requirements of U-Net, while still maintaining excellent accuracy of cardiac segmentation. We validated the framework on the ACDC dataset featuring one healthy and four pathology groups whose heart images were acquired throughout the cardiac cycle and achieved the mean dice scores of 96.78% (LV blood-pool), 93.46% (RV blood-pool) and 90.1% (LV-Myocardium). These results are promising and promote the proposed methods as a competitive tool for cardiac image segmentation and clinical parameter estimation that has the potential to provide fast and accurate results, as needed for pre-procedural planning and/or pre-operative applications.
翻訳日:2022-12-16 12:36:57 公開日:2020-04-05
# MRフィンガープリントのためのブロック方程式の学習ゲーム

Game of Learning Bloch Equation Simulations for MR Fingerprinting ( http://arxiv.org/abs/2004.02270v1 )

ライセンス: Link先を確認
Mingrui Yang, Yun Jiang, Dan Ma, Bhairav B. Mehta, Mark A. Griswold(参考訳) 目的: 本研究は, 教師なし深層学習モデル生成敵ネットワーク(GAN)に基づくMRフィンガープリント(MRF)問題に対して, MRフィンガープリントを効率的に生成する手法を提案する。 方法: GANモデルは、より収束と性能を向上させるために採用・修正され、その結果、GAN-MRFと呼ばれるMRF固有のモデルとなる。 GAN-MRFモデルは、特定のMRFシーケンスでブロッホ方程式からシミュレートされた異なるMRF指紋を用いて訓練、検証、および試験を行う。 モデルの性能と堅牢性は、健康なボランティアから収集された3つのTeslaスキャナーで収集されたインビボデータと、大きさの異なるMRF辞書を用いてさらに検証される。 T1,T2マップが生成され、定量的に比較される。 結果: GAN-MRFモデルに対する検証および試験曲線は,高いバイアスや高い分散問題を示す証拠を示さない。 訓練されたGAN-MRFモデルから生成されたサンプルMRF指紋は、ブロッホ方程式からシミュレーションされたベンチマーク指紋とよく一致している。 gan-mrf指紋から生成されたin vivo t1, t2マップは、ブロッホシミュレーション指紋から生成された地図とよく一致しており、提案されたgan-mrfモデルの優れた性能と堅牢性を示している。 さらに、試験辞書のMSF辞書生成時間を数時間から秒以下に短縮する。 結論: GAN-MRFモデルはMDF指紋の高速かつ正確な生成を可能にする。 MRF辞書生成プロセスを大幅に削減し、リアルタイムアプリケーションやシーケンス最適化問題への扉を開く。

Purpose: This work proposes a novel approach to efficiently generate MR fingerprints for MR fingerprinting (MRF) problems based on the unsupervised deep learning model generative adversarial networks (GAN). Methods: The GAN model is adopted and modified for better convergence and performance, resulting in an MRF specific model named GAN-MRF. The GAN-MRF model is trained, validated, and tested using different MRF fingerprints simulated from the Bloch equations with certain MRF sequence. The performance and robustness of the model are further tested by using in vivo data collected on a 3 Tesla scanner from a healthy volunteer together with MRF dictionaries with different sizes. T1, T2 maps are generated and compared quantitatively. Results: The validation and testing curves for the GAN-MRF model show no evidence of high bias or high variance problems. The sample MRF fingerprints generated from the trained GAN-MRF model agree well with the benchmark fingerprints simulated from the Bloch equations. The in vivo T1, T2 maps generated from the GAN-MRF fingerprints are in good agreement with those generated from the Bloch simulated fingerprints, showing good performance and robustness of the proposed GAN-MRF model. Moreover, the MRF dictionary generation time is reduced from hours to sub-second for the testing dictionary. Conclusion: The GAN-MRF model enables a fast and accurate generation of the MRF fingerprints. It significantly reduces the MRF dictionary generation process and opens the door for real-time applications and sequence optimization problems.
翻訳日:2022-12-16 12:36:18 公開日:2020-04-05
# 現代の物体検出器の経験的上界・誤差診断・不分散解析

Empirical Upper Bound, Error Diagnosis and Invariance Analysis of Modern Object Detectors ( http://arxiv.org/abs/2004.02877v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) 物体検出は、コンピュータビジョンにおける最も悪名高いオープンな問題の1つである。 近年、精度の大きな進歩にもかかわらず、現代のオブジェクト検出器は人気のあるベンチマークで飽和し始めており、ディープラーニングツールやトリックでどこまで到達できるかという疑問が持ち上がっている。 ここでは、最先端のオブジェクト検出ベンチマークを2つ採用し、4つの大規模データセットに対して15モデル以上を解析することにより、私は、VOC(test 2007)で91.6%、COCO(val2017)で78.2%、OpenImages V4(validation)で58.9%、IOUのしきい値に関係なくAPの上限を慎重に決定する。 These numbers are much better than the mAP of the best model (47.9% on VOC, and 46.9% on COCO; IOUs=.5:.05:.95), II) characterize the sources of errors in object detectors, in a novel and intuitive way, and find that classification error (confusion with other classes and misses) explains the largest fraction of errors and weighs more than localization and duplicate errors, and III) analyze the invariance properties of models when surrounding context of an object is removed, when an object is placed in an incongruent background, and when images are blurred or flipped vertically. モデルが空の領域に多くのボックスを生成し、そのコンテキストは大きな領域よりも小さなオブジェクトを検出するために重要である。 私たちの研究は、オブジェクト検出とオブジェクト認識の密接な関係を掘り下げ、より良いモデルを構築するための洞察を提供する。 私たちのコードはhttps://github.com/aliborji/deetctionupperbound.gitで公開されています。

Object detection remains as one of the most notorious open problems in computer vision. Despite large strides in accuracy in recent years, modern object detectors have started to saturate on popular benchmarks raising the question of how far we can reach with deep learning tools and tricks. Here, by employing 2 state-of-the-art object detection benchmarks, and analyzing more than 15 models over 4 large scale datasets, we I) carefully determine the upper bound in AP, which is 91.6% on VOC (test2007), 78.2% on COCO (val2017), and 58.9% on OpenImages V4 (validation), regardless of the IOU threshold. These numbers are much better than the mAP of the best model (47.9% on VOC, and 46.9% on COCO; IOUs=.5:.05:.95), II) characterize the sources of errors in object detectors, in a novel and intuitive way, and find that classification error (confusion with other classes and misses) explains the largest fraction of errors and weighs more than localization and duplicate errors, and III) analyze the invariance properties of models when surrounding context of an object is removed, when an object is placed in an incongruent background, and when images are blurred or flipped vertically. We find that models generate a lot of boxes on empty regions and that context is more important for detecting small objects than larger ones. Our work taps into the tight relationship between object detection and object recognition and offers insights for building better models. Our code is publicly available at https://github.com/aliborji/Deetctionupper bound.git.
翻訳日:2022-12-16 12:35:25 公開日:2020-04-05
# 胸部x線画像の深部学習によるcovid-19時代の肺炎の検出と評価

Deep Learning on Chest X-ray Images to Detect and Evaluate Pneumonia Cases at the Era of COVID-19 ( http://arxiv.org/abs/2004.03399v1 )

ライセンス: Link先を確認
Karim Hammoudi and Halim Benhabiles and Mahmoud Melkemi and Fadi Dornaika and Ignacio Arganda-Carreras and Dominique Collard and Arnaud Scherpereel(参考訳) コロナウイルス病2019(COVID-19)は、インフルエンザに似た最初の症状を持つ感染症である。 新型コロナウイルス(COVID-19)が中国で最初に出現し、世界中に急速に広まり、2019-20年の新型コロナウイルスのパンデミックを引き起こした。 多くの場合、この病気は肺炎を引き起こす。 胸部X線画像を自動的に解析する深層学習手法を,放射線画像から肺感染症を観察できるため,医療従事者に対して,新型コロナウイルスのスクリーニングや診断を行うための精密ツールの提供を期待して検討した。 この文脈では、トレーニングデータセット、ディープラーニングアーキテクチャ、分析戦略が、胸部X線画像の公開セットから実験されている。 肺炎感染症、特にウイルス感染症を検出するために、テーラー深層学習モデルが提案されている。 新型コロナウイルス感染状況で検出されたウイルス性肺炎患者は、新型コロナウイルス感染を予想する確率が高いと推定されている。 また, 感染状況の予測と肺炎症例からの患者状態の予測に簡便な健康指標が提案されている。 実験の結果, オープンな胸部X線画像を用いた深層学習モデルによるウイルス性肺炎のスクリーニングの可能性が確認された。 感染した患者の胸部x線検査画像は、検査結果が保持された検出モデルによって診断される。 提案した健康指標の効率性は、実際の健康データと合成健康データを組み合わせることで、感染症や健康問題を示す患者のシミュレーションシナリオを通して強調される。

Coronavirus disease 2019 (COVID-19) is an infectious disease with first symptoms similar to the flu. COVID-19 appeared first in China and very quickly spreads to the rest of the world, causing then the 2019-20 coronavirus pandemic. In many cases, this disease causes pneumonia. Since pulmonary infections can be observed through radiography images, this paper investigates deep learning methods for automatically analyzing query chest X-ray images with the hope to bring precision tools to health professionals towards screening the COVID-19 and diagnosing confirmed patients. In this context, training datasets, deep learning architectures and analysis strategies have been experimented from publicly open sets of chest X-ray images. Tailored deep learning models are proposed to detect pneumonia infection cases, notably viral cases. It is assumed that viral pneumonia cases detected during an epidemic COVID-19 context have a high probability to presume COVID-19 infections. Moreover, easy-to-apply health indicators are proposed for estimating infection status and predicting patient status from the detected pneumonia cases. Experimental results show possibilities of training deep learning models over publicly open sets of chest X-ray images towards screening viral pneumonia. Chest X-ray test images of COVID-19 infected patients are successfully diagnosed through detection models retained for their performances. The efficiency of proposed health indicators is highlighted through simulated scenarios of patients presenting infections and health problems by combining real and synthetic health data.
翻訳日:2022-12-16 12:34:56 公開日:2020-04-05
# MNEW: 疎点雲分割のためのマルチドメイン近傍埋め込みと軽量化

MNEW: Multi-domain Neighborhood Embedding and Weighting for Sparse Point Clouds Segmentation ( http://arxiv.org/abs/2004.03401v1 )

ライセンス: Link先を確認
Yang Zheng, Izzat H. Izzat, Sanling Song(参考訳) ポイントクラウドは3dセマンティックシーン理解に広く採用されている。 しかし、3次元形状のセグメンテーションや屋内シナリオ解析のような典型的なタスクのための点雲は、自律運転知覚の応用のための屋外のLiDARスイープよりもはるかに密集している。 空間的性質の相違により、密点雲用に設計された多くの成功手法はスパースデータに対して劣化効果を発揮する。 本稿では,スパース屋外点雲のセマンティックセグメンテーションタスクに着目した。 我々は,MNEWと呼ばれる新しい手法を提案し,その幾何学的距離,特徴的類似度,周辺空間の疎度に基づく多領域埋め込みとアテンション重み付けを行う。 ネットワークアーキテクチャは、ポイントクラウドを直接処理してポイントワイズの詳細とグローバルセマンティクスをキャプチャするpointnetを継承し、静的幾何領域と動的特徴空間に複数スケールの局所的近傍を取り込むことで改善されている。 MNEWの距離/類似性注意と空間適応重み付け機構は、幅広いデータ空間分布に有効である。 仮想および実KITTIセマンティックデータセットで実施された実験により、MNEWはスパースポイントクラウドの最高パフォーマンスを達成する。

Point clouds have been widely adopted in 3D semantic scene understanding. However, point clouds for typical tasks such as 3D shape segmentation or indoor scenario parsing are much denser than outdoor LiDAR sweeps for the application of autonomous driving perception. Due to the spatial property disparity, many successful methods designed for dense point clouds behave depreciated effectiveness on the sparse data. In this paper, we focus on the semantic segmentation task of sparse outdoor point clouds. We propose a new method called MNEW, including multi-domain neighborhood embedding, and attention weighting based on their geometry distance, feature similarity, and neighborhood sparsity. The network architecture inherits PointNet which directly process point clouds to capture pointwise details and global semantics, and is improved by involving multi-scale local neighborhoods in static geometry domain and dynamic feature space. The distance/similarity attention and sparsity-adapted weighting mechanism of MNEW enable its capability for a wide range of data sparsity distribution. With experiments conducted on virtual and real KITTI semantic datasets, MNEW achieves the top performance for sparse point clouds, which is important to the application of LiDAR-based automated driving perception.
翻訳日:2022-12-16 12:34:32 公開日:2020-04-05
# 低資源半教師付きニューラルマシン翻訳のためのバイリンガル辞書の統合

Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised Neural Machine Translation ( http://arxiv.org/abs/2004.02071v1 )

ライセンス: Link先を確認
Sreyashi Nag and Mihir Kale and Varun Lakshminarasimhan and Swapnil Singhavi(参考訳) バイリンガル辞書を組み込んで半教師ありニューラルマシン翻訳を実現する方法について検討する。 従来のバックトランスレーション手法は、ターゲット側モノリンガルデータを活用することに成功している。 しかし, 逆翻訳モデルの品質は利用可能な並列コーパスのサイズに関係しているため, 低資源環境下で合成文に悪影響を及ぼす可能性がある。 この欠点に対処するための簡単なデータ拡張手法を提案する。 単語を翻訳して合成文を生成する多言語辞書を多用する。 これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。 本手法は,強力なベースラインに対する性能向上を示す。

We explore ways of incorporating bilingual dictionaries to enable semi-supervised neural machine translation. Conventional back-translation methods have shown success in leveraging target side monolingual data. However, since the quality of back-translation models is tied to the size of the available parallel corpora, this could adversely impact the synthetically generated sentences in a low resource setting. We propose a simple data augmentation technique to address both this shortcoming. We incorporate widely available bilingual dictionaries that yield word-by-word translations to generate synthetic sentences. This automatically expands the vocabulary of the model while maintaining high quality content. Our method shows an appreciable improvement in performance over strong baselines.
翻訳日:2022-12-16 12:34:11 公開日:2020-04-05
# 動的システムにおける特徴抽出とモーメント再構成のための情報幾何学的アプローチ

An information-geometric approach to feature extraction and moment reconstruction in dynamical systems ( http://arxiv.org/abs/2004.02172v1 )

ライセンス: Link先を確認
Suddhasattwa Das, Dimitrios Giannakis, Enik\H{o} Sz\'ekely(参考訳) 本研究では,可観測系自体の本来のデータ空間ではなく,可観測系によって引き起こされる確率測度の空間上で動作する力学系における特徴抽出とモーメント再構成のための次元縮小フレームワークを提案する。 我々のアプローチは、力学系の軌道が系の(部分的な)観測によって定義される可測空間上の確率測度を誘導するという事実に基づいている。 これらの確率測度の空間と発散、すなわち確率分布間の距離を同値とし、この発散を用いて核積分作用素を定義する。 この作用素の固有関数は、力学系の異なる時間スケールを捉える関数の正規直交基底を生成する。 我々の主な結果の1つは、ダイナミクス依存確率測度のモーメントの進化が、元の力学系上の時間平均作用素と関連していることを示している。 この結果を用いて,モーメントを固有関数ベースで拡張できることを示し,モーメントの非パラメトリック予測への道を開く。 確率測度の集合がそれ自体が多様体であるなら、リーマン計量に統計多様体を装備し、情報幾何学の技法を使うこともできる。 2-トーラス系とローレンツ63系のエルゴード力学系への応用を実世界の例で示し、少数の固有ベクトルが大気中の時系列(すなわち実時間多変量マドデン・ジュリアン振動指数)のモーメント(以下、最初の4モーメント)を再構成するのに十分であることを示す。

We propose a dimension reduction framework for feature extraction and moment reconstruction in dynamical systems that operates on spaces of probability measures induced by observables of the system rather than directly in the original data space of the observables themselves as in more conventional methods. Our approach is based on the fact that orbits of a dynamical system induce probability measures over the measurable space defined by (partial) observations of the system. We equip the space of these probability measures with a divergence, i.e., a distance between probability distributions, and use this divergence to define a kernel integral operator. The eigenfunctions of this operator create an orthonormal basis of functions that capture different timescales of the dynamical system. One of our main results shows that the evolution of the moments of the dynamics-dependent probability measures can be related to a time-averaging operator on the original dynamical system. Using this result, we show that the moments can be expanded in the eigenfunction basis, thus opening up the avenue for nonparametric forecasting of the moments. If the collection of probability measures is itself a manifold, we can in addition equip the statistical manifold with the Riemannian metric and use techniques from information geometry. We present applications to ergodic dynamical systems on the 2-torus and the Lorenz 63 system, and show on a real-world example that a small number of eigenvectors is sufficient to reconstruct the moments (here the first four moments) of an atmospheric time series, i.e., the realtime multivariate Madden-Julian oscillation index.
翻訳日:2022-12-16 12:29:15 公開日:2020-04-05
# 強化学習アーキテクチャ: SAC, TAC, ESAC

Reinforcement Learning Architectures: SAC, TAC, and ESAC ( http://arxiv.org/abs/2004.02274v1 )

ライセンス: Link先を確認
Ala'eddin Masadeh, Zhengdao Wang, Ahmed E. Kamal(参考訳) 利用可能な情報を分析し、効率的に活用できるインテリジェントエージェントの実装がトレンドである。 この研究は、多くの強化学習(RL)アーキテクチャを示しており、そのうちの1つはインテリジェントエージェント用に設計されている。 提案されたアーキテクチャは、sac(selector-actor-critic)、tac(tuner-actor-critic)、esac(estimator-selector-actor-critic)と呼ばれる。 これらのアーキテクチャはアクター・クリティック(AC)と呼ばれるRLのよく知られたアーキテクチャのモデルの改良である。 ACでは、アクターは使用済みポリシーを最適化し、批評家は値関数を推定し、アクターによる最適化ポリシーを評価する。 SACはアクター、批評家、セレクターを備えたアーキテクチャである。 セレクタは、批評家からの最後の見積もりに基づいて、現在の状態で最も有望な行動を決定する。 TACはチューナー、モデル・ラーナー、俳優、批評家で構成されている。 評論家から現在の状態-作用対の近似値とモデル-学習者から学習モデルを受け取り、チューナーはベルマン方程式を用いて現在の状態-作用対の値をチューニングする。 ESACは2つのアイデアに基づく知的エージェントを実装するために提案されている。 lookaheadは次の状態における利用可能なアクションの値の推定に現れ、直観は最も有望なアクションを選択する確率を最大化する。 新たに追加された要素は、基礎となるモデル学習者、推定者、セレクタである。 モデル学習者は、基礎となるモデルを近似するために使用される。 推定器は近似値関数、学習した基礎モデル、ベルマン方程式を用いて次の状態における全ての行動の値を推定する。 セレクタは次の状態で最も有望なアクションを決定するために使用され、アクターが使用するポリシーを最適化するために使用する。 最後に、ESACが他のアーキテクチャに比べて優れていることを示す。

The trend is to implement intelligent agents capable of analyzing available information and utilize it efficiently. This work presents a number of reinforcement learning (RL) architectures; one of them is designed for intelligent agents. The proposed architectures are called selector-actor-critic (SAC), tuner-actor-critic (TAC), and estimator-selector-actor-critic (ESAC). These architectures are improved models of a well known architecture in RL called actor-critic (AC). In AC, an actor optimizes the used policy, while a critic estimates a value function and evaluate the optimized policy by the actor. SAC is an architecture equipped with an actor, a critic, and a selector. The selector determines the most promising action at the current state based on the last estimate from the critic. TAC consists of a tuner, a model-learner, an actor, and a critic. After receiving the approximated value of the current state-action pair from the critic and the learned model from the model-learner, the tuner uses the Bellman equation to tune the value of the current state-action pair. ESAC is proposed to implement intelligent agents based on two ideas, which are lookahead and intuition. Lookahead appears in estimating the values of the available actions at the next state, while the intuition appears in maximizing the probability of selecting the most promising action. The newly added elements are an underlying model learner, an estimator, and a selector. The model learner is used to approximate the underlying model. The estimator uses the approximated value function, the learned underlying model, and the Bellman equation to estimate the values of all actions at the next state. The selector is used to determine the most promising action at the next state, which will be used by the actor to optimize the used policy. Finally, the results show the superiority of ESAC compared with the other architectures.
翻訳日:2022-12-16 12:28:50 公開日:2020-04-05
# 英語isiZulu符号切替音声認識のための半教師付き音響・言語モデルトレーニング

Semi-supervised acoustic and language model training for English-isiZulu code-switched speech recognition ( http://arxiv.org/abs/2004.04054v1 )

ライセンス: Link先を確認
A. Biswas, F. de Wet, E. van der Westhuizen, T.R. Niesler(参考訳) 本稿では,soapオペラ音声を用いた英語-isizulu符号切り換えasrの半教師付き音響・言語モデル学習の分析を行う。 英語-isiZulu, English-isiXhosa, English-Setswana, English-Sesothoの4つのバイリンガルコードスイッチング文字起こしシステムを用いて, 約11時間の無転写多言語音声を自動転写した。 これらの転写は音響モデルと言語モデルトレーニングセットに組み込まれた。 その結果、tdnn-f音響モデルは、追加の半教師付きデータから恩恵を受け、さらに追加のcnn層を含めることでさらに優れた性能が得られることがわかった。 これらのCNN-TDNN-F音響モデルを用いて、セミ教師付きトレーニングの最初のイテレーションは、絶対混合言語WERの3.4%、さらに2回目のイテレーションの2.2%の削減を達成した。 未転写データ中の言語は未知であるが、英語-isizuluに分類された発話だけでなく、すべての自動転写データがトレーニングに使用された場合に最も良い結果を得た。 難易度を下げたにもかかわらず、半教師付き言語モデルはASRの性能を向上できなかった。

We present an analysis of semi-supervised acoustic and language model training for English-isiZulu code-switched ASR using soap opera speech. Approximately 11 hours of untranscribed multilingual speech was transcribed automatically using four bilingual code-switching transcription systems operating in English-isiZulu, English-isiXhosa, English-Setswana and English-Sesotho. These transcriptions were incorporated into the acoustic and language model training sets. Results showed that the TDNN-F acoustic models benefit from the additional semi-supervised data and that even better performance could be achieved by including additional CNN layers. Using these CNN-TDNN-F acoustic models, a first iteration of semi-supervised training achieved an absolute mixed-language WER reduction of 3.4%, and a further 2.2% after a second iteration. Although the languages in the untranscribed data were unknown, the best results were obtained when all automatically transcribed data was used for training and not just the utterances classified as English-isiZulu. Despite reducing perplexity, the semi-supervised language model was not able to improve the ASR performance.
翻訳日:2022-12-16 12:27:19 公開日:2020-04-05
# 生成逆ネットワークを用いたモデル蒸留による私的知識伝達

Private Knowledge Transfer via Model Distillation with Generative Adversarial Networks ( http://arxiv.org/abs/2004.04631v1 )

ライセンス: Link先を確認
Di Gao and Cheng Zhuo(参考訳) ディープラーニングアプリケーションのデプロイは、プライベートとセンシティブなデータをトレーニングに使用する際のプライバシー上の懸念に対処する必要がある。 従来のディープラーニングモデルは、モデルパラメータまたはターゲットモデルへのアクセスから個人の機密情報を復元できるプライバシー攻撃の傾向にある。 近年,プライバシ保証を提供するディファレンシャルプライバシが,トレーニングデータを保護するプライバシ保存方式でニューラルネットワークをトレーニングするために提案されている。 しかし、多くのアプローチはモデルパブリッシングにおいて最悪の場合のプライバシー保証を提供し、訓練されたモデルの精度を必然的に損なう傾向がある。 本稿では,機密データに基づいて訓練された個人教師が公開されていないが,学生に公開教育を行う,新たな知識伝達戦略を提案する。 特に,教師とプライバシのトレードオフを実現するために,教師が教師から蒸留知識を取得し,差別者とともに訓練し,教師と類似のアウトプットを生成する3人の教師(教師-生徒-差別者)学習フレームワークが提案されている。 次に,学習手順にディファレンシャルプライバシ保護機構を統合することで,トレーニングのための厳格なプライバシ予算を実現する。 最終的にこのフレームワークにより、学生は未学習の公開データとごく少数のエポックでトレーニングを受けられるようになり、それによって機密性のあるトレーニングデータの露出を防ぎつつ、プライバシー予算の緩やかなモデルユーティリティを確保できる。 MNIST, SVHN, CIFAR-10データセットを用いた実験の結果, 学生は 0.89%, 2.29%, 5.16%, プライバシ境界は (1.93, 10^-5), (5.02, 10^-6), (8.81, 10^-6) であった。 既存の作品と比較すると、提案手法は5-82%の精度の損失改善を達成できる。

The deployment of deep learning applications has to address the growing privacy concerns when using private and sensitive data for training. A conventional deep learning model is prone to privacy attacks that can recover the sensitive information of individuals from either model parameters or accesses to the target model. Recently, differential privacy that offers provable privacy guarantees has been proposed to train neural networks in a privacy-preserving manner to protect training data. However, many approaches tend to provide the worst case privacy guarantees for model publishing, inevitably impairing the accuracy of the trained models. In this paper, we present a novel private knowledge transfer strategy, where the private teacher trained on sensitive data is not publicly accessible but teaches a student to be publicly released. In particular, a three-player (teacher-student-discriminator) learning framework is proposed to achieve trade-off between utility and privacy, where the student acquires the distilled knowledge from the teacher and is trained with the discriminator to generate similar outputs as the teacher. We then integrate a differential privacy protection mechanism into the learning procedure, which enables a rigorous privacy budget for the training. The framework eventually allows student to be trained with only unlabelled public data and very few epochs, and hence prevents the exposure of sensitive training data, while ensuring model utility with a modest privacy budget. The experiments on MNIST, SVHN and CIFAR-10 datasets show that our students obtain the accuracy losses w.r.t teachers of 0.89%, 2.29%, 5.16%, respectively with the privacy bounds of (1.93, 10^-5), (5.02, 10^-6), (8.81, 10^-6). When compared with the existing works \cite{papernot2016semi,wang2019private}, the proposed work can achieve 5-82% accuracy loss improvement.
翻訳日:2022-12-16 12:26:46 公開日:2020-04-05
# 医療強化におけるビッグデータ分析の活用:トレンド、課題、機会

Leveraging Big Data Analytics in Healthcare Enhancement: Trends, Challenges and Opportunities ( http://arxiv.org/abs/2004.09010v1 )

ライセンス: Link先を確認
Arshia Rehman, Saeeda Naz, Imran Razzak(参考訳) 臨床医の判断は、医療ほど有望なビッグデータ分析以外の分野で、ますますエビデンスベースの意味になりつつある。 医療データの規模と可用性のため、ビッグデータ分析はこの業界に革命をもたらし、チャンスの世界を約束しています。 早期発見、予測、予防のパワーを約束し、生活の質を向上させるのに役立ちます。 研究者や臨床医は、ビッグデータが将来的に健康にポジティブな影響を与えることを阻止しようとしている。 さまざまなツールや技術が、構造化または非構造化形式で大量の医療データを分析、処理、蓄積、同化、管理するために使われています。 本稿では、医療におけるビッグデータ分析の必要性に対処したいと思います。 . 本稿では, 医療情報学, バイオインフォマティクス, 臨床情報学, 公衆衛生情報学, 医療信号分析の5つの分野において, ビッグデータと分析技術の新たな展望を紹介する。 各分野の異なるアーキテクチャ、アドバンテージ、レポジトリを示し、複数の視点から個々の患者を支援するために、パイプライン内で異なる医療活動がどのように達成されているかを統合的に描写する。 最後に論文は、医療におけるビッグデータ分析の採用における注目すべき応用と課題から締めくくっている。

Clinicians decisions are becoming more and more evidence-based meaning in no other field the big data analytics so promising as in healthcare. Due to the sheer size and availability of healthcare data, big data analytics has revolutionized this industry and promises us a world of opportunities. It promises us the power of early detection, prediction, prevention and helps us to improve the quality of life. Researchers and clinicians are working to inhibit big data from having a positive impact on health in the future. Different tools and techniques are being used to analyze, process, accumulate, assimilate and manage large amount of healthcare data either in structured or unstructured form. In this paper, we would like to address the need of big data analytics in healthcare: why and how can it help to improve life?. We present the emerging landscape of big data and analytical techniques in the five sub-disciplines of healthcare i.e.medical image analysis and imaging informatics, bioinformatics, clinical informatics, public health informatics and medical signal analytics. We presents different architectures, advantages and repositories of each discipline that draws an integrated depiction of how distinct healthcare activities are accomplished in the pipeline to facilitate individual patients from multiple perspectives. Finally the paper ends with the notable applications and challenges in adoption of big data analytics in healthcare.
翻訳日:2022-12-16 12:26:10 公開日:2020-04-05
# 入力空間と特徴空間におけるフィードフォワードニューラルネットワークの学習支援

Backprojection for Training Feedforward Neural Networks in the Input and Feature Spaces ( http://arxiv.org/abs/2004.04573v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Fakhri Karray, Mark Crowley(参考訳) バックプロパゲーションによってトレーニングされたニューラルネットワークの膨大な開発の後、ニューラルネットワークを訓練し、ネットワークに対するさらなる洞察を得るための他のアルゴリズムを開発するのは良いタイミングです。 本稿では,バックプロパゲーションよりもかなり高速にフィードフォワードニューラルネットワークを訓練するための新しいアルゴリズムを提案する。 この方法は、各層で投影されたデータと再構成されたラベルが類似し、重みが層ごとに調整される投影と再構成に基づいている。 提案アルゴリズムは、それぞれバックプロジェクションとカーネルバックプロジェクションと呼ばれる入力空間と特徴空間の両方に利用できる。 このアルゴリズムは、プロジェクションに基づく視点でネットワークに洞察を与える。 合成データセットに関する実験により,提案手法の有効性が示された。

After the tremendous development of neural networks trained by backpropagation, it is a good time to develop other algorithms for training neural networks to gain more insights into networks. In this paper, we propose a new algorithm for training feedforward neural networks which is fairly faster than backpropagation. This method is based on projection and reconstruction where, at every layer, the projected data and reconstructed labels are forced to be similar and the weights are tuned accordingly layer by layer. The proposed algorithm can be used for both input and feature spaces, named as backprojection and kernel backprojection, respectively. This algorithm gives an insight to networks with a projection-based perspective. The experiments on synthetic datasets show the effectiveness of the proposed method.
翻訳日:2022-12-16 12:18:08 公開日:2020-04-05
# 監視ビデオにおける任意のショットシーケンス異常検出

Any-Shot Sequential Anomaly Detection in Surveillance Videos ( http://arxiv.org/abs/2004.02072v1 )

ライセンス: Link先を確認
Keval Doshi, Yasin Yilmaz(参考訳) 近年,監視ビデオの異常検出が注目されている。 公開データセットでの最先端のメソッドのパフォーマンスは競争力があるものの、膨大なトレーニングデータを要求する。 また、新しいデータが利用可能になると、トレーニングされたモデルを継続的に更新するための具体的なアプローチがない。 さらに、オンライン意思決定はこのドメインにおいて重要ではあるが、ほとんど無視されている要素である。 これらの研究のギャップを生かして,トランスファーラーニングとノンショットラーニングを用いた監視ビデオのオンライン異常検出手法を提案し,これによりトレーニングの複雑さを著しく低減し,いくつかのラベル付き命名例を用いた異常検出機構を提供する。 提案アルゴリズムは,移動学習のためのニューラルネットワークモデルの特徴抽出能力と,統計的検出手法のノンショット学習能力を利用する。

Anomaly detection in surveillance videos has been recently gaining attention. Even though the performance of state-of-the-art methods on publicly available data sets has been competitive, they demand a massive amount of training data. Also, they lack a concrete approach for continuously updating the trained model once new data is available. Furthermore, online decision making is an important but mostly neglected factor in this domain. Motivated by these research gaps, we propose an online anomaly detection method for surveillance videos using transfer learning and any-shot learning, which in turn significantly reduces the training complexity and provides a mechanism that can detect anomalies using only a few labeled nominal examples. Our proposed algorithm leverages the feature extraction power of neural network-based models for transfer learning and the any-shot learning capability of statistical detection methods.
翻訳日:2022-12-16 12:17:55 公開日:2020-04-05
# flow2stereo:光流れとステレオマッチングの効果的な自己教師付き学習

Flow2Stereo: Effective Self-Supervised Learning of Optical Flow and Stereo Matching ( http://arxiv.org/abs/2004.02138v1 )

ライセンス: Link先を確認
Pengpeng Liu and Irwin King and Michael Lyu and Jia Xu(参考訳) 本稿では,光の流れとステレオマッチングを統合的に学習する手法を提案する。 最初の直観はステレオマッチングを光学的流れの特殊な場合としてモデル化することができ、立体ビデオの背景にある3次元幾何学を利用してこれらの2種類の対応の学習を導くことができる。 そして、この知識を最先端の自己教師付き学習フレームワークに導入し、フローとステレオの両方を見積もる単一のネットワークを訓練します。 第2に,事前の自己教師型学習アプローチにおけるボトルネックを明らかにし,パフォーマンス向上のための新たなプロキシタスクセットを提案する。 これら2つの洞察は、kitti 2012と2015のベンチマークにおいて、既存の教師なしフローとステレオメソッドの最高精度を達成する1つのモデルをもたらす。 さらに、我々の自己管理手法は、KITTI 2012のPWC-NetやFlowNet2など、最先端の完全教師付き手法よりも優れています。

In this paper, we propose a unified method to jointly learn optical flow and stereo matching. Our first intuition is stereo matching can be modeled as a special case of optical flow, and we can leverage 3D geometry behind stereoscopic videos to guide the learning of these two forms of correspondences. We then enroll this knowledge into the state-of-the-art self-supervised learning framework, and train one single network to estimate both flow and stereo. Second, we unveil the bottlenecks in prior self-supervised learning approaches, and propose to create a new set of challenging proxy tasks to boost performance. These two insights yield a single model that achieves the highest accuracy among all existing unsupervised flow and stereo methods on KITTI 2012 and 2015 benchmarks. More remarkably, our self-supervised method even outperforms several state-of-the-art fully supervised methods, including PWC-Net and FlowNet2 on KITTI 2012.
翻訳日:2022-12-16 12:17:42 公開日:2020-04-05
# クラスタリングに基づく顔表現改善のためのコントラスト学習

Clustering based Contrastive Learning for Improving Face Representations ( http://arxiv.org/abs/2004.02195v1 )

ライセンス: Link先を確認
Vivek Sharma, Makarand Tapaswi, M. Saquib Sarfraz, Rainer Stiefelhagen(参考訳) 優れたクラスタリングアルゴリズムは、データの自然なグループ化を見つけることができる。 これらのグループ化は、賢明に使用すれば、学習表現の弱い監督形態を提供する。 本稿では,クラスタリングから得られるラベルとビデオ制約を併用して識別的顔特徴を学習する,クラスタリングに基づく新しい表現学習手法であるクラスタリングベースのコントラスト学習(ccl)を提案する。 本手法は,映像顔クラスタリングにおける表現学習の難易度を実証する。 いくつかのアブレーション研究を通じて、異なるソースからペアワイド正のラベルと負のラベルを作成することの影響を分析する。 BBT-0101、BF-0502、ACCIOの3つの挑戦的なビデオフェイスクラスタリングデータセットの実験は、CCLがすべてのデータセットで新たな最先端を達成することを示している。

A good clustering algorithm can discover natural groupings in data. These groupings, if used wisely, provide a form of weak supervision for learning representations. In this work, we present Clustering-based Contrastive Learning (CCL), a new clustering-based representation learning approach that uses labels obtained from clustering along with video constraints to learn discriminative face features. We demonstrate our method on the challenging task of learning representations for video face clustering. Through several ablation studies, we analyze the impact of creating pair-wise positive and negative labels from different sources. Experiments on three challenging video face clustering datasets: BBT-0101, BF-0502, and ACCIO show that CCL achieves a new state-of-the-art on all datasets.
翻訳日:2022-12-16 12:17:25 公開日:2020-04-05
# 医用画像解析におけるアクティブラーニングのための信頼コアセット

Confident Coreset for Active Learning in Medical Image Analysis ( http://arxiv.org/abs/2004.02200v1 )

ライセンス: Link先を確認
Seong Tae Kim, Farrukh Mushtaq, Nassir Navab(参考訳) ディープラーニングの最近の進歩は、様々なアプリケーションで大きな成功を収めた。 半教師付き学習法や教師なし学習法は広く研究されているが、深層ニューラルネットワークの性能は注釈付きデータに大きく依存している。 問題は、医用データに要する注釈時間と高価な注釈コストのため、通常はアノテーションの予算が限られていることである。 アクティブラーニングは、アクティブラーナがターゲットモデルを効果的にトレーニングするためにどのサンプルに注釈を付ける必要があるかを示すように設計された、この問題の解決策の1つである。 本稿では,情報サンプルを効果的に選択するための不確かさと分布を考慮した,新しいアクティブラーニング手法であるssumence coresetを提案する。 2つの医用画像解析タスクの比較実験により,本手法が他の活動的学習方法より優れていることを示す。

Recent advances in deep learning have resulted in great successes in various applications. Although semi-supervised or unsupervised learning methods have been widely investigated, the performance of deep neural networks highly depends on the annotated data. The problem is that the budget for annotation is usually limited due to the annotation time and expensive annotation cost in medical data. Active learning is one of the solutions to this problem where an active learner is designed to indicate which samples need to be annotated to effectively train a target model. In this paper, we propose a novel active learning method, confident coreset, which considers both uncertainty and distribution for effectively selecting informative samples. By comparative experiments on two medical image analysis tasks, we show that our method outperforms other active learning methods.
翻訳日:2022-12-16 12:17:12 公開日:2020-04-05
# 大規模最適化のための固有空間分割法

An Eigenspace Divide-and-Conquer Approach for Large-Scale Optimization ( http://arxiv.org/abs/2004.02115v1 )

ライセンス: Link先を確認
Zhigang Ren, Yongsheng Liang, Muyi Wang, Yang Yang, An Chen(参考訳) 分割型(DCベース)進化アルゴリズム(EA)は大規模な最適化問題(LSOP)に対処する上で大きな成功を収めている。 しかし、この種のアルゴリズムの魅力ある性能は一般に最適化問題の高精度な分解を必要とするため、既存の分解法では依然として難しい課題である。 本研究は, 上記の問題に対して異なる視点から対処し, 固有空間分割(EDC)アプローチを提案する。 元の決定空間における分解と最適化を行う既存のDCベースのアルゴリズムとは異なり、EDCはまず、最近の世代から選択された高品質な解の集合に対して特異値分解を行うことにより固有空間を確立する。 そして、最適化問題を固有空間に変換し、対応する固有変数間の依存関係を著しく弱める。 したがって、これらの固有変数は単純なランダム戦略によって効率的にグループ化することができ、結果として得られる各サブプロブレムは伝統的なEAによってより容易に対処できる。 EDCの効率を検証するため,2種類のベンチマーク関数について総合的な実験を行った。 実験結果から,EDCはそのパラメータに対して堅牢であり,問題次元に優れたスケーラビリティを有することが示された。 いくつかの最先端アルゴリズムとの比較により、EDCがかなり競争力があり、複雑なLSOPでより優れた性能を発揮することが確認される。

Divide-and-conquer-based (DC-based) evolutionary algorithms (EAs) have achieved notable success in dealing with large-scale optimization problems (LSOPs). However, the appealing performance of this type of algorithms generally requires a high-precision decomposition of the optimization problem, which is still a challenging task for existing decomposition methods. This study attempts to address the above issue from a different perspective and proposes an eigenspace divide-and-conquer (EDC) approach. Different from existing DC-based algorithms that perform decomposition and optimization in the original decision space, EDC first establishes an eigenspace by conducting singular value decomposition on a set of high-quality solutions selected from recent generations. Then it transforms the optimization problem into the eigenspace, and thus significantly weakens the dependencies among the corresponding eigenvariables. Accordingly, these eigenvariables can be efficiently grouped by a simple random strategy and each of the resulting subproblems can be addressed more easily by a traditional EA. To verify the efficiency of EDC, comprehensive experimental studies were conducted on two sets of benchmark functions. Experimental results indicate that EDC is robust to its parameters and has good scalability to the problem dimension. The comparison with several state-of-the-art algorithms further confirms that EDC is pretty competitive and performs better on complicated LSOPs.
翻訳日:2022-12-16 12:16:59 公開日:2020-04-05
# ポリヘドロン曲率を用いた異常検出とプロトタイプ選択

Anomaly Detection and Prototype Selection Using Polyhedron Curvature ( http://arxiv.org/abs/2004.02137v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Fakhri Karray, Mark Crowley(参考訳) 本論文では,多面体曲率の考え方に基づく曲率異常検出(cad)とカーネルcad(kernel cad)と呼ばれる新しい手法を提案する。 点に最も近い近傍を用いることで、全てのデータ点をより異常な点がより曲率を持つ多面体の頂点と考える。 また,逆cad (icad) とカーネルicd (kernel icad) を,逆の視点からcadのランキングとプロトタイプ選択のために提案する。 本稿では,異常景観と異常経路の概念を定義し,その応用例を示す。 提案手法は単純で実装が容易である。 評価実験の結果,提案手法は異常検出とプロトタイプ選択に有効であることがわかった。

We propose a novel approach to anomaly detection called Curvature Anomaly Detection (CAD) and Kernel CAD based on the idea of polyhedron curvature. Using the nearest neighbors for a point, we consider every data point as the vertex of a polyhedron where the more anomalous point has more curvature. We also propose inverse CAD (iCAD) and Kernel iCAD for instance ranking and prototype selection by looking at CAD from an opposite perspective. We define the concept of anomaly landscape and anomaly path and we demonstrate an application for it which is image denoising. The proposed methods are straightforward and easy to implement. Our experiments on different benchmarks show that the proposed methods are effective for anomaly detection and prototype selection.
翻訳日:2022-12-16 12:16:21 公開日:2020-04-05
# 非一様サンプリングデータに適用した一類分類器の動的決定境界

Dynamic Decision Boundary for One-class Classifiers applied to non-uniformly Sampled Data ( http://arxiv.org/abs/2004.02273v1 )

ライセンス: Link先を確認
Riccardo La Grassa, Ignazio Gallo, Nicola Landro(参考訳) パターン認識の典型的な問題は、一様でないサンプルデータであり、機械学習アルゴリズムの一般的な性能と能力を変更して正確な予測を行う。 一般に、データはデータ空間の特定の領域では不十分な場合に一様にサンプリングされないと考えられており、誤分類の問題に繋がる。 この問題は、性能を低下させる1クラスの分類器の目標を削減した。 本稿では, 動的決定境界(OCdmst)を持つ最小スパンニング木に基づく一クラス分類器を提案する。 我々のアプローチの有効性と堅牢性を証明するために、私たちは最新の1クラス分類器と比較します。

A typical issue in Pattern Recognition is the non-uniformly sampled data, which modifies the general performance and capability of machine learning algorithms to make accurate predictions. Generally, the data is considered non-uniformly sampled when in a specific area of data space, they are not enough, leading us to misclassification problems. This issue cut down the goal of the one-class classifiers decreasing their performance. In this paper, we propose a one-class classifier based on the minimum spanning tree with a dynamic decision boundary (OCdmst) to make good prediction also in the case we have non-uniformly sampled data. To prove the effectiveness and robustness of our approach we compare with the most recent one-class classifier reaching the state-of-the-art in most of them.
翻訳日:2022-12-16 12:09:40 公開日:2020-04-05
# シームズネットワークの訓練における漁獲量とコントラスト損失

Fisher Discriminant Triplet and Contrastive Losses for Training Siamese Networks ( http://arxiv.org/abs/2004.04674v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Milad Sikaroudi, Sobhan Shafiei, H.R. Tizhoosh, Fakhri Karray, Mark Crowley(参考訳) シームズニューラルネットワークは、特徴抽出とメートル法学習の両方のための非常に強力なアーキテクチャである。 通常、重みを共有する複数のネットワークで構成される。 siameseの概念はトポロジーに依存しず、任意のニューラルネットワークをバックボーンとして使用できる。 これらのネットワークを訓練する最も一般的な損失関数は、三重項と対照的な損失関数である。 本稿では,FDT(Fisher Discriminant Triplet)とFDC(Fisher Discriminant Contrastive)という2つの新しい損失関数を提案する。 前者はアンカー隣のトリプルを使用し、後者はアンカー隣のサンプルとアンカー隣のサンプルを使用する。 FDTとFDC損失関数は、線形部分空間学習法であるFisher Discriminant Analysis (FDA)の統計的定式化に基づいて設計されている。 MNISTと2つの困難かつ公開な病理組織学的データセットを用いた実験により,提案した損失関数の有効性が示された。

Siamese neural network is a very powerful architecture for both feature extraction and metric learning. It usually consists of several networks that share weights. The Siamese concept is topology-agnostic and can use any neural network as its backbone. The two most popular loss functions for training these networks are the triplet and contrastive loss functions. In this paper, we propose two novel loss functions, named Fisher Discriminant Triplet (FDT) and Fisher Discriminant Contrastive (FDC). The former uses anchor-neighbor-distant triplets while the latter utilizes pairs of anchor-neighbor and anchor-distant samples. The FDT and FDC loss functions are designed based on the statistical formulation of the Fisher Discriminant Analysis (FDA), which is a linear subspace learning method. Our experiments on the MNIST and two challenging and publicly available histopathology datasets show the effectiveness of the proposed loss functions.
翻訳日:2022-12-16 12:09:27 公開日:2020-04-05
# ニューラルマシン翻訳のための学習ダイナミクスの理解

Understanding Learning Dynamics for Neural Machine Translation ( http://arxiv.org/abs/2004.02199v1 )

ライセンス: Link先を確認
Conghui Zhu, Guanlin Li, Lemao Liu, Tiejun Zhao, Shuming Shi(参考訳) NMTの大きな成功にもかかわらず、依然として深刻な課題が残っており、トレーニングプロセス中に内部のダイナミクスを解釈することは困難である。 本稿では,最近提案されたLoss Change Allocation (LCA)~\citep{lan-2019-loss-change-allocation}を用いて,NMTの学習力学を理解することを提案する。 LCAは更新毎にデータセット全体の勾配を計算する必要があるため、NMTシナリオで実際に実施するための近似を提示する。 %のモチベーションが得られた。 シミュレーション実験により, 近似計算は効率的であり, 実験によりブルートフォースの実装に一貫した結果が得られた。 特に、2つの標準翻訳ベンチマークデータセットに関する広範な実験は、いくつかの重要な発見を示している。

Despite the great success of NMT, there still remains a severe challenge: it is hard to interpret the internal dynamics during its training process. In this paper we propose to understand learning dynamics of NMT by using a recent proposed technique named Loss Change Allocation (LCA)~\citep{lan-2019-loss-change-allocation}. As LCA requires calculating the gradient on an entire dataset for each update, we instead present an approximate to put it into practice in NMT scenario. %motivated by the lesson from sgd. Our simulated experiment shows that such approximate calculation is efficient and is empirically proved to deliver consistent results to the brute-force implementation. In particular, extensive experiments on two standard translation benchmark datasets reveal some valuable findings.
翻訳日:2022-12-16 12:08:54 公開日:2020-04-05
# 単語感覚の曖昧さと情報抽出のための自然言語処理

Natural language processing for word sense disambiguation and information extraction ( http://arxiv.org/abs/2004.02256v1 )

ライセンス: Link先を確認
K. R. Chowdhary(参考訳) 本研究は、自然言語処理(NLP)と、明示的な形で必須情報の抽出を扱う。 最も一般的な情報管理戦略はドキュメント検索(DR)と情報フィルタリングである。 DRシステムは、大量の原料から有用な材料を回収する収穫機として機能する。 情報抽出システム(IE)は,大量の有用な情報を手元に持つことにより,原材料を精製し,原テキストの発芽に還元することにより,原材料を変換することができる。 Document Retrievalシステムは、テキストのリポジトリから、必要な情報を含む関連文書を収集する。 IEシステムはそれらを、消化されやすく分析される情報に変換する。 関連するテキストフラグメントを分離し、フラグメントから関連する情報を抽出し、目的とする情報を一貫性のあるフレームワークにまとめる。 Thesaurus を用いた Word Sense Disambiguation の新しいアプローチを提案する。 図示的な例は、このアプローチの迅速かつ効果的な曖昧さに対する効果を支持する。 ファジィ論理に基づく文書検索手法について解説し,その応用例を示した。 質問回答システムは、検索したテキスト文書から情報抽出の操作を記述する。 クエリに応答する情報抽出のプロセスは、誰が、いつ、どこで、なぜ、という形式でクエリの基数に基づく構造化記述言語(Structured Description Language, SDL)を使用することで、大幅に単純化される。 論文は、文書検索と情報抽出のための明らかな推論のデンプスター・シェーファー理論に基づく新しい戦略の提示で締めくくられる。 この戦略はベイズ確率論的アプローチに固有の多くの制限の緩和を可能にする。

This research work deals with Natural Language Processing (NLP) and extraction of essential information in an explicit form. The most common among the information management strategies is Document Retrieval (DR) and Information Filtering. DR systems may work as combine harvesters, which bring back useful material from the vast fields of raw material. With large amount of potentially useful information in hand, an Information Extraction (IE) system can then transform the raw material by refining and reducing it to a germ of original text. A Document Retrieval system collects the relevant documents carrying the required information, from the repository of texts. An IE system then transforms them into information that is more readily digested and analyzed. It isolates relevant text fragments, extracts relevant information from the fragments, and then arranges together the targeted information in a coherent framework. The thesis presents a new approach for Word Sense Disambiguation using thesaurus. The illustrative examples supports the effectiveness of this approach for speedy and effective disambiguation. A Document Retrieval method, based on Fuzzy Logic has been described and its application is illustrated. A question-answering system describes the operation of information extraction from the retrieved text documents. The process of information extraction for answering a query is considerably simplified by using a Structured Description Language (SDL) which is based on cardinals of queries in the form of who, what, when, where and why. The thesis concludes with the presentation of a novel strategy based on Dempster-Shafer theory of evidential reasoning, for document retrieval and information extraction. This strategy permits relaxation of many limitations, which are inherent in Bayesian probabilistic approach.
翻訳日:2022-12-16 12:08:22 公開日:2020-04-05
# 深部双方向LSTMモデルを用いた局所感性ハッシュに基づくシーケンスアライメント

Locality Sensitive Hashing-based Sequence Alignment Using Deep Bidirectional LSTM Models ( http://arxiv.org/abs/2004.02094v1 )

ライセンス: Link先を確認
Neda Tavakoli(参考訳) LSTM(Bidirectional Long Short-Term Memory)は、RNN(Recurrent Neural Network)アーキテクチャの一種で、RNNよりも正確にシーケンスとその長距離依存性をモデル化するように設計されている。 本稿では,LSH(Locality-sensitive hashing)に基づくシーケンスアライメントを実現する手法として,深層双方向LSTMを用いたシーケンスモデリングを提案する。 特に,深層指向性LSTMを用いてLSHの特徴を学習する。 得られたLSHを利用してシーケンスアライメントを行うことができる。 提案したLSTMモデルを用いて,参照ゲノム上の短い読解クエリをアライメントすることで,モデリングシーケンスの実現可能性を示す。 我々は、イルミナシークエンシング技術を用いて生成された短い読み出しに加えて、人間の参照ゲノムをトレーニングデータセットとして利用する。 最終的な目標は、クエリシーケンスを参照ゲノムにアライメントすることだ。 まず、参照ゲノムを複数の配列に分解する。 これらの配列は双方向LSTMモデルに入力され、固定長ベクトルにマッピングされる。 これらのベクトルはトレーニングされたLSHと呼ばれ、シーケンスアライメントに使用できる。 ケーススタディでは,導入したLSTMモデルを用いることで,エポック数の精度が向上した。

Bidirectional Long Short-Term Memory (LSTM) is a special kind of Recurrent Neural Network (RNN) architecture which is designed to model sequences and their long-range dependencies more precisely than RNNs. This paper proposes to use deep bidirectional LSTM for sequence modeling as an approach to perform locality-sensitive hashing (LSH)-based sequence alignment. In particular, we use the deep bidirectional LSTM to learn features of LSH. The obtained LSH is then can be utilized to perform sequence alignment. We demonstrate the feasibility of the modeling sequences using the proposed LSTM-based model by aligning the short read queries over the reference genome. We use the human reference genome as our training dataset, in addition to a set of short reads generated using Illumina sequencing technology. The ultimate goal is to align query sequences into a reference genome. We first decompose the reference genome into multiple sequences. These sequences are then fed into the bidirectional LSTM model and then mapped into fixed-length vectors. These vectors are what we call the trained LSH, which can then be used for sequence alignment. The case study shows that using the introduced LSTM-based model, we achieve higher accuracy with the number of epochs.
翻訳日:2022-12-16 12:01:49 公開日:2020-04-05
# 判別器のコントラスト発散:判別器のエネルギーを探索する半償却生成モデル

Discriminator Contrastive Divergence: Semi-Amortized Generative Modeling by Exploring Energy of the Discriminator ( http://arxiv.org/abs/2004.01704v1 )

ライセンス: Link先を確認
Yuxuan Song, Qiwei Ye, Minkai Xu, Tie-Yan Liu(参考訳) GAN(Generative Adversarial Networks)は、高次元データのモデリングにおいて大きな可能性を秘めている。 gans の学習の目的は通常、いくつかの測度の不一致、例えば、$f$-divergence~($f$-gans)または積分確率計量~(wasserstein gans)を最小化する。 目的関数として$f$-divergenceを用いると、判別器は基本的に密度比を推定し、推定比はジェネレータのサンプル品質をさらに向上するのに有用である。 しかしながら、WGAN(Wasserstein GANs)の識別器に含まれる情報を活用する方法はあまり検討されていない。 本稿では,WGANの識別器の特性とWGANとエネルギーベースモデルとの関係から,識別器のコントラジジェンス(Contrastive Divergence)について紹介する。 ジェネレータを直接利用して新しいサンプルを得る標準的なGANと比較して,本手法では,ジェネレータの出力を初期状態として生成する半調整生成手法を提案する。 次に、判別器の勾配を用いてランジュバンダイナミクスのいくつかのステップを実行する。 本稿では,合成データと実世界の画像生成ベンチマークの両方において,大幅な改善による利点を示す。

Generative Adversarial Networks (GANs) have shown great promise in modeling high dimensional data. The learning objective of GANs usually minimizes some measure discrepancy, \textit{e.g.}, $f$-divergence~($f$-GANs) or Integral Probability Metric~(Wasserstein GANs). With $f$-divergence as the objective function, the discriminator essentially estimates the density ratio, and the estimated ratio proves useful in further improving the sample quality of the generator. However, how to leverage the information contained in the discriminator of Wasserstein GANs (WGAN) is less explored. In this paper, we introduce the Discriminator Contrastive Divergence, which is well motivated by the property of WGAN's discriminator and the relationship between WGAN and energy-based model. Compared to standard GANs, where the generator is directly utilized to obtain new samples, our method proposes a semi-amortized generation procedure where the samples are produced with the generator's output as an initial state. Then several steps of Langevin dynamics are conducted using the gradient of the discriminator. We demonstrate the benefits of significant improved generation on both synthetic data and several real-world image generation benchmarks.
翻訳日:2022-12-16 11:59:58 公開日:2020-04-05
# ディープリカレントニューラルネットワークとニューロファジィシステムを用いた音声への感情映像変換

Emotional Video to Audio Transformation Using Deep Recurrent Neural Networks and a Neuro-Fuzzy System ( http://arxiv.org/abs/2004.02113v1 )

ライセンス: Link先を確認
Gwenaelle Cunha Sergio and Minho Lee(参考訳) 入力ビデオと同じような感情で音楽を生成することは、今日では非常に関連する問題である。 映像コンテンツ制作者や自動映画監督は、視聴者のエンゲージメントを維持することで恩恵を受ける。 さらに、視覚障害者や聴覚障害者の知覚能力の向上など、人間を支援するための共感型コンピュータが現在求められている。 現在のアプローチでは、音楽生成ステップにおけるビデオの感情的特徴を見落とし、ビデオではなく静的なイメージのみを考慮し、新しい音楽を生成できず、高いレベルの人間の努力とスキルを必要とする。 本研究では,映像の視覚的特徴から映像の感情を予測する適応型ニューロファジー推論システムと,それに対応する音響信号を生成するディープ・ショート・短期記憶リカレント・ニューラル・ネットワークを用いたハイブリッド・ディープ・ニューラルネットを提案する。 前者はファジィ特性のために感情を適切にモデル化することができ、後者は以前の隠れた状態情報が利用できるため、動的に時間特性を持つデータを十分にモデル化することができる。 提案手法の目新しさは,視覚的な感情的特徴を抽出し,ユーザの感情的側面に対応する音声信号に変換することにある。 定量的実験により、リンゼイデータセットとDEAPデータセットでそれぞれ0.217と0.255の平均絶対誤差が低く、分光図でも同様のグローバルな特徴が示されている。 これは,視覚特徴と音声特徴のドメイン変換を適切に行うことができることを示す。 実験結果に基づき,両データセットの視聴者から類似した感情を引き出すシーンにマッチする音声を効果的に生成でき,モデルによって生成された音楽もより頻繁に選択できる。

Generating music with emotion similar to that of an input video is a very relevant issue nowadays. Video content creators and automatic movie directors benefit from maintaining their viewers engaged, which can be facilitated by producing novel material eliciting stronger emotions in them. Moreover, there's currently a demand for more empathetic computers to aid humans in applications such as augmenting the perception ability of visually and/or hearing impaired people. Current approaches overlook the video's emotional characteristics in the music generation step, only consider static images instead of videos, are unable to generate novel music, and require a high level of human effort and skills. In this study, we propose a novel hybrid deep neural network that uses an Adaptive Neuro-Fuzzy Inference System to predict a video's emotion from its visual features and a deep Long Short-Term Memory Recurrent Neural Network to generate its corresponding audio signals with similar emotional inkling. The former is able to appropriately model emotions due to its fuzzy properties, and the latter is able to model data with dynamic time properties well due to the availability of the previous hidden state information. The novelty of our proposed method lies in the extraction of visual emotional features in order to transform them into audio signals with corresponding emotional aspects for users. Quantitative experiments show low mean absolute errors of 0.217 and 0.255 in the Lindsey and DEAP datasets respectively, and similar global features in the spectrograms. This indicates that our model is able to appropriately perform domain transformation between visual and audio features. Based on experimental results, our model can effectively generate audio that matches the scene eliciting a similar emotion from the viewer in both datasets, and music generated by our model is also chosen more often.
翻訳日:2022-12-16 11:59:15 公開日:2020-04-05