このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200920となっている論文です。

PDF登録状況(公開日: 20200920)

TitleAuthorsAbstract論文公表日・翻訳日
# reissner-nordstr\"om時空の対脚識別のための古典的ツール

Classical Tools for Antipodal Identification in Reissner-Nordstr\"om Spacetime ( http://arxiv.org/abs/2002.02501v3 )

ライセンス: Link先を確認
Nathaniel A. Strauss, Bernard F. Whiting, and Anne T. Franzen(参考訳) 我々は、対応する量子場理論(QFT)を定義するのに必要な古典的なツールを開発することにより、ブラックホールの反ポッド同定の議論をReissner-Nordstr\"om (RN)時空にまで広げる。 我々は、RN背景における質量を持たないクライン=ゴルドン方程式を散乱係数の観点から解き、RNの任意の解析拡張のための解を構築するための手順を提供する。 最大拡張解の挙動は内地平線と外地平線の散乱係数に大きく依存するので,これらの量の低周波挙動と数値解を提案する。 低周波数では、各地平線で純粋に正または負の周波数を持つ解の場振幅は、内地平線と外地平線を通過後、位相のみを得るが、高周波数では、振幅は、未来または過去に対して指数関数的に増大し、他の方向に指数関数的に崩壊する傾向がある。 いずれにせよ、RN の任意の有限解析拡張に対して、大域的対足対称および反対称解の基底を常に構築できる。 我々は、この基礎を将来のQFT構築における正および負の周波数解の観点から特徴づけてきた。

We extend the discussion of the antipodal identification of black holes to the Reissner-Nordstr\"om (RN) spacetime by developing the classical tools necessary to define the corresponding quantum field theory (QFT). We solve the massless Klein-Gordon equation in the RN background in terms of scattering coefficients and provide a procedure for constructing a solution for an arbitrary analytic extension of RN. The behavior of the maximally extended solution is highly dependent upon the coefficients of scattering between the inner and outer horizons, so we present the low-frequency behavior of, and numerical solutions for, these quantities. We find that, for low enough frequency, field amplitudes of solutions with purely positive or negative frequency at each horizon will acquire only a phase after passing both the inner and outer horizons, while at higher frequencies the amplitudes will tend to grow exponentially either to the future or to the past, and decay exponentially in the other direction. Regardless, we can always construct a basis of globally antipodal symmetric and antisymmetric solutions for any finite analytic extension of RN. We have characterized this basis in terms of positive and negative frequency solutions for future use in constructing the corresponding QFT.
翻訳日:2023-06-04 13:55:50 公開日:2020-09-20
# レナード・ジョーンズ様ポテンシャルによるエキゾチックフォトニック分子

Exotic photonic molecules via Lennard-Jones-like potentials ( http://arxiv.org/abs/2003.07864v2 )

ライセンス: Link先を確認
Przemyslaw Bienias, Michael J. Gullans, Marcin Kalinowski, Alexander N. Craddock, Dalia P. Ornelas-Huerta, Steven L. Rolston, J.V. Porto, and Alexey V. Gorshkov(参考訳) 超低温系は原子間の相互作用を前例のないレベルで制御する。 重要な課題は、光子間の相互作用を同様のレベルで制御することである。 この目的に向けて、電磁誘導透過(eit)によりリドバーグ状態と結合した光子間の新しいレナード・ジョーンズ様ポテンシャルの実現を提案する。 このポテンシャルは、ライドベルグ状態と他のライドベルグ状態とのf{\"o}rster共鳴を調和させることによって達成される。我々は1dおよび2dジオメトリーにおける少数体問題を検討し、光子の自己結合型クラスター(分子)の存在を示す。 数体問題において、多体相互作用は分子基底状態の幾何学に大きな影響を与えることを実証する。 例えば、2次元の3つの光子は、等辺三角形の配置ではなく、線構成で自らを優先的に配置する。 その結果,強い相互作用を持つ光子を用いた多体現象の研究の新たな道が開かれた。

Ultracold systems offer an unprecedented level of control of interactions between atoms. An important challenge is to achieve a similar level of control of the interactions between photons. Towards this goal, we propose a realization of a novel Lennard-Jones-like potential between photons coupled to the Rydberg states via electromagnetically induced transparency (EIT). This potential is achieved by tuning Rydberg states to a F{\"o}rster resonance with other Rydberg states. We consider few-body problems in 1D and 2D geometries and show the existence of self-bound clusters ("molecules") of photons. We demonstrate that for a few-body problem, the multi-body interactions have a significant impact on the geometry of the molecular ground state. This leads to phenomena without counterparts in conventional systems: For example, three photons in 2D preferentially arrange themselves in a line-configuration rather than in an equilateral-triangle configuration. Our result opens a new avenue for studies of many-body phenomena with strongly interacting photons.
翻訳日:2023-05-28 22:10:10 公開日:2020-09-20
# 半確率熱バス構成相互作用法によるガウス2のほぼ正確なエネルギー

Almost exact energies for the Gaussian-2 set with the semistochastic heat-bath configuration interaction method ( http://arxiv.org/abs/2004.10059v3 )

ライセンス: Link先を確認
Yuan Yao, Emmanuel Giner, Junhao Li, Julien Toulouse, C. J. Umrigar(参考訳) 最近開発されたsemistochastic heat-bath configuration interaction (shci)法は、他の方法よりも大きなシステムに対して本質的に正確なエネルギーを与えることができる、体系的に即効的な構成相互作用と摂動理論の方法である。 原子化エネルギーは実験から知られているため, 先行研究においてテストセットとして用いられてきた55分子のshci微粒化エネルギーを計算する。 cc-pvdzからcc-pv5zへの基底セットを使用し、最大500個の軌道と最大分子のヒルベルト空間は10^{32}$ slaterである。 各基底に対して、その基底の正確なエネルギーの化学精度(1 kcal/molまたは1.6 mha/mol)内の外挿エネルギーは、ヒルベルト空間全体のほんの一部で計算される。 また、ほぼ正確なエネルギーを使って、結合クラスタ[CCSD(T)]エネルギーをベンチマークします。 エネルギーは完全な基底セット限界に外挿され、実験的な原子化エネルギーと比較される。 外挿は密度汎関数理論に基づく基底セットの補正を伴わずに行われる。 これらの外挿実験の平均絶対偏差は0.46 kcal/molと0.51 kcal/molである。 SHCIエネルギーの収束性を改善するために用いられる軌道最適化法についても論じる。

The recently developed semistochastic heat-bath configuration interaction (SHCI) method is a systematically improvable selected configuration interaction plus perturbation theory method capable of giving essentially exact energies for larger systems than is possible with other such methods. We compute SHCI atomization energies for 55 molecules which have been used as a test set in prior studies because their atomization energies are known from experiment. Basis sets from cc-pVDZ to cc-pV5Z are used, totaling up to 500 orbitals and a Hilbert space of $10^{32}$ Slater determinants for the largest molecules. For each basis, an extrapolated energy well within chemical accuracy (1 kcal/mol or 1.6 mHa/mol) of the exact energy for that basis is computed using only a tiny fraction of the entire Hilbert space. We also use our almost exact energies to benchmark coupled-cluster [CCSD(T)] energies. The energies are extrapolated to the complete basis set limit and compared to the experimental atomization energies. The extrapolations are done both without and with a basis-set correction based on density-functional theory. The mean absolute deviations from experiment for these extrapolations are 0.46 kcal/mol and 0.51 kcal/mol, respectively. Orbital optimization methods used to obtain improved convergence of the SHCI energies are also discussed.
翻訳日:2023-05-22 22:37:27 公開日:2020-09-20
# 可変透過共振器を用いた導波管バンドギャップN量子アレイ

Waveguide bandgap N-qubit array with a tunable transparency resonance ( http://arxiv.org/abs/2007.14814v2 )

ライセンス: Link先を確認
Ya. S. Greenberg, A. A. Shtygashev, A. G. Moiseev(参考訳) 1次元n量子ビットチェーンによる単一光子伝送の研究を行った。 量子ビットは隣同士の等しい距離と同一であるはずである。 我々は、チェビシェフ多項式を用いてN-クビット鎖の伝達行列を表現し、任意の大きさのNに対して透過振幅と反射振幅の単純な式を得ることができる。 奇数 n の場合、中心量子ビットの励起周波数のチューニングは、全伝送で狭い共鳴のバンドギャップ内で出現することを示している。 共鳴の位置とその幅は中央量子ビットの周波数で制御できる。 量子ビットと導波路光子の強い結合によって生じる個々の量子ビットの幅の重なりによって、バンドギャップの形成と伝送共振が条件付けされていることを示す。

We study a single photon transmission through 1D N- qubit chain. The qubits are supposed to be identical with equal distance between neighbors. We express the transfer matrix of N- qubit chain in terms of Chebyshev polynomials, which allows us to obtain simple expressions for the transmission and reflection amplitudes for arbitrarily large N. If the distance between neighbor qubits is equal to half wavelength, the transmission spectrum exhibits a flat bandgap structure with very steep walls. We show that for odd N the tuning of the excitation frequency of a central qubit gives rise to the appearance within a bandgap of a narrow resonance with a full transmission. The position of the resonance and its width can be controlled by the frequency of a central qubit. We show that the formation of the bandgap and of the transmission resonance is conditioned by the overlapping the widths of individual qubits which results from the strong coupling between qubits and waveguide photons.
翻訳日:2023-05-07 20:32:42 公開日:2020-09-20
# 1次元格子上のpoincar\'{e}結晶

Poincar\'{e} crystal on the one-dimensional lattice ( http://arxiv.org/abs/2009.09441v1 )

ライセンス: Link先を確認
Pei Wang(参考訳) 本稿では, 1次元ブラベイ格子上の離散ポアンカル(poincar\'{e} 対称性を持つ粒子の量子論を展開する。 最近発見された離散ローレンツ対称性は、ブラベイ格子上の離散空間変換対称性と共存する唯一のローレンツ対称性である。 離散ローレンツ変換と時空変換は、量子論においてユニタリ作用素によって表される離散ポアンカル・'{e} 群を形成する。 擬運動量と準エネルギーの合同関係として表現される表現の存在条件を見いだす。 次に、ユニタリ作用素とフロケットハミルトニアンの両方を場作用素の項で表現することで、識別不能粒子のローレンツ不変多体理論を構築する。 典型的なハミルトン派には、サイト間の距離が増加するにつれて変動する長距離ホッピングがある。 格子理論のグリーン関数を計算する。 グリーン関数が 0 でない時空点は格子構造を表示する。 伝播の間、粒子はローレンツ対称性を維持するために1つまたは少数の部位に局在する。

In this paper, we develop the quantum theory of particles that has discrete Poincar\'{e} symmetry on the one-dimensional Bravais lattice. We review the recently discovered discrete Lorentz symmetry, which is the unique Lorentz symmetry that coexists with the discrete space translational symmetry on a Bravais lattice. The discrete Lorentz transformations and spacetime translations form the discrete Poincar\'{e} group, which are represented by unitary operators in a quantum theory. We find the conditions for the existence of representation, which are expressed as the congruence relation between quasi-momentum and quasi-energy. We then build the Lorentz-invariant many-body theory of indistinguishable particles by expressing both the unitary operators and Floquet Hamiltonians in terms of the field operators. Some typical Hamiltonians include the long-range hopping which fluctuates as the distance between sites increases. We calculate the Green's functions of the lattice theory. The spacetime points where the Green's function is nonzero display a lattice structure. During the propagation, the particles stay localized on a single or a few sites to preserve the Lorentz symmetry.
翻訳日:2023-05-01 18:18:51 公開日:2020-09-20
# 量子畳み込みニューラルネットワーク(QCNN)に関するチュートリアル

A Tutorial on Quantum Convolutional Neural Networks (QCNN) ( http://arxiv.org/abs/2009.09423v1 )

ライセンス: Link先を確認
Seunghyeok Oh, Jaeho Choi and Joongheon Kim(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンにおいて一般的なモデルであり、データの相関情報をうまく活用する利点がある。 しかし、cnnは与えられたデータやモデルの次元が大きすぎる場合、効率的に学習することが難しい。 量子畳み込みニューラルネットワーク(quantum convolutional neural network, qcnn)は、量子コンピューティング環境を使用してcnnで解決すべき問題に対する新たなソリューションや、既存の学習モデルのパフォーマンス向上のための方向性を提供する。 そこで本研究では,CNNの構造を量子コンピューティング環境に適用することにより,量子物理学と化学の分類問題を効果的に解くモデルを提案する。 また, マルチスケールエンタングルメント再正規化アンサッツ (MERA) を用いて, O(log(n)) 深さで計算できるモデルを提案する。 第2の研究では、既存のコンピュータビジョンで使用されるCNN学習モデルに量子コンピューティングを用いた層を追加することにより、モデルの性能を改善する方法を紹介した。 このモデルは小さな量子コンピュータでも利用することができ、cnnモデルに量子畳み込み層を追加するか、畳み込み層に置き換えることでハイブリッド学習モデルを設計することができる。 本稿では、TensorFlow QuantumプラットフォームによるMNISTデータセットを用いたトレーニングを通じて、QCNNモデルがCNNと比較して効率的に学習できるかどうかを検証する。

Convolutional Neural Network (CNN) is a popular model in computer vision and has the advantage of making good use of the correlation information of data. However, CNN is challenging to learn efficiently if the given dimension of data or model becomes too large. Quantum Convolutional Neural Network (QCNN) provides a new solution to a problem to solve with CNN using a quantum computing environment, or a direction to improve the performance of an existing learning model. The first study to be introduced proposes a model to effectively solve the classification problem in quantum physics and chemistry by applying the structure of CNN to the quantum computing environment. The research also proposes the model that can be calculated with O(log(n)) depth using Multi-scale Entanglement Renormalization Ansatz (MERA). The second study introduces a method to improve the model's performance by adding a layer using quantum computing to the CNN learning model used in the existing computer vision. This model can also be used in small quantum computers, and a hybrid learning model can be designed by adding a quantum convolution layer to the CNN model or replacing it with a convolution layer. This paper also verifies whether the QCNN model is capable of efficient learning compared to CNN through training using the MNIST dataset through the TensorFlow Quantum platform.
翻訳日:2023-05-01 18:18:32 公開日:2020-09-20
# 逆工学による論理量子ビット一重項状態のロバスト生成とスピン量子ビットによる最適制御

Robust generation of logical qubit singlet states with reverse engineering and optimal control with spin qubits ( http://arxiv.org/abs/2009.09411v1 )

ライセンス: Link先を確認
Yi-Hao Kang, Zhi-Cheng Shi, Jie Song, and Yan Xia(参考訳) スピン対によって構成される3つの論理量子ビットの単一状態を生成するプロトコルが提案されている。 論理量子ビットの単一および多重演算は、不変量に基づくリバースエンジニアリングと最適制御によりロバストな制御場を導出する効果的なハミルトニアンの構成のために研究されている。 さらに、系統的な誤差は、より堅牢な周期変調によってさらに補償される。 さらに, 数値シミュレーションにより, プロトコルのデコヒーレンスに対する耐性を示す。 したがって、このプロトコルはスピン系における論理量子の絡み合いの世代に有用な視点を提供することができる。

A protocol is proposed to generate singlet states of three logical qubits constructed by pairs of spins. Single and multiple operations of logical qubits are studied for the construction of an effective Hamiltonian, with which robust control fields are derived with invariant-based reverse engineering and optimal control. Moreover, systematic errors are further compensated by periodic modulation for better robustness. Furthermore, resistance to decoherence of the protocol is also shown with numerical simulations. Therefore, the protocol may provide useful perspectives for generations of logical qubit entanglement in spin systems.
翻訳日:2023-05-01 18:17:58 公開日:2020-09-20
# カシミール力による真空ギャップの伝熱について」への回答

Reply to "On the heat transfer across a vacuum gap mediated by Casimir force" ( http://arxiv.org/abs/2009.09377v1 )

ライセンス: Link先を確認
Hao-Kun Li, King Yan Fong, Xiang Zhang(参考訳) 最近の論文 (arXiv:2003.00760) および関連論文 (Z. Naturforsch. A 75, 803-807) において、S。 -A。 Biehs et al. は、カシミール力によって駆動される熱伝達に関する我々の研究の誤った解釈を提示する。 ここでは,いくつかの概念を明確にし,その主張を反論する。

In a recent paper (arXiv:2003.00760) and a related article (Z. Naturforsch. A 75, 803-807), S.-A. Biehs et al. present erroneous interpretations of our work on the heat transfer driven by Casimir force. Here, we clarify several key concepts and refute their claims.
翻訳日:2023-05-01 18:17:47 公開日:2020-09-20
# ネットワークと駅レベルの自転車シェアリングシステム予測:サンフランシスコベイエリアのケーススタディ

Network and Station-Level Bike-Sharing System Prediction: A San Francisco Bay Area Case Study ( http://arxiv.org/abs/2009.09367v1 )

ライセンス: Link先を確認
Huthaifa I. Ashqar, Mohammed Elhenawy, Hesham A. Rakha, Mohammed Almannaa, and Leanna House(参考訳) 本研究では,サンフランシスコ・ベイエリア自転車共有システムにおいて,ネットワークとステーションの2段階の機械学習を適用した自転車の可用性をモデル化するモデルを開発した。 駅レベルでのBSSの調査は、政策立案者、プランナー、オペレーターに重要な選択と結論を与えるために必要な詳細レベルを提供する完全な問題である。 我々はRandom ForestとLeast-Squares Boostingを単変量回帰アルゴリズムとして使用し、ステーションレベルで利用可能な自転車の数をモデル化した。 多変量回帰に対して、ネットワークレベルでのシステム内の異なる局間の時空間相互作用を再現し、必要な予測モデルを減らすために、部分最小二乗回帰(PLSR)を適用した。 非変量モデルの場合、予測誤差はわずかに低かったが、多変量モデルの結果はネットワークレベルの予測に有望であり、特に空間的に相関するステーションが比較的多いシステムでは有望であることがわかった。 さらに, 駅レベル解析の結果から, BSSにおける自転車のモデル化には, 人口情報やその他の環境変数が重要な要因であることが示唆された。 また, ステーションレベルtでモデル化された自転車が, 自転車数モデルに顕著な影響を及ぼすことを示した。 ステーションの隣人や予測地平線時間は重要な予測器であり、15分は最も効果的な予測地平線時間であった。

The paper develops models for modeling the availability of bikes in the San Francisco Bay Area Bike Share System applying machine learning at two levels: network and station. Investigating BSSs at the station-level is the full problem that would provide policymakers, planners, and operators with the needed level of details to make important choices and conclusions. We used Random Forest and Least-Squares Boosting as univariate regression algorithms to model the number of available bikes at the station-level. For the multivariate regression, we applied Partial Least-Squares Regression (PLSR) to reduce the needed prediction models and reproduce the spatiotemporal interactions in different stations in the system at the network-level. Although prediction errors were slightly lower in the case of univariate models, we found that the multivariate model results were promising for the network-level prediction, especially in systems where there is a relatively large number of stations that are spatially correlated. Moreover, results of the station-level analysis suggested that demographic information and other environmental variables were significant factors to model bikes in BSSs. We also demonstrated that the available bikes modeled at the station-level at time t had a notable influence on the bike count models. Station neighbors and prediction horizon times were found to be significant predictors, with 15 minutes being the most effective prediction horizon time.
翻訳日:2023-05-01 18:17:17 公開日:2020-09-20
# マルチドメイン画像-画像変換のためのインフォームティブサンプルマイニングネットワーク

Informative Sample Mining Network for Multi-Domain Image-to-Image Translation ( http://arxiv.org/abs/2001.01173v4 )

ライセンス: Link先を確認
Jie Cao, Huaibo Huang, Yi Li, Ran He, Zhenan Sun(参考訳) 近年の深部生成モデルの進歩により,多領域画像・画像翻訳の性能が大幅に向上した。 既存のアプローチでは、すべての視覚領域間の翻訳を実現するために統一モデルを使用することができる。 しかし、その成果はドメインのバリエーションが大きい場合の満足度にはほど遠い。 本稿では,サンプル選択戦略の改善が有効な解決策であることを明らかにする。 Informative Sample Mining Network を提示し、情報的サンプルを選択するために、生成逆数ネットワークのトレーニング中のサンプル重要度を動的に推定する。 我々は,標本の重要度と大域的最適判別器の予測との関係を理論的に分析する。 そして、一般条件に対する実用的重要度推定関数を導出する。 さらに,サンプル情報を維持しつつ,サンプルハードネスを低減させる多段階サンプルトレーニング手法を提案する。 様々な画像から画像への翻訳タスクに関する広範囲な実験を行い,現状の手法よりも優れていることを示す。

The performance of multi-domain image-to-image translation has been significantly improved by recent progress in deep generative models. Existing approaches can use a unified model to achieve translations between all the visual domains. However, their outcomes are far from satisfying when there are large domain variations. In this paper, we reveal that improving the sample selection strategy is an effective solution. To select informative samples, we dynamically estimate sample importance during the training of Generative Adversarial Networks, presenting Informative Sample Mining Network. We theoretically analyze the relationship between the sample importance and the prediction of the global optimal discriminator. Then a practical importance estimation function for general conditions is derived. Furthermore, we propose a novel multi-stage sample training scheme to reduce sample hardness while preserving sample informativeness. Extensive experiments on a wide range of specific image-to-image translation tasks are conducted, and the results demonstrate our superiority over current state-of-the-art methods.
翻訳日:2023-01-14 08:02:37 公開日:2020-09-20
# 犯罪機の性能向上

Perfecting the Crime Machine ( http://arxiv.org/abs/2001.09764v2 )

ライセンス: Link先を確認
Yigit Alparslan and Ioanna Panagiotou and Willow Livengood and Robert Kane and Andrew Cohen(参考訳) 本研究では、異なる機械学習技術とワークフローを用いて犯罪関連統計、特にフィラデルフィアの犯罪タイプを予測する。 犯罪の場所と時刻を主な特徴として使用し、生データにある2つの特徴から異なる特徴を抽出し、多数のクラスラベルを扱うモデルを構築します。 我々は,教師なし学習技術を組み合わせることを含む様々な特徴を抽出し,犯罪タイプを予測しようとする。 私たちが使用しているモデルは、Support Vector Machines、Decision Trees、Random Forest、K-Nearest Neighborsなどです。 本稿では,ランダムフォレストが,エラーログ損失2.3120の犯罪種別予測モデルとして最適であることを示す。

This study explores using different machine learning techniques and workflows to predict crime related statistics, specifically crime type in Philadelphia. We use crime location and time as main features, extract different features from the two features that our raw data has, and build models that would work with large number of class labels. We use different techniques to extract various features including combining unsupervised learning techniques and try to predict the crime type. Some of the models that we use are Support Vector Machines, Decision Trees, Random Forest, K-Nearest Neighbors. We report that the Random Forest as the best performing model to predict crime type with an error log loss of 2.3120.
翻訳日:2023-01-11 13:55:51 公開日:2020-09-20
# グローバルワークスペース理論に基づくマルチモーダルデータ融合

Multimodal Data Fusion based on the Global Workspace Theory ( http://arxiv.org/abs/2001.09485v2 )

ライセンス: Link先を確認
Cong Bao, Zafeirios Fountas, Temitayo Olugbade, Nadia Bianchi-Berthouze(参考訳) 本稿では,マルチモーダルデータ融合における動的かつ不特定な不確実性の課題に対処する,global workspace network (gwn) と呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 我々のGWNは、モダリティにまたがる注意のモデルであり、認知科学の分野から確立されたグローバルワークスペース理論にインスピレーションを受けています。 GWNは、慢性的な痛みを持つ人や健康な人から採取されたマルチモーダル・エモパインデータセットに基づいて、痛み患者と健康な被験者を識別するための平均F1スコア0.92と、患者の3つの痛みレベルをさらに分類するための平均F1スコア0.75を達成した。 これらのタスクでは、GWNは結合による融合の典型的な融合アプローチを著しく上回る。 さらに、GWNの挙動と、マルチモーダルデータにおける不確実性(隠れノイズ)に対処する能力について広範な分析を行う。

We propose a novel neural network architecture, named the Global Workspace Network (GWN), which addresses the challenge of dynamic and unspecified uncertainties in multimodal data fusion. Our GWN is a model of attention across modalities and evolving through time, and is inspired by the well-established Global Workspace Theory from the field of cognitive science. The GWN achieved average F1 score of 0.92 for discrimination between pain patients and healthy participants and average F1 score = 0.75 for further classification of three pain levels for a patient, both based on the multimodal EmoPain dataset captured from people with chronic pain and healthy people performing different types of exercise movements in unconstrained settings. In these tasks, the GWN significantly outperforms the typical fusion approach of merging by concatenation. We further provide extensive analysis of the behaviour of the GWN and its ability to address uncertainties (hidden noise) in multimodal data.
翻訳日:2023-01-06 19:16:50 公開日:2020-09-20
# 顔画像フィルタとしての知覚ハッシュにおけるガウスのぼやけの評価

Towards Evaluating Gaussian Blurring in Perceptual Hashing as a Facial Image Filter ( http://arxiv.org/abs/2002.00140v2 )

ライセンス: Link先を確認
Yigit Alparslan, Ken Alparslan, Mannika Kshettry, Louis Kratz(参考訳) ソーシャルメディアの成長に伴い、インターネット上には膨大な数の顔画像が公開されている。 人は自分のプロフィールで他人の写真を使うことが多い。 知覚ハッシュは、2つの画像が同一であるかどうかを検出するためにしばしば用いられる。 そのため、他人の絵を誤用しているかどうかを検知することができる。 知覚ハッシュでは、所定の画像に対してハッシュが計算され、重複した特徴がある場合、既存のハッシュのいずれかに新しいテスト画像がマッピングされる。 したがって、禁止された画像コンテンツや、フィルターをだますためにコンテンツを変更しても、フィルターを欺くために行われる修正である敵攻撃をフラグする画像フィルターとして使用できる。 このため、知覚的ハッシュはリサイズ、クロッピング、わずかなピクセル修正などの変換を考慮に入れるのに十分な堅牢性を持つことが重要である。 本稿では,顔画像に特有な個人画像の誤用を検出するために,知覚ハッシュにおけるガウス的ぼかしの効果を実験的に検討する。 我々は,画像へのガウス的ぼかしの使用により,画像のトリミング,テキストアノテーションの追加,画像回転などの敵攻撃を検出するフィルタの精度が向上すると仮定する。

With the growth in social media, there is a huge amount of images of faces available on the internet. Often, people use other people's pictures on their own profile. Perceptual hashing is often used to detect whether two images are identical. Therefore, it can be used to detect whether people are misusing others' pictures. In perceptual hashing, a hash is calculated for a given image, and a new test image is mapped to one of the existing hashes if duplicate features are present. Therefore, it can be used as an image filter to flag banned image content or adversarial attacks --which are modifications that are made on purpose to deceive the filter-- even though the content might be changed to deceive the filters. For this reason, it is critical for perceptual hashing to be robust enough to take transformations such as resizing, cropping, and slight pixel modifications into account. In this paper, we would like to propose to experiment with effect of gaussian blurring in perceptual hashing for detecting misuse of personal images specifically for face images. We hypothesize that use of gaussian blurring on the image before calculating its hash will increase the accuracy of our filter that detects adversarial attacks which consist of image cropping, adding text annotation, and image rotation.
翻訳日:2023-01-05 01:06:27 公開日:2020-09-20
# 生成的敵ネットワークに基づくレコメンダシステム:問題駆動の視点から

Recommender Systems Based on Generative Adversarial Networks: A Problem-Driven Perspective ( http://arxiv.org/abs/2003.02474v3 )

ライセンス: Link先を確認
Min Gao, Junwei Zhang, Junliang Yu, Jundong Li, Junhao Wen and Qingyu Xiong(参考訳) レコメンダシステム(rss)は、ユーザーがさまざまなオプションから関連するアイテムを見つけるためのパーソナライズされたフィルターとして、人々のオンライン生活において非常に重要な役割を果たす。 その効果により、RSは消費者指向のeコマースプラットフォームで広く採用されている。 しかし、実証的な成功にもかかわらず、これらのシステムにはデータノイズとデータ空間の2つの制限がある。 近年、gans(generative adversarial network)は、複雑な実データ分布を学習する能力が強かったため、多くの分野の関心を集めている。 データノイズ問題, 逆方向の摂動, 逆方向のサンプリングに基づくトレーニングは, 多くの場合, 解決策として機能する。(2)データ疎度問題では, ミニマックスフレームワーク下での実際のデータの分布を捉えることで実現されるデータ拡張--は, 主要な対処戦略である。 これらの研究の包括的理解を得るために、対応する研究とモデルを、問題駆動の観点から整理して検討する。 具体的には、これらのモデルの分類と、それらの詳細な記述と利点を提案する。 最後に、GANベースのRSにおけるいくつかのオープンな問題と現在のトレンドについて詳しく述べる。

Recommender systems (RSs) now play a very important role in the online lives of people as they serve as personalized filters for users to find relevant items from an array of options. Owing to their effectiveness, RSs have been widely employed in consumer-oriented e-commerce platforms. However, despite their empirical successes, these systems still suffer from two limitations: data noise and data sparsity. In recent years, generative adversarial networks (GANs) have garnered increased interest in many fields, owing to their strong capacity to learn complex real data distributions; their abilities to enhance RSs by tackling the challenges these systems exhibit have also been demonstrated in numerous studies. In general, two lines of research have been conducted, and their common ideas can be summarized as follows: (1) for the data noise issue, adversarial perturbations and adversarial sampling-based training often serve as a solution; (2) for the data sparsity issue, data augmentation--implemented by capturing the distribution of real data under the minimax framework--is the primary coping strategy. To gain a comprehensive understanding of these research efforts, we review the corresponding studies and models, organizing them from a problem-driven perspective. More specifically, we propose a taxonomy of these models, along with their detailed descriptions and advantages. Finally, we elaborate on several open issues and current trends in GAN-based RSs.
翻訳日:2022-12-26 07:46:11 公開日:2020-09-20
# 機械学習におけるバイアス-何が良いのか?

Bias in Machine Learning -- What is it Good for? ( http://arxiv.org/abs/2004.00686v2 )

ライセンス: Link先を確認
Thomas Hellstr\"om, Virginia Dignum, Suna Bensch(参考訳) 公的なメディアや科学的な出版物では、"emph{bias" という用語は、多くの異なる文脈や多くの異なる意味を持つ機械学習と組み合わせて用いられる。 本稿では,これらの異なる意味,用語,定義の分類を,主に科学的,学術的な機械学習に関する文献を調査することによって提案する。 いくつかのケースでは、明確な用語と完全性を促進するために拡張と修正を提案する。 調査に続いて、さまざまなタイプのバイアスがどのように接続され、相互に依存するかに関する分析と議論が行われる。 我々は、モデルにつながる機械学習パイプラインに発生するバイアスと、モデル(典型的には社会的差別に関連する)の最終的なバイアスとの間に複雑な関係があることを結論付けた。 前者のバイアスは後者に影響を及ぼすかもしれないし、影響しないかもしれない。

In public media as well as in scientific publications, the term \emph{bias} is used in conjunction with machine learning in many different contexts, and with many different meanings. This paper proposes a taxonomy of these different meanings, terminology, and definitions by surveying the, primarily scientific, literature on machine learning. In some cases, we suggest extensions and modifications to promote a clear terminology and completeness. The survey is followed by an analysis and discussion on how different types of biases are connected and depend on each other. We conclude that there is a complex relation between bias occurring in the machine learning pipeline that leads to a model, and the eventual bias of the model (which is typically related to social discrimination). The former bias may or may not influence the latter, in a sometimes bad, and sometime good way.
翻訳日:2022-12-17 18:01:57 公開日:2020-09-20
# クロスドメイン事前学習による抽象会議要約のための階層的ネットワーク

A Hierarchical Network for Abstractive Meeting Summarization with Cross-Domain Pretraining ( http://arxiv.org/abs/2004.02016v4 )

ライセンス: Link先を確認
Chenguang Zhu, Ruochen Xu, Michael Zeng, Xuedong Huang(参考訳) 自動会議書き起こしが豊富にあるため、会議要約は参加者と他の当事者の両方にとって大きな関心事である。 ミーティングを要約する従来の方法は、複雑なマルチステップパイプラインに依存しており、共同最適化は難解である。 一方、テキスト要約と対話システムには、いくつかのディープニューラルネットワークモデルがある。 しかし、ミーティングの書き起こしの意味構造やスタイルは記事や会話とは全く異なる。 本稿では,会議シナリオに適応した新しい要約要約ネットワークを提案する。 長いミーティングの書き起こしに対応する階層構造と,話者間の差異を表現する役割ベクトルを設計した。 さらに,大規模ニュース要約データに対して,会議要約データの不十分さからモデルを事前学習する。 実験の結果,我々のモデルは,自動測定と人的評価の両方において,従来の手法よりも優れていた。 例えばICSIデータセットでは、ROUGE-1スコアは34.66%から46.28%に増加した。

With the abundance of automatic meeting transcripts, meeting summarization is of great interest to both participants and other parties. Traditional methods of summarizing meetings depend on complex multi-step pipelines that make joint optimization intractable. Meanwhile, there are a handful of deep neural models for text summarization and dialogue systems. However, the semantic structure and styles of meeting transcripts are quite different from articles and conversations. In this paper, we propose a novel abstractive summary network that adapts to the meeting scenario. We design a hierarchical structure to accommodate long meeting transcripts and a role vector to depict the difference among speakers. Furthermore, due to the inadequacy of meeting summary data, we pretrain the model on large-scale news summary data. Empirical results show that our model outperforms previous approaches in both automatic metrics and human evaluation. For example, on ICSI dataset, the ROUGE-1 score increases from 34.66% to 46.28%.
翻訳日:2022-12-16 23:10:42 公開日:2020-09-20
# ロバスト最適化のための不確かさ集合の非パラメトリック推定

Nonparametric Estimation of Uncertainty Sets for Robust Optimization ( http://arxiv.org/abs/2004.03069v2 )

ライセンス: Link先を確認
Polina Alexeenko and Eilyan Bitar(参考訳) 本研究では,不確かさを確率分布が不明な確率変数としてモデル化したロバスト最適化問題のための不確実性集合を構築するためのデータ駆動手法について検討する。 この分布から引き出された独立なサンプルのみに依存して、与えられた許容範囲内の目標質量を高い信頼度で近似することが保証される不確実性集合を推定する非パラメトリックな方法を提案する。 我々が検討する非パラメトリック推定器は、与えられた対象質量への確率収束を示す分布フリーな有限サンプル性能境界に従うことも示されている。 計算の効率化に加えて、提案した推定器は、大きな制約関数の族に対して、計算的に抽出可能な頑健な最適化問題をもたらす不確実性集合をもたらす。

We investigate a data-driven approach to constructing uncertainty sets for robust optimization problems, where the uncertain problem parameters are modeled as random variables whose joint probability distribution is not known. Relying only on independent samples drawn from this distribution, we provide a nonparametric method to estimate uncertainty sets whose probability mass is guaranteed to approximate a given target mass within a given tolerance with high confidence. The nonparametric estimators that we consider are also shown to obey distribution-free finite-sample performance bounds that imply their convergence in probability to the given target mass. In addition to being efficient to compute, the proposed estimators result in uncertainty sets that yield computationally tractable robust optimization problems for a large family of constraint functions.
翻訳日:2022-12-16 00:51:38 公開日:2020-09-20
# PALM:文脈条件生成のための自動符号化・自動回帰言語モデルの事前学習

PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation ( http://arxiv.org/abs/2004.07159v2 )

ライセンス: Link先を確認
Bin Bi, Chenliang Li, Chen Wu, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, Luo Si(参考訳) BERT、MASS、BARTといった自己指導型事前学習は、自然言語理解と生成のための強力な技術として登場した。 既存の事前学習技術では、自動エンコードおよび/または自己回帰的目的を用いてトランスフォーマーベースのモデルをトレーニングしている。 既存の技術のトレーニング目標はしばしば、与えられたコンテキストの新しいテキストを生成するための生成的質問応答や会話的応答生成といった、多くの言語生成タスクの目標と矛盾する。 この研究は、パームに、コンテキストに基づいた新しいテキストを生成するために特別に設計された、大きなラベルのないコーパス上で、自動エンコーディングおよび自己回帰的な言語モデルを共同的に事前学習する新しいスキームを与える。 この新方式は,原文を再構築する以上の生成を行う場合の事前学習と微調整の間に,既存の復調スキームが導入したミスマッチを緩和する。 PALMは、CNN/DailyMailの抽象的な要約、Gigaword、SQuADの質問生成、コーネル映画対話における会話応答生成を含む、生成的質問応答に関する様々な言語生成ベンチマーク(公式MARCOリーダーボードのRank 1)において、新しい最先端結果を達成することを示す。

Self-supervised pre-training, such as BERT, MASS and BART, has emerged as a powerful technique for natural language understanding and generation. Existing pre-training techniques employ autoencoding and/or autoregressive objectives to train Transformer-based models by recovering original word tokens from corrupted text with some masked tokens. The training goals of existing techniques are often inconsistent with the goals of many language generation tasks, such as generative question answering and conversational response generation, for producing new text given context. This work presents PALM with a novel scheme that jointly pre-trains an autoencoding and autoregressive language model on a large unlabeled corpus, specifically designed for generating new text conditioned on context. The new scheme alleviates the mismatch introduced by the existing denoising scheme between pre-training and fine-tuning where generation is more than reconstructing original text. An extensive set of experiments show that PALM achieves new state-of-the-art results on a variety of language generation benchmarks covering generative question answering (Rank 1 on the official MARCO leaderboard), abstractive summarization on CNN/DailyMail as well as Gigaword, question generation on SQuAD, and conversational response generation on Cornell Movie Dialogues.
翻訳日:2022-12-13 09:40:29 公開日:2020-09-20
# X線画像からのCOVID-19自動検出手法の批判的評価

A Critic Evaluation of Methods for COVID-19 Automatic Detection from X-Ray Images ( http://arxiv.org/abs/2004.12823v4 )

ライセンス: Link先を確認
Gianluca Maguolo, Loris Nanni(参考訳) 本稿では,近年の文献におけるx線画像からcovid-19自動診断のための異なる検査プロトコルを比較し,評価する。 肺の大半を含まないX線画像を用いて同様の結果が得られることを示す。 我々はX線スキャンの中心を黒くし、画像の外側だけに分類器を訓練することで、画像から肺を取り除くことができる。 したがって、認識のためのいくつかのテストプロトコルは公平ではなく、ニューラルネットワークはcovid-19の存在と相関しないデータセット内の学習パターンであると推定する。 最後に,公正なテストプロトコルの作成が難しい課題であることを示し,特定のテストプロトコルがどの程度公平であるかを測定する方法を提案する。 今後の研究では,当社のツールを用いたテストプロトコルの公平性を確認することを提案するとともに,提案する手法よりも優れた技術を求めることを研究者に推奨する。

In this paper, we compare and evaluate different testing protocols used for automatic COVID-19 diagnosis from X-Ray images in the recent literature. We show that similar results can be obtained using X-Ray images that do not contain most of the lungs. We are able to remove the lungs from the images by turning to black the center of the X-Ray scan and training our classifiers only on the outer part of the images. Hence, we deduce that several testing protocols for the recognition are not fair and that the neural networks are learning patterns in the dataset that are not correlated to the presence of COVID-19. Finally, we show that creating a fair testing protocol is a challenging task, and we provide a method to measure how fair a specific testing protocol is. In the future research we suggest to check the fairness of a testing protocol using our tools and we encourage researchers to look for better techniques than the ones that we propose.
翻訳日:2022-12-09 05:13:30 公開日:2020-09-20
# 統計的機械学習の形式的仕様に対する認識論的アプローチ

An Epistemic Approach to the Formal Specification of Statistical Machine Learning ( http://arxiv.org/abs/2004.12734v3 )

ライセンス: Link先を確認
Yusuke Kawamoto(参考訳) 機械学習の統計的特性を定式化するための認識論的アプローチを提案する。 具体的には、可能な各世界が可能なデータセットに対応し、モーダル演算子をデータセット上での変換とテストとして解釈するKripkeモデルに基づく教師あり学習の形式モデルを提案する。 次に,統計的認識論理の拡張(StatEL)を用いて,統計分類器の分類性能,頑健性,公平性の諸概念を定式化する。 この形式化において,分類器の特性と分類性能とロバスト性との関係を示す。 私たちが知る限り、これは認識論的モデルと論理式を使って機械学習の統計的特性を表現する最初の仕事であり、機械学習の形式的仕様の理論を開発する出発点となるでしょう。

We propose an epistemic approach to formalizing statistical properties of machine learning. Specifically, we introduce a formal model for supervised learning based on a Kripke model where each possible world corresponds to a possible dataset and modal operators are interpreted as transformation and testing on datasets. Then we formalize various notions of the classification performance, robustness, and fairness of statistical classifiers by using our extension of statistical epistemic logic (StatEL). In this formalization, we show relationships among properties of classifiers, and relevance between classification performance and robustness. As far as we know, this is the first work that uses epistemic models and logical formulas to express statistical properties of machine learning, and would be a starting point to develop theories of formal specification of machine learning.
翻訳日:2022-12-09 05:11:46 公開日:2020-09-20
# 自信アイテムセットを用いたブラックボックス分類器のポストホックな説明

Post-hoc explanation of black-box classifiers using confident itemsets ( http://arxiv.org/abs/2005.01992v2 )

ライセンス: Link先を確認
Milad Moradi, Matthias Samwald(参考訳) 深層ニューラルネットワークのようなブラックボックス人工知能(AI)手法は、データセット内の複雑な関係を抽出し、新しい未知のデータレコードの予測を行う予測モデルを構築するために広く利用されている。 しかし、内部動作や決定ロジックがユーザから隠されているため、そのような方法による決定を信頼することは困難である。 説明可能な人工知能(XAI)とは、ブラックボックスAIモデルがその成果をいかに生み出すかを説明するシステムを指す。 ポストホックXAI法は特徴値と予測の関係を抽出することによりブラックボックスの挙動を近似する。 摂動ベースおよび決定セット法は、一般的に用いられるポストホックxaiシステムである。 前者の説明者は、個々の予測やモデル全体を説明する局所的あるいは大域的な線形モデルを構築するために、データレコードのランダムな摂動に依存する。 後者の解説者は、対象のブラックボックスと同じ結果を生み出す一連の決定ルールを構築するために、より頻繁に現れるこれらの特徴値を使用する。 しかしながら、これら2つのXAIメソッドのクラスにはいくつかの制限がある。 乱摂動は異なる部分空間における特徴値の分布を考慮に入れず、誤った近似をもたらす。 決定セットは、頻繁な特徴値にのみ注意を払い、モデルの決定境界を正確に表現する頻度は低いが、特徴とクラスラベルの間の多くの重要な相関を見逃す。 本稿では,CIE(Confident Itemsets Explanation)と呼ばれる説明手法を提案することによって,上記の課題に対処する。 特定のクラスラベルと高い相関関係を持つ特徴値の集合である自信ある項目セットを導入する。 CIEは自信あるアイテムセットを使用して、モデルの決定空間全体を小さな部分空間に識別する。

Black-box Artificial Intelligence (AI) methods, e.g. deep neural networks, have been widely utilized to build predictive models that can extract complex relationships in a dataset and make predictions for new unseen data records. However, it is difficult to trust decisions made by such methods since their inner working and decision logic is hidden from the user. Explainable Artificial Intelligence (XAI) refers to systems that try to explain how a black-box AI model produces its outcomes. Post-hoc XAI methods approximate the behavior of a black-box by extracting relationships between feature values and the predictions. Perturbation-based and decision set methods are among commonly used post-hoc XAI systems. The former explanators rely on random perturbations of data records to build local or global linear models that explain individual predictions or the whole model. The latter explanators use those feature values that appear more frequently to construct a set of decision rules that produces the same outcomes as the target black-box. However, these two classes of XAI methods have some limitations. Random perturbations do not take into account the distribution of feature values in different subspaces, leading to misleading approximations. Decision sets only pay attention to frequent feature values and miss many important correlations between features and class labels that appear less frequently but accurately represent decision boundaries of the model. In this paper, we address the above challenges by proposing an explanation method named Confident Itemsets Explanation (CIE). We introduce confident itemsets, a set of feature values that are highly correlated to a specific class label. CIE utilizes confident itemsets to discretize the whole decision space of a model to smaller subspaces.
翻訳日:2022-12-06 13:23:40 公開日:2020-09-20
# SciSight: 新型コロナウイルス探索のための顔ナビゲーションと研究グループ検出を組み合わせる

SciSight: Combining faceted navigation and research group detection for COVID-19 exploratory scientific search ( http://arxiv.org/abs/2005.12668v3 )

ライセンス: Link先を確認
Tom Hope, Jason Portenoy, Kishore Vasan, Jonathan Borchardt, Eric Horvitz, Daniel S. Weld, Marti A. Hearst, Jevin West(参考訳) 新型コロナウイルス(COVID-19)のパンデミックで科学者が前例のない動員を招き、大量の論文が発行され、研究者が新しい方向を追跡・探究することが困難になった。 検索エンジンは、コーパス間の接続の発見ではなく、ターゲットクエリ用に設計されている。 本稿では, 論文(遺伝子, 薬物, 疾患, 患者結果など)から自動的に抽出される生物医学的ファセット間の関連を探索し, 第二に, テキスト情報とネットワーク情報を組み合わせることで, 研究者グループとその関連を検索・可視化する。 scisightはこれまでに1万5千ドル以上のユーザーを提供しており、ページビューは4万2千ドル、リターンは13ドルだ。

The COVID-19 pandemic has sparked unprecedented mobilization of scientists, generating a deluge of papers that makes it hard for researchers to keep track and explore new directions. Search engines are designed for targeted queries, not for discovery of connections across a corpus. In this paper, we present SciSight, a system for exploratory search of COVID-19 research integrating two key capabilities: first, exploring associations between biomedical facets automatically extracted from papers (e.g., genes, drugs, diseases, patient outcomes); second, combining textual and network information to search and visualize groups of researchers and their ties. SciSight has so far served over $15K$ users with over $42K$ page views and $13\%$ returns.
翻訳日:2022-12-01 06:19:55 公開日:2020-09-20
# Check_square at CheckThat! 2020年:トランスフォーマーと構文特徴の融合によるソーシャルメディアにおけるクレーム検出

Check_square at CheckThat! 2020: Claim Detection in Social Media via Fusion of Transformer and Syntactic Features ( http://arxiv.org/abs/2007.10534v2 )

ライセンス: Link先を確認
Gullal S. Cheema, Sherzod Hakimov, Ralph Ewerth(参考訳) ニュース消費のデジタル時代において、ニュース読者は、高度にインタラクティブで迅速な方法で、他人と意見を反応し、表現し、共有する能力を持つ。 その結果、偽ニュースは、大企業や個人によるインターネット上のニュースの検証能力が非常に限られているため、私たちの日常生活に浸透した。 本稿では,ソーシャルメディア上のコンテンツストリームにおけるクレームの事実チェックの自動化を支援するファクトチェックエコシステムの一部である2つの問題を解決することに焦点を当てる。 まず,クレームチェック適性予測という問題に対して,トランスフォーマー(bert)埋め込みによる構文特徴と深いトランスフォーマー双方向エンコーダ表現の融合について検討し,クレームを含むか否かを分類する。 詳細な特徴分析を行い、英語とアラビア語のつぶやきのベストパフォーマンスモデルを提示する。 第2の課題であるクレーム検索について,セマンティクスのテキスト的類似性を専門に訓練したシャムネットワークトランスフォーマタ(sentence-transformers)から事前学習された埋め込みを探索し,クエリのツイートに対して検証されたクレームを検索するためにkd-searchを行う。

In this digital age of news consumption, a news reader has the ability to react, express and share opinions with others in a highly interactive and fast manner. As a consequence, fake news has made its way into our daily life because of very limited capacity to verify news on the Internet by large companies as well as individuals. In this paper, we focus on solving two problems which are part of the fact-checking ecosystem that can help to automate fact-checking of claims in an ever increasing stream of content on social media. For the first problem, claim check-worthiness prediction, we explore the fusion of syntactic features and deep transformer Bidirectional Encoder Representations from Transformers (BERT) embeddings, to classify check-worthiness of a tweet, i.e. whether it includes a claim or not. We conduct a detailed feature analysis and present our best performing models for English and Arabic tweets. For the second problem, claim retrieval, we explore the pre-trained embeddings from a Siamese network transformer model (sentence-transformers) specifically trained for semantic textual similarity, and perform KD-search to retrieve verified claims with respect to a query tweet.
翻訳日:2022-11-08 05:24:11 公開日:2020-09-20
# FlexPool: ジョイント乗客と商品輸送のための分散モデルフリーの深層強化学習アルゴリズム

FlexPool: A Distributed Model-Free Deep Reinforcement Learning Algorithm for Joint Passengers & Goods Transportation ( http://arxiv.org/abs/2007.13699v2 )

ライセンス: Link先を確認
Kaushik Manchella and Abhishek K. Umrawal and Vaneet Aggarwal(参考訳) オンライン商品配達の伸びは、ラストマイル配達による都市交通の急増をもたらしている。 一方、ライドシェアリングはライドシェアリングプラットフォームの成功と、ルートやマッチングに自動運転車技術を使う研究の増加によって、上昇を続けている。 乗客と商品の都市移動の未来は、交通システムの運用コストと環境フットプリントを最小化する新しい方法を活用することにかかっている。 本稿では,乗用車と貨物輸送の併用による車両輸送の改善について考察する。 本報告では, 交通システム環境の動的モデルを用いて, 新たな環境力学や不規則な環境力学に適応することが実証されたモデルフリーアプローチについて考察する。 本研究では,FlexPoolを提案する。FlexPoolは,環境とのインタラクションから最適なディスパッチポリシを学習することで,利用者や商品のワークロードを協調的に処理する分散モデルフリーの深層強化学習アルゴリズムである。 提案アルゴリズムは、乗客を乗り合いサービスにプールし、マルチホップトランジット方式で商品を配送する。 これらの柔軟性は、乗客や商品のサービス水準を維持しつつ、艦隊の運用コストと環境フットプリントを減少させる。 リアルなマルチエージェント都市移動プラットフォーム上でのシミュレーションを通じて、flexpoolが乗客と商品の要求に応える上で、他のモデルフリーな設定よりも優れていることを実証する。 FlexPoolは艦隊利用率を30%向上し、燃料効率を35%向上させる (i)多目的輸送を使わずに車両が乗客と商品の組み合わせを輸送するモデルフリーアプローチ (ii)車両が乗客または商品のみを輸送するモデルフリーアプローチ。

The growth in online goods delivery is causing a dramatic surge in urban vehicle traffic from last-mile deliveries. On the other hand, ride-sharing has been on the rise with the success of ride-sharing platforms and increased research on using autonomous vehicle technologies for routing and matching. The future of urban mobility for passengers and goods relies on leveraging new methods that minimize operational costs and environmental footprints of transportation systems. This paper considers combining passenger transportation with goods delivery to improve vehicle-based transportation. Even though the problem has been studied with a defined dynamics model of the transportation system environment, this paper considers a model-free approach that has been demonstrated to be adaptable to new or erratic environment dynamics. We propose FlexPool, a distributed model-free deep reinforcement learning algorithm that jointly serves passengers & goods workloads by learning optimal dispatch policies from its interaction with the environment. The proposed algorithm pools passengers for a ride-sharing service and delivers goods using a multi-hop transit method. These flexibilities decrease the fleet's operational cost and environmental footprint while maintaining service levels for passengers and goods. Through simulations on a realistic multi-agent urban mobility platform, we demonstrate that FlexPool outperforms other model-free settings in serving the demands from passengers & goods. FlexPool achieves 30% higher fleet utilization and 35% higher fuel efficiency in comparison to (i) model-free approaches where vehicles transport a combination of passengers & goods without the use of multi-hop transit, and (ii) model-free approaches where vehicles exclusively transport either passengers or goods.
翻訳日:2022-11-06 08:30:13 公開日:2020-09-20
# StyleFlow: 条件付き連続正規化フローを用いたStyleGAN生成画像の属性条件付き探索

StyleFlow: Attribute-conditioned Exploration of StyleGAN-Generated Images using Conditional Continuous Normalizing Flows ( http://arxiv.org/abs/2008.02401v2 )

ライセンス: Link先を確認
Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka(参考訳) 高品質で多様なフォトリアリスティックな画像は、無条件のGAN(StyleGANなど)で生成できる。 しかし、(意味)属性を使用して生成プロセスを制御するための限られたオプションがあり、出力の品質を保っている。 さらに、GAN潜伏空間の絡み合った性質のため、ある属性に沿って編集を行うと、他の属性に沿って不要な変更が容易に生じる。 本稿では,エンタングル潜在空間の条件付き探索の文脈において,属性条件付きサンプリングと属性制御編集の2つのサブ問題について検討する。 属性特徴によって条件付けられたGAN潜在空間における条件付き連続正規化フローの例として、条件付き探索を定式化することにより、両方のサブプロブレムに対する単純で効果的で堅牢な解としてStyleFlowを提案する。 提案手法は,StyleGANの顔と車載空間を用いて評価し,実際の写真とStyleGAN生成画像の両方の属性に沿った細粒度な不整合編集を示す。 例えば、顔には、カメラのポーズ、照明の変化、表情、顔の毛髪、性別、年齢などがあります。 最後に,質的かつ定量的な比較を通じて,スタイルフローが他の同時作業よりも優れていることを示す。

High-quality, diverse, and photorealistic images can now be generated by unconditional GANs (e.g., StyleGAN). However, limited options exist to control the generation process using (semantic) attributes, while still preserving the quality of the output. Further, due to the entangled nature of the GAN latent space, performing edits along one attribute can easily result in unwanted changes along other attributes. In this paper, in the context of conditional exploration of entangled latent spaces, we investigate the two sub-problems of attribute-conditioned sampling and attribute-controlled editing. We present StyleFlow as a simple, effective, and robust solution to both the sub-problems by formulating conditional exploration as an instance of conditional continuous normalizing flows in the GAN latent space conditioned by attribute features. We evaluate our method using the face and the car latent space of StyleGAN, and demonstrate fine-grained disentangled edits along various attributes on both real photographs and StyleGAN generated images. For example, for faces, we vary camera pose, illumination variation, expression, facial hair, gender, and age. Finally, via extensive qualitative and quantitative comparisons, we demonstrate the superiority of StyleFlow to other concurrent works.
翻訳日:2022-11-02 07:47:49 公開日:2020-09-20
# AKHCRNet:ディープラーニングを用いたベンガル文字認識

AKHCRNet: Bengali Handwritten Character Recognition Using Deep Learning ( http://arxiv.org/abs/2008.12995v3 )

ライセンス: Link先を確認
Akash Roy(参考訳) ベンガル文字, 複合文字, 数値桁に対する手書き文字認識のための, 最先端のニューラル・アーキテクチャ・ソリューションを提案する。 同様の研究はChatterjee、Swagatoらによって以前に行われたが、およそ47回で96.12%の精度を達成した。 その論文で使用されたディープニューラルネットワークアーキテクチャは、50層のResidual NetworkであるResNet 50モデルの重みを考慮すれば、かなり大きなものだった。 提案モデルでは, 従来よりも精度が向上し, ごく少数のエポックが存在する。 ResNet50は、ImageNetデータセットでトレーニングされた優れたモデルですが、以前のアーキテクチャよりも優れた“アンサンブルラーニング”なしで、ベンガル文字のスクラッチからトレーニングされたHCRネットワークを提案します。

I propose a state of the art deep neural architectural solution for handwritten character recognition for Bengali alphabets, compound characters as well as numerical digits that achieves state-of-the-art accuracy 96.8% in just 11 epochs. Similar work has been done before by Chatterjee, Swagato, et al. but they achieved 96.12% accuracy in about 47 epochs. The deep neural architecture used in that paper was fairly large considering the inclusion of the weights of the ResNet 50 model which is a 50 layer Residual Network. This proposed model achieves higher accuracy as compared to any previous work & in a little number of epochs. ResNet50 is a good model trained on the ImageNet dataset, but I propose an HCR network that is trained from the scratch on Bengali characters without the "Ensemble Learning" that can outperform previous architectures.
翻訳日:2022-10-23 17:20:59 公開日:2020-09-20
# 深層強化学習によるハイブリッド電気自動車のデータ駆動移動エネルギー管理戦略

Data-Driven Transferred Energy Management Strategy for Hybrid Electric Vehicles via Deep Reinforcement Learning ( http://arxiv.org/abs/2009.03289v2 )

ライセンス: Link先を確認
Teng Liu, Bo Wang, Wenhao Tan, Shaobo Lu, Yalian Yang(参考訳) ハイブリッド電気自動車(HEV)におけるエネルギー管理戦略(EMS)のリアルタイム適用は、研究者や技術者にとって最も厳しい要件である。 深部強化学習(DRL)の優れた問題解決能力に着想を得て,DRL法と伝達学習(TL)を取り入れたリアルタイムEMSを提案する。 関連する EMS は、Transport Secure Data Center (TSDC) から収集された実世界の運転サイクルデータセットから導出され、評価される。 具体的なDRLアルゴリズムは、ポリシー勾配(PG)技術に属する近似ポリシー最適化(PPO)である。 PPOに基づくディープネットワークのパラメータのトレーニングには,多くのソース駆動サイクルが使用されている。 学習したパラメータはtlフレームワークの下でターゲット駆動サイクルに変換される。 目標駆動サイクルに関連するEMSを,異なる訓練条件下で推定,比較した。 シミュレーションの結果, DRLをベースとしたEMSは時間消費を効果的に低減し, 制御性能を保証できることが示唆された。

Real-time applications of energy management strategies (EMSs) in hybrid electric vehicles (HEVs) are the harshest requirements for researchers and engineers. Inspired by the excellent problem-solving capabilities of deep reinforcement learning (DRL), this paper proposes a real-time EMS via incorporating the DRL method and transfer learning (TL). The related EMSs are derived from and evaluated on the real-world collected driving cycle dataset from Transportation Secure Data Center (TSDC). The concrete DRL algorithm is proximal policy optimization (PPO) belonging to the policy gradient (PG) techniques. For specification, many source driving cycles are utilized for training the parameters of deep network based on PPO. The learned parameters are transformed into the target driving cycles under the TL framework. The EMSs related to the target driving cycles are estimated and compared in different training conditions. Simulation results indicate that the presented transfer DRL-based EMS could effectively reduce time consumption and guarantee control performance.
翻訳日:2022-10-21 03:14:26 公開日:2020-09-20
# 潜時表現解析による深部透明予測

Deep Transparent Prediction through Latent Representation Analysis ( http://arxiv.org/abs/2009.07044v2 )

ライセンス: Link先を確認
D. Kollias, N. Bouas, Y. Vlaxos, V. Brillakis, M. Seferis, I. Kollia, L. Sukissian, J. Wingate, and S. Kollias(参考訳) 本稿では,訓練されたディープニューラルネットワーク(DNN)から潜時情報を抽出し,予測目的のために効果的で統一された方法で解析された簡潔な表現を導出する,新しいディープラーニング手法を提案する。 dnnは複雑なデータを分析する能力があることはよく知られているが、意思決定の透明性が欠如しており、予測を正当化したり、その決定が基づいた特徴を視覚化したりすることは容易ではない。 さらに、学習と異なる環境への適応のためには、一般的に大量のデータを必要とする。 これにより、信頼とパーソナライゼーションが重要な問題である医療での使用が困難になる。 透明性と高い予測精度を組み合わせることが,提案手法の目標である。 トレーニングされたDNNから抽出された潜在変数の教師付きDNNトレーニングと教師なし学習の両方が含まれている。 複数のソースからのドメイン適応も拡張として提示され、抽出された潜在変数表現を使用して他の非アノテーション環境での予測を生成する。 mriとdatscansによるパーキンソン病の予測、ctスキャンとx線によるcovid-19と肺炎の予測、小売食品包装における光学的文字の検証など、さまざまな分野の大規模な実験研究で成功した。

The paper presents a novel deep learning approach, which extracts latent information from trained Deep Neural Networks (DNNs) and derives concise representations that are analyzed in an effective, unified way for prediction purposes. It is well known that DNNs are capable of analyzing complex data; however, they lack transparency in their decision making, in the sense that it is not straightforward to justify their prediction, or to visualize the features on which the decision was based. Moreover, they generally require large amounts of data in order to learn and become able to adapt to different environments. This makes their use difficult in healthcare, where trust and personalization are key issues. Transparency combined with high prediction accuracy are the targeted goals of the proposed approach. It includes both supervised DNN training and unsupervised learning of latent variables extracted from the trained DNNs. Domain Adaptation from multiple sources is also presented as an extension, where the extracted latent variable representations are used to generate predictions in other, non-annotated, environments. Successful application is illustrated through a large experimental study in various fields: prediction of Parkinson's disease from MRI and DaTScans; prediction of COVID-19 and pneumonia from CT scans and X-rays; optical character verification in retail food packaging.
翻訳日:2022-10-19 02:32:54 公開日:2020-09-20
# UniNet:ディープラーニングを用いた次のコース勧告

UniNet: Next Term Course Recommendation using Deep Learning ( http://arxiv.org/abs/2009.09326v1 )

ライセンス: Link先を確認
Nicolas Araque, Germano Rojas, Maria Vitali(参考訳) 講習会推薦は、学生が次回の講習会に最も適した組み合わせが何かを決めるのに役立ち、関連する課題である。 特に,この問題を解決するために,行列分解や協調フィルタリングといったレコメンダシステム手法が開発されている。 これらの手法が学術的なパフォーマンスデータセットの時間依存的な性質を表現できないため、コースの時系列順が成功の確率にどのように影響するかをよりよく表現することを目的とした、繰り返しニューラルネットワークを用いたディープラーニングアプローチを提案する。 評価情報のみを用いてauc測定値上で81.10%の性能を得ることが可能であり,学生の成績予測を伴う推薦システムを開発することが可能であることを示した。 これは学生のgpaレベルやコースの難易度にまたがって意味があることが示されています

Course enrollment recommendation is a relevant task that helps university students decide what is the best combination of courses to enroll in the next term. In particular, recommender system techniques like matrix factorization and collaborative filtering have been developed to try to solve this problem. As these techniques fail to represent the time-dependent nature of academic performance datasets we propose a deep learning approach using recurrent neural networks that aims to better represent how chronological order of course grades affects the probability of success. We have shown that it is possible to obtain a performance of 81.10% on AUC metric using only grade information and that it is possible to develop a recommender system with academic student performance prediction. This is shown to be meaningful across different student GPA levels and course difficulties
翻訳日:2022-10-16 13:16:51 公開日:2020-09-20
# 分散マルチエージェント制御のためのlyapunovによる強化学習

Lyapunov-Based Reinforcement Learning for Decentralized Multi-Agent Control ( http://arxiv.org/abs/2009.09361v1 )

ライセンス: Link先を確認
Qingrui Zhang, Hao Dong, Wei Pan(参考訳) 分散マルチエージェント制御は、マルチロボット協調から分散センサネットワークまで幅広い応用がある。 分散マルチエージェント制御では、システムは未知あるいは非常に不確実なダイナミクスと複雑であり、従来のモデルベースの制御手法はほとんど適用できない。 制御理論におけるモデルベース制御と比較して、深層強化学習(DRL)は、システム力学を知らないデータから制御とポリティクスを学ぶことを約束している。 しかし,エージェント間の相互作用が学習環境を不安定にするため,分散マルチエージェント制御にdrlを直接適用することは困難である。 さらに、既存のマルチエージェント強化学習(MARL)アルゴリズムは、制御理論の観点から、マルチエージェントシステムの閉ループ安定性を保証できないため、学習した制御警察は、実際のアプリケーションで異常または危険な振る舞いを発生させることができる。 したがって、安定性を保証することなく、既存のMARLアルゴリズムを実際のマルチエージェントシステムに適用することは、UAV、ロボット、電力システムなど、大きな関心事である。 本稿では,安定性を保証した分散マルチエージェント制御のための新しいmarlアルゴリズムを提案する。 MARLアルゴリズムはマルチエージェントソフトアクター批評家 (MASAC) と呼ばれ、「分散トレーニングと分散実行」というよく知られた枠組みの下で提案されている。 閉ループ安定性は、MASACアルゴリズムのポリシー改善中に安定性制約を導入することで保証される。 安定性の制約は制御理論におけるリャプノフの方法に基づいている。 本手法の有効性を示すために,提案したMASACアルゴリズムの有効性を示すマルチエージェントナビゲーション例を示す。

Decentralized multi-agent control has broad applications, ranging from multi-robot cooperation to distributed sensor networks. In decentralized multi-agent control, systems are complex with unknown or highly uncertain dynamics, where traditional model-based control methods can hardly be applied. Compared with model-based control in control theory, deep reinforcement learning (DRL) is promising to learn the controller/policy from data without the knowing system dynamics. However, to directly apply DRL to decentralized multi-agent control is challenging, as interactions among agents make the learning environment non-stationary. More importantly, the existing multi-agent reinforcement learning (MARL) algorithms cannot ensure the closed-loop stability of a multi-agent system from a control-theoretic perspective, so the learned control polices are highly possible to generate abnormal or dangerous behaviors in real applications. Hence, without stability guarantee, the application of the existing MARL algorithms to real multi-agent systems is of great concern, e.g., UAVs, robots, and power systems, etc. In this paper, we aim to propose a new MARL algorithm for decentralized multi-agent control with a stability guarantee. The new MARL algorithm, termed as a multi-agent soft-actor critic (MASAC), is proposed under the well-known framework of "centralized-training-with-decentralized-execution". The closed-loop stability is guaranteed by the introduction of a stability constraint during the policy improvement in our MASAC algorithm. The stability constraint is designed based on Lyapunov's method in control theory. To demonstrate the effectiveness, we present a multi-agent navigation example to show the efficiency of the proposed MASAC algorithm.
翻訳日:2022-10-16 13:16:38 公開日:2020-09-20
# RISを用いたマルチホップテラヘルツ通信のためのハイブリッドビームフォーミング:DRL法

Hybrid Beamforming for RIS-Empowered Multi-hop Terahertz Communications: A DRL-based Method ( http://arxiv.org/abs/2009.09380v1 )

ライセンス: Link先を確認
Chongwen Huang, Zhaohui Yang, George C. Alexandropoulos, Kai Xiong, Li Wei, Chau Yuen, and Zhaoyang Zhang(参考訳) TeraHertzバンド(0.1-10 THz)における無線通信は、将来の6世代(6G)無線通信システムにおいて重要な技術のひとつとして想定されている。 しかし、非常に高い伝搬減衰とTHz周波数の分子吸収は、しばしば信号伝達距離と範囲を制限する。 スマート無線伝搬環境を実現するための再構成可能なインテリジェントサーフェス(RIS)の最近の進歩を活かした,マルチホップRIS支援通信ネットワークのための新しいハイブリッドビームフォーミング方式を提案する。 本稿では,BSにおけるディジタルビームフォーミング行列とRISにおけるアナログビームフォーミング行列の接合設計について,近年の深部強化学習(DRL)の進歩を活用して検討した。 シミュレーションの結果,提案手法はTHz通信の網羅範囲を50倍に向上させることができることがわかった。 また,提案手法は,特にris-empowered thz通信ネットワークの信号が複数のホップを経験する場合に,np-bardビームフォーミング問題を解決するための最先端手法であることを示す。

Wireless communication in the TeraHertz band (0.1--10 THz) is envisioned as one of the key enabling technologies for the future six generation (6G) wireless communication systems. However, very high propagation attenuations and molecular absorptions of THz frequencies often limit the signal transmission distance and coverage range. Benefited from the recent breakthrough on the reconfigurable intelligent surfaces (RIS) for realizing smart radio propagation environment, we propose a novel hybrid beamforming scheme for the multi-hop RIS-assisted communication networks to improve the coverage range at THz-band frequencies. We investigate the joint design of digital beamforming matrix at the BS and analog beamforming matrices at the RISs, by leveraging the recent advances in deep reinforcement learning (DRL) to combat the propagation loss. Simulation results show that our proposed scheme is able to improve 50\% more coverage range of THz communications compared with the benchmarks. Furthermore, it is also shown that our proposed DRL-based method is a state-of-the-art method to solve the NP-bard beamforming problem, especially when the signals at RIS-empowered THz communication networks experience multiple hops.
翻訳日:2022-10-16 13:16:11 公開日:2020-09-20
# 大規模MIMO CSIフィードバックのためのマルコフモデル駆動ディープラーニングフレームワーク

A Markovian Model-Driven Deep Learning Framework for Massive MIMO CSI Feedback ( http://arxiv.org/abs/2009.09468v1 )

ライセンス: Link先を確認
Zhenyu Liu, Mason del Rosario, and Zhi Ding(参考訳) 前向きチャネル状態情報(CSI)は、MIMO(Multiple-input multiple-output)通信システムのためのスケジューリングとキャパシティ適応送信最適化において重要な役割を果たすことが多い。 周波数分割型MIMOシステムでは、送信機のフォワードリンクCSI再構成は受信ノードからのCSIフィードバックに大きく依存し、復元精度とフィードバック帯域のトレードオフを慎重に検討する必要がある。 リカレントニューラルネットワーク(RNN)の使用に関する最近の研究は、計算とメモリのコストは高いが、大規模なMIMOデプロイメントでは強い期待を示している。 本研究では,チャネルコヒーレンスを時間内に活用し,フィードバック効率を大幅に向上させる。 マルコフモデルを用いて,CSIの進行を差分符号化して再構成精度を効果的に向上する,深層畳み込みニューラルネットワーク(CNN)ベースのフレームワークであるマルコフネットを開発した。 さらに、入力データの球面正規化やフィードバック圧縮のための畳み込み層など、重要な物理的洞察を探索する。 我々は,提案したMarkovNetによるRNNベースの作業に対して,大幅な性能向上と複雑性の低減を実証し,CSI推定を正確に回復する。 フィードバック量子化におけるさらなる実践的考察を行い、MarkovNetが計算コストのごく一部でRNNベースのCSI推定ネットワークより優れていることを示す。

Forward channel state information (CSI) often plays a vital role in scheduling and capacity-approaching transmission optimization for massive multiple-input multiple-output (MIMO) communication systems. In frequency division duplex (FDD) massive MIMO systems, forwardlink CSI reconstruction at the transmitter relies critically on CSI feedback from receiving nodes and must carefully weigh the tradeoff between reconstruction accuracy and feedback bandwidth. Recent studies on the use of recurrent neural networks (RNNs) have demonstrated strong promises, though the cost of computation and memory remains high, for massive MIMO deployment. In this work, we exploit channel coherence in time to substantially improve the feedback efficiency. Using a Markovian model, we develop a deep convolutional neural network (CNN)-based framework MarkovNet to differentially encode forward CSI in time to effectively improve reconstruction accuracy. Furthermore, we explore important physical insights, including spherical normalization of input data and convolutional layers for feedback compression. We demonstrate substantial performance improvement and complexity reduction over the RNN-based work by our proposed MarkovNet to recover forward CSI estimates accurately. We explore additional practical consideration in feedback quantization, and show that MarkovNet outperforms RNN-based CSI estimation networks at a fraction of the computational cost.
翻訳日:2022-10-16 13:15:51 公開日:2020-09-20
# 深部フォワードニューラルネットワークを用いたLiイオン電池の充電状態推定

State-of-Charge Estimation of a Li-Ion Battery using Deep Forward Neural Networks ( http://arxiv.org/abs/2009.09543v1 )

ライセンス: Link先を確認
Alexandre Barbosa de Lima and Maur\'icio B. C. Salles and Jos\'e Roberto Cardoso(参考訳) 本稿では,K-foldクロスバリデーション法を用いて,Panasonic 18650PFリチウムイオン(Li-イオン)電池の駆動サイクルを所定の温度でモデル化し,セルの電荷状態(SOC)を推定する2つのディープフォワードネットワークについて述べる。 駆動サイクル電力プロファイルは、18650pfセル用35kwhバッテリーパックを備えた電動トラックに対して算出される。 SOC推定のためのディープラーニングモデルを開発する際に,オーバーフィッティングと戦うことができる機械学習ワークフローを提案する。 この研究の貢献は、リチウムイオン電池のためのディープフォワードネットワークを構築する方法とその性能評価を提供することであり、機械学習のベストプラクティスに従う。

This article presents two Deep Forward Networks with two and four hidden layers, respectively, that model the drive cycle of a Panasonic 18650PF lithium-ion (Li-ion) battery at a given temperature using the K-fold cross-validation method, in order to estimate the State of Charge (SOC) of the cell. The drive cycle power profile is calculated for an electric truck with a 35kWh battery pack scaled for a single 18650PF cell. We propose a machine learning workflow which is able to fight overfitting when developing deep learning models for SOC estimation. The contribution of this work is to present a methodology of building a Deep Forward Network for a lithium-ion battery and its performance assessment, which follows the best practices in machine learning.
翻訳日:2022-10-16 13:15:27 公開日:2020-09-20
# 敵対的外乱を伴う安全クリティカルオンライン制御

Safety-Critical Online Control with Adversarial Disturbances ( http://arxiv.org/abs/2009.09511v1 )

ライセンス: Link先を確認
Bhaskar Ramasubramanian, Baicen Xiao, Linda Bushnell, Radha Poovendran(参考訳) 本稿では,敵対的障害の存在下での安全臨界力学系の制御について検討する。 安全制約を尊重しつつ、外乱に起因するコストを最小限に抑えるために、状態フィードバックコントローラを合成することを目指す。 安全性制約はH-infノルム上のバウンドによって与えられるが、コストはシステムのH-2ノルム上の上限として指定される。 我々は、各時点のコストが、その時点のコントローラが選択された後にのみ明らかにされるオンライン環境を考える。 修正離散時間リカティ方程式を解くことにより,制御器の合成を反復的に行う手法を提案する。 この方程式の解は安全制約を強制する。 我々は,この制御器のコストと最適制御器のコストを比較する。 これらのコストの差として定義される後悔関数は、時間的地平線と対数的に異なることを示す。 我々は,2種類の敵の攻撃を受けるプロセス制御設定において,我々のアプローチを検証する。

This paper studies the control of safety-critical dynamical systems in the presence of adversarial disturbances. We seek to synthesize state-feedback controllers to minimize a cost incurred due to the disturbance, while respecting a safety constraint. The safety constraint is given by a bound on an H-inf norm, while the cost is specified as an upper bound on the H-2 norm of the system. We consider an online setting where costs at each time are revealed only after the controller at that time is chosen. We propose an iterative approach to the synthesis of the controller by solving a modified discrete-time Riccati equation. Solutions of this equation enforce the safety constraint. We compare the cost of this controller with that of the optimal controller when one has complete knowledge of disturbances and costs in hindsight. We show that the regret function, which is defined as the difference between these costs, varies logarithmically with the time horizon. We validate our approach on a process control setup that is subject to two kinds of adversarial attacks.
翻訳日:2022-10-16 13:15:12 公開日:2020-09-20
# ファジィ理論を用いたリスク評価の不確かさの定量化

Quantifying Uncertainty in Risk Assessment using Fuzzy Theory ( http://arxiv.org/abs/2009.09334v1 )

ライセンス: Link先を確認
Hengameh Fakhravar(参考訳) リスクスペシャリストはリスクをよりよく理解し、リスク評価に複雑なモデルを使用しようとしている。 経験的データや複雑な因果関係の欠如は、特定のリスクタイプが暴露される程度を推定することが困難である。 伝統的なリスクモデルは古典集合論に基づいている。 ファジィ論理モデルはファジィ集合論に基づいて構築され、知識不足や不正確なデータによるリスクの分析に有用である。 ファジィ論理システムは、大規模リスク管理フレームワークをより簡単にするのに役立つ。 適切な確率モデルを持たないリスクに対して、ファジィ論理システムは、原因と効果の関係をモデル化し、リスク暴露のレベルを評価し、一貫した方法で主要なリスクをランク付けし、利用可能なデータと専門家のオピニオンを検討する。 さらにファジィ論理システムでは、いくつかの規則がモデル因子間の接続、依存、関係を明示的に説明している。 これはリスク軽減ソリューションの特定に役立つ。 資源は、非常に高いレベルの露出と比較的低いヘッジコストでリスクを軽減するために使用できる。 ファジィセットとファジィロジックモデルは、人工知能ニューラルネットワークや決定ツリーモデルを含む、ベイジアンや他のタイプのメソッド認識および決定モデルで使用することができる。 これらの開発モデルは、困難なリスクアセスメント問題を解決する可能性がある。 本稿では,ファジィ論理モデルを用いてリスクアセスメントとリスク意思決定を改善する領域について考察する。 本稿では,ファジィ論理システムを用いたリスクアセスメントの方法論,枠組み,プロセスについて論じる。

Risk specialists are trying to understand risk better and use complex models for risk assessment, while many risks are not yet well understood. The lack of empirical data and complex causal and outcome relationships make it difficult to estimate the degree to which certain risk types are exposed. Traditional risk models are based on classical set theory. In comparison, fuzzy logic models are built on fuzzy set theory and are useful for analyzing risks with insufficient knowledge or inaccurate data. Fuzzy logic systems help to make large-scale risk management frameworks more simple. For risks that do not have an appropriate probability model, a fuzzy logic system can help model the cause and effect relationships, assess the level of risk exposure, rank key risks in a consistent way, and consider available data and experts'opinions. Besides, in fuzzy logic systems, some rules explicitly explain the connection, dependence, and relationships between model factors. This can help identify risk mitigation solutions. Resources can be used to mitigate risks with very high levels of exposure and relatively low hedging costs. Fuzzy set and fuzzy logic models can be used with Bayesian and other types of method recognition and decision models, including artificial neural networks and decision tree models. These developed models have the potential to solve difficult risk assessment problems. This research paper explores areas in which fuzzy logic models can be used to improve risk assessment and risk decision making. We will discuss the methodology, framework, and process of using fuzzy logic systems in risk assessment.
翻訳日:2022-10-16 13:11:35 公開日:2020-09-20
# POMDPに基づく対話管理のための機械学習による意図発見手法の改良

An Improved Approach of Intention Discovery with Machine Learning for POMDP-based Dialogue Management ( http://arxiv.org/abs/2009.09354v1 )

ライセンス: Link先を確認
Ruturaj Raval(参考訳) Embodied Conversational Agent (ECA) は、ソフトウェアアプリケーションのフロントエンドとして機能し、言語的/非言語的表現を通じてユーザと対話し、時間、場所、言語に制限を加えることなくオンライン支援を提供するインテリジェントエージェントである。 人とコンピュータの対話体験を改善するために、人間同士の現実的な外観だけでなく、より高度な知性によってecaに力を与える必要性が高まっている。 この論文はまず、対話管理の異なるアプローチを含むECAの構築に関する主要なトピックを強調し、その後、ユーザ分類におけるトレンド分析の既存の技術について議論する。 本論文は、ECAの先行研究のさらなる改善と強化として、感情に基づく顔のアニメーションを意図発見の改善と統合するための結束的な枠組みを提案する。 さらに,POMDPに基づく対話管理におけるポリシー設計調整のための感情分析を支援するために,機械学習技術を導入した。 提案研究は,対話の長さを削減しつつ,意図発見の精度を向上させるものである。

An Embodied Conversational Agent (ECA) is an intelligent agent that works as the front end of software applications to interact with users through verbal/nonverbal expressions and to provide online assistance without the limits of time, location, and language. To help to improve the experience of human-computer interaction, there is an increasing need to empower ECA with not only the realistic look of its human counterparts but also a higher level of intelligence. This thesis first highlights the main topics related to the construction of ECA, including different approaches of dialogue management, and then discusses existing techniques of trend analysis for its application in user classification. As a further refinement and enhancement to prior work on ECA, this thesis research proposes a cohesive framework to integrate emotion-based facial animation with improved intention discovery. In addition, a machine learning technique is introduced to support sentiment analysis for the adjustment of policy design in POMDP-based dialogue management. The proposed research work is going to improve the accuracy of intention discovery while reducing the length of dialogues.
翻訳日:2022-10-16 13:11:11 公開日:2020-09-20
# Raspberry PiとArduinoによる自律走行車プロトタイプのリアルタイム車線検出と動作計画

Real-time Lane detection and Motion Planning in Raspberry Pi and Arduino for an Autonomous Vehicle Prototype ( http://arxiv.org/abs/2009.09391v1 )

ライセンス: Link先を確認
Alfa Rossi, Nadim Ahmed, Sultanus Salehin, Tashfique Hasnine Choudhury, Golam Sarowar(参考訳) 本稿では、道路の車線を認識し、人間の入力なしにその動きを計画する車両プロトタイプについて述べる。 pi camera 1.3は、リアルタイムビデオをキャプチャし、raspberry-pi 3.0 model bで処理する。画像処理アルゴリズムは、opencv 4.2でpython 3.7.4で書かれている。 arduino unoは、モーターコントローラを制御するpidアルゴリズムを制御するために使われ、車輪を制御する。 レーンを検出するために使用されるアルゴリズムは、Cannyエッジ検出アルゴリズムとHough変換である。 基本代数は検出されたレーンを描くために使われる。 検出後のレーンはカルマンフィルタ予測法を用いて追跡される。 そして、最初の操舵方向である2車線の中間点が見つかる。 この初期ステアリング方向は、過去の蓄積平均法とカルマンフィルタ予測法を用いてさらに平滑化される。 プロトタイプは制御された環境でリアルタイムでテストされた。 包括的なテストの結果、このプロトタイプは道路レーンを検知し、その動きをうまく計画できることが示唆された。

This paper discusses a vehicle prototype that recognizes streets' lanes and plans its motion accordingly without any human input. Pi Camera 1.3 captures real-time video, which is then processed by Raspberry-Pi 3.0 Model B. The image processing algorithms are written in Python 3.7.4 with OpenCV 4.2. Arduino Uno is utilized to control the PID algorithm that controls the motor controller, which in turn controls the wheels. Algorithms that are used to detect the lanes are the Canny edge detection algorithm and Hough transformation. Elementary algebra is used to draw the detected lanes. After detection, the lanes are tracked using the Kalman filter prediction method. Then the midpoint of the two lanes is found, which is the initial steering direction. This initial steering direction is further smoothed by using the Past Accumulation Average Method and Kalman Filter Prediction Method. The prototype was tested in a controlled environment in real-time. Results from comprehensive testing suggest that this prototype can detect road lanes and plan its motion successfully.
翻訳日:2022-10-16 13:10:33 公開日:2020-09-20
# PIE:意味制御のための画像埋め込み

PIE: Portrait Image Embedding for Semantic Control ( http://arxiv.org/abs/2009.09485v1 )

ライセンス: Link先を確認
Ayush Tewari, Mohamed Elgharib, Mallikarjun B R., Florian Bernard, Hans-Peter Seidel, Patrick P\'erez, Michael Zollh\"ofer, Christian Theobalt(参考訳) ポートレート画像の編集は、非常に人気があり、様々な応用で重要な研究テーマである。 使いやすさのために、制御はコンピュータアニメーションコントロールに似た意味的に意味のあるパラメータ化によって提供されるべきである。 既存の技術のほとんどは、直感的できめ細かな制御を提供していないし、単一の独立した制御パラメータの粗い編集しかできない。 近年、高品質な意味的に制御された編集が実証されているが、合成されたスタイルガン画像のみである。 本稿では,画像中の頭部ポーズ,表情,シーン照明の直感的な編集を可能にする,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。 パラメータ空間における意味的編集は、3d morphable faceモデルの制御空間をganの潜在空間にマッピングするプリトレーニングされたニューラルネットワークであるstylerigに基づいている。 埋め込みを得るために,新しい階層型非線形最適化問題を設計する。 アイデンティティ保存エネルギー項は、顔の完全性を維持しながら空間的にコヒーレントな編集を可能にする。 我々のアプローチはインタラクティブなフレームレートで実行され、ユーザーが編集可能な空間を探索することができる。 本研究は,幅広いポートレート写真に対するアプローチを評価し,現在の美術品と比較し,アブレーション研究におけるその成分の有効性を検証する。

Editing of portrait images is a very popular and important research topic with a large variety of applications. For ease of use, control should be provided via a semantically meaningful parameterization that is akin to computer animation controls. The vast majority of existing techniques do not provide such intuitive and fine-grained control, or only enable coarse editing of a single isolated control parameter. Very recently, high-quality semantically controlled editing has been demonstrated, however only on synthetically created StyleGAN images. We present the first approach for embedding real portrait images in the latent space of StyleGAN, which allows for intuitive editing of the head pose, facial expression, and scene illumination in the image. Semantic editing in parameter space is achieved based on StyleRig, a pretrained neural network that maps the control space of a 3D morphable face model to the latent space of the GAN. We design a novel hierarchical non-linear optimization problem to obtain the embedding. An identity preservation energy term allows spatially coherent edits while maintaining facial integrity. Our approach runs at interactive frame rates and thus allows the user to explore the space of possible edits. We evaluate our approach on a wide set of portrait photos, compare it to the current state of the art, and validate the effectiveness of its components in an ablation study.
翻訳日:2022-10-16 13:10:19 公開日:2020-09-20
# フェデレーション学習のための個人デバイスコントリビューションの推定

Estimation of Individual Device Contributions for Incentivizing Federated Learning ( http://arxiv.org/abs/2009.09371v1 )

ライセンス: Link先を確認
Takayuki Nishio, Ryoichi Shinkuma, Narayan B. Mandayam(参考訳) フェデレーション学習(federated learning, fl)は、プライバシーに敏感なユーザデータを露呈することなく、モバイルデバイスのデータと計算リソースを使用して機械学習モデルを協調的にトレーニングするために使用される、新たな技術である。 データとモバイルデバイスのオーナーがFLに参加するための適切なインセンティブメカニズムは、FLのための持続可能なプラットフォームを構築する上で鍵となる。 しかし、デバイス/所有者の貢献度を評価することは困難であり、大きな計算や通信のオーバーヘッドなしに適切な報酬を決定することは困難である。 本稿では,参加装置の寄与度を計算・通信効率良く推定する手法を提案する。 提案手法は,単一FLトレーニングプロセスにおいて,トラフィックや計算オーバーヘッドを低減し,そのような推定を可能にする。 mnistデータセットを用いた性能評価の結果,提案手法は,計算オーバーヘッドが46~49%低減され,コミュニケーションオーバーヘッドが不要であった。

Federated learning (FL) is an emerging technique used to train a machine-learning model collaboratively using the data and computation resource of the mobile devices without exposing privacy-sensitive user data. Appropriate incentive mechanisms that motivate the data and mobile-device owner to participate in FL is key to building a sustainable platform for FL. However, it is difficult to evaluate the contribution level of the devices/owners to determine appropriate rewards without large computation and communication overhead. This paper proposes a computation-and communication-efficient method of estimating a participating device's contribution level. The proposed method enables such estimation during a single FL training process, there by reducing the need for traffic and computation overhead. The performance evaluations using the MNIST dataset show that the proposed method estimates individual participants' contributions accurately with 46-49% less computation overhead and no communication overhead than a naive estimation method.
翻訳日:2022-10-16 13:10:01 公開日:2020-09-20
# 機械学習とLSTMに基づくディープラーニングモデルを用いた株価予測

Stock Price Prediction Using Machine Learning and LSTM-Based Deep Learning Models ( http://arxiv.org/abs/2009.10819v1 )

ライセンス: Link先を確認
Sidra Mehtab, Jaydip Sen, Abhishek Dutta(参考訳) 株価の予測は長い間研究の重要な分野だった。 効率的な市場仮説の支持者は、株価を正確に予測することは不可能であると信じているが、適切な変数の正確なモデリングと設計が、株価と株価の動きパターンを非常に正確に予測できるモデルに繋がることを示す公式な提案がある。 本研究では,異なる機械学習モデルと深層学習モデルを構築するために,株価予測のためのハイブリッドモデルを提案する。 本研究の目的は,2014年12月29日から2020年7月31日までの期間に,インド国立証券取引所(nse)の50の指数値を用いてきたことである。 2014年12月29日から2018年12月28日までに、NIFTY 50インデックスレコードからなるトレーニングデータを用いて8つの回帰モデルを構築した。 これらの回帰モデルを用いて,2018年12月31日から2020年7月31日までのNIFTY 50のオープン値を予測する。 そこで我々は,長期記憶(LSTM)ネットワークを用いた4つの深層学習に基づく回帰モデルを構築することにより,予測フレームワークの予測力を増強する。 我々は,LSTM回帰モデルを用いて,アーキテクチャや入力データの構造に異なる4つの異なるモデルを用いて,将来のNIFTY 50オープン値を予測する。 すべての回帰モデルについて、様々な測定結果を示す。 その結果,1週間前のデータを入力として用いたLSTMに基づく一変量モデルが,NIFTY 50 時系列の次の週のオープン値を予測する上で最も正確なモデルであることが示唆された。

Prediction of stock prices has been an important area of research for a long time. While supporters of the efficient market hypothesis believe that it is impossible to predict stock prices accurately, there are formal propositions demonstrating that accurate modeling and designing of appropriate variables may lead to models using which stock prices and stock price movement patterns can be very accurately predicted. In this work, we propose an approach of hybrid modeling for stock price prediction building different machine learning and deep learning-based models. For the purpose of our study, we have used NIFTY 50 index values of the National Stock Exchange (NSE) of India, during the period December 29, 2014 till July 31, 2020. We have built eight regression models using the training data that consisted of NIFTY 50 index records during December 29, 2014 till December 28, 2018. Using these regression models, we predicted the open values of NIFTY 50 for the period December 31, 2018 till July 31, 2020. We, then, augment the predictive power of our forecasting framework by building four deep learning-based regression models using long-and short-term memory (LSTM) networks with a novel approach of walk-forward validation. We exploit the power of LSTM regression models in forecasting the future NIFTY 50 open values using four different models that differ in their architecture and in the structure of their input data. Extensive results are presented on various metrics for the all the regression models. The results clearly indicate that the LSTM-based univariate model that uses one-week prior data as input for predicting the next week open value of the NIFTY 50 time series is the most accurate model.
翻訳日:2022-10-16 13:09:04 公開日:2020-09-20
# アイリス特徴ベクトルを用いた視線追跡精度向上のための$pi_t$-

$pi_t$- Enhancing the Precision of Eye Tracking using Iris Feature Motion Vectors ( http://arxiv.org/abs/2009.09348v1 )

ライセンス: Link先を確認
Aayush K. Chaudhary, Jeff B. Pelz(参考訳) 近年,瞳孔エッジを利用するのではなく,虹彩特徴の運動を追跡することで,高精度眼球追跡法が提案されている。 この手法は高い精度を提供するが、時間的ドリフト、瞬きを追跡できないこと、動きのぼやけの存在下でのテクスチャの喪失に悩まされている。 本研究では,虹彩テクスチャと瞳孔エッジの情報を最適に組み合わせることで,これらの問題に対処するための新しい方法論を提示する。 本手法では,複数の小目標を固定し,滑らかな移動目標を追従しながら,精度(s2s-rms & std)をそれぞれ48%,10%改善することを示す。 さらに、0.2度分離されたターゲット間のマイクロサケードの識別能力を示す。

A new high-precision eye-tracking method has been demonstrated recently by tracking the motion of iris features rather than by exploiting pupil edges. While the method provides high precision, it suffers from temporal drift, an inability to track across blinks, and loss of texture matches in the presence of motion blur. In this work, we present a new methodology $pi_t$ to address these issues by optimally combining the information from both iris textures and pupil edges. With this method, we show an improvement in precision (S2S-RMS & STD) of at least 48% and 10% respectively while fixating a series of small targets and following a smoothly moving target. Further, we demonstrate the capability in the identification of microsaccades between targets separated by 0.2-degree.
翻訳日:2022-10-16 13:03:30 公開日:2020-09-20
# 画面下カメラ画像の復元のための変換ドメインピラミッド拡張畳み込みネットワーク

Transform Domain Pyramidal Dilated Convolution Networks For Restoration of Under Display Camera Images ( http://arxiv.org/abs/2009.09393v1 )

ライセンス: Link先を確認
Hrishikesh P.S., Densen Puthussery, Melvin Kuriakose, Jiji C.V(参考訳) アンダーディスプレイカメラ(UDC)は、画面対ボディ比を大きくすることで、ハンドヘルドデバイスでデジタル画像体験をシームレスにすることができる新しい技術である。 UDC画像はディスプレイ画面下の位置によって著しく劣化する。 この研究は、UDCイメージングの結果劣化した画像の復元に対処する。 2種類のUDC技術で撮影された画像の復元のために、2つの異なるネットワークが提案されている。 第1の方法は、ペンチル有機LED(P-OLED)ベースの表示システムのためのウェーブレット分解畳み込みニューラルネットワーク内のピラミッド状拡張畳み込みを用いる。 第2の方法は、離散コサイン変換に基づく二重ドメインネットワーク内のピラミッド状拡張畳み込みを用いて、透明有機LED(T-OLED)ベースのUDCシステムを用いて撮影された画像を復元する。 最初の手法は非常に高品質な復元画像を作成し、PSNRとSSIMに基づいて評価されたアンダーディスプレイカメラ - トラック2 - P-OLEDの画像復元に関するEuropean Conference on Computer Vision (ECCV) 2020のコンテストで優勝した。 第2の方法は、同じ指標に基づいて評価された課題のトラック1(T-OLED)において第4位となった。

Under-display camera (UDC) is a novel technology that can make digital imaging experience in handheld devices seamless by providing large screen-to-body ratio. UDC images are severely degraded owing to their positioning under a display screen. This work addresses the restoration of images degraded as a result of UDC imaging. Two different networks are proposed for the restoration of images taken with two types of UDC technologies. The first method uses a pyramidal dilated convolution within a wavelet decomposed convolutional neural network for pentile-organic LED (P-OLED) based display system. The second method employs pyramidal dilated convolution within a discrete cosine transform based dual domain network to restore images taken using a transparent-organic LED (T-OLED) based UDC system. The first method produced very good quality restored images and was the winning entry in European Conference on Computer Vision (ECCV) 2020 challenge on image restoration for Under-display Camera - Track 2 - P-OLED evaluated based on PSNR and SSIM. The second method scored fourth position in Track-1 (T-OLED) of the challenge evaluated based on the same metrics.
翻訳日:2022-10-16 13:03:09 公開日:2020-09-20
# ソースガイド擬似ラベルによる人物再同定のための教師なしドメイン適応

Unsupervised Domain Adaptation for Person Re-Identification through Source-Guided Pseudo-Labeling ( http://arxiv.org/abs/2009.09445v1 )

ライセンス: Link先を確認
Fabian Dubourvieux, Romaric Audigier, Angelique Loesch, Samia Ainouz, Stephane Canu(参考訳) 人物再識別(re-ID)は、異なるカメラで撮影された同一人物の画像を取得することを目的としている。 re-idの課題は、トレーニングデータドメイン(ソースデータ)とは別のドメインに属する関心のあるデータ(ターゲットデータ)に対してモデルが使用される場合のパフォーマンス保存である。 Unsupervised Domain Adaptation (UDA)は、ターゲットデータの高価なアノテーションを避けるため、この課題に対する興味深い研究方向である。 擬似ラベル法はUDAベースのre-IDにおいて最良の結果を得る。 驚くべきことに、この初期化ステップ後にラベル付きソースデータが破棄される。 しかし,疑似ラベル付けは,初期化後の学習ステップを改善するためにラベル付きソースデータをさらに活用できると信じている。 擬似ラベルに対するロバスト性を向上させるため,全てのトレーニングイテレーションにおいてラベル付きソースデータと擬似ラベル付きターゲットデータの両方の活用を提唱する。 このガイドラインをサポートするために、ソースドメインとターゲットドメインで、分類と三重項損失に基づくメトリック学習をそれぞれ最適化し、ノイズの多い擬似ラベルへの\emph{robustnessを確保しながら、ターゲットドメインへの\emph{adaptability}を可能にする2つの分岐アーキテクチャによるフレームワークを導入する。 実際、共有された低レベルパラメータと中レベルのパラメータはソース分類と三重項損失信号の恩恵を受ける一方で、ターゲットブランチの高レベルパラメータはドメイン固有の特徴を学習する。 提案手法は,既存の擬似ラベル付きUDAアプローチと簡単に組み合わせられるほど単純である。 そこで本研究では,擬似ラベル雑音やハード適応タスクを扱う機構が存在しない場合,効率が良く,性能が向上することを示す。 提案手法は,一般的なデータセットである Market-1501 と DukeMTMC-reID で評価された場合の最先端性能に到達し,より大規模で困難なデータセット MSMT を対象とする場合の最先端性に優れる。

Person Re-Identification (re-ID) aims at retrieving images of the same person taken by different cameras. A challenge for re-ID is the performance preservation when a model is used on data of interest (target data) which belong to a different domain from the training data domain (source data). Unsupervised Domain Adaptation (UDA) is an interesting research direction for this challenge as it avoids a costly annotation of the target data. Pseudo-labeling methods achieve the best results in UDA-based re-ID. Surprisingly, labeled source data are discarded after this initialization step. However, we believe that pseudo-labeling could further leverage the labeled source data in order to improve the post-initialization training steps. In order to improve robustness against erroneous pseudo-labels, we advocate the exploitation of both labeled source data and pseudo-labeled target data during all training iterations. To support our guideline, we introduce a framework which relies on a two-branch architecture optimizing classification and triplet loss based metric learning in source and target domains, respectively, in order to allow \emph{adaptability to the target domain} while ensuring \emph{robustness to noisy pseudo-labels}. Indeed, shared low and mid-level parameters benefit from the source classification and triplet loss signal while high-level parameters of the target branch learn domain-specific features. Our method is simple enough to be easily combined with existing pseudo-labeling UDA approaches. We show experimentally that it is efficient and improves performance when the base method has no mechanism to deal with pseudo-label noise or for hard adaptation tasks. Our approach reaches state-of-the-art performance when evaluated on commonly used datasets, Market-1501 and DukeMTMC-reID, and outperforms the state of the art when targeting the bigger and more challenging dataset MSMT.
翻訳日:2022-10-16 13:01:46 公開日:2020-09-20
# 高精度なマルチヒューマンパーシングのためのリノベート・パーシングR-CNN

Renovating Parsing R-CNN for Accurate Multiple Human Parsing ( http://arxiv.org/abs/2009.09447v1 )

ライセンス: Link先を確認
Lu Yang, Qing Song, Zhihui Wang, Mengjie Hu, Chun Liu, Xueshi Xin, Wenhe Jia, Songcen Xu(参考訳) 複数の人間のパーシングは、様々な人間の部分を分割し、各部分と対応するインスタンスを同時に関連付けることを目的としている。 これは、さまざまな人間の外観、異なる身体部位のセマンティックなあいまいさ、複雑な背景のため、非常に難しい作業です。 マルチパースタスクの分析を通じて,人間中心のグローバル認知と正確なインスタンスレベルのパーススコア付けが高品質な結果を得るために重要であることを観察する。 しかし、最先端の手法はこれらの問題に十分な注意を払っていない。 この現象を逆転するために,グローバルなセマンティック拡張機能ピラミッドネットワークと構文再構成ネットワークを導入したRenovating Parsing R-CNN (RP R-CNN)を提案する。 提案したRP R-CNNはグローバルな意味表現を採用して,人間の解析マップを生成するマルチスケール機能を強化し,その品質を表すために信頼スコアを回帰する。 大規模な実験により、RP R-CNNはCIHPおよびMHP-v2データセットの最先端手法に対して好意的に機能することが示された。 コードとモデルはhttps://github.com/soeaver/RP-R-CNNで公開されている。

Multiple human parsing aims to segment various human parts and associate each part with the corresponding instance simultaneously. This is a very challenging task due to the diverse human appearance, semantic ambiguity of different body parts, and complex background. Through analysis of multiple human parsing task, we observe that human-centric global perception and accurate instance-level parsing scoring are crucial for obtaining high-quality results. But the most state-of-the-art methods have not paid enough attention to these issues. To reverse this phenomenon, we present Renovating Parsing R-CNN (RP R-CNN), which introduces a global semantic enhanced feature pyramid network and a parsing re-scoring network into the existing high-performance pipeline. The proposed RP R-CNN adopts global semantic representation to enhance multi-scale features for generating human parsing maps, and regresses a confidence score to represent its quality. Extensive experiments show that RP R-CNN performs favorably against state-of-the-art methods on CIHP and MHP-v2 datasets. Code and models are available at https://github.com/soeaver/RP-R-CNN.
翻訳日:2022-10-16 13:01:12 公開日:2020-09-20
# 一般画像認識のための知識誘導型マルチラベル・マイノショット学習

Knowledge-Guided Multi-Label Few-Shot Learning for General Image Recognition ( http://arxiv.org/abs/2009.09450v1 )

ライセンス: Link先を確認
Tianshui Chen, Liang Lin, Riquan Chen, Xiaolu Hui, and Hefeng Wu(参考訳) 画像の複数のラベルを認識することは実用的だが難しい課題であり、セマンティックな領域を探し、ラベルの依存関係を活用することで顕著な進歩を遂げた。 しかし、現在の研究では、RNN/LSTMを使用してシーケンシャルな領域/ラベルの依存関係を暗黙的にキャプチャする。 さらに、これらの研究は各カテゴリのトレーニングサンプルを大量に必要としており、限られたサンプルを持つ新しいカテゴリに一般化することはできない。 これらの問題に対処するために、深層ニューラルネットワークと統計ラベル相関の事前知識を統一する知識誘導グラフルーティング(KGGR)フレームワークを提案する。 このフレームワークは、事前知識を利用して、異なるカテゴリ間の適応的な情報伝達をガイドし、マルチラベル分析を容易にし、トレーニングサンプルの依存性を減らす。 具体的には、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを最初に構築する。 次にラベルセマンティクスを導入し、グラフを初期化するためにセマンティクス固有の特徴を学習し、グラフ伝搬ネットワークを利用してグラフノードの相互作用を探索し、文脈化された画像の特徴表現を学習できるようにする。 さらに、各グラフノードを対応するラベルの分類子重みで初期化し、別の伝播ネットワークを適用してグラフを通してノードメッセージを転送する。 このようにして、相関ラベルの情報を活用することで、より良い分類器の訓練を支援することができる。 従来のマルチラベル画像認識(MLR)とマルチラベル・マルチショット・ラーニング(ML-FSL)のタスクについて広範な実験を行い、我々のKGGRフレームワークは、公開ベンチマークにおける大きなマージンによる現在の最先端手法よりも優れていることを示す。

Recognizing multiple labels of an image is a practical yet challenging task, and remarkable progress has been achieved by searching for semantic regions and exploiting label dependencies. However, current works utilize RNN/LSTM to implicitly capture sequential region/label dependencies, which cannot fully explore mutual interactions among the semantic regions/labels and do not explicitly integrate label co-occurrences. In addition, these works require large amounts of training samples for each category, and they are unable to generalize to novel categories with limited samples. To address these issues, we propose a knowledge-guided graph routing (KGGR) framework, which unifies prior knowledge of statistical label correlations with deep neural networks. The framework exploits prior knowledge to guide adaptive information propagation among different categories to facilitate multi-label analysis and reduce the dependency of training samples. Specifically, it first builds a structured knowledge graph to correlate different labels based on statistical label co-occurrence. Then, it introduces the label semantics to guide learning semantic-specific features to initialize the graph, and it exploits a graph propagation network to explore graph node interactions, enabling learning contextualized image feature representations. Moreover, we initialize each graph node with the classifier weights for the corresponding label and apply another propagation network to transfer node messages through the graph. In this way, it can facilitate exploiting the information of correlated labels to help train better classifiers. We conduct extensive experiments on the traditional multi-label image recognition (MLR) and multi-label few-shot learning (ML-FSL) tasks and show that our KGGR framework outperforms the current state-of-the-art methods by sizable margins on the public benchmarks.
翻訳日:2022-10-16 13:00:54 公開日:2020-09-20
# 部分的3次元データからのテクスチャ補完のための重要特徴ネットワーク

Implicit Feature Networks for Texture Completion from Partial 3D Data ( http://arxiv.org/abs/2009.09458v1 )

ライセンス: Link先を確認
Julian Chibane, Gerard Pons-Moll(参考訳) 3Dテクスチャを推定する以前の作業では、uvマッピングを必要とするテクスチャアトラスや、メモリ非効率で解像度が制限された色のボクセルを使用する。 近年、xyz座標のrgb色を予測してテクスチャフィールドを形成するが、単一の2d画像によるテクスチャの完成に重点を置いている。 代わりに、部分的および不完全な3Dスキャンから3Dテクスチャと幾何学的補完に焦点を当てる。 IF-Netsは最近、マルチスケールの深層特徴符号化を用いた3次元幾何合成における最先端の結果を得たが、出力にはテクスチャが欠けている。 本稿では,人間と任意の物体の部分的なテクスチャスキャンからif-netをテクスチャ補完に一般化する。 私たちの重要な洞察は、3dテクスチャの完成度が3d部分テクスチャと完成形状の両方から抽出されたローカルとグローバルの深い特徴を組み込むことによって得られるということです。 特に,if-netで完備した部分3次元テクスチャと3次元形状を考えると,このモデルでは欠落しているテクスチャ部分と完結したテクスチャとをインペアトすることに成功した。 我々のモデルはSHARP ECCV'20チャレンジで優勝し、すべてのチャレンジで最高のパフォーマンスを達成しました。

Prior work to infer 3D texture use either texture atlases, which require uv-mappings and hence have discontinuities, or colored voxels, which are memory inefficient and limited in resolution. Recent work, predicts RGB color at every XYZ coordinate forming a texture field, but focus on completing texture given a single 2D image. Instead, we focus on 3D texture and geometry completion from partial and incomplete 3D scans. IF-Nets have recently achieved state-of-the-art results on 3D geometry completion using a multi-scale deep feature encoding, but the outputs lack texture. In this work, we generalize IF-Nets to texture completion from partial textured scans of humans and arbitrary objects. Our key insight is that 3D texture completion benefits from incorporating local and global deep features extracted from both the 3D partial texture and completed geometry. Specifically, given the partial 3D texture and the 3D geometry completed with IF-Nets, our model successfully in-paints the missing texture parts in consistence with the completed geometry. Our model won the SHARP ECCV'20 challenge, achieving highest performance on all challenges.
翻訳日:2022-10-16 13:00:20 公開日:2020-09-20
# ベイズganに基づくリモートセンシング画像融合

Remote sensing image fusion based on Bayesian GAN ( http://arxiv.org/abs/2009.09465v1 )

ライセンス: Link先を確認
Junfu Chen, Yue Pan, Yang Chen(参考訳) リモートセンシング画像融合技術(パンシャープニング)は、リモートセンシング画像の情報容量を改善する重要な手段である。 本稿では,ベイズ型ニューラルネットワークの効率的な空間後方サンプリングに着想を得て,PGSLD-BGAN(Preconditioned Stochastic Gradient Langevin Dynamics)に基づくベイズ型生成共振器ネットワークを提案する。 局所最適である)1つの最適解を考える多くの伝統的な生成モデルとは異なり、提案されたpgsld-bganはネットワークパラメータのベイズ推論を実行し、適切な生成パラメータの選択を支援するジェネレータ後続分布を探索する。 まず,パンイメージとmsイメージを入力とする2ストリーム生成ネットワークを構築し,特徴抽出,特徴融合,画像再構成の3部からなる。 次に、マルコフ判別器を用いて、融合画像の再構成能力を高めることにより、結果画像がより詳細な情報を保持することができる。 最後に,事前条件付き確率勾配ランジュバンダイナミクスポリシーを導入することで,生成ネットワーク上でベイズ推定を行う。 QuickBirdとWorldViewのデータセットを用いた実験により,本論文で提案したモデルがPANとMSの画像を効果的に融合し,主観的,客観的な指標で,最先端の芸術と競合することを示す。

Remote sensing image fusion technology (pan-sharpening) is an important means to improve the information capacity of remote sensing images. Inspired by the efficient arameter space posteriori sampling of Bayesian neural networks, in this paper we propose a Bayesian Generative Adversarial Network based on Preconditioned Stochastic Gradient Langevin Dynamics (PGSLD-BGAN) to improve pan-sharpening tasks. Unlike many traditional generative models that consider only one optimal solution (might be locally optimal), the proposed PGSLD-BGAN performs Bayesian inference on the network parameters, and explore the generator posteriori distribution, which assists selecting the appropriate generator parameters. First, we build a two-stream generator network with PAN and MS images as input, which consists of three parts: feature extraction, feature fusion and image reconstruction. Then, we leverage Markov discriminator to enhance the ability of generator to reconstruct the fusion image, so that the result image can retain more details. Finally, introducing Preconditioned Stochastic Gradient Langevin Dynamics policy, we perform Bayesian inference on the generator network. Experiments on QuickBird and WorldView datasets show that the model proposed in this paper can effectively fuse PAN and MS images, and be competitive with even superior to state of the arts in terms of subjective and objective metrics.
翻訳日:2022-10-16 12:59:57 公開日:2020-09-20
# SynC: 集約ソースから合成データを生成するCopulaベースのフレームワーク

SYNC: A Copula based Framework for Generating Synthetic Data from Aggregated Sources ( http://arxiv.org/abs/2009.09471v1 )

ライセンス: Link先を確認
Zheng Li, Yue Zhao, Jialin Fu(参考訳) 合成データセットはプログラムで生成されたデータオブジェクトであり、直接収集が困難またはコストがかかる場合、複数のソースから単一のデータセットを作成するのに有用である。 多くのデータサイエンスタスクの基本的なステップであるが、効率的で標準のフレームワークは欠落している。 本稿では,高分解能で難解な情報(例えば個人レベルの記録)を多くの低分解能で易解な情報源から推測する手法であるダウンスケーリングと呼ばれる特定の合成データ生成タスクについて検討し,SYNC(Synthetic Data Generation via Gaussian Copula)と呼ばれる多段階のフレームワークを提案する。 与えられた低解像度データセットに対して、同期の中心的な考え方は、ガウスコプラモデルを各低解像度データセットに適合させて、依存関係と限界分布を正確にキャプチャし、適合したモデルからサンプルを採取して所望の高分解能サブセットを取得することである。 予測モデルは、サンプルされたサブセットを1つにマージするために使用され、最終的には、低解像度の限界制約に従ってサンプルデータセットをスケールする。 この仕事には4つの重要な貢献があります 1)最先端機械学習と統計的手法を組み合わせることで、集約データソースから個人レベルのデータを生成する新しいフレームワークを提案する。 2) 合成データ生成アルゴリズムとしてSynCの性能を評価するためのシミュレーション研究を行う。 3) 2つの実世界のデータセットで収集が難しい状況において、機能エンジニアリングツールとしての価値を示すとともに、データ収集の代替手段となること。 4) 新しいデータを簡単に組み込む本番レベルで再現性とスケーラビリティのために、簡単に使えるフレームワーク実装をリリースする。

A synthetic dataset is a data object that is generated programmatically, and it may be valuable to creating a single dataset from multiple sources when direct collection is difficult or costly. Although it is a fundamental step for many data science tasks, an efficient and standard framework is absent. In this paper, we study a specific synthetic data generation task called downscaling, a procedure to infer high-resolution, harder-to-collect information (e.g., individual level records) from many low-resolution, easy-to-collect sources, and propose a multi-stage framework called SYNC (Synthetic Data Generation via Gaussian Copula). For given low-resolution datasets, the central idea of SYNC is to fit Gaussian copula models to each of the low-resolution datasets in order to correctly capture dependencies and marginal distributions, and then sample from the fitted models to obtain the desired high-resolution subsets. Predictive models are then used to merge sampled subsets into one, and finally, sampled datasets are scaled according to low-resolution marginal constraints. We make four key contributions in this work: 1) propose a novel framework for generating individual level data from aggregated data sources by combining state-of-the-art machine learning and statistical techniques, 2) perform simulation studies to validate SYNC's performance as a synthetic data generation algorithm, 3) demonstrate its value as a feature engineering tool, as well as an alternative to data collection in situations where gathering is difficult through two real-world datasets, 4) release an easy-to-use framework implementation for reproducibility and scalability at the production level that easily incorporates new data.
翻訳日:2022-10-16 12:54:23 公開日:2020-09-20
# バイオメディカルテキストと臨床テキストからの関係抽出:統一マルチタスク学習フレームワーク

Relation Extraction from Biomedical and Clinical Text: Unified Multitask Learning Framework ( http://arxiv.org/abs/2009.09509v1 )

ライセンス: Link先を確認
Shweta Yadav, Srivatsa Ramesh, Sriparna Saha, and Asif Ekbal(参考訳) 生物医学文献探索に費やす時間を最小限に抑えるために, 知識の自動抽出手法が数多く提案されている。 関係抽出は、エンティティ間の意味的関係を自由テキストから識別するタスクである。 生物医学領域において、調節経路、代謝過程、有害薬物反応または疾患モデルの抽出は、個々の関係、例えば遺伝子、タンパク質、薬物、化学物質、疾患または表現型間の物理的または規制的な相互作用から知識を必要とする。 本稿では, 薬物・薬物相互作用, タンパク質・タンパク質相互作用, 医療概念関連抽出の3つの主要なバイオメディカル・臨床課題から, 関係抽出タスクについて検討する。 そこで我々は,MTL(Multi-task Learning)フレームワークにおける関係抽出問題をモデル化し,バイオメディカルテキストと臨床テキストから関係を予測するための逆学習アプローチを補完する構造化自己注意ネットワークの概念を初めて導入する。 MTLの基本概念は、共有表現の概念を利用して複数の問題を同時に学習することである。 さらに,提案したMTLモデルと比較するために,命令ゲート再帰ユニット上で学習した最も短い依存性経路の埋め込みを利用する,高効率な単一タスクモデルも生成する。 提案するフレームワークは,すべてのタスクのパフォーマンスを損なうことなく,関係を予測するためのベースライン(深層学習技術)と単一タスクモデル全体を大幅に改善する。

To minimize the accelerating amount of time invested in the biomedical literature search, numerous approaches for automated knowledge extraction have been proposed. Relation extraction is one such task where semantic relations between the entities are identified from the free text. In the biomedical domain, extraction of regulatory pathways, metabolic processes, adverse drug reaction or disease models necessitates knowledge from the individual relations, for example, physical or regulatory interactions between genes, proteins, drugs, chemical, disease or phenotype. In this paper, we study the relation extraction task from three major biomedical and clinical tasks, namely drug-drug interaction, protein-protein interaction, and medical concept relation extraction. Towards this, we model the relation extraction problem in multi-task learning (MTL) framework and introduce for the first time the concept of structured self-attentive network complemented with the adversarial learning approach for the prediction of relationships from the biomedical and clinical text. The fundamental notion of MTL is to simultaneously learn multiple problems together by utilizing the concepts of the shared representation. Additionally, we also generate the highly efficient single task model which exploits the shortest dependency path embedding learned over the attentive gated recurrent unit to compare our proposed MTL models. The framework we propose significantly improves overall the baselines (deep learning techniques) and single-task models for predicting the relationships, without compromising on the performance of all the tasks.
翻訳日:2022-10-16 12:52:03 公開日:2020-09-20
# 空間拡張エージェントに対する認識を伴うマルチエージェントパス探索

Multi Agent Path Finding with Awareness for Spatially Extended Agents ( http://arxiv.org/abs/2009.09355v1 )

ライセンス: Link先を確認
Shyni Thomas and Dipti Deodhare and M.N. Murty(参考訳) 経路発見問題は、共通の道路ネットワーク上のエージェントの衝突のない移動計画を特定することを含む。 この問題に対するほとんどのアプローチは、エージェントをポイントオブジェクトとして扱い、エージェントのサイズは、それが移動する道路よりもかなり小さい。 本稿では,走行する道路の長さに匹敵する大きさの空間拡張剤について検討する。 eXtended Conflict Based Search (XCBS)アルゴリズムにおいて,空間拡張エージェントに対する最適マルチエージェントパス探索手法を提案した。 XCBSは一度に1対のコンフリクトしか解決しないため、カスケーディングや複数の(複数のエージェント)コンフリクトが与えられた場所で発生した場合、より深いサーチツリーが生成される。 この問題は、エージェントが他のエージェントの計画を意識して独自の計画を立てる、eXtended Conflict Based Search with Awareness (XCBS-A)で対処される。 本稿では,XCBS-Aの完全性を理論的に検証し,道路特性,エージェント特性,計画特性の相違点から,他のアルゴリズムによる性能を実証する。 複数のマシンに分散する際の性能を評価することにより,アルゴリズムの分散特性を示す。 XCBS-Aは,メモリの効率に影響を及ぼす巨大な検索空間を生成し,メモリ効率に対するアプローチを提案し,アルゴリズムの性能を実証的に示す。 そこで本論文の最終的な貢献は,XCBS-Local Awareness (XCBS-LA) が最適かつ完全であることを証明した拡張アプローチである。

Path finding problems involve identification of a plan for conflict free movement of agents over a common road network. Most approaches to this problem handle the agents as point objects, wherein the size of the agent is significantly smaller than the road on which it travels. In this paper, we consider spatially extended agents which have a size comparable to the length of the road on which they travel. An optimal multi agent path finding approach for spatially-extended agents was proposed in the eXtended Conflict Based Search (XCBS) algorithm. As XCBS resolves only a pair of conflicts at a time, it results in deeper search trees in case of cascading or multiple (more than two agent) conflicts at a given location. This issue is addressed in eXtended Conflict Based Search with Awareness (XCBS-A) in which an agent uses awareness of other agents' plans to make its own plan. In this paper, we explore XCBS-A in greater detail, we theoretically prove its completeness and empirically demonstrate its performance with other algorithms in terms of variances in road characteristics, agent characteristics and plan characteristics. We demonstrate the distributive nature of the algorithm by evaluating its performance when distributed over multiple machines. XCBS-A generates a huge search space impacting its efficiency in terms of memory; to address this we propose an approach for memory-efficiency and empirically demonstrate the performance of the algorithm. The nature of XCBS-A is such that it may lead to suboptimal solutions, hence the final contribution of this paper is an enhanced approach, XCBS-Local Awareness (XCBS-LA) which we prove will be optimal and complete.
翻訳日:2022-10-16 12:51:37 公開日:2020-09-20
# テキストベース人物識別のための最大ゲートブロック付きデュアルパスCNN

Dual-path CNN with Max Gated block for Text-Based Person Re-identification ( http://arxiv.org/abs/2009.09343v1 )

ライセンス: Link先を確認
Tinghuai Ma, Mingming Yang, Huan Rong, Yurong Qian, Yurong Qian, Yuan Tian, NajlaAl-Nabhan(参考訳) テキストベースの人物再識別(re-id)はビデオ監視において重要なタスクであり、大きな画像ギャラリーからテキスト記述を与えられた相手の画像を検索する。 モダリティの不均一性により、視覚内容とテキスト記述とを直接一致させることは困難である。 一方、テクスト的埋め込みは、テキスト的記述の抽象度が高いことに由来する、十分に差別的ではない。 一方、Global average pooling (GAP) は一般に、より一般的な特徴や滑らかな特徴を暗黙的に抽出するために用いられるが、局所的な特徴は無視される。 このことを念頭に置いて, 識別単語の埋め込みを抽出し, 両モダリティの顕著な特徴を視覚的・テクスチャ的関連性に配慮した, デュアルパスCNN (DCMG) を提案する。 提案手法は,CMPMの損失とCMPCの損失に最適化された2つの残差CNNを併用し,その2つのモードを結合特徴空間に埋め込む。 まず、事前訓練された言語モデルBERTと畳み込みニューラルネットワーク(CNN)を組み合わせて、テキストと画像のマッチングドメインにより良い単語の埋め込みを学習する。 第二に、グローバルマックスプーリング(gmp)層を適用して、視覚的なテキストの特徴をよりサルエントな部分に集中させる。 最大プール特性の雑音を緩和するため,両モードの有意な特徴に着目したアテンションマップを作成するために,ゲートブロック(GB)を提案する。 最後に、ベンチマークデータセットであるCUHK-PEDESを用いて、55.81%のランク1スコアを達成し、最先端の手法を1.3%上回る大規模な実験を行った。

Text-based person re-identification(Re-id) is an important task in video surveillance, which consists of retrieving the corresponding person's image given a textual description from a large gallery of images. It is difficult to directly match visual contents with the textual descriptions due to the modality heterogeneity. On the one hand, the textual embeddings are not discriminative enough, which originates from the high abstraction of the textual descriptions. One the other hand,Global average pooling (GAP) is commonly utilized to extract more general or smoothed features implicitly but ignores salient local features, which are more important for the cross-modal matching problem. With that in mind, a novel Dual-path CNN with Max Gated block (DCMG) is proposed to extract discriminative word embeddings and make visual-textual association concern more on remarkable features of both modalities. The proposed framework is based on two deep residual CNNs jointly optimized with cross-modal projection matching (CMPM) loss and cross-modal projection classification (CMPC) loss to embed the two modalities into a joint feature space. First, the pre-trained language model, BERT, is combined with the convolutional neural network (CNN) to learn better word embeddings in the text-to-image matching domain. Second, the global Max pooling (GMP) layer is applied to make the visual-textual features focus more on the salient part. To further alleviate the noise of the maxed-pooled features, the gated block (GB) is proposed to produce an attention map that focuses on meaningful features of both modalities. Finally, extensive experiments are conducted on the benchmark dataset, CUHK-PEDES, in which our approach achieves the rank-1 score of 55.81% and outperforms the state-of-the-art method by 1.3%.
翻訳日:2022-10-16 12:51:08 公開日:2020-09-20
# 疎ラベルドリフトデータストリームからの一時的概念学習のためのインスタンス利用

Instance exploitation for learning temporary concepts from sparsely labeled drifting data streams ( http://arxiv.org/abs/2009.09382v1 )

ライセンス: Link先を確認
{\L}ukasz Korycki and Bartosz Krawczyk(参考訳) オンラインツールやシステムの増加により,ストリーミングデータソースからの継続的学習がますます普及している。 動的で永続的な問題への対処は、従来のバッチベースのオフラインアルゴリズムが計算時間と予測性能の面で不十分であることが判明する新たな課題を引き起こす。 最も重要な制限の1つは、有限で完全なデータセットにアクセスすることができないということです。 これは、潜在的に非有界なストリームにラベルを提供するという重大な問題を引き起こす。 現実の世界では、非常に厳格な予算制限に対処せざるを得ないので、教師あり学習に不可欠な注釈付きインスタンスの不足に直面している可能性が高い。 本研究では,この問題を強調し,新しいインスタンス利用手法を提案する。 以下に示すのは i)データは一時的な非定常概念によって特徴づけられ、 (ii)長い時間軸にまたがるラベルはごくわずかですが、標準の学習モードに固執し、厳しい不適合に苦しむのではなく、私たちが持っている唯一のラベル付きインスタンスを活用することで、より積極的にモデルに過剰フィットし、適応するリスクを負う方が良いのです。 我々は,リスクと正規適応の間のスイートスポットを維持しようとするアンサンブルアルゴリズムとともに,手法の異なる戦略と構成を提案する。 最後に,与えられた問題に関連する最先端のストリーミングアルゴリズムを用いて,提案手法の複雑な詳細な比較分析を行う。

Continual learning from streaming data sources becomes more and more popular due to the increasing number of online tools and systems. Dealing with dynamic and everlasting problems poses new challenges for which traditional batch-based offline algorithms turn out to be insufficient in terms of computational time and predictive performance. One of the most crucial limitations is that we cannot assume having access to a finite and complete data set - we always have to be ready for new data that may complement our model. This poses a critical problem of providing labels for potentially unbounded streams. In the real world, we are forced to deal with very strict budget limitations, therefore, we will most likely face the scarcity of annotated instances, which are essential in supervised learning. In our work, we emphasize this problem and propose a novel instance exploitation technique. We show that when: (i) data is characterized by temporary non-stationary concepts, and (ii) there are very few labels spanned across a long time horizon, it is actually better to risk overfitting and adapt models more aggressively by exploiting the only labeled instances we have, instead of sticking to a standard learning mode and suffering from severe underfitting. We present different strategies and configurations for our methods, as well as an ensemble algorithm that attempts to maintain a sweet spot between risky and normal adaptation. Finally, we conduct a complex in-depth comparative analysis of our methods, using state-of-the-art streaming algorithms relevant to the given problem.
翻訳日:2022-10-16 12:45:03 公開日:2020-09-20
# ロバストなデータストリームマイニングのための中毒攻撃下の逆流ドリフト検出

Adversarial Concept Drift Detection under Poisoning Attacks for Robust Data Stream Mining ( http://arxiv.org/abs/2009.09497v1 )

ライセンス: Link先を確認
{\L}ukasz Korycki and Bartosz Krawczyk(参考訳) ストリーミングデータからの継続的学習は、現代のマシンラーニングで最も難しいトピックのひとつです。 この領域では、学習アルゴリズムは大量の素早くやってくるデータを処理できるだけでなく、潜在的な新しい変化にも適応する必要がある。 データストリームの進化的な性質の現象は、コンセプトドリフトとして知られている。 発生を検出するために設計された手法は数多く存在するが、これらは全て、ドリフトがデータソースの根底にある変化と結びついていると仮定している。 しかし、概念の漂流をシミュレートする悪意のある偽データ注入の可能性を考慮する必要がある。 この敵対的な設定は、誤ったデータへの適応を強制することによって下位の分類システムにダメージを与えるために行われる中毒攻撃を想定している。 既存のドリフト検出器は、現実と反対の概念ドリフトを区別することができない。 本稿では,敵対的および中毒的攻撃の存在下でのロバストな概念ドリフト検出のための枠組みを提案する。 本稿では,2種類の逆流の概念と,頑健な訓練可能なドリフト検出器の分類について紹介する。 改良された勾配計算とエネルギー関数を備えた拡張制限ボルツマンマシンに基づいている。 また,概念ドリフト検出器の性能評価のための新手法であるロバスト性の相対的損失についても紹介する。 完全かつスパースにラベル付けされたデータストリーム上で行った広範囲な計算実験により,提案するドリフト検出フレームワークが敵対的シナリオにおいて高いロバスト性と有効性を証明した。

Continuous learning from streaming data is among the most challenging topics in the contemporary machine learning. In this domain, learning algorithms must not only be able to handle massive volumes of rapidly arriving data, but also adapt themselves to potential emerging changes. The phenomenon of the evolving nature of data streams is known as concept drift. While there is a plethora of methods designed for detecting its occurrence, all of them assume that the drift is connected with underlying changes in the source of data. However, one must consider the possibility of a malicious injection of false data that simulates a concept drift. This adversarial setting assumes a poisoning attack that may be conducted in order to damage the underlying classification system by forcing adaptation to false data. Existing drift detectors are not capable of differentiating between real and adversarial concept drift. In this paper, we propose a framework for robust concept drift detection in the presence of adversarial and poisoning attacks. We introduce the taxonomy for two types of adversarial concept drifts, as well as a robust trainable drift detector. It is based on the augmented Restricted Boltzmann Machine with improved gradient computation and energy function. We also introduce Relative Loss of Robustness - a novel measure for evaluating the performance of concept drift detectors under poisoning attacks. Extensive computational experiments, conducted on both fully and sparsely labeled data streams, prove the high robustness and efficacy of the proposed drift detection framework in adversarial scenarios.
翻訳日:2022-10-16 12:44:12 公開日:2020-09-20
# 適応ドリフトを用いた確率勾配ランゲヴィンダイナミクスアルゴリズム

Stochastic Gradient Langevin Dynamics Algorithms with Adaptive Drifts ( http://arxiv.org/abs/2009.09535v1 )

ライセンス: Link先を確認
Sehwan Kim, Qifan Song, and Faming Liang(参考訳) ベイジアンディープラーニングは、モデル不確実性、モデル解釈可能性、予測バイアスなど、人工知能(AI)の安全性に関する多くの問題に対処するための原則化された方法を提供する。 しかし、ディープニューラルネットワーク(DNN)の後部からサンプリングする効率的なモンテカルロアルゴリズムが欠如しているため、ベイジアンディープラーニングはまだ私たちのAIシステムを動力にしていない。 本研究では,ドリフト関数が偏り,鞍点からの脱落が促進され,過去のサンプルの勾配に応じてバイアスが適応的に調整される適応確率勾配マルコフ連鎖モンテカルロ(sgmcmc)アルゴリズムを提案する。 我々は,提案アルゴリズムの収束性を軽度条件下で確立し,提案アルゴリズムが,確率勾配ランゲヴィンダイナミクス(SGLD),確率勾配ハミルトンモンテカルロ(SGHMC),プレコンディショニングSGLDといった既存のSGMCMCアルゴリズムを,シミュレーションと最適化の両方において著しく上回ることを示した。

Bayesian deep learning offers a principled way to address many issues concerning safety of artificial intelligence (AI), such as model uncertainty,model interpretability, and prediction bias. However, due to the lack of efficient Monte Carlo algorithms for sampling from the posterior of deep neural networks (DNNs), Bayesian deep learning has not yet powered our AI system. We propose a class of adaptive stochastic gradient Markov chain Monte Carlo (SGMCMC) algorithms, where the drift function is biased to enhance escape from saddle points and the bias is adaptively adjusted according to the gradient of past samples. We establish the convergence of the proposed algorithms under mild conditions, and demonstrate via numerical examples that the proposed algorithms can significantly outperform the existing SGMCMC algorithms, such as stochastic gradient Langevin dynamics (SGLD), stochastic gradient Hamiltonian Monte Carlo (SGHMC) and preconditioned SGLD, in both simulation and optimization tasks.
翻訳日:2022-10-16 12:43:49 公開日:2020-09-20
# 空間文脈からの視覚意味論の導出:画像から物体とシーンの埋め込みを生成するためのLSAとWord2Vecの適応

Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and Word2Vec to generate Object and Scene Embeddings from Images ( http://arxiv.org/abs/2009.09384v1 )

ライセンス: Link先を確認
Matthias S. Treder, Juan Mayor-Torres, Christoph Teufel(参考訳) 埋め込みは単語の意味を表現する重要なツールである。 それらの効果は分布仮説に依拠する:同じ文脈で起こる単語は同様の意味情報を持っている。 本稿では,シーン画像の視覚的セマンティクスを指標とした手法を提案する。 この目的のために、同じオブジェクト(オブジェクトコンテキスト)を含むシーンが意味的に関連しているオブジェクトとシーンの分布仮説を定式化する。 同様に、同じ空間的文脈(シーンまたはシーンのサブリージョン内)に現れるオブジェクトは意味的に関連づけられる。 アノテーション付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。 最初のアプローチでは,LSA と Word2vec の Skipgram と CBOW のモデルを用いて,画像全体へのオブジェクト共起から2組の埋め込みを生成する。 これらの埋め込みによって広がる表現空間は、分布仮説が像に対して成り立つことを示唆する。 このアプローチの最初の応用において、画像ベース埋め込みはresnet18やvgg-11のようなシーン分類モデル(top5精度では72\%、top1精度では4.56\%改善)を改善していることを示した。 第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点を当てる。 本手法は,シーンの階層的な階層的分解を意味的関連のあるオブジェクトの集合に生成することを示す。 これらの結果から,オブジェクトの共起や空間コンテキストからのオブジェクトとシーンの埋め込みが意味的に意味のある表現をもたらすことが示唆され,シーン分類などの下流アプリケーションに対する計算精度が向上することが示唆された。

Embeddings are an important tool for the representation of word meaning. Their effectiveness rests on the distributional hypothesis: words that occur in the same context carry similar semantic information. Here, we adapt this approach to index visual semantics in images of scenes. To this end, we formulate a distributional hypothesis for objects and scenes: Scenes that contain the same objects (object context) are semantically related. Similarly, objects that appear in the same spatial context (within a scene or subregions of a scene) are semantically related. We develop two approaches for learning object and scene embeddings from annotated images. In the first approach, we adapt LSA and Word2vec's Skipgram and CBOW models to generate two sets of embeddings from object co-occurrences in whole images, one for objects and one for scenes. The representational space spanned by these embeddings suggests that the distributional hypothesis holds for images. In an initial application of this approach, we show that our image-based embeddings improve scene classification models such as ResNet18 and VGG-11 (3.72\% improvement on Top5 accuracy, 4.56\% improvement on Top1 accuracy). In the second approach, rather than analyzing whole images of scenes, we focus on co-occurrences of objects within subregions of an image. We illustrate that this method yields a sensible hierarchical decomposition of a scene into collections of semantically related objects. Overall, these results suggest that object and scene embeddings from object co-occurrences and spatial context yield semantically meaningful representations as well as computational improvements for downstream applications such as scene classification.
翻訳日:2022-10-16 12:43:28 公開日:2020-09-20
# 接触追跡データからの統計的推測によるエピデミック緩和

Epidemic mitigation by statistical inference from contact tracing data ( http://arxiv.org/abs/2009.09422v1 )

ライセンス: Link先を確認
Antoine Baker, Indaco Biazzo, Alfredo Braunstein, Giovanni Catania, Luca Dall'Asta, Alessandro Ingrosso, Florent Krzakala, Fabio Mazza, Marc M\'ezard, Anna Paola Muntoni, Maria Refinetti, Stefano Sarao Mannelli, Lenka Zdeborov\'a(参考訳) 新型コロナウイルス(COVID-19)などのパンデミックの影響を緩和するためには、コンタクトトレーシングが不可欠だ。 リアルタイムに効率よくスケーラブルなコンタクトトレーシングを実現するために、デジタルデバイスは重要な役割を果たす。 関連するモバイルアプリケーションのプライバシーと倫理的リスクを分析するために多くの注意が払われているが、そのパフォーマンスを最適化し、疫病の緩和に与える影響を評価する研究は、これまでずっと少ない。 我々は,個人が感染するリスクを推定するためにベイズ推定法を開発した。 この推論は、彼の最近の連絡先と自身のリスクレベルのリストと、テストの結果や症候群の存在などの個人情報に基づいている。 本稿では,感染防止のための検査・隔離戦略を最適化するために,確率論的リスク推定手法を提案する。 以上の結果から,感染した人の接触を手動で追跡することが事実上不可能になった場合や,ロックダウンが避けられない程度に感染する人の割合が大きくなる前に,このリスクのある人の推測は,感染の緩和に有効な方法である可能性が示唆された。 我々のアプローチは、最近接触した個人間の通信のみを必要とする完全に分散したアルゴリズムに変換される。 このような通信は暗号化され匿名化され、プライバシー保護標準と互換性がある。 我々は,現在開発中のモバイルアプリケーションにおいて,確率論的リスク推定がデジタル接触追跡の性能を向上させることができると結論付けている。

Contact-tracing is an essential tool in order to mitigate the impact of pandemic such as the COVID-19. In order to achieve efficient and scalable contact-tracing in real time, digital devices can play an important role. While a lot of attention has been paid to analyzing the privacy and ethical risks of the associated mobile applications, so far much less research has been devoted to optimizing their performance and assessing their impact on the mitigation of the epidemic. We develop Bayesian inference methods to estimate the risk that an individual is infected. This inference is based on the list of his recent contacts and their own risk levels, as well as personal information such as results of tests or presence of syndromes. We propose to use probabilistic risk estimation in order to optimize testing and quarantining strategies for the control of an epidemic. Our results show that in some range of epidemic spreading (typically when the manual tracing of all contacts of infected people becomes practically impossible, but before the fraction of infected people reaches the scale where a lock-down becomes unavoidable), this inference of individuals at risk could be an efficient way to mitigate the epidemic. Our approaches translate into fully distributed algorithms that only require communication between individuals who have recently been in contact. Such communication may be encrypted and anonymized and thus compatible with privacy preserving standards. We conclude that probabilistic risk estimation is capable to enhance performance of digital contact tracing and should be considered in the currently developed mobile applications.
翻訳日:2022-10-16 12:42:45 公開日:2020-09-20
# MELTによる教師オントロジーとインスタンスマッチング

Supervised Ontology and Instance Matching with MELT ( http://arxiv.org/abs/2009.11102v1 )

ライセンス: Link先を確認
Sven Hertling, Jan Portisch, Heiko Paulheim(参考訳) 本稿では、オントロジーとインスタンスマッチングのための教師付き学習の応用を容易にする、マッチング・評価ツールキット(melt)への機械学習拡張であるmelt-mlを提案する。 我々は、マッチングツールキットへのオープンソースの機械学習拡張と、新しい拡張の機能を示す2つの教師付き学習ユースケースを提示します。

In this paper, we present MELT-ML, a machine learning extension to the Matching and EvaLuation Toolkit (MELT) which facilitates the application of supervised learning for ontology and instance matching. Our contributions are twofold: We present an open source machine learning extension to the matching toolkit as well as two supervised learning use cases demonstrating the capabilities of the new extension.
翻訳日:2022-10-16 12:42:21 公開日:2020-09-20
# copod: copulaベースの異常検出

COPOD: Copula-Based Outlier Detection ( http://arxiv.org/abs/2009.09463v1 )

ライセンス: Link先を確認
Zheng Li, Yue Zhao, Nicola Botta, Cezar Ionescu, Xiyang Hu(参考訳) 外乱検出は、一般的なデータ分布から逸脱した稀なアイテムの識別を指す。 既存のアプローチは高い計算複雑性、低い予測能力、限られた解釈可能性に苦しむ。 本稿では,多変量データ分散をモデル化するためのコプラに触発されたCOPODと呼ばれる新しい外乱検出アルゴリズムを提案する。 COPODはまず経験的なコプラを構築し、次に各データポイントのテール確率を予測してその「極度の」レベルを決定する。 直感的には、これを異常なp値の計算と考える。 これによりCOPODはパラメータフリー、高度に解釈可能、計算効率が良い。 この作品では3つの重要な貢献をします 1) 性能と解釈性の両方を有する新しいパラメータフリーな外乱検出アルゴリズムを提案する。 2)30のベンチマークデータセットで広範囲な実験を行い,copodがほとんどのケースで優れ,かつ最速のアルゴリズムであることを示す。 3) 再現性のために簡単に使えるpython実装をリリースする。

Outlier detection refers to the identification of rare items that are deviant from the general data distribution. Existing approaches suffer from high computational complexity, low predictive capability, and limited interpretability. As a remedy, we present a novel outlier detection algorithm called COPOD, which is inspired by copulas for modeling multivariate data distribution. COPOD first constructs an empirical copula, and then uses it to predict tail probabilities of each given data point to determine its level of "extremeness". Intuitively, we think of this as calculating an anomalous p-value. This makes COPOD both parameter-free, highly interpretable, and computationally efficient. In this work, we make three key contributions, 1) propose a novel, parameter-free outlier detection algorithm with both great performance and interpretability, 2) perform extensive experiments on 30 benchmark datasets to show that COPOD outperforms in most cases and is also one of the fastest algorithms, and 3) release an easy-to-use Python implementation for reproducibility.
翻訳日:2022-10-16 12:42:14 公開日:2020-09-20
# 中性報酬関数を持つ対人模倣学習における報酬バイアスの対応

Addressing reward bias in Adversarial Imitation Learning with neutral reward functions ( http://arxiv.org/abs/2009.09467v1 )

ライセンス: Link先を確認
Rohit Jena, Siddharth Agrawal, Katia Sycara(参考訳) 生成的敵対的模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。 さまざまな種類のバイアスは、さまざまなタイプの環境にも影響します。 複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。 また,GAILに対する新たな報酬関数を提案し,既存のGAIL手法を単一および複数端末状態のタスクベース環境において上回り,生存と終了バイアスを効果的に克服する。

Generative Adversarial Imitation Learning suffers from the fundamental problem of reward bias stemming from the choice of reward functions used in the algorithm. Different types of biases also affect different types of environments - which are broadly divided into survival and task-based environments. We provide a theoretical sketch of why existing reward functions would fail in imitation learning scenarios in task based environments with multiple terminal states. We also propose a new reward function for GAIL which outperforms existing GAIL methods on task based environments with single and multiple terminal states and effectively overcomes both survival and termination bias.
翻訳日:2022-10-16 12:42:01 公開日:2020-09-20
# 知識接地会話生成のための差異認識知識選択

Difference-aware Knowledge Selection for Knowledge-grounded Conversation Generation ( http://arxiv.org/abs/2009.09378v1 )

ライセンス: Link先を確認
Chujie Zheng, Yunbo Cao, Daxin Jiang, Minlie Huang(参考訳) 多ターンの知識接地ダイアログでは、異なる順番で選択された知識の違いは、通常知識選択の潜在的な手がかりとなる。 本稿では,差分認識型知識選択手法を提案する。 まず、現在のターンで提供される候補知識文と、前のターンで選択された文との差を算出する。 そして、差分情報を文脈情報と融合または解離させ、最終的な知識選択を容易にする。 自動的,人間の観察的,インタラクティブな評価により,本手法は知識をより正確に選択し,より情報的な応答を生成できることを示す。 コードはhttps://github.com/chujiezheng/diffksで入手できる。

In a multi-turn knowledge-grounded dialog, the difference between the knowledge selected at different turns usually provides potential clues to knowledge selection, which has been largely neglected in previous research. In this paper, we propose a difference-aware knowledge selection method. It first computes the difference between the candidate knowledge sentences provided at the current turn and those chosen in the previous turns. Then, the differential information is fused with or disentangled from the contextual information to facilitate final knowledge selection. Automatic, human observational, and interactive evaluation shows that our method is able to select knowledge more accurately and generate more informative responses, significantly outperforming the state-of-the-art baselines. The codes are available at https://github.com/chujiezheng/DiffKS.
翻訳日:2022-10-16 12:35:45 公開日:2020-09-20
# 時空間変動制約を考慮した軌道生成のための決定的深部生成モデル

Factorized Deep Generative Models for Trajectory Generation with Spatiotemporal-Validity Constraints ( http://arxiv.org/abs/2009.09333v1 )

ライセンス: Link先を確認
Liming Zhang, Liang Zhao, Dieter Pfoser(参考訳) 軌道データ生成は、モビリティデータの生成過程を特徴付ける重要な領域である。 伝統的な手法は事前定義されたヒューリスティックと分布に大きく依存しており、未知のメカニズムを学ぶのに弱い。 画像やテキストの深層生成ニューラルネットワークの成功に触発されて、高速に発展する研究トピックは、高度な潜伏パターンの表現的説明モデルを学ぶことができる軌跡データのための深部生成モデルである。 これは、多くのアプリケーションにとって、新しくて有望なドメインです。 まず、グローバルな意味論と局所的な意味論を特徴付ける時間不変変数と時間不変変数を分解する新しい深層生成モデルを提案する。 次に、時空間的妥当性をカプセル化する変動推論と制約付き最適化に基づく新しい推論戦略を開発する。 新しいディープニューラルネットワークアーキテクチャは、新しく一般化された潜在変数プリミティブによる推論と生成モデルを実装するために開発された。 提案手法は,広範囲な実験において定量的および定性的評価において著しく改善された。

Trajectory data generation is an important domain that characterizes the generative process of mobility data. Traditional methods heavily rely on predefined heuristics and distributions and are weak in learning unknown mechanisms. Inspired by the success of deep generative neural networks for images and texts, a fast-developing research topic is deep generative models for trajectory data which can learn expressively explanatory models for sophisticated latent patterns. This is a nascent yet promising domain for many applications. We first propose novel deep generative models factorizing time-variant and time-invariant latent variables that characterize global and local semantics, respectively. We then develop new inference strategies based on variational inference and constrained optimization to encapsulate the spatiotemporal validity. New deep neural network architectures have been developed to implement the inference and generation models with newly-generalized latent variable priors. The proposed methods achieved significant improvements in quantitative and qualitative evaluations in extensive experiments.
翻訳日:2022-10-16 12:35:01 公開日:2020-09-20
# 時間的マルチウェイデータによる教師なし異常検出

Unsupervised Anomaly Detection on Temporal Multiway Data ( http://arxiv.org/abs/2009.09443v1 )

ライセンス: Link先を確認
Duc Nguyen, Phuoc Nguyen, Kien Do, Santu Rana, Sunil Gupta, Truyen Tran(参考訳) 時空異常検出は時空上の不規則性を示す。 これまで採用されていた教師なし時間モデルは通常、特徴ベクトルのシーケンスに取り組んでおり、時間的多方向データにはあまり依存していない。 本研究は,データマトリックスが各ステップで観測される双方向データに焦点をあてる。 マトリックスネイティブリカレントニューラルネットワークの最近の進歩を利用して,時間的多方向異常検出のためのデータアレンジメントと教師なしトレーニングの戦略について検討した。 これには圧縮圧縮、エンコード予測、時間データの差分化が含まれる。 我々は,合成データ,移動桁,ECG記録の様々な設定下でのモデル行動を評価するための総合的な実験を行った。 我々は以前に報告されなかった興味深い現象を発見した。 これには、完全に近いノイズデータを圧縮するためのコンパクトマトリックスLSTMの容量が含まれており、ノイズ下での異常検出に不適なデータを圧縮圧縮する戦略である。 また、ベクトルの長い列は、非常に長いコンテキストと複数のステップ予測を可能にする行列モデルによって直接対応できる。 全体として、符号化予測戦略は、そのコンパクトさとデータダイナミクスに適合しているため、実行した実験における行列LSTMに対して非常にうまく機能する。

Temporal anomaly detection looks for irregularities over space-time. Unsupervised temporal models employed thus far typically work on sequences of feature vectors, and much less on temporal multiway data. We focus our investigation on two-way data, in which a data matrix is observed at each time step. Leveraging recent advances in matrix-native recurrent neural networks, we investigated strategies for data arrangement and unsupervised training for temporal multiway anomaly detection. These include compressing-decompressing, encoding-predicting, and temporal data differencing. We conducted a comprehensive suite of experiments to evaluate model behaviors under various settings on synthetic data, moving digits, and ECG recordings. We found interesting phenomena not previously reported. These include the capacity of the compact matrix LSTM to compress noisy data near perfectly, making the strategy of compressing-decompressing data ill-suited for anomaly detection under the noise. Also, long sequence of vectors can be addressed directly by matrix models that allow very long context and multiple step prediction. Overall, the encoding-predicting strategy works very well for the matrix LSTMs in the conducted experiments, thanks to its compactness and better fit to the data dynamics.
翻訳日:2022-10-16 12:33:50 公開日:2020-09-20
# バッグ外異常検出

Out-Of-Bag Anomaly Detection ( http://arxiv.org/abs/2009.09358v1 )

ライセンス: Link先を確認
Egor Klevak and Sangdi Lin and Andy Martin and Ondrej Linda and Eric Ringger(参考訳) データ異常は、実世界のデータセットでユビキタスであり、自動住宅評価のような機械学習(ML)システムに悪影響を及ぼす可能性がある。 異常を検出することで、MLアプリケーションはより責任を持ち、信頼できるものになる。 しかし、異常ラベルの欠如と実世界のデータセットの複雑な性質により、異常検出は教師なし学習の問題となる。 本稿では,数値的特徴とカテゴリ的特徴からなる多次元データセットを扱う,袋外異常検出と呼ばれる新しいモデルに基づく異常検出法を提案する。 提案手法は教師なし問題をアンサンブルモデルのトレーニングに分解する。 バッグ外推定は、異常検出の効果的な尺度を導出するために利用される。 我々は,ベンチマークデータセットの包括的実験を通じて,本手法の最先端性能を示すだけでなく,住宅評価の事例スタディを通じて,mlシステムの精度と信頼性を向上させることができることを示す。

Data anomalies are ubiquitous in real world datasets, and can have an adverse impact on machine learning (ML) systems, such as automated home valuation. Detecting anomalies could make ML applications more responsible and trustworthy. However, the lack of labels for anomalies and the complex nature of real-world datasets make anomaly detection a challenging unsupervised learning problem. In this paper, we propose a novel model-based anomaly detection method, that we call Out-of- Bag anomaly detection, which handles multi-dimensional datasets consisting of numerical and categorical features. The proposed method decomposes the unsupervised problem into the training of a set of ensemble models. Out-of-Bag estimates are leveraged to derive an effective measure for anomaly detection. We not only demonstrate the state-of-the-art performance of our method through comprehensive experiments on benchmark datasets, but also show our model can improve the accuracy and reliability of an ML system as data pre-processing step via a case study on home valuation.
翻訳日:2022-10-16 12:33:30 公開日:2020-09-20
# 機械学習技術を用いたフィッシング検出

Phishing Detection Using Machine Learning Techniques ( http://arxiv.org/abs/2009.11116v1 )

ライセンス: Link先を確認
Vahid Shahrivari, Mohammad Mahdi Darabi, Mohammad Izadi(参考訳) インターネットは私たちの生活に欠かせない部分となっているが、フィッシングのような悪質な行為を匿名で行う機会も提供してきた。 Phishersは、ソーシャルエンジニアリングや、アカウントID、ユーザー名、パスワードなどの情報を個人や組織から盗むためのモックアップサイトの作成によって、被害者を騙そうとしている。 フィッシングサイトの検出には多くの方法が提案されているが、ファッシャーはこれらの検出方法から逃れるために彼らの手法を発展させている。 悪意のあるアクティビティを検出する最も成功した方法の1つは、機械学習である。 これは、ほとんどのフィッシング攻撃は、機械学習手法で識別できる共通の特徴を持っているためである。 本稿では,フィッシングサイトを予測するための複数の機械学習手法の結果を比較した。

The Internet has become an indispensable part of our life, However, It also has provided opportunities to anonymously perform malicious activities like Phishing. Phishers try to deceive their victims by social engineering or creating mock-up websites to steal information such as account ID, username, password from individuals and organizations. Although many methods have been proposed to detect phishing websites, Phishers have evolved their methods to escape from these detection methods. One of the most successful methods for detecting these malicious activities is Machine Learning. This is because most Phishing attacks have some common characteristics which can be identified by machine learning methods. In this paper, we compared the results of multiple machine learning methods for predicting phishing websites.
翻訳日:2022-10-16 12:25:31 公開日:2020-09-20
# 神経セルオートマトンによる地理情報予測

Predicting Geographic Information with Neural Cellular Automata ( http://arxiv.org/abs/2009.09347v1 )

ライセンス: Link先を確認
Mingxiang Chen, Qichang Chen, Lei Gao, Yilin Chen, Zhecheng Wang(参考訳) 本稿では,ニューラルセルオートマトン(NCA)を用いて地理情報の再生と予測を行う。 モデルは、NAAを用いて、様々な地理的データを用いてモデルをトレーニングし、特定画像を生成・再生するという考え方を拡張し、交通条件マップを例として、特定の誘導情報を与えることで、交通状況を予測することができる。 本研究は, ncaと遺伝子との類似性を検証し, ncasに基づく応用可能性の境界を大きく広げた。 実験結果から,本モデルは従来の研究では利用できないユーザビリティと汎用性に大きな可能性を示している。 モデル実装のコードはhttps://redacted.com/で入手できる。

This paper presents a novel framework using neural cellular automata (NCA) to regenerate and predict geographic information. The model extends the idea of using NCA to generate/regenerate a specific image by training the model with various geographic data, and thus, taking the traffic condition map as an example, the model is able to predict traffic conditions by giving certain induction information. Our research verified the analogy between NCA and gene in biology, while the innovation of the model significantly widens the boundary of possible applications based on NCAs. From our experimental results, the model shows great potentials in its usability and versatility which are not available in previous studies. The code for model implementation is available at https://redacted.
翻訳日:2022-10-16 12:25:21 公開日:2020-09-20
# メタラーニングによるソフトラベルの学習

Learning Soft Labels via Meta Learning ( http://arxiv.org/abs/2009.09496v1 )

ライセンス: Link先を確認
Nidhi Vyas, Shreyas Saxena, Thomas Voice(参考訳) シングルホットラベルは概念間のソフトな決定境界を表現していないため、トレーニングされたモデルは過度に適合する傾向にある。 ターゲットとしてソフトラベルを使用することは正規化をもたらすが、異なるソフトラベルは最適化の異なる段階で最適である。 また、ノイズの多いアノテーションの存在下で固定ラベルによるトレーニングは、一般化を悪化させる。 これらの制約に対処するために,ラベルを学習可能なパラメータとして扱い,モデルパラメータとともに最適化するフレームワークを提案する。 学習したラベルはモデルの状態に継続的に適応し、ダイナミックな正規化を提供する。 教師付き画像分類のタスクに適用すると、異なるデータセットやアーキテクチャ間で一貫した利得が得られる。 例えば、動的に学習されたラベルは、CIFAR100上でResNet18を2.1%改善する。 ノイズラベルを含むデータセットに適用すると、学習されたラベルはアノテーションミスを訂正し、最先端よりもかなりのマージンで改善する。 最後に,学習ラベルがクラス間の意味的関係を捉え,蒸留の下流課題に対する教師モデルを改善することを示す。

One-hot labels do not represent soft decision boundaries among concepts, and hence, models trained on them are prone to overfitting. Using soft labels as targets provide regularization, but different soft labels might be optimal at different stages of optimization. Also, training with fixed labels in the presence of noisy annotations leads to worse generalization. To address these limitations, we propose a framework, where we treat the labels as learnable parameters, and optimize them along with model parameters. The learned labels continuously adapt themselves to the model's state, thereby providing dynamic regularization. When applied to the task of supervised image-classification, our method leads to consistent gains across different datasets and architectures. For instance, dynamically learned labels improve ResNet18 by 2.1% on CIFAR100. When applied to dataset containing noisy labels, the learned labels correct the annotation mistakes, and improves over state-of-the-art by a significant margin. Finally, we show that learned labels capture semantic relationship between classes, and thereby improve teacher models for the downstream task of distillation.
翻訳日:2022-10-16 12:25:10 公開日:2020-09-20
# TorchDyn: ニューラルネットワークの微分方程式ライブラリ

TorchDyn: A Neural Differential Equations Library ( http://arxiv.org/abs/2009.09346v1 )

ライセンス: Link先を確認
Michael Poli, Stefano Massaroli, Atsushi Yamashita, Hajime Asama, Jinkyoo Park(参考訳) 継続的深層学習は、最近、深層学習、動的システムに関連するタスクのパフォーマンス向上、密度推定に関する新しい視点として登場した。 これらのアプローチの核となるのが、ニューラルネットワークによってパラメータ化された初期値問題の解をフォワードパスとする神経微分方程式である。 連続深度モデルの完全なポテンシャルを解き放つには、標準的な離散ニューラルネットワークと特異な違いがあるため、ソフトウェアツールのセットが異なる必要がある。 ニューラルネットワークの微分方程式を、通常のプラグ・アンド・プレイのディープラーニングプリミティブと同じくらいアクセスしやすいように高めるように設計された、継続的深層学習に特化したpytorchライブラリであるtorchdynを紹介する。 この目的は、異なる変種を共通の必須成分に識別し、分割することで達成される。 torchdynはさらに、研究者やコントリビュータをガイドするステップバイステップのチュートリアルやベンチマークも提供している。

Continuous-depth learning has recently emerged as a novel perspective on deep learning, improving performance in tasks related to dynamical systems and density estimation. Core to these approaches is the neural differential equation, whose forward passes are the solutions of an initial value problem parametrized by a neural network. Unlocking the full potential of continuous-depth models requires a different set of software tools, due to peculiar differences compared to standard discrete neural networks, e.g inference must be carried out via numerical solvers. We introduce TorchDyn, a PyTorch library dedicated to continuous-depth learning, designed to elevate neural differential equations to be as accessible as regular plug-and-play deep learning primitives. This objective is achieved by identifying and subdividing different variants into common essential components, which can be combined and freely repurposed to obtain complex compositional architectures. TorchDyn further offers step-by-step tutorials and benchmarks designed to guide researchers and contributors.
翻訳日:2022-10-16 12:24:53 公開日:2020-09-20
# ニューラルネットワーク翻訳モデルの訓練用ソフトマックステンパリング

Softmax Tempering for Training Neural Machine Translation Models ( http://arxiv.org/abs/2009.09372v1 )

ライセンス: Link先を確認
Raj Dabre and Atsushi Fujita(参考訳) ニューラルマシン翻訳(NMT)モデルは通常、ソフトマックスのクロスエントロピー損失を用いて訓練され、ソフトマックスの分布は滑らかなゴールドラベルと比較される。 低リソースシナリオでは、NMTモデルはソフトマックス分布がすぐにゴールドラベル分布に近づくため、過度に適合する傾向にある。 そこで本研究では, トレーニング中にソフトマックスを適用する前に, 温度係数でロジットを分割する手法を提案する。 アジア言語ツリーバンクデータセットとWMT 2019英語-ドイツ語翻訳タスクにおける11言語ペアの実験では、最大3.9BLEUポイントの翻訳品質が大幅に改善された。 さらにsoftmaxのテンパリングは、翻訳品質の面ではビーム検索デコードに匹敵し、1.5倍から3.5倍の高速化を実現している。 また,マルチリンガルNMTおよび繰り返し積み重ねNMTに対するソフトマックステンパリングの影響について検討し,パラメータ共有によるNMTモデルサイズ削減を目標とし,コンパクトNMTモデルの開発における温度の有用性を検証する。 最後に, ソフトマックスエントロピーと勾配の解析により, NMTモデルの内部挙動に与える影響を明らかにした。

Neural machine translation (NMT) models are typically trained using a softmax cross-entropy loss where the softmax distribution is compared against smoothed gold labels. In low-resource scenarios, NMT models tend to over-fit because the softmax distribution quickly approaches the gold label distribution. To address this issue, we propose to divide the logits by a temperature coefficient, prior to applying softmax, during training. In our experiments on 11 language pairs in the Asian Language Treebank dataset and the WMT 2019 English-to-German translation task, we observed significant improvements in translation quality by up to 3.9 BLEU points. Furthermore, softmax tempering makes the greedy search to be as good as beam search decoding in terms of translation quality, enabling 1.5 to 3.5 times speed-up. We also study the impact of softmax tempering on multilingual NMT and recurrently stacked NMT, both of which aim to reduce the NMT model size by parameter sharing thereby verifying the utility of temperature in developing compact NMT models. Finally, an analysis of softmax entropies and gradients reveal the impact of our method on the internal behavior of NMT models.
翻訳日:2022-10-16 12:24:22 公開日:2020-09-20