このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200117となっている論文です。

PDF登録状況(公開日: 20200117)

TitleAuthorsAbstract論文公表日・翻訳日
# 自己直交モジュール:直交フィルタ学習のためのネットワークアーキテクチャプラグイン

Self-Orthogonality Module: A Network Architecture Plug-in for Learning Orthogonal Filters ( http://arxiv.org/abs/2001.01275v2 )

ライセンス: Link先を確認
Ziming Zhang, Wenchi Ma, Yuanwei Wu, Guanghui Wang(参考訳) 本稿では,直交正則化(OR)が単体あるいは協調的に深層学習に与える影響を実証的に検討する。 最近の研究は、その正確性について有望な結果を示している。 しかし,本研究では,従来の重量減少,ドロップアウト,バッチ正規化に基づくトレーニングに比べ,既存のOR手法による改善は見られていない。 角度推定における局所性センシティブハッシュ (lsh) に触発された実利得を同定するために,ネットワーク内のフィルタ角の平均および分散を90及び0まで同時に押し上げるための暗黙的自己正規化を導入することを提案し,他の明示的な正規化を使わずにフィルタ間の直交性を実現する。 我々の正規化はアーキテクチャプラグインとして実装でき、任意のネットワークに統合できる。 ORはトレーニングプロセスの安定化に役立ち,より高速な収束と一般化を実現する。

In this paper, we investigate the empirical impact of orthogonality regularization (OR) in deep learning, either solo or collaboratively. Recent works on OR showed some promising results on the accuracy. In our ablation study, however, we do not observe such significant improvement from existing OR techniques compared with the conventional training based on weight decay, dropout, and batch normalization. To identify the real gain from OR, inspired by the locality sensitive hashing (LSH) in angle estimation, we propose to introduce an implicit self-regularization into OR to push the mean and variance of filter angles in a network towards 90 and 0 simultaneously to achieve (near) orthogonality among the filters, without using any other explicit regularization. Our regularization can be implemented as an architectural plug-in and integrated with an arbitrary network. We reveal that OR helps stabilize the training process and leads to faster convergence and better generalization.
翻訳日:2023-01-14 08:01:06 公開日:2020-01-17
# 超流動体$^4$heにおけるhe$_{2}^{*}$エキシマトレーサの形状揺らぎと光遷移

Shape fluctuations and optical transition of He$_{2}^{*}$ excimer tracers in superfluid $^4$He ( http://arxiv.org/abs/2001.05625v2 )

ライセンス: Link先を確認
Wei Guo and Andrei I. Golov(参考訳) 準安定なhe$_{2}^{*}$エキシマ分子は、レーザー誘起蛍光によって撮像できる超流動の$^4$he (he ii) の通常の成分のトレーサー粒子として利用されている。 これらのエキシマ分子はhe iiで小さな気泡を形成し、十分に低温で量子化された渦と結合できるため、目に見えない超流動中の渦ダイナミクスを直接可視化することができる。 しかし、He$_{2}^{*}$分子の蛍光イメージングに責任がある$a^{3}\Sigma^+_{u}$$${\rightarrow}$$c^{3}\Sigma^+_{g}$光吸収線は気泡の形状のゆらぎによって制御されており、その正確な線プロファイルは低温では分かっていない。 本稿では,he iiにおけるエキシマの表面揺らぎ固有モードを評価するための気泡モデルを提案する。 a^{3}\sigma^+_{u}{\rightarrow}c^{3}\sigma^+_{g}$遷移の直線プロファイルは、気泡形状のゼロ点と熱揺らぎの両方を考慮して異なる温度で計算される。 温度が2~kから20mkに低下すると、ピークの吸収強度が約5倍に向上し、ピーク位置のブルーシフトが約2nm増加することを示した。 分子核の回転レベルによる二重ピーク線プロファイルを解くことができる。 この気泡モデルはまた、he$_{2}^{*}$ 気泡の剛性を評価することができ、したがって熱フォノンの散乱による he ii 内の拡散定数も評価できる。 この結果は,He$_{2}^{*}$トレーサを用いたHe IIにおける量子化渦の画像化実験の設計に有効である。

Metastable He$_{2}^{*}$ excimer molecules have been utilized as tracer particles of the normal component in superfluid $^4$He (He II) which can be imaged via laser-induced fluorescence. These excimer molecules form tiny bubbles in He II and can bind to quantized vortices at sufficiently low temperatures, thereby allowing for direct visualization of vortex dynamics in an inviscid superfluid. However, the $a^{3}\Sigma^+_{u}$${\rightarrow}$$c^{3}\Sigma^+_{g}$ optical absorption line, which is responsible for the fluorescence imaging of the He$_{2}^{*}$ molecules, is controlled by fluctuations on the bubble shape, and its exact line profile is not known at low temperatures. In this paper, we present a bubble model for evaluating the surface fluctuation eigenmodes of the excimers in He II. The line profile of the $a^{3}\Sigma^+_{u}{\rightarrow}c^{3}\Sigma^+_{g}$ transition is calculated at different temperatures by considering both the zero-point and thermal fluctuations on the bubble shape. We show that, as the temperature drops from 2~K to 20 mK, the peak absorption strength is enhanced by a factor of about five, accompanying a blueshift of the peak location by about 2 nm. A double-peak line profile due to the rotational levels of the molecular core can be resolved. This bubble model also allows us to evaluate the stiffness of the He$_{2}^{*}$ bubbles and hence their diffusion constant in He II due to scattering off thermal phonons. Our results will aid the design of future experiments on imaging quantized vortices in He II using He$_{2}^{*}$ tracers.
翻訳日:2023-01-11 01:15:30 公開日:2020-01-17
# グローブホッピング

Globe-hopping ( http://arxiv.org/abs/2001.06442v1 )

ライセンス: Link先を確認
Dmitry Chistikov, Olga Goulko, Adrian Kent, Mike Paterson(参考訳) 我々は、ベルの不等式に関連する、円と球面上のグラスホッパー問題(Goulko and Kent, 2017)のバージョンを考える。 円周2\pi$の場合、任意の長さと任意のジャンプ長さの無拘束の芝生では、芝生にホッパージャンプが残る確率の上限が1つであることが示される。 定義によって、正反対の点のペアの1つを含み、長さ$\pi$ を持つ反ポッド芝生に対して、ジャンプ長 $\phi$ が $\pi\frac{p}{q}$ と $p,q$ coprime と $p$ odd の形のときを除いて、これは真であることを示す。 これらのジャンプ長に対して、最適確率は 1 − 1/q$ であり、最適芝生を構成する。 対の反ポッド芝生の場合、一方からもう一方へジャンプする最適な確率は、$p,q$ coprime, $p$ odd および $q$ even であり、その他のすべての場合において 1/q$ である。 球面上の反足の芝生については、Kent and Pital\'ua-Garc\'ia, 2014) が知られており、$\phi = \pi/q$, where $q \in \mathbb N$, then the optimal retention probability of $1-1/q$ for the grasshopper's jump が半球の芝生によって提供される。 0<\phi < \pi/2$ の場合、半球面の芝生は最適ではなく、半球面の色の最大性仮説(kent and pital\'ua-garc\'ia, 2014)を否定する。 本稿ではベル実験と関連する暗号実験について論じる。

We consider versions of the grasshopper problem (Goulko and Kent, 2017) on the circle and the sphere, which are relevant to Bell inequalities. For a circle of circumference $2\pi$, we show that for unconstrained lawns of any length and arbitrary jump lengths, the supremum of the probability for the grasshopper's jump to stay on the lawn is one. For antipodal lawns, which by definition contain precisely one of each pair of opposite points and have length $\pi$, we show this is true except when the jump length $\phi$ is of the form $\pi\frac{p}{q}$ with $p,q$ coprime and $p$ odd. For these jump lengths we show the optimal probability is $1 - 1/q$ and construct optimal lawns. For a pair of antipodal lawns, we show that the optimal probability of jumping from one onto the other is $1 - 1/q$ for $p,q$ coprime, $p$ odd and $q$ even, and one in all other cases. For an antipodal lawn on the sphere, it is known (Kent and Pital\'ua-Garc\'ia, 2014) that if $\phi = \pi/q$, where $q \in \mathbb N$, then the optimal retention probability of $1-1/q$ for the grasshopper's jump is provided by a hemispherical lawn. We show that in all other cases where $0<\phi < \pi/2$, hemispherical lawns are not optimal, disproving the hemispherical colouring maximality hypotheses (Kent and Pital\'ua-Garc\'ia, 2014). We discuss the implications for Bell experiments and related cryptographic tests.
翻訳日:2023-01-10 13:18:48 公開日:2020-01-17
# Groverのアルゴリズムと多値量子論理

Grover's Algorithm and Many-Valued Quantum Logic ( http://arxiv.org/abs/2001.06316v1 )

ライセンス: Link先を確認
Samuel Hunt and Maximilien Gadouleau(参考訳) 量子コンピュータの実現に向けた工学的な取り組みが進むにつれて、そのような機械は情報のデファクト単位としてバイナリに頼る必要はないと考える。 一般化量子回路モデルにおいて,情報と変換を任意のarで表現できるグロバーのアルゴリズムを調査し,意味論を保ちながら構造的および行動的特性,すなわち関数出力に対するユニークな前画像を求める。 我々は、一般化された手続きが$O(\sqrt{N})$時間複雑性を保持することを証明して結論付ける。

As the engineering endeavour to realise quantum computers progresses, we consider that such machines need not rely on binary as their de facto unit of information. We investigate Grover's algorithm under a generalised quantum circuit model, in which the information and transformations can be expressed in any arity, and analyse the structural and behavioural properties while preserving the semantics; namely, searching for the unique preimage to an output a function. We conclude by demonstrating that the generalised procedure retains $O(\sqrt{N})$ time complexity.
翻訳日:2023-01-10 13:13:18 公開日:2020-01-17
# 固体量子シミュレータにおける時間外相関による動的量子相転移の検出

Detecting dynamical quantum phase transition via out-of-time-order correlations in a solid-state quantum simulator ( http://arxiv.org/abs/2001.06333v1 )

ライセンス: Link先を確認
Bing Chen, Xianfei Hou, Feifei Zhou, Peng Qian, Heng Shen, and Nanyang Xu(参考訳) 平衡状態の量子多体系は、量子統計力学の枠組みを用いて効果的に特徴づけることができる。 しかし、量子多体系の非平衡挙動は、そのような確立された枠組みの範囲内において解明され続けている。 量子シミュレータの実験は、現在この平衡パラダイムを超えて量子状態の生成への道を開く。 閉量子多体系における例として、動的量子相転移は、臨界時に物理量が非解析的になる時間における相転移として振る舞い、普遍性などの重要な原理を非平衡領域に拡張する。 ここで、固体量子シミュレータにおいて、量子情報のスクランブルと量子カオスを定量化する中心概念である時間外相関器が、横場イジングモデルにおける非平衡相転移を動的に検出できることを示す。 また、複数の量子スペクトルを研究し、最終的には量子相関の蓄積を観測する。 このプロトコルのさらなる応用は、多くの身体局在化や量子系と重力系のホログラフィック双対性のテストのような、エキゾチックな現象以外の研究を可能にする。

Quantum many body system in equilibrium can be effectively characterized using the framework of quantum statistical mechanics. However, nonequilibrium behaviour of quantum many body systems remains elusive, out of the range of such a well established framework. Experiments in quantum simulators are now opening up a route towards the generation of quantum states beyond this equilibrium paradigm. As an example in closed quantum many body systems, dynamical quantum phase transitions behave as phase transitions in time with physical quantities becoming nonanalytic at critical times, extending important principles such as universality to the nonequilibrium realm. Here, in solid state quantum simulator we develop and experimentally demonstrate that out-of-time-order correlators, a central concept to quantify quantum information scrambling and quantum chaos, can be used to dynamically detect nonoequilibrium phase transitions in the transverse field Ising model. We also study the multiple quantum spectra, eventually observe the buildup of quantum correlation. Further applications of this protocol could enable studies other of exotic phenomena such as many body localization, and tests of the holographic duality between quantum and gravitational systems.
翻訳日:2023-01-10 13:13:09 公開日:2020-01-17
# 量子多体問題に対する変分相関法

Variational-Correlations Approach to Quantum Many-body Problems ( http://arxiv.org/abs/2001.06510v1 )

ライセンス: Link先を確認
Arbel Haim, Richard Kueng, Gil Refael(参考訳) 相関関数を変動パラメータとして扱うことに基づく量子多体ハミルトンの基底状態の研究手法について検討する。 このアプローチでは、指数関数的に大きいヒルベルト空間によって設定された挑戦は、限定された相関関数の集合を追跡する方法で密度行列の正の順序を近似することで回避される。 特に、密度行列の記述は、近似の全ての順序に対して、次元が系サイズで線形に保たれる相関行列に置き換えられる。 基底状態エネルギーの上界を与える従来の変分原理とは異なり、このアプローチでは代わりに下界を得る。 いくつかの1次元スピン1/2$ハミルトニアンの扱いにより、このアプローチが長距離相関を生成する能力と、正確な結果に収束する基底状態エネルギーを示す。 高励起状態を含む可能性拡張について論じる。

We investigate an approach for studying the ground state of a quantum many-body Hamiltonian that is based on treating the correlation functions as variational parameters. In this approach, the challenge set by the exponentially-large Hilbert space is circumvented by approximating the positivity of the density matrix, order-by-order, in a way that keeps track of a limited set of correlation functions. In particular, the density-matrix description is replaced by a correlation matrix whose dimension is kept linear in system size, to all orders of the approximation. Unlike the conventional variational principle which provides an upper bound on the ground-state energy, in this approach one obtains a lower bound instead. By treating several one-dimensional spin $1/2$ Hamiltonians, we demonstrate the ability of this approach to produce long-range correlations, and a ground-state energy that converges to the exact result. Possible extensions, including to higher-excited states are discussed.
翻訳日:2023-01-10 13:12:29 公開日:2020-01-17
# 単一モードボソニック系における動的遮断

Dynamical blockade in a single mode bosonic system ( http://arxiv.org/abs/2001.06192v1 )

ライセンス: Link先を確認
Sanjib Ghosh, Timothy C. H. Liew(参考訳) 連続励起とパルス励起の組み合わせによって誘導される非線形ボゾンモードで発生する動的閉塞現象を紹介する。 ブロックの根底にあるメカニズムは一般的であり、強非線形レジームのアンチバンチングを強化し、システムのパラメータを微調整することなく弱非線形レジームに誘導する。 さらに、この機構は既存の遮断機構よりも利点があり、その単純さと普遍性から、様々なシステムの実装に適している。

We introduce a dynamical blockade phenomenon occurring in a nonlinear bosonic mode induced by a combination of continuous and pulsed excitations. We find that the underlying mechanism for the blockade is general, enhancing antibunching in the strongly nonlinear regime and inducing it in the weakly nonlinear regime, without fine-tuning the system parameters. Moreover, this mechanism shows advantages over existing blockade mechanisms and is suitable for implementation in a wide variety of systems due to its simplicity and universality.
翻訳日:2023-01-10 13:11:48 公開日:2020-01-17
# 超高速全コヒーレントスピンスイッチングの時間・スペクトル指紋

Temporal and spectral fingerprints of ultrafast all-coherent spin switching ( http://arxiv.org/abs/2001.06255v1 )

ライセンス: Link先を確認
S. Schlauderer, C. Lange, S. Baierl, T. Ebnet, C. P. Schmid, D. C. Valovcin, A. K. Zvezdin, A. V. Kimel, R. V. Mikhaylovskiy, and R. Huber(参考訳) 将来の情報技術は、究極的には高速で低損失の量子制御を必要とする。 インセンス光場は、新しい物質状態の誘導、電子の弾道的な加速、谷の擬似スピンのコヒーレントな反転などの重要なマイルストーンを助長してきた。 これらのダイナミクスは、特徴的なバンドギャップや高次高調波放射のようなユニークなシグネチャを残している。 技術的に最も重要な量子属性であるスピンを潜在的な障壁によって分離された2つの状態に切り替える最も速く最も散逸しやすい方法は、全コヒーレントな偏差を引き起こすことである。 ピコ秒電気と磁場によるパイオニアリング実験と理論は、この可能性を示唆しているが、実際の力学は到達できないままである。 ここで、テラヘルツ (1 thz = 10$^{12}$ hz) の電磁パルスは、ポテンシャル障壁上のスピンのコヒーレントなナビゲーションを可能にし、対応する時間的およびスペクトル的指紋を明らかにする。 この目標は、反強磁性tmfeo$_{3}$のスピンとカスタム調整アンテナの局所強化thz電界を結合することによって達成される。 1 psの範囲内で、強烈なthzパルスは突然磁気異方性を変化させ、大振幅の弾道スピン運動を引き起こす。 特性相フリップ、マグノン共鳴の非対称分割、ファラデー信号の長寿命オフセットは、数値シミュレーションに則って、隣接するポテンシャルミニマへのコヒーレントスピンスイッチの指標である。 スイッチ可能なスピン状態は外部磁気バイアスにより選択することができる。 低散逸とアンテナのサブ波長空間定義は、THz速度で動くスケーラブルなスピンデバイスを容易にする。

Future information technology demands ultimately fast, low-loss quantum control. Intense light fields have facilitated important milestones, such as inducing novel states of matter, accelerating electrons ballistically, or coherently flipping the valley pseudospin. These dynamics leave unique signatures, such as characteristic bandgaps or high-order harmonic radiation. The fastest and least dissipative way of switching the technologically most important quantum attribute - the spin - between two states separated by a potential barrier is to trigger an all-coherent precession. Pioneering experiments and theory with picosecond electric and magnetic fields have suggested this possibility, yet observing the actual dynamics has remained out of reach. Here, we show that terahertz (1 THz = 10$^{12}$ Hz) electromagnetic pulses allow coherent navigation of spins over a potential barrier and we reveal the corresponding temporal and spectral fingerprints. This goal is achieved by coupling spins in antiferromagnetic TmFeO$_{3}$ with the locally enhanced THz electric field of custom-tailored antennas. Within their duration of 1 ps, the intense THz pulses abruptly change the magnetic anisotropy and trigger a large-amplitude ballistic spin motion. A characteristic phase flip, an asymmetric splitting of the magnon resonance, and a long-lived offset of the Faraday signal are hallmarks of coherent spin switching into adjacent potential minima, in agreement with a numerical simulation. The switchable spin states can be selected by an external magnetic bias. The low dissipation and the antenna's sub-wavelength spatial definition could facilitate scalable spin devices operating at THz rates.
翻訳日:2023-01-10 13:11:41 公開日:2020-01-17
# チャネルの確認と予測の確認--医療検査からレイヴンパラドックスへ

Channels' Confirmation and Predictions' Confirmation: from the Medical Test to the Raven Paradox ( http://arxiv.org/abs/2001.07566v1 )

ライセンス: Link先を確認
Chenguang Lu(参考訳) 実証主義と偽証主義の長い議論の後、普遍仮説の検証は不確かな主要な前提の確認に置き換えられた。 残念ながら、ヘムプルはレイブンパラドックス (RP) を発見した。 次に、carnapは確認尺度として論理確率インクリメントを用いた。 これまでに多くの確認措置が提案されている。 ケメニーとオッペンハイムが提案したそれらの中のfは、エルスとフィテルソンが提案した対称性と非対称性、グレコらが提案した単調性、多くの研究者が提案した正規化性を持っている。 意味情報理論に基づいて、f に類似した測度 b* が医療試験から導出される。 確率比と同様に、b* と f は、確率予測の品質ではなく、チャネルの品質またはテスト手段のみを示すことができる。 そして、まだ rp を明確にするために b*, f, あるいは他の尺度を使うのは容易ではない。 このため、正解率に類似した測度 c* が導出される。 c* は単純形式である: (a-c)/max(a, c) はニコッド規準をサポートし、同値条件を弱め、したがって RP を排除できる。 rpを排除するために一般的な確認手段の1つを使うのが難しい理由を示すいくつかの例が提供されている。 測度 f, b*, c* は、反例の存在がより肯定的な例の存在よりも重要であり、従ってポパーの偽化思考と適合することを示している。

After long arguments between positivism and falsificationism, the verification of universal hypotheses was replaced with the confirmation of uncertain major premises. Unfortunately, Hemple discovered the Raven Paradox (RP). Then, Carnap used the logical probability increment as the confirmation measure. So far, many confirmation measures have been proposed. Measure F among them proposed by Kemeny and Oppenheim possesses symmetries and asymmetries proposed by Elles and Fitelson, monotonicity proposed by Greco et al., and normalizing property suggested by many researchers. Based on the semantic information theory, a measure b* similar to F is derived from the medical test. Like the likelihood ratio, b* and F can only indicate the quality of channels or the testing means instead of the quality of probability predictions. And, it is still not easy to use b*, F, or another measure to clarify the RP. For this reason, measure c* similar to the correct rate is derived. The c* has the simple form: (a-c)/max(a, c); it supports the Nicod Criterion and undermines the Equivalence Condition, and hence, can be used to eliminate the RP. Some examples are provided to show why it is difficult to use one of popular confirmation measures to eliminate the RP. Measure F, b*, and c* indicate that fewer counterexamples' existence is more essential than more positive examples' existence, and hence, are compatible with Popper's falsification thought.
翻訳日:2023-01-10 13:05:14 公開日:2020-01-17
# 双方向グラフ畳み込みネットワークを用いたソーシャルメディアの噂検出

Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks ( http://arxiv.org/abs/2001.06362v1 )

ライセンス: Link先を確認
Tian Bian, Xi Xiao, Tingyang Xu, Peilin Zhao, Wenbing Huang, Yu Rong, Junzhou Huang(参考訳) ソーシャルメディアは、新しい情報を広める性質から、急速に世に出てきており、噂が広まっている。 一方、ソーシャルメディアでそのような膨大な情報から噂を検出することは、厳しい課題になりつつある。 そのため、recursive neural network(rvnn)など、その拡散を通じて噂を発見するために、いくつかのディープラーニング手法が適用されている。 しかし、これらの深層学習手法は、深層伝播のパターンを考慮に入れず、噂検出における広範囲な分散構造を無視する。 実際、伝播と分散は噂の重要な2つの特徴である。 本稿では,二方向グラフ畳み込みネットワーク (Bi-Directional Graph Convolutional Networks, Bi-GCN) と呼ばれる新しい双方向グラフモデルを提案する。 これは、噂拡散のパターンを学習するために、噂拡散のトップダウン指向グラフを持つGCNと、噂拡散の反対指向グラフを持つGCNを活用して、噂拡散の構造を捉える。 さらに、ソースポストからの情報は、噂の根源からの影響を高めるために、GCNの各レイヤに関係している。 実験結果を複数のベンチマークで評価することにより,提案手法が最先端手法よりも優れていることを確認した。

Social media has been developing rapidly in public due to its nature of spreading new information, which leads to rumors being circulated. Meanwhile, detecting rumors from such massive information in social media is becoming an arduous challenge. Therefore, some deep learning methods are applied to discover rumors through the way they spread, such as Recursive Neural Network (RvNN) and so on. However, these deep learning methods only take into account the patterns of deep propagation but ignore the structures of wide dispersion in rumor detection. Actually, propagation and dispersion are two crucial characteristics of rumors. In this paper, we propose a novel bi-directional graph model, named Bi-Directional Graph Convolutional Networks (Bi-GCN), to explore both characteristics by operating on both top-down and bottom-up propagation of rumors. It leverages a GCN with a top-down directed graph of rumor spreading to learn the patterns of rumor propagation, and a GCN with an opposite directed graph of rumor diffusion to capture the structures of rumor dispersion. Moreover, the information from the source post is involved in each layer of GCN to enhance the influences from the roots of rumors. Encouraging empirical results on several benchmarks confirm the superiority of the proposed method over the state-of-the-art approaches.
翻訳日:2023-01-10 13:04:31 公開日:2020-01-17
# siamese graphニューラルネットワークによるデータ統合

Siamese Graph Neural Networks for Data Integration ( http://arxiv.org/abs/2001.06543v1 )

ライセンス: Link先を確認
Evgeny Krivosheev, Mattia Atzeni, Katsiaryna Mirylenka, Paolo Scotton, Fabio Casati(参考訳) データ統合は数十年にわたって広く研究され、異なる角度からアプローチされてきた。 しかし、このドメインは依然としてルール駆動であり、普遍的な自動化がない。 機械学習と特にディープラーニングの最近の開発は、データ統合問題に対するより汎用的で効率的なソリューションへの道を開いた。 本研究では,リレーショナル・データベースなどの構造化データや,ニュース記事のフリーテキストなどの非構造化ソースからエンティティをモデル化・統合する一般的なアプローチを提案する。 私たちのアプローチは、エンティティ間の関係を明示的にモデル化し、活用するように設計されています。 siameseとgraphニューラルネットワークを組み合わせることで、接続されたエンティティ間の情報を伝達し、高いスケーラビリティをサポートする。 我々は,ビジネスエンティティに関するデータ統合作業における手法の評価を行い,グラフベース表現を使用しない他のディープラーニングアプローチと同様に,標準的なルールベースシステムよりも優れていることを示す。

Data integration has been studied extensively for decades and approached from different angles. However, this domain still remains largely rule-driven and lacks universal automation. Recent development in machine learning and in particular deep learning has opened the way to more general and more efficient solutions to data integration problems. In this work, we propose a general approach to modeling and integrating entities from structured data, such as relational databases, as well as unstructured sources, such as free text from news articles. Our approach is designed to explicitly model and leverage relations between entities, thereby using all available information and preserving as much context as possible. This is achieved by combining siamese and graph neural networks to propagate information between connected entities and support high scalability. We evaluate our method on the task of integrating data about business entities, and we demonstrate that it outperforms standard rule-based systems, as well as other deep learning approaches that do not use graph-based representations.
翻訳日:2023-01-10 13:04:09 公開日:2020-01-17
# qedおよびqcdに対するハイゼンベルク・オイラー実効作用の全階ランダウ準位構造について

Note on all-order Landau-level structures of the Heisenberg-Euler effective actions for QED and QCD ( http://arxiv.org/abs/2001.06131v1 )

ライセンス: Link先を確認
Koichi Hattori, Kazunori Itakura, Sho Ozaki(参考訳) 有名なハイゼンベルク・オイラー (he) にコード化されたランダウ準位構造を定電磁場において検討する。 まずスカラーおよびスピノールqedに対するhe効果作用を議論し, 共変定数クロモ-電磁気場のqcdアナログに拡張した。 我々は、全てのランダウ準位とゼーマン準位を1-ループ次数の固有時間表現から始まり、全階ランダウ準位の独立な寄与に対する和形式におけるシュウィンガー機構の真空持続確率を導出する。 スピノルQEDの磁場によって触媒されるシュウィンガー機構の強化と対照的に、ランドウ量子化の「ゼロポイントエネルギー」によるスカラーQEDに対する強い指数的抑制が発見された。 qcdでは,それらの異なるゼーマンエネルギーに基づいて横グルオンモードと縦グルオンモードの離散エネルギー準位を同定し,シュウィンガー機構における縦グルオンとゴーストの寄与のキャンセルを明示的に確認した。 また、 Nielsen-Olesen不安定性として知られる摂動グルーオン励起の不安定な基底状態についても論じる。

We investigate the Landau-level structures encoded in the famous Heisenberg-Euler (HE) effective action in constant electromagnetic fields. We first discuss the HE effective actions for scalar and spinor QED, and then extend it to the QCD analogue in the covariantly constant chromo-electromagnetic fields. We identify all the Landau levels and the Zeeman energies starting out from the proper-time representations at the one-loop order, and derive the vacuum persistence probability for the Schwinger mechanism in the summation form over independent contributions of the all-order Landau levels. We find an enhancement of the Schwinger mechanism catalyzed by a magnetic field for spinor QED and, in contrast, a stronger exponential suppression for scalar QED due to the "zero-point energy" of the Landau quantization. For QCD, we identify the discretized energy levels of the transverse and longitudinal gluon modes on the basis of their distinct Zeeman energies, and explicitly confirm the cancellation between the longitudinal-gluon and ghost contributions in the Schwinger mechanism. We also discuss the unstable ground state of the perturbative gluon excitations known as the Nielsen-Olesen instability.
翻訳日:2023-01-10 13:03:32 公開日:2020-01-17
# 周波数変調ソータ電位井戸におけるペア生成の促進

Enhanced pair production in frequency modulated Sauter potential wells ( http://arxiv.org/abs/2001.06147v1 )

ライセンス: Link先を確認
Li Wang, Binbing Wu, Lie-Juan Li and B. S. Xie(参考訳) 周波数変調ソーターポテンシャル井戸における電子-ポジトロン対生成は、計算量子場理論の枠組みで研究されている。 静的ソーターポテンシャル井戸と周波数変調振動井戸を組み合わせたポテンシャル井戸では、変調振幅は生成されたペアの数に大きな影響を与える。 異なる中心周波数における周波数の最適変調振幅が得られ、電子の数が約2倍に増加する。 しかし、単一の振動電位を周波数変調とよく合致させた場合、チャープ効果は中心周波数に敏感であり、中心周波数の低い状態でも4桁まで電子数を増加させることができる。 これは、緩やかに振動するソーター電位を良くすると、周波数変調によるチャープ効果は、ペア生成を改善するために静的ポテンシャルを十分に加えるよりも良いことを意味する。

Electron-positron pair production in frequency modulated Sauter potential wells is investigated in the framework of the computational quantum field theory. In combined potential wells with a static Sauter potential well and a frequency modulated oscillating one, the modulated amplitude has a large effect on the number of created pairs. The optimal modulation amplitude of frequency at different center frequencies is obtained, which increases the number of electrons at about two times. However, for a single oscillating potential well with frequency modulation, chirp effect is sensitive to the center frequency, and the number of electrons can be enhanced even to four orders of magnitude at a regime of low center frequency. It implies that for a slowly oscillating Sauter potential well, the chirp effect through the frequency modulation is better than adding a static potential well to improve the pair production.
翻訳日:2023-01-10 13:03:10 公開日:2020-01-17
# 軌道角運動量に基づく多元系および多次元系に対するハーディのパラドックスの実験的検討

Orbital-angular-momentum-based experimental test of Hardy's paradox for multisetting and multidimensional systems ( http://arxiv.org/abs/2001.06245v1 )

ライセンス: Link先を確認
Dongkai Zhang, Xiaodong Qiu, Tianlong Ma, Wuhong Zhang, and Lixiang Chen(参考訳) 高次元の絡み合った状態の特徴付けは、量子情報科学と技術において極めて重要である。 最近の理論的進歩により、ハーディのパラドックスは、原版で制限された境界を超える多次元系を持つ一般的なシナリオへと拡張される。 このようなハーディのパラドックスを検証する実験的な検証は行われておらず、以前の実験のほとんどは2次元システムに限定されていた。 ここでは、2光子高次元軌道角運動量(OAM)の絡み合いに基づいて、複数の設定と複数の結果に対するハーディのパラドックスを実証するための最初の実験を報告する。 2 つの高次元 OAM 部分空間のパラドックスを d = 7 まで示し、非局所事象が次元とともに増加することを示した。 さらに, 5次元OAM部分空間に対して, エンタングルメント濃度を用いて実験的に記録された36.77%の確率で非局所性を示し, 量子力学と古典理論の矛盾をより鮮明に示す。

Characterizing high-dimensional entangled states is of crucial importance in quantum information science and technology. Recent theoretical progress has been made to extend the Hardy's paradox into a general scenario with multisetting multidimensional systems, which can surpass the bound limited by the original version. Hitherto, no experimental verification has been conducted to verify such a Hardy's paradox, as most of previous experimental efforts were restricted to two-dimensional systems. Here, based on two-photon high-dimensional orbital angular momentum (OAM) entanglement, we report the first experiment to demonstrate the Hardy's paradox for multiple settings and multiple outcomes. We demonstrate the paradox for two-setting higher-dimensional OAM subspaces up to d = 7, which reveals that the nonlocal events increase with the dimension. Furthermore, we showcase the nonlocality with an experimentally recording probability of 36.77% for five-setting three-dimensional OAM subspace via entanglement concentration, and thus showing a sharper contradiction between quantum mechanics and classical theory.
翻訳日:2023-01-10 13:02:57 公開日:2020-01-17
# 超平衡エンタングル光子発生のための放射カスケードのアクティブリセット

Active reset of a radiative cascade for superequilibrium entangled photon generation ( http://arxiv.org/abs/2001.06251v1 )

ライセンス: Link先を確認
Jonathan R. A. M\"uller, R. Mark Stevenson, Joanna Skiba-Szymanska, Ginny Shooter, Jan Huwer, Ian Farrer, David A. Ritchie and Andrew J. Shields(参考訳) カスケードされた少数層系から放出される絡み合った光子の生成速度は、放射遷移の寿命によって本質的に制限される。 ここでは、放射カスケードのアクティブリセットに基づく新しい駆動方式により、量子ドットから絡み合った光子対に対するこの限界を克服する。 最適連続駆動平衡状態と比較して高い忠実性と強度を有する絡み合った光子対を発生可能にするための駆動機構を理論的および実験的に示す。 最後に、電気的に絡み合った光子対の総忠実度が$(79.5 \pm 1.1)\%$を記録クロックレート1.15GHzで生成する。

The generation rate of entangled photons emitted from cascaded few-level systems is intrinsically limited by the lifetime of the radiative transitions. Here, we overcome this limit for entangled photon pairs from quantum dots via a novel driving regime based on an active reset of the radiative cascade. We show theoretically and experimentally the driving regime to enable the generation of entangled photon pairs with higher fidelity and intensity compared to the optimum continuously driven equilibrium state. Finally, we electrically generate entangled photon pairs with a total fidelity of $(79.5 \pm 1.1)\%$ at a record clock rate of 1.15GHz.
翻訳日:2023-01-10 13:02:37 公開日:2020-01-17
# 多光子高次元量子状態の実験的生成

Experimental creation of Multi-Photon High-Dimensional Layered Quantum States ( http://arxiv.org/abs/2001.06253v1 )

ライセンス: Link先を確認
Xiao-Min Hu, Wen-Bo Xing, Chao Zhang, Bi-Heng Liu, Matej Pivoluska, Marcus Huber, Yun-Feng Huang, Chuan-Feng Li, and Guang-Can Guo(参考訳) 量子絡み合いは、量子情報において最も重要な資源の1つである。 近年、量子エンタングルメントの研究は、主に絡み合った量子ビットの数の増加や、2つの粒子の高次元エンタングルメントに焦点を当てている。 量子ビット状態と比較すると、多成分の高次元エンタングル状態は有益な性質を持ち、量子ネットワークを構築するのに強力である。 しかし、そのような状態を作るのが難しいため、多部構成の高次元量子絡み合いの研究はほとんどない。 本稿では,光子のパスモードを用いて多成分高次元状態 ||\psi_{442}\rangle=\frac{1}{2}(|000\rangle+|110\rangle+|221\rangle+|331\rangle)$ を実験的に作成する。 量子状態の忠実度 $f=0.854\pm0.007$ を得ると、実多元高次元エンタングル状態が証明される。 最後に、この量子状態を用いて、階層化された量子ネットワークを原理的に示す。 我々の研究は、複雑な量子ネットワークへの別の道を強調している。

Quantum entanglement is one of the most important resources in quantum information. In recent years, the research of quantum entanglement mainly focused on the increase in the number of entangled qubits or the high-dimensional entanglement of two particles. Compared with qubit states, multipartite high-dimensional entangled states have beneficial properties and are powerful for constructing quantum networks. However, there are few studies on multipartite high-dimensional quantum entanglement due to the difficulty of creating such states. In this paper, we experimentally prepared a multipartite high-dimensional state $|\Psi_{442}\rangle=\frac{1}{2}(|000\rangle+|110\rangle+|221\rangle+|331\rangle)$ by using the path mode of photons. We obtain the fidelity $F=0.854\pm0.007$ of the quantum state, which proves a real multipartite high-dimensional entangled state. Finally, we use this quantum state to demonstrate a layered quantum network in principle. Our work highlights another route towards complex quantum networks.
翻訳日:2023-01-10 13:02:28 公開日:2020-01-17
# aiコミュニティによるアクティビズム:最近の成果と今後の展望の分析

Activism by the AI Community: Analysing Recent Achievements and Future Prospects ( http://arxiv.org/abs/2001.06528v1 )

ライセンス: Link先を確認
Haydn Belfield(参考訳) 人工知能コミュニティ(AI)は、最近、AIの社会的・倫理的意味を形作るために、雇用主、コミュニティの他のメンバー、そして政府との関係で活動的活動を行っている。 幾つかの顕著な成功を収めてきたが、さらなる政治組織化と行動主義の見通しは定かではない。 過去6年間にAIコミュニティによるアクティビズムを調査し、疫学コミュニティに関する文献に描かれた2つの分析フレームワークを適用し、労働者が組織化と交渉を行い、それらがAIコミュニティの将来的な展望に意味するものを探る。 これまでの成功は、コヒーレントな共有文化と、ai人材の限られた供給に対する高い需要のために高い交渉力にかかってきた。 どちらもaiアクティビズムの未来に不可欠であり、引き続き注目に値するものだ。

The artificial intelligence community (AI) has recently engaged in activism in relation to their employers, other members of the community, and their governments in order to shape the societal and ethical implications of AI. It has achieved some notable successes, but prospects for further political organising and activism are uncertain. We survey activism by the AI community over the last six years; apply two analytical frameworks drawing upon the literature on epistemic communities, and worker organising and bargaining; and explore what they imply for the future prospects of the AI community. Success thus far has hinged on a coherent shared culture, and high bargaining power due to the high demand for a limited supply of AI talent. Both are crucial to the future of AI activism and worthy of sustained attention.
翻訳日:2023-01-10 12:56:20 公開日:2020-01-17
# 識別器の観点からのギャラクシーデブレンダーGANの解釈

Interpreting Galaxy Deblender GAN from the Discriminator's Perspective ( http://arxiv.org/abs/2001.06151v1 )

ライセンス: Link先を確認
Heyi Li, Yuewei Lin, Klaus Mueller, Wei Xu(参考訳) generative adversarial networks (gans) は教師なしの学習能力でよく知られている。 天文学の分野での最近の成功は、枝分かれしたGANモデルを通して、2つの重なり合う銀河像を曲げることである。 しかし、ネットワークの仕組みを理解することは依然として重要な課題であり、特に専門家でないユーザーにとっては難しい。 本研究は,ネットワークの主要なコンポーネントのひとつである識別器の動作に着目し,重要な役割を担っているが,しばしば見落とされがちだが,特に,熱マップに基づく可視化を生成するためのレイヤワイド関連伝搬(Layer-wise Relevance Propagation, LRP)方式を改良する。 この手法をpolarized-lrpと呼び,基底真理画像に対する正寄与ヒートマップと生成画像に対する負寄与ヒートマップという2つの部分からなる。 我々は,Galaxy Zooデータセットを用いて,生成された銀河画像と地上の真理画像とを区別する際の識別器の注意領域を明らかにする。 識別器が生成器に与える影響を接続するには、生成器の段階的な変化を訓練プロセス全体で可視化する。 私たちが達成した興味深い結果は、他のものが隠していたような問題のあるデータ拡張手順の検出です。 提案手法は,GANモデルをより深く理解するための有用な視覚解析ツールであることがわかった。

Generative adversarial networks (GANs) are well known for their unsupervised learning capabilities. A recent success in the field of astronomy is deblending two overlapping galaxy images via a branched GAN model. However, it remains a significant challenge to comprehend how the network works, which is particularly difficult for non-expert users. This research focuses on behaviors of one of the network's major components, the Discriminator, which plays a vital role but is often overlooked, Specifically, we enhance the Layer-wise Relevance Propagation (LRP) scheme to generate a heatmap-based visualization. We call this technique Polarized-LRP and it consists of two parts i.e. positive contribution heatmaps for ground truth images and negative contribution heatmaps for generated images. Using the Galaxy Zoo dataset we demonstrate that our method clearly reveals attention areas of the Discriminator when differentiating generated galaxy images from ground truth images. To connect the Discriminator's impact on the Generator, we visualize the gradual changes of the Generator across the training process. An interesting result we have achieved there is the detection of a problematic data augmentation procedure that would else have remained hidden. We find that our proposed method serves as a useful visual analytical tool for a deeper understanding of GAN models.
翻訳日:2023-01-10 12:55:23 公開日:2020-01-17
# 時空間カメラライダーキャリブレーション:ターゲットレス・構造レスアプローチ

Spatiotemporal Camera-LiDAR Calibration: A Targetless and Structureless Approach ( http://arxiv.org/abs/2001.06175v1 )

ライセンス: Link先を確認
Chanoh Park, Peyman Moghadam, Soohwan Kim, Sridha Sridharan, Clinton Fookes(参考訳) ロボット工学におけるマルチモーダルセンシングシステムの需要は、これらのシステムが提供する堅牢性、信頼性、精度の増大により増大している。 これらのシステムは、効果的であるためには空間的かつ時間的に共存する必要がある。 本稿では,ターゲットレスかつ構造のない時空間カメラ-LiDARキャリブレーション法を提案する。 本手法は, 閉形式解と構造のないバンドル調整を組み合わせることで, 時空間パラメータの初期推定値を求めない方法である。 また、3d特徴(構造)は三角測量のみから計算されるため、キャリブレーション対象を持つ必要はなく、2d特徴とキャリブレーションプロセスやセンサ構成の柔軟性を提供する3d点クラウドとのマッチングも不要である。 ハンドヘルド型,空中型,脚型ロボットシステムに搭載された複数のセンサペイロード構成を用いて,シミュレーションおよび実データ実験により提案手法の精度と堅牢性を示す。 また、定性的結果は、色付き点雲可視化の形で与えられる。

The demand for multimodal sensing systems for robotics is growing due to the increase in robustness, reliability and accuracy offered by these systems. These systems also need to be spatially and temporally co-registered to be effective. In this paper, we propose a targetless and structureless spatiotemporal camera-LiDAR calibration method. Our method combines a closed-form solution with a modified structureless bundle adjustment where the coarse-to-fine approach does not {require} an initial guess on the spatiotemporal parameters. Also, as 3D features (structure) are calculated from triangulation only, there is no need to have a calibration target or to match 2D features with the 3D point cloud which provides flexibility in the calibration process and sensor configuration. We demonstrate the accuracy and robustness of the proposed method through both simulation and real data experiments using multiple sensor payload configurations mounted to hand-held, aerial and legged robot systems. Also, qualitative results are given in the form of a colorized point cloud visualization.
翻訳日:2023-01-10 12:55:03 公開日:2020-01-17
# 透過線におけるピンミス欠陥の自動形状クラスタリングに基づく検出法

Detection Method Based on Automatic Visual Shape Clustering for Pin-Missing Defect in Transmission Lines ( http://arxiv.org/abs/2001.06236v1 )

ライセンス: Link先を確認
Zhenbing Zhao, Hongyu Qi, Yincheng Qi, Ke Zhang, Yongjie Zhai, Wenqing Zhao(参考訳) ボルトは伝送線路で最も多数のファスナーであり、スプリットピンを失う傾向がある。 送電線におけるボルトの自動ピンミス欠陥検出を実現するには, 時間的かつ効率的なトラブルシューティングを実現することが困難であり, 電力系統の長期的な研究目標である。 本稿では,ピンミス欠陥検出のための自動視覚形状クラスタリングネットワーク(avscnet)と呼ばれる自動検出モデルを構築した。 まず, ボルトの視覚形状の教師なしクラスタリング法を提案し, 視覚形状の違いを学習可能な欠陥検出モデルの構築に適用した。 次に、3つの深い畳み込みニューラルネットワーク最適化手法がモデルで使用されている。 地域特徴に回帰計算と分類を適用して欠陥検出結果を得る。 本稿では,異なるネットワークの物体検出モデルを用いて,複数の位置からの伝送線路の空中画像によって構築されたピン欠落のデータセットを検証し,様々な指標を用いて評価し,完全検証する。 その結果,本手法は良好な検出効果が得られた。

Bolts are the most numerous fasteners in transmission lines and are prone to losing their split pins. How to realize the automatic pin-missing defect detection for bolts in transmission lines so as to achieve timely and efficient trouble shooting is a difficult problem and the long-term research target of power systems. In this paper, an automatic detection model called Automatic Visual Shape Clustering Network (AVSCNet) for pin-missing defect is constructed. Firstly, an unsupervised clustering method for the visual shapes of bolts is proposed and applied to construct a defect detection model which can learn the difference of visual shape. Next, three deep convolutional neural network optimization methods are used in the model: the feature enhancement, feature fusion and region feature extraction. The defect detection results are obtained by applying the regression calculation and classification to the regional features. In this paper, the object detection model of different networks is used to test the dataset of pin-missing defect constructed by the aerial images of transmission lines from multiple locations, and it is evaluated by various indicators and is fully verified. The results show that our method can achieve considerably satisfactory detection effect.
翻訳日:2023-01-10 12:54:51 公開日:2020-01-17
# 多時間SAR画像変化検出のための2相オブジェクトベースディープラーニング

Two-Phase Object-Based Deep Learning for Multi-temporal SAR Image Change Detection ( http://arxiv.org/abs/2001.06252v1 )

ライセンス: Link先を確認
Xinzheng Zhang, Guo Liu, Ce Zhang, Peter M Atkinson, Xiaoheng Tan, Xin Jian, Xichuan Zhou, Yongming Li(参考訳) 変化検出は合成開口レーダ(SAR)画像の基本的な応用の1つである。 しかし,sar画像に現れるスペックルノイズは変化検出に非常に悪影響を及ぼす。 本研究では,多時間SAR画像変化検出のための新しい2相オブジェクトベースディープラーニング手法を提案する。 従来の手法と比較して、提案されたアプローチは2つの主要な革新をもたらす。 1つは、全てのピクセルを2つのカテゴリではなく3つのカテゴリに分類することである: 変化しないピクセル、強いスペックルによる変更ピクセル(false change)、実際の地形変化によって形成された変更ピクセル(real change)である。 もう1つは、隣接するピクセルを(ピクセルから)スーパーピクセルオブジェクトに分割することで、ローカルな空間コンテキストを利用する。 2つのフェーズは この手法で設計されています 1) 単純な線形反復クラスタリングアルゴリズムに基づいてオブジェクトを生成し, ファジィc-means(FCM)クラスタリングと深層PCANetを用いて, これらのオブジェクトを変化・変化しないクラスに識別する。 この位相の予測は変化し変化しないスーパーピクセルの集合である。 2) ピクセル集合の深層学習は, 変化したスーパーピクセルのみを第1フェーズで取得し, 誤変化から実際の変化を識別する。 SLICは第2フェーズで新しいスーパーピクセルを達成するために再び使用される。 これらの新しいスーパーピクセルに低階及びスパース分解を適用し、スペックルノイズを著しく抑制する。 FCMを介してこれらの新たなスーパーピクセルにさらにクラスタリングステップを適用する。 新しいPCANetは、最後の変更マップを達成するために、2種類の変更されたスーパーピクセルを分類するように訓練される。 数値実験により,提案手法は,ベンチマーク法と比較して,誤検出率を著しく低減し,実変化と誤変化を効果的に区別し,多時間sar画像を用いて最大99.71%の変化検出精度を達成できることを示した。

Change detection is one of the fundamental applications of synthetic aperture radar (SAR) images. However, speckle noise presented in SAR images has a much negative effect on change detection. In this research, a novel two-phase object-based deep learning approach is proposed for multi-temporal SAR image change detection. Compared with traditional methods, the proposed approach brings two main innovations. One is to classify all pixels into three categories rather than two categories: unchanged pixels, changed pixels caused by strong speckle (false changes), and changed pixels formed by real terrain variation (real changes). The other is to group neighboring pixels into segmented into superpixel objects (from pixels) such as to exploit local spatial context. Two phases are designed in the methodology: 1) Generate objects based on the simple linear iterative clustering algorithm, and discriminate these objects into changed and unchanged classes using fuzzy c-means (FCM) clustering and a deep PCANet. The prediction of this Phase is the set of changed and unchanged superpixels. 2) Deep learning on the pixel sets over the changed superpixels only, obtained in the first phase, to discriminate real changes from false changes. SLIC is employed again to achieve new superpixels in the second phase. Low rank and sparse decomposition are applied to these new superpixels to suppress speckle noise significantly. A further clustering step is applied to these new superpixels via FCM. A new PCANet is then trained to classify two kinds of changed superpixels to achieve the final change maps. Numerical experiments demonstrate that, compared with benchmark methods, the proposed approach can distinguish real changes from false changes effectively with significantly reduced false alarm rates, and achieve up to 99.71% change detection accuracy using multi-temporal SAR imagery.
翻訳日:2023-01-10 12:54:31 公開日:2020-01-17
# prnuとノイズプリントを組み合わせたロバストで効率的なデバイスソース同定

Combining PRNU and noiseprint for robust and efficient device source identification ( http://arxiv.org/abs/2001.06440v1 )

ライセンス: Link先を確認
Davide Cozzolino, Francesco Marra, Diego Gragnaniello, Giovanni Poggi, and Luisa Verdoliva(参考訳) PRNUベースの画像処理は、デジタルマルチメディア法医学における重要な資産である。 非常に一般的な条件下で、信頼性の高いデバイス識別と画像偽造の効果的な検出と位置決めを可能にする。 しかし、低品質とデータ量を含む困難な状況では、性能が著しく低下する。 圧縮された画像やトリミングされた画像の作成、あるいは数枚の画像に基づいてカメラPRNUパターンを推定する。 このような条件下でのPRNU分析の性能を高めるために,近年提案されているカメラモデル指紋を用いた画像ノイズプリント法を提案する。 ソース識別に広く使用されるデータセットに関する数値実験により,提案手法が幅広い課題において,大幅な性能向上を実現することを証明した。

PRNU-based image processing is a key asset in digital multimedia forensics. It allows for reliable device identification and effective detection and localization of image forgeries, in very general conditions. However, performance impairs significantly in challenging conditions involving low quality and quantity of data. These include working on compressed and cropped images, or estimating the camera PRNU pattern based on only a few images. To boost the performance of PRNU-based analyses in such conditions we propose to leverage the image noiseprint, a recently proposed camera-model fingerprint that has proved effective for several forensic tasks. Numerical experiments on datasets widely used for source identification prove that the proposed method ensures a significant performance improvement in a wide range of challenging situations.
翻訳日:2023-01-10 12:54:00 公開日:2020-01-17
# 合成再推定によるカメラポーズの教師なし学習

Unsupervised Learning of Camera Pose with Compositional Re-estimation ( http://arxiv.org/abs/2001.06479v1 )

ライセンス: Link先を確認
Seyed Shahabeddin Nabavi, Mehrdad Hosseinzadeh, Ramin Fahimi, Yang Wang(参考訳) 教師なしカメラポーズ推定の問題点を考察する。 入力ビデオシーケンスが与えられた場合、カメラのポーズ(つまりカメラの動き)を連続フレーム間で推定する。 伝統的に、この問題は変換ベクトルに厳密な制約を課したり、複雑なパイプラインを通して光学的流れを組み込むことによって解決される。 カメラポーズ推定のための合成再推定プロセスを利用した代替手法を提案する。 入力が与えられたら、まず深度マップを推定する。 そして,推定深度マップに基づいてカメラの動作を反復的に推定する。 提案手法は, 定量的および視覚的に, 予測されたカメラ動作を大幅に改善する。 さらに、再推定は、バウンダリ外画素の問題を新規かつ簡単な方法で解決する。 我々のアプローチのもう1つの利点は、他のカメラポーズ推定アプローチに適応可能であることです。 KITTIベンチマークデータセットの実験的解析により、我々の手法は教師なしカメラのエゴモーション推定における既存の最先端手法よりも優れていることが示された。

We consider the problem of unsupervised camera pose estimation. Given an input video sequence, our goal is to estimate the camera pose (i.e. the camera motion) between consecutive frames. Traditionally, this problem is tackled by placing strict constraints on the transformation vector or by incorporating optical flow through a complex pipeline. We propose an alternative approach that utilizes a compositional re-estimation process for camera pose estimation. Given an input, we first estimate a depth map. Our method then iteratively estimates the camera motion based on the estimated depth map. Our approach significantly improves the predicted camera motion both quantitatively and visually. Furthermore, the re-estimation resolves the problem of out-of-boundaries pixels in a novel and simple way. Another advantage of our approach is that it is adaptable to other camera pose estimation approaches. Experimental analysis on KITTI benchmark dataset demonstrates that our method outperforms existing state-of-the-art approaches in unsupervised camera ego-motion estimation.
翻訳日:2023-01-10 12:46:58 公開日:2020-01-17
# 時間的インターレースネットワーク

Temporal Interlacing Network ( http://arxiv.org/abs/2001.06499v1 )

ライセンス: Link先を確認
Hao Shao, Shengju Qian, Yu Liu(参考訳) 長い間、視覚コミュニティは、畳み込みニューラルネットワークとマルコフ連鎖、光フロー、RNN、時間的畳み込みといった様々な時間モデルを組み合わせることで、時空間表現を学習しようとしてきた。 しかし、これらのパイプラインは空間情報と時間情報の交互に学習するプロセスのため、膨大な計算資源を消費する。 1つの自然な疑問は、時間的情報を空間的情報に埋め込むことで、2つの領域の情報は1回だけ学習できるかどうかである。 本稿では,単純で強力な演算子であるtemporal interlacing network (tin)を提案することで,この問題に答える。 時間的特徴を学習する代わりに、TINは空間的表現を過去から未来へインターレースすることで2種類の情報を融合する。 異なるインターレース対象を学習して、インターレースプロセスを制御することができる。 このように、重時間モデルが単純なインターレース作用素に置き換えられる。 理論的には、学習可能なインターレースターゲットでは、TINは正規化された時間畳み込みネットワーク(r-TCN)と同等に動作するが、6つの困難なベンチマークで6倍のレイテンシで精度が向上する。 これらの結果は、ビデオ理解の最先端のパフォーマンスをかなりの差で押し上げる。 当然のことながら、提案されたTINのアンサンブルモデルはICCV19 - Multi Moments in Timeチャレンジで$1^{st}の賞金を獲得した。 コードはhttps://github.com/deepcs233/TINで研究を促進するために公開されている。

For a long time, the vision community tries to learn the spatio-temporal representation by combining convolutional neural network together with various temporal models, such as the families of Markov chain, optical flow, RNN and temporal convolution. However, these pipelines consume enormous computing resources due to the alternately learning process for spatial and temporal information. One natural question is whether we can embed the temporal information into the spatial one so the information in the two domains can be jointly learned once-only. In this work, we answer this question by presenting a simple yet powerful operator -- temporal interlacing network (TIN). Instead of learning the temporal features, TIN fuses the two kinds of information by interlacing spatial representations from the past to the future, and vice versa. A differentiable interlacing target can be learned to control the interlacing process. In this way, a heavy temporal model is replaced by a simple interlacing operator. We theoretically prove that with a learnable interlacing target, TIN performs equivalently to the regularized temporal convolution network (r-TCN), but gains 4% more accuracy with 6x less latency on 6 challenging benchmarks. These results push the state-of-the-art performances of video understanding by a considerable margin. Not surprising, the ensemble model of the proposed TIN won the $1^{st}$ place in the ICCV19 - Multi Moments in Time challenge. Code is made available to facilitate further research at https://github.com/deepcs233/TIN
翻訳日:2023-01-10 12:46:43 公開日:2020-01-17
# 埋め込みネットワークにおけるGrad-CAMの適用

Adapting Grad-CAM for Embedding Networks ( http://arxiv.org/abs/2001.06538v1 )

ライセンス: Link先を確認
Lei Chen, Jianhui Chen, Hossein Hajimirsadeghi and Greg Mori(参考訳) 勾配重み付きクラスアクティベーションマッピング(Grad-CAM)法は,画像分類,画像キャプション,その他多くのタスクにおいて,画像の重要な領域を忠実に強調することができる。 バックプロパゲーションの勾配を重み(グレードウェイト)として、ネットワーク決定を説明する。 しかし,組込みネットワークへのgrad-camの適用は,組込みネットワークが数百万の動的ペアリング例(トリプレットなど)によって訓練されるため,大きな課題を生じさせる。 これらの課題を克服するため,ネットワークへのGrad-CAM法の適用を提案する。 まず、複数のトレーニング例からgrad-weightsを集約し、grad-camの安定性を向上させる。 そこで我々は,バックプロパゲーションを伴わない任意の画像に対する決定を効率的に説明するための重み移動法を開発した。 提案手法は,従来のGrad-CAM法よりも正確な視覚的注意を生じさせる標準CUB200データセット上で広範に検証する。 また,この手法を画像を用いた住宅価格推定アプリケーションに適用する。 この手法は定性的な結果をもたらし,その実用性を示す。

The gradient-weighted class activation mapping (Grad-CAM) method can faithfully highlight important regions in images for deep model prediction in image classification, image captioning and many other tasks. It uses the gradients in back-propagation as weights (grad-weights) to explain network decisions. However, applying Grad-CAM to embedding networks raises significant challenges because embedding networks are trained by millions of dynamically paired examples (e.g. triplets). To overcome these challenges, we propose an adaptation of the Grad-CAM method for embedding networks. First, we aggregate grad-weights from multiple training examples to improve the stability of Grad-CAM. Then, we develop an efficient weight-transfer method to explain decisions for any image without back-propagation. We extensively validate the method on the standard CUB200 dataset in which our method produces more accurate visual attention than the original Grad-CAM method. We also apply the method to a house price estimation application using images. The method produces convincing qualitative results, showcasing the practicality of our approach.
翻訳日:2023-01-10 12:46:16 公開日:2020-01-17
# Durocmien: 拘束環境下でのデュロック骨格抽出のための深い枠組み

Durocmien: A deep framework for duroc skeleton extraction in constraint environment ( http://arxiv.org/abs/2002.03727v1 )

ライセンス: Link先を確認
Akif Quddus Khan, Salman Khan(参考訳) 農業動物行動分析は産業農業にとって重要な課題である。 屋内農場では、動物のキージョイントを抽出することは、長期間動物を追跡するのに不可欠である。 本稿では,DUROCMIENという深層ネットワークを提案し,トランスファー学習を利用してDurocのネットワークを訓練した。 アーキテクチャのバックボーンは hourglass stacked dense-net に基づいている。 ネットワークをトレーニングするために、キーフレームをK平均サンプリング器を用いてテストデータから選択する。 合計9つのキーポイントがアノテートされ、農場環境での詳細な行動分析がおこなわれる。 大規模実験を行い, 定量的な結果から, ネットワークは追跡性能を大幅に向上する可能性が示唆された。

Farm animal behavior analysis is a crucial tasks for the industrial farming. In an indoor farm setting, extracting Key joints of animal is essential for tracking the animal for longer period of time. In this paper, we proposed a deep network named DUROCMIEN that exploit transfer learning to trained the network for the Duroc, a domestic breed of pig, an end to end fashion. The backbone of the architecture is based on hourglass stacked dense-net. In order to train the network, key frames are selected from the test data using K-mean sampler. In total, 9 Keypoints are annotated that gives a brief detailed behavior analysis in the farm setting. Extensive experiments are conducted and the quantitative results show that the network has the potential of increasing the tracking performance by a substantial margin.
翻訳日:2023-01-10 12:46:00 公開日:2020-01-17
# 畳み込みニューラルネットワークを用いたandroidアプリケーション用ドライバ眠気検出モデル

Driver Drowsiness Detection Model Using Convolutional Neural Networks Techniques for Android Application ( http://arxiv.org/abs/2002.03728v1 )

ライセンス: Link先を確認
Rateb Jabbar, Mohammed Shinoy, Mohamed Kharbeche, Khalifa Al-Khalifa, Moez Krichen, Kamel Barkaoui(参考訳) 眠いドライバーは、マイクロスリープの犠牲者であるのでスピードを上げている人よりも、道路でずっと危険です。 自動車研究者や製造業者は、こうした危機を回避するいくつかの技術的解決策でこの問題を抑えようとしている。 本稿では,ニューラルネットワークを用いた微小睡眠と眠気の検出に焦点をあてる。 この分野でのこれまでの研究は、機械学習と多層パーセプトロンを使って同じことを検出していた。 本稿では,カメラで検出され,畳み込みニューラルネットワーク(cnn)に渡されて眠気を分類する顔ランドマークを利用することにより,その精度を高めた。 この研究の成果は、メガネ無しのカテゴリーでは88%以上、メガネなしのカテゴリーでは85%以上という、より重い分類モデルの軽量な代替手段を提供する能力である。 平均して、83%以上の精度が全カテゴリーで達成された。 さらに, モデルサイズ, 複雑性, ストレージについては, 最大75KBのベンチマークモデルと比較して, 新たなモデルが大幅に削減されている。 提案するcnnベースのモデルは、組み込みシステムとandroidデバイス向けに、高精度で使いやすいリアルタイムドライバドローゼンス検出システムを構築するのに使用できる。

A sleepy driver is arguably much more dangerous on the road than the one who is speeding as he is a victim of microsleeps. Automotive researchers and manufacturers are trying to curb this problem with several technological solutions that will avert such a crisis. This article focuses on the detection of such micro sleep and drowsiness using neural network based methodologies. Our previous work in this field involved using machine learning with multi-layer perceptron to detect the same. In this paper, accuracy was increased by utilizing facial landmarks which are detected by the camera and that is passed to a Convolutional Neural Network (CNN) to classify drowsiness. The achievement with this work is the capability to provide a lightweight alternative to heavier classification models with more than 88% for the category without glasses, more than 85% for the category night without glasses. On average, more than 83% of accuracy was achieved in all categories. Moreover, as for model size, complexity and storage, there is a marked reduction in the new proposed model in comparison to the benchmark model where the maximum size is 75 KB. The proposed CNN based model can be used to build a real-time driver drowsiness detection system for embedded systems and Android devices with high accuracy and ease of use.
翻訳日:2023-01-10 12:45:46 公開日:2020-01-17
# クーロン相互作用による量子デコヒーレンス

Quantum decoherence by Coulomb interaction ( http://arxiv.org/abs/2001.06154v1 )

ライセンス: Link先を確認
Nicole Kerker, Robin R\"opke, Lea-Marina Steinert, Andreas Pooch and Alexander Stibor(参考訳) 通信、気象学、顕微鏡における現代の量子デバイスの性能は、一般にデコヒーレンス理論によって記述される量子-古典的相互作用に依存する。 量子エレクトロニクスにおける長いコヒーレンス時間との関係は高いが、クーロン力によるデコヒーレンス機構はまだよく理解されておらず、いくつかの競合する理論モデルが存在する。 本稿では,半導体および金属表面に近いバイプリズム電子干渉計の重ね合わせ状態におけるクーロン誘起自由電子の脱コヒーレンスについて実験的に検討する。 異なるビームパス分離, 表面距離, 導電率のコントラスト損失によりデコヒーレンスが決定された。 現在の文献の議論を明らかにするために,4つの理論モデルとデータを比較した。 そのうち3つを除外して、マクロ的な量子電磁力学に基づく理論とよく一致した。 結果は、新しい量子機器の設計において、特定のデコヒーレンスチャネルの決定と最小化を可能にする。

The performance of modern quantum devices in communication, metrology or microscopy relies on the quantum-classical interaction which is generally described by the theory of decoherence. Despite the high relevance for long coherence times in quantum electronics, decoherence mechanisms mediated by the Coulomb force are not well understood yet and several competing theoretical models exist. Here, we present an experimental study of the Coulomb-induced decoherence of free electrons in a superposition state in a biprism electron interferometer close to a semiconducting and metallic surface. The decoherence was determined through a contrast loss at different beam path separations, surface distances and conductibilities. To clarify the current literature discussion, four theoretical models were compared to our data. We could rule out three of them and got good agreement with a theory based on macroscopic quantum electrodynamics. The results will enable the determination and minimization of specific decoherence channels in the design of novel quantum instruments.
翻訳日:2023-01-10 12:45:27 公開日:2020-01-17
# 混合量子アンサンブルの並列性

Parallelity of mixed quantum ensembles ( http://arxiv.org/abs/2001.06360v1 )

ライセンス: Link先を確認
Erik Sj\"oqvist(参考訳) 密度作用素の分解のための距離とホロノミーを識別するための統一的枠組みを導入する。 量子アンサンブル間の平行性は、この距離を許容分解上で最小化することによって定義される。 最小限は状態の対の性質であり、バーズ距離と一致する。 平行性条件は、密度作用素の列に対するウルマンホロノミーをもたらす接続(平行輸送のルール)を課す。 密度作用素のスペクトル分解のための距離とホロノミーは、全分解自由度の部分群制限として同定される。 これらのスペクトルの概念は、対応する密度作用素が非退化である限り、混合量子アンサンブルのゲージ不変(退化独立)特性である。 混合量子状態の離散列に対するゲージ不変スペクトル幾何位相は、スペクトルホロノミーのトレースの位相として得られる。 この幾何学的位相は、連続極限における干渉混合状態幾何学的位相とは異なる。

A unifying framework for identifying distance and holonomy for decompositions of density operators is introduced. Parallelity between quantum ensembles is defined by minimizing this distance over allowed decompositions. The minimum is a property of a pair of states and coincides with the Bures distance. The parallelity condition imposes a connection (rule for parallel transport) that results in the Uhlmann holonomy for sequences of density operators. A distance and holonomy for spectral decompositions of density operators is identified as a sub-group restriction of the full decomposition freedom. These spectral concepts are gauge invariant (decomposition independent) properties of mixed quantum ensembles, as long as the corresponding density operators are non-degenerate. A gauge invariant spectral geometric phase for discrete sequences of mixed quantum states is obtained as the phase of the trace of the spectral holonomy. This geometric phase differs from the interferometric mixed state geometric phase in the continuous limit.
翻訳日:2023-01-10 12:45:02 公開日:2020-01-17
# フラグメンテーション凝集に基づく混合会員確率ブロックモデル

Fragmentation Coagulation Based Mixed Membership Stochastic Blockmodel ( http://arxiv.org/abs/2002.00901v1 )

ライセンス: Link先を確認
Zheng Yu, Xuhui Fan, Marcin Pietrasik, Marek Reformat(参考訳) 混合メンバ確率ブロックモデル~(mmsb)は、ネットワークデータの基礎となる複雑な隠れ構造を学ぶのに適した最先端ベイズ関係法の一つとして提案されている。 しかし、MMSBの現在の定式化は、(1)先行情報~(例えば、エンティティのコミュニティ構造情報)がモデリングにうまく埋め込まれていないこと(2)コミュニティの進化が文献によく説明できないこと、の2つの問題に悩まされている。 そこで本研究では,非パラメトリックフラグメンテーション凝固に基づく混合会員確率ブロックモデル(fcMMSB)を提案する。 本モデルでは,エンティティのコミュニティ情報を抽出するエンティティベースのクラスタリングと,リンクのグループ情報を同時に導出するリンケージベースのクラスタリングを行う。 さらに,提案モデルは,離散的フラグメンテーション凝集プロセス(dfcp)を用いて,コミュニティの出現と消失によって表されるネットワーク構造とモデルコミュニティの進化を推定する。 コミュニティ構造とグループ互換行列を統合することにより、MMSBの一般化版を導出する。 後方推定のためにポリaガンマ(pg)アプローチによる効率的なギブスサンプリング方式を実装した。 我々は、合成および実世界のデータに基づいてモデルを検証する。

The Mixed-Membership Stochastic Blockmodel~(MMSB) is proposed as one of the state-of-the-art Bayesian relational methods suitable for learning the complex hidden structure underlying the network data. However, the current formulation of MMSB suffers from the following two issues: (1), the prior information~(e.g. entities' community structural information) can not be well embedded in the modelling; (2), community evolution can not be well described in the literature. Therefore, we propose a non-parametric fragmentation coagulation based Mixed Membership Stochastic Blockmodel (fcMMSB). Our model performs entity-based clustering to capture the community information for entities and linkage-based clustering to derive the group information for links simultaneously. Besides, the proposed model infers the network structure and models community evolution, manifested by appearances and disappearances of communities, using the discrete fragmentation coagulation process (DFCP). By integrating the community structure with the group compatibility matrix we derive a generalized version of MMSB. An efficient Gibbs sampling scheme with Polya Gamma (PG) approach is implemented for posterior inference. We validate our model on synthetic and real world data.
翻訳日:2023-01-10 12:41:07 公開日:2020-01-17
# 生成共振ネットワークを用いた合成磁気共鳴画像

Synthetic Magnetic Resonance Images with Generative Adversarial Networks ( http://arxiv.org/abs/2002.02527v1 )

ライセンス: Link先を確認
Antoine Delplace(参考訳) データ拡張は、トレーニングデータセットのサイズを増加させ、より良い結果を達成するために医療研究に不可欠である。 本研究では,新しい脳MRIを生成するために,異なる損失関数を持つ3つのGANアーキテクチャを実験した。 その結果、高パラメータチューニングの重要性と、識別器におけるミニバッチ類似層と、損失関数における勾配ペナルティを用いて、高品質でリアルな収束を実現することが示唆された。 さらに、元のデータセットから識別不能な画像を生成するには、膨大な計算時間が必要である。

Data augmentation is essential for medical research to increase the size of training datasets and achieve better results. In this work, we experiment three GAN architectures with different loss functions to generate new brain MRIs. The results show the importance of hyperparameter tuning and the use of mini-batch similarity layer in the Discriminator and gradient penalty in the loss function to achieve convergence with high quality and realism. Moreover, huge computation time is needed to generate indistinguishable images from the original dataset.
翻訳日:2023-01-10 12:40:47 公開日:2020-01-17
# SieveNet:ロバストなイメージベースの仮想トライオンのための統一フレームワーク

SieveNet: A Unified Framework for Robust Image-Based Virtual Try-On ( http://arxiv.org/abs/2001.06265v1 )

ライセンス: Link先を確認
Surgan Jandial, Ayush Chopra, Kumar Ayush, Mayur Hemani, Abhijeet Kumar, and Balaji Krishnamurthy(参考訳) 画像に基づくファッションのバーチャル試行が最近注目されている。 このタスクは、ターゲットモデルイメージ上の衣料品を試す必要がある。 本発明の効率的な枠組みは、(1)対象モデルのポーズと形状に整合する試着布の整合(変形)と(2)対象モデル画像に整合した試着布をシームレスに統合するテクスチャ転写モジュールとからなる。 既存の手法は試行錯誤出力のアーチファクトや歪みに悩まされる。 本稿では,堅牢なイメージベース仮想試行のためのフレームワークであるSieveNetを紹介する。 まず,マルチステージの粗いワーピングネットワークを導入し,(試着布を変形させながら)細粒度をモデル化し,新しい幾何学的整合損失でトレーニングする。 次に,テクスチャ伝達ネットワークを改善するために,試着型布条件セグメンテーションマスクを導入する。 最後に,テクスチャ翻訳ネットワークをトレーニングするための3重項損失戦略を導入することにより,生成した試行結果の品質をさらに向上する。 提案するパイプラインの各コンポーネントの質的,定量的な評価を行い,現行の最先端手法に対する大幅な性能向上を示す。

Image-based virtual try-on for fashion has gained considerable attention recently. The task requires trying on a clothing item on a target model image. An efficient framework for this is composed of two stages: (1) warping (transforming) the try-on cloth to align with the pose and shape of the target model, and (2) a texture transfer module to seamlessly integrate the warped try-on cloth onto the target model image. Existing methods suffer from artifacts and distortions in their try-on output. In this work, we present SieveNet, a framework for robust image-based virtual try-on. Firstly, we introduce a multi-stage coarse-to-fine warping network to better model fine-grained intricacies (while transforming the try-on cloth) and train it with a novel perceptual geometric matching loss. Next, we introduce a try-on cloth conditioned segmentation mask prior to improve the texture transfer network. Finally, we also introduce a dueling triplet loss strategy for training the texture translation network which further improves the quality of the generated try-on results. We present extensive qualitative and quantitative evaluations of each component of the proposed pipeline and show significant performance improvements against the current state-of-the-art method.
翻訳日:2023-01-10 12:40:38 公開日:2020-01-17
# 縮約係数による反復アルゴリズムのプライバシー増幅

Privacy Amplification of Iterative Algorithms via Contraction Coefficients ( http://arxiv.org/abs/2001.06546v1 )

ライセンス: Link先を確認
Shahab Asoodeh, Mario Diaz, and Flavio P. Calmon(参考訳) 本稿では,feldmanらによって最近提案された反復によるプライバシ増幅の枠組みについて,情報理論レンズを用いて検討する。 f$-divergences に対する強データ処理の不等式から導かれる縮約係数の直接適用により、反復写像の微分プライバシー保証が決定できることを実証する。 特に、全変動距離に対するドブルシンの縮退係数を$E_{\gamma}$-divergenceとして知られる$f$-divergenceに一般化することにより、隠れた中間更新を伴う予測された雑音確率勾配アルゴリズムの差分プライバシーパラメータの厳密な境界を導出する。

We investigate the framework of privacy amplification by iteration, recently proposed by Feldman et al., from an information-theoretic lens. We demonstrate that differential privacy guarantees of iterative mappings can be determined by a direct application of contraction coefficients derived from strong data processing inequalities for $f$-divergences. In particular, by generalizing the Dobrushin's contraction coefficient for total variation distance to an $f$-divergence known as $E_{\gamma}$-divergence, we derive tighter bounds on the differential privacy parameters of the projected noisy stochastic gradient descent algorithm with hidden intermediate updates.
翻訳日:2023-01-10 12:40:17 公開日:2020-01-17
# シーン認識対話システムのための多段階共同モダリティ注意ネットワーク

Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue System ( http://arxiv.org/abs/2001.06206v1 )

ライセンス: Link先を確認
Yun-Wei Chu, Kuan-Yen Lin, Chao-Chun Hsu, Lun-Wei Ku(参考訳) ユーザと会話するために動的シーンや対話コンテキストを理解することは、マルチモーダル対話システムでは困難である。 第8回ダイアログシステム技術チャレンジ(DSTC8)では、音声、視覚、言語を含む複数のモードを含むオーディオ視覚シーン認識ダイアログ(AVSD)タスクを提案し、対話システムがユーザに対するさまざまなモダリティや応答をどのように理解するかを評価する。 本稿では,リカレントニューラルネットワーク(recurrent neural network, rnn)に基づく多段階協調モダリティアテンションネットワーク(jman)を提案する。 我々のモデルは多段階の注意機構を実行し、各推論プロセスにおける視覚的表現とテキスト的表現の両方を共同で検討し、2つの異なるモードからの情報をよりよく統合する。 AVSDのオーガナイザがリリースしたベースラインと比較して,ROUGE-LスコアとCIDErスコアのベースラインよりも相対12.1%,22.4%改善した。

Understanding dynamic scenes and dialogue contexts in order to converse with users has been challenging for multimodal dialogue systems. The 8-th Dialog System Technology Challenge (DSTC8) proposed an Audio Visual Scene-Aware Dialog (AVSD) task, which contains multiple modalities including audio, vision, and language, to evaluate how dialogue systems understand different modalities and response to users. In this paper, we proposed a multi-step joint-modality attention network (JMAN) based on recurrent neural network (RNN) to reason on videos. Our model performs a multi-step attention mechanism and jointly considers both visual and textual representations in each reasoning process to better integrate information from the two different modalities. Compared to the baseline released by AVSD organizers, our model achieves a relative 12.1% and 22.4% improvement over the baseline on ROUGE-L score and CIDEr score.
翻訳日:2023-01-10 12:39:46 公開日:2020-01-17
# 文芸文学の系譜--nolの系譜-

Generaci\'on autom\'atica de frases literarias en espa\~nol ( http://arxiv.org/abs/2001.11381v1 )

ライセンス: Link先を確認
Luis-Gil Moreno-Jim\'enez, Juan-Manuel Torres-Moreno, Roseli S. Wedemann(参考訳) 本稿では,計算創造性(CC)分野における技術の現状について述べる。 特に、スペイン語による文の自動生成について述べる。 本稿では,統計アルゴリズムと浅層解析に基づく3つのテキスト生成モデルを提案する。 また、かなり奨励的な予備結果も提示する。

In this work we present a state of the art in the area of Computational Creativity (CC). In particular, we address the automatic generation of literary sentences in Spanish. We propose three models of text generation based mainly on statistical algorithms and shallow parsing analysis. We also present some rather encouraging preliminary results.
翻訳日:2023-01-10 12:39:09 公開日:2020-01-17
# occモデルを実装したビジュアル簡易文字感情エミュレータ

Visual Simplified Characters' Emotion Emulator Implementing OCC Model ( http://arxiv.org/abs/2001.06190v1 )

ライセンス: Link先を確認
Ana Lilia Laureano-Cruces, Laura Hern\'andez-Dom\'inguez, Martha Mora-Torres, Juan-Manuel Torres-Moreno, Jaime Enrique Cabrera-L\'opez(参考訳) 本稿では,物語の登場人物に見られる感情の視覚的エミュレータを提案する。 このシステムは、Ortony, Clore and Collins (OCC Model)によって提案された感情の認知構造を単純化したビューに基づいている。 本稿の目的は,登場人物の異なる感情の変化と,その複雑な関係を観察できる視覚的なプラットフォームを提供することである。 1)各キャラクターの感情 2)愛情的な関係と行動。 3 プロットの展開において起こる出来事 4)あらゆる物語の感情地図を構成する欲望の対象。 このツールは、オセロ、トワイライト、ハリー・ポッターといった対照的な感情的・感情的な環境の物語でテストされ、キャラクターが没入した雰囲気に敏感に耐えられた。

In this paper, we present a visual emulator of the emotions seen in characters in stories. This system is based on a simplified view of the cognitive structure of emotions proposed by Ortony, Clore and Collins (OCC Model). The goal of this paper is to provide a visual platform that allows us to observe changes in the characters' different emotions, and the intricate interrelationships between: 1) each character's emotions, 2) their affective relationships and actions, 3) The events that take place in the development of a plot, and 4) the objects of desire that make up the emotional map of any story. This tool was tested on stories with a contrasting variety of emotional and affective environments: Othello, Twilight, and Harry Potter, behaving sensibly and in keeping with the atmosphere in which the characters were immersed.
翻訳日:2023-01-10 12:39:05 公開日:2020-01-17
# ビデオキャプションのための時空間ランク付きアテンションネットワーク

Spatio-Temporal Ranked-Attention Networks for Video Captioning ( http://arxiv.org/abs/2001.06127v1 )

ライセンス: Link先を確認
Anoop Cherian, Jue Wang, Chiori Hori, Tim K. Marks(参考訳) ビデオ記述の自動生成は、時空間的視覚特徴と言語モデルとの複雑な相互作用を伴う困難なタスクである。 ビデオは空間的(フレームレベルの)特徴とその時間的進化から成り立っているので、効果的なキャプションモデルはこれらの異なるキューに選択的に出席することができる。 そこで,本稿では,時空間的・時空間的注意を2つの異なる順序で階層的に結合した,時空間的・時空間的注意モデルを提案する。 一 時空間進化のある地域を最初に参画し、その地域の特徴を時空間的にプールする時空間(ST)サブモデル (ii)まず1つのフレームが出席することを決定したテンポロ空間(ts)サブモデルが、そのフレーム内に空間的注意を配置する。 本稿では,SSTモデルが動作動態を捉えるために,新たなLSTMに基づく時間的ランク付け関数を提案する。 フレームワーク全体がエンドツーエンドでトレーニングされています。 我々はMSVDとMSR-VTTという2つのベンチマークデータセットの実験を行った。 この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。

Generating video descriptions automatically is a challenging task that involves a complex interplay between spatio-temporal visual features and language models. Given that videos consist of spatial (frame-level) features and their temporal evolutions, an effective captioning model should be able to attend to these different cues selectively. To this end, we propose a Spatio-Temporal and Temporo-Spatial (STaTS) attention model which, conditioned on the language state, hierarchically combines spatial and temporal attention to videos in two different orders: (i) a spatio-temporal (ST) sub-model, which first attends to regions that have temporal evolution, then temporally pools the features from these regions; and (ii) a temporo-spatial (TS) sub-model, which first decides a single frame to attend to, then applies spatial attention within that frame. We propose a novel LSTM-based temporal ranking function, which we call ranked attention, for the ST model to capture action dynamics. Our entire framework is trained end-to-end. We provide experiments on two benchmark datasets: MSVD and MSR-VTT. Our results demonstrate the synergy between the ST and TS modules, outperforming recent state-of-the-art methods.
翻訳日:2023-01-10 12:38:51 公開日:2020-01-17
# ファインショット顔表情認識のための強調表現の学習

Learning to Augment Expressions for Few-shot Fine-grained Facial Expression Recognition ( http://arxiv.org/abs/2001.06144v1 )

ライセンス: Link先を確認
Wenxuan Wang, Yanwei Fu, Qiang Sun, Tao Chen, Chenjie Cao, Ziqi Zheng, Guoqiang Xu, Han Qiu, Yu-Gang Jiang, Xiangyang Xue(参考訳) 感情コンピューティングと認知理論は現代の人間とコンピュータの相互作用シナリオで広く使われている。 人間の顔は、最も顕著でアクセスしやすい特徴であり、研究者から大きな注目を集めている。 人間は豊かな感情を持ち、筋肉が発達したので、現実世界の応用には細かい表現がたくさんある。 しかし、大量の顔画像を収集し、注釈を付けるのに非常に時間がかかるため、心理学者がそれらを正しく分類することさえ必要かもしれない。 我々の知る限り、既存の表現データセットはいくつかの基本的な表情に限られており、人間とコンピュータのインタラクションシステムを成功させるための野望を支えるには不十分です。 この目的のために, 顔表情データベースF2EDを新たに構築し, 119人の顔表情が54の200万枚以上の画像を収録した。 実世界のシナリオでは,不均一なデータ分布とサンプルの欠如という現象が一般的であると考えられるため,訓練例の少ない表情を認識するf2edを用いて,数点表情学習の課題を更に評価した。 これらのタスクは人間のパフォーマンスを模倣し、少数の例から堅牢で一般的な表現を学ぶ。 このような少数の課題に対処するために、顔画像の合成と、少数ショット式クラスの拡張を行うための統合されたタスク駆動フレームワークCompositional Generative Adversarial Network (Comp-GAN) 学習を提案する。 F2EDおよび既存の表情データセット、すなわち JAFFE と FER2013 を用いて、事前訓練された表情認識ネットワークにおけるF2EDの有効性と、提案手法であるComp-GANの有効性を検証するために、大規模な実験を行った。

Affective computing and cognitive theory are widely used in modern human-computer interaction scenarios. Human faces, as the most prominent and easily accessible features, have attracted great attention from researchers. Since humans have rich emotions and developed musculature, there exist a lot of fine-grained expressions in real-world applications. However, it is extremely time-consuming to collect and annotate a large number of facial images, of which may even require psychologists to correctly categorize them. To the best of our knowledge, the existing expression datasets are only limited to several basic facial expressions, which are not sufficient to support our ambitions in developing successful human-computer interaction systems. To this end, a novel Fine-grained Facial Expression Database - F2ED is contributed in this paper, and it includes more than 200k images with 54 facial expressions from 119 persons. Considering the phenomenon of uneven data distribution and lack of samples is common in real-world scenarios, we further evaluate several tasks of few-shot expression learning by virtue of our F2ED, which are to recognize the facial expressions given only few training instances. These tasks mimic human performance to learn robust and general representation from few examples. To address such few-shot tasks, we propose a unified task-driven framework - Compositional Generative Adversarial Network (Comp-GAN) learning to synthesize facial images and thus augmenting the instances of few-shot expression classes. Extensive experiments are conducted on F2ED and existing facial expression datasets, i.e., JAFFE and FER2013, to validate the efficacy of our F2ED in pre-training facial expression recognition network and the effectiveness of our proposed approach Comp-GAN to improve the performance of few-shot recognition tasks.
翻訳日:2023-01-10 12:38:31 公開日:2020-01-17
# HoloLensによるスタンドアロンの整形ナビゲーションが簡単になった

Registration made easy -- standalone orthopedic navigation with HoloLens ( http://arxiv.org/abs/2001.06209v1 )

ライセンス: Link先を確認
Florentin Liebmann, Simon Roner, Marco von Atzigen, Florian Wanivenhaus, Caroline Neuhaus, Jos\'e Spirig, Davide Scaramuzza, Reto Sutter, Jess Snedeker, Mazda Farshad, Philipp F\"urnstahl(参考訳) 外科的ナビゲーションでは,術前計画と術中解剖学との対応,いわゆる登録作業が不可欠である。 1つの有望なアプローチは、術中解剖をデジタル化し、術前計画で登録することである。 最先端の商用ナビゲーションシステムは、脊椎固定手術におけるペプシクルスクリュー配置のためのアプローチを実装している。 これらのシステムは外科的精度は向上するが、臨床における金本位制ではない。 経済的理由に加えて、これは臨床ワークフローや直感的なナビゲーションフィードバックへの統合が難しいためかもしれない。 拡張現実はこれらの制限を克服する可能性がある。 そこで本研究では,microsoft hololens上で動作しているペディクルスクリュー配置のための術中表面デジタル化と直感的なホログラフィックナビゲーションを含む外科的ナビゲーション手法を提案する。 ファントム実験の予備的な結果は、この方法が臨床精度の要件を満たすことを示唆している。

In surgical navigation, finding correspondence between preoperative plan and intraoperative anatomy, the so-called registration task, is imperative. One promising approach is to intraoperatively digitize anatomy and register it with the preoperative plan. State-of-the-art commercial navigation systems implement such approaches for pedicle screw placement in spinal fusion surgery. Although these systems improve surgical accuracy, they are not gold standard in clinical practice. Besides economical reasons, this may be due to their difficult integration into clinical workflows and unintuitive navigation feedback. Augmented Reality has the potential to overcome these limitations. Consequently, we propose a surgical navigation approach comprising intraoperative surface digitization for registration and intuitive holographic navigation for pedicle screw placement that runs entirely on the Microsoft HoloLens. Preliminary results from phantom experiments suggest that the method may meet clinical accuracy requirements.
翻訳日:2023-01-10 12:37:33 公開日:2020-01-17
# レビュー:3Dポイントクラウドのディープラーニング

Review: deep learning on 3D point clouds ( http://arxiv.org/abs/2001.06280v1 )

ライセンス: Link先を確認
Saifullahi Aminu Bello, Shangshu Yu, Cheng Wang(参考訳) 点雲は、3次元計量空間で定義される点集合である。 ポイントクラウドは3D表現のための最も重要なデータフォーマットの1つになった。 LiDARのような買収デバイスの普及と、ロボティクス、自律運転、拡張現実、バーチャルリアリティーなどの分野への応用の増加により、その人気が高まった。 ディープラーニングは現在、コンピュータビジョンにおけるデータ処理の最も強力なツールであり、分類、セグメンテーション、検出などのタスクで最も好まれるテクニックとなっている。 ディープラーニングのテクニックは、主に構造化グリッドを持つデータに適用されるが、一方、ポイントクラウドは、構造化されていない。 ポイントクラウドの非構造化性は、その処理を直接的に困難にするためにディープラーニングを利用する。 以前のアプローチでは、計算コストの増大や深度情報の喪失により、ポイントクラウドを構造化グリッド形式に前処理することで、この課題を克服していた。 しかし近年,ポイントクラウド上で直接動作する最先端のディープラーニング技術が開発されている。 本稿では,ポイントクラウドデータを中心に,最先端のディープラーニング技術について概説する。 まず、ポイントクラウドでディープラーニングを直接使用する際に直面する大きな課題について簡単に論じ、さらにポイントクラウドを構造化グリッドに前処理することで課題を克服するアプローチについても簡単に論じた。 次に,非構造化形式でポイントクラウドを直接処理する,最先端のディープラーニングアプローチのレビューを行う。 人気の3Dポイントクラウドベンチマークデータセットを導入しました。 また,分類,セグメンテーション,検出などの3次元視覚タスクにおけるディープラーニングの適用についても検討した。

Point cloud is point sets defined in 3D metric space. Point cloud has become one of the most significant data format for 3D representation. Its gaining increased popularity as a result of increased availability of acquisition devices, such as LiDAR, as well as increased application in areas such as robotics, autonomous driving, augmented and virtual reality. Deep learning is now the most powerful tool for data processing in computer vision, becoming the most preferred technique for tasks such as classification, segmentation, and detection. While deep learning techniques are mainly applied to data with a structured grid, point cloud, on the other hand, is unstructured. The unstructuredness of point clouds makes use of deep learning for its processing directly very challenging. Earlier approaches overcome this challenge by preprocessing the point cloud into a structured grid format at the cost of increased computational cost or lost of depth information. Recently, however, many state-of-the-arts deep learning techniques that directly operate on point cloud are being developed. This paper contains a survey of the recent state-of-the-art deep learning techniques that mainly focused on point cloud data. We first briefly discussed the major challenges faced when using deep learning directly on point cloud, we also briefly discussed earlier approaches which overcome the challenges by preprocessing the point cloud into a structured grid. We then give the review of the various state-of-the-art deep learning approaches that directly process point cloud in its unstructured form. We introduced the popular 3D point cloud benchmark datasets. And we also further discussed the application of deep learning in popular 3D vision tasks including classification, segmentation and detection.
翻訳日:2023-01-10 12:36:53 公開日:2020-01-17
# ディープニューラルネットワークを用いた楕円偏微分方程式の導出自由解法

A Derivative-Free Method for Solving Elliptic Partial Differential Equations with Deep Neural Networks ( http://arxiv.org/abs/2001.06145v1 )

ライセンス: Link先を確認
Jihun Han, Mihai Nica, Adam R Stinchcombe(参考訳) 楕円型偏微分方程式のクラスを解くためのディープニューラルネットワークに基づく手法を提案する。 フェインマン・カックの公式の精神におけるPDEの確率的表現の指導の下で訓練されたディープニューラルネットワークを用いてPDEの解を近似する。 この解は、ブラウン運動によって駆動されるマルティンゲール過程の期待によって与えられる。 brownian walkersがドメインを探索するにつれて、ディープニューラルネットワークは強化学習の形式で反復的にトレーニングされる。 本手法は,学習損失を計算するために,入力ニューロンに対するニューラルネットワークの導関数の明示的な計算を必要としないため,「微分自由損失法」である。 本手法の利点は, コーナー特異性問題, インターフェース問題, および遊走性集団モデルへの応用など, 一連のテスト問題で示される。

We introduce a deep neural network based method for solving a class of elliptic partial differential equations. We approximate the solution of the PDE with a deep neural network which is trained under the guidance of a probabilistic representation of the PDE in the spirit of the Feynman-Kac formula. The solution is given by an expectation of a martingale process driven by a Brownian motion. As Brownian walkers explore the domain, the deep neural network is iteratively trained using a form of reinforcement learning. Our method is a 'Derivative-Free Loss Method' since it does not require the explicit calculation of the derivatives of the neural network with respect to the input neurons in order to compute the training loss. The advantages of our method are showcased in a series of test problems: a corner singularity problem, an interface problem, and an application to a chemotaxis population model.
翻訳日:2023-01-10 10:09:33 公開日:2020-01-17
# 教師付き機械学習による同期モータのデータ駆動永久磁石温度推定

Data-Driven Permanent Magnet Temperature Estimation in Synchronous Motors with Supervised Machine Learning ( http://arxiv.org/abs/2001.06246v1 )

ライセンス: Link先を確認
Wilhelm Kirchg\"assner, Oliver Wallscheid, Joachim B\"ocker(参考訳) 自動車用永久磁石同期モータ(pmsms)の磁石温度の監視は、信号注入やセンサベースの手法が商用環境では実現不可能であることが、数十年間課題となっている。 過熱によりモータの劣化が激しくなり、機械の制御戦略とその設計に高い懸念が生じる。 正確な温度推定の欠如は、より少ないデバイス利用とより高い材料コストをもたらす。 本研究では, 機械学習(ML)モデルを用いて, 潜時高磁力温度分布の予測のための推定精度を実験的に評価する。 選択されたアルゴリズムの範囲は、通常の重み付き最小二乗法、サポートベクタ回帰、$k$-nearestの隣人、ランダム化された木、ニューラルネットワークでできる限り多様なアプローチをカバーする。 テストベンチデータを利用可能にすることで、MLアプローチは、熱力学理論に基づいて構築された古典的熱モデルの推定性能を満足するだけでなく、全ての種類のモデルが大きなデータセットや十分なモデリング能力の効率的な利用を施すことが示される。 特に線形回帰と、最適化されたハイパーパラメータを持つ単純なフィードフォワードニューラルネットワークは、低から中程度のモデルサイズで強い予測品質を示す。

Monitoring the magnet temperature in permanent magnet synchronous motors (PMSMs) for automotive applications is a challenging task for several decades now, as signal injection or sensor-based methods still prove unfeasible in a commercial context. Overheating results in severe motor deterioration and is thus of high concern for the machine's control strategy and its design. Lack of precise temperature estimations leads to lesser device utilization and higher material cost. In this work, several machine learning (ML) models are empirically evaluated on their estimation accuracy for the task of predicting latent high-dynamic magnet temperature profiles. The range of selected algorithms covers as diverse approaches as possible with ordinary and weighted least squares, support vector regression, $k$-nearest neighbors, randomized trees and neural networks. Having test bench data available, it is shown that ML approaches relying merely on collected data meet the estimation performance of classical thermal models built on thermodynamic theory, yet not all kinds of models render efficient use of large datasets or sufficient modeling capacities. Especially linear regression and simple feed-forward neural networks with optimized hyperparameters mark strong predictive quality at low to moderate model sizes.
翻訳日:2023-01-10 10:09:03 公開日:2020-01-17
# 機械学習アルゴリズムによるサイバー攻撃検出

Cyber Attack Detection thanks to Machine Learning Algorithms ( http://arxiv.org/abs/2001.06309v1 )

ライセンス: Link先を確認
Antoine Delplace, Sheryl Hermoso and Kristofer Anandita(参考訳) サイバーセキュリティ攻撃は、ここ数年、頻度と洗練度の両方で増加している。 この高度化と複雑さの増大は、防衛戦略におけるさらなる進歩と継続的な革新を呼び起こす。 従来の侵入検知とディープパケット検査の方法は、現在でも広く使われ、推奨されているが、セキュリティ上の脅威を増大させる要求を満たすには不十分である。 コンピューティングパワーの増大とコストの低下に伴い、機械学習は、マルウェア、ボットネット、その他の攻撃から防御するための代替の方法または追加のメカニズムと見なされる。 本稿では、ネットワーク内の悪意のあるトラフィックを分類する能力を調べることによって、機械学習を実現可能なソリューションとして検討する。 まず、初期netflowデータセットから22の抽出された特徴を、強いデータ解析を行う。 これらすべての機能は、機能選択プロセスを通じて互いに比較される。 そこで本研究では,共通ボットネットを含むNetFlowデータセットに対して,5種類の機械学習アルゴリズムを解析する。 ランダムフォレスト分類器は、13のシナリオのうち8シナリオでボットネットの95%以上、最も難しいデータセットで55%以上を検出することに成功している。 最後に、特にブートストラップ技術によって結果を改善し、一般化するための洞察を与える。

Cybersecurity attacks are growing both in frequency and sophistication over the years. This increasing sophistication and complexity call for more advancement and continuous innovation in defensive strategies. Traditional methods of intrusion detection and deep packet inspection, while still largely used and recommended, are no longer sufficient to meet the demands of growing security threats. As computing power increases and cost drops, Machine Learning is seen as an alternative method or an additional mechanism to defend against malwares, botnets, and other attacks. This paper explores Machine Learning as a viable solution by examining its capabilities to classify malicious traffic in a network. First, a strong data analysis is performed resulting in 22 extracted features from the initial Netflow datasets. All these features are then compared with one another through a feature selection process. Then, our approach analyzes five different machine learning algorithms against NetFlow dataset containing common botnets. The Random Forest Classifier succeeds in detecting more than 95% of the botnets in 8 out of 13 scenarios and more than 55% in the most difficult datasets. Finally, insight is given to improve and generalize the results, especially through a bootstrapping technique.
翻訳日:2023-01-10 10:08:35 公開日:2020-01-17
# 活性化関数の近似

Approximating Activation Functions ( http://arxiv.org/abs/2001.06370v1 )

ライセンス: Link先を確認
Nicholas Gerard Timmons, Andrew Rice(参考訳) ReLUはニューラルネットワークにおけるアクティベーション関数のデフォルト選択として広く見なされている。 しかし、より複雑な関数を必要とする場合もある。 特に、リカレントニューラルネットワーク(LSTMなど)は双曲的接点関数とシグモイド関数の両方を広範囲に利用している。 これらの関数は計算にコストがかかる。 関数近似法を用いてこれらの関数の置き換えを行い,3種類のネットワーク構成を用いて実験的に評価した。 CPU上でのトレーニング時間を10%から37%改善する安全な近似が得られます。 これらの近似は検討した全てのケースに適しており、これらのアクティベーション関数を用いた全てのネットワークに適切な置き換えであると信じている。 また,入力領域に制限がある場合のみ適用可能な範囲近似も開発した。 我々の範囲の近似は、ネットワークトレーニング時間で20%から53%の性能向上をもたらす。 我々の関数はまた、Theanoで使われるアドホック近似とWord2Vecの実装とを一致または大幅に改善します。

ReLU is widely seen as the default choice for activation functions in neural networks. However, there are cases where more complicated functions are required. In particular, recurrent neural networks (such as LSTMs) make extensive use of both hyperbolic tangent and sigmoid functions. These functions are expensive to compute. We used function approximation techniques to develop replacements for these functions and evaluated them empirically on three popular network configurations. We find safe approximations that yield a 10% to 37% improvement in training times on the CPU. These approximations were suitable for all cases we considered and we believe are appropriate replacements for all networks using these activation functions. We also develop ranged approximations which only apply in some cases due to restrictions on their input domain. Our ranged approximations yield a performance improvement of 20% to 53% in network training time. Our functions also match or considerably out perform the ad-hoc approximations used in Theano and the implementation of Word2Vec.
翻訳日:2023-01-10 10:08:17 公開日:2020-01-17
# 運動量による勾配降下 ---加速するか、超加速するか?

Gradient descent with momentum --- to accelerate or to super-accelerate? ( http://arxiv.org/abs/2001.06472v1 )

ライセンス: Link先を確認
Goran Nakerst, John Brennan, Masudul Haque(参考訳) 機械学習における損失関数最小化手法である「運動」を用いた勾配降下について検討する。 この方法は「ネステロフ加速度」でよく用いられ、パラメータ空間内の現在の位置ではなく1ステップ後の推定位置で勾配が評価される。 本研究では,1歩先ではなく数歩先にある推定位置の勾配を用いることで,この「加速度」を拡張することでアルゴリズムを改善することができることを示す。 この'super-acceleration'アルゴリズムでどこまで前進するかは、新しいハイパーパラメータによって決定されます。 1パラメータ二次損失関数を考えると、超加速の最適値は正確に計算され、解析的に推定できる。 モーメントアルゴリズムの高速化は、この理想化された問題だけでなく、いくつかの合成損失ランドスケープや、ニューラルネットワークを用いたMNIST分類タスクにも有用であることを示す。 超加速はrmspropやadamのような適応アルゴリズムに組み込むのも容易であり、これらのアルゴリズムを改善することが示されている。

We consider gradient descent with `momentum', a widely used method for loss function minimization in machine learning. This method is often used with `Nesterov acceleration', meaning that the gradient is evaluated not at the current position in parameter space, but at the estimated position after one step. In this work, we show that the algorithm can be improved by extending this `acceleration' --- by using the gradient at an estimated position several steps ahead rather than just one step ahead. How far one looks ahead in this `super-acceleration' algorithm is determined by a new hyperparameter. Considering a one-parameter quadratic loss function, the optimal value of the super-acceleration can be exactly calculated and analytically estimated. We show explicitly that super-accelerating the momentum algorithm is beneficial, not only for this idealized problem, but also for several synthetic loss landscapes and for the MNIST classification task with neural networks. Super-acceleration is also easy to incorporate into adaptive algorithms like RMSProp or Adam, and is shown to improve these algorithms.
翻訳日:2023-01-10 10:07:38 公開日:2020-01-17
# trust in automl: 自動機械学習システムにおける信頼確立のための情報ニーズの探求

Trust in AutoML: Exploring Information Needs for Establishing Trust in Automated Machine Learning Systems ( http://arxiv.org/abs/2001.06509v1 )

ライセンス: Link先を確認
Jaimie Drozdal, Justin Weisz, Dakuo Wang, Gaurav Dass, Bingsheng Yao, Changruo Zhao, Michael Muller, Lin Ju, Hui Su(参考訳) データサイエンスの比較的新しい領域、Automated Machine Learning (AutoML)の信頼について検討する。 AutoMLでは、機能の自動エンジニアリング、モデルの選択、ハイパーパラメータの最適化による機械学習モデルの生成と最適化にAIメソッドが使用されている。 本稿では,AutoMLが生み出すモデルに対するデータ科学者の信頼にどのような影響を及ぼすかを理解する。 私たちは、自動化された方法で生成されたモデルをデプロイする意思として、信頼を運用します。 我々は,AutoMLシステムへの信頼を確立するために,データサイエンティストの情報ニーズを理解するために,適性インタビュー,制御実験,カードソートタスクの3つの研究結果について報告する。 automlツールの透明性機能を含むことで、ツールのユーザ信頼と理解性が向上する。提案されているすべての機能のうち、モデルパフォーマンスメトリクスと視覚化は、automlツールとの信頼を確立する上で、データサイエンティストにとって最も重要な情報である。

We explore trust in a relatively new area of data science: Automated Machine Learning (AutoML). In AutoML, AI methods are used to generate and optimize machine learning models by automatically engineering features, selecting models, and optimizing hyperparameters. In this paper, we seek to understand what kinds of information influence data scientists' trust in the models produced by AutoML? We operationalize trust as a willingness to deploy a model produced using automated methods. We report results from three studies -- qualitative interviews, a controlled experiment, and a card-sorting task -- to understand the information needs of data scientists for establishing trust in AutoML systems. We find that including transparency features in an AutoML tool increased user trust and understandability in the tool; and out of all proposed features, model performance metrics and visualizations are the most important information to data scientists when establishing their trust with an AutoML tool.
翻訳日:2023-01-10 10:07:06 公開日:2020-01-17
# 協調型分類器の層としてのDNN

DNNs as Layers of Cooperating Classifiers ( http://arxiv.org/abs/2001.06178v1 )

ライセンス: Link先を確認
Marelie H. Davel, Marthinus W. Theunissen, Arnold M. Pretorius, Etienne Barnard(参考訳) ディープニューラルネットワーク(DNN)の一般的な状況における一般化能力を記述し予測できる堅牢な理論的枠組みは、いまだ解明されていない。 古典的な試みは、サブコンポーネント間のコラボレーションの影響についてほとんど調査することなく、コンパクトさとキャパシティのグローバルな尺度に大きく依存する複雑性メトリクスを生み出した。 完全接続されたfeedforwardネットワークにおける隠れノードの活性化パターンに興味深い規則性を示す。 これらのパターンの起源を辿ることで、そのようなネットワークを2つの情報処理システム、すなわち1つの連続性と1つの離散性の組み合わせと見なすことができることを示す。 これら2つのシステムは,勾配に基づく最適化プロセスから自然に発生し,個別かつ協調的に2つのシステムの分類能力を示す。 このdnn分類の観点は、トレーニングデータの異なるサブセットを個別の分類器のトレーニングに使用し、それらの分類器を結合して分類タスクを実行し、それらの一貫性が正確な分類に不可欠である一般化を考えるための新しい方法を提供する。

A robust theoretical framework that can describe and predict the generalization ability of deep neural networks (DNNs) in general circumstances remains elusive. Classical attempts have produced complexity metrics that rely heavily on global measures of compactness and capacity with little investigation into the effects of sub-component collaboration. We demonstrate intriguing regularities in the activation patterns of the hidden nodes within fully-connected feedforward networks. By tracing the origin of these patterns, we show how such networks can be viewed as the combination of two information processing systems: one continuous and one discrete. We describe how these two systems arise naturally from the gradient-based optimization process, and demonstrate the classification ability of the two systems, individually and in collaboration. This perspective on DNN classification offers a novel way to think about generalization, in which different subsets of the training data are used to train distinct classifiers; those classifiers are then combined to perform the classification task, and their consistency is crucial for accurate classification.
翻訳日:2023-01-10 10:00:36 公開日:2020-01-17
# 直接密度比推定に基づく時系列データにおける変化点検出の一般化

Generalization of Change-Point Detection in Time Series Data Based on Direct Density Ratio Estimation ( http://arxiv.org/abs/2001.06386v1 )

ライセンス: Link先を確認
Mikhail Hushchyn and Andrey Ustyuzhanin(参考訳) 変化点検出の目標は、時系列分布の変化を発見することである。 変化点検出の技術的アプローチの1つは、直接密度比の推定に基づいている。 本稿では,既存のアルゴリズムを様々な二項分類と回帰モデルを用いて一般化する方法を示す。 特に,この目的のために,決定木やニューラルネットワーク上での勾配の増大が有効であることを示す。 アルゴリズムはいくつかの合成および実世界のデータセットでテストされる。 その結果,提案手法は従来のRuLSIFアルゴリズムよりも優れていた。 また,提案手法が既存手法よりも有利な場合についても検討する。

The goal of the change-point detection is to discover changes of time series distribution. One of the state of the art approaches of the change-point detection are based on direct density ratio estimation. In this work we show how existing algorithms can be generalized using various binary classification and regression models. In particular, we show that the Gradient Boosting over Decision Trees and Neural Networks can be used for this purpose. The algorithms are tested on several synthetic and real-world datasets. The results show that the proposed methods outperform classical RuLSIF algorithm. Discussion of cases where the proposed algorithms have advantages over existing methods are also provided.
翻訳日:2023-01-10 09:59:40 公開日:2020-01-17
# アソシエーションルールテキストマイニングのための人口ベースメタヒューリスティックス

Population-based metaheuristics for Association Rule Text Mining ( http://arxiv.org/abs/2001.06517v1 )

ライセンス: Link先を確認
Iztok Fister Jr., Suash Deb, Iztok Fister(参考訳) 現在、インターネット上のデータの大部分は、ウェブサイトや電子メールのような構造化されていない形式で保持されている。 これらのデータを分析することの重要性は日々増え続けている。 構造化データにおけるデータマイニングと同様に、構造化データを扱うテキストマイニング手法も研究コミュニティから注目を集めている。 本論文は,テキストマイニングにおける連想問題を扱う。 そこで, pso-artm法を提案し, テキストの前処理, 集団型メタヒューリスティックスを用いた規則テキストマイニング, テキスト後処理の3段階からなる。 この手法は、プロトライアスロン選手のブログやウェブサイトに投稿されたニュースから得られるトランザクションデータベースに適用された。 その結果,提案手法はアソシエーション・ルール・テキスト・マイニングに適しており,今後の開発に有望な方法であることがわかった。

Nowadays, the majority of data on the Internet is held in an unstructured format, like websites and e-mails. The importance of analyzing these data has been growing day by day. Similar to data mining on structured data, text mining methods for handling unstructured data have also received increasing attention from the research community. The paper deals with the problem of Association Rule Text Mining. To solve the problem, the PSO-ARTM method was proposed, that consists of three steps: Text preprocessing, Association Rule Text Mining using population-based metaheuristics, and text postprocessing. The method was applied to a transaction database obtained from professional triathlon athletes' blogs and news posted on their websites. The obtained results reveal that the proposed method is suitable for Association Rule Text Mining and, therefore, offers a promising way for further development.
翻訳日:2023-01-10 09:58:53 公開日:2020-01-17
# 多目的正規形ゲームにおける効用に基づく平衡解析

A utility-based analysis of equilibria in multi-objective normal form games ( http://arxiv.org/abs/2001.08177v1 )

ライセンス: Link先を確認
Roxana R\u{a}dulescu, Patrick Mannion, Yijie Zhang, Diederik M. Roijers, and Ann Now\'e(参考訳) 多目的マルチエージェントシステム(MOMAS)では、エージェントは競合する目的関数間のトレードオフを明示的に考慮する。 MOMASにおける競合する目的間の妥協は、エージェントのユーティリティ関数が彼らの支払ベクトルをスカラーなユーティリティ値にマッピングするシステムのユーザに対して、これらの妥協が持つユーティリティに基づいて分析されるべきである。 このユーティリティベースのアプローチは、MOMAS内のエージェントに対する2つの異なる最適化基準(予測スカラー化リターン(ESR)とスカラー化期待リターン(SER))を自然に導く。 本稿では,多目的正規形ゲーム(monfgs)の枠組みを用いて,これら2つの基準の違いについて考察する。 非線型効用関数を用いる場合、最適化基準(ESRまたはSER)の選択はMONFGにおける平衡の集合を根本的に変更できることを示す。

In multi-objective multi-agent systems (MOMAS), agents explicitly consider the possible tradeoffs between conflicting objective functions. We argue that compromises between competing objectives in MOMAS should be analysed on the basis of the utility that these compromises have for the users of a system, where an agent's utility function maps their payoff vectors to scalar utility values. This utility-based approach naturally leads to two different optimisation criteria for agents in a MOMAS: expected scalarised returns (ESR) and scalarised expected returns (SER). In this article, we explore the differences between these two criteria using the framework of multi-objective normal form games (MONFGs). We demonstrate that the choice of optimisation criterion (ESR or SER) can radically alter the set of equilibria in a MONFG when non-linear utility functions are used.
翻訳日:2023-01-10 09:58:22 公開日:2020-01-17
# 安定なディープダイナミクスモデルの学習

Learning Stable Deep Dynamics Models ( http://arxiv.org/abs/2001.06116v1 )

ライセンス: Link先を確認
Gaurav Manek, J. Zico Kolter(参考訳) ディープ・ネットワークは一般的に動的システムのモデル化に使われ、システムの状態が時間とともにどのように進化するかを予測する。 これらのシステムの予測力にもかかわらず、学習システムの基本的な性質について公式な主張をするのは難しい。 本稿では,状態空間全体にわたって安定であることが保証される力学系を学習するためのアプローチを提案する。 このアプローチは、学習されたリアプノフ関数の下でダイナミクスの非拡張性を保証するダイナミクスモデルとリアプノフ関数を共同で学習することで機能する。 このような学習システムは、単純な力学系をモデル化することができ、ビデオテクスチャなどの複雑なダイナミクスを、完全なエンドツーエンドで学習するために追加の深層生成モデルと組み合わせることができることを示す。

Deep networks are commonly used to model dynamical systems, predicting how the state of a system will evolve over time (either autonomously or in response to control inputs). Despite the predictive power of these systems, it has been difficult to make formal claims about the basic properties of the learned systems. In this paper, we propose an approach for learning dynamical systems that are guaranteed to be stable over the entire state space. The approach works by jointly learning a dynamics model and Lyapunov function that guarantees non-expansiveness of the dynamics under the learned Lyapunov function. We show that such learning systems are able to model simple dynamical systems and can be combined with additional deep generative models to learn complex dynamics, such as video textures, in a fully end-to-end fashion.
翻訳日:2023-01-10 09:58:06 公開日:2020-01-17
# 視覚対話のためのモダリティバランスモデル

Modality-Balanced Models for Visual Dialogue ( http://arxiv.org/abs/2001.06354v1 )

ライセンス: Link先を確認
Hyounghun Kim, Hao Tan, Mohit Bansal(参考訳) ビジュアルダイアログタスクは、画像と会話のコンテキスト情報の両方を利用し、対話に対する次の応答を生成するモデルを必要とする。 しかし,手動による分析により,文脈履歴へのアクセスを必要とせずに画像を見るだけで,多数の会話的質問が解答できることがわかった。 このことから,従来のジョイントモダリティモデル(歴史と画像)は対話履歴を記憶し易く(例えば,コンテキスト情報から特定のキーワードやパターンを抽出),画像のみモデルの方がより一般化可能(履歴からキーワードを記憶・抽出できないため)であり,複数の正解を許容する一次正規化ディスカウント累積ゲイン(ndcg)タスクメトリックにおいて大幅に優れた性能を示す。 したがって、この観察により、画像のみのモデルと画像履歴のジョイントモデルという2つのモデルを明示的に維持し、それらの補完能力をよりバランスの取れたマルチモーダルモデルに組み合わせることができる。 共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合により,この2つのモデルを統合するための複数の手法を提案する。 経験的に、私たちのモデルは、visual dialog challenge 2019(ndcgで3位、メトリクスで高いバランス)で強力な結果を達成し、ほとんどのメトリクスでvisual dialog challenge 2018の勝者を大きく上回っています。

The Visual Dialog task requires a model to exploit both image and conversational context information to generate the next response to the dialogue. However, via manual analysis, we find that a large number of conversational questions can be answered by only looking at the image without any access to the context history, while others still need the conversation context to predict the correct answers. We demonstrate that due to this reason, previous joint-modality (history and image) models over-rely on and are more prone to memorizing the dialogue history (e.g., by extracting certain keywords or patterns in the context information), whereas image-only models are more generalizable (because they cannot memorize or extract keywords from history) and perform substantially better at the primary normalized discounted cumulative gain (NDCG) task metric which allows multiple correct answers. Hence, this observation encourages us to explicitly maintain two models, i.e., an image-only model and an image-history joint model, and combine their complementary abilities for a more balanced multimodal model. We present multiple methods for this integration of the two models, via ensemble and consensus dropout fusion with shared parameters. Empirically, our models achieve strong results on the Visual Dialog challenge 2019 (rank 3 on NDCG and high balance across metrics), and substantially outperform the winner of the Visual Dialog challenge 2018 on most metrics.
翻訳日:2023-01-10 09:51:49 公開日:2020-01-17
# FedVision:フェデレーション学習を利用したオンラインビジュアルオブジェクト検出プラットフォーム

FedVision: An Online Visual Object Detection Platform Powered by Federated Learning ( http://arxiv.org/abs/2001.06202v1 )

ライセンス: Link先を確認
Yang Liu, Anbu Huang, Yun Luo, He Huang, Youzhi Liu, Yuanyuan Chen, Lican Feng, Tianjian Chen, Han Yu, Qiang Yang(参考訳) ビジュアルオブジェクト検出(Visual Object Detection)は、コンピュータビジョンに基づく人工知能(AI)技術であり、多くの実用的応用(火災監視など)がある。 しかしながら、プライバシの懸念とビデオデータ転送コストの高まりから、現在のアプローチに従って集中的に格納された大規模トレーニングデータセット上にオブジェクト検出モデルを構築することは極めて困難である。 フェデレートラーニング(FL)はこの課題を解決するための有望なアプローチである。 それでも現時点では、フェデレーション学習の専門家でないコンピュータビジョンアプリケーション開発者が、この技術を便利に活用し、システムに適用するための簡単なツールが欠けている。 本稿では,フェデレーションを利用したコンピュータビジョンアプリケーションの開発を支援する機械学習エンジニアリングプラットフォームであるFedVisionについて報告する。 このプラットホームは、WeBankとExtreme Visionのコラボレーションにより、顧客がスマートシティアプリケーションでコンピュータビジョンベースの安全監視ソリューションを開発するのを助ける。 4ヶ月の運用期間を経て、大きな効率改善とコスト削減を実現し、3つの大企業顧客に対して機密データを送信する必要がなくなった。 私たちの知る限りでは、コンピュータビジョンベースのタスクにおけるFLの実際の応用としてはこれが初めてです。

Visual object detection is a computer vision-based artificial intelligence (AI) technique which has many practical applications (e.g., fire hazard monitoring). However, due to privacy concerns and the high cost of transmitting video data, it is highly challenging to build object detection models on centrally stored large training datasets following the current approach. Federated learning (FL) is a promising approach to resolve this challenge. Nevertheless, there currently lacks an easy to use tool to enable computer vision application developers who are not experts in federated learning to conveniently leverage this technology and apply it in their systems. In this paper, we report FedVision - a machine learning engineering platform to support the development of federated learning powered computer vision applications. The platform has been deployed through a collaboration between WeBank and Extreme Vision to help customers develop computer vision-based safety monitoring solutions in smart city applications. Over four months of usage, it has achieved significant efficiency improvement and cost reduction while removing the need to transmit sensitive data for three major corporate customers. To the best of our knowledge, this is the first real application of FL in computer vision-based tasks.
翻訳日:2023-01-10 09:51:08 公開日:2020-01-17
# 広帯域畳み込みニューラルネットワークを用いた効率的な顔特徴学習

Efficient Facial Feature Learning with Wide Ensemble-based Convolutional Neural Networks ( http://arxiv.org/abs/2001.06338v1 )

ライセンス: Link先を確認
Henrique Siqueira, Sven Magg and Stefan Wermter(参考訳) 伝統的に独立に訓練されたde-correlatedモデルで構築されたアンサンブル法は、残余の一般化誤差を減らす効率的な方法であることが証明されており、実世界のアプリケーションに対して堅牢で正確な方法をもたらす。 しかし、ディープラーニングの文脈では、深層ネットワークのアンサンブルの訓練はコストがかかり、非効率な高い冗長性を生成する。 本稿では,畳み込みネットワークに基づく共有表現(esr)を用いたアンサンブルの実験を行い,そのデータ処理効率と顔表情の大規模データセットへの拡張性を示す。 本研究では,ESRの分岐レベルを多様性や一般化力を損なうことなく変化させることで,冗長性と計算負荷を劇的に低減できることを示す。 大規模なデータセットの実験では、ESRはAffectNetとFER+データセットの残余の一般化誤差を低減し、人間レベルのパフォーマンスに達し、感情と影響概念を用いて野生の表情認識における最先端の手法より優れていることが示唆されている。

Ensemble methods, traditionally built with independently trained de-correlated models, have proven to be efficient methods for reducing the remaining residual generalization error, which results in robust and accurate methods for real-world applications. In the context of deep learning, however, training an ensemble of deep networks is costly and generates high redundancy which is inefficient. In this paper, we present experiments on Ensembles with Shared Representations (ESRs) based on convolutional networks to demonstrate, quantitatively and qualitatively, their data processing efficiency and scalability to large-scale datasets of facial expressions. We show that redundancy and computational load can be dramatically reduced by varying the branching level of the ESR without loss of diversity and generalization power, which are both important for ensemble performance. Experiments on large-scale datasets suggest that ESRs reduce the remaining residual generalization error on the AffectNet and FER+ datasets, reach human-level performance, and outperform state-of-the-art methods on facial expression recognition in the wild using emotion and affect concepts.
翻訳日:2023-01-10 09:50:32 公開日:2020-01-17
# 逐次映像データの構成構造を探索するカット型グラフ学習ネットワーク

Cut-Based Graph Learning Networks to Discover Compositional Structure of Sequential Video Data ( http://arxiv.org/abs/2001.07613v1 )

ライセンス: Link先を確認
Kyoung-Woon On, Eun-Sol Kim, Yu-Jung Heo and Byoung-Tak Zhang(参考訳) リカレントニューラルネットワーク(RNN)のような従来の逐次学習手法は、連続的な入力間の相互作用、すなわち1次マルコフ依存に焦点を当てている。 しかし、ビデオに見られるシーケンシャルなデータのほとんどは、可変長のセマンティックフローとその構成を暗示する複雑な依存関係構造を持ち、従来の方法では捉えにくい。 本稿では,ビデオの複雑な構造を発見することによって,映像データを学習するためのカットベースグラフ学習ネットワーク(CB-GLN)を提案する。 CB-GLNはビデオデータをグラフとして表現し、ビデオのフレームとそれらの依存関係に対応するノードとエッジを持つ。 CB-GLNは、グラフカットとメッセージパッシングフレームワークを備えたパラメータ化されたカーネルを介して、マルチレベルグラフ形式のデータの構成上の依存関係を見つける。 ビデオテーマ分類(Youtube-8Mデータセット)とビデオ質問・回答(TVQAデータセット)の2つの課題について,提案手法の評価を行った。 実験の結果,本モデルは映像データの意味的構成構造を効率的に学習できることがわかった。 さらに,本モデルは,他のベースライン手法と比較して高い性能を達成する。

Conventional sequential learning methods such as Recurrent Neural Networks (RNNs) focus on interactions between consecutive inputs, i.e. first-order Markovian dependency. However, most of sequential data, as seen with videos, have complex dependency structures that imply variable-length semantic flows and their compositions, and those are hard to be captured by conventional methods. Here, we propose Cut-Based Graph Learning Networks (CB-GLNs) for learning video data by discovering these complex structures of the video. The CB-GLNs represent video data as a graph, with nodes and edges corresponding to frames of the video and their dependencies respectively. The CB-GLNs find compositional dependencies of the data in multilevel graph forms via a parameterized kernel with graph-cut and a message passing framework. We evaluate the proposed method on the two different tasks for video understanding: Video theme classification (Youtube-8M dataset) and Video Question and Answering (TVQA dataset). The experimental results show that our model efficiently learns the semantic compositional structure of video data. Furthermore, our model achieves the highest performance in comparison to other baseline methods.
翻訳日:2023-01-10 09:50:11 公開日:2020-01-17
# Plato Dialogue System: 柔軟な会話型AI研究プラットフォーム

Plato Dialogue System: A Flexible Conversational AI Research Platform ( http://arxiv.org/abs/2001.06463v1 )

ライセンス: Link先を確認
Alexandros Papangelis, Mahdi Namazifar, Chandra Khatri, Yi-Chia Wang, Piero Molino, Gokhan Tur(参考訳) 音声対話システムと会話型aiの分野が成長するにつれて、開発プロセスを迅速化し、分野への参入障壁を低くし、新しいアイデアのための共通のテストベッドを提供するために、実装の詳細を抽象化するツールや環境が必要となる。 本稿では,pythonで記述されたフレキシブルな会話型aiプラットフォームであるplatoを提案する。標準アーキテクチャから,協調学習されたコンポーネント,単一または複数パーティインタラクション,対話型エージェントコンポーネントのオフラインまたはオンライントレーニングを備えたアーキテクチャまで,あらゆる種類の会話型エージェントアーキテクチャをサポートする。 Platoは理解しやすく、デバッグしやすいように設計されており、各コンポーネントをトレーニングする基盤となる学習フレームワークに依存しない。

As the field of Spoken Dialogue Systems and Conversational AI grows, so does the need for tools and environments that abstract away implementation details in order to expedite the development process, lower the barrier of entry to the field, and offer a common test-bed for new ideas. In this paper, we present Plato, a flexible Conversational AI platform written in Python that supports any kind of conversational agent architecture, from standard architectures to architectures with jointly-trained components, single- or multi-party interactions, and offline or online training of any conversational agent component. Plato has been designed to be easy to understand and debug and is agnostic to the underlying learning frameworks that train each component.
翻訳日:2023-01-10 09:49:32 公開日:2020-01-17
# 半教師付き分類のためのグラフ推論学習

Graph Inference Learning for Semi-supervised Classification ( http://arxiv.org/abs/2001.06137v1 )

ライセンス: Link先を確認
Chunyan Xu, Zhen Cui, Xiaobin Hong, Tong Zhang, Jian Yang, and Wei Liu(参考訳) 本研究では、ラベル付きノードのカテゴリをグラフ構造だけでなくラベル付きノードから推定するグラフデータの半教師付き分類に対処する。 最近の研究は、従来の教師付き方法で高度なグラフ畳み込みによってこの問題を解決することが多いが、ラベル付きデータが不足すると性能が著しく低下する可能性がある。 この目的のために,グラフトポロジに基づくノードラベルの推論を学習することにより,半教師付きノード分類の性能を高めるグラフ推論学習(GIL)フレームワークを提案する。 2つのノード間の接続をブリッジするために,ノード属性,ノード間パス,局所的なトポロジ構造をカプセル化して構造関係を正式に定義する。 推論プロセスの学習には,学習したグラフ推論機能がテストノードに適応するように,トレーニングノードから検証ノードへの構造関係のメタ最適化を導入する。 Cora, Citeseer, Pubmed, NELLを含む4つのベンチマークデータセットの総合評価は, 半教師付きノード分類タスクにおける最先端手法と比較して, 提案したGILの優位性を示している。

In this work, we address semi-supervised classification of graph data, where the categories of those unlabeled nodes are inferred from labeled nodes as well as graph structures. Recent works often solve this problem via advanced graph convolution in a conventionally supervised manner, but the performance could degrade significantly when labeled data is scarce. To this end, we propose a Graph Inference Learning (GIL) framework to boost the performance of semi-supervised node classification by learning the inference of node labels on graph topology. To bridge the connection between two nodes, we formally define a structure relation by encapsulating node attributes, between-node paths, and local topological structures together, which can make the inference conveniently deduced from one node to another node. For learning the inference process, we further introduce meta-optimization on structure relations from training nodes to validation nodes, such that the learnt graph inference capability can be better self-adapted to testing nodes. Comprehensive evaluations on four benchmark datasets (including Cora, Citeseer, Pubmed, and NELL) demonstrate the superiority of our proposed GIL when compared against state-of-the-art methods on the semi-supervised node classification task.
翻訳日:2023-01-10 09:49:08 公開日:2020-01-17